對(duì)算力芯片來(lái)說(shuō),最根本的追求就是計(jì)算效率,因此優(yōu)良的能效比一直是提升計(jì)算能力的關(guān)鍵。當(dāng)前,將內(nèi)存和計(jì)算更緊密地結(jié)合在一起的存算一體方案,正獲得越來(lái)越多的關(guān)注,并逐步由研究走入商用場(chǎng)景中。
存算一體架構(gòu)優(yōu)勢(shì)
在傳統(tǒng)的馮·諾依曼架構(gòu)中,由于計(jì)算與存儲(chǔ)分離,計(jì)算過(guò)程中需要不斷通過(guò)總線交換數(shù)據(jù),將數(shù)據(jù)從內(nèi)存讀進(jìn)CPU,計(jì)算完成后再寫(xiě)回存儲(chǔ)。而隨著深度學(xué)習(xí)的發(fā)展和應(yīng)用,計(jì)算單元和存儲(chǔ)單元之間的數(shù)據(jù)移動(dòng)尤為頻繁,數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問(wèn)題成為了算力效能進(jìn)一步提升的關(guān)鍵瓶頸。從處理單元外的存儲(chǔ)器提取數(shù)據(jù),搬運(yùn)時(shí)間往往是運(yùn)算時(shí)間的成百上千倍。
特別是大算力場(chǎng)景下,存算分離帶來(lái)的計(jì)算帶寬問(wèn)題已經(jīng)成為主要瓶頸。以智能駕駛等邊緣端高并發(fā)計(jì)算場(chǎng)景來(lái)看,它們除了對(duì)算力需求高之外,對(duì)芯片的功耗和散熱也有很高的要求。而常規(guī)架構(gòu)的芯片設(shè)計(jì)中,內(nèi)存系統(tǒng)的性能提升速度已經(jīng)大幅落后于處理器的性能提升速度,有限的內(nèi)存帶寬無(wú)法保證數(shù)據(jù)高速傳輸,無(wú)法滿足高級(jí)別的計(jì)算需求。
存算一體的架構(gòu)特點(diǎn),簡(jiǎn)言之就是在存儲(chǔ)單位內(nèi)部完成部分或全部的計(jì)算。從架構(gòu)層面,它可以實(shí)現(xiàn)兩個(gè)天然優(yōu)勢(shì):由于計(jì)算和存儲(chǔ)兩個(gè)部分更近,減少了不必要的數(shù)據(jù)搬移,因此延時(shí)低、效率高。
后摩智能鴻途H30,開(kāi)啟存算一體規(guī)?;瘧?yīng)用新篇章
日前,后摩智能首款存算一體智駕芯片鴻途H30正式發(fā)布,最高物理算力256TOPS,典型功耗35W,成為國(guó)內(nèi)率先落地存算一體大算力AI芯片的公司。
后摩智能創(chuàng)始人兼CEO吳強(qiáng)在發(fā)布會(huì)上表示:“2年前,后摩智能成立,我們堅(jiān)定地選擇以存算一體的底層架構(gòu)創(chuàng)新,來(lái)實(shí)現(xiàn)AI計(jì)算效率的極致突破。存算一體架構(gòu)將存儲(chǔ)和計(jì)算功能融合,比傳統(tǒng)架構(gòu)更接近人腦的計(jì)算方式,具備遠(yuǎn)高于傳統(tǒng)方式的計(jì)算效率。隨著 GPT等大模型的出現(xiàn),存算一體芯片越來(lái)越受到行業(yè)關(guān)注,我們很高興看到更多創(chuàng)業(yè)公司加入進(jìn)來(lái),與我們一起推動(dòng)硬科技的創(chuàng)新與應(yīng)用?!?/p>
據(jù)介紹,基于鴻途H30已成功運(yùn)行常用的經(jīng)典CV網(wǎng)絡(luò)和多種自動(dòng)駕駛先進(jìn)網(wǎng)絡(luò),包括當(dāng)前業(yè)內(nèi)最受關(guān)注的BEV網(wǎng)絡(luò)模型以及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的Pointpillar網(wǎng)絡(luò)模型。以鴻途H30打造的智能駕駛解決方案已經(jīng)在合作伙伴的無(wú)人小車上完成部署,這是業(yè)界第一次基于存算一體架構(gòu)的芯片成功運(yùn)行端到端的智能駕駛技術(shù)棧。
H30芯片基于天樞架構(gòu),通過(guò)多核、多硬件線程的方式擴(kuò)展算力,實(shí)現(xiàn)了計(jì)算效率與算力靈活擴(kuò)展的均衡,AI計(jì)算可以在核內(nèi)完成端到端處理,保證通用性。在 Int8數(shù)據(jù)精度條件下,其AI核心IPU能效比15Tops/W,是傳統(tǒng)架構(gòu)芯片的7倍以上。
據(jù)陳亮介紹,鴻途H30 以存算一體創(chuàng)新架構(gòu)實(shí)現(xiàn)了六大技術(shù)突破,即大算力、全精度、低功耗、車規(guī)級(jí)、可量產(chǎn)、通用性。鴻途H30基于SRAM存儲(chǔ)介質(zhì),采用數(shù)字存算一體架構(gòu),擁有較低的訪存功耗和較高的計(jì)算密度,在Int8數(shù)據(jù)精度條件下,其AI核心IPU能效比達(dá)到15Tops/W,是傳統(tǒng)架構(gòu)芯片的7倍以上。
繼第一代 IPU(處理器架構(gòu))之后,第二代天璇架構(gòu)已經(jīng)在研發(fā)中,將采用Mesh互聯(lián)結(jié)構(gòu),可根據(jù)應(yīng)用場(chǎng)景的不同配置計(jì)算單元的數(shù)量,整體性能、效率和靈活性將進(jìn)一步提升,支持多場(chǎng)景應(yīng)用,例如成本和功耗敏感的智能終端、大模型等場(chǎng)景。第三代天璣架構(gòu)已經(jīng)開(kāi)始規(guī)劃,將為萬(wàn)物智能打造。
全棧支持,高效賦能智能駕駛
后摩智能聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁信曉旭對(duì)鴻途H30的產(chǎn)品性能與優(yōu)勢(shì)做了詳細(xì)介紹。得益于存算一體的架構(gòu)優(yōu)勢(shì),鴻途H30基于12nm工藝制程,在Int8數(shù)據(jù)精度下可以實(shí)現(xiàn)256TOPS的物理算力,所需功耗不超過(guò)35W,SoC能效比達(dá)到 7.3Tops/W,具有高計(jì)算效率、低計(jì)算延時(shí)、低工藝依賴等特點(diǎn)。
在實(shí)際性能測(cè)試中,鴻途H30基于Resnet 50模型的Benchmark,在Batch Size等于1和8的條件下分別達(dá)到了8700幀/秒和10300幀/秒的性能。
為了更好地實(shí)現(xiàn)車規(guī)級(jí)應(yīng)用,后摩智能基于鴻途H30自主研發(fā)了硬件增強(qiáng)機(jī)制和檢測(cè)機(jī)制,在提升芯片可靠性的同時(shí),進(jìn)一步保障了功能安全性。
此外,后摩智能推出了基于鴻途H30打造的智能駕駛硬件平臺(tái)力馭,該平臺(tái)CPU算力達(dá)200 Kdmips,AI算力達(dá)256Tops,支持多傳感器輸入,能夠?yàn)橹悄荞{駛提供更充沛的算力支持,進(jìn)一步提升了系統(tǒng)的可靠性。力馭平臺(tái)功耗85W,可采用更加靈活的散熱方式,實(shí)現(xiàn)了更低成本的便捷部署,有利于推動(dòng)大算力智能駕駛場(chǎng)景的普及應(yīng)用。
為了讓客戶擁有更好的產(chǎn)品使用體驗(yàn),后摩智能還基于鴻途H30芯片自主研發(fā)了一款軟件開(kāi)發(fā)工具鏈——后摩大道,支持 PyTorch、TensorFlow 、ONNX 等主流開(kāi)源框架,編程兼容 CUDA 前端語(yǔ)法,同時(shí)支持 SIMD 和 SIMT 兩種編程模型,兼顧運(yùn)行效率和開(kāi)發(fā)效率,以無(wú)侵入式的底層架構(gòu)創(chuàng)新保障了通用性的同時(shí),進(jìn)一步實(shí)現(xiàn)了鴻途H30 的高效、易用。
信曉旭透露,鴻途H30將于6月份開(kāi)始給Alpha客戶送測(cè)。同時(shí),后摩智能的第二代產(chǎn)品鴻途H50已經(jīng)在全力研發(fā)中,將于2024年推出,支持客戶2025年的量產(chǎn)車型。
專注底層創(chuàng)新,打造極致效率的計(jì)算芯片
中國(guó)電動(dòng)汽車百人會(huì)副理事長(zhǎng)兼秘書(shū)長(zhǎng)張永偉在會(huì)上表示,智能駕駛市場(chǎng)規(guī)模龐大,仍處于加速滲透的階段,為新技術(shù)和新企業(yè)提供了創(chuàng)新發(fā)展的巨大機(jī)遇。存算一體作為一種創(chuàng)新技術(shù),對(duì)工藝制程依賴度較低,是智能駕駛芯片具有前瞻性的一種選擇。
吳強(qiáng)認(rèn)為,鴻途H30的發(fā)布具有三大意義:首先,許多機(jī)構(gòu)都預(yù)測(cè)2023年將是存算一體大規(guī)模商業(yè)落地的元年,H30作為國(guó)內(nèi)首款存算一體大算力芯片,也是國(guó)內(nèi)首款存算一體量產(chǎn)的智能駕駛芯片,它的發(fā)布標(biāo)志著這個(gè)商業(yè)化元年的開(kāi)啟。
其次,汽車電動(dòng)化和智能化是國(guó)家的重點(diǎn)發(fā)展方向,行業(yè)客戶急需更多的優(yōu)質(zhì)國(guó)產(chǎn)芯片選擇。H30使用了新的技術(shù)路線,標(biāo)志著行業(yè)又增加了一個(gè)差異化的國(guó)產(chǎn)芯片選擇。
第三,在今天的國(guó)際大環(huán)境下,如何能用不依賴于先進(jìn)工藝,依然能做出大算力的高精尖的芯片,是國(guó)產(chǎn)芯片自主可控重要的探索和發(fā)展方向。H30通過(guò)本身的架構(gòu)創(chuàng)新,實(shí)現(xiàn)了對(duì)先進(jìn)工藝依賴弱的特點(diǎn),向著完全國(guó)產(chǎn)自主方向又前進(jìn)了一步。
他強(qiáng)調(diào),在人工智能技術(shù)飛速發(fā)展的今天,高效的AI計(jì)算能力成為智能駕駛普及應(yīng)用的重要基石。后摩智能以底層技術(shù)創(chuàng)新為驅(qū)動(dòng)力,采用存算一體架構(gòu)突破芯片算力和功耗的瓶頸,實(shí)現(xiàn)了芯片能效比的階躍,為快速發(fā)展的智能汽車產(chǎn)業(yè)帶來(lái)了全新的解決方案。下一個(gè)目標(biāo),希望用兩年時(shí)間把技術(shù)和產(chǎn)品做得更加扎實(shí),在乘用車和商用車智駕領(lǐng)域深耕,用差異化產(chǎn)品賦能客戶,實(shí)現(xiàn)智駕芯片大規(guī)模商用,成長(zhǎng)為國(guó)內(nèi)的頭部企業(yè)。