夢(mèng)晨 發(fā)自 凹非寺,量子位 | 公眾號(hào) QbitAI
貓頭鷹的大腦約有11.5億個(gè)神經(jīng)元、1280億個(gè)突觸。
全部塞進(jìn)一個(gè)微波爐大小的機(jī)箱——就成了世界上最大的神經(jīng)擬態(tài)系統(tǒng),英特爾Hala Point。
不過別擔(dān)心,期間沒有任何貓頭鷹受到傷害,是用的硅芯片模擬生物神經(jīng)元。
這種芯片效果如何?一系列數(shù)據(jù)說話:
執(zhí)行AI推理負(fù)載和處理優(yōu)化問題時(shí),速度比常規(guī)CPU和GPU架構(gòu)快50倍,同時(shí)能耗降低了100倍。
運(yùn)行傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)時(shí),INT8精度運(yùn)算的能效比達(dá)到了15 TOPS/W。
(英偉達(dá)尚未發(fā)貨的最新GB200 NVL72在INT8精度只有6 TOPS/W,當(dāng)前的DGX H100系統(tǒng)約為3.1 TOPS/W)
用于仿生脈沖神經(jīng)網(wǎng)絡(luò)模型時(shí),能夠以比人腦快20倍的實(shí)時(shí)速度運(yùn)行其全部11.5億個(gè)神經(jīng)元。
在運(yùn)行神經(jīng)元數(shù)量較低的情況下,速度可比人腦快200倍。
……
總之,這不是傳統(tǒng)意義上拼峰值算力的那種AI芯片,能效比高才是Hala Point系統(tǒng)最大的優(yōu)勢(shì)。
據(jù)統(tǒng)計(jì),僅訓(xùn)練GPT-3就耗電10GWh,相當(dāng)于歐洲6000人一年的用電量,而隨著AI應(yīng)用的普及,推理能耗更是難以估量。
反觀人腦,憑借860億個(gè)神經(jīng)元,每秒能完成上萬億次運(yùn)算,功耗卻不到20W。
那么,如何讓芯片模擬生物大腦的運(yùn)作方式,正是神經(jīng)擬態(tài)計(jì)算的核心理念。
來自英特爾實(shí)驗(yàn)室的Hala Point規(guī)模已接近人腦的1/80,讓這一構(gòu)想離現(xiàn)實(shí)更近了一步。
那么究竟什么是神經(jīng)擬態(tài)芯片,如何做到高能效比,最終又能用于哪些應(yīng)用?
存算一體、異步稀疏計(jì)算
先來看Hala Point系統(tǒng)具體配置:
由1152個(gè)Loihi 2處理器組成,封裝在一個(gè)六機(jī)架的數(shù)據(jù)中心機(jī)箱中。
整個(gè)系統(tǒng)支持分布在140544個(gè)神經(jīng)形態(tài)處理內(nèi)核上的多達(dá)11.5億個(gè)神經(jīng)元和1280億個(gè)突觸,最大功耗為2600瓦。
Hala Point還包括2300多個(gè)嵌入式x86處理器,用于輔助計(jì)算。
Loihi 2芯片采用Intel 4工藝制造,每個(gè)芯片有128個(gè)核心。每個(gè)芯片包含多達(dá)100萬個(gè)數(shù)字神經(jīng)元和1.2億個(gè)突觸,采用存算一體設(shè)計(jì),打破了馮諾依曼架構(gòu)的瓶頸。
Loihi 2還應(yīng)用了眾多類腦計(jì)算原理,如異步(asynchronous)、基于事件的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs),以及不斷變化的稀疏連接,以實(shí)現(xiàn)能效比和性能的數(shù)量級(jí)提升。
對(duì)于這些獨(dú)特的技術(shù),我們聯(lián)系到英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng),詢問了更多細(xì)節(jié)。
異步,是一種摒棄了傳統(tǒng)芯片的全局時(shí)鐘,采用事件驅(qū)動(dòng)的架構(gòu)。
宋繼強(qiáng)借用人類大腦分區(qū)來解釋,相當(dāng)于一個(gè)人的嗅覺、視覺、觸覺等可以同時(shí)工作,但并不需要同步。
如此一來Hala Point系統(tǒng)工作時(shí)是稀疏計(jì)算,又有點(diǎn)像現(xiàn)在主流大模型都會(huì)用的MoE專家混合架構(gòu)。
所以Hala Point系統(tǒng)追求的不是極致性能,它更大的價(jià)值在于,以一種前所未有的規(guī)模,驗(yàn)證了神經(jīng)擬態(tài)計(jì)算的可行性和優(yōu)勢(shì)。
在算法和應(yīng)用層面,Hala Point不是專門為當(dāng)前主流的深度學(xué)習(xí)模型設(shè)計(jì)的(但經(jīng)過修改也能跑)。它更適合去探索一些全新的,受生物學(xué)啟發(fā)的學(xué)習(xí)范式。
比如基于時(shí)序脈沖編碼的SNN脈沖神經(jīng)網(wǎng)絡(luò),就是一個(gè)很有前景的方向。SNN能更好地捕捉時(shí)空信息的動(dòng)態(tài)變化,有望在語音、視覺等時(shí)序數(shù)據(jù)的處理上取得突破。
此外,神經(jīng)擬態(tài)系統(tǒng)天然適合進(jìn)行持續(xù)學(xué)習(xí)和片上學(xué)習(xí),這也是當(dāng)前深度學(xué)習(xí)系統(tǒng)的一大短板。
宋繼強(qiáng)還介紹了英特爾的神經(jīng)擬態(tài)研究社區(qū)INRC,已有包括全球?qū)W校、企業(yè)和研究機(jī)構(gòu)的200多成員加入。
社區(qū)中大約一半的應(yīng)用探索是用于機(jī)器人、無人機(jī)。而且這類應(yīng)用并不需要Hala Point這么大的系統(tǒng),只需要幾塊芯片就能搞定了。
那么Hala Point這樣的大殺器又是應(yīng)用在哪呢?
一個(gè)潛在的應(yīng)用場(chǎng)景是組合優(yōu)化。宋繼強(qiáng)透露,他們發(fā)現(xiàn)用神經(jīng)擬態(tài)計(jì)算去求解一些大規(guī)模規(guī)劃等特定問題時(shí),相比傳統(tǒng)方案,能耗可以降低約3000倍。
這得益于其稀疏計(jì)算的特性,避免了大量的無效能耗。從這個(gè)角度看,神經(jīng)擬態(tài)系統(tǒng)或許能在物流、智慧交通等領(lǐng)域”另辟蹊徑”。
One More Thing
在Loihi芯片和Hala Point系統(tǒng)的介紹中,很少出現(xiàn)其他芯片強(qiáng)調(diào)的“頻率”、“主頻”這樣的參數(shù)。
宋繼強(qiáng)解釋,神經(jīng)擬態(tài)系統(tǒng)確實(shí)不會(huì)追求高頻率,還開了一個(gè)小玩笑:
人腦就不會(huì)以很高的頻率工作,不然會(huì)發(fā)熱冒煙。
參考鏈接:
[1]https://www.intel.com/content/www/us/en/newsroom/news/intel-builds-worlds-largest-neuromorphic-system.html
[2]https://www.theregister.com/2024/04/17/intel_hala_point_neuromorphic_owl