加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 存算一體、異步稀疏計(jì)算
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

用硅模擬人腦,進(jìn)度條走到了1/80

05/31 11:50
1149
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

夢(mèng)晨 發(fā)自 凹非寺,量子位 | 公眾號(hào) QbitAI

貓頭鷹的大腦約有11.5億個(gè)神經(jīng)元、1280億個(gè)突觸。

全部塞進(jìn)一個(gè)微波爐大小的機(jī)箱——就成了世界上最大的神經(jīng)擬態(tài)系統(tǒng)英特爾Hala Point。

不過別擔(dān)心,期間沒有任何貓頭鷹受到傷害,是用的芯片模擬生物神經(jīng)元。

這種芯片效果如何?一系列數(shù)據(jù)說話:

執(zhí)行AI推理負(fù)載和處理優(yōu)化問題時(shí),速度比常規(guī)CPU和GPU架構(gòu)快50倍,同時(shí)能耗降低了100倍。

運(yùn)行傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)時(shí),INT8精度運(yùn)算的能效比達(dá)到了15 TOPS/W。
英偉達(dá)尚未發(fā)貨的最新GB200 NVL72在INT8精度只有6 TOPS/W,當(dāng)前的DGX H100系統(tǒng)約為3.1 TOPS/W)

用于仿生脈沖神經(jīng)網(wǎng)絡(luò)模型時(shí),能夠以比人腦快20倍的實(shí)時(shí)速度運(yùn)行其全部11.5億個(gè)神經(jīng)元。

在運(yùn)行神經(jīng)元數(shù)量較低的情況下,速度可比人腦快200倍

……

總之,這不是傳統(tǒng)意義上拼峰值算力的那種AI芯片,能效比高才是Hala Point系統(tǒng)最大的優(yōu)勢(shì)。

據(jù)統(tǒng)計(jì),僅訓(xùn)練GPT-3就耗電10GWh,相當(dāng)于歐洲6000人一年的用電量,而隨著AI應(yīng)用的普及,推理能耗更是難以估量。

反觀人腦,憑借860億個(gè)神經(jīng)元,每秒能完成上萬億次運(yùn)算,功耗卻不到20W。

那么,如何讓芯片模擬生物大腦的運(yùn)作方式,正是神經(jīng)擬態(tài)計(jì)算的核心理念。

來自英特爾實(shí)驗(yàn)室的Hala Point規(guī)模已接近人腦的1/80,讓這一構(gòu)想離現(xiàn)實(shí)更近了一步。

那么究竟什么是神經(jīng)擬態(tài)芯片,如何做到高能效比,最終又能用于哪些應(yīng)用?

存算一體、異步稀疏計(jì)算

先來看Hala Point系統(tǒng)具體配置:

1152個(gè)Loihi 2處理器組成,封裝在一個(gè)六機(jī)架的數(shù)據(jù)中心機(jī)箱中。

整個(gè)系統(tǒng)支持分布在140544個(gè)神經(jīng)形態(tài)處理內(nèi)核上的多達(dá)11.5億個(gè)神經(jīng)元和1280億個(gè)突觸,最大功耗為2600瓦。

Hala Point還包括2300多個(gè)嵌入式x86處理器,用于輔助計(jì)算。

Loihi 2芯片采用Intel 4工藝制造,每個(gè)芯片有128個(gè)核心。每個(gè)芯片包含多達(dá)100萬個(gè)數(shù)字神經(jīng)元和1.2億個(gè)突觸,采用存算一體設(shè)計(jì),打破了馮諾依曼架構(gòu)的瓶頸。

Loihi 2還應(yīng)用了眾多類腦計(jì)算原理,如異步(asynchronous)、基于事件的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs),以及不斷變化的稀疏連接,以實(shí)現(xiàn)能效比和性能的數(shù)量級(jí)提升。

對(duì)于這些獨(dú)特的技術(shù),我們聯(lián)系到英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng),詢問了更多細(xì)節(jié)。

異步,是一種摒棄了傳統(tǒng)芯片的全局時(shí)鐘,采用事件驅(qū)動(dòng)的架構(gòu)。

宋繼強(qiáng)借用人類大腦分區(qū)來解釋,相當(dāng)于一個(gè)人的嗅覺、視覺、觸覺等可以同時(shí)工作,但并不需要同步。

如此一來Hala Point系統(tǒng)工作時(shí)是稀疏計(jì)算,又有點(diǎn)像現(xiàn)在主流大模型都會(huì)用的MoE專家混合架構(gòu)。

所以Hala Point系統(tǒng)追求的不是極致性能,它更大的價(jià)值在于,以一種前所未有的規(guī)模,驗(yàn)證了神經(jīng)擬態(tài)計(jì)算的可行性和優(yōu)勢(shì)。

在算法和應(yīng)用層面,Hala Point不是專門為當(dāng)前主流的深度學(xué)習(xí)模型設(shè)計(jì)的(但經(jīng)過修改也能跑)。它更適合去探索一些全新的,受生物學(xué)啟發(fā)的學(xué)習(xí)范式。

比如基于時(shí)序脈沖編碼的SNN脈沖神經(jīng)網(wǎng)絡(luò),就是一個(gè)很有前景的方向。SNN能更好地捕捉時(shí)空信息的動(dòng)態(tài)變化,有望在語音、視覺等時(shí)序數(shù)據(jù)的處理上取得突破。

此外,神經(jīng)擬態(tài)系統(tǒng)天然適合進(jìn)行持續(xù)學(xué)習(xí)和片上學(xué)習(xí),這也是當(dāng)前深度學(xué)習(xí)系統(tǒng)的一大短板。

宋繼強(qiáng)還介紹了英特爾的神經(jīng)擬態(tài)研究社區(qū)INRC,已有包括全球?qū)W校、企業(yè)和研究機(jī)構(gòu)的200多成員加入。

社區(qū)中大約一半的應(yīng)用探索是用于機(jī)器人、無人機(jī)。而且這類應(yīng)用并不需要Hala Point這么大的系統(tǒng),只需要幾塊芯片就能搞定了。

那么Hala Point這樣的大殺器又是應(yīng)用在哪呢?

一個(gè)潛在的應(yīng)用場(chǎng)景是組合優(yōu)化。宋繼強(qiáng)透露,他們發(fā)現(xiàn)用神經(jīng)擬態(tài)計(jì)算去求解一些大規(guī)模規(guī)劃等特定問題時(shí),相比傳統(tǒng)方案,能耗可以降低約3000倍。

這得益于其稀疏計(jì)算的特性,避免了大量的無效能耗。從這個(gè)角度看,神經(jīng)擬態(tài)系統(tǒng)或許能在物流、智慧交通等領(lǐng)域”另辟蹊徑”。

One More Thing

在Loihi芯片和Hala Point系統(tǒng)的介紹中,很少出現(xiàn)其他芯片強(qiáng)調(diào)的“頻率”、“主頻”這樣的參數(shù)。

宋繼強(qiáng)解釋,神經(jīng)擬態(tài)系統(tǒng)確實(shí)不會(huì)追求高頻率,還開了一個(gè)小玩笑:

人腦就不會(huì)以很高的頻率工作,不然會(huì)發(fā)熱冒煙。

參考鏈接:
[1]https://www.intel.com/content/www/us/en/newsroom/news/intel-builds-worlds-largest-neuromorphic-system.html
[2]https://www.theregister.com/2024/04/17/intel_hala_point_neuromorphic_owl

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
PIC32MX795F512L-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$9.74 查看
MK70FX512VMJ15 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 150MHz, Graphics LCD, MAPBGA 256

ECAD模型

下載ECAD模型
$17.99 查看
STM32F427VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC

ECAD模型

下載ECAD模型
$22.31 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜