卡通动漫亚洲综合第一页自拍,晚上必看的正能量短片

夢(mèng)晨發(fā)自凹非寺，量子位 | 公眾號(hào) QbitAI

貓頭鷹的大腦約有11.5億個(gè)神經(jīng)元、1280億個(gè)突觸。

全部塞進(jìn)一個(gè)微波爐大小的機(jī)箱——就成了世界上最大的神經(jīng)擬態(tài)系統(tǒng)，英特爾Hala Point。

不過別擔(dān)心，期間沒有任何貓頭鷹受到傷害，是用的硅芯片模擬生物神經(jīng)元。

這種芯片效果如何？一系列數(shù)據(jù)說話：

執(zhí)行AI推理負(fù)載和處理優(yōu)化問題時(shí)，速度比常規(guī)CPU和GPU架構(gòu)快50倍，同時(shí)能耗降低了100倍。

運(yùn)行傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)時(shí)，INT8精度運(yùn)算的能效比達(dá)到了15 TOPS/W。
（英偉達(dá)尚未發(fā)貨的最新GB200 NVL72在INT8精度只有6 TOPS/W，當(dāng)前的DGX H100系統(tǒng)約為3.1 TOPS/W）

用于仿生脈沖神經(jīng)網(wǎng)絡(luò)模型時(shí)，能夠以比人腦快20倍的實(shí)時(shí)速度運(yùn)行其全部11.5億個(gè)神經(jīng)元。

在運(yùn)行神經(jīng)元數(shù)量較低的情況下，速度可比人腦快200倍。

……

總之，這不是傳統(tǒng)意義上拼峰值算力的那種AI芯片，能效比高才是Hala Point系統(tǒng)最大的優(yōu)勢(shì)。

據(jù)統(tǒng)計(jì)，僅訓(xùn)練GPT-3就耗電10GWh，相當(dāng)于歐洲6000人一年的用電量，而隨著AI應(yīng)用的普及，推理能耗更是難以估量。

反觀人腦，憑借860億個(gè)神經(jīng)元，每秒能完成上萬億次運(yùn)算，功耗卻不到20W。

那么，如何讓芯片模擬生物大腦的運(yùn)作方式，正是神經(jīng)擬態(tài)計(jì)算的核心理念。

來自英特爾實(shí)驗(yàn)室的Hala Point規(guī)模已接近人腦的1/80，讓這一構(gòu)想離現(xiàn)實(shí)更近了一步。

那么究竟什么是神經(jīng)擬態(tài)芯片，如何做到高能效比，最終又能用于哪些應(yīng)用？

存算一體、異步稀疏計(jì)算

先來看Hala Point系統(tǒng)具體配置：

由1152個(gè)Loihi 2處理器組成，封裝在一個(gè)六機(jī)架的數(shù)據(jù)中心機(jī)箱中。

整個(gè)系統(tǒng)支持分布在140544個(gè)神經(jīng)形態(tài)處理內(nèi)核上的多達(dá)11.5億個(gè)神經(jīng)元和1280億個(gè)突觸，最大功耗為2600瓦。

Hala Point還包括2300多個(gè)嵌入式x86處理器，用于輔助計(jì)算。

Loihi 2芯片采用Intel 4工藝制造，每個(gè)芯片有128個(gè)核心。每個(gè)芯片包含多達(dá)100萬個(gè)數(shù)字神經(jīng)元和1.2億個(gè)突觸，采用存算一體設(shè)計(jì)，打破了馮諾依曼架構(gòu)的瓶頸。

Loihi 2還應(yīng)用了眾多類腦計(jì)算原理，如異步（asynchronous）、基于事件的脈沖神經(jīng)網(wǎng)絡(luò)（SNNs），以及不斷變化的稀疏連接，以實(shí)現(xiàn)能效比和性能的數(shù)量級(jí)提升。

對(duì)于這些獨(dú)特的技術(shù)，我們聯(lián)系到英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)，詢問了更多細(xì)節(jié)。

異步，是一種摒棄了傳統(tǒng)芯片的全局時(shí)鐘，采用事件驅(qū)動(dòng)的架構(gòu)。

宋繼強(qiáng)借用人類大腦分區(qū)來解釋，相當(dāng)于一個(gè)人的嗅覺、視覺、觸覺等可以同時(shí)工作，但并不需要同步。

如此一來Hala Point系統(tǒng)工作時(shí)是稀疏計(jì)算，又有點(diǎn)像現(xiàn)在主流大模型都會(huì)用的MoE專家混合架構(gòu)。

所以Hala Point系統(tǒng)追求的不是極致性能，它更大的價(jià)值在于，以一種前所未有的規(guī)模，驗(yàn)證了神經(jīng)擬態(tài)計(jì)算的可行性和優(yōu)勢(shì)。

在算法和應(yīng)用層面，Hala Point不是專門為當(dāng)前主流的深度學(xué)習(xí)模型設(shè)計(jì)的（但經(jīng)過修改也能跑）。它更適合去探索一些全新的，受生物學(xué)啟發(fā)的學(xué)習(xí)范式。

比如基于時(shí)序脈沖編碼的SNN脈沖神經(jīng)網(wǎng)絡(luò)，就是一個(gè)很有前景的方向。SNN能更好地捕捉時(shí)空信息的動(dòng)態(tài)變化，有望在語音、視覺等時(shí)序數(shù)據(jù)的處理上取得突破。

此外，神經(jīng)擬態(tài)系統(tǒng)天然適合進(jìn)行持續(xù)學(xué)習(xí)和片上學(xué)習(xí)，這也是當(dāng)前深度學(xué)習(xí)系統(tǒng)的一大短板。

宋繼強(qiáng)還介紹了英特爾的神經(jīng)擬態(tài)研究社區(qū)INRC，已有包括全球?qū)W校、企業(yè)和研究機(jī)構(gòu)的200多成員加入。

社區(qū)中大約一半的應(yīng)用探索是用于機(jī)器人、無人機(jī)。而且這類應(yīng)用并不需要Hala Point這么大的系統(tǒng)，只需要幾塊芯片就能搞定了。

那么Hala Point這樣的大殺器又是應(yīng)用在哪呢？

一個(gè)潛在的應(yīng)用場(chǎng)景是組合優(yōu)化。宋繼強(qiáng)透露，他們發(fā)現(xiàn)用神經(jīng)擬態(tài)計(jì)算去求解一些大規(guī)模規(guī)劃等特定問題時(shí)，相比傳統(tǒng)方案，能耗可以降低約3000倍。

這得益于其稀疏計(jì)算的特性，避免了大量的無效能耗。從這個(gè)角度看，神經(jīng)擬態(tài)系統(tǒng)或許能在物流、智慧交通等領(lǐng)域”另辟蹊徑”。

One More Thing

在Loihi芯片和Hala Point系統(tǒng)的介紹中，很少出現(xiàn)其他芯片強(qiáng)調(diào)的“頻率”、“主頻”這樣的參數(shù)。

宋繼強(qiáng)解釋，神經(jīng)擬態(tài)系統(tǒng)確實(shí)不會(huì)追求高頻率，還開了一個(gè)小玩笑：

人腦就不會(huì)以很高的頻率工作，不然會(huì)發(fā)熱冒煙。

參考鏈接：
[1]https://www.intel.com/content/www/us/en/newsroom/news/intel-builds-worlds-largest-neuromorphic-system.html
[2]https://www.theregister.com/2024/04/17/intel_hala_point_neuromorphic_owl

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
PIC32MX795F512L-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下載ECAD模型	$9.74	查看
MK70FX512VMJ15	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 150MHz, Graphics LCD, MAPBGA 256	ECAD模型下載ECAD模型	$17.99	查看
STM32F427VIT6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC	ECAD模型下載ECAD模型	$22.31	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

PIC32MX795F512L-80I/PT

Microchip Technology Inc

32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

$9.74

查看

MK70FX512VMJ15

Freescale Semiconductor

Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 150MHz, Graphics LCD, MAPBGA 256

$17.99

查看

STM32F427VIT6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC