2024年8月8日下午,英特爾在深圳召開(kāi)“英特爾AI座艙暨車載獨(dú)立顯卡發(fā)布會(huì)”,重磅發(fā)布了旗下首款銳炫?車載獨(dú)立顯卡——Arc A760-A。英特爾之所以選擇在深圳發(fā)布車載獨(dú)立顯卡,再次彰顯中國(guó)汽車電子的先進(jìn)程度,也只有在中國(guó),車載獨(dú)立顯卡才可能有市場(chǎng),即便特斯拉也只是出貨量低到可以忽略的Model S Plaid使用過(guò)AMD的獨(dú)立顯卡,而且主力車型還是AMD的嵌入式平臺(tái),沒(méi)有獨(dú)立顯卡。中國(guó)汽車市場(chǎng)尤其注重座艙體驗(yàn),并以此為賣點(diǎn)和差異化,車企都不惜成本來(lái)打造先進(jìn)的座艙。
要流暢運(yùn)行AI大模型主要依賴三個(gè)條件:① 存儲(chǔ)帶寬,② 存儲(chǔ)容量,③算力。這里的“流暢”,對(duì)大模型推理來(lái)說(shuō),首個(gè)token產(chǎn)生要低于1秒,后續(xù)token產(chǎn)生要低于2秒。
目前AI大模型都是針對(duì)因果建模目標(biāo)進(jìn)行預(yù)訓(xùn)練的,本質(zhì)上是作為下一個(gè)詞預(yù)測(cè)器。這些 LLM 將一系列tokens作為輸入,并自回歸生成后續(xù)tokens,直到滿足停止條件(例如,生成tokens數(shù)量的限制或遇到停止詞)或直到生成特殊的標(biāo)記生成結(jié)束的tokens。該過(guò)程涉及兩個(gè)階段:預(yù)填充階段和解碼階段。
在預(yù)填充階段,LLM處理輸入token以計(jì)算中間狀態(tài)(keys和value),用于生成“第一個(gè)”token。每個(gè)新的token都依賴于所有先前的token,但由于輸入的全部已知,因此在運(yùn)算上,都是高度并行化矩陣運(yùn)算,可以有效地使用GPU。也就是說(shuō)首個(gè)token的延遲取決于算力。
在解碼階段,LLM一次自回歸生成一個(gè)輸出token,直到滿足停止條件。每個(gè)輸出tokens都需要直到之前迭代的所有輸出狀態(tài)(keys和values)。這與預(yù)填充輸入處理相比,就像矩陣向量運(yùn)算未充分利用GPU計(jì)算能力。數(shù)據(jù)(weights, keys, values, activations) 從內(nèi)存?zhèn)鬏數(shù)紾PU的速度決定了延遲,而不是計(jì)算實(shí)際時(shí)間消耗。即,這是一個(gè)內(nèi)存限制操作。解碼階段,或者說(shuō)后續(xù)token生成階段推理延遲時(shí)間是由大模型參數(shù)與存儲(chǔ)帶寬的之比決定。
首先來(lái)看存儲(chǔ)容量,在GPU做推理時(shí),一般把存儲(chǔ)直接寫(xiě)成顯存,但車載領(lǐng)域除非是獨(dú)立顯卡或者蘋果那樣的統(tǒng)一內(nèi)存UMA(Unified Memory Architecture),都是AI加速器(GPU)和CPU共享內(nèi)存,實(shí)際用于AI大模型的存儲(chǔ)容量會(huì)遠(yuǎn)低于共享內(nèi)存的容量。高端車機(jī)的DRAM內(nèi)存容量在8-22GB之間,絕大多數(shù)基于高通SA8155的DRAM內(nèi)存容量是8GB,基于高通SA8295的DRAM內(nèi)存容量一般是12GB或16GB。
目前LLM大模型參數(shù)量一般有四檔,最低一檔是針對(duì)嵌入式,參數(shù)在60-80億之間,第二檔是130-450億,第三檔是700-800億,第四檔是1500億以上。座艙的AI大模型有可能同時(shí)運(yùn)行兩個(gè)大模型,最高參數(shù)上限大約是140億參數(shù),車載領(lǐng)域最低的INT8精度,140億參數(shù)就是14GB的容量。車機(jī)那種共享存儲(chǔ)的方式,車機(jī)操作系統(tǒng)、中間層、虛擬機(jī)等等所占存儲(chǔ)巨大,為保證車機(jī)流暢,分給AI大模型的容量不會(huì)超過(guò)50%。也就是說(shuō)要支持140億參數(shù),那么車機(jī)的DRAM至少要28GB,這是大模型的最低下限。對(duì)于真正的大模型,參數(shù)一般是700億,需要140GB的DRAM,這在車載領(lǐng)域完全不可想象,體積巨大,成本高昂。對(duì)于有獨(dú)立顯存的獨(dú)立顯卡只需要14GB就足夠,英特爾的獨(dú)立顯卡的顯存容量正是16GB。
如果DRAM容量低于大模型存儲(chǔ)容量,那么與電腦一樣,會(huì)轉(zhuǎn)入硬盤,對(duì)車機(jī)來(lái)說(shuō)就是UFS,UFS目前高端的3.1版本,連續(xù)讀取速度很低,只有2.1GB/s,而英偉達(dá)Orin的帶寬是204.8,相差近百倍,延遲估計(jì)超過(guò)1分鐘,完全無(wú)法接受。
對(duì)大模型來(lái)說(shuō),存儲(chǔ)容量是最重要的,算力遠(yuǎn)不及存儲(chǔ)容量,這也是為何算力不到300TOPS的Mac Studio with an M2 Ultra頂配可以運(yùn)行高達(dá)3140億參數(shù)的超級(jí)大模型,Mac Studio with an M2 Ultra頂配統(tǒng)一內(nèi)存容量高達(dá)192GB,價(jià)格近9000美元。
存儲(chǔ)帶寬決定了推理計(jì)算速度的上限,假設(shè)一個(gè)大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲(chǔ)是7GB,如果是英偉達(dá)的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個(gè)token,這個(gè)就是RTX4090的理論速度上限。特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s,也就是每110毫秒生成一個(gè)token,幀率不到10Hz,自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz,英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s,即每34毫秒生成一個(gè)token,勉強(qiáng)可以達(dá)到30Hz,注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需要的時(shí)間,數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了,實(shí)際速度要遠(yuǎn)低于這個(gè)數(shù)據(jù)。并且一個(gè)token也不夠用,至少需要兩個(gè)token,端到端的最終輸出結(jié)果用語(yǔ)言描述就是一段軌跡,比如直行,直行需要有個(gè)限制條件,至少有個(gè)速度的限制條件,多的可能需要5個(gè)以上token,簡(jiǎn)單計(jì)算即可得出存儲(chǔ)帶寬需要1TB/s以上。
座艙領(lǐng)域不需要那么高的幀率,但座艙領(lǐng)域的模型更大,存儲(chǔ)帶寬最好在500GB/s以上。
汽車SoC芯片存儲(chǔ)帶寬一覽
來(lái)源:佐思汽研整理
YE180FC3T4MFG就是目前特斯拉車機(jī)用的主芯片。Snapdragon X-lite是高通第四代芯片,還沒(méi)有與之對(duì)應(yīng)的車載版本。而最常見(jiàn)的SA8155P其存儲(chǔ)帶寬是很低的。
最后是AI算力,這個(gè)只關(guān)系首個(gè)token的生成,重要程度很低,當(dāng)然算力越高越好。
英特爾這次推出的獨(dú)立顯卡ARC A760-A基本上就是其2022年產(chǎn)品ARC A750的車載版。
來(lái)源:佐思汽研整理
不過(guò)在面向汽車時(shí),Arc A760-A自然有一些特有技能。符合車規(guī)要求,包括寬溫、嚴(yán)苛環(huán)境的高等級(jí)可靠性、穩(wěn)定性特性是基本屬性。再有就是對(duì)OS和虛擬機(jī)的支持,ACRN是英特爾主導(dǎo)的開(kāi)源虛擬機(jī)平臺(tái),奇瑞和紅旗都曾經(jīng)用過(guò),Yocto可以看做是嵌入式的Linux。
A750與A760-A最大的區(qū)別是存儲(chǔ)容量不同,A760-A增加到了16GB,其余硬件特性基本相同。我們可以大致推測(cè)出A760-A的一些硬件特性,采用臺(tái)積電的6納米N6工藝制造,217億晶體管,die size為406平方毫米。
矢量引擎改進(jìn)了ALU單元,提供專用的FP浮點(diǎn)執(zhí)行接口,共享的INT/EM整數(shù)執(zhí)行接口,每個(gè)時(shí)鐘周期可以執(zhí)行16個(gè)FP32操作、32個(gè)FP16操作、64個(gè)INT8操作。
由于AI算法核心幾乎完全圍繞矩陣乘法、累加算法,所以Xe核心里加入了單獨(dú)的矩陣引擎,專門用于執(zhí)行XMX指令。它具備獨(dú)立的執(zhí)行端口,每個(gè)時(shí)鐘周期可以執(zhí)行128個(gè)FP16/BF16操作、256個(gè)INT8操作,512個(gè)INT4/INT2操作。MAC作為圖形渲染中的基本SIMD矢量指令,也是Xe矢量引擎的核心,可以執(zhí)行8次并行乘法,然后執(zhí)行8次并行加法,每個(gè)時(shí)鐘周期就是16個(gè)操作。
DP4a指令是針對(duì)不需要32位精度的AI計(jì)算所做的優(yōu)化,工作原理是將所有32位輸入分成8位塊,然后獨(dú)立執(zhí)行,總共32次并行乘法(紫色方塊),每個(gè)時(shí)鐘周期就是64個(gè)操作,相比標(biāo)準(zhǔn)SIMD MAC提高了4倍。XMX指令也是每個(gè)操作分成4個(gè)塊,然后獨(dú)立相乘、累加,共有64個(gè)操作,每個(gè)時(shí)鐘周期4個(gè)階段就是256個(gè)操作,由此帶來(lái)16倍的算力提升。
根據(jù)存儲(chǔ)16GB的信息來(lái)看,英特爾肯定不會(huì)單獨(dú)出售芯片,出售的方式應(yīng)該是板卡或者干脆就是A750那樣的整機(jī)。由于獨(dú)立顯卡的供電也是汽車領(lǐng)域常用的12伏,所以A760-A的供電完全可以照搬A750的供電設(shè)計(jì)。
A750顯卡的正面PCB
上圖是A750顯卡的正面PCB,GPU供電是六相設(shè)計(jì),電源管理是MPS的MPS2134,DrMOS是MPS的MP86956,可以對(duì)應(yīng)高達(dá)70A的電流,存儲(chǔ)的電源管理也是MPS的MPS2134。DrMOS是MPS的MP86950,對(duì)應(yīng)50A的電流,DP轉(zhuǎn)HDMI是Realtek的RTD2173。MP86956值得一提,它輸入電壓介于3-16伏之間,輸出電流穩(wěn)定在70A,最高瞬間125A,最高運(yùn)行溫度高達(dá)125度,junction溫度高達(dá)150度。
根據(jù)英特爾介紹,A760-A支持6路攝像頭輸入,顯卡一般只有PCIe接口,攝像頭一般是MIPI CSI-2格式,英特爾應(yīng)該是加了轉(zhuǎn)換卡,將MIPI CSI-2轉(zhuǎn)換為PCIe或以太網(wǎng)格式。如果是以太網(wǎng),那就是采用Marvell的88QB5224,將MIPI CSI-2信號(hào)轉(zhuǎn)換為符合802.3ch標(biāo)準(zhǔn)的車載以太網(wǎng)信號(hào),可以使用非屏蔽的單對(duì)雙絞線,最高傳輸速率10Gbps,最高可以支持800萬(wàn)像素的攝像頭,也可以支持多個(gè)攝像頭,只需要增加以太網(wǎng)交換機(jī)即可。
88QB5224的框架如上圖,后端可以輸出也可以直接給PC系統(tǒng)的萬(wàn)兆網(wǎng)卡接口,萬(wàn)兆網(wǎng)卡再通過(guò)PCIe輸入到CPU。
基于FPGA的MIPI CSI-2轉(zhuǎn)PCIe框架圖
第二種是PCIe,采用LATTICE的FPGA,將MIPI CSI-2輸出信號(hào)即原始的RAW信號(hào)首先放進(jìn)一個(gè)ISP中,將RAW信號(hào)轉(zhuǎn)換成RGB信號(hào)再轉(zhuǎn)換YUV422信號(hào),然后通過(guò)直接存儲(chǔ)接入即DMA引擎,根據(jù)輸出端的視頻幀率調(diào)整緩沖幀。FPGA內(nèi)的Transaction Layer Packet即TLP對(duì)YUV422信號(hào)進(jìn)行解碼,再生成PCIe格式數(shù)據(jù),最高傳輸速率為3.1Gbps。
PCIe的成本要高很多,還需要更貴的PCIe交換機(jī),推測(cè)還是以太網(wǎng)的可能性大,不過(guò)這令人十分困惑,顯卡不需要單獨(dú)外接攝像頭信號(hào),直接接收攝像頭信號(hào)的是CPU,顯卡再通過(guò)PCIe與CPU連接。
英特爾A750獨(dú)立顯卡性能大概是英偉達(dá)的RTX3060。A750價(jià)格約為1800-2000元人民幣左右,RTX3060價(jià)格基本上是翻倍的3600-4000元人民幣,A760-A加了一倍內(nèi)存,還可能加了MIPI CSI-2轉(zhuǎn)接卡,價(jià)格估計(jì)要高1000-1500元人民幣。不過(guò)最難的應(yīng)該是功耗,TDP功耗高達(dá)225瓦,這是一個(gè)不容忽視的耗電源。散熱和可靠性也要考慮,最好是水冷散熱,否則要在機(jī)艙內(nèi)給顯卡留出足夠的空間空氣對(duì)流。
最麻煩的還是獨(dú)立顯卡是外設(shè),它不能獨(dú)立工作,它需要CPU配合,配合最好的自然是英特爾自家的CPU,英特爾獨(dú)立顯卡的DeepLink技術(shù)正是基于此開(kāi)發(fā),別的CPU用起來(lái)效率應(yīng)該是不如英特爾自己的CPU。
免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。