2024年英偉達(dá)GTC大會(huì)上,英偉達(dá)宣布了Drive Thor獲得一系列客戶采納,包括比亞迪、小鵬和廣汽埃安Hyper,不過(guò)沒(méi)有極氪的名字,有點(diǎn)意外,極氪所在的吉利集團(tuán)子公司芯擎則在3月20號(hào)的億咖通Tech Day上布了與英偉達(dá)Orin對(duì)標(biāo)的AD1000芯片,極氪很有可能不會(huì)使用Thor了。毫無(wú)意外,Drive Thor也采用了跟英偉達(dá)最新GPU B100/B200/GB200的Blackwell架構(gòu)。
今天我們來(lái)著重看一下最新的Blackwell架構(gòu),大部分專業(yè)人士和投資者對(duì)新的Blackwell架構(gòu)沒(méi)有多少好感,發(fā)布新產(chǎn)品后,英偉達(dá)股價(jià)有所下跌,平心而論,Blackwell的確乏善可陳。
此外,英偉達(dá)也更改了對(duì)Thor算力的描述,https://nvidianews.nvidia.com/news/nvidia-drive-powers-next-generation-transportation,明確指出是1000TOPS,而在2022年9月的新聞稿里,https://nvidianews.nvidia.com/news/nvidia-unveils-drive-thor-centralized-car-computer-unifying-cluster-infotainment-automated-driving-and-parking-in-a-single-cost-saving-system明確指出是2000TOPS,當(dāng)然這個(gè)沒(méi)有點(diǎn)明模型精度,或許2000TOPS是FP4精度。Thor應(yīng)該和Orin一樣有多個(gè)版本,頂配算力1000TOPS,低配可能是500TOPS。
北京時(shí)間3月19日,采用英偉達(dá)新一代GPU架構(gòu)Blackwell的首款產(chǎn)品B100和B200正式發(fā)布,同時(shí)發(fā)布的還有GB200系統(tǒng)以及售價(jià)可能超過(guò)500萬(wàn)美元的GB200 NVL72服務(wù)器。
簡(jiǎn)單地說(shuō)就是將兩顆H100放在了一起,就像蘋(píng)果的M1系列一樣。
蘋(píng)果的M1Max可以持續(xù)擴(kuò)展出多個(gè)產(chǎn)品,英偉達(dá)的B100也是如此,兩者用的技術(shù)都一樣,都是MCM。
英偉達(dá)三代GPU旗艦對(duì)比。
GB200的GPU部分,差不多等于拼湊了4個(gè)B100,性能是10000FLOPS@FP8,單個(gè)B100的性能是3500FLOPS@FP8。盡管有最新的高達(dá)1.8TB/s的NVLink加持,性能也只是勉強(qiáng)3倍。而通常車載網(wǎng)絡(luò)是1GB/s,遠(yuǎn)低于NVLink,4個(gè)Orin級(jí)聯(lián)頂多能算1.05倍也就是267TOPS的算力。
三款Blackwell架構(gòu)產(chǎn)品的性能對(duì)比,B100可能是B200的降頻版,會(huì)在2024年推出,而B(niǎo)200要等到2025年才能推出,和H100的單GPU die相比,B100和B200都是雙GPU die,H100使用臺(tái)積電N4工藝,800億個(gè)晶體管,die size是814平方毫米,B100和B200都是使用臺(tái)積電4NP工藝,die size可能是880平方毫米,晶體管密度提高,同時(shí)die size也大了,最終是1040億晶體管。B100的性能是3500TFLOPS,H100 SXM5型是3958TFLOPS,性能沒(méi)有提升,反而下降了,當(dāng)然和性能稍差的H100 PCIe版相比大約提高了474TOFLOPS,但是H100 PCIe的TDP功耗只有300瓦,而B(niǎo)100是700瓦。和H100相比,B100提升不多,甚至沒(méi)有提升。
2017年6月英偉達(dá)發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設(shè)計(jì),直到7年后才付諸產(chǎn)品。
圖片來(lái)源:NVIDIA
MCM-GPU設(shè)計(jì)基本就是現(xiàn)在比較火爆的Chiplet設(shè)計(jì),但是英偉達(dá)一直未將MCM付諸實(shí)際設(shè)計(jì)中。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì),這是因?yàn)閐ie與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬比,換句話說(shuō)Chiplet不適合高AI算力場(chǎng)合,在純CPU領(lǐng)域是Chiplet的最佳應(yīng)用領(lǐng)域。
圖片來(lái)源:NVIDIA
英偉達(dá)2017年論文提及的MCM-GPU架構(gòu)如上圖,英偉達(dá)在MCM-GPU架構(gòu)里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達(dá)的解釋是XBAR負(fù)責(zé)將數(shù)據(jù)包從給定的源單元傳輸?shù)教囟ǖ哪繕?biāo)單元。有點(diǎn)像交換或路由。GPM就是GPU模塊。
英偉達(dá)再次提到了芯片物理限制,因?yàn)楣庋谀さ南拗疲酒拿娣e無(wú)法超過(guò)880(也有說(shuō)是850)平方毫米,這是物理極限,除非光刻機(jī)領(lǐng)域出現(xiàn)革命性革新。同時(shí)芯片面積越大,良率就越低,成本就越高,這是Chiplet產(chǎn)生的根本原因,不過(guò)英偉達(dá)對(duì)Chiplet不屑一顧。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì),這是因?yàn)镃hiplet的die與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬相提并論。
很多人引用這張圖,芯片Die 尺寸750平方毫米的良率只有35.7%,50平方毫米是94.2%,實(shí)際沒(méi)有這么夸張。英偉達(dá)的A100的die尺寸高達(dá)826平方毫米,H100的die尺寸也有814平方毫米,遠(yuǎn)超750平方毫米。但是英偉達(dá)依靠CUDA建立的護(hù)城河,產(chǎn)品具有極高溢價(jià),不在乎成本高昂,英偉達(dá)有能力將成本轉(zhuǎn)嫁到下游客戶頭上。
NVIDIA的H100利潤(rùn)率達(dá)到90%。同時(shí)也給出了估算的H100的成本構(gòu)成,NVIDIA向臺(tái)積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。NVIDIA從 SK 海力士(未來(lái)可能有三星、美光)采購(gòu)六顆 HBM3芯片,成本大概 2000 美元。臺(tái)積電生產(chǎn)出來(lái)的 GPU 和NVIDIA采購(gòu)的 HBM3 芯片,一起送到臺(tái)積電 CoWoS 封裝產(chǎn)線,以性能折損最小的方式加工成 H100,成本大約 723 美元 。
B100的HBM是192GB的HBM3E,成本大概5000美元,die size加倍,制造和封裝成本增加超過(guò)一倍,大概是2000美元,B100和B200的成本大約7000美元,英偉達(dá)一貫90%的利潤(rùn)率,B100售價(jià)大概7萬(wàn)美元,B200大概8萬(wàn)美元。
Thor的CPU部分可能會(huì)與英偉達(dá)Grace一樣,使用ARM Neoverse的V2架構(gòu),核心數(shù)肯定不需要72顆,12或16核心足夠了。Thor肯定無(wú)法使用昂貴的HBM,最多可能是GDDR6存儲(chǔ)。頂配Thor的售價(jià)估計(jì)在1000美元左右,低配估計(jì)600美元,英偉達(dá)可能是考慮成本因素,才將算力縮水了一半。
英偉達(dá)是不是有些江郎才盡了?
免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。