加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

英偉達(dá)Drive Thor之Blackwell架構(gòu)分析,算力縮水一半

03/25 10:55
4737
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2024年英偉達(dá)GTC大會(huì)上,英偉達(dá)宣布了Drive Thor獲得一系列客戶采納,包括比亞迪、小鵬和廣汽埃安Hyper,不過(guò)沒(méi)有極氪的名字,有點(diǎn)意外,極氪所在的吉利集團(tuán)子公司芯擎則在3月20號(hào)的億咖通Tech Day上布了與英偉達(dá)Orin對(duì)標(biāo)的AD1000芯片,極氪很有可能不會(huì)使用Thor了。毫無(wú)意外,Drive Thor也采用了跟英偉達(dá)最新GPU B100/B200/GB200的Blackwell架構(gòu)。

今天我們來(lái)著重看一下最新的Blackwell架構(gòu),大部分專業(yè)人士和投資者對(duì)新的Blackwell架構(gòu)沒(méi)有多少好感,發(fā)布新產(chǎn)品后,英偉達(dá)股價(jià)有所下跌,平心而論,Blackwell的確乏善可陳。

此外,英偉達(dá)也更改了對(duì)Thor算力的描述,https://nvidianews.nvidia.com/news/nvidia-drive-powers-next-generation-transportation,明確指出是1000TOPS,而在2022年9月的新聞稿里,https://nvidianews.nvidia.com/news/nvidia-unveils-drive-thor-centralized-car-computer-unifying-cluster-infotainment-automated-driving-and-parking-in-a-single-cost-saving-system明確指出是2000TOPS,當(dāng)然這個(gè)沒(méi)有點(diǎn)明模型精度,或許2000TOPS是FP4精度。Thor應(yīng)該和Orin一樣有多個(gè)版本,頂配算力1000TOPS,低配可能是500TOPS。

北京時(shí)間3月19日,采用英偉達(dá)新一代GPU架構(gòu)Blackwell的首款產(chǎn)品B100和B200正式發(fā)布,同時(shí)發(fā)布的還有GB200系統(tǒng)以及售價(jià)可能超過(guò)500萬(wàn)美元的GB200 NVL72服務(wù)器

簡(jiǎn)單地說(shuō)就是將兩顆H100放在了一起,就像蘋(píng)果的M1系列一樣。

蘋(píng)果的M1Max可以持續(xù)擴(kuò)展出多個(gè)產(chǎn)品,英偉達(dá)的B100也是如此,兩者用的技術(shù)都一樣,都是MCM。

英偉達(dá)三代GPU旗艦對(duì)比。

GB200的GPU部分,差不多等于拼湊了4個(gè)B100,性能是10000FLOPS@FP8,單個(gè)B100的性能是3500FLOPS@FP8。盡管有最新的高達(dá)1.8TB/s的NVLink加持,性能也只是勉強(qiáng)3倍。而通常車載網(wǎng)絡(luò)是1GB/s,遠(yuǎn)低于NVLink,4個(gè)Orin級(jí)聯(lián)頂多能算1.05倍也就是267TOPS的算力。

三款Blackwell架構(gòu)產(chǎn)品的性能對(duì)比,B100可能是B200的降頻版,會(huì)在2024年推出,而B(niǎo)200要等到2025年才能推出,和H100的單GPU die相比,B100和B200都是雙GPU die,H100使用臺(tái)積電N4工藝,800億個(gè)晶體管,die size是814平方毫米,B100和B200都是使用臺(tái)積電4NP工藝,die size可能是880平方毫米,晶體管密度提高,同時(shí)die size也大了,最終是1040億晶體管。B100的性能是3500TFLOPS,H100 SXM5型是3958TFLOPS,性能沒(méi)有提升,反而下降了,當(dāng)然和性能稍差的H100 PCIe版相比大約提高了474TOFLOPS,但是H100 PCIe的TDP功耗只有300瓦,而B(niǎo)100是700瓦。和H100相比,B100提升不多,甚至沒(méi)有提升。

2017年6月英偉達(dá)發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設(shè)計(jì),直到7年后才付諸產(chǎn)品。

圖片來(lái)源:NVIDIA

MCM-GPU設(shè)計(jì)基本就是現(xiàn)在比較火爆的Chiplet設(shè)計(jì),但是英偉達(dá)一直未將MCM付諸實(shí)際設(shè)計(jì)中。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì),這是因?yàn)閐ie與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬比,換句話說(shuō)Chiplet不適合高AI算力場(chǎng)合,在純CPU領(lǐng)域是Chiplet的最佳應(yīng)用領(lǐng)域。

圖片來(lái)源:NVIDIA

英偉達(dá)2017年論文提及的MCM-GPU架構(gòu)如上圖,英偉達(dá)在MCM-GPU架構(gòu)里主要引入了L1.5緩存,它介于L1緩存和L2緩存之間,XBAR是Crossbar,英偉達(dá)的解釋是XBAR負(fù)責(zé)將數(shù)據(jù)包從給定的源單元傳輸?shù)教囟ǖ哪繕?biāo)單元。有點(diǎn)像交換或路由。GPM就是GPU模塊。

英偉達(dá)再次提到了芯片物理限制,因?yàn)楣庋谀さ南拗疲酒拿娣e無(wú)法超過(guò)880(也有說(shuō)是850)平方毫米,這是物理極限,除非光刻機(jī)領(lǐng)域出現(xiàn)革命性革新。同時(shí)芯片面積越大,良率就越低,成本就越高,這是Chiplet產(chǎn)生的根本原因,不過(guò)英偉達(dá)對(duì)Chiplet不屑一顧。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì),這是因?yàn)镃hiplet的die與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬相提并論。

很多人引用這張圖,芯片Die 尺寸750平方毫米的良率只有35.7%,50平方毫米是94.2%,實(shí)際沒(méi)有這么夸張。英偉達(dá)的A100的die尺寸高達(dá)826平方毫米,H100的die尺寸也有814平方毫米,遠(yuǎn)超750平方毫米。但是英偉達(dá)依靠CUDA建立的護(hù)城河,產(chǎn)品具有極高溢價(jià),不在乎成本高昂,英偉達(dá)有能力將成本轉(zhuǎn)嫁到下游客戶頭上。

NVIDIA的H100利潤(rùn)率達(dá)到90%。同時(shí)也給出了估算的H100的成本構(gòu)成,NVIDIA向臺(tái)積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。NVIDIA從 SK 海力士(未來(lái)可能有三星、美光)采購(gòu)六顆 HBM3芯片,成本大概 2000 美元。臺(tái)積電生產(chǎn)出來(lái)的 GPU 和NVIDIA采購(gòu)的 HBM3 芯片,一起送到臺(tái)積電 CoWoS 封裝產(chǎn)線,以性能折損最小的方式加工成 H100,成本大約 723 美元 。

B100的HBM是192GB的HBM3E,成本大概5000美元,die size加倍,制造和封裝成本增加超過(guò)一倍,大概是2000美元,B100和B200的成本大約7000美元,英偉達(dá)一貫90%的利潤(rùn)率,B100售價(jià)大概7萬(wàn)美元,B200大概8萬(wàn)美元。

Thor的CPU部分可能會(huì)與英偉達(dá)Grace一樣,使用ARM Neoverse的V2架構(gòu),核心數(shù)肯定不需要72顆,12或16核心足夠了。Thor肯定無(wú)法使用昂貴的HBM,最多可能是GDDR6存儲(chǔ)。頂配Thor的售價(jià)估計(jì)在1000美元左右,低配估計(jì)600美元,英偉達(dá)可能是考慮成本因素,才將算力縮水了一半。

英偉達(dá)是不是有些江郎才盡了?

免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATXMEGA128A1U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 100TQFP

ECAD模型

下載ECAD模型
$7 查看
MC9S08PA16AVTJ 1 NXP Semiconductors MICROCONTROLLER
$2.56 查看
STM32F205RCT6 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 120 MHz CPU, ART Accelerator

ECAD模型

下載ECAD模型
$27.28 查看
英偉達(dá)

英偉達(dá)

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開(kāi)發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開(kāi)發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。