99久久99久久久精品色圆,91桃色下载安装

2024年英偉達(dá)GTC大會(huì)上，英偉達(dá)宣布了Drive Thor獲得一系列客戶采納，包括比亞迪、小鵬和廣汽埃安Hyper，不過(guò)沒(méi)有極氪的名字，有點(diǎn)意外，極氪所在的吉利集團(tuán)子公司芯擎則在3月20號(hào)的億咖通Tech Day上布了與英偉達(dá)Orin對(duì)標(biāo)的AD1000芯片，極氪很有可能不會(huì)使用Thor了。毫無(wú)意外，Drive Thor也采用了跟英偉達(dá)最新GPU B100/B200/GB200的Blackwell架構(gòu)。

今天我們來(lái)著重看一下最新的Blackwell架構(gòu)，大部分專業(yè)人士和投資者對(duì)新的Blackwell架構(gòu)沒(méi)有多少好感，發(fā)布新產(chǎn)品后，英偉達(dá)股價(jià)有所下跌，平心而論，Blackwell的確乏善可陳。

此外，英偉達(dá)也更改了對(duì)Thor算力的描述，https://nvidianews.nvidia.com/news/nvidia-drive-powers-next-generation-transportation，明確指出是1000TOPS，而在2022年9月的新聞稿里，https://nvidianews.nvidia.com/news/nvidia-unveils-drive-thor-centralized-car-computer-unifying-cluster-infotainment-automated-driving-and-parking-in-a-single-cost-saving-system明確指出是2000TOPS，當(dāng)然這個(gè)沒(méi)有點(diǎn)明模型精度，或許2000TOPS是FP4精度。Thor應(yīng)該和Orin一樣有多個(gè)版本，頂配算力1000TOPS，低配可能是500TOPS。

北京時(shí)間3月19日，采用英偉達(dá)新一代GPU架構(gòu)Blackwell的首款產(chǎn)品B100和B200正式發(fā)布，同時(shí)發(fā)布的還有GB200系統(tǒng)以及售價(jià)可能超過(guò)500萬(wàn)美元的GB200 NVL72服務(wù)器。

簡(jiǎn)單地說(shuō)就是將兩顆H100放在了一起，就像蘋(píng)果的M1系列一樣。

蘋(píng)果的M1Max可以持續(xù)擴(kuò)展出多個(gè)產(chǎn)品，英偉達(dá)的B100也是如此，兩者用的技術(shù)都一樣，都是MCM。

英偉達(dá)三代GPU旗艦對(duì)比。

GB200的GPU部分，差不多等于拼湊了4個(gè)B100，性能是10000FLOPS@FP8，單個(gè)B100的性能是3500FLOPS@FP8。盡管有最新的高達(dá)1.8TB/s的NVLink加持，性能也只是勉強(qiáng)3倍。而通常車載網(wǎng)絡(luò)是1GB/s，遠(yuǎn)低于NVLink，4個(gè)Orin級(jí)聯(lián)頂多能算1.05倍也就是267TOPS的算力。

三款Blackwell架構(gòu)產(chǎn)品的性能對(duì)比，B100可能是B200的降頻版，會(huì)在2024年推出，而B(niǎo)200要等到2025年才能推出，和H100的單GPU die相比，B100和B200都是雙GPU die，H100使用臺(tái)積電N4工藝，800億個(gè)晶體管，die size是814平方毫米，B100和B200都是使用臺(tái)積電4NP工藝，die size可能是880平方毫米，晶體管密度提高，同時(shí)die size也大了，最終是1040億晶體管。B100的性能是3500TFLOPS，H100 SXM5型是3958TFLOPS，性能沒(méi)有提升，反而下降了，當(dāng)然和性能稍差的H100 PCIe版相比大約提高了474TOFLOPS，但是H100 PCIe的TDP功耗只有300瓦，而B(niǎo)100是700瓦。和H100相比，B100提升不多，甚至沒(méi)有提升。

2017年6月英偉達(dá)發(fā)表論文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM設(shè)計(jì)，直到7年后才付諸產(chǎn)品。

圖片來(lái)源：NVIDIA

MCM-GPU設(shè)計(jì)基本就是現(xiàn)在比較火爆的Chiplet設(shè)計(jì)，但是英偉達(dá)一直未將MCM付諸實(shí)際設(shè)計(jì)中。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì)，這是因?yàn)閐ie與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬比，換句話說(shuō)Chiplet不適合高AI算力場(chǎng)合，在純CPU領(lǐng)域是Chiplet的最佳應(yīng)用領(lǐng)域。

圖片來(lái)源：NVIDIA

英偉達(dá)2017年論文提及的MCM-GPU架構(gòu)如上圖，英偉達(dá)在MCM-GPU架構(gòu)里主要引入了L1.5緩存，它介于L1緩存和L2緩存之間，XBAR是Crossbar，英偉達(dá)的解釋是XBAR負(fù)責(zé)將數(shù)據(jù)包從給定的源單元傳輸?shù)教囟ǖ哪繕?biāo)單元。有點(diǎn)像交換或路由。GPM就是GPU模塊。

英偉達(dá)再次提到了芯片物理限制，因?yàn)楣庋谀さ南拗疲酒拿娣e無(wú)法超過(guò)880（也有說(shuō)是850）平方毫米，這是物理極限，除非光刻機(jī)領(lǐng)域出現(xiàn)革命性革新。同時(shí)芯片面積越大，良率就越低，成本就越高，這是Chiplet產(chǎn)生的根本原因，不過(guò)英偉達(dá)對(duì)Chiplet不屑一顧。英偉達(dá)一直堅(jiān)持Monolithic單一光刻設(shè)計(jì)，這是因?yàn)镃hiplet的die與die之間通訊帶寬永遠(yuǎn)無(wú)法和monolithic內(nèi)部的通訊帶寬相提并論。

很多人引用這張圖，芯片Die 尺寸750平方毫米的良率只有35.7%，50平方毫米是94.2%，實(shí)際沒(méi)有這么夸張。英偉達(dá)的A100的die尺寸高達(dá)826平方毫米，H100的die尺寸也有814平方毫米，遠(yuǎn)超750平方毫米。但是英偉達(dá)依靠CUDA建立的護(hù)城河，產(chǎn)品具有極高溢價(jià)，不在乎成本高昂，英偉達(dá)有能力將成本轉(zhuǎn)嫁到下游客戶頭上。

NVIDIA的H100利潤(rùn)率達(dá)到90%。同時(shí)也給出了估算的H100的成本構(gòu)成，NVIDIA向臺(tái)積電下訂單，用 N4工藝制造 GPU 芯片，平均每顆成本 155 美元。NVIDIA從 SK 海力士（未來(lái)可能有三星、美光）采購(gòu)六顆 HBM3芯片，成本大概 2000 美元。臺(tái)積電生產(chǎn)出來(lái)的 GPU 和NVIDIA采購(gòu)的 HBM3 芯片，一起送到臺(tái)積電 CoWoS 封裝產(chǎn)線，以性能折損最小的方式加工成 H100，成本大約 723 美元。

B100的HBM是192GB的HBM3E，成本大概5000美元，die size加倍，制造和封裝成本增加超過(guò)一倍，大概是2000美元，B100和B200的成本大約7000美元，英偉達(dá)一貫90%的利潤(rùn)率，B100售價(jià)大概7萬(wàn)美元，B200大概8萬(wàn)美元。

Thor的CPU部分可能會(huì)與英偉達(dá)Grace一樣，使用ARM Neoverse的V2架構(gòu)，核心數(shù)肯定不需要72顆，12或16核心足夠了。Thor肯定無(wú)法使用昂貴的HBM，最多可能是GDDR6存儲(chǔ)。頂配Thor的售價(jià)估計(jì)在1000美元左右，低配估計(jì)600美元，英偉達(dá)可能是考慮成本因素，才將算力縮水了一半。

英偉達(dá)是不是有些江郎才盡了？

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見(jiàn)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATXMEGA128A1U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 100TQFP	ECAD模型下載ECAD模型	$7	查看
MC9S08PA16AVTJ	1	NXP Semiconductors	MICROCONTROLLER		$2.56	查看
STM32F205RCT6	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 120 MHz CPU, ART Accelerator	ECAD模型下載ECAD模型	$27.28	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ATXMEGA128A1U-AU

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 100TQFP