久久精品国产400部免费看,高潮迭起!午夜激情经典,国产无遮挡

?作者 | 肖恩，編輯 | 德新

自研芯片，頭部智駕新戰(zhàn)場(chǎng)

在8月小鵬MONA M03的發(fā)布會(huì)上，何小鵬宣布自研的圖靈芯片流片成功，這使其成為繼蔚來(lái)之后第二家正式公布自研智駕芯片的主機(jī)廠。早在去年的9月份，蔚來(lái)就對(duì)外公布了自研的智駕芯片——神璣NX9031，號(hào)稱1顆更比4顆強(qiáng)，并在7月份的蔚來(lái)科技日上宣布流片成功。理想內(nèi)部也在推進(jìn)自研芯片項(xiàng)目，代號(hào)「舒馬赫」，雖然項(xiàng)目開(kāi)始的時(shí)間相對(duì)晚一些，但是預(yù)計(jì)也將于年內(nèi)流片。

除此之外，比亞迪、Momenta也有自研智駕芯片項(xiàng)目正在進(jìn)行。芯片是個(gè)高投入、長(zhǎng)周期的行業(yè)，研發(fā)周期最少需要2 - 3年。除了高昂的研發(fā)成本外，后續(xù)還要投入巨額的流片費(fèi)用，單次流片的成本至少需要幾千萬(wàn)元，如果要設(shè)計(jì)一顆5nm的芯片，最終的研發(fā)成本可能高達(dá)20 - 30億元。除了高額的投入之外，還要面對(duì)技術(shù)上的風(fēng)險(xiǎn)，流片失敗、良品率低、性能不達(dá)標(biāo)等都是第一次踏足芯片行業(yè)的公司可能會(huì)碰到的問(wèn)題。

盡管如此，國(guó)內(nèi)智駕行業(yè)的頭部公司卻都不約而同地走上了自研芯片的道路。這篇文章，你將看到：

新勢(shì)力執(zhí)著自研芯片的原因；

- 特斯拉、英偉達(dá)設(shè)計(jì)大算力芯片的兩種不同路徑；
- 為什么一代FSD算力不大，卻能跑端到端大模型；
- 蔚來(lái)神璣一顆頂四顆，到底是多少算力？
- 1顆小鵬圖靈芯片，相當(dāng)于3顆OrinX。

新勢(shì)力為什么執(zhí)著自研智駕芯片？

最直接的原因是成本。以市場(chǎng)上高階智駕車型普遍使用的英偉達(dá)Orin X為例，剛發(fā)售時(shí)單顆售價(jià)超過(guò)500美金，即使現(xiàn)在也需要400美金一顆，支持城區(qū)高階輔助駕駛的功能至少需要2顆Orin X，而像蔚來(lái)這樣全系標(biāo)配4顆Orin X的車型，僅僅采購(gòu)芯片的成本就超過(guò)了1萬(wàn)元。

一顆高階自研芯片的研發(fā)投入雖然超過(guò)20億元，如果生命周期的用量超過(guò)100萬(wàn)片，那么單片的成本可以降至2000元。按照蔚來(lái)公布的信息，一顆自研的NX9031能夠替代4顆Orin X，即使一車使用2片，也能有上千元的成本節(jié)約，而隨著出貨量的提升，自研芯片的成本優(yōu)勢(shì)會(huì)進(jìn)一步放大。因此對(duì)于蔚來(lái)和小鵬這樣高階智駕芯片需求量大的車企來(lái)說(shuō)，自研芯片是一筆非常劃算的「生意」。

第二個(gè)重要的原因是性能。特斯拉作為智駕行業(yè)的先驅(qū)，也經(jīng)歷了智駕芯片從外采到自研的過(guò)程。在最早的Model S上使用的是Mobileye的EyeQ芯片，由于Mobileye是業(yè)內(nèi)出名的「小黑盒」，特斯拉很快就轉(zhuǎn)向了英偉達(dá)，而隨著算法的不斷進(jìn)化，英偉達(dá)的芯片已經(jīng)無(wú)法滿足特斯拉的要求，因此自研芯片就順理成章。特斯拉第一代的FSD芯片于2019年量產(chǎn)，單顆算力達(dá)到了72 TOPs。那時(shí)英偉達(dá)的Orin X還未上市，F(xiàn)SD芯片的性能秒殺市面上所有的智駕芯片。從這時(shí)候開(kāi)始，特斯拉的算法加速進(jìn)化，從Transformer到占用格柵網(wǎng)絡(luò)，再到現(xiàn)在的端到端大模型，每一次升級(jí)都帶領(lǐng)智駕行業(yè)向前躍進(jìn)。

在算法上，國(guó)內(nèi)的智駕公司一直緊跟特斯拉的步伐。進(jìn)入端到端的階段后，各家對(duì)算法也有著自己的理解，蔚來(lái)利用生成式AI設(shè)計(jì)了NWM世界模型，理想為了解決端到端大模型可解釋性差的問(wèn)題，將架構(gòu)升級(jí)為「端到端+VLM」，而小鵬則和特斯拉一樣堅(jiān)信純視覺(jué)才是智能駕駛的終局，發(fā)布了下一代AI鷹眼純視覺(jué)方案。但是要最大限度的發(fā)揮算法的能力，必須要有和軟件深度融合的硬件，自研芯片則是最理想的方式。

還有一個(gè)原因是出于供應(yīng)鏈的考慮，2020年正是美國(guó)開(kāi)始全面制裁華為的時(shí)候，經(jīng)過(guò)幾輪的制裁，華為無(wú)法生產(chǎn)高端芯片，手機(jī)業(yè)務(wù)受到重創(chuàng)。彼時(shí)半導(dǎo)體市場(chǎng)還面臨缺芯的問(wèn)題，芯片的供應(yīng)非常不穩(wěn)定，經(jīng)歷過(guò)這段時(shí)間的主機(jī)廠都深有體會(huì)，為了保證生產(chǎn)有時(shí)會(huì)需要數(shù)倍的價(jià)格來(lái)采購(gòu)芯片。芯片是智駕的核心，從這時(shí)候開(kāi)始以智駕為核心的主機(jī)廠意識(shí)到自研芯片的戰(zhàn)略意義，紛紛開(kāi)始推進(jìn)自研的計(jì)劃。

除了上面幾個(gè)原因之外，中國(guó)芯片產(chǎn)業(yè)的成熟也是主機(jī)廠開(kāi)始自研芯片的基礎(chǔ)，特別是芯片設(shè)計(jì)行業(yè)，華為海思幾乎以一己之力將中國(guó)高端芯片的設(shè)計(jì)能力提高到了世界領(lǐng)先的水平。雖然受到美國(guó)的制裁后，海思的芯片之路遇到了很大的困難，但是卻為中國(guó)的芯片設(shè)計(jì)行業(yè)輸送了大量的人才，蔚來(lái)和小鵬的自研芯片項(xiàng)目的負(fù)責(zé)人均來(lái)自華為海思，可謂是中國(guó)芯片行業(yè)的黃埔軍校。

強(qiáng)大的芯片是「設(shè)計(jì)」出來(lái)的

在對(duì)比各家自研芯片的參數(shù)之前，我們需要了解一些智駕芯片的基礎(chǔ)知識(shí)。

芯片是半導(dǎo)體行業(yè)中一個(gè)非常廣義的概念，CPU、MCU、GPU、PMIC等等這些都屬于芯片中的一種，而我們通常所說(shuō)的智駕芯片則屬于SOC（system on chip），也就是系統(tǒng)級(jí)芯片。它集成了CPU、GPU、NPU、ISP、和內(nèi)存等多個(gè)模塊，是一種集成度非常高的芯片。

以特斯拉的FSD芯片為例，內(nèi)部集成了一個(gè)12核的CPU、一個(gè)GPU、兩個(gè)NPU以及ISP和解碼器等模塊。其中ISP和解碼器負(fù)責(zé)處理輸入的視頻數(shù)據(jù)，而CPU、GPU和NPU則是SOC中負(fù)責(zé)計(jì)算任務(wù)的模塊，但是所處理的任務(wù)類型不同。

算力

在討論智駕芯片性能強(qiáng)弱的時(shí)候，我們習(xí)慣用算力單位TOPs來(lái)衡量，它的含義是每秒執(zhí)行1萬(wàn)億次操作。例如英偉達(dá)的OrinX，被公認(rèn)是目前市場(chǎng)上性能最強(qiáng)的智駕芯片，單顆芯片的最大算力達(dá)到了254 TOPs，而特斯拉的FSD芯片單顆算力只有72 TOPs，從這個(gè)數(shù)字上看，OrinX的算力確實(shí)很強(qiáng)，那么是否意味著TOPs越大的智駕芯片，性能就越好呢？

評(píng)價(jià)一個(gè)芯片性能的時(shí)候有很多算力單位，比如DMIPs、TFLOPs、TOPs。但我們習(xí)慣用TOPs來(lái)衡量智駕芯片的性能，這是因?yàn)楝F(xiàn)在自動(dòng)駕駛算法對(duì)算力消耗最大的部分是感知端的CV算法，CV算法的核心是卷積神經(jīng)網(wǎng)絡(luò)（CNN），它的本質(zhì)是累積累加運(yùn)算MAC（Multiply Accumulate），而TOPs可以很好地評(píng)價(jià)芯片在1s內(nèi)完成MAC操作的次數(shù)。

CPU

CPU也就是我們常說(shuō)的中央處理器，能處理各種不同類型的任務(wù)和指令，它的設(shè)計(jì)遵循馮·諾依曼架構(gòu)，這個(gè)架構(gòu)主要由運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備等五個(gè)主要部分組成。每個(gè)核心都可以獨(dú)立處理指令，但是CPU采用的是串行運(yùn)算方式，每個(gè)CPU核心一次只能執(zhí)行一個(gè)計(jì)算指令，完成后才能進(jìn)行下一個(gè)計(jì)算。

上圖是一個(gè)4核CPU的典型架構(gòu)，每個(gè)核心都可以獨(dú)立處理指令，但是CPU采用的是串行運(yùn)算方式，每個(gè)CPU核心一次只能執(zhí)行一個(gè)計(jì)算指令，完成后才能進(jìn)行下一個(gè)計(jì)算。

它的特點(diǎn)是通用性和邏輯控制力好，能夠處理各種復(fù)雜的計(jì)算需求，但是缺點(diǎn)也很明顯，不擅長(zhǎng)處理計(jì)算量大的并行計(jì)算。在CPU上我們經(jīng)常會(huì)聽(tīng)到X86和ARM的概念，他們分別對(duì)應(yīng)了兩種CPU架構(gòu)，X86采用的是CISC復(fù)雜指令集，性能強(qiáng)大但是功耗較高，而ARM采用的RISV精簡(jiǎn)指令集，追求的是性能和功耗的平衡。因此移動(dòng)端和車端的CPU一般都是采用ARM架構(gòu)。最后聊一下CPU的算力單位DMIPs（Dhrystone Million Instructions Per Second）。

由于不同的指令集和架構(gòu)對(duì)CPU的性能都有影響，因此不能簡(jiǎn)單的用CPU的主頻來(lái)評(píng)價(jià)，Dhrystone是一個(gè)基準(zhǔn)測(cè)試程序，通過(guò)測(cè)量CPU每秒能運(yùn)行多少次Dhrystone程序來(lái)評(píng)價(jià)不同CPU的性能，例如100DMIPs代表每秒能運(yùn)行1億次Dhrystone程序。自動(dòng)駕駛中的傳感器融合、路徑規(guī)劃和決策等算法都需要強(qiáng)大的CPU性能支持。

GPU

CPU能處理復(fù)雜的計(jì)算任務(wù)但是不擅長(zhǎng)并行計(jì)算，為了解決這個(gè)問(wèn)題，GPU出現(xiàn)了，最開(kāi)始是為了處理圖形任務(wù)而設(shè)計(jì)的，它擁有成百上千個(gè)計(jì)算單元，每個(gè)單元能獨(dú)立執(zhí)行指令，能夠并行處理大量的計(jì)算任務(wù)。

上圖是一個(gè)GPU的典型架構(gòu)，和CPU相比它的邏輯控制單元和緩存都比較簡(jiǎn)單，大部分空間都留給了計(jì)算單元。因此GPU適合處理大量并行計(jì)算任務(wù)，但是不能處理復(fù)雜的指令，更適合處理邏輯簡(jiǎn)單、類型統(tǒng)一的任務(wù)，例如圖形處理和渲染。

由于圖形處理和渲染大需要大量的浮點(diǎn)運(yùn)算，因此GPU的算力一般用TFLOPs來(lái)衡量。英偉達(dá)最新一代的顯卡RTX 4090的算力大約為48 TFLOPs，作為對(duì)比OrinX的算力是5.2 TFLOPs。和圖形處理類似，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也需要大量的并行計(jì)算，因此GPU的架構(gòu)也非常適合用于深度學(xué)習(xí)的計(jì)算。OrinX的架構(gòu)就是以GPU為核心，可以實(shí)現(xiàn)int8精度下最大254TOPs的算力。

NPU

既然GPU可以很好地處理AI算法中的矩陣和卷積運(yùn)算，為什么還需要NPU呢？GPU雖然性能強(qiáng)大，但是也有功耗高、成本昂貴等問(wèn)題，而NPU是專為深度學(xué)習(xí)和AI算法設(shè)計(jì)的專用處理器，在運(yùn)行神經(jīng)網(wǎng)絡(luò)算法時(shí)，NPU比GPU計(jì)算速度更快，功耗更低。但是NPU的缺點(diǎn)也很明顯，它的通用性較差，能處理的計(jì)算任務(wù)類型有限，在軟件生態(tài)上也相對(duì)封閉。

而GPU已經(jīng)發(fā)展了很多年，有更為完善的軟件生態(tài)，特別是英偉達(dá)的CUDA架構(gòu)，有非常豐富的應(yīng)用和第三方的工具支持，開(kāi)發(fā)人員可以非常方便地使用C/C++語(yǔ)言在這個(gè)架構(gòu)上編寫程序，運(yùn)行在英偉達(dá)支持CUDA的芯片上。一個(gè)有趣的現(xiàn)象是，英偉達(dá)作為AI時(shí)代的領(lǐng)軍者，在SOC中并沒(méi)有使用NPU的架構(gòu)，而是使用GPU作為AI計(jì)算的核心，但是蘋果和高通的SOC設(shè)計(jì)中都加入了單獨(dú)的NPU模塊。

因?yàn)橛ミ_(dá)的GPU在性能上足夠強(qiáng)大，不需要單獨(dú)增加NPU模塊來(lái)。但是對(duì)于其他廠商來(lái)說(shuō)，無(wú)法使用英偉達(dá)這樣性能強(qiáng)大的GPU內(nèi)核，因此單獨(dú)設(shè)計(jì)一個(gè)NPU模塊來(lái)處理AI算法則是更好的選擇。

ISP

ISP(Image Signal Processor)，即圖像信號(hào)處理器，主要作用是對(duì)前端圖像傳感器輸出的信號(hào)做后期處理，主要功能有線性糾正、噪聲去除、壞點(diǎn)去除、內(nèi)插、白平衡、自動(dòng)曝光控制等。ISP分為外置和內(nèi)置兩種，現(xiàn)在大部分自動(dòng)駕駛芯片都將ISP集成到了SOC內(nèi)部，攝像頭的原始圖像經(jīng)過(guò)ISP處理后，輸入給感知算法。

一般會(huì)用像素處理能力來(lái)評(píng)價(jià)一個(gè)ISP的性能。例如OrinX內(nèi)置的ISP模塊處理像素的速度是1.85 Gpixel/s，pixel/s越高代表能處理的攝像頭像素越高，在不考慮圖像壓縮的情況下，3.2 Gpixel/s可以處理大約一億像素。

另一個(gè)非常重要但是容易被忽略的參數(shù)是位寬，它代表了每個(gè)像素包含的數(shù)據(jù)量，位寬越大單個(gè)像素里包含的數(shù)據(jù)量越大，可以表示的顏色也越多。例如位寬為8bit時(shí)，一個(gè)像素可以表示256種顏色，而24bit時(shí)則可以表示1600萬(wàn)種顏色。

內(nèi)存帶寬

最后聊一下內(nèi)存帶寬，這是我們?cè)谟懻撝悄荞{駛芯片性能時(shí)經(jīng)常忽略的一個(gè)參數(shù)。神經(jīng)網(wǎng)絡(luò)算法的本質(zhì)是矩陣的乘積累加運(yùn)算，這個(gè)過(guò)程中需要頻繁的讀取數(shù)據(jù)，使用的算法模型參數(shù)越多，在內(nèi)存中需要保存的數(shù)據(jù)量越大。不論是智能駕駛還是人工智能，都在走向大模型的技術(shù)路線，對(duì)于存儲(chǔ)帶寬的要求也會(huì)越來(lái)越高。自動(dòng)駕駛領(lǐng)域非?；馃岬?strong>Transformer模型，它的參數(shù)量在10億左右，而GPT-4的參數(shù)規(guī)模則超過(guò)1.5萬(wàn)億。

我們?cè)谑謾C(jī)領(lǐng)域常見(jiàn)的內(nèi)存方案是LPDDR，這是一種用于移動(dòng)端的低功耗內(nèi)存技術(shù)，目前主流的自動(dòng)駕駛芯片也是使用這個(gè)技術(shù)，最新的標(biāo)準(zhǔn)是LPDDR5X，最高帶寬8533MT/s，這里的MT/s指的是每秒傳輸一百萬(wàn)次，實(shí)際能傳輸?shù)臄?shù)據(jù)量還取決于位寬。除了LPDDR之外，還有兩種帶寬更高的技術(shù)：GDDR和HBM。

HBM是一種使用了3D堆疊架構(gòu)和硅通孔技術(shù)的動(dòng)態(tài)隨機(jī)存儲(chǔ)技術(shù)，主要用于高性能計(jì)算和AI領(lǐng)域，目前已發(fā)展到HBM3。采用這個(gè)技術(shù)的英偉達(dá)H100 NVL顯卡，最大帶寬能達(dá)到7800GB/s。

但是HBM的缺點(diǎn)就是太貴，汽車領(lǐng)域無(wú)法承受這么高的成本。GDDR可以算是廉價(jià)版的HBM，主要用于顯卡領(lǐng)域，目前發(fā)展到GDDR6x，例如英偉達(dá)最新的RTX4090顯卡采用的就是GDDR6x，最大帶寬能達(dá)到1008GB/s。GDDR的成本雖然遠(yuǎn)低于HBM，但是也要達(dá)到LPDDR的3倍以上。在汽車行業(yè)有一家OEM就把GDDR技術(shù)用在了自動(dòng)駕駛的芯片上，特斯拉最新的FSD二代芯片支持GDDR6，為了支持大模型特斯拉也是下了血本。

英偉達(dá)、特斯拉，大算力芯片的設(shè)計(jì)

在智能駕駛技術(shù)爆發(fā)之前，市場(chǎng)上的智駕芯片都是小算力，最高支持到L2的ADAS功能，最經(jīng)典的芯片是Mobileye的EyeQ系列。

從英偉達(dá)進(jìn)入自動(dòng)駕駛領(lǐng)域開(kāi)始，智駕芯片進(jìn)入大算力時(shí)代。英偉達(dá)的OrinX和特斯拉的FSD芯片分別代表了大算力智駕芯片的兩種設(shè)計(jì)思路：一個(gè)是在硬件上堆料來(lái)打破算力的天花板，大力出奇跡；另一個(gè)是算法和硬件深度融合，最大效率的利用芯片的性能。

OrinX

雖然英偉達(dá)已經(jīng)發(fā)布了最大算力超過(guò)1000 TOPs的Thor（邁向千T算力時(shí)代，最強(qiáng)智駕芯片Thor量產(chǎn)前夜），但是距離量產(chǎn)還有一段時(shí)間。目前已量產(chǎn)的智駕芯片中，紙面算力最大的還是OrinX，先來(lái)看一下它的架構(gòu)。

CPU部分采用了12核的ARM Cortex-A78AE，這是ARM專為車載和移動(dòng)端設(shè)計(jì)的架構(gòu)，算力為240 KDMIPS，同時(shí)基于Cortex-R52s提供了功能安全島。GPU部分使用的英偉達(dá)的Ampere架構(gòu)，由2個(gè)圖形處理集群（GPC，Graphic Processing Cluster）組成，每個(gè)GPC有8個(gè)流處理器（SM，Streaming Multiprocessors），每個(gè)SM擁有128個(gè)CUDA核心和4個(gè)Tensor核心，OrinX總計(jì)擁有2048個(gè)CUDA核心和64個(gè)Tensor核心，在FP32精度下的GPU算力為5.2 TFLOPs。

OrinX沒(méi)有專門的NPU，但是提供了兩個(gè)加速器PVA和DLA，PVA是計(jì)算機(jī)視覺(jué)算法的加速器，DLA則是專門針對(duì)深度神經(jīng)網(wǎng)絡(luò)中卷積計(jì)算的加速器。通過(guò)GPU和DLA，OrinX在int8精度下最大可以提供254 TOPs的算力。ISP最大的像素處理能力是1.85 Gpixel/s，位寬沒(méi)有明確的數(shù)據(jù)，可能是16 bit。內(nèi)存部分采用的是256 bit的LPDDR5，最高帶寬6400 MT/s，對(duì)應(yīng)的內(nèi)存帶寬是204.8 GB/s。

從架構(gòu)上看，OrinX的CPU性能中規(guī)中矩，但是GPU性能強(qiáng)大，依靠英偉達(dá)強(qiáng)大的技術(shù)實(shí)力，不需要額外的NPU模塊，直接通過(guò)CUDA和Tensor核來(lái)滿足AI算法的需求，加上英偉達(dá)成熟的工具鏈和生態(tài)，不愧為市場(chǎng)上占有率最高的大算力智駕芯片。

FSD芯片

特斯拉最新的HW4.0已經(jīng)搭載了FSD二代芯片，但是沒(méi)有公開(kāi)具體的參數(shù)。這里還是以第一代FSD芯片為例，來(lái)看看特斯拉自研芯片的思路，先上架構(gòu)圖。

CPU用的是ARM Coretex-A72，一共有12個(gè)核心，A72單核心的CPU算力為5.5 DMIPs/MHz，主頻是2.2 GHz，12個(gè)核心的總算力大約為146 KDMIPs。
GPU部分使用的是ARM Mali-G71，算力只有600 GFLOPs，但GPU不是FSD芯片主要的計(jì)算核心，影響不大。

FSD芯片最核心的部分是NPU，每個(gè)芯片上有兩個(gè)NPU，專為神經(jīng)網(wǎng)絡(luò)計(jì)算中的MAC設(shè)計(jì)，每個(gè)NPU在int8精度下的最大算力為36 TOPs，單顆FSD芯片的最大算力為72 TOPs。

從數(shù)字上看并不是很大，與OrinX單顆254 TOPs看起來(lái)有差距，但是OrinX的這個(gè)數(shù)字是稀疏算力，而且是把CUDA和Tensor核心加在一起的綜合算力，實(shí)際上參與MAC計(jì)算的主要是Tensor核心，它的稠密算力只有54 TOPs。這也是為什么第一代FSD芯片雖然算力數(shù)字不大，但是Transformer和端到端大模型依然能夠跑起來(lái)的原因。從FSD芯片的設(shè)計(jì)可以看到自研的好處，專為神經(jīng)網(wǎng)絡(luò)算法而設(shè)計(jì)的NPU模塊，能夠最大限度的發(fā)揮芯片的性能，能效比拉滿。

地平線J6P

最后來(lái)看看國(guó)內(nèi)的后起之秀——地平線。作為中國(guó)智駕芯片的一哥，地平線進(jìn)步的速度也非?？?。最新的征程6系列芯片包含了從低階到高階的多款產(chǎn)品，其中的旗艦產(chǎn)品J6P的算力更是達(dá)到了560 TOPs。雖然地平線沒(méi)有公布詳細(xì)的架構(gòu)，但是從一些數(shù)據(jù)可以看出這顆芯片擁有非常強(qiáng)大的性能。

CPU采用的是18核心的ARM Cortex-A78E，算力超過(guò)400DMIPs，接近OrinX的兩倍。GPU算力不高，只有200GFLOPs；同時(shí)內(nèi)置功能安全島，大概率使用的是ARM Cortex-R52內(nèi)核，實(shí)現(xiàn)ASIL-D等級(jí)。NPU部分使用的是地平線自研的BPU架構(gòu)，目前已經(jīng)發(fā)展到了第三代，地平線命名為納什。這一代BPU最大的特點(diǎn)是針對(duì)Transformer、BEV等算法做了針對(duì)性的優(yōu)化，同時(shí)在架構(gòu)上使用了三級(jí)存儲(chǔ)架構(gòu)，可以降低大規(guī)模參數(shù)下帶寬的瓶頸問(wèn)題，加上浮點(diǎn)向量加速單元和數(shù)據(jù)變換引擎等技術(shù)，J6P在int8精度下的最大算力達(dá)到了560 TOPs。

存儲(chǔ)方面使用了LPDDR5，最高帶寬205GB/s，和OrinX保持一致。J6P的晶體管數(shù)量達(dá)到了370億，相比之下英偉達(dá)OrinX是170億，而FSD芯片只有60億。強(qiáng)大的CPU和NPU算力，加上對(duì)神經(jīng)網(wǎng)絡(luò)算法的特殊優(yōu)化，J6一發(fā)布就獲得了極大的關(guān)注，國(guó)內(nèi)主流的OEM都官宣將基于J6開(kāi)發(fā)新一代自動(dòng)駕駛域控，J6的最終表現(xiàn)讓人期待。

誰(shuí)是自研最強(qiáng)芯片？

在去年的NIO DAY上，蔚來(lái)就率先公布了自研芯片神璣NX9031，并于今年7月份流片成功，隨后小鵬也在8月份宣布自研芯片圖靈流片成功，兩家都走的是大算力路線。下面就從已知的參數(shù)上，來(lái)看看誰(shuí)才是自研的最強(qiáng)芯片。蔚來(lái)神璣NX9031發(fā)布會(huì)上斌哥稱這是全球第一顆5nm的智駕芯片，可見(jiàn)蔚來(lái)是下了血本?，F(xiàn)在有能力代工5nm芯片的只有臺(tái)積電和三星，而且資源緊張，代工費(fèi)不菲。晶體管數(shù)量超過(guò)500億，是OrinX的兩倍以上，加上5nm的先進(jìn)制程，芯片的性能表現(xiàn)令人期待。

CPU部分采用的大小核設(shè)計(jì)，總共是32個(gè)核心，這里面包含三種核心，大核是ARM Cortex-A78AE，小核是A65AE，內(nèi)部集成了功能安全島，使用的是R52?？偟腃PU算力達(dá)到了615K DMIPs。

GPU沒(méi)有公開(kāi)數(shù)據(jù)，發(fā)布會(huì)上也沒(méi)有做介紹，有可能是沒(méi)有單獨(dú)的GPU模塊，把圖形渲染的部分都交給座艙來(lái)完成。內(nèi)存使用的是LPDDR5x，這是2021年最新的DDR標(biāo)準(zhǔn)，最高帶寬8533Mbps，位寬按照256bit來(lái)計(jì)算的話，帶寬可以達(dá)到273GB/s。NPU沒(méi)有公布具體的架構(gòu)，預(yù)計(jì)有2個(gè)核心。

蔚來(lái)特別強(qiáng)調(diào)了對(duì)算法的優(yōu)化，Transformer類算法性能有6.5倍的提升，Lidar類算法性能有4倍的提升，BEV算法性能4.3倍提升，但是蔚來(lái)沒(méi)有提是和哪個(gè)芯片相比，大概率是以當(dāng)前OrinX的平臺(tái)性能為參考。蔚來(lái)沒(méi)有公布具體的算力，但是發(fā)布會(huì)上斌哥說(shuō)一顆神璣的性能相當(dāng)于四顆OrinX，有些人就認(rèn)為算力能超過(guò)1000 TOPs，這個(gè)顯然是錯(cuò)誤的。兩個(gè)芯片并聯(lián)的算力并不能直接相加，因?yàn)闀?huì)受到帶寬的限制。

Orin模組之間是通過(guò)以太網(wǎng)連接，4個(gè)OrinX并聯(lián)最多也就能增加20%的算力，所以當(dāng)前蔚來(lái)平臺(tái)的最大算力在300 TOPs左右。如果按照這個(gè)數(shù)字來(lái)看，斌哥所說(shuō)的一顆頂四顆就可以理解了，估計(jì)神璣的實(shí)際算力在500 TOPs左右。發(fā)布會(huì)上斌哥特別強(qiáng)調(diào)了ISP的性能，位寬26bit，像素處理能力達(dá)到了6.5Gpixel/s，前面介紹ISP參數(shù)的時(shí)候提到過(guò)，位寬24bit代表一個(gè)像素可以表示1600萬(wàn)種顏色，26bit則是6700萬(wàn)種顏色。

作為對(duì)比OrinX則是16bit左右，而像素處理能力OrinX也只有1.85Gpixel/s，可以說(shuō)神璣的ISP性能是非常強(qiáng)大，從發(fā)布會(huì)演示的視頻來(lái)看，在畫面細(xì)節(jié)和暗光表現(xiàn)上都有巨大的提升。但是有個(gè)小問(wèn)題是發(fā)布會(huì)上展示的圖像是給人眼觀看的，并不是實(shí)際輸入給算法的色彩格式，神璣這顆強(qiáng)大的ISP對(duì)算法的實(shí)際提升還需要時(shí)間驗(yàn)證。

從這些性能參數(shù)可以看出蔚來(lái)自研芯片的思路，不惜成本采用了5nm的工藝，換來(lái)的是斷層領(lǐng)先的CPU和ISP性能，加上專為算法設(shè)計(jì)的NPU架構(gòu)，最終可以實(shí)現(xiàn)1顆頂4顆OrinX的表現(xiàn)。可以說(shuō)在Thor正式上車之前，神璣NX9031就是當(dāng)下最強(qiáng)的智駕芯片，第一次設(shè)計(jì)芯片就能達(dá)到這樣的水平，讓人嘆服。

蔚來(lái)宣布自研芯片流片成功的一個(gè)月后，小鵬也正式公布了自己的自研芯片——圖靈，一顆專為AI大模型定制的芯片，能用于智能駕駛、飛行汽車和智能機(jī)器人等多個(gè)領(lǐng)域。小鵬沒(méi)有公布非常詳細(xì)的參數(shù)，我們可以從已知的幾個(gè)數(shù)據(jù)上大概推測(cè)出它的性能表現(xiàn)。

小鵬公布了總的核心數(shù)是40個(gè)，這其中包含了CPU和功能安全島，考慮到這顆芯片還要用于其它場(chǎng)景，需要考慮芯片的通用性，因此大概率是包含了GPU模塊的。CPU大核預(yù)計(jì)采用的是ARM Cortex-A78AE，核心數(shù)量在24個(gè)左右，會(huì)有2-4個(gè)Cortex-R52作為功能安全島，整體CPU算力會(huì)在500 kDMIPs左右。GPU部分可能使用的是ARM MALI-G78AE，核心數(shù)量在12個(gè)左右，預(yù)計(jì)GPU算力在1000 GFLOPs左右。NPU部分有2個(gè)核心。

小鵬在發(fā)布會(huì)上介紹圖靈芯片在本地最高可運(yùn)行300億個(gè)參數(shù)的大模型，結(jié)合小鵬未來(lái)的智駕路線，可以看出這顆芯片的NPU是專為端到端大模型而設(shè)計(jì)的。雖然沒(méi)有公布具體的算力，但是何小鵬在發(fā)布會(huì)上也提到1顆圖靈芯片相當(dāng)于3顆OrinX芯片的算力，預(yù)計(jì)它的算力也能達(dá)到400 TOPs左右。

ISP部分比較特別，有2個(gè)獨(dú)立的ISP核心，一個(gè)負(fù)責(zé)AI算法的圖像處理，另一個(gè)負(fù)責(zé)圖像的合成，可能是考慮到其它應(yīng)用場(chǎng)景里不一定有汽車座艙芯片那樣強(qiáng)大的ISP模塊，所以單獨(dú)增加一個(gè)圖像處理的ISP核心，可以大大的提高芯片的通用性。

小鵬沒(méi)有公布具體的制程，但是提到了這顆芯片性價(jià)比非常高，因此大概率還是采用7nm的制程。從這些參數(shù)上可以看出小鵬在自研芯片的設(shè)計(jì)路線上與蔚來(lái)有很大的不同。

首先是性能和價(jià)格的取舍，小鵬沒(méi)有追求高制程，而是采用性價(jià)比較高的7nm，而蔚來(lái)為了追求性能，不惜成本也要采用5nm制程；其次是為大模型而定制的NPU模塊，從這里也能看出蔚來(lái)和小鵬在智駕路線上的不同。蔚來(lái)的智駕路線里激光雷達(dá)還是重要的部分，因此神璣芯片對(duì)Lidar的算法做了特殊的優(yōu)化，而小鵬則是走純視覺(jué)路線，押注端到端大模型。

最后一點(diǎn)是非常高的通用性，圖靈芯片集成了GPU模塊和2個(gè)ISP核心，能應(yīng)用于多個(gè)類型的產(chǎn)品，是小鵬AI版圖中非常重要的一部分。而蔚來(lái)的神璣芯片則專為智駕而設(shè)計(jì)，舍棄了GPU模塊，把芯片上的空間留給了其它模塊。

從理論性能上來(lái)說(shuō)蔚來(lái)的神璣無(wú)疑是當(dāng)下自研的最強(qiáng)芯片，但是自研芯片是為算法而定制的，性能強(qiáng)大并不代表全部，最終還是要看系統(tǒng)的實(shí)際表現(xiàn)。明年Q1上市的蔚來(lái)ET9將會(huì)搭載2顆神璣NX9031，小鵬的圖靈芯片也將于明年上車，地平線與J6P深度軟硬結(jié)合的智駕方案SuperDrive預(yù)計(jì)明年Q3量產(chǎn)。

還有傳聞中的理想、比亞迪、Momenta，自研芯片和軟硬一體將是智駕行業(yè)的下一個(gè)趨勢(shì)，明年各個(gè)頭部大廠在智駕上的表現(xiàn)讓人期待。