作者:豐寧
談及AI芯片,公眾首先映入腦海的往往是GPU的身影。GPU在訓(xùn)練和運(yùn)行大AI模型方面一直占據(jù)主導(dǎo)地位,其強(qiáng)大的并行處理能力讓它在處理復(fù)雜計(jì)算任務(wù)時(shí)游刃有余。然而由于一些原因,炙手可熱的GPU正在面臨一些挑戰(zhàn)與局限性,使其 “AI寵兒” 的地位逐漸受到動(dòng)搖。
?01、風(fēng)口上的GPU
關(guān)于GPU市場格局變動(dòng)的原因,可歸結(jié)為以下三大要素:
第一點(diǎn),GPU已成為AI芯片領(lǐng)域競爭的核心焦點(diǎn)。目前,英偉達(dá)所產(chǎn)出的GPU主要被各大科技巨頭所壟斷。近日,LessWrong網(wǎng)站上發(fā)表了一篇博客,根據(jù)公開數(shù)據(jù)對英偉達(dá)芯片的產(chǎn)量、各個(gè)AI巨頭的GPU/TPU數(shù)量進(jìn)行了估計(jì)。其中微軟目前擁有75萬至90萬塊H100 GPU,預(yù)計(jì)到2025年這一數(shù)字將飆升至250萬至310萬塊。谷歌的表現(xiàn)同樣強(qiáng)勢,現(xiàn)階段掌握了100萬至150萬塊H100,明年預(yù)計(jì)增加到350萬至420萬塊。Meta擁有55萬至65萬塊GPU,預(yù)計(jì)未來一年將增長至190萬至250萬塊。此外,亞馬遜當(dāng)前擁有25萬至40萬塊GPU,預(yù)計(jì)將在2025年達(dá)到130萬至160萬塊。而新興公司xAI也在迅速崛起,預(yù)計(jì)從10萬塊H100增長至55萬至100萬塊。這些數(shù)據(jù)充分反映出大型企業(yè)對AI算力的爭奪已趨于白熱化,尤其是微軟和谷歌。此外,Melius Research的分析師Ben Reitzes的報(bào)告顯示,這些巨頭正在特別購買英偉達(dá)的GB200芯片,其中微軟下單量在70萬至140萬塊之間,谷歌為40萬塊,亞馬遜則購買了36萬塊,OpenAI也不甘示弱,至少擁有40萬塊GB200芯片。科技巨頭包攬英偉達(dá)GPU的同時(shí),直接導(dǎo)致了中小型企業(yè)在獲取GPU資源上面臨嚴(yán)峻挑戰(zhàn)。
第二點(diǎn),GPU價(jià)格的飆升使得這些科技巨頭在采購芯片時(shí)需要支付更高的成本。據(jù)投行Raymond James的分析師估計(jì),H100售價(jià)為2.5萬至3萬美元。?就算是價(jià)格、訂購數(shù)量都按照區(qū)間的低端進(jìn)行計(jì)算,微軟也需要花費(fèi)超過180億美元用于購買GPU。微軟、亞馬遜、谷歌等科技巨頭正在全球范圍內(nèi)加速布局AI算力,以維持其市場競爭力。據(jù)報(bào)道,這些公司在AI相關(guān)項(xiàng)目和數(shù)據(jù)中心上的投資已超過400億美元,并預(yù)計(jì)未來十年的支出將達(dá)到1萬億美元。在眾多花錢的項(xiàng)目中,購買GPU便是各家的當(dāng)務(wù)之急。日前,埃隆·馬斯克的人工智能初創(chuàng)公司xAI已經(jīng)向英偉達(dá)成功下單,訂購了價(jià)值10.8億美元的GB200 AI芯片,并憑借這筆巨額交易獲得了優(yōu)先交付的權(quán)利。高昂的售價(jià)讓科技巨頭們壓力倍增,叫苦不迭。
第三點(diǎn),從另一角度來看,即便科技巨頭暫且將成本因素置于次要地位,英偉達(dá)本身的供應(yīng)不足狀況仍使這些科技巨頭憂心不已。目前,英偉達(dá)的GPU壟斷了約80%的AI半導(dǎo)體,制造在臺積電進(jìn)行。在后續(xù)的流程中,會(huì)利用CoWoS進(jìn)行封裝,但是CoWoS的產(chǎn)量目前是一個(gè)瓶頸。另外,在CoWoS中,GPU周圍放置了多個(gè)HBM(高帶寬內(nèi)存),這些HBM是堆疊的DRAM,也被認(rèn)為是瓶頸之一。
在產(chǎn)能不足、巨頭哄搶、售價(jià)高昂的背景下,大大小小眾多企業(yè)開始積極探尋英偉達(dá) GPU 的替代品,試圖破解AI芯片市場的一家獨(dú)大的現(xiàn)狀
AMD首席執(zhí)行官蘇姿豐(Lisa Su)也在前不久表示,隨著行業(yè)將精力集中于更加標(biāo)準(zhǔn)化的模型設(shè)計(jì),將有機(jī)會(huì)構(gòu)建更多在可編程性和靈活性方面要求不那么高的定制芯片。這種芯片將更加節(jié)能、體積更小、成本更低?!澳壳埃珿PU是大語言模型的首選架構(gòu),因?yàn)镚PU在并行處理方面非常高效,但在可編程性方面有所欠缺,”蘇姿豐說?!拔迥甓嗪笏€會(huì)是首選架構(gòu)嗎?我認(rèn)為情況會(huì)發(fā)生變化?!碧K姿豐預(yù)計(jì),五年或七年時(shí)間內(nèi)GPU還不會(huì)失勢,但會(huì)出現(xiàn)GPU以外的新勢力。那么,除了GPU,還有哪些類型的芯片能夠勝任AI計(jì)算的任務(wù)呢?
?02、AI芯片的另外兩種主流選擇
在近兩年的技術(shù)浪潮中,另外兩種芯片——FPGA與ASIC,也逐漸走進(jìn)了大眾的視野。FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列),是一種半定制芯片。用戶可以根據(jù)自身的需求進(jìn)行重復(fù)編程。
FPGA 的優(yōu)點(diǎn)是既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn),對芯片硬件層可以靈活編譯,功耗小于 CPU、GPU;缺點(diǎn)是硬件編程語言較難,開發(fā)門檻較高,芯片成本、價(jià)格較高。FPGA 比 GPU、CPU 更快是因?yàn)槠渚哂卸ㄖ苹慕Y(jié)構(gòu)。ASIC(Application Specific Integrated Circuit特定用途集成電路)根據(jù)產(chǎn)品的需求進(jìn)行特定設(shè)計(jì)和制造的集成電路,其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于GPU、FPGA,但初始投入大,專業(yè)性強(qiáng)縮減了其通用性,算法一旦改變,計(jì)算能力會(huì)大幅下降,需要重新定制。
從成本角度看,GPU、FPGA、ASIC 三種硬件從左到右,從軟件到硬件,通用性逐漸降低、越專用,可定制化逐漸提高,相應(yīng)的設(shè)計(jì)、開發(fā)成本逐漸提高,但是單位成本理論性能越高。
從運(yùn)算速度來看,由于GPU架構(gòu)固定,硬件原生支持的指令也固定。而FPGA和ASIC則是可編程的,因此,GPU的運(yùn)算速度要遜色于FPGA和ASIC。
從功耗和時(shí)延角度來看,GPU的功耗遠(yuǎn)遠(yuǎn)大于FPGA和ASIC。GPU時(shí)延也高于FPGA、ASIC。
FPGA與ASIC的適用場景也不盡相同,就邊緣AI而言,F(xiàn)PGA確實(shí)展現(xiàn)出了更高的適用性;ASIC的主要優(yōu)勢在于其針對特定任務(wù)的高度優(yōu)化,這通常會(huì)導(dǎo)致更高的性能和更低的功耗(在大量生產(chǎn)時(shí)),也正因此,在AI計(jì)算應(yīng)用中,業(yè)內(nèi)對于ASIC的呼聲似乎要略高于FPGA。
?03、多家機(jī)構(gòu),看好ASIC
12月,博通的定制ASIC和英偉達(dá)GPU引起廣泛討論。摩根士丹利12月15日發(fā)布研報(bào)《AI ASIC 2.0:潛在贏家》,認(rèn)為ASIC憑借針對性優(yōu)化和成本優(yōu)勢,有望逐步從英偉達(dá)GPU手中爭取更多市場份額。隨著生成式AI應(yīng)用的迅猛發(fā)展,全球AI計(jì)算需求呈現(xiàn)爆炸式增長。報(bào)告預(yù)計(jì),到2027年,云端AI半導(dǎo)體市場規(guī)模將達(dá)到2380億美元,而在樂觀情境下甚至可能達(dá)到4050億美元。
摩根士丹利預(yù)計(jì),AI ASIC市場規(guī)模將從2024年的120億美元增長至2027年的300億美元,年復(fù)合增長率達(dá)到34%。盡管英偉達(dá)的AI GPU性能卓越,但摩根士丹利認(rèn)為,云服務(wù)提供商如谷歌、亞馬遜和微軟,仍在積極推動(dòng)ASIC設(shè)計(jì)。這背后的驅(qū)動(dòng)力主要有兩個(gè)。
首先,是優(yōu)化內(nèi)部工作負(fù)載。通過開發(fā)自定義芯片,CSP可以更高效地滿足其內(nèi)部AI推理和訓(xùn)練需求。
其次,是更好的性價(jià)比。報(bào)告指出,雖然英偉達(dá)的GPU具備強(qiáng)大的計(jì)算性能,但其硬件價(jià)格高昂,特別是在AI訓(xùn)練過程中。相比之下,ASIC的單位成本更低,尤其是在大規(guī)模使用后。巴克萊的另一份報(bào)告則預(yù)計(jì),AI推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上,推理計(jì)算的需求甚至可以超過訓(xùn)練計(jì)算需求,達(dá)到后者的4.5倍。英偉達(dá)GPU目前在推理市場中市占率約80%,但隨著大型科技公司定制化ASIC芯片不斷涌現(xiàn),這一比例有望在2028年下降至50%左右。
?04、國際龍頭,各自布局
博通,是AI市場的“新任寵兒”
截至12月13日收盤,美股又一家萬億美元市值芯片公司誕生。當(dāng)天博通股價(jià)大漲超過24%,市值首次突破1萬億美元大關(guān),也成為繼英偉達(dá)和臺積電之后,全球第三家市值過萬億美元的半導(dǎo)體行業(yè)公司。博通股價(jià)大漲是在公司公布了好于預(yù)期財(cái)報(bào)之后。博通全年業(yè)績顯示,2024財(cái)年,全年?duì)I收達(dá)516億美元,同比增長44%,其中AI和VMware兩大業(yè)務(wù)板塊成為核心增長引擎。ASIC定制服務(wù)是博通半導(dǎo)體業(yè)務(wù)的一項(xiàng)重要收入來源,特別是在AI的驅(qū)動(dòng)之下,博通來自與AI相關(guān)的ASIC定制服務(wù)營收正快速增長。博通CEO陳福陽在近日的財(cái)報(bào)電話會(huì)上預(yù)測稱,目前的三大科技客戶將在2027財(cái)年花費(fèi)600億至900億美元購買博通供應(yīng)的人工智能組件。業(yè)界分析,博通ASIC芯片的大客戶包括谷歌、Meta;近期市場消息顯示,蘋果也有計(jì)劃開發(fā)AI服務(wù)器芯片,合作方很有可能也是博通。不僅如此,從美國目前對中國的禁售條款來看,ASIC芯片似乎始終被排除在外,博通也因此持續(xù)受益。隨著博通為云計(jì)算廠商定制更多AI芯片,這些廠商可能減少對英偉達(dá)芯片的依賴,有市場投資者擔(dān)心英偉達(dá)未來的芯片需求可能有所緩解。
Marvell受到追捧
與博通業(yè)務(wù)模型類似的Marvell也在近日受到資本市場追捧。12月初,Marvell已經(jīng)發(fā)布了2025財(cái)年第三財(cái)季財(cái)報(bào),期內(nèi)公司實(shí)現(xiàn)營業(yè)收入15.16億美元,同比增長7%、環(huán)比增長19%。其中數(shù)據(jù)中心相關(guān)收入同比增長98%、環(huán)比增長25%,這是公司旗下所有業(yè)務(wù)中唯一實(shí)現(xiàn)同比收入增長的業(yè)務(wù)類型。Marvell總裁兼CEO Matt Murphy指出,這主要來自于AI定制化芯片需求支撐,此外還有云服務(wù)客戶對于互聯(lián)產(chǎn)品的持續(xù)性需求。預(yù)計(jì)這種趨勢將延續(xù)到2026財(cái)年(約指2025公歷年份)。僅在12月,Marvell先是官宣與亞馬遜云(AWS)擴(kuò)大戰(zhàn)略合作,宣布一項(xiàng)為期五年、跨代際產(chǎn)品的合作計(jì)劃,涵蓋Marvell旗下定制AI芯片、DSP、數(shù)據(jù)中心互聯(lián)光模塊、以太網(wǎng)交換機(jī)解決方案等多種類型,以支持AWS推進(jìn)在數(shù)據(jù)中心計(jì)算、網(wǎng)絡(luò)和存儲等方面強(qiáng)化產(chǎn)品能力。不久還宣布推出業(yè)界首款3nm高速(1.6Tbps)互聯(lián)平臺。博通和Marvell有類似的產(chǎn)業(yè)定位,并不聚焦于GPU這類通用的大規(guī)模并行計(jì)算芯片設(shè)計(jì)研發(fā),而是更專注于幫助有芯片定制化需求的主流云服務(wù)廠商進(jìn)行產(chǎn)品設(shè)計(jì)。這也是ASIC芯片相關(guān)業(yè)績高速成長的原因。
谷歌,自研TPU
Google 早在 2013 年就秘密研發(fā)專注 AI機(jī)器學(xué)習(xí)算法芯片,并用于云計(jì)算數(shù)據(jù)中心,取代英偉達(dá) GPU。這款TPU自研芯片2016年公開,為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運(yùn)算,如自然語言處理、計(jì)算機(jī)視覺和推薦系統(tǒng)模型。Google 其實(shí)在 2020 年的資料中心便建構(gòu) AI 芯片 TPU v4,直到 2023 年 4 月才首次公開細(xì)節(jié)。值得注意的是TPU是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計(jì),并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。2023年12月6日,谷歌官宣了全新的多模態(tài)大模型Gemini,并丟出了另一個(gè)重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強(qiáng)大的TPU。隨后在今年5月,谷歌又宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元--Trillium。據(jù)悉,除了英偉達(dá)所占據(jù)的80%市場,其余20%的絕大部分由各種版本的谷歌TPU所控制。谷歌自身不出售芯片,而是通過其云計(jì)算平臺租用訪問權(quán)限。
微軟:推出基于Arm架構(gòu)的通用型芯片Cobalt、ASIC芯片Maia 100
2023年11月,微軟在Ignite技術(shù)大會(huì)上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100,以及應(yīng)用于云端軟件服務(wù)的芯片Azure Cobalt。兩款芯片將由臺積電代工,采用5nm制程技術(shù)。Cobalt是基于Arm架構(gòu)的通用型芯片,具有128個(gè)核心,Maia 100是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片,用于云端訓(xùn)練和推理的,晶體管數(shù)量達(dá)到1050億個(gè)。這兩款芯片將導(dǎo)入微軟Azure數(shù)據(jù)中心,支持OpenAI、Copilot等服務(wù)。負(fù)責(zé)Azure芯片部門的副總裁Rani Borkar表示,微軟已開始用Bing和Office AI產(chǎn)品測試Maia 100芯片,微軟主要AI合作伙伴、ChatGPT開發(fā)商OpenAI,也在進(jìn)行測試中。不過,微軟并不認(rèn)為自己的 AI 芯片可以廣泛替代英偉達(dá)的產(chǎn)品。
有分析認(rèn)為,微軟的這一努力如果成功的話,也有可能幫助它在未來與英偉達(dá)的談判中更具優(yōu)勢。除了前述幾家公司,Meta等科技行業(yè)領(lǐng)導(dǎo)者正積極加快自主研發(fā)芯片的步伐。這些努力不僅限于ASIC領(lǐng)域,還包括FPGA和RISC-V等多個(gè)方向,旨在降低對英偉達(dá)技術(shù)的依賴。
在科技行業(yè)中,不單單是這些頭部企業(yè)有所動(dòng)作。摩根士丹利在相關(guān)報(bào)告里對全球 ASIC 供應(yīng)鏈展開了梳理,并且確定了六大潛在的優(yōu)勢方:ASIC供應(yīng)商方面,除了博通,Alchip(世芯電子)和Socionext也被視為ASIC市場的潛力股。其中,Alchip由于與AWS的深度合作,預(yù)計(jì)將在2026年顯著提升市場份額。電子設(shè)計(jì)自動(dòng)化工具方面,Cadence有望實(shí)現(xiàn)結(jié)構(gòu)性增長。代工廠方面,臺積電及其供應(yīng)鏈伙伴將從ASIC設(shè)計(jì)與制造的快速增長中受益。測試服務(wù)方面,Advantest是AI芯片測試領(lǐng)域的領(lǐng)先者,其在AI設(shè)備測試方面的專注將為其帶來顯著增長。HBM方面,三星電子是非英偉達(dá)HBM市場份額領(lǐng)先者,將從ASIC需求增長中獲益。
?05、蘋果,屢試“新果”
今年7月,蘋果公司發(fā)布iPhone AI的首個(gè)預(yù)覽版,隨后發(fā)布論文,稱其人工智能模型是在谷歌的TPU(張量處理單元)上訓(xùn)練的。論文中介紹了為支持Apple Intelligence功能而開發(fā)的基礎(chǔ)語言模型,包括一個(gè)設(shè)計(jì)用于在設(shè)備上高效運(yùn)行的約30億參數(shù)模型和一個(gè)基于私有云計(jì)算的云側(cè)大模型。
近日,蘋果公司在亞馬遜的AWS Reinvent大會(huì)上又高調(diào)宣布將使用亞馬遜自家定制的AI芯片進(jìn)行模型訓(xùn)練。根據(jù)蘋果機(jī)器學(xué)習(xí)與人工智能高級總監(jiān)Benoit Dupin的說法,蘋果正在評估亞馬遜最新的Trainium2芯片,尤其是其在預(yù)訓(xùn)練“蘋果智能”(Apple Intelligence)模型方面的潛力。這一跡象表明,在訓(xùn)練尖端人工智能方面,大型科技公司正在探索除英偉達(dá)GPU以外的其他替代方案。
長久以來,人工智能訓(xùn)練主要依賴于價(jià)格高昂的英偉達(dá)圖形處理器。然而,云服務(wù)提供商與初創(chuàng)企業(yè)正積極研發(fā)成本更低的替代方案,并探索可能實(shí)現(xiàn)更高效處理的新途徑。蘋果采用定制芯片的做法,或許在向其他企業(yè)傳遞一個(gè)信號:非英偉達(dá)的訓(xùn)練方案同樣也能奏效。