AI 賽道人滿為患,眼看AI服務器里最燒錢的GPU都齊了,但竟然會因為“缺芯”,導致無法出貨。
“海外找了一千片,還沒湊齊,太難了?!薄拔覀冋夜滩少廇I服務器,就因為主板缺了博通的PCle Switch 4.0芯片,沒法安排出貨,現(xiàn)在他們正在到處找?!?/p>
以博通SS26為代表的PCle Switch芯片,最近需求異常多,不僅現(xiàn)貨少,報價還從5500美元飆到20000美元!也難怪AI服務器會漲價,一入AI深似海,原來不止是GPU價格在漲……
1、博通SS26,為什么這么搶手?
2、為什么缺?有替代嗎?
3、AI服務器還帶動哪些芯片增長?
博通SS26價格漲至2萬美元
AI相關GPU和服務器缺貨潮還在持續(xù)發(fā)酵,英偉達、AMD等GPU大廠持續(xù)加單,而大模型下AI服務器集眾多硬件與零部件于一身,GPU這頭的短缺還在填補,另一頭又開始短缺,你永遠不知道下一個缺的又是什么部件。
今年6月初開始,博通的PCle Switch在市場上就有了缺貨跡象。
相關型號包括博通SS26、SS24、SS23打頭的芯片,詢價熱度較高,市場上找貨需求異常多,如SS26-0B00-02、SS24-0B00-02、SS23-0B00-02,其中SS26規(guī)格高,最為缺貨,規(guī)格低一些的SS24、SS23雖然沒那么缺,也有不少人在找貨。
關于高端的SS26-0B00-02市場價格,業(yè)內(nèi)人士告訴我們,目前其香港原裝報價是5500 USD/ 片(26片起購),到了深圳現(xiàn)貨市場,報價高達1.8萬-2萬 USD/片(含稅),還不保證原裝。
芯世相觀察到,某些型號帶目標價格也不一定能挖到現(xiàn)貨。比如SS23-0B00-02,有終端在海內(nèi)外到處找貨,接受5000元單價,急需現(xiàn)貨。
以上芯片型號,都屬于博通PEX89000 PCIe Gen 5.0系列交換機,目前是其針對數(shù)據(jù)中心和云平臺的PCI快速交換機中的最新系列產(chǎn)品,應用于 ML/AI 和服務器/存儲應用的可組合超大規(guī)模計算系統(tǒng)。
規(guī)格最高的SS26-0B00-00具有144個PCIe Gen 5.0通道,可實現(xiàn)高達9216 Tb/s(1152 GB/s)的原始帶寬。
因而博通的PEX89000系列交換機,可以說是為先進計算而生的AI芯片了。
博通PEX89000 PCIe Gen 5.0系列交換機型號,來源:broadcom.com
PCle(PCI-Express,peripheral component interconnect express),即外圍組件快速互連,是一種高帶寬擴展總線。簡單來說,總線就是電腦內(nèi)部進行交互的公用通道,可以理解為各種交通道路,PCle就是其中的一種。
如果大家有自己裝機的經(jīng)歷,就會在主板上看到水平的PCle插槽。
PCle通常用于連接顯卡、固態(tài)硬盤以及采集卡和無線網(wǎng)卡等外設,也常用于服務器平臺,也越來越多地被用作存儲和GPU互連解決方案。
主板上的PCle通道分為x1、x2、x4、x8 和x16幾種配置,通道數(shù)量越多意味著帶寬越高,插槽也就更長。我們組裝電腦時,GPU就通常安在x16插槽中。
PCle既可以作為接口,又可以作為通道。當它是接口的時候,可以插帶PCle接口的任何外設:顯卡、無線網(wǎng)卡、USB接口、固態(tài)硬盤、聲卡等等,這個插槽里面,就有我們的PCle Switch芯片。
PCIe Switch,即 PCIe 開關或 PCIe 交換機,主要作用是實現(xiàn) PCIe 設備互聯(lián),像服務器要實現(xiàn)CPU、GPU等組件互聯(lián),就離不開它。
有了PCle Switch,PCle從端對端的連接,變成多條總線連接,有效拓展了鏈路,形成一個高速的PCIe互聯(lián)網(wǎng)絡,從而實現(xiàn)多設備通信。
PCle Switch的高可拓展性、低功耗、低延遲、高可靠性、高靈活性等優(yōu)勢,使之廣泛應用于機器學習、人工智能、超融合部署和存儲系統(tǒng)中。
PCIe Switch連接多條PCIe總線,來源:PCI-SIG官網(wǎng),中金公司研究部
計算機內(nèi)部包含PCle等各種總線協(xié)議,讓我們拆開一臺AI服務器內(nèi)部看看。
以 NVIDIA HGX H100 8-GPU為例,8 塊 H100 GPU在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB/s 的帶寬,該服務器內(nèi)部包含NVLink、PCIe和QPI等主板總線。
NVLink方面,8張 GPU(H100)之間互聯(lián)主要通過4個第三代NV Switch 芯片來實現(xiàn)。每個H100 GPU共通過18個NVLink 4.0(5+4+4+5)連接到4個NVSwitch芯片。每個NVSwitch相當于一個完全無擁塞的交換機,與8張H100 GPU卡實現(xiàn)完全連接。
NVLink是英偉達基于PCle Gen4研發(fā)的新技術,是點對點的高速互聯(lián)技術,支持多達 16 個 GPU 或 CPU 的連接,可實現(xiàn)大規(guī)模的并行計算和深度學習訓練。
英偉達A100、H100等GPU可以分PCle和NVLink兩種版本,GPU互聯(lián)時用的是不同通道。PCle版本的GPU互聯(lián)便是通過PCIe通道完成的,借助PCIe switch,系統(tǒng)可以實現(xiàn)CPU-GPU,GPU-GPU的連接。
多個GPU之間連接,PCIe僅64GB/S,4個以上的GPU互聯(lián)就較為吃力了。隨著AI和高性能計算需求不斷增長,需要更大的互聯(lián)帶寬,NVLink的帶寬是雙向帶寬,如NVLink 3.0的帶寬可以達到7200 Gbit/s,即900 GB/s,明顯優(yōu)于PCIe,而且在每GPU連接數(shù)量上限也高達18張,GPU的性能就可以發(fā)揮到最大化,這也就是為啥黃老板說買得越多省越多。
PCle方面,GPU與CPU之間通過PCIe 5.0總線實現(xiàn)互聯(lián)。圖中藍色方塊為 IP 網(wǎng)卡(CX7),既是網(wǎng)卡又能發(fā)揮PCIe Switch(5.0)擴展功能,成為 CPU 與H100(GPU)之間互聯(lián)的橋梁。CPU之間則仍使用QPI總線進行通信。
可以看出,一臺AI服務器要實現(xiàn)GPU-CPU互聯(lián),甚至是GPU之間的互聯(lián),都離不開PCIe Switch芯片。來自博通SS26等芯片的需求普遍集中在服務器終端,它們也正是用于AI服務器的PCle Switch芯片。
“AI服務器要PCle 4.0、5.0及以上版本,做這類產(chǎn)品的廠商少,價格很貴?!币晃环掌鲗I(yè)人士告訴我們。
為什么缺,有替代嗎?
伴隨著AI 服務器、GPU等需求的增加,作為連接部件的PCle Switch需求也起來了。目前用于AI服務器的4.0、5.0版本屬于PCle Switch中的先進版本。專業(yè)人士告訴我們,PCle Switch要看其支持的Lanes和Ports,參數(shù)越高,價格越貴。
PCIe最早由Intel于2001年提出,2003年正式推出PCIe 1.0版本,到2022年已迭代至6.0。根據(jù)PCI-SIG官網(wǎng),伴隨人工智能、自動駕駛、AR/VR等具有高運算要求的應用快速發(fā)展,處理器I/O帶寬每三年實現(xiàn)翻番,也促使PCIe基本上按照3年一代的速度更新演進。
PCle基本上平均每3年更新一代,其單通道速率都在翻倍增長,總帶寬也在提高。2022年PCI-SIG 正式發(fā)布PCIe 6.0 規(guī)范,這是PCIe問世以來變化最大的一代,每通道數(shù)據(jù)傳輸速率從PCIe 5.0的32GT/s翻番至64GT/s,除了帶寬和效率的提升,還具有更低的延遲。2022年6月,PCI-SIG聯(lián)盟宣布PCIe 7.0版規(guī)范,單條通道(x1)單向可實現(xiàn)128GT/s傳輸速率,計劃于2025年推出最終版本。
別看PCIe 7.0版規(guī)范都出來了,博通的PCle Switch 5.0最近也被大家到處掃貨,但業(yè)內(nèi)人士告訴我們,市場上對PCIe 5.0的需求實際上還沒起來,“其一是目前大規(guī)模出貨的CPU基本是PCIe 4.0,其二是英偉達A100/A800和國產(chǎn)GPU、NPU等也都是PCIe 4.0?!?/p>
目前用量大的仍是高端PCIe 4.0,且缺貨比較嚴重,在現(xiàn)貨市場,原來單價2000-3000 RMB現(xiàn)在漲到大幾千,甚至1萬元,供貨周期變長很多。而低端4.0產(chǎn)品需求越來越少,普通服務器為實現(xiàn)更大靈活度也往中高端走,供貨渠道不多,供貨周期也變長了,但價格只要小幾千元。
因此博通PCle Switch 5.0這類芯片的起量還沒那么快,“預計國內(nèi)要在2024年下半年起量,到時候CPU才基本升級到PCIe 5.0。另外,英偉達H800也支持5.0版本,一些加速卡應該會加入到5.0生態(tài)。”
那么一臺AI服務器要用多少PCle Switch芯片,用量有多大?
我們從前文對AI服務器的內(nèi)部拆解可以看出,CPU和GPU之間互聯(lián)的需求量不多,主要的用量在GPU之間的互聯(lián)。
如果你用的是A100 80G PCIE的8卡AI服務器,這里面8張A100互聯(lián)可能就要用到大量的PCle Switch,而NVLink版本的帶寬升級更大,GPU之間不用PCle Switch。
不過,NVLink僅用于GPU之間,最終傳輸結(jié)果給GPU還是走PCle,“目前服務器都還是X86架構(gòu),所以基本都是PCle的IP,Intel本身并未支持NVLink?!盋PU與GPU互聯(lián)離不開PCle Switch。
帶寬的高低,也是決定PCle Switch用量的重要因素,“還要看主帶寬是多少,比如它里面做了一個PCIe 5.0,64x,也就是說它可以同時產(chǎn)生64路PCle 5.0的x1(帶寬),那需求量就極大了?!?/p>
全球PCle Switch三大供應商,博通、微芯、祥碩科技三家,共占有全球約58%的份額。據(jù)博通官網(wǎng)介紹,博通是PCI Express交換領域的領導者,出貨量超過10 億個,公司正通過行業(yè)領先的交換機系列以及新的重定時器解決方案推動數(shù)據(jù)中心連接的發(fā)展。
如果要替換這顆博通芯片,目前可替代的微芯也面臨缺貨,而國產(chǎn)即便有替代,國外主板廠一般也不采用。據(jù)悉,美國一家新公司xconn-technology剛推出樣品,明年這時候就有對應產(chǎn)品上市。
隨著PCIe 在服務器中應用越來越廣泛,PCIe Switch 的市場需求也被帶動起來。根據(jù)QYResearch的統(tǒng)計及預測,2021年全球 PCIe 芯片市場銷售額達到了 7.9 億美元,預計2028年將達到 18 億美元,年復合增長率(CAGR)為 11.9%。
我們知道,除了蘋果,英偉達、博通和AMD最近乘著AI熱潮都在臺積電積極投片生產(chǎn)。
這波博通PCIe Switch熱,與英偉達用于AI服務器的GPU缺貨邏輯基本一致,那就是尚未實現(xiàn)大規(guī)模出貨,近期才追加擴產(chǎn),一段時間內(nèi)面臨供應不足。
博通也是受益于AI時代來臨的芯片大廠之一,除了與蘋果持續(xù)合作外,博通還陸續(xù)獲得了谷歌、Meta 等大廠的高級 ASIC 芯片訂單。博通作為通信巨頭,這些訂單估計包括了PCIe Switch在內(nèi)的不少通信相關AI芯片。
博通FY23Q2財報顯示,博通目前AI營收占半導體營收約15%,預計FY24提升至25%;與其他芯片廠商相比,博通在2-4月的單季營收同比增長了 8%,芯片業(yè)務表現(xiàn)超出市場預期。
博通還表示,AI相關部分產(chǎn)品從生產(chǎn)到交付需要超過6個月。博通CEO認為,未來傳統(tǒng)計算與AI計算會齊頭并進,AI增長更快,傳統(tǒng)計算不會消亡,未來增長一半來自傳統(tǒng)業(yè)務,一半來自AI。
結(jié) 語
據(jù)報道,AI服務器將大幅推升服務器平均出貨單價(ASP)由8500至9000美元上漲到1萬美元以上,AI服務器主要集中在今年第四季大量出貨。
AI訓練的龐大數(shù)據(jù),需要在各芯片之間高速無擁塞互聯(lián)。英偉達自己的NVLink、NVSwitch市場規(guī)模有限,而傳統(tǒng)CPU生態(tài)中的PCIe接口芯片及其他高速互聯(lián)芯片市場相對開放,PCIe Switch作為數(shù)據(jù)中心低功耗、高性能解決方案的核心一環(huán),有望迎來高增長。根據(jù)Transparency市場調(diào)研機構(gòu)數(shù)據(jù),2019-2027年CAGR約15%,2027年全球PCIe Switch市場規(guī)?;?qū)⑦_到92億美元。
除了PCle Switch,AI服務器需求帶動服務器產(chǎn)業(yè)鏈上各環(huán)節(jié)價值增長,業(yè)內(nèi)人士測算,相較普通雙路服務器,AI服務器核心器件單機價值量提升倍數(shù)由高到低依次為GPU(24x)、DRAM(5.3x)、板內(nèi)互聯(lián)接口芯片(3.3x)、電源管理(3x)、散熱(3x)、PCB(2.4x)、網(wǎng)卡(2.2x)和SSD(2x)。
普通和AI服務器價值量拆解及對比、AI服務器不同出貨量假設下各環(huán)節(jié)的市場規(guī)模測算,來源:IDC,英偉達,中金公司研究部
AI需求強勁,但需要看清的是,AI不足以撐起整個半導體行業(yè)的增長,近期晶圓代工廠們降價、熱停機動作亮起警示燈,目前半導體行業(yè)仍處于消費電子需求低迷陰影之下,復蘇緩慢。
以博通為代表的高端AI芯片市場,同樣是個玩家有限的小池子,它的稀缺與漲價反映一段時間內(nèi)高端AI芯片供不應求,對于芯片市場多數(shù)從業(yè)者來說,行情尚在緩慢復蘇,可遇而不可求,唯有繼續(xù)積極開發(fā)新產(chǎn)品、新技術、新客戶,找到新的增長點,才是以不變應萬變的關鍵所在。