作者:暢秋
最近,芯片界傳奇人物、處理器設計大佬、Tenstorrent現(xiàn)任首席執(zhí)行官吉姆·凱勒(Jim Keller)在接受采訪時表示,英偉達沒有很好地服務于很多市場,因此,Tenstorrent和其它新創(chuàng)AI處理器研發(fā)公司是有機會的。
Jim Keller曾任職于多家大牌企業(yè),包括AMD,英特爾、蘋果和特斯拉。1998~1999年,Jim Keller在AMD主導了支撐速龍系列處理器的K7/K8架構開發(fā)工作,2008~2012年,在蘋果牽頭研發(fā)了A4、A5處理器,2012~2015年,在AMD主持K12 Arm項目和Zen架構項目,2016~2018年,在特斯拉研發(fā)FSD自動駕駛芯片,2018~2020年,在英特爾參與了神秘項目。
現(xiàn)在,Jim Keller在Tenstorrent領導AI處理器的開發(fā),可以為英偉達昂貴的GPU提供價格合理的替代品,英偉達的GPU每個售價20,000 ~ 30,000美元或更多,Tenstorrent 稱,其Galaxy系統(tǒng)的效率是英偉達DGX的3倍,成本低33%。做高性能AI應用處理器的產(chǎn)品替代是Tenstorrent工作的一部分,但不是全部,該公司的業(yè)務宗旨是服務英偉達未能解決的市場痛點,尤其是在邊緣計算領域。
?01、邊緣計算AI地位提升
隨著海量數(shù)據(jù)持續(xù)增加,以及對計算和存儲系統(tǒng)實時性和安全性要求的提升,數(shù)據(jù)中心已經(jīng)不能滿足市場和客戶的需求,市場要求相關軟硬件系統(tǒng)提供商找到更快捷的方式來服務客戶,以提高運營效率并降低成本。
在邊緣運行AI工作負載的邊緣到云解決方案有助于滿足這一需求,將算力放在靠近數(shù)據(jù)創(chuàng)建點的網(wǎng)絡邊緣,對于要求近乎實時的應用至關重要,在本地設備上處理算法和數(shù)據(jù)等,而不是將這些工作負載傳送到云或數(shù)據(jù)中心。
隨著5G和物聯(lián)網(wǎng)的發(fā)展,AI芯片在邊緣運算領域的應用前景十分廣闊,例如,自動駕駛汽車、智慧城市等場景,都需要在終端裝置上進行實時的AI推理。為此,多家廠商紛紛推出了專用于邊緣推理的AI芯片。
在制造業(yè),本地運行的AI模型可以快速響應來自傳感器和攝像頭的數(shù)據(jù),以執(zhí)行重要任務。例如,汽車制造商使用計算機視覺掃描裝配線,以在車輛離開工廠之前識別車輛的潛在缺陷。在這樣的應用中,非常低的延遲和始終在線的要求使得在整個網(wǎng)絡中來回傳送數(shù)據(jù)變得不切實際。即使是少量的延遲也會影響產(chǎn)品質(zhì)量。
另外,低功耗設備無法處理大的AI工作負載,例如訓練計算機視覺系統(tǒng)所依賴的模型。從邊緣到云的整體解決方案結合了兩端的優(yōu)勢,后端云為復雜的AI工作負載提供可擴展性和處理能力,前端邊緣設備將數(shù)據(jù)和分析緊密地結合在一起,以最大限度地減少延遲。以Arduino低功耗邊緣設備為例,許多這類設備的成本不到100美元,用戶可以組合運行機器學習模型的幾臺或數(shù)千臺設備。
例如,一家農(nóng)業(yè)企業(yè)使用Arduino解決方案來最大限度地提高作物產(chǎn)量,方案涉及傳感器,這些傳感器為邊緣設備提供土壤濕度和風況等數(shù)據(jù),以確定作物所需的水量。該技術可以幫助農(nóng)民避免過度澆水,并降低電動水泵的運行成本。再例如,一家依賴精密車床的制造商將傳感器與Arduino設備結合使用,以檢測異常情況,如微小的振動,這些振動預示著設備很可能出現(xiàn)問題。對于企業(yè)來說,定期維護比遇到導致生產(chǎn)停止的意外故障更具成本效益。
以上這些應用顯示出邊緣計算的價值和作用,從目前的應用發(fā)展情況來看,這樣的應用需求越來越多,對智能化控制的需求也在增加,這就是邊緣AI的價值所在。而像英偉達這樣的企業(yè),其GPU等高性能芯片主要關注的是云計算和數(shù)據(jù)中心市場的AI服務器,對邊緣AI市場很少關注?;诖?,Tenstorrent等AI芯片公司就有機會了。
?02更多AI芯片公司挑戰(zhàn)英偉達
隨著各路玩家競相投入,AI芯片市場呈現(xiàn)百家爭鳴之勢。據(jù)統(tǒng)計,2019年全球AI芯片新創(chuàng)公司數(shù)量就已經(jīng)超過80家,總融資額超過35億美元。研究機構預估,到2025年,ASIC將在AI芯片市場中占據(jù)43%的比重,GPU占29%,FPGA占19%,CPU占9%。
一批AI芯片新創(chuàng)公司正在崛起,前文提到的Tenstorrent就是典型代表;Cerebras Systems則打造了有史以來最大的芯片WSE(Wafer Scale Engine),搭載了1.2兆個晶體管,讓AI運算達到了前所未有的規(guī)模;明星公司Groq則由前Google工程師創(chuàng)立,專注于打造用于AI推理的低功耗處理器。這里要介紹一下Tenstorrent的技術和產(chǎn)品,它特別看重低功耗,更適合邊緣AI應用。
據(jù)日經(jīng)新聞報道,Tenstorrent有望在2024年底發(fā)布其第二代多用途AI處理器,但沒有透露處理器的名稱。根據(jù)該公司2023年秋天發(fā)布的路線圖,打算發(fā)布其Black Hole獨立AI處理器和Quasar低功耗、低成本芯片。
早些年,但擔任Tenstorrent公司CTO的時候,Jim Keller就很看好低功耗的RISC-V架構,其團隊基于此自研了Ascalon CPU。據(jù)悉,該公司的新一代Black Hole AI芯片是基于SiFive的X280 RISC-V核設計開發(fā)的。Tenstorrent表示,即將推出的處理器之所以具有高效率和更低的成本,很重要的一個原因是避免使用高帶寬內(nèi)存(HBM),改用了GDDR6,這對于為AI推理設計的入門級AI處理器來說是很匹配的。也就是說,該公司的AI芯片架構對內(nèi)存帶寬的消耗低于競爭對手,因此成本較低。
雖然Tenstorrent尚未搶占AI處理器市場的重要份額,但該公司具有成本效益且可擴展的AI解決方案,可以滿足英偉達無法觸及的多種應用需求。
不止Tenstorrent,多家新創(chuàng)AI芯片公司也將在未來幾個季度推出類似應用的·AI芯片產(chǎn)品??傊?,不與英偉達正面競爭,越來越多的AI市場新進入者更看重那些沒有被“綠色團隊”占據(jù)的市場。
AI芯片的創(chuàng)新一直在進行著,除了算力的提升,AI芯片在架構、功耗、整合度等方面還有很大的優(yōu)化空間。例如,通過先進的封裝技術,多個AI芯片可緊密整合,可大幅提升系統(tǒng)帶寬和能效。AI專用的內(nèi)存技術,如HBM、壓縮內(nèi)存等,也將得到更廣泛的應用。
?03挑戰(zhàn)英偉達生態(tài)系統(tǒng)
除了芯片技術創(chuàng)新,AI的生態(tài)系統(tǒng)建設也很重要。英偉達的CUDA平臺經(jīng)過多年發(fā)展,已經(jīng)形成了龐大的開發(fā)者社區(qū)和豐富的軟件資源,這是其競爭力的重要保證。其他廠商也紛紛跟進,圍繞自己的AI芯片建構生態(tài)系統(tǒng),爭取開發(fā)者的支持。Google推出了基于TPU的TensorFlow深度學習框架,并開源了相關代碼;AMD收購了Xilinx;英特爾推出了OneAPI開發(fā)工具套件,試圖統(tǒng)一CPU、GPU和AI加速器的程序開發(fā)接口。
Arm、英特爾、高通、三星等合作組建了統(tǒng)一加速基金會(UXL),目標之一就是取代英偉達的方案。在AI系統(tǒng)當中,芯片互聯(lián)技術很關鍵,特別是數(shù)據(jù)傳輸帶寬,對系統(tǒng)性能的發(fā)揮起著重要作用。英偉達在這方面一直在建設自家生態(tài),該公司最新的Blackwell GPU在多芯片互連、網(wǎng)絡互連方面,將使用新推出的NVLink標準協(xié)議,在數(shù)據(jù)中心網(wǎng)絡中,英偉達使用的是自家的InfiniBand總線。
對于英偉達這種封閉的生態(tài)系統(tǒng),Jim Keller很看不慣,他是開放技術的忠實擁躉,對于那些封閉技術深惡痛絕。Jim Keller提出,英偉達不應該使用私有的NVLink標準協(xié)議,應該換成開放的以太網(wǎng)標準,他還認為,在數(shù)據(jù)中心網(wǎng)絡中,英偉達不該使用InfiniBand,也應換成以太網(wǎng),因為Infiniband雖然具備低延遲、高帶寬(最高可達200Gb/s)特性,但以太網(wǎng)能做到400Gb/s,甚至800Gb/s。
實際上,AMD、博通、英特爾、Meta、微軟、甲骨文等巨頭正在合作開發(fā)下一代超高速以太網(wǎng)(Utlra Ethernet),其吞吐量更高,更適合AI、HPC應用。那么,新的以太網(wǎng)技術能否發(fā)展起來,并抗衡英偉達的互聯(lián)技術呢?2023年7月,多家行業(yè)巨頭成立了超級以太網(wǎng)聯(lián)盟(Ultra Accelerator Link,UALink),旨在與英偉達的InfiniBand抗衡。
AMD正在為UALink努力貢獻更廣泛的Infinity Fabric共享內(nèi)存協(xié)議和GPU專用xGMI,所有其他參與者都同意使用Infinity Fabric作為加速器互連的標準協(xié)議。英特爾高級副總裁兼網(wǎng)絡和邊緣事業(yè)部總經(jīng)理Sachin Katti表示,由AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特爾、Meta Platforms和Microsoft組成的Ultra Accelerator Link“推廣小組”正在考慮使用以太網(wǎng)的第一層傳輸協(xié)議和Infinity Fabric作為將GPU內(nèi)存鏈接到類似于CPU上的NUMA的巨大共享空間的一種方式。
UALink聯(lián)盟成員相信,系統(tǒng)制造商將創(chuàng)建使用UALink的設備,并允許在客戶構建他們的Pod時將來自許多參與者的加速器放入這些設備中。您可以有一個裝有AMD GPU的pod,一個裝有英特爾GPU的pod,另一個裝有一些來自其他廠商的自定義加速器的pod。該設備可以實現(xiàn)服務器設計的通用性,就像Meta Platforms和Microsoft發(fā)布的開放加速器模塊(OAM)規(guī)范一樣,系統(tǒng)板上的加速器插槽具備通用性。
據(jù)IDC統(tǒng)計,在超大規(guī)模企業(yè)、云構建者、HPC中心和大型企業(yè)中,200Gb/s和400Gb/s網(wǎng)絡的建設已經(jīng)足夠多,InfiniBand和以太網(wǎng)市場可以同時增長。以太網(wǎng)無處不在——邊緣側和數(shù)據(jù)中心——這與 InfiniBand不同,后者專門用于數(shù)據(jù)中心。IDC表示,2023年第三季度,數(shù)據(jù)中心以太網(wǎng)交換機的銷售額同比增長了7.2%。
在2022年第三季度到2023年第三季度期間,數(shù)據(jù)中心以太網(wǎng)交換機的市場規(guī)模約為200億美元,如果交換占InfiniBand收入的一半,那么數(shù)據(jù)中心以太網(wǎng)交換規(guī)模仍比InfiniBand交換大7倍左右,并且,有越來越多的AI集群遷移到以太網(wǎng),它們正在蠶食InfiniBand的市占率。IDC表示,在以太網(wǎng)交換機市場的非數(shù)據(jù)中心部分,銷售額增長更快,2023年第三季度增長了22.2%,前三個季度總共增長了36.5%,因為很多公司升級了園區(qū)網(wǎng)絡。
2023年第三季度,數(shù)據(jù)中心、園區(qū)和邊緣側的以太網(wǎng)交換機市場規(guī)模達到117億美元,同比增長了15.8%。配套以太網(wǎng)路由器市場下降了9.4%,這并不奇怪,因為路由器越來越多地使用包括交換和路由功能的商用芯片構建。在數(shù)據(jù)中心,200Gb/s和400Gb/s以太網(wǎng)交換機的銷售額同比增長了44%,端口出貨量同比增長了63.9%。數(shù)據(jù)中心、邊緣側和園區(qū)的100Gb/s以太網(wǎng)交換機的銷售額增長了6%。
?04結語
英偉達在云計算和數(shù)據(jù)中心AI系統(tǒng)方面的優(yōu)勢非常明顯,無論是芯片行業(yè)巨頭,還是新創(chuàng)公司,要想在這一賽道與英偉達PK,難度很大,特別是新創(chuàng)公司,前些年以英偉達GPU為競品,走同一賽道的幾家小公司,日子過得都不太好,有的甚至在破產(chǎn)邊緣。只有AMD、英特爾這樣的大廠可以在同一賽道與英偉達玩一玩。
云計算和數(shù)據(jù)中心AI賽道不好追,那就主攻低功耗、低成本的邊緣側應用市場,這也是一個很大的市場,且發(fā)展空間廣闊,而目前市場上對口、適用的芯片又不多。在這種情況下,誰動手早,盡快拿出實用的產(chǎn)品,誰就能在未來競爭中占得先機。
除了AI芯片,互聯(lián)技術和標準也是一個很有潛力的投資方向,而且在數(shù)據(jù)中心和邊緣側都有機會。英偉達的互聯(lián)和總線技術不可能面面俱到,隨著AI技術不斷滲透到各行各業(yè),以及各個性能、功耗和成本應用層級,芯片和系統(tǒng)互聯(lián)的發(fā)展空間會越來越大,大大小小的公司都在摩拳擦掌。