2024年,我國智算中心建設(shè)進(jìn)入全面發(fā)力階段,最明顯的感受就是萬卡集群項目在加速建設(shè)。
所謂萬卡集群,是指由一萬張及以上的加速卡(如GPU、TPU或其他專用AI加速芯片)組成的高性能計算系統(tǒng),用來訓(xùn)練基礎(chǔ)大模型。這種集群充分整合高性能GPU計算、高性能網(wǎng)絡(luò)、高性能并行文件存儲、智算平臺等關(guān)鍵技術(shù),將底層基礎(chǔ)設(shè)施整合成為一臺“超級計算機(jī)”,可支持千億級甚至萬億級參數(shù)規(guī)模的大模型訓(xùn)練,有助于大幅壓縮大模型訓(xùn)練時間,以實現(xiàn)模型能力的快速迭代。
模型參數(shù)量從千億邁向萬億、泛化能力更強(qiáng),對底層算力的訴求進(jìn)一步升級,是推動萬卡甚至超萬卡集群建設(shè)的主要動力。今年以來,不止一次聽到從業(yè)者這樣形容“萬卡集群”:是這一輪大模型競賽的入場券、是這一輪大模型基建軍備賽的標(biāo)配……走過2024,我國萬卡集群究竟如何?對比國際主流廠商情況如何?
國產(chǎn)萬卡集群建設(shè),元年開啟
AI大模型的熱潮持續(xù)蔓延,智算基礎(chǔ)設(shè)施需求水漲船高。
小米搭建GPU萬卡集群的消息引起廣泛關(guān)注,其實也并不意外。當(dāng)前階段,算力集群擴(kuò)張是AI技術(shù)進(jìn)步的必然結(jié)果。我國智算建設(shè)仍處于窗口期,滿足AI訓(xùn)練需求的萬卡/超萬卡集群仍較為短缺,特別是核心廠商的大規(guī)模/超大規(guī)模智算中心仍是稀缺資源,將是帶動行業(yè)新一輪成長的重要力量。
截至今年6月,我國已建和在建的智算中心超250個?!吨袊C合算力指數(shù)報告(2024)》顯示,過去20年間,我國智能算力需求增長超過百億倍,這一趨勢使得算力中心正朝著萬卡規(guī)模邁進(jìn)。
當(dāng)前,火熱的大模型技術(shù)和面向行業(yè)場景化的創(chuàng)新AI研發(fā),都離不開算力資源的有力支撐。特別是在訓(xùn)練端,大模型仍延續(xù)了Scaling Law的主流技術(shù)路線:通過算力、算法、數(shù)據(jù)的深度融合與經(jīng)驗積累,實現(xiàn)模型性能的飛躍。在Scaling Law方向下,需要單點(diǎn)規(guī)模夠大且通用的算力才能快速跟上技術(shù)演進(jìn)。
萬卡集群就成為了破題方法之一。這種集群將充分整合高性能GPU計算、高性能RDMA網(wǎng)絡(luò)、高性能并行文件存儲、智算平臺等關(guān)鍵技術(shù),將底層基礎(chǔ)設(shè)施整合成為一臺超級計算機(jī),進(jìn)行千億級甚至萬億級參數(shù)規(guī)模的大模型訓(xùn)練。
<與非研究院>梳理了國內(nèi)主要萬卡集群項目,可以看到產(chǎn)業(yè)多方都在萬卡、甚至超萬卡集群領(lǐng)域進(jìn)行廣泛布局,涵蓋從芯片研發(fā)到大規(guī)模AI模型訓(xùn)練的多個方面,主要以四類企業(yè)為代表,包括:AI芯片企業(yè)、大型AI研發(fā)企業(yè)、電信運(yùn)營商、互聯(lián)網(wǎng)企業(yè)。
表:國內(nèi)部分萬卡集群項目和建設(shè)情況
(來源:公開資料、各企業(yè)官網(wǎng)/官微,<與非研究院>整理,2024年12月)
國內(nèi)外巨頭賽事,十萬卡成為新門檻
全球范圍內(nèi),科技巨頭均在加速布局超大規(guī)模的智算中心。特別是在美國市場,巨頭的算力競爭門檻已達(dá)到十萬卡規(guī)模,以推動在基礎(chǔ)大模型、智能算法研發(fā)及生態(tài)服務(wù)等方面的技術(shù)創(chuàng)新。如谷歌推出超級計算機(jī) A3 Virtual Machines,擁有 26000 塊H100 GPU,同時基于自研芯片搭建TPUv5p 8960卡集群;Meta在2022年推出了擁有16,000 塊NVIDIA A100的AI研究超級集群,2024 年初又公布2個24576 塊的H100集群,用于支持下一代生成式AI模型的訓(xùn)練;馬斯克的xAI今年7月已建成十萬卡集群,并將在未來幾個月內(nèi)再增加10萬卡。
從大模型的角度來看,今年全球頭部廠商(包括谷歌、Meta、Open AI 等)發(fā)布的大模型或者新版本,性能都較去年有明顯提升,這是持續(xù)拉動AI算力芯片和超大規(guī)模集群擴(kuò)張的主要動力。
由于投入資源和芯片上的限制,中國廠商在十萬卡方面的表現(xiàn)并不激進(jìn)。不過,在客戶快速增長的需求下,他們也在分步走向十萬卡集群。目前看來,以華為、百度、字節(jié)跳動、阿里為代表的國內(nèi)企業(yè),正在探索十萬卡集群的可行性。
目前,百度的百舸4.0通過HPN高性能網(wǎng)絡(luò)、自動化混訓(xùn)切分策略、自研集合通信庫等一系列產(chǎn)品技術(shù)創(chuàng)新,已經(jīng)能夠?qū)崿F(xiàn)十萬卡集群的高效管理。
騰訊今年宣布了自研星脈高性能計算網(wǎng)絡(luò)全面升級,星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡,能夠支持超10萬卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升60%,讓大模型訓(xùn)練效率提升20%。
阿里方面也釋出消息,阿里云可實現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同,支持10萬卡量級的集群可擴(kuò)展規(guī)模,已服務(wù)全國一半的人工智能大模型企業(yè)。
相比BAT,字節(jié)跳動的智算布局更為野心勃勃。2024年,字節(jié)資本開支達(dá)到 800 億人民幣,而BAT總開支約1000億人民幣。更令人矚目的是,到2025年這一數(shù)字將翻倍至1600億人民幣,其中900億用于AI算力采購,700億投向數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)及配套硬件。第三方研究機(jī)構(gòu)測算,以400T(FP16)AI算力卡為標(biāo)準(zhǔn),字節(jié)當(dāng)前的訓(xùn)練算力需求約為26.73萬張卡,文本推理算力需求約為33.67萬張卡,未來,潛在的推理算力需求有望達(dá)到230萬張卡以上。
國產(chǎn)十萬卡集群建設(shè),哪些難題待解?
傳統(tǒng)云計算時代,基礎(chǔ)設(shè)施是以CPU為核心的體系,核心點(diǎn)是極致彈性、極致性價比,最大的驅(qū)動力往往是提效降本。到了大模型時代,基礎(chǔ)設(shè)施轉(zhuǎn)向了極致高密、極致互聯(lián)與極致規(guī)模,這是一個全面追求技術(shù)創(chuàng)新,驅(qū)動整個業(yè)務(wù)大發(fā)展的階段。
國產(chǎn)十萬卡集群的建設(shè),絕非易事,涉及技術(shù)突破、戰(zhàn)略合作等眾多產(chǎn)業(yè)難題,需要一個逐步推進(jìn)的過程。從當(dāng)前萬卡集群的建設(shè)經(jīng)驗來看,充分發(fā)揮集群的性能與效率是核心突破點(diǎn)。
針對大模型分布式訓(xùn)練場景,集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升,卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)是追求集群極致有效算力的關(guān)鍵挑戰(zhàn)。
這是因為訓(xùn)練領(lǐng)先的大模型需要超萬卡規(guī)模集群。但是,就像“多人多足”游戲,要整齊劃一地實現(xiàn)像一個人一樣行走并不容易,更何況是要調(diào)度上萬張卡作為一個整體高效工作、實現(xiàn)性能的線性擴(kuò)展、保障任務(wù)不間斷,這對集群的設(shè)計、調(diào)度、容錯都是巨大挑戰(zhàn)。
可以把集群有效算力分解為GPU利用率和集群線性加速比兩個指標(biāo)來看待。其中,GPU利用率主要由芯片架構(gòu)、制程、內(nèi)存、I/O訪問瓶頸、卡間互聯(lián)帶寬等因素決定;而集群線性加速比則取決于節(jié)點(diǎn)間的通信能力、并行訓(xùn)練框架、資源調(diào)度等因素。這其實意味著,即使先進(jìn)萬卡、十萬卡GPU在手,仍需要優(yōu)良的系統(tǒng)工程方法,來對集群進(jìn)行精細(xì)化的設(shè)計和軟硬件的全棧整合優(yōu)化。除此之外,還要應(yīng)對高能耗挑戰(zhàn)、建設(shè)運(yùn)維的挑戰(zhàn)等等。
目前對于十萬卡集群的建設(shè)挑戰(zhàn),百度總結(jié)得較為客觀,認(rèn)為主要包括:跨地域部署、多芯混訓(xùn)以及集群穩(wěn)定性等難題。特別是多芯混訓(xùn),既是發(fā)展難題,也是我國十萬卡集群的必經(jīng)之路。
國產(chǎn)算力開啟“多芯混合”時代
國內(nèi)構(gòu)建超萬卡集群面臨著一個非?,F(xiàn)實的困難——芯片。
對于國內(nèi)市場來說,十個大字可以總結(jié)英偉達(dá)的算力卡供應(yīng),就是“想賣賣不到,想買買不到”,這十個字不僅扎心地伴隨了我國大模型產(chǎn)業(yè)的崛起,還將繼續(xù)橫亙在接下來的產(chǎn)業(yè)道路上。
我國服務(wù)器廠商其實早已開始積極推進(jìn)多元異構(gòu)、多芯混合的策略,比如浪潮信息。隨著AI大模型的不斷增長,算力資源緊缺,也推動了互聯(lián)網(wǎng)廠商開始實施多芯混合戰(zhàn)略。一方面,多芯混合可以提升訓(xùn)練速度、更好地利用內(nèi)存、降低昂貴GPU的使用成本;另一方面,在我國高端算力芯片獲取受限的情況之下,多芯混合策略能夠降低對高端GPU的依賴,緩解芯片供應(yīng)鏈問題,進(jìn)一步驅(qū)動國內(nèi)算力產(chǎn)業(yè)的增長。
目前,包括百度、阿里、無問芯穹、中國移動在內(nèi)的互聯(lián)網(wǎng)廠商、算力運(yùn)營商以及電信運(yùn)營商等,正在破解這些難題。
在多芯混訓(xùn)方面,百舸能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理,構(gòu)建起多芯資源池。當(dāng)業(yè)務(wù)提交工作負(fù)載時,可自動進(jìn)行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價比最高的芯片來運(yùn)行任務(wù),從而最大化地利用集群的剩余資源。最終,可實現(xiàn)高達(dá)95%的萬卡多芯混合訓(xùn)練效能。
無問芯穹已經(jīng)發(fā)布了全球首個千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺,具備萬卡擴(kuò)展性,支持包括英偉達(dá)、AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練,性能損失最小低于10%。
中國移動的“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0,可支持多品牌萬卡集群。該系統(tǒng)具備基于非均勻計算任務(wù)切分ITD算法的3D并行策略和基于GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信能力,能夠提升訓(xùn)練效率。中國移動的合作伙伴涵蓋華為、瀚博、澎峰等企業(yè)。
寫在最后
超萬卡集群建設(shè)不僅是對我國智算產(chǎn)業(yè)需求的響應(yīng),更是對AI技術(shù)發(fā)展路徑的預(yù)判。如今,在科研、汽車、教育等領(lǐng)域,智算基礎(chǔ)設(shè)施已經(jīng)成為不可或缺的戰(zhàn)略支撐。
通信運(yùn)營商、互聯(lián)網(wǎng)企業(yè)、大型AI企業(yè)、AI初創(chuàng)企業(yè)等均已爭相邁入“萬卡”集群時代,市場需求的不斷增長的和他們下一步的技術(shù)革新,都將成為我國超萬卡集群建設(shè)的重要動力??梢灶A(yù)見的是,在萬卡向十萬卡邁進(jìn)的過程中,如何保持智算集群的線性度、穩(wěn)定性,同時保證調(diào)度的效率,是從業(yè)者將持續(xù)關(guān)注的重點(diǎn)。
如果說2024年是我國萬卡集群的元年,2025年,你看好十萬卡集群的到來嗎?