一区二区三级毛片,亚洲+校园+春色+另类+激情

2024年，我國智算中心建設(shè)進(jìn)入全面發(fā)力階段，最明顯的感受就是萬卡集群項目在加速建設(shè)。

所謂萬卡集群，是指由一萬張及以上的加速卡（如GPU、TPU或其他專用AI加速芯片）組成的高性能計算系統(tǒng)，用來訓(xùn)練基礎(chǔ)大模型。這種集群充分整合高性能GPU計算、高性能網(wǎng)絡(luò)、高性能并行文件存儲、智算平臺等關(guān)鍵技術(shù)，將底層基礎(chǔ)設(shè)施整合成為一臺“超級計算機(jī)”，可支持千億級甚至萬億級參數(shù)規(guī)模的大模型訓(xùn)練，有助于大幅壓縮大模型訓(xùn)練時間，以實現(xiàn)模型能力的快速迭代。

模型參數(shù)量從千億邁向萬億、泛化能力更強(qiáng)，對底層算力的訴求進(jìn)一步升級，是推動萬卡甚至超萬卡集群建設(shè)的主要動力。今年以來，不止一次聽到從業(yè)者這樣形容“萬卡集群”：是這一輪大模型競賽的入場券、是這一輪大模型基建軍備賽的標(biāo)配……走過2024，我國萬卡集群究竟如何？對比國際主流廠商情況如何？

國產(chǎn)萬卡集群建設(shè)，元年開啟

AI大模型的熱潮持續(xù)蔓延，智算基礎(chǔ)設(shè)施需求水漲船高。

小米搭建GPU萬卡集群的消息引起廣泛關(guān)注，其實也并不意外。當(dāng)前階段，算力集群擴(kuò)張是AI技術(shù)進(jìn)步的必然結(jié)果。我國智算建設(shè)仍處于窗口期，滿足AI訓(xùn)練需求的萬卡/超萬卡集群仍較為短缺，特別是核心廠商的大規(guī)模/超大規(guī)模智算中心仍是稀缺資源，將是帶動行業(yè)新一輪成長的重要力量。

截至今年6月，我國已建和在建的智算中心超250個?！吨袊C合算力指數(shù)報告（2024）》顯示，過去20年間，我國智能算力需求增長超過百億倍，這一趨勢使得算力中心正朝著萬卡規(guī)模邁進(jìn)。

當(dāng)前，火熱的大模型技術(shù)和面向行業(yè)場景化的創(chuàng)新AI研發(fā)，都離不開算力資源的有力支撐。特別是在訓(xùn)練端，大模型仍延續(xù)了Scaling Law的主流技術(shù)路線：通過算力、算法、數(shù)據(jù)的深度融合與經(jīng)驗積累，實現(xiàn)模型性能的飛躍。在Scaling Law方向下，需要單點(diǎn)規(guī)模夠大且通用的算力才能快速跟上技術(shù)演進(jìn)。

萬卡集群就成為了破題方法之一。這種集群將充分整合高性能GPU計算、高性能RDMA網(wǎng)絡(luò)、高性能并行文件存儲、智算平臺等關(guān)鍵技術(shù)，將底層基礎(chǔ)設(shè)施整合成為一臺超級計算機(jī)，進(jìn)行千億級甚至萬億級參數(shù)規(guī)模的大模型訓(xùn)練。

<與非研究院>梳理了國內(nèi)主要萬卡集群項目，可以看到產(chǎn)業(yè)多方都在萬卡、甚至超萬卡集群領(lǐng)域進(jìn)行廣泛布局，涵蓋從芯片研發(fā)到大規(guī)模AI模型訓(xùn)練的多個方面，主要以四類企業(yè)為代表，包括：AI芯片企業(yè)、大型AI研發(fā)企業(yè)、電信運(yùn)營商、互聯(lián)網(wǎng)企業(yè)。

表：國內(nèi)部分萬卡集群項目和建設(shè)情況
（來源：公開資料、各企業(yè)官網(wǎng)/官微，<與非研究院>整理，2024年12月）

國內(nèi)外巨頭賽事，十萬卡成為新門檻

全球范圍內(nèi)，科技巨頭均在加速布局超大規(guī)模的智算中心。特別是在美國市場，巨頭的算力競爭門檻已達(dá)到十萬卡規(guī)模，以推動在基礎(chǔ)大模型、智能算法研發(fā)及生態(tài)服務(wù)等方面的技術(shù)創(chuàng)新。如谷歌推出超級計算機(jī) A3 Virtual Machines，擁有 26000 塊H100 GPU，同時基于自研芯片搭建TPUv5p 8960卡集群；Meta在2022年推出了擁有16,000 塊NVIDIA A100的AI研究超級集群，2024 年初又公布2個24576 塊的H100集群，用于支持下一代生成式AI模型的訓(xùn)練；馬斯克的xAI今年7月已建成十萬卡集群，并將在未來幾個月內(nèi)再增加10萬卡。

從大模型的角度來看，今年全球頭部廠商(包括谷歌、Meta、Open AI 等)發(fā)布的大模型或者新版本，性能都較去年有明顯提升，這是持續(xù)拉動AI算力芯片和超大規(guī)模集群擴(kuò)張的主要動力。

由于投入資源和芯片上的限制，中國廠商在十萬卡方面的表現(xiàn)并不激進(jìn)。不過，在客戶快速增長的需求下，他們也在分步走向十萬卡集群。目前看來，以華為、百度、字節(jié)跳動、阿里為代表的國內(nèi)企業(yè)，正在探索十萬卡集群的可行性。

目前，百度的百舸4.0通過HPN高性能網(wǎng)絡(luò)、自動化混訓(xùn)切分策略、自研集合通信庫等一系列產(chǎn)品技術(shù)創(chuàng)新，已經(jīng)能夠?qū)崿F(xiàn)十萬卡集群的高效管理。

騰訊今年宣布了自研星脈高性能計算網(wǎng)絡(luò)全面升級，星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡，能夠支持超10萬卡大規(guī)模組網(wǎng)，網(wǎng)絡(luò)通信效率比上一代提升60%，讓大模型訓(xùn)練效率提升20%。

阿里方面也釋出消息，阿里云可實現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同，支持10萬卡量級的集群可擴(kuò)展規(guī)模，已服務(wù)全國一半的人工智能大模型企業(yè)。

相比BAT，字節(jié)跳動的智算布局更為野心勃勃。2024年，字節(jié)資本開支達(dá)到 800 億人民幣，而BAT總開支約1000億人民幣。更令人矚目的是，到2025年這一數(shù)字將翻倍至1600億人民幣，其中900億用于AI算力采購，700億投向數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)及配套硬件。第三方研究機(jī)構(gòu)測算，以400T(FP16)AI算力卡為標(biāo)準(zhǔn)，字節(jié)當(dāng)前的訓(xùn)練算力需求約為26.73萬張卡，文本推理算力需求約為33.67萬張卡，未來，潛在的推理算力需求有望達(dá)到230萬張卡以上。

國產(chǎn)十萬卡集群建設(shè)，哪些難題待解？

傳統(tǒng)云計算時代，基礎(chǔ)設(shè)施是以CPU為核心的體系，核心點(diǎn)是極致彈性、極致性價比，最大的驅(qū)動力往往是提效降本。到了大模型時代，基礎(chǔ)設(shè)施轉(zhuǎn)向了極致高密、極致互聯(lián)與極致規(guī)模，這是一個全面追求技術(shù)創(chuàng)新，驅(qū)動整個業(yè)務(wù)大發(fā)展的階段。

國產(chǎn)十萬卡集群的建設(shè)，絕非易事，涉及技術(shù)突破、戰(zhàn)略合作等眾多產(chǎn)業(yè)難題，需要一個逐步推進(jìn)的過程。從當(dāng)前萬卡集群的建設(shè)經(jīng)驗來看，充分發(fā)揮集群的性能與效率是核心突破點(diǎn)。

針對大模型分布式訓(xùn)練場景，集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升，卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)是追求集群極致有效算力的關(guān)鍵挑戰(zhàn)。

這是因為訓(xùn)練領(lǐng)先的大模型需要超萬卡規(guī)模集群。但是，就像“多人多足”游戲，要整齊劃一地實現(xiàn)像一個人一樣行走并不容易，更何況是要調(diào)度上萬張卡作為一個整體高效工作、實現(xiàn)性能的線性擴(kuò)展、保障任務(wù)不間斷，這對集群的設(shè)計、調(diào)度、容錯都是巨大挑戰(zhàn)。

可以把集群有效算力分解為GPU利用率和集群線性加速比兩個指標(biāo)來看待。其中，GPU利用率主要由芯片架構(gòu)、制程、內(nèi)存、I/O訪問瓶頸、卡間互聯(lián)帶寬等因素決定；而集群線性加速比則取決于節(jié)點(diǎn)間的通信能力、并行訓(xùn)練框架、資源調(diào)度等因素。這其實意味著，即使先進(jìn)萬卡、十萬卡GPU在手，仍需要優(yōu)良的系統(tǒng)工程方法，來對集群進(jìn)行精細(xì)化的設(shè)計和軟硬件的全棧整合優(yōu)化。除此之外，還要應(yīng)對高能耗挑戰(zhàn)、建設(shè)運(yùn)維的挑戰(zhàn)等等。

目前對于十萬卡集群的建設(shè)挑戰(zhàn)，百度總結(jié)得較為客觀，認(rèn)為主要包括：跨地域部署、多芯混訓(xùn)以及集群穩(wěn)定性等難題。特別是多芯混訓(xùn)，既是發(fā)展難題，也是我國十萬卡集群的必經(jīng)之路。

國產(chǎn)算力開啟“多芯混合”時代

國內(nèi)構(gòu)建超萬卡集群面臨著一個非?，F(xiàn)實的困難——芯片。

對于國內(nèi)市場來說，十個大字可以總結(jié)英偉達(dá)的算力卡供應(yīng)，就是“想賣賣不到，想買買不到”，這十個字不僅扎心地伴隨了我國大模型產(chǎn)業(yè)的崛起，還將繼續(xù)橫亙在接下來的產(chǎn)業(yè)道路上。

我國服務(wù)器廠商其實早已開始積極推進(jìn)多元異構(gòu)、多芯混合的策略，比如浪潮信息。隨著AI大模型的不斷增長，算力資源緊缺，也推動了互聯(lián)網(wǎng)廠商開始實施多芯混合戰(zhàn)略。一方面，多芯混合可以提升訓(xùn)練速度、更好地利用內(nèi)存、降低昂貴GPU的使用成本；另一方面，在我國高端算力芯片獲取受限的情況之下，多芯混合策略能夠降低對高端GPU的依賴，緩解芯片供應(yīng)鏈問題，進(jìn)一步驅(qū)動國內(nèi)算力產(chǎn)業(yè)的增長。

目前，包括百度、阿里、無問芯穹、中國移動在內(nèi)的互聯(lián)網(wǎng)廠商、算力運(yùn)營商以及電信運(yùn)營商等，正在破解這些難題。

在多芯混訓(xùn)方面，百舸能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理，構(gòu)建起多芯資源池。當(dāng)業(yè)務(wù)提交工作負(fù)載時，可自動進(jìn)行芯片選型，依據(jù)集群剩余的芯片資源，選擇性價比最高的芯片來運(yùn)行任務(wù)，從而最大化地利用集群的剩余資源。最終，可實現(xiàn)高達(dá)95%的萬卡多芯混合訓(xùn)練效能。

無問芯穹已經(jīng)發(fā)布了全球首個千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺，具備萬卡擴(kuò)展性，支持包括英偉達(dá)、AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練，性能損失最小低于10%。

中國移動的“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0，可支持多品牌萬卡集群。該系統(tǒng)具備基于非均勻計算任務(wù)切分ITD算法的3D并行策略和基于GDR（GPU Direct RDMA）的異構(gòu)芯片高速通信能力，能夠提升訓(xùn)練效率。中國移動的合作伙伴涵蓋華為、瀚博、澎峰等企業(yè)。

寫在最后

超萬卡集群建設(shè)不僅是對我國智算產(chǎn)業(yè)需求的響應(yīng)，更是對AI技術(shù)發(fā)展路徑的預(yù)判。如今，在科研、汽車、教育等領(lǐng)域，智算基礎(chǔ)設(shè)施已經(jīng)成為不可或缺的戰(zhàn)略支撐。

通信運(yùn)營商、互聯(lián)網(wǎng)企業(yè)、大型AI企業(yè)、AI初創(chuàng)企業(yè)等均已爭相邁入“萬卡”集群時代，市場需求的不斷增長的和他們下一步的技術(shù)革新，都將成為我國超萬卡集群建設(shè)的重要動力?？梢灶A(yù)見的是，在萬卡向十萬卡邁進(jìn)的過程中，如何保持智算集群的線性度、穩(wěn)定性，同時保證調(diào)度的效率，是從業(yè)者將持續(xù)關(guān)注的重點(diǎn)。

如果說2024年是我國萬卡集群的元年，2025年，你看好十萬卡集群的到來嗎？

國產(chǎn)智算爭相開啟“萬卡”元年，十萬卡還遠(yuǎn)嗎？

國產(chǎn)萬卡集群建設(shè)，元年開啟

國內(nèi)外巨頭賽事，十萬卡成為新門檻

國產(chǎn)十萬卡集群建設(shè)，哪些難題待解？

國產(chǎn)算力開啟“多芯混合”時代

寫在最后

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

國產(chǎn)智算爭相開啟“萬卡”元年，十萬卡還遠(yuǎn)嗎？

國產(chǎn)萬卡集群建設(shè)，元年開啟

國內(nèi)外巨頭賽事，十萬卡成為新門檻

國產(chǎn)十萬卡集群建設(shè)，哪些難題待解？

國產(chǎn)算力開啟“多芯混合”時代

寫在最后

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

國產(chǎn)智算爭相開啟“萬卡”元年，十萬卡還遠(yuǎn)嗎？

國內(nèi)外巨頭賽事，十萬卡成為新門檻

國產(chǎn)十萬卡集群建設(shè)，哪些難題待解？