9月5日,騰訊2024全球數(shù)字生態(tài)大會召開。大會期間,騰訊云正式發(fā)布AI infra品牌“騰訊云智算”,整合騰訊云在HCC、星脈網(wǎng)絡(luò)、AIGC云存儲等優(yōu)勢單項產(chǎn)品能力,為用戶提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開波表示,騰訊云智算目前已經(jīng)服務(wù)了國內(nèi)90%的大模型廠商,也幫助一大批IDC(數(shù)據(jù)中心)廠商向AIDC(智算中心)廠商轉(zhuǎn)型。
生成式AI驅(qū)動,云基礎(chǔ)設(shè)施進(jìn)入新周期
自ChatGPT點燃市場熱情、各大廠商和資本競相入場以來,僅僅一年多的時間,生成式AI便已從技術(shù)走向?qū)嵺`,逐漸融入各行各業(yè),成為數(shù)字化轉(zhuǎn)型的重要驅(qū)動力。Gartner對于未來生成式AI的預(yù)測是,到2026年,超過80%的企業(yè)都會接入生成式AI或大模型,然而這一比例在2023年初還不到5%。
“盡管目前生成式AI仍處于一個相對早期的發(fā)展階段,商業(yè)化落地還需進(jìn)一步探索,但從長期來看,生成式AI一定會出現(xiàn)一個大爆發(fā)的‘奇點’?!鄙抽_波指出。他認(rèn)為,生成式AI的快速興起驅(qū)動云基礎(chǔ)設(shè)施建設(shè)進(jìn)入一輪全新的周期。
眾所周知,生成式AI背后需要依靠強大的AI模型和海量數(shù)據(jù),其所需要的云服務(wù)算力成本十分龐大。以ChatGPT為例,用戶每次與ChatGPT互動,產(chǎn)生的算力云服務(wù)成本約0.01美元,如果使用總投資30.2億元、算力500P的數(shù)據(jù)中心來支撐ChatGPT的運行,至少需要7-8個這樣的數(shù)據(jù)中心,基礎(chǔ)設(shè)施的投入都是以百億計的。AI大模型無疑為整個云基礎(chǔ)設(shè)施建設(shè)帶來了巨大的市場空間。
“我們的很多業(yè)務(wù)增量都來自于智能計算這一塊。除了GPU之外,圍繞GPU一些存儲、網(wǎng)絡(luò),也是一塊很大的增量?!鄙抽_波坦言。對于大模型訓(xùn)練場景來說,算、存、網(wǎng)是一體的。大模型廠商在模型訓(xùn)練和推理場景中,對云基礎(chǔ)設(shè)施的高性能、高穩(wěn)定性、可運維、應(yīng)用性等方面的要求更高,這就要求服務(wù)商不斷打磨自身產(chǎn)品能力,從計算、網(wǎng)絡(luò)、存儲等方面,包括一些軟件框架層面的優(yōu)化,以更好的去滿足這些AI客戶,尤其是大模型廠商的業(yè)務(wù)需求??梢灶A(yù)見,生成式AI或?qū)⑼苿釉苹A(chǔ)設(shè)施的整體升級。
模型越來越大,呼喚更大規(guī)模計算集群
伴隨生成式AI的興起,業(yè)內(nèi)出現(xiàn)一個趨勢:模型參數(shù)規(guī)模越來越大,從百萬級逐步進(jìn)入千萬級,甚至是萬億級。而參數(shù)越大,訓(xùn)練所用的計算資源就越多,這些大模型的訓(xùn)練動輒需要使用成千上萬張GPU卡去做算力支撐,引發(fā)模型廠商的算力焦慮。沙開波指出,智能算力存在比較典型的“木桶短板”效應(yīng),算力的提升不能光靠“堆卡”,而是要讓計算、存儲、網(wǎng)絡(luò)以及上層的框架等各個環(huán)節(jié)全面協(xié)調(diào)配合,才能打造出一個高性能、高帶寬、低延遲的計算集群。
以網(wǎng)絡(luò)能力為例,千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時,傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費。為解決網(wǎng)絡(luò)性能問題,各個廠商推出了一系列相關(guān)產(chǎn)品和解決方案。
其中,騰訊云星脈網(wǎng)絡(luò)具備3.2T通信帶寬,可支持10萬卡的超大計算規(guī)模。據(jù)悉,其能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升。數(shù)據(jù)顯示,在穩(wěn)定性和性能上,騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16,是行業(yè)水平的1/3;1分鐘就能完成萬卡checkpoint寫入,數(shù)據(jù)讀寫效率是業(yè)界10倍;千卡集群的通信時間縮短到6%,是業(yè)界一半。
同時,通過整合軟硬件技術(shù)能力,騰訊云智算集群從機器上架到開始訓(xùn)練可以做到只需1天,相比業(yè)界以月為單位也大為縮短?!拔覀冊谧龅氖窃谝?guī)模比較大的計算集群里面,把卡的利用率盡可能做到極致,減少閑置算力就是減少用戶成本?!鄙抽_波表示。據(jù)他透露,某模型廠商通過使用騰訊云智算大模型訓(xùn)練集群解決方案將千卡一年的模型訓(xùn)練成本降低了2000萬。
智算資源短缺,“一云多芯”成為主流選擇
當(dāng)前,智算中心被視為如同水和電一般的“新基建”,在全國各地落地開花。據(jù)賽迪顧問統(tǒng)計,截至2024年上半年,國內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心超過250個。智算中心招投標(biāo)相關(guān)事件791起,同比增長高達(dá)407.1%。最新統(tǒng)計顯示,截至5月底,全國規(guī)劃具有高性能計算機集群的智算中心已達(dá)十余個。
從算力規(guī)模來看,我國智能算力在算力總規(guī)模中的比重超過了30%。盡管智算中心建設(shè)如火如荼,但智算資源的供需矛盾依然存在?!爸撬阒行慕ㄔO(shè)方通常手里有卡,也有硬件資源。但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有應(yīng)用。
有了卡和硬件,不代表大模型的訓(xùn)練、推理或者AI的應(yīng)用就可以直接‘跑’出來了,還需要配套的軟件能力,要能夠把所有資源高效管理和調(diào)度起來,還得找到最終應(yīng)用場景或者終端客戶?!鄙抽_波分析稱。為彌合智算資源“供”與“需”之間的溝壑,“一云多芯”成為一個主流選擇。
過去,智算集群中的多個模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù),不論是不同廠商芯片算力切分、芯片間通信效率或是根本的模型訓(xùn)練效率問題,都使得算力焦慮在在硬件差異之下被無限放大。
而云平臺可以將服務(wù)器芯片等硬件封裝成標(biāo)準(zhǔn)算力,無論底層是x86與ARM指令集的并存、x86或ARM不同廠商架構(gòu)間并存、不同GPU或DPU服務(wù)器并存,抑或是計算節(jié)點與存儲節(jié)點不同芯片架構(gòu)并存,都能給客戶提供體驗一致的云計算服務(wù)。比如,騰訊云智算平臺便采用了“一云多芯”架構(gòu),可以適配、管理、調(diào)度多種CPU和GPU芯片,能夠有效降低供應(yīng)鏈風(fēng)險,同時滿足不同業(yè)務(wù)對于不同算力的需求。
“生成式AI的興起給整個云基礎(chǔ)設(shè)施建設(shè)提出了更高的要求,我們希望能夠整合高性能計算、高性能存儲、高性能網(wǎng)絡(luò)等各方面的能力,為企業(yè)用戶提供集‘算、存、網(wǎng)、數(shù)’于一體的技術(shù)底座,幫助大家加速釋放AI生產(chǎn)力?!鄙抽_波說道。
作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東