加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • █ 高性能網(wǎng)絡(luò)的挑戰(zhàn)
    • █?星脈網(wǎng)絡(luò),鵝廠的算力集群殺手锏
    • █ 結(jié)語
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

死磕AI大模型網(wǎng)絡(luò),鵝廠出招了!

2023/06/27
1808
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2023年,以ChatGPT為代表的AIGC大模型全面崛起,成為了整個社會關(guān)注的焦點。

大模型表現(xiàn)出了強悍的自然語言理解能力,刷新了人們對AI的認(rèn)知,也掀起了新一輪的“算力軍備競賽”。

大家都知道,AIGC大模型的入局門檻是很高的。玩AI的三大必備要素——算力、算法和數(shù)據(jù),每一個都意味著巨大的投入。

以算力為例。ChatGPT的技術(shù)底座,是基于微調(diào)后的GPT3.5大模型,參數(shù)量多達1750億個。為了完成這個大模型的訓(xùn)練,微軟專門建設(shè)了一個AI超算系統(tǒng),投入了1萬個V100 GPU,總算力消耗約3640 PF-days(即假如每秒計算一千萬億次,需要計算3640天)。

業(yè)內(nèi)頭部廠商近期推出的大模型,參數(shù)量規(guī)模更是達到萬億級別,需要的GPU更多,消耗的算力更大。

這些數(shù)量龐大的GPU,一定需要通過算力集群的方式,協(xié)同完成計算任務(wù)。這就意味著,需要一張超高性能、超強可靠的網(wǎng)絡(luò),才能把海量GPU聯(lián)接起來,形成超級計算集群。

那么,問題來了,這張網(wǎng)絡(luò),到底該如何搭建呢?

高性能網(wǎng)絡(luò)的挑戰(zhàn)

想要建設(shè)一張承載AIGC大模型的網(wǎng)絡(luò),需要考慮的因素非常多。

首先,是網(wǎng)絡(luò)規(guī)模。

剛才我們也提到,AI訓(xùn)練都是10000個GPU起步,也有的達到十萬級。從架構(gòu)上,目標(biāo)網(wǎng)絡(luò)就必須hold得住這么多的計算節(jié)點。而且,在節(jié)點增加的同時,集群算力盡量線性提升,不能引入過高的通信開銷,損失算力。

其次,是網(wǎng)絡(luò)帶寬。

超高性能的GPU,加上千億、萬億參數(shù)的訓(xùn)練規(guī)模,使得計算節(jié)點之間的通信量,達到了百GB量級。再加上各種并行模式、加速框架的引入,節(jié)點之間的通道帶寬需求會更高。

傳統(tǒng)數(shù)據(jù)中心通用的100Gbps帶寬接入,根本滿足不了這個需求。我們的目標(biāo)網(wǎng)絡(luò),接入帶寬必須升級到800Gbps、1.6Tbps,甚至更高。

第三,流量調(diào)控。

傳統(tǒng)的網(wǎng)絡(luò)架構(gòu),在應(yīng)對AI大模型訓(xùn)練產(chǎn)生的數(shù)據(jù)流時,存在缺陷。所以,目標(biāo)網(wǎng)絡(luò)需要在架構(gòu)上做文章,更好地控制數(shù)據(jù)流路徑,讓節(jié)點和通道的流量更均衡,避免發(fā)生擁塞。

第四,協(xié)議升級。

網(wǎng)絡(luò)協(xié)議是網(wǎng)絡(luò)工作的行為準(zhǔn)則。它的好壞,直接決定了網(wǎng)絡(luò)的性能、效率和延遲。

傳統(tǒng)數(shù)據(jù)中心的TCP/IP協(xié)議,早已已無法滿足高性能網(wǎng)絡(luò)的大帶寬、低時延需求。性能更強的IB(InfiniBand)協(xié)議、RDMA協(xié)議,已然成為主流。有實力的廠家,還會基于自家硬件設(shè)備,自研更高效的協(xié)議。

第五,運維簡化。

這就不用多說了。超大規(guī)模的網(wǎng)絡(luò),如果還是采用傳統(tǒng)運維,不僅效率跟不上,還會導(dǎo)致更長的故障恢復(fù)周期,損失算力,損失資金。

目前,行業(yè)里的“大模頭”們,都會根據(jù)自己技術(shù)和資金實力,選擇商用網(wǎng)絡(luò)組網(wǎng),或者自研網(wǎng)絡(luò)協(xié)議。

大家心里很清楚,想要贏得這場比賽,除了算力芯片足夠強之外,網(wǎng)絡(luò)的性能表現(xiàn)是至關(guān)重要的。網(wǎng)絡(luò)越強,集群的算力提升就越大,完成模型訓(xùn)練的時間就越短,成本也就越低。

?星脈網(wǎng)絡(luò),鵝廠的算力集群殺手锏

對于AI大模型這場熱潮,騰訊當(dāng)然不會缺席。他們推出了業(yè)界領(lǐng)先的高性能計算網(wǎng)絡(luò)架構(gòu)——星脈

騰訊深耕互聯(lián)網(wǎng)行業(yè)20多年,從QQ到微信,他們的超大規(guī)模業(yè)務(wù)承載能力,可以說是行業(yè)頂尖的。在網(wǎng)絡(luò)技術(shù)的理解和駕馭能力上,也是世界領(lǐng)先水平。而星脈,則是他們多年技術(shù)研究的精髓,是真正的殺手锏。

根據(jù)實測,星脈實現(xiàn)了AI大模型通信性能的10倍提升、GPU利用率提升40%、通信時延降低40%。

基于全自研的網(wǎng)絡(luò)硬件平臺,星脈可以實現(xiàn)網(wǎng)絡(luò)建設(shè)成本降低30%,模型訓(xùn)練成本節(jié)省30%~60%。

星脈網(wǎng)絡(luò)的算力效率,遠高于業(yè)界主流值

接下來,我們不妨深入解讀一下,星脈到底采用了哪些黑科技。在前面所提到的幾項挑戰(zhàn)上,騰訊團隊又是如何應(yīng)對的。

網(wǎng)絡(luò)規(guī)模

在組網(wǎng)架構(gòu)上,星脈網(wǎng)絡(luò)采用無阻塞胖樹(Fat-Tree)拓?fù)?,分為Block-Pod-Cluster三級。

星脈網(wǎng)絡(luò)的架構(gòu)

Block是最小單元,包括256個GPU。

Pod是典型集群規(guī)模,包括16~64個Block,也就是4096~16384個GPU。

多個Block可以組成Cluster。1個Cluster最大支持16個Pod,也就是65536~262144個GPU。

26萬個GPU,這個規(guī)模完全能夠滿足目前的訓(xùn)練需求。

網(wǎng)絡(luò)帶寬

騰訊星脈網(wǎng)絡(luò)為每個計算節(jié)點提供了3.2T的超高通信帶寬。

單個服務(wù)器(帶有8個GPU)就是一個計算節(jié)點。每個服務(wù)器有8塊RoCE網(wǎng)卡。每塊網(wǎng)卡的接口速率是400Gbps。

RoCE,是RDMA over Converged Ethernet(基于聚合以太網(wǎng)的RDMA)。RDMA(遠程直接GPU通信訪問)我們以前介紹過很多次。它允許計算節(jié)點之間直接通過內(nèi)存進行數(shù)據(jù)傳輸,無需操作系統(tǒng)內(nèi)核和CPU的參與,能夠大幅減小CPU負(fù)荷,降低延遲,提高吞吐量。

大帶寬帶來的優(yōu)勢是非常顯著的。對于AllReduce和All-to-All這兩種典型通信模式,在不同集群規(guī)模下,1.6Tbps超帶寬都會帶來10倍以上的通信性能提升(相比100Gbps帶寬)。

以AllReduce模式、64 GPU規(guī)模為例,采用1.6Tbps超帶寬網(wǎng)絡(luò),將使得AllReduce的耗時大幅縮短14倍,通信占比從35%減少到3.7%,最終使得單次迭代的訓(xùn)練耗時減少32%。從集群算力的角度來看,相當(dāng)于用同樣的計算資源,系統(tǒng)算力卻提升48%。

流量調(diào)控

為了提升集群的通信效率,星脈網(wǎng)絡(luò)對通信流量路徑進行了優(yōu)化,引入了“多軌道流量聚合架構(gòu)”

該架構(gòu)將不同服務(wù)器上位于相同位置的網(wǎng)卡,都?xì)w屬于同一個ToR switch(機柜頂部的匯聚交換機)。整個計算網(wǎng)絡(luò)平面,從物理上被劃分為8個獨立并行的軌道平面。

在工作時,GPU之間的數(shù)據(jù),可以用多個軌道并行傳輸加速。并且,大部分流量,都聚合在軌道平面內(nèi)傳輸(只經(jīng)過一級 ToR switch)。只有小部分流量,會跨軌道平面?zhèn)鬏敚ㄐ枰?jīng)過二級 switch)。這大幅減輕了網(wǎng)絡(luò)壓力。

星脈網(wǎng)絡(luò)還采用了異構(gòu)網(wǎng)絡(luò)自適應(yīng)通信技術(shù)”。

在集群中,GPU之間的通信包括機間網(wǎng)絡(luò)(網(wǎng)卡+交換機)與機內(nèi)網(wǎng)絡(luò)( NVLink/NVSwitch 網(wǎng)絡(luò)、PCIe 總線網(wǎng)絡(luò))。

星脈網(wǎng)絡(luò)將機間、機內(nèi)兩種網(wǎng)絡(luò)同時利用起來,實現(xiàn)了異構(gòu)網(wǎng)絡(luò)之間的聯(lián)合通信優(yōu)化。

例如,在All-to-All通信模式時,每個GPU都會和其它服務(wù)器的不同GPU通信。

基于異構(gòu)網(wǎng)絡(luò)自適應(yīng)通信技術(shù),不同服務(wù)器上相同位置的GPU,在同一軌道平面,仍然走機間網(wǎng)絡(luò)通信。

但是,要去往不同位置的GPU(比如host1上的GPU1,需要向其它host上的GPU8 送數(shù)據(jù)),則先通過機內(nèi)網(wǎng)絡(luò),轉(zhuǎn)發(fā)到host1上的GPU8上,然后通過機間網(wǎng)絡(luò),來完成通信。

這樣一來,機間網(wǎng)絡(luò)的流量,大部分都聚合在軌道內(nèi)傳輸(只經(jīng)過一級 ToR switch)。機間網(wǎng)絡(luò)的流量大幅減少,沖擊概率也明顯下降,從而提供了整網(wǎng)性能。

根據(jù)實測,異構(gòu)網(wǎng)絡(luò)通信在大規(guī)模All-to-All場景下,對中小數(shù)據(jù)包的傳輸性能提升在30%左右。

協(xié)議升級

星脈網(wǎng)絡(luò)采用的“自研端網(wǎng)協(xié)同協(xié)議TiTa”,可以提供更高的網(wǎng)絡(luò)通信性能,非常適合大規(guī)模參數(shù)模型訓(xùn)練。

TiTa協(xié)議內(nèi)嵌擁塞控制算法,可以實時監(jiān)控網(wǎng)絡(luò)狀態(tài)并進行通信優(yōu)化。它就好比是一個智能交通管理系統(tǒng),可以讓網(wǎng)絡(luò)上的數(shù)據(jù)傳輸更加通暢。

TiTa協(xié)議的處理方式

面對定制設(shè)計的高性能組網(wǎng)架構(gòu),業(yè)界開源的GPU集合通信庫(例如NCCL)并不能將網(wǎng)絡(luò)的通信性能發(fā)揮到極致。為此,騰訊推出了“高性能集合通信庫TCCL(Tencent Collective Communication Library)”。

TCCL就像一個智能導(dǎo)航系統(tǒng)。它在網(wǎng)卡設(shè)備管理、全局網(wǎng)絡(luò)路由、拓?fù)涓兄H和性調(diào)度、網(wǎng)絡(luò)故障自動告警等方面進行了深度定制,對網(wǎng)絡(luò)了如指掌,讓流量路徑更加合理。

例如,從GPU A到GPU B,原來需要經(jīng)過9個路口。有了TCCL導(dǎo)航之后,只需要走4個路口,提升了效率。

根據(jù)實測,在AllReduce/AllGather/ReduceScatter等常用通信模式下,TCCL能給星脈網(wǎng)絡(luò)帶來40%左右的通信性能提升。

部署和運維簡化

算力集群網(wǎng)絡(luò)越龐大,它的部署和維護難度也就越大。

了提升星脈網(wǎng)絡(luò)的可靠性,騰訊自研了一套全棧網(wǎng)絡(luò)運營系統(tǒng),實現(xiàn)了“端網(wǎng)部署一體化”、“一鍵故障定位”、“業(yè)務(wù)無感秒級網(wǎng)絡(luò)自愈”,對網(wǎng)絡(luò)進行全方位保駕護航。

先看看“端網(wǎng)部署一體化”。

部署一直都是高性能網(wǎng)絡(luò)的痛點。在星脈網(wǎng)絡(luò)之前,根據(jù)統(tǒng)計,90%的高性能網(wǎng)絡(luò)故障問題,是因為配置錯誤導(dǎo)致。原因很簡單,網(wǎng)卡的配置套餐太多(取決于架構(gòu)版本、業(yè)務(wù)類型和網(wǎng)卡類型),人為操作很難保證不出錯。

騰訊的解決方法,是將配置過程自動化。

他們通過API的方式,實現(xiàn)單臺/多臺交換機的并行部署能力。

在正式部署前,系統(tǒng)會自動對基礎(chǔ)網(wǎng)絡(luò)環(huán)境進行校驗,看看上級交換機的配置是否合理等。

然后,識別外部因素,自動選擇配置模板。

配置完成后,為了保證交付質(zhì)量,運營平臺還會進行自動化驗收,包括一系列的性能和可靠性測試。

所有工作完成后,系統(tǒng)才會進入交付狀態(tài)。

根據(jù)數(shù)據(jù)統(tǒng)計,基于端網(wǎng)一體部署能力,大模型訓(xùn)練系統(tǒng)的整體部署時間從19天縮減到4.5天,并保證了基礎(chǔ)配置100%準(zhǔn)確。

再看看運維階段的“一鍵故障定位”

星脈網(wǎng)絡(luò)具有端網(wǎng)高度協(xié)同的特點,增加了端側(cè)的運營能力。運營平臺通過數(shù)據(jù)采集模塊,獲取端側(cè)服務(wù)器和網(wǎng)絡(luò)側(cè)交換機的數(shù)據(jù),聯(lián)動網(wǎng)管拓?fù)湫畔?,可以做到快速診斷與自動化檢查。

一鍵故障定位,可以快速定界問題方向,精準(zhǔn)推送到對應(yīng)團隊的運營人員(網(wǎng)絡(luò)or業(yè)務(wù)),減少溝通成本,劃分責(zé)任界限。而且,它還有利于快速定位問題根因,并給出解決方案。

最后,是“業(yè)務(wù)無感秒級網(wǎng)絡(luò)自愈”

在網(wǎng)絡(luò)運行的過程中,故障是無法避免的。

為了將故障自愈時間縮短到極致,騰訊推出了秒級故障自愈產(chǎn)品——“HASH DODGING”。

這是一種基于Hash偏移算法的網(wǎng)絡(luò)相對路徑控制方法。即,終端僅需修改數(shù)據(jù)包頭特定字段(如IP頭TOS字段)的值,即可使得修改后的包傳輸路徑與修改前路徑無公共節(jié)點。

在網(wǎng)絡(luò)數(shù)據(jù)平面發(fā)生故障(如靜默丟包、路由黑洞)時,該方案可以幫助TCP快速繞過故障點,不會產(chǎn)生對標(biāo)準(zhǔn)拓?fù)浼疤囟ㄔ炊丝谔柕囊蕾嚒?/p>

單路徑傳輸協(xié)議下,使用本方案,實現(xiàn)確定性換路

結(jié)語

以上,就是對騰訊星脈高性能計算網(wǎng)絡(luò)的關(guān)鍵技術(shù)分析。

這些關(guān)鍵技術(shù),揭示了高性能網(wǎng)絡(luò)的發(fā)展思路和演進方向。隨著AI大模型的深入發(fā)展,人類對AI算力的需求會不斷增加。

日前,騰訊云發(fā)布的新一代HCC高性能計算集群,正是基于星脈高性能網(wǎng)絡(luò)打造,算力性能較前代提升3倍,為AI大模型訓(xùn)練構(gòu)筑可靠的高性能網(wǎng)絡(luò)底座。

未來已來,這場圍繞算力和連接力的角逐已經(jīng)開始。更多的精彩還在后面,讓我們拭目以待吧!

 

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
TMS320F28377DPTPT 1 Texas Instruments C2000™ 32-bit MCU with 800 MIPS, 2xCPU, 2xCLA, FPU, TMU, 1024 KB flash, EMIF, 16b ADC 176-HLQFP -40 to 105

ECAD模型

下載ECAD模型
$25.67 查看
FS32K146HAT0MLLT 1 NXP Semiconductors RISC Microcontroller

ECAD模型

下載ECAD模型
$11.53 查看
ATXMEGA256A3U-MH 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64QFN

ECAD模型

下載ECAD模型
$5.86 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動通信改變中國》叢書作者。通信行業(yè)13年工作經(jīng)驗,曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級講師、中興通訊高級主任工程師,擁有豐富的行業(yè)經(jīng)驗和積累。