日前,2023人工智能計(jì)算大會(huì)(AICC)在北京召開(kāi)。大會(huì)以“智算力就是創(chuàng)新力”為主題,現(xiàn)場(chǎng)發(fā)布了《2023-2024年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》(簡(jiǎn)稱報(bào)告)、《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(shū)(2023年)》(簡(jiǎn)稱白皮書(shū)),并舉行了北京人工智能公共算力平臺(tái)點(diǎn)亮儀式,同時(shí)發(fā)布首批104GB中文互聯(lián)網(wǎng)語(yǔ)料庫(kù)。
2023年,中國(guó)智能算力規(guī)模同比增長(zhǎng)59.3%
國(guó)際數(shù)據(jù)公司(IDC)與浪潮信息聯(lián)合發(fā)布《2023-2024年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》。報(bào)告顯示,人工智能正在加速?gòu)母兄悄艿缴墒街悄苓~進(jìn),中國(guó)人工智能算力市場(chǎng)規(guī)??焖俪砷L(zhǎng)擴(kuò)大。2023年,中國(guó)人工智能服務(wù)器市場(chǎng)規(guī)模將達(dá)91億美元,同比增長(zhǎng)82.5%;智能算力規(guī)模預(yù)計(jì)達(dá)到414.1EFLOPS(每秒百億億次浮點(diǎn)運(yùn)算),同比增長(zhǎng)59.3%;2022-2027年期間,年復(fù)合增長(zhǎng)率預(yù)計(jì)達(dá)33.9%。
中國(guó)智能算力規(guī)模及預(yù)測(cè),2020-2027
該報(bào)告指出,當(dāng)前在AIGC的帶動(dòng)下,人工智能計(jì)算力技術(shù)及應(yīng)用趨勢(shì)發(fā)生了較大的變化,體現(xiàn)為“三變:
一是計(jì)算范式之變。大模型和AIGC的發(fā)展加速了更高計(jì)算性能、更快互聯(lián)性能的算力基礎(chǔ)設(shè)施建設(shè),推進(jìn)人工智能在云-邊-端的覆蓋。此外,伴隨應(yīng)用場(chǎng)景多樣性,底層基礎(chǔ)設(shè)施呈現(xiàn)多元化發(fā)展。
二是產(chǎn)業(yè)動(dòng)量之變。AIGC可重構(gòu)現(xiàn)有的工作方式,在內(nèi)容創(chuàng)作、自動(dòng)駕駛、零售、醫(yī)療等諸多領(lǐng)域改變著人們的生活和生產(chǎn)方式,同時(shí)也帶來(lái)更大的市場(chǎng)機(jī)會(huì)。算力、算法、應(yīng)用、服務(wù)等諸多產(chǎn)業(yè)變量將成為創(chuàng)新的加速器,在算力生態(tài)鏈上的各個(gè)環(huán)節(jié)催生出新的玩家。
三是算力服務(wù)格局之變。由于基礎(chǔ)大模型的本地訓(xùn)練成本不菲,企業(yè)將更多地使用已有的人工智能數(shù)據(jù)中心設(shè)施和生成式AI服務(wù)器集群,這將為算力服務(wù)市場(chǎng)帶來(lái)新機(jī)會(huì)。算力服務(wù)供應(yīng)商要能夠提供定制化的基礎(chǔ)設(shè)施服務(wù)能力,滿足單個(gè)用戶對(duì)訓(xùn)練和推理資源的獨(dú)占式、大規(guī)模、長(zhǎng)時(shí)間使用的訴求,同時(shí)幫助用戶實(shí)現(xiàn)成本控制。
生成式AI時(shí)代,智算力系統(tǒng)面臨三重挑戰(zhàn)
浪潮信息高級(jí)副總裁劉軍進(jìn)行了《智算力系統(tǒng)創(chuàng)新,加速生成式AI的產(chǎn)業(yè)發(fā)展》的主題演講。他認(rèn)為,生成式AI給算力系統(tǒng)帶來(lái)的挑戰(zhàn)主要有三方面:計(jì)算、數(shù)據(jù)和互聯(lián)。
首先在計(jì)算層面,全球高端的AI訓(xùn)練芯片百花齊放,當(dāng)前已經(jīng)有40余種。由于不同芯片廠商采用的技術(shù)路線不同,在接口互聯(lián)協(xié)議方面存在較多不兼容的情況,從而給AI算力系統(tǒng)帶來(lái)開(kāi)發(fā)適配周期長(zhǎng)、定制開(kāi)發(fā)投入大、業(yè)務(wù)遷移時(shí)間久等問(wèn)題。
由于大模型訓(xùn)練對(duì)算力規(guī)模要求高,那么在單芯片算力有限的情況下,為了獲得更高的訓(xùn)練性能,必須通過(guò)擴(kuò)展集群規(guī)模來(lái)獲得性能的擴(kuò)展。
第二,數(shù)據(jù)存儲(chǔ)方面,由于大模型正在從單模態(tài)向多模態(tài)、跨模態(tài)演進(jìn),這其中涉及文本、圖像、音頻、視頻等多態(tài)數(shù)據(jù),訓(xùn)練數(shù)據(jù)集通常會(huì)達(dá)到TB級(jí)甚至PB級(jí)。同時(shí),大模型在訓(xùn)練和推理的不同階段中對(duì)數(shù)據(jù)存儲(chǔ)的要求也不同。
第三,互聯(lián)方面,傳統(tǒng)RoCE網(wǎng)絡(luò)因ECMP哈希不均導(dǎo)致40%以上的網(wǎng)絡(luò)帶寬被浪費(fèi),且尾時(shí)延高導(dǎo)致網(wǎng)絡(luò)通信時(shí)間占比訓(xùn)練時(shí)間高達(dá)40%,極大降低了計(jì)算效率。此外,網(wǎng)絡(luò)作為集群的共享資源,網(wǎng)絡(luò)故障以及性能波動(dòng),會(huì)影響到所有計(jì)算資源的利用率。
面對(duì)三重挑戰(zhàn),浪潮信息總結(jié)了多年產(chǎn)品研發(fā)和用戶服務(wù)經(jīng)驗(yàn),提出三部分解決之道。
在計(jì)算方面,首先要解決多元算力的問(wèn)題??梢灶A(yù)見(jiàn),未來(lái)在相當(dāng)長(zhǎng)時(shí)間內(nèi),一定是多元算力芯片共存的局面。浪潮信息希望通過(guò)統(tǒng)一的系統(tǒng)架構(gòu)和接口規(guī)范兼容各類多元的AI芯片,從而能夠保障芯片算力的高效釋放。據(jù)介紹,浪潮信息從2018年就開(kāi)始打造開(kāi)放多元的AI算力平臺(tái),最新發(fā)布的新一代G7多元算力平臺(tái),是業(yè)界目前唯一可以同時(shí)兼容SXM、OAI加速卡并實(shí)現(xiàn)8卡全互聯(lián)、16卡全互聯(lián)和混合立方互聯(lián)系統(tǒng)拓?fù)涞腁I算力平臺(tái)。通過(guò)多元算力平臺(tái)的構(gòu)建,浪潮信息顯著降低了新型AI加速卡的上市時(shí)間,降低了整體開(kāi)發(fā)的成本,也保證了搭配不同AI芯片的系統(tǒng),具備良好的一致性品質(zhì)。
為了保障更大規(guī)模的集群擴(kuò)展性能,浪潮信息研發(fā)了開(kāi)放加速的計(jì)算架構(gòu),在節(jié)點(diǎn)內(nèi)和跨節(jié)點(diǎn)的互聯(lián)可以做到896GB/s的互聯(lián)帶寬,支持PCIe、RoCE多協(xié)議擴(kuò)展,使得整個(gè)集群性能加速比超過(guò)90%以上。
在數(shù)據(jù)存儲(chǔ)方面,浪潮信息在業(yè)界率先實(shí)現(xiàn)了一套集群系統(tǒng)同時(shí)支持文件、對(duì)象、大數(shù)據(jù)等多種非結(jié)構(gòu)化協(xié)議的無(wú)損互訪,同時(shí)支持閃存、磁盤(pán)、磁帶、光盤(pán)四類存儲(chǔ)介質(zhì),并支持?jǐn)?shù)據(jù)全生命周期熱、溫、冷、冰四級(jí)存儲(chǔ)管理,以一套存儲(chǔ)架構(gòu)支持一個(gè)數(shù)據(jù)中心,真正實(shí)現(xiàn)了數(shù)據(jù)融合、管理融合。
在互聯(lián)創(chuàng)新方面,浪潮信息專為生成式AI計(jì)算場(chǎng)景發(fā)布旗艦51.2T高性能交換機(jī),為企業(yè)級(jí)智算網(wǎng)絡(luò)提供高吞吐、高可擴(kuò)展、高可靠的智算網(wǎng)絡(luò)產(chǎn)品及方案,解決了傳統(tǒng)RoCE方案普遍存在的有效帶寬低、尾時(shí)延高、故障收斂慢等問(wèn)題,將大模型訓(xùn)練性能提升38%以上,性能接近InfiniBand,助力AI用戶高效釋放大模型生產(chǎn)力。
“以應(yīng)用為導(dǎo)向、系統(tǒng)為核心”是算力升級(jí)新路徑
大模型和AIGC的發(fā)展提升了智能算力需求,給計(jì)算市場(chǎng)帶來(lái)了發(fā)展機(jī)遇,同時(shí)也帶來(lái)了算力緊缺等挑戰(zhàn)。對(duì)此,《2023-2024年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》指出:面對(duì)單芯片算力瓶頸、算力緊缺等問(wèn)題,中國(guó)市場(chǎng)對(duì)于智能算力供給能力的衡量標(biāo)準(zhǔn)將發(fā)生變化——評(píng)估指標(biāo)將從硬件性能向應(yīng)用效果轉(zhuǎn)變,用戶在獲得算力服務(wù)的過(guò)程中,會(huì)更加以應(yīng)用為導(dǎo)向進(jìn)行綜合考量,增加對(duì)于諸如單位時(shí)間可處理Token數(shù)量、可靠性、時(shí)延、訓(xùn)練時(shí)間和資金成本、數(shù)據(jù)集質(zhì)量等指標(biāo)的關(guān)注。
針對(duì)這一轉(zhuǎn)變,算力供應(yīng)商需要“以應(yīng)用為導(dǎo)向、系統(tǒng)為核心”,構(gòu)建算力基礎(chǔ)設(shè)施平臺(tái),提高算力利用率,提升諸如卡間互聯(lián)、多節(jié)點(diǎn)間互聯(lián)等水平,支持靈活穩(wěn)定擴(kuò)展和彈性容錯(cuò),打造通用的人工智能軟件和硬件平臺(tái),以先進(jìn)的系統(tǒng)性能力滿足市場(chǎng)的應(yīng)用需求。根據(jù)報(bào)告建議,與其過(guò)分關(guān)注單一芯片的性能強(qiáng)弱,不如根據(jù)AI業(yè)務(wù)場(chǎng)景需求,設(shè)計(jì)更具針對(duì)性的算力系統(tǒng),實(shí)現(xiàn)整體性能最優(yōu)。