2023年10月,六部門聯(lián)合發(fā)布《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,其中明確了全國(guó)算力在未來三年的建設(shè)步調(diào)。
2024年2月,國(guó)資委召開“AI賦能產(chǎn)業(yè)煥新”中央企業(yè)人工智能專題推進(jìn)會(huì),強(qiáng)調(diào)央企要把發(fā)展人工智能放在全局工作中統(tǒng)籌謀劃,把主要資源集中投入到最需要、最有優(yōu)勢(shì)的領(lǐng)域,加快建設(shè)智算中心。
與此同時(shí),近兩年ChatGPT、AIGC、Sora等人工智能的話題引爆全世界,大模型走向多模態(tài)化,傳統(tǒng)的數(shù)據(jù)中心開始向智算中心改革。
什么是智算中心?
作為AI技術(shù)產(chǎn)業(yè)化的重要引擎,智算中心可為各類AI應(yīng)用提供強(qiáng)大的算力支持、數(shù)據(jù)處理能力和先進(jìn)的算法服務(wù),而其關(guān)鍵功能在于其算力資源的高效生產(chǎn)、聚合、智能調(diào)度和精準(zhǔn)釋放,這些能力將共同促進(jìn)數(shù)據(jù)的開放共享、智能生態(tài)系統(tǒng)的構(gòu)建以及產(chǎn)業(yè)創(chuàng)新的集聚。
換言之,智算中心是服務(wù)于人工智能的數(shù)據(jù)計(jì)算中心,包括人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等需求,從而賦能產(chǎn)業(yè)發(fā)展。
根據(jù)IDC的《2021-2022全球計(jì)算力指數(shù)評(píng)估報(bào)告》,一個(gè)國(guó)家的計(jì)算力指數(shù)每提高1點(diǎn),數(shù)字經(jīng)濟(jì)將增長(zhǎng)3.5‰,GDP將增長(zhǎng)1.8‰。
也正是因?yàn)橹撬阒行牡倪@些特性,國(guó)家才在重點(diǎn)布局?jǐn)?shù)據(jù)中心,中國(guó)國(guó)內(nèi)的設(shè)備供應(yīng)商也在積極參與到AI領(lǐng)域,尤其在智算中心設(shè)備方面。
智算中心需要怎樣的算力支撐?
智算中心將算力資源全面解耦,以追求計(jì)算、存儲(chǔ)資源極致的彈性供給和利用。
當(dāng)前,智算中心的訓(xùn)練大都以GPU為主。那么,以GPU為主的算力真的是未來智算中心的最優(yōu)選擇嗎?
業(yè)內(nèi)有一種說法:“在高性能計(jì)算領(lǐng)域,算力的競(jìng)爭(zhēng)歸根結(jié)底是能耗效率的較量?!睋Q言之,在AI和大數(shù)據(jù)時(shí)代,對(duì)于算力的需求日益增長(zhǎng),而能源消耗和成本效益成為了衡量計(jì)算解決方案競(jìng)爭(zhēng)力的重要指標(biāo)。因此,設(shè)計(jì)低能耗、高效率的算力解決方案對(duì)于確??沙掷m(xù)發(fā)展和經(jīng)濟(jì)效益至關(guān)重要。
而對(duì)于智算中心的建設(shè)來講,相比以GPU為主要硬件底座的方案,采用AI芯片的方案可能在特定任務(wù)上提供更高的性能或更低的能耗,并針對(duì)特定類型的AI模型或應(yīng)用進(jìn)行優(yōu)化,從而提供更高的效率。
國(guó)產(chǎn) AI 芯片系統(tǒng)方案商業(yè)落地加速
目前,國(guó)產(chǎn)算力隨著性能和易用性的提升,正逐漸獲得國(guó)內(nèi)大模型和人工智能應(yīng)用企業(yè)的青睞。
在2024 WAIC上,我們看到以燧原科技為代表的國(guó)產(chǎn)算力提供商,已經(jīng)在智算中心領(lǐng)域?qū)崿F(xiàn)了“從一到多” 的合作落地,進(jìn)展還是不錯(cuò)的。
圖 | 燧原科技2024 WAIC 展臺(tái),來源:燧原科技
根據(jù)燧原科技提供的信息顯示,當(dāng)前燧原科技的二代產(chǎn)品已經(jīng)落地之江實(shí)驗(yàn)室、成都智算中心、宜昌點(diǎn)軍智算中心(300P算力)和慶陽(yáng)智算中心(50000P算力)等大型算力中心。其中,點(diǎn)軍智算中心僅用一年就完成了300P國(guó)產(chǎn)算力的建設(shè),自2024年1月運(yùn)行至今,300P算力已經(jīng)實(shí)現(xiàn)全消納,所有的板卡和服務(wù)都開起來,而且不停地有業(yè)務(wù)在上面跑。
針對(duì)以上智算中心的建設(shè)過程與成果,筆者簡(jiǎn)單采訪了燧原科技軟件工程師,作為項(xiàng)目的一線參與者,他表示:“雖然模型算法是通用的,但是我們還是做了不少適配和調(diào)試的工作;此外,要保障如此大規(guī)模的算力平臺(tái)能夠穩(wěn)定、有序地運(yùn)行和調(diào)度,我們也做了一些快速而特色的部署,而對(duì)于異構(gòu)的多地部署算力在這一塊,則還需要軟硬件協(xié)調(diào)去解決這個(gè)問題?!?/p>
談到過去一年,燧原科技在軟硬件上面最大的進(jìn)步,這位工程師坦誠(chéng)道:“我是做軟件的,當(dāng)我們將大模型從其他硬件平臺(tái)遷移到我們平臺(tái)時(shí),初期的效率可能只有其他平臺(tái)的30%-40%,經(jīng)過我們的軟件適配和調(diào)優(yōu),模型的輸出能力可以逐步上升至70%-80%,再到110%-120%。事實(shí)上,當(dāng)前在軟件側(cè)最大的提升其實(shí)是其業(yè)務(wù)性,因?yàn)槲覀冎暗钠脚_(tái)遷移需要花比較大的努力,而現(xiàn)在對(duì)于我們的客戶來說,遷移成本已經(jīng)變得非常小。假設(shè)之前要花一個(gè)月的時(shí)間才能將模型輸出能力爬坡到一個(gè)良好的水平,現(xiàn)在只需要花3-4天,甚至1-2天的時(shí)間就能達(dá)到相同效果?!?/p>