█?到底什么是智算中心?
智算中心,就是以人工智能計(jì)算任務(wù)為主的數(shù)據(jù)中心。
數(shù)據(jù)中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計(jì)算任務(wù)為主的通算中心,以及以超級計(jì)算任務(wù)為主的超算中心。
2023年以來,以ChatCPT、Sora為代表的AIGC大模型橫空出世,掀起了一股席卷全球的AI浪潮。
想要在AI浪潮中占據(jù)優(yōu)勢,就必須擁有強(qiáng)勁的AI算力支撐。智算中心,作為AI算力的核心基礎(chǔ)設(shè)施,逐漸成為人們關(guān)注的焦點(diǎn),也是行業(yè)重點(diǎn)建設(shè)的對象。
根據(jù)數(shù)據(jù)顯示,我國目前已經(jīng)有包括武漢、成都、長沙、南京、呼和浩特等在內(nèi)的20多個(gè)城市建設(shè)了智算中心。到2025年,國內(nèi)智算中心數(shù)量將超過50個(gè)。
這些智算中心采用專門的AI算力硬件,適合高效運(yùn)行AI算法。它們可以應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、機(jī)器學(xué)習(xí)等領(lǐng)域,處理圖像識(shí)別、語音識(shí)別、文本分析、模型訓(xùn)練推理等任務(wù)。
█ 智算服務(wù)器,到底有什么不同?
智算服務(wù)器是智算中心的主要算力硬件。它和傳統(tǒng)通用服務(wù)器最大的區(qū)別,在于算力芯片的不同。
傳統(tǒng)通用服務(wù)器以CPU作為主要芯片,有的配置了GPU(圖形處理單元)卡,也有的沒配。即便配置了,也數(shù)量不多(1-2塊),以完成傳統(tǒng)圖形處理任務(wù)(3D圖形渲染等)為主。
智算服務(wù)器,為了保證的操作系統(tǒng)運(yùn)行,也配置了CPU。但是,為了更好地完成AI計(jì)算任務(wù),所以配置了更多的GPU、NPU(神經(jīng)網(wǎng)絡(luò)處理單元)、TPU(張量處理單元)等計(jì)算芯片(4塊或8塊),以這些芯片輸出的算力為主。
這種“CPU+GPU”、“CPU+NPU”的架構(gòu),也被稱為“異構(gòu)計(jì)算”架構(gòu),能夠充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。
GPU、NPU、TPU的內(nèi)核數(shù)量多,擅長并行計(jì)算。AI算法涉及到大量的簡單矩陣運(yùn)算任務(wù),需要強(qiáng)大的并行計(jì)算能力。
在實(shí)際使用中,GPU、NPU、TPU會(huì)做成板卡的形態(tài),插入到智算服務(wù)器的插槽中。等服務(wù)器上電啟動(dòng)后,再根據(jù)調(diào)度執(zhí)行計(jì)算任務(wù)。
除了芯片不同之外,為了充分發(fā)揮性能以及保障穩(wěn)定運(yùn)行,AI服務(wù)器在架構(gòu)、存儲(chǔ)、散熱、拓?fù)涞确矫嬉策M(jìn)行了強(qiáng)化設(shè)計(jì)。
例如,智算服務(wù)器的DRAM容量通常是普通服務(wù)器的8倍,NAND容量是普通服務(wù)器的3倍。甚至它的PCB電路板層數(shù)也明顯多于傳統(tǒng)服務(wù)器。
瘋狂堆料,肯定也會(huì)帶來兩者之間的成本差異。一臺(tái)智算服務(wù)器的價(jià)格,可能會(huì)達(dá)到傳統(tǒng)通用服務(wù)器的數(shù)十倍以上。
不久前,中國移動(dòng)公示了2024年至2025年新型智算中心集采中標(biāo)結(jié)果,采購智算服務(wù)器總規(guī)模達(dá)到8054臺(tái),中標(biāo)總金額達(dá)到了約191.04億元人民幣(不含稅)。平均下來,每臺(tái)的價(jià)格是237.2萬元。通用服務(wù)器的價(jià)格,根據(jù)品牌和配置的不同,大約在1到10萬元之間。
受算力板卡的影響,智算服務(wù)器的功耗也明顯大于通用服務(wù)器。
以英偉達(dá)GPU為例,A100單卡功耗400W,H100單卡功耗700W。配置了8張GPU的智算服務(wù)器,僅GPU的熱功耗就能達(dá)到3.2~5.6 kW。傳統(tǒng)通用服務(wù)器的話,也就0.3~0.5 kW左右。
從外型上來看,智算服務(wù)器和通用服務(wù)器并沒有很大的區(qū)別。兩者都是標(biāo)準(zhǔn)架構(gòu),可以放入42U標(biāo)準(zhǔn)機(jī)架。如果內(nèi)置了較多的AI算力板卡,智算服務(wù)器的厚度可能會(huì)稍微大一些,達(dá)到4U、5U甚至10U。
這里需要注意,根據(jù)工作任務(wù)的不同,智算服務(wù)器也會(huì)分為訓(xùn)練服務(wù)器、推理服務(wù)器或者訓(xùn)推一體服務(wù)器。這些服務(wù)器在架構(gòu)和體型上會(huì)存在一些差異。一般來說,訓(xùn)練服務(wù)器會(huì)比推理服務(wù)器更龐大一些(AI算力板卡更多)。
█ 智算中心,會(huì)取代通算中心嗎?
智算中心很火。很多人就會(huì)問,智算中心是否會(huì)取代通算中心?
答案當(dāng)然是否定的。
AI智算現(xiàn)在正處于風(fēng)口上,所以大家關(guān)注熱度高,建設(shè)的規(guī)模也會(huì)比較大。
但實(shí)際上,大家要注意,我們目前整個(gè)社會(huì)的大部分計(jì)算任務(wù),仍然是承載在傳統(tǒng)通用數(shù)據(jù)中心上的。
我們平時(shí)聊微信、看視頻、玩游戲,以及打車、購物、訂票,都是基于傳統(tǒng)通用數(shù)據(jù)中心的算力。
除了消費(fèi)互聯(lián)網(wǎng)以外,企業(yè)辦公和生產(chǎn)所使用的各類IT系統(tǒng)(包括OA、CRM、ERP等),銀行、保險(xiǎn)、證券等金融機(jī)構(gòu)處理客戶交易、存儲(chǔ)客戶數(shù)據(jù)、提供在線金融服務(wù)的平臺(tái),醫(yī)院、學(xué)校等單位的數(shù)字化系統(tǒng),以及政府的電子政務(wù)相關(guān)平臺(tái),全部都是以通用數(shù)據(jù)中心為主。
通用數(shù)據(jù)中心廣泛服務(wù)于國民經(jīng)濟(jì)的各個(gè)領(lǐng)域。我們對通用數(shù)據(jù)中心的需求是長期存在的,并不會(huì)消失。
數(shù)據(jù)也可以說明問題。
雖然說AI智算發(fā)展迅速,但從機(jī)架數(shù)量規(guī)模來看,遠(yuǎn)遠(yuǎn)不如通算中心。
根據(jù)今年3月份國家數(shù)據(jù)局在青海綠色算力推介會(huì)上披露的數(shù)據(jù),截至2023年底,全國在用數(shù)據(jù)中心機(jī)架總規(guī)模超過810萬標(biāo)準(zhǔn)機(jī)架(包括所有類型數(shù)據(jù)中心)。
智算中心機(jī)架數(shù),目前沒有準(zhǔn)確的數(shù)據(jù)來源。我們可以推算一下。
前面提到,到2025年,國內(nèi)會(huì)有50個(gè)智算中心。以中國移動(dòng)呼和浩特超大規(guī)模單體智算中心為例,部署服務(wù)器總規(guī)模約2950臺(tái),部署機(jī)架總規(guī)模為799架,算力板卡1.9萬張,算力規(guī)模6.7EFLOPS。即便是50個(gè)智算中心都像呼和浩特這么大,也是50×800=40000個(gè)機(jī)架。還不到2023年全國在用數(shù)據(jù)中心機(jī)架總數(shù)的零頭。
我們也可以從算力規(guī)模來計(jì)算。根據(jù)信通院的報(bào)告,到2025年,全國的算力總規(guī)模將達(dá)到320EFLOPS。其中,智算算力占比要達(dá)到35%,也就是說,112EFLOPS。
按呼和浩特智算中心的數(shù)據(jù),單機(jī)架平均算力是6.7÷800=0.008375EFLOPS。112EFLOPS就是112÷0.008375=13373個(gè)機(jī)架。
之所以會(huì)這樣,還是因?yàn)锳I智算服務(wù)器的算力比較強(qiáng)。雖然智算算力總體占比看上去高,但機(jī)架數(shù)量和數(shù)據(jù)中心數(shù)量占比并不會(huì)那么多,估計(jì)不會(huì)超過10%。
█ 通算中心改成智算中心,可行嗎?
如今,在“雙碳”政策的指引下,新建數(shù)據(jù)中心審批趨嚴(yán),現(xiàn)有合規(guī)數(shù)據(jù)中心資產(chǎn)稀缺。那么,是否可以把通用數(shù)據(jù)中心改為智算中心呢?
答案是肯定的。
數(shù)據(jù)中心的使命,是為服務(wù)器托管提供穩(wěn)定的制冷和供電環(huán)境。通算中心和智算中心都是數(shù)據(jù)中心,兩者的主要構(gòu)成基本上是一致的。
一般來說,服務(wù)器等IT算力設(shè)備以及交換機(jī)等通信設(shè)備,屬于客戶自有資產(chǎn),由客戶提供。數(shù)據(jù)中心服務(wù)商,負(fù)責(zé)建設(shè)和運(yùn)維能夠保證服務(wù)器等主設(shè)備正常運(yùn)轉(zhuǎn)的底層基礎(chǔ)支撐設(shè)備(也叫配套設(shè)備)。
數(shù)據(jù)中心樓宇布局內(nèi)的底層基礎(chǔ)支撐設(shè)備設(shè)施,按照業(yè)界的劃分,包括風(fēng)(制冷)、火(消防)、水(防潮)、電(市電、不間斷電源、柴發(fā))四大部分?;蛘?,也可以分為供配電系統(tǒng)、不間斷電源系統(tǒng)、終端配電系統(tǒng)、電源輔助系統(tǒng)和空調(diào)系統(tǒng)等。
前面我們提到,智算服務(wù)器的功耗比通用服務(wù)器高。在智算中心,單機(jī)柜功率密度通常也就會(huì)高于傳統(tǒng)數(shù)據(jù)中心。根據(jù)有關(guān)機(jī)構(gòu)的數(shù)據(jù),智算中心的單機(jī)柜功率密度需要超過30kW,甚至達(dá)到100kW以上,而傳統(tǒng)數(shù)據(jù)中心的密度一般在6kW~15kW之間。
智算中心的單機(jī)柜功率密度高,改造為智算中心,要提前對數(shù)據(jù)中心的整體供電能力進(jìn)行重新計(jì)算和設(shè)計(jì)。
如果不需要擴(kuò)容,那就簡單了。整個(gè)改造就以末端改造為主,就是撤掉傳統(tǒng)通用服務(wù)器,重新上架智算服務(wù)器以及相關(guān)網(wǎng)絡(luò)設(shè)備,重新布線。
如果需要擴(kuò)容,意味著同樣的面積下,機(jī)柜產(chǎn)出更多,改造涉及到供電和制冷系統(tǒng)相關(guān)配套設(shè)備的采購和安裝,會(huì)帶來更多的工作量,也需要更長的改造周期。
擴(kuò)容和改造肯定也會(huì)帶來一些成本負(fù)擔(dān)。是否需要將傳統(tǒng)通算中心改造為智算中心,除了前面提到的限制新建等客觀因素外,就是看投入產(chǎn)出比。也就是說,改造后的智算中心,是否能帶來更大的經(jīng)濟(jì)效益回報(bào)。
█ 最后的話
數(shù)據(jù)中心是重要的ICT基礎(chǔ)設(shè)施,也是整個(gè)社會(huì)的算力底座。它源源不斷地輸出算力,滿足我們數(shù)字生活的需要,也支撐了千行百業(yè)的發(fā)展。
隨著時(shí)間的推移,AI浪潮將會(huì)從狂熱回歸理性,智算中心的建設(shè)也會(huì)趨緩。如何充分利用好已有的智算資源,讓AI產(chǎn)生價(jià)值回報(bào),將會(huì)成為更重要、更迫切的任務(wù)。
合理布局通算、智算以及超算,構(gòu)建多種算力類型協(xié)同發(fā)展的格局,將為數(shù)字經(jīng)濟(jì)的騰飛奠定更牢靠的基礎(chǔ),也會(huì)推動(dòng)了整個(gè)社會(huì)加速邁入智能時(shí)代。