重點內(nèi)容速覽:
| AI數(shù)據(jù)中心沖擊超級計算機排行
| AI數(shù)據(jù)中心使用的主要處理器
| 主要的國產(chǎn)服務器處理器
超級計算機對于科學研究、能源、工程設計領(lǐng)域具有重要意義,在商業(yè)用途中也發(fā)揮重要作用。2022年高性能計算專業(yè)大會發(fā)布的全球超級計算機Top500排行榜顯示,美國橡樹嶺國家實驗室(ORNL)的Frontier系統(tǒng)位列榜首,自2022年6月以來,F(xiàn)rontier一直是全球超級計算機Top500名單上的強大設備
圖注:全球超級計算機Top10,發(fā)布時間為2022年11月(來源:中科院網(wǎng)信工作網(wǎng))
進入2023年,超級計算機的排行將發(fā)生改變。
芯查查APP顯示,在美國勞倫斯利弗莫爾國家實驗室(LLNL)安裝的“El Capitan”超級計算機最快于2023年底啟動,從而可能刷新全球超級計算機榜單。El Capitan估計FP64峰值性能約為2.3 exaflops,比Frontier超級計算機的1.68 exaflops性能高出約37%。
同時,人工智能(AI)應用掀起,超大規(guī)模云服務企和AI初創(chuàng)企業(yè)都開始構(gòu)建大型數(shù)據(jù)中心,比如,NVIDIA和CoreWeave正在為Inflection AI開發(fā)數(shù)據(jù)中心;Microsoft Azure正在為OpenAI構(gòu)建的數(shù)據(jù)中心。從下圖可以看出,目前在建的這兩個AI數(shù)據(jù)中心在TFLOPS算力性能上雖然不如現(xiàn)有的超級計算機,但是在成本上已經(jīng)超出很多。
圖注:超級計算機與AI數(shù)據(jù)中心對比(來源:nextplatform網(wǎng)站)
AI數(shù)據(jù)中心面向AI訓練和推理進行配置,在建的AI數(shù)據(jù)中心進程如何?使用了哪些處理器?
Inflection AI使用處理器:
NVIDIA?H100
Inflection AI是一家由Deep Mind前負責人創(chuàng)建,并由Microsoft和Nvidia支持的新創(chuàng)業(yè)公司。目前估值約為40億美元,產(chǎn)品為AI聊天機器人,支持計劃、調(diào)度和信息收集。
在籌集了13億美元的資金之后,Inflection AI將建立一個由多達22000個NVIDIA H100 GPU驅(qū)動的超級計算機集群,其峰值理論計算能力將與Frontier相當。理論上能夠提供1.474 exaflops的FP64性能。在CUDA內(nèi)核上運行通用FP64代碼時,峰值吞吐量僅為其一半:0.737 FP64 exaflops(與前文圖表數(shù)值略有出入,但相差不大)。雖然FP64性能對于許多科學工作負載很重要,但對于面向AI的任務,該系統(tǒng)可能會更快。FP16/BF16的峰值吞吐量為43.5 exaflops,F(xiàn)P8吞吐量的峰值吞吐量是87.1 exaflops。
圖片來源:NVIDIA
Inflection AI的服務器集群成本尚不清楚,但NVIDIA H100 GPU零售價超過30000美元,預計該集群的GPU成本將達到數(shù)億美元。加上所有機架服務器和其他硬件,將占13億美元資金的大部分。
在市場需求遠遠超過供應的情況下,NVIDIA或AMD不會為其GPU計算引擎給予大幅折扣就,其服務器OEM和ODM合作伙伴同樣如此。因此,與美國的百億億次高性能計算系統(tǒng)相比,這些設備非常昂貴。Inflection AI的FP16半精度性能為21.8 exaflops,足以驅(qū)動一些非常大的LLM和DLRM(大型語言模型和深度學習推薦模型)。
El Capitan使用處理器:
AMD Instinct MI300A
為超級計算機“El Capitan”提供算力的處理器是“Antares”AMD Instinct MI300A CPU-GPU混合體,其FP16矩陣數(shù)學性能仍然未知。
圖注:基于AMD MI300的刀片設施(來源:tomshardware.com)
Instinct MI300是一款數(shù)據(jù)中心APU,它混合了總共13個chiplet,其中許多是3D堆疊的,形成一個單芯片封裝,其中包含24個Zen 4 CPU內(nèi)核,融合CDNA 3圖形引擎和八個總?cè)萘繛?28GB的HBM3內(nèi)存堆棧。這個芯片擁有1460億個晶體管,使其成為AMD投入生產(chǎn)的最大芯片。其中,由9個計算die構(gòu)成的5nm CPU和GPU混合體,在4個6nm die上進行3D堆疊,這4個die主要處理內(nèi)存和I/O流量。
預計每個MI300A在2.32?GHz時鐘頻率下可提供784?teraflops性能,常規(guī)MI300的時鐘頻率約為1.7GHz。慧與公司(HPE)或許在El?Capitan系統(tǒng)中為每個滑軌配置8個MI300A,El?Capitan的計算部分應該有大約2931個節(jié)點、46個機柜和8行設備?;谏鲜霾聹y,El?Capitan應該有大約23500個MI300?GPU,具備大約18.4?exaflops的FP16矩陣數(shù)學峰值性能。相比Inflection?AI,用更少的錢,發(fā)揮出更大性能。
Microsoft/OpenAI使用處理器:
NVIDIA?H100
傳聞Microsoft正在為OpenAI構(gòu)建25000 GPU集群,用于訓練GPT-5。
從歷史上看,Microsoft Azure使用PCI-Express版本的NVIDIA加速器構(gòu)建其HPC和AI集群,并使用InfiniBand網(wǎng)絡將它們連接在一起。
為OpenAI構(gòu)建的集群使用NVIDIA H100 PCI-Express板卡,假設為每個20000美元,即5億美元。另外,使用英特爾“Sapphire Rapids”至強SP主機處理器、2TB的主內(nèi)存和合理數(shù)量的本地存儲,每個節(jié)點再增加150000美元,這將為容納這25000個GPU的3125個節(jié)點再增加4.69億美元。InfiniBand網(wǎng)絡將增加2.42億美元。合計12.1億美元,這些費用要比國家實驗室的超級計算機貴很多。
全球超級計算機追求新穎的架構(gòu),為最終商業(yè)化而進行研發(fā)。超大規(guī)模云服務商可以做同樣的數(shù)學運算,構(gòu)建自己的計算引擎,包括亞馬遜網(wǎng)絡服務、谷歌、百度和Facebook都是如此。即使有50%的折扣,諸如Inflection AI和OpenAI的設備單位價格仍然比國家實驗室為超級計算機昂貴。
“神威·太湖之光”使用處理器:
申威26010
以2022年的全球超級計算機榜單來看,進入Top10的我國超級計算機是“神威·太湖之光”。資料顯示,該計算機安裝了40960個中國自主研發(fā)的申威26010眾核處理器,采用64位自主神威指令系統(tǒng),峰值性能為12.5億億次每秒,持續(xù)性能為9.3億億次每秒,核心工作頻率1.5GHz。
申威和龍芯目前是我國自研處理器的代表,兩者均采用自研處理器的指令集架構(gòu)。CPU國產(chǎn)化目前有3種方式,一個是獲得x86內(nèi)核授權(quán),一個是獲得Arm指令集架構(gòu)授權(quán),另一種是自研指令集架構(gòu),這種方式的安全可控程度較高,也是自主化較為徹底的一種方式。
圖注:國內(nèi)服務器處理器廠商
小 結(jié)
隨著人工智能應用發(fā)酵,超級計算機與AI數(shù)據(jù)中心的界限可能變得模糊,兩者的硬件和架構(gòu)已經(jīng)發(fā)展到可以更快地處理更多數(shù)據(jù),因此其配置將會逐步超越,芯查查認為,整體呈現(xiàn)為幾點趨勢:
面向AI應用,高性能處理器采用更多核心、異質(zhì)架構(gòu)將更加普遍,以支持更多的并行計算和更快的數(shù)據(jù)處理速度,處理器的內(nèi)存管理和緩存設計也得到了優(yōu)化,以減少對主存儲器的訪問延遲。
專門的加速器,比如圖形處理單元(GPU)和神經(jīng)網(wǎng)絡處理單元(NPU),將被引入處理器,高效地執(zhí)行矩陣計算和神經(jīng)網(wǎng)絡。
能效是AI數(shù)據(jù)中心和超級計算機共同難點,處理器能效成為要點,設計趨向于降低功耗和散熱需求,采用更先進的制程技術(shù)、優(yōu)化的電源管理以及動態(tài)頻率調(diào)節(jié)等方法。
AI數(shù)據(jù)中心和超級計算機建設的需求推動了處理器的發(fā)展,也推動了存儲、結(jié)構(gòu)和GPU的進步,這些組件都將服務于系統(tǒng)的數(shù)據(jù)吞吐量和效率。
參考資料
1、“全球超級計算機Top500最新榜單發(fā)布”。http://www.ecas.cas.cn/xxkw/kbcd/201115_129567/ml/xxhjsyjcss/202212/t20221219_4576256.html
2、“LINING UP THE “EL CAPITAN” SUPERCOMPUTER AGAINST THE AI UPSTARTS”。https://www.nextplatform.com/2023/07/10/lining-up-the-el-capitan-supercomputer-against-the-ai-upstarts/
3、百度百科-神威·太湖之光超級計算機。
https://baike.baidu.com/item/%E7%A5%9E%E5%A8%81%C2%B7%E5%A4%AA%E6%B9%96%E4%B9%8B%E5%85%89%E8%B6%85%E7%BA%A7%E8%AE%A1%E7%AE%97%E6%9C%BA/19755876