當?shù)貢r間12月6日,在圣何塞舉辦的AMD Advancing AI活動上,AMD CEO Lisa Su釋出重磅消息,為強勁的年終業(yè)績畫上一串驚嘆號:盛傳許久的MI300發(fā)布;終于兌現(xiàn)E級APU承諾;在ROCm軟件領(lǐng)域取得顯著進步,硬剛CUDA的薄弱環(huán)節(jié)繼續(xù)得以強化。
隨著生成式AI的快速發(fā)展,全球高性能計算需求不斷增加,進一步推動了AI芯片的激烈競爭。以微軟、Meta為首的大型云廠商也在尋求自研AI芯片或支持新的供應(yīng)商,來降低對英偉達的依賴。AMD MI300 推出后,微軟、Meta就在首批客戶之列。
MI300兩大系列:MI300X大型GPU、MI300A數(shù)據(jù)中心APU
在英偉達占據(jù)絕對地位的AI芯片領(lǐng)域中,AMD是為數(shù)不多具備可訓(xùn)練和部署AI的高端GPU公司之一,業(yè)界將其定位為生成式AI和大規(guī)模AI系統(tǒng)的可靠替代者。AMD與英偉達展開競爭的戰(zhàn)略之一,就包括功能強大的MI300系列加速芯片。當前,AMD 正在通過更強大的 GPU、以及創(chuàng)新的CPU+GPU平臺直接挑戰(zhàn)英偉達H100的主導(dǎo)地位。
Lisa Su在開場演講中談到,包括GPU、FPGA等在內(nèi)的數(shù)據(jù)中心加速芯片,未來四年每年將以50%以上的速度增長,從2023年的300億市場規(guī)模,到2027年將超過1500億。她表示,從業(yè)多年,這種創(chuàng)新速度比她以往見到的任何技術(shù)都快。
最新發(fā)布的MI300目前包括兩大系列,MI300X系列是一款大型GPU,擁有領(lǐng)先的生成式AI所需的內(nèi)存帶寬、大語言模型所需的訓(xùn)練和推理性能;MI300A系列集成CPU+GPU,基于最新的CDNA 3架構(gòu)和Zen 4 CPU,可以為HPC和AI工作負載提供突破性能。毫無疑問,MI300不僅僅是新一代AI加速芯片,也是AMD對下一代高性能計算的愿景。
生成式AI領(lǐng)域,MI300X正面挑戰(zhàn)英偉達
AMD MI300X 擁有最多 8 個 XCD 核心,304 組 CU 單元,8 組 HBM3 核心,內(nèi)存容量最大可達 192GB,相當于英偉達H100(80GB)的2.4 倍,同時HBM內(nèi)存帶寬高達5.3TB/s,Infinity Fabric總線帶寬896GB/s。擁有大量板載內(nèi)存的優(yōu)點是,只需更少的GPU 來運行內(nèi)存中的大模型,省去跨越更多GPU的功耗和硬件成本。
Lisa Su表示,生成式AI是有史以來要求最高的工作負載,需要成千上萬的加速器來訓(xùn)練和完善數(shù)十億參數(shù)的模型。它的“法則”非常簡單,你擁有的計算越多,模型的能力越強,生成答案的速度就越快。
“GPU是生成式AI世界的中心。每個與我交談的人都說,GPU計算的可用性和能力是AI采用的一個最重要的因素”,她興奮地表示,“MI300X是我們迄今為止最先進的產(chǎn)品,也是業(yè)內(nèi)最先進的AI加速芯片?!?/p>
Instinct平臺是基于OCP標準設(shè)計的生成式AI平臺,包括8個MI300X,可以提供1.5TB HBM3內(nèi)存容量。與英偉達H100 HGX相比,AMD Instinct平臺可以提供更高的吞吐量,例如運行176B的 BLOOM 等LLM推理時,性能提升高達 1.6 倍,并且是當前市場上唯一的能夠?qū)?70B 參數(shù)模型(如 Llama2)進行推理的方案。
此外,AMD宣布了與微軟Azure等合作,通過將尖端的AI硬件集成到領(lǐng)先的云平臺中,也標志著當前業(yè)界人工智能應(yīng)用的持續(xù)進步。而在 Azure 生態(tài)系統(tǒng)中引入 AMD Instinct MI300X,也進一步鞏固了AMD在云端AI的市場地位。
數(shù)據(jù)中心MI300A——E級APU成為現(xiàn)實
MI300A 是全球首款適用于HPC和AI的數(shù)據(jù)中心APU,結(jié)合了CDNA 3 GPU內(nèi)核、最新的基于AMD“Zen 4” x86的CPU內(nèi)核、以及128GB HBM3 內(nèi)存,通過3D封裝和第四代AMD Infinity架構(gòu),可提供HPC和AI工作負載所需的性能。與上一代 AMD Instinct MI250X5 相比,運行HPC和AI工作負載,F(xiàn)P32每瓦性能為1.9 倍。
能源效率對于HPC和AI領(lǐng)域至關(guān)重要,因為這些應(yīng)用中充斥著數(shù)據(jù)和資源極其密集的工作負載。MI300A APU將CPU和GPU核心集成在一個封裝中,可提供高效的平臺,同時還可提供加速最新的AI模型所需的訓(xùn)練性能。在AMD內(nèi)部,能源效率的創(chuàng)新目標定位為30×25,即2020-2025年,將服務(wù)器處理器和AI加速器的能效提高30倍。
對比MI300X的8個XCD核心,MI300A采用6個XCD,從而為CCD留出空間。APU的優(yōu)勢意味著,它擁有統(tǒng)一的共享內(nèi)存和緩存資源,因此省去了在CPU和GPU之間來回復(fù)制數(shù)據(jù)。切換電源時,它只需運行GPU,在CPU上運行串行部分即可,由于省去復(fù)制數(shù)據(jù)的過程,因此性能表現(xiàn)更好。同時也可以為客戶提供易于編程的GPU平臺、高性能的計算、快速的AI訓(xùn)練能力和良好的能源效率,能夠為需求嚴苛的HPC和AI工作負載提供動力。
美國即將推出的新一代 2ExaFLOPS (200億億次)的El Capitan超算將采用AMD MI300A,這將使得El Capitan成為世界上最快的超級計算機。
AI開源軟件戰(zhàn)略持續(xù)強化
AMD 發(fā)布了最新的ROCm 6開放軟件平臺,也是AMD對開源社區(qū)貢獻最先進的庫的承諾。Lisa Su表示,ROCm 6代表AMD軟件工具的重大飛躍,進一步推進了AMD開源AI軟件開發(fā)的愿景。該軟件平臺增強了AMD的AI加速性能,在 MI300 系列加速器上運行Llama 2 文本生成時,與上一代硬件和軟件相比,性能提高約8倍。
針對生成式AI,ROCm 6增加了關(guān)鍵功能:包括 FlashAttention、HIPGraph 和 vLLM等。 AMD正在在與軟件伙伴推進合作,例如PyTorch、TensorFlow、hugging face等,打造強大的AI生態(tài)系統(tǒng),簡化AMD AI 解決方案的部署。
此外,AMD 還通過收購開源軟件公司Nod.AI,進一步增強為AI客戶提供開放軟件的能力,使他們能夠輕松部署針對AMD硬件調(diào)整的高性能AI模型。并且通過與Mipsology的生態(tài)系統(tǒng)合作等,持續(xù)強化其開源的AI軟件戰(zhàn)略。
AMD致力于建立一個開放的軟件生態(tài)系統(tǒng),利用廣泛的開源社區(qū)基礎(chǔ)來加快創(chuàng)新步伐,同時為客戶提供更多的靈活性。不得不說,對標英偉達在AI領(lǐng)域強大的CUDA生態(tài),此舉是AMD將其自身打造為有力的AI競爭者的關(guān)鍵環(huán)節(jié),也有助于AMD切入CUDA現(xiàn)有的市場。
三代產(chǎn)品演進,Lisa首談三大AI戰(zhàn)略
前不久,AMD在公布2023年Q3財報時,預(yù)計到 2024 年數(shù)據(jù)中心 GPU 收入將超過20 億美元,實現(xiàn)大幅增長。當時,這種加速的收入預(yù)測主要取決于以AI為中心的解決方案,能夠滿足跨行業(yè)的各種AI工作負載的能力,這也是最新推出的MI300獲得業(yè)界高度關(guān)注的一個原因。
AMD的加速芯片之旅,始于第一代基于CDNA計算架構(gòu)的MI100,通過一些HPC的應(yīng)用和部署,為MI200取得更廣泛的商業(yè)成功鋪平了道路。MI200量產(chǎn)出貨已有幾年,在大型HPC和前沿AI部署應(yīng)用方面收獲頗豐,并且是超級計算機500強榜單的第一名。
也正是經(jīng)過這兩代產(chǎn)品的打磨,使AMD真正對AI工作負載、軟件需求等有了更深入的理解,為MI300打下了堅實基礎(chǔ)。當前,MI300A主要專注于HPC和AI應(yīng)用,是全球首個數(shù)據(jù)中心APU。MI300X則專為生成式AI而設(shè)計,通過硬件和軟件全面提升,使得該產(chǎn)品的應(yīng)用門檻進一步降低。
Lisa Su在大會上首次談到了AMD的三大AI戰(zhàn)略:首先,AMD始終提供通用的、高性能的、節(jié)能的GPU、CPU和用于AI訓(xùn)練和推理的計算方案;其次,將繼續(xù)擴展開放、成熟和對開發(fā)人員友好的軟件平臺,使得領(lǐng)先的AI框架、庫和模型都完全支持AMD硬件;第三,AMD將與合作伙伴擴大聯(lián)合創(chuàng)新,包括云提供商、OEM、軟件開發(fā)人員等等,實現(xiàn)更進一步的AI加速創(chuàng)新。
寫在最后
AMD此次推出MI300是其發(fā)展歷程中的一個重要里程碑。 通過比英偉達H100更優(yōu)的一系列表現(xiàn),AMD致力于成為生成式AI時代的有力競爭者。
隨著重磅產(chǎn)品的問世,大客戶合作是否會助力AMD加速追趕?AMD能否抓住AI時代機遇,復(fù)刻CPU成功之路?在高端GPU領(lǐng)域,英偉達已經(jīng)先發(fā)制人,AMD能否成為游戲規(guī)則改變者?
短期內(nèi)可以看到的是,隨著英偉達明年推出H200和B100兩款芯片,高端AI芯片的競爭態(tài)勢繼續(xù)膠著,AI加速計算有望開啟新一輪超級周期。
至于AMD是否有計劃開發(fā)和銷售能夠符合美國對華芯片出口禁令的特定版本的MI 300?就在本文發(fā)稿前,AMD方面回應(yīng):中國市場對AMD很重要,但今天沒有宣布專門針對中國市場的特別產(chǎn)品。