在MLCommons近日發(fā)布的AI性能行業(yè)基準(zhǔn)測(cè)試結(jié)果中,代號(hào)為Sapphire Rapids的第四代英特爾?至強(qiáng)?可擴(kuò)展處理器和專用于深度學(xué)習(xí)AI訓(xùn)練的Habana? Gaudi?2加速器展現(xiàn)了卓越的訓(xùn)練表現(xiàn)。
英特爾執(zhí)行副總裁兼數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera表示:“自去年6月提交了領(lǐng)先的MLPerf行業(yè)測(cè)試結(jié)果以來(lái),我們團(tuán)隊(duì)不斷取得新的進(jìn)步,這讓我感到非常自豪。第四代英特爾至強(qiáng)可擴(kuò)展處理器和Gaudi2 AI加速器支持廣泛的AI功能,為有深度學(xué)習(xí)訓(xùn)練和大規(guī)模工作負(fù)載處理需求的客戶提供業(yè)界領(lǐng)先的性能?!?/p>
在眾多數(shù)據(jù)中心應(yīng)用場(chǎng)景中,基于至強(qiáng)處理器的服務(wù)器平臺(tái)可用于運(yùn)行一系列機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)分析的復(fù)雜管道,而深度學(xué)習(xí)(DL)正是其中的一部分。同時(shí),這些服務(wù)器平臺(tái)亦可用于運(yùn)行其他應(yīng)用程序,并能夠適應(yīng)隨時(shí)間變化的多種工作負(fù)載。在這些使用場(chǎng)景中,至強(qiáng)可擴(kuò)展處理器能夠極大程度地降低總體擁有成本(TCO),提高全年利用率。
第四代英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置全新AI加速器——英特爾?高級(jí)矩陣擴(kuò)展(AMX),旨在幫助用戶通過(guò)擴(kuò)展通用至強(qiáng)服務(wù)器平臺(tái),覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場(chǎng)景。AMX是一個(gè)專用的矩陣乘法引擎,內(nèi)置于第四代至強(qiáng)可擴(kuò)展處理器的每個(gè)核心。該AI引擎已經(jīng)過(guò)優(yōu)化,基于行業(yè)標(biāo)準(zhǔn)框架,可提供相較于上一代深度學(xué)習(xí)訓(xùn)練模型高達(dá)6倍的性能。
而在服務(wù)器或服務(wù)器集群主要用于深度學(xué)習(xí)訓(xùn)練和推理計(jì)算的場(chǎng)景中,Habana Gaudi2則是理想的加速器,針對(duì)這些專用場(chǎng)景,它旨在提供優(yōu)異的深度學(xué)習(xí)性能并降低總體擁有成本。
關(guān)于至強(qiáng)處理器的測(cè)試結(jié)果:英特爾首先提交了涵蓋一系列不同工作負(fù)載的第四代英特爾至強(qiáng)可擴(kuò)展處理器產(chǎn)品線的MLPerf v2.1行業(yè)測(cè)試結(jié)果。作為唯一提交該測(cè)試結(jié)果的處理器,Sapphire Rapids再次被證實(shí)其優(yōu)異的AI性能,使客戶能夠隨時(shí)隨地使用共享基礎(chǔ)設(shè)施進(jìn)行AI訓(xùn)練。內(nèi)置英特爾AMX的第四代至強(qiáng)可擴(kuò)展處理器在多個(gè)行業(yè)標(biāo)準(zhǔn)框架中為用戶提供即時(shí)可用的性能,并集成了端到端的數(shù)據(jù)科學(xué)工具,以及來(lái)自生態(tài)伙伴廣泛的智能解決方案,開(kāi)發(fā)者僅需使用TensorFlow和PyTorch框架的最新版本,即可充分釋放其性能?,F(xiàn)階段,英特爾至強(qiáng)可擴(kuò)展處理器已經(jīng)可以運(yùn)行并處理全部AI工作負(fù)載。
測(cè)試結(jié)果顯示,第四代英特爾至強(qiáng)可擴(kuò)展處理器正通過(guò)擴(kuò)大通用CPU在AI訓(xùn)練方面的覆蓋范圍,讓客戶能夠充分利用已經(jīng)部署在商業(yè)應(yīng)用中的至強(qiáng)處理器完成更多工作,尤其是用于中小型模型的訓(xùn)練或微調(diào),即遷移學(xué)習(xí)。DLRM的結(jié)果便很好地論證了Sapphire Rapids能夠在不到30分鐘(26.73)的時(shí)間內(nèi)僅用四個(gè)服務(wù)器節(jié)點(diǎn)即可完成模型訓(xùn)練。即使是面對(duì)大中型模型,第四代至強(qiáng)處理器亦可分別在50分鐘(47.26)和90分鐘(89.01)內(nèi)成功訓(xùn)練BERT和ResNet-50模型。開(kāi)發(fā)者可在一杯咖啡的時(shí)間內(nèi)便完成小型深度學(xué)習(xí)模型的訓(xùn)練,在一頓午餐的時(shí)間內(nèi)訓(xùn)練中型模型,并同時(shí)利用這些連接到數(shù)據(jù)存儲(chǔ)系統(tǒng)的相同服務(wù)器,在下午進(jìn)行諸如經(jīng)典機(jī)器學(xué)習(xí)的其他分析。這也意味著企業(yè)能夠?qū)⒅T如Gaudi2的深度學(xué)習(xí)處理器預(yù)留給更大、對(duì)性能要求更高的模型。
關(guān)于Habana Gaudi2的測(cè)試結(jié)果:Habana今年五月發(fā)布了用于深度學(xué)習(xí)訓(xùn)練的第二代Gaudi處理器——Gaudi2,在MLPerf v2.0訓(xùn)練10天后匯總的成績(jī)中表現(xiàn)出了領(lǐng)先的測(cè)試結(jié)果。Gaudi2采用7納米制程工藝制造,擁有24個(gè)Tensor處理器核心、片內(nèi)封裝容量達(dá)96GB HBM2e和24個(gè)100GB RoCE以太網(wǎng)端口。與英偉達(dá)的A100相比,Gaudi2在這項(xiàng)基準(zhǔn)測(cè)試中再次展現(xiàn)了領(lǐng)先的8卡服務(wù)器性能。
Gaudi2在TensorFlow中訓(xùn)練BERT和ResNet-50的時(shí)間縮短了10%。而Gaudi2的PyTorch結(jié)果則顯示,與5月的Gaudi1結(jié)果相比,其BERT和ResNet-50的訓(xùn)練時(shí)間分別縮短了4%和6%。這兩組結(jié)果均在封閉和可用類別中提交。
這些優(yōu)異表現(xiàn)突顯了Gaudi2專用深度學(xué)習(xí)架構(gòu)的獨(dú)特性、Gaudi2軟件的日益成熟以及Habana? SynapseAI?軟件堆棧的擴(kuò)展優(yōu)勢(shì)。值得注意的是,該軟件堆棧針對(duì)深度學(xué)習(xí)模型開(kāi)發(fā)和部署進(jìn)行了優(yōu)化。
與5月的測(cè)試結(jié)果一致,Gaudi2在BERT和ResNet-50模型訓(xùn)練方面始終優(yōu)于英偉達(dá)A100,進(jìn)一步證明了該測(cè)試結(jié)果的有效性。英偉達(dá)H100的ResNet-50訓(xùn)練速度僅比Gaudi2高11%,而盡管H100在BERT方面比Gaudi2快59%,但英偉達(dá)報(bào)告的BERT訓(xùn)練時(shí)間為FP8數(shù)據(jù)類型,Gaudi2的訓(xùn)練時(shí)間則為經(jīng)過(guò)驗(yàn)證的標(biāo)準(zhǔn)BF16數(shù)據(jù)類型(在Gaudi2的軟件計(jì)劃中啟用了FP8)。因此,與A100和H100相比,Gaudi2的性價(jià)比更高。
未來(lái),英特爾和Habana團(tuán)隊(duì)非常期待再次提交的英特爾AI產(chǎn)品組合解決方案的MLPerf測(cè)試結(jié)果。