生成式AI在掀起新一輪科技革命的同時(shí),對(duì)現(xiàn)有基礎(chǔ)設(shè)施、產(chǎn)業(yè)生態(tài)等都將帶來(lái)深遠(yuǎn)影響。數(shù)據(jù)中心就是典型代表,生成式AI越是發(fā)展,對(duì)數(shù)據(jù)處理、傳輸、存儲(chǔ)等需求就越大,進(jìn)而對(duì)數(shù)據(jù)中心提出更高要求。Statista數(shù)據(jù)顯示,到2024年,超大規(guī)模數(shù)據(jù)中心數(shù)量可能超過(guò)1000個(gè),比五年前增加一倍。
而不光是規(guī)模和數(shù)量上的變化,傳統(tǒng)數(shù)據(jù)中心由內(nèi)而外都在被重塑。正如NVIDIA CEO黃仁勛所說(shuō):“每一個(gè)數(shù)據(jù)中心、每一臺(tái)服務(wù)器,都要具備生成式AI負(fù)載的能力”。
現(xiàn)有數(shù)據(jù)中心支撐生成式AI并不是一件容易的事情,因?yàn)殡S著負(fù)載規(guī)模的增大,往往需要在整個(gè)數(shù)據(jù)中心層面進(jìn)行計(jì)算,推升了分布式計(jì)算場(chǎng)景的需求。這意味著,數(shù)據(jù)中心需要從計(jì)算、網(wǎng)絡(luò)、生態(tài)等層面開始顛覆創(chuàng)新和產(chǎn)業(yè)合作,NVIDIA近期的一些進(jìn)展就已經(jīng)顯現(xiàn)出這些趨勢(shì):首先離不開GPU算力平臺(tái)的持續(xù)升級(jí)和攀高;其次,顛覆的觸角已經(jīng)深入到數(shù)據(jù)中心網(wǎng)絡(luò)層;第三,在生態(tài)建設(shè)方面,NVIDIA也在與各科技巨頭圍繞生成式AI進(jìn)行深入合作,共同為開發(fā)、應(yīng)用降低門檻,并且在前沿計(jì)算領(lǐng)域展開合作和布局。
“巨型GPU”E級(jí)超算性能,助力生成式AI創(chuàng)新
高算力是當(dāng)前發(fā)展生成式AI的核心需求,而NVIDIA高端GPU已經(jīng)成為生成式AI最核心的算力基座,從其最新的AI超級(jí)計(jì)算機(jī)來(lái)看,有望繼續(xù)提升已有算力水平,站上E級(jí)AI超算的高度來(lái)助力生成式AI創(chuàng)新。
DGX GH200是一款可以提供1 exaflop性能與144 TB共享內(nèi)存的超級(jí)計(jì)算機(jī),大內(nèi)存技術(shù)、互連技術(shù)、以及針對(duì)Transformer大模型的加速優(yōu)化等都是其亮點(diǎn)。它將8個(gè)Grace Hopper架構(gòu)的GPU與3個(gè)NVLINK互連,形成一個(gè)傳輸速度為900GB/s的Pod,然后將32個(gè)這樣的Pod進(jìn)行連接,通過(guò)一層開關(guān),連接總共256個(gè)Grace Hopper架構(gòu)的GPU。由此產(chǎn)生的ExaFLOPS Transformer Engine具有144 TB的GPU內(nèi)存,相當(dāng)于是一個(gè)“巨型GPU”。
除了1 exaflop性能,DGX GH200超大的內(nèi)存容量值得特別關(guān)注——由256個(gè)Grace Hopper超級(jí)芯片提供的144TB共享內(nèi)存空間,相比單個(gè)NVIDIA DGX A100 320 GB系統(tǒng),內(nèi)存提升了近500倍。這樣大的內(nèi)存,顯然是為了支持更大規(guī)模的模型訓(xùn)練而準(zhǔn)備的,能夠進(jìn)一步契合生成式AI高帶寬、低延時(shí)的訓(xùn)練場(chǎng)景需求。針對(duì)深度學(xué)習(xí)推薦模型(DLRM)和大數(shù)據(jù)分析工作負(fù)載,使用DGX GH200可實(shí)現(xiàn)4倍到7倍的加速。
此外,DGX GH200也是第一款將Grace Hopper超級(jí)芯片與NVIDIA NVLink Switch System配對(duì)使用的超級(jí)計(jì)算機(jī),采用的正是NVLink互連技術(shù)、NVLink Switch System,才能使256個(gè)GH200超級(jí)芯片相連,使它們能夠作為一個(gè)“超級(jí)GPU”整體運(yùn)行。
這里要說(shuō)明的是,NVLink是和每一代NVIDIA GPU架構(gòu)同步發(fā)展起來(lái)的高速互連技術(shù)。也正是得益于NVIDIA多年來(lái)在互聯(lián)技術(shù)的積累,才能夠?yàn)樯墒紸I所需的高彈性、超大AI算力規(guī)模的多GPU系統(tǒng),帶來(lái)更大的拓展可能,從而使DGX GH200系統(tǒng)中的所有GPU作為一個(gè)整體協(xié)同運(yùn)行。
當(dāng)然,軟硬協(xié)同的也是必不可少的方式。除了上述硬件創(chuàng)新,算法引擎方面,GH200通過(guò)結(jié)合新的Transformer引擎與Hopper FP8張量核心,在大型NLP模型上能夠提供比A100服務(wù)器高達(dá)9倍的AI訓(xùn)練速度和30倍的AI推理速度。此外還有DGX GH200所包含的NVIDIA軟件,能夠提供一站式解決方案,進(jìn)一步提升了研發(fā)效率。
為生成式AI量身打造數(shù)據(jù)中心網(wǎng)絡(luò)
數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)成為重要的計(jì)算單元,它既包括計(jì)算能力,也包括通信能力,更重要的是,通過(guò)端到端的優(yōu)化可以讓計(jì)算和通信更好地融合,從而使得每一個(gè)關(guān)鍵層面都能承擔(dān)起生成式AI所需的能力。
作為當(dāng)今互聯(lián)網(wǎng)誕生的根基,以太網(wǎng)非常有彈性,它可以支持TCP等傳輸層協(xié)議,基于傳統(tǒng)的網(wǎng)絡(luò)丟包機(jī)制來(lái)緩解網(wǎng)絡(luò)擁塞,對(duì)業(yè)務(wù)的性能抖動(dòng)并不敏感。出現(xiàn)數(shù)據(jù)包丟失時(shí),它會(huì)根據(jù)應(yīng)用需求重新傳輸或者直接放棄、幾乎可以從任何地方重連。
但是,高吞吐量的AI負(fù)載根本負(fù)擔(dān)不起丟包的代價(jià),也無(wú)法接受抖動(dòng)問題,因?yàn)檫@些都會(huì)對(duì)AI負(fù)載和性能產(chǎn)生巨大影響。特別是對(duì)于生成式AI來(lái)說(shuō),大模型參數(shù)規(guī)模及數(shù)據(jù)集不斷擴(kuò)大,當(dāng)一個(gè)大模型跑在成千上萬(wàn)個(gè)GPU集群上時(shí),采用的是分布式、緊耦合的計(jì)算方式,這時(shí),整個(gè)系統(tǒng)的性能已經(jīng)不僅取決于單一GPU、單一服務(wù)器,更取決于網(wǎng)絡(luò)性能,對(duì)數(shù)據(jù)傳輸有更高的要求,這就需要對(duì)傳統(tǒng)以太網(wǎng)進(jìn)行“改造”,構(gòu)建支持RoCE(RDMA over Converged Ethernet)的無(wú)損網(wǎng)絡(luò),做到不丟包,支持以太網(wǎng)RDMA,滿足高帶寬和高利用率需求。
NVIDIA最新的Spectrum-X加速網(wǎng)絡(luò)平臺(tái)就是這一理念,該平臺(tái)的核心是Spectrum-4以太網(wǎng)交換機(jī)、BlueField-3 DPU、LinkX高性能線纜/模塊和NVIDIA端到端加速軟件。
其中,BlueField-3 DPU可以對(duì)于網(wǎng)絡(luò)中遙測(cè)數(shù)據(jù)進(jìn)行探測(cè),通過(guò)主動(dòng)采集Spectrum-4遙測(cè)機(jī)制生成的擁塞狀況數(shù)據(jù),在擁塞發(fā)生的早期階段就提前調(diào)節(jié)速率以發(fā)送數(shù)據(jù)。通過(guò)實(shí)時(shí)檢測(cè)擁塞點(diǎn),用可編程擁塞控制技術(shù),來(lái)監(jiān)控和控制數(shù)據(jù)流,從而實(shí)現(xiàn)不同工作負(fù)載之間的性能隔離。
此外,通過(guò)可編程擁塞控制實(shí)現(xiàn)的業(yè)務(wù)性能隔離技術(shù)也非常關(guān)鍵。在云端跑多個(gè)訓(xùn)練任務(wù)時(shí),不同工作負(fù)載會(huì)影響彼此性能,而通過(guò)任務(wù)性能隔離,能夠優(yōu)化總體性能,讓每個(gè)工作負(fù)載都達(dá)到理想的性能。
在生成式AI驅(qū)動(dòng)下,數(shù)據(jù)中心向大規(guī)模、高算力、高性能方向飛速發(fā)展,在這一趨勢(shì)下,網(wǎng)絡(luò)連接越來(lái)越成為數(shù)據(jù)中心的核心競(jìng)爭(zhēng)力。那么,該如何看待Spectrum-X加速網(wǎng)絡(luò)平臺(tái)的創(chuàng)新意義?首先,可以將它理解為NVIDIA針對(duì)生成式AI需求創(chuàng)造的一個(gè)新的網(wǎng)絡(luò)場(chǎng)景;其次,當(dāng)前一些成功的大模型已經(jīng)初步驗(yàn)證了這一無(wú)損網(wǎng)絡(luò)架構(gòu)的效能,它為新一代AI工作負(fù)載掃清了障礙,可以提高基于以太網(wǎng)AI云的性能與效率,助力數(shù)據(jù)中心滿足超大規(guī)模生成式AI工作負(fù)載需求。
生成式AI時(shí)代的生態(tài)建設(shè)
在生成式AI驚人的進(jìn)展面前,企業(yè)對(duì)于“事半功倍”的訴求其實(shí)一直沒變。不過(guò),現(xiàn)實(shí)情況是,生成式AI數(shù)據(jù)的多樣性、指數(shù)級(jí)的規(guī)模增長(zhǎng)、以及場(chǎng)景的復(fù)雜要求,都對(duì)原有的基礎(chǔ)設(shè)施帶來(lái)挑戰(zhàn),只有通過(guò)有效的軟硬融合創(chuàng)新、先進(jìn)的生產(chǎn)力結(jié)合、跨生態(tài)的合作等,才能不斷降低生成式AI的開發(fā)和使用門檻。
保護(hù)企業(yè)數(shù)據(jù)資產(chǎn),安全創(chuàng)建生成式AI
首先,在生成式AI趨勢(shì)下,企業(yè)越來(lái)越重視數(shù)據(jù)資產(chǎn)的價(jià)值,他們希望貼合不同業(yè)務(wù)應(yīng)用、運(yùn)行更加多樣化的AI模型。如何消除企業(yè)對(duì)于數(shù)據(jù)安全的擔(dān)憂?近日,NVIDIA和數(shù)據(jù)云企業(yè)Snowflake展開合作,使得企業(yè)能夠在數(shù)據(jù)駐留的地方創(chuàng)建生成式AI應(yīng)用,安全地構(gòu)建定制化大語(yǔ)言模型。
基于NVIDIA NeMo開源工具包以及GPU加速計(jì)算,企業(yè)可以使用其Snowflake賬戶中的數(shù)據(jù),為包括聊天機(jī)器人、搜索和總結(jié)等在內(nèi)的生成式AI服務(wù)打造定制化的大語(yǔ)言模型。由于能夠在不移動(dòng)數(shù)據(jù)的情況下對(duì)大語(yǔ)言模型進(jìn)行自定義,從而使得專有信息在Snowflake平臺(tái)內(nèi)得到充分保護(hù)和管理。
在數(shù)據(jù)云中擴(kuò)展AI功能——這相當(dāng)于是NVIDIA和Snowflake共同創(chuàng)建了一個(gè)“AI工廠”,幫助企業(yè)將其寶貴數(shù)據(jù)轉(zhuǎn)化為自定義生成式AI模型。企業(yè)能夠利用自己的專有數(shù)據(jù)(從數(shù)百太字節(jié)到拍字節(jié)的原始數(shù)據(jù)和策劃性商業(yè)信息等),來(lái)創(chuàng)建和調(diào)優(yōu)自定義大語(yǔ)言模型,支撐具體的業(yè)務(wù)應(yīng)用和服務(wù),在降低成本和延遲的同時(shí),還可以保障數(shù)據(jù)安全。這一合作有望通過(guò)數(shù)據(jù)云平臺(tái),把定制化的生成式AI應(yīng)用帶到不同的垂直領(lǐng)域,形成廣泛落地。
NVIDIA與戴爾的一個(gè)合作項(xiàng)目同樣著眼于幫助企業(yè)充分挖掘其數(shù)據(jù)資產(chǎn)潛能,旨在幫助企業(yè)在本地構(gòu)建和使用生成式AI模型。
基于戴爾和NVIDIA基礎(chǔ)設(shè)施和軟件打造的Project Helix,提供一系列包含技術(shù)專長(zhǎng)和預(yù)構(gòu)建工具的全棧式解決方案,可以為企業(yè)提供特制的AI模型,使企業(yè)更加快速、安全地從目前還未被充分利用的大量數(shù)據(jù)中獲得價(jià)值。通過(guò)高度可擴(kuò)展的高效基礎(chǔ)設(shè)施,企業(yè)可以創(chuàng)造出新一批生成式AI解決方案,也便于他們使用自己的數(shù)據(jù)做出可靠的業(yè)務(wù)決策。
降低Windows開發(fā)者的準(zhǔn)入門檻
對(duì)于龐大的Windows用戶群來(lái)說(shuō),生成式AI無(wú)疑是近年來(lái)的最大變革力和驅(qū)動(dòng)力。日前在微軟的Build開發(fā)者大會(huì)上,NVIDIA和微軟就展示了一系列旨在滿足生成式AI需求的先進(jìn)技術(shù),包括搭載NVIDIA RTX GPU的Windows 11 PC和工作站等。
對(duì)于下一代Windows應(yīng)用來(lái)說(shuō),必須關(guān)注到開發(fā)人員如何以生成式AI為核心來(lái)進(jìn)行開發(fā),這包括在Windows PC上進(jìn)行AI開發(fā)的工具、優(yōu)化和部署AI的框架,以及如何進(jìn)一步推進(jìn)性能和能效的提升。
Linux操作系統(tǒng)顯然是一個(gè)關(guān)鍵,由于AI開發(fā)通常是在Linux上進(jìn)行的,過(guò)去幾年,微軟也致力于讓Linux直接在Windows中運(yùn)行,也就是適用于Linux的Windows子系統(tǒng)(WSL)。NVIDIA通過(guò)為WSL內(nèi)部的整個(gè)NVIDIA AI軟件堆棧提供GPU加速和支持,目前,開發(fā)人員已經(jīng)可以使用Windows PC來(lái)滿足本地AI開發(fā)需求,并支持GPU加速的WSL深度學(xué)習(xí)框架。
值得一提的是,NVIDIA RTX GPU在臺(tái)式機(jī)工作站中提供48GB的大顯存,這意味著開發(fā)人員可以在本地Windows系統(tǒng)上處理以前只能在服務(wù)器上處理的模型,并且還提高了AI模型本地微調(diào)的性能和質(zhì)量。此外,RTX Tensor Core等GPU硬件加速可以加速微軟工具鏈,有助于快速優(yōu)化并部署模型,并且能夠助力AI推理提升性能和能效。
隨著AI即將進(jìn)入幾乎所有Windows應(yīng)用,NVIDIA與微軟這種軟硬件層面的深度合作和優(yōu)化,能夠進(jìn)一步為Windows開發(fā)者和用戶降低生成式AI的準(zhǔn)入門檻。
多個(gè)垂直應(yīng)用中加速落地
除了上述基礎(chǔ)設(shè)施生態(tài)方面的合縱連橫,NVIDIA也在為生成式AI在垂直領(lǐng)域的落地部署鋪平道路。
英矽智能是NVIDIA初創(chuàng)加速計(jì)劃的高級(jí)成員,該公司正在使用NVIDIA BioNeMo,通過(guò)生成式AI加速早期藥物研發(fā)流程。具體而言,是將生成式AI應(yīng)用于臨床前藥物研發(fā)流程的各個(gè)環(huán)節(jié):確定藥物化合物可以靶點(diǎn)的分子、生成新的候選藥物、衡量這些候選藥物與靶點(diǎn)的結(jié)合程度,甚至預(yù)測(cè)臨床試驗(yàn)的結(jié)果。使用傳統(tǒng)方法進(jìn)行這項(xiàng)工作需要花費(fèi)超過(guò)4億美元,耗時(shí)長(zhǎng)達(dá)6年。但是通過(guò)生成式AI,英矽智能僅以十分之一的成本和三分之一的時(shí)間完成了這些工作,在項(xiàng)目啟動(dòng)兩年半后就進(jìn)入了一期臨床試驗(yàn)。
目前,該公司利用AI平臺(tái)研發(fā)的一種候選藥物現(xiàn)在正進(jìn)入二期臨床試驗(yàn),用于治療特發(fā)性肺纖維化。
在內(nèi)容創(chuàng)作領(lǐng)域,NVIDIA和WPP正在開發(fā)一個(gè)基于NVIDIA AI技術(shù)的Omniverse內(nèi)容引擎,該引擎將使創(chuàng)作團(tuán)隊(duì)更加快速、高效、大規(guī)模地制作出高質(zhì)量的商業(yè)內(nèi)容,并且完全貼合客戶的品牌。這個(gè)新引擎與3D設(shè)計(jì)、制造和創(chuàng)意供應(yīng)鏈工具生態(tài)相連,使得WPP的藝術(shù)家和設(shè)計(jì)師能夠?qū)?D內(nèi)容創(chuàng)作與生成式AI相結(jié)合,使其客戶能夠以個(gè)性化且吸引人的方式接觸消費(fèi)者。
在游戲領(lǐng)域,NVIDIA基于幾十年來(lái)與游戲開發(fā)者合作的經(jīng)驗(yàn),正率先在游戲中使用生成式AI。近日,NVIDIA大刀闊斧地推出了全新的AI模型代理服務(wù),也就是為云端及PC游戲角色產(chǎn)生定制化生成式AI模型。通過(guò)NVIDIA ACE for Games這個(gè)AI模型代理服務(wù),中間件、工具及游戲開發(fā)者可以在游戲和應(yīng)用中建立和部署定制的語(yǔ)音、對(duì)話及動(dòng)畫AI模型,利用AI驅(qū)動(dòng)的自然語(yǔ)言交互技術(shù),為游戲NPC帶來(lái)更高的智能性,從而改變游戲交互體驗(yàn)。
布局前沿異構(gòu)計(jì)算系統(tǒng)
在前不久的ISC大會(huì)上,NVIDIA、全球航空業(yè)的領(lǐng)導(dǎo)者羅爾斯·羅伊斯和量子軟件公司Classiq,宣布了一項(xiàng)在量子計(jì)算領(lǐng)域的突破,用于提高噴氣發(fā)動(dòng)機(jī)效率。
這一合作的特別之處在于,GPU加速計(jì)算與量子計(jì)算在統(tǒng)一計(jì)算平臺(tái)中得以結(jié)合。由NVIDIA Grace Hopper驅(qū)動(dòng)了量子計(jì)算與經(jīng)典計(jì)算相結(jié)合的GPU加速量子計(jì)算系統(tǒng)DGX Quantum,此外,NVIDIA還提供了一個(gè)連接GPU和QPU的開源編程模型NVIDIA CUDA Quantum,以實(shí)現(xiàn)量子與經(jīng)典計(jì)算的緊密集成。
這一合作的背景是羅爾斯·羅伊斯致力于建造最先進(jìn)的噴氣發(fā)動(dòng)機(jī),但量子計(jì)算機(jī)僅能支持只有幾層的電路深度,于是他引入GPU為量子計(jì)算未來(lái)做準(zhǔn)備。通過(guò)采用NVIDIA的量子計(jì)算平臺(tái),兩家公司設(shè)計(jì)并模擬了世界上最大的計(jì)算流體力學(xué)(CFD)量子計(jì)算電路,該電路測(cè)量深度為1000萬(wàn)層,有39個(gè)量子位。
這種同時(shí)使用經(jīng)典計(jì)算和量子計(jì)算的方法,可以模擬噴氣發(fā)動(dòng)機(jī)設(shè)計(jì)的性能,有助于加快研發(fā)進(jìn)程并進(jìn)行更復(fù)雜的計(jì)算。對(duì)前沿研究領(lǐng)域所需的超級(jí)計(jì)算機(jī)來(lái)說(shuō),量子計(jì)算和GPU超級(jí)計(jì)算是異構(gòu)系統(tǒng)中必不可少的組成部分,二者的融合,對(duì)于破解科研難題、突破發(fā)現(xiàn)界限非常重要,是未來(lái)在科學(xué)領(lǐng)域取得突破的關(guān)鍵之一,也是GPU加速計(jì)算在更廣范圍的科學(xué)與工業(yè)領(lǐng)域又一突破性進(jìn)展。
寫在最后
生成式AI帶來(lái)的顛覆才剛剛開始,國(guó)內(nèi)外眾多科技公司紛紛將其視作重大的戰(zhàn)略增長(zhǎng)機(jī)會(huì)。
NVIDIA的AI增長(zhǎng)故事開始于GPU,但絕不只有GPU。就像它在打造數(shù)據(jù)中心多元的、集群化的硬件算力節(jié)點(diǎn)時(shí),GPU、CPU、DPU、內(nèi)存技術(shù)、互連技術(shù)、引擎優(yōu)化、配套的軟件工具等等,無(wú)一不是關(guān)鍵,才能共同構(gòu)建起了更高性能、更具能效的加速計(jì)算系統(tǒng)。有賴于這些積淀,NVIDIA正在形成生成式AI時(shí)代的強(qiáng)大增長(zhǎng)曲線。