生成式AI時(shí)代,云計(jì)算將如何被重塑?作為17年前云計(jì)算的開創(chuàng)者,亞馬遜云科技擁有廣泛、深入的云服務(wù)基礎(chǔ)和基礎(chǔ)設(shè)施根基。根據(jù)PitchBook的數(shù)據(jù), 目前有超過1000家獨(dú)角獸公司或估值超過10億美元的創(chuàng)業(yè)公司,其中超過80%的獨(dú)角獸公司都將工作負(fù)載運(yùn)行在亞馬遜云科技上。而亞馬遜云科技之所以能夠持續(xù)引領(lǐng)科技創(chuàng)新,離不開從基礎(chǔ)設(shè)施到存儲、到計(jì)算芯片再到云服務(wù)等由下而上、由內(nèi)而外的創(chuàng)新。
日前,在亞馬遜云科技2023 re:Invent中國行北京站的主題分享環(huán)節(jié),亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建就生成式AI趨勢下,云計(jì)算基礎(chǔ)產(chǎn)品的升級迭代、對生成式AI的支持等方面進(jìn)行了介紹。其中,關(guān)于亞馬遜云科技自研芯片的最新進(jìn)展,以及與英偉達(dá)等芯片廠商在更先進(jìn)算力資源方面的合作,既強(qiáng)調(diào)了生成式AI領(lǐng)域的生態(tài)打造,也從底層技術(shù)針對生成式AI進(jìn)行了重塑。
持續(xù)投入底層創(chuàng)新,自研芯片Amazon Graviton五年四代
亞馬遜云科技在全球范圍內(nèi)提供基礎(chǔ)設(shè)施,據(jù)介紹已經(jīng)覆蓋了32個(gè)地理區(qū)域,并有5個(gè)區(qū)域即將推出,包括東南亞、歐洲、北美等。這些區(qū)域提供全球一致的體驗(yàn),具有高可用性和災(zāi)難恢復(fù)能力。這種全球統(tǒng)一的高標(biāo)準(zhǔn)設(shè)計(jì)是實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)韌性的基礎(chǔ),與此同時(shí),每個(gè)可用區(qū)都是一個(gè)完全獨(dú)立的數(shù)據(jù)中心,具有冗余的水、電、網(wǎng)絡(luò)和連接。與最接近的云服務(wù)商相比,亞馬遜云科技的數(shù)據(jù)中心數(shù)量多三倍,服務(wù)多60%,功能多40%。他們認(rèn)為,只有做好全球底層的創(chuàng)新,客戶才能無束縛地進(jìn)行業(yè)務(wù)創(chuàng)新。
“高性價(jià)比以及更低能耗的算力,往往是企業(yè)選擇云計(jì)算的根本出發(fā)點(diǎn)之一,也是亞馬遜云科技早在十年前就深入底層技術(shù)直達(dá)芯片、持續(xù)進(jìn)行自研芯片創(chuàng)新的原因”,陳曉建表示。
據(jù)了解,亞馬遜云科技的自研芯片Amazon Graviton處理器基于ARM架構(gòu),從2018年問世至今,已經(jīng)進(jìn)行了四次重大迭代,每一代Graviton都帶來大幅度的性能提升。其中,Graviton3比Graviton2整體性能提升高達(dá)25%,Graviton3可提供高達(dá)2倍的浮點(diǎn)運(yùn)算性能,加密工作負(fù)載速度提升高達(dá)2倍,為機(jī)器學(xué)習(xí)工作負(fù)載提供高達(dá)3倍的性能,并且基于Graviton3的實(shí)例的網(wǎng)絡(luò)帶寬也高出20%,可以廣泛用于科學(xué)計(jì)算、傳統(tǒng)機(jī)器學(xué)習(xí)推理和媒體編碼等工作負(fù)載,針對特定工作負(fù)載性能提升更多,如基于Spark SQL的性能提升28%,MySQL的性能提升38%。
根據(jù)最新消息,亞馬遜云科技通過與光環(huán)新網(wǎng)和西云數(shù)據(jù)的緊密合作,在亞馬遜云科技北京區(qū)域和寧夏區(qū)域推出了基于自研芯片Amazon Graviton3處理器的Amazon Elastic Compute Cloud(Amazon EC2)M7g通用型、C7g計(jì)算優(yōu)化型和R7g內(nèi)存優(yōu)化型三款實(shí)例。這些實(shí)例均基于 Amazon Nitro System構(gòu)建,與采用Amazon Graviton2的實(shí)例相比,整體性能提升高達(dá)25%,內(nèi)存帶寬提升50%,同時(shí)能耗更低,能效提升高達(dá)60%。其中,M7g 實(shí)例適用于如應(yīng)用程序服務(wù)器、微服務(wù)、游戲服務(wù)器等,C7g 實(shí)例適用于如高性能計(jì)算、視頻編碼、游戲和基于CPU的機(jī)器學(xué)習(xí)推理加速等計(jì)算密集型應(yīng)用程序,R7g 實(shí)例適用于如開源數(shù)據(jù)庫、內(nèi)存緩存和實(shí)時(shí)大數(shù)據(jù)分析等內(nèi)存密集型工作負(fù)載。
而在最新的2023 re:Invent全球大會上,亞馬遜云科技宣布推出最新一代Graviton4,據(jù)稱是目前亞馬遜云科技性能最強(qiáng)、最具能效的自研芯片,支持廣泛的云上工作負(fù)載。與Graviton3處理器相比,Graviton4性能提升高達(dá)30%,獨(dú)立核心增加50%以上,內(nèi)存帶寬提升75%以上,基于Graviton4的Amazon EC2 R8g實(shí)例目前已提供預(yù)覽。
陳曉建談到,“云原生處理器Amazon Graviton作為亞馬遜云科技自研芯片戰(zhàn)略的重要組成,在短短五年就推出了四代Graviton,每一代都保持了兩位數(shù)百分比的性價(jià)比提升。我們非常高興將Amazon Graviton3落地中國區(qū)域,并期待將最新的Graviton4盡快帶給中國的客戶,為客戶廣泛的云上工作負(fù)載帶來更高性價(jià)比和能效?!?/p>
為生成式AI打造高性能自研芯片
面臨生成式AI發(fā)展趨勢,亞馬遜云科技希望為千行百業(yè)應(yīng)用生成式AI降低門檻。這其中就包括如何兼顧規(guī)模與成本,如何選擇最適合業(yè)務(wù)場景的模型,如何用企業(yè)自己的數(shù)據(jù)定制并快速行動,當(dāng)然還有如何充分保護(hù)數(shù)據(jù)安全隱私的前提下負(fù)責(zé)任地應(yīng)用生成式AI。
為此,亞馬遜云科技在生成式AI的端到端的三個(gè)不同層面展開持續(xù)投入:在底層,提供用于基礎(chǔ)模型訓(xùn)練和推理的基礎(chǔ)設(shè)施;在中間層工具層,提供使用基礎(chǔ)模型進(jìn)行構(gòu)建的工具,以及模型定制、模型集成等能力;在頂層應(yīng)用層,提供利用基礎(chǔ)模型構(gòu)建的應(yīng)用程序。
其中在底層自研芯片方面,亞馬遜云科技最新發(fā)布了用于生成式AI和機(jī)器學(xué)習(xí)訓(xùn)練的專用芯片Amazon Trainium2處理器。Trainium2專為以高性能訓(xùn)練具有數(shù)萬億個(gè)參數(shù)或變量的基礎(chǔ)模型和大語言模型而構(gòu)建。Trainium2 與第一代 Trainium 芯片相比,性能提升 4 倍,內(nèi)存提升 3 倍,能源效率(每瓦性能)提升多達(dá)2倍。
Amazon EC2 Trn2 實(shí)例采用最新的 Trainium2,一個(gè)單獨(dú)實(shí)例包含 16 個(gè) Trainium 加速芯片。Trainium2 實(shí)例致力于為客戶在新一代 EC2 UltraClusters 中擴(kuò)展多達(dá) 100,000 個(gè) Trainium2 加速芯片,并與 Amazon Elastic Fabric Adapter(EFA)PB 級網(wǎng)絡(luò)互聯(lián),提供的算力高達(dá) 65 exaflops,客戶可按需獲得超級計(jì)算級別的性能。有了這個(gè)級別的規(guī)模,客戶可在數(shù)周而非數(shù)月就能訓(xùn)練完成一個(gè)具有 3 千億參數(shù)的大語言模型。通過以顯著降低的成本提供最高橫向擴(kuò)展的模型訓(xùn)練,Trainum2 實(shí)例可以幫助客戶解鎖并加速生成式AI的新一輪創(chuàng)新。
此外,陳曉建還透露了亞馬遜云科技內(nèi)部完全自研和制造的一款量子計(jì)算芯片,它的獨(dú)特之處在于,通過將比特翻轉(zhuǎn)和相位翻轉(zhuǎn)分離來實(shí)現(xiàn)糾偏,可以把未翻轉(zhuǎn)的誤差和向量反轉(zhuǎn)減少100倍,整個(gè)硬件開銷也會減少6倍。他強(qiáng)調(diào),亞馬遜云科技不僅致力于實(shí)用化產(chǎn)品的不斷推出,也專注于前沿技術(shù)的不斷投資,希望成為技術(shù)的引領(lǐng)者,持續(xù)為業(yè)界帶來價(jià)值。
與英偉達(dá)高端GPU的合作進(jìn)展
此外,在re:Invent 2023全球大會上,亞馬遜云科技和英偉達(dá)宣布了幾項(xiàng)最新合作:亞馬遜云科技將提供首款搭載NVIDIA Grace Hopper超級芯片和亞馬遜云科技UltraClusters技術(shù)的云AI超級計(jì)算機(jī);首款使用英偉達(dá)最新芯片GH200 NVL32 的NVIDIA DGX云即將登錄亞馬遜云科技。
并且,兩家公司共同開展了“Project Ceiba”合作項(xiàng)目,將全球最快的GPU驅(qū)動AI超級計(jì)算機(jī)和NVIDIA DGX云超級計(jì)算機(jī)用于NVIDIA AI的訓(xùn)練、研發(fā)、定制化模型的開發(fā),它將擁有1.6萬個(gè)最新的GH200超級芯片,提供65 ExaFLOPS的算力。
根據(jù)陳曉建的分享,13年前,亞馬遜云科技就看到了GPU加速計(jì)算芯片的價(jià)值,亞馬遜云科技是第一個(gè)把GPU帶到云上的云供應(yīng)商,現(xiàn)在GPU服務(wù)器已經(jīng)廣泛用于HPC、視頻、AI工作負(fù)載等多種應(yīng)用。近年來,亞馬遜云科技在Amazon EC2 P3實(shí)例中率先提供了NVIDIA V100 GPU;今年早些時(shí)候,亞馬遜云科技是全球第一家將英偉達(dá)H100 GPU和Amazon EC2 P5實(shí)例推出市場的主要云提供商,Amazon EC2 P5實(shí)例也提供了驚人的性能,在訓(xùn)練方面比Amazon EC2 P4實(shí)例快4倍,而成本只是P4的60%。
如今,雙方將在云AI超級計(jì)算機(jī)方面展開最新合作,提供超前的計(jì)算能力。這是因?yàn)?,就生成式AI所需的基礎(chǔ)訓(xùn)練性能來說,業(yè)界需要的不只是飛快計(jì)算的GPU芯片,還需要一個(gè)真正高性能的服務(wù)器集群來訓(xùn)練所需的基礎(chǔ)模型。
當(dāng)前,跨節(jié)點(diǎn)的分布式訓(xùn)練已經(jīng)成為訓(xùn)練大模型的標(biāo)準(zhǔn)范式,除了GPU單個(gè)芯片處理性能之外,卡之間的通信、主機(jī)節(jié)點(diǎn)之間的通信,都會成為影響整個(gè)集群訓(xùn)練的關(guān)鍵因素。據(jù)介紹,亞馬遜云科技的Amazon EFA,提供3.2T的網(wǎng)絡(luò)互聯(lián)能力,客戶可以在單個(gè)集群中部署多達(dá)兩萬個(gè)GPU芯片的超級規(guī)模集群,提供相當(dāng)于20個(gè)ExaFLOPS的集成能力,等同于一臺超級計(jì)算機(jī)。
寫在最后
生成式AI給云計(jì)算業(yè)務(wù)帶來的顛覆是全方位的,這應(yīng)該是亞馬遜云科技提出“重塑云計(jì)算“的根本原因之一,也是針對底層基礎(chǔ)設(shè)施、中間工具層、頂層應(yīng)用層進(jìn)行投入的核心動力所在。
隨著數(shù)據(jù)量越來越大、模型規(guī)模越來越大,算力的性價(jià)比將越來越被重視。與此同時(shí),軟硬件的協(xié)同、強(qiáng)大的數(shù)據(jù)基礎(chǔ)等等都至關(guān)重要,這些都將是亞馬遜云科技近年來重塑云計(jì)算的核心關(guān)注點(diǎn)。