生成式AI正在對算力產(chǎn)業(yè)產(chǎn)生更多需求。不過,這里所指的“算力”并不是單一維度的GPU或CPU性能和出貨規(guī)模,插槽數(shù)量已經(jīng)不能完全反映處理器芯片給市場帶來的價值。底層技術(shù)和產(chǎn)業(yè)生態(tài)正在形成新的格局,這些變化已經(jīng)給頭部半導(dǎo)體企業(yè)帶來緊迫感,他們在重新構(gòu)思產(chǎn)品和商業(yè)模式。
英偉達和英特爾近期的一些新動向,非常明確地反映了這些變化,競爭已經(jīng)不止于xPU異構(gòu)處理器之間,而是聚焦于更廣泛的軟件服務(wù)、網(wǎng)絡(luò)連接等全方位競爭。這種轉(zhuǎn)變不僅重塑了兩家公司的發(fā)展戰(zhàn)略,也為整個行業(yè)帶來了新的風(fēng)向標。
AI推理成為重要方向
不約而同,英偉達和英特爾今年都在公開場合多次強調(diào)了AI推理的重要性和巨大潛力。英偉達2024財年Q4財報更是直接顯示,其數(shù)據(jù)中心40%的收入來自推理。這其實是AI應(yīng)用開始轉(zhuǎn)向的重要標志,AI推理甚至可能比預(yù)期中的發(fā)展速度更快。
相較于訓(xùn)練,推理能夠在已有模型訓(xùn)練的基礎(chǔ)上響應(yīng)指令,并且對功耗和成本的要求沒那么高,這是否意味著推理業(yè)務(wù)更容易推進?當前又有哪些行業(yè)痛點需要解決?
埃森哲首席AI官Lan Guan近日在英特爾Vision大會上,談到了企業(yè)部署AI的三個常見挑戰(zhàn):首先,企業(yè)難以從AI投資中獲取更大價值,即使他們有明確定義的AI KPI,但這些通常只是任務(wù)為導(dǎo)向的方法,缺乏整體層面的聚合價值;其次,數(shù)據(jù)質(zhì)量不足,大多數(shù)都是基于互聯(lián)網(wǎng)的通用數(shù)據(jù),而企業(yè)的隱私數(shù)據(jù)和通用模型結(jié)合是一個很大的挑戰(zhàn);第三是AI技能缺口,企業(yè)需要額外的培訓(xùn)或是專門的人才來構(gòu)建、運營和管理AI,才能從項目中獲取到相關(guān)的數(shù)據(jù)或反饋。
英偉達CEO黃仁勛在GTC 2024上則指出,推理其實是一種復(fù)雜的計算問題。眼下有各種各樣的模型:計算機視覺模型、機器人模型以及豐富的開源語言模型等等,這些模型極具開創(chuàng)性,但是對于企業(yè)來說,面臨著一系列問題:如何將模型部署到自己的應(yīng)用中?該如何優(yōu)化每一個AI模型?如何充分調(diào)度超級計算機的計算資源?如何才能快速高效地部署這些模型?
英偉達的微服務(wù)和英特爾的開放RAG
面向企業(yè)在生成式AI方面的瓶頸,英偉達和英特爾已經(jīng)展開行動,軟件AI是一個關(guān)鍵。
在之前的文章《黃仁勛:要成為AI界的“臺積電”》中,我們探討了英偉達最新推出的推理微服務(wù)(NIM)。簡單說,就是把預(yù)訓(xùn)練的AI模型,經(jīng)過封裝和優(yōu)化后集成在容器中,便于在龐大的英偉達部署環(huán)境中運行。
在CUDA環(huán)境中,上層還包括開源模型、合作伙伴專用模型以及英偉達所創(chuàng)建的模型,例如NVIDIA MoIMIM。這些模型封裝在一起,包括對應(yīng)版本的CUDA和cuDNN,支持分布式推理的NVIDIA TensorRT LLM,以及NVIDIA Triton推理服務(wù)器等。它可以根據(jù)實際情況進行優(yōu)化部署,比如是單卡、多卡還是多節(jié)點,最終都通過簡單易用的API來實現(xiàn)調(diào)用。
除了推理微服務(wù)(NIM),英偉達還提供云原生框架NeMo,它包含工具包、預(yù)訓(xùn)練模型等,可以幫助企業(yè)整理、準備數(shù)據(jù),或是進行模型定制開發(fā)。此外還有DGX cloud基礎(chǔ)設(shè)施,便于企業(yè)進行模型的微調(diào)和部署。
通過推理微服務(wù)+開發(fā)工具+基礎(chǔ)設(shè)施,英偉達一如既往地通過全棧的方式來布局企業(yè)AI推理業(yè)務(wù)。
英特爾則洞察到了通過AI幫助企業(yè)提升數(shù)據(jù)檢索和增強生成方面的機遇,并且正在通過RAG(檢索增強生成),打造一個開放的、多供應(yīng)商的系統(tǒng)。首批公布的聯(lián)盟成員包括Anyscale、Deloitte、Hugging Face、RedHat、SAP、VMware等,涵蓋供應(yīng)鏈多個環(huán)節(jié)近20家企業(yè)。
RAG其實是結(jié)合了基于檢索的模型和生成模型的能力,用來提高生成文本的質(zhì)量和相關(guān)性。該方法能夠讓語言模型(LM)獲取到內(nèi)化知識之外的信息,并允許LM在專業(yè)知識庫的基礎(chǔ)上,以更準確的方式回答問題。在大模型時代,它成為了解決模型的幻覺問題、知識時效問題、超長文本問題等各種大模型本身制約或不足的必要技術(shù)。
關(guān)于RAG,英特爾院士、大數(shù)據(jù)技術(shù)全球首席技術(shù)官、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權(quán)認為,構(gòu)建生成式AI應(yīng)用不僅僅是擁有一個大模型那么簡單,實際上涉及創(chuàng)建一個完整的AI系統(tǒng)。RAG就是這方面的一個典型例子,它解決了如何對大模型進行知識增強的問題,通過結(jié)合個人、私有或垂直領(lǐng)域的知識,以及使用增強數(shù)據(jù)庫、知識圖譜和規(guī)劃方法等技術(shù),來構(gòu)建復(fù)雜的AI系統(tǒng),這也是生成式AI發(fā)展的一個趨勢。
英特爾公司副總裁、英特爾中國軟件和先進技術(shù)事業(yè)部總經(jīng)理李映補充,RAG能夠?qū)ζ髽I(yè)內(nèi)部私有數(shù)據(jù)和公開的大模型進行整合。通過開放聯(lián)盟的形式,英特爾希望建立開放平臺,促進不同RAG組件之間的互聯(lián)互通。
AI高速互聯(lián)——“封閉”和“開放”之爭
隨著大模型的規(guī)模增長至萬億參數(shù),分布式并行系統(tǒng)成為滿足推理和訓(xùn)練需求的關(guān)鍵。由于訓(xùn)練過程中產(chǎn)生的大量中間結(jié)果需要在多個加速卡之間共享,導(dǎo)致網(wǎng)絡(luò)流量呈現(xiàn)瞬時并發(fā)特征,因此解決網(wǎng)絡(luò)擁塞問題成為提升大模型性能和擴展規(guī)模的核心挑戰(zhàn)。
當前,在AI大模型系統(tǒng)的互連技術(shù)中,主要存在兩種方法:縱向(Scale up)和橫向(Scale out)。Scale up專注于單個計算節(jié)點內(nèi)部的互連,它主要處理的是節(jié)點內(nèi)部不同加速卡之間的數(shù)據(jù)傳輸和通信。在AI應(yīng)用中,Scale up允許多個處理器或加速器在同一節(jié)點內(nèi)高效地共享數(shù)據(jù),這對于保持高性能計算至關(guān)重要。例如,在訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)時,節(jié)點內(nèi)部的多個GPU需要頻繁交換大量數(shù)據(jù),Scale up技術(shù)能夠確保這些交換快速且無縫進行,減少數(shù)據(jù)瓶頸和延遲。
而Scale out關(guān)注的是計算節(jié)點之間的互連。這種方法涉及將多個計算節(jié)點連接起來,形成一個強大的分布式計算網(wǎng)絡(luò)。Scale out支持大規(guī)模并行處理,使得可以同時在多個節(jié)點上運行不同的計算任務(wù)。這種方法對于處理龐大的數(shù)據(jù)集和復(fù)雜的AI模型尤為重要,因為它允許系統(tǒng)擴展到更多的硬件資源,從而提高整體的處理能力和效率。
對于生成式AI所需的大規(guī)模計算集群來說,Scale out的能力尤為關(guān)鍵。這方面的玩家,當前以英偉達和超以太網(wǎng)聯(lián)盟(UEC)為主要代表,該聯(lián)盟的創(chuàng)始成員包括AMD、Arista、Broadcom、Cisco、Eviden(Atos 公司)、HPE、Intel、Meta 和 Microsoft,今年3月,聯(lián)盟成員已增至55家。在之前的一篇文章《英偉達和AMD,GPU之外的下一個競爭高地》,對于大規(guī)模AI網(wǎng)絡(luò)方案也有過詳細的探討。
針對高速互聯(lián)當前存在的問題,英特爾中國網(wǎng)絡(luò)與邊緣事業(yè)部首席技術(shù)官、英特爾高級首席AI工程師張宇表示,InfiniBand封閉,而以太網(wǎng)雖然生態(tài)龐大、產(chǎn)品多樣,但最初設(shè)計并未針對復(fù)雜應(yīng)用場景,更適用于互聯(lián)網(wǎng)這種可容忍數(shù)據(jù)包丟失的場景。但是在AI大模型訓(xùn)練中,數(shù)據(jù)包丟失可能導(dǎo)致巨大開銷,因此需要一個可靠的網(wǎng)絡(luò)系統(tǒng)來應(yīng)對瞬時并發(fā)和脈沖式尖峰的網(wǎng)絡(luò)流量。目前,以太網(wǎng)方案如RoCE V2協(xié)議已有所改進,但仍不完善。超以太網(wǎng)聯(lián)盟正在改進以太網(wǎng)技術(shù),創(chuàng)建端到端的協(xié)議,以應(yīng)對大模型中的網(wǎng)絡(luò)挑戰(zhàn)?!伴_放的好處在于提供更多選擇,能夠降低成本,歷史已多次證明這一點”,他強調(diào)。
事實上,英偉達在其AI加速網(wǎng)絡(luò)中已經(jīng)注意到了以太網(wǎng)的重要性。除了用InfiniBand 網(wǎng)絡(luò)滿足極低延遲和高吞吐量的HPC和AI工作負載,還針對以太網(wǎng)推出Spectrum-X,以提供更為廣泛的連接選項。不久前的GTC上,英偉達宣布了Quantum-X800 InfiniBand 網(wǎng)絡(luò)和Spectrum-X800 以太網(wǎng)絡(luò)構(gòu)成的X800系列的最新進展,據(jù)稱端到端吞吐量已達到800Gb/s。
在<與非網(wǎng)>對英偉達網(wǎng)絡(luò)亞太區(qū)高級總監(jiān)宋慶春的采訪中,他曾提到,數(shù)據(jù)中心的網(wǎng)絡(luò)已經(jīng)成為一個非常重要的計算單元,其中既包括計算能力,也包括通信能力,而更重要的是如何讓計算和通信更好地得到融合,這是英偉達不斷進行端到端優(yōu)化的原因。
寫在最后
由于生成式AI,訓(xùn)練的規(guī)模增大了很多。而企業(yè)對于生成式AI的大量推理運用,正導(dǎo)致AI應(yīng)用處于拐點。
雙“英”在全棧創(chuàng)新和生態(tài)打造方面,正以各自的方式展開激烈競爭。不論是提高算力利用率,提升卡間互聯(lián)、多節(jié)點間互聯(lián)水平,還是支持靈活穩(wěn)定擴展和彈性容錯,最終,打造先進的系統(tǒng)能力和廣泛的生態(tài)水平成為競爭的關(guān)鍵。隨著AI推理開啟新一輪超級周期,相信接下來的競爭將更具看點。