加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 編者按
    • 1、推理的成本,決定最終的勝利
    • 2、智算平臺的選擇
    • 3、NVIDIA GPU和其他算力芯片的異構(gòu)協(xié)同
    • 4、更進(jìn)一步,多元異構(gòu)協(xié)同
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

大模型時代,推理的成本決定最終的勝利

09/09 15:40
1012
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

編者按

移動互聯(lián)網(wǎng)時代,誰獲得用戶和流量,誰就能獲得成功。底層邏輯是移動互聯(lián)網(wǎng)的系統(tǒng)邊際成本很低。因此,“通過免費吸引客戶,然后再獲取收益”,成為了最典型的商業(yè)模式。

大模型時代,底層邏輯發(fā)生了很大的變化。系統(tǒng)的成本幾乎和客戶使用量成線性關(guān)系,邊際成本依然很高。這里的成本絕大部分都是推理的算力消耗。

在大模型時代,誰能把推理成本降到極致,誰就能獲得最終的勝利。

1、推理的成本,決定最終的勝利

大模型如火如荼,國內(nèi)目前的現(xiàn)狀可以總結(jié)如下:

AI大模型訓(xùn)練相對較少,僅有屈指可數(shù)的幾個大廠可以做(訓(xùn)練)自己的模型。而更多的公司則主要是基于開源大模型來完成自有AI推理和應(yīng)用。

大模型應(yīng)用,沒有“復(fù)制”門檻。目前,大模型應(yīng)用還沒有規(guī)?;涞氐陌咐梢源_定的是,一旦有爆款的應(yīng)用落地,必將有無數(shù)個類似的應(yīng)用迅速出現(xiàn)。應(yīng)用創(chuàng)新不是決定大模型成功的核心因素。

大模型時代,跟之前的移動互聯(lián)網(wǎng)時代最大的不同在于:

移動互聯(lián)網(wǎng)時代,誰獲得用戶和流量,誰就能獲得成功。底層邏輯是移動互聯(lián)網(wǎng)的系統(tǒng)邊際成本很低。因此,“通過免費吸引客戶,然后再獲取收益”,成為了最典型的商業(yè)模式。

而大模型時代,底層邏輯發(fā)生了很大的變化。系統(tǒng)的成本幾乎和客戶使用量成線性關(guān)系,邊際成本依然很高。這里的成本絕大部分來源是推理的算力消耗。

在大模型時代,誰能把推理成本降到極致,誰就能獲得最終的勝利。

2、智算平臺的選擇

目前對AI智算平臺的選擇,簡單來說,就兩個:NVIDIA GPU或其他GPU/AI芯片(NVIDIA之外,統(tǒng)稱其他)。

2.1 選擇一,NVIDIA GPU

CUDA是NVIDIA GPU的計算框架,通過CUDA,可以將GPU強(qiáng)大的計算能力釋放出來?;贜VIDIA GPU的CUDA及其所構(gòu)成的生態(tài)是NVIDIA的護(hù)城河。CUDA生態(tài),也是目前智算領(lǐng)域幾乎獨占的計算生態(tài)。

這里講一個案例,來說明NVIDIA CUDA生態(tài)的強(qiáng)大。

目前流行的大模型算法基本上都是基于Transformer結(jié)構(gòu)或其變種,Transformer之所以大行其道的原因,與其說是算法本身的價值,不如說是Transformer能夠把GPU強(qiáng)大的并行計算能力充分發(fā)揮出來。Transformer具有NVIDIA GPU的親和性,從而才能脫穎而出。

可以這樣說,只有NVIDIA GPU+CUDA親和的AI算法才有可能走出來;反過來說,如果不是NVIDIA GPU+CUDA親和的算法,即使算法本身的優(yōu)勢再大,也很難被大規(guī)模的使用。

NVIDIA GPU+CUDA生態(tài)的強(qiáng)大能力,可見一斑!

智算中心選擇NVIDIA平臺的最大優(yōu)勢是:兼容性好。目前,主流的大模型算法都是基于NVIDIA GPU和CUDA框架開發(fā)的,開源的大模型更是如此。這樣,在NVIDIA GPU平臺上,開源大模型拿過來,就可以很快跑起來。

NVIDIA GPU還有一個重要的優(yōu)勢是場景覆蓋廣。不管是做AIGC、AI Agent,或者其他可能的大模型應(yīng)用,都有豐富的基于NVIDIA GPU和CUDA的開源模型和開源應(yīng)用等相關(guān)資源可供選擇。開發(fā)者可以快速原型驗證,然后在此基礎(chǔ)上繼續(xù)調(diào)優(yōu)。

NVIDIA GPU場景覆蓋廣,既和CUDA生態(tài)相關(guān),也跟其GPU的架構(gòu)特性相關(guān)。NVIDIA GPU為GPGPU,其CUDA Core,就是尺寸較小、效率更高、可軟件編程的CPU核,其Tensor Core就和CPU的協(xié)處理器是一樣的效果。NVIDIA GPU具有非常好的可編程能力,能通過軟件編程實現(xiàn)非常多的功能,覆蓋盡可能多的場景。

智算中心采用NVIDIA GPU的劣勢,主要是成本原因。一方面,受美國芯片禁令以及大模型剛剛興起影響,NVIDIA GPU服務(wù)器價格水漲船高,直接推高了智算的單位算力成本。另一方面,NVIDIA足夠主流,落地也足夠低門檻,行業(yè)里大家都能夠達(dá)到,智算中心企業(yè)也很難基于NVIDIA GPU構(gòu)建自己的“巨大”成本優(yōu)勢以及“顯著”的差異化競爭力。

2.2 選擇二,其他GPU/AI芯片

2.2.1 GPU芯片和專用AI芯片

還是聚焦AI智算,其他AI相關(guān)的算力芯片,主要分兩類,GPU類和AI專用芯片(也有稱為NPU、TPU等名稱)類:

GPU類,跟NVIDIA相同的GPGPU技術(shù)路徑。

AI專用芯片類。跟谷歌TPU類似的專用于AI的加速芯片,也稱為AI-DSA。

GPU的微架構(gòu)是數(shù)以千計、萬計的線程核。通過超大規(guī)模的小CPU核的并行,比傳統(tǒng)CPU的大核并行更加高效。能夠在同樣的能耗下,實現(xiàn)數(shù)量級提升的更高性能。

理論上,AI專用芯片相比GPU有性能效率的優(yōu)勢。但實際上的表現(xiàn),并不是這樣:

一方面AI專用芯片,把很多算法邏輯固化成電路。但AI算法更新迭代很快,舊有的固化的算法結(jié)構(gòu)無法適配新型的算法,從而導(dǎo)致實際的性能(也即算力)利用率很低。在實際的性能方面,反而不如GPU。

另一方面,AI專用芯片,因為其把相對復(fù)雜的算法邏輯固化,從而導(dǎo)致其設(shè)計規(guī)模無法做的(相對)更大。以及多芯片互聯(lián)等可擴(kuò)展性問題等等,導(dǎo)致其在千卡、萬卡集群方面的性能表現(xiàn)(相對)不夠好。

再從從計算框架角度分析一下,我們把GPU和AI專用芯片分別分析:

(國內(nèi))其他GPU芯片公司,基本都在做CUDA兼容的框架。當(dāng)然,不排除有的公司兩條腿走路,也有完全自研的框架。

而做專用AI芯片的公司,做的都是非CUDA兼容的自有框架。專用AI芯片公司“不約而同”的走自有框架,核心原因在于專用芯片算子約束更加嚴(yán)格,沒法做到GPU級別的編程自由度。所以,不是不兼容,而是無法兼容。

目前情況下,AI算法仍然快速多變,最合適的加速方案仍然是GPU,專用AI芯片無法解決算法的橫向(不同算法間的差異)和縱向(算法的迭代)差異性問題。

(擴(kuò)展閱讀:能不能面向通用人工智能AGI,定義一款新的AI處理器?。)

2.2.2 其他算力芯片的優(yōu)劣勢總結(jié)

其他的GPU/AI專用芯片和NVIDIA GPU相比,劣勢主要在于其芯片、框架和生態(tài)都不夠成熟,并且在性能上也有劣勢,并且其場景覆蓋也較少。

各方面原因,NVIDIA GPU目前相對較貴,其他這些算力芯片唯一的優(yōu)勢可以說是價格,也就是折算到單位算力的成本優(yōu)勢。

3、NVIDIA GPU和其他算力芯片的異構(gòu)協(xié)同

NVIDIA GPU場景覆蓋廣,但單位算力成本高;其他GPU/AI算力芯片場景覆蓋少,但單位算力成本低。那有沒有辦法把這兩者的優(yōu)勢合并?既達(dá)到NVIDIA GPU一樣的場景覆蓋,又能像其它算力芯片一樣低成本。

答案是肯定的。

3.1 訓(xùn)練和推理計算方式的差異

通俗的講,大模型訓(xùn)練是很多臺服務(wù)器干一件事情。訓(xùn)練可以理解為一個非常龐大的計算任務(wù)分解的很多分支任務(wù)在不同的服務(wù)器節(jié)點上進(jìn)行計算,并且這些分支任務(wù)之間還需要緊密的通信和協(xié)同。因此,訓(xùn)練對計算架構(gòu)的一致性,和節(jié)點間的高速互聯(lián),要求相對較高。

而大模型推理,(通過優(yōu)化)可以做到一臺機(jī)器干很多件事情。這樣,服務(wù)器節(jié)點之間的耦合性要求降低;與此同時,對服務(wù)器節(jié)點的計算架構(gòu)一致性的要求也隨之降低。

簡單總結(jié)一下:

基于混合異構(gòu)協(xié)同的大模型訓(xùn)練優(yōu)化,是一件事倍功半的事情。原因一、混合異構(gòu)協(xié)同的大模型訓(xùn)練技術(shù)難度高;原因二,訓(xùn)練集群的效率和成本優(yōu)化效果有限;原因三,國內(nèi)大模型訓(xùn)練整體市場規(guī)模相對較小,高投入低收益。

基于混合異構(gòu)協(xié)同的大模型推理優(yōu)化,則是一件事半功倍的事情。原因一,混合異構(gòu)協(xié)同的大模型推理技術(shù)難度相對較低;原因二,推理集群的效率和成本優(yōu)化效果會非常顯著;原因三,國內(nèi)主要是AI大模型推理,其市場規(guī)模將遠(yuǎn)大于訓(xùn)練,低投入高收益。

3.2 異構(gòu)協(xié)同推理

簡單的辦法,就是實現(xiàn)混合調(diào)度。通過一個任務(wù)調(diào)度器,把不同類別的工作任務(wù)分派給對應(yīng)的計算硬件。這里的關(guān)鍵在于:

其他算力芯片的高優(yōu)先級。也就是所有的計算任務(wù)送到集群的時候,由其他算力芯片所在的計算節(jié)點先挑選,“自己可以勝任的工作就自己做,無法勝任的工作就交給NVIDIA做”。

NVIDIA GPU的最低優(yōu)先級。其主要作用是在系統(tǒng)里承擔(dān)“兜底”的角色,其他算力芯片挑剩下的工作任務(wù),都統(tǒng)一交付到NVIDIA GPU所在的計算節(jié)點執(zhí)行。

受二八定律影響,其他算力芯片覆蓋的通常是熱點場景,雖然其場景覆蓋少,但這些場景的計算量通常會占據(jù)整體計算量的大部分。從而使得,通過異構(gòu)協(xié)同的方式,能夠顯著的降低成本。

總結(jié)一下異構(gòu)協(xié)同的優(yōu)勢:

能夠?qū)崿F(xiàn)全場景覆蓋(以NVIDIA GPU為基準(zhǔn),NV-GPU兜底,所以全場景覆蓋);

能夠最大程度降低成本(計算主力為其他GPU/AI芯片);

部分解決算力芯片卡脖子問題(降低NVIDIA芯片的使用量)。

4、更進(jìn)一步,多元異構(gòu)協(xié)同

4.1 算力芯片的類型和架構(gòu)越來越多,亟需整合

在通用計算的時代,x86占據(jù)絕大部分市場,基本上不存在多樣性算力平臺的問題。但隨著ARM CPU、RISC-v CPU的逐漸成熟,不同架構(gòu)的CPU也逐漸共存于同一個算力中心。隨著深度學(xué)習(xí)和大模型的流行,GPU異構(gòu)計算逐漸成為主流。但NVIDIA GPU成本很高,其他品牌/架構(gòu)GPU也越來越多的得到應(yīng)用。此外,還有專用于AI等場合的專用加速處理器器,也開始得到重視。計算平臺越來越多的呈現(xiàn)出多樣性的特征。

站在競爭和供應(yīng)鏈安全的角度,多樣性算力是好事情,但站在基礎(chǔ)設(shè)施和業(yè)務(wù)層軟件的角度,多樣性算力則是挑戰(zhàn)。如果實現(xiàn)軟件定義硬件,做硬件平臺架構(gòu)無關(guān)的軟件層工作,讓更多的硬件平臺可以無縫接入,是亟需解決的問題。

4.2 多元異構(gòu)協(xié)同的混合算力調(diào)度

從兩種計算芯片的異構(gòu)協(xié)同推理開始,我們可以持續(xù)擴(kuò)展,最終形成的必然是多元異構(gòu)協(xié)同計算框架,從而實現(xiàn)多種加速芯片的混合計算,給客戶提供一致性的和云邊端協(xié)同調(diào)度,實現(xiàn)最優(yōu)的算力成本。

多元異構(gòu)計算框架是動態(tài)的,它承上啟下:

對上,提供開放的北向接口,對接主流的開源軟件,并以開源軟件為藍(lán)本,提供開放的業(yè)務(wù)應(yīng)用軟件接入API規(guī)范,支持更多的客戶自研軟件的接入。

對下,提供開放的南向接口,對接主流的大廠的芯片,如x86 CPU、ARM CPU、NVIDIA GPU等。對于其他芯片公司的芯片,平臺方和芯片廠家可以建立深度合作關(guān)系,把其他的GPU/AI算力芯片逐步接入。在此基礎(chǔ)上,形成南向的接口和架構(gòu)規(guī)范,從而支持更多硬件的接入。

到了這個階段,就必然形成了一個真正的多元異構(gòu)算力平臺。對智算中心來說:

對下,不需要關(guān)心芯片的各種差異性,只要有開放的算力調(diào)度平臺,就可以實現(xiàn)各類芯片的輕松接入。這樣,智算中心只關(guān)心芯片的性能和成本。

對上,也不需要擔(dān)心智算中心的硬件是否能夠匹配客戶的業(yè)務(wù)場景。開放的算力調(diào)度平臺決定了,能夠?qū)崿F(xiàn)對絕大部分場景的支持。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
STM32F427VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC

ECAD模型

下載ECAD模型
$22.31 查看
ATSAM4S16BA-ANR 1 Microchip Technology Inc RISC Microcontroller
$5.12 查看
PIC24EP512GU810-I/PT 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$10.44 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。