編者按:
國(guó)家發(fā)改委等四部門聯(lián)合發(fā)布《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,提出在京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝以及貴州、內(nèi)蒙古、甘肅、寧夏建設(shè)全國(guó)算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn),啟動(dòng)實(shí)施“東數(shù)西算”工程,構(gòu)建國(guó)家算力網(wǎng)絡(luò)體系。
當(dāng)前,算力已成為全球戰(zhàn)略競(jìng)爭(zhēng)新焦點(diǎn),是國(guó)民經(jīng)濟(jì)發(fā)展的重要引擎,全球各國(guó)的算力水平與經(jīng)濟(jì)發(fā)展水平呈現(xiàn)顯著的正相關(guān)。在2020年全球算力中,美國(guó)占36%,中國(guó)占31%,歐洲和日本分別占11%及6%。近年來(lái),美國(guó)、歐洲、日本紛紛制定行動(dòng)計(jì)劃,不斷運(yùn)用算力助推經(jīng)濟(jì)增長(zhǎng)。
“數(shù)據(jù)、算法、算力”是數(shù)字經(jīng)濟(jì)時(shí)代核心的三個(gè)要素,其中算力是數(shù)字經(jīng)濟(jì)的物理承載。這里,我們通過(guò)“預(yù)見·第四代算力革命”系列文章(共四篇),從微觀到宏觀,詳細(xì)分析跟性能和算力相關(guān)的各個(gè)因素以及主流的算力平臺(tái),盡可能地直面當(dāng)前算力提升面臨的諸多挑戰(zhàn)和困難,展望面向未來(lái)的算力發(fā)展趨勢(shì)。這四篇文章為:
預(yù)見·第四代算力革命(二):三大主流計(jì)算平臺(tái)CPU、GPU和DSA;
預(yù)見·第四代算力革命(三):面向未來(lái)十年的新一代計(jì)算架構(gòu);
預(yù)見·第四代算力革命(四):宏觀算力建設(shè)。
本文為第二篇,歡迎關(guān)注公眾號(hào),閱讀歷史以及后續(xù)精彩文章。
1 第一代,CPU,最通用靈活的軟件平臺(tái)
IT行業(yè)變化太快,不變的唯有變化。
近年來(lái),云計(jì)算、人工智能、自動(dòng)駕駛、元宇宙等軟件新技術(shù)層出不窮,并且已有的技術(shù)仍在快速迭代。軟件技術(shù)日新月異,快速演進(jìn)。然而,目前,支撐這一切的硬件,依然是以CPU計(jì)算為主的通用服務(wù)器。
1.1 軟硬件解耦:硬件性能狂飆,軟件生態(tài)枝繁葉茂
指令集,是軟硬件的媒介。CPU是最靈活的,原因在于運(yùn)行于CPU指令都是最基本的加減乘除外加一些訪存及控制類指令,就像積木塊一樣,我們可以隨意組合出我們想要的各種形態(tài)的功能,形成非常復(fù)雜并且功能強(qiáng)大的程序(或者稱為軟件)。
CPU通過(guò)標(biāo)準(zhǔn)化的指令集,使得CPU平臺(tái)的硬件實(shí)現(xiàn)和軟件編程完全解耦,沒有了對(duì)方的掣肘,軟件和硬件均可以完全的放飛自我:
芯片設(shè)計(jì)工程師不需要關(guān)心具體場(chǎng)景,只關(guān)注于架構(gòu)和性能,通過(guò)各種優(yōu)化手段,快速提升CPU性能。從上圖中,可以看到,在差不多40年的時(shí)間里,CPU的整體性能提升接近50000倍。一方面有賴于半導(dǎo)體工藝的進(jìn)步,也有賴于處理器架構(gòu)的翻天覆地變化。
軟件工程師,不需要關(guān)注硬件細(xì)節(jié),聚焦于軟件開發(fā)。軟件沒有了硬件的“約束”,逐漸發(fā)展成了一個(gè)超級(jí)生態(tài)。從各種數(shù)百萬(wàn)使用者的高級(jí)編程語(yǔ)言/編譯器,到廣泛使用在云計(jì)算數(shù)據(jù)中心、PC機(jī)、手機(jī)等終端的操作系統(tǒng)以及各種系統(tǒng)框架/開發(fā)庫(kù),再到各種專業(yè)的數(shù)據(jù)庫(kù)、中間件,以及云計(jì)算基礎(chǔ)的虛擬化、容器等。上述這些軟件都是基礎(chǔ)的支撐軟件,是軟件的“冰山一角”,而更多的則是各種應(yīng)用級(jí)的軟件。系統(tǒng)級(jí)和應(yīng)用級(jí)的軟件,共同組成了基于CPU的軟件超級(jí)生態(tài)。
1.2 超大規(guī)模復(fù)雜計(jì)算,靈活性高于性能,CPU成為最佳計(jì)算平臺(tái)
在手機(jī)端已經(jīng)非常成熟的SOC實(shí)現(xiàn),為什么在數(shù)據(jù)中心端沒有大規(guī)模應(yīng)用?為什么直到現(xiàn),數(shù)據(jù)中心依然是以CPU為主的計(jì)算平臺(tái)?這是因?yàn)?,越是?fù)雜的場(chǎng)景,對(duì)軟件靈活性的要求越高,而只有CPU能夠提供云場(chǎng)景所需的靈活性。
超大規(guī)模復(fù)雜計(jì)算場(chǎng)景對(duì)硬件靈活性的要求,主要體現(xiàn)在四個(gè)方面:
硬件的靈活性。硬件處理引擎要能夠很好地支持軟件的快速迭代。CPU因?yàn)槠潇`活的基礎(chǔ)指令編程的特點(diǎn),可以認(rèn)為是最適合云計(jì)算的處理引擎。
硬件的通用性。廠家購(gòu)買服務(wù)器,很難預(yù)測(cè)服務(wù)器會(huì)運(yùn)行哪類任務(wù)。最好的辦法是采用完全通用的服務(wù)器。CPU由于其通用性,成為云計(jì)算場(chǎng)景最優(yōu)的選擇。
硬件的利用率。云計(jì)算通過(guò)虛擬化把資源切分,實(shí)現(xiàn)資源共享,以此提高資源利用并降低成本。而目前,只有CPU能夠?qū)崿F(xiàn)非常友好的硬件級(jí)別的虛擬化支持。
硬件的一致性。云計(jì)算場(chǎng)景,軟硬件相互脫離。同一個(gè)軟件實(shí)體會(huì)在不同的硬件實(shí)體遷移,同一個(gè)硬件實(shí)體也需要運(yùn)行不同的軟件實(shí)體。而CPU,是一致性最好的硬件平臺(tái)。
1.3 CPU性能瓶頸,制約軟件的進(jìn)一步發(fā)展
圖 CPU性能提升的五個(gè)階段
上圖明確展示了CPU性能發(fā)展的五個(gè)階段:
CISC階段。上世紀(jì)80年代,x86架構(gòu)為代表的CISC架構(gòu)開啟了CPU性能快速提升的時(shí)代,CPU性能每年提升約25%(圖中22%數(shù)據(jù)有誤),大約3年性能可以翻倍。
RISC階段。CISC指令系統(tǒng)越來(lái)越復(fù)雜,而RISC證明了“越精簡(jiǎn),越高效”。隨著RISC架構(gòu)的CPU開始流行,性能每年可以達(dá)到52%,性能翻倍只需要18個(gè)月。
多核階段。單核CPU的性能提升越來(lái)越困難,通過(guò)集成更多CPU核并行的方式來(lái)進(jìn)一步提升性能。這一時(shí)期,每年性能提升可以到23%,性能翻倍需要3.5年。
多核性能遞減階段。隨著CPU核的數(shù)量越來(lái)越多,阿姆達(dá)爾定律證明了處理器數(shù)量的增加帶來(lái)的收益會(huì)逐漸遞減。這一時(shí)期,CPU性能提升每年只有12%,性能翻倍需要6年。
性能提升瓶頸階段。不管是從架構(gòu)/微架構(gòu)設(shè)計(jì)、工藝、多核并行等各種手段都用盡的時(shí)候,CPU整體的性能提升達(dá)到了一個(gè)瓶頸。從2015年之后,CPU性能每年提升只有3%,要想性能翻倍,需要20年。
總之,受邊際效應(yīng)遞減的影響,CPU的性能已經(jīng)達(dá)到瓶頸;但是,各類上層應(yīng)用對(duì)算力的需求是無(wú)止境的。當(dāng)前,云計(jì)算面臨的基本矛盾是:CPU的性能,越來(lái)越無(wú)法滿足上層軟件的需要。
2 第二代,GPU,高效的并行計(jì)算平臺(tái)
2.1 GPU,通用的并行計(jì)算平臺(tái)
GPU,Graphics Processing Units,圖形處理單元。顧名思義,GPU是主要用于做圖形圖形處理的專用加速器。GPU內(nèi)部處理是由很多并行的計(jì)算單元支持,如果只是用來(lái)做圖形圖像處理,有點(diǎn)“暴殄天物”,其應(yīng)用范圍太過(guò)狹窄。因此把GPU內(nèi)部的計(jì)算單元進(jìn)行通用化重新設(shè)計(jì),GPU變成了GPGPU(本文接下來(lái)內(nèi)容中,如沒有特別說(shuō)明,GPU都指的是GPGPU)。
到2012年,GPU已經(jīng)發(fā)展成為高度并行的眾核系統(tǒng),GPU有強(qiáng)大的并行處理能力和可編程流水線,既可以處理圖形數(shù)據(jù),也可以處理非圖形數(shù)據(jù)。特別是在面對(duì)SIMD類指令,數(shù)據(jù)處理的運(yùn)算量遠(yuǎn)大于數(shù)據(jù)調(diào)度和傳輸?shù)倪\(yùn)算量時(shí),GPU在性能上大大超越了傳統(tǒng)的CPU應(yīng)用程序?,F(xiàn)在大家所稱呼的GPU通常都指的是GPU。
2.2 GPU為什么比CPU性能好?
站在“指令復(fù)雜度”的角度,CPU是標(biāo)量指令計(jì)算,而GPU并行可以看做是SIMD或MIMD的計(jì)算。GPU的指令復(fù)雜度更高。
從計(jì)算資源占比的角度,如圖所示,CPU把更多的資源用于控制和Cache,而把更少的資源用于計(jì)算,因此計(jì)算的性能相對(duì)較差。而GPU等非通用處理器則是把更多的資源投入到計(jì)算中,因此具有更好的性能。CPU注重的是是單核的高性能,而GPU注重的單核的高效能以及眾核的高性能。
2.3?CUDA,NVIDIA GPU成功的關(guān)鍵
2006年NVIDIA推出了CUDA,這是一個(gè)通用的并行計(jì)算平臺(tái)和編程模型,利用NVIDIA GPU中的并行計(jì)算引擎,以一種比CPU更高效的方式解決許多復(fù)雜的計(jì)算問題。CUDA提供了開發(fā)者使用C++作為高級(jí)編程語(yǔ)言的軟件環(huán)境。也支持其他語(yǔ)言、應(yīng)用程序編程接口或基于指令的方法,如FORTRAN、DirectCompute、OpenACC。
從“指令復(fù)雜度”的角度,我們可以非常清楚看到,GPU因?yàn)椤爸噶睢睆?fù)雜度帶來(lái)性能提升的好處的同時(shí),其通用靈活性就變得更加困難。因此,CUDA成為NVIDIA GPU成功的關(guān)鍵,它極大地降低了用戶基于GPU并行編程的門檻,在此基礎(chǔ)上,還針對(duì)不同場(chǎng)景構(gòu)建了功能強(qiáng)大的開發(fā)庫(kù),逐步建立了GPU+CUDA的強(qiáng)大生態(tài)。
2.4 網(wǎng)絡(luò)處理器NP和GPU的對(duì)比
網(wǎng)絡(luò)處理器(Network Processor,簡(jiǎn)稱NP)跟GPU在技術(shù)理念上有很多相似之處:都是通過(guò)特定優(yōu)化的、高效能的小CPU核組成的眾核系統(tǒng),并行的完成計(jì)算任務(wù)。根據(jù)“指令”復(fù)雜度,從CPU到ASIC的劃分,NP和GPU處于相同的位置。
NP具有如下的一些不足:
性能。雖然相比GPU,性能是在同一層級(jí),但相比ASIC/DSA性能不夠。
場(chǎng)景。顧名思義,NP主要用于網(wǎng)絡(luò)場(chǎng)景的處理,沒有像GPU那樣作為通用并行計(jì)算,GPU可以用于非常多的高性能場(chǎng)景。
開發(fā)和生態(tài)。GPU由于NVIDIA CUDA的強(qiáng)大生態(tài),框架、工具鏈、開發(fā)庫(kù)都非常成熟。而NP由于生態(tài)的不成熟,以及各家NP之間也基本互不兼容,開發(fā)者需要了解非常底層的硬件細(xì)節(jié),致使編程難度很大。
NP在網(wǎng)絡(luò)領(lǐng)域有一定范圍的采用,但網(wǎng)絡(luò)領(lǐng)域更主要的處理引擎是網(wǎng)絡(luò)ASIC,這些年還興起了網(wǎng)絡(luò)數(shù)據(jù)面可編程的網(wǎng)絡(luò)DSA,都是相比NP架構(gòu)具有更極致的性能。正因?yàn)镹P相比ASIC/DSA的性能不足,以及相比GPU覆蓋的場(chǎng)景有限,這樣的 “高不成,低不就”,導(dǎo)致其一直沒能成為(相比GPU而言)主流的通用計(jì)算平臺(tái)。
3 第三代,DSA,體系結(jié)構(gòu)的黃金年代
3.1 DSA產(chǎn)生的背景
通用CPU處理器演進(jìn)遇到了瓶頸:
工藝角度。半導(dǎo)體工藝進(jìn)步減緩,Dennard Scaling規(guī)律約束,芯片功耗急劇上升,晶體管成本不降反升。
架構(gòu)角度。單核性能極限,多核架構(gòu)性能提升也變得越來(lái)越慢。
作為計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的泰山北斗,John Hennessy與David Patterson在獲得2017年圖靈獎(jiǎng)時(shí)的獲獎(jiǎng)演說(shuō)中指出:“未來(lái)十年,將是計(jì)算機(jī)體系結(jié)構(gòu)的黃金年代”。針對(duì)計(jì)算機(jī)性能瓶頸,兩人給出的解決方案是DSA(Domain Specific Architecture,特定領(lǐng)域架構(gòu))。意思是說(shuō),未來(lái)需要面向不同的場(chǎng)景,需要根據(jù)場(chǎng)景的特點(diǎn),去定制芯片。
DSA針對(duì)特定應(yīng)用場(chǎng)景定制處理引擎甚至芯片,支持部分軟件可編程。DSA與ASIC在同等晶體管資源下性能接近,兩者最大的不同在于是否可軟件編程。ASIC由于其功能確定,軟件只能通過(guò)一些簡(jiǎn)單的配置控制硬件運(yùn)行,其功能比較單一。而DSA則支持一些可編程能力,使得其功能覆蓋的領(lǐng)域范圍相比ASIC要大很多。
DSA,一方面可以實(shí)現(xiàn)ASIC一樣的極致的性能,另一方面,可以像通用CPU一樣執(zhí)行軟件程序。當(dāng)然了,DSA只會(huì)加速某些特定領(lǐng)域的應(yīng)用程序。例如:用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器以及用于SDN的網(wǎng)絡(luò)可編程處理器。
3.2 為什么不是ASIC?
我們看看網(wǎng)絡(luò)發(fā)展的例子?;仡橲DN的發(fā)展,背景是這樣的:
網(wǎng)絡(luò)芯片是一個(gè)緊耦合的ASIC芯片設(shè)計(jì),隨著支持的網(wǎng)絡(luò)協(xié)議越來(lái)越多,其復(fù)雜度急劇上升,使用門檻也越來(lái)越高。
網(wǎng)絡(luò)芯片提供的眾多功能,每個(gè)用戶能用到的只是一小部分,這反而拖累了ASIC的性能和資源效率。
完全硬件ASIC實(shí)現(xiàn),上層的用戶對(duì)網(wǎng)絡(luò)沒有太多的話語(yǔ)權(quán),只能是在供應(yīng)商已經(jīng)定好的設(shè)計(jì)里修改一些配置參數(shù)。用戶只能是“User”,難以成為“Developer”。
并且,用戶要連接到數(shù)以千計(jì)甚至萬(wàn)計(jì)的設(shè)備中手動(dòng)的去配置。
并且,這些設(shè)備可能來(lái)自不同的廠家,其配置接口完全可能大相徑庭。
于是,SDN最開始推出了控制面和數(shù)據(jù)面分離的Openflow標(biāo)準(zhǔn)協(xié)議,通過(guò)集中決策,再分發(fā)到分布式的支持SDN功能的交換機(jī)中。更進(jìn)一步的,還有了支持?jǐn)?shù)據(jù)面編程的P4(Programming Protocol-Independent Packet Processors,可編程的協(xié)議無(wú)關(guān)的包處理器)語(yǔ)言以及網(wǎng)絡(luò)包處理引擎PISA。這樣,還可以通過(guò)P4軟件程序把功能編程到硬件中去。PISA是一種網(wǎng)絡(luò)領(lǐng)域?qū)S肈SA架構(gòu)處理器,能夠在達(dá)到ASIC級(jí)別性能的基礎(chǔ)上仍然具有非常好的編程能力。
許多時(shí)候,為了提供最高效的解決方案,我們不得不根據(jù)場(chǎng)景做專門的定制。于是陷入了Case by Case永無(wú)休止的開發(fā)中無(wú)法自拔。并且,為了盡可能的擴(kuò)大產(chǎn)品的覆蓋范圍,盡可能提高產(chǎn)品的應(yīng)用范圍,我們又不得不做功能超集,這樣,之前因?yàn)槎ㄖ品e攢的性能和成本優(yōu)勢(shì)就變得不是那么明顯。
云計(jì)算等復(fù)雜場(chǎng)景業(yè)務(wù)更新迭代很快,芯片的周期(3+5,研發(fā)+生命周期,長(zhǎng)達(dá)8年)很長(zhǎng)。大部分情況,ASIC都無(wú)法滿足業(yè)務(wù)快速發(fā)展的需要。在既需要性能又需要靈活性的場(chǎng)景下,DSA和其他靈活處理器引擎混合架構(gòu)成為比較合適的選擇。
簡(jiǎn)而言之,定制的ASIC不適合靈活多變的云計(jì)算等復(fù)雜場(chǎng)景。
3.3 AI領(lǐng)域DSA案例,谷歌TPU
DSA架構(gòu)的第一個(gè)經(jīng)典案例是谷歌的TPU。TPU(Tensor Processing Unit,張量處理單元)是Google定制開發(fā)的ASIC芯片,用于加速機(jī)器學(xué)習(xí)工作負(fù)載。
圖 谷歌TPU 1.0結(jié)構(gòu)框圖
如上圖,TPU指令通過(guò)PCIe Gen3 x16總線從Host發(fā)送到TPU的指令緩沖區(qū)。內(nèi)部模塊通過(guò)256字節(jié)寬的總線連接在一起。矩陣乘法單元是TPU的核心,它包含256x256 MAC,可以對(duì)有符號(hào)或無(wú)符號(hào)整數(shù)執(zhí)行8位乘加,16位乘積收集在矩陣單元下方的4 MB 32位累加器中。
TPU指令設(shè)計(jì)為CISC(復(fù)雜指令集計(jì)算機(jī))類型,包括一個(gè)重復(fù)域。這些CISC類型指令的CPI(Cycles per Instruction,每條指令的平均時(shí)鐘周期)通常為10到20??偣泊蠹s有十二條指令。
圖 CPU、GPU和TPU的性能功耗比
如上圖,其中的TPU’是使用了GDDR5存儲(chǔ)的改進(jìn)型??梢钥吹?,相比CPU性能提升196倍,相比GPU性能提升68倍。谷歌隨后又開發(fā)了TPU 2.0、3.0版本。TPU 1.0的性能峰值達(dá)到了92Tops,而TPU2.0性能峰值達(dá)到180Tflops,TPU3.0更是達(dá)到了420Tflops。并且,從TPU 2.0開始,TPU不再是作為一個(gè)加速卡應(yīng)用于通用服務(wù)器,而是定制的TPU集群,這樣會(huì)更大限度地發(fā)揮TPU的加速價(jià)值。
3.4 網(wǎng)絡(luò)領(lǐng)域DSA案例,Intel Tofino
P4是一種面向網(wǎng)絡(luò)數(shù)據(jù)面編程的高級(jí)語(yǔ)言。上圖展示了P4和已有的協(xié)議接口之間的關(guān)系。P4用來(lái)配置交換機(jī),告訴它們應(yīng)該如何處理數(shù)據(jù)包。已有的協(xié)議接口(例如OpenFlow)負(fù)責(zé)將轉(zhuǎn)發(fā)表送入固定功能的交換機(jī)。
P4模型將數(shù)據(jù)包如何在不同的轉(zhuǎn)發(fā)設(shè)備上(例如以太網(wǎng)交換機(jī)、負(fù)載均衡器、路由器)被不同的技術(shù)(例如固定功能的ASIC交換芯片、NPU、可重配置的交換機(jī)、軟件交換機(jī)、FPGA等)進(jìn)行處理的問題通用化。這就使得能夠用一門通用的語(yǔ)言來(lái)描繪通用的P4模型來(lái)處理數(shù)據(jù)包。
上圖是PISA架構(gòu)(Protocol Independent Switch Architecture,協(xié)議無(wú)關(guān)的交換架構(gòu)),是一種支持P4數(shù)據(jù)面可編程包處理的流水線引擎,通過(guò)可編程的解析器、多階段的可編程的匹配動(dòng)作以及可編程的逆解析器組成的流水線,來(lái)實(shí)現(xiàn)數(shù)據(jù)面的編程。這樣可以通過(guò)編寫P4程序,下載到處理器流水線,可以非常方便地支持新協(xié)議的處理。
Intel (原來(lái)的Barefoot,2019年被Intel收購(gòu))基于PISA架構(gòu)的Tofino芯片,是網(wǎng)絡(luò)領(lǐng)域最典型的DSA,其實(shí)現(xiàn)的可編程流水線既能夠達(dá)到ASIC級(jí)別的性能,又能夠通過(guò)P4對(duì)整個(gè)包處理數(shù)據(jù)面進(jìn)行編程。
在Intel看來(lái),雖然已經(jīng)存在NP和FPGA,可以修改網(wǎng)絡(luò)協(xié)議和編輯數(shù)據(jù)包,并為那些知道如何編寫微代碼或RTL的人員提供適度的可編程性,但是它們跟ASIC的性能不在一個(gè)數(shù)量級(jí)。因此,NPU和FPGA只能在性能不敏感的地方找到用武之地。Intel為網(wǎng)絡(luò)行業(yè)提供兩全其美的解決方案:可編程性數(shù)據(jù)平面協(xié)議,并且達(dá)到行業(yè)最高的速度。Tofino不僅可以做到比傳統(tǒng)ASIC還要更快,而且具有的可編程能力,使得網(wǎng)絡(luò)編程變得更加容易并且通用。
3.5 DSA仍然需要繼續(xù)優(yōu)化
DSA提供了比傳統(tǒng)ASIC更多的靈活性,但依然難以擔(dān)當(dāng)數(shù)據(jù)中心主力計(jì)算平臺(tái)的重任。主要原因是:
DSA是面向某個(gè)特定的領(lǐng)域定制優(yōu)化的設(shè)計(jì),這就約束了DSA芯片的應(yīng)用規(guī)模和商業(yè)價(jià)值。大家都知道,一顆先進(jìn)工藝的大芯片的一次性研發(fā)成本都非常的高,這就需要芯片的大規(guī)模落地來(lái)攤薄單個(gè)芯片的成本。而面向特定領(lǐng)域的設(shè)計(jì),和大規(guī)模落地相互是矛盾的。
DSA的靈活性具有一定局限。不同用戶的場(chǎng)景需求有很大的差別,即使是同一個(gè)用戶,其場(chǎng)景的應(yīng)用邏輯和算法仍在快速的迭代。而DSA芯片設(shè)計(jì)需要3年,芯片生命周期大約5年。8年的周期里,DSA很難支撐眾多客戶的需求以及客戶需求的長(zhǎng)期迭代。
DSA難以成為“宏場(chǎng)景”的整體解決方案。以云計(jì)算場(chǎng)景為例,是很多場(chǎng)景組合到一起的宏場(chǎng)景。站在系統(tǒng)的角度,數(shù)據(jù)中心為了運(yùn)維管理的需要,需要盡可能少的服務(wù)器類型。DSA解決特定問題A,如果有A、B、C等多個(gè)問題同時(shí)需要解決,該如何辦呢?
以AI為例,AI-DSA各家都在按照自己的理解定制芯片,可以說(shuō)在AI領(lǐng)域,還沒有標(biāo)準(zhǔn)的軟硬件交互交接口,并且框架以及算法和應(yīng)用都還沒有完全穩(wěn)定??傊贏I領(lǐng)域,目前還沒有形成足夠強(qiáng)大的生態(tài)。這樣,就進(jìn)一步限制了AI-DSA的落地規(guī)模,也就削弱了AI-DSA作為一個(gè)主力算力平臺(tái)的作用。
4 總結(jié)
4.1 定制和通用
ASIC是定制芯片AS-IC,對(duì)應(yīng)的我們可以把其他偏通用的IC稱之為GP-IC。
在文章里,我們已經(jīng)對(duì)CPU、GPU和DSA三大平臺(tái)的優(yōu)劣勢(shì)進(jìn)行了詳細(xì)的分析。而ASIC是作為反面參考案例的。那么,為什么ASIC沒有成為一種主流的計(jì)算平臺(tái)呢?ASIC存在的問題,在前面“為什么不是ASIC?”章節(jié)已經(jīng)進(jìn)行了說(shuō)明,這里再做一次總結(jié)性的強(qiáng)調(diào)。
最開始我們說(shuō)過(guò),ASIC引擎“指令”復(fù)雜度最高也即性能會(huì)更極致。大家通常的理解,也是如此。但實(shí)際上,受限于很多其他原因,ASIC的表現(xiàn)并不如大家想象的那么優(yōu)秀:
ASIC是定制的,沒有冗余,理論上是最極致的性能。但因?yàn)锳SIC是場(chǎng)景跟硬件設(shè)計(jì)完全耦合,硬件開發(fā)的難度很高,難以實(shí)現(xiàn)超大規(guī)模的ASIC設(shè)計(jì)。
理論上來(lái)說(shuō)ASIC的資源效率是最高的,但由于ASIC覆蓋的場(chǎng)景較小,芯片設(shè)計(jì)為了覆蓋盡可能多的場(chǎng)景,不得不實(shí)現(xiàn)功能超集。實(shí)際的功能利用率和資源效率(相比DSA)反而不高。
ASIC功能完全確定,難以覆蓋復(fù)雜計(jì)算場(chǎng)景的差異化要求。差異化包含兩個(gè)方面:橫向的不同用戶的差異化需求,縱向的單個(gè)用戶的長(zhǎng)期快速迭代。
即使同一場(chǎng)景,不同Vendor的ASIC引擎設(shè)計(jì)依然五花八門,毫無(wú)生態(tài)可言。
而能夠成為主流處理引擎的CPU,GPU和DSA其實(shí)都有一個(gè)共性的特征,那就是“通用”:
CPU,中央處理器,其實(shí)還有個(gè)更加通俗的名字,通用處理器;
GPU也是因?yàn)樽龅搅薌P-GPU才開始大放異彩;
DSA可以看做是定制的AS-IC向通用性的回調(diào),DSA是一種GP-IC(對(duì)比AS-IC)。
4.2 CPU、GPU和DSA的優(yōu)劣勢(shì)分析
平臺(tái) | 性能 | 資源效率 | 靈活性 | 軟件生態(tài) |
CPU | ★☆☆☆☆
邊際效應(yīng)遞減:增加晶體管資源,性能提升有限。性能瓶頸,摩爾定律失效。 |
★☆☆☆☆
相比其他硬件加速處理器,CPU效率最低。 |
★★★★★
CPU指令最簡(jiǎn)單,是一些最基礎(chǔ)的組件。像搭積木一樣,編程靈活。 |
★★★★★
CPU廣泛應(yīng)用,軟件生態(tài)龐大而成熟。 |
GPU | ★★★☆☆
性能比CPU大幅提升,比DSA/ASIC有較大差距。未來(lái)性能即將瓶頸。 |
★★★☆☆
高效率的小核,以及部分加速引擎。與CPU相比,資源效率顯著提升。 |
★★★☆☆
本質(zhì)是眾核并行,編程具有一定靈活性。同步并行約束,編程相對(duì)簡(jiǎn)單。 |
★★★★☆
GP-GPU CUDA編程生態(tài)比較成熟。 |
ASIC | ★★★★☆
定制無(wú)冗余,理論上極致的性能。受限于設(shè)計(jì)復(fù)雜度,難以超大規(guī)模設(shè)計(jì)。 |
★★★★☆
理論上最高的資源效率,但不可避免存在功能超集。 |
★☆☆☆☆
功能邏輯完全確定。CSR和可配置表項(xiàng),通過(guò)驅(qū)動(dòng)程序控制硬件運(yùn)行。 |
☆☆☆☆☆
同一領(lǐng)域,不同廠家ASIC實(shí)現(xiàn)存在差別,需要特定驅(qū)動(dòng)程序。無(wú)生態(tài)可言。 |
DSA | ★★★★★
ASIC一樣極致的性能。由于一定程度的軟硬件解耦,能夠?qū)崿F(xiàn)較大規(guī)模設(shè)計(jì)。總體性能高于ASIC。 |
★★★★★
少量可編程的通用性是需要代價(jià)的,但功能利用率高于ASIC。 |
★★☆☆☆
少量指令,需要強(qiáng)大的編譯器,把算法映射到特定DSA架構(gòu)。相比ASIC,具有一定的可編程性。 |
★☆☆☆☆
算法和框架經(jīng)常更新,難以把主流框架完全并且長(zhǎng)期地映射到特定DSA架構(gòu)。 |