加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 1 計(jì)算生態(tài)的極端重要性
    • 2 計(jì)算生態(tài)的現(xiàn)狀:封閉為主,但開(kāi)放的力量在迅速壯大
    • 3 硬件定義軟件和軟件定義硬件
    • 4 破局之道之一:硬件定義軟件,以封閉對(duì)封閉
    • 5 破局之道之二:軟件定義硬件,以開(kāi)放對(duì)封閉
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

計(jì)算生態(tài)的未來(lái):開(kāi)放?還是封閉?

10/08 12:30
1618
閱讀需 23 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

 

算力已經(jīng)成為數(shù)字經(jīng)濟(jì)發(fā)展的核心驅(qū)動(dòng)力。支撐宏觀算力的微觀計(jì)算架構(gòu),以及圍繞著計(jì)算架構(gòu)所形成的軟硬件技術(shù)堆棧,還有由軟硬件堆棧衍生的相關(guān)產(chǎn)業(yè)鏈,可以統(tǒng)稱為(圍繞某個(gè)計(jì)算架構(gòu)的)計(jì)算生態(tài)。

隨著計(jì)算架構(gòu)由單構(gòu)(CPU同構(gòu))到多構(gòu)(異構(gòu)、多異構(gòu)甚至異構(gòu)融合),計(jì)算形態(tài)由單機(jī)到集群再到跨集群,計(jì)算生態(tài)變得越來(lái)越重要(其重要性超過(guò)計(jì)算芯片本身多個(gè)數(shù)量級(jí))。行業(yè)巨頭以自身芯片和計(jì)算框架為核心,構(gòu)建了一整套的封閉生態(tài)體系,其他芯片公司的破局之道在哪里?

是針尖對(duì)麥芒,構(gòu)建一整套完整的新生態(tài)體系,以封閉對(duì)封閉?

還是以柔克剛,融入開(kāi)源開(kāi)放生態(tài),潤(rùn)物細(xì)無(wú)聲,以開(kāi)放對(duì)封閉?

本文詳細(xì)剖析。

1 計(jì)算生態(tài)的極端重要性

1.1 計(jì)算架構(gòu)越來(lái)越復(fù)雜

隨著算力需求越來(lái)越高,同構(gòu)CPU的業(yè)務(wù)場(chǎng)景越來(lái)越少,基于GPU或AI等DSA處理器的異構(gòu)計(jì)算已經(jīng)成為主流。從發(fā)展的角度看,隨著AI大模型等超高算力場(chǎng)景的持續(xù)挑戰(zhàn),未來(lái)會(huì)進(jìn)一步從異構(gòu)計(jì)算走向異構(gòu)融合計(jì)算。

如果按照處理器類型的數(shù)量進(jìn)行分類,可以分為三個(gè)大階段:

第一大階段,一個(gè)處理器類型,即CPU單核和多核同構(gòu)計(jì)算階段。

第二大階段,兩個(gè)處理器類型,即CPU+GPU和CPU+DSA(專用加速處理器)的異構(gòu)計(jì)算階段。

第三大階段,三個(gè)或三個(gè)以上處理器類型,即多異構(gòu)和異構(gòu)融合計(jì)算階段。

在第一個(gè)大的階段,雖然僅僅只有一個(gè)處理器類型,但其計(jì)算生態(tài)已經(jīng)是地獄級(jí)難度。Intel x86架構(gòu)的優(yōu)勢(shì),是在眾多處理器架構(gòu)的廝殺中逐步確立的。隨著x86的優(yōu)勢(shì)地位確立,基于x86架構(gòu)的軟件生態(tài)逐漸成熟,即便是Intel自己,設(shè)計(jì)了更加優(yōu)秀的安騰處理器架構(gòu),也無(wú)法撼動(dòng)這一局面。

第二個(gè)大階段,可以分為兩個(gè)發(fā)展階段:

首先是GPU確立其核心地位階段。2006年,NVIDIA推出GPGPU,隨后發(fā)布CUDA,再隨著深度學(xué)習(xí)和大模型的興起,逐漸確立了NVIDIA架構(gòu)GPU+CUDA的強(qiáng)大生態(tài)。

然后是依托處理器之間的協(xié)同效應(yīng),逐漸往其他處理器架構(gòu)和生態(tài)拓展。NVIDIA依據(jù)其N(xiāo)V-GPU的強(qiáng)大生態(tài),開(kāi)始往其他處理器生態(tài)拓展,如NVIDIA發(fā)布了ARM架構(gòu)的Grace CPU,以及其收購(gòu)的Mellanox隨后發(fā)布的Bluefield DPU(DPU可以理解為多個(gè)DSA集成的芯片)。

第三個(gè)大的階段,有三個(gè)甚至更多的處理器類型,處理器之間的協(xié)同效應(yīng)更加顯著,在接下來(lái)的1.2節(jié)詳細(xì)介紹。

1.2 計(jì)算生態(tài),比我們想象的更重要

2009年,黃仁勛宣布“NVIDIA是一家軟件公司”,如今,NVIDIA已經(jīng)發(fā)展成數(shù)萬(wàn)億市值的超級(jí)公司,市值遠(yuǎn)超其他TOP5芯片公司市值之和。基于NVIDIA發(fā)展的標(biāo)桿作用,大家能夠理解生態(tài)的價(jià)值、重要性和構(gòu)建計(jì)算生態(tài)的難度,之前我的理解和大家也是一樣。

但最近幾年,隨著認(rèn)識(shí)的進(jìn)一步加深,我個(gè)人的想法得到了進(jìn)一步修正:隨著云計(jì)算等新的計(jì)算形態(tài)的發(fā)展,計(jì)算生態(tài)的作用,進(jìn)一步提升,其作用比我們想象的要更加重要。計(jì)算生態(tài)的重要性,主要體現(xiàn)在如下幾個(gè)方面:

單處理器的生態(tài)價(jià)值。這就是我們通常所理解的處理器架構(gòu)和生態(tài)的價(jià)值,最典型的就是Intel x86生態(tài)和NVIDIA GPU生態(tài)。但除此之外,還有接下來(lái)介紹的幾個(gè)跟外部資源協(xié)同產(chǎn)生的生態(tài)價(jià)值。

多類型處理器的協(xié)同效應(yīng)。隨著異構(gòu)計(jì)算成為主流,并且計(jì)算架構(gòu)未來(lái)會(huì)進(jìn)一步從異構(gòu)走向多異構(gòu)甚至異構(gòu)融合,處理器協(xié)同的效應(yīng)進(jìn)一步放大,處理器架構(gòu)生態(tài)逐步形成融合的超級(jí)生態(tài)。

計(jì)算節(jié)點(diǎn)的協(xié)同效應(yīng)。從單機(jī)走向集群/跨集群,一方面是不同計(jì)算節(jié)點(diǎn)工作任務(wù)之間的協(xié)同,另一方面是計(jì)算任務(wù)在集群內(nèi)部不同計(jì)算節(jié)點(diǎn)之間可遷移,生態(tài)的作用進(jìn)一步放大。

產(chǎn)業(yè)鏈的協(xié)同效應(yīng)。技術(shù)棧形成產(chǎn)業(yè)鏈,產(chǎn)業(yè)鏈上下游依賴,生態(tài)慣性大。計(jì)算平臺(tái)支撐的業(yè)務(wù)價(jià)值數(shù)以千億萬(wàn)億計(jì),且業(yè)務(wù)快速迭代,開(kāi)發(fā)依賴已有生態(tài)漸進(jìn)式升級(jí),很難遷移到新的平臺(tái)和生態(tài)。

單處理器的生態(tài)價(jià)值,以及上述三個(gè)“協(xié)同”的價(jià)值,進(jìn)一步強(qiáng)化了計(jì)算生態(tài)的“馬太效應(yīng)”,“強(qiáng)者更強(qiáng),弱者更弱”。

我們定性分析一下(下面所有分析為定性分析,非定量分析):

芯片的難度很高,但生態(tài)的難度更高。

假設(shè),在十多年前,2007年(NVIDIA開(kāi)始構(gòu)建CPU+GPU異構(gòu)計(jì)算生態(tài)的時(shí)候)芯片的重要性和難度是1(以此為基準(zhǔn)),計(jì)算生態(tài)的重要性和難度為10(以此為基準(zhǔn))。

假設(shè),隨著系統(tǒng)規(guī)模的增大,也就是2027年前后(CPU出現(xiàn)在1971年,GPU出現(xiàn)在1999年,異構(gòu)融合處理器HCU將出現(xiàn)在2027年?),單個(gè)處理器芯片的重要性和難度上升到10,與之對(duì)應(yīng)的,計(jì)算生態(tài)的重要性和難度上升到100。

隨著異構(gòu)的處理器越來(lái)越多,不同處理器計(jì)算生態(tài)的協(xié)同效應(yīng)凸顯,計(jì)算生態(tài)的重要性和計(jì)算難度再增加一個(gè)數(shù)量級(jí),其值達(dá)到1,000。

再考慮集群/跨集群以及云網(wǎng)邊端融合成為主流計(jì)算方式的影響下,計(jì)算生態(tài)的重要性和難度再增加一個(gè)數(shù)量級(jí),其值進(jìn)一步上升到10,000。

受上下游業(yè)務(wù)迭代越來(lái)越快的影響,計(jì)算生態(tài)的重要性和難度需要再增加一個(gè)數(shù)量級(jí),其值增加到100,000。

最終,芯片和計(jì)算生態(tài)的重要性和難度比例變成10:100,000,或者變成1:10,000。也就是說(shuō),計(jì)算生態(tài)的重要性和難度是計(jì)算芯片的一萬(wàn)倍!

2 計(jì)算生態(tài)的現(xiàn)狀:封閉為主,但開(kāi)放的力量在迅速壯大

2.1 CPU計(jì)算生態(tài)

CPU計(jì)算生態(tài),目前主要有三個(gè):

x86封閉生態(tài)。x86 CPU主要是Intel和AMD,x86架構(gòu)占據(jù)了CPU的絕大部分市場(chǎng)份額。x86的架構(gòu)知識(shí)產(chǎn)權(quán)基本都在Intel和AMD手里,也只有他們能夠設(shè)計(jì)和生產(chǎn)x86架構(gòu)的CPU。因此,基于x86 CPU的整個(gè)生態(tài)是完全封閉的體系。

以ARM為代表的半開(kāi)放生態(tài)。ARM從嵌入式小CPU出發(fā),并且在移動(dòng)互聯(lián)網(wǎng)時(shí)代,占據(jù)了幾乎百分百的智能手機(jī)平板電腦處理器市場(chǎng),目前在積極的向PC和數(shù)據(jù)中心市場(chǎng)拓展。ARM公司擁有ARM架構(gòu)的知識(shí)產(chǎn)權(quán),但ARM公司本身不生產(chǎn)芯片,僅提供架構(gòu)或IP授權(quán),芯片由其他公司生產(chǎn)并銷(xiāo)售。因此,形成了以ARM公司為核心的、龐大的、相對(duì)開(kāi)放的ARM生態(tài)體系。

以RISC-v為代表的開(kāi)放生態(tài)。RISC-v相對(duì)年輕,其最大的差異性優(yōu)勢(shì)就在于其完全開(kāi)放性,整個(gè)架構(gòu)任何人和團(tuán)體均可免費(fèi)使用。目前,圍繞著RISC-v的計(jì)算生態(tài)發(fā)展迅猛。我個(gè)人觀點(diǎn)是,RISC-v會(huì)非??焖俚淖哌^(guò)ARM當(dāng)年走過(guò)的道路:

MCU級(jí)別的小處理器,RISC-v已經(jīng)占據(jù)很大一部分市場(chǎng)份額;

更高級(jí)的AP級(jí)別的RSIC-v處理器,已經(jīng)逐漸開(kāi)始商用;

并且,目前也有不少公司在面向數(shù)據(jù)中心領(lǐng)域開(kāi)發(fā)RSIC-v架構(gòu)的處理器,預(yù)計(jì)會(huì)在未來(lái)2年左右時(shí)間商業(yè)化落地。

由于RISC-v架構(gòu)絕對(duì)開(kāi)放的屬性,RSIC-v計(jì)算生態(tài)未來(lái)可期。

2.2 GPU計(jì)算生態(tài)

GPU計(jì)算生態(tài),主流都是完全封閉的生態(tài)。GPU領(lǐng)域,主要有兩個(gè)玩家:NVIDIA和AMD。GPU公司經(jīng)常提及的架構(gòu),如NVIDIA的Ampere、Hopper等,通常指的是芯片具體實(shí)現(xiàn)的微架構(gòu)。因此,NVIDIA的各類GPU架構(gòu),我們統(tǒng)稱為NVIDIA架構(gòu)GPU,AMD的各類GPU架構(gòu)也類似,統(tǒng)稱為AMD架構(gòu)GPU。

類似ARM在CPU領(lǐng)域的角色,GPU領(lǐng)域的架構(gòu)和IP提供商主要有Imagination和ARM,但這兩者的GPU主要是用于圖形加速,并且主要是面向低功耗的移動(dòng)設(shè)備。在數(shù)據(jù)中心級(jí)的通用計(jì)算加速方面,還有很長(zhǎng)的路要走。

此外,行業(yè)也興起了一些開(kāi)放GPU架構(gòu)的聲音。

佐治亞理工學(xué)院基于開(kāi)源RISC-V開(kāi)發(fā)的GPGPU Vortex是一個(gè)開(kāi)源硬件和軟件項(xiàng)目,在FPGA 上運(yùn)行,支持 OpenCL。Vortex具有高度的可定制性和可擴(kuò)展性,擁有完整的開(kāi)源編譯器、驅(qū)動(dòng)程序和運(yùn)行時(shí)軟件棧,可用于 GPU 架構(gòu)研究。

清華大學(xué)“乘影”GPGPU開(kāi)源項(xiàng)目于2024年1月26日正式啟動(dòng),“乘影”是清華大學(xué)集成電路學(xué)院何虎老師研發(fā)團(tuán)隊(duì)歷經(jīng)多年研發(fā),采用RISC-V部分指令和自定義指令構(gòu)建的通用GPU指令集架構(gòu)。

用何虎老師的原話來(lái)說(shuō)明開(kāi)源GPGPU的價(jià)值:

一是推動(dòng)形成GPGPU指令集架構(gòu)標(biāo)準(zhǔn)。形成統(tǒng)一軟硬件生態(tài),讓企業(yè)不再重復(fù)造輪子,各自構(gòu)建自己的體系,最終形成行業(yè)統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和軟硬件生態(tài)。GPGPU行業(yè)企業(yè)可以各自發(fā)揮所長(zhǎng),找到自己的價(jià)值。

二是利用開(kāi)源社區(qū)探索先進(jìn)的GPGPU設(shè)計(jì)技術(shù),避免專利陷阱和技術(shù)壁壘。讓企業(yè)可以放心在開(kāi)源GPGPU基礎(chǔ)上開(kāi)發(fā)商用GPGPU。

三是可以培養(yǎng)GPGPU產(chǎn)業(yè)所需的各類人才。目前乘影開(kāi)源GPGPU已經(jīng)被國(guó)內(nèi)外高校老師應(yīng)用于教學(xué)和科研。

參考文獻(xiàn):https://mp.weixin.qq.com/s/q8Y_DjDukiXjqSShWO1glw,開(kāi)源GPU,能否彎道超車(chē)英偉達(dá)?,作者:杜芹,半導(dǎo)體行業(yè)觀察。

2.3 DSA計(jì)算生態(tài)

通過(guò)上圖,介紹一下DSA計(jì)算生態(tài)的整體情況:

DSA,依據(jù)其面向的計(jì)算領(lǐng)域,可以分為很多個(gè)DSA(1)、DSA(2)、……、DSA(m)。DSA主流的領(lǐng)域(Domain)包括AI(大模型)、網(wǎng)絡(luò)、存儲(chǔ)、安全、視頻等,這些領(lǐng)域都有一個(gè)共同的特點(diǎn):市場(chǎng)規(guī)模足夠龐大。

不同的公司,其所提供的DSA架構(gòu)不太一樣DSA(x)-Vendor(1)、DSA(x)-Vendor(2)、……、DSA(x) -Vendor(n)。各個(gè)公司,依據(jù)公司的具體情況,其產(chǎn)品可能涉及DSA的一個(gè)或多個(gè)領(lǐng)域,也可能會(huì)全涉及。

一般來(lái)說(shuō),面向某個(gè)特定領(lǐng)域,某個(gè)具體公司的生產(chǎn)的芯片架構(gòu)通常是一致的,并且是向前兼容的。但受限于具體行業(yè)的發(fā)展,也受限于具體企業(yè)內(nèi)部的各種情況,在同一領(lǐng)域,有些公司的芯片架構(gòu)會(huì)出現(xiàn)前后不兼容的情況。因此,會(huì)有DSA(x)-Vendor(y)-Arch(1,2,3,…)的情況出現(xiàn)。

DSA計(jì)算生態(tài),目前是完全的封閉:不同領(lǐng)域的DSA之間沒(méi)有協(xié)同,同一領(lǐng)域不同廠家的DSA之間也沒(méi)有協(xié)同。

DSA目前最火熱的領(lǐng)域是AI,AI領(lǐng)域有眾多的DSA芯片存在,如谷歌的TPU、AWS Trainium和Inferentia、SambaNova RDU、Tenstorrent AI處理器等。于是出現(xiàn)了谷歌OpenXLA框架,OpenXLA是一種面向AI領(lǐng)域的中間件框架。其設(shè)計(jì)理念類似于LLVM和TVM,上面對(duì)接主流的應(yīng)用框架,如TensorFlow和Pytorch,下面可以映射到不同架構(gòu)的芯片上。

不管是哪個(gè)領(lǐng)域,DSA形態(tài)的處理器要想發(fā)展的好,勢(shì)必需要如OpenXLA一樣,有一個(gè)中間層的框架來(lái)統(tǒng)籌軟件和硬件,需要構(gòu)建領(lǐng)域加速計(jì)算的生態(tài),上接各類業(yè)務(wù)應(yīng)用(或應(yīng)用框架),下接各類架構(gòu)處理器。最終,DSA的架構(gòu)和生態(tài)逐漸收斂,形成統(tǒng)一的、開(kāi)放的架構(gòu)和生態(tài)。

參考文獻(xiàn):https://mp.weixin.qq.com/s/p8daMLluTQAEuj_HNzRA6Q,AI開(kāi)發(fā)大一統(tǒng):谷歌OpenXLA開(kāi)源,整合所有框架和AI芯片,機(jī)器之心。

3 硬件定義軟件和軟件定義硬件

“軟件定義”一個(gè)重要的領(lǐng)域是軟件定義網(wǎng)絡(luò)。我們的網(wǎng)絡(luò)芯片都是ASIC,功能都是確定的,芯片提供什么功能,應(yīng)用才能使用什么功能。但隨著云計(jì)算等許多復(fù)雜網(wǎng)絡(luò)場(chǎng)景的出現(xiàn),網(wǎng)絡(luò)協(xié)議的更新?lián)Q代非常的快,客戶亟需擺脫硬件的束縛,能夠自由的根據(jù)自身業(yè)務(wù)場(chǎng)景的需求,快速的自主定義網(wǎng)絡(luò)功能,因此才出現(xiàn)了軟件定義網(wǎng)絡(luò)。

硬件定義軟件和軟件定義硬件的區(qū)別在于“誰(shuí)依賴于誰(shuí),誰(shuí)約束誰(shuí)”:

硬件定義軟件模式,框架依賴于硬件而存在,而軟件又依賴于框架而存在。軟件在硬件所規(guī)劃的一個(gè)功能界限內(nèi),可以自由變化,但無(wú)法跳脫出這個(gè)功能界限的約束。

CPU是一個(gè)特殊的硬件。CPU是一個(gè)“全能”的“無(wú)約束”的計(jì)算平臺(tái),客戶可以通過(guò)軟件編程的方式,實(shí)現(xiàn)“任何”想要的功能。

那么軟件定義硬件的方式,則是硬件依賴于軟件存在。既然存在CPU這樣“特殊”的硬件平臺(tái),我們可以“隨心所欲”的定義功能:

如果性能滿足要求,CPU平臺(tái)足夠,那就不需要繼續(xù)優(yōu)化;

如果性能不足,則需要把應(yīng)用逐步優(yōu)化到GPU或DSA平臺(tái)進(jìn)行加速,這也就是大家常說(shuō)的CPU卸載(CPU offload)。

4 破局之道之一:硬件定義軟件,以封閉對(duì)封閉

4.1 硬件定義軟件發(fā)展模式

對(duì)一個(gè)芯片公司來(lái)說(shuō),其發(fā)展階段通常是這樣的:

首先,研發(fā)出自己的算力芯片

然后,開(kāi)發(fā)出跟自己芯片緊密配合的計(jì)算框架。

再然后,針對(duì)不同的行業(yè)或業(yè)務(wù)場(chǎng)景,提供更加完成的行業(yè)或場(chǎng)景解決方案。

做好這三部分工作,才能比較好的支撐客戶的具體軟件應(yīng)用和業(yè)務(wù)場(chǎng)景。

不管是CPU、GPU、AI-DSA,還是DPU等等,凡是算力芯片,基本上都是如此。Intel、NVIDIA等行業(yè)巨頭,是按照這個(gè)發(fā)展模式走過(guò)來(lái)的;其他芯片公司,也是按照這個(gè)模式在發(fā)展。我們給這個(gè)發(fā)展模式起一個(gè)名字:(私有的、封閉的)硬件定義(受約束的、依賴于特定平臺(tái)的)軟件的模式。

在Intel和NVIDIA發(fā)展的時(shí)候,采用硬件定義軟件的發(fā)展模式,是可行的。那時(shí)候,行業(yè)沒(méi)有其他成熟的計(jì)算架構(gòu)和生態(tài),Intel、NVIDIA和其他競(jìng)爭(zhēng)對(duì)手是“公平”競(jìng)爭(zhēng),最終Intel和NVIDIA脫穎而出,各自占據(jù)了CPU和GPU的生態(tài)首位。

在Intel和NVIDIA成功之后,其強(qiáng)大的生態(tài)慣性,會(huì)對(duì)其他芯片生態(tài)形成抑制作用,從而使得其他芯片架構(gòu)和生態(tài)的發(fā)展舉步維艱。其他芯片公司要想成功,勢(shì)必付出相比Intel和NVIDIA超出很多的努力,事倍功半。

4.2 以封閉對(duì)封閉,可以成功嗎?

系統(tǒng)越來(lái)越復(fù)雜,芯片工藝越來(lái)越先進(jìn)。其他芯片公司(CPU領(lǐng)域Intel之外,GPU領(lǐng)域NVIDIA之外)按照硬件定義軟件的模式,其發(fā)展的門(mén)檻非常高:

一代芯片的研發(fā)投入在數(shù)十億;從開(kāi)始到功能穩(wěn)定,通常需要至少三代芯片。

開(kāi)發(fā)框架的投入需要持之以恒,投入通常需要一百億以上。

構(gòu)建(并經(jīng)營(yíng))一個(gè)新的計(jì)算生態(tài),同時(shí)讓行業(yè)接受,并且能夠占據(jù)一定的市場(chǎng)規(guī)模,投入通常在五百億以上。

計(jì)算生態(tài),贏者通吃。即使獲得了一定的市場(chǎng)規(guī)模,在更長(zhǎng)期的發(fā)展中,會(huì)走向兩個(gè)結(jié)局:

結(jié)局一,持續(xù)更多的投入(逆水行舟,事倍功半),持續(xù)趕超先進(jìn),并最終獲得勝利。

結(jié)局二,投入跟不上,慢慢的生態(tài)萎縮,之前的巨量投入都煙消云散。

第一個(gè)結(jié)局:一方面,對(duì)一個(gè)企業(yè)來(lái)說(shuō),這么多的投入幾乎不可能;另一方面,即使成功了,也是一個(gè)新的封閉生態(tài),對(duì)行業(yè)、對(duì)客戶來(lái)說(shuō),都和之前一樣。

第二個(gè)結(jié)局:從幾率上來(lái)說(shuō),第二個(gè)結(jié)局的可能性更大一些。因?yàn)轳R太效應(yīng):領(lǐng)先者有生態(tài)優(yōu)勢(shì),順?biāo)兄郏梢詮氖袌?chǎng)獲得非常多的資源,進(jìn)行再投入;追趕者逆水行舟,市場(chǎng)上能獲取的收入少,但需要的資源投入反而更多。

5 破局之道之二:軟件定義硬件,以開(kāi)放對(duì)封閉

“山重水復(fù)疑無(wú)路,柳暗花明又一村?!标懹蔚倪@句詩(shī),蘊(yùn)含著深刻的人生哲理,即絕境之中蘊(yùn)含著希望與轉(zhuǎn)機(jī),計(jì)算生態(tài)也是一樣。

業(yè)務(wù)應(yīng)用脫胎于計(jì)算芯片、框架和生態(tài);當(dāng)業(yè)務(wù)應(yīng)用逐漸成熟,并且發(fā)展壯大以后,業(yè)務(wù)應(yīng)用會(huì)逐漸“擺脫”了硬件而存在,形成自己的“生態(tài)”:

初始的業(yè)務(wù)應(yīng)用,構(gòu)建于某個(gè)確定的計(jì)算芯片平臺(tái)。

但業(yè)務(wù)應(yīng)用成熟后,仍需要快速迭代。業(yè)務(wù)應(yīng)用需要完全自主的定義自己想要的功能,也就是快速業(yè)務(wù)創(chuàng)新,而不應(yīng)受硬件平臺(tái)的約束。

與此同時(shí),業(yè)務(wù)應(yīng)用成熟后,需要擴(kuò)大規(guī)模。規(guī)?;瘜?duì)成本更敏感,于是就有了尋找新的更低成本計(jì)算平臺(tái)的訴求。

實(shí)際上,業(yè)務(wù)應(yīng)用已經(jīng)形成了一個(gè)(相比芯片生態(tài))更加龐大的生態(tài):開(kāi)源軟件生態(tài)。全球絕大部分互聯(lián)網(wǎng)公司的業(yè)務(wù)應(yīng)用,都是基于開(kāi)源軟件系統(tǒng)而構(gòu)建的。典型的開(kāi)源軟件如Linux、OpenStack、Kubernetes、Pytorch、Tensorflow等。

業(yè)務(wù)應(yīng)用形成自己的業(yè)務(wù)生態(tài)之后,接下來(lái)做的事情,就是逐漸重構(gòu)底層的軟硬件堆棧,我們把這種新的模式稱為:(開(kāi)源)軟件定義(開(kāi)放)硬件模式。新的模式可以分解為三個(gè)發(fā)展階段:

第一階段,重構(gòu)開(kāi)源開(kāi)放的業(yè)務(wù)場(chǎng)景解決方案。此階段,基于已有的成熟的芯片和計(jì)算框架,利用已有的成熟的行業(yè)和場(chǎng)景結(jié)局方案進(jìn)行改造,因此門(mén)檻相對(duì)較低。

第二階段,重構(gòu)開(kāi)放的計(jì)算框架。在已有開(kāi)源開(kāi)放的場(chǎng)景解決方案完成后,可以逐漸優(yōu)化計(jì)算框架。類似谷歌OpenXLA,可以逐漸形成開(kāi)放的計(jì)算框架。開(kāi)放,意味著接口形成標(biāo)準(zhǔn),并且任何企業(yè)均可使用;但開(kāi)放并不等同于開(kāi)源,開(kāi)放是必選項(xiàng),開(kāi)源是可選項(xiàng)。

第三階段,重構(gòu)開(kāi)放的芯片。解決方案開(kāi)源開(kāi)放,計(jì)算框架接口開(kāi)放,基于標(biāo)準(zhǔn)的接口,來(lái)設(shè)計(jì)開(kāi)放架構(gòu)(架構(gòu),即軟硬件接口)的芯片。芯片微架構(gòu)(具體的芯片實(shí)現(xiàn))各家公司可以不同,但芯片架構(gòu)(接口)必須兼容計(jì)算框架。

軟件定義硬件的方式,是一個(gè)漸進(jìn)式的發(fā)展路徑。全行業(yè)整體投入是巨量的,但單個(gè)企業(yè)的投入相對(duì)有限。每家企業(yè)可以根據(jù)自己的資源和技術(shù)優(yōu)勢(shì),擁抱開(kāi)源,融入開(kāi)源,在開(kāi)源生態(tài)里找準(zhǔn)自己的定位,實(shí)現(xiàn)自身的成功。

下方表格是軟件定義硬件模式和硬件定義軟件模式的區(qū)別。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號(hào):軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚(yú)和熊掌如何兼得,同時(shí)兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說(shuō)要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。