沐曦集成電路(上海)有限公司 CEO陳維良
近日,在蘇州高新區(qū)舉辦的中國集成電路設(shè)計創(chuàng)新大會暨 IC 應(yīng)用博覽會(ICDIA 2021)上,沐曦集成電路(上海)有限公司 CEO陳維良帶來主題為《高性能GPU的性能與挑戰(zhàn)》的精彩分享,以下為報告全文:
我在GPU行業(yè)20年,GPU架構(gòu)IP、產(chǎn)品化各方面都做過,也見證了GPU的發(fā)展歷史。換句話說其實我以前挺不喜歡GPU的,GPU最開始的應(yīng)用做游戲場景的繪制,做家長特別狠游戲,所以我是在后來看到GPU發(fā)展到另外一個方向的時候就更深深喜歡上了GPU。
GPU從游戲場景的繪制發(fā)展到現(xiàn)在一個通用計算的處理器,所以它的重要性大大的提高了,非常榮幸今天有機(jī)會和大家分享一下我20來年對GPU的理解。報告分成三個部分,第一個部分談?wù)劯咝阅蹽PU的機(jī)遇,介紹一下我理解的高性能GPU的挑戰(zhàn),然后在匯報一下我個人的思考。
機(jī)遇來自于需求,我們先建立起一個共識。我們今天是處于大數(shù)據(jù)時代,一個智能計算的時代,很重要的理念就是算力很重要,算力是生產(chǎn)力。有一張圖簡單的表述算力的重要性,可以看到很強(qiáng)的相關(guān)性,就是人均算力和人均GDP的相關(guān)性,發(fā)達(dá)國家如美國人均GDP非常高我們都知道,人均算力非常高。
換句話說在未來進(jìn)入大數(shù)據(jù)時代提高人均算力對我們國家非常重要,所以我想總結(jié)三句話:
第一,高性能計算加上機(jī)器學(xué)習(xí)是我們?nèi)祟愓J(rèn)知世界的望遠(yuǎn)鏡。
第二,高性能計算加機(jī)器學(xué)習(xí)是我們數(shù)字經(jīng)濟(jì)發(fā)展的發(fā)動機(jī)。
第三,GPU的重要性,GPU最適合做高性能計算和機(jī)器學(xué)習(xí)的。
我稍微展開一下,我們?nèi)祟愄剿鬟@個世界經(jīng)過了不同時代,不同時代科學(xué)技術(shù)發(fā)展的不同程度有不同的方式。以前靠觀察,我們提出很多理論,到今天或者說近十來年我們很重要的一件事情就是積累了大量的數(shù)據(jù),我們需要通過大量的計算讓這些數(shù)據(jù)產(chǎn)生它的價值。
計算這件事情從左邊這張圖看得到,我們實際上對于很多理論的構(gòu)建都已經(jīng)非常完整了,但是在應(yīng)用到實踐的時候解決真正的實際問題的時候,你會發(fā)現(xiàn)計算量非常龐大,這里有個概念叫維數(shù)災(zāi)難,變量太多,計算的情況特別復(fù)雜,就算我們用現(xiàn)在最強(qiáng)的超級計算機(jī)都要花無法忍受的工程上的結(jié)果解決工程上的問題,右邊這張圖給我們提出一個,換句話說到今天我們利用機(jī)器學(xué)習(xí),利用大數(shù)據(jù),我們通過學(xué)習(xí)建模更容易的去降維,去解決實際的問題,所以說今天我們得出一個關(guān)鍵性的結(jié)論就是大數(shù)據(jù)計算或者說AI對我們研究實際問題,解決實際問題提供了一個很大的幫助。
剛剛回到前面講,高性能計算加AI為什么是望遠(yuǎn)鏡,我們可以通過這種方式解決更多的問題看得更遠(yuǎn)。舉個例子,比較復(fù)雜計算過去的收斂,下來可以通過我們構(gòu)建一種神經(jīng)網(wǎng)絡(luò)去做相應(yīng)的網(wǎng)絡(luò)的訓(xùn)練,解決一些方程式的解法,比較笨的方法達(dá)不到的效果,所以在大數(shù)據(jù)時代,數(shù)據(jù)暴爭的時代,怎么樣讓數(shù)據(jù)變的有價值,很重要的一點(diǎn)我們需要強(qiáng)大的算力,所以算力是可以比喻成發(fā)動機(jī),讓我們的數(shù)據(jù)作為燃料產(chǎn)生它的價值,解決我們實際的問題,從右邊的兩張圖上看得出來,我們過去這十來年數(shù)據(jù)的增長速度,基本上呈指數(shù)的增長。
算力只考慮傳統(tǒng)的處理器GPU,算力按照摩爾的定律是呈線性增長的,這張圖上表現(xiàn)出來的算力右邊其實是GPU,左邊是CPU。
所以GPU在算力上面具有巨大的優(yōu)勢,為什么?主要體現(xiàn)在GPU發(fā)展歷史上面,過去GPU是專用的處理器后來變的通用,通用以后通用可編程,通過編程的問題解決問題,GPU和CPU差別上可以明顯的看出來,左邊是CPU的體系結(jié)構(gòu),里面的計算的運(yùn)算單元非常少的,只有少數(shù)并行跑幾個線程,主要的優(yōu)勢體現(xiàn)在非??斓姆磻?yīng),低延時。
右邊是代表的GPU的架構(gòu),左邊基本上看不到的那些小方塊橙色的,就是指令的派遣,右邊一大堆的藍(lán)色的方塊組合在一起,這些小藍(lán)色的方塊都是運(yùn)算單元,換句話說里面有上千的線程可以跑,非常多的數(shù)據(jù)。
所以當(dāng)算力受到功耗限制的時候,是單位功耗能夠產(chǎn)生算力非常重要的,GPU的并行性這方面有巨大的優(yōu)勢。
可以看得到,比較流行的,大家用得最多的,不管是分子建模還是高性能計算,流體力學(xué)很多方面重要的應(yīng)用程序或者說工業(yè)軟件,排前20的,基本上支持GPU的計算,所以這個是比較重大的異構(gòu)計算的趨勢。
同時,AI現(xiàn)在是一個很火的概念,那GPU對AI架構(gòu)的支持現(xiàn)在非常成熟了,可以說目前AI的應(yīng)用里面不管是訓(xùn)練還是推理,絕大部分還是GDP在支持它的運(yùn)算力。
從全球的超級計算機(jī)的結(jié)構(gòu)上看,我們國家在超級計算機(jī)上面的投入非常大,但我們國家的超級計算機(jī)有一個特點(diǎn),這張圖看得出來,排名前五的超級計算及能效高的美國的超算異構(gòu)的結(jié)構(gòu),CPU加上GPU,CPU提供一個控制的作用,任務(wù)分配的作用,協(xié)調(diào)的作用,而95%以上的算力按高性能的GPU提供的,我們國家的太湖之光全市CPU,從功耗用的核心數(shù)大家看得出來非常明顯,異構(gòu)的優(yōu)勢。
不信的是高性能的GDP到目前為止還是被國外的兩家公司壟斷,所以在核心算力受制于人的情況下其實產(chǎn)生了很多的風(fēng)險和問題,這也是我們要解決的問題。這個是基于挑戰(zhàn)在哪里,是需要帶來的機(jī)遇,挑戰(zhàn)是經(jīng)過簡單的總結(jié)把它歸納成三句話:
第一它難度非常大,
第二它的周期非常長,
第三投入非常大。
難度為什么大?左邊這個圖是非常簡單的一種框圖,GPU里面綠色的這些框框就是我們成為的子系統(tǒng),一個GPU里面的行業(yè)IP這個和占了GPU80%以上的面積,也是里面最復(fù)雜的,里面很多子系統(tǒng),每個子系統(tǒng)也是超級復(fù)雜的,架構(gòu)的復(fù)雜度需要長期的經(jīng)驗積累,GPU的架構(gòu)加上復(fù)雜的IP設(shè)計最后變成高性能GPU的SOC。
可見這里面堆積的數(shù)目500多億,它提供的算力,消耗的功耗,這個里面的設(shè)計復(fù)雜度非常高的,既有系統(tǒng)性的,又有復(fù)雜的IP和算法,做成芯片以后,一塊GPU的算力就算這樣在雙精度浮點(diǎn)的情況下也就是十來個T的算力。
要達(dá)到超算的水平,P級E級的水平需要很多的互聯(lián),所以多卡的互聯(lián)也是一個巨復(fù)雜的事情,再加上GPU本身,軟件站非常深,提供的靈活性很大程度上來自于功夫,來自于軟件站的復(fù)雜程度,GPU從上到下的軟件,不光有驅(qū)動,還有編譯器有豐富的庫,這樣巨復(fù)雜的軟硬件系統(tǒng)到了不同的落地場景,針對不同的落地場景進(jìn)行優(yōu)化,整個大的系統(tǒng)難度非常大的,周期非常長了。
一塊GPU從立項到上市最少需要3-5年,IP設(shè)計、芯片的設(shè)計、測試、軟件的成熟,診斷不同的應(yīng)用場景和生態(tài),需要構(gòu)建這么復(fù)雜的軟件系統(tǒng),所以周期非常長的。
當(dāng)然需要巨大的投入,這張圖只是從一個本身硬件芯片設(shè)計和溜片帶來的成本,一次性投入再加上現(xiàn)在要最好的工藝能效比這樣的紅線非常陡峭的。換句話說整個的成本不管是一次性成本還是生產(chǎn)出來之后上量以后的成本都是增長非常的快的,這張圖是從研發(fā)成本角度看,尤其是右邊這個圖特別有意義,不同的制成的情況下,對大一型芯片的投入,可以看到納米以后,一顆芯片幾十億人民幣的投入。
在這么好的機(jī)會的情況下有這么大的需求,尤其是國家戰(zhàn)略性的產(chǎn)品,面對這樣的挑戰(zhàn)我們怎么突破和創(chuàng)新,最重要的一點(diǎn)突破非常好的時代和非常好的機(jī)會去從零到一的進(jìn)行突破。
強(qiáng)烈國產(chǎn)替代的需求尤其是供應(yīng)鏈不安全,這次從國家戰(zhàn)略的層面是一個巨大的風(fēng)險,所以給了我們很多的機(jī)會去尋找一定的市場,從0-1突破,0-1以后怎么從0-100。
我們可以看到GPU整個發(fā)展過程當(dāng)中架構(gòu)一直都在變,所以從最開始的時候渲染游戲只是一個所謂的固定流水線,不具有編程性,到它繪制非常復(fù)雜的場景,渲染真實感的場景,所以進(jìn)行編程,編的靈活,到后來進(jìn)行大數(shù)據(jù)計算,我們必須著名的,英偉達(dá)加入制成的情況下,對里面的這個,專門對神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,不斷跟自己的架構(gòu),不斷引入自己的算力,從這個角度來講不同的計算,不同的指令能效比不一樣的,基于應(yīng)用的一種可重構(gòu)的GPU架構(gòu)比較有希望的方向或者可以創(chuàng)新的點(diǎn)。
從這個角度來講重構(gòu)這件事情本身也是有不同的顆粒度,而且有很多地方可以重構(gòu)不管是運(yùn)算單元還是里面的數(shù)據(jù)流向還是里面的分配很多地方都是可以重構(gòu)的,這個也是我們創(chuàng)新的一個點(diǎn)。
另外可以看得到,如果說不對制成的情況下,對進(jìn)行相應(yīng)基于應(yīng)用的優(yōu)化實際上能效比不好的,一旦加入一定架構(gòu)上的創(chuàng)新變的更靈活以后,能效比非常接近。同時有一個巨大的優(yōu)勢就是它的可編程性,通用性,它能解決的問題非常寬泛的,任何需要大量的數(shù)據(jù)計算的地方都可以使用GPU。
另外一個我們今天很多的嘉賓談到這一點(diǎn),在后摩爾時代,先進(jìn)封裝,系統(tǒng)集成這些方面也是新的機(jī)會,是在單芯片創(chuàng)新的基礎(chǔ)之上,系統(tǒng)級在互聯(lián)級甚至在數(shù)據(jù)中心處理整個大的數(shù)據(jù)中心的角度有更多創(chuàng)新的機(jī)會。
所以我們處于非常好的時代有非常好的機(jī)會,面臨巨大的挑戰(zhàn),所以需要有智之士,需要有恒心毅力的,在半導(dǎo)體行業(yè)里沉得下心來,真正的打磨做事情的這樣的團(tuán)隊去解決這樣的實際的困難。我們集成電路去年9月份才成立,正是基于這樣的時代責(zé)任感,我們有一個非常讓人驕傲的團(tuán)隊。