編輯?|??GACS
Chiplet助攻大算力芯片破局。
芯東西9月28日?qǐng)?bào)道,9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲分享了主題為《Chiplet架構(gòu)在AI芯片中的商業(yè)價(jià)值》的主題演講。
今年2月,北極雄芯發(fā)布了國(guó)內(nèi)首款基于異構(gòu)Chiplet集成的智能處理芯片“啟明930”。該芯片由11塊Chiplets通過(guò)高速接口拼接而成,采用12nm工藝、2.5D封裝、全國(guó)產(chǎn)基板材料,可獨(dú)立用于AI加速卡,亦可通過(guò)D2D擴(kuò)展多種功能型Side Die進(jìn)行集成。
Chiplet是后摩爾時(shí)代提升芯片性能的有效路徑,能將多異構(gòu)集成的模塊拆分用不同制程制造。
以下為馬愷聲的演講實(shí)錄:
各位領(lǐng)導(dǎo)、各位專家、各位嘉賓:大家中午好!
我來(lái)自清華大學(xué),也是北極雄芯的創(chuàng)始人,跟各位匯報(bào)一下我們這幾年的一些工作和想法。我的題目是《Chiplet架構(gòu)在AI芯片中的商業(yè)價(jià)值》,我會(huì)講一些技術(shù)部分以及Chiplet的好處,包含四個(gè)部分:從歷史到價(jià)值,再到愿景和我們的想法實(shí)踐。
01.摩爾定律走向黃昏同構(gòu)互連、異構(gòu)拆分成解法?
說(shuō)起Chiplet,早在1969年摩爾老先生的論文里就提到過(guò)。2018年我注意到這句話,然后去論文中扒下這句話:It may prove to be more economical to build large systems out of smaller functions,which are separately packaged and interconnected(用較小的功能構(gòu)建大型系統(tǒng)可能更經(jīng)濟(jì),這些功能是單獨(dú)封裝和互聯(lián)的)。這是論文里某一段的第一句。
進(jìn)入到商業(yè)層面,我們很早就意識(shí)到一個(gè)問(wèn)題,光刻機(jī)的尺寸為26mm×33mm,更先進(jìn)的光刻機(jī)尺寸更小。摩爾定律到了盡頭之后,我們沒(méi)有辦法做小芯片,只能把面積撐大,但光照的面積就這么大,所有良率只能這樣。第一個(gè)解決方法,就是整個(gè)同構(gòu)互聯(lián)起來(lái),這是為了解決光照最大尺寸的問(wèn)題,二是解決省錢,異構(gòu)的拆分通過(guò)復(fù)用可以更好地解決這件事情。
其中Wafer to Wafer(晶圓至晶圓)、Chip to Wafer(芯片對(duì)晶圓)的集成等工程問(wèn)題,通過(guò)在座各位封裝專家的努力就可以實(shí)現(xiàn)。
這里面真正有挑戰(zhàn)的是散熱,把多個(gè)晶圓堆到一起,中間的那片晶圓的熱量導(dǎo)不出來(lái)。一旦熱導(dǎo)不出來(lái)就會(huì)降頻,需要控制它散熱防止溫度越來(lái)越高。所以解決散熱最簡(jiǎn)單的方案,就是做架構(gòu)拆分,比如這一塊是熱的,下一塊晶圓就不應(yīng)該讓它熱,這樣交叉起來(lái),但這個(gè)事情非??简?yàn)架構(gòu)設(shè)計(jì)人的能力。
還有野路子,我們可以通過(guò)打更多的TSV把熱導(dǎo)出來(lái)。但這個(gè)路子的問(wèn)題在于,因?yàn)門SV是在硅上面穿孔,這會(huì)導(dǎo)致孔打多的話,熱應(yīng)力系數(shù)不一樣,使得很脆的硅一不小心就會(huì)爆掉。
還有可能的方案是把微流道進(jìn)芯片。
02.助推大芯片、先進(jìn)制程發(fā)展實(shí)現(xiàn)低成本、高良率、高能效比……
Chiplet真正帶來(lái)的好處,我前面已經(jīng)稍微提到了。
從1965年開始到2005年一直在提升芯片頻率,可以看圖中綠色的線(如圖),到2005年頻率提升不上去了。很快,2000年初,我上學(xué)的時(shí)候第一款手機(jī)是聯(lián)發(fā)科的八核手機(jī),當(dāng)時(shí)還不理解手機(jī)為什么要上八核。
到2005年起,核的數(shù)量越來(lái)越多,2020年之后,摩爾定律基本上發(fā)展到黃昏。我們發(fā)現(xiàn)另外一些問(wèn)題,摩爾定律即將走到盡頭我們面臨的問(wèn)題是什么?
5nm、3nm、1nm只有二十幾個(gè)原子,但晶圓代工廠給出的報(bào)價(jià)很高,其中,量產(chǎn)的價(jià)格5nm一片晶圓要2萬(wàn)多美金左右,12nm差不多六七千美金,價(jià)格翻了一倍,性能只漲了百分之幾十。所以這件事情不劃算。
另外還有一些問(wèn)題,大芯片有大芯片的問(wèn)題,大芯片面積大了之后良率很糟糕,因?yàn)樯厦嬷灰湟粋€(gè)點(diǎn),這塊芯片就要扔掉,所以良率自然很糟。
另外還有一個(gè)問(wèn)題,芯片是方的,晶圓是圓的,所以邊上會(huì)浪費(fèi)一圈。但芯片小的話,浪費(fèi)這部分相對(duì)就少很多,所以小芯片有天然的優(yōu)勢(shì)。
因此,我們就在想,什么樣的形式能做這件事情?有一個(gè)大約的參考值,這些值都是相對(duì)比較準(zhǔn)的。如果600平方毫米是33%良率,100平方毫米良率在80%左右,那么這是一個(gè)巨大的差異。并且國(guó)內(nèi)晶圓代工廠的水平還有差距,所以將33%的良率提到80%,成本變成原來(lái)的一半以下,這件事情有非常大的好處,所以我們希望把整個(gè)東西拆散。
另外Chiplet還有一些好處,我們以前都是找晶圓代工廠、自己做庫(kù)、買IP,最后把東西堆出來(lái)。如果市場(chǎng)上有一些東西,我們是不是可以從供應(yīng)商ABC處采購(gòu)一些半成品,比如億鑄科技的ReRAM,然后集成上去得到很好的能效比,類似這樣的方式其實(shí)可以做很多異構(gòu)的集成。
此外,I/O真的有必要上3nm嗎?為什么不用7nm、14nm搞定?因?yàn)?a class="article-link" target="_blank" href="/baike/1473451.html">模擬電路在這部分能取得的性能非常有限,甚至漏電更差。
還有一些訴求,CPU每年迭代嗎?但性能提升僅在10%-15%之間,NPU也每年迭代,這樣的話,我們每一次迭代都要把所有東西全部重做的壓力很大,所以,為什么不能把NPU獨(dú)立出來(lái)?然后將其每年迭代,但其它I/O的部分就不動(dòng)了。
Chiplet還有一個(gè)非常大的好處,就是Scalability(可擴(kuò)展性)特別好,通過(guò)增減HUB的數(shù)量就可以做出不同系列的產(chǎn)品,以前這件事情需要做高中低檔次多塊芯片來(lái)實(shí)現(xiàn)。
當(dāng)然,Chiplet的好處主要還是集中在大芯片、先進(jìn)制程方面,(如下圖)橫坐標(biāo)左邊第一個(gè)是SoC、MCM、InFO、2.5D,縱向看是5nm、7nm、14nm,上方橫坐標(biāo)是兩個(gè)Chiplet、三個(gè)Chiplet、五個(gè)Chiplet。你會(huì)看到,越往右下角,先進(jìn)封裝的東西對(duì)比最左邊的條,能省的錢越來(lái)越多,最右下角能省到50%。
但這里面也要看芯片的面積,先不說(shuō)100平方毫米,但三四百平方毫米之后越大越劃算。做一個(gè)小耳機(jī)的產(chǎn)品,從錢的角度來(lái)講可能不劃算,但它如果有體積小等其他的訴求就可以適用。
03.始于為清華交叉院做芯片要降低行業(yè)專用計(jì)算投入
我在清華交叉院,我的院長(zhǎng)是姚期智先生,“姚班”是國(guó)內(nèi)AI研究的高地,也是AI理論、量子、AI+的高地。
從2018年開始,我在做的事情就是給院里的老師做芯片。我進(jìn)來(lái)第一件事就發(fā)現(xiàn),清華交叉院有30個(gè)老師,基本上每個(gè)老師把持一個(gè)方向。所以我就在想,如果三年做一塊芯片,我現(xiàn)在30歲出頭,我發(fā)現(xiàn)我的人生路線很清晰。
所以我一直在琢磨,怎么能快速地給這些老師做芯片?能收斂出來(lái)的東西就是:我能不能把它抽象成異構(gòu)的集成形式,把一些共用的部分(C)放中間,然后把不同的東西(X、Y)每換一個(gè)行業(yè)就單獨(dú)做一小塊,再結(jié)合起來(lái)(如下圖)。
用這種形式,不管是IP、掩膜還是人力的投入都可以得到巨量的節(jié)省。這是我的一篇文章,這里面把到底能省多少錢的帳算得清清楚楚,大家可以去搜索瀏覽。
另外我們自己開發(fā)接口,此前我想的很簡(jiǎn)單,市場(chǎng)有很多Die to Die的接口,可以根據(jù)需求購(gòu)買。但我后來(lái)發(fā)現(xiàn),有一個(gè)問(wèn)題是,沒(méi)有一個(gè)接口適用所有的封裝,2D或2.5D封裝的產(chǎn)業(yè)鏈都差異巨大。所以我們自己做接口,然后將兩個(gè)連起來(lái),這解決的是面積問(wèn)題。
但我們真正感興趣的是右邊這種形式(如圖),我們希望中間的I/O或者HUB的形式是通用的,能滿足大家基礎(chǔ)需求。比如AI、隱私計(jì)算、制藥等應(yīng)用,企業(yè)可以自己做一部分,然后我們提供整套解決方案或者接口、封裝,大家可以自己選擇。
我們的整體目標(biāo)就是希望降低整個(gè)行業(yè)在做專用計(jì)算時(shí)候的投入和需求。我們自己把它做出來(lái),這個(gè)接口已經(jīng)做得很完備。中間的圖是FF corner,我們所有corner全部都做,真正做溫箱從-40度拉到125度,因?yàn)楫a(chǎn)品的應(yīng)用在汽車上。
接口整個(gè)采用高通道高速SerDes的方案,12nm工藝、大約面積為2.8平方毫米、支持2D和2.5D封裝,并且整個(gè)封裝采用全國(guó)產(chǎn)的產(chǎn)業(yè)鏈。
然后我就請(qǐng)姚期智先生一起,將這個(gè)接口以聯(lián)盟和團(tuán)標(biāo)的形式發(fā)布出來(lái)。值得注意的是,這個(gè)產(chǎn)業(yè)聯(lián)盟(中國(guó)Chiplet產(chǎn)業(yè)聯(lián)盟)在2020年9月成立,2022年3月,UCIe成立Chiplet這件事情變火,所以我們其實(shí)早于它。
我們意識(shí)到這件事情之后,就把整個(gè)芯?;ヂ?lián)的接口標(biāo)準(zhǔn)以及車規(guī)的互聯(lián)標(biāo)準(zhǔn)都開放出來(lái),然后和制車廠一起把這些東西跑通。
我的目標(biāo)就是創(chuàng)造高性能計(jì)算的新范式。
04.全國(guó)產(chǎn)供應(yīng)鏈跑通已為最終客戶送樣
北極雄芯在這里面偏商業(yè)化一點(diǎn),我們從2018年開始一點(diǎn)點(diǎn)做,直到2020年9月,我們和封裝廠耦合了一段時(shí)間后才把整個(gè)東西搞清楚,2021年成立公司?,F(xiàn)在,我們有量產(chǎn)的產(chǎn)品、能實(shí)現(xiàn)收入、把“930”發(fā)布出來(lái),這就是整個(gè)公司發(fā)展的簡(jiǎn)單回顧。
真正的架構(gòu)長(zhǎng)這樣(如下圖),我們稱作通用型HUB Chiplet、Functional Chiplet方案。
在HUB里面,我們放了大家能想到的高端通用IP,如PCIe 5.0、LPDDR5這樣的IP,我的目標(biāo)是HUB使用時(shí)長(zhǎng)能達(dá)到五年。
除了HUB,我們還限定了功能模塊面積不超過(guò)100平方毫米,因?yàn)槲覀儼l(fā)現(xiàn)面積超過(guò)100平方毫米,良率會(huì)往下掉得非常嚴(yán)重。大家算一算,如果一個(gè)HUB差不多一兩百平方毫米,F(xiàn)unctional Die拼四個(gè),實(shí)際上能拼8到16個(gè),比如拼8個(gè)加起來(lái)有800平方毫米,甚至1000平方毫米,其算力實(shí)際上很大。
用這種形式,我們就可以把專用和通用拆分出來(lái),客戶有訴求可以選我們的接口,也可以選其它接口,然后將其連起來(lái)。還有其他客戶的東西,我們也可以幫忙導(dǎo)入。
所以從解決方案到接口到封裝,我們可以提供全套的解決方案,也可以根據(jù)大家的需求來(lái)做,所以我們能真正把這款芯片做出來(lái)。
這是我第一次在公開場(chǎng)合把這張圖(如下圖)拋出來(lái),它非常復(fù)雜,由11塊Chiplet拼在一起,采用2.5D封裝,純國(guó)產(chǎn)工藝。
這件事情我做了三年,從2019年開始一直在和封裝廠耦合。不瞞大家說(shuō),國(guó)內(nèi)的封裝在一些基板技術(shù)上有差距,中國(guó)臺(tái)灣的技術(shù)能做到30層基板,國(guó)內(nèi)能量產(chǎn)的水平差不多在8到10層。
這是為什么?因?yàn)槠涫且粚幽?,做完一層鋪一層膜,一層良?9%的話,做30層就是0.99的30次冪。因此,我們選擇自己做,將11塊拼在一起,左右可以是NPU,上下可以自己定義,用這種形式可以將其做起來(lái)。北極雄芯真正的Know-How就是用更復(fù)雜的接口換取了對(duì)更差封裝的容忍。
給大家舉個(gè)例子,底下藍(lán)色的叫基板,如果有30層布線隨便布,但我們現(xiàn)在僅有6到8層基板,扣去兩層電源和ID就剩4到6層,所以沒(méi)有足夠的位置布足夠的線。
所以我們只能把提升單根線的速度,這就遇到另外一個(gè)問(wèn)題,單根線的速度上來(lái)之后,一個(gè)接口只有38根線,一共380根線,對(duì)比蘋果10萬(wàn)根線是巨大的數(shù)量級(jí)的差距。
單根線的速度頻率比較高,但這個(gè)解決方案的問(wèn)題是什么?用高速串口,可以想象成射頻領(lǐng)域,射頻對(duì)基板的要求很高,需要防止毛刺、差損、回?fù)p對(duì)接口產(chǎn)生影響。
因?yàn)槠胀ǖ牟⒖?00兆只需要連接就可以,高頻率就會(huì)對(duì)封裝有要求。所以我們真正做的事情就是跟國(guó)內(nèi)所有封裝廠做封裝,把參數(shù)提取出來(lái),再看國(guó)內(nèi)團(tuán)隊(duì)有沒(méi)有能力把這個(gè)接口做完去適應(yīng)這套封裝,把其中的差距補(bǔ)回來(lái)。
當(dāng)然這套方案也存在問(wèn)題,例如高速串口的帶寬可以支撐,但串口的延遲相比于并口延遲會(huì)更大。
這種方案好處在于:首先,其基本上能用國(guó)產(chǎn)的供應(yīng)鏈,采用CoWos先進(jìn)封裝僅20%-30%的成本,做出同樣性能的芯片。
二是這些東西要跑通,還要看最后的系統(tǒng)利用率,如Die to Die能拉多少?算力可拓展嗎?以及將整個(gè)供應(yīng)鏈都跑通后真正給最終用戶送樣。
北極雄芯的主要客戶很多是主機(jī)廠和板卡供應(yīng)商,所以這些網(wǎng)絡(luò)都是他們提出來(lái)的。我們真正將廠商的軟件棧跑齊、驗(yàn)證后發(fā)現(xiàn)整個(gè)利潤(rùn)率差不多在60%左右。
我們有一套軟件工具,這套工具跟前面大廠提的看起來(lái)好像一樣,但實(shí)際上有50%的東西是完全不同的。
它們不一樣的地方在于,我們的方案中間是一個(gè)HUB,邊上掛了10個(gè)Chiplet。這樣就有一個(gè)問(wèn)題,從硬件封裝的角度來(lái)說(shuō)好像只要連接上就可以,但如果從軟件或者算法的角度看,假設(shè)每一個(gè)小的東西里面都是一個(gè)Mesh,比如每個(gè)都是小的計(jì)算單元NPU,從上往下看就是一個(gè)巨大的Mesh,但是在畫虛線的地方是Die to Die的接口,這里面的傳輸功耗相對(duì)比較小,一旦越過(guò)Die to Die,就會(huì)有延遲,且有功耗代價(jià)。
因此,我們發(fā)現(xiàn)它會(huì)把這件事情切得很小,原來(lái)我想得很簡(jiǎn)單,以這個(gè)為例(如下圖),這是一個(gè)ResNet 18的網(wǎng)絡(luò),我將其一層層擺下來(lái)后發(fā)現(xiàn)這種形式不行,因?yàn)樗竭^(guò)這層線功耗就會(huì)變大,比SoC糟糕3倍。所以我就意識(shí)到第二個(gè)問(wèn)題,能不能“之字型”繞起來(lái),這也是一種解決方案,但我后來(lái)發(fā)現(xiàn)這個(gè)方法也不行。
實(shí)際上現(xiàn)在北極雄芯內(nèi)部,真正的另外一個(gè)Know-How就是在編譯層面,這個(gè)策略有AI的方法,也有暴力的辦法。
我舉一個(gè)例子,以這張4×4的圖為例(如下圖),我想在里面盡可能做到復(fù)用,排出來(lái)的最好形式就是第二張圖,第三張圖是機(jī)器搜出來(lái)的最好方式,這個(gè)東西剛開始我無(wú)法理解。其中,第0層、第1層等是散的。當(dāng)我們回頭測(cè)算時(shí)發(fā)現(xiàn),用這種形式其網(wǎng)絡(luò)內(nèi)部復(fù)用是最好的,沒(méi)有跨Die或者跨Die的數(shù)量搬運(yùn)很少,用這種形式基本上能跟SoC的功耗拉齊。
因?yàn)檫@里面有很多事情要做,比如鑒定這塊復(fù)用、如何做數(shù)據(jù)交換、這個(gè)角的數(shù)據(jù)最好不要跟那個(gè)角的數(shù)據(jù)交換等,用這種形式我們就可以把整個(gè)功耗壓到相當(dāng)?shù)?。Chiplet帶來(lái)的芯粒稅問(wèn)題,包括接口帶來(lái)的問(wèn)題,用編譯的角度能將其影響降到最低。
北極雄芯正在做的就是把整個(gè)東西打散,按照不同的模塊再規(guī)劃起來(lái),重新梳理數(shù)據(jù)流,采用國(guó)產(chǎn)供應(yīng)鏈全部封裝起來(lái),做成板卡把芯片跑起來(lái),給最終的客戶送樣,并且能在芯片上把多個(gè)網(wǎng)絡(luò)實(shí)時(shí)并行跑通,這件事情是過(guò)去北極雄芯在過(guò)去四年做的事情。
我的演講就到這里,謝謝大家!
以上是馬愷聲演講內(nèi)容的完整整理。