国内精品久久久久免费影院,中文字幕亚洲精品人妻在线

編輯?|??GACS

Chiplet助攻大算力芯片破局。

芯東西9月28日?qǐng)?bào)道，9月14日~15日，2023全球AI芯片峰會(huì)（GACS 2023）在深圳南山圓滿舉行。在首日開幕式上，清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲分享了主題為《Chiplet架構(gòu)在AI芯片中的商業(yè)價(jià)值》的主題演講。

今年2月，北極雄芯發(fā)布了國(guó)內(nèi)首款基于異構(gòu)Chiplet集成的智能處理芯片“啟明930”。該芯片由11塊Chiplets通過(guò)高速接口拼接而成，采用12nm工藝、2.5D封裝、全國(guó)產(chǎn)基板材料，可獨(dú)立用于AI加速卡，亦可通過(guò)D2D擴(kuò)展多種功能型Side Die進(jìn)行集成。

Chiplet是后摩爾時(shí)代提升芯片性能的有效路徑，能將多異構(gòu)集成的模塊拆分用不同制程制造。

以下為馬愷聲的演講實(shí)錄：

各位領(lǐng)導(dǎo)、各位專家、各位嘉賓：大家中午好！

我來(lái)自清華大學(xué)，也是北極雄芯的創(chuàng)始人，跟各位匯報(bào)一下我們這幾年的一些工作和想法。我的題目是《Chiplet架構(gòu)在AI芯片中的商業(yè)價(jià)值》，我會(huì)講一些技術(shù)部分以及Chiplet的好處，包含四個(gè)部分：從歷史到價(jià)值，再到愿景和我們的想法實(shí)踐。

01.摩爾定律走向黃昏同構(gòu)互連、異構(gòu)拆分成解法？

說(shuō)起Chiplet，早在1969年摩爾老先生的論文里就提到過(guò)。2018年我注意到這句話，然后去論文中扒下這句話：It may prove to be more economical to build large systems out of smaller functions,which are separately packaged and interconnected（用較小的功能構(gòu)建大型系統(tǒng)可能更經(jīng)濟(jì)，這些功能是單獨(dú)封裝和互聯(lián)的）。這是論文里某一段的第一句。

進(jìn)入到商業(yè)層面，我們很早就意識(shí)到一個(gè)問(wèn)題，光刻機(jī)的尺寸為26mm×33mm，更先進(jìn)的光刻機(jī)尺寸更小。摩爾定律到了盡頭之后，我們沒(méi)有辦法做小芯片，只能把面積撐大，但光照的面積就這么大，所有良率只能這樣。第一個(gè)解決方法，就是整個(gè)同構(gòu)互聯(lián)起來(lái)，這是為了解決光照最大尺寸的問(wèn)題，二是解決省錢，異構(gòu)的拆分通過(guò)復(fù)用可以更好地解決這件事情。

其中Wafer to Wafer（晶圓至晶圓）、Chip to Wafer（芯片對(duì)晶圓）的集成等工程問(wèn)題，通過(guò)在座各位封裝專家的努力就可以實(shí)現(xiàn)。

這里面真正有挑戰(zhàn)的是散熱，把多個(gè)晶圓堆到一起，中間的那片晶圓的熱量導(dǎo)不出來(lái)。一旦熱導(dǎo)不出來(lái)就會(huì)降頻，需要控制它散熱防止溫度越來(lái)越高。所以解決散熱最簡(jiǎn)單的方案，就是做架構(gòu)拆分，比如這一塊是熱的，下一塊晶圓就不應(yīng)該讓它熱，這樣交叉起來(lái)，但這個(gè)事情非?？简?yàn)架構(gòu)設(shè)計(jì)人的能力。

還有野路子，我們可以通過(guò)打更多的TSV把熱導(dǎo)出來(lái)。但這個(gè)路子的問(wèn)題在于，因?yàn)門SV是在硅上面穿孔，這會(huì)導(dǎo)致孔打多的話，熱應(yīng)力系數(shù)不一樣，使得很脆的硅一不小心就會(huì)爆掉。

還有可能的方案是把微流道進(jìn)芯片。

02.助推大芯片、先進(jìn)制程發(fā)展實(shí)現(xiàn)低成本、高良率、高能效比……

Chiplet真正帶來(lái)的好處，我前面已經(jīng)稍微提到了。

從1965年開始到2005年一直在提升芯片頻率，可以看圖中綠色的線（如圖），到2005年頻率提升不上去了。很快，2000年初，我上學(xué)的時(shí)候第一款手機(jī)是聯(lián)發(fā)科的八核手機(jī)，當(dāng)時(shí)還不理解手機(jī)為什么要上八核。

到2005年起，核的數(shù)量越來(lái)越多，2020年之后，摩爾定律基本上發(fā)展到黃昏。我們發(fā)現(xiàn)另外一些問(wèn)題，摩爾定律即將走到盡頭我們面臨的問(wèn)題是什么？

5nm、3nm、1nm只有二十幾個(gè)原子，但晶圓代工廠給出的報(bào)價(jià)很高，其中，量產(chǎn)的價(jià)格5nm一片晶圓要2萬(wàn)多美金左右，12nm差不多六七千美金，價(jià)格翻了一倍，性能只漲了百分之幾十。所以這件事情不劃算。

另外還有一些問(wèn)題，大芯片有大芯片的問(wèn)題，大芯片面積大了之后良率很糟糕，因?yàn)樯厦嬷灰湟粋€(gè)點(diǎn)，這塊芯片就要扔掉，所以良率自然很糟。

另外還有一個(gè)問(wèn)題，芯片是方的，晶圓是圓的，所以邊上會(huì)浪費(fèi)一圈。但芯片小的話，浪費(fèi)這部分相對(duì)就少很多，所以小芯片有天然的優(yōu)勢(shì)。

因此，我們就在想，什么樣的形式能做這件事情？有一個(gè)大約的參考值，這些值都是相對(duì)比較準(zhǔn)的。如果600平方毫米是33%良率，100平方毫米良率在80%左右，那么這是一個(gè)巨大的差異。并且國(guó)內(nèi)晶圓代工廠的水平還有差距，所以將33%的良率提到80%，成本變成原來(lái)的一半以下，這件事情有非常大的好處，所以我們希望把整個(gè)東西拆散。

另外Chiplet還有一些好處，我們以前都是找晶圓代工廠、自己做庫(kù)、買IP，最后把東西堆出來(lái)。如果市場(chǎng)上有一些東西，我們是不是可以從供應(yīng)商ABC處采購(gòu)一些半成品，比如億鑄科技的ReRAM，然后集成上去得到很好的能效比，類似這樣的方式其實(shí)可以做很多異構(gòu)的集成。

此外，I/O真的有必要上3nm嗎？為什么不用7nm、14nm搞定？因?yàn)?a class="article-link" target="_blank" href="/baike/1473451.html">模擬電路在這部分能取得的性能非常有限，甚至漏電更差。

還有一些訴求，CPU每年迭代嗎？但性能提升僅在10%-15%之間，NPU也每年迭代，這樣的話，我們每一次迭代都要把所有東西全部重做的壓力很大，所以，為什么不能把NPU獨(dú)立出來(lái)？然后將其每年迭代，但其它I/O的部分就不動(dòng)了。

Chiplet還有一個(gè)非常大的好處，就是Scalability（可擴(kuò)展性）特別好，通過(guò)增減HUB的數(shù)量就可以做出不同系列的產(chǎn)品，以前這件事情需要做高中低檔次多塊芯片來(lái)實(shí)現(xiàn)。

當(dāng)然，Chiplet的好處主要還是集中在大芯片、先進(jìn)制程方面，（如下圖）橫坐標(biāo)左邊第一個(gè)是SoC、MCM、InFO、2.5D，縱向看是5nm、7nm、14nm，上方橫坐標(biāo)是兩個(gè)Chiplet、三個(gè)Chiplet、五個(gè)Chiplet。你會(huì)看到，越往右下角，先進(jìn)封裝的東西對(duì)比最左邊的條，能省的錢越來(lái)越多，最右下角能省到50%。

但這里面也要看芯片的面積，先不說(shuō)100平方毫米，但三四百平方毫米之后越大越劃算。做一個(gè)小耳機(jī)的產(chǎn)品，從錢的角度來(lái)講可能不劃算，但它如果有體積小等其他的訴求就可以適用。

03.始于為清華交叉院做芯片要降低行業(yè)專用計(jì)算投入

我在清華交叉院，我的院長(zhǎng)是姚期智先生，“姚班”是國(guó)內(nèi)AI研究的高地，也是AI理論、量子、AI+的高地。

從2018年開始，我在做的事情就是給院里的老師做芯片。我進(jìn)來(lái)第一件事就發(fā)現(xiàn)，清華交叉院有30個(gè)老師，基本上每個(gè)老師把持一個(gè)方向。所以我就在想，如果三年做一塊芯片，我現(xiàn)在30歲出頭，我發(fā)現(xiàn)我的人生路線很清晰。

所以我一直在琢磨，怎么能快速地給這些老師做芯片？能收斂出來(lái)的東西就是：我能不能把它抽象成異構(gòu)的集成形式，把一些共用的部分（C）放中間，然后把不同的東西（X、Y）每換一個(gè)行業(yè)就單獨(dú)做一小塊，再結(jié)合起來(lái)（如下圖）。

用這種形式，不管是IP、掩膜還是人力的投入都可以得到巨量的節(jié)省。這是我的一篇文章，這里面把到底能省多少錢的帳算得清清楚楚，大家可以去搜索瀏覽。

另外我們自己開發(fā)接口，此前我想的很簡(jiǎn)單，市場(chǎng)有很多Die to Die的接口，可以根據(jù)需求購(gòu)買。但我后來(lái)發(fā)現(xiàn)，有一個(gè)問(wèn)題是，沒(méi)有一個(gè)接口適用所有的封裝，2D或2.5D封裝的產(chǎn)業(yè)鏈都差異巨大。所以我們自己做接口，然后將兩個(gè)連起來(lái)，這解決的是面積問(wèn)題。

但我們真正感興趣的是右邊這種形式（如圖），我們希望中間的I/O或者HUB的形式是通用的，能滿足大家基礎(chǔ)需求。比如AI、隱私計(jì)算、制藥等應(yīng)用，企業(yè)可以自己做一部分，然后我們提供整套解決方案或者接口、封裝，大家可以自己選擇。

我們的整體目標(biāo)就是希望降低整個(gè)行業(yè)在做專用計(jì)算時(shí)候的投入和需求。我們自己把它做出來(lái)，這個(gè)接口已經(jīng)做得很完備。中間的圖是FF corner，我們所有corner全部都做，真正做溫箱從-40度拉到125度，因?yàn)楫a(chǎn)品的應(yīng)用在汽車上。

接口整個(gè)采用高通道高速SerDes的方案，12nm工藝、大約面積為2.8平方毫米、支持2D和2.5D封裝，并且整個(gè)封裝采用全國(guó)產(chǎn)的產(chǎn)業(yè)鏈。

然后我就請(qǐng)姚期智先生一起，將這個(gè)接口以聯(lián)盟和團(tuán)標(biāo)的形式發(fā)布出來(lái)。值得注意的是，這個(gè)產(chǎn)業(yè)聯(lián)盟（中國(guó)Chiplet產(chǎn)業(yè)聯(lián)盟）在2020年9月成立，2022年3月，UCIe成立Chiplet這件事情變火，所以我們其實(shí)早于它。

我們意識(shí)到這件事情之后，就把整個(gè)芯?；ヂ?lián)的接口標(biāo)準(zhǔn)以及車規(guī)的互聯(lián)標(biāo)準(zhǔn)都開放出來(lái)，然后和制車廠一起把這些東西跑通。

我的目標(biāo)就是創(chuàng)造高性能計(jì)算的新范式。

04.全國(guó)產(chǎn)供應(yīng)鏈跑通已為最終客戶送樣

北極雄芯在這里面偏商業(yè)化一點(diǎn)，我們從2018年開始一點(diǎn)點(diǎn)做，直到2020年9月，我們和封裝廠耦合了一段時(shí)間后才把整個(gè)東西搞清楚，2021年成立公司?，F(xiàn)在，我們有量產(chǎn)的產(chǎn)品、能實(shí)現(xiàn)收入、把“930”發(fā)布出來(lái)，這就是整個(gè)公司發(fā)展的簡(jiǎn)單回顧。

真正的架構(gòu)長(zhǎng)這樣（如下圖），我們稱作通用型HUB Chiplet、Functional Chiplet方案。

在HUB里面，我們放了大家能想到的高端通用IP，如PCIe 5.0、LPDDR5這樣的IP，我的目標(biāo)是HUB使用時(shí)長(zhǎng)能達(dá)到五年。

除了HUB，我們還限定了功能模塊面積不超過(guò)100平方毫米，因?yàn)槲覀儼l(fā)現(xiàn)面積超過(guò)100平方毫米，良率會(huì)往下掉得非常嚴(yán)重。大家算一算，如果一個(gè)HUB差不多一兩百平方毫米，F(xiàn)unctional Die拼四個(gè)，實(shí)際上能拼8到16個(gè)，比如拼8個(gè)加起來(lái)有800平方毫米，甚至1000平方毫米，其算力實(shí)際上很大。

用這種形式，我們就可以把專用和通用拆分出來(lái)，客戶有訴求可以選我們的接口，也可以選其它接口，然后將其連起來(lái)。還有其他客戶的東西，我們也可以幫忙導(dǎo)入。

所以從解決方案到接口到封裝，我們可以提供全套的解決方案，也可以根據(jù)大家的需求來(lái)做，所以我們能真正把這款芯片做出來(lái)。

這是我第一次在公開場(chǎng)合把這張圖（如下圖）拋出來(lái)，它非常復(fù)雜，由11塊Chiplet拼在一起，采用2.5D封裝，純國(guó)產(chǎn)工藝。

這件事情我做了三年，從2019年開始一直在和封裝廠耦合。不瞞大家說(shuō)，國(guó)內(nèi)的封裝在一些基板技術(shù)上有差距，中國(guó)臺(tái)灣的技術(shù)能做到30層基板，國(guó)內(nèi)能量產(chǎn)的水平差不多在8到10層。

這是為什么？因?yàn)槠涫且粚幽?，做完一層鋪一層膜，一層良?9%的話，做30層就是0.99的30次冪。因此，我們選擇自己做，將11塊拼在一起，左右可以是NPU，上下可以自己定義，用這種形式可以將其做起來(lái)。北極雄芯真正的Know-How就是用更復(fù)雜的接口換取了對(duì)更差封裝的容忍。

給大家舉個(gè)例子，底下藍(lán)色的叫基板，如果有30層布線隨便布，但我們現(xiàn)在僅有6到8層基板，扣去兩層電源和ID就剩4到6層，所以沒(méi)有足夠的位置布足夠的線。

所以我們只能把提升單根線的速度，這就遇到另外一個(gè)問(wèn)題，單根線的速度上來(lái)之后，一個(gè)接口只有38根線，一共380根線，對(duì)比蘋果10萬(wàn)根線是巨大的數(shù)量級(jí)的差距。

單根線的速度頻率比較高，但這個(gè)解決方案的問(wèn)題是什么？用高速串口，可以想象成射頻領(lǐng)域，射頻對(duì)基板的要求很高，需要防止毛刺、差損、回?fù)p對(duì)接口產(chǎn)生影響。

因?yàn)槠胀ǖ牟⒖?00兆只需要連接就可以，高頻率就會(huì)對(duì)封裝有要求。所以我們真正做的事情就是跟國(guó)內(nèi)所有封裝廠做封裝，把參數(shù)提取出來(lái)，再看國(guó)內(nèi)團(tuán)隊(duì)有沒(méi)有能力把這個(gè)接口做完去適應(yīng)這套封裝，把其中的差距補(bǔ)回來(lái)。

當(dāng)然這套方案也存在問(wèn)題，例如高速串口的帶寬可以支撐，但串口的延遲相比于并口延遲會(huì)更大。

這種方案好處在于：首先，其基本上能用國(guó)產(chǎn)的供應(yīng)鏈，采用CoWos先進(jìn)封裝僅20%-30%的成本，做出同樣性能的芯片。

二是這些東西要跑通，還要看最后的系統(tǒng)利用率，如Die to Die能拉多少？算力可拓展嗎？以及將整個(gè)供應(yīng)鏈都跑通后真正給最終用戶送樣。

北極雄芯的主要客戶很多是主機(jī)廠和板卡供應(yīng)商，所以這些網(wǎng)絡(luò)都是他們提出來(lái)的。我們真正將廠商的軟件棧跑齊、驗(yàn)證后發(fā)現(xiàn)整個(gè)利潤(rùn)率差不多在60%左右。

我們有一套軟件工具，這套工具跟前面大廠提的看起來(lái)好像一樣，但實(shí)際上有50%的東西是完全不同的。

它們不一樣的地方在于，我們的方案中間是一個(gè)HUB，邊上掛了10個(gè)Chiplet。這樣就有一個(gè)問(wèn)題，從硬件封裝的角度來(lái)說(shuō)好像只要連接上就可以，但如果從軟件或者算法的角度看，假設(shè)每一個(gè)小的東西里面都是一個(gè)Mesh，比如每個(gè)都是小的計(jì)算單元NPU，從上往下看就是一個(gè)巨大的Mesh，但是在畫虛線的地方是Die to Die的接口，這里面的傳輸功耗相對(duì)比較小，一旦越過(guò)Die to Die，就會(huì)有延遲，且有功耗代價(jià)。

因此，我們發(fā)現(xiàn)它會(huì)把這件事情切得很小，原來(lái)我想得很簡(jiǎn)單，以這個(gè)為例（如下圖），這是一個(gè)ResNet 18的網(wǎng)絡(luò)，我將其一層層擺下來(lái)后發(fā)現(xiàn)這種形式不行，因?yàn)樗竭^(guò)這層線功耗就會(huì)變大，比SoC糟糕3倍。所以我就意識(shí)到第二個(gè)問(wèn)題，能不能“之字型”繞起來(lái)，這也是一種解決方案，但我后來(lái)發(fā)現(xiàn)這個(gè)方法也不行。

實(shí)際上現(xiàn)在北極雄芯內(nèi)部，真正的另外一個(gè)Know-How就是在編譯層面，這個(gè)策略有AI的方法，也有暴力的辦法。

我舉一個(gè)例子，以這張4×4的圖為例（如下圖），我想在里面盡可能做到復(fù)用，排出來(lái)的最好形式就是第二張圖，第三張圖是機(jī)器搜出來(lái)的最好方式，這個(gè)東西剛開始我無(wú)法理解。其中，第0層、第1層等是散的。當(dāng)我們回頭測(cè)算時(shí)發(fā)現(xiàn)，用這種形式其網(wǎng)絡(luò)內(nèi)部復(fù)用是最好的，沒(méi)有跨Die或者跨Die的數(shù)量搬運(yùn)很少，用這種形式基本上能跟SoC的功耗拉齊。

因?yàn)檫@里面有很多事情要做，比如鑒定這塊復(fù)用、如何做數(shù)據(jù)交換、這個(gè)角的數(shù)據(jù)最好不要跟那個(gè)角的數(shù)據(jù)交換等，用這種形式我們就可以把整個(gè)功耗壓到相當(dāng)?shù)?。Chiplet帶來(lái)的芯粒稅問(wèn)題，包括接口帶來(lái)的問(wèn)題，用編譯的角度能將其影響降到最低。

北極雄芯正在做的就是把整個(gè)東西打散，按照不同的模塊再規(guī)劃起來(lái)，重新梳理數(shù)據(jù)流，采用國(guó)產(chǎn)供應(yīng)鏈全部封裝起來(lái)，做成板卡把芯片跑起來(lái)，給最終的客戶送樣，并且能在芯片上把多個(gè)網(wǎng)絡(luò)實(shí)時(shí)并行跑通，這件事情是過(guò)去北極雄芯在過(guò)去四年做的事情。

我的演講就到這里，謝謝大家！

以上是馬愷聲演講內(nèi)容的完整整理。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
MC56F8345VFGE	1	Freescale Semiconductor	16-bit DSC, 56800E core, 128KB Flash, 60MHz, QFP 128		$22	查看
AT32UC3A0512-ALUT	1	Microchip Technology Inc	IC MCU 32BIT 512KB FLASH 144LQFP	ECAD模型下載ECAD模型	$11.33	查看
MPC5554MZP132	1	Freescale Semiconductor	32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416		$80.8	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

MC56F8345VFGE

Freescale Semiconductor

16-bit DSC, 56800E core, 128KB Flash, 60MHz, QFP 128