人們都相信chiplet有希望打破阻礙摩爾定律的壁壘,并顛覆半導(dǎo)體供應(yīng)鏈。但它們依賴于復(fù)雜的封裝解決方案,且這些解決方案遠(yuǎn)未達(dá)到成熟。
由于chiplet據(jù)稱能夠?qū)⒁粋€龐大、先進(jìn)的SoC解構(gòu)為相對低端制程的較小的die,從而暗示了一種繞過摩爾定律的道路。通過提供一種替代方案,chiplet也有望改變10nm以上芯片制造的兩方壟斷局面,從而帶來更多樣化、更穩(wěn)健的供應(yīng)鏈。
Chiplet聽起來似乎簡單,但其背的SiP(system-in-package)技術(shù)卻是一項非同小可的技術(shù)。在基于chiplet的SiP推廣之前,必須克服幾類技術(shù)挑戰(zhàn)。目前的跡象是樂觀的,但chiplet得到普及還有一段路要走。
KGD問題??
首先是KGD(known good die)問題,這是一個乘法問題。簡單來說,SiP能夠正常工作的概率小于SiP中每個單獨die的良率的乘積(假設(shè)這些單個概率在統(tǒng)計上是獨立的)。
如果你有一個由兩個die組成的SiP(比如,一個CPU和一個大cache),假如CPU die的良率是90%,cache的良率是98%,那么你就可以推算出SiP的良率,即兩者的乘積,大約88%。
于是,這個問題很快就會變得比較復(fù)雜。例如,Intel最近宣布,其Ponte Vecchio GPU SiP包含驚人的47種不同類型的die。如果進(jìn)入SiP的每個die中有1%是有問題的,即使在裝配、封裝和測試中沒有任何損失,Intel也只能在裝配和封裝后獲得低于63%的良率。如果這個進(jìn)料異常率提高到10%,那么大約每150個GPU SiP中只有一個是可以正常工作的。
那么,該怎么做呢?顯然,第一步是盡一切可能降低進(jìn)料異常率。這包括在每個入廠die的測試階段增強(qiáng)測試覆蓋。Chiplet供應(yīng)商(尤其是所有的die不是來自同一供應(yīng)商的情況下)必須不僅測試短路或開路,還要測試時序故障、內(nèi)存性能,以及可能暗示早期老化故障的參數(shù),包括他們能識別出可能導(dǎo)致SiP提前失效的任何問題。在晶圓經(jīng)過測試并分解成單獨的die之后,可能需要再次通過光學(xué)檢查和電氣測試,以排除在分離過程中受損的die。
即使進(jìn)行了廣泛的測試覆蓋,仍然會存在問題。測試向量不可避免地會遺漏一些故障。有些故障會是間歇性的,或者只會隨時間的推移出現(xiàn)。在某些設(shè)計中,要達(dá)到在SiP級別上可接受的良率可能需要冗余和自我修復(fù)技術(shù),而這些技術(shù)目前在某些特定的關(guān)鍵任務(wù)芯片之外還處于非常早期的開發(fā)階段?;蛘?,可能需要一種實際的方法來修復(fù)SiP,而不是丟棄它,這在可靠性實驗室之外是不可能的。在一定程度上,修復(fù)取決于SiP的組合方式。
結(jié)構(gòu)幾乎決定一切??
在SiP中將die組合在一起有很多種方式。Die之間傳輸信號的方式也有很多種。這兩個問題是分開的,但卻相互交織。
最簡單的die的排列方式是將它們像地磚一樣平放在基板上。Die可以是正面朝上,也可以是正面朝下?;蹇梢允怯糜趩蝹€die封裝的同一材料,或者是更先進(jìn)的有機(jī)材料,支持更細(xì)的互連線路和更精細(xì)控制的阻抗?;蛘?,它可以是硅。在不久的將來,包括Intel在內(nèi)的一些公司可能會開始使用玻璃。
如果你需要減小SiP的面積,或者如果你需要讓一些die物理上接觸到彼此,以便在它們之間獲取更多或更快的連接,你可以將die堆疊起來。這可能意味著簡單地將一個die放在其他die的上面,使邊緣重疊,或者在一個更大的die上放一個更小的die?;蛘?,它可能意味著建造精細(xì)的die塔,比如在內(nèi)存控制器die上堆疊一堆高帶寬內(nèi)存die,形成一個非??焖俚腄RAM塔。
這些技術(shù)的組合也是可能的。
互聯(lián)問題??
互連是另一個問題。如何將信號和電源從一個地方傳輸?shù)搅硪粋€地方取決于很多因素:涉及信號數(shù)量、帶寬或比特率、你能容忍的延遲,以及你的預(yù)算。
除了最后一點,所有這些都受到一個因素的強(qiáng)烈影響:系統(tǒng)架構(gòu)如何巧妙地分割為chiplet。如果它們之間只有少數(shù)低速總線和控制信號,那么互連就很容易。相反,如果在SiP中分布的chiplet之間有數(shù)千個信號,而它們的速度限制了最終系統(tǒng)的性能,那么只有最先進(jìn)的封裝才能有效地工作。
一旦你量化了互連需求,就有很多可選方案。首先是傳統(tǒng)的線鍵合,在die和基板上的鍵合墊之間串接超細(xì)線。線鍵合可追溯到晶體管時代的初期,是已經(jīng)非常成熟并且普及的技術(shù)。線鍵合可以將die相互連接起來,也可以將die連接到基板上的鍵合墊上。但目前線鍵合能提供的密度(每平方毫米的墊數(shù))和頻率最低。由于這些原因,焊線技術(shù)通常與傳統(tǒng)封裝基板材料一起使用。
如果你需要更高的互連密度或速度,你必須將一個表面上的接觸點直接連接到另一個表面上的接觸點。在中等密度的情況下,通常通過在兩個墊之間放一個焊球來完成。在更高密度時,你需要制造一些更復(fù)雜的結(jié)構(gòu),比如一組銅柱,來連接兩個表面上的墊。(在光學(xué)顯微照片中,這些銅柱陣列看起來就像一個農(nóng)場或城市的天際線。)
這些技術(shù)要求兩個表面面對面,完全平整,并且墊要完全對齊。這需要兩個die,或者die和基板,為彼此設(shè)計或設(shè)計為一個公共的接口標(biāo)準(zhǔn)。但是在某些情況下,所有的die都不能面對面安裝:例如,3個die的堆棧。因此,你將不得不以某種方式將一些信號從die的活動面移動到背面的接觸墊。要做到這一點,你可以在分離后的die上制作穿過die邊緣、向下并繞到背面的導(dǎo)線?;蛘?,現(xiàn)在更常用的方法是在減薄的晶片上鉆通硅孔。無論如何,晶圓都需要進(jìn)行特殊的處理,以創(chuàng)建連接并在背面制造痕跡和著陸點,這是chiplet供應(yīng)商必須要理解的事實。
這些技術(shù)通常會配合使用高性能有機(jī)基板,上面帶有非常精細(xì)的互連線,也可能帶有一些活動部件。在最嚴(yán)苛的設(shè)計中,設(shè)計師可能會選擇硅而非有機(jī)材料,并使用IC晶圓制造工藝的最后步驟來在硅上創(chuàng)建超精細(xì)的互連線。這樣的硅基板通常被稱為interposer。Intel使用的一個有趣的變體,稱為EMIB(embedded multidie interconnect bridge),將小塊的硅植入到有機(jī)基板中。Die是朝下安裝的,以便它們的接觸點落在EMIB橋上,這些橋在相鄰的die之間傳送信號。
隨著這些技術(shù)變得更加精細(xì),成本也會翻倍,因此這項技術(shù)更有可能專屬于一個大型代工廠。但最近,另一種替代方案出現(xiàn)在許多信號需要連接的情況下,其中一些可能具有非常高的數(shù)據(jù)速率,但沒有哪個特別敏感于延遲。這種技術(shù),由初創(chuàng)公司Eliyan推廣,借用了來自網(wǎng)絡(luò)和FPGA行業(yè)的高速串行接口技術(shù)。但Eliyan將接口硬件簡化,以符合芯片互連的特定要求,獲取的接口小,功耗低,但能夠在甚至是傳統(tǒng)基板上以每秒數(shù)十Gb的速度傳輸數(shù)據(jù)包。你可以將信號分解成數(shù)據(jù)包,將數(shù)據(jù)包多路復(fù)用,然后將所有數(shù)據(jù)通過單線以串行方式傳輸。Eliyan聲稱,該技術(shù)可以大大減少die之間的信號線的數(shù)量。更重要的是,由于收發(fā)器可以根據(jù)普通鏈路的特性進(jìn)行調(diào)整,因此該技術(shù)可以緩解或消除對先進(jìn)封裝材料和技術(shù)的需求。
大量的分析需求??
一旦你決定了SiP的形式,chiplet組裝需要在許多領(lǐng)域進(jìn)行大量分析,其中只有一部分是電氣方面的。例如,你需要考慮熱行為。封裝中的每一個die都是一個熱源,有自己的熱點和冷點,其位置和溫度會隨著系統(tǒng)操作模式和工作負(fù)載的不同而改變。將die組裝到先進(jìn)的封裝中會使它們相互加熱,并在die間積聚熱量,從而在三維空間中產(chǎn)生局部的、可能是移動的熱點。這些問題區(qū)域可能導(dǎo)致電路故障或SiP的物理損壞。因此,基于電路功率建模的動態(tài)3D熱分析是必要的。
承載SiP的電路板的熱膨脹和彎曲會導(dǎo)致SiP組件本身產(chǎn)生機(jī)械應(yīng)力。這種應(yīng)力可能會破壞微妙的互連或使die脫層。更嚴(yán)重的是,die上的應(yīng)力會改變其晶體管的電氣行為,從而導(dǎo)致電路故障。因此,除了熱分析外,還需要對SiP進(jìn)行機(jī)械分析,考慮熱膨脹、外部應(yīng)力和振動。
由于die間的互連比die內(nèi)部的互連長得多,且物理性質(zhì)也大不相同,因此需要對其進(jìn)行專門的建模,通常包括完全的電磁場建模。這是為了獲取穿越die間路徑的精確計時,以及進(jìn)行信號和功率完整性分析。
另一點涉及到對組裝和封裝的SiP進(jìn)行最終測試。由于芯片內(nèi)罕見的未檢測到的故障、機(jī)械損傷或互連故障,故障總會發(fā)生的。但是,大部分的SiP信號在設(shè)備封裝后無法接觸到測試器。因此,測試設(shè)計師必須達(dá)到出色的測試覆蓋率(并在此基礎(chǔ)上提供故障的根本原因分析),同時必須嚴(yán)重依賴chiplet本身的內(nèi)建的自我測試。
這只是基于chiplet的SiP可能面臨的問題的一些要點。雖然技術(shù)基本上已經(jīng)到位,盡管更先進(jìn)的技術(shù)如今是各個主要代工廠的專利。許多分析工具已經(jīng)存在,并正在凝聚成更易于操作的平臺。但是,從架構(gòu)劃分的基礎(chǔ)知識到die設(shè)計,再到封裝設(shè)計和分析,到供應(yīng)鏈管理的每個方面的學(xué)習(xí)曲線都很艱難,并且每個領(lǐng)域經(jīng)驗豐富的工程師都很稀缺。今天,將chiplet從一個偉大的想法落地為一種可行的技術(shù),再轉(zhuǎn)變?yōu)橐环N主流選擇,仍然是一個進(jìn)行中的工作。