HMC混合內(nèi)存立方體,HBM高帶寬內(nèi)存,都曾以取代DDRx為己任,兩者名稱接近,結(jié)構(gòu)類似,并且都有3D TSV 加持,性能均超過同時期DDRx的數(shù)倍。
在AI大潮的驅(qū)動下,HBM如日中天,HMC卻已悄然隱退,是何原因造成了如此大的差異?這篇文章就和大家一起分析其中的緣由。
DRAM Technology
1、HMC
HMC (Hybrid Memory Cube) 混合內(nèi)存立方體,曾被視為一項革命性的技術而寄予厚望。
HMC由美光和英特爾合作開發(fā),最初設計的目的是為了徹底解決DDR3所面臨的帶寬問題。
HMC于2011年推出,對于美光來說,其意義非凡,這將是擊敗三星、海力士兩大韓廠的獨門武器。
HMC 標準中,4 個 DRAM Die通過3D TSV連接到堆棧底層的邏輯控制芯片Logic Die,其示意圖如下所示:
TSV 技術誕生于1999年,最早在內(nèi)存行業(yè)實現(xiàn)商用,是先進封裝領域中最為重要的技術,沒有之一。
2011年,HMC正是借著TSV技術的東風,獲得該年《微處理器報告》最佳新技術獎,一時風頭無兩。
HMC設計中,從CPU處理器到存儲器堆棧的通信是通過高速 SERDES 數(shù)據(jù)鏈路進行的,該鏈路會連接到 DRAM 堆棧底部的邏輯控制器芯片。處理器沒有集成到堆棧中,從而避免了芯片尺寸不匹配和散熱問題,卻帶來了一個新的問題,就是處理器離存儲器堆棧比較遠,這日后也將成為HMC的重要短板。
HMC本質(zhì)上其實是一個完整的 DRAM 模塊,可以安裝在多芯片模塊 (MCM) 或 2.5D 無源插接器上,從而更加貼近 CPU,實際上卻沒有人這么做。除此之外,美光還推出了一個"遠存儲器"的配置,在這一配置中,一部分 HMC 連接到主機,而另一部分 HMC 則通過串行連接到其他 HMC,以此來形成存儲器立方體網(wǎng)絡。
在許多人擔心的延遲問題上,美光表示,雖然HMC的串行鏈路會略微增加系統(tǒng)延遲,但整體的延遲反而是顯著降低的,HMC 比 DDR4 提高了約 3 倍的能效(以 pj/bit 為單位)。
DRAM Technology
2、HBM
HBM (High Bandwidth Memory?) 高帶寬內(nèi)存,將很多個DRAM芯片堆疊在一起后和GPU封裝在一起,實現(xiàn)大容量,高位寬的DRAM組合陣列。
首先,HBM垂直堆疊內(nèi)存芯片,4 個 DRAM Die通過3D TSV連接到堆棧底層的邏輯控制芯片Logic Die,這點和HMC是相同的。然后,這些DRAM堆棧通過Interposer中介層連接到 CPU 或 GPU。
雖然這些 HBM 堆棧沒有與 CPU 或 GPU 進行3D集成,但它們通過中介層緊密而快速地連接在一起,以至于 HBM 的特性與片上集成 RAM 幾乎沒有區(qū)別。
HBM由和海力士和AMD共同研發(fā),其推出時間為2013年,被HMC晚了兩年。
HBM使用了 128 位寬通道,最多可堆疊 8 個通道,形成 1024 位接口,總帶寬在 128GB/s 至 256GB/s 之間。
DRAM Technology
3、HMC vs HBM
比較HMC和HBM,我們可以看出,二者是何其的相似,都是DRAM堆疊在邏輯控制器之上,都采用了3D TSV技術,都是由大廠推出(HMC:美光+英特爾;HBM:海力士+AMD),HMC推出時間2011年,HBM為2013年,也很接近。
今天HBM如日中天,HMC卻已經(jīng)淡出江湖,是何緣由呢?
筆者分析大致有以下兩個原因:1.結(jié)構(gòu)差異,2.行業(yè)標準。
結(jié)構(gòu)差異
雖然HMC和HBM結(jié)構(gòu)相似,都是將DRAM堆疊在邏輯控制器之上,并且都采用了3D TSV技術,但是,HBM卻多了一層Interposer,通過Interposer將DRAM堆棧和GPU緊密集成在一起。可以說有GPU的地方,必有HBM。
HBM通過GPU確定了自己的地位,AMD和英偉達先后都選擇了HBM來作為自家顯卡的內(nèi)存,正趕上人工智能的大潮,不火都難。
HMC將內(nèi)存堆棧放置在距離CPU/GPU 很遠的位置的方法意味著3D芯片堆疊和固有的低延遲的大部分優(yōu)勢都會喪失,畢竟物理定律是誰也無法逃脫的,信號的傳輸速度只能那么快。遠,就意味著更大的延遲。
假設分別包含HBM和HMC的系統(tǒng),我們來繪制最小的立方體,并檢查其功能密度,即單位體積內(nèi)包含的功能單位的數(shù)量,可以簡單理解為單位體積內(nèi)包含的晶體管數(shù)量??梢钥闯鯤BM要明顯大于HMC,即HBM的功能密度更高,因此,作為先進封裝的重要指標來說,HBM的先進程度更高。在熱量能夠散出的前提下,緊湊緊湊再緊湊就是先進封裝的設計原則,為此,我提出了功能密度定律,作為描述系統(tǒng)集成度的重要依據(jù)。詳見拙著《基于SiP技術的微系統(tǒng)》。通過3D TSV 集成,垂直堆疊芯片,解決了芯片上晶體管等微小組件的一個重要問題:距離。通過將器件垂直堆疊在一起,可以最大限度縮短它們之間的距離,從而減少延遲和功耗。
這一點上,HMC和HBM都做到了。然而,HMC沒有 Interposer,無法和CPU/GPU進行緊密的集成,因而影響其功能密度, 而HBM卻通過Interposer將內(nèi)存堆棧和CPU/GPU進行緊密集成,有效地提升其功能密度,從而在競爭中勝出。HMC是典型的3D集成技術,而HBM則更高一籌,被稱為3.5D集成技術,別小看這0.5個維度,它能帶來更緊密的集成度,從而提高系統(tǒng)的功能密度。
從結(jié)構(gòu)上來說,HBM真正擊敗HMC的原因是什么呢?距離。
有人問,HMC敗北HBM是因為它是3D封裝而HBM是3.5D嗎?是的,確實可以這么理解。
行業(yè)標準
結(jié)構(gòu)上的短板,使得HMC必然在功能密度上比不上HBM,在HBM推出后,HMC頹勢已顯。而給HMC致命一擊的是,HBM推出沒多久,就被定為了JEDEC行業(yè)標準,而HMC雖然比HBM早兩年推出,卻只有一個HMCC在苦苦支撐。一個是行業(yè)內(nèi)主要科技公司都認可的大組織,一個是美光自己拉起來的小圈子,比賽還沒正式開始,勝負就已經(jīng)分出。
擁有數(shù)百家會員公司的JEDEC奉行一公司一票與三分之二多數(shù)的制度,從而降低了標準制定被任何一家或一批公司所把控的風險。也就是說,JEDEC標準的話語權(quán)并不由巨頭所掌握,只有大家真正認可,才會最終被推行為正式標準。2018年,人工智能開始興起,高帶寬成為了內(nèi)存行業(yè)的重心,和GPU緊密綁定的HBM贏得了最大的市場,主推該標準的海力士與三星成了大贏家,HBM的大客戶英偉達和AMD也因此而賺的盆滿缽滿。HMC早就沒有了2011年剛推出時的風光,門可羅雀,美光也不再執(zhí)迷不悟,于2018年8月宣布正式放棄HMC,轉(zhuǎn)向HBM。美光畢竟晚了一步,市場份額明顯落后于兩家韓廠,根據(jù)最新數(shù)據(jù),SK 海力士占據(jù)全球 HBM 市場 50% 的份額,位居第一;三星緊隨其后,占據(jù) 40% 的份額;而美光屈居第三,僅占據(jù) 10% 的市場份額。人工智能的興起,或許是壓倒HMC的最后一根稻草。事到如今,美光也不由地感慨:既生瑜何生亮?
在半導體江湖,新技術層出不窮,波浪蕩漾的湖面,星星點點,閃耀著科技的光芒。有些技術曾經(jīng)光芒四溢,最終卻黯然退出,有些卻能長時間屹立不倒,并推動人類科技的偉大進步。成王敗寇,半導體江湖也是如此。
作 者 著 作
《基于SiP技術的微系統(tǒng)》內(nèi)容涵蓋“概念和技術”、“設計和仿真”、“項目和案例”三大部分,包含30章內(nèi)容,總共約110萬+字,1000+張插圖,約650頁。
關注SiP、先進封裝、微系統(tǒng),以及產(chǎn)品小型化、低功耗、高性能等技術的讀者推薦本書。