存內(nèi)計(jì)算由于突破傳統(tǒng)馮·諾依曼架構(gòu)瓶頸,實(shí)現(xiàn)了存儲(chǔ)單元與邏輯單元的融合,成為實(shí)現(xiàn)智能計(jì)算的主要技術(shù)路線之一,受到業(yè)界龍頭企業(yè)的高度重視。在近日召開(kāi)的國(guó)際固態(tài)半導(dǎo)體電路會(huì)議(ISSCC)上,SK海力士發(fā)表了基于GDDR接口的DRAM存內(nèi)計(jì)算,臺(tái)積電共發(fā)表(或合作發(fā)展)6篇有關(guān)存內(nèi)計(jì)算存儲(chǔ)器IP的論文。隨著人工智能對(duì)高性能、低功耗處理需求的不斷增強(qiáng),存內(nèi)計(jì)算的開(kāi)發(fā)進(jìn)程必將不斷加快,并走向現(xiàn)實(shí)應(yīng)用。
存內(nèi)計(jì)算受關(guān)注,龍頭企業(yè)重點(diǎn)布局
ISSCC一向是半導(dǎo)體產(chǎn)業(yè)界展示最新研發(fā)成果的平臺(tái)之一,在今年的發(fā)布重點(diǎn)中,存內(nèi)計(jì)算無(wú)疑位列其中。SK海力士發(fā)表存內(nèi)計(jì)算的開(kāi)發(fā)成果——基于GDDR接口的DRAM存內(nèi)計(jì)算,并展示了其首款基于存內(nèi)計(jì)算技術(shù)產(chǎn)品——GDDR6-AiM的樣本。
SK海力士表示,GDDR6-AiM是將計(jì)算功能添加到數(shù)據(jù)傳輸速度為16Gbps的GDDR6內(nèi)存產(chǎn)品中。與傳統(tǒng)DRAM相比,將GDDR6-AiM 與CPU、GPU相結(jié)合的系統(tǒng)可在特定計(jì)算環(huán)境中將計(jì)算速度提高16倍。此外,由于存內(nèi)計(jì)算在運(yùn)算中減少了內(nèi)存與CPU、GPU間的數(shù)據(jù)傳輸往來(lái),大大降低了功耗,GDDR6-AiM可使功耗降低80%。SK海力士解決方案開(kāi)發(fā)擔(dān)當(dāng)副社長(zhǎng)安炫表示:“基于具備獨(dú)立計(jì)算功能的存內(nèi)計(jì)算技術(shù),SK海力士將通過(guò)GDDR6-AiM構(gòu)建全新的存儲(chǔ)器解決方案生態(tài)系統(tǒng)。”
臺(tái)積電在存內(nèi)計(jì)算研發(fā)方面的投入也很大。在本屆ISSCC上,臺(tái)積電共合作發(fā)表了6篇關(guān)于存內(nèi)計(jì)算存儲(chǔ)器IP的論文,其中一篇的作者全部來(lái)自臺(tái)積電,其余5篇?jiǎng)t是臺(tái)積電和其他高校合作。臺(tái)積電獨(dú)立發(fā)表的SRAM論文基于5nm工藝,可以在不同計(jì)算精度下實(shí)現(xiàn)高計(jì)算密度和能效比。
事實(shí)上,三星、IBM、東芝、英特爾等半導(dǎo)體大廠在存內(nèi)計(jì)算方面也早有布局。三星日前在頂級(jí)學(xué)術(shù)期刊Nature上發(fā)表全球首個(gè)基于MRAM的存內(nèi)計(jì)算研究,基于28nm CMOS工藝的MRAM陣列進(jìn)行存內(nèi)計(jì)算的開(kāi)發(fā),所構(gòu)建的新型MRAM陣列用于運(yùn)行手寫(xiě)數(shù)字識(shí)別和人臉檢測(cè)等AI算法,準(zhǔn)確率分別達(dá)到98%和93%。
國(guó)內(nèi)廠商方面,阿里達(dá)摩院、知存科技、Myhtic等也以AI為契機(jī),積極進(jìn)行特定領(lǐng)域、特定功能的AI存算一體芯片開(kāi)發(fā)。去年5月,Myhtic宣布完成C輪7000萬(wàn)美元融資。去年6月,知存科技宣布完成億元A3輪融資。
AI應(yīng)用拉動(dòng)需求,邁入產(chǎn)品化前夜
隨著人工智能應(yīng)用的爆發(fā),業(yè)界迫切需要一項(xiàng)技術(shù)來(lái)解決傳統(tǒng)馮·諾依曼架構(gòu)存在的算力瓶頸與高功耗問(wèn)題。這也是一眾半導(dǎo)體大廠關(guān)注存內(nèi)計(jì)算的主要原因。
對(duì)此有業(yè)內(nèi)專家告訴記者,當(dāng)前主流的計(jì)算架構(gòu)均采用馮·諾依曼架構(gòu),其存在兩個(gè)固有問(wèn)題:即所謂的內(nèi)存墻問(wèn)題和功耗墻問(wèn)題。馮·諾依曼架構(gòu)的計(jì)算單元與存儲(chǔ)單元分置,之間用數(shù)據(jù)總線連接,運(yùn)算過(guò)程中就需要使數(shù)據(jù)在處理器與存儲(chǔ)器之間進(jìn)行頻繁遷移,這一過(guò)程產(chǎn)生的功耗極為巨大,甚至比真正用于數(shù)據(jù)處理所產(chǎn)生的功耗還要高上百倍。內(nèi)存墻則是指目前的CPU運(yùn)算速度比存儲(chǔ)器的數(shù)據(jù)存取速度快得多,存儲(chǔ)器成為制約數(shù)據(jù)處理速度提高的主要瓶頸?,F(xiàn)在的人們應(yīng)對(duì)這個(gè)問(wèn)題的主要方法是提高內(nèi)存的處理速度或加大數(shù)據(jù)傳輸帶寬,但這些都不能從根本上解決問(wèn)題,開(kāi)發(fā)一種將存儲(chǔ)單元與處理單元完全整合的處理器方案,就成為解決這一問(wèn)題的終極方案。
SK海力士定制設(shè)計(jì)項(xiàng)目負(fù)責(zé)人Dae-han Kwon 也指出:“對(duì)于 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))等內(nèi)存受限的應(yīng)用程序,當(dāng)應(yīng)用程序在DRAM中使用計(jì)算電路執(zhí)行時(shí),性能和功率效率有望顯著提高??紤]到要處理的數(shù)據(jù)量將大幅增加,存內(nèi)計(jì)算有望成為改善當(dāng)前計(jì)算機(jī)系統(tǒng)性能極限的有力候選者。”
正是在人工智能特別是邊緣AI應(yīng)用需求的推動(dòng)下,存內(nèi)計(jì)算的產(chǎn)品化開(kāi)發(fā)進(jìn)程也在加快。根據(jù)北京大學(xué)信息科學(xué)技術(shù)學(xué)院微納電子學(xué)系副教授葉樂(lè)的介紹,存內(nèi)計(jì)算技術(shù)大概率會(huì)實(shí)現(xiàn)產(chǎn)品化。目前基于SRAM的存內(nèi)計(jì)算,已經(jīng)進(jìn)入到產(chǎn)品化的前夜,有望率先在可穿戴設(shè)備、智能手機(jī)等智能物聯(lián)網(wǎng)AIoT領(lǐng)域應(yīng)用,估計(jì)1到2年就有望看到產(chǎn)品級(jí)的SRAM存內(nèi)計(jì)算芯片實(shí)現(xiàn)商業(yè)化落地。在此之后,存內(nèi)計(jì)算芯片會(huì)逐漸往更大算力的應(yīng)用領(lǐng)域滲透?;贛RAM的存內(nèi)計(jì)算則會(huì)稍微滯后一些,這主要跟工藝可獲得性有關(guān)?;贒RAM的存內(nèi)計(jì)算芯片,有可能需要更長(zhǎng)的時(shí)間才會(huì)落地,原因在于DRAM存內(nèi)計(jì)算適用于大算力AI芯片,因此還需要解決其他一系列的技術(shù)難題,例如陣列間的互連和架構(gòu)問(wèn)題等。此外,大算力芯片,往往對(duì)通用性和可編程性要求更高,因此對(duì)于大算力芯片,架構(gòu)需要更多的考慮通用性和可編程性,并且軟硬件協(xié)同設(shè)計(jì)、編譯器等工具鏈的重要性和難度也更為突出。
葉樂(lè)強(qiáng)調(diào),不同應(yīng)用場(chǎng)合對(duì)存內(nèi)計(jì)算的需求也不同,消費(fèi)電子、物聯(lián)網(wǎng)終端、邊端計(jì)算、云端計(jì)算對(duì)功耗、能效、算力密度、Bit精度、絕對(duì)算力、成本、是否需要非易失性等方面的側(cè)重點(diǎn)和側(cè)重程度各不相同,因此各類存內(nèi)計(jì)算技術(shù),均會(huì)有發(fā)展的必要性。
生態(tài)搭建存挑戰(zhàn),存內(nèi)邏輯是方向
盡管存內(nèi)計(jì)算的商業(yè)化進(jìn)程不斷臨近,但在開(kāi)發(fā)與應(yīng)用中存在的挑戰(zhàn)也不容忽視。業(yè)內(nèi)專家指出,相較于傳統(tǒng)處理器,存內(nèi)計(jì)算本身就是一門(mén)非常復(fù)雜的、技術(shù)壁壘極高的設(shè)計(jì)方法,屬于需要多年經(jīng)驗(yàn)積累、大量資源以及時(shí)間投入才能實(shí)現(xiàn)的尖端領(lǐng)域。而更大的挑戰(zhàn)還涉及到相關(guān)產(chǎn)業(yè)生態(tài)的整合,其中面臨的挑戰(zhàn)更加復(fù)雜。
在馮·諾依曼架構(gòu)下,處理器與存儲(chǔ)器是分別獨(dú)立發(fā)展的,經(jīng)過(guò)這么多年均已各自形成獨(dú)立的產(chǎn)業(yè)生態(tài),從設(shè)計(jì)到制造再到軟件都已相當(dāng)完備。而存內(nèi)計(jì)算要想發(fā)展起來(lái),實(shí)際是要將兩個(gè)獨(dú)立的生態(tài)整合到一起,其中所需投入的精力和資源是非常巨大的。
盡管存內(nèi)計(jì)算面臨技術(shù)開(kāi)發(fā)與產(chǎn)業(yè)生態(tài)的雙重挑戰(zhàn),但是其整體發(fā)展趨勢(shì)依然被看好。葉樂(lè)指出,存內(nèi)計(jì)算將是大勢(shì)所趨,只有這種革命性的徹底的架構(gòu)革新,才能真正解決內(nèi)存墻和功耗墻的問(wèn)題。從技術(shù)趨勢(shì)上看,存算一體芯片將循著近存儲(chǔ)計(jì)算、內(nèi)存儲(chǔ)計(jì)算、內(nèi)存執(zhí)行計(jì)算的技術(shù)路線發(fā)展。
此外,基于哪類存儲(chǔ)進(jìn)行存內(nèi)計(jì)算設(shè)計(jì)也是開(kāi)發(fā)重點(diǎn)之一。此次Sk海力士便基于DDR進(jìn)行開(kāi)發(fā)的,臺(tái)積電則是基于SRAM。對(duì)此專家指出,目前開(kāi)發(fā)者的研究之所以多是基于SRAM展開(kāi),一方面是因?yàn)镾RAM比較容易獲得,SRAM在標(biāo)準(zhǔn)CMOS工藝下即可得到,流片門(mén)檻較低。另一方面則因SRAM的存取速度是所有主流存儲(chǔ)器中最接近CPU的,基于它進(jìn)行存內(nèi)計(jì)算開(kāi)發(fā),最容易解決內(nèi)存墻問(wèn)題。但是SRAM也存在芯片成本高、面積大的問(wèn)題。更重要的是,SRAM屬易失性存儲(chǔ)器,斷電后數(shù)據(jù)無(wú)法保存,還要把數(shù)據(jù)傳輸?shù)狡渌?a class="article-link" target="_blank" href="/tag/NAND%20Flash/">NAND Flash等存儲(chǔ)器當(dāng)中,并不能從根本上解決功耗問(wèn)題。NAND閃存等非易失性存儲(chǔ)器可以保存處理后的數(shù)據(jù),還具有成本低、容量大等優(yōu)勢(shì),但是NAND閃存的存取速度慢,依然限制著未來(lái)存內(nèi)計(jì)算芯片的速度。
因此,專家認(rèn)為,對(duì)于那些投入存內(nèi)計(jì)算開(kāi)發(fā)的半導(dǎo)體大廠來(lái)說(shuō),將來(lái)更大的可能是基于新型存儲(chǔ)器如MRAM、ReRAM等,做存內(nèi)計(jì)算的開(kāi)發(fā)。此類新型存儲(chǔ)器一些性能上的優(yōu)勢(shì)是傳統(tǒng)存儲(chǔ)器所不具備的。當(dāng)然,專家也指出,當(dāng)前業(yè)界開(kāi)發(fā)的新型存儲(chǔ)技術(shù)工藝還不成熟,以之為基礎(chǔ)進(jìn)行存內(nèi)計(jì)算或會(huì)需要的研發(fā)更長(zhǎng)時(shí)間。
作者丨陳炳欣
編輯丨連曉東
美編丨馬利亞