制服丝袜人妻中文字幕在线,2021自拍偷在线精品自拍偷

近日，清華大學(xué)集成電路學(xué)院在2024 ACM/IEEE第51屆年度計(jì)算機(jī)體系結(jié)構(gòu)國(guó)際研討會(huì)(ISCA)上發(fā)表了國(guó)際首款面向視覺AI大模型的三維DRAM存算一體架構(gòu)，可大幅突破存儲(chǔ)墻瓶頸，并基于三維集成架構(gòu)特點(diǎn)，實(shí)現(xiàn)相似性感知計(jì)算，進(jìn)一步提高AI大模型的計(jì)算效率。

存算一體作為新一代計(jì)算技術(shù)，在數(shù)據(jù)運(yùn)算和存儲(chǔ)過(guò)程中實(shí)現(xiàn)了一體化設(shè)計(jì)，被認(rèn)為是后摩爾時(shí)代最重要的發(fā)展方向之一，將為人工智能的大規(guī)模應(yīng)用提供不竭的算力支撐。在更早之前，中科院和清華大學(xué)就在該領(lǐng)域不斷鉆研，逐步突破。

一、老問(wèn)題：內(nèi)存墻和IO墻的桎梏

理解該文前，需要對(duì)內(nèi)存墻和IO墻現(xiàn)象進(jìn)行基礎(chǔ)理解，這兩類現(xiàn)象來(lái)源于當(dāng)前計(jì)算架構(gòu)中的多級(jí)存儲(chǔ)。如圖所示，當(dāng)前的主流計(jì)算系統(tǒng)所使用的數(shù)據(jù)處理方案，依賴于數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理分離的體系結(jié)構(gòu)（馮諾依曼架構(gòu)），為了滿足速度和容量的需求，現(xiàn)代計(jì)算系統(tǒng)通常采取高速緩存(SRAM)、主存(DRAM)、外部存儲(chǔ)(NAND Flash)的三級(jí)存儲(chǔ)結(jié)構(gòu)。

常見的存儲(chǔ)系統(tǒng)架構(gòu)及存儲(chǔ)墻（全球半導(dǎo)體觀察制圖）

每當(dāng)應(yīng)用開始工作時(shí)，就需要不斷地在內(nèi)存中來(lái)回傳輸信息，這在時(shí)間和精力上都有著較大的性能消耗。越靠近運(yùn)算單元的存儲(chǔ)器速度越快，但受功耗、散熱、芯片面積的制約，其相應(yīng)的容量也越小。如SRAM響應(yīng)時(shí)間通常在納秒級(jí)，DRAM則一般為100納秒量級(jí)，NAND Flash更是高達(dá)100微秒級(jí)，當(dāng)數(shù)據(jù)在這三級(jí)存儲(chǔ)間傳輸時(shí)，后級(jí)的響應(yīng)時(shí)間及傳輸帶寬都將拖累整體的性能，形成“存儲(chǔ)墻”。

IO墻則產(chǎn)生于外部存儲(chǔ)中，因?yàn)閿?shù)據(jù)量過(guò)于龐大，內(nèi)存里放不下就需要借助外部存儲(chǔ)，并用網(wǎng)絡(luò)IO來(lái)訪問(wèn)數(shù)據(jù)。IO方式的訪問(wèn)會(huì)使得訪問(wèn)速度下降幾個(gè)數(shù)量級(jí)，嚴(yán)重拖累著整體性能，這即是IO墻。

現(xiàn)代處理器性能的不斷提升，而內(nèi)存與算力之間的技術(shù)發(fā)展差距卻不斷增大。業(yè)界數(shù)據(jù)顯示，在過(guò)去的20多年中，處理器的性能以每年大約55%速度快速提升，而內(nèi)存性能的提升速度則只有每年10%左右。并且，當(dāng)代內(nèi)存容量擴(kuò)展面臨著摩爾定律的壓力，速度在逐年減緩的同時(shí)，帶來(lái)的則是成本的愈發(fā)高昂。隨著大數(shù)據(jù)AI/ML等應(yīng)用爆發(fā)，以上問(wèn)題已經(jīng)成為制約計(jì)算系統(tǒng)性能的主要因素。

二、新問(wèn)題：近存計(jì)算與“灘前問(wèn)題”

據(jù)悉，岳志恒該論文題目為Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture，尹首一教授，胡楊副教授為本文通信作者，岳志恒為論文第一作者，論文合作者還包括香港科技大學(xué)涂鋒斌助理教授，上海交通大學(xué)李超教授等。

更早以前，岳志恒就發(fā)表了題為Understanding Hybrid Bonding and Designing a Hybrid Bonding Accelerator《理解混合鍵合和設(shè)計(jì)混合鍵合加速器》的論文，可視為上文的前身。該文在3D DRAM基礎(chǔ)上，提出了一種利用CSE加速視覺AI模型的混合鍵合設(shè)計(jì)，并提供了混合鍵合設(shè)計(jì)的全面分析，在多種基準(zhǔn)工作負(fù)載和數(shù)據(jù)集上評(píng)估，該項(xiàng)工作平均提高了5.69×～28.13×的能效和3.82×～10.98×的面積效率?？傮w而言，該文涉及了混合鍵合DRAM技術(shù)發(fā)展、I/O密度的限制和擴(kuò)展的難題、2.5D TSV先進(jìn)封裝的作用等內(nèi)容。

存儲(chǔ)計(jì)算隨著時(shí)代的發(fā)展已出現(xiàn)各種新的問(wèn)題和限制。在岳志恒的論文中，提到了近存計(jì)算與“灘前問(wèn)題”兩個(gè)概念。近存計(jì)算則是近年行業(yè)廣泛采用HBM作為解決方案后，再輔以先進(jìn)封裝方式將HBM芯片與計(jì)算芯片在silicon interposer上集成，以此計(jì)算芯片與存儲(chǔ)芯片近距離集成封裝，實(shí)現(xiàn)了計(jì)算單元與存儲(chǔ)單元之間數(shù)據(jù)的較短距離傳輸，通過(guò)“近存計(jì)算”提高處理性能。

在此突破下，此種高帶寬近存方案仍受到“灘前問(wèn)題”制約。灘前問(wèn)題是指，假設(shè)計(jì)算芯片是一個(gè)海島，則可以放置數(shù)據(jù)I/O通道的位置為島的沙灘位置，而沙灘的長(zhǎng)度則是可以放置I/O的總長(zhǎng)度。當(dāng)受到信號(hào)串?dāng)_等因素約束時(shí)，相鄰的I/O位置受限，從而導(dǎo)致2.5D近存集成方案下I/O數(shù)量無(wú)法進(jìn)一步提升，從而難以提升帶寬。

為了解決灘前問(wèn)題，目前業(yè)界正逐步提高計(jì)算單元可用帶寬，如二維存內(nèi)計(jì)算，就是基于DRAM的存內(nèi)計(jì)算進(jìn)一步將計(jì)算單元集成在存儲(chǔ)陣列內(nèi)部，具體而言，在每個(gè)存儲(chǔ)Bank周圍集成計(jì)算單元，Bank數(shù)據(jù)讀出后，被相鄰計(jì)算單元立即處理，實(shí)現(xiàn)了Bank級(jí)別的存內(nèi)計(jì)算，有效解決了二維近存方案的灘前問(wèn)題。

二維存內(nèi)計(jì)算也有著缺陷，論文提到，與先進(jìn)邏輯工藝相比，集成于DRAM陣列內(nèi)的計(jì)算電路性能有差距、面積代價(jià)高。同時(shí)，引入的計(jì)算單元將擠占DRAM存儲(chǔ)陣列面積，造成DRAM自身的存儲(chǔ)容量下降。例如，Samsung HBM-PIM在引入存內(nèi)計(jì)算單元后，存儲(chǔ)容量減少了50%。

三、清華突破：創(chuàng)新三維存算融合架構(gòu)

針對(duì)近存架構(gòu)的帶寬瓶頸和二維存內(nèi)計(jì)算架構(gòu)的工藝瓶頸問(wèn)題，研究團(tuán)隊(duì)首次探索了三維立體存算一體架構(gòu)方案。此方案通過(guò)將計(jì)算單元與DRAM存儲(chǔ)單元在垂直方向堆疊，單元間以金屬銅柱作為數(shù)據(jù)通道互聯(lián)，有效解決了“灘前問(wèn)題”，能任意位置放置數(shù)據(jù)I/O，大幅提高數(shù)據(jù)通路密度。DRAM陣列與計(jì)算邏輯可獨(dú)立制造，邏輯電路不受DRAM工藝限制，不影響存儲(chǔ)容量。

在本架構(gòu)中，DRAM陣列由基本DRAM Bank組成，每個(gè)DRAM Bank與對(duì)應(yīng)的計(jì)算Bank通過(guò)hybrid bonding工藝在垂直方向堆疊，二者通過(guò)高密度銅柱交互數(shù)據(jù)?；ミB銅柱距離短、寄生容抗小，數(shù)據(jù)通路等效于互連線直連，每個(gè)DRAM Bank與對(duì)應(yīng)的計(jì)算Bank構(gòu)成了Bank級(jí)存算一體單元（如圖1所示）。

團(tuán)隊(duì)同時(shí)探索了Bank級(jí)存算一體架構(gòu)下的設(shè)計(jì)空間，包括DRAM Bank適配的計(jì)算Bank算力，計(jì)算Bank的片上緩存大小，三維集成引入的面積開銷等；并深入分析了三維架構(gòu)的硬件可靠性及散熱問(wèn)題，實(shí)現(xiàn)了完整的存算一體架構(gòu)設(shè)計(jì)，大幅突破了存儲(chǔ)墻瓶頸，對(duì)AI大模型運(yùn)算，提供了有力的支持。

四、相似性感知的三維存算一體架構(gòu)

為進(jìn)一步提升系統(tǒng)性能，設(shè)計(jì)團(tuán)隊(duì)提出了相似性感知三維存算一體架構(gòu)。實(shí)驗(yàn)發(fā)現(xiàn)，激活數(shù)據(jù)在存儲(chǔ)陣列內(nèi)連續(xù)存儲(chǔ)時(shí)，局部區(qū)域數(shù)據(jù)具有相似性，本文歸結(jié)為存儲(chǔ)數(shù)據(jù)的簇相似效應(yīng)。利用此特性，設(shè)計(jì)團(tuán)隊(duì)提出在三維存算一體架構(gòu)內(nèi)，每個(gè)計(jì)算Bank能夠獨(dú)立且并行地挖掘?qū)?yīng)DRAM Bank內(nèi)數(shù)據(jù)的相似性，并利用相似數(shù)據(jù)完成計(jì)算加速，提升系統(tǒng)性能。

該存算一體設(shè)計(jì)克服了三個(gè)關(guān)鍵技術(shù)難點(diǎn)：1.如何尋找相似數(shù)據(jù)。由于DRAM Bank空間大，遍歷搜索相似數(shù)據(jù)將引入極大的功耗和時(shí)間開銷；2.如何利用相似數(shù)據(jù)。先前存算一體單元并未針對(duì)數(shù)據(jù)相似性特點(diǎn)設(shè)計(jì)，無(wú)法充分挖掘其帶來(lái)的性能增益；3.如何平衡相似數(shù)據(jù)。由于在三維存算一體架構(gòu)內(nèi)，不同的計(jì)算Bank獨(dú)立并行，因此系統(tǒng)性能受制于負(fù)載最重的計(jì)算Bank。本存算一體架構(gòu)為解決以上困難，提出了三項(xiàng)關(guān)鍵技術(shù)：

1、基于熱點(diǎn)機(jī)制的DRAM Bank相似數(shù)據(jù)搜索方案

研究團(tuán)隊(duì)提出采用熱點(diǎn)機(jī)制完成快速的相似數(shù)據(jù)搜索。熱點(diǎn)數(shù)據(jù)為具有區(qū)域信息代表性的數(shù)據(jù)，即其與區(qū)域內(nèi)多數(shù)數(shù)據(jù)有高相似性。本設(shè)計(jì)采用內(nèi)容可尋址單元收集不同區(qū)域的熱點(diǎn)數(shù)據(jù)，新數(shù)據(jù)從DRAM Bank讀出時(shí)先在該單元內(nèi)快速搜索匹配區(qū)域熱點(diǎn)數(shù)據(jù)，此熱點(diǎn)數(shù)據(jù)作為參考值與后續(xù)讀出數(shù)據(jù)執(zhí)行差分操作（如圖2所示）。由于數(shù)據(jù)之間存在相似性，因此差分結(jié)果往往具有高稀疏特性，可被用于計(jì)算加速。

2、針對(duì)相似數(shù)據(jù)特性的漸進(jìn)式稀疏計(jì)算單元

當(dāng)DRAM Bank數(shù)據(jù)讀出并經(jīng)預(yù)處理單元差分操作后，由于熱點(diǎn)數(shù)據(jù)與DRAM Bank內(nèi)區(qū)域數(shù)據(jù)具有相似性，異或結(jié)果往往在高比特位存在大量0值。針對(duì)這一稀疏特性，存算一體架構(gòu)設(shè)計(jì)了漸進(jìn)式稀疏檢測(cè)機(jī)構(gòu)。先將完整數(shù)據(jù)按權(quán)重位置分塊，判斷數(shù)據(jù)比特塊是否全為0，若全0則直接跳過(guò)對(duì)應(yīng)數(shù)據(jù)塊計(jì)算，非0部分由計(jì)分牌硬件單元迅速定位有效數(shù)據(jù)。完成稀疏檢測(cè)后，計(jì)分牌單元選擇將非冗余數(shù)據(jù)塊送入PE陣列進(jìn)行計(jì)算，從而跳過(guò)了稀疏比特，提高了計(jì)算效率（如圖3所示）。

3、針對(duì)數(shù)據(jù)相似性差異的負(fù)載均衡機(jī)制

本存算一體架構(gòu)采用Bank級(jí)并行，不同計(jì)算單元對(duì)應(yīng)的DRAM Bank內(nèi)數(shù)據(jù)相似性可能存在較大差別（如圖4所示）。這是因?yàn)閿?shù)據(jù)相似性由硬件單元在運(yùn)行時(shí)動(dòng)態(tài)檢測(cè)，無(wú)法在任務(wù)映射時(shí)提前判別。針對(duì)不同計(jì)算Bank任務(wù)不均衡的問(wèn)題，本方案借助DRAM Bank間的數(shù)據(jù)相似性，對(duì)任務(wù)負(fù)載進(jìn)行壓縮處理，并在不同計(jì)算Bank間重分配任務(wù)，減少對(duì)片間路由網(wǎng)絡(luò)帶寬的擠占，實(shí)現(xiàn)Bank級(jí)別的負(fù)載均衡和性能提升。

本工作完成了存算一體架構(gòu)設(shè)計(jì)、單元電路實(shí)現(xiàn)及性能功耗面積分析。實(shí)驗(yàn)結(jié)果顯示在系統(tǒng)性的AI任務(wù)負(fù)載上，本架構(gòu)相比公開報(bào)道的高算力AI芯片，如Wormhole和TPUv3，3D基線實(shí)現(xiàn)了6.72倍和2.34倍的吞吐量提升。相似性技術(shù)進(jìn)一步將吞吐量提高了1.21倍。（如圖5所示）在能效方面，3D基線相較于Wormhol和TPU實(shí)現(xiàn)了3.49倍和2.89倍的提升。數(shù)據(jù)相似性進(jìn)一步提升了1.97倍的能效。

五、存算一體新突破，中科院、清華齊發(fā)力

在存算一體領(lǐng)域，我國(guó)科學(xué)院、高校堅(jiān)持研發(fā)鉆研。今年2月，中國(guó)科學(xué)院微電子研究所劉明院士團(tuán)隊(duì)研發(fā)出基于外積運(yùn)算的數(shù)?；旌洗嫠阋惑w宏芯片，設(shè)計(jì)了一種數(shù)?；旌细↑c(diǎn)SRAM存內(nèi)計(jì)算方案，提出了模擬與數(shù)字存算宏的混合方法，結(jié)合了使用模擬存算方案進(jìn)行高效陣列內(nèi)位乘法和使用數(shù)字存算方案進(jìn)行高效陣列外多位移位累加的優(yōu)點(diǎn)，達(dá)到整體上高能量效率與面積效率。通過(guò)殘差式數(shù)模轉(zhuǎn)換器架構(gòu)，使數(shù)模轉(zhuǎn)換器所需分辨率僅為輸入位精度的對(duì)數(shù)，實(shí)現(xiàn)了高吞吐率和低開銷。通過(guò)基于矩陣外積計(jì)算數(shù)學(xué)原理的浮點(diǎn)/定點(diǎn)存算塊架構(gòu)，矩陣-矩陣-向量計(jì)算可通過(guò)累加器元件完成。

該突破以“A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC”為題發(fā)表在ISSCC 2024國(guó)際會(huì)議上，微電子所博士生袁易揚(yáng)為第一作者，張鋒研究員與北京理工大學(xué)王興華教授為通訊作者。該研究得到了科技部重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、中國(guó)科學(xué)院戰(zhàn)略先導(dǎo)專項(xiàng)等項(xiàng)目的支持。

據(jù)悉，同之前的數(shù)字存算方案使用矩陣內(nèi)積原理的大扇入、多級(jí)加法器樹相比，吞吐率更高。該架構(gòu)還支持細(xì)粒度的非結(jié)構(gòu)激活稀疏性以進(jìn)一步提升總體能效。該存算一體宏芯片在28nm CMOS工藝下流片，可支持BF16浮點(diǎn)精度運(yùn)算以及INT8定點(diǎn)精度運(yùn)算，BF16浮點(diǎn)矩陣-矩陣-向量計(jì)算峰值能效達(dá)到了72.12TFLOP/W，INT8定點(diǎn)矩陣-矩陣-向量計(jì)算峰值能效達(dá)到了111.17TFLOP/W。這一研究結(jié)果為采用數(shù)模混合方案的存算一體架構(gòu)芯片提供了新思路。

此外，去年10月，清華大學(xué)集成電路學(xué)院教授吳華強(qiáng)、副教授高濱團(tuán)隊(duì)基于存算一體計(jì)算范式，研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器存算一體芯片，在支持片上學(xué)習(xí)的憶阻器存算一體芯片領(lǐng)域取得重大突破。該研究成果以“面向邊緣學(xué)習(xí)的全集成類腦憶阻器芯片”（Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip）為題在線發(fā)表在《科學(xué)》（Science）上。

相同任務(wù)下，該芯片實(shí)現(xiàn)片上學(xué)習(xí)的能耗僅為先進(jìn)工藝下專用集成電路（ASIC）系統(tǒng)的3%，展現(xiàn)出卓越的能效優(yōu)勢(shì)，極具滿足人工智能時(shí)代高算力需求的應(yīng)用潛力，為突破馮·諾依曼傳統(tǒng)計(jì)算架構(gòu)下的能效瓶頸提供了一種創(chuàng)新發(fā)展路徑。

吳華強(qiáng)介紹，存算一體片上學(xué)習(xí)在實(shí)現(xiàn)更低延遲和更低能耗的同時(shí)，能夠有效保護(hù)用戶隱私和數(shù)據(jù)。該芯片參照仿生類腦處理方式，可實(shí)現(xiàn)不同任務(wù)的快速“片上訓(xùn)練”與“片上識(shí)別”，能夠有效完成邊緣計(jì)算場(chǎng)景下的增量學(xué)習(xí)任務(wù)，以極低的耗電適應(yīng)新場(chǎng)景、學(xué)習(xí)新知識(shí)，滿足用戶的個(gè)性化需求。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
KSZ8895MQI	1	Micrel Inc	Ethernet Transceiver, CMOS, PQFP128, LEAD FREE, PLASTIC, QFP-128		$8.91	查看
9DBV0441AKLF	1	Integrated Device Technology Inc	VFQFPN-32, Tray	ECAD模型下載ECAD模型	$12.45	查看
AFBR-720XPDZ	1	Foxconn	Transceiver, 840nm Min, 860nm Max, 10000Mbps(Tx), 10000Mbps(Rx), LC Connector, Board/panel Mount, ROHS COMPLIANT PACKAGE-30		$164.34	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

KSZ8895MQI

Micrel Inc

Ethernet Transceiver, CMOS, PQFP128, LEAD FREE, PLASTIC, QFP-128