目前,AI模型的主干網(wǎng)絡(luò)正從CNN轉(zhuǎn)變?yōu)門ransformer,因為后者具有精度高、全局性特征、多模態(tài)和遷移性強的特點。在云端,用Transformer已經(jīng)可以實現(xiàn)虛擬教師、AI智能對話(例如ChatGPT),代碼自動生成等場景,可以用GPU加速計算Transformer,但在端側(cè)——如機器人、智慧教育等場景——目前的處理器在Transformer的加速計算上還面臨難題。
視海芯圖微電子創(chuàng)始人、董事長許達(dá)文解釋,終端產(chǎn)品往往采用NPU來加速計算,不同于CNN是以計算為核心的架構(gòu),Transformer更多是以數(shù)據(jù)為中心的計算架構(gòu),Embedding、Attention等都是訪存密集型算子,這樣要么很難映射到NPU上,要么映射利用率很低,需要CPU配合,存在Transformer映射中斷的挑戰(zhàn)。
這些算力挑戰(zhàn)需要創(chuàng)新的處理能力。許達(dá)文認(rèn)為,當(dāng)前的算力革命就是DRAM存算技術(shù),是Transformer是否能自頂而下,普遍進(jìn)入廣泛AI應(yīng)用領(lǐng)域的關(guān)鍵。DRAM存算技術(shù)結(jié)合了3D集成工藝和創(chuàng)新架構(gòu),可以有效克服系統(tǒng)訪存瓶頸,實現(xiàn)加速Transformer,同時極大減低芯片功耗。在工藝上,3D集成可以把DRAM/內(nèi)存和計算邏輯進(jìn)行垂直互聯(lián),百倍提高數(shù)據(jù)互聯(lián)帶寬。在架構(gòu)上,電路定制、模型并行和數(shù)據(jù)并行等多種技術(shù)可以圍繞Transformer結(jié)構(gòu)進(jìn)行定向加速。
在這個方向上,視海芯圖創(chuàng)新性使用DRAM存算技術(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)運算和圖像處理加速,解決了其中的存儲墻問題,實現(xiàn)了超低功耗的算力芯片。日前,在2023松山湖中國IC創(chuàng)新高峰論壇上,該公司介紹了其最新推出的一款智能視覺SoC SH1580 ,集成了4億晶體管,采用12nm工藝。
除了3D視覺ISP,4核Arm CPU A53外,該芯片的核心技術(shù)是視海芯圖自主設(shè)計的多態(tài)神經(jīng)網(wǎng)絡(luò)處理器(PTPU)。該處理器具備4 ToPS算力,不僅能支持善于提取局部特征的CNN,也對Transformer、Bert和點云神經(jīng)網(wǎng)絡(luò)等新興AI模型有針對性加速效果。
圖:SH100核心技術(shù)多態(tài)神經(jīng)網(wǎng)絡(luò)處理器(PTPU)
SH100采用多通道DDR,具備超高數(shù)據(jù)高帶寬,針對新興AI模型優(yōu)化的片上存儲模塊設(shè)計,可以為片內(nèi)計算陣列提供可重構(gòu)的高速數(shù)據(jù)流,從而,讓視頻流AI處理、多模態(tài)數(shù)據(jù)融合和點云神經(jīng)網(wǎng)絡(luò)等在AIoT終端落地實現(xiàn)可能,該芯片目標(biāo)應(yīng)用集中在智能教育硬件、服務(wù)機器人和ADAS等領(lǐng)域。
目前,視海芯圖正在和中國科學(xué)院計算技術(shù)研究所展開合作,并獲得舜宇光學(xué)、網(wǎng)易有道和虹軟科技3家上市公司的戰(zhàn)略投資,已經(jīng)和股東合作,圍繞IoT、元宇宙和車載方面的核心圖像處理算法進(jìn)行存算一體加速,研發(fā)通用芯片。