加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • ChatGPT大潮下,NPU的空間變大了
    • “自研NPU”為何受推崇?
    • NPU研發(fā)難在哪里?
    • NPU IP將走向何種模式?
    • NPU的應(yīng)用場景在哪里?
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

AI大爆炸,NPU的大時(shí)代開啟

原創(chuàng)
2023/04/03
5963
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

伴隨AI大時(shí)代一起來臨的,還有NPU。

算力、多樣算力需求推動(dòng)了芯片物種大爆發(fā),NPU就是代表之一。你可以在很多支持AI應(yīng)用的處理器或SoC中發(fā)現(xiàn)它的身影,比如蘋果A15、特斯拉FSD、地平線征程系列、OPPO、馬里亞納X芯片等。而不止這些規(guī)模大、性能高的SoC芯片,甚至一些微控制器應(yīng)用處理器也開始集成NPU模塊,以滿足智能終端、智能邊緣的需求。

一些趨勢正在發(fā)生:智能駕駛、自動(dòng)駕駛的算力需求不斷“卷”出新高度; ChatGPT等生成式AI引爆的算力需求將從云端傳導(dǎo)至邊緣、端側(cè)……

未來,NPU會(huì)因AI達(dá)到什么樣的高度?

ChatGPT大潮下,NPU的空間變大了

NPU(Neural-network Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器),作為一類基于DSA(Domain Specific Architecture)領(lǐng)域?qū)S眉軜?gòu)技術(shù)的處理器,相比于CPU、GPU等通用處理器,從硬件架構(gòu)上可以說就是為AI而生的,因此更適合于神經(jīng)網(wǎng)絡(luò)運(yùn)算,可專用于給AI做硬件加速。

不過,在AI大潮的裹挾下,各類算力芯片紛紛進(jìn)行升級(jí)。GPU、FPGA自不必說,還有Arm v9、x86 CPU等都注重AI/機(jī)器學(xué)習(xí)方面的能力提升……

這同時(shí)也帶來一個(gè)問題:隨著異構(gòu)計(jì)算平臺(tái)中,各類處理器所能提供的AI能力不斷增強(qiáng), NPU一直強(qiáng)調(diào)的高能效,領(lǐng)先幅度會(huì)不會(huì)縮小?它未來的發(fā)展空間會(huì)受到影響嗎?

安謀科技產(chǎn)品總監(jiān)楊磊認(rèn)為,各類處理器確實(shí)都在順應(yīng)AI趨勢進(jìn)行升級(jí),這是一個(gè)相輔相成的過程。背后有市場需求的提升,有強(qiáng)烈的AI訴求,其實(shí)是把基礎(chǔ)算力市場的蛋糕變得更大了,這是從根本上推進(jìn)不同產(chǎn)品向前演進(jìn)的核心驅(qū)動(dòng)力。

其次,應(yīng)用需求會(huì)越來越豐富,包括成本、性能、功能特性等核心指標(biāo),很難通過一種方案或一種架構(gòu)去滿足所有,還是需要各類處理器的創(chuàng)新聯(lián)動(dòng),以更高的異構(gòu)水平來滿足市場的訴求。

以ChatGPT為例,它其實(shí)催生了對(duì)算力需求指數(shù)級(jí)的提升?!霸贫说男枨笤缤頃?huì)傳導(dǎo)到端側(cè),而端側(cè)的CPU能力是不足以負(fù)擔(dān)的。當(dāng)這個(gè)需求下放下來之后,NPU可以發(fā)揮的空間其實(shí)更大了”,楊磊談到。

安謀科技NPU研發(fā)高級(jí)總監(jiān)孫錦鴻告訴<與非網(wǎng)>,AI最終要走向通用、去賦能千行百業(yè),這是一個(gè)確定的方向。目前看來,ChatGPT千億級(jí)別的訓(xùn)練參數(shù)已經(jīng)非常龐大了,如果要把它推到端側(cè)應(yīng)用,一方面,需要進(jìn)行一些裁剪;另一方面,也要求NPU架構(gòu)的升級(jí)迭代。ChatGPT的基本結(jié)構(gòu)是基于Transformer模型,從算子角度來看,除了MAC算力,還需要關(guān)注到其他的運(yùn)算要求,而這都會(huì)給算子提出新要求,也需要NPU架構(gòu)上的更新,去更好地滿足這類大模型應(yīng)用的需求。

“自研NPU”為何受推崇?

在所有內(nèi)置NPU模塊的處理器或SoC芯片中,越來越多的廠商走上了“自研NPU ”這條路。文章開頭列舉的一些芯片之外,近期值得關(guān)注的一件事是:NXP在它最新的應(yīng)用處理器i.MX 95中,放棄了第三方NPU IP,轉(zhuǎn)而采用自研的NPU IP進(jìn)行片上AI加速。

自研NPU的風(fēng)潮已經(jīng)席卷至嵌入式領(lǐng)域。

對(duì)于這一舉措,NXP方面表示,這是其加速器產(chǎn)品和業(yè)務(wù)戰(zhàn)略的一部分。一方面,有了硬件NPU IP,意味著軟件開發(fā)環(huán)境可以成為其AI加速芯片部件的統(tǒng)一因素。另一方面,AI工作負(fù)載和模型仍處在快速的動(dòng)態(tài)發(fā)展中,這會(huì)導(dǎo)致對(duì)軟件的依賴度增大,而硬件產(chǎn)品則必須要與之相匹配。

不論是從軟硬件協(xié)同設(shè)計(jì)、打造更好的差異化優(yōu)勢,還是從生態(tài)布局等因素出發(fā),NXP的做法也代表自研NPU廠商的普遍心態(tài)。

NPU研發(fā)難在哪里?

對(duì)于試圖布局NPU研發(fā)的廠商來說,一個(gè)首要的門檻是人才,需要對(duì)軟硬件全棧進(jìn)行投入,包括IP開發(fā)、SDK開發(fā)等。

其次要明白:與CPU、GPU等通用處理器開發(fā)相比,NPU最大的開發(fā)挑戰(zhàn)是什么?

對(duì)于CPU來說,更注重的是控制流,用更高的頻率去處理新數(shù)據(jù),它強(qiáng)調(diào)的是通用的控制化和兼容性,兼顧面積、功耗、內(nèi)存管理等設(shè)計(jì)。CPU的編程語言經(jīng)過多年發(fā)展,接口已經(jīng)非常符合現(xiàn)在的編程規(guī)范和編程習(xí)慣了,能最快地進(jìn)行算子的分析。

GPU則是去掉了CPU的控制流方式,用更簡單的控制流實(shí)現(xiàn)更并行的數(shù)據(jù)流,在軟件層面、硬件層面都更注重并行擴(kuò)展的能力。英偉達(dá)的CUDA已經(jīng)建立起了豐富的生態(tài),不過它更偏向通用方式去解決問題,AI運(yùn)算的效能提升較難。

結(jié)合以往處理器的優(yōu)缺點(diǎn),孫錦鴻認(rèn)為,NPU IP的開發(fā)從一開始就要注重兩個(gè)基本點(diǎn):

第一,要提供相對(duì)簡單的控制流,實(shí)現(xiàn)定制化算子的并行數(shù)據(jù)處理,從而最大提高利用率。第二,是友好的編程接口,在高效處理AI數(shù)據(jù)的同時(shí),要容易落地,同時(shí)也要考慮定制化編程的需求。

他以安謀科技新一代“周易”X2 NPU采用的第三代“周易”架構(gòu)的優(yōu)化方向指出,新架構(gòu)更注重并行性和可擴(kuò)展性,核心的設(shè)計(jì)思想就是在指令和數(shù)據(jù)處理單元的同構(gòu)計(jì)算中,做到了最大并行。如果是異構(gòu),會(huì)將數(shù)據(jù)的Graph OP、channel、batch幾個(gè)緯度做并行,在同構(gòu)和異構(gòu)單元里得到統(tǒng)一。在此基礎(chǔ)上,再擴(kuò)展核和Cluster,通過不同顆粒度的并行性來實(shí)現(xiàn)整體架構(gòu)的強(qiáng)擴(kuò)展性。然后,再通過統(tǒng)一的OpenCL界面把不同擴(kuò)展性的計(jì)算單元、不同的核通過統(tǒng)一的編程方式,提供一致的用戶體驗(yàn)。

而之所以強(qiáng)調(diào)架構(gòu)的可擴(kuò)展性,因?yàn)锳I的模型、算子都在快速發(fā)展中,就以ChatGPT以及汽車領(lǐng)域常見的Transformer模型為例,其結(jié)構(gòu)靈活,需要NPU架構(gòu)具備相當(dāng)?shù)撵`活性和高速的運(yùn)算效率,同時(shí)考慮到未來網(wǎng)絡(luò)變種帶來的新設(shè)計(jì)要求。只有做好擴(kuò)展性,才能應(yīng)對(duì)這些動(dòng)態(tài)的挑戰(zhàn),在此基礎(chǔ)上高效發(fā)揮算力的效能。

NPU IP將走向何種模式?

統(tǒng)計(jì)國內(nèi)過去一年60個(gè)NPU芯片項(xiàng)目發(fā)現(xiàn),其中約55%(33個(gè)方案)用的都是自研NPU,剩下的項(xiàng)目采用了包括“周易”和其他的第三方IP。這意味著,樣本數(shù)據(jù)中一半以上的市場都被“自研”拿下,這對(duì)獨(dú)立的NPU IP企業(yè)來說,無疑是挑戰(zhàn)。

“這確實(shí)是一個(gè)很現(xiàn)實(shí)的問題”,楊磊有感而發(fā)地說,“我們分析了大量自研NPU的訴求,其實(shí)可以分為兩類:一是來自用戶端的差異化訴求,希望可以實(shí)現(xiàn)獨(dú)到的創(chuàng)新點(diǎn);二是芯片廠商希望結(jié)合特定的應(yīng)用場景做專門的優(yōu)化。”

不論是從產(chǎn)業(yè)鏈哪一環(huán)的需求出發(fā),自研NPU都有其必要性。不過,這其中存在一些“重復(fù)造輪子”、造成產(chǎn)業(yè)資源浪費(fèi)的工作。比如在一些AI應(yīng)用中,如結(jié)構(gòu)化的檢測、識(shí)別、分割等等,其實(shí)底層的開發(fā)工作很相像。

此外還有部署方案時(shí),由多種硬件帶來的軟件移植的工作量。因?yàn)楦骷业姆桨付疾惶粯?,提供的軟件工具鏈也不一樣,因此在軟件開發(fā)和移植時(shí),存在大量的額外工作。

在楊磊看來,就像CPU的發(fā)展歷程一樣,NPU的方案類型最終也將走向收斂,且隨著應(yīng)用的增加,生態(tài)力量會(huì)越來越強(qiáng)。

“我們也在思考和改進(jìn)IP商業(yè)模式本身。傳統(tǒng)的IP模式是做一個(gè)標(biāo)準(zhǔn)版本授權(quán)給用戶,現(xiàn)在我們也在考慮一些定制化的需求,通過定制化IP來滿足特定需求”,楊磊表示,“除了商業(yè)模式,軟件生態(tài)的建設(shè)是未來的重點(diǎn),因?yàn)镹PU承載AI專用的加速功能,不同應(yīng)用場景側(cè)重的方向會(huì)有不同,因此要考慮定制的、垂直場景的需求?!?/p>

“周易”X2 NPU就已經(jīng)在支持自定義算子、滿足各種模型部署需求的基礎(chǔ)上,開始面向各類應(yīng)用場景提供定制化AI解決方案,以進(jìn)一步滿足客戶在智能駕駛、手機(jī)影像AI處理、人機(jī)交互等場景中的差異化需求。

值得注意的是,安謀科技在“周易”X2 NPU推出的同時(shí),宣布了NPU軟件開源計(jì)劃。根據(jù)這一計(jì)劃,安謀科技第一步將開放NPU中間表示層規(guī)范、模型解析器、模型優(yōu)化器、驅(qū)動(dòng)等,并向相關(guān)合作伙伴提供“周易”Compass軟件平臺(tái),包括軟件模擬器、調(diào)試器、C編譯器等在內(nèi)的多種軟件工具。后續(xù)還將逐步開放更多資源,如模型量化、算子實(shí)現(xiàn)等源代碼。

“當(dāng)前,整個(gè)NPU的硬件平臺(tái)其實(shí)是極度碎片化的,幾乎每一家硬件供應(yīng)商都有自己的軟件工具鏈,當(dāng)它們提供給應(yīng)用開發(fā)者來使用時(shí),對(duì)應(yīng)的是極其復(fù)雜和繁瑣的部署和移植工作,也極大地增大了應(yīng)用開發(fā)的創(chuàng)新代價(jià)”, 楊磊談到,“在這樣的現(xiàn)狀面前,開源就成了一個(gè)產(chǎn)業(yè)和用戶需求驅(qū)動(dòng)下的決定?!?/p>

一方面,NPU芯片廠商在開發(fā)設(shè)計(jì)時(shí),對(duì)軟件編譯器、調(diào)優(yōu)工具等有著明確的開源訴求。另一方面,當(dāng)面向最終的應(yīng)用場景,開源的訴求也越來越明顯。特別是在汽車領(lǐng)域,一些算法、數(shù)據(jù)相當(dāng)于是“黑盒”,這就需要NPU盡可能開放,才能推動(dòng)更好的合作互動(dòng)。

當(dāng)真正走向開源之后,直接受益的首先是軟件開發(fā)者,以滿足應(yīng)用移植和部署時(shí)對(duì)白盒開發(fā)的需求,大約可節(jié)省50%的工作量;其次,開源便于跨越不同的硬件架構(gòu),共建開源的統(tǒng)一的軟件生態(tài),也有利于AI生態(tài)的整體發(fā)展。

NPU的應(yīng)用場景在哪里?

NPU的突出優(yōu)勢就是運(yùn)行AI算法的效能——而這往往在小型終端上更受重視。這是否決定了NPU的主要應(yīng)用場景就是在端側(cè)或邊緣側(cè)?它有進(jìn)軍云端市場的潛力嗎?

在楊磊看來,端側(cè)、云端市場其實(shí)都對(duì)NPU有強(qiáng)烈的訴求和應(yīng)用空間,不過,NPU先將端側(cè)市場作為切入點(diǎn),再布局邊緣計(jì)算。目前的市場需求已經(jīng)足夠豐富,小到錄音筆、點(diǎn)讀筆、手機(jī),大到ADAS輔助駕駛、自動(dòng)駕駛,已經(jīng)給了NPU足夠的施展空間,但是從技術(shù)路線和架構(gòu)的演進(jìn)方向上,未來也會(huì)考慮云邊端一體的可能性。

在安謀科技最新發(fā)布的“周易”X2 NPU中,就展現(xiàn)了這樣的趨勢:支持多核Cluster,支持寬泛的算力,從10TOPS-320TOPS;支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合計(jì)算,計(jì)算效率與計(jì)算密度得到了提升。

寫在最后

所有落地的AI應(yīng)用中,都需要硬件上的算力支持。就比如火熱的自動(dòng)駕駛,隨著汽車中攝像頭毫米波雷達(dá)、激光雷達(dá),以及超聲波雷達(dá)等環(huán)境感知傳感器的增多,自動(dòng)駕駛系統(tǒng)收集的傳感器數(shù)據(jù)將會(huì)更多,對(duì)自動(dòng)駕駛計(jì)算芯片的算力要求將顯著提升,這對(duì)NPU是一個(gè)大市場。不過,越是如此,NPU越要深刻理解市場的要求,才能真正抓住機(jī)會(huì)。

當(dāng)然,AI生態(tài)也不止NPU一個(gè)環(huán)節(jié),不論是開源,還是其他跨越產(chǎn)業(yè)鏈上下游參與者的合作,都有助于打破AI的落地難題,有益于AI的生態(tài)繁榮。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32F429IET6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT

ECAD模型

下載ECAD模型
$23.92 查看
MC9S08PA16AVTJ 1 NXP Semiconductors MICROCONTROLLER
$2.56 查看
ATXMEGA128A1U-CUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 100CBGA

ECAD模型

下載ECAD模型
$8.4 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄