Ido Gus,?深度學(xué)習(xí)高級團隊負(fù)責(zé)人,?傳感器與音頻業(yè)務(wù)部門, Ceva
神經(jīng)處理單元(NPU)的出現(xiàn)徹底改變了機器學(xué)習(xí)領(lǐng)域,使深度學(xué)習(xí)任務(wù)所需的復(fù)雜數(shù)學(xué)計算得以高效地執(zhí)行。通過優(yōu)化矩陣乘法和卷積運算,NPU極大地增強了AI(人工智能)模型在各個領(lǐng)域的能力,從服務(wù)器群到電池驅(qū)動設(shè)備。
TinyML(微型機器學(xué)習(xí))的出現(xiàn)進一步推動了AI的發(fā)展,其重點是在資源有限的嵌入式設(shè)備上實現(xiàn)機器學(xué)習(xí)算法。TinyML的目標(biāo)是在數(shù)十億邊緣設(shè)備上實現(xiàn)AI能力,使它們能夠在本地實時處理數(shù)據(jù)并做出決策,而無需依賴云連接或強大的計算資源。
結(jié)合NPU技術(shù)基礎(chǔ)和TinyML最新發(fā)展,Ceva推出了創(chuàng)新性的Ceva-NeuPro –Nano。這款緊湊高效的NPU IP是針對TinyML應(yīng)用精心設(shè)計的,在性能和能效之間實現(xiàn)了完美平衡。Ceva-NeuPro-Nano的獨特架構(gòu)經(jīng)過優(yōu)化,能夠端到端完整運行TinyML應(yīng)用的整個流程,從數(shù)據(jù)采集和特征提取到模型推斷,使其成為資源受限、電池驅(qū)動設(shè)備的理想自給自足解決方案。
來源 (Ceva)
設(shè)計理念:
Ceva-NeuPro-Nano的設(shè)計理念源于深入了解用戶的需求和觀點,我們希望提供一種功能強大且用戶友好的解決方案。設(shè)計理念的主要指導(dǎo)思想是優(yōu)先考慮軟件的易用性和解決應(yīng)用層面的難題,而不是僅僅關(guān)注神經(jīng)網(wǎng)絡(luò)層。這種方法確保了Ceva-NeuPro-Nano能夠高效且無縫地處理神經(jīng)網(wǎng)絡(luò)、控制和DSP(數(shù)字信號處理)工作負(fù)載。
主要目標(biāo)是創(chuàng)建一個嵌入式AI的NPU,在不降低能效的情況下提供行業(yè)領(lǐng)先的性能。Ceva-NeuPro-Nano的頂尖級硬件設(shè)計專門針對TinyML應(yīng)用的低功耗、高效率需求進行了優(yōu)化,這使得它成為資源有限的邊緣設(shè)備的理想解決方案。
軟件優(yōu)先:
Ceva-NeuPro-Nano的綜合軟件生態(tài)系統(tǒng)支持兩大TinyML推理框架:TensorFlow Lite for Microcontrollers和MicroTVM。這確保了能與各種TinyML應(yīng)用無縫集成。與許多其他解決方案不同,Ceva-NeuPro-Nano不僅僅是一個依賴于主機微控制器單元(MCU)的加速器;它是一個完全可編程的處理器,具有出色的神經(jīng)網(wǎng)絡(luò)(NN)和數(shù)字信號處理(DSP)能力,這使得它能夠應(yīng)對未來的發(fā)展需求,并適應(yīng)任何未來層級或運算操作。
除了對主流TinyML框架的支持,Ceva-NeuPro-Nano還配備了一個全面的神經(jīng)網(wǎng)絡(luò)庫,用于需要手動調(diào)整模型的情況,并且提供完整的數(shù)字信號處理(DSP)功能的DSP庫。這些全面的庫增強了Ceva-NeuPro-Nano的適應(yīng)性和多功能性,使開發(fā)者能夠輕松地將其應(yīng)用到各種獨特的應(yīng)用需求中。
創(chuàng)新架構(gòu):
Ceva-NeuPro-Nano架構(gòu)引入了多項創(chuàng)新功能,解決了TinyML應(yīng)用中的關(guān)鍵痛點。它支持直接處理壓縮模型權(quán)重,無需進行內(nèi)存密集型的解壓縮操作,這使其非常適合內(nèi)存有限的TinyML設(shè)備。先進的數(shù)據(jù)緩存系統(tǒng)簡化了硬件管理,提高了整體效率,消除了直接內(nèi)存訪問(DMA)調(diào)度的復(fù)雜性。
Ceva-NeuPro-Nano的硬件架構(gòu)經(jīng)過專門設(shè)計,旨在處理非線性激活,使其能夠支持各種機器學(xué)習(xí)模型。它還集成了尖端節(jié)能技術(shù),確保高效率,非常適合對功耗敏感的邊緣設(shè)備。憑借對對稱和非對稱量化方案的硬件級支持,以及本地4位數(shù)據(jù)類型支持,Ceva-NeuPro-Nano可適應(yīng)各種TensorFlow模型,進一步擴大其適應(yīng)性,并實現(xiàn)更高效的數(shù)據(jù)處理和存儲。
MAC數(shù)量大比拼
許多NPU制造商會吹噓其設(shè)計中的MAC(乘法累加)單元數(shù)量越來越多,暗示MAC越多性能越好。然而在Ceva,我們對Ceva-NeuPro-Nano采取了不同的方法,重點關(guān)注MAC的利用率而不是單純的數(shù)量。
我們認(rèn)識到,如果不能有效利用MAC單元,那么擁有大量的MAC單元并不一定就意味著能實現(xiàn)更優(yōu)秀的性能。事實上,MAC數(shù)量更多,往往導(dǎo)致功耗增加,卻不會帶來相應(yīng)的性能提升。Ceva-NeuPro-Nano NPU有兩個版本:Ceva-NPN32有32個8×8 MAC,Ceva-NPN64有64個 8×8MAC。通過大量的實驗,我們證明了我們的32-MAC版本可以與其他128 MAC的解決方案相媲美。我們的創(chuàng)新設(shè)計和架構(gòu)提高了MAC利用率,從而實現(xiàn)了這一卓越的效率。
在Ceva-NeuPro-Nano中,我們優(yōu)先考慮MAC利用率而非簡單的追求數(shù)量,因此在保持較低功耗的同時,提供了令人矚目的性能。這種方法完美契合TinyML應(yīng)用的需求,因為TinyML應(yīng)用對功耗方面要求極高。我們專注于效率的優(yōu)化,使Ceva-NeuPro-Nano能夠在性能上超越那些MAC數(shù)量更多的競爭對手,證明智能設(shè)計和優(yōu)化遠(yuǎn)比參與MAC數(shù)量大比拼更為重要。
現(xiàn)實使用案例:
我們進行了嚴(yán)格的測試和分析,將各種TinyML模型在NeuPro-Nano上的執(zhí)行情況與其他解決方案進行了比較。結(jié)果突顯了NeuPro Nano的驚人價值。它的面積縮小了45%,能效提升了3倍,內(nèi)存消耗減少了高達(dá)80%,并且在TinyML網(wǎng)絡(luò)性能上提升了10倍。
我們通過專注于分布在三大支柱(3 V)上的現(xiàn)實TinyML使用案例,實現(xiàn)了這些出色的性能和效率指標(biāo):視覺、語音、振動:
- 在視覺支柱方面,我們認(rèn)識到人臉檢測、地標(biāo)檢測、物體檢測和圖像分類等輕型計算機視覺任務(wù),在可穿戴設(shè)備和物聯(lián)網(wǎng)設(shè)備進行交互和了解環(huán)境方面發(fā)揮著重要作用。EfficientNet、MobileNet、Squeezenet和Tiny YOLO等穩(wěn)健的、經(jīng)過行業(yè)驗證的神經(jīng)網(wǎng)絡(luò)設(shè)計,可以處理主要的輕量級計算機視覺任務(wù),這些是我們考慮的模型的幾個例子。這確保了Ceva-NeuPro-Nano能夠優(yōu)雅而高效地處理CNN、深度卷積和其他層次。
- 在振動支柱方面,我們借鑒了Ceva在IMU硬件、軟件和應(yīng)用開發(fā)方面的獨特經(jīng)驗,這些經(jīng)驗幫助我們解決了諸如人體活動識別和異常檢測等任務(wù),這些任務(wù)在可穿戴技術(shù)和工業(yè)應(yīng)用中具有重要意義。
- 在語音支柱方面,作為人機交互的下一個重要步驟,我們利用了自身在語音傳感應(yīng)用開發(fā)方面的豐富經(jīng)驗(如關(guān)鍵詞檢測、降噪和語音識別),以及對該領(lǐng)域工作的深入了解。我們考慮到從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)到輕量化Transformer模型等多種設(shè)計的網(wǎng)絡(luò),確保了NeuPro Nano設(shè)計可以駕馭各種網(wǎng)絡(luò)結(jié)構(gòu)。
在整合三大支柱(3 V)時,我們意識到了基于神經(jīng)網(wǎng)絡(luò)應(yīng)用中經(jīng)常被忽視的一個重要部分——特征提取的重要性。這促使我們在Ceva-NeuPro-Nano設(shè)計中集成了強大的控制和DSP功能。
結(jié)論:
Ceva-NeuPro-Nano獨特的架構(gòu),高效的MAC利用率,和全面的軟件生態(tài)系統(tǒng)使其成為一個強大的多功能解決方案。它的設(shè)計理念側(cè)重于現(xiàn)實使用案例和應(yīng)用層面的挑戰(zhàn),確保能夠高效、無縫地處理各種任務(wù)。憑借其突破性的性能、效率和適應(yīng)性,Ceva-NeuPro-Nano將革新TinyML領(lǐng)域,為數(shù)十億資源受限的設(shè)備帶來機器學(xué)習(xí)的力量。
Ceva-NeuPro-Nano成為了Ceva-NeuPro系列NPU中的一員,擴展了我們的客戶現(xiàn)在可以處理的邊緣AI工作負(fù)載范圍,涵蓋了從TinyML應(yīng)用到大規(guī)模生成式AI模型的各種需求。
?