作者 |??程茜,編輯?|??漠影
存算一體架構(gòu)已經(jīng)為邊端大模型部署提供了一種高效解決方案。
大模型這把火,已經(jīng)燒到了邊端設備!一段時間以來,能更好適配手機、PC等邊緣設備的端側(cè)模型如雨后春筍般接連冒出,微軟、蘋果、Hugging Face、OpenAI、Mistral、谷歌等連珠炮式甩下輕量級模型;AI PC、AI手機、汽車座艙等大模型加持的邊端設備層出不窮,產(chǎn)業(yè)鏈上下游玩家爭相入場。
隨著技術(shù)的成熟和應用場景的拓展,端側(cè)大模型市場已經(jīng)成為AI領(lǐng)域的一個重要增長點,但對于邊端設備而言,承載大模型能力非一日之功,即便參數(shù)規(guī)模下降為大模型落地部署提供了條件,邊端設備本身的硬件載體同樣至關(guān)重要。
因此,連接大模型與邊端設備能力的底層芯片玩家成為其中的關(guān)鍵變量。那么,在邊端大模型部署落地加速的背景下,還是非GPU不可嗎?什么樣的芯片架構(gòu)將成為邊端玩家首選?
01.大模型向邊端側(cè)下沉多種應用方向探索已涌現(xiàn)
大模型加速落地應用已經(jīng)成為共識,云端大模型向邊端下沉的產(chǎn)業(yè)趨勢日漸明顯,邊端大模型爆發(fā)前夜已至。一方面,邊端大模型的參數(shù)規(guī)模、性能表現(xiàn)與企業(yè)的需求正相互契合。
首先,動輒千億、萬億參數(shù)規(guī)模的大模型背后是無底洞似的燒錢游戲,與尚沒有探索出高利潤商業(yè)模式的現(xiàn)狀相比,鮮少有企業(yè)能持續(xù)投入。因此,“大模型反卷小型化”成為一大趨勢,性能優(yōu)越、更易部署、更具性價比的小模型成為玩家們爭奪市場的關(guān)鍵。部署在邊端設備上的模型可以滿足不同需求,使得所有規(guī)模的企業(yè)和組織都能找到適合自己的最優(yōu)解。
其次,從實際性能表現(xiàn)來看,云端大模型對于企業(yè)核心痛點需求、個性化任務的處理能力,都遠不如距離業(yè)務、用戶更近的邊緣端。因此其在私有化部署、個性化處理、數(shù)據(jù)安全與隱私等方面都更具差異化優(yōu)勢。另一方面,軟硬件的提升為邊端大模型走向現(xiàn)實提供了必要條件。諸多小參數(shù)模型已經(jīng)展現(xiàn)出強大性能表現(xiàn),邊端設備承載大模型能力的可能性顯著提高。
微軟發(fā)布的參數(shù)規(guī)模僅為3.8B、7B、14B的Phi-3系列模型,在下圖的性能對比中,參數(shù)規(guī)模較小的模型與GPT-3.5的性能差距并不大,且在一些評測指標上已經(jīng)超過GPT-3.5??梢钥闯?,參數(shù)規(guī)模、模型大小不再是決定模型性能的唯一指標。
同時,模型的量化壓縮、模型裁剪、知識蒸餾等技術(shù)加速演進,使得大模型可以在不影響性能的前提下減小模型尺寸和計算量,從而可以部署到邊端設備中。邊緣設備需具備更強的計算性能,包括更高的算力、足夠的顯存和合理的功耗等。專門為邊緣計算設計的AI芯片涌現(xiàn),在硬件層面為邊端大模型落地提供了基石。可以說,不論從模型能力本身,還是邊端設備的升級優(yōu)化來看,大模型向邊端下沉已經(jīng)成為必然,且是讓大模型能為企業(yè)帶來經(jīng)濟效益提升的有效路徑。
如今,AI PC、汽車座艙大模型、智慧商顯等領(lǐng)域已經(jīng)率先展現(xiàn)出爆發(fā)潛力,成為邊端大模型落地的主要方向。全球市研機構(gòu)Canalys發(fā)布的數(shù)據(jù)顯示,今年第二季度,全球AI PC出貨量達880萬臺,占當季所有PC出貨量的14%。大模型與PC的結(jié)合使得這一設備的生產(chǎn)力工具屬性被無限放大。曾經(jīng)PC只是被用于制作PPT、處理工作的工具載體,而現(xiàn)在基于內(nèi)置AI能力,用戶只需要語音、手勢等交互,就可以讓其輔助生產(chǎn)、創(chuàng)作,快速完成一份PPT或者生成一篇文章的文章。
AI PC為用戶帶來了更好體驗,能實際解決曾經(jīng)用戶使用傳統(tǒng)PC時的諸多痛點,并實現(xiàn)降本增效。
第二大較為突出的場景就是汽車座艙,大模型對于自然語言的理解、生成能力,使得其可以綜合處理語音、視覺、視覺等多模態(tài)數(shù)據(jù),并能夠提供千人千面的語音識別、娛樂信息及駕駛輔助個性化定制服務。相比于只能通過傳統(tǒng)物理按鍵進行交互的傳統(tǒng)座艙,大模型加持的座艙功能可實現(xiàn)的范圍邊界逐漸外延。這也使得智能座艙市場的規(guī)模正處于飛速增長階段,全球交易咨詢服務提供商畢馬威中國預計,2026年中國智能座艙市場規(guī)模將達到2127億元,5年復合增長率將超過17%。還有如今國內(nèi)企業(yè)出海加速,需要與海外客戶合作、開會等場景,智慧商顯、會議軟件等內(nèi)置的大模型加持工具可以提供實時翻譯、會議紀要生成等。這些能夠切實解決用戶辦公特點的功能幾乎已經(jīng)成為設備標配。
國內(nèi)市研機構(gòu)洛圖科技的數(shù)據(jù)顯示,2024年,中國大陸會議場景中顯示產(chǎn)品的市場規(guī)模將達130億元,同比2023年增長6.5%。這些適用于大模型應用落地的場景有一個共同特點就是,能夠真正基于邊端大模型的能力,為客戶真正解決痛點帶來價值。
02.借創(chuàng)新架構(gòu)之力破局邊端大模型落地的算力難題
大模型真正落地部署到邊端設備上,還有一個被考驗的關(guān)鍵角色就是底層芯片玩家,其背后的挑戰(zhàn)巨大。原因在于邊端往往只有一個獨立設備,其散熱條件、體積大小等都會受限,需要芯片兼具體積小、性能強、功耗低。且在成本和數(shù)據(jù)方面,邊端設備玩家也更為敏感,邊端設備往往需要處理企業(yè)或個人的內(nèi)部數(shù)據(jù),數(shù)據(jù)隱私和安全更為敏感,需要防止數(shù)據(jù)泄漏和濫用。此外在一些實時性要求較高的自動駕駛、工業(yè)控制等場景,需要大模型能夠更快響應作出決策。
這些既對芯片玩家提出了不小的挑戰(zhàn),同時也是邊端大模型落地部署的必要條件,底層芯片玩家只有將這些已經(jīng)擺在桌子上的難題逐個擊破,才能占據(jù)先機。隨著大模型應用落地加速,推理需求增加,芯片格局已經(jīng)從GPU一家獨大的局面向異構(gòu)CPU、NPU各路芯片群雄逐鹿的時代變遷。起初,擁有強大并行計算能力的GPU無疑是大模型訓練的首選,其可以在短時間內(nèi)完成大量計算任務。
但在AI推理階段,一些場景下GPU的整體性能表現(xiàn)并非最佳。對功耗、成本敏感的邊端設備就是一大典型場景。除了居高不下的價格,GPU還因為擁有大量的核心和線程,需要處理大量數(shù)據(jù),但每個核心都需要消耗電能,隨之上升的就是整體能耗,再加上需要足夠高效的散熱系統(tǒng)來保證GPU在適宜溫度運行,就會進一步增加能耗。這一背景下,在邊端場景催生了異構(gòu)CPU和NPU兩種方案。異構(gòu)CPU就是將NPU集成于CPU之上,使其可以更好適應不同種類任務,能實現(xiàn)性能、功耗、成本的平衡,適應多元化且復雜的計算需求。
這種設計的好處在于,一方面可以將更多的晶體管資源用在能夠進一步提升多核性能的能效核上,或用于提升總體性能的緩存上;另一方面可以留出散熱空間,提升運行頻率來獲取最高的單核性能。然而,集成多種不同類型的核心和技術(shù),也為邊端設備集成異構(gòu)CPU帶來了更高的設計和制造成本。再加上其編程和優(yōu)化相對復雜,需要開發(fā)者更熟知不同核心的性能和特點。
因此,這一架構(gòu)對于邊端設備玩家而言并不是最佳方案。專為AI設計的NPU芯片,在當下幾乎已經(jīng)成為大模型在邊端應用的最優(yōu)解之一。相比于異構(gòu)CPU和GPU,NPU在神經(jīng)網(wǎng)絡高效運行方面的適配性都要更高,且其具備的高性能、低功耗優(yōu)勢也與邊端大模型部署十分契合。NPU可以根據(jù)特定應用場景優(yōu)化,能在有效降低功耗的同時,滿足邊端設備對功耗的限制。這對邊端設備部署大模型時的功耗、性能、成本等都帶來了更為靈活且可擴展的解決方案。一方面,通過先進工藝制程、低功耗設計技術(shù)以及算法與硬件的協(xié)同優(yōu)化,能夠提升芯片性能和能效比。另外一方面,通過架構(gòu)創(chuàng)新,提高芯片計算速度和效率。
值得一提的是,在邊端大模型落地中,芯片架構(gòu)創(chuàng)新越來越成為關(guān)鍵。存算一體、可重構(gòu)計算架構(gòu)、DSA專用領(lǐng)域架構(gòu)等諸多創(chuàng)新涌現(xiàn),為邊緣設備提供了更為強大的計算能力。在這之中,因為大模型所需的計算量和數(shù)據(jù)存儲量激增,因此在強大算力背后,高效存儲和數(shù)據(jù)通信機制同樣重要,如何解決內(nèi)存墻和存儲墻問題成為拉開NPU利用率的關(guān)鍵。
正因如此,存算一體架構(gòu)成為其提升計算效率和降低功耗的重要途徑。存算一體架構(gòu)的優(yōu)勢,主要體現(xiàn)在高效計算、功耗、性能三個維度。首先,存算一體架構(gòu)將存儲與計算集成在統(tǒng)一芯片上,可以避免傳統(tǒng)架構(gòu)中數(shù)據(jù)在存儲器和處理器之間頻繁傳輸所產(chǎn)生的延遲。基于此,邊端大模型應用時能更快獲取和處理數(shù)據(jù),提高響應速度,滿足實時性要求。這也在一定程度上能減少數(shù)據(jù)的搬運,減少對內(nèi)存帶寬的需求,避免大模型因內(nèi)存帶寬不足而導致出現(xiàn)性能瓶頸。
同時,這一架構(gòu)通過在存儲單元中直接進行計算,能夠同時對多個數(shù)據(jù)進行處理,提高了計算效率和吞吐量,能夠快速處理邊端大模型應用中語義理解、圖像識別、特征提取等復雜的計算任務。其次,功耗方面,存算一體架構(gòu)省去了傳統(tǒng)計算架構(gòu)中數(shù)據(jù)搬運過程,能降低損耗,保證需要長時間待機或間歇性工作的邊端設備,能夠在非工作期間降低功耗損耗。因此與傳統(tǒng)架構(gòu)相比,在相同的算力輸出下,存算一體架構(gòu)的能效比有顯著提升。綜上,通過優(yōu)化數(shù)據(jù)處理方式、降低功耗、提高性能的存算一體架構(gòu),已經(jīng)為邊端大模型的部署提供了一種高效的解決方案。
03.國內(nèi)AI芯片創(chuàng)企邊端大模型系列產(chǎn)品落地最高算力100TOPS
大幅提升計算能力的存算一體芯片概念隨之日趨火熱,主攻這一技術(shù)路線的國內(nèi)AI芯片創(chuàng)企后摩智能在當下拿出了自己的最新成果。近日,后摩智能基于存算一體推出了邊端大模型AI芯片后摩漫界M30,并基于這一芯片構(gòu)建了智算模組和力謀AI加速卡。
從M30來看,存算一體架構(gòu)已經(jīng)成為其加速邊端大模型部署落地的殺手锏。這也是一直以來后摩智能技術(shù)路線的演進方向,用更高的性能、更低的成本、更低的功耗提供大模型運行的計算底座。后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭透露,將持續(xù)沿著架構(gòu)創(chuàng)新這條路為邊端大模型的商業(yè)化落地,實現(xiàn)真正普惠的AI提供算力保障。
面向?qū)嶋H應用落地場景,后摩智能考慮的維度是要兼顧計算性能以及成本、功耗以及易用性。
他補充說,一方面即便在端側(cè)部署,模型大小繼續(xù)上漲的趨勢仍然可能存在,更大參數(shù)規(guī)模的模型更為智能,隨之而來的就是更好的用戶體驗、更大的商業(yè)前景,實現(xiàn)商業(yè)閉環(huán);另一方面就是持續(xù)降成本、降功耗,這也是邊端設備玩家一直關(guān)注的重點。
目前,后摩漫界M30最高算力可達100TOPS,典型功耗為12W,可以支持ChatGLM、Llama 2、通義千問等主流大模型,實時運行性能可以達到每秒15-20 Tokens。同時,在賦予邊端側(cè)設備大模型能力這件事,后摩智能堅持的還有讓企業(yè)付出的成本、時間都更少。這塊芯片可以通過“+AI”的方式為邊端設備提供大模型能力。信曉旭解釋說,“+AI”的方式主要考慮企業(yè)的技術(shù)落地成本,其可以通過標準的PCIe口和原來的主處理器對接,讓企業(yè)以最少的成本和改變就能直接調(diào)用大模型能力,縮短企業(yè)的開發(fā)周期與落地部署時間。
對于數(shù)據(jù)隱私保護,信曉旭認為,大模型輸入輸出的內(nèi)容已經(jīng)從簡單的圖像、文字向音視頻、3D等形態(tài)延伸,未來用戶家庭中的攝像頭等智能終端采集到的信息,如果被送往云端其隱私安全無法被保證。而本地私有化部署的邊端大模型就可以基于這些數(shù)據(jù)生成更懂用戶的AI。在產(chǎn)品布局與技術(shù)創(chuàng)新的同步推進下,為了加速存算一體AI芯片產(chǎn)業(yè)化,后摩智能還與中國移動正式簽署戰(zhàn)略合作,聯(lián)合推進存算一體AI芯片的創(chuàng)新研發(fā)和量產(chǎn)應用。同時,中國移動也是后摩智能布局邊端大模型落地業(yè)務中的重要合作伙伴。雙方的合作重點聚焦于智慧中屏、家庭智能終端、機器人等高度適配“+AI”模式的邊端應用場景。
在AI PC方面,后摩智能已經(jīng)與行業(yè)頭部玩家聯(lián)想達成戰(zhàn)略合作,信曉旭談道,如果用激進的眼光看待PC產(chǎn)業(yè)的發(fā)展,AI PC未來的核心計算單元可能會是AI,CPU可能會變成輔助。
因此,在AI PC的技術(shù)布局下,作為底層芯片玩家的后摩智能正融入頭部玩家的生態(tài)中占據(jù)先機。大模型向邊端設備下沉的產(chǎn)業(yè)趨勢已經(jīng)不可逆轉(zhuǎn),在信曉旭看來,設備更加多元化的端側(cè)和邊緣側(cè),其承載AI能力在未來會比云端更具生命力,這也是將成為真正讓AI能夠讓更多人受益的更廣泛技術(shù)和場景。身處其中的AI芯片玩家,如何實現(xiàn)芯片性能突破、產(chǎn)業(yè)鏈協(xié)同等將成為這一產(chǎn)業(yè)趨勢下?lián)屨际袌鱿葯C的護城河。
04.結(jié)語:邊端大模型亟待起飛AI芯片創(chuàng)企迎新機遇
在應用落地端,國內(nèi)大模型產(chǎn)業(yè)已經(jīng)風起云涌,參數(shù)規(guī)模龐大的通用大模型目前尚未看到高性價比的落地應用場景,但靠近用戶與企業(yè)業(yè)務的邊端設備玩家已經(jīng)開始探索大模型的深度應用。考慮到邊端設備的核心特性,后摩智能的目標很明確,就是為合作伙伴提供足夠便宜、功耗低、易用性強的芯片,這樣的產(chǎn)品目標與當下大模型產(chǎn)業(yè)下沉趨勢的需求十分契合。
伴隨著更靠近數(shù)據(jù)源、響應更快、延遲更低的邊端大模型展現(xiàn)出騰飛的可能,芯片玩家與之協(xié)同探索產(chǎn)業(yè)變革的機遇點,以后摩智能為代表的國內(nèi)AI芯片玩家已經(jīng)拿出了更強的解決方案,這也同樣是在GPU、CPU架構(gòu)之外,創(chuàng)新架構(gòu)的市場機遇。在此背景下,錨定對解決大模型存儲墻有著天然優(yōu)勢存算一體架構(gòu)的后摩智能,將有望更快找到大模型深入行業(yè)的更大價值。