國產(chǎn)CPU的發(fā)展壯大一直是一個厚重的話題,厚在深遠(yuǎn)的戰(zhàn)略意義、復(fù)雜的技術(shù)積累,重在自主創(chuàng)新的挑戰(zhàn)、產(chǎn)業(yè)生態(tài)的構(gòu)建。
“做一款有競爭力的CPU,面對的生態(tài)壁壘非常高,需要的人才密度特別大,所需要的資金體量也很大,產(chǎn)品導(dǎo)入周期很長”,此芯科技創(chuàng)始人、CEO 孫文劍日前在發(fā)布首款AI CPU時說道,“CPU正在經(jīng)歷一場巨大的歷史變革:普通CPU變革為AI CPU,封閉生態(tài)變革為開放生態(tài),高能耗CPU變?yōu)楦吣苄PU。我們相信,在這場CPU產(chǎn)業(yè)變革中,中國一定會誕生一家優(yōu)秀的AI CPU企業(yè),成為全球信息產(chǎn)業(yè)當(dāng)中不可或缺的一環(huán)?!?/p>
日前,此芯科技在上海召開發(fā)布會,聚焦AI PC領(lǐng)域,發(fā)布了首款異構(gòu)高能效CPU此芯P1。此芯P1采用6nm制造工藝,異構(gòu)集成了CPU、GPU、NPU,綜合AI算力可以達(dá)到45TOPS,可以運(yùn)行10B參數(shù)以內(nèi)的端側(cè)大模型,運(yùn)行大語言模型可達(dá)30 tokens/s。
此芯科技創(chuàng)始人、CEO? ? 孫文劍
為什么選擇CPU賽道創(chuàng)業(yè)?
成立于2021年的此芯科技,專注于開發(fā)智能CPU芯片及高能效算力解決方案,創(chuàng)始人及核心團(tuán)隊擁有在國內(nèi)外市場進(jìn)行芯片設(shè)計、軟件生態(tài)和終端應(yīng)用的豐富經(jīng)驗。
為什么選擇這條賽道進(jìn)行創(chuàng)業(yè)?孫文劍表示,首先,國內(nèi)芯片產(chǎn)業(yè)發(fā)展多年,已在多個領(lǐng)域取得突破和成就,但在CPU、GPU等關(guān)鍵技術(shù)領(lǐng)域仍未完全掌握;其次,傳統(tǒng)CPU市場存在強(qiáng)大的生態(tài)壁壘,但是,開放式生態(tài)系統(tǒng)提供了打破封閉生態(tài)的可能,并且AI的發(fā)展和對變革的追求,促進(jìn)了新產(chǎn)品的開發(fā)和市場多樣化,也帶來了創(chuàng)業(yè)機(jī)會;第三,Arm架構(gòu)在高性能計算領(lǐng)域的潛力逐漸被認(rèn)可,為國產(chǎn)CPU發(fā)展提供了新的方向;第四,AI PC作為新興賽道,為新玩家提供了利用Arm架構(gòu)產(chǎn)品優(yōu)勢與傳統(tǒng)廠商競爭的機(jī)會。
他強(qiáng)調(diào),當(dāng)前背景下,基于Arm架構(gòu)的產(chǎn)品更能凸顯其優(yōu)勢。據(jù)了解,此芯科技是Arm全球為數(shù)不多在PC領(lǐng)域緊密合作的伙伴?,F(xiàn)階段和Arm在CPU IP層面的合作對公司產(chǎn)品和客戶是最優(yōu)解,因為Arm在CPU架構(gòu)上有很強(qiáng)的技術(shù)積累,正在從低功耗移動計算架構(gòu)向高能效AI 計算架構(gòu)升級,此芯科技可以借助Arm的路線圖升級,確認(rèn)更適合AI PC產(chǎn)品的IP。同時在軟件層面,在GPU圖形渲染上,此芯科技也投入了很多精力并得到了Arm的大力支持。
“未來,我們有進(jìn)行指令集層面合作的想法,CPU、GPU、NPU是我們的核心競爭力。我們將會根據(jù)資源有序投入,CPU內(nèi)核自研是我們的戰(zhàn)略目標(biāo)”,孫文劍補(bǔ)充說。
此芯P1——是CPU,也是端側(cè)AI異構(gòu)SoC
此芯P1采用6nm制造工藝,提供豐富的AI異構(gòu)計算資源、全方位的安全引擎、多樣化的外設(shè)接口以及多操作系統(tǒng)支持等特性。多媒體引擎支持4K120幀顯示、8K60幀視頻解碼以及8K30幀視頻編碼等。
為了支持高性能架構(gòu),此芯P1高性能訪存子系統(tǒng)配置128bit LPDDR5低功耗內(nèi)存,容量可達(dá)64GB,數(shù)據(jù)傳輸率可達(dá)6400Mbps、帶寬可達(dá)100GB/s。同時,具備高效的功耗管理,提供精準(zhǔn)的動態(tài)調(diào)頻調(diào)壓、多電源域和動態(tài)的電源門控、標(biāo)準(zhǔn)的PC電源工作模式。
核心CPU部分,以Arm大小核(big.LITTLE?)技術(shù)設(shè)計,8個性能核4個能效核,主頻最高可達(dá)3.2GHz以及針對PC場景優(yōu)化的多級緩存設(shè)計;同時,集成2個SVE2向量加速單元,實(shí)現(xiàn)機(jī)器學(xué)習(xí)指令增強(qiáng)。
集成GPU提供10核GPU處理器,滿足桌面渲染和通用AI計算需求。新一代硬件光線追蹤,媲美主機(jī)級別的游戲體驗;新型幾何圖形處理流程(延遲頂點(diǎn)著色DVS),實(shí)現(xiàn)功耗節(jié)省40%以上,以及靈活的可變速度著色(VRS),實(shí)現(xiàn)性能提升50%以上。同時,面向多場景的桌面GPU軟件棧,滿足行業(yè)應(yīng)用需求。
此外還有異構(gòu)AI引擎,提供45TOPS端側(cè)AI異構(gòu)算力,支持100億參數(shù)以內(nèi)端側(cè)大模型部署,運(yùn)行LLM可達(dá)30tokens/s以上,面向計算機(jī)視覺、自然語言處理、生成式AI等多場景提供端側(cè)AI支持。
此芯P1是一顆CPU,也是一顆帶有強(qiáng)大端側(cè)AI處理能力的異構(gòu)SoC:
從算力引擎來看:CPU內(nèi)置的SVE2,也就是第二代可擴(kuò)展向量加速引擎單元,以支持新的AI指令,增強(qiáng)高性能的計算能力;內(nèi)置的GPU支持OpenCL和Vulkan加速,CPU單獨(dú)的NPU算力可以達(dá)到30TOPS,專用的算力對于視頻、音頻的處理更加高速、高效。
據(jù)介紹,針對SVE2向量擴(kuò)展,此芯科技已經(jīng)完成了多種開源大語言模型的適配優(yōu)化,比如Llama、通義千問等端側(cè)大模型。在Prefill階段,SVE2帶來了32%到2.3倍的性能提升,在Decode階段,SVE2可以帶來27%到42%的性能提升。后續(xù)也將繼續(xù)引入Arm的AI加速庫,結(jié)合GPU和NPU的異構(gòu)算力,進(jìn)一步加強(qiáng)端側(cè)大模型的支持。
“端側(cè)大模型優(yōu)化空間非常大。優(yōu)化適配的關(guān)鍵在于底層芯片、操作系統(tǒng)和基于大模型的上層應(yīng)用三個層面。對于我們來說,使芯片能夠高效運(yùn)行友商的大模型,就成為競爭優(yōu)勢之一”,孫文劍表示,“和操作系統(tǒng)、大模型適配是我們生態(tài)建設(shè)很重要的環(huán)節(jié)。適配過程中能看到彼此改進(jìn)的空間,從而進(jìn)一步提升效率、能效。”
全棧創(chuàng)新,賦能多形態(tài)終端
基于CPU+GPU+NPU的異構(gòu)架構(gòu),此芯科技確定了“一芯多用”的發(fā)展戰(zhàn)略,面向全球與本土雙市場,構(gòu)建端側(cè)AI生態(tài)。
此芯科技聯(lián)合創(chuàng)始人、系統(tǒng)工程副總裁褚染洲還介紹了“三融”策略,即融合x86、Arm兩大架構(gòu)優(yōu)勢,融入PC產(chǎn)業(yè)朋友圈,融通AI的世界。基于“三融”策略,此芯科技推出P1芯片的AI PC平臺解決方案,具備可擴(kuò)展異構(gòu)計算、支持多模態(tài)人機(jī)交互、高帶寬存儲、平臺級安全盾等特點(diǎn)。
此外,此芯科技AI PC平臺解決方案支持包括Video-In/out、GMAC/Ethernet、HDA/I2S等在內(nèi)的豐富接口,為全域普惠AI提供了基礎(chǔ)。
同時,基于“一芯多用”戰(zhàn)略,此芯P1將推出多種規(guī)格,支持AI終端的多種產(chǎn)品形態(tài)落地。作為PC產(chǎn)品成本的要素之一,PCB類型關(guān)系到SMT制程復(fù)雜度和良率。此芯P1平臺解決方案能做到8-12層,通孔、高密度板PCB全類型的支持。
在軟件創(chuàng)新方面,此芯科技專注于啟動固件、內(nèi)核、圖形加速和AI方案四大方向。
此芯科技聯(lián)合創(chuàng)始人、軟件工程副總裁劉剛介紹到,在啟動固件層,實(shí)現(xiàn)了一套固件支持多個操作系統(tǒng);以及一套Linux內(nèi)核支持ACPI和Device Tree兩個規(guī)范的突破;為了讓Arm GPU在PC端達(dá)到同樣極致的使用體驗,此芯科技自主設(shè)計了此芯GO圖形引擎,通過應(yīng)用兼容層和核心驅(qū)動層的原創(chuàng)優(yōu)化,適配主流桌面環(huán)境,支持OpenGL標(biāo)準(zhǔn);面對端側(cè)生成式AI部署的挑戰(zhàn),此芯科技計劃推出NeuralOne AI軟件棧,提供異構(gòu)AI加速器支持,NeuralOne將提供統(tǒng)一的API來簡化應(yīng)用程序編程,隱藏硬件細(xì)節(jié),降低開發(fā)難度。
針對模型和推理框架的碎片化,此芯科技將提供統(tǒng)一的SDK,支持多引擎和廣泛的模型格式。
生成式AI時代,算力底座的演進(jìn)方向?
談及生成式AI時代整個算力底座未來的發(fā)展方向,孫文劍認(rèn)為異構(gòu)設(shè)計會進(jìn)一步演化,而且會產(chǎn)生不同的異構(gòu)算力底座。需要在有限的功耗條件下,根據(jù)客戶需求、場景需求對不同組件的算力進(jìn)行權(quán)衡和調(diào)整。
此外,此芯科技的"一芯多用"戰(zhàn)略,意味著它可以跨足PC、汽車、云計算等多個領(lǐng)域。如何看待跨域的通用芯片和專用芯片的競爭?
孫文劍認(rèn)為,對于出貨量不大的垂直領(lǐng)域,專用芯片的高設(shè)計成本和制程難以通過商業(yè)閉環(huán)來支撐,而通用芯片具備靈活性和成本效益等市場優(yōu)勢。
而智能座艙和PC在功能需求上有很多相似之處,如操作系統(tǒng)運(yùn)行、GPU渲染、AI處理等,這使得芯片可以復(fù)用;MR設(shè)備需要強(qiáng)大的CPU、GPU和NPU能力,通用芯片也可以滿足;并且對于有特定功能要求的工業(yè)計算平臺,通用芯片也適用。
“通過構(gòu)建豐富的軟硬件開放生態(tài),此芯科技希望為開發(fā)者賦能,持續(xù)探索端側(cè)AI場景。我們芯片的豐富功能,能夠滿足客戶多場景的需求;另一方面通過多場景落地,產(chǎn)品的銷量增加,攤薄產(chǎn)品研發(fā)費(fèi)用,為客戶帶來高性價比產(chǎn)品體驗”,孫文劍強(qiáng)調(diào)。