得芯片者得天下。我們可以把這句話再延伸一下說,得 AI 芯片者得未來的天下。
對于智能終端廠商來說,能夠自研 SoC 芯片似乎才是頂級實力的象征。眾所周知,盤踞全球智能手機(jī)前三甲的三星、華為、蘋果,無一例外都擁有自研的 SoC 芯片。
(2020 智能手機(jī)芯片跑分?jǐn)?shù)據(jù) TOP10)
現(xiàn)在,經(jīng)歷了多年的輔助 AI 芯片的經(jīng)驗積累之后,谷歌終于要入場智能終端的核心硬件——SoC 處理器芯片了。
據(jù)外媒 Axois 報告,谷歌在自研處理器方面取得了顯著進(jìn)步,最近其自主研發(fā)的 SoC 芯片已經(jīng)成功流片。
據(jù)悉,該芯片是谷歌與三星聯(lián)合開發(fā),采用 5nm 工藝制造,“2+2+4”三架構(gòu)設(shè)計的 8 核 CPU 集群,以及搭載全新 ARM 公版架構(gòu)的 GPU,同時在 ISP 和 NPU 上集成了谷歌 Visual Core AI 視覺處理器。這讓谷歌的終端芯片能夠更好地支持 AI 技術(shù),比如大幅提升谷歌助手的交互體驗。
在上市計劃上,谷歌的這一 SoC 處理器芯片預(yù)計將于率先部署在下一代 Pixel 手機(jī)以及谷歌筆記本 Chromebook 中。
谷歌的這一舉動被視為對蘋果自研處理器模式的靠攏,從“原生系統(tǒng)+最主流旗艦芯片”變?yōu)椤霸到y(tǒng)+自研芯片”,谷歌的用意肯定不僅是想擺脫高通芯片的鉗制,更重要的是想通過自研芯片實現(xiàn)更好的軟硬件結(jié)合,使得安卓系統(tǒng)在自家硬件上發(fā)揮更大的性能優(yōu)勢。
我們其實知道,自研芯片并不能在硬件利潤上帶給谷歌更多的價值,其中最有價值的地方在于將谷歌 AI 上面的優(yōu)勢通過軟硬件的結(jié)合,在智能終端上得到更好的應(yīng)用。
我們也都知道,谷歌在 AI 芯片上入局最早,實力強(qiáng)勁。然而 AI 芯片的技術(shù)有多強(qiáng),AI 技術(shù)和芯片研發(fā)有哪些相互促進(jìn)的關(guān)系?相信很多人還是不明就里的,而這正是我們接下來要去深入探究的。
從云端到終邊端,谷歌 AI 芯片的進(jìn)階之路
在谷歌的 TPU(Tensor Processing Unit,張量處理單元)處理器推出之前,大部分的機(jī)器學(xué)習(xí)以及圖像處理算法一直都是跑在 GPU 與 FPGA 這兩種通用芯片上面的。而提出了深度學(xué)習(xí)開源框架 TensorFlow 的谷歌則專門做出這樣一款為 TensorFlow 算法設(shè)計的專用芯片。
TPU 就這樣誕生了,然而讓 TPU 的聲名遠(yuǎn)播卻是在 AlphaGo 大戰(zhàn)李世石的人機(jī)圍棋賽。據(jù)說,當(dāng)時谷歌為 TPU 其實下了另一盤大棋的。因為在挑戰(zhàn)李世石之前,AlphaGo 是跑在 1202 個 CPU 和 176 個 GPU 上面與棋手樊麾比賽的。這讓看過對弈過程的李世石很有信心。然而在比賽前幾個月,AlphaGo 的硬件平臺換上了 TPU,這讓 AlphaGo 的實力很快得到成長,后面的對戰(zhàn)局勢讓李世石就吃盡了苦頭。
(谷歌 TPU 芯片)
TPU 是一種專用集成電路(ASIC),作為專門在谷歌云使用的 AI 芯片,其使命就在于加速谷歌人工智能落地的速度。在 2017 年谷歌公布的第二代 TPU 上,其浮點運算能力高達(dá)每秒 180 萬億次,既可以用于推理,也可以用做訓(xùn)練。而到了 2018 年的 TPU3.0 版本,其計算性能相比 TPU 2.0 提升八倍,可達(dá)每秒 1000 萬億次浮點計算。
此后,谷歌的 AI 布局逐漸走向邊緣側(cè)。在 2017 年的谷歌云服務(wù)年會上,正式發(fā)布其邊緣技術(shù),并推出了 Google Edge TPU。
Edge TPU 是谷歌專為在邊緣運行 TensorFlow Lite ML 模型而設(shè)計的 ASIC 芯片。Edge TPU 可用于越來越多的工業(yè)使用場景,如預(yù)測性維護(hù)、異常檢測、機(jī)器視覺、機(jī)器人學(xué)、語音識別,也可以應(yīng)用于本地部署、醫(yī)療保健、零售、智能空間、交通運輸?shù)雀鱾€領(lǐng)域。
Edge TPU 體型小、能耗低,因此只負(fù)責(zé) AI 加速判別、加速推算,僅為加速器、輔助處理器的角色,可以在邊緣部署高精度 AI,是對 CPU、GPU、FPGA 以及其他在邊緣運行 AI 的 ASIC 解決方案的補(bǔ)充。
谷歌還在去年推出了基于 Edge TPU 芯片的等一系列開發(fā)硬件,以及本地化 AI 平臺 Coral,為邊緣側(cè)提供優(yōu)質(zhì)、易部署的 AI 解決方案。
盡管 TPU 和 Edge TPU 主要是對深度學(xué)習(xí)起到運算推理加速的輔助服務(wù)器,但我們?nèi)匀荒軌蚩吹焦雀柙?AI 芯片上的布局野心。從云端,到邊緣端和手機(jī)智能終端,正是理解谷歌 AI 芯片的內(nèi)在邏輯。
(Pixel Visual Core)
從 2017 年開始,谷歌就在智能手機(jī)上陸續(xù)推出了定制的攝像頭芯片“Pixel Visual Core”和“Pixel Neuro Core”,并用在了 Pixel 2、Pixel 3 和 Pixel 4 上。
Pixel Visual Core,是一種圖像處理單元(IPU),也是谷歌自研的第一款移動芯片,專門用于加速相機(jī)的 HDR+計算,其使用了機(jī)器學(xué)習(xí)和計算攝影,可以智能地修補(bǔ)照片不完美的部分,也使圖像處理更加流暢和快速。這也是很多人說的谷歌手機(jī)的照片不是拍出來的,而是算出來的原因。
而到了去年,谷歌在 Pixel 4 上使用了 Pixel Neural Core 專用處理器來代替 Pixel VIsual Core。神經(jīng)網(wǎng)絡(luò)算法可以使谷歌手機(jī)的相機(jī)鏡頭識別所拍攝的物體,然后既可以將數(shù)據(jù)交給圖像處理算法去優(yōu)化,也可以將數(shù)據(jù)輸出給谷歌助手進(jìn)行識別。同時,Pixel Neural Core 也可以讓谷歌助手進(jìn)行更復(fù)雜的人機(jī)對話,還有進(jìn)行離線的語音文本翻譯。
如果谷歌不是有著 TensorFlow、Halide 以及編譯器等 AI 算法和開發(fā)軟件,谷歌的 AI 芯片的很多設(shè)計顯然是無法發(fā)揮太大作用的。軟硬件結(jié)合,才讓谷歌的芯片設(shè)計走得更為徹底和硬氣。
軟硬兼融,谷歌 AI 芯片快速迭代的硬氣底色
在互聯(lián)網(wǎng)公司的造芯賽道上,谷歌無疑是跑在最前面的一家。
據(jù)報道,早在 2006 年,谷歌就考慮在其數(shù)據(jù)中心部署 GPU 或者 FPGA,或?qū)S眉呻娐?。而由于?dāng)時沒有多少要在專門硬件上運行的應(yīng)用,因此使用谷歌大型數(shù)據(jù)中心的富余計算能力就能滿足算力要求。
而一直到 2013 年,谷歌已經(jīng)開始推出基于 DNN 的語音識別的語音搜索技術(shù),用戶的需求使得谷歌數(shù)據(jù)中心的計算需求增加了一倍,這讓基于 CPU 的計算變得特別昂貴。因此,谷歌計劃使用現(xiàn)成的 GPU 用于模型訓(xùn)練,而快速開發(fā)一款專用的集成電路芯片用于推理。
后來我們知道這一專用定制芯片就是 TPU,而這一快速開發(fā)的周期僅僅是 15 個月?;谲浖煨?,谷歌并非獨一家,但相比亞馬遜、Facebook 來說,谷歌則一直有持續(xù)的芯片產(chǎn)品推出。谷歌能夠如此快速且高頻地進(jìn)行“硬件”輸出,那自然是有其“硬氣”的原因的。
首先一定是戰(zhàn)略上的重視。此前谷歌 CEO 皮猜就曾強(qiáng)調(diào),谷歌從來不是為硬件而硬件,背后的邏輯一定是 AI、軟件和硬件一體,真正解決問題要靠這三位一體。
其次就是人才的重視。以當(dāng)前谷歌這一消費端的 SoC 芯片為例。此前這一項目對外界來說早已是公開的“秘密”。從 2017 年底,谷歌就開始從蘋果、高通、英偉達(dá)等公司高薪挖“角”,其中包括蘋果 A 系列處理器著名的研發(fā)工程師 John Bruno。但直到去年 2 月,谷歌才正式宣布在印度班加羅爾的組建了一支“gChips”芯片設(shè)計團(tuán)隊,致力于谷歌智能手機(jī)和數(shù)據(jù)中心芯片業(yè)務(wù),未來還會在該地辦新的半導(dǎo)體工廠。消費級芯片似乎只差臨門一腳了。
當(dāng)然,最重要的因素還在于谷歌在 AI 芯片上的創(chuàng)新優(yōu)勢。我們知道,AI 芯片的研發(fā),本身是一個周期長且耗費巨大資金的項目。芯片設(shè)計到成品的周期可能趕不上 AI 算法的發(fā)展進(jìn)程。如何實現(xiàn) AI 芯片的硬件設(shè)計與算法、軟件的平衡,成為谷歌設(shè)計芯片的關(guān)鍵優(yōu)勢。
而谷歌提出的解決方案則更值得稱道,那就是用 AI 算法設(shè)計 AI 芯片。
具體來說,AI 芯片設(shè)計存在著以下難題。首先是,3D 芯片的放置,在受限區(qū)域中跨層級配置數(shù)百到上千的組件,工程師們需要手動設(shè)計來進(jìn)行配置,并通過自動化軟件進(jìn)行模擬和性能驗證,這通常需要花費大量時間。其次是,芯片的設(shè)計架構(gòu)趕不上機(jī)器學(xué)習(xí)算法或神經(jīng)網(wǎng)絡(luò)架構(gòu)的發(fā)展速度,導(dǎo)致這些算法架構(gòu)在現(xiàn)有的 AI 加速器上效果不佳。另外,盡管芯片的布局規(guī)劃的設(shè)計進(jìn)程在加快,但在包括芯片功耗、計算性能和面積等多個目標(biāo)的優(yōu)化能力上仍然存在限制。
為應(yīng)對這些挑戰(zhàn),谷歌的高級研究科學(xué)家 Mirhoseini 和團(tuán)隊研究人員 Anna Goldie 提出了一種神經(jīng)網(wǎng)絡(luò),即將芯片布局建模轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)問題。
與典型的深度學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)系統(tǒng)不會使用大量標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。相反,神經(jīng)網(wǎng)絡(luò)會邊做邊學(xué),并在成功時根據(jù)有效信號調(diào)整網(wǎng)絡(luò)中的參數(shù)。在這種情況下,有效信號成為降低功率、改善性能和減少面積組合的替代指標(biāo)。結(jié)果就是,系統(tǒng)執(zhí)行的設(shè)計越多,其效果就會越好。
在對芯片設(shè)計進(jìn)行了足夠長時間的學(xué)習(xí)之后,它可以在不到 24 小時的時間內(nèi)為谷歌 Tensor 處理單元完成設(shè)計,而且在功耗、性能、面積都超過了人類專家數(shù)周的設(shè)計成果。研究人員說,這一系統(tǒng)還向人類同行教授了一些新技巧。
最終,谷歌團(tuán)隊希望像這一 AI 系統(tǒng)能達(dá)到“在同一時間段內(nèi)設(shè)計更多的芯片,以及運行速度更快,功耗更低,制造成本更低,外形體積更小的芯片”這一目標(biāo)。
意在未來,谷歌 SoC 芯片集成的 AI 野心
這一次谷歌自研的終端處理器 SoC 芯片,其本質(zhì)上還是谷歌 AI 芯片的延伸。
細(xì)心的人們應(yīng)該已經(jīng)發(fā)現(xiàn),這次的 SoC 芯片并不是完全出自谷歌研發(fā)團(tuán)隊,而是選擇了與三星展開了合作。從媒體的曝光看,谷歌這次的手機(jī)主控會采用 5nm 制程、Cortex-A78 大核、核心數(shù)多達(dá) 20 個的新 GPU,而這些恰好就是三星 Exynos 1000 的特征。所以,這款三星堆料的芯片,最主要的“谷歌元素”就是在 ISP 和 NPU 上應(yīng)用了谷歌自家設(shè)計的 AI 芯片。
(谷歌 Pixel5 諜照)
這一選擇自然有著谷歌充分的考慮和一些明顯的優(yōu)勢,但也存在著一些不利的影響。
最直觀的好處就是加快了谷歌的手機(jī)端 SoC 芯片的研制速度,降低對高通處理器的依賴,并可以迅速應(yīng)用到下一代谷歌 pixel 手機(jī)上。
另外一個好處是,谷歌主導(dǎo)的芯片設(shè)計將使得谷歌像蘋果一樣建成自己的封閉系統(tǒng)。谷歌最硬核之處就在于擁有龐大的數(shù)據(jù)和 AI 算法。伴隨著應(yīng)用層面不斷豐富的數(shù)據(jù)體驗和 AI 體驗,比如在飛行模式下實現(xiàn)語音實時轉(zhuǎn)錄文字的功能,手機(jī)的硬件性能以及系統(tǒng)的兼容支撐就可能成為智能手機(jī)的性能天花板。如何在安卓系統(tǒng)中將處理器性能發(fā)揮到最大,可能沒有誰比谷歌更清楚了。
畢竟前面幾款谷歌 Pixel 手機(jī)的市場表現(xiàn)都不溫不火,盡管其在拍攝算法和 AI 助手等應(yīng)用上面極具優(yōu)勢,但在終端的外觀設(shè)計、屏幕、攝像頭、電池等硬件配置上一直存在“短板”,難以和全球幾家主流終端玩家的旗艦機(jī)型媲美。想必應(yīng)用了最新一代的 SoC 芯片的新款 Pixel 機(jī)型的定價也將非?!案叨恕?,但在硬件上的“偏科”,可能仍然會影響其整體的市場表現(xiàn)。
此外,由于這是一款全新的“非主流”芯片,也會對游戲、軟件開發(fā)者而言,不再成為“軟件開發(fā)樣板機(jī)”的首選測試機(jī)型。
無論如何,這一集成了深度學(xué)習(xí)性能的 SoC 芯片,將為谷歌爭奪未來的 AI 市場做好準(zhǔn)備,幫助谷歌、在移動終端上將語音識別、圖像處理等 AI 應(yīng)用的性能發(fā)揮到極致,提早一步占領(lǐng)真正的智能終端的領(lǐng)導(dǎo)者位置。
無論怎樣,谷歌的造“芯”舉動,一定會對上游芯片廠商以及智能終端廠商帶來正面沖擊。如果通過“Whitechapel”證明了谷歌的“造芯”戰(zhàn)略的成功,那么谷歌距離蘋果的差距還有多少呢?
自研芯片、安卓系統(tǒng)疊加最新 AI 計算能力,如果再補(bǔ)足硬件配置的短板,那么谷歌極有可能打造一個安卓生態(tài)圈的軟硬件完美適配的閉環(huán)系統(tǒng)。
最后,我們發(fā)現(xiàn)一個比較令人疑惑的細(xì)節(jié)。此次芯片的代號為“Whitechapel”,名為“白教堂”。如果熟悉英美劇的讀者們,可能會看過一部名為《白教堂血案》的英劇。如果不是非要過度解讀的話,我們可以理解為某位重要研發(fā)者喜歡這部驚悚懸疑劇,所以以此來命名。如果非要“過度”解讀一下的話,谷歌可能是想用一個百年未解的“謎團(tuán)”來預(yù)示著智能終端的 AI 應(yīng)用的紛爭的開場。
當(dāng)然,這個答案也許還得等谷歌的新的 Pixel 手機(jī)上市才能揭曉。