2012年,谷歌團隊推出著名的八層卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,在人臉識別方面大幅提升了圖像識別準確率,帶動了硬件層面卷積的普及。
2017年,谷歌團隊又推出基于自注意力機制的模型Transformer,在語義理解方面大幅提升了語音翻譯效果,帶動了硬件層面GEMM的普及。
2018年,OpenAI團隊推出一種預(yù)訓(xùn)練語言模型GPT(Generative Pre-trained Transformer),也就是最初代的GPT-1(12層),并通過了圖靈測試。
圖源:WAIC,天數(shù)智芯
也許在GPT-1時代,大眾還沒有什么感受,但GPT-3、GPT-4架構(gòu)下的ChatGPT讓人工智能成功出圈,并產(chǎn)生了全球性的“大模型和AIGC熱”。于是,我們從硬件的角度來看,GPT到底帶來了哪些變革?
事實上,算力是關(guān)乎大模型產(chǎn)品成功與否的關(guān)鍵,那么大模型需要多少算力呢?天數(shù)智芯副總裁鄒翾表示:“對于頭部企業(yè)來講,預(yù)計需要1萬張最新的主流GPU卡,而對于追隨企業(yè)來講,為了追趕頭部企業(yè)的步伐,他們在基礎(chǔ)設(shè)施方面的需求可能更大?!?/p>
正是在這樣的大算力需求下,市面上英偉達的芯片貴出天際。據(jù)悉,國內(nèi)幾家頭部互聯(lián)網(wǎng)廠家都向英偉達下了1.5萬-1.6萬的A800和H800訂單,每家的金額在十幾億美金左右,而這些產(chǎn)能將在2024年得到基本保障。
在這樣的大背景下,我們看到新聞,竟然有人開始走私GPU卡,特斯拉CEO馬斯克對此表示:“目前,GPU比毒品更難獲得”。當(dāng)然,違法的行為不可取,但我們真切地看到了大模型“算力發(fā)動機”的威力。
換言之,大模型對硬件的最大需求就是要有可用的算力,那么這個“可用”到底如何體現(xiàn)呢?通??梢詮娜齻€方面來理解:
- 易用
需要利舊現(xiàn)有算法模塊,且調(diào)優(yōu)經(jīng)驗可借鑒
- 通用
需要可支持模型的快速變形,快速支持新算子,以及快速支持新通訊(重組)
- 靈活并行
需要滿足訪存全交換和計算全互聯(lián)
結(jié)合當(dāng)前市場上的可用產(chǎn)品,主要包括GPU和ASIC芯片。然而,相比于ASIC芯片,GPGPU具有更強的通用性,所以在主流的AI加速芯片市場上,GPGPU占到了90%的市場份額。
?此外,雖然說大模型不像中、小模型那樣依賴CUDA生態(tài),看上去GPGPU和ASIC在大模型上的差距沒有那么大,但不管是模型的訓(xùn)練還是部署,大模型早期的開放框架都是基于GPGPU架構(gòu)實現(xiàn)的,因此GPGPU的軟件生態(tài)會更為成熟,而ASIC還處在開局階段。
對此,鄒翾表示:“天數(shù)智芯作為國內(nèi)第一家實現(xiàn)設(shè)計、制造、量產(chǎn)的GPGPU企業(yè),當(dāng)前已經(jīng)實現(xiàn)了商業(yè)閉環(huán),并在大模型訓(xùn)練領(lǐng)域取得了階段性進展,完成了百億級參數(shù)大模型訓(xùn)練。”
下圖中為天數(shù)智芯推出的天垓100加速卡已經(jīng)支持的模型訓(xùn)練集合:
圖 | 天垓100已支持百億級參數(shù)大模型訓(xùn)練
從市場方面來看,鄒翾認為:“去年還主要是天垓100在出貨,而今年天垓100和智鎧100一起出貨,在整體市場體量方面會更加趨好?!?/p>