作者 |??ZeR0,編輯?|??漠影
AI芯片是時候上演新故事了。
芯東西2月21日報道,在OpenAI推出又一爆款力作AI視頻生成模型Sora后,連帶著偏上游的AI芯片賽道熱度一點即著。
創(chuàng)始成員來自谷歌TPU團(tuán)隊的美國存算一體AI芯片公司Groq便是最新贏家。這家創(chuàng)企自稱其自研AI推理引擎LPU做到了“世界最快推理”,由于其超酷的大模型速度演示、遠(yuǎn)低于GPU的token成本,這顆AI芯片最近討論度暴漲。連原阿里副總裁賈揚清都公開算賬,分析LPU和H100跑大模型的采購和運營成本到底差多少。
就在Groq風(fēng)風(fēng)火火之際,全球最大AI芯片公司英偉達(dá)陷入了一些振蕩。今日英偉達(dá)官宣將在3月18日-21日舉辦其年度技術(shù)盛會GTC24,但其股市表現(xiàn)卻不甚理想。受投資者快速撤股影響,英偉達(dá)今日股價降低4.35%,創(chuàng)去年10月以來最大跌幅,一日之間市值縮水780億美元。?????
Groq則在社交平臺上歡歡喜喜地頻繁發(fā)文加轉(zhuǎn)發(fā),分享其合作伙伴及網(wǎng)友們對LPU的實測結(jié)果及正面評價。一些積極觀點認(rèn)為,LPU將改變運行大語言模型的方式,讓本地運行成為主流。????
根據(jù)Groq及一些網(wǎng)友分享的技術(shù)演示視頻及截圖,在LPU上跑大語言模型Mixtral 8x7B-32k,生成速度快到接近甚至超過500tokens/s,遠(yuǎn)快于公開可用的OpenAI ChatGPT 4。
“這是一場革命,不是進(jìn)化?!盙roq對自己的進(jìn)展信心爆棚。
2016年底,谷歌TPU核心團(tuán)隊的十個人中,有八人悄悄組隊離職,在加州山景城合伙創(chuàng)辦了新公司Groq。接著這家公司就進(jìn)入神隱狀態(tài),直到2019年10月才通過一篇題為《世界,認(rèn)識Groq》的博客,正式向世界宣告自己的存在。
隨后“官網(wǎng)喊話”就成了Groq的特色,尤其是近期,Groq接連發(fā)文“喊話”馬斯克、薩姆·阿爾特曼、扎克伯格等AI大佬。特別是在《嘿 薩姆…》文章中,公然“嫌棄”O(jiān)penAI的機(jī)器人太慢了,并給自家LPU打廣告,聲稱運行大語言模型和其他生成式AI模型的速度是其他AI推理解決方案速度的10倍。????
現(xiàn)在,Groq繼續(xù)保持著高調(diào),除了官號積極出面互動外,前員工和現(xiàn)員工還在論壇上“撕”起來了。前員工質(zhì)疑實際成本問題,現(xiàn)員工則抨擊這位前員工離開并創(chuàng)辦了一家Groq的競爭對手+沒做出“世界最低延遲的大語言模型引擎”+沒保證“匹配最便宜的token價格”。????
面向LPU客戶的大語言模型API訪問已開放,提供免費10天、100萬tokens試用,可從OpenAI API切換。Groq致力于實現(xiàn)最便宜的每token價格,承諾其價格“超過同等上市型號的已發(fā)布供應(yīng)商的任何已公布的每百萬tokens價格”。
據(jù)悉,Groq下一代芯片將于2025年推出,采用三星4nm制程工藝,能效預(yù)計相較前一代提高15~20倍,尺寸將變得更大。
執(zhí)行相同任務(wù)的芯片數(shù)量也將大幅減少。當(dāng)前Groq需要在9個機(jī)架中用576顆芯片才能完成Llama 2 70B推理,而到2025年完成這一任務(wù)可能只需在2個機(jī)架使用大約100個芯片。??????????????
01.1秒內(nèi)寫出數(shù)百個單詞,輸出tokens吞吐量最高比競品快18倍
按照Groq的說法,其AI推理芯片能將運行大語言模型的速度提高10倍、能效提高10倍。
要體驗LPU上的大語言模型,需先創(chuàng)建一個Groq賬戶。????????輸入提示詞“美國最好的披薩是什么?”跑在LPU上的Mixtral模型飛速給出回答,比以前慢慢生成一行一行字的體驗好很多。????????
它還支持對生成的答案進(jìn)行修改。
在公開的大語言模型基準(zhǔn)測試上,LPU取得了壓倒性戰(zhàn)績,運行Meta AI大語言模型Llama 2 70B時,輸出tokens吞吐量比所有其他基于云的推理供應(yīng)商最高要快18倍。
對于Time to First Token,其縮短到0.22秒。由于LPU的確定性設(shè)計,響應(yīng)時間是一致的,從而使其API提供最小的可變性范圍。這意味著更多的可重復(fù)性和更少的圍繞潛在延遲問題或緩慢響應(yīng)的設(shè)計工作。
AI寫作助手創(chuàng)企HyperWriteAI的CEO Matt Shumer評價LPU“快如閃電”,“不到1秒寫出數(shù)百個單詞”,“超過3/4的時間花在搜索上,而非生成”,“大語言模型的運行時間只有幾分之一秒”。
有網(wǎng)友分享了圖像生成的區(qū)域提示,并評價“非常印象深刻”。
02.賈揚清分析采購和運營成本:比H100服務(wù)器貴多了
Groq芯片采用14nm制程工藝,搭載230MB片上共享SRAM,內(nèi)存帶寬達(dá)80TB/s,F(xiàn)P16算力為188TFLOPS,int8算力為750TOPS。
Groq在社交平臺上解答了一些常見問題:
1、LPU為每token提供很好的價格,因為效率高而且擁有從芯片到系統(tǒng)的堆棧,沒有中間商;
2、不賣卡/芯片,除非第三方供應(yīng)商將其出售給研究/科學(xué)應(yīng)用團(tuán)體,銷售內(nèi)部系統(tǒng);
3、其設(shè)計適用于大型系統(tǒng),而非單卡用戶,Groq的優(yōu)勢來自大規(guī)模的設(shè)計創(chuàng)新。?????????????????
與很多大模型芯片不同的是,Groq的芯片沒有HBM、沒有CoWoS,因此不受HBM供應(yīng)短缺的限制。?
在對Meta Llama 2模型做推理基準(zhǔn)測試時,Groq將576個芯片互連。按照此前Groq分享的計算方法,英偉達(dá)GPU需要大約10~30J來生成token,而Groq每token大約需要1~3J,也就是說推理速度是原來的10倍,??????????????成本是原來的1/10,或者說性價比提高了100倍。
Groq拿一臺英偉達(dá)服務(wù)器和8機(jī)架Groq設(shè)備做對比,并聲稱非常確定配備576個LPU的Groq系統(tǒng)成本不到英偉達(dá)DGX H100的1/10,而后者的運行價格已超過40萬美元。等于說Groq系統(tǒng)能實現(xiàn)10倍的速度下,總成本只有1/10,即消耗的空間越多,就越省錢。
自稱是“Groq超級粉絲”的原阿里副總裁、創(chuàng)辦AI infra創(chuàng)企Lepton AI的賈揚清則從另一個角度來考慮性價比,據(jù)他分析,與同等算力的英偉達(dá)H100服務(wù)器成本比較,Groq LPU服務(wù)器實際要耗費更高的硬件采購成本和運營成本:?
1. 每張Groq卡的內(nèi)存為230MB。對于Llama 70B模型,假設(shè)采用int8量化,完全不計推理的內(nèi)存消耗,則最少需要305張卡。實際上需要的更多,有報道是572張卡,因此我們按照572張卡來計算。
2. 每張Groq卡的價格為2萬美元,因此購買572張卡的成本為1144萬美元。當(dāng)然,因為銷售策略和規(guī)模效益,每張卡的價格可能打折,姑且按照目錄價來計算。
3. 572張卡,每張卡的功耗平均是185W,不考慮外設(shè),總功耗為105.8kW。(注意,實際會更高)
4. 現(xiàn)在數(shù)據(jù)中心平均每千瓦每月的價格在200美元左右,也就是說,每年的電費是105.8 x 200 x 12 = 25.4萬美元。(注意,實際會更高)
5. 基本上,采用4張H100卡可實現(xiàn)Groq的一半性能,也就是說,一臺8卡H100與上面的性能相當(dāng)。8卡H100的標(biāo)稱最大功率為10kW(實際大概在8-9kW),因此每年電費為2.4萬美元或更低一些。
6. 今天8卡H100的采購成本約為30萬美元。
7. 因此,如果運行三年,Groq的硬件采購成本是1144萬美元,運營成本是76.2萬美元或更高。8卡H100的硬件購買成本是30萬美元,運營成本為7.2萬美元或更低一些。
如果按這個算法,運行3年,Groq的采購成本將是H100的38倍,運營成本將是H100的10倍。????
賈揚清還在評論區(qū)談道:“老實說,我們對當(dāng)前的token價格+速度SLA組合感到不適。換句話說,我們對token價格感到滿意,但如果并行調(diào)用API,我們無法保證速度?!?/p>
03.存算一體+軟件定義硬件:?編譯器優(yōu)先,開發(fā)速度快,易定制調(diào)試
Groq聯(lián)合創(chuàng)始人兼CEO Jonathan Ross曾宣稱,相比用英偉達(dá)GPU,LPU集群將為大語言推理提供更高吞吐量、更低延遲、更低成本。????????????????“12個月內(nèi),我們可以部署10萬個LPU;24個月內(nèi),我們可以部署100萬個LPU?!盧oss說。???
根據(jù)官網(wǎng)信息,LPU代表語言處理單元,是Groq打造的一種新型端到端處理單元,旨在克服大語言模型的計算密度和內(nèi)存帶寬瓶頸,計算能力超過GPU和CPU,能夠減少計算每個單詞所需時間,更快生成文本序列。消除外部內(nèi)存瓶頸使得LPU推理引擎能夠在大語言模型上提供比GPU好幾個數(shù)量級的性能。
LPU采用了單核心時序指令集計算機(jī)架構(gòu),無需像傳使用高帶寬存儲(HBM)的GPU那樣頻繁從內(nèi)存中加載數(shù)據(jù),能有效利用每個時鐘周期,降低成本。???
▲傳統(tǒng)GPU內(nèi)存結(jié)構(gòu)
▲Groq芯片內(nèi)存結(jié)構(gòu)???????????????????
Groq芯片的指令是垂直走向,而數(shù)據(jù)流向東西流動,利用位置和功能單元相交以執(zhí)行操作。通過將計算和內(nèi)存訪問解耦,Groq的芯片在處理數(shù)據(jù)時能進(jìn)行大量讀寫,即一步之內(nèi)有效進(jìn)行計算與通信,提供低延遲、高性能和可預(yù)測的準(zhǔn)確性。?????????????其特點包括出色的時序性能、單核架構(gòu)、大規(guī)模部署可維護(hù)的同步網(wǎng)絡(luò)、能自動編譯超過500億參數(shù)的大語言模型、即時內(nèi)存訪問、較低精度水平下保持高準(zhǔn)確度。
“編譯器優(yōu)先”是Groq的秘密武器,使其硬件媲美專用集成電路(AISC)。但與功能固定的AISC不同的是,Groq采用軟件定義硬件的思路,利用了一個可以適應(yīng)和優(yōu)化不同模型的自定義編譯器,使其編譯器和體系結(jié)構(gòu)共同構(gòu)成了一個精簡的、穩(wěn)健的機(jī)器學(xué)習(xí)推理引擎,支持自定義優(yōu)化,以平衡性能與靈活性。
受軟件優(yōu)先思想的啟發(fā),Groq將執(zhí)行控制和數(shù)據(jù)流控制的決策步驟從硬件轉(zhuǎn)移到了編譯器,以調(diào)度跨網(wǎng)絡(luò)的數(shù)據(jù)移動。所有執(zhí)行計劃都在軟件棧中進(jìn)行,不再需要硬件調(diào)度器來弄清楚如何將東西搬到芯片上。這釋放了寶貴的芯片空間,并提供了額外的內(nèi)存帶寬和晶體管來提高性能。???
Groq的簡化架構(gòu)去除了芯片上對AI沒有任何處理優(yōu)勢的多余電路,實現(xiàn)了更高效的芯片設(shè)計,每平方毫米的性能更高。其芯片將大量的算術(shù)邏輯單元與大量的片上內(nèi)存結(jié)合,并擁有充足帶寬。由于控制流程已進(jìn)入軟件棧,硬件是一致且可預(yù)測的,開發(fā)人員可以精確獲知內(nèi)存使用情況、模型效率和延遲。這種確定性設(shè)計使用戶可在將多芯片擴(kuò)展連接時,精確把控運行一次計算需要多長時間,更加專注于算法并更快地部署解決方案,從而簡化了生產(chǎn)流程。擴(kuò)展性方面,當(dāng)Groq芯片擴(kuò)展到8卡、16卡、64卡,所支持的性能和延遲如下:???
Groq工程師認(rèn)為,必須謹(jǐn)慎使用HBM的原因是它不僅涉及延遲,還有“非確定性”問題。LPU架構(gòu)的一大好處是可以構(gòu)建能快速互連的數(shù)百個芯片的系統(tǒng),并知道整個系統(tǒng)的精確時間在百萬分之幾以內(nèi)。而一旦開始集成非確定性組件,就很難確保對延遲的承諾了。
04.結(jié)語:AI芯片是時候上演新故事了
Groq氣勢洶洶地向“世界最快大模型推理芯片”的目標(biāo)發(fā)起總攻,給高性能AI推理市場帶來了新的期待。在系統(tǒng)級芯片采購和運營成本方面,Groq可能還難以做到與H100匹敵,但從出色的單batch處理和壓低token價格來看,其LPU推理引擎已經(jīng)展現(xiàn)出相當(dāng)?shù)奈Α?隨著生成式AI應(yīng)用進(jìn)入落地潮,AI芯片賽道也是時候多上演一些新故事了。