国产精品色综合久久,日本特大a级猛片

作者 |??ZeR0，編輯?|??漠影

AI芯片是時候上演新故事了。

芯東西2月21日報道，在OpenAI推出又一爆款力作AI視頻生成模型Sora后，連帶著偏上游的AI芯片賽道熱度一點即著。

創(chuàng)始成員來自谷歌TPU團(tuán)隊的美國存算一體AI芯片公司Groq便是最新贏家。這家創(chuàng)企自稱其自研AI推理引擎LPU做到了“世界最快推理”，由于其超酷的大模型速度演示、遠(yuǎn)低于GPU的token成本，這顆AI芯片最近討論度暴漲。連原阿里副總裁賈揚清都公開算賬，分析LPU和H100跑大模型的采購和運營成本到底差多少。

就在Groq風(fēng)風(fēng)火火之際，全球最大AI芯片公司英偉達(dá)陷入了一些振蕩。今日英偉達(dá)官宣將在3月18日-21日舉辦其年度技術(shù)盛會GTC24，但其股市表現(xiàn)卻不甚理想。受投資者快速撤股影響，英偉達(dá)今日股價降低4.35%，創(chuàng)去年10月以來最大跌幅，一日之間市值縮水780億美元。?????

Groq則在社交平臺上歡歡喜喜地頻繁發(fā)文加轉(zhuǎn)發(fā)，分享其合作伙伴及網(wǎng)友們對LPU的實測結(jié)果及正面評價。一些積極觀點認(rèn)為，LPU將改變運行大語言模型的方式，讓本地運行成為主流。????

根據(jù)Groq及一些網(wǎng)友分享的技術(shù)演示視頻及截圖，在LPU上跑大語言模型Mixtral 8x7B-32k，生成速度快到接近甚至超過500tokens/s，遠(yuǎn)快于公開可用的OpenAI ChatGPT 4。

“這是一場革命，不是進(jìn)化?！盙roq對自己的進(jìn)展信心爆棚。

2016年底，谷歌TPU核心團(tuán)隊的十個人中，有八人悄悄組隊離職，在加州山景城合伙創(chuàng)辦了新公司Groq。接著這家公司就進(jìn)入神隱狀態(tài)，直到2019年10月才通過一篇題為《世界，認(rèn)識Groq》的博客，正式向世界宣告自己的存在。

隨后“官網(wǎng)喊話”就成了Groq的特色，尤其是近期，Groq接連發(fā)文“喊話”馬斯克、薩姆·阿爾特曼、扎克伯格等AI大佬。特別是在《嘿薩姆…》文章中，公然“嫌棄”O(jiān)penAI的機(jī)器人太慢了，并給自家LPU打廣告，聲稱運行大語言模型和其他生成式AI模型的速度是其他AI推理解決方案速度的10倍。????

現(xiàn)在，Groq繼續(xù)保持著高調(diào)，除了官號積極出面互動外，前員工和現(xiàn)員工還在論壇上“撕”起來了。前員工質(zhì)疑實際成本問題，現(xiàn)員工則抨擊這位前員工離開并創(chuàng)辦了一家Groq的競爭對手+沒做出“世界最低延遲的大語言模型引擎”+沒保證“匹配最便宜的token價格”。????

面向LPU客戶的大語言模型API訪問已開放，提供免費10天、100萬tokens試用，可從OpenAI API切換。Groq致力于實現(xiàn)最便宜的每token價格，承諾其價格“超過同等上市型號的已發(fā)布供應(yīng)商的任何已公布的每百萬tokens價格”。

據(jù)悉，Groq下一代芯片將于2025年推出，采用三星4nm制程工藝，能效預(yù)計相較前一代提高15~20倍，尺寸將變得更大。

執(zhí)行相同任務(wù)的芯片數(shù)量也將大幅減少。當(dāng)前Groq需要在9個機(jī)架中用576顆芯片才能完成Llama 2 70B推理，而到2025年完成這一任務(wù)可能只需在2個機(jī)架使用大約100個芯片。??????????????

01.1秒內(nèi)寫出數(shù)百個單詞，輸出tokens吞吐量最高比競品快18倍

按照Groq的說法，其AI推理芯片能將運行大語言模型的速度提高10倍、能效提高10倍。

要體驗LPU上的大語言模型，需先創(chuàng)建一個Groq賬戶。????????輸入提示詞“美國最好的披薩是什么？”跑在LPU上的Mixtral模型飛速給出回答，比以前慢慢生成一行一行字的體驗好很多。????????

它還支持對生成的答案進(jìn)行修改。

在公開的大語言模型基準(zhǔn)測試上，LPU取得了壓倒性戰(zhàn)績，運行Meta AI大語言模型Llama 2 70B時，輸出tokens吞吐量比所有其他基于云的推理供應(yīng)商最高要快18倍。

對于Time to First Token，其縮短到0.22秒。由于LPU的確定性設(shè)計，響應(yīng)時間是一致的，從而使其API提供最小的可變性范圍。這意味著更多的可重復(fù)性和更少的圍繞潛在延遲問題或緩慢響應(yīng)的設(shè)計工作。

AI寫作助手創(chuàng)企HyperWriteAI的CEO Matt Shumer評價LPU“快如閃電”，“不到1秒寫出數(shù)百個單詞”，“超過3/4的時間花在搜索上，而非生成”，“大語言模型的運行時間只有幾分之一秒”。

有網(wǎng)友分享了圖像生成的區(qū)域提示，并評價“非常印象深刻”。

02.賈揚清分析采購和運營成本：比H100服務(wù)器貴多了

Groq芯片采用14nm制程工藝，搭載230MB片上共享SRAM，內(nèi)存帶寬達(dá)80TB/s，F(xiàn)P16算力為188TFLOPS，int8算力為750TOPS。

Groq在社交平臺上解答了一些常見問題：

1、LPU為每token提供很好的價格，因為效率高而且擁有從芯片到系統(tǒng)的堆棧，沒有中間商；

2、不賣卡/芯片，除非第三方供應(yīng)商將其出售給研究/科學(xué)應(yīng)用團(tuán)體，銷售內(nèi)部系統(tǒng)；

3、其設(shè)計適用于大型系統(tǒng)，而非單卡用戶，Groq的優(yōu)勢來自大規(guī)模的設(shè)計創(chuàng)新。?????????????????

與很多大模型芯片不同的是，Groq的芯片沒有HBM、沒有CoWoS，因此不受HBM供應(yīng)短缺的限制。?

在對Meta Llama 2模型做推理基準(zhǔn)測試時，Groq將576個芯片互連。按照此前Groq分享的計算方法，英偉達(dá)GPU需要大約10~30J來生成token，而Groq每token大約需要1~3J，也就是說推理速度是原來的10倍，??????????????成本是原來的1/10，或者說性價比提高了100倍。

Groq拿一臺英偉達(dá)服務(wù)器和8機(jī)架Groq設(shè)備做對比，并聲稱非常確定配備576個LPU的Groq系統(tǒng)成本不到英偉達(dá)DGX H100的1/10，而后者的運行價格已超過40萬美元。等于說Groq系統(tǒng)能實現(xiàn)10倍的速度下，總成本只有1/10，即消耗的空間越多，就越省錢。

自稱是“Groq超級粉絲”的原阿里副總裁、創(chuàng)辦AI infra創(chuàng)企Lepton AI的賈揚清則從另一個角度來考慮性價比，據(jù)他分析，與同等算力的英偉達(dá)H100服務(wù)器成本比較，Groq LPU服務(wù)器實際要耗費更高的硬件采購成本和運營成本：?

1. 每張Groq卡的內(nèi)存為230MB。對于Llama 70B模型，假設(shè)采用int8量化，完全不計推理的內(nèi)存消耗，則最少需要305張卡。實際上需要的更多，有報道是572張卡，因此我們按照572張卡來計算。

2. 每張Groq卡的價格為2萬美元，因此購買572張卡的成本為1144萬美元。當(dāng)然，因為銷售策略和規(guī)模效益，每張卡的價格可能打折，姑且按照目錄價來計算。

3. 572張卡，每張卡的功耗平均是185W，不考慮外設(shè)，總功耗為105.8kW。(注意，實際會更高)

4. 現(xiàn)在數(shù)據(jù)中心平均每千瓦每月的價格在200美元左右，也就是說，每年的電費是105.8 x 200 x 12 = 25.4萬美元。（注意，實際會更高）

5. 基本上，采用4張H100卡可實現(xiàn)Groq的一半性能，也就是說，一臺8卡H100與上面的性能相當(dāng)。8卡H100的標(biāo)稱最大功率為10kW（實際大概在8-9kW），因此每年電費為2.4萬美元或更低一些。

6. 今天8卡H100的采購成本約為30萬美元。

7. 因此，如果運行三年，Groq的硬件采購成本是1144萬美元，運營成本是76.2萬美元或更高。8卡H100的硬件購買成本是30萬美元，運營成本為7.2萬美元或更低一些。

如果按這個算法，運行3年，Groq的采購成本將是H100的38倍，運營成本將是H100的10倍。????

賈揚清還在評論區(qū)談道：“老實說，我們對當(dāng)前的token價格+速度SLA組合感到不適。換句話說，我們對token價格感到滿意，但如果并行調(diào)用API，我們無法保證速度?！?/p>

03.存算一體+軟件定義硬件：?編譯器優(yōu)先，開發(fā)速度快，易定制調(diào)試

Groq聯(lián)合創(chuàng)始人兼CEO Jonathan Ross曾宣稱，相比用英偉達(dá)GPU，LPU集群將為大語言推理提供更高吞吐量、更低延遲、更低成本。????????????????“12個月內(nèi)，我們可以部署10萬個LPU；24個月內(nèi)，我們可以部署100萬個LPU?！盧oss說。???

根據(jù)官網(wǎng)信息，LPU代表語言處理單元，是Groq打造的一種新型端到端處理單元，旨在克服大語言模型的計算密度和內(nèi)存帶寬瓶頸，計算能力超過GPU和CPU，能夠減少計算每個單詞所需時間，更快生成文本序列。消除外部內(nèi)存瓶頸使得LPU推理引擎能夠在大語言模型上提供比GPU好幾個數(shù)量級的性能。

LPU采用了單核心時序指令集計算機(jī)架構(gòu)，無需像傳使用高帶寬存儲（HBM）的GPU那樣頻繁從內(nèi)存中加載數(shù)據(jù)，能有效利用每個時鐘周期，降低成本。???

▲傳統(tǒng)GPU內(nèi)存結(jié)構(gòu)

▲Groq芯片內(nèi)存結(jié)構(gòu)???????????????????

Groq芯片的指令是垂直走向，而數(shù)據(jù)流向東西流動，利用位置和功能單元相交以執(zhí)行操作。通過將計算和內(nèi)存訪問解耦，Groq的芯片在處理數(shù)據(jù)時能進(jìn)行大量讀寫，即一步之內(nèi)有效進(jìn)行計算與通信，提供低延遲、高性能和可預(yù)測的準(zhǔn)確性。?????????????其特點包括出色的時序性能、單核架構(gòu)、大規(guī)模部署可維護(hù)的同步網(wǎng)絡(luò)、能自動編譯超過500億參數(shù)的大語言模型、即時內(nèi)存訪問、較低精度水平下保持高準(zhǔn)確度。

“編譯器優(yōu)先”是Groq的秘密武器，使其硬件媲美專用集成電路（AISC）。但與功能固定的AISC不同的是，Groq采用軟件定義硬件的思路，利用了一個可以適應(yīng)和優(yōu)化不同模型的自定義編譯器，使其編譯器和體系結(jié)構(gòu)共同構(gòu)成了一個精簡的、穩(wěn)健的機(jī)器學(xué)習(xí)推理引擎，支持自定義優(yōu)化，以平衡性能與靈活性。

受軟件優(yōu)先思想的啟發(fā)，Groq將執(zhí)行控制和數(shù)據(jù)流控制的決策步驟從硬件轉(zhuǎn)移到了編譯器，以調(diào)度跨網(wǎng)絡(luò)的數(shù)據(jù)移動。所有執(zhí)行計劃都在軟件棧中進(jìn)行，不再需要硬件調(diào)度器來弄清楚如何將東西搬到芯片上。這釋放了寶貴的芯片空間，并提供了額外的內(nèi)存帶寬和晶體管來提高性能。???

Groq的簡化架構(gòu)去除了芯片上對AI沒有任何處理優(yōu)勢的多余電路，實現(xiàn)了更高效的芯片設(shè)計，每平方毫米的性能更高。其芯片將大量的算術(shù)邏輯單元與大量的片上內(nèi)存結(jié)合，并擁有充足帶寬。由于控制流程已進(jìn)入軟件棧，硬件是一致且可預(yù)測的，開發(fā)人員可以精確獲知內(nèi)存使用情況、模型效率和延遲。這種確定性設(shè)計使用戶可在將多芯片擴(kuò)展連接時，精確把控運行一次計算需要多長時間，更加專注于算法并更快地部署解決方案，從而簡化了生產(chǎn)流程。擴(kuò)展性方面，當(dāng)Groq芯片擴(kuò)展到8卡、16卡、64卡，所支持的性能和延遲如下：???

Groq工程師認(rèn)為，必須謹(jǐn)慎使用HBM的原因是它不僅涉及延遲，還有“非確定性”問題。LPU架構(gòu)的一大好處是可以構(gòu)建能快速互連的數(shù)百個芯片的系統(tǒng)，并知道整個系統(tǒng)的精確時間在百萬分之幾以內(nèi)。而一旦開始集成非確定性組件，就很難確保對延遲的承諾了。

04.結(jié)語：AI芯片是時候上演新故事了

Groq氣勢洶洶地向“世界最快大模型推理芯片”的目標(biāo)發(fā)起總攻，給高性能AI推理市場帶來了新的期待。在系統(tǒng)級芯片采購和運營成本方面，Groq可能還難以做到與H100匹敵，但從出色的單batch處理和壓低token價格來看，其LPU推理引擎已經(jīng)展現(xiàn)出相當(dāng)?shù)奈Α?隨著生成式AI應(yīng)用進(jìn)入落地潮，AI芯片賽道也是時候多上演一些新故事了。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
R5F104MKGFB#50	1	Renesas Electronics Corporation	Low Power, High Function, General Purpose Microcontrollers for Motor Control, Industrial and Metering Applications, LQFP, /Tray	ECAD模型下載ECAD模型	暫無數(shù)據(jù)	查看
MC56F8323VFBE	1	Freescale Semiconductor	16-bit DSC, 56800E core, 32KB Flash, 60MHz, QFP 64	ECAD模型下載ECAD模型	$14.69	查看
STM32F103VET6	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 512 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下載ECAD模型	$16.64	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

R5F104MKGFB#50

Renesas Electronics Corporation

Low Power, High Function, General Purpose Microcontrollers for Motor Control, Industrial and Metering Applications, LQFP, /Tray