免费精品久久久国产,法国精品无码毛片,在线亚洲一区

作者：豐寧

自ChatGPT爆火之后，AI大模型的研發(fā)層出不窮，而在這場(chǎng)“百模大戰(zhàn)”激戰(zhàn)正酣之際，美國(guó)芯片公司英偉達(dá)卻憑借其GPU在大模型計(jì)算中的出色發(fā)揮賺得盆滿缽滿。

然而，近日蘋果的一項(xiàng)舉動(dòng)，給英偉達(dá)的火熱稍稍降溫。

?01、AI模型訓(xùn)練，蘋果選擇TPU而非GPU

英偉達(dá)一直是 AI 算力基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)導(dǎo)者，在 AI 硬件市場(chǎng)，尤其是 AI 訓(xùn)練領(lǐng)域，其市場(chǎng)份額在 80% 以上，英偉達(dá)GPU一直是亞馬遜、微軟、Meta、OpenAI 等眾多科技巨頭在 AI 和機(jī)器學(xué)習(xí)領(lǐng)域的首選算力解決方案。因此，英偉達(dá)也持續(xù)遭遇行業(yè)內(nèi)多元挑戰(zhàn)，競(jìng)爭(zhēng)對(duì)手中不乏自主研發(fā)GPU的強(qiáng)者，亦有探索創(chuàng)新架構(gòu)的先驅(qū)。谷歌的TPU也憑借其獨(dú)特優(yōu)勢(shì)，成為英偉達(dá)不容忽視的強(qiáng)大對(duì)手。

7月30日，蘋果公司發(fā)布了一篇研究論文。在論文中，蘋果介紹了給Apple Intelligence提供支持的兩個(gè)模型——AFM-on-device（AFM是蘋果基礎(chǔ)模型的縮寫）和 AFM-server（一個(gè)基于服務(wù)器的大語言模型），前者是一個(gè)30億參數(shù)的語言模型，后者則是一個(gè)基于服務(wù)器的語言模型。

蘋果在論文中表示，為了訓(xùn)練其AI模型，使用了谷歌的兩種張量處理器（TPU），這些單元被組成大型芯片集群。為了構(gòu)建可在iPhone和其他設(shè)備上運(yùn)行的AI模型AFM-on-device，蘋果使用了2048個(gè)TPUv5p芯片。對(duì)于其服務(wù)器AI模型AFM-server，蘋果部署了8192個(gè)TPUv4處理器。蘋果放棄英偉達(dá) GPU 轉(zhuǎn)向谷歌 TPU 的戰(zhàn)略選擇，在科技界投下了一枚震撼彈，當(dāng)日英偉達(dá)股價(jià)應(yīng)聲下跌超 7%，創(chuàng)下三個(gè)月來最大跌幅，市值蒸發(fā) 1930 億美元。業(yè)內(nèi)人士表示，蘋果的決定表明一些大型科技公司在人工智能訓(xùn)練方面可能正在尋找英偉達(dá)圖形處理單元的替代品。

?02、TPU VS GPU，誰更適合大模型？

在討論TPU與GPU誰更適合大模型之前，我們需要對(duì)這兩者有一個(gè)初步的了解。

TPU與GPU對(duì)比

TPU全稱Tensor Processing Unit，是谷歌專門為加速機(jī)器學(xué)習(xí)工作負(fù)載而設(shè)計(jì)的專用芯片，它主要應(yīng)用于深度學(xué)習(xí)模型的訓(xùn)練和推理。值得注意的是，TPU也屬于 ASIC芯片的一類，而ASIC是一種為了某種特定的需求而專門定制的芯片。GPU大家就比較熟悉了，GPU是最初為圖形渲染設(shè)計(jì)的處理器，后來廣泛用于并行計(jì)算和深度學(xué)習(xí)。它具有強(qiáng)大的并行處理能力，經(jīng)過優(yōu)化后的GPU，也非常適合深度學(xué)習(xí)和科學(xué)計(jì)算等并行任務(wù)?？梢钥吹?，這兩種不同的芯片在初始設(shè)計(jì)時(shí)便有著各自不同的目標(biāo)。與傳統(tǒng)的 CPU 相比，GPU 的并行計(jì)算能力使其特別適合處理大規(guī)模數(shù)據(jù)集和復(fù)雜計(jì)算任務(wù)，于是在 AI 大模型爆發(fā)的近幾年，GPU 一度成為?AI 訓(xùn)練的算力硬件首選。然而，隨著AI大模型的不斷發(fā)展，計(jì)算任務(wù)在指數(shù)級(jí)地日益龐大與復(fù)雜化，這對(duì)計(jì)算能力與計(jì)算資源提出了全新的要求，GPU 用于 AI 計(jì)算時(shí)的算力利用率較低、能耗較高的能效比瓶頸，以及英偉達(dá) GPU 產(chǎn)品的價(jià)格高昂和供貨緊張，讓本就是為深度學(xué)習(xí)和機(jī)器學(xué)習(xí)而生的 TPU 架構(gòu)受到更多的關(guān)注。GPU在這一領(lǐng)域的霸主地位開始面臨挑戰(zhàn)。據(jù)悉，谷歌早在 2013 年就開始在內(nèi)部研發(fā)專用于 AI 機(jī)器學(xué)習(xí)算法的芯片，直到 2016 年這款自研的名叫 TPU 的芯片才被正式公開。在 2016 年 3 月打敗李世石和 2017 年 5 月打敗柯杰的 AlphaGo，就是使用谷歌的 TPU 系列芯片訓(xùn)練而成。如果說TPU更適合用作AI大模型訓(xùn)練，不具體說明它的“本領(lǐng)”恐怕難以令眾人信服。

TPU如何適合大模型訓(xùn)練？

首先，TPU具有多維度的計(jì)算單元提高計(jì)算效率。相較于 CPU 中的標(biāo)量計(jì)算單元和 GPU 中的矢量計(jì)算單元，TPU 使用二維乃至更高維度的計(jì)算單元完成計(jì)算任務(wù)，將卷積運(yùn)算循環(huán)展開的方式實(shí)現(xiàn)最大限度的數(shù)據(jù)復(fù)用，降低數(shù)據(jù)傳輸成本，提升加速效率。

其次，TPU具有更省時(shí)的數(shù)據(jù)傳輸和高效率的控制單元。馮諾依曼架構(gòu)帶來的存儲(chǔ)墻問題在深度學(xué)習(xí)任務(wù)當(dāng)中尤為突出，而 TPU 采用更為激進(jìn)的策略設(shè)計(jì)數(shù)據(jù)傳輸，且控制單元更小，給片上存儲(chǔ)器和運(yùn)算單元留下了更大的空間。

最后，TPU具有設(shè)計(jì)面向 AI 的加速，強(qiáng)化 AI/ML 計(jì)算能力。定位準(zhǔn)確，架構(gòu)簡(jiǎn)單，單線程控制，定制指令集，TPU 架構(gòu)在深度學(xué)習(xí)運(yùn)算方面效率極高，且易于擴(kuò)展，更適合超大規(guī)模的 AI 訓(xùn)練計(jì)算。

據(jù)悉，谷歌?TPUv4 與英偉達(dá)?A100 相比的功耗低 1.3-1.9 倍，在 Bert、ResNet等多類工作模型中，效率高于A100 1.2- 1.9 倍；同時(shí)其 TPUv5/TPU Trillium產(chǎn)品相比 TPUv4，能夠進(jìn)一步提升 2 倍/接近 10 倍的計(jì)算性能?？梢钥吹焦雀鑄PU產(chǎn)品相比英偉達(dá)的產(chǎn)品在成本與功耗上存在更多優(yōu)勢(shì)。在今年5月的I / O 2024 開發(fā)者大會(huì)上，Alphabet首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元（TPU）--Trillium，稱該產(chǎn)品的速度幾乎是上一代產(chǎn)品的五倍，并表示將于今年晚些時(shí)候推出交付。

谷歌表示，第六代Trillium芯片的計(jì)算性能比TPU v5e芯片提高4.7倍，能效比v5e高出67%。這款芯片旨在為從大模型中生成文本和其他內(nèi)容的技術(shù)提供動(dòng)力。谷歌還表示，第六代Trillium芯片將在今年年底可供其云客戶使用。谷歌的工程師通過增加高帶寬內(nèi)存容量和整體帶寬實(shí)現(xiàn)了額外的性能提升。人工智能模型需要大量的高級(jí)內(nèi)存，而這一直是進(jìn)一步提高性能的瓶頸。

值得注意的是，谷歌并不會(huì)以獨(dú)立產(chǎn)品的形態(tài)單獨(dú)出售自己的TPU 芯片，而是通過谷歌云平臺(tái)（ Google Cloud Platform，簡(jiǎn)稱 GCP）向外部客戶提供基于 TPU 的算力服務(wù)。在這一方案上也可窺見谷歌的聰明之處：直接銷售硬件涉及高昂的開銷和復(fù)雜的供應(yīng)鏈管理。而通過云服務(wù)提供TPU，谷歌可以簡(jiǎn)化安裝、部署和管理過程，減少不確定性和額外開銷。這樣的模式也簡(jiǎn)化了銷售流程，無需額外建立硬件銷售團(tuán)隊(duì)。

另外，谷歌正在與OpenAI就生成性AI進(jìn)行激烈的競(jìng)爭(zhēng)，如果谷歌開始銷售TPU，它將同時(shí)與兩個(gè)強(qiáng)大的對(duì)手競(jìng)爭(zhēng)：英偉達(dá)和OpenAI，這可能不是目前最明智的策略。文章說到這里，可能會(huì)有人發(fā)問：既然TPU具有如此出色的性能優(yōu)勢(shì)，是否會(huì)在很快的未來取代GPU？

?03、現(xiàn)在談取代GPU？或許為時(shí)尚早

這一問題也并沒有這么簡(jiǎn)單。只說TPU的優(yōu)勢(shì)，不講GPU的優(yōu)勢(shì)，可謂是一葉障目。

接下來我們還要了解一下相比TPU，GPU又是如何適用于當(dāng)前的AI大模型訓(xùn)練。我們看到TPU的優(yōu)勢(shì)在于出眾的能效比與單位成本算力指標(biāo)，然而作為一種ASIC芯片，其試錯(cuò)成本高的劣勢(shì)也較為明確。此外，在生態(tài)系統(tǒng)的成熟度方面。GPU 經(jīng)過多年的發(fā)展，擁有龐大且成熟的軟件和開發(fā)工具生態(tài)。眾多的開發(fā)者和研究機(jī)構(gòu)長(zhǎng)期基于 GPU 進(jìn)行開發(fā)和優(yōu)化，積累了豐富的庫(kù)、框架和算法。而 TPU 的生態(tài)相對(duì)較新，可用的資源和工具可能不如 GPU 豐富，這對(duì)于開發(fā)者來說可能增加了適配和優(yōu)化的難度。

在通用性方面。GPU 最初是為圖形渲染設(shè)計(jì)，但其架構(gòu)具有較高的靈活性，能夠適應(yīng)多種不同類型的計(jì)算任務(wù)，不僅僅局限于深度學(xué)習(xí)。這使得 GPU 在面對(duì)多樣化的應(yīng)用場(chǎng)景時(shí)具有更強(qiáng)的適應(yīng)性。相比之下，TPU 是專為機(jī)器學(xué)習(xí)工作負(fù)載定制設(shè)計(jì)的，對(duì)于其他非機(jī)器學(xué)習(xí)相關(guān)的計(jì)算任務(wù)，可能無法像 GPU 那樣有效地處理。最后，GPU 市場(chǎng)競(jìng)爭(zhēng)激烈，各廠商不斷推動(dòng)技術(shù)創(chuàng)新和產(chǎn)品更新，新的架構(gòu)和性能提升較為頻繁。

而 TPU 的發(fā)展主要由谷歌主導(dǎo)，其更新和演進(jìn)的節(jié)奏可能相對(duì)較慢，整體來說，英偉達(dá)和谷歌在 AI 芯片上的策略各有側(cè)重：英偉達(dá)通過提供強(qiáng)大的算力和廣泛的開發(fā)者支持，推動(dòng) AI 模型的性能極限；而谷歌則通過高效的分布式計(jì)算架構(gòu)，提升大規(guī)模 AI 模型訓(xùn)練的效率。這兩種不同的路徑選擇，使得它們?cè)诟髯缘膽?yīng)用領(lǐng)域中都展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。

蘋果選擇谷歌TPU的原因可能在于以下幾點(diǎn)：首先，TPU在處理大規(guī)模分布式訓(xùn)練任務(wù)時(shí)表現(xiàn)出色，提供高效、低延遲的計(jì)算能力；其次，使用Google Cloud平臺(tái)，蘋果可以降低硬件成本，靈活調(diào)整計(jì)算資源，優(yōu)化AI開發(fā)的總體成本。此外，谷歌的AI開發(fā)生態(tài)系統(tǒng)還提供了豐富的工具和支持，使得蘋果能夠更高效地開發(fā)和部署其AI模型。

蘋果的實(shí)例證明了TPU在大模型訓(xùn)練上的能力。但相比于英偉達(dá)，TPU目前在大模型領(lǐng)域的應(yīng)用依舊還是太少，背后更多的大模型公司，包括OpenAI、特斯拉、字節(jié)跳動(dòng)等巨頭，主力AI數(shù)據(jù)中心依然是普遍采用英偉達(dá)GPU。因此，現(xiàn)在就下定義說谷歌的TPU可以打敗英偉達(dá)的GPU或許為時(shí)尚早，不過TPU一定是一個(gè)具有極強(qiáng)挑戰(zhàn)力的選手。

?04、GPU的挑戰(zhàn)者，不只TPU

中國(guó)也有押注TPU芯片的企業(yè)—中昊芯英。中昊芯英創(chuàng)始人楊龔軼凡曾在谷歌作為芯片研發(fā)核心人員，深度參與了谷歌TPU 2/3/4的設(shè)計(jì)與研發(fā)，在他看來，TPU是為AI大模型而生的優(yōu)勢(shì)架構(gòu)。

2023年，中昊芯英“剎那”芯片正式誕生?！皠x那”芯片憑借其獨(dú)特的1024片芯片高速片間互聯(lián)能力，構(gòu)建了名為“泰則”的大規(guī)模智算集群，其系統(tǒng)集群性能遠(yuǎn)超傳統(tǒng)GPU數(shù)十倍，為超千億參數(shù)AIGC大模型的訓(xùn)練與推理提供了前所未有的算力保障。這一成就不僅彰顯了中昊芯英在AI算力技術(shù)領(lǐng)域的深厚積累，更為國(guó)產(chǎn)芯片在國(guó)際舞臺(tái)上贏得了寶貴的一席之地。

然而，在如今人工智能淘金熱，但英偉達(dá)H100芯片供不應(yīng)求、價(jià)格昂貴的背景下，大大小小的企業(yè)都在尋求替代英偉達(dá)的AI芯片產(chǎn)品，其中包括走傳統(tǒng)GPU路線的公司，也包括探尋新型架構(gòu)的企業(yè)。GPU面臨的挑戰(zhàn)者，可遠(yuǎn)不止TPU。

在GPU路徑研發(fā)中，英偉達(dá)的勁敵莫過于AMD，今年一月有研究人員在Frontier超算集群上，利用其中8%左右的GPU，訓(xùn)練出一個(gè)GPT 3.5級(jí)別規(guī)模的大模型。而Frontier超算集群是完全基于AMD硬件的，由37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU組成，這次研究也突破了在AMD硬件上突破了先進(jìn)分布式訓(xùn)練模型的難點(diǎn)，為AMD平臺(tái)訓(xùn)練大模型驗(yàn)證了可行性。同時(shí)，CUDA生態(tài)也在逐步擊破，今年7月英國(guó)公司Spectral Compute推出了可以為AMD GPU原生編譯CUDA源代碼的方案，大幅提高了AMD GPU對(duì)CUDA的兼容效率。

英特爾的Gaudi 3 也在發(fā)布時(shí)直接對(duì)標(biāo)英偉達(dá)H100。今年4月，英特爾就推出用于深度學(xué)習(xí)和大型生成式AI模型的Gaudi 3，英特爾稱，對(duì)比前代，Gaudi 3可提供四倍的浮點(diǎn)格式BF16 AI計(jì)算能力，內(nèi)存帶寬提升1.5倍，服務(wù)于大規(guī)模系統(tǒng)擴(kuò)展的網(wǎng)絡(luò)帶寬提升兩倍。對(duì)比英偉達(dá)的芯片H100，如果應(yīng)用于7B和13B參數(shù)的Meta Llama2 模型以及175B參數(shù)的OpenAI GPT-3模型中，Gaudi 3預(yù)計(jì)可以讓這些模型的訓(xùn)練時(shí)間平均縮短50%。

此外，應(yīng)用于7B和70B參數(shù)的Llama以及180B參數(shù)的開源Falcon模型時(shí)，Gaudi 3的推理吞吐量預(yù)計(jì)將比H100平均高50%，推理功效平均高40%。而且，在較長(zhǎng)的輸入和輸出序列上，Gaudi 3有更大的推理性能優(yōu)勢(shì)。應(yīng)用于7B和70B參數(shù)的Llama以及180B參數(shù)的Falcon模型時(shí)，Gaudi 3的推理速度相比英偉達(dá)H200提高30%。英特爾稱，Gaudi 3將在今年第三季度向客戶供應(yīng)，二季度向包括戴爾、HPE、聯(lián)想和Supermicro在內(nèi)的 OEM 廠商提供，但并未公布Gaudi 3的售價(jià)范圍。

去年11月，微軟在Ignite技術(shù)大會(huì)上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100，以及應(yīng)用于云端軟件服務(wù)的芯片Azure Cobalt。兩款芯片將由臺(tái)積電代工，采用5nm制程技術(shù)。

據(jù)悉，英偉達(dá)的高端產(chǎn)品一顆有時(shí)可賣到3萬到4萬美元，用于ChatGPT的芯片被認(rèn)為大概就需要有1萬顆，這對(duì)AI公司是個(gè)龐大成本。有大量AI芯片需求的科技大廠極力尋求可替代的供應(yīng)來源，微軟選擇自行研發(fā)，便是希望增強(qiáng)ChatGPT等生成式AI產(chǎn)品的性能，同時(shí)降低成本。

Cobalt是基于Arm架構(gòu)的通用型芯片，具有128個(gè)核心，Maia 100是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片，用于云端訓(xùn)練和推理的，晶體管數(shù)量達(dá)到1050億個(gè)。這兩款芯片將導(dǎo)入微軟Azure數(shù)據(jù)中心，支持OpenAI、Copilot等服務(wù)。負(fù)責(zé)Azure芯片部門的副總裁Rani Borkar表示，微軟已開始用Bing和Office AI產(chǎn)品測(cè)試Maia 100芯片，微軟主要AI合作伙伴、ChatGPT開發(fā)商OpenAI，也在進(jìn)行測(cè)試中。

有市場(chǎng)評(píng)論認(rèn)為，微軟 AI 芯片立項(xiàng)的時(shí)機(jī)很巧，正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經(jīng)開始騰飛之際。不過，微軟并不認(rèn)為自己的 AI 芯片可以廣泛替代英偉達(dá)的產(chǎn)品。有分析認(rèn)為，微軟的這一努力如果成功的話，也有可能幫助它在未來與英偉達(dá)的談判中更具優(yōu)勢(shì)。

除了芯片巨頭外，也不乏來自初創(chuàng)公司的沖擊。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。當(dāng)下，英偉達(dá)大約掌控著 80%的人工智能數(shù)據(jù)中心芯片市場(chǎng)，而其余 20%的大部分則由不同版本的谷歌 TPU 把控。

未來，TPU 所占的市場(chǎng)份額會(huì)不會(huì)持續(xù)上揚(yáng)？會(huì)增長(zhǎng)幾何？是否會(huì)有其他架構(gòu)的 AI 芯片將現(xiàn)有的市場(chǎng)格局一分為三？這些懸念預(yù)計(jì)在接下來的數(shù)年間將逐步揭曉。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATTINY85-20SUR	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8	ECAD模型下載ECAD模型	$1.43	查看
DSPIC33EP512MU814-I/PH	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144	ECAD模型下載ECAD模型	$13.09	查看
LPC1768FBD100K	1	NXP Semiconductors	RISC Microcontroller	ECAD模型下載ECAD模型	$17.16	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ATTINY85-20SUR

Atmel Corporation

RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8