国产AⅤ无码精品一区二区三区,最近韩国免费看的电影,久久久高清日本道

2023年，大模型的突破和生成式AI的興起，正在引領(lǐng)AI產(chǎn)業(yè)邁入智能創(chuàng)新的新階段，同時也將引發(fā)算力架構(gòu)的新變局。

根據(jù)最新發(fā)布的《2023-2024年中國人工智能計算力發(fā)展評估報告》，全球人工智能硬件市場（服務(wù)器）規(guī)模將從2022年的195億美元增長到2026年的347億美元，五年年復(fù)合增長率達(dá)17.3%；在中國，預(yù)計2023年中國人工智能服務(wù)器市場規(guī)模將達(dá)到91億美元，同比增長82.5%，2027年將達(dá)到134 億美元，五年年復(fù)合增長率達(dá)21.8%。中國算力市場、特別是智算領(lǐng)域，正在蓬勃發(fā)展。

CPU+GPU成為AI異構(gòu)計算主要方式

大模型時代，構(gòu)建和調(diào)優(yōu)生成式AI基礎(chǔ)模型以滿足應(yīng)用需求，將為整個基礎(chǔ)設(shè)施市場帶來改變和發(fā)展機(jī)遇。 “以應(yīng)用為導(dǎo)向、系統(tǒng)為核心”，將是未來算力升級的主要路徑。

從技術(shù)發(fā)展視角來看，異構(gòu)計算仍然是芯片發(fā)展趨勢之一。在單一系統(tǒng)中，異構(gòu)計算通過利用不同類型的處理器（如CPU、GPU、ASIC、FPGA、NPU等）協(xié)同工作，執(zhí)行特定任務(wù)，以優(yōu)化性能和效率，更高效地利用不同類型的計算資源，滿足不同的計算需求。比如，通過發(fā)揮GPU并行處理能力，可以提高模型，尤其是大模型的訓(xùn)練速度和效率；在數(shù)據(jù)預(yù)處理、模型調(diào)優(yōu)等階段，可以使用CPU進(jìn)行計算和決策，或在控制和協(xié)調(diào)計算資源(如GPU、FPGA等) 的工作過程中使用CPU，以確保計算過程的順利進(jìn)行；此外，可通過使用FPGA進(jìn)行推理加速，從而將模型實現(xiàn)在邊緣設(shè)備的部署，以開展更快速的實時推理工作。

IDC調(diào)查研究顯示，截至2023年10月，中國市場普遍認(rèn)為“CPU+GPU”的異構(gòu)方式是AI異構(gòu)計算的主要組合形式。

圖：人工智能訓(xùn)練和推理工作負(fù)載選用的計算架構(gòu)
（來源：《2023-2024年中國人工智能計算力發(fā)展評估報告》）

大模型時代，AI芯片三大挑戰(zhàn)

AI算力需求的提升給中國本土芯片廠商的發(fā)展提供了較大的空間，帶來新的機(jī)遇。IDC預(yù)計，2023年中國人工智能芯片出貨量將達(dá)到133.5萬片，同比增長 22.5%。

在面臨廣闊機(jī)會的同時，大模型時代，我國AI芯片也面臨著新的發(fā)展挑戰(zhàn)。首先，與國際領(lǐng)先AI芯片差距較大，以英偉達(dá)最新發(fā)布的H200 GPU為例，性能已經(jīng)達(dá)到其A100 GPU近5倍。而我國AI芯片的大模型集群訓(xùn)練性能，只有個別接近A100/A800，大多數(shù)不到其性能的50%，這也意味著，我國AI芯片在大模型訓(xùn)練性能方面，與國際領(lǐng)先水平約是3年的代際差距。

其次，生態(tài)方面，英偉達(dá)的CUDA經(jīng)過17年、累計超過100億美元的資金投入，全球開發(fā)者已經(jīng)超過300萬，成為全球AI開發(fā)處于壟斷地位的基礎(chǔ)庫。反觀國內(nèi)AI芯片企業(yè)，整體市場占有率加起來不超過10%，且各家AI芯片軟件各異、生態(tài)零碎割裂。

此外，在當(dāng)前時代背景下，我國AI芯片產(chǎn)能受阻、向高端芯片進(jìn)階關(guān)鍵技術(shù)受限等，也在一定程度上制約了AI芯片的發(fā)展。

破解異構(gòu)算力三重難題

基于當(dāng)前現(xiàn)狀，北京智源人工智能研究院副院長兼總工程師林詠華提出，大模型時代，我國異構(gòu)算力主要面臨三重束縛。

異構(gòu)算力束縛一：不一樣的算力，不能合池訓(xùn)練

具體而言，當(dāng)前異構(gòu)混合分布式訓(xùn)練存在如下挑戰(zhàn)：不同架構(gòu)設(shè)備的軟硬件棧不兼容，數(shù)值精度也可能存在差異；不同架構(gòu)設(shè)備之間很難高效通信；不同設(shè)備算力和內(nèi)存不同，很難進(jìn)行負(fù)載均衡切分。

這些挑戰(zhàn)很難一次性解決，目前智源已經(jīng)嘗試在相同架構(gòu)不同代際設(shè)備或者在兼容架構(gòu)的不同設(shè)備上進(jìn)行異構(gòu)訓(xùn)練，未來將探索不同架構(gòu)設(shè)備上的異構(gòu)訓(xùn)練。FlagScale是一個支持多廠商異構(gòu)算力合池訓(xùn)練的框架，當(dāng)前實現(xiàn)了異構(gòu)流水線并行及異構(gòu)數(shù)據(jù)并行兩種模式。

異構(gòu)流水線并行：在該模式實際訓(xùn)練時，可以跟數(shù)據(jù)并行、張量并行以及序列并行進(jìn)行混合來實現(xiàn)高效訓(xùn)練。根據(jù)反向傳播算法內(nèi)存使用特點(diǎn)，該模式適合將內(nèi)存比較大的設(shè)備放在流水線并行靠前的階段，內(nèi)存小的設(shè)備放在流水線并行靠后的階段，然后根據(jù)再設(shè)備的算力來分配不同的網(wǎng)絡(luò)層來實現(xiàn)負(fù)載均衡。
異構(gòu)數(shù)據(jù)并行模式：在該模式實際訓(xùn)練時，可以跟張量并行、流水線并行以及序列并行進(jìn)行混合來實現(xiàn)大規(guī)模高效訓(xùn)練。算力和內(nèi)存都比較大的設(shè)備將處理較大的微批次大小，而算力和內(nèi)存都比較小的設(shè)備將處理較小的微批次大小，從而實現(xiàn)不同設(shè)備上的負(fù)載均衡。

根據(jù)智源所展示的在英偉達(dá)和天數(shù)智芯集群的三組異構(gòu)混合訓(xùn)練實驗結(jié)果，顯示異構(gòu)混合訓(xùn)練收益較好，在三種配置情況下接近甚至超過了性能上限，這說明異構(gòu)混合訓(xùn)練的效率損耗較低，獲得了較好的訓(xùn)練收益。

林詠華介紹，異構(gòu)算力合池訓(xùn)練框架FlagScale正在實現(xiàn)英偉達(dá)算力集群與天數(shù)智芯算力集群的異構(gòu)合池訓(xùn)練，未來將實現(xiàn)更多不同中國廠商算力集群之間的異構(gòu)合池訓(xùn)練，推動不同廠商異構(gòu)芯片的通信庫標(biāo)準(zhǔn)化，實現(xiàn)高速互通互聯(lián)。

她表示，在芯片的迭代更新過程中，肯定存在新、舊代際芯片混用的過程，希望繼續(xù)攻關(guān)兼容異構(gòu)芯片的混合訓(xùn)練技術(shù)，也希望在同一個數(shù)據(jù)中心，各種商業(yè)資源可以靈活組合，將性能和效率最大化。

異構(gòu)算力束縛二：受CUDA制約，算子庫在不同硬件上適配難度大

當(dāng)前，我國AI芯片軟件生態(tài)薄弱，主流AI框架以支持英偉達(dá)芯片為主。對于國產(chǎn)AI芯片來說，需要適配多款框架，每次AI框架版本升級，需要重復(fù)適配；同時，各AI芯片廠商有自己的底層軟件棧，彼此不兼容。

在大模型需求下，上述問題帶來三大影響：第一，針對大模型需要的算子及優(yōu)化方法缺失，導(dǎo)致模型無法運(yùn)行或者運(yùn)行效率低；第二，會出現(xiàn)因為芯片架構(gòu)和配套的軟件實現(xiàn)差異而帶來的精度誤差問題；第三，要在國產(chǎn)AI芯片上實現(xiàn)大模型訓(xùn)練，需要大量移植工作，適配遷移成本很高。

對此，林詠華認(rèn)為，構(gòu)建公共的AI芯片開放軟件生態(tài)非常關(guān)鍵，結(jié)合大模型研究和發(fā)展需求，基礎(chǔ)架構(gòu)層面要構(gòu)建基于下一代開放、中立的AI編譯器中間層，并且要適配PyTorch框架，支持開源編程語言及編譯器擴(kuò)展。下一步，要繼續(xù)探索最大化硬件基礎(chǔ)架構(gòu)性能和利用率的共性核心技術(shù)，對典型和復(fù)雜算子的軟硬件協(xié)同極限優(yōu)化，使得成果開源開放，高效支撐大模型訓(xùn)練。

異構(gòu)算力束縛三：芯片架構(gòu)、軟件各異，評測難度大，影響落地進(jìn)展

當(dāng)前，AI芯片企業(yè)眾多，各自架構(gòu)和開發(fā)工具鏈不同，且AI框架眾多，再加上層出不窮的場景和復(fù)雜多變的模型，導(dǎo)致適配工作量大、開發(fā)復(fù)雜度高、評測標(biāo)準(zhǔn)難統(tǒng)一，影響了產(chǎn)品的落地和規(guī)?；瘧?yīng)用。

林詠華認(rèn)為，AI異構(gòu)芯片的評測，對行業(yè)生態(tài)有重要價值。當(dāng)前，業(yè)界缺少被廣泛認(rèn)可的、中立的、開源開放的、針對異構(gòu)芯片的評測體系。應(yīng)該建立開源的AI芯片評測項目，具體包括基礎(chǔ)環(huán)境、異構(gòu)芯片基礎(chǔ)軟件、測試集等，對模型運(yùn)行的支持情況、芯片的訓(xùn)練時間和計算吞吐量、芯片和服務(wù)器其他零部件的使用情況、芯片對不同框架和軟件生態(tài)的支持能力等方面，進(jìn)行全方位評測。

寫在最后

AI大模型的發(fā)展提升了智能算力的需求。IDC數(shù)據(jù)顯示，2022-2027年，我國智能算力規(guī)模年復(fù)合增長率達(dá)33.9%，超越同期通用算力規(guī)模16.6%的年復(fù)合增長率。

本土AI芯片廠商正面臨著新的機(jī)遇和挑戰(zhàn)。針對單芯片算力的瓶頸問題、多芯片異構(gòu)合池訓(xùn)練難題，以全局思維打造算力基礎(chǔ)設(shè)施平臺成為未來的關(guān)鍵。特別是在構(gòu)建與硬件匹配的軟件生態(tài)，包括操作系統(tǒng)、中間件和工具鏈等方面，隨著大模型從基礎(chǔ)研發(fā)走向應(yīng)用落地，軟件基礎(chǔ)設(shè)施的重要性和價值將會進(jìn)一步凸顯。這也是大模型在完成了“從0到1”的預(yù)訓(xùn)練之后，在通往“從1到100”的應(yīng)用和大規(guī)模落地過程中，AI芯片作為核心基礎(chǔ)環(huán)節(jié)必須完成的修煉，也將給中國AI芯片產(chǎn)業(yè)帶來深遠(yuǎn)的影響。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
USB2514B-AEZC	1	Microchip Technology Inc	UNIVERSAL SERIAL BUS CONTROLLER	ECAD模型下載ECAD模型	$2.5	查看
ATSAM4S16BA-AU	1	Atmel Corporation	RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64	ECAD模型下載ECAD模型	$7.22	查看
ATMEGA128A-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下載ECAD模型	$6.7	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

USB2514B-AEZC

Microchip Technology Inc

UNIVERSAL SERIAL BUS CONTROLLER

$2.5

查看

ATSAM4S16BA-AU

Atmel Corporation

RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64

$7.22

查看

ATMEGA128A-AU

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 64TQFP

$6.7

查看

AI大模型這艘“燒錢”游輪上，中國芯片如何乘風(fēng)破浪？

CPU+GPU成為AI異構(gòu)計算主要方式

大模型時代，AI芯片三大挑戰(zhàn)

破解異構(gòu)算力三重難題

寫在最后

推薦器件

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

AI大模型這艘“燒錢”游輪上，中國芯片如何乘風(fēng)破浪？

CPU+GPU成為AI異構(gòu)計算主要方式

大模型時代，AI芯片三大挑戰(zhàn)

破解異構(gòu)算力三重難題

寫在最后

推薦器件

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

AI大模型這艘“燒錢”游輪上，中國芯片如何乘風(fēng)破浪？