前言:
在一個(gè)對(duì)壁仞科技最為關(guān)鍵的節(jié)點(diǎn)期,與上海封控同一時(shí)間的3月31日,壁仞第一款通用GPU芯片BR100系列點(diǎn)亮成功。
而近日BR100的正式發(fā)布,標(biāo)志著全球通用GPU算力紀(jì)錄第一次由一家中國企業(yè)創(chuàng)造,中國的通用GPU芯片正式邁入[每秒千萬億次]計(jì)算新時(shí)代。
作者 | 方文 圖片來源 | 網(wǎng) 絡(luò)
創(chuàng)造全球通用GPU算力紀(jì)錄
壁仞科技BR100這款芯片創(chuàng)出全球算力紀(jì)錄,峰值算力達(dá)到國際廠商在售旗艦產(chǎn)品3倍以上,創(chuàng)下國內(nèi)互連帶寬紀(jì)錄。
是國內(nèi)率先采用Chiplet技術(shù)、率先采用新一代主機(jī)接口PCIe 5.0、率先支持CXL互連協(xié)議的通用GPU芯片。
16位浮點(diǎn)算力達(dá)到1000T以上、8位定點(diǎn)算力達(dá)到2000T以上,單芯片峰值算力達(dá)到PFLOPS級(jí)別。
性能方面,1024 TOPS INT8、512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32;
可實(shí)現(xiàn)2.3TB/s外部I/O帶寬,支持64路編碼、512路解碼等;
號(hào)稱在FP32(單精度浮點(diǎn))、INT8(整數(shù),常用于人工智能推理)等維度,均超越了國際廠商最新旗艦。
同時(shí)也發(fā)布了BR100系列的另一款產(chǎn)品BR104,該款芯片同樣基于壁立仞架構(gòu),擁有1個(gè)計(jì)算芯粒,性能約為BR100的一半,同樣超越了國際廠商的在售旗艦產(chǎn)品。
最底層支撐來源于自主芯片架構(gòu)
BR100之所以能夠?qū)崿F(xiàn)國際領(lǐng)先的算力,最底層的支撐來源于自主原創(chuàng)的芯片架構(gòu)[壁立仞]。
壁立仞架構(gòu)以數(shù)據(jù)流為中心,對(duì)數(shù)據(jù)流進(jìn)行深度的優(yōu)化,比較完整地解決了數(shù)據(jù)搬移的瓶頸和并行度不足的問題。
壁立仞架構(gòu)有6大特性:TF32+數(shù)據(jù)流精度、TDA數(shù)據(jù)流存取加速、C-Warp數(shù)據(jù)流并行、NME減少數(shù)據(jù)搬移、NUMA/UMA減少數(shù)據(jù)搬移、SVI數(shù)據(jù)流隔離。
采用了Chiplet的設(shè)計(jì)理念,讓芯片總面積可以突破光罩尺寸對(duì)單芯片面積的限制,集成更多的算力和通用性邏輯。
通過縮小單個(gè)計(jì)算芯粒的面積,還可以同時(shí)提升產(chǎn)能與良率,進(jìn)而極大地降低硅片的成本,并支持更靈活的產(chǎn)品策略。
努力構(gòu)建AI芯片的生態(tài)體系
算力對(duì)于數(shù)字世界、物理世界的融合和共同發(fā)展,具有巨大的作用,建立國產(chǎn)的GPGPU和AI芯片的生態(tài)非常重要。
如果能建立一個(gè)相對(duì)統(tǒng)一的生態(tài),讓更多的用戶進(jìn)行這個(gè)編程和應(yīng)用,對(duì)芯片的廠商將是一個(gè)重大的利好。
對(duì)于一家初創(chuàng)公司而言,建設(shè)生態(tài)的周期非常長,投入也十分巨大,所以壁仞科技也會(huì)兼容目前主流的GPU生態(tài),與客戶現(xiàn)有的基礎(chǔ)設(shè)施做到高度的兼容,方便客戶的遷移。
目前,壁仞科技與浪潮信息共同開發(fā)了搭載了BR100的OAM服務(wù)器[海玄]。
該服務(wù)器可以提供高達(dá)8PFLOPS(8000萬億次每秒)的浮點(diǎn)峰值算力,超過普通8卡加速計(jì)算設(shè)備的能力。
除了研發(fā)大算力芯片之外,也提供軟硬一體的解決方案,自主研發(fā)的BIRENSUPA軟件平臺(tái)構(gòu)建在BR100系列產(chǎn)品的底層硬件之上。
由驅(qū)動(dòng)層、編程平臺(tái)、框架層、應(yīng)用解決方案構(gòu)成,支持各類應(yīng)用場景。
從芯片到板卡模組到服務(wù)器,以壁礪100和壁礪104為底座,壁仞科技形成了一條完整的數(shù)據(jù)中心加速計(jì)算產(chǎn)品線。
對(duì)標(biāo)英偉達(dá)最新GPU的底氣與距離
壁仞的BR100對(duì)標(biāo)的是英偉達(dá)采用4nm工藝技術(shù)打造的H100。
對(duì)比英偉達(dá)的 Hopper GPU,后者采用臺(tái)積電4nm工藝制造,集成多達(dá)800億晶體管。
英偉達(dá)今年發(fā)布的最新GPU H100,采用的是專為英偉達(dá)加速計(jì)算需求設(shè)計(jì)優(yōu)化的TSMC 4N 工藝。
集成800億個(gè)晶體管,顯著提升了AI、HPC、顯存帶寬、互連和通信的速度,并能夠?qū)崿F(xiàn)近5TB/s的外部互聯(lián)帶寬。
20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量,使其能夠幫助客戶推出先進(jìn)的推薦系統(tǒng)以及實(shí)時(shí)運(yùn)行數(shù)據(jù)推理的大型語言模型。
英偉達(dá)的GPU之所以能制霸全球,強(qiáng)大的的CUDA生態(tài)系統(tǒng)絕對(duì)是重要關(guān)鍵。
可見,芯片的算力性能只是一方面。
對(duì)于通用GPU產(chǎn)品來說,最終的應(yīng)用情況以及在軟件生態(tài)方面是否對(duì)開發(fā)者、合作伙伴友好也是決定其最終發(fā)展前景的重要一環(huán)。
對(duì)于一家初創(chuàng)公司來說,想要超越英偉達(dá)最新的H100 GPU,挑戰(zhàn)十分巨大。
拋開其它因素,僅看一些關(guān)鍵參數(shù),就能看到兩者之間的差距,以及想要超越的難度。
結(jié)尾:
從硬件到軟件再到應(yīng)用,壁仞科技已經(jīng)正式交出了首款產(chǎn)品的答卷,接下來就要接受市場的檢驗(yàn)了。
部分資料參考:芯基建:《壁仞科技三年造出首款通用GPU,采用7nm工藝,對(duì)打英偉達(dá)4nm性能》,問芯Voice:《壁仞推出全球最大算力芯片,號(hào)稱以7nm超越英偉達(dá)4nm最新GPU》
本公眾號(hào)所刊發(fā)稿件及圖片來源于網(wǎng)絡(luò),僅用于交流使用,如有侵權(quán)請(qǐng)聯(lián)系回復(fù),我們收到信息后會(huì)在24小時(shí)內(nèi)處理。
END
推薦閱讀:
商務(wù)合作請(qǐng)加微信勾搭:
18948782064
請(qǐng)務(wù)必注明:
「姓名 + 公司 + 合作需求」