搶算力,已經(jīng)成為當(dāng)下科技公司、以及希望應(yīng)用AI的諸多公司的頭等大事。大算力,大力出奇跡。但實(shí)際上,只搶算力,是不夠的。
雖然高端顯卡產(chǎn)能還是緊俏,但算力逐步普及的同時,要想發(fā)揮算力的效果,還要搶存力。
關(guān)于存算的關(guān)系,最容易想起來的就是做飯了。好的算力,就是好的大廚,廚藝高超、同時掌七八個勺也沒問題;而內(nèi)存就是炒鍋,廚子再厲害,只有一個炒鍋,也只能一道道做菜。
當(dāng)然,實(shí)際的存儲,要比炒鍋復(fù)雜多了。但就像人離不開炒菜,人類的發(fā)展也離不開存儲。存儲,不僅是數(shù)據(jù)倉庫,也是生產(chǎn)力。而存力的升級,正為大模型進(jìn)化帶來加速,也成為企業(yè)之間競爭的重要要素。
存儲,也是生產(chǎn)力
存儲,一直是人類發(fā)展的重要加速器。
比如在文本領(lǐng)域,原始社會時,部落就學(xué)會在石壁作畫來記錄、存儲信息,使得零散瑣碎的經(jīng)驗(yàn),逐漸成為代代流傳的知識。
隨后,文字的出現(xiàn),是人類文明“算法”的提升;活字印刷術(shù)、算盤等等工具出現(xiàn),可以稱為“算力”的飛躍;而從甲骨、毛皮、竹簡再到紙張,這就是“存力”的升級。紙張的出現(xiàn),大幅加速了知識傳播,作為知識的載體,相當(dāng)于為人類整體增加了智力光環(huán),生產(chǎn)力大幅提升。
比如在聲音領(lǐng)域。黑膠唱片,提升了對聲音記錄的精準(zhǔn)度,也通過便捷的存儲、讀取,讓音樂走向大眾。隨后也有了磁帶、CD光盤等等存儲方式。在視覺領(lǐng)域,從記錄在紙張上的圖畫,到膠片、光盤,存儲技術(shù)提升,不僅改善了畫面的豐富度,也帶來了全新的展現(xiàn)方式,比如電影的出現(xiàn)。
而今,所有的存儲都走向了數(shù)字化,技術(shù)進(jìn)步更在加速。存量在指數(shù)級增長,一張光盤,可以存下一個圖書館的所有書籍。越大的內(nèi)存、緩存,也為CPU高效發(fā)揮提供保障。當(dāng)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)成為趨勢時,分布式存儲、云存儲也應(yīng)運(yùn)而生,存儲不僅更加便捷,也為企業(yè)節(jié)省成本。
在人類發(fā)展的不同時期,都有不同的存儲技術(shù)出現(xiàn),成為重要的生產(chǎn)力。既和當(dāng)時的算力相匹配,也時常引領(lǐng)著算力發(fā)展,成為算力、算法提升的基礎(chǔ)。
而在當(dāng)下,算力的大力出奇跡,讓AI呈現(xiàn)出了涌現(xiàn),數(shù)學(xué)家、程序員、科學(xué)家、設(shè)計師、研發(fā)人員等等都開始用AI來高效輔助工作。毫無意外,AI依然會逐漸普及,深入社會各個層面,解鎖新的生產(chǎn)力。而存力升級,也將會加速AI的發(fā)展。
AI發(fā)展,存力越來越重要
隨著算力性能提升、產(chǎn)能逐漸釋放,對于AI而言,存力升級越來越重要。
首先,量是不夠的。我國算力在提升,但存力卻依然相對滯后。而且,在大模型時代,文本只是TB級,但多模態(tài)則是PB級要求,量級顯著提升。從單模態(tài)走向多模態(tài),存儲需求量大幅增加。
其次,質(zhì)是有要求的。就像不是所有的顯卡才算得上高端,被搶購;也不是所有的存儲,都能被稱為“存力”。生產(chǎn)力,必須順應(yīng)新趨勢、解決新挑戰(zhàn),“過五關(guān)斬六將”。而大模型的發(fā)展則為存儲帶來了諸多變化和要求。
比如,通用大模型的數(shù)據(jù)樣本是多模態(tài)的,包含多種類型的數(shù)據(jù),包括文本、圖像、音頻、視頻等等,對存儲提出不同要求。
這些數(shù)據(jù)來源不一,協(xié)議也多樣,同時有很強(qiáng)的異構(gòu)性,具有不同的結(jié)構(gòu)和特征。就像文本是序列數(shù)據(jù),而圖像則是矩陣數(shù)據(jù),沒有顯著的序列特征。而文本的分析、圖像的分類,也呈現(xiàn)了差異化、多樣性。
粗糙打個比方,就相當(dāng)于倉庫里既要放需要冷凍的海鮮,又要放需要適溫的蔬菜,還要放需要保持熱度的雞湯,這比只做個大冰庫要麻煩多了。
再比如,大模型的生成式依靠海量數(shù)據(jù)加速訓(xùn)練,規(guī)模大、訓(xùn)練時間長,而且DL網(wǎng)絡(luò)層多、連接多。每層都需要存儲權(quán)重、偏置闡述,激活函數(shù)、輸入輸出數(shù)據(jù)、模型結(jié)構(gòu)等等也需要存儲,這就對存儲帶寬和I/O性能提出了更高要求。這也是HBM存儲產(chǎn)品被大量采購的原因。
這個道理也簡單,洗車場再大,入口如果只有一個窄門,那也是無濟(jì)于事,浪費(fèi)資源。數(shù)據(jù)加載要又快又大又好。
另外,由于數(shù)據(jù)量持續(xù)更新,因此對存儲集群的可靠穩(wěn)定性、安全性,也都要求更高。在數(shù)據(jù)流通方面,也要能夠做到數(shù)據(jù)流動和統(tǒng)一管理,不能是“一潭死水”,而是“數(shù)據(jù)活水”。
同時,在節(jié)能減排的大趨勢下,能耗也是一個“緊箍咒”。存儲系統(tǒng),在數(shù)據(jù)中心能耗中占比為35%,不能存力升級了、能耗卻超標(biāo)了。
總結(jié)而言,存儲面臨的狀況就是:數(shù)據(jù)量更大、類型更復(fù)雜、性能高標(biāo)準(zhǔn)、穩(wěn)定嚴(yán)要求;干的越來越多,但“吃”的卻不能增加。
這得虧是存儲,要換成人早撂挑子了。但顯而易見的是,對企業(yè)而言,存儲不升級,算力空閑置,AI受影響,競爭有劣勢。那么,越來越重要的存力,該怎么升級呢?
一體化,讓生產(chǎn)力一直高效
沒有撂挑子的研發(fā)工程師們,還真的把存儲的要求,給解決了。中科曙光提出了“六個一”的存力一體化方案,正為AI發(fā)展按下加速鍵。
9月1日,“數(shù)字中國萬里行-西部(重慶)科學(xué)城先進(jìn)數(shù)據(jù)中心暨曙光存儲一體化存力方案發(fā)布”活動正式舉辦?;顒由?,武漢光電國家研究中心吳非教授、中國計算機(jī)行業(yè)協(xié)會信息存儲與安全專委會秘書長陽小珊、中國 E 企研究院創(chuàng)始人張廣彬、中科曙光存儲事業(yè)部副總經(jīng)理張新鳳共同發(fā)布曙光存儲一體化存力方案。
當(dāng)下存儲面臨的是GPU、CPU、TPU、AI等異構(gòu)、復(fù)雜的業(yè)務(wù)場景,即使AI計算也要面對多模態(tài)數(shù)據(jù)樣本,非常需要有統(tǒng)一的支撐能力。中科曙光就提出異構(gòu)融合方案,通過支持全類別存儲協(xié)議,實(shí)現(xiàn)多協(xié)議數(shù)據(jù)在多場景下的智能適配融合,為不同計算場景的AI提供支持。
面對深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、連接多的痛點(diǎn),曙光存儲發(fā)布了業(yè)內(nèi)首創(chuàng)的XDS加速技術(shù),可實(shí)現(xiàn)智能芯片以直接數(shù)據(jù)訪問的方式,提高訓(xùn)練過程中數(shù)據(jù)集的加載及處理速度。
同時,無論AI的訓(xùn)練、還是推理,都需要存儲集群有穩(wěn)定、持續(xù)的服務(wù)。中科曙光提出了數(shù)據(jù)安全一體化理念,基于近20年的積累,形成了硬件、軟件、技術(shù)、生態(tài)等四個層面的安全體系,以及通過“部件、節(jié)點(diǎn)、系統(tǒng)、方案”的四級機(jī)制來保障可靠性。同時,也提供智能化技術(shù)更細(xì)膩管理存儲資源。
大模型冠名“大”,不只是參數(shù)規(guī)模、算力需求提升,能耗也會相應(yīng)增加了,因此,在節(jié)能減排的大趨勢下,綠色一體化也是AI企業(yè)、數(shù)據(jù)中心的核心要求。對此,2022年,中科曙光就發(fā)布了當(dāng)前也是業(yè)界首款液冷存儲,存儲節(jié)點(diǎn)PUE值下降到1.2以下;而針對不同數(shù)據(jù)中心的實(shí)際狀況,也提供了不同的改造方案。
這“六個一”總結(jié)起來就是,“多場景”、“跨區(qū)域”、“全周期”、“多維度”、“一棧式”與“全鏈條”。這六個一,是中科曙光多年的經(jīng)驗(yàn)積累、對客戶需求的關(guān)切、對產(chǎn)業(yè)趨勢的把握,將當(dāng)前面臨的挑戰(zhàn),實(shí)現(xiàn)了一一對應(yīng)的方案。一體化的存力產(chǎn)品,可謂是買的越多、省的越多。
某AI科技公司就采用了中科曙光的一體化存力,用于大模型訓(xùn)練。分布式全閃存儲節(jié)點(diǎn),提供PB級高性能存儲資源池,450GB/s+帶寬,500萬+ IOPS。極致性能,讓大模型進(jìn)化更快。
西部(重慶)科學(xué)城先進(jìn)數(shù)據(jù)中心,作為全國一體化大數(shù)據(jù)中心首個落成的重要樞紐節(jié)點(diǎn),也是中科曙光存力一體化方案良好實(shí)踐之一。在自動駕駛等領(lǐng)域,一體化方案也正逐漸普及。
增效、降本、安全,讓存儲走向存力,存力,變成促進(jìn)AI發(fā)展的生產(chǎn)力。
尾聲
科技的發(fā)展,并不是一條線,而是一個森林式的生態(tài),需要每個角落、每個維度,同時,每個角度、每個維度也都會跟隨著進(jìn)化。
就像AI發(fā)展,要算法、數(shù)據(jù)、算力。算法的改良,為AI指明方向;而超大算力的大力出奇跡,才有了涌現(xiàn);但出奇跡的算力要發(fā)揮最佳效用,也需要存力跟上腳步、甚至提前準(zhǔn)備;存力的發(fā)展,又會帶來封力,也就是封裝領(lǐng)域的升級要求。
因此,在科技生態(tài)里,每個角落都值得探索,做好每個角落的事情,都是機(jī)遇。
作者:遠(yuǎn)川科技組? ?視覺設(shè)計:疏睿? 責(zé)任編輯:李墨天