只需幾個(gè)關(guān)鍵詞,一張靜態(tài)照片也能跟著音樂(lè)節(jié)奏跳科目三;投喂幾段文章之后,可根據(jù)要求生成文筆優(yōu)美、邏輯嚴(yán)密的佳作;只需要10秒鐘的聲音,就能逼真地實(shí)現(xiàn)音色克隆,讓跑調(diào)大王的歌聲媲美專業(yè)歌手,讓相聲演員開口飆英語(yǔ)......
在過(guò)去,提及這些應(yīng)用場(chǎng)景,人們或許會(huì)認(rèn)為它們是遙不可及的幻想。然而,在AI時(shí)代,得益于人工智能的三駕馬車——數(shù)據(jù)、算法、算力的強(qiáng)力支撐,這些曾經(jīng)的幻想已經(jīng)逐一變?yōu)楝F(xiàn)實(shí)。
在這三大支柱中,算力扮演著尤為關(guān)鍵的角色。它不僅是數(shù)據(jù)和算法能夠發(fā)揮效用的基礎(chǔ)底座,更是推動(dòng)人工智能高質(zhì)量發(fā)展的核心驅(qū)動(dòng)力??梢哉f(shuō),沒(méi)有強(qiáng)大的算力作為支撐,人工智能的進(jìn)步和發(fā)展將受到極大的限制。
隨著生成式AI等人工智能應(yīng)用的興起,以及大模型訓(xùn)練等新需求的不斷涌現(xiàn),算力規(guī)模正在經(jīng)歷前所未有的快速增長(zhǎng)。在這一背景下,AI服務(wù)器已然成為智能算力的核心載體。相較于傳統(tǒng)服務(wù)器,AI服務(wù)器在計(jì)算、存儲(chǔ)及網(wǎng)絡(luò)傳輸能力上均展現(xiàn)出顯著優(yōu)勢(shì),能夠滿足日益增長(zhǎng)的智能算力需求。
然而,智能算力需求的指數(shù)級(jí)增長(zhǎng),導(dǎo)致IT基礎(chǔ)設(shè)施支出也在不斷攀升。如何在確保企業(yè)業(yè)務(wù)連續(xù)性和穩(wěn)定性的同時(shí),最大限度地提高服務(wù)器利用率以實(shí)現(xiàn)成本優(yōu)化和效益最大化,已成為眾多企業(yè)面臨的共同挑戰(zhàn)。
本期的《數(shù)智QA》,我們將通過(guò)問(wèn)答的形式,從硬件配置、軟件優(yōu)化、產(chǎn)品設(shè)計(jì)等多個(gè)維度,深入探討構(gòu)建高效、穩(wěn)定、可靠的AI服務(wù)器所需的關(guān)鍵能力。
Q、AI浪潮之下,算力發(fā)展呈現(xiàn)哪些趨勢(shì)?
未來(lái)算力發(fā)展將呈現(xiàn)以下趨勢(shì):
異構(gòu)計(jì)算成為主流:傳統(tǒng)堆CPU的模式已無(wú)法滿足日益增長(zhǎng)的AI計(jì)算需求。搭載GPU、NPU、ASIC等芯片的異構(gòu)計(jì)算正逐漸成為主流。異構(gòu)模式能夠大幅提升AI計(jì)算效率,滿足各種復(fù)雜應(yīng)用場(chǎng)景的需求。
邊緣計(jì)算成為重要補(bǔ)充:邊緣計(jì)算將算力資源部署在離終端設(shè)備更近的位置,滿足AI應(yīng)用實(shí)時(shí)性、安全性等業(yè)務(wù)需求。
機(jī)架密度不斷提高:鑒于數(shù)據(jù)中心的空間限制,提高機(jī)架密度成為數(shù)據(jù)中心設(shè)計(jì)的一個(gè)重要趨勢(shì)。
智能算力重要性日益凸顯:為了適應(yīng)這一趨勢(shì),智算中心的建設(shè)已經(jīng)轉(zhuǎn)向混合架構(gòu)模式,成為行業(yè)發(fā)展的必然趨勢(shì)。
Q、AI服務(wù)器和普通服務(wù)器有何不同?
AI服務(wù)器,是專門為人工智能應(yīng)用場(chǎng)景設(shè)計(jì)的服務(wù)器。AI服務(wù)器主要用于處理大規(guī)模、復(fù)雜計(jì)算任務(wù),如AI深度學(xué)習(xí)訓(xùn)練、推理等,以滿足各種AI應(yīng)用的需求。
AI服務(wù)器與普通服務(wù)器的不同之處主要表現(xiàn)在:
處理能力:得益于高性能處理器和專用加速器加持,AI服務(wù)器的處理能力更高,可滿足AI大模型訓(xùn)練等需要大量算力計(jì)算的應(yīng)用場(chǎng)合。而普通服務(wù)器則主要針對(duì)一般性的網(wǎng)絡(luò)應(yīng)用進(jìn)行優(yōu)化,對(duì)于處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù)會(huì)有一定的瓶頸。
存儲(chǔ)容量:AI服務(wù)器通常擁有龐大的存儲(chǔ)集群配合,以滿足處理大規(guī)模數(shù)據(jù)需求。而普通服務(wù)器則根據(jù)應(yīng)用場(chǎng)景進(jìn)行不同的存儲(chǔ)配置,存儲(chǔ)容量相對(duì)有限。
高速網(wǎng)絡(luò):AI服務(wù)器對(duì)網(wǎng)絡(luò)帶寬、時(shí)延、抖動(dòng)、丟包等有更高的要求。通常,AI服務(wù)器需要采用InfiniBand、RoCE等形式的高速網(wǎng)絡(luò),以滿足AI大規(guī)模并行計(jì)算要求。而普通服務(wù)器一般采用TCP/IP網(wǎng)絡(luò)即可滿足業(yè)務(wù)需求。
能源消耗:由于AI服務(wù)器需要處理大量的計(jì)算任務(wù),因此其能源消耗相對(duì)較高,目前主流AI服務(wù)器滿載時(shí)功耗甚至可達(dá)10kW。而普通服務(wù)器在處理一般網(wǎng)絡(luò)應(yīng)用時(shí),能源消耗相對(duì)較低,功耗大約只有0.5kW左右。
應(yīng)用場(chǎng)景:AI服務(wù)器主要用于處理人工智能應(yīng)用場(chǎng)景下的計(jì)算任務(wù),如深度學(xué)習(xí)訓(xùn)練、推理等。而普通服務(wù)器則廣泛應(yīng)用于各種網(wǎng)絡(luò)應(yīng)用,如Web應(yīng)用、數(shù)據(jù)庫(kù)應(yīng)用等。
Q、適配不同場(chǎng)景,AI服務(wù)器有哪些類型?
AI應(yīng)用可分為AI訓(xùn)練和AI推理兩大應(yīng)用場(chǎng)景。針對(duì)這兩大應(yīng)用場(chǎng)景對(duì)算力的不同需求,AI服務(wù)器分為訓(xùn)練服務(wù)器、訓(xùn)推一體服務(wù)器、推理服務(wù)器和邊緣服務(wù)器等。
AI訓(xùn)練服務(wù)器:主要用于訓(xùn)練機(jī)器學(xué)習(xí)模型,需要提供強(qiáng)大的智能算力來(lái)滿足大模型的訓(xùn)練需求。
AI推理服務(wù)器:主要用于運(yùn)行已經(jīng)訓(xùn)練好的AI模型,對(duì)新的輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類等任務(wù)。聯(lián)想ThinkSystem SR645 V3服務(wù)器就是其中的典型代表。該服務(wù)器可承接復(fù)雜的AI推理負(fù)載,兩顆4代AMD EPYC處理器提供最多256核。多個(gè)PCIE4.0及PCIE5.0插槽使得用戶可根據(jù)業(yè)務(wù)需求靈活擴(kuò)展配置。設(shè)備支持最多4個(gè)單寬GPU,充分滿足用戶AI推理應(yīng)用需求。
AI訓(xùn)推一體服務(wù)器:結(jié)合了訓(xùn)練和推理的功能,旨在提供一站式的AI智能算力解決方案。以聯(lián)想問(wèn)天WA5480 G3 AI訓(xùn)推一體服務(wù)器為例,該服務(wù)器可支持多元算力,豐富的PCIE5.0接口至多可支持10張雙寬GPU,支持推理,訓(xùn)練,渲染,科學(xué)計(jì)算等多種場(chǎng)景以及多種拓?fù)?,進(jìn)一步拓展了在不同應(yīng)用中的適用性。
AI邊緣服務(wù)器:主要用于在邊緣計(jì)算場(chǎng)景中進(jìn)行推理任務(wù),即在離用戶更近的地方進(jìn)行計(jì)算,以減少數(shù)據(jù)傳輸延遲和提高響應(yīng)速度。邊緣服務(wù)器通常具有較小的體積和功耗,以適應(yīng)邊緣環(huán)境的限制。最近,聯(lián)想推出了全新的ThinkEdge SE455 V3邊緣服務(wù)器,進(jìn)一步豐富了聯(lián)想AI邊緣服務(wù)器產(chǎn)品線。該產(chǎn)品搭載AMD EPYC 8004系列系列處理器,性能提升34%,可大幅提升多任務(wù)處理效率。得益于聯(lián)想技術(shù)創(chuàng)新和設(shè)計(jì)優(yōu)化,SE455 V3至高可節(jié)省50%能源。豐富的擴(kuò)展特性可滿足存儲(chǔ)、網(wǎng)絡(luò)及GPU擴(kuò)展需求。
Q、如何保證AI服務(wù)器高效、穩(wěn)定和可靠?
通過(guò)合理的硬件配置、優(yōu)秀的散熱和能源管理、系統(tǒng)優(yōu)化和調(diào)優(yōu)、高可用性和容錯(cuò)設(shè)計(jì)、高標(biāo)準(zhǔn)的品控等措施,可以有效地保證AI服務(wù)器的高效、穩(wěn)定和可靠運(yùn)行。
合理的硬件配置:通過(guò)選擇高性能的處理器及GPU等加速設(shè)備、內(nèi)存和存儲(chǔ)設(shè)備,可滿足AI應(yīng)用的高計(jì)算量、高內(nèi)存和高存儲(chǔ)需求,顯著提升AI大模型訓(xùn)練及推理效率。比如,聯(lián)想問(wèn)天WR5220 G3服務(wù)器就采用了英特爾最新發(fā)布的第五代至強(qiáng)?可擴(kuò)展處理器,最多可支持兩顆64核、385W TDP熱功耗設(shè)計(jì)。新一代平臺(tái)搭載5600MT/s高性能DDR5內(nèi)存、低延遲高帶寬的NVMe和PCIe 5.0擴(kuò)展插槽、最新的GPU性能,可充分發(fā)揮系統(tǒng)性能。
優(yōu)秀的散熱和能源管理:設(shè)計(jì)合理的散熱系統(tǒng),保證服務(wù)器在高負(fù)載運(yùn)行時(shí)也能保持高效性能輸出。同時(shí),有效的能源管理策略,可顯著降低能耗并提高能源利用效率。面對(duì)不斷提升的CPU、GPU TDP熱功耗值,液冷被認(rèn)為是突破風(fēng)冷散熱瓶頸的關(guān)鍵技術(shù)。廣受贊譽(yù)的聯(lián)想海神(Neptune?)溫水水冷技術(shù)可實(shí)現(xiàn)整機(jī)柜全水冷無(wú)風(fēng)扇設(shè)計(jì),服務(wù)器散熱效率可達(dá)98%,并支持余熱回收,能耗降低42%,數(shù)據(jù)中心PUE可降至1.1。同時(shí),并行水路設(shè)計(jì)可降低CPU等設(shè)備的性能抖動(dòng),Linpack性能相比風(fēng)冷散熱方式提升5-10%。聯(lián)想海神溫水水冷技術(shù)全球部署已經(jīng)超過(guò)7萬(wàn)套,再次夯實(shí)服務(wù)器水冷技術(shù)領(lǐng)域領(lǐng)跑者地位,持續(xù)助力企業(yè)綠色可持續(xù)發(fā)展。在能源管理方面,聯(lián)想LiCO管理平臺(tái)可以監(jiān)控集群的能耗情況,并提供能源管理策略。LiCO能夠動(dòng)態(tài)調(diào)整CPU的運(yùn)行頻率,并根據(jù)系統(tǒng)運(yùn)行情況,動(dòng)態(tài)調(diào)整風(fēng)扇的運(yùn)行速度,進(jìn)而降低整個(gè)集群的能耗。
系統(tǒng)優(yōu)化和調(diào)優(yōu):對(duì)操作系統(tǒng)、AI框架和算法庫(kù)等進(jìn)行優(yōu)化和調(diào)優(yōu),以提高服務(wù)器的整體性能和穩(wěn)定性。比如,在作業(yè)調(diào)度優(yōu)化方面,聯(lián)想LiCO可以通過(guò)智能作業(yè)調(diào)度算法以及集群管理軟件的使用,將并行計(jì)算任務(wù)合理地分配到計(jì)算節(jié)點(diǎn)上,減少任務(wù)之間的資源競(jìng)爭(zhēng)和排隊(duì)等待時(shí)間,提高集群的效率并降低能耗。
高標(biāo)準(zhǔn)品控:為了追求更高品質(zhì),提高服務(wù)器的可靠性和穩(wěn)定性,每一臺(tái)服務(wù)器都應(yīng)該執(zhí)行嚴(yán)苛的品控標(biāo)準(zhǔn)。嚴(yán)格的品控措施貫穿了聯(lián)想服務(wù)器從設(shè)計(jì)、研發(fā)、生產(chǎn)和測(cè)試的每一個(gè)階段。比如在出廠前,聯(lián)想服務(wù)器會(huì)做百分百1000V DC Hipot測(cè)試(高電壓耐壓測(cè)試),保證每一片板卡的超高耐壓質(zhì)量均超越業(yè)界的測(cè)試標(biāo)準(zhǔn)。截止2023年12月14日,聯(lián)想服務(wù)器共斬獲536項(xiàng)性能測(cè)試世界紀(jì)錄,通過(guò)87項(xiàng)NCTC檢測(cè)認(rèn)證。
Q、怎樣提高服務(wù)器運(yùn)維效率,保證業(yè)務(wù)連續(xù)性?
一個(gè)易于維護(hù)的服務(wù)器能夠顯著降低企業(yè)的運(yùn)維成本、縮短停機(jī)時(shí)間,并確保IT系統(tǒng)的持續(xù)穩(wěn)定運(yùn)行,幫助企業(yè)告別運(yùn)維煩惱。
以聯(lián)想AI服務(wù)器為例。聯(lián)想在服務(wù)器中采用了創(chuàng)新的無(wú)工具安裝設(shè)計(jì),能夠快速、輕松更換故障組件,使得內(nèi)部核心部件的安裝部署更加便捷。同時(shí),服務(wù)器內(nèi)部的可更換組件統(tǒng)一使用藍(lán)色標(biāo)識(shí),運(yùn)維人員可以快速準(zhǔn)確分辨,自行更換組件,從而降低因操作不當(dāng)導(dǎo)致?lián)p壞的風(fēng)險(xiǎn)。得益于采用通用部件,聯(lián)想服務(wù)器簡(jiǎn)化了對(duì)所有架構(gòu)平臺(tái)的支持,極大方便了后期維護(hù)。
此外,聯(lián)想服務(wù)器還提供了其他易于維護(hù)的設(shè)計(jì)。例如光通路診斷,使用LED標(biāo)識(shí)出現(xiàn)故障的內(nèi)存插槽及硬盤,可顯著縮短維護(hù)和停機(jī)時(shí)間。依賴于熱插拔部件,在不切斷電源的情況下即可輕松更換服務(wù)器部件,從而縮短了停機(jī)時(shí)間,并避免因更換硬件設(shè)備可能導(dǎo)致的數(shù)據(jù)丟失或損壞風(fēng)險(xiǎn)。
聯(lián)想服務(wù)器還支持一鍵秒維護(hù)功能。比如,通過(guò)專利設(shè)計(jì)的兩個(gè)塑膠部件,即可將Internal Raid卡一鍵固定在服務(wù)器主板上,代替以往需要通過(guò)鎖螺絲的繁瑣方式,降低了操作難度。此外,一鍵式固定方式極大提升了部件裝配效率,開啟秒級(jí)維護(hù)。
機(jī)構(gòu)預(yù)測(cè),2024年全球AI服務(wù)器有望突破160萬(wàn)臺(tái),年增長(zhǎng)率達(dá)40%,業(yè)界對(duì)包括AI服務(wù)器在內(nèi)的智能基礎(chǔ)設(shè)施爆發(fā)出強(qiáng)勁的需求。作為全球領(lǐng)先的算力基礎(chǔ)設(shè)施和服務(wù)提供商,聯(lián)想將依托全棧智能的產(chǎn)品、方案及服務(wù),推動(dòng)AI技術(shù)的持續(xù)發(fā)展和應(yīng)用,賦能千行百業(yè)加速智能化轉(zhuǎn)型,共同把握AI時(shí)代新機(jī)遇。