對(duì)于運(yùn)行中需要大量?jī)?nèi)存訪問(wèn)和數(shù)據(jù)處理的計(jì)算任務(wù),比如HPC、數(shù)據(jù)分析、金融科技應(yīng)用、網(wǎng)絡(luò)安全、AI計(jì)算等。由于涉及大規(guī)模數(shù)據(jù)的讀取、寫入和處理操作,往往對(duì)系統(tǒng)內(nèi)存帶寬和存儲(chǔ)性能有很高要求。
事實(shí)上,對(duì)于這些大規(guī)模數(shù)據(jù)處理任務(wù)來(lái)說(shuō),最佳性能不僅取決于原始計(jì)算能力,還取決于高存儲(chǔ)器帶寬。日前,AMD發(fā)布了全新的Alveo V80加速卡,通過(guò)FPGA靈活應(yīng)變的能力來(lái)實(shí)現(xiàn)工作負(fù)載優(yōu)化。
應(yīng)對(duì)大數(shù)據(jù)集負(fù)載存儲(chǔ)和網(wǎng)絡(luò)瓶頸
AMD 自適應(yīng)和嵌入式計(jì)算事業(yè)部( AECG )高級(jí)產(chǎn)品線經(jīng)理Shyam Chander指出,傳統(tǒng)處理架構(gòu)在運(yùn)行大數(shù)據(jù)集工作負(fù)載時(shí),CPU+FPGA和PCIe的帶寬遠(yuǎn)高于DDR內(nèi)存和網(wǎng)絡(luò)接口可以提供的帶寬,因此無(wú)論是存儲(chǔ)器還是網(wǎng)絡(luò)訪問(wèn)等方面,都非常容易形成瓶頸。
AMD全新加速卡Alveo V80采用全高、3/4 長(zhǎng)( FH?L )尺寸規(guī)格,由 AMD Versal HBM 自適應(yīng) SoC 提供支持,具備 2,600,000 個(gè) LUT 邏輯單元的 FPGA 架構(gòu)、10,848 個(gè) DSP 計(jì)算邏輯片以及820 GB/s的存儲(chǔ)器帶寬,從而助力克服性能瓶頸。
Alveo V80還包括一個(gè)32GB的DDR4 DIMM擴(kuò)展插槽,并支持PCle Gen5接口,64G傳輸速率是第四代的2倍。整卡功率300W,采用被動(dòng)散熱,總熱設(shè)計(jì)功耗TDP則取決于器件和服務(wù)器。
通過(guò)這樣的硬件靈活性,可以實(shí)現(xiàn)跨不同的自定義工作負(fù)載進(jìn)行廣泛應(yīng)用。作為一款4x200G網(wǎng)絡(luò)附接加速卡,該卡可以實(shí)時(shí)處理大量傳入數(shù)據(jù),避開GPU遇到的PCIe連接限制。
與前代產(chǎn)品AMD Alveo U55C計(jì)算加速卡相比,Alveo V80 的邏輯密度至高翻倍、存儲(chǔ)器帶寬至高翻倍且網(wǎng)絡(luò)帶寬可高至4倍,可以實(shí)現(xiàn)強(qiáng)大的計(jì)算集群,同時(shí)還能優(yōu)化卡、服務(wù)器數(shù)量以及機(jī)架空間。
Shyam Chander介紹,在傳統(tǒng)的處理架構(gòu)中,存儲(chǔ)器和網(wǎng)絡(luò)訪問(wèn)容易成為性能瓶頸,尤其在高性能計(jì)算場(chǎng)景中更為常見。這是因?yàn)閭鹘y(tǒng)上通常采用芯片對(duì)芯片的PCIe連接方式,同時(shí),DDR4存儲(chǔ)器所提供的帶寬可能不足以滿足高性能計(jì)算的需求,在存儲(chǔ)器訪問(wèn)上也存在瓶頸。
這種架構(gòu)的局限性在于,盡管FPGA等加速器組件具備高帶寬處理能力,但受限于DDR4存儲(chǔ)器的帶寬,無(wú)法充分發(fā)揮其性能潛力。為了突破這些瓶頸,可能需要采用更高帶寬的存儲(chǔ)技術(shù),或者改進(jìn)系統(tǒng)架構(gòu)以更有效地利用FPGA等加速器的高帶寬優(yōu)勢(shì)。
通過(guò)Versal HBM技術(shù)支持的AMD Alveo V80計(jì)算加速卡,可以融合FPGA的靈活應(yīng)變來(lái)處理大數(shù)據(jù)集的工作負(fù)載。與前代產(chǎn)品相比,它的性能提升至高2倍,包括邏輯密度翻倍、存儲(chǔ)器帶寬翻倍。
這其實(shí)就是CPU/GPU傳統(tǒng)架構(gòu)和自適應(yīng)計(jì)算擁有的靈活應(yīng)變架構(gòu)之間的不同。“傳統(tǒng)架構(gòu)是固定的緩存層次結(jié)構(gòu),用于數(shù)據(jù)的讀寫和輸入,在這個(gè)過(guò)程中不規(guī)則的訪問(wèn)模式會(huì)引起潛在的低效率”,Shyam Chander指出,“靈活應(yīng)變的存儲(chǔ)器層次架構(gòu)是在計(jì)算附近分配內(nèi)存,實(shí)現(xiàn)降低延遲和低功耗,而且可以靈活適應(yīng)自定義的數(shù)據(jù)設(shè)計(jì)和數(shù)據(jù)建議。”
靈活應(yīng)變,適用于內(nèi)存密集型工作負(fù)載
Alveo V80 加速卡可通過(guò)以太網(wǎng)擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)實(shí)現(xiàn)計(jì)算集群,非常適合一系列高性能計(jì)算應(yīng)用,包括基因組測(cè)序、分子動(dòng)力學(xué)和傳感器處理。在網(wǎng)絡(luò)安全方面,內(nèi)置400G 加密引擎和 600G 以太網(wǎng)硬塊,加之FPGA的硬件靈活性,使其適用于線速數(shù)據(jù)包檢測(cè)和 AI 支持的異常檢測(cè)。
該加速卡還非常適合計(jì)算存儲(chǔ)和數(shù)據(jù)分析,能夠在同一張卡上集成壓縮和查詢加速,從而增加有效存儲(chǔ)容量,同時(shí)更快獲得洞察。因此它適合于各種金融科技應(yīng)用,包括策略回測(cè)、期權(quán)定價(jià)以及金融建模與仿真。
用例1:天體物理學(xué)實(shí)現(xiàn)計(jì)算飛躍
聯(lián)邦科學(xué)與工業(yè)研究組織( CSIRO )是澳大利亞的國(guó)立研究組織,其參與建造了世界上最大的射電天文學(xué)天線陣列,該天線陣列目前包含 420 張 Alveo U55C 加速器卡用于處理無(wú)線電波,以研究早期宇宙并探索星系演化。
CSIRO計(jì)劃借助 Alveo V80 加速卡縮減占板面積與成本,并將所需加速卡的數(shù)量精簡(jiǎn)多達(dá) 66%,同時(shí)應(yīng)對(duì)來(lái)自望遠(yuǎn)鏡 131,000 個(gè)天線的新信號(hào)處理任務(wù)。考慮到卡、服務(wù)器、機(jī)架空間和功耗的潛在減少,每卡算力的躍升預(yù)計(jì)可帶來(lái)最高20%的TCO下降。
CSIRO 空間與天文學(xué)部研究工程師 Grant Hampson 表示:“我們起初采用 Alveo 產(chǎn)品線是因?yàn)樗軌驅(qū)崟r(shí)處理大量傳感器數(shù)據(jù)。對(duì)于我們的下一代波束成形器和相關(guān)器來(lái)說(shuō),降低總擁有成本勢(shì)在必行。Alveo V80 加速卡是對(duì)上一代 Alveo U55C 卡的技術(shù)階躍提升,以經(jīng)濟(jì)高效的占板面積提供了緊湊、節(jié)能的解決方案?!?/p>
用例2:壓縮和數(shù)據(jù)分析服務(wù)器存儲(chǔ)節(jié)點(diǎn)
在具備壓縮和數(shù)據(jù)分析功能的服務(wù)器存儲(chǔ)節(jié)點(diǎn)的用例中,通過(guò)Alveo V80實(shí)現(xiàn)了三大特點(diǎn):第一,服務(wù)器存儲(chǔ)節(jié)點(diǎn)采用了FPGA架構(gòu)和AMD的壓縮IP,使得存儲(chǔ)節(jié)點(diǎn)在處理數(shù)據(jù)壓縮任務(wù)時(shí)具有可擴(kuò)展性;第二,通過(guò)MCIO直接將FPGA架構(gòu)連接至NVMe, 實(shí)現(xiàn)了高速數(shù)據(jù)傳輸;第三,服務(wù)器節(jié)點(diǎn)整合了額外的功能,如查詢加速,有助于提升執(zhí)行速度并降低時(shí)延。
此外,在該服務(wù)器存儲(chǔ)節(jié)點(diǎn)中,通過(guò)Versal HBM與FPGA的結(jié)合,使得服務(wù)器存儲(chǔ)節(jié)點(diǎn)的算力得到顯著提升。HBM技術(shù)的高帶寬特性允許在內(nèi)存中直接進(jìn)行計(jì)算操作,避免了數(shù)據(jù)在系統(tǒng)總線上的遷移,進(jìn)一步加速了查詢處理速度。這種設(shè)計(jì)不僅提高了數(shù)據(jù)處理效率,還減少了因數(shù)據(jù)傳輸引起的時(shí)延,使得服務(wù)器存儲(chǔ)節(jié)點(diǎn)在執(zhí)行數(shù)據(jù)壓縮和分析任務(wù)時(shí)更為高效。
從總擁有成本的角度來(lái)分析,比如10Pb數(shù)據(jù)存儲(chǔ),沒有壓縮時(shí)需要55臺(tái)服務(wù)器,1303個(gè)SSD驅(qū)動(dòng)器,每年約427千瓦時(shí)的功耗。如果進(jìn)行壓縮,同樣是10Pb數(shù)據(jù)只需要21臺(tái)服務(wù)器,504個(gè)SSD驅(qū)動(dòng)器,每年能耗約233千瓦時(shí),使用42張AMD Alveo V80卡進(jìn)行壓縮,總擁有成本三年以上至高可以達(dá)到56%的降低,而且服務(wù)器的數(shù)量、服務(wù)器成本以及功耗也都有非常顯著的降低。
用例3:金融建模和算法交易
在金融科技領(lǐng)域,用戶在建模、仿真與回測(cè)的用例場(chǎng)景中,用戶可以用FPGA架構(gòu)和DSP進(jìn)行密集計(jì)算,HBM用于大數(shù)據(jù)集、歷史定價(jià)數(shù)據(jù)。而在低時(shí)延算法交易中,752Mb的RAM用于定價(jià)數(shù)據(jù)、交易記錄,HBM則用于訂單信息。
在簡(jiǎn)化開發(fā)方面,Alveo V80 加速卡經(jīng)由 Alveo Versal 示例設(shè)計(jì)( AVED )完全可為傳統(tǒng)硬件開發(fā)人員使用,現(xiàn)已在 GitHub 上提供。AVED 利用傳統(tǒng) FPGA 和 RTL 流程簡(jiǎn)化了硬件啟動(dòng),并且基于常見的 Vivado 工具流程。示例設(shè)計(jì)采用在 AMD Versal 自適應(yīng) SoC 上實(shí)現(xiàn)并專門針對(duì) Alveo V80 加速器卡的預(yù)構(gòu)建子系統(tǒng),提供了高效的起點(diǎn)。
在系統(tǒng)層面,Alveo V80 計(jì)算加速卡簡(jiǎn)化了系統(tǒng)集成并提供了快速的量產(chǎn)路徑。通過(guò)使用預(yù)先驗(yàn)證的部署卡,設(shè)計(jì)團(tuán)隊(duì)可以避開 PCB 集成、庫(kù)存管理和產(chǎn)品生命周期管理任務(wù)。
Versal HBM SoC提供支持,應(yīng)對(duì)廣泛負(fù)載需求
在Alveo V80加速卡中,Versal HBM 自適應(yīng) SoC 的支持無(wú)疑是一大亮點(diǎn)。不過(guò),HBM的價(jià)格幾乎是DDR的三倍,這是否會(huì)影響客戶的采用?
Shyam Chander強(qiáng)調(diào)了Alveo V80的設(shè)計(jì)考慮,該加速卡是由UltraScale+ U55C過(guò)渡而來(lái)。首先,在性能提升基礎(chǔ)上,目前的成本增加最有限;其次,HBM可以應(yīng)對(duì)非常廣泛的工作負(fù)載,包括內(nèi)存帶寬計(jì)算,通過(guò)這樣的方式可以實(shí)現(xiàn)最高的性價(jià)比;第三,從工作負(fù)載和計(jì)算資源的角度來(lái)看,Versal架構(gòu)中HBM的封裝尺寸和PCB占板面積較小,這在成本、性能和占板面積方面帶來(lái)了優(yōu)勢(shì),通過(guò)合理配置FPGA資源,可以實(shí)現(xiàn)高性價(jià)比。
至于市面上多樣化的算力加速卡類型,包括FPGA加速卡、GPU加速卡、AI芯片加速卡等等,Shyam Chander認(rèn)為FPGA自適應(yīng)SoC更適合硬件開發(fā)者的需求,特別是在需要降低時(shí)延、實(shí)時(shí)數(shù)據(jù)處理和減少功耗的應(yīng)用場(chǎng)景中。并且,Alveo V80加速卡有直接的I/O連接和相關(guān)示例,對(duì)開發(fā)者非常有幫助。
對(duì)于未來(lái)趨勢(shì),Shyam Chander認(rèn)為不同類型的加速卡將根據(jù)工作負(fù)載的需求繼續(xù)共存。Alveo V80卡的低時(shí)延和靈活性使其適合于硬件開發(fā)者,而軟件工程師可能更傾向于使用CPU等其他類型的加速器。他強(qiáng)調(diào),Alveo V80作為一個(gè)網(wǎng)絡(luò)附接的加速器卡,可以和存儲(chǔ)驅(qū)動(dòng)器連接,應(yīng)對(duì)非常廣泛的工作負(fù)載和需求。