機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析、實時視頻流處理等計算密集型應(yīng)用不斷涌現(xiàn),云計算的應(yīng)用范圍也不斷擴(kuò)展,通過增加 CPU 數(shù)量提升計算能力的方式已經(jīng)失去優(yōu)勢,云服務(wù)提供商把目光轉(zhuǎn)向“異構(gòu)計算”。FPGA 在加速方面的優(yōu)勢有目共睹,云服務(wù)商紛紛部署專為加速各種高性能工作負(fù)載而優(yōu)化的計算引擎。首屆賽靈思開發(fā)者大會在北京舉行,作為會議主辦方,賽靈思及來自云計算產(chǎn)業(yè)鏈的硬件工程師、軟件工程師和嵌入式工程師齊聚一堂,進(jìn)行了技術(shù)交流和產(chǎn)品分享。
眾所周知,軟件工程師的數(shù)量遠(yuǎn)遠(yuǎn)大于硬件工程師的數(shù)量,而隨著 FPGA 的應(yīng)用領(lǐng)域不斷擴(kuò)大,只靠硬件難以服務(wù)于廣大的軟件工程師和嵌入式工程師,因此賽靈思進(jìn)行了重要轉(zhuǎn)型。賽靈思 IP 產(chǎn)品開發(fā)高級副總裁 Salil Raje 介紹,“從 C++到 RTL 的轉(zhuǎn)換是賽靈思轉(zhuǎn)型的核心,包括高層次綜合工具和軟件應(yīng)用工具。這一轉(zhuǎn)型體現(xiàn)在兩個方面:一是在芯片方面;二是在軟件工具上面。如今賽靈思引入了面向大規(guī)模數(shù)據(jù)中心和加速器領(lǐng)域的 SDAccel 可重配置加速堆棧,以及面向嵌入式系統(tǒng)的 SDSoC 堆棧,把足跡擴(kuò)展到從數(shù)據(jù)中心到嵌入式系統(tǒng)的廣闊領(lǐng)域。以嵌入式系統(tǒng)市場為例,SoC 和 FPGA 的工程師規(guī)模大概有 10 萬名,預(yù)計在五年的時間里,我們的潛在用戶會增加五倍,數(shù)量從 5 萬增加到 25 萬?!?/p>
在解決方案設(shè)置上,賽靈思為更多用戶的差異化創(chuàng)新提供支持。Salil Raje 解釋,“在端上,有 SDSoC 開發(fā)軟件加上 reVISION 堆棧,開發(fā)者可以形成新的使用 MPSoC 的開發(fā)方式;在云上,有 SDAccel 加可重配置加速堆棧幫助客戶在云端開發(fā)應(yīng)用。由此可見,在端上,用 SDSoC 和 reVISION 堆??梢詫懗銮度胧降膽?yīng)用,在云上,SDAccel 和可重配置加速堆棧使得 IP 可以作為處理器在云端運(yùn)用。reVISION 堆棧的目標(biāo)應(yīng)用是自動駕駛汽車、無人機(jī)、監(jiān)控,可重配置加速堆棧的目標(biāo)應(yīng)用是超大型數(shù)據(jù)中心和 FPGA 加速應(yīng)用?!?/p>
左:賽靈思戰(zhàn)略市場發(fā)展高級總監(jiān) Andy Walsh
中:賽靈思 IP 產(chǎn)品開發(fā)高級副總裁 Salil Raje
右:賽靈思全球銷售和市場部亞太及日本地區(qū)總監(jiān) Stephen Chow
FPGA 加速幫助多種應(yīng)用實現(xiàn)提速
FPGA 云加速有多厲害?這需要應(yīng)用案例來證明。賽靈思戰(zhàn)略市場發(fā)展高級總監(jiān) Andy Walsh 介紹了來自深鑒科技、NGCODEC、Ryft 和 Edico 基因組的應(yīng)用。其中,深鑒科技通過 FPGA 進(jìn)行機(jī)器學(xué)習(xí)推斷、語音識別,速度可以提高 40 倍;NGCODEC 利用 FPGA 做視頻解碼,HEVC 編碼的幀速率達(dá)到 10 倍加速;彈性搜索是現(xiàn)在企業(yè)最廣泛使用的搜索工具,這可以幫他們找到需要的數(shù)據(jù),同時把噪音或者干擾的數(shù)據(jù)分離出去,Ryft 專門做大數(shù)據(jù)搜索,核心競爭力在算法,他們使用 FPGA 開發(fā)了一款應(yīng)用,可以使彈性搜索加速 90 倍;在醫(yī)學(xué)領(lǐng)域,重危新生兒的基因組測序和基因?qū)W分析需要快速出結(jié)果,現(xiàn)在通過 Edico 基因組對醫(yī)學(xué)的貢獻(xiàn),可以把基因組分析和測序的時間壓縮從 24 小時壓縮到 20 分鐘,這一研究結(jié)果已經(jīng)進(jìn)入到吉尼斯世界紀(jì)錄里面。
Andy Walsh 強(qiáng)調(diào),“Edico 除了在亞馬遜云上直接向醫(yī)院銷售以外,還可以向軟件提供商銷售服務(wù),可以在云上面把服務(wù)銷售給醫(yī)院和科研機(jī)構(gòu)。 Edico 的例子對于賽靈思意味著,規(guī)?;瘯砭薮蟮挠绊?。我們只需要很少數(shù)量的云生態(tài)系統(tǒng),就可以聯(lián)系到幾千家企業(yè)和幾百萬個用戶。”
FPGA 和 CPU 的集成對兩者都造成損害
“CPU+FPGA”的異構(gòu)架構(gòu)已經(jīng)得到大量應(yīng)用,但是業(yè)界一直在尋求更低功耗、更快速度的解決方案,英特爾自從收購 Altera 以后,一直致力于把 CPU 和 FPGA 進(jìn)行單芯片集成,從而縮小芯片面積、提高 CPU 和 FPGA 的通信速度,但是這種做法是否切實有效?Andy Walsh 表示,“過去一年半的時間里,F(xiàn)PGA 和 CPU 的集成方式在云計算領(lǐng)域并不是特別受歡迎,它對兩者的性能造成很大的損傷,甚至更加嚴(yán)重的損壞,在加速應(yīng)用中,超大規(guī)模的數(shù)據(jù)中心需要非常高端的加速器,串聯(lián)進(jìn)行聯(lián)合。而且 FPGA 和 CPU 集成在功耗上的改善非常有限,一般都是一個中檔 CPU 和低端的 FPGA 以 1:1 的方式組合,這并不是一個非常好的解決方案,不能滿足以上的使用案例,而以上的這些案例才是驅(qū)動 FPGA 應(yīng)用的最大動力和發(fā)展趨勢。”
“現(xiàn)在我們有一個名叫 CCIX 的倡議,賽靈思是發(fā)起者之一,F(xiàn)PGA 和 CPU 之間的一個 C16 高速接口,所有 FPGA 的銷售商都一起合作,促成 FPGA 和 CPU 的結(jié)合,包括華為也在做有利于 FPGA 和 FPGA 之間結(jié)合的協(xié)同工作?!盨alil Raje 補(bǔ)充。
未來 FPGA 是否會取代 CPU?
FPGA 的性能越來越強(qiáng)大,應(yīng)用范圍也在不斷擴(kuò)展,可能會有人問,在未來 FPGA 能否取代通用 CPU 或者脫離 CPU 獨(dú)立運(yùn)行? Salil Raje 指出,“在云以外的一些應(yīng)用 FPGA 可以取代 CPU,但是如果在云上,F(xiàn)PGA 更多被視為一種協(xié)處理器,可以減少 CPU 的數(shù)量。在配置方面,一個 CPU 加八個、十個 FPGA,它們相互可以交流,從而減少 CPU 的數(shù)量,但是主機(jī)還是 CPU。FPGA 在其它應(yīng)用當(dāng)中完全獨(dú)立于 CPU 運(yùn)行,比如很多最終使用場景,如監(jiān)測攝象頭就不需要額外的 CPU,因為在 Xilinx 的方案中既有 FPGA 又集成了 ARM 架構(gòu)的 CPU,。還有一些無線通信無線通信只需要 FPGA,不需要 CPU。”
在大會現(xiàn)場,我們還看到了賽靈思的合作伙伴展出的產(chǎn)品及演示。
深鑒科技:基于賽靈思深度學(xué)習(xí)和語音加速方案
隨著微信、微博的發(fā)展,視頻內(nèi)容大量產(chǎn)生,而大部分是無效信息,而且視頻內(nèi)容處理起來非常復(fù)雜,深鑒科技選擇在模型上刪除不重要的部分,使模型更小但效果更高,模型變小之后再進(jìn)行壓縮提高效率;隨后使用一個訓(xùn)練模型,這個模型采用低精度的數(shù)據(jù),在計算的時候速度更快。在研發(fā)過程中,深鑒科技發(fā)現(xiàn) FPGA 比 GPU 快 10 倍,比 CPU 快 30 到 40 倍。而且 FPGA 延時非常低,這對于以推測為基礎(chǔ)的機(jī)器學(xué)習(xí)來說非常重要,而且 FPGA 非常靈活,可以適用不同的機(jī)器學(xué)習(xí)的應(yīng)用模型。
華為云 FP1 高性能實例演示
華為的這一實例展現(xiàn)了 Gzip 壓縮算法,左邊是經(jīng)過 FPGA 加速的壓縮處理過程,右邊是通過 CPU 視頻處理的過程,可以看出左側(cè)的壓縮速度遠(yuǎn)遠(yuǎn)快于右側(cè),可見 FPGA 加速方案性能相對于 CPU 有近 4 倍的提升,動態(tài)邏輯加載和切換實現(xiàn)秒級完成。
與非網(wǎng)原創(chuàng)報道,未經(jīng)允許,不得轉(zhuǎn)載!
更多相關(guān)內(nèi)容,請參照:與非網(wǎng) FPGA 專區(qū)。