精品国产无码一区二区,国产精品成人无码视频

AI算力平臺的價值是什么？

鯤云創(chuàng)始人兼CEO牛昕宇博士，在世博園的上交會演講臺上，向與會嘉賓提出了這樣一個問題。

是跑AI算法嗎？并不盡然，幾乎所有的計算芯片都能跑AI算法，只是算力大小有區(qū)別。

牛昕宇用一道數(shù)學題回答了這個問題。

假如世博園要部署一個25000路的攝像頭項目，實現(xiàn)人臉門禁、垃圾管理等各種各樣的智慧化功能。而這些功能的背后其實是對算力的需求，需要通過服務器、計算平臺來實現(xiàn)。

假設基于某國際大廠的算力平臺，一臺服務器可以支持250路視頻的分析，部署整個世博園的智慧項目，需要100臺服務器。

如果現(xiàn)在有一款算力平臺，與現(xiàn)有服務器產(chǎn)品相比，在成本不變的情況下可提升4.47倍的性能。那么，一臺服務器就從250路的分析能力，變成超過1000路的分析能力。這也意味著，落地同樣的應用，實現(xiàn)同樣的功能，只需要22臺服務器，成本降低接近80%。

“這就是AI芯片的價值——大幅降低AI應用的落地成本”，牛昕宇道出當前AI的落地應用中，算力平臺該有的價值。

4.47倍的背后

之所以說到提升4.47倍的性能，正是因為牛昕宇手中的這款星空加速卡X9，對標英偉達的旗艦產(chǎn)品T4，在不到其一半峰值算力的情況下，實測算力最高可以達到4.47倍的性能提升。這是如何做到的？

鯤云創(chuàng)始人兼CEO牛昕宇博士展示星空X9加速卡

就像長跑一樣，制勝的關鍵不是瞬間的爆發(fā)力，而是跑下整場比賽的平均速度。AI芯片也是如此，像上文提到的智慧園區(qū)項目，用戶關注的不僅是峰值算力，更是芯片的實測性能，即能夠在實際應用中分析多少路視頻。提供給用戶所需的算力性價比——這是鯤云對標英偉達的底氣。

與英偉達T4相比，星空X9加速卡在運行ResNet50, YOLO v3等算法模型時的芯片利用率提升了2.76-11.05倍，最高可以實現(xiàn)94.4%的芯片利用率。在性能方面，X9在運行ResNet50網(wǎng)絡時性能可以達到6037.73FPS，相較T4性能提升1.12倍，運行YOLO v3、U-Net Industrial檢測分割網(wǎng)絡性能有1.99-4.47倍提升。在達到最優(yōu)性能時，X9處理延時最低可達到2.65ms，處理速度相比T4提升35.73倍，適用于智算中心、云計算中心、高性能計算等對低延時有要求的高性能AI計算加速場景。

?X9 vs T4 芯片利用率
?

X9 vs T4 性能（FPS）

?X9 vs T4 延時（ms）

?X9 vs T4 benchmark

AI芯片的另一條路：數(shù)據(jù)流架構

鯤云為什么能夠在更低的峰值算力甚至更低的芯片成本下，實現(xiàn)更高的實測性能？這要從X9加速卡背后的CAISA芯片說起。X9搭載了4顆CAISA 芯片，據(jù)鯤云官方介紹，該芯片“在支持深度學習通用算法的同時可發(fā)揮最高95.4%的芯片利用率，較同類產(chǎn)品提升最高11.6倍，在同等峰值性能下，提供遠超于指令集芯片的實測算力?！?/p>

據(jù)牛昕宇介紹，CAISA芯片是全球第一顆量產(chǎn)的數(shù)據(jù)流AI芯片，基于鯤云從底層創(chuàng)新的數(shù)據(jù)流架構CAISA3.0。作為新一代AI計算平臺，CAISA3.0架構并未延續(xù)傳統(tǒng)的指令集架構。這是因為對于大規(guī)模計算芯片來說，馮諾依曼體系架構中數(shù)據(jù)的搬運和計算是串行進行的，因此造成了一個典型的問題：馮諾依曼瓶頸/內(nèi)存墻，在運算過程中存在閑置的計算單元，這些計算單元在計算中要么在等待指令，要么在等待數(shù)據(jù)，造成了芯片利用率并不高。

而數(shù)據(jù)流架構不同于馮諾依曼體系，它依靠的是數(shù)據(jù)的流動次序來控制計算次序，可以簡單理解為數(shù)據(jù)的搬運和計算是重疊的。在這樣一個重疊的計算方式下，可以最大化地發(fā)揮出每個時鐘周期的性能，把接近芯片極限的物理性能“壓榨”出來。

“做AI芯片有兩條路。第一條路就是基于傳統(tǒng)的指令集架構，這條路相對容易，但是在芯片利用率上很難拉開差距。英偉達T4可以做到130TOPS、12nm工藝，在每一個指標上已經(jīng)非常領先了，在這種情況下，我們在這條路上比拼峰值算力和工藝，是非常難的”，牛昕宇表示。

在英國帝國理工學院定制計算實驗室時，牛昕宇就已經(jīng)將數(shù)據(jù)流底層技術作為主要的研發(fā)方向，并致力于推進數(shù)據(jù)流架構和各個特定應用領域的融合，比如金融、機器學習、物理仿真等。“在與這些特定領域融合時，需要支持成百上千種算法，積累了高性能情況下的架構通用性基礎，這些都是數(shù)據(jù)流架構長期研發(fā)的重點，”牛昕宇表示。

看準數(shù)據(jù)流和深度學習融合的價值

AI創(chuàng)業(yè)公司在初期的技術路線選擇上至關重要，往往決定了未來的落地方向和長期的核心競爭力。

全球從事數(shù)據(jù)流芯片開發(fā)的企業(yè)屈指可數(shù)，除鯤云外，目前可追溯到的主要有：脫胎于斯坦福大學的SambaNova、前谷歌TPU核心團隊創(chuàng)辦的Groq，以及Wave computing。這三家中，只有SambaNova據(jù)稱已經(jīng)推出了產(chǎn)品，但其AI芯片和客戶很大程度仍處于保密狀態(tài)，可考數(shù)據(jù)不多。

那么，鯤云為什么能夠成為全球首家量產(chǎn)數(shù)據(jù)流AI芯片的企業(yè)？其核心優(yōu)勢是什么？

牛昕宇表示，鯤云創(chuàng)始團隊來自數(shù)據(jù)流技術的源頭實驗室，自90年代開始就深耕數(shù)據(jù)流架構與不同領域的領域?qū)Ｓ眉軜嬔邪l(fā)，具備深厚的研發(fā)和迭代積累，掌握數(shù)據(jù)流技術從0到1研發(fā)的經(jīng)驗和能力，具備原創(chuàng)基礎。第二，在此基礎上，針對人工智能領域開發(fā)CAISA架構，鯤云從底層研發(fā)開始，實現(xiàn)了從0到1、一步步的突破和演化，對于架構的優(yōu)勢和迭代的方向都了然于心，目前CAISA架構已經(jīng)迭代了三代，并且仍處于迭代升級中；第三，鯤云始終貼近落地需求，主要針對人工智能應用場景推進，如智慧園區(qū)、智慧工業(yè)等垂直領域，注重發(fā)揮數(shù)據(jù)流架構的算力性價比優(yōu)勢。“作為第一家量產(chǎn)落地的數(shù)據(jù)流AI產(chǎn)品，客戶使用的越多，來自一線的反饋就越多，就越有利于迭代升級，能夠越來越契合市場的真正需求”，他強調(diào)。

成立以來，鯤云一直聚焦于數(shù)據(jù)流和深度學習領域的融合。為什么選定深度學習？核心原因有兩點，一是深度學習本身就是流式的處理方式，和數(shù)據(jù)流的特質(zhì)相符，能夠較好地發(fā)揮性能；二是深度學習的應用領域非常廣泛，出貨量也足夠大，針對這個領域做定制化的架構可以支持ASIC芯片的量產(chǎn)，從而能夠進一步發(fā)揮出數(shù)據(jù)流架構的性能優(yōu)勢。

對于定制類架構，有人擔心深度定制會導致通用性不足，但這卻恰恰是數(shù)據(jù)流架構所解決的問題，牛昕宇表示。CAISA定制數(shù)據(jù)流架構是一個針對深度學習領域的通用架構，保持高性能的同時，提供AI領域通用性是CAISA架構的核心研發(fā)目標，也是我們的核心優(yōu)勢。人工智能算法是多樣化的，其變化主要來自三方面：算子的變化、算子組合的變化、以及開發(fā)框架的變化。CAISA架構底層算子可配置支持不同計算方式，支持不同算子組合和拓展；針對不同算子組合，CAISA 架構內(nèi)通過本地互聯(lián)網(wǎng)絡和全局互聯(lián)網(wǎng)絡可以實現(xiàn)不同計算單元的組合，從而保證支持不同算法的同時，又可以實現(xiàn)對特定算法的高性能支持；最后，不同框架和開發(fā)方式可通過端到端的編譯器RainBuilder來支持實現(xiàn)。

目前，CAISA3.0 架構可支持多種深度學習算法，包括目標檢測、分割、分類等領域的主流算法，實現(xiàn)了在深度學習領域的通用性。此外，鯤云提供RainBuilder開發(fā)工具鏈，能夠?qū)崿F(xiàn)自頂層深度學習開源框架算法至底層架構時鐘的精確映射，兼容現(xiàn)有AI開發(fā)框架、生態(tài)及軟件，在軟件的易用性方面進一步降低了應用門檻。

向數(shù)據(jù)中心腹地進發(fā)，提供極致算力性價比

面向高性能AI推理市場，鯤云牢牢扣住數(shù)據(jù)流技術路線所帶來的算力性價比的優(yōu)勢。最新的星空加速卡X9與上一代X3相比，向中心端更進一步，主要面向更高性能AI服務器，助力更高峰值算力、更高算力密度應用在中心的聚集，如智算中心、云計算中心、高性能計算等典型場景的應用和建設。據(jù)了解，該產(chǎn)品已經(jīng)完成了量產(chǎn)，將于近期和浪潮完成產(chǎn)品適配，推出搭載星空X9加速卡的智算中心AI服務器。

不同于傳統(tǒng)數(shù)據(jù)中心，智算中心更注重構建先進的AI算力基礎設施來承載AI創(chuàng)新，下一個十年，堪稱算力的黃金十年。高性能AI計算芯片作為核心生產(chǎn)力，從架構升級到應用場景的落地，都蘊含了巨大的市場空間和機遇。?

“一方面，算力基礎設施的更新?lián)Q代，會降低數(shù)據(jù)的傳輸成本，導致更多的數(shù)據(jù)被收集，產(chǎn)生更大的算力需求；另一方面，算力的密度將會越來越高，系統(tǒng)性能越來越強，部署成本也將越來越可控，這是未來算力設施升級的兩個方面”，牛昕宇表示，“而邊緣和云將會是共存的關系，邊緣側主要進行實時處理，數(shù)據(jù)中心匯集后進行更深入的分析，二者都在快速增長中，且都有廣闊的市場前景?！?/p>

不過，雖然市場升級是大趨勢，半導體產(chǎn)業(yè)也在持續(xù)成長中。但必須承認的是，商業(yè)落地絕非易事，更何況云端市場面臨的都是英偉達、英特爾這樣的國際巨頭。AI芯片的戰(zhàn)略價值在被業(yè)界所認同的同時，也成為兵家必爭之地。

牛昕宇認為，不論是巨頭還是創(chuàng)企，對于AI芯片各有各的布局和優(yōu)勢，初創(chuàng)企業(yè)不一定要和巨頭正面競爭，一是要關注中短期的落地方式，二是要關注長期的核心競爭力。在垂直領域，把自己具有性價比的算力產(chǎn)品做好，把客戶支持做好，單點打通仍然能夠產(chǎn)生很高的價值。

最終，落地的核心點在于：算力性價比和應用生態(tài)?；氐奖疚拈_頭，計算平臺的價值究竟是什么？“因為所有的計算領域都有一定的性能要求，所有算法都需要附著在芯片上，完成最后部署”，牛昕宇表示，“這就是下一代AI計算平臺的價值和所承載的責任，鯤云將繼續(xù)在算力性價比、架構通用性，軟件易用性這三方面均衡演進，降低AI的落地門檻和成本。”

對話鯤云牛昕宇：算力黃金十年，AI芯片拷問性價比

4.47倍的背后

AI芯片的另一條路：數(shù)據(jù)流架構

看準數(shù)據(jù)流和深度學習融合的價值

向數(shù)據(jù)中心腹地進發(fā)，提供極致算力性價比

相關推薦

電子產(chǎn)業(yè)圖譜