日前,英特爾舉辦了面向客戶和合作伙伴的英特爾on產(chǎn)業(yè)創(chuàng)新大會(Intel Vision)。這次大會,英特爾面向生成式AI火力全開,CPU、AI加速器、AI互連網(wǎng)絡、AI軟件等都有重要升級。
大會期間,中國區(qū)幾大業(yè)務線相關(guān)負責人(數(shù)據(jù)中心、行業(yè)云、網(wǎng)絡與邊緣、軟件、大數(shù)據(jù)等)集體亮相,接受了<與非網(wǎng)>等媒體采訪。從這次發(fā)言人的陣容,也可管窺英特爾在生成式AI的全棧戰(zhàn)略,畢竟未來不是單點技術(shù)的比拼,更是全局戰(zhàn)略和技術(shù)平臺的較量。
企業(yè)生成式AI——開放平臺,互聯(lián)互通
關(guān)于生成式AI在企業(yè)中的應用,英特爾市場營銷集團副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理、中國區(qū)運營商銷售總經(jīng)理莊秉翰分享了幾組數(shù)據(jù)洞察:預計2026年,80%的企業(yè)將會使用生成式AI,50%的企業(yè)會在邊緣計算部署中涵蓋機器學習。而企業(yè)在生成式AI的投資,預計今年達到400億美元規(guī)模,2027年則會達到1510億規(guī)模。
在企業(yè)生成式AI這個大市場,英特爾首先洞察到了“數(shù)據(jù)”蘊藏的巨大機遇。Accenture首席AI官Lan Guan在和英特爾CEO帕特·基辛格(Pat Gelsinger)的對談中,提到了企業(yè)部署AI的三個常見挑戰(zhàn):首先是企業(yè)難以從AI投資中實現(xiàn)更大價值,即使他們有明確定義的AI KPI,但這些通常只是任務為導向的方法,缺乏整體層面的聚合價值;其次是數(shù)據(jù)質(zhì)量不足,大多數(shù)都是基于互聯(lián)網(wǎng)通用數(shù)據(jù),而企業(yè)的隱私數(shù)據(jù)和通用模型結(jié)合是一個很大的挑戰(zhàn);第三是AI技能缺口,企業(yè)需要額外的培訓或是專門的人才來構(gòu)建、運營和管理AI,以便從項目中獲取到相關(guān)的數(shù)據(jù)或反饋。
那么,企業(yè)究竟該如何部署生成式AI?如何幫助他們釋放龐大的、專有的數(shù)據(jù)集的價值?帕特·基辛格認為,不論是從經(jīng)濟性、即時響應能力還是數(shù)據(jù)的安全角度,邊緣AI都已是大勢所趨。
正因如此,英特爾首先希望通過AI幫助企業(yè)提升在數(shù)據(jù)檢索和增強生成方面的能力,幫助他們在整個工作流程中順暢地實施AI。
RAG(檢索增強生成)技術(shù)——是英特爾最新推出的用于解鎖企業(yè)數(shù)據(jù)資產(chǎn)的生成式AI系統(tǒng)。通過聯(lián)合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick和Zilliz,這一開放的、多供應商的系統(tǒng),可使企業(yè)在標準云基礎(chǔ)設(shè)施上運行的大量現(xiàn)存專有數(shù)據(jù)源得到開放大語言模型(LLM)功能的增強。
英特爾院士、大數(shù)據(jù)技術(shù)全球首席技術(shù)官、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權(quán)認為,構(gòu)建生成式AI應用不僅僅是擁有一個大模型那么簡單,實際上涉及創(chuàng)建一個完整的AI系統(tǒng),其中包括大模型和其他組件,以形成一個工作流。RAG就是一個典型的例子,它解決了如何對大模型進行知識增強的問題,通過結(jié)合個人、私有或垂直領(lǐng)域的知識,以及使用增強數(shù)據(jù)庫、知識圖譜和規(guī)劃方法等技術(shù),構(gòu)建復雜的AI系統(tǒng)。
近期一些新的應用場景,如Copilot,無論是用于編寫代碼還是個人電腦使用,都體現(xiàn)了生成式AI的實際應用?!霸谶@些復雜的AI系統(tǒng)中,大模型充當著核心控制器或大腦的角色,與個人和私有知識以及其他工具相結(jié)合,以解決各種應用場景的問題,這是生成式AI發(fā)展的趨勢”,戴金權(quán)表示。
英特爾公司副總裁、英特爾中國軟件和先進技術(shù)事業(yè)部總經(jīng)理李映補充,RAG能夠?qū)ζ髽I(yè)內(nèi)部私有數(shù)據(jù)和公開的大模型進行整合。通過開放聯(lián)盟的形式,英特爾旨在建立一個開放平臺,促進不同RAG組件之間的互聯(lián)互通,共同推動企業(yè)AI架構(gòu)的構(gòu)建和發(fā)展。這一戰(zhàn)略不僅加強了企業(yè)內(nèi)部數(shù)據(jù)的利用,還推動了整個AI生態(tài)系統(tǒng)的創(chuàng)新和協(xié)作。
李映也分享了英特爾的AI軟件戰(zhàn)略,他表示,未來,英特爾軟件業(yè)務非常重要的一方面是如何通過軟件加速企業(yè)AI的發(fā)展。而企業(yè)AI的軟件發(fā)展方向集中在如何將傳統(tǒng)的云架構(gòu)與新興的、基于大數(shù)據(jù)和大模型的AI架構(gòu)相融合。
軟件在此過程中扮演著加速器的角色,確保無論是CPU還是GPU,硬件性能得到最大化利用,并促進不同硬件架構(gòu)之間的互操作性。此外,軟件還負責在傳統(tǒng)架構(gòu)和AI應用之間進行資源的高效分配和管理。英特爾不僅是AI軟件創(chuàng)新的推動者,例如在PyTorch框架中的重要貢獻,而且還致力于將最新的技術(shù)成果集成到開源框架中,如oneAPI的推廣和應用。
算力升級——至強6、Gaudi 3齊開“卷”
至強6品牌煥新
在大模型和生成式AI智力涌現(xiàn)的背后,算力是行業(yè)關(guān)注的重點。英特爾的至強系列推出第六代產(chǎn)品,不同于以往單一產(chǎn)品的推出,此次是基于兩種微架構(gòu)設(shè)計:性能核(P-core)和能效核(E-Core)的產(chǎn)品組合,旨在解決數(shù)據(jù)中心在性能、功耗和多樣化工作負載等方面的挑戰(zhàn)。
配備能效核的英特爾至強6處理器(此前代號為Sierra Forest),可將機架密度提高2.7倍;客戶能以近3:1的比例替換舊系統(tǒng),大幅降低能耗,幫助其實現(xiàn)可持續(xù)發(fā)展目標。這意味著,如果使用第二代至強可擴展處理器需要200個服務器機架的話,轉(zhuǎn)而使用能效核只需要72個服務器機架。這樣的改進不僅大幅減少了所需的物理空間,還節(jié)省了超過1兆瓦的功耗。
配備性能核的英特爾至強6處理器(此前代號為Granite Rapids),包含了對MXFP4數(shù)據(jù)格式的軟件支持,與使用FP16的第四代至強處理器相比,可將下一個令牌(token)的延遲時間最多縮短6.5倍,能夠運行700億參數(shù)的Llama-2模型。
英特爾市場營銷集團副總裁、中國區(qū)云與行業(yè)解決方案部總經(jīng)理梁雅莉,首先以金山云的合作案例,介紹了至強在提升云服務性能方面的重要作用。通過與金山云的合作,英特爾針對X7云服務器進行了優(yōu)化,顯著提高了Stable Diffusion、Llama2和ChatGLM2等大模型的推理性能,其中Stable Diffusion的性能提升了4.96倍。這種優(yōu)化不僅使算力更易于獲取、具有通用性和可靠性,還簡化了部署過程,降低了成本,并允許靈活運行其他負載。
此外,京東云基于搭載至強的基礎(chǔ)設(shè)施,在智能營銷和客服等領(lǐng)域?qū)崿F(xiàn)了AI的廣泛應用,新一代云服務器性能提升23%。
除了云服務,英特爾在智能制造、醫(yī)療和教育等多個關(guān)鍵行業(yè)在推動AI技術(shù)的應用。在智能制造領(lǐng)域,與TCL華星合作提升生產(chǎn)效率、降低成本;在醫(yī)療領(lǐng)域,與英矽智能共同利用AI加速藥物發(fā)現(xiàn)過程;在教育領(lǐng)域,與華東師范大學合作開發(fā)大模型一體機,提高教師工作效率并支持終身學習。
梁雅莉表示,去年,“百模大戰(zhàn)”重點關(guān)注AI大模型的訓練;而今年,頭部互聯(lián)網(wǎng)和大模型公司面臨的挑戰(zhàn)是如何將生成式AI落地并變現(xiàn);其他企業(yè)則需要考慮如何選擇適合的大模型來融入生產(chǎn)或業(yè)務流程中創(chuàng)造價值。
“這要求企業(yè)根據(jù)具體情況選擇最合適的AI策略和基礎(chǔ)設(shè)施,企業(yè)需要考慮如何在確保經(jīng)濟適用性的同時,找到最合適的方案來實現(xiàn)AI的實際價值”,她補充,“英特爾致力于將AI技術(shù)落地,為行業(yè)帶來實際價值?!?/p>
用于AI訓練和推理的Gaudi 3
再來看最新發(fā)布的英特爾Gaudi 3 AI加速器。與上一代產(chǎn)品相比,英特爾Gaudi 3將帶來4倍的BF16 AI計算能力提升,以及1.5倍的內(nèi)存帶寬提升。該加速器將為尋求大規(guī)模部署生成式AI的企業(yè)帶來AI訓練和推理方面的重大飛躍。
另據(jù)英特爾公布的Gaudi 3芯片與英偉達H100芯片的比較,推理能力平均提高50%,能效平均提高40%,運行人工智能模型的速度是H100的1.5倍。
在訓練70億和130億參數(shù)Llama2模型、以及1750億參數(shù)GPT-3模型時,英特爾Gaudi 3可大幅縮短訓練時間。此外,在Llama 7B、70B和Falcon 180B大語言模型(LLM)的推理吞吐量和能效方面也展現(xiàn)了出色性能。
值得一提的是,Gaudi 3 AI加速器采用以太網(wǎng)通用標準連接,這一被廣泛應用的行業(yè)標準有助于單個節(jié)點向擁有數(shù)千個節(jié)點的集群進行擴展,比如在AI系統(tǒng)中連接多達數(shù)萬個加速器,支持大規(guī)模的推理、微調(diào)和訓練。
英特爾還將首次提供采用PCIe規(guī)格的Gaudi 3版本,HL-338卡是一款10.5英寸的全高雙槽PCIe卡,提供與OAM Gaudi 3相同的所有硬件,甚至可達到1835 TFLOPS FP8的峰值性能。
AI高速互聯(lián),推動開放式以太網(wǎng)網(wǎng)絡創(chuàng)新
AI系統(tǒng)目前主要還是基于馮·諾依曼架構(gòu),依賴于計算能力和數(shù)據(jù)傳輸性能。隨著大模型的規(guī)模增長至萬億參數(shù),分布式并行系統(tǒng)成為滿足推理和訓練需求的關(guān)鍵。由于訓練過程中產(chǎn)生的大量中間結(jié)果需要在多個加速卡之間共享,導致網(wǎng)絡流量呈現(xiàn)瞬時并發(fā)特征,易造成擁塞,因此解決網(wǎng)絡擁塞問題成為提升大模型性能和擴展規(guī)模的核心挑戰(zhàn)。
當前,在AI大模型系統(tǒng)的互連技術(shù)中,主要存在兩種方法:縱向(Scale up)和橫向(Scale out)。Scale up專注于單個計算節(jié)點內(nèi)部的互連,它主要處理的是節(jié)點內(nèi)部不同加速卡之間的數(shù)據(jù)傳輸和通信。在AI應用中,Scale up允許多個處理器或加速器在同一節(jié)點內(nèi)高效地共享數(shù)據(jù),這對于保持高性能計算至關(guān)重要。例如,在訓練大型神經(jīng)網(wǎng)絡時,節(jié)點內(nèi)部的多個GPU需要頻繁交換大量數(shù)據(jù),Scale up技術(shù)能夠確保這些交換快速且無縫進行,減少數(shù)據(jù)瓶頸和延遲。
而Scale out關(guān)注的是計算節(jié)點之間的互連。這種方法涉及將多個計算節(jié)點連接起來,形成一個強大的分布式計算網(wǎng)絡。在AI領(lǐng)域,Scale out支持大規(guī)模并行處理,使得可以同時在多個節(jié)點上運行不同的計算任務。這種方法對于處理龐大的數(shù)據(jù)集和復雜的AI模型尤為重要,因為它允許系統(tǒng)擴展到更多的硬件資源,從而提高整體的處理能力和效率。
為了支持大規(guī)模scale-up和scale-out高速互聯(lián),英特爾正在通過超以太網(wǎng)聯(lián)盟(UEC),驅(qū)動面向AI高速互聯(lián)技術(shù)(AI Fabrics)的開放式以太網(wǎng)網(wǎng)絡創(chuàng)新,并推出一系列針對AI優(yōu)化的以太網(wǎng)解決方案。英特爾的產(chǎn)品組合包括英特爾AI網(wǎng)絡連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統(tǒng),以及一系列面向英特爾代工的AI互聯(lián)軟硬件參考設(shè)計。
英特爾中國網(wǎng)絡與邊緣事業(yè)部首席技術(shù)官、英特爾高級首席AI工程師張宇表示,當前在Scale out互連技術(shù)領(lǐng)域,InfiniBand較為封閉,而以太網(wǎng)雖然生態(tài)龐大、產(chǎn)品多樣,但最初設(shè)計并未針對復雜應用場景,更適用于互聯(lián)網(wǎng)這種可容忍數(shù)據(jù)包丟失的場景。但是在AI大模型訓練中,數(shù)據(jù)包丟失可能導致巨大開銷,因此需要一個可靠的網(wǎng)絡系統(tǒng)來應對瞬時并發(fā)和脈沖式尖峰的網(wǎng)絡流量。目前,以太網(wǎng)方案如RoCE V2協(xié)議已有所改進,但仍不完善。
超以太網(wǎng)聯(lián)盟旨在改進以太網(wǎng)技術(shù),創(chuàng)建端到端的協(xié)議,以應對大模型中的網(wǎng)絡挑戰(zhàn)。目前聯(lián)盟已發(fā)布相關(guān)白皮書,英特爾在其中做出了貢獻,并希望將這些開放協(xié)議應用于產(chǎn)品中,實現(xiàn)不同廠商和合作伙伴產(chǎn)品的協(xié)同工作,構(gòu)建完整網(wǎng)絡?!伴_放的好處在于提供更多選擇,能夠降低成本,歷史已多次證明這一點”,張宇強調(diào)。
今年下半年,英特爾將推出第一代基于ASIC IPU的產(chǎn)品,也就是基礎(chǔ)架構(gòu)處理器產(chǎn)品。它能夠提供200GB/s的速度,同時能夠提供靈活的包處理能力,滿足大模型時代的網(wǎng)絡要求。
另據(jù)透露,AI NIC會有兩種形態(tài):一是獨立網(wǎng)卡,可以和不同加速器進行對接;另一種是芯粒形態(tài),不同AI加速器甚至可以把AI NIC集成到SoC芯片中,英特爾2026年推出的AI加速器將會集成AI NIC。
寫在最后
如果要描述英特爾生成式AI的戰(zhàn)略方向,個人認為“開放、生態(tài)、系統(tǒng)化”比較有代表性。面對生成式AI對更高、更強算力的狂熱追求,英特爾更加注重發(fā)揮開放平臺和強大生態(tài)的力量,并且正在通過旗下的全棧技術(shù)去形成更有競爭力的系統(tǒng)化方案。
帕特·基辛格演講中的一張圖令人印象深刻,針對企業(yè)AI,英特爾聯(lián)合了近20家公司去構(gòu)建了一個開放平臺。
生成式AI趨勢下,開放、開源、閉源技術(shù)在并行演進,玩家越來越多,在這個自然演變的過程中,難以預測誰是未來的大贏家,也正是如此,這個聯(lián)盟初次亮相就有如此豐富的陣容。而包括英特爾在內(nèi)的聯(lián)盟成員,如何推動標準框架的演進,融入更多、更開放的玩家,保證產(chǎn)業(yè)進程整體的發(fā)展方向,將是一場誰都不能丟棒的接力賽。