端到端2.0時代,會“嗖”地一下來了?
2024年,智駕領(lǐng)域最熱的詞,就是“端到端”。甚至,到了不聊端到端都沒法出門的程度。
不過,在這個光速迭代的智能電動化時代,“端到端”會被迭代替掉,也是可想而知的。于是,VLM、VLA、世界模型……概念涌現(xiàn),被譽(yù)為“端到端2.0”的VLA(Vision-Language-Action Model,視覺-語言-動作模型)閃亮登場。
在我之前的文章中曾經(jīng)提到,根據(jù)規(guī)劃,奇瑞的VLA大概2026年會上。也就是,2026年完成VLA大模型的構(gòu)建,2027年要達(dá)到具身智能(VLA是具身智能領(lǐng)域的新范式)的程度。
主機(jī)廠深度覺醒,但是,也要到2026年完成模型構(gòu)建。所以說,開炒的VLA概念有那么快落地嗎?
01、概念先行
智駕概念不斷涌現(xiàn),也代表各玩家的技術(shù)路線和投入側(cè)重。
實(shí)際上,“端到端”剛成為新的技術(shù)范式,甚至大量公司還沒來得及完成研發(fā)模式切換,端到端就又進(jìn)化了。而“端到端”的最新進(jìn)化方向是,深度融入多模態(tài)大模型,進(jìn)入VLA模式。
就像年中理想汽車發(fā)布的名為“端到端+VLM”的雙系統(tǒng)架構(gòu),其中,端到端跑在一顆Orin X芯片上,VLM(視覺語言模型)跑在另一顆Orin X上。
隨后不久,元戎啟行CEO周光表示,預(yù)計(jì)明年推出VLA。其智駕方案將搭載在魏牌藍(lán)山上,僅需一顆Orin X芯片。
11月底,商湯絕影舉辦了自己的第一個AI DAY,亮出名為“開悟”的世界模型,可生成仿真數(shù)據(jù),與量產(chǎn)實(shí)車采集的真實(shí)數(shù)據(jù)結(jié)合,共同重建物理世界。商湯絕影CTO肖楓還直接說:“‘地大華魔’頭部格局,已經(jīng)是過去式了?!?/p>
事實(shí)上,VLA模型最早見于機(jī)器人行業(yè)。2023年7月28日,谷歌DeepMind推出了全球首個控制機(jī)器人的視覺語言動作(VLA)模型RT-2。其后,這個模型概念快速擴(kuò)散到智駕領(lǐng)域。
今年10月底,谷歌旗下自動駕駛公司W(wǎng)aymo推出基于端到端的自動駕駛多模態(tài)模型EMMA。按照國內(nèi)行業(yè)人士的理解,這就是一個VLA模型架構(gòu)。
那么,VLA真的就會這么快來到嗎?說實(shí)話,我是不信的。就像全固態(tài)電池,還有智能底盤,行業(yè)內(nèi)的“概念先行”歪風(fēng),在大模型領(lǐng)域也是如此。
實(shí)際上,商湯絕影CEO王曉剛不是也說,“端到端的發(fā)展還是要經(jīng)歷一個過程,包括基礎(chǔ)設(shè)施、數(shù)據(jù)積累、數(shù)據(jù)仿真。要真正發(fā)揮它的威力,這不是一蹴而就的?!?/p>
理智地看下,在端到端才進(jìn)入規(guī)模推廣之際,所謂端到端2.0的VLA方案立刻想落地面臨很現(xiàn)實(shí)的挑戰(zhàn)。
一方面,現(xiàn)階段車端芯片硬件還不足以支撐多模態(tài)大模型的部署落地。比如理想的端到端+VLM模型,對車端芯片硬件有相當(dāng)高要求,目前是2顆英偉達(dá)OrinX芯片,算力達(dá)到508Tops。
不過,有行業(yè)人士表示,現(xiàn)階段車端的算力很難支撐VLA模型部署,需要像英偉達(dá)的最新一代車載AI芯片Thor的算力來支撐。再者,單片AI算力1000Tops的Thor大概率會延期發(fā)布,加上英偉達(dá)芯片的量產(chǎn)時間與成本挑戰(zhàn),對車企而言是個大問題。
還有個成本問題。比如,如果單顆Orin X可以搞定端到端,那么,搭載兩顆Orin X芯片的車,包括蔚來搭載四顆Orin X芯片的車,冗余是不是太多,算力是否太浪費(fèi)?
當(dāng)然,車企也會考慮用一些國內(nèi)的自研大算力芯片。不過,這些都還是未知數(shù)。
除了算力,更具挑戰(zhàn)的是,如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度融合。這考驗(yàn)著車企智駕團(tuán)隊(duì)的模型框架定義能力、模型快速迭代能力。只是,VLA技術(shù)路線的驟然升級與競賽變奏,為還沒發(fā)力端到端的玩家設(shè)置了更高門檻,看起來更加高不可攀。
02、車端or云端?
實(shí)際上,國內(nèi)現(xiàn)在還在“卷”從“兩段式”的端到端到“一段式”的端到端,VLA哪能那么快呢?
按照博世智能駕控中國區(qū)總裁吳永橋的判斷,到明年,在國內(nèi)應(yīng)該只有1-2家企業(yè)能夠?qū)崿F(xiàn)一段式端到端。
當(dāng)然,從兩段式端到端逐步過渡到一段式端到端,最終實(shí)現(xiàn)世界模型的應(yīng)用,這一路線圖正逐漸成為業(yè)內(nèi)共識。這是一條車端到云端的路。
簡單來說,以端到端和VLA為代表的技術(shù)路線,側(cè)重車端,以世界模型為代表的技術(shù)路線,側(cè)重云端。當(dāng)然,云端的爭奪也非常激烈,甚至有說法是,“未來競爭的核心在云端?!?/p>
而隨著下一代端到端到來,算力需求更大,智駕話語權(quán)的爭奪也更激烈。車端和云端,當(dāng)下與未來,又如何權(quán)衡?這也考驗(yàn)著車企的智慧。
實(shí)際上,云端的軍備競賽早就非常激烈。比如,今年7月理想汽車公布云端算力2.4 EFLOPS,最新數(shù)字是5.39 EFLOPS。小鵬汽車當(dāng)前云端算力2.3 EFLOPS,預(yù)計(jì)明年達(dá)到10 EFLOPS。而去年9月問界M7改款發(fā)布會時,余承東披露華為云端算力為1.8 EFLOPS。最新數(shù)字已經(jīng)到了7.5 EFLOPS。
從智駕競爭的終局來看,小鵬汽車認(rèn)為,布局云端大模型才是制勝關(guān)鍵。而且,其選擇的云端大模型路線和Open AI所選擇的路線不謀而合。
根據(jù)小鵬的架構(gòu),云端大模型通過知識蒸餾,形成車端的端到端大模型。此外,云端大模型還被用于世界模型和數(shù)據(jù)的清洗和挖掘。在云端大模型的加持下,小鵬汽車的智駕參數(shù)量會比傳統(tǒng)車端大模型高80倍,帶來8倍有效視覺感知信息量。
這也是為什么,小鵬汽車的一套智駕軟件標(biāo)配全車系,涵蓋SUV、轎車、轎跑、MPV等多車型。
不僅是小鵬汽車, 商湯絕影的“開悟”世界模型,基于商湯20 EFLOPS的云端算力,將能夠用“實(shí)車道路采集+世界模型生成”雙輪驅(qū)動,實(shí)現(xiàn)Corner Case數(shù)據(jù)生成。
蔚來在今年的NIO IN 2024創(chuàng)新科技日上,也發(fā)布了其智能駕駛世界模型NWM。該模型是一個具有全量理解數(shù)據(jù)、長時序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場景,并尋找到最優(yōu)決策。
而對于加快云端算力儲備同時發(fā)力車端模型的理想來說,VLA、世界模型以及類似特斯拉的做法等幾個方向都在探索,并通過擴(kuò)大端到端模型的體量,訓(xùn)練出VLM的早期認(rèn)知能力。
值得一提的是,數(shù)據(jù)量也成為下一代端到端的競爭核心。元戎啟行CEO周光認(rèn)為,端到端1.0交付達(dá)到萬臺規(guī)模級就有挺好的效果。而真正做VLA,10萬臺可能只是一個入門券,要看誰能更快達(dá)到10萬臺交付規(guī)模。
當(dāng)然,到底是從云端降維到車端,還是車端升維到云端,目前沒有統(tǒng)一的答案,各家眾說紛紜。只是,大家都不能回避的是,對算力的要求越來越高,成本越來越高。能不能留在牌桌上,是最大的問題。
這不,特斯拉的FSD V13版本已經(jīng)出來了,馬斯克說能力提升500~1000%。那么,大家只有繼續(xù)卷咯。
作者丨王小西
責(zé)編丨北? ?岸
編輯丨王? ?越