欧美日本国产∨A高清CABAL,在线观看成人一区欧美精美小视频 ,国产欧美精品一区二区三区四区

端到端2.0時代，會“嗖”地一下來了？

2024年，智駕領(lǐng)域最熱的詞，就是“端到端”。甚至，到了不聊端到端都沒法出門的程度。

不過，在這個光速迭代的智能電動化時代，“端到端”會被迭代替掉，也是可想而知的。于是，VLM、VLA、世界模型……概念涌現(xiàn)，被譽(yù)為“端到端2.0”的VLA（Vision-Language-Action Model，視覺-語言-動作模型）閃亮登場。

在我之前的文章中曾經(jīng)提到，根據(jù)規(guī)劃，奇瑞的VLA大概2026年會上。也就是，2026年完成VLA大模型的構(gòu)建，2027年要達(dá)到具身智能（VLA是具身智能領(lǐng)域的新范式）的程度。

主機(jī)廠深度覺醒，但是，也要到2026年完成模型構(gòu)建。所以說，開炒的VLA概念有那么快落地嗎？

01、概念先行

智駕概念不斷涌現(xiàn)，也代表各玩家的技術(shù)路線和投入側(cè)重。

實(shí)際上，“端到端”剛成為新的技術(shù)范式，甚至大量公司還沒來得及完成研發(fā)模式切換，端到端就又進(jìn)化了。而“端到端”的最新進(jìn)化方向是，深度融入多模態(tài)大模型，進(jìn)入VLA模式。

就像年中理想汽車發(fā)布的名為“端到端+VLM”的雙系統(tǒng)架構(gòu)，其中，端到端跑在一顆Orin X芯片上，VLM（視覺語言模型）跑在另一顆Orin X上。

隨后不久，元戎啟行CEO周光表示，預(yù)計(jì)明年推出VLA。其智駕方案將搭載在魏牌藍(lán)山上，僅需一顆Orin X芯片。

11月底，商湯絕影舉辦了自己的第一個AI DAY，亮出名為“開悟”的世界模型，可生成仿真數(shù)據(jù)，與量產(chǎn)實(shí)車采集的真實(shí)數(shù)據(jù)結(jié)合，共同重建物理世界。商湯絕影CTO肖楓還直接說：“‘地大華魔’頭部格局，已經(jīng)是過去式了?！?/p>

事實(shí)上，VLA模型最早見于機(jī)器人行業(yè)。2023年7月28日，谷歌DeepMind推出了全球首個控制機(jī)器人的視覺語言動作（VLA）模型RT-2。其后，這個模型概念快速擴(kuò)散到智駕領(lǐng)域。

今年10月底，谷歌旗下自動駕駛公司W(wǎng)aymo推出基于端到端的自動駕駛多模態(tài)模型EMMA。按照國內(nèi)行業(yè)人士的理解，這就是一個VLA模型架構(gòu)。

那么，VLA真的就會這么快來到嗎？說實(shí)話，我是不信的。就像全固態(tài)電池，還有智能底盤，行業(yè)內(nèi)的“概念先行”歪風(fēng)，在大模型領(lǐng)域也是如此。

實(shí)際上，商湯絕影CEO王曉剛不是也說，“端到端的發(fā)展還是要經(jīng)歷一個過程，包括基礎(chǔ)設(shè)施、數(shù)據(jù)積累、數(shù)據(jù)仿真。要真正發(fā)揮它的威力，這不是一蹴而就的?！?/p>

理智地看下，在端到端才進(jìn)入規(guī)模推廣之際，所謂端到端2.0的VLA方案立刻想落地面臨很現(xiàn)實(shí)的挑戰(zhàn)。

一方面，現(xiàn)階段車端芯片硬件還不足以支撐多模態(tài)大模型的部署落地。比如理想的端到端+VLM模型，對車端芯片硬件有相當(dāng)高要求，目前是2顆英偉達(dá)OrinX芯片，算力達(dá)到508Tops。

不過，有行業(yè)人士表示，現(xiàn)階段車端的算力很難支撐VLA模型部署，需要像英偉達(dá)的最新一代車載AI芯片Thor的算力來支撐。再者，單片AI算力1000Tops的Thor大概率會延期發(fā)布，加上英偉達(dá)芯片的量產(chǎn)時間與成本挑戰(zhàn)，對車企而言是個大問題。

還有個成本問題。比如，如果單顆Orin X可以搞定端到端，那么，搭載兩顆Orin X芯片的車，包括蔚來搭載四顆Orin X芯片的車，冗余是不是太多，算力是否太浪費(fèi)？

當(dāng)然，車企也會考慮用一些國內(nèi)的自研大算力芯片。不過，這些都還是未知數(shù)。

除了算力，更具挑戰(zhàn)的是，如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度融合。這考驗(yàn)著車企智駕團(tuán)隊(duì)的模型框架定義能力、模型快速迭代能力。只是，VLA技術(shù)路線的驟然升級與競賽變奏，為還沒發(fā)力端到端的玩家設(shè)置了更高門檻，看起來更加高不可攀。

02、車端or云端？

實(shí)際上，國內(nèi)現(xiàn)在還在“卷”從“兩段式”的端到端到“一段式”的端到端，VLA哪能那么快呢？

按照博世智能駕控中國區(qū)總裁吳永橋的判斷，到明年，在國內(nèi)應(yīng)該只有1-2家企業(yè)能夠?qū)崿F(xiàn)一段式端到端。

當(dāng)然，從兩段式端到端逐步過渡到一段式端到端，最終實(shí)現(xiàn)世界模型的應(yīng)用，這一路線圖正逐漸成為業(yè)內(nèi)共識。這是一條車端到云端的路。

簡單來說，以端到端和VLA為代表的技術(shù)路線，側(cè)重車端，以世界模型為代表的技術(shù)路線，側(cè)重云端。當(dāng)然，云端的爭奪也非常激烈，甚至有說法是，“未來競爭的核心在云端?！?/p>

而隨著下一代端到端到來，算力需求更大，智駕話語權(quán)的爭奪也更激烈。車端和云端，當(dāng)下與未來，又如何權(quán)衡？這也考驗(yàn)著車企的智慧。

實(shí)際上，云端的軍備競賽早就非常激烈。比如，今年7月理想汽車公布云端算力2.4 EFLOPS，最新數(shù)字是5.39 EFLOPS。小鵬汽車當(dāng)前云端算力2.3 EFLOPS，預(yù)計(jì)明年達(dá)到10 EFLOPS。而去年9月問界M7改款發(fā)布會時，余承東披露華為云端算力為1.8 EFLOPS。最新數(shù)字已經(jīng)到了7.5 EFLOPS。

從智駕競爭的終局來看，小鵬汽車認(rèn)為，布局云端大模型才是制勝關(guān)鍵。而且，其選擇的云端大模型路線和Open AI所選擇的路線不謀而合。

根據(jù)小鵬的架構(gòu)，云端大模型通過知識蒸餾，形成車端的端到端大模型。此外，云端大模型還被用于世界模型和數(shù)據(jù)的清洗和挖掘。在云端大模型的加持下，小鵬汽車的智駕參數(shù)量會比傳統(tǒng)車端大模型高80倍，帶來8倍有效視覺感知信息量。

這也是為什么，小鵬汽車的一套智駕軟件標(biāo)配全車系，涵蓋SUV、轎車、轎跑、MPV等多車型。

不僅是小鵬汽車，商湯絕影的“開悟”世界模型，基于商湯20 EFLOPS的云端算力，將能夠用“實(shí)車道路采集+世界模型生成”雙輪驅(qū)動，實(shí)現(xiàn)Corner Case數(shù)據(jù)生成。

蔚來在今年的NIO IN 2024創(chuàng)新科技日上，也發(fā)布了其智能駕駛世界模型NWM。該模型是一個具有全量理解數(shù)據(jù)、長時序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場景，并尋找到最優(yōu)決策。

而對于加快云端算力儲備同時發(fā)力車端模型的理想來說，VLA、世界模型以及類似特斯拉的做法等幾個方向都在探索，并通過擴(kuò)大端到端模型的體量，訓(xùn)練出VLM的早期認(rèn)知能力。

值得一提的是，數(shù)據(jù)量也成為下一代端到端的競爭核心。元戎啟行CEO周光認(rèn)為，端到端1.0交付達(dá)到萬臺規(guī)模級就有挺好的效果。而真正做VLA，10萬臺可能只是一個入門券，要看誰能更快達(dá)到10萬臺交付規(guī)模。

當(dāng)然，到底是從云端降維到車端，還是車端升維到云端，目前沒有統(tǒng)一的答案，各家眾說紛紜。只是，大家都不能回避的是，對算力的要求越來越高，成本越來越高。能不能留在牌桌上，是最大的問題。

這不，特斯拉的FSD V13版本已經(jīng)出來了，馬斯克說能力提升500~1000%。那么，大家只有繼續(xù)卷咯。

作者丨王小西

責(zé)編丨北? ?岸

編輯丨王? ?越