太卷了,智能駕駛在國內(nèi)的落地發(fā)展太迅速了,從體驗功能端,大家開城大戰(zhàn)打完了之后就進(jìn)入點(diǎn)到點(diǎn)的落地戰(zhàn),點(diǎn)到點(diǎn)弄完了之后肯定Robotaxi大戰(zhàn);而在硬核的軟件技術(shù)端,端到端大模型戰(zhàn)在華為這個月宣布急攻端到端大模型的信息下,已經(jīng)算是進(jìn)入焦灼狀態(tài)。
那么端到端大模型之后呢?
或許最近不少苗頭已經(jīng)透露 VLM (vision language model 具《智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn):從目標(biāo)物識別到大模型上車》體可以點(diǎn)擊之前文章了解)之后的VLA?(vision language action)會是2025年國內(nèi)的自動駕駛行業(yè)全面宣傳和競爭的重點(diǎn),各家會開卷端到端大模型 2.0。
VLA其實不但可以應(yīng)用于自動駕駛,它其實是自動駕駛車輛的大類 - 智能機(jī)器人,具身智能的基礎(chǔ),那么也可以理解為什么現(xiàn)在人行機(jī)器人產(chǎn)業(yè)。具身智能會火起來了,其實機(jī)器人比汽車更容易,機(jī)器人出問題可能不會有生命危險,但汽車出問題是會有生命危險,甚至公共安全的生命危險。
本文整理 VLA 相關(guān)論文以及其在汽車行業(yè)發(fā)展和應(yīng)用信息,希望能大家一些科普和前瞻信息。
什么是 VLA 模型?
VLA 有哪些優(yōu)點(diǎn)?
實驗室里面的 VLA 有哪些進(jìn)展?
落地應(yīng)用 VLA 有哪些挑戰(zhàn)?
目前有哪些車企在布局?
VLA會是自動駕駛最終的歸宿嗎?
什么是?VLA 模型
首先,我們先回顧視覺語言模型 (VLM), 它是一種機(jī)器學(xué)習(xí)模型,可以處理視覺信息和自然語言。它們將一張或多張圖像作為輸入,并生成一系列標(biāo)記,這些標(biāo)記通常表示自然語言文本。
VLM 的奇妙之處是在人類智慧結(jié)晶互聯(lián)網(wǎng)上的圖像和文本數(shù)據(jù)上進(jìn)行訓(xùn)練的,VLM 類似于三體中的智子,吸收了人類語言文字的智慧,能看懂和推理圖片內(nèi)容。
而 VLA 模型,就是在 VLM 基礎(chǔ)上利用機(jī)器人或者汽車運(yùn)動軌跡數(shù)據(jù),進(jìn)一步訓(xùn)練這些現(xiàn)有的 VLM,以輸出可用于機(jī)器人或者汽車控制的文本編碼動作。
這些經(jīng)過進(jìn)一步訓(xùn)練的 VLM 被稱為視覺-語言-動作 (VLA) 模型。通過結(jié)合視覺和語言處理,VLA 模型可以解釋復(fù)雜的指令并在物理世界中執(zhí)行動作。
上面Google Deepmind RT-2的圖片,非常好的圖像化解釋VLA,VLA(RT-2)?= VLM +?機(jī)器運(yùn)動數(shù)據(jù)(RT-1)。
VLA 有哪些優(yōu)點(diǎn)
首先,VLA是一個端到端大模型,所以大模型該有的優(yōu)點(diǎn),他都有。另外,從視覺到執(zhí)行,類似可推理性,可解釋性都有非常大的優(yōu)勢,這個可以查看之前文章了解《采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》。
其次,它具有通用型,未來所有“智能機(jī)器設(shè)備”都可以統(tǒng)一采用這套大模型算法,通過微調(diào)可以實現(xiàn),不管是汽車,飛行設(shè)備,乃至任何智能機(jī)器人都可以通用。所以這就是為什么可以看到現(xiàn)在的新勢力,上天下地,機(jī)器人都搞的原因,他們明白通用AI可以加任何機(jī)械設(shè)備從而變成人工智能設(shè)備,實現(xiàn)phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是僅僅現(xiàn)在的digital AI。
VLA這些通用系的模型在數(shù)據(jù)量、計算資源和模型復(fù)雜度的邊界上表現(xiàn)出持續(xù)的性能提升,因為有了自然文字語言的人類智慧為底座,所以可以極大的減少重復(fù)的數(shù)據(jù),計算資源,同時降低模型復(fù)雜度。
實驗室里面的 VLA 有哪些進(jìn)展
當(dāng)前AI的催生,基本都來自于著名學(xué)術(shù)機(jī)構(gòu)高校和知名公司的創(chuàng)新實驗。2023年7月28日,谷歌DeepMind推出了全球首個用于控制機(jī)器人的視覺語言動作(VLA)模型 RT-2 也就是上文解釋 VLA 借用的那個圖片。
RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 為基礎(chǔ),這些模型使用 DeepMinds 在開發(fā) RT-1 模型期間收集的機(jī)器人軌跡數(shù)據(jù)進(jìn)行微調(diào)。該模型經(jīng)過微調(diào),通過將機(jī)器人動作表示為文本標(biāo)記來輸出機(jī)器人動作。這種獨(dú)特的方法使模型能夠從自然語言響應(yīng)和機(jī)器人動作中學(xué)習(xí),從而使其能夠執(zhí)行各種任務(wù)。
RT-2 模型的令人印象深刻的泛化能力。該模型在新的物體、背景和環(huán)境中表現(xiàn)出顯著改善的性能。它可以解釋機(jī)器人訓(xùn)練數(shù)據(jù)中不存在的命令,并根據(jù)用戶命令執(zhí)行基本的推理。推理能力是底層語言模型采用思路鏈推理能力的結(jié)果。該模型推理能力的例子包括弄清楚要拿起哪個物體用作臨時錘子(一塊石頭),或者哪種飲料最適合疲憊的人(能量飲料)。這種程度的泛化是機(jī)器人控制領(lǐng)域的一大進(jìn)步。RT-2目前不是開源的,也就是大家無法基于他去創(chuàng)新和修改,但他的出現(xiàn)激勵了當(dāng)前智能機(jī)器人行業(yè)的發(fā)展,給了大家信心。
另一個比較知名的是 OpenVLA 模型,它是由來自斯坦福大學(xué)、加州大學(xué)伯克利分校、谷歌 Deepmind 和豐田研究院的研究人員組成的團(tuán)隊發(fā)起。他是一種基于 LLM/VLM 構(gòu)建的視覺/語言動作模型,用于具身機(jī)器人和行為學(xué)習(xí)(此基礎(chǔ)模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。
OpenVLA 模型不是使用圖像字幕或視覺問答,而是根據(jù)用于控制機(jī)器人的攝像頭圖像和自然語言指令生成動作標(biāo)記。動作標(biāo)記是從文本標(biāo)記器詞匯表中保留的離散標(biāo)記 ID,這些標(biāo)記映射到連續(xù)值,并根據(jù)每個機(jī)器人的運(yùn)動范圍進(jìn)行歸一化。
通過微調(diào)預(yù)訓(xùn)練的Prismatic-7B VLM 來訓(xùn)練 OpenVLA 。模型由三個關(guān)鍵元素組成:
- 融合視覺編碼器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主干組成,其中DinoV2主要是為了增加對于空間的理解,將圖像輸入映射到多個“圖像塊嵌入”,可以簡單理解將視覺編碼成語言。投影儀MLP Projector,這個組件可以獲取視覺編碼器的輸出嵌入并將其映射到大型語言模型的輸入空間,可以理解為這是個中間人,他能將編碼的語言和大語言模型對接上。Llama 2 7B作為語言模型的主干,根據(jù)對接上的信息,預(yù)測標(biāo)記化的輸出動作。這些標(biāo)記被解碼為可直接在機(jī)器人上執(zhí)行的連續(xù)輸出動作。
OpenVLA 是開源的,目前不少公司應(yīng)該都基于他在進(jìn)行研究,來找VLA應(yīng)用和商業(yè)落地的方法。以上兩個為影響比較大的,除了上面 VLA 還有不少其他的例如 Umass的3D-VLA,美的集團(tuán)的Tiny-VLA等等。
落地應(yīng)用 VLA 有哪些挑戰(zhàn)
VLA 那么好,是不是立馬可以在生活和商用中用起來?其實上面RT-2/Open VLA基本上和大模型一樣都是上Billions十億的參數(shù)。
模型大,需要邊緣算力大,就拿Open VLA 的7B 的參數(shù)模型來看,推理過程中速度很慢,需要對大量機(jī)器人數(shù)據(jù)進(jìn)行大量預(yù)訓(xùn)練,這使得實際部署變得困難。所以,實時運(yùn)行大型 VLA 模型的計算成本很高,需要進(jìn)行更多研究來優(yōu)化其推理速度。
此外,目前可用于微調(diào)的開源 VLM 模型有限。未來的研究應(yīng)側(cè)重于開發(fā)實現(xiàn)更高頻率控制的技術(shù),并使更多 VLM 模型可用于訓(xùn)練 VLA 模型。Phycical AI 需要與人類世界互動,那么實時高頻精準(zhǔn)的運(yùn)動是必須的,機(jī)器人可能要求的響應(yīng)可以低,但一般可用的都需要達(dá)到以 30-50 Hz 運(yùn)行的執(zhí)行;而汽車智能汽車的電控底盤一般的執(zhí)行響應(yīng)都達(dá)到100Hz。所以,這里還有很長的路要走。
最后,其實 VLA 應(yīng)用的難點(diǎn)還有匹配語言描述和駕駛行為或者機(jī)器人動作的訓(xùn)練。
目前VLA 模型應(yīng)用于自動駕駛的一個主要障礙是缺乏能夠有效結(jié)合視覺數(shù)據(jù)與語言描述和駕駛行為的大規(guī)模數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集往往在規(guī)模和全面注釋方面存在不足,尤其是對于語言,這通常需要費(fèi)力的人工操作。這限制了能夠處理現(xiàn)實世界駕駛復(fù)雜性的穩(wěn)健 VLA 模型的開發(fā)和評估。所以這些都是目前 VLA 工程落地,需要攻克的問題。
目前有哪些車企在布局?
目前準(zhǔn)確來講,應(yīng)用VLA的應(yīng)該屈指可數(shù),甚至沒有,但大批車企以及自動駕駛企業(yè)布局中。
我們之前文章《采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》中講到的EMMA,就是Waymo內(nèi)部團(tuán)隊在創(chuàng)新和測試探索的 VLA。國外的創(chuàng)業(yè)公司Wayve,他的主要投資方是微軟和軟銀,走的是提供L4軟件算法的路線,目前測試車隊已經(jīng)從歐洲擴(kuò)展到北美,與Uber達(dá)成合作協(xié)議,未來可能進(jìn)入Uber平臺。他在開始就站位采用通用人工智能來解決自動駕駛,所以可以看到之前就采用LLM,之后采用VLM,目前有消息其正在采用類似于VLA的模型。
國內(nèi),元戎啟行在上個月宣布下一步計劃使用VLA,計劃在英偉達(dá)Thor芯片上進(jìn)行開發(fā),不過Thor推遲到明年年中量產(chǎn),高性能Thor估計年底,所以估計中國的VLA大概率在明年中旬聲量巨大,一起卷。
另外,就是理想,這個我們之前文章《智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn):從目標(biāo)物識別到大模型上車》中講過理想在上半年就開始推進(jìn)VLM,現(xiàn)在其車上智駕已經(jīng)采用VLM,那么接下來肯定是朝著VLA進(jìn)發(fā)。
小鵬,目前沒有信息,但是看小鵬科技產(chǎn)品的布局,從機(jī)器人,汽車到飛行基本上也賭的是人工智能,如果不走通用人工智能的方向,那么顯然戰(zhàn)略失誤,所以估計在研發(fā)中或者布局中。
華為,比較特殊,有自己的閉環(huán)和中國特色發(fā)展,其200TOPs的MDC顯然在規(guī)則化,小模型的算法方面做的是一流,車輛運(yùn)動控制遙遙領(lǐng)先,但最近估計也是感覺端到端是未來,這個月的動態(tài)顯示其急攻一段式端到端,那么估計其應(yīng)用VLA也不會很長。
至于,蔚來汽車昨天搞了NIO Day發(fā)布了一大堆東西,由于沒有邀請我,我得說說蔚來的問題了,開玩笑,蔚來一直是我喜愛而且認(rèn)為有格局和格調(diào)的品牌,但蔚來有點(diǎn)不像新勢力了,他反過頭來在追隨傳統(tǒng)汽車的末日黃昏,蔚來在硬件端是在準(zhǔn)備,但是在智能駕駛軟件端,目前缺少相關(guān)信息。
VLA 會是自動駕駛最終的歸宿嗎
很難說,不過,自動駕駛采用AI的大方向是既定的,但是AI的發(fā)展太迅猛了,從采用CNN識別物體到Transformer BEV 構(gòu)建時空關(guān)系應(yīng)用大概也就是幾年,但從端到端大模型演化到采用通用人工智能的VLM卻是一年之內(nèi)。那么對應(yīng)的從文字LLM 到視覺的VLM再到未來是不是空間Spatial 人工智能的大力發(fā)展?AI 還是一個快速發(fā)展的小孩,都有可能!
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:
2024_Kira_ECCV_FOCUS.pdf -
Google deepmind RT-2 .pdf -?Anthony Brohan, Noah Brown等
OPEN VLA .pdf -?Moo Jin Kim?,1 Karl Pertsch?等
2024-IB-Introduction-Embodied-AI-Wayve.pdf
加入我們的知識星球可以下載包含以上參考資料的公眾號海量參考資料。