近日,特斯拉發(fā)布了其“完全自動(dòng)駕駛”軟件的最新版本FSDV13.2并完成首批交付,此次更新新增停車(chē)啟動(dòng)、自動(dòng)換擋、目的地自動(dòng)泊車(chē)等功能,特斯拉自動(dòng)駕駛工程師Arek Sredzki指出,該系統(tǒng)的端到端網(wǎng)絡(luò)現(xiàn)在允許車(chē)輛將乘客從一個(gè)停車(chē)位運(yùn)送到另一個(gè)停車(chē)位 (P2P)。
特斯拉FSD的每一次重大更新,都引得各大智駕玩家第一時(shí)間的關(guān)注,一如2024年年初,特斯拉推送FSD V12的測(cè)試版本,將城市街道駕駛的軟件棧升級(jí)為單一的端到端神經(jīng)網(wǎng)絡(luò)。這一變化帶來(lái)的“風(fēng)暴”,在遠(yuǎn)隔重洋的中國(guó),同樣掀起一股端到端的技術(shù)熱潮。
目前,一些致力于在自動(dòng)駕駛領(lǐng)域取得領(lǐng)先地位的車(chē)企和智駕供應(yīng)商,已經(jīng)開(kāi)始將端到端技術(shù)放在其宣傳的C位。
不出意外的是,對(duì)于“智駕第一梯隊(duì)”這一名頭,各大玩家抱有極大的興趣。就在2024年,涌現(xiàn)了一批號(hào)稱(chēng)進(jìn)入第一梯隊(duì)的車(chē)企或智駕供應(yīng)商,無(wú)論其技術(shù)和產(chǎn)品能力有多花哨,端到端都成為其中必不可少的一個(gè)關(guān)鍵詞。
端到端究竟有怎樣的“魔力”,而又有怎樣的貓膩呢?
端到端的路徑差異
端到端與傳統(tǒng)自動(dòng)駕駛算法的主要差別在于系統(tǒng)架構(gòu)和數(shù)據(jù)處理方式。傳統(tǒng)自動(dòng)駕駛算法通常采用模塊化部署策略,將感知、預(yù)測(cè)、規(guī)劃和控制等功能劃分為獨(dú)立的模塊,每個(gè)模塊獨(dú)立處理特定任務(wù),信息逐級(jí)傳遞并可能被過(guò)濾或抽象,這種方式雖然結(jié)構(gòu)清晰但存在誤差累積和信息丟失的問(wèn)題。
而端到端架構(gòu)則將整個(gè)駕駛過(guò)程視為一個(gè)整體,通過(guò)一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)模型直接從輸入的傳感器數(shù)據(jù)(如圖像、雷達(dá)信號(hào)等)映射到輸出的車(chē)輛控制指令,簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),減少了信息傳遞過(guò)程中的誤差,提高了系統(tǒng)的整體性和穩(wěn)定性。
相較而言,端到端算法更側(cè)重于數(shù)據(jù)驅(qū)動(dòng),通過(guò)大規(guī)模數(shù)據(jù)集的訓(xùn)練來(lái)優(yōu)化模型性能,而傳統(tǒng)算法則更依賴(lài)于規(guī)則和有限的場(chǎng)景數(shù)據(jù)。
用一種比較通俗的說(shuō)法,傳統(tǒng)的自動(dòng)駕駛算法就像是分步驟做蛋糕,每一步都有專(zhuān)門(mén)的廚師負(fù)責(zé),比如一個(gè)人負(fù)責(zé)打蛋,一個(gè)人負(fù)責(zé)加糖,另一個(gè)人負(fù)責(zé)攪拌,最后再由一個(gè)人來(lái)烤制。
在這種模式下,每個(gè)廚師都要把自己的工作做到最好,但過(guò)程僵化,他們之間可能不太知道其他人在做什么,信息傳遞可能出現(xiàn)偏差,有時(shí)候前面的廚師出了點(diǎn)小錯(cuò),后面的廚師可能沒(méi)法及時(shí)發(fā)現(xiàn)和調(diào)整,也浪費(fèi)了時(shí)間。
而端到端則像是有一個(gè)特級(jí)大廚,他能夠從準(zhǔn)備原料開(kāi)始,一直到蛋糕出爐,都親自掌控。這個(gè)大廚不需要?jiǎng)e人告訴他每一步該怎么做,他自己就能根據(jù)整個(gè)蛋糕的最終樣子來(lái)決定現(xiàn)在應(yīng)該做什么。這樣一來(lái),他就能更好地協(xié)調(diào)整個(gè)過(guò)程,減少錯(cuò)誤,并且能快速學(xué)習(xí)升級(jí)調(diào)整,做出更符合要求的“食物”。
按照樸素的想法來(lái)看,既然已經(jīng)切換到端到端的技術(shù)競(jìng)爭(zhēng),那就從感知到?jīng)Q策規(guī)劃一步到位,而在實(shí)踐的過(guò)程中,行業(yè)已經(jīng)出現(xiàn)了所謂的one model一體化端到端和分段式端到端的路徑選擇差異。
一段式方案從感知到預(yù)測(cè)規(guī)劃無(wú)縫銜接,確保信息的完整傳遞,避免了多段式方案中可能出現(xiàn)的信息丟失問(wèn)題。并且由于所有處理步驟集成在一個(gè)模型中,系統(tǒng)的整體響應(yīng)速度可能會(huì)更快,這對(duì)于實(shí)時(shí)性要求極高的自動(dòng)駕駛場(chǎng)景尤為重要。但一旦中間出現(xiàn)問(wèn)題,整個(gè)系統(tǒng)就像一個(gè)“黑匣子”,難以進(jìn)行精確調(diào)試。所有的處理步驟都緊密耦合在一起,使得問(wèn)題的定位和解決變得更加復(fù)雜。
而“分段式端到端”,或叫“模塊化端到端”,通常將自動(dòng)駕駛系統(tǒng)的感知和決策規(guī)劃兩個(gè)模塊分開(kāi),并在中間嵌入人工接口,以實(shí)現(xiàn)更靈活和可擴(kuò)展的系統(tǒng)設(shè)計(jì),但仍然保持端到端的整體性。值得注意的是,無(wú)論是分段式端到端還是一體式端到端方案,都實(shí)現(xiàn)了從基于規(guī)則的優(yōu)化向數(shù)據(jù)驅(qū)動(dòng)的擬合的轉(zhuǎn)變。這一轉(zhuǎn)變使自動(dòng)駕駛系統(tǒng)從依賴(lài)機(jī)械規(guī)則開(kāi)發(fā)代碼的模式,進(jìn)化到了基于神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)直覺(jué)模式。
但在一些觀點(diǎn)看來(lái),分段式端到端的上限會(huì)更低。商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛更曾直言:“‘兩段式’方案就算再做10年,也成不了自動(dòng)駕駛的‘ChatGPT’?!?/p>
前不久,黑芝麻智能公布其端到端算法參考模型,黑芝麻智能也指出:“現(xiàn)階段量產(chǎn)的端到端系統(tǒng),相當(dāng)一部分采用了分段式架構(gòu),即將端到端系統(tǒng)分成幾個(gè)不同的模塊級(jí)聯(lián)而成。雖然這些模塊也使用AI模型進(jìn)行工作,但各模塊之間仍存在人為定義的接口來(lái)傳輸數(shù)據(jù),這就必然導(dǎo)致有一定的信息損失,加上不同模塊經(jīng)常采用獨(dú)立訓(xùn)練的模式,其效果并非全局最優(yōu)?!?/p>
黑芝麻智能的端到端智駕系統(tǒng),采用了One Model的架構(gòu)。一端可輸入攝像頭、激光雷達(dá)、4D毫米波雷達(dá)、導(dǎo)航地圖等信息,另一端直接輸出駕駛決策所需要的信息,即本車(chē)的預(yù)期軌跡。
目前,大部分行業(yè)人士認(rèn)為,一段式端到端開(kāi)發(fā)難度較大,但一旦模型訓(xùn)練完成,能力會(huì)非常強(qiáng)大,能夠全面理解和應(yīng)對(duì)復(fù)雜場(chǎng)景。而分段式端到端,技術(shù)復(fù)雜度相對(duì)較低,更容易逐步推進(jìn)和實(shí)現(xiàn),也有可能適合當(dāng)前技術(shù)水平和資源條件。
就實(shí)際部署狀況來(lái)看,聲稱(chēng)已部署或即將部署一段式端到端的車(chē)企和供應(yīng)商包括Momenta、智己、廣汽豐田、理想、商湯科技、元戎啟行等,兩段式的代表則有小鵬、極氪,以及華為鴻蒙系等玩家。
今年10月,智己宣布攜手Momenta,聯(lián)合打造“一段式端到端直覺(jué)智駕大模型”,此“一段式端到端直覺(jué)式智駕大模型”,基于“長(zhǎng)短期記憶模式”獨(dú)特架構(gòu)打造,據(jù)介紹其能將模型訓(xùn)練成本節(jié)省10-100倍,同時(shí)大幅提升迭代速度。
據(jù)Momenta CEO曹旭東透露,Momenta在去年已經(jīng)實(shí)現(xiàn)了兩段式端到端,感知的端到端和規(guī)控的端到端,今年上半年又實(shí)現(xiàn)了一段式端到端。
博世智能駕控中國(guó)區(qū)總裁吳永橋告訴蓋世汽車(chē),從兩段式端到端逐步過(guò)渡到一段式端到端,最終實(shí)現(xiàn)世界模型的應(yīng)用,這一路線圖逐漸成為業(yè)內(nèi)共識(shí)。能夠按照這一路線順利發(fā)展下去的關(guān)鍵在于資金支持和長(zhǎng)期戰(zhàn)略定力。
據(jù)吳永橋判斷,到明年,在國(guó)內(nèi)應(yīng)該只有1-2家企業(yè)能夠?qū)崿F(xiàn)一段式端到端。
從VLM到VLA
為進(jìn)一步提升端到端系統(tǒng)決策的準(zhǔn)確性和靈活性,目前,行業(yè)里流行的做法是端到端+VLM架構(gòu)。
因?yàn)轳{駛時(shí)需要多模態(tài)的感知交互系統(tǒng),用戶(hù)的視覺(jué)、聽(tīng)覺(jué)以及周?chē)h(huán)境的變化,甚至個(gè)人情感的波動(dòng),都與駕駛行為密切相關(guān),所以端到端+VLM的技術(shù)架構(gòu)中,端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過(guò)程,而VLM則作為輔助系統(tǒng),提供對(duì)復(fù)雜交通場(chǎng)景的理解和語(yǔ)義解析。
這種架構(gòu)下,兩個(gè)模型相對(duì)獨(dú)立工作,VLM主要在特定情況下為端到端系統(tǒng)提供建議或補(bǔ)充信息。
以理想端到端與VLM相結(jié)合的雙系統(tǒng)架構(gòu)方案為例,其基于丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中提出的人類(lèi)兩套思維系統(tǒng)理論,將端到端系統(tǒng)(相當(dāng)于系統(tǒng)1)與VLM視覺(jué)語(yǔ)言模型(相當(dāng)于系統(tǒng)2)融合應(yīng)用于自動(dòng)駕駛技術(shù)方案中,旨在賦予車(chē)端模型更高的性能上限和發(fā)展?jié)摿Α?/p>
其中,系統(tǒng)1,即端到端模型,是一種直覺(jué)式、快速反應(yīng)的機(jī)制,它直接從傳感器輸入(如攝像頭和激光雷達(dá)數(shù)據(jù))映射到行駛軌跡輸出,無(wú)需中間過(guò)程,是One Model一體化的模型。系統(tǒng)2,則是由一個(gè)22億參數(shù)的VLM視覺(jué)語(yǔ)言大模型實(shí)現(xiàn),它的輸出給到系統(tǒng)1綜合形成最終的駕駛決策。
理想方面表示,VLM整體的算法架構(gòu)由一個(gè)統(tǒng)一的Transformel模型組成,將提示詞(Prompt)文本進(jìn)行Tokenizer編碼,然后將前視120度和30度相機(jī)的圖像以及導(dǎo)航地圖信息進(jìn)行視覺(jué)信息編碼,通過(guò)圖文對(duì)齊模塊進(jìn)行模態(tài)對(duì)齊,統(tǒng)一交給Transformer模型進(jìn)行自回歸推理。
與此同時(shí),許多觀點(diǎn)認(rèn)為端到端+VLA是端到端+VLM的下一個(gè)階段。端到端+VLA的技術(shù)架構(gòu)將端到端系統(tǒng)與多模態(tài)大模型更徹底地結(jié)合,形成一個(gè)統(tǒng)一的模型框架。在這種架構(gòu)下,多模態(tài)大模型不僅包含視覺(jué)和語(yǔ)言處理能力,還融入了動(dòng)作控制,使得整個(gè)系統(tǒng)能夠更全面地理解和響應(yīng)復(fù)雜的駕駛環(huán)境。
元戎啟行CEO周光告訴蓋世汽車(chē),VLM可以想象成一個(gè)新手司機(jī)在開(kāi)車(chē),旁邊有個(gè)教練通過(guò)語(yǔ)言不斷指導(dǎo)他如何駕駛,比如“左轉(zhuǎn)”、“減速”等。這就像當(dāng)前的端到端1.0版本,雖然比完全由新手獨(dú)自駕駛更安全一些,但并不是最佳方案。
而VLA則相當(dāng)于讓教練親自來(lái)開(kāi)車(chē),顯然這種方式比學(xué)員跟著教練學(xué)要更加高效和安全。簡(jiǎn)而言之,從VLM到VLA的進(jìn)步就像是從有人指導(dǎo)的初學(xué)者變成了經(jīng)驗(yàn)豐富的老手直接操作,后者相對(duì)更為先進(jìn)且可靠。
“VLM到VLA最大的不同可能在于推理能力,尤其是在時(shí)間層面的推理。例如,基于規(guī)則的系統(tǒng)可能只有1秒的推理能力,端到端1.0可能有7秒,而VLA則能達(dá)到幾十秒的推理能力?!敝芄庹f(shuō)到。據(jù)悉,元戎啟行將基于英偉達(dá)Thor芯片進(jìn)行VLA模型的研發(fā),模型預(yù)計(jì)將于2025年正式推出。
不過(guò),開(kāi)發(fā)端到端+VLA模型顯然更需要大量的資源投入,包括算法研發(fā)、數(shù)據(jù)收集與處理、模型訓(xùn)練等,這會(huì)增加企業(yè)的研發(fā)成本?,F(xiàn)在許多企業(yè)采取逐步推進(jìn)的策略,先在現(xiàn)有技術(shù)上進(jìn)行優(yōu)化和完善,再?zèng)Q定是否逐步引入新的技術(shù)元素。
理想汽車(chē)智能駕駛技術(shù)規(guī)劃高級(jí)總監(jiān)文治宇透露:“目前我們的研發(fā)團(tuán)隊(duì)和數(shù)據(jù)團(tuán)隊(duì)在做相關(guān)的嘗試,是不是有可能幫助解決一些智能駕駛的問(wèn)題。關(guān)于這個(gè)方向我們后續(xù)也會(huì)持續(xù)跟進(jìn),也期待未來(lái)幾年行業(yè)能夠一起取得的進(jìn)展?!?/p>
數(shù)據(jù)發(fā)生器:世界模型
盡管切換到端到端帶來(lái)的好處行業(yè)是普遍認(rèn)可的,但是由此帶來(lái)的挑戰(zhàn)也是顯而易見(jiàn)的。其中首要的是對(duì)數(shù)據(jù)要求的高漲。商湯絕影指出,端到端智駕模型對(duì)于高質(zhì)量數(shù)據(jù)的需求呈指數(shù)級(jí)的增長(zhǎng)。然而,受限于高階智駕的量產(chǎn)規(guī)模、算力資源,目前大多數(shù)車(chē)企和智駕公司都面臨相同的問(wèn)題,即高質(zhì)量駕駛數(shù)據(jù)的獲取難度大、效率低、成本高。
王曉剛說(shuō)到:“智駕高端局的競(jìng)爭(zhēng)不止是車(chē)端模型的比拼,端到端的決戰(zhàn),戰(zhàn)場(chǎng)在云端。”為此,商湯絕影在前不久升級(jí)發(fā)布了“開(kāi)悟”世界模型。
據(jù)介紹,“開(kāi)悟”世界模型,可以滿(mǎn)足端到端模型訓(xùn)練和仿真對(duì)于數(shù)據(jù)質(zhì)量的高要求??梢灾С侄鄻踊淖詣?dòng)駕駛場(chǎng)景及Corner case的可控生成。在真實(shí)的基礎(chǔ)上,開(kāi)悟生成的場(chǎng)景視頻,時(shí)間最長(zhǎng)為150秒、分辨率可達(dá)1080P、視角可以實(shí)現(xiàn)11V。
在這種情況下,世界模型在自動(dòng)駕駛算法的開(kāi)發(fā)體系中更多以數(shù)據(jù)生成器的角色存在。
今年的NIO IN 2024蔚來(lái)創(chuàng)新科技日上,蔚來(lái)也發(fā)布了其智能駕駛世界模型——NWM。該模型是一個(gè)具有全量理解數(shù)據(jù)、長(zhǎng)時(shí)序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場(chǎng)景,并尋找到最優(yōu)決策。
理想也在運(yùn)用云端世界模型對(duì)其快慢雙系統(tǒng)進(jìn)行能力的訓(xùn)練和考試,從而使這套系統(tǒng)能夠快速迭代。
而在去年的計(jì)算機(jī)領(lǐng)域的國(guó)際頂級(jí)會(huì)議 CVPR 上,特斯拉 AI負(fù)責(zé)人Ashok Elluswamy早已明確提到,特斯拉正在試圖構(gòu)建一個(gè)更加通用的世界模型,它能夠預(yù)測(cè)未來(lái),能夠幫助神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí),能夠像一個(gè)神經(jīng)網(wǎng)絡(luò)模擬器發(fā)揮作用,甚至能夠以AI的方式生成3D空間。
Ashok Elluswamy強(qiáng)調(diào),特斯拉之所以能夠構(gòu)建上述基礎(chǔ)大模型,主要得益于特斯拉擁有龐大的數(shù)據(jù)體量和強(qiáng)大的算力基礎(chǔ)。
值得注意的是,端到端對(duì)算力的要求可能并沒(méi)有想象的那般龐大,周光指出,端到端跟VLA的算力要求沒(méi)有語(yǔ)言大模型那么大,因?yàn)樗鼈儽旧硎且渴鸬蕉藗?cè)的AI?!敖裉煳覀冎v的車(chē)端的端到端+VLA跟真正的大語(yǔ)言模型比起來(lái),只是個(gè)小網(wǎng)絡(luò)?!敝芄庹f(shuō)到。
盡管并非所有企業(yè)都有特斯拉一般的數(shù)據(jù)和算力規(guī)模,但并沒(méi)有打消諸多玩家的競(jìng)爭(zhēng)積極性,周光坦言:“算力、車(chē)隊(duì)數(shù)量、數(shù)據(jù)等對(duì)系統(tǒng)能力的提升很關(guān)鍵,但前提是算法足夠優(yōu)秀,關(guān)鍵點(diǎn)還是企業(yè)的模型能力?!?/p>
端到端的研發(fā)推進(jìn)固然困難重重,諸多企業(yè)也正在拿出自家的拿手好戲?qū)で蠼鉀Q方案,至于對(duì)于大模型可解釋性方面的顧慮,似乎已經(jīng)愈發(fā)消減。與能夠顯著提升的性能相比,可解釋性成為一個(gè)次要考量因素,而且,目前各家實(shí)行的端到端方案,基本上都有兜底規(guī)則進(jìn)行安全冗余。
奇瑞汽車(chē)副總經(jīng)理&大卓智能CEO谷俊麗表示:“我們面臨的是越來(lái)越大的AI模型,它需要龐大的數(shù)據(jù)和算力支持,所有核心研發(fā)的能力將變成三大要素:數(shù)據(jù)、云計(jì)算以及頂級(jí)AI科學(xué)家。其他則是圍繞量產(chǎn)體系的構(gòu)建,更重要的是產(chǎn)品定義的能力?!?/p>
今年奇瑞全球創(chuàng)新大會(huì)上推出的智駕大模型,也是通過(guò)云端世界模型生成豐富場(chǎng)景,形成感知大模型加規(guī)劃大模型模擬人腦行為決策,預(yù)計(jì)將實(shí)現(xiàn)兩段式端到端方案量產(chǎn)上車(chē):2025年進(jìn)一步整合感知大模型和規(guī)劃大模型實(shí)現(xiàn)一段式端到端大模型量產(chǎn)上車(chē);到2027年實(shí)現(xiàn)基于VLA多模態(tài)大模型量產(chǎn)。
可以預(yù)見(jiàn)的是,端到端的落地或?qū)⒋龠M(jìn)其依賴(lài)的上游工具鏈和芯片等技術(shù)的加速發(fā)展,以及進(jìn)一步提升了數(shù)據(jù)和AI人才的重要性,可能會(huì)催生新的產(chǎn)業(yè)分工和商業(yè)模式。
至于端到端是否就是自動(dòng)駕駛的終極方案,行業(yè)眾說(shuō)紛紜。王曉剛也曾對(duì)蓋世汽車(chē)說(shuō)到:“端到端技術(shù)并非終點(diǎn),未來(lái)還有通用人工智能、多模態(tài)等新技術(shù)不斷涌現(xiàn)和突破。”
這一輪端到端的技術(shù)競(jìng)爭(zhēng),無(wú)論是卷數(shù)據(jù)、卷算法、卷人才,或許只是為了在愈發(fā)猛烈的淘汰賽中,卷出一個(gè)未來(lái)。