自去年以來(lái),業(yè)界不斷討論和提及“BEV+Transformer”這一概念,即鳥(niǎo)瞰視圖與基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)。卷了半年時(shí)間,今年,“端到端”這一概念又迅速成為人們熱議的焦點(diǎn)。這兩個(gè)概念看似截然不同,實(shí)則在視覺(jué)路線建立的基于Transformer 的架構(gòu)上有著共通之處,也共同印證了人工智能技術(shù)從深度學(xué)習(xí)向多模態(tài)大模型演進(jìn)的趨勢(shì)。汽車(chē)領(lǐng)域始終處于自動(dòng)駕駛技術(shù)革新的前沿。
BEV+Transformer:鳥(niǎo)瞰視角下的感知革命
BEV+Transformer技術(shù)如同為自動(dòng)駕駛汽車(chē)安裝了一雙“慧眼”,能夠清晰地“看到”周?chē)沫h(huán)境和障礙物,并做出更加準(zhǔn)確的判斷。
如果說(shuō)端到端大模型是自動(dòng)駕駛領(lǐng)域新晉的“頂流”,那么 BEV+Transformer 可以算得上是它的“前輩”。兩者都是在視覺(jué)路線建立了基于Transformer 的架構(gòu)。ChatGPT,其中的“T”即代表了以 Transformer 為基礎(chǔ)的大模型。這種模型通過(guò)自注意力機(jī)制,能夠更好地處理和理解復(fù)雜的視覺(jué)信息,從而在自動(dòng)駕駛領(lǐng)域發(fā)揮重要作用。BEV+Transformer 架構(gòu)通過(guò)鳥(niǎo)瞰視圖,能夠提供更全面、更準(zhǔn)確的環(huán)境感知能力,為自動(dòng)駕駛系統(tǒng)提供更可靠的決策支持。因此,BEV+Transformer可以被視為自動(dòng)駕駛領(lǐng)域的重要里程碑,為未來(lái)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
清華大學(xué)蘇州汽車(chē)研究院智能網(wǎng)聯(lián)中心技術(shù)總監(jiān)孫輝先生指出,BEV算法將各類(lèi)傳感器信息統(tǒng)一映射至世界坐標(biāo)系中,實(shí)現(xiàn)了在不同類(lèi)型傳感器數(shù)據(jù)的互補(bǔ)。此舉不僅推動(dòng)了感知融合從后融合階段推進(jìn)至前融合階段的轉(zhuǎn)變,也為端到端方案奠定了堅(jiān)實(shí)的基礎(chǔ)。隨后,基于BEV算法發(fā)展起來(lái)的占據(jù)柵格(Occupancy Grid)算法,進(jìn)一步增強(qiáng)了對(duì)動(dòng)態(tài)與靜態(tài)障礙物的檢測(cè)能力,從而提升了自動(dòng)駕駛汽車(chē)的安全避障功能。端到端自動(dòng)駕駛方案是在BEV算法基礎(chǔ)上,通過(guò)神經(jīng)網(wǎng)絡(luò)將軌跡預(yù)測(cè)、柵格地圖預(yù)測(cè)、行為規(guī)劃等環(huán)節(jié)疊加,用大數(shù)據(jù)監(jiān)督學(xué)習(xí)取代了傳統(tǒng)復(fù)雜的人工規(guī)則設(shè)計(jì),從而簡(jiǎn)化了自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)流程,并提升了迭代效率。
BEV技術(shù)代表著繼深度學(xué)習(xí)之后,自動(dòng)駕駛領(lǐng)域又一項(xiàng)重大技術(shù)突破。它有效地克服了多傳感器數(shù)據(jù)變化和異構(gòu)性帶來(lái)的挑戰(zhàn),促進(jìn)了融合感知算法的發(fā)展。從理論基礎(chǔ)來(lái)看,BEV與傳統(tǒng)感知算法在輸入端并無(wú)二致,均采用多通道傳感器信息,但 BEV 的獨(dú)特之處在于它能夠直接生成適用于三維空間規(guī)劃和控制的輸出。BEV技術(shù)以二維數(shù)據(jù)為基礎(chǔ),提供了一種俯瞰視角,與SLAM技術(shù)相得益彰,為自動(dòng)駕駛技術(shù)的進(jìn)步和實(shí)際應(yīng)用開(kāi)辟了新的道路。
端到端方案將 BEV 算法的優(yōu)勢(shì)進(jìn)一步放大,將軌跡預(yù)測(cè)、柵格地圖預(yù)測(cè)、行為規(guī)劃等環(huán)節(jié)疊加,通過(guò)神經(jīng)網(wǎng)絡(luò)將感知、決策和控制過(guò)程整合,用大數(shù)據(jù)監(jiān)督學(xué)習(xí)取代傳統(tǒng)的人工規(guī)則設(shè)計(jì),從而簡(jiǎn)化開(kāi)發(fā)流程,提升迭代效率。更接近人類(lèi)駕駛員的駕駛風(fēng)格,更容易實(shí)現(xiàn)更自然的駕駛行為。
端到端:智能駕駛的主流趨勢(shì)
端到端技術(shù)如同為自動(dòng)駕駛汽車(chē)打造了一個(gè)“大腦”,使其能夠像人類(lèi)一樣,自主地學(xué)習(xí)和思考,并做出更加靈活的駕駛決策。
目前大多數(shù)L4級(jí)無(wú)人駕駛系統(tǒng)仍依賴(lài)于“算法+規(guī)則”的執(zhí)行模式,通過(guò)地圖、攝像頭、激光雷達(dá)等多種傳感器和算法的冗余配置來(lái)確保安全。但這種模式在處理復(fù)雜多變的交通環(huán)境時(shí)顯得力不從心,難以解決所有長(zhǎng)尾問(wèn)題。因此,無(wú)人駕駛技術(shù)仍需不斷優(yōu)化和完善,而“端到端”模型的出現(xiàn)或許將為這一領(lǐng)域帶來(lái)新的突破,加速技術(shù)成熟度的提升,從而解決當(dāng)前存在的問(wèn)題?!八惴?規(guī)則”與端到端技術(shù)的融合將成為主流趨勢(shì)。
端到端,就像價(jià)格戰(zhàn)一樣,成為車(chē)企“內(nèi)卷”的又一個(gè)方向。
在2023年下半年,各大汽車(chē)制造商紛紛采納以BEV和Transformer技術(shù)為核心的策略,致力于實(shí)施以“輕地圖、重感知”為特點(diǎn)的城市級(jí)自動(dòng)駕駛導(dǎo)航系統(tǒng)(NOA)的落地計(jì)劃。然而,隨著2024年特斯拉FSD V12版本的推出,標(biāo)志著端到端方案在實(shí)際應(yīng)用中取得了突破。市場(chǎng)趨勢(shì)轉(zhuǎn)向了更為重視感知能力的端到端解決方案,這標(biāo)志著智能駕駛技術(shù)發(fā)展的下一階段。
FSD Beta V12號(hào)稱(chēng)是迄今為止首個(gè)完全由人工智能實(shí)現(xiàn)的端到端自動(dòng)駕駛系統(tǒng)。該系統(tǒng)從識(shí)別道路、行人等概念到?jīng)Q策過(guò)程,均未涉及傳統(tǒng)編程,亦無(wú)程序員編寫(xiě)任何代碼。整個(gè)過(guò)程完全依賴(lài)于神經(jīng)網(wǎng)絡(luò)的自主思考。相較于V11版本的30萬(wàn)行代碼,F(xiàn)SD Beta V12的C++代碼縮減至僅2000行。該系統(tǒng)通過(guò)向神經(jīng)網(wǎng)絡(luò)提供視頻資料,使其不斷學(xué)習(xí)和優(yōu)化參數(shù),從而通過(guò)分析數(shù)十億幀人類(lèi)駕駛的視頻資料,自學(xué)掌握了駕駛技能。
隨著新機(jī)遇的出現(xiàn),國(guó)內(nèi)企業(yè)積極擁抱變革,引領(lǐng)“端到端”自動(dòng)駕駛技術(shù)的上車(chē)?yán)顺薄?/strong>
小鵬汽車(chē)于2024年5月20日宣布其“端到端”大模型由神經(jīng)網(wǎng)絡(luò)XNet、規(guī)控大模型XPlaner及大語(yǔ)言模型XBrain三大核心部分構(gòu)成,并宣稱(chēng)“未來(lái) 10 年是智能駕駛的 10 年,完全自動(dòng)駕駛和全無(wú)人駕駛時(shí)代即將到來(lái),而率先實(shí)現(xiàn)端到端大模型上車(chē)的小鵬汽車(chē),將于 2025 年在中國(guó)實(shí)現(xiàn)類(lèi) L4 級(jí)智駕體驗(yàn)?!薄?jù)官方聲明,智能駕駛能力提升兩倍。從現(xiàn)有的架構(gòu)升級(jí)至端到端后,傳感器輸入的數(shù)據(jù)能夠直接轉(zhuǎn)化為車(chē)輛的控制動(dòng)作,端到端的訓(xùn)練也從圖片升級(jí)至視頻。在系統(tǒng)層面,此舉能夠減少車(chē)輛在某些場(chǎng)景下的決策遲疑。
在2024年北京車(chē)展上,元戎啟行推出的新一代量產(chǎn)的高階智駕平臺(tái)DeepRoute IO,宣稱(chēng)搭載了端到端模型,成為目前已知的行業(yè)內(nèi)首個(gè)將端到端技術(shù)應(yīng)用于高階智能駕駛汽車(chē)量產(chǎn)的公司。在導(dǎo)航地圖所覆蓋的區(qū)域內(nèi),DeepRoute IO平臺(tái)能夠?qū)崿F(xiàn)對(duì)交通信號(hào)燈、施工區(qū)域、緩慢行駛或臨時(shí)停車(chē)等場(chǎng)景的及時(shí)、精確和穩(wěn)定地識(shí)別,從而確保在城市環(huán)境中實(shí)現(xiàn)從一點(diǎn)到另一點(diǎn)的智能駕駛,在導(dǎo)航地圖覆蓋區(qū)域內(nèi),能夠?qū)崿F(xiàn)安全、順暢的智能駕駛。
理想汽車(chē)董事長(zhǎng)兼首席執(zhí)行官李想在 2024 中國(guó)汽車(chē)重慶論壇上,提出了自動(dòng)駕駛技術(shù)路線的新構(gòu)想:“端到端”+VLM(視覺(jué)語(yǔ)言模型)+生成式驗(yàn)證系統(tǒng),確實(shí)是一套非常有前瞻性的技術(shù)架構(gòu),這一技術(shù)路線被視為未來(lái)物理世界機(jī)器人技術(shù)的核心框架。截至目前,理想汽車(chē)尚未公開(kāi)發(fā)布具體的“端到端”自動(dòng)駕駛技術(shù)細(xì)節(jié)。雖然理想汽車(chē)的自動(dòng)駕駛系統(tǒng)(理想AD Max)具備一些功能,例如高速NOA、城市NOA、記憶泊車(chē)等,但其是否完全采用端到端技術(shù),以及具體的技術(shù)細(xì)節(jié),都尚未得到官方的明確確認(rèn)。
未來(lái)展望
端到端作為一種技術(shù)路徑,能夠得到車(chē)企客戶和消費(fèi)者的關(guān)注,其原因在于該技術(shù)能夠顯著提升用戶體驗(yàn)。端到端技術(shù)能夠顯著增強(qiáng)系統(tǒng)的安全性,對(duì)于自動(dòng)駕駛中那些難以用語(yǔ)言描述的復(fù)雜場(chǎng)景,端到端技術(shù)在實(shí)際應(yīng)用中展現(xiàn)了出色的應(yīng)對(duì)能力。此外,端到端系統(tǒng)使得駕駛行為更加貼近人類(lèi),更類(lèi)似于人類(lèi)駕駛員的風(fēng)格,這有助于自動(dòng)駕駛系統(tǒng)與用戶之間建立信任關(guān)系。
那些跑通端到端大模型的車(chē)企,無(wú)疑搶先站上了“風(fēng)口”,但端到端真正量產(chǎn)還有很長(zhǎng)的路要走。目前,數(shù)據(jù)稀缺是困擾高級(jí)別自動(dòng)駕駛落地,尤其是影響端到端效果的重要課題。有專(zhuān)家分析認(rèn)為國(guó)內(nèi)自動(dòng)駕駛公司的模塊化端到端方案上車(chē)量產(chǎn)時(shí)間可能會(huì)在2025年。
許多企業(yè)將主要目標(biāo)定位于L2+級(jí)自動(dòng)駕駛的商業(yè)化實(shí)施,暫緩了L4級(jí)自動(dòng)駕駛的直接實(shí)現(xiàn)。今年伊始,多家汽車(chē)制造商開(kāi)始了城市級(jí)導(dǎo)航輔助駕駛(NOA)的“速度競(jìng)賽”,競(jìng)相推廣以“極致性?xún)r(jià)比”為賣(mài)點(diǎn)的高級(jí)智能駕駛解決方案。
在這一進(jìn)程中,無(wú)論是“端到端”的解決方案,還是基于BEV+Transformer模型的技術(shù),都在為自動(dòng)駕駛的發(fā)展提供支持;同時(shí),日益豐富的車(chē)輛行駛數(shù)據(jù)也在不斷促進(jìn)自動(dòng)駕駛?cè)斯ぶ悄芗夹g(shù)的日趨成熟。