作者|白雪
從未有任何一個 7 月的空氣像今年這樣緊張、焦灼。
7 月是蔚小理智駕賽程的關(guān)鍵賽點。像是提前商量好一樣,蔚小理在上個月陸續(xù)開發(fā)布會,集中火力開炮。
7 月 5 日,理想開了夏季智駕發(fā)布會,將自己的核心技術(shù)全盤托出,有種掏涼粉自證端到端進展神速的緊繃感。
7 月 27 日,蔚來開了一年一度的 NIO IN,蔚來世界模型 NWM 成為重頭戲。在這場發(fā)布會上,蔚來提到了很多聞所未聞的新名詞,空間認知、時間認知、GOA、群體智能,蔚來似乎想要為這場端到端競爭增加一些新質(zhì)感。
7 月 30 日,小鵬壓軸登場卻成為了三者中最為低調(diào)的一個。
在小鵬智駕 AI 技術(shù)發(fā)布日,小鵬臨上場前在微博里自曝,當天的活動材料被團隊小伙伴刪掉了三四頁,團隊希望小鵬不要講得太早。
結(jié)果,8 月 2 號華為就搶先公開,已實現(xiàn)車位到車位智駕,小鵬自動駕駛產(chǎn)品經(jīng)理袁婷婷稱,小鵬當天晚上忍住沒有官宣的就是「車位到車位的端到端智駕」,原因是擔心太激進。
一方面小鵬的謹慎與淡定似乎還昭示著作為頭部智駕廠商的底氣。
另一方面,可以確鑿,隨著新勢力切入端到端,智駕競爭進入到只爭分毫的焦灼狀態(tài)。
小鵬以 AI 決定論,講究磨刀不誤砍柴工,理想則學(xué)習(xí)華為在智駕繼續(xù)壓強式投入,尋求突破點,而蔚來不緊不慢,換刀講究自動駕駛質(zhì)感。
三者各有特色,卻也咬得很緊。
一種新的競爭形態(tài),正全然被打開。如果說過去兩年的競爭是 720P 畫質(zhì)的競爭,只能看到技術(shù)輪廓的競爭,那么接下來則是 4K 畫質(zhì)的競爭,比拼的不僅是框架,更要經(jīng)得起用戶拿著放大鏡看細節(jié),考察的是「知識的縫隙」,細微的差別變得更重要。
一位自動駕駛公司創(chuàng)始人這樣形容:「今年的底線是無圖,明年的底線是端到端量產(chǎn)」,足以顯示出自動駕駛戰(zhàn)場的焦灼。
現(xiàn)在,敗下陣來的不是智駕能用或不能用,往往是好用或不好用。
01、理想:從差生,到絕對第一梯隊
過去兩年中,理想智駕被排除各種智駕榜單之外,原因是進展太慢。
此前,理想的重心并不放在智駕上,但去年開完雁棲湖戰(zhàn)略會字后,一切都變了,自動駕駛成為了理想的重要戰(zhàn)略之一。
在內(nèi)部,理想的自動駕駛經(jīng)歷過三場戰(zhàn)役,分別為泰坦計劃、金蘋果計劃、達摩克里斯計劃。
對應(yīng)的是理想智駕的三個重要節(jié)點:
- 2023 年 12 月推送理想 AD Max 5.0 版本開通百城智駕;2024 年 7 月推送 AD Max 6.0 版本全國無圖智駕;2024 年年底將量產(chǎn)端到端智駕;
去年 10 月,我們試駕理想 L8,當時開城如火如荼,阿維塔、問界、極越等車型都已經(jīng)開通城區(qū)智駕,唯獨理想和極氪尚未開通城區(qū)智駕,理想銷售只能怯生生帶我們?nèi)ヒ粭l快速路試駕了一圈。
直至理想 AD Max 5.0 版本推出,才慢慢覆蓋到全國 110 個城市的主干道路。
理想真正的分野并不是 5.0 到 6.0 版本,而是 6.0 到端到端的風暴式跳躍。
最近半個月,我們曾先后試駕理想 AD Max 6.0、端到端內(nèi)測版,差別十分明顯——端到端與 6.0 根本不在一個水平線上。
6.0 的博弈能力、擬人化能力、聰明程度都遠遠不如理想端到端。
舉例兩個場景,同樣是二輪車,6.0 版本跟在二輪車后面行駛了約一分鐘不敢超車,而端到端版本非常果斷超車;在可用性上,6.0 版本在遇到深圳施工路段有自動退出現(xiàn)象發(fā)生,而端到端即便走到鄉(xiāng)間小路也實測可開。
理想的智駕更像一個后進生在高考前半年決心奮起直追。
不同于其他車企,理想官方將其端到端描述為「One Model」端到端。
為了解釋其技術(shù)路徑,7 月 5 號理想智能駕駛夏季發(fā)布會一改往常新勢力現(xiàn)場發(fā)布的風格,把理想智駕全線負責人拉過來做深入訪談,上半場介紹無圖智駕 6.0 版本,下半場則由賈鵬、郎咸朋詳解理想端到端。
理想的端到端有四大亮點:通用障礙物的理解能力、超視距導(dǎo)航能力、道路結(jié)構(gòu)理解能力、擬人的規(guī)劃能力。這四大能力對應(yīng)的是底層的系統(tǒng) 1 端到端模型+系統(tǒng) 2VLM 模型。
理想這套雙系統(tǒng)架構(gòu)來自于丹尼爾·卡尼曼的《思考,快與慢》,系統(tǒng) 1 代表以來直覺與本能的快系統(tǒng),由端到端來處理 95% 的路況,系統(tǒng) 2 則是有意識分析思考的慢系統(tǒng),由 VLM 處理剩下的 5%。
在端到端模型中,理想的優(yōu)勢是數(shù)據(jù)、訓(xùn)練方法與模仿用來學(xué)習(xí)行駛軌跡。
-
-
- 數(shù)據(jù):理想約有
200 億公里
- 的駕駛數(shù)據(jù),并按照自定義的司機駕駛標準篩選出 100 萬公里、年底 500 萬公里的模型數(shù)據(jù)用于訓(xùn)練;
-
-
-
- 訓(xùn)練方法:
模仿學(xué)習(xí)+強化學(xué)習(xí)
- ;端到端的目的主要是模仿真實駕駛數(shù)據(jù)來學(xué)習(xí)行駛軌跡,但由于行駛軌跡無法判斷駕駛行為好或者不好,為避免詭異的駕駛行為就融合了強化學(xué)習(xí),讓系統(tǒng)了解什么是錯的,以此給系統(tǒng)懲罰。強化學(xué)習(xí)就來幫助端到端擁有對復(fù)雜環(huán)境的能力。
-
- 系統(tǒng) 1 和系統(tǒng) 2 的互補:22 億的參數(shù)量的 VLM 大模型布置在了 OrinX 芯片上,在遇到復(fù)雜場景時系統(tǒng) 2 可以結(jié)合知識推理給給出更好的判斷。比如,辨別潮汐車道、遇到坑洼車道給出減速建議。
這里有一個難題,理想,如何把 22 億的巨大參數(shù)量布置在幾百 TOPS 上的 OrinX,還做到了低延遲?
賈博士解釋了這個問題,原始 VLM 最初有 4.1s 時延,能夠縮短到最終的 0.3s 時延,這需要經(jīng)歷四個步驟:
第一步:增加了 LMM GPTQ,傳統(tǒng)量化方法是用 AWQ,理想魔改了 GPTQ,解決內(nèi)存帶寬不足的問題,時延減少至 1.9s。
第二步:增加 VIT 算子融合,實現(xiàn)了 Tensor(張量)的算子融合,對 attention 算子進行深度優(yōu)化,時延減少至 1.4s。
第三步:增加 LMM 投機采樣,理想用自研的投機采樣方法從每次推理只能輸出一個 token 再到連續(xù)輸入多個 Token,時延減少至 0.7s。
第四步:增加流式視頻編碼器,使用重復(fù)的視覺計算環(huán)節(jié)環(huán)節(jié)帶寬壓力,最終時延到了可以接受的 0.3s。
準確來說,理想并不只有雙系統(tǒng),在端到端+VLM 模型系統(tǒng)之外,理想還存在第 3 個系統(tǒng)——世界模型。
這是理想為系統(tǒng) 1、系統(tǒng) 2 搭建的考試體系。3D 虛擬環(huán)境一眼假、效率低,重建式仿真容易出現(xiàn)車輛拖影行為,而生成式則存在不符合現(xiàn)實世界規(guī)律的幻覺問題。
因此,理想將重建式仿真、生成式仿真結(jié)合做出「世界模型」,相當用擴散模型重建現(xiàn)實世界,來做改版過的整體,把考試題做成有新視角的 3D 物理世界,用 3D 高斯濺射來做生成模型,來做模擬題,使其用用更好的泛化性,在這個世界里可以控制天氣、車流,甚至?xí)r間。
理想在 7 月的這場競爭中是給料給得最多的,某種程度上也是向外界喊話:理想不懼競爭。
一個細節(jié)是,李想經(jīng)常會問郎咸朋算力夠不夠,不夠就再讓謝炎弄點。
理想的智駕底氣在于,理想實在是不愁賣。目前理想現(xiàn)金儲備接近 1000 億元,24 萬智駕用戶正嗷嗷待哺。
現(xiàn)在,理想已經(jīng)對端到端投入了 10 億人民幣,未來還打算投 10 億美金。
朗咸朋認為,「先不說 L3/L4,想支撐 VLM 和端到端的訓(xùn)練,大概需要幾十 EFLOPS 云端算力?!?/p>
02、不把端到端看做解藥的蔚來,慢了嗎?
「蔚來智駕至少比理想慢兩代」,一個微博大 V 博主在 7 月末曾這樣評論蔚來。
蔚來真的慢了嗎?
7 月 27 日,蔚來 NIO IN 的核心也是智駕,蔚來智能駕駛研發(fā)副總裁任少卿花了半個小時講解了蔚來世界模型 NWN。
與理想把考試系統(tǒng)稱之為世界模型不同,蔚來將自己的整套智駕方法論稱之為世界模型。
2024 年上半年是蔚來的城區(qū)智駕發(fā)力之年,4 月底,蔚來推動了包含城區(qū) NOA 的全域領(lǐng)航輔助 NOP+,覆蓋全國 726 座城市,下一個節(jié)點就到了蔚來Banyan2.6.5,該版本包含端到端 AEB 功能,目前蔚來仍未官宣端到端 OTA 的時間節(jié)點。
上個月我們試駕過 Banyan2.6.5 版本,在面對復(fù)雜路口及穿越行人時,仍然需要接管,但好的一點是蔚來的規(guī)劃基本符合人類司機的預(yù)測范圍,不會像其他智駕有太多超越人類不能理解的決策。整體可用,但到好用仍有一定差距。
蔚來為端到端做出的團隊挑戰(zhàn)與理想基本前后腳,經(jīng)過上半年調(diào)整,蔚來的研發(fā)團隊分為感知、規(guī)控和集成等部門。
調(diào)整后,感知和規(guī)控變成大模型團隊,集成團隊為交付團隊。
緊接著就是在 NIO IN 的一系列「成果」的發(fā)布,在 NIO IN 現(xiàn)場,能看到蔚來的風格如同一名紳士一樣,列好了數(shù)字,但不講誰是第一,提到了端到端,但沒有拉踩和比較。
蔚來正在嘗試拋開用理工男的技術(shù)框架,用文科生的語言講技術(shù)故事。
蔚來的世界模型 NWM 是一套用想象重建做空間認知、想象推演做時間認知,所構(gòu)建的「多元、自回歸生成式」模型結(jié)構(gòu)。
說白了,就是左腦要先獲取更多接近真實世界的信息,右腦要持續(xù)生成更長時間的信息。
任少卿認為,從信息抽取的角度而言,蔚來自動駕駛想象重建的能力經(jīng)歷過四個階段:
- 第一階段:2010—2020 年 2D/3D 檢測,用框和線描述現(xiàn)實世界,信息量不多;第二階段:2021-2022 年 BEV 算法提取了更多信息,但缺少路邊沿信息;第三階段:2022-2023 年 OCC,2D 信息的表達變成了 3D,但少了物體材質(zhì)、天氣特征等;第四階段:2024 年以后蔚來世界模型學(xué)習(xí)真實視頻后,利用想象重構(gòu)生成與現(xiàn)實世界基本一致的平行世界。
從想象推演的能力來說,蔚來依靠 NWM 可以生成了 2 分鐘的長視頻生成,超過了大多數(shù)視頻生成軟件。
有個案例很有意思,給蔚來世界模型一個車輛剮蹭的真實視頻,讓模型回到事故發(fā)生前 3 秒鐘,此時世界模型就會在平行世界中做出多種決策,比如急剎車、打右轉(zhuǎn)向等。
每 0.1 秒生成 216 個平行的可能軌跡,評估后選出最優(yōu)解。
說實話,蔚來的這套打法比較奇特,在大家都說端到端的時候,不再刻意去提端到端,頗有種「你打你的,我打我的」作風——不再陷入別人的話語體系去打仗。
甚至,蔚來還在發(fā)布會最后做了張圖以「空間理解、時間理解、使用海量數(shù)據(jù)」來對比常規(guī)端到端模型和蔚來世界模型的差別。
如果要考量蔚來的數(shù)據(jù)支撐,蔚來的智駕云端總算力 287.1 EOPS、智駕用戶 53 萬、智能駕駛城區(qū)累計驗證總里程已達 3.7 億公里,全域領(lǐng)航輔助 NOP+可用道路總里程 389.9 萬公里。
蔚來的野心需要支撐,而這些支撐點看似是群體智能、生成式仿真,實則是蔚來希望用符合品牌調(diào)性的話語體系,在自動駕駛爭奪賽中獨樹一幟。
你和李斌聊專利、聊數(shù)據(jù),但李斌會提到蔚來的愿景是希望創(chuàng)造一個不一樣的蔚來社區(qū)文化,要從技術(shù)、產(chǎn)品、服務(wù)、社區(qū)四個維度去看企業(yè)的長期競爭力。
李斌認為,蔚來已經(jīng)做好了足夠的思想準備,每個季度投入 30 億研發(fā)費用,一年投入一百多億研發(fā)費用,讓蔚來擁有參加智能化決賽的機會。
03、小鵬磨刀,磨刀不誤砍柴工
某種程度上,小鵬和李斌的很多觀念都特別像。
一樣強調(diào)技術(shù)底色,強調(diào)要按照建一百層樓的標準去打地基。
目前與其他兩家一樣,小鵬最近也完成了針對端到端的組織架構(gòu)調(diào)整,技術(shù)開發(fā)部被拆成了三個部門,分別是 AI 端到端、AI 應(yīng)用、AI 能效。
而區(qū)別是,小鵬是新勢力中唯一被貼上智駕標簽的車企。
好處是隨著智駕走高,小鵬只要保持競爭優(yōu)勢,銷量也會隨即走高,劣勢是在市場對于智駕認可度還沒有那么廣泛的時候,智駕不會是顯性優(yōu)勢。
被貼上智駕標簽的小鵬,在實際表現(xiàn)中也沒讓人失望過。
在我們做過的智駕實測中,小鵬是目前所有擁有智駕車型中唯一一個可以拐 U 型彎的,而包括華為在內(nèi)的其他智駕車對此類場景仍束手無策。
不同于其他新勢力智駕發(fā)布會著急秀肌肉,在 7 月 30 號的智駕發(fā)布會上,或許是面對焦灼的行業(yè)氣死而變得謹慎,或許是作為三好學(xué)生的一種防備,小鵬沒有再仔細拓展講自己的量產(chǎn)端到端智駕大模型架構(gòu)(神經(jīng)網(wǎng)絡(luò) XNet+規(guī)控大模型 XPlanner+大語言模型 XBrain),而是更加地氣,圍繞小鵬 XNGP 的智駕更迭、智駕產(chǎn)品功能展開。
小鵬 XNGP 分為四個階段:
全國都能開第一階段/第二階段——全國都好用第一階段/第二階段。
如無意外,小鵬第三部曲極有可能是「全球都能開」。
當晚,小鵬釋放的天璣 XOS5.2.0 版本,其 XNGP 可以實現(xiàn)全國都好用、1000 米循跡倒車以及離車泊入 2.0。
相當于小鵬正式官宣,小鵬進入到全國都好用的第一階段,可以支持所有城市、所有公開道路,甚至遇到環(huán)島/掉頭/施工場景也可以開。
在接下來的第四季度,小鵬會進入全國好用第二階段,將打通園區(qū)內(nèi)部道路、還有高速/城市 ETC、還有行車. 泊車的停車場閘機。
在何小鵬看來,「好用」的標準是不限城市、不限路線、不限路況。從用戶角度來說小鵬希望到 2025 年時讓用戶能從「好用」到愛用智駕,衡量的標準是,體驗更流暢、智駕效率更高、根本不用接管。
換個說法,是讓曾經(jīng)一切智駕有斷點的地方都連接起來,智駕無阻。
看過蔚來和理想的發(fā)布會,會覺得蔚來、理想是在向同行秀肌肉,面向的是行業(yè)媒體、智駕工程師,但小鵬越過了秀肌肉的階段,更在意如何把智駕技術(shù)讓 C 端用戶看得懂、用得了。
一個很有意思的數(shù)據(jù)是,小鵬講述了為了讓全國真正都能開,開得更安全,小鵬 XNGP 走遍了全國 2595 個城市、做了 756 萬公里的實車測試。
有一位小鵬用戶反饋自己用 5.2.0 從新疆開到了北京,真的做到了全程都能開。
最近半年,小鵬的銷量一直略顯疲態(tài),有大 V 為 2024 年上半年銷量劃清界限:
-
- 銷量半年累計超過 18 萬的第一集團軍:理想、問界。銷量半年累計超過 8 萬的第二集團軍:極氪與蔚來、零跑和深藍。
-
- 銷量半年累計超過 6 萬的第三集團:小鵬、哪吒和騰勢。
但做 AI 的回旋鏢,一定會飛到小鵬的手中。
為什么如此篤定呢?轉(zhuǎn)向或許是從何小鵬最近為期兩周的美國之行發(fā)生的。
首先,何小鵬在美國看到了對自動駕駛的信心。在美國的兩周中,小鵬接連體驗了 Waymo 和特斯拉,而 Waymo 讓他看到了小鵬努力的方向,他向汽車之心表示,小鵬 Max 版本的智駕就要對標 Waymo 的水準。
也就是說,一個人平均一天開 70 公里只用接管 1、2 次的水準。
從技術(shù)角度而言,把這樣的體驗從裝滿激光雷達的運營車輛下放到個人乘用車是巨大挑戰(zhàn),但何小鵬認為,18 個月(2025 年底)足以做到。
其次,何小鵬看到了汽車產(chǎn)業(yè)的未來。
目前中國汽車行業(yè)風向是唯銷量論,但小鵬跳脫了這個想法,別人開發(fā)布會講技術(shù),他們發(fā)布會開局就是一張技術(shù)圖,寫著「上一代風口是新能源/云服務(wù),下一代是 AI。」
許多自動駕駛公司創(chuàng)始人與小鵬的看法一致,他們認為,AI 是一個參與各行各業(yè)的變革與機遇,遠比新能源、云服務(wù)來得兇猛,而看到這一趨勢,也讓小鵬有了不慌不忙的底氣與淡定。
AI 就是小鵬的戰(zhàn)斗號角。李力耘提到,在小鵬內(nèi)部不只是端到端擁抱 AI,甚至小鵬的整個工作流程也在擁抱智駕,「我們寫代碼的第一位老師就是 AI」。
如果從 L1—L5 自動駕駛分級體系來看,智駕道路是一條漫長的賽跑,小鵬的特別之處在于,別的新勢力可能只是想把 L2 干出來,但小鵬還想把 L4 干出來,和特斯拉、Waymo 同臺競爭。
三年前新勢力剛剛闖過了生死線,他們的利器是新能源和智能化硬件,但從更長的維度來看,新勢力一直有一場漫長的軟件競爭,三年后只是更加白熱化了。
小鵬每年在 AI 上投入超過 35 億,理想去年在智駕上投入 10 億,接下來還要再投 70 億,蔚來在研發(fā)還有 100 億的預(yù)算,每家都軍火充沛。
但說到底,人力、財力,甚至是技術(shù)架構(gòu)沒有那么難學(xué),核心是這群新勢力在智駕還沒有大規(guī)模帶動銷量時,仍然堅持智駕是產(chǎn)生下一個增長神話的底層信念,這才是最難學(xué)的地方。