加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

華為BEV+OCC拿下第一

11/30 11:25
2073
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

華為最新的論文《VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving》,10位作者中有5位來自華為諾亞方舟實(shí)驗(yàn)室,其余基本都是香港中文大學(xué),且這其中還有3個人是在華為諾亞方舟實(shí)驗(yàn)室實(shí)習(xí),可以說有8個人來自華為諾亞方舟實(shí)驗(yàn)室。VisionPAD提出了一種比較新穎的預(yù)訓(xùn)練方法來提升OCC性能,將OCC性能關(guān)鍵指標(biāo)mIoU推高到45%,達(dá)到業(yè)內(nèi)第一,學(xué)術(shù)界一般研究超前課題,但華為依然研究BEV+OCC,顯示出傳統(tǒng)算法還有很強(qiáng)的生命力。

BEV+3D語義分割柵格占有法是目前性能最強(qiáng)的感知算法,柵格占有法一般縮寫成OCC。雖然模塊式端到端沒有顯性輸出,但論到感知性能,傳統(tǒng)算法是可以碾壓端到端的,而端到端在決策規(guī)劃、軌跡預(yù)測方面比傳統(tǒng)算法潛力要深很多。

近年來主要的3D OCC研究論文薈萃(截至2024年6月)

3D OCC主要缺陷是數(shù)據(jù)集成本過高,絕大部分3D OCC算法都是使用強(qiáng)監(jiān)督數(shù)據(jù)集,而3D OCC的數(shù)據(jù)集打造成本高昂,基本上無法使用機(jī)器標(biāo)注,只能人工標(biāo)注,費(fèi)時費(fèi)力費(fèi)錢傳統(tǒng)算法就是如此,而全局型端到端最大的優(yōu)點(diǎn)就是可以使用完全非監(jiān)督(自監(jiān)督)數(shù)據(jù),即數(shù)據(jù)集成本可以是零,而使用多模態(tài)大模型做全局型端到端更是大幅度節(jié)約成本,基本不需要算法工程師了,自動駕駛團(tuán)隊裁員95%都能正常運(yùn)轉(zhuǎn)。

Self-Supervised Learning(自監(jiān)督學(xué)習(xí))是一種無監(jiān)督表示學(xué)習(xí)方法,其核心在于通過設(shè)計輔助任務(wù)(也稱為“預(yù)訓(xùn)練任務(wù)”或“前置任務(wù)”)來挖掘數(shù)據(jù)自身的表征特征作為監(jiān)督信號,從而提升模型的特征提取能力。為了自監(jiān)督Self-Supervised Learning,業(yè)內(nèi)有兩條思路,一是對比學(xué)習(xí),具體可以看論文《BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point Clouds》作者基本都來自寶馬自動駕駛主要供應(yīng)商法雷奧。二是MAE(Masked Autoencoders,即掩碼自編碼器)是一種在計算機(jī)視覺領(lǐng)域廣泛應(yīng)用的自監(jiān)督學(xué)習(xí)方法。MAE通過在輸入的圖像或文本中隨機(jī)遮蓋部分?jǐn)?shù)據(jù)(如圖像中的patches或文本中的單詞),然后讓模型去預(yù)測被遮蓋的部分,并將預(yù)測結(jié)果與真實(shí)的部分進(jìn)行比較,計算誤差作為損失。這種方法使模型能夠直接重構(gòu)被遮蓋的數(shù)據(jù),從而實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)。

對比學(xué)習(xí)和MAE這兩種粗略coarse監(jiān)督,無法捕捉到3D幾何信息、語義信息和基于時間序列的動態(tài)元素,浙江大學(xué)提出了《UniPAD: A Universal Pre-training Paradigm for Autonomous Driving》,上海AI實(shí)驗(yàn)室提出了《Visual Point Cloud Forecasting enables Scalable Autonomous Driving》即ViDAR。UniPAD從體素特征重建多視角深度地圖和圖像來實(shí)現(xiàn)預(yù)訓(xùn)練,使用可微分函數(shù)體渲染(體渲染是一種基于逆光線傳輸方程的3D重建方法)重建一個完整的幾何表示。ViDAR則是將transformer預(yù)測的下一幀和未來Lidar幀監(jiān)督渲染的深度圖結(jié)合。這兩種方法都嚴(yán)重依賴Lidar深度信息的強(qiáng)監(jiān)督來學(xué)習(xí)3D幾何信息,而目前自動駕駛領(lǐng)域是以攝像頭為核心,特別是BEV領(lǐng)域。順便說一句,純激光雷達(dá)感知性能遠(yuǎn)比純視覺要好,兩者融合,性能只有非常輕微的提升,幾乎可以忽略不計。

華為在UniPAD上加以改進(jìn),下圖是兩者的對比

UniPAD vs. VisionPAD

華為不使用激光雷達(dá)友好的體渲染方程,改用基于錨點(diǎn)的3D Gaussian Splatting(簡寫為3D GS)技術(shù),其實(shí)3D GS(https://github.com/graphdeco-inria/gaussian-splatting)和MVS,SFM,NeRF這類體渲染技術(shù)類似,不過在高分辨率圖片上由于需要使用強(qiáng)監(jiān)督神經(jīng)網(wǎng)絡(luò),導(dǎo)致訓(xùn)練和渲染都需要十分昂貴的代價。3D 高斯?jié)姙R的核心是一種光柵化技術(shù),類似于計算機(jī)圖形學(xué)中的三角形光柵化,它可以實(shí)時渲染。首先,將多個視點(diǎn)的圖像轉(zhuǎn)換為點(diǎn)云,然后將點(diǎn)云轉(zhuǎn)換為帶參數(shù)的高斯分布,最后使用機(jī)器學(xué)習(xí)來學(xué)習(xí)參數(shù)。它允許實(shí)時渲染從小圖像樣本中學(xué)習(xí)到的逼真場景。最近風(fēng)頭很盛,大有超過NeRF的態(tài)勢。

此外為了只從圖像中學(xué)習(xí)運(yùn)動線索,移動線索(motion cues)由像素位移和背景位移的差值來定義。華為提出一種自監(jiān)督體素速度估計算法。華為使用一個輔助神經(jīng)網(wǎng)絡(luò)任務(wù)頭和基于時間戳的近似體素流來預(yù)測每個體素的速度。隨后,華為封裝(wrap)當(dāng)前幀的體素到相鄰幀,并用相應(yīng)的圖像監(jiān)督 3D-GS 重建。這種速度預(yù)測使模型能夠解耦動態(tài)和靜態(tài)體素,便于下游任務(wù)中的運(yùn)動感知。此外,華為采用多幀光度一致性損失函數(shù)進(jìn)行三維幾何預(yù)訓(xùn)練,這是一種自監(jiān)督學(xué)習(xí)獲得深度估計值的方法,具體可以看論文《Digging Into Self-Supervised Monocular Depth Estimation》,這是2018年的論文了。

VisionPAD整體架構(gòu)

以一個視覺感知模型為主體,VisionPAD 利用多幀、多視角圖像作為輸入,生成顯式的體素表示。之后,一個 3DGS解碼器從體素特征中重建多視角圖像。隨后,應(yīng)用速度引導(dǎo)的體素變形,將當(dāng)前幀的體素特征變形到相鄰幀,從而利用相鄰幀圖像作為監(jiān)督,通過 3D-GS 解碼器實(shí)現(xiàn)自監(jiān)督重建。最后,通過相對位姿進(jìn)行重投影所知的光度一致性損失,強(qiáng)制 3D 幾何約束。

在上圖中,牽涉非常多的幾何和光傳播方程,如今絕大多數(shù)程序員和自動駕駛研發(fā)人員都無法深度理解這種復(fù)雜的幾何算法和光傳播算法。

自監(jiān)督速度估計

目前的體素特征被扭曲到相鄰幀。隨后,使用 3DGS 解碼器渲染多視圖圖像,并通過在該幀中捕獲的圖像進(jìn)行監(jiān)督。

在nuScenes數(shù)據(jù)集上的得分表現(xiàn)如上,因?yàn)槭亲员O(jiān)督的,距離強(qiáng)監(jiān)督的感知算法自然有不小差距。目前nuScenes上NDS得分最高是北航和圖森的MV2Dfusion-e,高達(dá)78.8,mAP是0.779,排除地圖和外接數(shù)據(jù),nuScenes上NDS得分最高是上汽的BEVFusion4D-e,也有77.2,順便說一下這是2023年3月的記錄,至今無人能打破,傳統(tǒng)算法的缺點(diǎn)就是進(jìn)展緩慢。

不過VisionPAD的專長是OCC,感知性能不強(qiáng)是正常的。

幾種OCC算法對比

上圖是幾種OCC算法對比,很明顯,VisionPAD壓倒性的第一,不過測試數(shù)據(jù)集是OPUS,不是常見的Occ3D-nuScenes。

目前Occ3D-nuScenes上的排名

這是目前Occ3D-nuScenes上的排名,華為大幅提高了自監(jiān)督學(xué)習(xí)OCC算法的性能。不過和強(qiáng)監(jiān)督的最頂級算法COTR比應(yīng)該還是有差距。順便說一句,COTR是華東師范大學(xué)提出的,一個師范大學(xué)的OCC算法輕松碾壓清華和一眾海外名校。

強(qiáng)監(jiān)督自有強(qiáng)監(jiān)督的好處,提升非常明顯。

對學(xué)術(shù)界來說,基本不考慮成本,產(chǎn)業(yè)界要在成本和性能之間找到平衡點(diǎn),不過絕大部分企業(yè)更傾向于壓低成本,端到端大幅度降低研發(fā)成本,但部署硬件成本暴增,傳統(tǒng)算法研發(fā)成本居高不下(不過數(shù)據(jù)集的成本正在顯著下降,自監(jiān)督越來越多),但部署成本遠(yuǎn)低于端到端,對于出貨量小的企業(yè)而言,分?jǐn)偟矫枯v車上的研發(fā)成本可能比硬件成本還高,端到端幾乎是唯一選擇,而對出貨量大的企業(yè)來說,兩者皆可選,大部分廠家還是選擇傳統(tǒng)算法。

免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。

華為

華為

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務(wù)遍及170多個國家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構(gòu)建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂、運(yùn)動健康等全場景獲得極致的個性化智慧體驗(yàn)。

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務(wù)遍及170多個國家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構(gòu)建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂、運(yùn)動健康等全場景獲得極致的個性化智慧體驗(yàn)。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。