加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 基于傳統(tǒng)視覺(jué)智能駕駛算法的問(wèn)題
    • 那為什么特斯拉不用激光雷達(dá)?
    • 國(guó)內(nèi)哪些廠商采用了BEV和Occupancy networks?
    • 總結(jié)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

智能駕駛-城市領(lǐng)航輔助必備的BEV以及Occupancy networks

2023/06/05
2375
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

最近馬斯克到訪(fǎng)國(guó)內(nèi),接待規(guī)格可謂不一般,其中到訪(fǎng)了工信部討論了“新能源汽車(chē)智能網(wǎng)聯(lián)汽車(chē)的發(fā)展”,這個(gè)信息,很多人猜測(cè)是為特斯拉的FSD落地國(guó)內(nèi)進(jìn)行鋪路,國(guó)內(nèi)也歡迎FSD智能駕駛鯰魚(yú)效應(yīng),激活市場(chǎng)熱情,助力國(guó)內(nèi)智能駕駛的發(fā)展。

談起智能駕駛,在Waymo和通用super cruise以及國(guó)內(nèi)V2X風(fēng)潮的帶領(lǐng)下,國(guó)內(nèi)智能駕駛開(kāi)始選擇的路徑就是這條復(fù)雜但是更容易落地的高精地圖+視覺(jué)識(shí)別的路線(xiàn)。但是,隨著整車(chē)成本的壓力,高精地圖維護(hù)成本以及政策的問(wèn)題,這條路線(xiàn)走到城市領(lǐng)航輔助就卡住了。

而特斯拉自始自終選擇的是基于視覺(jué)的單車(chē)智能方案,他背后的邏輯是大數(shù)據(jù)+AI算法的方式,并且不斷迭代算法,目前的算法是基于AI transformer的BEV(Bird-Eye-View Networks)以及occupancy networks,也是我之前文章《2023上海國(guó)際車(chē)展-智能電動(dòng)4點(diǎn)觀察》講到國(guó)內(nèi)各家走向趨同的路線(xiàn)。

所以本文將參考相關(guān)文章,極簡(jiǎn)的介紹下智能駕駛BEV(Bird-Eye-View Networks)以及occupancy networks算法和方案,以及國(guó)內(nèi)各家的現(xiàn)狀。

基于傳統(tǒng)視覺(jué)智能駕駛算法的問(wèn)題

智能駕駛?cè)缥抑拔恼隆兑曈X(jué)為王-小鵬以及特斯拉的自動(dòng)駕駛方案》介紹是當(dāng)前智能駕駛依賴(lài)得主流,但是基于攝像頭視覺(jué)的系統(tǒng)有很多缺陷,而且還有很多由于對(duì)象檢測(cè)失敗或其他問(wèn)題引起的崩潰,這個(gè)在我之前文章《智能駕駛要用多少個(gè)激光雷達(dá)?分別放在哪里?什么作用?》也分析過(guò)。

一般攝像頭算法是看到物體,然后匹配自己數(shù)據(jù)庫(kù)里面標(biāo)記的物體,但是如果攝像頭看到不屬于數(shù)據(jù)集中已經(jīng)標(biāo)定的對(duì)象,也就是遇到不認(rèn)識(shí)的東西怎么辦?所以這就是造成各種事故的根本原因。

另外在現(xiàn)實(shí)中,傳統(tǒng)視覺(jué)算法:

    視覺(jué)的深度信息非常的不一致無(wú)法穿過(guò)前面的障礙我圖像一般都是2D的但是真實(shí)的世界是3D無(wú)法識(shí)別懸空的障礙物可能存在本體的裂紋,將物體局部誤識(shí)別。

但在基于 LiDAR 激光雷達(dá)傳感器系統(tǒng)中,由于激光雷達(dá)主動(dòng)收發(fā)光所以他可以從物理上確定障礙物是否存在,確定了障礙物就可以保障不碰撞的安全。

那為什么特斯拉不用激光雷達(dá)?

激光雷達(dá)能夠?qū)崿F(xiàn)各種環(huán)境下的三維感知和定位功能,激光雷達(dá)通過(guò)發(fā)射激光束并創(chuàng)建點(diǎn)云地圖來(lái)測(cè)量汽車(chē)與其周?chē)h(huán)境之間的距離;該地圖與攝像頭視覺(jué)相結(jié)合,使車(chē)輛能夠更準(zhǔn)確地識(shí)別和理解其附近物體之間的空間關(guān)系;另外配合非常精確的高清 (HD) 地圖來(lái)補(bǔ)充其車(chē)輛的感知系統(tǒng),可以讓汽車(chē)精確確定其位置和前方道路的布局。然而,這項(xiàng)技術(shù)的缺點(diǎn),在2022年國(guó)內(nèi)汽車(chē)市場(chǎng)成本壓力和高精地圖需要定期更新的挑戰(zhàn)下體現(xiàn)得淋漓盡致。

其實(shí)馬斯克的另一家公司 Space X 在激光雷達(dá)方面擁有豐富的知識(shí)和經(jīng)驗(yàn),他們甚至開(kāi)發(fā)了自己的激光雷達(dá)并將其用于火箭。

所以特斯拉基于成本,更少約束和復(fù)雜度等原因的考慮下使用了基于視覺(jué)的occupancy networks占用神經(jīng)網(wǎng)絡(luò)算法。

Occupancy networks

占用網(wǎng)絡(luò)是一種不同的算法,基于稱(chēng)為占用網(wǎng)格映射的機(jī)器人思想;其中包括將世界劃分為一個(gè)網(wǎng)格單元,然后定義哪個(gè)單元格被占用,哪個(gè)單元格空閑。

占用網(wǎng)絡(luò)的想法是獲得體積占用。這意味著它是 3D 的。它使用“占用”而不是檢測(cè)對(duì)比識(shí)別。而且是多視圖。所以這就是它的樣子:

他沒(méi)有確切的去識(shí)別物體形狀,而是給出一個(gè)近似值。同時(shí)他還可以在靜態(tài)和動(dòng)態(tài)對(duì)象之間進(jìn)行預(yù)測(cè)。它的運(yùn)行速度超過(guò) 100 FPS(一般相機(jī)的FPS是30也就是一秒鐘拍攝30幅照片,所以它比相機(jī)所能產(chǎn)生的速度高出 3 倍),能達(dá)到10ms的運(yùn)算能力,所以此算法對(duì)內(nèi)存效率的要求比較高。

這個(gè)算法的三個(gè)核心是:BEV鳥(niǎo)瞰圖;構(gòu)建固定的立方體,也就是對(duì)環(huán)境進(jìn)行立體網(wǎng)格仿真;物體檢測(cè)。

BEV是Andrej Karpathy在 Tesla AI Day 2020 上先介紹的,該算法展示了如何將檢測(cè)到的物體、可行駛空間和其他物體放入 2D 鳥(niǎo)瞰圖中。

    注意到主要區(qū)別了嗎?一個(gè)是2D,另一個(gè)是3D。這給算法帶來(lái)了第二個(gè)改進(jìn):

    構(gòu)建固定的立方體,一般的視覺(jué)算法是,嘗試將檢測(cè)到的物體與原有標(biāo)定的數(shù)據(jù)聯(lián)系,如果看到一輛卡車(chē),將放置一個(gè) 7x3 的矩形,如果您看到一個(gè)行人,您將在您的占用網(wǎng)格中使用一個(gè) 1x1 的矩形。問(wèn)題是,您無(wú)法預(yù)測(cè)各種非標(biāo)準(zhǔn)的懸垂類(lèi)障礙物。

     

    那怎么辦?特斯拉occupancy networks采取的方式是:

      • 將世界劃分為微?。ɑ虺⑿。┑牧⒎襟w或體素預(yù)測(cè)每個(gè)體素是空閑 還是 被占用

     

    所以特斯拉occupancy networks算法,不去將識(shí)別物體分配到矩形中,而是去判斷小立方里面是不是被占用。

    那么特斯拉如何檢測(cè)物體呢?視覺(jué)物體識(shí)別存在先天性的問(wèn)題,它只能檢測(cè)到他標(biāo)定數(shù)據(jù)庫(kù)里面被標(biāo)定好的東西,通俗一點(diǎn)是他只能識(shí)別他認(rèn)識(shí)(數(shù)據(jù)庫(kù)里面標(biāo)注過(guò))的東西。

    如果他看到他沒(méi)有看過(guò)的東西,這就意味著他什么也沒(méi)看到。

    例如上圖視覺(jué)算法由于不認(rèn)識(shí)那個(gè)車(chē)廂,所以他壓根就不顯示,就表示沒(méi)有看到。

    所以特斯拉采取整套方案是:

      攝像頭周邊視頻采集-特斯拉的攝像頭,總共 8 個(gè):正面、側(cè)面、背面等形成周視的攝像頭信息。首先,它們被發(fā)送到由Regnets和BiFPNs組成的骨干網(wǎng),然后,注意力模塊采用位置圖像編碼并使用鍵、值和固定查詢(xún)(汽車(chē)與非汽車(chē)、公共汽車(chē)與非公共汽車(chē)、交通標(biāo)志與非交通標(biāo)志)來(lái)生成占用特征量。這會(huì)產(chǎn)生一個(gè)占用特征體積,然后將其與之前的體積(t-1、t-2 等)融合,以獲得4D 占用網(wǎng)格。最后,使用反卷積來(lái)檢索原始大小并獲得兩個(gè)輸出:Occupancy Volume和Occupancy Flow。

    Occupancy Volume和Occupancy Flow就分別解決了3D世界中,長(zhǎng)寬高以及時(shí)間的維度。

    關(guān)于時(shí)間,特斯拉在這里實(shí)際做的是預(yù)測(cè)光流。在計(jì)算機(jī)視覺(jué)中,光流是像素從一幀移動(dòng)到另一幀的量,有了每個(gè)體素的流動(dòng),因此有每輛車(chē)的運(yùn)動(dòng);這對(duì)于遮擋非常有幫助,但對(duì)于預(yù)測(cè)、規(guī)劃等其他問(wèn)題也非常有用……

    Occupancy Flow 實(shí)際上顯示了每個(gè)對(duì)象的方向:紅色:向前 - 藍(lán)色:向后 - 灰色:靜止等......(我們實(shí)際上有一個(gè)色輪代表每個(gè)可能的方向)。

    以上就構(gòu)成了特斯拉的Occupancy networks。

    國(guó)內(nèi)哪些廠商采用了BEV和Occupancy networks?

    小鵬汽車(chē),應(yīng)該是最早喊出進(jìn)軍城區(qū)領(lǐng)航輔助的,最早使用激光雷達(dá)加30tops算力的P5應(yīng)該是采用高精地圖方案;到了今年G9上的XNGP,應(yīng)該是開(kāi)始了BEV算法。

    上海車(chē)展期間

      華為余承東介紹表示華為ADS 1.0 已實(shí)現(xiàn)基于 Transformer 的 BEV 架構(gòu),而 ADS 2.0 進(jìn)一步升級(jí) GOD 網(wǎng)絡(luò),道路拓?fù)渫评砭W(wǎng)絡(luò)進(jìn)一步增強(qiáng),類(lèi)似于特斯拉的占用網(wǎng)絡(luò)算法(Occupancy Networks),即使無(wú)高精地圖也能看懂路,以及紅綠燈等各種道路元素。理想發(fā)布了 AD Max 3.0。理想汽車(chē)自動(dòng)駕駛副總裁郎咸朋表示理想城市 NOA 背后采用的大模型算法:靜態(tài) BEV 網(wǎng)絡(luò)算法,動(dòng)態(tài) BEV 網(wǎng)絡(luò)算法以及 Occupancy 網(wǎng)絡(luò)算法,并使用 NeRF 技術(shù)增強(qiáng) Occupancy 網(wǎng)絡(luò)算法使之實(shí)現(xiàn)更高的精度和細(xì)節(jié)蔚來(lái)透露,今年6月開(kāi)啟內(nèi)測(cè)基于?BEV?的算法,毫末智行即將在 2023 年第三季度實(shí)現(xiàn)城市 NOH 功能,預(yù)計(jì)2024年上半年落地。Momenta提供方案的智己也表示預(yù)計(jì)2023年年內(nèi)開(kāi)啟城市領(lǐng)航輔助的公測(cè)。

    所以BEV算法是2023年各個(gè)智能駕駛公司進(jìn)軍無(wú)高精地圖城市領(lǐng)航輔助的發(fā)力重點(diǎn),至于Occupancy networks,雖然很多人提到了,但國(guó)內(nèi)智能駕駛公司估計(jì)BEV都還沒(méi)有玩通,結(jié)果就被推著走向了Occupancy networks。高速領(lǐng)航輔助的時(shí)候基本上傳統(tǒng)的攝像頭識(shí)別加高精地圖就能跑通,高配一點(diǎn)的可以配上激光雷達(dá)進(jìn)行安全冗余;但是卷向城區(qū),高精地圖是個(gè)大問(wèn)題,所以必須最少需要BEV算法作為環(huán)境地圖的模擬,至于占位檢測(cè)到底是通過(guò)視覺(jué)算法,還是激光雷達(dá)來(lái)做占位檢測(cè),不得而知

    那么Occupancy networks難點(diǎn)在哪里?我曾經(jīng)聽(tīng)到過(guò)一個(gè)算法工程師表示,Occupancy networks等類(lèi)似AI算法到github上隨意download,可以獲取非常多的算法,基本一兩個(gè)算法工程師搗鼓幾天就能搞出雛形。所以算法demo從來(lái)都不是難點(diǎn),但Occupancy networks對(duì)高速內(nèi)存以及環(huán)境方塊化構(gòu)建算力的要求,確是需要著重考慮。最后更重要的是數(shù)據(jù)訓(xùn)練集的大小。所以難的還是是整車(chē)或者功能的集成,算法的算力成本,算法運(yùn)行環(huán)境等等,這也就是為什么智能駕駛創(chuàng)業(yè)demo的很多,能落地量產(chǎn)的才是王道。

    總結(jié)

    智能駕駛?cè)绻?dāng)他是一個(gè)Bussiness來(lái)看,基礎(chǔ)的安全和駕駛便利性可以做成一個(gè)方案,實(shí)現(xiàn)高速領(lǐng)航也是一個(gè)方案,也就是我們常說(shuō)指定ODD的智能駕駛有很多種方案,但是到了全場(chǎng)景的智能駕駛或許真的只有馬斯克的類(lèi)似于ChatGPT(ChatGPT以及其對(duì)汽車(chē)有什么影響?)大數(shù)據(jù)大模型的AI算法實(shí)現(xiàn)。

    *未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取參考資料方式:

    A Look at Tesla's Occupancy Networks -?thinkautonomous

    Tesla Full Self-Driving Technical Deep Dive-?Ian?Greer

    EfficientDet: Scalable and Efficient Object Detection -?Mingxing Tan Ruoming Pang Quoc V. Le
    Google Research, Brain Team

    NeRF: Neural Radiance Field in 3D Vision,
    Introduction and Review -?Kyle (Yilin) Gao, Graduate Student Member, IEEE, Yina Gao, Hongjie He, Dening Lu, Linlin
    Xu, Member, IEEE, Jonathan Li, Fellow, IEEE

    Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction -?Yuanhui Huang1,2,* Wenzhao Zheng1,2,* Yunpeng Zhang3
    Jie Zhou1,2
    Jiwen Lu1,2,?
    1Beijing National Research Center for Information Science and Technology, China
    2Department of Automation, Tsinghua University, China 3PhiGent Robotics

    加入我們的知識(shí)星球Vehicle 可以下載公眾號(hào)海量參考資料包含以上參考資料。

    相關(guān)推薦

    電子產(chǎn)業(yè)圖譜