上圖為有人拍到一輛搭載Luminar激光雷達(dá)的特斯拉Model Y,一般自動(dòng)駕駛公司會(huì)用林肯MKZ混動(dòng)改裝做原型車,因?yàn)橛蠥utonomouStuff公司專業(yè)改裝線控車輛,顯然這是特斯拉自己用的,這當(dāng)然不是特斯拉要上激光雷達(dá)了,這是做數(shù)據(jù)采集的,激光雷達(dá)產(chǎn)生真值即Ground Truth,沒有激光雷達(dá)就沒有真值。
目前深度學(xué)習(xí)簡(jiǎn)單分為兩種,一種是強(qiáng)監(jiān)督學(xué)習(xí),主要用做識(shí)別,即采集數(shù)據(jù),標(biāo)注數(shù)據(jù),訓(xùn)練獲得權(quán)重模型,然后再推理時(shí)導(dǎo)入權(quán)重模型,對(duì)目標(biāo)識(shí)別分類。還有一類是還停留在學(xué)術(shù)研究的概念階段,即端到端的深度學(xué)習(xí),也有叫無監(jiān)督學(xué)習(xí)。2018年以前豐田和英偉達(dá)在這個(gè)領(lǐng)域研究頗多,目前幾乎完全看不到。
圖片來源:互聯(lián)網(wǎng)
上圖英偉達(dá)2016年的端到端深度學(xué)習(xí)無人駕駛框架,只有一個(gè)輸入,就是方向盤轉(zhuǎn)角,這種方法有明顯缺點(diǎn),首先,這是個(gè)徹底的黑盒子,也就是沒有可解釋性,沒有可解釋性就意味無法迭代,因?yàn)槟悴恢罏槭裁催@個(gè)場(chǎng)景下表現(xiàn)好,那個(gè)場(chǎng)景下表現(xiàn)不好。無法迭代意味著跑多少公里,安全性舒適性都不會(huì)有提升。其次,沒有真值,所謂真值就是標(biāo)準(zhǔn)答案,對(duì)這種端到端的方式來說,真值就是不出錯(cuò)的駕駛,而人類駕駛員是不可能做到不出錯(cuò)。英偉達(dá)當(dāng)時(shí)也只是淺嘗輒止,人類駕駛行為,包括速度和轉(zhuǎn)向角,單一個(gè)轉(zhuǎn)向角根本不夠。
物體識(shí)別的強(qiáng)監(jiān)督學(xué)習(xí)勉強(qiáng)可看做灰盒子,數(shù)據(jù)覆蓋面越廣,識(shí)別的類型就可能越多,而端到端是徹底的黑盒子,它知其然,不知其所以然,它只是概率預(yù)測(cè)(深度學(xué)習(xí)里最重要的置信度)。
無論是強(qiáng)監(jiān)督學(xué)習(xí)還是端到端的深度學(xué)習(xí),特斯拉或者說任何一家沒有真值生成的車輛無論跑多少億公里,都不會(huì)對(duì)感知能力或智能駕駛能力有絲毫提升。 智能駕駛中目標(biāo)分類或者說識(shí)別是深度學(xué)習(xí)的主要應(yīng)用領(lǐng)域,但智能駕駛中,傳感器不僅要識(shí)別目標(biāo),還要探測(cè)目標(biāo)的邊框或者叫Bounding Box。
自動(dòng)駕駛則需要更高級(jí)的3D目標(biāo)檢測(cè),3D目標(biāo)檢測(cè)需要同時(shí)實(shí)現(xiàn)目標(biāo)定位和目標(biāo)識(shí)別兩項(xiàng)任務(wù)。其中,通過比較預(yù)測(cè)邊框和Ground Truth邊框的重疊程度(Intersection over Union,IoU)和閾值(e.g. 0.5)的大小判定目標(biāo)定位的正確性;通過置信度分?jǐn)?shù)和閾值的比較確定目標(biāo)識(shí)別的正確性。
如果僅僅是識(shí)別目標(biāo),那么真值就是正確的標(biāo)注(Label或Annotation),這個(gè)標(biāo)注只是判斷目標(biāo)是哪一類物體,無論是L2還是L4,單純識(shí)別目標(biāo)毫無價(jià)值,都需要進(jìn)一步探測(cè)目標(biāo)信息,比如目標(biāo)與自車的距離。這就需要激光雷達(dá)的真值,只有激光雷達(dá)的物理測(cè)量法才能做真值,才能做標(biāo)準(zhǔn)答案。沒有激光雷達(dá),自然就沒有真值,這樣的數(shù)據(jù)對(duì)L2或L4都沒有多少價(jià)值。
三位年輕俊才,2008年就開始研究自動(dòng)駕駛數(shù)據(jù)集
圖片來源:互聯(lián)網(wǎng)
如何構(gòu)建一個(gè)智能駕駛數(shù)據(jù)集,我們以全球最權(quán)威的KITTI為例,KITTI數(shù)據(jù)集由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦,是目前全球公認(rèn)的自動(dòng)駕駛領(lǐng)域最權(quán)威的測(cè)試數(shù)據(jù)集,也是最早的。盡管已經(jīng)過去10年,但眾多智能駕駛算法公司評(píng)估算法優(yōu)劣無一例外都是在KITTI上打榜。
該數(shù)據(jù)集用于評(píng)測(cè)立體圖像(stereo),光流(optical flow),視覺測(cè)距(visual odometry),3D物體檢測(cè)(object detection)和3D跟蹤(tracking)等計(jì)算機(jī)視覺技術(shù)在車載環(huán)境下的性能。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),每張圖像中最多達(dá)15輛車和30個(gè)行人,還有各種程度的遮擋與截?cái)唷?/p>
整個(gè)數(shù)據(jù)集由389對(duì)立體圖像和光流圖,39.2 km視覺測(cè)距序列以及超過200k 3D標(biāo)注物體的圖像組成 ,以10Hz的頻率采樣及同步。總體上看,原始數(shù)據(jù)集被分類為‘Road’、‘City’、‘Residential’、‘Campus’和 ‘Person’。對(duì)于3D物體檢測(cè),label細(xì)分為car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。采集車的雙目攝像頭基線長(zhǎng)54厘米,車載電腦為英特爾至強(qiáng)的X5650 CPU,RAID5 4TB硬盤。采集時(shí)間是2011年的9月底和10月初,總共大約5天。主要內(nèi)容如下:
下圖為Kitti的數(shù)據(jù)采集車。
圖片來源:互聯(lián)網(wǎng)
主要傳感器型號(hào)如下表:
OXTS,即Oxford TechnicalSolutions,脫胎自牛津大學(xué),成立自1998年。RT 3003傳感器就是一個(gè)中級(jí)慣性傳感器,記錄一個(gè)完整的三維運(yùn)動(dòng)和動(dòng)力學(xué)輪廓與GNSS +慣性傳感器融合。提供平滑、健壯和可重復(fù)的實(shí)時(shí)輸出,具有低延遲。完全集成的高檔MEMS IMU和RTK能力的GNSS接收器記錄了一個(gè)全面的測(cè)量列表,包括位置、速度、加速度和方位。集成6 軸導(dǎo)彈級(jí)MEMS IMU,100 Hz刷新頻率, L1/L2 RTK 精度:0.02m / 0.1? 即使GPS信號(hào)丟失,RT仍然能通過內(nèi)部的慣性傳感器來繼續(xù)輸出數(shù)據(jù)??梢酝ㄟ^輪速計(jì)等裝置,校正位置漂移,在2分鐘正常行駛的條件下,位置誤差不會(huì)大于5米。內(nèi)部的ADC轉(zhuǎn)換,20bit分辨率,加速度測(cè)量的分辨率是0.12mm/s2(12 μg)。ADC轉(zhuǎn)換模擬量輸入,采用圓錐/劃船(coning/sculling)運(yùn)動(dòng)補(bǔ)償算法來避免信號(hào)的混淆。價(jià)格據(jù)說接近百萬人民幣(僅供參考,任何直接或間接引用與本文無關(guān)),目前有第三代RT3003和更高級(jí)的RT4000,頻率為250Hz。國(guó)內(nèi)為降低成本,采用分體,即將GNSS和IMU分離,典型的如百度的NovAtel SPAN ProPak6 GNSS接收機(jī) 和 NovAtel IMU-IGM-A1。天線一般是GPS NovAtelGPS-703-GGG-HV。順便說一句,這需要杠桿臂測(cè)量做標(biāo)定,偏移量誤差在1厘米之內(nèi)。這一套參考價(jià)格大約25萬人民幣(僅供參考,任何直接或間接引用與本文無關(guān))。
圖片來源:互聯(lián)網(wǎng)
上表為相機(jī)參數(shù),現(xiàn)在最少都是400萬像素起,有些是800萬像素。激光雷達(dá)是64線激光雷達(dá),想必大家已經(jīng)很熟悉了,無需介紹了。
圖片來源:互聯(lián)網(wǎng)
什么需要這么多傳感器和IMU?
Kitti的數(shù)據(jù)集格式
圖片來源:互聯(lián)網(wǎng)
標(biāo)注文件的readme.txt文件
圖片來源:互聯(lián)網(wǎng)
該文件存儲(chǔ)于object development kit (1 MB)文件中,readme詳細(xì)介紹了子數(shù)據(jù)集的樣本容量,label類別數(shù)目,文件組織格式,標(biāo)注格式,評(píng)價(jià)方式等內(nèi)容。從中我們可以看出IMU主要是為了保證數(shù)據(jù)的時(shí)間戳一致,建立統(tǒng)一的坐標(biāo)系,包括全部坐標(biāo)系和局部坐標(biāo)系。高精尖傳感器是為了提供參考數(shù)值,即Ground Truth。
圖片來源:互聯(lián)網(wǎng)
上圖是通用汽車自動(dòng)駕駛研發(fā)小組在2017年開發(fā)的自動(dòng)真值生成系統(tǒng)即AGT,順便說一下這個(gè)研發(fā)小組主要活動(dòng)在以色列,如今應(yīng)該并入Cruise了。上圖才是真正的數(shù)據(jù)驅(qū)動(dòng)型智能駕駛。
圖片來源:互聯(lián)網(wǎng)
通用的數(shù)據(jù)采集車以及與KITTI的對(duì)比,這個(gè)將64線激光雷達(dá)放在車頭,顯然有點(diǎn)危險(xiǎn),萬一追尾,幾十萬美元就沒了。
車輛位姿預(yù)測(cè)離不開高精度IMU。
圖片來源:互聯(lián)網(wǎng)
光流的真值對(duì)比,最糟糕的情況下,誤差近60%。
圖片來源:互聯(lián)網(wǎng)
圖片來源:互聯(lián)網(wǎng)
更不要說專業(yè)的數(shù)據(jù)采集系統(tǒng)需要百萬元級(jí)人民幣硬件,以及更為昂貴的數(shù)據(jù)采集軟件系統(tǒng)。
在目前的深度學(xué)習(xí)方法中,參數(shù)的調(diào)節(jié)方法依然是一門“藝術(shù)”,而非“科學(xué)”。深度學(xué)習(xí)方法深刻地轉(zhuǎn)變了人類幾乎所有學(xué)科的研究方法。以前學(xué)者們所采用的觀察現(xiàn)象、提煉規(guī)律、數(shù)學(xué)建模、模擬解析、實(shí)驗(yàn)檢驗(yàn)、修正模型的研究套路被徹底顛覆,被數(shù)據(jù)科學(xué)的方法所取代:收集數(shù)據(jù)、訓(xùn)練網(wǎng)絡(luò)、實(shí)驗(yàn)檢驗(yàn)、加強(qiáng)訓(xùn)練。這也使得算力需求越來越高。機(jī)械定理證明驗(yàn)證了命題的真?zhèn)?,但是無法明確地提出新的概念和方法,實(shí)質(zhì)上背離了數(shù)學(xué)的真正目的。這是一種“相關(guān)性”而非“因果性”的科學(xué)。
人類的智慧來自好奇心也就是發(fā)現(xiàn)問題,這是機(jī)器永遠(yuǎn)無法做到的,因?yàn)樗肋h(yuǎn)不可能有好奇心,所謂人工智能永遠(yuǎn)只能停留在二次元空間。