近年來(lái),數(shù)據(jù)閉環(huán)成了自動(dòng)駕駛行業(yè)的一個(gè)熱門話題,很多自動(dòng)駕駛公司都在試圖打造自己的數(shù)據(jù)閉環(huán)系統(tǒng)。數(shù)據(jù)對(duì)于目前的自動(dòng)駕駛來(lái)說(shuō)有多重要早已不是什么新鮮話題,作為人工智能在工程落地上最有前景的領(lǐng)域之一,擁有著更多、質(zhì)量更高的數(shù)據(jù)無(wú)疑可以讓智能駕駛的系統(tǒng)更加先進(jìn)。與此同時(shí),如何利用好現(xiàn)有的數(shù)據(jù),從海量數(shù)據(jù)中能夠真正學(xué)習(xí)到人類駕駛的行為策略,將有助于算法的進(jìn)一步更新迭代。而這所有的一切,都離不開(kāi)數(shù)據(jù)閉環(huán),這也是當(dāng)前自動(dòng)駕駛公司為之努力的一大方向。
何為數(shù)據(jù)閉環(huán)?
事實(shí)上,數(shù)據(jù)閉環(huán)已經(jīng)被大多數(shù)自動(dòng)駕駛公司認(rèn)為是提升自動(dòng)駕駛能力的必經(jīng)之路。以特斯拉為例,配置了自動(dòng)駕駛硬件的車隊(duì)采集通過(guò)規(guī)則及影子模式下的觸發(fā)器篩選的數(shù)據(jù),經(jīng)過(guò)語(yǔ)義篩選后的數(shù)據(jù)被回傳到云端。此后,工程師在云端用工具對(duì)數(shù)據(jù)做一些處理,再把處理好的數(shù)據(jù)放入數(shù)據(jù)集群,然后利用這些有效數(shù)據(jù)訓(xùn)練模型。模型訓(xùn)練好之后,工程師會(huì)把訓(xùn)練好的模型部署回車端做一系列的指標(biāo)檢測(cè),經(jīng)過(guò)驗(yàn)證的新模型會(huì)被部署到車端供駕駛員使用。在這種模型下,會(huì)有新的數(shù)據(jù)源源不斷被觸發(fā)回傳,從而形成循環(huán)。此時(shí),一個(gè)完整的由數(shù)據(jù)驅(qū)動(dòng)的迭代開(kāi)發(fā)循環(huán)便形成了。
與傳統(tǒng)軟件的迭代優(yōu)化不同,自動(dòng)駕駛系統(tǒng)的研發(fā)與優(yōu)化除代碼以外,還有更為關(guān)鍵的AI模型。代碼端的問(wèn)題可以通過(guò)傳統(tǒng)的數(shù)據(jù)閉環(huán)方式予以解決,但模型端的調(diào)整則需要重新訓(xùn)練或優(yōu)化AI算法模型。因此,自動(dòng)駕駛數(shù)據(jù)閉環(huán)需要在傳統(tǒng)數(shù)據(jù)閉環(huán)方式上,引入一些新東西:就是數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注以及數(shù)據(jù)訓(xùn)練。支持自動(dòng)駕駛數(shù)據(jù)閉環(huán)實(shí)現(xiàn)周而復(fù)始、不斷向前的關(guān)鍵,也是新場(chǎng)景數(shù)據(jù)的不斷投喂。只有讓模型認(rèn)識(shí)了足夠多的場(chǎng)景,才能獲得泛化性較高的智能軟件。
利用數(shù)據(jù)閉環(huán)打造智能系統(tǒng)
現(xiàn)實(shí)駕駛場(chǎng)景難以窮盡,極其復(fù)雜且不可預(yù)測(cè),需要AI模型快速迭代升級(jí)。實(shí)現(xiàn)自動(dòng)駕駛數(shù)據(jù)閉環(huán)的快速循環(huán)迭代,以滿足新場(chǎng)景模型適配問(wèn)題,同時(shí)也需要各“長(zhǎng)尾場(chǎng)景”數(shù)據(jù)的高效流轉(zhuǎn)。
模型訓(xùn)練方面,目前AI算法模型已階段性基本成熟。在實(shí)際應(yīng)用時(shí),不同場(chǎng)景需要解決的問(wèn)題不盡相同。這并非算法模型的問(wèn)題,而是場(chǎng)景適配度的問(wèn)題。自動(dòng)駕駛AI模型后續(xù)調(diào)優(yōu)主要以數(shù)據(jù)迭代為主,需要投喂海量新場(chǎng)景數(shù)據(jù)。
數(shù)據(jù)采集方面,依靠遍布車身的各類傳感器,車輛每小時(shí)采集的數(shù)據(jù)量可達(dá)數(shù)TB之多。然而采集得到數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),這些未經(jīng)處理的數(shù)據(jù)并不能直接用于模型訓(xùn)練,標(biāo)注后才能產(chǎn)生使用價(jià)值。
橫亙?cè)跀?shù)據(jù)與模型訓(xùn)練之間的首要問(wèn)題是如何高效處理海量數(shù)據(jù)集,真實(shí)數(shù)據(jù)規(guī)模已然成為智能駕駛行業(yè)的“命脈”。然而與指數(shù)型增長(zhǎng)的數(shù)據(jù)服務(wù)需求相比,無(wú)論數(shù)據(jù)處理效率亦或是數(shù)據(jù)產(chǎn)出質(zhì)量均難以滿足市場(chǎng)需求。
產(chǎn)能方面,大部分?jǐn)?shù)據(jù)服務(wù)商業(yè)務(wù)規(guī)模、執(zhí)行效率與項(xiàng)目經(jīng)理能力高度綁定,產(chǎn)能瓶頸問(wèn)題凸顯;數(shù)據(jù)產(chǎn)出質(zhì)量方面,以點(diǎn)云數(shù)據(jù)為代表的數(shù)據(jù)處理需求占比逐漸擴(kuò)大,傳統(tǒng)依靠簡(jiǎn)單工具和依賴人力的業(yè)務(wù)執(zhí)行方式,也早已無(wú)法滿足垂直市場(chǎng)的需求。
自動(dòng)駕駛實(shí)現(xiàn)規(guī)?;慨a(chǎn),數(shù)據(jù)服務(wù)領(lǐng)域能否率先實(shí)現(xiàn)突破,助力于數(shù)據(jù)閉環(huán)的最終形成將成為關(guān)鍵。
難度重重,數(shù)據(jù)驅(qū)動(dòng)面臨多重挑戰(zhàn)
雖然業(yè)界已經(jīng)公認(rèn)數(shù)據(jù)驅(qū)動(dòng)將是自動(dòng)駕駛的未來(lái)趨勢(shì)與方向,但想要真正落地?cái)?shù)據(jù)驅(qū)動(dòng)模型也面臨著諸多的挑戰(zhàn)。
首先,便是數(shù)據(jù)的合規(guī)性問(wèn)題。采集的數(shù)據(jù)是否符合國(guó)家規(guī)定,是否侵犯了用戶的隱私等等都是自動(dòng)駕駛公司在采集數(shù)據(jù)時(shí)需要考慮的難題。拿高精地圖為例,在道路上采集數(shù)據(jù)的時(shí)候,企業(yè)需要具備國(guó)家測(cè)繪資質(zhì),并且要做相應(yīng)的備案,否則采集過(guò)程中會(huì)被國(guó)安等部門阻止。目前,國(guó)內(nèi)總共有約30家機(jī)構(gòu)具備相關(guān)資質(zhì),有的企業(yè)具備國(guó)家電子導(dǎo)航甲級(jí)資質(zhì),適用范圍較廣,在國(guó)內(nèi)多個(gè)城市都可以采集,而有的企業(yè)具備乙級(jí)資質(zhì),適用范圍就會(huì)更小,只能在特定的城市采集。與此同時(shí),測(cè)繪的數(shù)據(jù)不得泄漏,尤其是不得將數(shù)據(jù)挪到國(guó)外,非中國(guó)國(guó)籍的人既不能獲取測(cè)繪數(shù)據(jù),也不能在公司內(nèi)操作測(cè)繪數(shù)據(jù)。這樣一來(lái),無(wú)疑給需要大規(guī)模采集數(shù)據(jù)的自動(dòng)駕駛公司戴上了緊箍咒,無(wú)法施展拳腳。
其次,數(shù)據(jù)的所有權(quán)歸屬問(wèn)題。按照中國(guó)的《個(gè)人信息保護(hù)法》相關(guān)規(guī)定,非法律允許的數(shù)據(jù)采集受到隱私保護(hù)。在德國(guó),原德國(guó)聯(lián)邦信息保護(hù)局有這樣的規(guī)定,如果司機(jī)不是受害者,未經(jīng)對(duì)方同意就記錄其他司機(jī)的臉和車輛,是違反個(gè)人信息保護(hù)法的。也就是說(shuō),即使是車主記錄別人信息也可能屬于違法。但由于和新能源車伴生的自動(dòng)駕駛行業(yè)很新,法律規(guī)定目前尚屬空缺,所以我們按照基本法學(xué)理念推導(dǎo),量產(chǎn)車采集的數(shù)據(jù)應(yīng)該由車主所有。目前,主機(jī)廠很少對(duì)外開(kāi)放數(shù)據(jù),導(dǎo)致自動(dòng)駕駛Tier1在幫助主機(jī)廠實(shí)現(xiàn)了主機(jī)廠定制的功能后,很難收集到用戶在使用這些功能時(shí)的反饋數(shù)據(jù),除非Tier1自己有很多測(cè)試車。那么,自動(dòng)駕駛Tier1就難以根據(jù)用戶反饋的數(shù)據(jù)對(duì)相關(guān)功能做后續(xù)的優(yōu)化,數(shù)據(jù)閉環(huán)就難以實(shí)現(xiàn)。
最后,采集海量數(shù)據(jù)的標(biāo)注與后處理也是自動(dòng)駕駛公司們遇到的極大挑戰(zhàn)。據(jù)估計(jì),從量產(chǎn)車回傳數(shù)據(jù)后,單車每日回傳的數(shù)據(jù)量大概為百兆級(jí)。研發(fā)階段,車輛總數(shù)可能只有幾十輛或者幾百輛。但是到了量產(chǎn)階段,車輛數(shù)目的量級(jí)可以達(dá)到上萬(wàn)、幾十萬(wàn)甚至更多。那么,量產(chǎn)階段,整個(gè)車隊(duì)日產(chǎn)生的數(shù)據(jù)量就是很大的數(shù)字。急劇增加的數(shù)據(jù)量給存儲(chǔ)空間以及數(shù)據(jù)處理的速度都帶來(lái)了挑戰(zhàn)。量產(chǎn)之后,數(shù)據(jù)處理的延遲需要和研發(fā)階段保持在同一個(gè)量級(jí)。但如果底層的基礎(chǔ)設(shè)施跟不上,數(shù)據(jù)處理的延遲就會(huì)隨著數(shù)據(jù)量的增長(zhǎng)而相應(yīng)地增加,這樣會(huì)極大地拖慢研發(fā)流程的進(jìn)度。對(duì)于系統(tǒng)迭代來(lái)講,這種效率的降低是不可接受的。
總結(jié)
雖然在打造數(shù)據(jù)閉環(huán)之路上,自動(dòng)駕駛公司們?cè)庥隽硕嘀氐奶魬?zhàn)與困難,但無(wú)論誰(shuí)都不可否認(rèn),這就是通向高階自動(dòng)駕駛的必經(jīng)之路。并且在現(xiàn)階段,已經(jīng)有特斯拉這樣的車企的成功,證明了這個(gè)方向的可行性。在未來(lái),數(shù)據(jù)閉環(huán)之路的挑戰(zhàn)也將被廠商們悉數(shù)解決,而有了海量高質(zhì)量數(shù)據(jù)加成的自動(dòng)駕駛系統(tǒng),將會(huì)變得更加安全與智能。