賈浩楠 發(fā)自 副駕寺
智能車參考 | 公眾號(hào) AI4Auto
智能汽車領(lǐng)域,一個(gè)AI行業(yè)的big name殺進(jìn)場(chǎng)。交出了這樣的智能駕駛量產(chǎn)方案:
視覺為主,全棧算法自研,成本千元級(jí)別。
最驚奇的是,僅僅用現(xiàn)在主流方案1/6-1/5的算力,跑通BEV+Transformer的大規(guī)模感知模型。而這,正是目前競(jìng)爭(zhēng)最激烈的城市、高速NOA功能實(shí)現(xiàn)的基礎(chǔ)。
而且已經(jīng)進(jìn)入車企定點(diǎn)名單,明年上半年就能量產(chǎn)上車。
該團(tuán)隊(duì)透露,智能車項(xiàng)目自啟動(dòng),不過做了2年多時(shí)間,卻追趕了行業(yè)平均5-6年的進(jìn)度。
智能車賽道這位“亮相即交卷”的闖入者,是AI明星公司、全球計(jì)算機(jī)視覺最強(qiáng)玩家之一的——曠視科技。
成立十二年,計(jì)算機(jī)視覺算法能力已臻化境,并開拓了城市、消費(fèi)、供應(yīng)鏈等業(yè)務(wù)場(chǎng)景,還早已實(shí)現(xiàn)規(guī)?;癄I(yíng)收。
但智能車業(yè)務(wù),之前曠視低調(diào)十足,不為外人道。
為什么現(xiàn)在亮相?怎么做智能汽車?有什么獨(dú)特優(yōu)勢(shì)?最重要的,車企買帳嗎?
現(xiàn)在,一系列疑問都可以直接找曠視專門負(fù)責(zé)自動(dòng)駕駛的業(yè)務(wù)高管談。
曠視拿出了什么樣的智能車方案
曠視拿出的方案不是技術(shù)演示,也不是“高舉高打”的高階自動(dòng)駕駛降維技術(shù)體系,而是極其務(wù)實(shí)、強(qiáng)調(diào)量產(chǎn)和規(guī)模化的輔助駕駛方案。
根據(jù)傳感器配置、算力大小分為三個(gè)。
標(biāo)準(zhǔn)版方案,滿足基礎(chǔ)、高頻使用智能駕駛場(chǎng)景,功能包括L2全家桶。亮點(diǎn)之處在于它的上限:標(biāo)配自主泊車、記憶泊車,以及高速高架NOP功能。
所謂NOP,就是行業(yè)內(nèi)常說(shuō)的領(lǐng)航輔助駕駛,通常叫法是NOA。NOA開啟時(shí),用戶僅需作為安全員,車輛全部駕駛?cè)蝿?wù)由系統(tǒng)完成,并且能根據(jù)地圖導(dǎo)航信息自行選擇路線、車道和行進(jìn)策略。
標(biāo)準(zhǔn)版方案面向10-15萬(wàn)元車型,這也是曠視智駕方案的第一個(gè)特征,就是將“入門版智駕”門檻拉的極高,15萬(wàn)左右的經(jīng)濟(jì)性家用車,高速NOP起步,以及增添了記憶泊車功能。
專業(yè)版方案,在標(biāo)準(zhǔn)版上,增加城市NOP功能,以及跨車道安全停車。面向15-30萬(wàn)車型。
以上兩個(gè)方案,都是沒有激光雷達(dá)的,視覺為主+毫米波雷達(dá)。
最后還有一款面向30萬(wàn)以上車型的旗艦版方案,官方描述為“更多的冗余”,實(shí)現(xiàn)“增強(qiáng)城市NOP”功能。
不出意外的話,更多冗余代表著更大的算力,比如英偉達(dá)Orin,以及激光雷達(dá)。
曠視高級(jí)副總裁,自動(dòng)駕駛業(yè)務(wù)負(fù)責(zé)人劉偉透露,標(biāo)準(zhǔn)版和專業(yè)版是目前商業(yè)上主推的兩個(gè)方案,幾乎覆蓋乘用車銷售的絕大部分車型。
曠視的方案可以算是行業(yè)內(nèi)首個(gè)實(shí)現(xiàn)“低算力、高功能”的。并且還有一個(gè)“行業(yè)首次”:入門即標(biāo)配高速NOP。
按照以往的固有思路,要實(shí)現(xiàn)某一程度的智能駕駛功能,就必須有足夠多的傳感器冗余,以及足夠大的算力支撐。
比如L2+階段,至少需要數(shù)百TOPS算力,以及激光雷達(dá)+毫米波雷達(dá)+攝像頭的傳感器方案,L4則至少需要1000TOPS。
但也有一個(gè)現(xiàn)象是,堆到1000TOPS算力的量產(chǎn)車,其功能體驗(yàn)也沒有超出L2范圍。
這是不是意味著,智能駕駛類似ChatGPT這樣“大力出奇跡”的轉(zhuǎn)折點(diǎn)仍未到來(lái),現(xiàn)階段要實(shí)現(xiàn)智能駕駛的規(guī)?;占昂徒当?,“算法上精耕細(xì)作+盡量榨干硬件潛力”才是更符合技術(shù)發(fā)展規(guī)律和商業(yè)邏輯的道路?
所以曠視智能駕駛方案走了一條極致性價(jià)比的道路,在智能駕駛套件中,把相同技術(shù)指標(biāo)要求的硬件成本,降到前所未有的低。
橫向比較來(lái)看,曠視標(biāo)準(zhǔn)版方案,據(jù)官方介紹僅需主流英偉達(dá)Orin 1/5,甚至1/6的算力(大約40-50TOPS),就能實(shí)現(xiàn)高速NOP功能。
而目前大部分量產(chǎn)智駕方案,至少需要一整塊Orin(254TOPS)作為主系統(tǒng)和冗余的算力支持。
這樣一來(lái),曠視在面向售價(jià)為10-15萬(wàn)元的車型上,就能靈活搭配成本低得多的英偉達(dá)Orin N、地平線J5、黑芝麻A1000等等產(chǎn)品,車企完全能接受。
這屬于在底層計(jì)算平臺(tái)上降本。
還有一個(gè)特點(diǎn)就是“視覺為主,無(wú)激光雷達(dá)”。屬于在上層傳感器層面降低成本,而且降本的主力。
曠視科技的智駕方案在行業(yè)中至少降本20%。
如何實(shí)現(xiàn)低算力高功能
技術(shù)上來(lái)看,曠視實(shí)現(xiàn)“極致性價(jià)比”的核心原因在于算法、算力,以及工具鏈的積累。
原創(chuàng)算法,這是曠視的技術(shù)底座。以視覺為主,采取“BEV+前融合”的方案,砍掉激光雷達(dá),減少對(duì)毫米波雷達(dá)的使用。但以視覺為主的技術(shù)路線,對(duì)感知識(shí)別算法要求極高。
曠視對(duì)BEV有兩個(gè)實(shí)現(xiàn)的算法模型,一個(gè)是BEVDepth系列,一個(gè)是PETR系列,都是曠視研究院提出的視覺3D感知模型。
PETR框架能同時(shí)進(jìn)行3D目標(biāo)檢測(cè)、BEV(Bird’s Eye View,鳥瞰圖)分割和3D車道線檢測(cè)等多項(xiàng)感知任務(wù),引入3D position embeding(3維位置映射),實(shí)現(xiàn)不依賴于BEV特征的時(shí)序?qū)R并支持BEV分割,避免了BEV可能的信息損失。
BEVDepth是一種帶有顯式深度監(jiān)督的多視圖 3D 目標(biāo)檢測(cè)新網(wǎng)絡(luò),利用編碼的內(nèi)在和外在參數(shù)獲得明確的深度監(jiān)督,并進(jìn)一步引入了深度校正子網(wǎng)絡(luò)來(lái)抵消由投影引起的干擾。
如果有些芯片對(duì)于Transformer的算子支持不太好可以采用BEVDepth;如果對(duì)于Transformer的算子支持非常好,那采用PETR。
BEV+Transformer架構(gòu)最早由特斯拉在2020年引入。不過不同于特斯拉占用網(wǎng)絡(luò)采用的稠密算法,曠視的PETR系列在輸出對(duì)周圍環(huán)境的各種感知表征時(shí),采用的是稀疏算法。
用稀疏的方式來(lái)做Transformer,同樣能非常好地檢測(cè)到長(zhǎng)尾場(chǎng)景中的障礙物,同時(shí)還對(duì)算力要求更低,低算力高功能的核心就是這項(xiàng)技術(shù)。
除了這兩個(gè)核心算法,曠視還有基于物體點(diǎn)解決漏標(biāo)和多標(biāo)等問題的半監(jiān)督檢測(cè)算法 PointDETR、一個(gè)錨點(diǎn)檢測(cè)多個(gè)物體,性能全面超越主流DETR目標(biāo)檢測(cè)器AnchorDETR等等。
算力基礎(chǔ)設(shè)施,曠視到目前為止,已經(jīng)構(gòu)建了一萬(wàn)多張卡的計(jì)算集群,快速迭代能力同樣是大模型實(shí)力的基礎(chǔ)。
另一方面,為了降本,曠視還對(duì)“統(tǒng)一算法框架”做了大量工作。
一般而言,從旗艦車型到入門級(jí)車型,一家主機(jī)廠每種車型采用的配置方案都各不相同,供應(yīng)商方案相當(dāng)復(fù)雜,這導(dǎo)致車輛在推出量產(chǎn)時(shí),無(wú)論是把握節(jié)奏、質(zhì)量、成本,還是管理和維護(hù)不同供應(yīng)商,都很難控制。
曠視在做的,把適配各種定位車型的智能駕駛系統(tǒng),都采用統(tǒng)一的BEV算法框架,做到算法平臺(tái)化、硬件平臺(tái)化。比如在適配高中低不同算力的芯片時(shí),曠視采用Pin-to-Pin的系列芯片,即同一套域控可以直接適配不同芯片硬件,如果域控需要適配高算力芯片,就換高算力芯片,如果要適配低算力芯片,就換一個(gè)低算力的芯片。
做到這一點(diǎn)后,主機(jī)廠各個(gè)車型的量產(chǎn)速度將大大加快,質(zhì)量更好的同時(shí),成本也將大幅降低。
在硬件配置方面,曠視則堅(jiān)持走以視覺為主的感知路徑,支持采用實(shí)時(shí)建圖的感知方式,只用導(dǎo)航地圖,不用高精地圖。
除此之外,曠視還能做到直接去掉RTK(實(shí)時(shí)差分定位,高精度測(cè)量方法)。去掉這兩項(xiàng),每套套件又能節(jié)省數(shù)百元的費(fèi)用。
總計(jì)一下,曠視智駕方案的技術(shù)特征或比較優(yōu)勢(shì),有以下這些:
業(yè)內(nèi)首個(gè)實(shí)現(xiàn)長(zhǎng)達(dá)300米距離視覺感知。
業(yè)內(nèi)首個(gè)將 [BEV+Transformer] 感知算法模型,運(yùn)行在低算力芯片平臺(tái)。
業(yè)內(nèi)首創(chuàng)魚眼BEV模型,感知范圍擴(kuò)大三倍。基于BEV+Transformer] ,在泊車場(chǎng)景下車位的感知距離可達(dá)30米(傳統(tǒng)方案支持約8米左右),3D感知定位能力接近激光雷達(dá)。
支持3D地圖構(gòu)建,不依賴于高精地圖便可實(shí)現(xiàn)高速和城區(qū)NOP去RTK定位算法,定位能力達(dá)到RTK方案水平。
端到端Transformer大模型進(jìn)展迅速,已經(jīng)在Orin平臺(tái)實(shí)現(xiàn)感知、建圖、跟蹤、預(yù)測(cè)4合一模型。
除了智能駕駛,曠視在智能座艙領(lǐng)域也開始了布局。相關(guān)的技術(shù),依托12年技術(shù)研發(fā),早已有積累。
目前的狀態(tài)是和主機(jī)廠協(xié)商,瞄準(zhǔn)下一代智能座艙產(chǎn)品進(jìn)行預(yù)研。
比如,曠視認(rèn)為智能座艙會(huì)成為大模型落地的重要場(chǎng)景。這首先會(huì)帶來(lái)感知能力的進(jìn)一步提升。但落到產(chǎn)品體驗(yàn)層面,更重要的還是決策。
比如智能汽車的底盤、空氣懸掛、剎車系統(tǒng)、車窗、燈光氛圍,幾乎所有東西能被控制。但是,這么多東西都用觸摸屏、語(yǔ)音的方式進(jìn)行交互嗎?顯然不可能。
曠視基于AI生產(chǎn)力平臺(tái)Brain++的能力,未來(lái)會(huì)聚焦于智能座艙的決策引擎。同時(shí),結(jié)合在芯片、軟件算法方面的能力,形成覆蓋感-知-決的智能座艙產(chǎn)品體系。
而在基礎(chǔ)的在“感”和“知”上面,曠視目前已經(jīng)擁有相對(duì)成熟的產(chǎn)品積累。例如IMS雙光融合傳感器,以及在“知”上面的DMS/OMS SDK等。
曠視做智能汽車的邏輯
智能汽車賽道之所以火熱,是因?yàn)橹悄芷嚤旧砭褪茿I能力的綜合載體,又是一個(gè)融合了汽車工業(yè)和科技產(chǎn)業(yè),“含金量”無(wú)法估量的大賽道。
這是不能錯(cuò)過的商業(yè)前景。有實(shí)力的AI玩家,幾乎都時(shí)不我待的投身其中。
另一方面,無(wú)論智能駕駛和智能座艙,計(jì)算機(jī)視覺技術(shù)都是重要基座。
2006年Hinton提出深度學(xué)習(xí)。包括曠視在內(nèi)的第一批AI創(chuàng)業(yè)公司,都敏銳地抓住了深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)結(jié)合帶來(lái)的機(jī)會(huì),并為它們找到了合適的落地場(chǎng)景。
比如曠視的三大業(yè)務(wù)場(chǎng)景:消費(fèi)、城市、供應(yīng)鏈。這些業(yè)務(wù)成了曠視成為平臺(tái)型AI“巨頭”的支柱,計(jì)算機(jī)視覺技術(shù)也成為了曠視自身優(yōu)勢(shì)的來(lái)源。
所以,于時(shí)勢(shì)、于商業(yè)、于技術(shù),曠視入局智能車,只是個(gè)早晚問題。
一直在等待的,是合適的時(shí)機(jī)和人選。
從早期的輔助駕駛技術(shù)開始,主流的技術(shù)路線一直是“雷達(dá)+視覺”。
而且因?yàn)樵缙谏疃葘W(xué)習(xí)算法還不成熟,彼時(shí)視覺數(shù)據(jù)只是作為輔助,智能駕駛絕大部分功能,依賴毫米波雷達(dá)。
但毫米波雷達(dá)本身存在局限:精度有限、缺失物體高度信息,以及最致命的,是對(duì)靜止物體感知不佳。
所以曠視認(rèn)為,基于RV(雷達(dá)+視覺)的傳統(tǒng)算法,是不可能解決高階智能駕駛問題的,而自己的優(yōu)勢(shì)又集中在計(jì)算機(jī)視覺算法,因此一直選擇觀望,等待一個(gè)技術(shù)層面的突破。
直到2020年,特斯拉首次提出BEV算法,并且成功用8個(gè)攝像頭的數(shù)據(jù)實(shí)現(xiàn)了NOA功能的演示,純視覺路線的一扇窗突然被打開。
BEV+Transformer的技術(shù)路線,跟曠視長(zhǎng)處完美結(jié)合,于是開始迅速跟進(jìn)。并且明確以商業(yè)化落地為目標(biāo)確定研發(fā)方向:
目前的智能汽車L2以下基本上是標(biāo)配?,F(xiàn)在的重點(diǎn),是在L2到L3之間。曠視判斷接下來(lái)兩三年的時(shí)間,高速NOP肯定會(huì)快速普及。
阻礙高階智駕方案落地的,首先是性能,第二是成本。曠視所有的技術(shù)研發(fā)都是基于這兩個(gè)方向展開的。而體驗(yàn)好、成本低的高階智能駕駛產(chǎn)品,必須要有非常強(qiáng)的AI能力支撐。
同時(shí)為了支持智能車業(yè)務(wù),曠視組建了一支數(shù)百人的團(tuán)隊(duì),其中超過2/3是研發(fā)人員。
帶領(lǐng)這支隊(duì)伍的關(guān)鍵人物劉偉,曾擔(dān)任SAP全球副總裁,微軟渠道事業(yè)部總經(jīng)理。有消費(fèi)電子、車載AI方案、智能傳感器、計(jì)算芯片等領(lǐng)域豐富的落地經(jīng)驗(yàn)。
這也符合曠視一直以來(lái)具體業(yè)務(wù)落地的風(fēng)格——尋找一個(gè)有行業(yè)背景或商業(yè)化knowhow的高管。
所以曠視進(jìn)軍智能車業(yè)務(wù)的邏輯,可以簡(jiǎn)單總結(jié)為這樣的一句話:
這件事有前景,自身技術(shù)實(shí)力又有積累,現(xiàn)在產(chǎn)業(yè)鏈條件剛好又足以支撐“極致性價(jià)比”的產(chǎn)品策略。
智能車業(yè)務(wù)亮相,重估曠視
曠視智能車業(yè)務(wù)亮相,對(duì)于這個(gè)行業(yè)來(lái)說(shuō)是一個(gè)明顯的轉(zhuǎn)折點(diǎn)。
從透露的智駕方案配置來(lái)說(shuō),曠視首次把高階智駕功能,標(biāo)配給10-15萬(wàn)入門車型。
這是全球智能汽車產(chǎn)業(yè)L2+功能普及的開端,也是汽車工業(yè)智能化革命更加深化的標(biāo)志。
另外,曠視將高階智駕門檻降得前所未有的低,性價(jià)比做的前所未有的高,以及把這條賽道的技術(shù)天花板,拉的史無(wú)前例的高。
這意味著,一輪更加劇烈的行業(yè)內(nèi)卷已經(jīng)開始。
有利于技術(shù)迭代推陳出新,有利于用戶消費(fèi)體驗(yàn)。
而對(duì)于曠視自身的發(fā)展來(lái)說(shuō),進(jìn)軍智能車,也釋放了新的信號(hào)。
曠視在過去,一直聚焦在AIoT領(lǐng)域。在消費(fèi)物聯(lián)網(wǎng)、城市物聯(lián)網(wǎng)和供應(yīng)鏈物聯(lián)網(wǎng)三大場(chǎng)景展開落地。
這些業(yè)務(wù)場(chǎng)景,都以計(jì)算機(jī)視覺技術(shù)作為依托,這也是曠視創(chuàng)業(yè)的根基。
而在12年之間,曠視除了在算法層面深耕,更重要的的是積累了AI生產(chǎn)工具和“方法論”,實(shí)現(xiàn)快速生產(chǎn)、敏捷開發(fā)。
這是一種更廣義的AI技術(shù)“泛化”能力,即把相同的算法軟件框架,快速應(yīng)用到不同的場(chǎng)景、行業(yè)和產(chǎn)品形態(tài)上。
不一定是簡(jiǎn)單的核心算法通用,更重要的是算法生產(chǎn)工具,平臺(tái)工具鏈發(fā)揮作用。
所以理解曠視入局智能車,不能簡(jiǎn)單的把它作為一個(gè)智能駕駛技術(shù)供應(yīng)商,而應(yīng)該縱向連接起它的歷史——
曠視一直是一個(gè)以算法為基礎(chǔ),軟硬一體為核心的智能機(jī)器人公司。
智能汽車,是一個(gè)控制維度最少(橫縱兩向),目前產(chǎn)業(yè)化最成熟的“機(jī)器人”罷了。
事實(shí)上,曠視、大疆、商湯這類“平臺(tái)型”AI公司,業(yè)務(wù)順理成章延伸到智能汽車,也是某種意義上AGI的萌芽和開端。
曠視科技,毫無(wú)疑問是中國(guó)乃至全球最具價(jià)值的AI視覺公司之一。
而現(xiàn)在,加上自動(dòng)駕駛場(chǎng)景,智能車業(yè)務(wù)……曠視,到了該被重估的時(shí)候。