特斯拉第一代智能駕駛使用Mobileye芯片和視覺算法,在 2015款Model S 車型中實現(xiàn)L2+級別的Autopilot;中國新勢力蔚來小鵬第一代L2+ 智能駕駛NIO Pilot 和 Xpilot以及第一代L2++ 領(lǐng)航輔助NOP和NGP都是依賴?Mobileye 芯片和視覺算法方案。
而現(xiàn)在,特斯拉走上了硬件和算法自研的端到端,中國新勢力高階智能駕駛都擁抱英偉達了,就連與Mobileye走的最近的吉利極氪也擁抱英偉達了,都在追逐著算力為王的端到端大模型。
可以看到 Mobileye的季度財報,2024年已經(jīng)跌回幾年前的水平,但此刻的智能駕駛已成為AI人工智能落地最大的產(chǎn)業(yè)之一,在全球卻是如火如荼的發(fā)展。
而此刻的 Mobileye 算是被逼到墻角了。最近?Mobileye 在其?Driving AI 2024發(fā)布會上祭出其Compound AI Systems(CAIS)大旗,挑戰(zhàn)大算力下的端到端大模型智能駕駛。
CAIS 是今年年初全球人工智能前五的學(xué)術(shù)研究機構(gòu) --?伯克利人工智能研究 (BAIR) 實驗室首次提出的“復(fù)合人工智能系統(tǒng)”這一術(shù)語,但其實CAIS在人工智能領(lǐng)域應(yīng)用廣泛,也在蓬勃發(fā)展。
所以本文基于發(fā)布會信息整理,結(jié)合AI相關(guān)知識對Mobileye 的 Compound AI Systems (CAIS )復(fù)合人工智能方案進行分享。希望給大家?guī)硪恍┬畔?,最后歡迎投票留言討論Mobileye 這個方案是否能夠奏效?
Mobileye的自動駕駛信念
對于智能駕駛應(yīng)用的終極未來形態(tài)?Mobileye 表示想要打造一個真正的自動駕駛,它的指標是MTBF(Mean time between failures平均故障間隔時間,也就是多久出現(xiàn)一次故障?)。?Mobileye表示其與汽車制造商的合作中,MTBF 目標是 10的7次方小時的駕駛時間。對于公司來講,需要一個可持續(xù)的商業(yè)模式,確保達到目標同時實現(xiàn)公司的盈利。
所以 Mobileye 將自己的方案和谷歌Waymo以及特斯拉放一起比較;
其中谷歌和Mobileye采用CAIS方案,區(qū)別是谷歌主要依賴激光雷達,Mobileye主要依賴攝像頭,Waymo已經(jīng)證明了實現(xiàn)了滿足MTBF KPI的自動駕駛,但是成本和模塊化不行,地區(qū)泛化能力有待驗證。
而特斯拉的端到端純視覺方案,從成本,模塊化,地區(qū)泛化能力都非常優(yōu)秀。但是滿足自動駕駛MTBF KPI卻是一個大大的問號,特斯拉最近的 V12版 FSD 的公開數(shù)據(jù)顯示每次關(guān)鍵干預(yù)大約行駛 300 英里,相當于 MTBF 大約為 10 小時,與目標 MTBF 相差 6 個數(shù)量級。
所以 Mobileye 表示他對于FSD以及自己方案能否實現(xiàn)MTBF都打上問號,當然其實Mobileye潛臺詞是自己的L2以及以下的系列能夠?qū)崿F(xiàn)MTBF,所以暗示其 CAIS 能夠?qū)崿F(xiàn)。其實現(xiàn)有L2以及以下系列它的ODD 也就是可用范圍太小了,特斯拉FSD以及中國新勢力的L2++范圍就異常巨大,基本上等同于全部了。按照 Mobileye 的思路,他的 CAIS 現(xiàn)有產(chǎn)品與 Tesla 的端到端方案的FSD進行對比MTBF其實不公平。
端到端大模型方案的問題端到端大模型方案,數(shù)據(jù)的輸入到一個大模型算法然后輸出最終結(jié)果,對于自動駕駛基本就是從圖像的光子到汽車的控制。
前提是,沒有任何Glue code也就是,在計算機編程中,粘合代碼是一種允許組件互操作的代碼,在智能駕駛中你可以理解為沒有人類規(guī)則的代碼來影響輸入與輸出。僅憑無監(jiān)督,不需要標注的數(shù)據(jù)訓(xùn)練就可以實現(xiàn)足夠的MTBF。
現(xiàn)實是,端到端是將Glue code轉(zhuǎn)變到線下,需要人類來挑選高質(zhì)量正確的數(shù)據(jù)用于訓(xùn)練。如果沒有的話會學(xué)習(xí)很多常見但錯誤的行為,卻沒有學(xué)習(xí)到正確但稀少的行為。更可能引發(fā)人工智能?“AV alignment”?價值對齊的問題。端到端大模型的輸出結(jié)論很可能不真實,例如以下三個方面:
Calculator計算器 - LLM大語言模型并不是計算專家,人類通過句子學(xué)習(xí)語言和概念,大多數(shù)情況下,語義理解都可以通過這種方式很好地建立起來。但數(shù)學(xué)的運作方式并不完全相同。數(shù)學(xué)或算術(shù)在語言中并不是高度編碼的?;诖笳Z言模型的端到端,從數(shù)據(jù)中進行端到端學(xué)習(xí)往往會遺漏重要的抽象概念,因此不能很好地概括和提取結(jié)論。
所以,目前大模型ChatGPT也采用CAIS進行調(diào)用計算器等專門模型和工具。那?Calculator 和自動駕駛什么關(guān)系呢?自動駕駛中所有的碰撞安全都需要計算距離,時間等來實現(xiàn)避障。
人工智能的難題,捷徑學(xué)習(xí)(Shortcut learning problem)。捷徑是在標準基準上表現(xiàn)良好但無法轉(zhuǎn)移到更具挑戰(zhàn)性的測試條件(例如現(xiàn)實世界場景)的決策規(guī)則。打個比方如果我們用典型環(huán)境中的奶牛圖像(通常是在綠色草地上或草地前)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),那么神經(jīng)網(wǎng)絡(luò)可能無法識別奶牛本身的一般外部特征,而只是將綠色與奶牛聯(lián)系起來。如果基于這種神經(jīng)網(wǎng)絡(luò)的圖像識別軟件面對藍色背景上的奶牛,那么它很可能不會將其識別為奶牛。相反,綠色壁紙前的貓可能會被錯誤地識別為奶牛。
因此,AI 走了捷徑。它沒有真正開發(fā)出識別圖像的能力,而只是根據(jù)訓(xùn)練數(shù)據(jù)中存在的相關(guān)性學(xué)習(xí)了錯誤的因果關(guān)系。對于自動駕駛端到端算法如何保證端到端大模型沒有進行捷徑學(xué)習(xí)是個難題。即使攝像頭,雷達,激光雷達多傳感器融合,也就是現(xiàn)在講的前融合,當不同的輸入模態(tài)具有不同的樣本復(fù)雜度時,端到端隨機梯度在利用所有模式的優(yōu)勢方面存在困難,會導(dǎo)致計算時間過長。
而 CAIS 可以按每種傳感器對系統(tǒng)進行可分解訓(xùn)練,然后進行高級融合,應(yīng)該就是現(xiàn)在講的后融合,Mobileye 分享到其?Primary-Guardian-Fallback (PGF)融合方式。
長尾問題,對于長尾問題有兩種假設(shè),在樂觀的情況下,就是類似于長尾有些事情概率相對較大,有些非常小,在悲觀的情況下,所有罕見的長尾問題其實概率都一樣非常小。其實具體怎么樣誰也不知道,但這個問題會影響自動駕駛對于長尾問題解決的思路。
其實,特斯拉FSD V12已經(jīng)是端到端大模型,按照邏輯大模型積累數(shù)據(jù)越多那么越好,但是根據(jù)Teslafsdtracker的數(shù)據(jù)可以看到,特斯拉的V12之后的版本并沒有體現(xiàn)這個觀點。
所以,端到端大模型這種,只需要喂足夠的數(shù)據(jù)那么算法軟件就會越來越優(yōu)秀的觀點缺少證據(jù)。
Mobileye 的 CAIS 方案
首先,Mobileye擺出了機器學(xué)習(xí)中需要考慮?Bias 偏差和?Variance 方差的妥協(xié)。Bias 偏差(“近似誤差”),由于學(xué)習(xí)到太多的約束,導(dǎo)致存在約束的盲區(qū),學(xué)習(xí)系統(tǒng)無法反映現(xiàn)實的全部豐富性,這個可以理解為懂得越多其實yVariance 方差(“泛化誤差”),由于學(xué)習(xí)以及訓(xùn)練的數(shù)據(jù)較少,就直接根據(jù)現(xiàn)有數(shù)據(jù)總結(jié),學(xué)習(xí)系統(tǒng)對觀察到的數(shù)據(jù)過度擬合,無法泛化到看不見的例子。
Mobileye 想要表達的是,Mobileye 的方案將會采取合適的數(shù)據(jù)訓(xùn)練,而不是多多益善。
所以Mobileye 給出的 CAIS 方案主要包括:RSS 是我們之前文章《從2022 CES 看Mobileye 自動駕駛產(chǎn)品技術(shù)以及戰(zhàn)略(誰說算力是唯一標準)》中講到的“Responsibility-Sensitive Safety” (RSS) 模型,它可以通過設(shè)立人為的準則來解決人工智能“AV alignment”?價值對齊的問題。感知/規(guī)控/執(zhí)行,分析計算等抽象層;從感知,算法,融合多方面冗余來確保實現(xiàn)MTBF。
其中感知和規(guī)控將采用 Mobileye 極致高效的AI算法和硬件芯片;冗余方面將采用 Mobileye 的 PGF 高階融合。
Mobileye 的 PGF 高階融合是一種將多數(shù)規(guī)則推廣到非二元決策的一般方法,用于冗余傳感器和外部輸入分析之后的信息決策,傳統(tǒng)冗余信息的決策機制是少數(shù)服從多數(shù)。對于感知和規(guī)控 Mobileye 宣稱其采用極致高效的AI 算法?;赥ransformer 的GPT最開始主要來自于人類語言文字的算法,它可以標記 Tokenize 所有的東西,然后利用自動回歸生成新的東西,例如在語言中它標記所有的單詞,采用自動回歸 Auto-regressive 預(yù)測下一個單詞的出現(xiàn)概率,再預(yù)測下一個單詞出現(xiàn)的概率,最后生成句子或者文字內(nèi)容。
目前 Transformers 的類似算法已經(jīng)在 AI 領(lǐng)域確立了王者地位,感知以及環(huán)境輸入信息被Tokenized,然后Auto-regressive 生產(chǎn)新的數(shù)字信息用于計算和決策,甚至輸出。所以端到端的方案中,只需要有足夠的數(shù)據(jù),和強大的算力,基本上都能產(chǎn)生貼近真實答案的token算法組合,差別只是token多與少的問題,也就決定算法復(fù)雜和需要算力的多少。在汽車AI領(lǐng)域里面應(yīng)用廣泛的語音和圖視頻AI,和上面講到的語音機制一樣類似,所以 Mobileye 的自動駕駛算法也一樣采用,不過?Mobileye 表示其優(yōu)化或者靈活的運用,對傳統(tǒng) Transformer 應(yīng)用改良的 STAT: Sparse Typed Attention。目前行業(yè)內(nèi)包括特斯拉的端到端,第一步是用CNN對每畫幅的圖片進行處理創(chuàng)立整個算法的Backbone,整個算法都基于CNN特征進行傳遞處理。Mobileye 發(fā)現(xiàn)這樣的算法需要非常大的算法和算力,例如目前800萬的攝像頭,按照7個攝像頭用作周視,另外目前通用對攝像頭采樣是1秒鐘采樣10次,然后將這些圖片切割成20*15個像素進行boken編碼,按照Mobileye 的算法這就需要 100Tops,配合大流量數(shù)據(jù)輸入與輸出。所以Mobileye 對傳統(tǒng) Transformer 應(yīng)用改良的 STAT: Sparse Typed Attention。主要就是對token進行分類,類似于公司組織一樣分部門和科室。
Mobileye?采用Parallel Auto-Regressive (PAR)的方式,原來transformer下的tokend 是人人平權(quán),大家都互相交流溝通,現(xiàn)在token分類,只允許同類的領(lǐng)導(dǎo)之間進行交流和溝通產(chǎn)生結(jié)論,所以mobileye號稱實現(xiàn)比原來高效100倍。
當然,這種算法的缺點和公司組織一樣,創(chuàng)造了更多的層級,不同層級必須使用不同的設(shè)施和組織方法,所以 Mobileye 在其芯片上采用了5種不同功能和架構(gòu)的內(nèi)核分別處理算法。
- MIPS-通用CPUMPC-專門用于線程級并行的CPUVMP-超長指令寬度(VLIW)-單指令多數(shù)據(jù)(SIMD);專為定點算法的數(shù)據(jù)級并行性而設(shè)計(例如,將12位原始圖像收斂為一組不同分辨率和色調(diào)圖的8位圖像);基本上,對整數(shù)向量執(zhí)行操作PMA-粗粒度可重構(gòu)陣列(CGRA);為數(shù)據(jù)級并行設(shè)計,包括浮點運算;基本上,對浮點數(shù)向量執(zhí)行操作XNN-專注于深度學(xué)習(xí)的固定函數(shù):卷積、矩陣乘法/完全連接和相關(guān)激活后處理計算:例如CNN、FCN、Transformer的優(yōu)秀處理表現(xiàn)。
根據(jù)這些軟硬算法的結(jié)合, Mobileye 表示其最新的 EyeQ6H 雖然只有34 TOPS (int8)是英偉達Orin x的 1/8 但是跑圖形算法ResNet50的能力卻是英偉達Orin x的 1/2 ,所以 Mobileye 表示算力并不能夠很好的評價芯片的計算能力。
最后 Mobileye 喊出他的 CAIS 是極致的AI 高效率來叫板大算力下的端到端。
除此之外,對于數(shù)據(jù)方面,端到端就是一個大胖子來什么吃什么,食量大,但其實這里會有問題,需要強大的數(shù)據(jù)采集和算力處理,并不高效。所以其實可以看到特斯拉去年從Luminar購買 2,000 臺激光雷達,Mobileye猜測大概率是為了創(chuàng)建監(jiān)督訓(xùn)練的地面實況 (GT) 數(shù)據(jù),而 Mobileye 也在做這個事情,做這個事情的難點就是需要標注數(shù)據(jù)。Mobileye 表示其采用在大型無監(jiān)督數(shù)據(jù)上訓(xùn)練基礎(chǔ)模型然后監(jiān)督對少量標簽的微調(diào)的方法來做地面實況 (GT) 數(shù)據(jù)。最后,在商業(yè)方面,Mobileye確保其整套方案模塊化,從而能滿足不同自動化需求的高效開發(fā),保證發(fā)展有保障,未來有路徑。
Mobileye 的 CAIS 能否挑戰(zhàn)端到端大模型
Mobileye 算是在獨特的方案中堅持到底,其方案提供軟硬結(jié)合的一整套方案,這種?CAIS?方案無疑是高效的,它更講究專用性,根據(jù)行業(yè)的特點進行深入分析定制。端到端大模型的智能駕駛應(yīng)該算是通用人工智能的一個應(yīng)用分支,它的帶領(lǐng)肯定是英偉達等大算力巨頭,他講究通用性和大算力。
所以,從技術(shù)上各有優(yōu)缺點。
目前國內(nèi)一大通采用英偉達芯片的肯定是走端到端大模型的智能駕駛,接下來各家紛紛構(gòu)建自己芯片體系的例如蔚來,理想,小鵬,momenta大概率不會擺脫這個影子,但有可能長期會分化;特殊的華為應(yīng)該是走 CAIS 的方案,畢竟軟硬都有,而且能力特強,在強大的背景下走出自己的一條路;比較尷尬的是地平線了,今年年初的百人會上余凱表示“十年以后連L3都不會真正實現(xiàn)”其實這不過是沒有找到自己大算力和軟硬定位的嘆息。
最后,那從商務(wù)上來講,Mobileye 的?CAIS?高階智能駕駛在目前的中國會比較難,它太具有唯一性了,在主機廠主導(dǎo)的供應(yīng)商體系里面唯一性太可怕了,如果?Mobileye 沒有打通商務(wù)問題,可能永遠留在 L2以及以下的市場,無法分享高階智能駕駛快速發(fā)展的蛋糕。
未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-參考資料:
Driving AI 2024 Navigating the path to autonomous mobility?-?Mobileye
Learning Token-Based Representation for Image Retrieval -?Hui Wu1 , Min Wang2*, Wengang Zhou1,2*, Yang Hu1 , Houqiang Li1,2
從模型到復(fù)合人工智能系統(tǒng)的轉(zhuǎn)變 -?Matei Zaharia、Omar Khattab、Lingjiao Chen、Jared Quincy Davis、Heather Miller、Chris Potts、James Zou、Michael Carbin、Jonathan Frankle、Naveen Rao、Ali Ghodsi
加入Vehicle VIP 知識星球獲取智能新能源汽車以及科技海量參考資料。