摘要
環(huán)視魚眼相機常用于自動駕駛中的近場感知。車輛四周的四個魚眼相機足以覆蓋車輛周邊 360 度范圍,捕捉整個近場區(qū)域。一些主要應(yīng)用場景包括自動泊車、交通擁堵輔助以及城市駕駛。由于汽車感知領(lǐng)域的重點在于遠場感知,所以針對近場感知任務(wù)的數(shù)據(jù)集有限,相關(guān)研究工作也很少。與遠場不同,由于環(huán)視感知對物體檢測精度要求達到 10 厘米且物體存在部分可見性問題,它帶來了額外的挑戰(zhàn)。
由于魚眼相機存在較大的徑向畸變,標準算法無法輕易擴展應(yīng)用于環(huán)視場景。因此,我們有動力為汽車魚眼相機感知領(lǐng)域的研究人員和從業(yè)者提供一份完備的參考資料。首先,我們對常用的魚眼相機模型進行了統(tǒng)一的分類處理。其次,我們討論了各類感知任務(wù)以及現(xiàn)有相關(guān)文獻。最后,我們探討了面臨的挑戰(zhàn)及未來發(fā)展方向。
一、引言
環(huán)視系統(tǒng)利用帶有重疊區(qū)域的網(wǎng)絡(luò)來覆蓋車輛周圍的近場區(qū)域。圖 1 展示了典型環(huán)視系統(tǒng)的四個視圖,以及典型泊車應(yīng)用場景示例。在這種近場感知中會使用超過 180 度的廣角視圖。任何感知算法都必須考慮此類相機系統(tǒng)固有的明顯魚眼畸變問題。這是一項重大挑戰(zhàn),因為計算機視覺領(lǐng)域的大部分工作都側(cè)重于徑向畸變小的窄視場相機。不過,隨著此類相機系統(tǒng)得到更廣泛的部署,該領(lǐng)域已經(jīng)有了相關(guān)研究工作。本文旨在為讀者概述環(huán)視相機(例如成像、配置和校正方面),綜述現(xiàn)有技術(shù)水平,并深入剖析該領(lǐng)域當前面臨的挑戰(zhàn)。
理論上,針孔相機的視場角為 180 度。然而在實際中,由于光圈和成像器尺寸的實際限制,視場角很難超過 80 度,如圖 2(上圖)所示。魚眼鏡頭通常用于將視場角有效增大到 180 度或更大。值得注意的是,“魚眼” 這個術(shù)語有點用詞不當,如圖 2(下圖)所示。由于光線在水和空氣表面交界處發(fā)生折射而彎曲,將近 180 度的大視場角被壓縮到了近 100 度的小視場角。游泳的人也會觀察到同樣的現(xiàn)象,這與魚眼的光學(xué)原理并無關(guān)聯(lián)。
魚眼相機的發(fā)展有著悠久的歷史。伍德在 1908 年最先創(chuàng)造了 “魚眼” 這個術(shù)語,并制造了一臺簡易的魚眼相機 [1],最近發(fā)布的汽車魚眼視頻數(shù)據(jù)集 “伍德景觀”(WoodScape)在命名時就認可了這一事實 [2]。邦德 [3] 用半球形鏡頭取代了這種水基鏡頭,魚眼相機的光學(xué)發(fā)展由此開始。宮本 [4] 早期對魚眼相機幾何畸變建模提出了見解,建議使用等距、球極平面投影等方法。
以大角度入射到針孔相機上的光線在超過 60 度時無法被有效成像。由于折射作用,添加魚眼鏡頭可將視場角大幅增加到 190 度。(下圖)光線在水面的折射會導(dǎo)致地平線被壓縮到一個更小的視場范圍內(nèi)。
等立體角模型。這些模型在制圖學(xué)領(lǐng)域(例如 [5] 以及許多其他文獻)早已為人所知。
A. 應(yīng)用
魚眼相機提供的視場角比標準相機寬得多,通常具有 180 度甚至更大的視場角。這帶來了諸多優(yōu)勢,尤其是可以使用更少的相機來實現(xiàn)全方位覆蓋。魚眼相機首次成功的商業(yè)應(yīng)用是在攝影領(lǐng)域,特別是在娛樂行業(yè),魚眼鏡頭效果成為了一種風格元素。沃克斯(Vox)的一個視頻 [6] 很好地概述了其使用歷史。第二個成功應(yīng)用的領(lǐng)域是視頻監(jiān)控,在現(xiàn)代監(jiān)控系統(tǒng)中常常能看到半球形鏡頭表面 [7]。近來,廣角鏡頭相機常用于虛擬現(xiàn)實頭戴設(shè)備 [8]。它們也常用于水下機器人 [9] 以及空中機器人 [10]。
汽車領(lǐng)域是魚眼相機的重要應(yīng)用領(lǐng)域之一,在該領(lǐng)域需要更先進的視覺感知能力。1956 年,通用汽車的別克 “百夫長” 概念車型就配備了首個廣角后視相機和一臺電視顯示屏。2018 年,美國強制要求配備后視魚眼相機以減少倒車時的事故 [11]。2008 年,寶馬為停車視野配置了環(huán)視相機 [12]。環(huán)視相機已成為許多車輛常用的功能配置。隨后,它們被用于諸如交叉交通警報 [13]、物體檢測 [14] 以及自動泊車 [15] 等計算機視覺應(yīng)用中。圖 1(上圖)展示了環(huán)視系統(tǒng)中相機的位置以及示例圖像。圖 1(下圖)展示了近場區(qū)域,它構(gòu)成了車輛周邊 360 度感知的主要傳感器。圖中較小的方框內(nèi)還展示了通過拼接四個相機畫面為駕駛員提供的環(huán)視可視化效果。
圖 3. 標準邊界框?qū)τ隰~眼圖像來說并非良好的物體表示方式。(a)邊界框內(nèi)的紅色像素顯示出大片不包含物體的區(qū)域。定向框(b)和曲線邊界框(c)是更好的表示方式 [14]。
然而,魚眼相機存在一些挑戰(zhàn)。最明顯的是它們存在強烈的徑向畸變,若要校正這種畸變則會存在一些弊端,包括視場角減小以及周邊出現(xiàn)重采樣畸變偽影 [16]。由于空間變化的畸變,物體的外觀變化更大,對于近處的物體尤其如此。這增加了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的學(xué)習復(fù)雜度,因為卷積神經(jīng)網(wǎng)絡(luò)將平移不變性作為一種歸納偏置,并且由于模型必須學(xué)習物體所有畸變版本的外觀,還增加了樣本復(fù)雜度。此外,常用的利用邊界框進行物體檢測的應(yīng)用變得更加復(fù)雜,因為邊界框?qū)τ隰~眼畸變物體來說并非最佳適配方式,如圖 3 所示。在 [14] 中探討了使用更復(fù)雜的表示方式(而非矩形框),例如利用魚眼相機已知徑向畸變的曲線邊界框。魚眼感知是一項具有挑戰(zhàn)性的任務(wù),盡管其應(yīng)用廣泛,但相較于針孔相機,對它的探索相對較少。
對于沒有明顯魚眼畸變的相機而言,與之相關(guān)的一種非常常見的幾何模型是針孔模型。人們可能首先會考慮光線與距離投影中心某一固定距離的單一平面的相交情況。此類相機因鏡頭產(chǎn)生的所有畸變模型,其設(shè)計初衷就是將平面上的交點位置從投影中心沿徑向進行偏移。在某種程度上,由于缺乏統(tǒng)一的幾何模型,魚眼算法的開發(fā)變得復(fù)雜起來。許多模型使用不同的特性來描述魚眼投影。
本文的目的之一就是研究常見的模型,并證明其中一些模型彼此之間高度相關(guān)。有幾個模型可以被視為通用透視映射或橢球通用透視映射的特殊情況,這兩種映射在其他科學(xué)領(lǐng)域已經(jīng)為人所知數(shù)十年了 [17]。我們將表明所呈現(xiàn)的部分模型甚至是對現(xiàn)有模型的重新推導(dǎo)。因此,我們嘗試梳理眾多已提出的模型,并將它們分為幾個類別來考慮。例如,我們可以考慮一類基于圖像的模型,在這類模型中,魚眼投影被視作與針孔投影的偏差來進行度量,例如 [18] 和 [19]。或者,我們也可以考慮一種在投影中心對光線投影角度進行操作的模型(例如 [2]、[20])。還有一些模型提出利用在不同表面上的一系列投影來對魚眼畸變進行建模,例如 [21]、[22] 和 [23],我們可以將這類模型稱為球面模型。
B. 與其他傳感器的關(guān)系
自動泊車系統(tǒng)通常是利用魚眼相機和聲吶來設(shè)計的 [15]。聲吶通常用于車輛的前后部,它在準確檢測近場障礙物方面非??煽?[24]。然而,其探測范圍通常局限于大約 5 米左右。此外,其所提供的信息非常稀疏,無法獲取關(guān)于場景更豐富的信息。通常,一種經(jīng)典的后期融合方法會將魚眼相機和聲吶的感知輸出進行結(jié)合 [15]、[25]。近來,用于城市駕駛應(yīng)用、能提供 360 度覆蓋的短程雷達(SRR)陣列正被重新用于諸如泊車等近場感知應(yīng)用中。它們比聲吶的密度大得多,探測范圍可達 30 米。然而,它們無法覆蓋整個近場,存在一些盲區(qū)。
此外,雷達的局限性還在于它無法檢測道路標線,并且在物體分類方面性能有限 [26]。在 [27] 中更詳細地討論了利用短程雷達進行停車位檢測的內(nèi)容。魚眼相機與短程雷達的融合通常是在經(jīng)典的動態(tài)占據(jù)柵格融合框架下進行的 [28]。基于卷積神經(jīng)網(wǎng)絡(luò)的融合方法也正在興起 [29]。激光雷達是一種探測范圍超過 200 米的遠場傳感器,因此它通常不會與近場魚眼相機相結(jié)合。瓦爾加等人 [30] 曾嘗試將魚眼相機和激光雷達相結(jié)合以提供統(tǒng)一的 360 度環(huán)境模型,但在近場存在盲區(qū)。激光雷達在物體分類方面的性能極其有限 [26]。總而言之,其他近場傳感器(如雷達和聲吶)只能獲取場景的有限信息,因此它們無法獨立運行來執(zhí)行近場感知任務(wù)。
本文旨在進行廣泛的概述和綜述,以補充我們之前的工作 [31],之前的工作相對更側(cè)重于我們具體的環(huán)視感知架構(gòu)及實現(xiàn)的狹義討論。我們列舉了一些與本文相關(guān)的其他綜述性論文。在 [15] 中,針對自動泊車這一特定應(yīng)用場景的計算機視覺進行了簡要綜述。在 [12] 中,提供了關(guān)于環(huán)視監(jiān)測的早期綜述,但未討論感知任務(wù)。最后,[32] 對視覺任務(wù)進行了全面綜述,但并非專門針對汽車環(huán)視系統(tǒng)。
本文的結(jié)構(gòu)如下。在第二節(jié)中,我們將討論一些常用的模型,并對這些方法進行分類,確立它們之間的等效關(guān)系和各自的特點。在第三節(jié)中,我們將介紹由四個魚眼相機組成的近場環(huán)視系統(tǒng)的汽車配置情況,并討論諸如校準、校正以及幾何基元等基本構(gòu)造。第四節(jié)將詳細綜述基于環(huán)視相機的視覺感知任務(wù)。第五節(jié)將討論該領(lǐng)域有待探索的未來研究方向。第六節(jié)給出總結(jié)性的評論。
二、魚眼相機模型
在本節(jié)中,我們將對幾種比較流行的魚眼相機模型進行綜述。目的是使用統(tǒng)一的符號來提供一份可能的模型的詳盡列表。對于開發(fā)人員來說,這可被視為一種工具,用以指導(dǎo)針對給定應(yīng)用選擇合適的模型。人們可以嘗試使用更簡單、更具針對性的模型,并且根據(jù)具體應(yīng)用情況,在校準后某一給定相機的誤差仍然較高時,將開發(fā)擴展到更通用的模型之一。
A.符號和術(shù)語
矩陣用A∈Rm×n表示。將使用普通向量v∈Rn的通常表示法,用n-元組表示。具體來說,r3中的點記為X =(X,Y,Z)T,圖像點I2集合中的一個點記為u =(u,v)T。單位球由S2 = {s∈R3 | ⅡsⅡ = 1}定義,單位球上的點用3個向量表示,即s =(x,y,z)T。
我們可以定義一個從C3?R3到圖像的映射為
其中C3表示定義投影π的點集。i2?r2表示C3投影后的圖像。θ(通常以弧度表示)表示成像點的場角(相對于z軸的角度),θmax表示模型的最大場角。
π的真正逆自然是不可能的。然而,我們可以定義一個非投影函數(shù)映射從圖像域到單位中心投影的球
在某些情況下,解析的非投影π?1(u)不存在或不具有奇點。圖4展示了圖像點和單位球體之間的關(guān)系。
我們還使用Ⅱu Ⅱ = Q(θ)來表示投影函數(shù)的徑向形式。也就是說,這是一個將視場角映射到圖像平面上的徑向距離(從失真中心開始)的函數(shù)。徑向非投影函數(shù)記為θ = Q?1(ⅡuⅡ)。徑向到入射角的非投影是一個真實的逆,不像未投影到圖像球體。偶爾,我們會需要參考兩個圖像點,一個扭曲的點和一個未扭曲的點。在這種情況下,我們將使用下標d和u來區(qū)分(例如,ud和uu)。圖像上映射將圖像從其扭曲點徑扭曲到圖像上的未扭曲點(即從ⅡudⅡ到ⅡuuⅡ)。我們將這個映射表示為ⅡuuⅡ = τ(ⅡudⅡ),以及它的逆ⅡudⅡ = τ?1(ⅡuuⅡ)。
在討論下面的模型時,我們使用下標來表示每個不同模型的參數(shù)和函數(shù)。具體地說,我們使用下標p表示針孔模型,e表示等距,s表示立體圖,o表示正交圖,eo用于擴展正字法,div表示除法,fov表示視場,ucm用于統(tǒng)一相機模型,ds用于雙球。
圖4。魚眼像點u和它在單位球面上的等價點之間的關(guān)系,s與X位于同一射線上。
B. 針孔照相機型號
針孔攝像機模型是在計算機視覺和機器人技術(shù)的許多領(lǐng)域中使用的標準投影功能,當研究僅限于考慮標準的視場攝像機時。針孔模型由
或者,如果我們把它看作是一個徑向函數(shù)
其中,θ是投影射線的視場角。請注意,參數(shù)f有時被稱為焦距。
未投影函數(shù)為
針孔模型定義為點集C3 = {X∈R3 | Z > 0}。這些點映射到整個圖像平面,即I 2 = R2和θmax = π/2。然而,在實踐中,即使考慮到徑向畸變,針孔模型也很少用于具有場角θ>60?的點。
C. 經(jīng)典幾何模型
我們將本節(jié)中討論的模型稱為經(jīng)典模型,因為它們已經(jīng)被研究了至少60年的[4]。
1)等距投影:在等距魚眼模型中,投影半徑Qe(θ)通過等距參數(shù)f的簡單縮放與場角θ相關(guān)(見圖5a)。而這也是:
未投影函數(shù)為
等距投影對于點C3 = R3 (0,0,0)T、I 2 = {u∈R2 | Ⅱu Ⅱ≤f π }和θmax = π是有效的。
2)立體投影:與等距模型一樣,在立體投影中,X到投影球面的投影中心為C(圖5b)。因此,該立體投影被描述為
我們以后將需要的非投影函數(shù)是
立體投影對點C3 = R3 (0,0,0)T有效,并將這些點映射到整個映像平面,即I 2 = R2。因此,最大的場角是θmax = π。
3)正投影:與之前的投影模型相似,正投影以對球體的投影開始(圖5c)。接下來是對該平面的正交投影。因此,正字法投影是由
未投影函數(shù)為
這里是I 2 = R2、C3 = {X∈R3 | Z > 0}和θmax = π/2。這些非投影函數(shù)被定義得很好,如f≥Ⅱu Ⅱ,它是由原始投影(10)強制執(zhí)行的。
4)擴展正交模型:擴展正交模型[33],如圖5d所示,通過釋放投影平面與投影球的正切關(guān)系來擴展經(jīng)典正交模型,允許偏移λ。扭曲投影與方程(10)相同。而失真的和未失真的徑向距離與其逆距離之間的關(guān)系則由
這是在[33]中稍微簡化的表示,并假設(shè)f和(λ + f)是正的,這完全是實際的約束。擴展的正交法模型與標準正交法模型具有相同的域和共域。
圖5。經(jīng)典的幾何模型。
5)擴展等距模型:實際上,擴展的正交圖模型只是一個從投影到圖像上映射的轉(zhuǎn)換。許多模型可以以與擴展的正交法模型相同的方式轉(zhuǎn)換為圖像上的映射。我們只給出了等距模型的一個例子。
重新排列(4),使θ = ⅡusⅡ/f替換為(2),使(2)的焦距為f +λ,得到等距模型的圖像上映射。按照類似的步驟,我們也可以得到逆的結(jié)果。
這在[34]中描述了,盡管沒有額外的縮放參數(shù)λ。我們也可以遵循上面相同的步驟來獲得一個擴展的立體模型。這些擴展模型的C3、I2和θmax與正交法模型相同。
D. 代數(shù)模型
我們提供了一個簡短的討論魚眼相機的代數(shù)模型,特別是多項式模型,和二模型。多項式模型的討論,我們提供的完整性,雖然我們集中在幾何模型的其余部分。
1)多項式模型:非魚眼相機的經(jīng)典布朗-康拉迪畸變模型[35],[36]使用一個奇稱為多項式,ⅡudⅡ = Pn(ⅡuuⅡ),來描述圖像上的徑向畸變(即映射ⅡuuⅡ到ⅡudⅡ),其中Pn表示一些任意的n階多項式。盡管年代久遠,但布朗-康雷迪模型是非魚眼相機[37],[38]的軟件實現(xiàn)中的標準失真模型。為了解釋魚眼失真,在[18]中提出了一種圖像上的多項式模型,稱為多項式魚眼變換(PFET)。PFET和布朗-康雷迪模型之間的區(qū)別在于,PFET允許奇數(shù)指數(shù)和偶數(shù)指數(shù)來解釋在魚眼相機中遇到的額外失真。
存在一類多項式魚眼模型,其中場角到像平面的映射是通過a
多項式,即QP (θ) = Pn(θ),使用入射角而不是未失真的半徑。例如,坎那拉-勃蘭特[20](以及在流行的OpenCV軟件[37]中實現(xiàn)的那樣)提出了一個n = 5或更多階的多項式模型,只有奇指數(shù)。在[2]中,提出了一個同時包含偶指數(shù)和奇指數(shù)的n個=4多項式。這兩種模型都沒有在多項式中使用常數(shù)系數(shù)項,因為這樣做會導(dǎo)致在圖像的中心有一個未定義的區(qū)域。在[39]中提出了一個五階多項式,但如果魚眼半徑和視場已知,則將其簡化為四個獨立參數(shù)。以上這些都可以解釋為等距模型的推廣,這是一個一階多項式。在這種情況下,投影球被給定多項式定義的曲面所取代。然而,這是迫使一個幾乎沒有效用的幾何解釋。
MATLAB計算機視覺工具箱[40]和NVidias驅(qū)動系統(tǒng)的SDK [41]包括了在[42]中提供的基于多項式的魚眼模型的實現(xiàn)。在這種情況下,多項式被用來建模投影和非投影,否定了需要一個數(shù)值方法來反轉(zhuǎn)投影(這是基于多項式的模型的一個主要計算問題)。注意,這兩個多項式并不是相反的,而是兩個不同的函數(shù)。這些多項式是獨立校準的,這可能使它無法使用的迭代方法,如果多次項目和取消項目點。
2)分割模型:徑向分解的分割模型[17]獲得了一些良好的特性,至少對于單參數(shù)變體,直線投影到圖像[43],[44],[45],對于許多鏡頭,單參數(shù)變體的[46]表現(xiàn)很好。該模型及其逆模型由
這在[34]中通過添加了一個額外的掃描參數(shù)進行了擴展,從而提高了某些類型的魚眼透鏡的建模性能。而劃分模型
最初以圖像上映射表示,它可以表示為投影函數(shù)
將針孔模型(2)代入(16),得到徑向投影函數(shù)Q div(θ)。f,在這種情況下,一旦被分割模型解決了失真,就可以被認為是針孔模型的參數(shù)。分割模型的非投影為
投影函數(shù)和圖像上映射具有相同的域,C3 = {X∈R3 | Z > 0}、I 2 = R2和θmax = π/2。
E. 球形模型
基于對一個單位球的點(或其仿射基因化)的投影,我們也考慮了一組最近的(至少是過去幾十年的)魚眼模型。
1)視場模型:視場模型[19]及其逆模型的定義為
參數(shù)ω近似于相機的視場,雖然不是完全的[19]。這是一個圖像上的模型,就像分割模型一樣,其中ⅡuuⅡ和ⅡudⅡ定義了圖像平面上的未扭曲和扭曲的半徑?;蛘?,它也可以被表示為一個投影函數(shù)[23]。
非投影是由
將視場模型表示為投影函數(shù)的一個很好的結(jié)果是投影πfov (X)的域
覆蓋所有C3 = R3 (0、0、0)T。相比之下,視場模型的圖像上映射形式僅限于映射C3 = {X∈R3 | Z > 0}中的圖像點,這對任何圖像上映射都是如此。成像點的集合是I 2 = {u∈R2|ⅡⅡ≤θmax = π。我們將很快證明視場模型是等距模型的等價物,因此是一個球形投影。
2)統(tǒng)一相機模型:UCM最初用于建模散照相機[21],后來被證明在建模魚眼相機[47],[48]。它已被證明在一系列的鏡頭[46]上表現(xiàn)良好。首先,點X被投影到一個單位球體,然后投影到一個建模的針孔相機(圖6a)。我們提出了具有更好的數(shù)值性質(zhì)的版本。
圖6。球形模型。UCM (a)首先是對單位球體的投影,然后是透視投影。E-UCM用一個橢球體代替了球面,其系數(shù)為β。DS模型在UCM上增加了第二個單位的球體投影,球體之間的距離為ξ。
UCM的非投影由
Qc(θ)是一個復(fù)雜的方程(比上面的更復(fù)雜)
因此,這里并沒有顯示出來。投影的結(jié)構(gòu)域和徑向函數(shù)為
當α<為0.5時,針孔投影點在單位球體內(nèi),當α>為0.5時在外部,當α=為0.5時在球體上。
3)增強統(tǒng)一相機模型:UCM由增強UCM[22](圖6b)擴展,它將球形投影推廣到一個橢球體(或者,實際上,是一個一般的二次曲面),并能夠證明一些精度增益。E-UCM是由
其中,d=√β(X2+Y2)+Z2,β為橢圓系數(shù)-
cient.非投影函數(shù)對于EUCM來說并不漂亮,讀者可以參考的是[22]。有效的點和角度的集合為
4)雙球體模型:后來,UCM再次被雙球體(DS)模型[23]擴展,它增加了第二個單位球體投影,以實現(xiàn)更復(fù)雜的建模(圖6c)。
在[23]中給出了令人信服的結(jié)果,以證明了雙球模型的有效性。該模型的非投影函數(shù)為
圖7。一般透視映射的定義是由一個點到半徑為fs的球體的投影,然后是到焦距為fp的針孔模型的透視投影。這兩個投影中心被d偏移。與經(jīng)典模型一樣,它在制圖學(xué)中被知道了幾十年的[53]。
投影和非投影的有效范圍為
F. 其他型號
雖然我們已經(jīng)討論了許多更流行的魚眼投影模型,但這并不是詳盡的。無論出于什么原因,我們省略了一些似乎不太受歡迎的模型的細節(jié)。例如,巴克斯坦和Pajdla [49]提出了對經(jīng)典模型的兩個擴展。在[18]中也提出了一種基于對數(shù)的魚葉眼變換(FET),盡管與其他模型相比,其精度較低。[50]中提出的基于雙曲罪惡的廣角攝像機[51]模型,后來用于它,這里沒有討論,也沒有級聯(lián)單參數(shù)分割模型[52]。
G. 照相機型號的統(tǒng)一使用
隨著魚眼模型的普及,人們很自然地會懷疑一些模型之間是否存在共性,甚至在模型的開發(fā)過程中是否存在重復(fù)。
1)一般透視投影和魚眼模型:
統(tǒng)一相機模型屬于一類球體的一般垂直透視投影,在測測量學(xué)和制圖領(lǐng)域中有[53],[54],其中在球面上添加了中心投影的平凡步驟。立體投影和正交投影也屬于這一類。立體投影的針孔投影中心是在球體的表面上,而正字法投影具有無限的焦距(因此稱為術(shù)語正字法)。立體投影和UCM之間的聯(lián)系實際上在[21]中描述。
圖8。各種魚眼模型與一般透視投影之間的關(guān)系。雙線表示兩個模型是等價的,單行表示泛化/專業(yè)化。讓我們首先檢查圖7所示的一般垂直透視投影,。針孔相機沿z軸偏移一個距離d。到球面上的投影是由
這里我們使用s =(x,y,z)T表示半徑為fs的球上的點,以便將其與之前用來表示單位球上的點區(qū)分開來。點u是s的針孔投影
+d將這些點從球體轉(zhuǎn)換為針孔坐標系。因此,通過這兩個參數(shù)γ = fp和ξ = d/fs,我們有(24),UCM。另外,如果我們將針孔相機平面限制在球面表面(即d = fs),并制作fp = 2fs,我們得到立體方程(7)。
E-UCM [22]通過投影到一個橢球體而不是一個球體來擴展UCM。這種類型的投影在測地學(xué)和制圖學(xué)中被稱為[53],[54]橢球一般透視投影。我們不會在這里重新推導(dǎo)方程,而是讓讀者參考原始材料。如前所述,DS模型[23]通過添加第二個投影球來擴展對更復(fù)雜的光學(xué)進行建模的UCM。
因此,魚眼鏡頭的UCM、E-UCM和DS模型可以作為立體圖像相機模型的推廣。更正確的是,它們所有模型(UCM、E-UCM、DS、分割模型和立體模型)都是一類一般透視模型的一部分。如果我們允許fs接近于無窮大,那么(40)就成為了針孔投影模型。如果我們允許fp(因此也允許d)趨于無窮,那么我們得到正投影。
2)立體圖和除法模型:正如在[55]中所討論的,我們可以將針孔投影(2)與逆立體模型(8)給出
允許一個= 1/4f 2,這與分割模型相同,(16)。因此,我們可以說,分割模型是立體投影的圖像上版本。
3)等距和視場模型:考慮(2)給出的徑向針孔投影,以及等距魚眼投影模型(4)。將這兩者結(jié)合成與視場模型相似的形式(19)
由于fp和fe是自由參數(shù),通過計算法確定,我們可以將其設(shè)置為
因此我們可以看出,(19)式和(42)式是等效的映射函數(shù)。視場角模型是等距投影的基于圖像的版本。
結(jié)果:為了具體證明球極平面投影 / 除法模型對以及等距投影 / 視場角模型對的等效性,我們給出了一組小規(guī)模的結(jié)果。值得一提的是,[23] 中提供了五臺相機的一組參數(shù),其中包括視場角模型的參數(shù)。根據(jù) [23] 中視場角模型的參數(shù)集 ω,我們通過應(yīng)用(43)式來獲取等距參數(shù)。見表一。兩者之間的差異處于機器精度級別,這證明了這兩個模型是等效的。[46] 中呈現(xiàn)的結(jié)果(特別是參考表四)支持了球極平面投影模型和除法模型的等效性。我們可以從中看到,當將球極平面投影模型與除法模型進行對比時,殘差為零。我們還可以看到,當將統(tǒng)一相機模型(在 [46] 中稱為通用傳感器模型),或者等效地說將通用透視映射與球極平面投影模型和正射投影模型進行對比時,殘差也為零。
討論:魚眼相機應(yīng)用存在大量潛在的模型。在本文中,我們提及了二十種模型,不過可以肯定的是這并不詳盡。然而,我們已經(jīng)表明許多幾何模型之間存在很強的關(guān)聯(lián)性。至少有七種模型與通用透視投影相關(guān)或直接等效。此外,我們還表明一些近期開發(fā)的魚眼模型在數(shù)學(xué)上與經(jīng)典魚眼投影是等效的。
圖 9. 環(huán)視相機可視化效果
幾十年前提出的球極平面投影和等距模型等功能。在圖 8 中,我們給出了與通用透視投影相關(guān)的幾何魚眼模型示意圖。
三、環(huán)視相機系統(tǒng)
在本節(jié)中,我們將討論環(huán)視相機(SVC)的設(shè)置及其感知所需的基本要素。我們先從環(huán)視相機用于可視化的歷史應(yīng)用情況入手,這有助于理解汽車配置情況。然后我們再討論諸如校準、校正以及幾何基元等支撐模塊。
A. 可視化
從歷史上看,環(huán)視相機一直用于在駕駛員儀表盤上顯示,以實現(xiàn)泊車可視化。首個可視化應(yīng)用展示的是一個用于倒車輔助的后視魚眼相機 [12]。之后通過對行人、行車道等物體檢測的可視化,該應(yīng)用得到了進一步改進 [56],隨后利用四個魚眼相機將其增強為環(huán)視可視化 [57]。最初的系統(tǒng)基于二維俯視圖,如圖 9(a)所示。這主要用于泊車應(yīng)用,但也可用于其他如交通擁堵輔助等低速操控應(yīng)用場景。二維俯視圖假定地面是平坦的,所以當?shù)孛嬗衅鸱鼤r就會出現(xiàn)偽影。其他附近物體(如車輛)在這種視圖下會嚴重失真。通過采用一種類似碗狀的曲面(其中心附近是平坦的,朝周邊呈向上彎曲狀)構(gòu)建的三維環(huán)視視圖解決了這些問題,如圖 9(b)所示。此外,利用車輛周邊的深度估計可以調(diào)整碗狀曲面,以實現(xiàn)最佳視角,減少附近物體的偽影。例如,如果車輛一側(cè)有其他車輛靠近,該區(qū)域的碗狀曲面就會移到本車前方以避免產(chǎn)生偽影。通常,應(yīng)用程序會提供一個用戶界面,供駕駛員動態(tài)選擇所需的視角。環(huán)視可視化應(yīng)用通常是作為一個利用圖形處理單元(GPU)的 OpenGL [58] 渲染應(yīng)用來實現(xiàn)的。
傳統(tǒng)上,環(huán)視相機系統(tǒng)的成像流水線主要是為可視化而設(shè)計的。然而,這對于計算機視覺來說并非最優(yōu),因此 [59] 和 [60] 中提出了雙圖像流水線的概念。圖像流水線的控制回路部分(如自動曝光和自動增益控制)通常是針對可視化進行調(diào)整的,因為它們無法聯(lián)合調(diào)整。由于四個環(huán)視相機指向四個不同方向,它們可能處于不同的環(huán)境光照條件下。例如,陽光可能直射在車輛前部,相應(yīng)的圖像就會有很強的眩光和較高的飽和度;而車尾的相機則處于陰影中,畫面較暗。為提高視覺質(zhì)量,在將圖像拼接在一起時會對圖像的亮度和顏色進行協(xié)調(diào)統(tǒng)一 [61]。如果這種協(xié)調(diào)統(tǒng)一是在用于可視化和計算機視覺的通用圖像流水線中進行的,就可能會對計算機視覺產(chǎn)生影響。
B. 配置
在環(huán)視相機系統(tǒng)中使用魚眼相機的主要目的是覆蓋車輛周邊整個 360 度的近場區(qū)域。這是通過四個水平視場角(hFOV)約為 190 度、垂直視場角(vFOV)約為 150 度的魚眼相機實現(xiàn)的。魚眼相機的角覆蓋范圍很大,但其角分辨率相對較小,無法遠距離感知較小的物體,所以它主要用作近場傳感器。相比之下,典型的遠場前置相機的水平視場角為 120 度,垂直視場角為 60 度,其角覆蓋范圍明顯更小,但角分辨率要高得多,使其能夠遠距離感知物體。魚眼相機較大的水平視場角使得僅用四個魚眼相機就能實現(xiàn) 360 度覆蓋。較大的垂直視場角能夠捕捉到靠近車輛的區(qū)域,例如在路口停車時對交通信號燈等較高位置物體的檢測。
圖 1 展示了典型環(huán)視相機系統(tǒng)的安裝位置和視場角情況。四個相機放置在汽車的四個側(cè)面,用藍色圓圈標記出它們的位置。前置相機安裝在汽車的前格柵處,后置相機通常安裝在后備箱門把手處。左右兩側(cè)的相機安裝在后視鏡下方。它們共同覆蓋了車輛周邊整個 360 度的區(qū)域。相機的放置方式能確保車輛緊鄰區(qū)域可見,這對于泊車場景至關(guān)重要。正因如此,相機畫面中很大一部分包含了本車。人們還可以注意到視場角存在明顯的重疊區(qū)域,如交叉區(qū)域所示。這種重疊可用于解決運動結(jié)構(gòu)問題中的尺度問題。然而,這種重疊出現(xiàn)在周邊區(qū)域,而周邊區(qū)域的畸變是最大的,很難讓算法在該區(qū)域準確運行。圖 10 展示了在一個已商業(yè)部署的近場感知系統(tǒng)上進行的物體檢測和分割情況 [31]。
圖 10. 對一個已商業(yè)部署系統(tǒng)的圓柱校正環(huán)視圖像進行物體檢測和分割的示意圖 [31]。通過留意拱形門及其前方的車輛,可以觀察到視場重疊情況。
在巴黎一條繁忙的城市街道上進行了測試。通過留意位于前置相機中心以及左右兩側(cè)相機邊緣處的拱形門,就能觀察到視場重疊情況。門前的銀色汽車在這三個相機中均能被檢測到。還可以觀察到對車輛(左側(cè)相機左端)和行人(后置相機左端)的超大角度檢測情況。
C. 校準
之前我們已經(jīng)討論了各種魚眼相機模型。這些模型中的每一個都有一組參數(shù)(稱為內(nèi)參數(shù)),必須通過校準程序來估計。此外,還應(yīng)當估計相機的外參數(shù),即相機系統(tǒng)在車輛坐標系中的位置和方向 [62][63]。典型的校準過程是,首先檢測圖像特征(例如,棋盤格圖案中的角點 [64]),然后算法會嘗試通過最小化點的重投影誤差,利用校準設(shè)置模型來估計內(nèi)參數(shù)和外參數(shù),以對檢測到的特征進行投影。重投影誤差在此表明了具有一組參數(shù)的模型能夠在多大程度上表示鏡頭的投影函數(shù)。其他攝影測量方法利用消失點提取以及設(shè)定直線來估計校準參數(shù) [34][44]。OpenCV 庫中實現(xiàn)了一個廣為人知的校準工具箱 [37]。OpenCV 還為魚眼相機模型提供了一個版本 [20](見第二章 D.1 節(jié))。其他已知的魚眼相機校準工具箱還有 OCamCalib [42][65][66] 以及 Kalibr [67][68][69][70]。最后,在 [71] 中,基于棋盤格特征提取和相機間對應(yīng)關(guān)系,提出了一種針對車輛上多個魚眼相機(內(nèi)參數(shù)和外參數(shù))的校準過程。這適用于環(huán)視相機系統(tǒng),因為相對于車輛提供準確的外校準是提供無縫環(huán)視圖像的先決條件。當校準圖案相對于車輛坐標系具有已知位置時,相機的位姿可以像上述那樣在離線環(huán)境中進行估計 [72]。在車輛的使用壽命期間,由于機械部件的磨損,相機相對于車輛的位姿可能會發(fā)生漂移。理想的情況是相機系統(tǒng)能夠利用一類算法自動更新其校準。為了校正相機位姿在在線環(huán)境中的變化,可以通過最小化相鄰相機地面投影之間的光度誤差來實現(xiàn) [73]。崔(Choi)等人的方法利用相鄰相機捕獲和檢測到的相應(yīng)車道標線來優(yōu)化初始校準 [74]。在歐陽(Ouyang)等人的 [75] 中,提出了一種通過考慮車輛里程計來優(yōu)化外部方向的策略,即利用幾何一致性估計車輛的前進運動,并利用垂直消失點估計來確定車輛的方向。這些算法大多用于校正幾何錯位,但需要通過離線校準獲得初始位置。弗里爾(Friel)等人 [76] 描述了一種從汽車視頻序列中自動提取魚眼相機內(nèi)參數(shù)的方法,不過該方法僅限于單參數(shù)魚眼模型(如等距模型)。
D. 投影幾何
在針孔相機中,平面上的任意一組平行線會匯聚于單個消失點。這些可用于估計內(nèi)參數(shù)和外參數(shù)。對于針孔相機模型,幾何問題通??梢岳镁€性代數(shù)來構(gòu)建。在這種情況下,可以使用霍夫變換(Hough-Transformation)[77] 來檢測平行線。所有消失點的集合就是該平面的地平線。在現(xiàn)實世界的相機系統(tǒng)中,針孔相機是相機的一種數(shù)學(xué)模型,它存在諸如光學(xué)畸變等形式的誤差。對于窄視場角相機來說,這通常是可以接受的,因為其畸變程度較小。對于寬視場角相機而言,畸變過大,以至于這種方法并非實用的解決方案,而且如果相機的視場角(FOV)大于 180 度,那么原始圖像中的點與校正后的圖像平面之間就不存在一一對應(yīng)關(guān)系。對于魚眼相機來說,一個更好的模型是球面投影面 [78][79]。在魚眼圖像中,休斯(Hughes)等人在 [34] 中描述了如何針對魚眼相機將那些平行線近似擬合為圓或圓錐曲線,以確定消失點或地平線。這些平行線對應(yīng)于球面的大圓。相應(yīng)地,魚眼相機所拍攝圖像中的直線近似為圓錐曲線 [55],魚眼相機拍攝圖像中的平行線會匯聚于兩個消失點(圖 11)。
圖 11. 地平線、消失點和極線示意圖。
魚眼圖像中的線條可近似為圓錐曲線。類似于透視圖像中的平行直線匯聚于單個消失點,魚眼圖像中的平行直線匯聚于兩個消失點。這兩個消失點投影到單位球面上時,是球面上的對跖點。紅色和綠色分別表示水平平行線(藍色為相關(guān)地平線)和垂直平行線的透視情況。紅色和綠色的點表示消失點,其中一個消失點位于圖像之外。
E. 球面極線幾何
立體視覺的幾何關(guān)系由極線幾何來描述,它可與特征提取器結(jié)合,用于深度估計和運動恢復(fù)結(jié)構(gòu)方法。在針孔相機模型中,穿過兩個相機光心的直線與像平面的交點定義了被稱為對極點的特殊點。這條直線被稱為基線。穿過基線的每個平面在兩個像平面上定義了匹配的極線。一個相機中的點位于另一個相機的極線上,反之亦然。這將雙視圖相機設(shè)置中對應(yīng)點的搜索(立體匹配)簡化為一維問題。對于全向相機(如魚眼相機),我們采用球面投影面來代替平面,此時討論極面而非極線會更直觀,如圖 12 所示。從兩個相機對單個三維點的理想觀測將位于同一個極面上,這與針孔相機情況下它們位于極線上的原理相同。然而,需要注意的是,必須對相機進行校準,以便將圖像特征映射到投影球面上。相比之下,對于窄視場角相機,極線幾何是針對未校準情況通過基礎(chǔ)矩陣來定義的。
F. 校正
它可以消除魚眼相機的徑向失真和重復(fù)使用標準的感知算法。雖然這是一種快速的方式開始魚眼相機感知發(fā)展,但有幾個問題與糾正。首先,理論上,由于水平視場大于180?,沒有水平視場,因此有光線入射在鏡頭上
圖12。球形外極幾何。外極平面Π是圍繞外極e的鉛筆,由相機中心C和C定義。理想的觀測值u和u將位于外極平面上。然而,實際觀測點的u和u,在存在噪聲的情況下,到外極平面的距離將為非零。
這些光線射向鏡頭后方,這在針孔相機設(shè)置中是行不通的。使用大視場角的魚眼鏡頭,而后又因校正而損失部分視場角,這是適得其反的。第二個重要問題是重采樣畸變,它在實際應(yīng)用中更為常見。它是插值偽影的一種特殊表現(xiàn)形式,對于魚眼圖像而言,一個小區(qū)域(特別是在畸變較大的周邊區(qū)域)在校正后的圖像中會擴展成一個很大的區(qū)域,從而導(dǎo)致噪聲較大。特別是,[80] 中討論了重采樣引入的虛假頻率成分對計算機視覺造成的負面影響。此外,在推理階段需要進行扭曲變換步驟,這會消耗大量的計算能力和內(nèi)存帶寬。它會生成帶有無效像素的非矩形圖像,這進一步降低了計算效率。
常用的魚眼圖像校正方法如圖 13 所示。圖 13(a)展示了標準直線校正。從缺失的水平白線可以看出近場區(qū)域有明顯損失,左右邊緣區(qū)域也有缺失。盡管存在明顯損失,但這使得能夠使用標準相機算法。圖 13(b)展示了一種三次近似校正,其中魚眼鏡頭流形表面由一個開口立方體近似表示。它可被解釋為魚眼投影表面的分段線性近似。每個平面都是直線校正,因此在每個塊內(nèi)都可以使用標準算法。然而,立方體兩個表面之間存在較大畸變,對于跨越這兩個區(qū)域的物體將很難進行檢測。人們還可以注意到由于周邊的重采樣偽影導(dǎo)致的強烈透視畸變和模糊現(xiàn)象。
在實際應(yīng)用中,一種常見的校正過程是使用圓柱面,如圖 13(c)所示。它可被解釋為一種準線性近似,因為它在垂直方向上是線性的,而在水平方向上表面具有二次曲率。相對于直線視口,它能覆蓋大得多的視場角。其主要優(yōu)點是
圖 13. 魚眼圖像的去畸變:(a)直線校正;(b)分段線性校正;(c)圓柱面校正。左:原始圖像;右:去畸變后的圖像。
其主要優(yōu)點在于建筑物上的垂直線條表明垂直物體在校正后依然保持垂直 [81]。因此,掃描線得以保留,以便在兩個連續(xù)的魚眼圖像(運動立體視覺)之間或者在魚眼相機與窄視場角相機(非對稱立體視覺)之間針對立體算法進行水平搜索。其主要缺點是它本身無法捕捉到靠近車輛的近場區(qū)域。這可以通過使用一個額外的平滑曲面來覆蓋近場區(qū)域加以解決。此外,附近物體的畸變也會增大。
四、感知任務(wù)
由于數(shù)據(jù)集有限,關(guān)于魚眼圖像感知任務(wù)的文獻相對較少。我們將感知任務(wù)分為語義任務(wù)、幾何任務(wù)和時間任務(wù)。最后,我們將討論聯(lián)合多任務(wù)模型。
A. 語義任務(wù)
在本節(jié)中,我們將討論基于外觀模式識別的語義任務(wù)。
語義分割:這是一個為圖像中的每個像素分配類別標簽(如行人、道路或路緣石等)的過程,如圖 14(第二列)所示。與基于經(jīng)典計算機視覺方法應(yīng)用于針孔前置相機的語義分割相比,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法近來取得了很大成功 [82]。然而,在城市交通場景中,自動駕駛汽車需要更寬的視場角來感知周邊情況,特別是在十字路口處。鄧等人提出了一種重疊金字塔池化模塊(OPP - Net)[83],通過采用多種焦距生成帶有各自標注的各種魚眼圖像。OPP - Net 在一個現(xiàn)有的城市交通場景數(shù)據(jù)集上進行了訓(xùn)練和評估。
魚眼圖像語義分割數(shù)據(jù)集。此外,為提高模型的泛化性能,[83] 提出了一種新穎的縮放增強技術(shù),專門針對魚眼圖像來擴充數(shù)據(jù)。大量實驗表明了縮放增強技術(shù)的有效性,并且 OPP - Net 在城市交通場景中表現(xiàn)良好。塞斯(Saez)等人 [84] 引入了一種實時語義分割技術(shù),它是對高效殘差分解網(wǎng)絡(luò)(ERFNet)[85] 針對魚眼道路序列的一種適配,并基于 “城市景觀”(CityScapes)[86] 為魚眼相機生成了一個新的語義分割數(shù)據(jù)集。測試是在真實的魚眼圖像序列上進行的,不過由于沒有真實標注信息,只展示了定性結(jié)果。
鄧等人 [87] 利用環(huán)視相機來處理 360 度道路場景分割問題,因為環(huán)視相機已在量產(chǎn)車輛中被廣泛采用。為應(yīng)對魚眼圖像中的畸變問題,他們提出了受限可變形卷積(RDC)。通過基于輸入特征圖學(xué)習卷積濾波器的形狀,它能夠?qū)崿F(xiàn)有效的幾何變換建模。此外,作者們還提出了一種縮放增強技術(shù),用于將透視圖像轉(zhuǎn)換為魚眼圖像。這有助于創(chuàng)建大規(guī)模的環(huán)視相機圖像訓(xùn)練集。還開發(fā)了一種基于 RDC 的語義分割模型。通過結(jié)合真實世界圖像和轉(zhuǎn)換后的圖像,采用多任務(wù)學(xué)習(MTL)架構(gòu)對真實世界的環(huán)視相機圖像進行訓(xùn)練。這些模型在 “城市景觀”(Cityscapes)[86]、“魚眼城市景觀”(FisheyeCityScapes)[88] 和 “合成場景”(SYNTHIA)[89] 數(shù)據(jù)集上進行訓(xùn)練,并在真實的魚眼圖像上進行測試。
克萊門特(Clément)等人 [90] 著重表明可變形卷積可以應(yīng)用于現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)之上,而無需改變其預(yù)訓(xùn)練權(quán)重。這對依賴多種圖像模態(tài)的系統(tǒng)有所幫助,因為現(xiàn)在每個模型都可以可靠地進行修改,無需從頭開始重新訓(xùn)練。他們還證明了可變形組件可以獨立訓(xùn)練(不過如果進行微調(diào),建議使用批量歸一化)。作者們還指出,不再需要大量帶有標注的魚眼圖像數(shù)據(jù)集。在學(xué)習了可變形組件之后,無需微調(diào)網(wǎng)絡(luò)權(quán)重就能實現(xiàn)高性能。
姚祖(Yaozu)等人 [88] 提出了一種 7 自由度(DoF)增強技術(shù),用于將直線透視圖像轉(zhuǎn)換為魚眼圖像。它包含了世界與魚眼坐標系之間的空間關(guān)系(6 自由度)以及虛擬魚眼相機的焦距變化(1 自由度)。在訓(xùn)練階段,直線透視圖像會被轉(zhuǎn)換為具有 7 自由度的魚眼圖像,以模擬由位置、方向和焦距各不相同的相機所拍攝的魚眼圖像。這在處理畸變的魚眼數(shù)據(jù)時提高了模型的準確性和魯棒性。7 自由度增強技術(shù)為魚眼相機的語義分割提供了一種通用解決方案,也為自動駕駛的圖像增強提供了明確的參數(shù)設(shè)置,并創(chuàng)建了 “魚眼城市景觀”(FisheyeCityScapes)[88] 數(shù)據(jù)集。
圖14。來自森林景觀數(shù)據(jù)集[2]上的OmniDet框架的原始魚眼圖像的定性結(jié)果。第一列表示來自前、左、右、后攝像機的輸入圖像,第二列表示距離估計,第三列表示語義分割圖,第四列表示廣義目標檢測表示,第五列表示運動分割。
目標檢測:魚眼圖像中的目標檢測受徑向畸變的影響最為嚴重。由于魚眼圖像形成過程中固有的畸變,與光軸成不同角度的物體看起來差異很大,這使得物體檢測變得困難(見圖 14)。矩形邊界框往往并非物體大小的最佳表示方式,有時其面積僅是標準邊界框的一半,而有時該邊界框本身的面積又會是目標物體實際面積的兩倍。實例分割能夠提供物體的精確輪廓,但對其進行標注的成本要高得多,而且還需要一個邊界框估計步驟。校正能帶來顯著益處,但也存在第三節(jié)所討論的副作用。
“魚眼檢測”(FisheyeDet)[91] 強調(diào)了構(gòu)建一個有用數(shù)據(jù)集的必要性。他們通過對帕斯卡視覺對象分類(Pascal VOC)數(shù)據(jù)集 [92] 施加畸變,創(chuàng)建了一個模擬魚眼數(shù)據(jù)集。四邊形表示以及畸變形狀匹配有助于 “魚眼檢測” 的實施。此外,還提出了無先驗魚眼表示法(NPFRM)來提取不使用鏡頭模式和校準模式的自適應(yīng)畸變特征,同時還提出了畸變形狀匹配(DSM)策略,以便在魚眼圖像中緊密且穩(wěn)健地定位物體。
他們利用由畸變物體輪廓形成的不規(guī)則四邊形邊界框,通過將其與無先驗魚眼表示法和畸變形狀匹配策略相結(jié)合,創(chuàng)建了一個端到端的網(wǎng)絡(luò)探測器。
球網(wǎng)”(SphereNet)[93] 及其變體 [94]、[95]、[96] 在球面上構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)(CNNs),并且還明確地對畸變不變性進行編碼。“球網(wǎng)” 通過調(diào)整卷積濾波器的采樣位置并將其環(huán)繞在球面上以消除畸變的方式來實現(xiàn)這一點。利用基于常規(guī)卷積建模的 “球網(wǎng)”,可以將現(xiàn)有的透視卷積神經(jīng)網(wǎng)絡(luò)模型遷移到全向場景中。此外,水平和垂直方向上的準畸變表明魚眼圖像并不符合球面投影模型。楊等人 [97] 對多個將等距柱狀投影(ERP)序列作為直接輸入數(shù)據(jù)的檢測算法的結(jié)果進行了比較,結(jié)果顯示,如果不將等距柱狀投影序列投影為常規(guī)二維圖像,卷積神經(jīng)網(wǎng)絡(luò)只能達到一定的準確率。
“魚眼 YOLO”[14]、[98] 研究了諸如定向邊界框、橢圓以及通用多邊形等多種表示形式。利用交并比(IoU)指標以及精確的實例分割真實標注,他們對這些表示形式進行了比較。他們提出了一種新的曲線邊界框方法,該方法對于魚眼畸變相機模型來說具有最佳特性,同時還提出了一種曲率自適應(yīng)周長采樣方法來生成多邊形頂點,相較于均勻采樣,這種方法可將平均精度均值(mAP)分數(shù)提高 4.9%。總體而言,所提出的多邊形卷積神經(jīng)網(wǎng)絡(luò)模型將平均交并比相對準確率提高了 40.3%。
污漬問題:環(huán)視相機直接暴露在外部環(huán)境中,容易受到污漬沾染。相比之下,前置相機位于擋風玻璃后面,受污漬影響的可能性較小。這一任務(wù)最初在 [99] 中被正式定義。污漬區(qū)域有兩種類型:不透明的(泥土、灰塵、積雪)和透明的(水、油以及油脂)。由于背景可見度有限,透明污漬可能難以識別。污漬會導(dǎo)致感知精度顯著下降,因此,對于更高級別的自動駕駛,會采用噴水清潔系統(tǒng)或者更先進的基于超聲波的清潔方式。即便相機未被清潔,也需要進行污漬檢測,以便在圖像質(zhì)量下降的區(qū)域增強視覺算法的不確定性處理能力。由于收集污漬數(shù)據(jù)比較困難,“臟污生成對抗網(wǎng)絡(luò)”(DirtyGAN)[100] 提出利用生成對抗網(wǎng)絡(luò)(GANs)在真實場景上人工生成不同的污漬圖案。污漬的邊界模糊且界定不清晰,因此人工標注可能會存在主觀性且容易產(chǎn)生誤差。達斯(Das)等人 [101] 提出了瓦片級污漬分類方法,以處理有誤差的標注并提高計算效率。烏里卡爾(Uricar)等人 [102] 提出利用基于集成的偽標簽半監(jiān)督學(xué)習方法來自動優(yōu)化有誤差的標注。
從感知角度來看,處理污漬問題有兩種方式。一種方式是納入魯棒性措施來改進感知算法。例如,薩卡里迪斯(Sakaridis)等人 [103] 提出了一種能識別霧天場景的語義分割方法。另一種方式是對污漬區(qū)域進行修復(fù)。泥土或水滴通常是靜止的,偶爾會有流動水滴的低頻動態(tài)變化,因此,使用基于視頻的修復(fù)技術(shù)會更有效。波拉夫(Porav)等人 [104] 通過結(jié)合使用立體相機和滴水裝置來模擬相機鏡頭上的雨滴,對透明污漬問題進行了探索。這樣做是為了自動標注有雨漬的像素,他們還訓(xùn)練了一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)來修復(fù)有雨漬的區(qū)域。烏里卡爾(Uricar)等人 [105] 提供了一個針對環(huán)視相機的去污漬數(shù)據(jù)集基準。他們使用三個不同程度沾染污漬且彼此鄰近的相機,以及一個未沾染污漬、可作為真實標注依據(jù)的第四個相機。他們實現(xiàn)了一個多幀基準方法,該方法能夠隨著時間推移利用污漬遮擋區(qū)域可見性變化的優(yōu)勢。
太陽眩光檢測是與污漬問題密切相關(guān)的一項任務(wù)。在手動駕駛和自動駕駛中,太陽眩光都是一個典型問題。太陽眩光會導(dǎo)致圖像曝光過度,這對視覺感知算法有重大影響。對于更高級別的自動駕駛而言,系統(tǒng)能夠識別出存在太陽眩光(這可能會降低系統(tǒng)性能)是至關(guān)重要的。關(guān)于自動駕駛中太陽眩光檢測的文獻比較匱乏,其檢測方法主要基于圖像處理算法來檢測飽和亮度區(qū)域并提取相關(guān)部分。從安全系統(tǒng)的角度來看,需要一種高度魯棒性的算法。因此,亞希奧伊(Yahiaoui)等人 [106] 創(chuàng)建了兩種互補的算法,它們利用傳統(tǒng)圖像處理技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習全局上下文信息。
充電板輔助:電動汽車正變得越來越普及,感應(yīng)式充電板是一種實用且有效的充電方式。然而,由于駕駛員通常很難精確地將車輛對準以實現(xiàn)最佳感應(yīng)充電,所以理想的解決方案是對充電板進行自動對準。使用環(huán)視相機是很理想的,因為這屬于近場感知任務(wù),并且可以作為自動泊車系統(tǒng)的擴展功能來實現(xiàn)。達哈爾(Dahal)等人 [107] 提出了一種基于環(huán)視相機框架的方法,該方法能自動識別、定位車輛,并使其與感應(yīng)充電板對齊。充電板的外觀設(shè)計并不統(tǒng)一,而且往往無法提前識別。因此,采用依賴離線訓(xùn)練的系統(tǒng)偶爾會失效。此后,他們提出了一種自監(jiān)督在線學(xué)習技術(shù),該技術(shù)通過利用駕駛員手動將車輛與充電板對齊時的操作,以及弱監(jiān)督語義分割和深度預(yù)測,學(xué)習一個分類器來自動標注視頻序列中的充電板,以便進行進一步訓(xùn)練。當遇到之前未檢測到的充電板時,駕駛員需要手動將車輛對準一次,因為位于地面上的充電板是平的,從遠處不容易看到和發(fā)現(xiàn)。為了實現(xiàn)從更廣泛的范圍進行對準,他們提議采用視覺同時定位與地圖構(gòu)建(SLAM)框架來學(xué)習相對于充電板的地標。
拖車輔助:拖車常被用于運輸產(chǎn)品和娛樂設(shè)備。即使對于經(jīng)驗豐富的駕駛員來說,操控帶有拖車的車輛(尤其是倒車時)也可能很棘手且令人不愉快。因此,在這些情況下,駕駛員輔助系統(tǒng)就派上用場了。通常會使用單個后視魚眼相機感知算法來實現(xiàn)相關(guān)功能。由于沒有針對這一難題的公開可用數(shù)據(jù)集,所以關(guān)于該主題的學(xué)術(shù)研究相對較少。這促使達哈爾(Dahal)等人 [108] 詳細闡述了所有拖車輔助應(yīng)用場景,并針對拖車感知問題提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的解決方案。通過深度學(xué)習,他們構(gòu)建了一個用于拖車檢測和鉸接角度估計任務(wù)的數(shù)據(jù)集。他們利用高效的卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶(LSTM)模型,通過對拖車及其角度進行檢測和跟蹤,開發(fā)出了相關(guān)方法并獲得了較高的準確率。
B. 幾何任務(wù)
1)深度估計:它涉及到在一個像素水平上估計到一個物體(或任何平面)的距離,如圖14所示。計算相對于照相機平面的距離仍然是非常具有挑戰(zhàn)性的。目前,大部分的工作是在糾正的KITTI [109]序列,其中桶失真被去除。對于針孔相機,深度定義為到相機平面的垂直距離,即z。前運動結(jié)構(gòu)(SfM)接近[110],[111],通過參數(shù)化網(wǎng)絡(luò)的不偶預(yù)測到非投影操作來估計逆深度。這種參數(shù)化不適用于魚眼相機,因為它們經(jīng)歷了巨大的畸變,從而獲得了與針孔相機的外極線相比的角差異。為了應(yīng)用與針孔相同的方法,我們需要修正魚眼圖像,這將導(dǎo)致第三-F節(jié)所述的視場損失。然而,同樣適用于針孔投影模型相機的多視圖幾何[112]原理也適用于魚眼圖像。通過從不同的角度觀察場景,并建立它們之間的對應(yīng)關(guān)系,可以估計出潛在的幾何結(jié)構(gòu)。值得注意的是,當使用SfM方法時,考慮CNN輸出范數(shù)比角距離差,因為它將使視圖合成操作的角距離難以參數(shù)化。此外,對于大于180?的視場,z的值可以(接近于)零或負,這也會導(dǎo)致數(shù)值問題,因為模型通常通過z計算有一些直接或間接的劃分。相反,估計徑向距離是有用的,即范數(shù)√x2+y2+z2而不是z。范數(shù)總是正的和非零的(除了x,y,z = 0),并允許一個更穩(wěn)定的數(shù)值實現(xiàn)。
在激光雷達距離測量上,如KITTI,深度預(yù)測模型可以以有監(jiān)督的方式學(xué)習。Ravi Kumar等人[113]采用了類似的方法,證明了利用激光雷達地面真相訓(xùn)練魚眼圖像來預(yù)測距離地圖的能力。盡管如此,激光雷達的數(shù)據(jù)是非常稀疏和昂貴的建立良好的口徑。為了克服這個問題,距離網(wǎng)[114]專注于解決最具挑戰(zhàn)性的幾何之一
問題,即利用基于圖像的重建技術(shù)對原始的魚眼相機進行距離估計,這是一個艱巨的任務(wù),因為二維圖像到三維表面之間的映射是一個缺乏約束的問題。深度估計也是一個不確定的問題,因為每個像素有幾個局部錯誤的深度,這也可以復(fù)制新的觀點。[16]介紹了一種通用的端到端自監(jiān)督訓(xùn)練框架,用于估計不同相機模型的原始失真圖像上的單眼深度圖。作者展示了框架在原始KITTI和森林景觀數(shù)據(jù)集上的工作結(jié)果。
“同步距離網(wǎng)絡(luò)”(SynDistNet)[115] 學(xué)習了語義感知幾何表示,這種表示能夠在自監(jiān)督學(xué)習的運動恢復(fù)結(jié)構(gòu)(SfM)情境下消除光度模糊性。它們納入了一種廣義的魯棒損失函數(shù) [116],該函數(shù)在顯著提升性能的同時,消除了對光度損失進行超參數(shù)調(diào)整的必要性。它們采用了一種語義掩蔽方法,以減少因動態(tài)物體違反靜態(tài)世界假設(shè)而產(chǎn)生的偽影。與先前針對魚眼圖像的方法 [16]、[114] 相比,“同步距離網(wǎng)絡(luò)” 大幅降低了均方根誤差(RMSE),降幅達 25%。當前大多數(shù)深度估計方法依賴單個相機,無法無縫推廣到多個魚眼相機上。此外,該模型必須在具有不同相機幾何結(jié)構(gòu)的多種不同尺寸的汽車產(chǎn)品線中實施。即便在同一條汽車產(chǎn)品線內(nèi),由于制造公差,相機內(nèi)參數(shù)也會有所不同。深度神經(jīng)網(wǎng)絡(luò)似乎確實對這些變化很敏感,對每個相機實例進行訓(xùn)練和測試幾乎是不可能的。因此,“奇異值分解距離網(wǎng)絡(luò)”(SVDistNet)[117] 提出了一種創(chuàng)新的相機幾何自適應(yīng)多尺度卷積,它將相機參數(shù)作為條件輸入,使網(wǎng)絡(luò)能夠推廣到之前未知的魚眼相機上。
視覺里程計:劉等人 [118] 描述了一種用于魚眼立體相機的傳統(tǒng)直接視覺里程計技術(shù)。該技術(shù)可同時進行相機運動估計和半稠密重建。該流程中有兩個線程:一個用于跟蹤,另一個用于建圖。他們在跟蹤線程中使用半稠密直接圖像對齊來估計相機位姿。為規(guī)避極曲線問題,采用平面掃描立體算法進行立體匹配并初始化深度。崔等人 [119] 展示了一種使用魚眼相機的大規(guī)模、實時稠密幾何建圖技術(shù)。相機位姿是從全球?qū)Ш叫l(wèi)星系統(tǒng) / 慣性導(dǎo)航系統(tǒng)(GNSS/INS)獲取的,但他們也提出可以從視覺慣性里程計(VIO)框架中獲取。深度圖融合會使用通過這些途徑獲取的相機位姿。亨等人 [120] 描述了一種用于魚眼立體相機的半直接視覺里程計算法。在跟蹤線程中,他們在估計相機位姿的同時跟蹤有朝向的圖像塊;在建圖線程中,他們會估計每個待跟蹤新圖像塊的坐標和表面法線。表面法線估計使我們能夠從不同視角跟蹤圖像塊。他們在該技術(shù)中不采用描述符或強描述符匹配來檢測圖像塊對應(yīng)關(guān)系,而是采用基于光流一致性的方法來尋找圖像塊對應(yīng)關(guān)系。近來,已經(jīng)出現(xiàn)了許多針對魚眼相機的視覺里程計方法,包括 [121] 和 [122]。此外,格珀特(Geppert)等人 [121] 使用了一個多相機視覺慣性里程計框架,將視覺慣性定位技術(shù)擴展到大規(guī)模環(huán)境中,從而形成了一個能夠進行精確且無漂移位姿估計的系統(tǒng)。拉維?庫馬爾(Ravi Kumar)等人 [123] 將卷積神經(jīng)網(wǎng)絡(luò)(CNNs)應(yīng)用于視覺里程計任務(wù),該任務(wù)在單目距離估計框架中充當輔助任務(wù)。
運動分割:它被定義為在一對圖像序列中識別諸如車輛和行人等獨立運動物體(像素),并將它們與靜態(tài)背景區(qū)分開來的任務(wù),如圖 14 所示。它被用作一種不依賴外觀、利用運動線索來檢測任意運動物體(如稀有動物,例如袋鼠或駝鹿)的方法。它最初在 “運動分割網(wǎng)絡(luò)”(MODNet)[124] 中針對自動駕駛進行了探索。近來,實例級運動分割在 “實例運動分割”(InstanceMotSeg)[125] 中被定義并進行了探索。“魚眼運動分割網(wǎng)絡(luò)”(FisheyeMODNet)[126] 將其擴展到未經(jīng)校正的魚眼相機上。當時并沒有明確的運動補償,但將其作為未來工作提及了。馬里奧蒂(Mariotti)等人 [79] 基于車輛里程計 [127],采用經(jīng)典方法來完成這一任務(wù)。他們對光流進行了球面坐標變換,并調(diào)整了正高度、深度和極線約束,使其適用于這種設(shè)置。他們還提出了反向平行約束,以消除車輛與本車平行移動時通常會出現(xiàn)的運動視差模糊性。
C. 時間相關(guān)任務(wù)
盡管像深度和運動這類幾何任務(wù)可以使用多幀圖像進行訓(xùn)練和推理,但輸出結(jié)果僅針對單幀圖像進行定義。我們將輸出結(jié)果基于多幀圖像定義的任務(wù)稱為時間相關(guān)任務(wù)。這類任務(wù)通常需要對多幀連續(xù)圖像進行標注。
跟蹤:目標跟蹤是常見的時間相關(guān)任務(wù),需要在多幀圖像中對目標進行關(guān)聯(lián)。在 [128] 中針對環(huán)視相機對運動物體的檢測和跟蹤進行了探索,他們采用了一種經(jīng)典的基于光流的跟蹤方法。“廣視角行人檢測與跟蹤頭頂監(jiān)控數(shù)據(jù)集”(WEPDTOF)[129] 是近期發(fā)布的一個數(shù)據(jù)集,用于在頭頂監(jiān)控場景下的魚眼相機上進行行人檢測和跟蹤。盡管它并非汽車領(lǐng)域的數(shù)據(jù)集,但它涵蓋了在魚眼相機上開發(fā)跟蹤系統(tǒng)所面臨的必要挑戰(zhàn)。軌跡預(yù)測與跟蹤密切相關(guān),在軌跡預(yù)測任務(wù)中,必須對感興趣目標在下一組圖像幀中的位置進行預(yù)測。在自動駕駛的情況下,這項任務(wù)尤其會在三維鳥瞰視角空間中進行?!盎趫A柱校正的魚眼前置相機車輛軌跡預(yù)測”(PLOP)算法 [130] 探索了在對魚眼前置相機圖像應(yīng)用圓柱校正后進行車輛軌跡預(yù)測的方法。
重識別:重識別(Re-ID)是對不同相機所檢測到的物體進行關(guān)聯(lián)的任務(wù),它也可以包括跨相機隨時間變化的關(guān)聯(lián)。吳等人 [131] 提議在環(huán)視相機上進行車輛重識別,并強調(diào)了兩個重大挑戰(zhàn):首先,由于魚眼畸變、遮擋、截斷以及其他因素,在單相機視角下,很難從之前的圖像幀中檢測到同一輛車。其次,從多相機視角來看,同一輛車的外觀會因所用相機的不同而發(fā)生極大變化。他們提出了一種新的質(zhì)量評估機制,以抵消跟蹤框漂移和目標一致性的影響。他們采用了一種基于注意力機制的重識別網(wǎng)絡(luò),并將其與一種空間約束方法相結(jié)合,以提升不同相機的性能。
趙等人 [132] 提出了一種行人重識別算法。它包含一個單相機檢測與跟蹤模塊以及一個應(yīng)用于多相機視圖的雙相機重識別模塊。檢測模塊利用 “YOLOv3”[133] 在單相機視角視頻中識別行人。跟蹤模型通過將 “OSnet”[134] 與 “DeepSORT”[135] 相結(jié)合,對行人進行跟蹤并為每個已識別的行人分配一個身份標識。這兩個模型都通過遷移學(xué)習流程進行了適配,以適用于魚眼圖像。
同時定位與地圖構(gòu)建(SLAM):特征對應(yīng)包括關(guān)鍵點檢測、描述以及匹配,它是同時定位與地圖構(gòu)建(SLAM)系統(tǒng)中的首要步驟?!棒~眼超點”(FisheyeSuperPoint)[136] 為魚眼圖像引入了一種獨特的訓(xùn)練和評估方法。作為起點,他們采用了 “超點”(SuperPoint)[137],這是一種自監(jiān)督的關(guān)鍵點探測器和描述符,已經(jīng)產(chǎn)生了當前最先進的單應(yīng)性預(yù)測結(jié)果。他們提出了一個魚眼適配框架,用于在無畸變的魚眼圖像上進行訓(xùn)練;通過魚眼扭曲操作在魚眼圖像上進行自監(jiān)督訓(xùn)練。魚眼圖像經(jīng)過中間投影到單位球面這一階段后,被轉(zhuǎn)換為一幅新的畸變圖像,相機的虛擬位姿可以在 6 自由度上進行改變。特里帕蒂(Tripathi)等人 [138] 利用 “ORB SLAM” 流程,探索了使用環(huán)視魚眼相機進行重定位的問題。其目標是對諸如公寓小區(qū)這樣的私人區(qū)域進行地圖繪制,并依據(jù)該地圖進行重定位,以輔助自動泊車。他們在原始魚眼圖像上進行特征檢測,并分析了不同特征對應(yīng)算法在原始魚眼相機上的對比情況。
D. 多任務(wù)模型
多任務(wù)學(xué)習(MTL)是通過從多任務(wù)監(jiān)督信號中學(xué)習共同的共享表示來進行的。自從深度學(xué)習出現(xiàn)以來,許多密集預(yù)測任務(wù)(即生成像素級預(yù)測的任務(wù))在性能方面都有了顯著提升。通常情況下,這些任務(wù)是逐個學(xué)習的,每個任務(wù)都需要訓(xùn)練其自身的神經(jīng)網(wǎng)絡(luò)。然而,近來的多任務(wù)學(xué)習方法 [149][150] 通過利用學(xué)習到的共享表示聯(lián)合處理多個任務(wù),在性能、計算復(fù)雜度以及內(nèi)存占用方面都展現(xiàn)出了頗具前景的成果。
對于魚眼相機,西斯圖(Sistu)等人 [151] 提出了一個用于學(xué)習目標檢測和語義分割的聯(lián)合多任務(wù)學(xué)習模型。其主要目標是在低功耗的片上嵌入式系統(tǒng)上實現(xiàn)實時性能,對這兩項任務(wù)使用相同的編碼器。他們利用一個由兩個解碼器共享的類似 ResNet10 的簡單編碼器構(gòu)建了一個高效的架構(gòu)。目標檢測使用 YOLO v2 解碼器,而語義分割則使用全卷積網(wǎng)絡(luò)(FCN8)解碼器。梁(Leang)等人探索了魚眼相機上兩項任務(wù)設(shè)置的不同任務(wù)加權(quán)方法 [152]。“魚眼多網(wǎng)”(FisheyeMultiNet)[153] 從基于相機的深度學(xué)習算法角度討論了自動泊車系統(tǒng)的設(shè)計與實現(xiàn)。在低功耗嵌入式系統(tǒng)上,“魚眼多網(wǎng)” 是一個實時的多任務(wù)深度學(xué)習網(wǎng)絡(luò),它能夠識別泊車所需的所有物體。其配置是一個以 15 幀 / 秒運行的四相機系統(tǒng),可執(zhí)行三項任務(wù):目標檢測、語義分割以及污漬檢測。
最后,在 “全向檢測”(OmniDet)[123] 中提出了僅使用相機對環(huán)境近場感知進行整體實時場景理解的方法。他們構(gòu)建了一個近場感知系統(tǒng),該系統(tǒng)構(gòu)成了一個如圖 14 所示的 L3 級自動駕駛技術(shù)棧。借助這個框架,我們可以通過一個在嵌入式系統(tǒng)上以 60 幀 / 秒運行、包含六項任務(wù)的單一深度學(xué)習模型,聯(lián)合對幾何、語義、運動、定位以及污漬情況進行理解和推理。受拉希德(Rashed)等人 [154] 所證明的深度和運動等幾何任務(wù)能夠輔助語義分割這一觀點的啟發(fā),實現(xiàn)了跨任務(wù)的協(xié)同交叉關(guān)聯(lián)。相機校準被轉(zhuǎn)換為逐像素張量并輸入到模型中,以便模型能夠適應(yīng)各種相機內(nèi)參數(shù)。索布(Sobh)等人 [155] 研究了在使用 “全向檢測” 的多任務(wù)設(shè)置中對抗性攻擊的影響,這對于安全關(guān)鍵型應(yīng)用來說非常重要。這些測試針對有目標和無目標的情況處理了白盒攻擊和黑盒攻擊,還研究了在攻擊一項任務(wù)時使用簡單防御策略以及分析其對其他任務(wù)影響的情況。
五、公開數(shù)據(jù)集與研究方向
A. 數(shù)據(jù)集
構(gòu)建汽車領(lǐng)域的數(shù)據(jù)集成本高昂且耗時 [156],目前這是魚眼感知研究進展的主要瓶頸。在表 II 中,我們總結(jié)了已發(fā)布的魚眼相機數(shù)據(jù)集?!澳揪啊保╓oodScape)是一個利用四個魚眼相機圍繞本車進行 360 度感知的綜合性數(shù)據(jù)集。它旨在對當前僅提供窄視場角圖像的汽車數(shù)據(jù)集進行補充。其中,“KITTI”[157] 是一個具有不同類型任務(wù)的開創(chuàng)性數(shù)據(jù)集。它是首個全面的魚眼汽車數(shù)據(jù)集,能夠詳細評估諸如魚眼圖像分割、目標檢測以及運動分割等計算機視覺算法 [158]。環(huán)視數(shù)據(jù)集 “木景” 的合成變體是 “合成木景”(SynWoodScape)[139]。它彌補并擴展了 “木景” 的許多不足之處?!澳揪啊?的作者們無法收集像素級光流和深度的真實標注信息,因為無法同時使用四個相機對不同幀進行采樣。這意味著在 “合成木景” 中可以設(shè)想的多相機算法無法在 “木景” 中實現(xiàn)。
它包含來自合成數(shù)據(jù)集的 8 萬張帶有標注的圖像。
“KITTI 360°” 是一個郊區(qū)數(shù)據(jù)集,具有更廣泛的輸入模態(tài)、大量的語義實例標注以及精確的定位信息,有助于視覺、計算和機器人領(lǐng)域的研究。與 “木景”(WoodScape)相比,“KITTI 360°” 的不同之處在于它提供了時間上連貫的語義實例標注、三維激光掃描以及用于透視圖像和全向圖像推理的三維標注?!棒~眼城市景觀”(FisheyeCityScapes)[88] 提出了一種 7 自由度擴展,這是一種虛擬魚眼數(shù)據(jù)增強方法。該方法利用徑向畸變模型將直線數(shù)據(jù)集轉(zhuǎn)換為魚眼數(shù)據(jù)集,它合成了由處于不同方向、位置和焦距值的相機所拍攝的魚眼圖像,極大地提高了魚眼語義分割的泛化性能?!芭=驒C器人汽車”(Oxford RobotCar)[141] 是一個大規(guī)模數(shù)據(jù)集,側(cè)重于自動駕駛車輛的長期自主性。定位和地圖構(gòu)建是該數(shù)據(jù)集的主要任務(wù),它使得針對自動駕駛車輛和移動機器人的持續(xù)學(xué)習研究成為可能。
“西奧多”(THEODORE)[142] 是一個用于室內(nèi)場景的大型非汽車合成數(shù)據(jù)集,包含 10 萬張高分辨率、16 類不同的俯視魚眼圖像。為了創(chuàng)建該數(shù)據(jù)集,他們構(gòu)建了一個包含客廳、各種人物角色以及室內(nèi)紋理的三維虛擬環(huán)境。除了記錄來自虛擬環(huán)境的魚眼圖像外,作者們還為語義分割、實例掩碼以及用于目標檢測的邊界框構(gòu)建了標注信息?!叭坝^”(OmniScape)數(shù)據(jù)集包含安裝在摩托車上的兩個前置魚眼圖像和折反射立體 RGB 圖像,同時還記錄了語義分割、深度序列以及通過速度、角速度、加速度和方向體現(xiàn)的車輛動力學(xué)信息。它還包含超過 1 萬幀由《俠盜獵車手 5》(GTA V)和《卡拉》(CARLA)記錄的數(shù)據(jù),這些數(shù)據(jù)也可擴展到其他模擬器中。在 “皮羅波”(PIROPO)(使用透視和全向相機拍攝的室內(nèi)人員)項目中,利用全向相機和透視相機在兩個不同房間里記錄了圖像序列。這些序列展示了處于不同狀態(tài)(如行走、站立和坐著)的人員情況。其真實標注信息是以點為基礎(chǔ)的,并且同時提供了有標注和無標注的序列(場景中的每個人都由其頭部中心的一個點來表示),總共可獲取超過 10 萬張有標注的圖像幀。
“斯坦福行走”(Go Stanford)[145] 數(shù)據(jù)集包含來自 25 個以上室內(nèi)環(huán)境的大約 24 小時的視頻。該實驗側(cè)重于利用魚眼圖像對室內(nèi)可通行性進行估計。“Mo2Cap2”[146] 數(shù)據(jù)集用于在各種不受約束的日?;顒又泄烙嬕宰陨頌橹行牡娜梭w三維姿態(tài)。該數(shù)據(jù)集旨在解決在現(xiàn)實世界無約束場景下進行諸如行走、騎自行車、做飯、體育運動以及辦公室工作等各種活動時的移動三維姿態(tài)估計難題。體育運動、動畫制作、醫(yī)療保健動作識別、運動控制以及性能分析等領(lǐng)域都能從這些三維姿態(tài)中受益?!癓MS 魚眼”(LMS Fisheye)[147] 數(shù)據(jù)集旨在為研究人員提供視頻序列,以便開發(fā)和測試為魚眼相機開發(fā)的運動估計算法,它同時提供了由布蘭德(Blender)生成的合成序列以及由魚眼相機記錄的實際序列。
“自我捕捉”(EgoCap)[148] 是一個無標記、以自身為中心的實時動作捕捉數(shù)據(jù)集,用于通過安裝在頭盔上的輕型立體對魚眼相機進行全身骨骼姿態(tài)估計。
或是虛擬現(xiàn)實頭戴設(shè)備 —— 光學(xué)內(nèi)入法?!癓SD - SLAM”[122] 數(shù)據(jù)集源自一種新的實時單目同時定位與地圖構(gòu)建(SLAM)方法。它是完全直接的(即,它不使用關(guān)鍵點 / 特征),并且能夠在筆記本電腦上實時創(chuàng)建大規(guī)模的半稠密地圖。研究人員可以使用這個數(shù)據(jù)集來開展跟蹤(直接圖像對齊)和建圖(逐像素距離濾波)方面的工作,它能直接實現(xiàn)一個統(tǒng)一的全向模型,該模型能夠?qū)σ晥鼋谴笥?180° 的中心成像設(shè)備進行建模。
B. 研究方向
畸變感知卷積神經(jīng)網(wǎng)絡(luò)(CNNs):卷積神經(jīng)網(wǎng)絡(luò)(CNNs)會自然地利用圖像網(wǎng)格中的平移不變性,而在魚眼圖像中,由于空間變化的畸變,這種平移不變性被打破了。已經(jīng)有人提出了球形卷積神經(jīng)網(wǎng)絡(luò)(Spherical CNNs)[93][159],它們可直接用于球形徑向畸變模型。然而,汽車鏡頭更為復(fù)雜,球形模型并不適用。將球形卷積神經(jīng)網(wǎng)絡(luò)推廣到更復(fù)雜的魚眼流形表面會是一個有趣的研究方向。核變換網(wǎng)絡(luò)(Kernel Transformer Networks)[95] 能有效地將卷積算子從透視投影轉(zhuǎn)換到全向圖像的等距柱狀投影,它更適合推廣到魚眼圖像上。
處理時間變化:正如我們之前所討論的,由于徑向畸變導(dǎo)致外觀變化更大,魚眼相機的目標探測器的樣本復(fù)雜度有所增加。對于時間相關(guān)任務(wù)來說,這一情況更為嚴重,因為這些任務(wù)需要在兩幀圖像之間匹配特征,而這兩幀圖像可能存在兩種不同的畸變。例如,在魚眼相機的情況下,目標跟蹤和重識別的難度顯著增加。跟蹤一個從靜態(tài)相機左側(cè)移動到右側(cè)的行人,就需要處理因徑向畸變而產(chǎn)生的較大外觀變化。同樣,對于一個靜止的行人,相機的水平和垂直運動也會導(dǎo)致較大的變化。對于像跟蹤這類的點特征對應(yīng)問題來說,這也是一個挑戰(zhàn)。一種解決方案可能是將徑向畸變明確地嵌入到特征向量中,以便在匹配時加以利用。
鳥瞰視角感知:在自動駕駛中,將圖像上的檢測結(jié)果提升到三維空間是至關(guān)重要的。通常是通過逆透視映射(IPM)[160] 來實現(xiàn)這一點的,該方法假定地面是平坦的。也可以通過使用深度估計或與三維傳感器進行融合來增強這一效果 [161]。近來有一種趨勢是在網(wǎng)絡(luò)中隱式地使用逆透視映射,直接輸出三維結(jié)果 [162][163]。通常是通過使用一個可學(xué)習的校正層來轉(zhuǎn)換抽象的編碼器特征,以此作為在輸入層面執(zhí)行逆透視映射的替代方法來實現(xiàn)的。由于卷積神經(jīng)網(wǎng)絡(luò)擁有更多的上下文信息,而且可學(xué)習的變換可以更加靈活,所以這種方法比逐像素的逆透視映射效果更好 [163]。對于針孔相機而言,逆透視映射是一種線性變換,設(shè)計編碼器特征的空間變換器相對容易。然而,對于魚眼相機來說,逆透視映射是一個復(fù)雜的非線性算子,直接在鳥瞰視角空間中輸出結(jié)果仍然是一個有待解決的問題。
多相機建模:目前大多數(shù)環(huán)視相機方面的工作都是將四個相機中的每一個獨立對待,并執(zhí)行感知算法?;蛟S可以
更理想的模型,所有四個環(huán)繞視野相機聯(lián)合。首先,它將幫助檢測通過兩個或三個攝像頭(前、左、后)可見的大型車輛(如運輸卡車)。其次,它消除了對在多個攝像機中看到的物體的重新識別(見圖10)和對單個檢測的后處理,形成了像車道模型一樣的統(tǒng)一輸出。多攝像機模型將更有效地聚合信息,產(chǎn)生更最優(yōu)的輸出。[164]開發(fā)了一種經(jīng)典的幾何方法,將多個相機視為單個相機。然而,最近有一些工作,利用多個攝像機作為輸入到一個單一的感知模型[163],[165]。他們利用了針孔相機與最小的重疊視野。為環(huán)繞視圖相機建模明顯更具挑戰(zhàn)性。
圖15。近場和遠場前攝像機圖像形成不對稱立體對。
近場與遠場相機的統(tǒng)一建模:下一代自動駕駛系統(tǒng)的一種典型配置包含使用四個環(huán)視相機實現(xiàn)近場的 360 度全覆蓋,以及六個遠場相機(一個前置、一個后置、兩側(cè)各兩個)[166]。正如在第三章 B 節(jié)所討論的那樣,它們有著截然不同的視場角和探測范圍。因此,要對所有相機進行統(tǒng)一建模(這是對上述多相機建模的拓展)是頗具挑戰(zhàn)性的。圖 15 展示了車輛前部區(qū)域的近場和遠場圖像。它們構(gòu)成了一對非對稱立體像對,在此情況下,相較于存在根本性模糊問題、更具挑戰(zhàn)性的單目深度估計,深度能夠更容易地被計算出來。目前,還沒有同時包含近場和遠場相機的公開數(shù)據(jù)集來助力這項研究。
六、結(jié)論
魚眼相機是自動駕駛系統(tǒng)中最常見的傳感器之一。盡管它應(yīng)用廣泛,但由于它是一種特殊的相機傳感器,汽車領(lǐng)域?qū)λ牧私庥邢蓿覙藴仕惴ㄒ矡o法直接通用到它身上。這項工作詳細闡述了如何著手開展環(huán)視魚眼相機開發(fā)工作。本文一部分是教程,詳細描述了魚眼幾何結(jié)構(gòu)和模型;另一部分是綜述,探討了基于魚眼相機開發(fā)的感知算法。最后,我們給出了有待探索的未來研究方向。
參考文獻
[1] R. 伍德(R. Wood),“魚眼視角與水下視覺”,《哲學(xué)雜志》(Phil. Mag.),第 12 卷,第 6 期,第 159 - 162 頁,1908 年。
[2] S. 約加瑪尼(S. Yogamani)等人,“木景(WoodScape):用于自動駕駛的多任務(wù)、多相機魚眼數(shù)據(jù)集”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別國際會議論文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis.,縮寫為 ICCV),2019 年 10 月,第 9308 - 9318 頁。
[3] W. N. 邦德(W. N. Bond),“一種用于云記錄的廣角鏡頭”,《哲學(xué)雜志》,第 44 卷,第 263 期,第 999 - 1001 頁,1922 年。
[4] K. 宮本(K. Miyamoto),“魚眼鏡頭”,《美國光學(xué)學(xué)會雜志》(J. Opt. Soc. Amer.),第 54 卷,第 8 期,第 1060 - 1061 頁,1964 年 8 月。
[5] P. D. 托馬斯(P. D. Thomas),《大地測量學(xué)與制圖學(xué)中的等角投影》(Conformal Projections in Geodesy and Cartography)。美國華盛頓特區(qū):美國政府印刷局,1952 年。
[6] (2019 年 12 月)?!遏~眼鏡頭如何主宰音樂領(lǐng)域》。[在線]??色@取網(wǎng)址:https://youtu.be/YNQzqEAphjs
[7] H. 金(H. Kim)、J. 鄭(J. Jung)和 J. 白(J. Paik),“基于魚眼鏡頭相機的廣視角監(jiān)控系統(tǒng)”,《光學(xué)》(Optik),第 127 卷,第 14 期,第 5636 - 5646 頁,2016 年 7 月。
[8] T. A. 德凡蒂(T. A. DeFanti)等人,“星穴(StarCAVE),第三代洞穴式虛擬現(xiàn)實光端口(OptIPortal)”,《未來計算機系統(tǒng)》(Future Gener. Comput. Syst.),第 25 卷,第 2 期,第 169 - 178 頁,2009 年 2 月。
[9] L. 孟(L. Meng)、T. 平山(T. Hirayama)和 S. 大柳(S. Oyanagi),“基于深度學(xué)習的帶全景相機的水下無人機用于自動魚類識別”,《電氣與電子工程師協(xié)會開放獲取期刊》(IEEE Access),第 6 卷,第 17880 - 17886 頁,2018 年。
[10] K. 邱(K. Qiu)、T. 劉(T. Liu)和 S. 沈(S. Shen),“基于邊緣對齊的空中機器人基于模型的全局定位”,《國際機器人與自動化會議論文集》(Proc. Int. Conf. Robot. Autom.),第 2 卷,2017 年,第 1256 - 1263 頁。
[11] C. R. 桑斯坦(C. R. Sunstein),“后方視野以及經(jīng)濟分析中一些未解決的問題(附體驗商品相關(guān)說明)”,《效益成本分析雜志》(J. Bene?t-Cost Anal.),第 10 卷,第 3 期,第 317 - 350 頁,2019 年。
[12] C. 休斯(C. Hughes)、M. 格拉文(M. Glavin)、E. 瓊斯(E. Jones)和 P. 丹尼(P. Denny),“用于汽車應(yīng)用的廣角相機技術(shù)綜述”,《英國工程技術(shù)學(xué)會智能交通系統(tǒng)》(IET Intell. Transp. Syst.),第 3 卷,第 1 期,第 19 - 31 頁,2009 年 3 月。
[13] M. 班迪奧帕德耶(M. Bandyopadhyay)、A. 庫馬爾(A. Kumar)和 A. 帕塔亞普拉卡爾(A. Pathayapurakkal),“基于魚眼圖像的交叉交通警報系統(tǒng)”,《計算機視覺、模式識別、圖像處理與圖形學(xué)》(Computer Vision, Pattern Recognition, Image Processing, and Graphics),R. V. 巴布(R. V. Babu)、M. 普拉薩納(M. Prasanna)和 V. P. 南布迪里(V. P. Namboodiri)編著,新加坡:施普林格出版社,2020 年,第 43 - 52 頁。
[14] H. 拉希德(H. Rashed)等人,“用于自動駕駛的魚眼相機上的廣義目標檢測:數(shù)據(jù)集、表示形式及基準”,《電氣與電子工程師協(xié)會冬季計算機視覺應(yīng)用會議論文集》(Proc. IEEE Winter Conf. Appl. Comput. Vis.,縮寫為 WACV),2021 年 1 月,第 2272 - 2280 頁。
[15] M. 海姆伯格(M. Heimberger)、J. 霍根(J. Horgan)、C. 休斯(C. Hughes)、J. 麥克唐納(J. McDonald)和 S. 約加瑪尼(S. Yogamani),“自動泊車系統(tǒng)中的計算機視覺:設(shè)計、實現(xiàn)及挑戰(zhàn)”,《圖像與視覺計算》(Image Vis. Comput.),第 68 卷,第 88 - 101 頁,2017 年 12 月。
[16] V. R. 庫馬爾(V. R. Kumar)、S. 約加瑪尼(S. Yogamani)、M. 巴赫(M. Bach)、C. 維特(C. Witt)、S. 米爾茨(S. Milz)和 P. 馬德爾(P. Mader),“無校正深度網(wǎng)絡(luò)(UnRectDepthNet):使用通用框架處理常見相機畸變模型的自監(jiān)督單目深度估計”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,縮寫為 IROS),2020 年 10 月,第 8177 - 8183 頁。
[17] A. W. 菲茨吉本(A. W. Fitzgibbon),“多視圖幾何與鏡頭畸變的同時線性估計”,《計算機視覺與模式識別會議論文集》(Proc. CVPR),第 1 卷,2001 年,第 125 - 132 頁。
[18] A. 巴蘇(A. Basu)和 S. 利卡迪(S. Licardie),“魚眼鏡頭的替代模型”,《模式識別快報》(Pattern Recognit. Lett.),第 16 卷,第 4 期,第 433 - 441 頁,1995 年。
[19] F. 德韋爾奈(F. Devernay)和 O. 福熱拉斯(O. Faugeras),“直線必須是直的:結(jié)構(gòu)化環(huán)境場景的自動校準及畸變消除”,《機器視覺應(yīng)用》(Mach. Vis. Appl.),第 13 卷,第 1 期,第 14 - 24 頁,2001 年。
[20] J. 坎納拉(J. Kannala)和 S. S. 布蘭特(S. S. Brandt),“適用于常規(guī)鏡頭、廣角鏡頭和魚眼鏡頭的通用相機模型及校準方法”,《電氣與電子工程師協(xié)會模式分析與機器智能匯刊》(IEEE Trans. Pattern Anal. Mach. Intell.),第 28 卷,第 8 期,第 1335 - 1340 頁,2006 年 8 月。
[21] C. 蓋耶(C. Geyer)和 K. 達尼利迪斯(K. Daniilidis),“中心全景系統(tǒng)的統(tǒng)一理論及實際應(yīng)用”,《歐洲計算機視覺會議論文集》(Proc. Eur. Conf. Comput. Vis.),2000 年,第 445 - 461 頁。
[22] B. 霍穆堅科(B. Khomutenko)、G. 加西亞(G. Garcia)和 P. 馬蒂內(nèi)(P. Martinet),“一種增強型統(tǒng)一相機模型”,《電氣與電子工程師協(xié)會機器人學(xué)與自動化快報》(IEEE Robot. Automat. Lett.),第 1 卷,第 1 期,第 137 - 144 頁,2016 年 1 月。
[23] V. 烏先科(V. Usenko)、N. 德梅爾(N. Demmel)和 D. 克雷默斯(D. Cremers),“雙球面相機模型”,《國際 3D 視覺會議論文集》(Proc. Int. Conf. 3D Vis.,縮寫為 3DV),2018 年 9 月,第 552 - 560 頁。
[24] W. -J. 樸(W. -J. Park)、B. -S. 金(B. -S. Kim)、D. -E. 徐(D. -E. Seo)、D. -S. 金(D. -S. Kim)和 K. -H. 李(K. -H. Lee),“泊車輔助系統(tǒng)中使用超聲波傳感器的泊車位檢測”,《電氣與電子工程師協(xié)會智能車輛研討會論文集》(Proc. IEEE Intell. Vehicles Symp.),2008 年 6 月,第 1039 - 1044 頁。
[25] J. K. 蘇爾(J. K. Suhr)和 H. G. 鄭(H. G. Jung),“基于傳感器融合的空泊車位檢測與跟蹤”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 15 卷,第 1 期,第 21 - 36 頁,2014 年 2 月。
[26] X. 唐(X. Tang)、Z. 張(Z. Zhang)和 Y. 秦(Y. Qin),“基于雷達與視覺融合的道路目標檢測與跟蹤綜述”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)雜志》(IEEE Intell. Transp. Syst. Mag.),第 14 卷,第 5 期,第 103 - 128 頁,2022 年 9 月 / 10 月。
[27] A. 勒夫勒(A. Loef?er)、J. 龍茨卡(J. Ronczka)和 T. 費希納(T. Fechner),“使用 24 GHz 短程汽車雷達進行停車場測量”,《第 16 屆國際雷達研討會論文集》(Proc. 16th Int. Radar Symp.,縮寫為 IRS),2015 年 6 月,第 137 - 142 頁。
[28] M. R. 施密德(M. R. Schmid)、S. 阿特斯(S. Ates)、J. 迪克曼(J. Dickmann)、F. 馮?洪德爾斯豪森(F. Von Hundelshausen)和 H. -J. 武恩施(H. -J. Wuensche),“使用分層動態(tài)占用網(wǎng)格進行泊車位檢測”,《電氣與電子工程師協(xié)會智能車輛研討會論文集》(Proc. IEEE Intell. Vehicles Symp.,縮寫為 IV),2011 年 6 月,第 254 - 259 頁。
[29] V. 萊基奇(V. Lekic)和 Z. 巴比奇(Z. Babic),“使用生成對抗網(wǎng)絡(luò)的汽車雷達與相機融合”,《計算機視覺與圖像理解》(Comput. Vis. Image Understand.),第 184 卷,第 1 - 8 頁,2019 年 7 月。
[30] R. 瓦爾加(R. Varga)、A. 科斯特亞(A. Costea)、H. 弗洛雷亞(H. Florea)、I. 焦桑(I. Giosan)和 S. 內(nèi)德夫斯基(S. Nedevschi),“用于 360 度環(huán)境感知的超級傳感器:利用圖像特征進行點云分割”,《電氣與電子工程師協(xié)會第 20 屆智能交通系統(tǒng)國際會議論文集》(Proc. IEEE 20th Int. Conf. Intell. Transp. Syst.,縮寫為 ITSC),2017 年 10 月,第 1 - 8 頁。
[31] C. 艾辛(C. Eising)、J. 霍根(J. Horgan)和 S. 約加瑪尼(S. Yogamani),“使用環(huán)視魚眼相機的低速車輛自動化近場感知”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 9 期,第 13976 - 13993 頁,2022 年 9 月。
[32] J. 馬利克(J. Malik)等人,“計算機視覺的三個 R:識別、重建與重組”,《模式識別快報》(Pattern Recognit. Lett.),第 72 卷,第 4 - 14 頁,2016 年 3 月。
[33] D. 金(D. Kim)、J. 樸(J. Park)和 J. 白(J. Paik),“用于實際幾何校正和圖像增強的擴展魚眼鏡頭模型”,《光學(xué)快報》(Opt. Lett.),第 39 卷,第 21 期,第 6261 - 6264 頁,2014 年。
[34] C. 休斯(C. Hughes)、P. 丹尼(P. Denny)、M. 格拉文(M. Glavin)和 E. 瓊斯(E. Jones),“通過消失點提取進行等距魚眼校準與校正”,《電氣與電子工程師協(xié)會模式分析與機器智能匯刊》(IEEE Trans. Pattern Anal. Mach. Intell.),第 32 卷,第 12 期,第 2289 - 2296 頁,2010 年 12 月。
[35] D. C. 布朗(D. C. Brown),“魚眼鏡頭的替代模型”,《攝影測量工程》(Photogramm. Eng.),第 32 卷,第 2 期,第 444 - 462 頁,1966 年。
[36] A. E. 康拉迪(A. E. Conrady),“偏心透鏡系統(tǒng)”,《英國皇家天文學(xué)會月報》(Monthly Notices Roy. Astronomical Soc.),第 79 卷,第 5 期,第 384 - 390 頁,1919 年 3 月。
[37] G. 布拉德斯基(G. Bradski),“OpenCV 庫”,《博士?多布斯軟件工具雜志》(Dr. Dobb’s J. Softw. Tools),第 25 卷,第 11 期,第 120 - 123 頁,2000 年。
[38] MATLAB(2021a 版本)。美國馬薩諸塞州納蒂克市的美國邁斯沃克公司,2021 年。
[39] X. 應(yīng)(X. Ying)、Z. 胡(Z. Hu)和 H. 查(H. Zha),“利用直線球面透視投影約束進行魚眼鏡頭校準”,《亞洲計算機視覺會議論文集》(Proc. Asian Conf. Comput. Vis.),2006 年,第 61 - 70 頁。
[40] 邁斯沃克公司(The Mathworks)。(2020 年)?!禡ATLAB R2020b:什么是相機校準?》訪問時間:2020 年 12 月 16 日。[在線]??色@取網(wǎng)址:https://www.mathworks.com/help/vision/ug/camera-calibration.html
[41] 英偉達(NVidia)。(2020 年)?!禗riveWrorks 3.0 SDK:相機模型》。訪問時間:2022 年 4 月 22 日。[在線]??色@取網(wǎng)址:https://docs.nvidia.com/drive/archive/driveworks-3.0/group__cameramodel__group.html
[42] D. 斯卡拉穆扎(D. Scaramuzza)、A. 馬丁內(nèi)利(A. Martinelli)和 R. 西格瓦特(R. Siegwart),“一種用于精確全向相機校準及運動恢復(fù)結(jié)構(gòu)的靈活技術(shù)”,《第 4 屆電氣與電子工程師協(xié)會國際計算機視覺系統(tǒng)會議論文集》(Proc. 4th IEEE Int. Conf. Comput. Vis. Syst.,縮寫為 ICVS),2006 年 1 月,第 45 頁。
[43] H. 維爾登瑙爾(H. Wildenauer)和 B. 米庫希克(B. Micusík),“從單個消失點進行徑向畸變估計的閉式解”,《英國機器視覺會議論文集》(Proc. Brit. Mach. Vis. Conf.),20
[51] 格拉納(G. Klanar)、克里斯坦(M. Kristan)和卡爾巴(R. Karba),“移動機器人跟蹤中的廣角相機畸變與非均勻光照”,《機器人與自動化系統(tǒng)》(Robot. Auto. Syst.),第 46 卷,第 2 期,第 125 - 133 頁,2004 年 2 月。
[52] 梅(X. Mei)、楊(S. Yang)、榮(J. Rong)、應(yīng)(X. Ying)、黃(S. Huang)和查(H. Zha),“利用級聯(lián)單參數(shù)除法模型進行徑向鏡頭畸變校正”,《電氣與電子工程師協(xié)會國際圖像處理會議論文集》(Proc. IEEE Int. Conf. Image Process.,縮寫為 ICIP),2015 年 9 月,第 3615 - 3619 頁。
[53] A. L. 勞布舍爾(A. L. Laubscher),“透視地圖投影的基礎(chǔ)研究”,學(xué)位論文,美國俄亥俄州立大學(xué)大地測量科學(xué)系,美國俄亥俄州哥倫布市,1965 年。
[54] J. P. 斯奈德(J. P. Snyder),《地圖投影:實用手冊》(Map Projections: A Working Manual),第 1395 卷。美國華盛頓特區(qū):美國地質(zhì)調(diào)查局專業(yè)論文,1987 年。
[55] C. 休斯(C. Hughes)、P. 丹尼(P. Denny)、E. 瓊斯(E. Jones)和 M. 格拉文(M. Glavin),“魚眼鏡頭模型的精度”,《應(yīng)用光學(xué)》(Appl. Opt.),第 49 卷,第 17 期,第 3338 - 3347 頁,2010 年 6 月。
[56] C. 卡萊法托(C. Calefato)等人,“預(yù)防預(yù)警系統(tǒng)的人機界面:DESERVE 方法”,《邁向未來先進駕駛輔助系統(tǒng)通用軟件 / 硬件方法:DESERVE 方法》(Towards a Common Software/Hardware Methodology for Future Advanced Driver Assistance Systems: The DESERVE Approach),G. 帕亞 - 瓦亞(G. Payá-Vayá)和 H. 布盧姆(H. Blume)編著,丹麥:里弗出版社,第 10 章,第 227 - 250 頁,2017 年。
[57] S. 達布拉爾(S. Dabral)、S. 卡馬斯(S. Kamath)、V. 阿皮亞(V. Appia)、M. 莫迪(M. Mody)、B. 張(B. Zhang)和 U. 巴圖爾(U. Batur),“基于相機的汽車駕駛員輔助系統(tǒng)(ADAS)發(fā)展趨勢”,《電氣與電子工程師協(xié)會第 57 屆國際中西部電路與系統(tǒng)研討會論文集》(Proc. IEEE 57th Int. Midwest Symp. Circuits Syst.,縮寫為 MWSCAS),2014 年 8 月,第 1110 - 1115 頁。
[58] M. 吳(M. Woo)、J. 尼德(J. Neider)、T. 戴維斯(T. Davis)和 D. 施賴納(D. Shreiner),《OpenGL 編程指南:學(xué)習 OpenGL 的官方指南》(OpenGL Programming Guide: The Official Guide to Learning OpenGL),第 1.2 版。美國馬薩諸塞州雷丁市:艾迪生 - 韋斯利朗文出版公司,1999 年。
[59] L. 亞希奧伊(L. Yahiaoui)等人,“目標檢測算法的圖像信號處理器(ISP)參數(shù)優(yōu)化”,《電子成像》(Electron. Imag.),第 2019 卷,第 15 期,第 1 - 44 頁,2019 年 1 月。
[60] L. 亞希奧伊(L. Yahiaoui)、J. 霍根(J. Horgan)、B. 迪根(B. Deegan)、S. 約加瑪尼(S. Yogamani)、C. 休斯(C. Hughes)和 P. 丹尼(P. Denny),“自動駕駛視覺感知中圖像信號處理器(ISP)參數(shù)調(diào)整的綜述與實證分析”,《成像雜志》(J. Imag.),第 5 卷,第 10 期,第 78 頁,2019 年 9 月。
[61] V. 茲洛科利察(V. Zlokolica)、B. 迪根(B. Deegan)、P. 丹尼(P. Denny)、M. 格里芬(M. Griffin)和 B. 德弗(B. Dever),“汽車系統(tǒng)的自由視角多相機可視化與協(xié)調(diào)”,《電子成像》(Electron. Imag.),第 29 卷,第 19 期,第 12 - 17 頁,2017 年 1 月。
[62] Z. 張(Z. Zhang),“通過從未知方向觀察平面進行靈活的相機校準”,《電氣與電子工程師協(xié)會國際計算機視覺會議論文集》(Proc. IEEE Int. Conf. Comput. Vis.,縮寫為 ICCV),第 1 卷,1999 年 9 月,第 666 - 673 頁。
[63] J. ?;↗. Heikkila)和 O. 西爾文(O. Silven),“帶有隱式圖像校正的四步相機校準程序”,《電氣與電子工程師協(xié)會計算機協(xié)會計算機視覺與模式識別會議論文集》(Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit.),1997 年 7 月,第 1106 - 1112 頁。
[64] A. 杜達(A. Duda)和 U. 弗雷斯(U. Frese),“校準用棋盤格角點的精確檢測與定位”,《英國機器視覺會議論文集》(Proc. BMVC),2018 年,第 126 頁。
[65] D. 斯卡拉穆扎(D. Scaramuzza)、A. 馬丁內(nèi)利(A. Martinelli)和 R. 西格瓦特(R. Siegwart),“一個便于校準全向相機的工具箱”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2006 年 10 月,第 5695 - 5701 頁。
[66] M. 魯菲利(M. Ru?i)、D. 斯卡拉穆扎(D. Scaramuzza)和 R. 西格瓦特(R. Siegwart),“模糊及畸變圖像上棋盤格的自動檢測”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2008 年 9 月,第 3121 - 3126 頁。
[67] J. 雷德(J. Rehder)、J. 尼科利奇(J. Nikolic)、T. 施耐德(T. Schneider)、T. 欣茨曼(T. Hinzmann)和 R. 西格瓦特(R. Siegwart),“擴展卡爾布(kalibr):校準多個慣性測量單元(IMUs)及各軸的外部參數(shù)”,《電氣與電子工程師協(xié)會國際機器人與自動化會議論文集》(Proc. IEEE Int. Conf. Robot. Autom.,縮寫為 ICRA),2016 年 5 月,第 4304 - 4311 頁。
[68] P. 富爾加勒(P. Furgale)、J. 雷德(J. Rehder)和 R. 西格瓦特(R. Siegwart),“多傳感器系統(tǒng)的統(tǒng)一時空校準”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2013 年 11 月,第 1280 - 1286 頁。
[69] P. 富爾加勒(P. Furgale)、T. D. 巴富特(T. D. Barfoot)和 G. 西布利(G. Sibley),“使用時間基函數(shù)的連續(xù)時間批量估計”,《電氣與電子工程師協(xié)會國際機器人與自動化會議論文集》(Proc. IEEE Int. Conf. Robot. Autom.),2012 年 5 月,第 2088 - 2095 頁。
[70] J. 梅(J. Maye)、P. 富爾加勒(P. Furgale)和 R. 西格瓦特(R. Siegwart),“機器人系統(tǒng)的自監(jiān)督校準”,《電氣與電子工程師協(xié)會智能車輛研討會論文集》(Proc. IEEE Intell. Vehicles Symp.,縮寫為 IV),2013 年 6 月,第 473 - 480 頁。
[71] L. 亨(L. Heng)、B. 李(B. Li)和 M. 波利費斯(M. Pollefeys),“CamOdoCal:含多個通用相機和里程計的裝置的自動內(nèi)參和外參校準”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2013 年 11 月,第 1793 - 1800 頁。
[72] X. 邵(X. Shao)、X. 劉(X. Liu)、L. 張(L. Zhang)、S. 趙(S. Zhao)、Y. 沈(Y. Shen)和 Y. 楊(Y. Yang),“再探環(huán)視相機系統(tǒng)校準”,《電氣與電子工程師協(xié)會國際多媒體博覽會會議論文集》(Proc. IEEE Int. Conf. Multimedia Expo,縮寫為 ICME),2019 年 7 月,第 1486 - 1491 頁。
[73] X. 劉(X. Liu)等人,“環(huán)視系統(tǒng)的在線相機位姿優(yōu)化”,《第 27 屆美國計算機協(xié)會多媒體國際會議論文集》,美國紐約州紐約市,2019 年,第 383 - 391 頁。
[74] K. 崔(K. Choi)、H. 鄭(H. Jung)和 J. 蘇爾(J. Suhr),“利用車道標線自動校準環(huán)視監(jiān)控系統(tǒng)”,《傳感器》(Sensors),第 18 卷,第 9 期,第 2956 頁,2018 年 9 月。[在線]。可獲取網(wǎng)址:https://www.mdpi.com/1424-8220/18/9/2956
[75] Z. 歐陽(Z. Ouyang)、L. 胡(L. Hu)、Y. 盧(Y. Lu)、Z. 王(Z. Wang)、X. 彭(X. Peng)和 L. 克奈普(L. Kneip),“車載環(huán)視相機系統(tǒng)外部方位的在線校準”,《電氣與電子工程師協(xié)會國際機器人與自動化會議論文集》(Proc. IEEE Int. Conf. Robot. Autom.,縮寫為 ICRA),2020 年 5 月,第 4990 - 4996 頁。
[76] M. 弗里爾(M. Friel)、C. 休斯(C. Hughes)、P. 丹尼(P. Denny)、E. 瓊斯(E. Jones)和 M. 格拉文(M. Glavin),“從汽車視頻序列自動校準魚眼相機”,《英國工程技術(shù)學(xué)會智能交通系統(tǒng)》(IET Intell. Transp. Syst.),第 4 卷,第 2 期,第 136 - 148 頁,2010 年。
[77] N. 阿加瓦爾(N. Aggarwal)和 W. C. 卡爾(W. C. Karl),“通過正則化霍夫變換進行圖像中的直線檢測”,《電氣與電子工程師協(xié)會圖像處理匯刊》(IEEE Trans. Image Process.),第 15 卷,第 3 期,第 582 - 591 頁,2006 年 3 月。
[78] W. 福斯特納(W. F?rstner)和 B. P. 弗羅貝爾(B. P. Wrobel),《攝影測量計算機視覺:統(tǒng)計、幾何、定向與重建》(Photogrammetric Computer Vision: Statistics, Geometry, Orientation and Reconstruction),第 1 版,瑞士尚姆:施普林格出版社,2016 年。
[79] L. 馬里奧蒂(L. Mariotti)和 C. 艾辛(C. Eising),“魚眼相機中幾何運動分割約束的球面表述”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 5 期,第 4201 - 4211 頁,2022 年 5 月。
[80] M. 洛倫索(M. Louren?o)、J. P. 巴雷托(J. P. Barreto)和 F. 瓦斯康塞洛斯(F. Vasconcelos),“SRD - SIFT:徑向畸變圖像中的關(guān)鍵點檢測與匹配”,《電氣與電子工程師協(xié)會機器人學(xué)匯刊》(IEEE Trans. Robot.),第 28 卷,第 3 期,第 752 - 760 頁,2012 年 6 月。
[81] E. 普勞特(E. Plaut)、E. B. 亞科夫(E. B. Yaacov)和 B. 埃爾?什洛莫(B. El Shlomo),“從單張魚眼圖像進行 3D 目標檢測(無需單張魚眼訓(xùn)練圖像)”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別會議研討會論文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. Workshops,縮寫為 CVPRW),2021 年 6 月,第 3659 - 3667 頁。
[82] A. 達斯(A. Das)、S. 坎丹(S. Kandan)、S. 約加瑪尼(S. Yogamani)和 P. 基澤克(P. Kí?ek),“自動駕駛實時語義分割解碼器的設(shè)計”,《第 14 屆國際計算機視覺、成像、計算、圖形理論與應(yīng)用聯(lián)合會議論文集》,2019 年,第 1 - 8 頁。
[83] L. 鄧(L. Deng)、M. 楊(M. Yang)、Y. 錢(Y. Qian)、C. 王(C. Wang)和 B. 王(B. Wang),“基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的魚眼相機城市交通場景語義分割”,《電氣與電子工程師協(xié)會智能車輛研討會論文集》(Proc. IEEE Intell. Vehicles Symp.,縮寫為 IV),2017 年 6 月,第 231 - 236 頁。
[84] 阿?塞斯(á. Sáez)等人,“基于 ERFNet 的魚眼城市駕駛圖像實時語義分割”,《傳感器》(Sensors),第 19 卷,第 1 期,第 503 頁,2019 年。
[85] E. 羅梅拉(E. Romera)等人,“ERFNet:用于實時語義分割的高效殘差分解卷積網(wǎng)絡(luò)”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 19 卷,第 1 期,第 263 - 272 頁,2017 年 10 月。
[86] M. 科茨(M. Cordts)等人,“用于城市語義場景理解的城市景觀(Cityscapes)數(shù)據(jù)集”,《計算機視覺與模式識別會議論文集》(Proc. Comput. Vis. Pattern Recognit. Conf.),2016 年,第 3213 - 3223 頁。
[87] L. 鄧(L. Deng)、M. 楊(M. Yang)、H. 李(H. Li)、T. 李(T. Li)、B. 胡(B. Hu)和 C. 王(C. Wang),“基于受限可變形卷積的環(huán)視相機道路場景語義分割”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 21 卷,第 10 期,第 4350 - 4362 頁,2020 年 10 月。
[88] Y. 葉(Y. Ye)、K. 楊(K. Yang)、K. 向(K. Xiang)、J. 王(J. Wang)和 K. 王(K. Wang),“魚眼城市駕駛圖像的通用語義分割”,《電氣與電子工程師協(xié)會國際系統(tǒng)、人與控制論會議論文集》(Proc. IEEE Int. Conf. Syst., Man, Cybern.,縮寫為 SMC),2020 年 10 月,第 648 - 655 頁。
[89] G. 羅斯(G. Ros)、L. 塞拉特
[98] H. 拉希德(H. Rashed)等人,“魚眼 YOLO:用于自動駕駛的魚眼相機目標檢測”,《機器學(xué)習自動駕駛神經(jīng)信息處理系統(tǒng)研討會論文集》(Proc. Mach. Learn. Auto. Driving NeurIPSW),2020 年,第 1 - 5 頁。
[99] M. 烏亞(M. Uiá)、P. 基澤克(P. Kí?ek)、G. 西斯圖(G. Sistu)和 S. 約加瑪尼(S. Yogamani),“污漬檢測網(wǎng)(SoilingNet):汽車環(huán)視相機上的污漬檢測”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)會議論文集》(Proc. IEEE Intell. Transp. Syst. Conf.,縮寫為 ITSC),2019 年 10 月,第 67 - 72 頁。
[100] M. 烏亞(M. Uiá)等人,“讓我們直面污漬:基于生成對抗網(wǎng)絡(luò)(GAN)的數(shù)據(jù)增強用于自動駕駛中相機鏡頭污漬檢測”,《電氣與電子工程師協(xié)會冬季計算機視覺應(yīng)用會議論文集》(Proc. IEEE Winter Conf. Appl. Comput. Vis.,縮寫為 WACV),2021 年 1 月,第 766 - 775 頁。
[101] A. 達斯(A. Das)等人,“分塊污漬檢測網(wǎng)(TiledSoilingNet):使用覆蓋度量在汽車環(huán)視相機上進行分塊級污漬檢測”,《電氣與電子工程師協(xié)會第 23 屆智能交通系統(tǒng)國際會議論文集》(Proc. IEEE 23rd Int. Conf. Intell. Transp. Syst.,縮寫為 ITSC),2020 年 9 月,第 1 - 6 頁。
[102] M. 烏亞(M. Uiá)、G. 西斯圖(G. Sistu)、L. 亞希奧伊(L. Yahiaoui)和 S. 約加瑪尼(S. Yogamani),“基于集成的半監(jiān)督學(xué)習以改善自動駕駛中含噪污漬標注”,《電氣與電子工程師協(xié)會國際智能交通系統(tǒng)會議論文集》(Proc. IEEE Int. Intell. Transp. Syst. Conf.,縮寫為 ITSC),2021 年 9 月,第 2925 - 2930 頁。
[103] C. 薩卡里迪斯(C. Sakaridis)、D. 戴(D. Dai)和 L. 范古爾(L. Van Gool),“利用合成數(shù)據(jù)進行語義霧景理解”,《國際計算機視覺雜志》(Int. J. Comput. Vis.),第 126 卷,第 9 期,第 973 - 992 頁,2018 年 9 月。
[104] H. 波拉夫(H. Porav)、T. 布魯爾斯(T. Bruls)和 P. 紐曼(P. Newman),“此刻我能看清了:通過去雨進行圖像恢復(fù)”,《國際機器人與自動化會議論文集》(Proc. Int. Conf. Robot. Autom.,縮寫為 ICRA),2019 年 5 月,第 7087 - 7093 頁。
[105] M. 烏亞(M. Uiá)等人,“去污漬數(shù)據(jù)集:恢復(fù)汽車魚眼相機上的污漬區(qū)域”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別國際會議研討會論文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop,縮寫為 ICCVW),2019 年 10 月,第 4273 - 4279 頁。
[106] L. 亞希奧伊(L. Yahiaoui)、M. 烏亞(M. Uiá)、A. 達斯(A. Das)和 S. 約加瑪尼(S. Yogamani),“讓陽光照進來:汽車環(huán)視相機上的太陽眩光檢測”,《電子成像》(Electron. Imag.),第 2020 卷,第 1 期,第 1 - 80 頁,2020 年。
[107] A. 達哈爾(A. Dahal)、V. R. 庫馬爾(V. R. Kumar)、S. 約加瑪尼(S. Yogamani)和 C. 艾辛(C. Eising),“一種使用環(huán)視魚眼相機進行無線充電對準的在線學(xué)習系統(tǒng)”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 11 期,第 20553 - 20562 頁,2022 年 11 月。
[108] A. 達哈爾(A. Dahal)等人,“深度拖車輔助(DeepTrailerAssist):基于深度學(xué)習的汽車后視相機拖車檢測、跟蹤及鉸接角估計”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別國際會議研討會論文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop,縮寫為 ICCVW),2019 年 10 月,第 2339 - 2346 頁。
[109] A. 蓋格(A. Geiger)、P. 倫茨(P. Lenz)、C. 斯蒂勒(C. Stiller)和 R. 烏爾塔松(R. Urtasun),“視覺與機器人技術(shù)相遇:KITTI 數(shù)據(jù)集”,《國際機器人學(xué)研究雜志》(Int. J. Robot. Res.),第 32 卷,第 11 期,第 1231 - 1237 頁,2013 年。
[110] T. 周(T. Zhou)、M. 布朗(M. Brown)、N. 斯內(nèi)夫利(N. Snavely)和 D. G. 洛(D. G. Lowe),“從視頻中無監(jiān)督學(xué)習深度和自身運動”,《電氣與電子工程師協(xié)會計算機視覺與模式識別會議論文集》(Proc. IEEE Conf. Comput. Vis. Pattern Recognit.,縮寫為 CVPR),2017 年 7 月,第 1851 - 1858 頁。
[111] C. 戈達爾(C. Godard)、O. M. 奧達(O. M. Aodha)、M. 菲爾曼(M. Firman)和 G. 布羅斯托(G. Brostow),“深入探究自監(jiān)督單目深度估計”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別國際會議論文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis.,縮寫為 ICCV),2019 年 10 月,第 3828 - 3838 頁。
[112] R. 哈特利(R. Hartley)和 A. 齊斯曼(A. Zisserman),《計算機視覺中的多視圖幾何》(Multiple View Geometry in Computer Vision),第 2 卷。英國劍橋:劍橋大學(xué),2003 年。
[113] V. R. 庫馬爾(V. R. Kumar)等人,“使用單目魚眼相機進行近場深度估計:一種使用稀疏激光雷達數(shù)據(jù)的半監(jiān)督學(xué)習方法”,《計算機視覺與模式識別會議研討會論文集》(Proc. Comput. Vis. Pattern Recognit. Conf. Workshops),第 7 卷,2018 年,第 2 頁。
[114] V. R. 庫馬爾(V. R. Kumar)等人,“魚眼距離網(wǎng)(FisheyeDistanceNet):用于自動駕駛的單目魚眼相機自監(jiān)督尺度感知距離估計”,《電氣與電子工程師協(xié)會國際機器人與自動化會議論文集》(Proc. IEEE Int. Conf. Robot. Autom.,縮寫為 ICRA),2020 年 5 月,第 574 - 581 頁。
[115] V. R. 庫馬爾(V. R. Kumar)、M. 克林格納(M. Klingner)、S. 約加瑪尼(S. Yogamani)、S. 米爾茨(S. Milz)、T. 芬希謝特(T. Fingscheidt)和 P. 馬德爾(P. Mader),“合成距離網(wǎng)(SynDistNet):用于自動駕駛的自監(jiān)督單目魚眼相機距離估計與語義分割協(xié)同”,《電氣與電子工程師協(xié)會冬季計算機視覺應(yīng)用會議論文集》(Proc. IEEE Winter Conf. Appl. Comput. Vis.,縮寫為 WACV),2021 年 1 月,第 61 - 71 頁。
[116] J. T. 巴倫(J. T. Barron),“一種通用且自適應(yīng)的魯棒損失函數(shù)”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別會議論文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit.,縮寫為 CVPR),2017 年 6 月,第 4331 - 4339 頁。
[117] V. R. 庫馬爾(V. R. Kumar)等人,“自監(jiān)督環(huán)視魚眼相機近場距離估計網(wǎng)(SVDistNet)”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)匯刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 8 期,第 10252 - 10261 頁,2022 年 8 月。
[118] P. 劉(P. Liu)、L. 亨(L. Heng)、T. 薩特勒(T. Sattler)、A. 蓋格(A. Geiger)和 M. 波利費斯(M. Pollefeys),“魚眼立體相機的直接視覺里程計”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,縮寫為 IROS),2017 年 9 月,第 1746 - 1752 頁。
[119] Z. 崔(Z. Cui)、L. 亨(L. Heng)、Y. C. 楊(Y. C. Yeo)、A. 蓋格(A. Geiger)、M. 波利費斯(M. Pollefeys)和 T. 薩特勒(T. Sattler),“使用魚眼相機的自動駕駛車輛實時稠密地圖構(gòu)建”,《國際機器人與自動化會議論文集》(Proc. Int. Conf. Robot. Autom.,縮寫為 ICRA),2019 年 5 月,第 6087 - 6093 頁。[120] L. 亨(L. Heng)和 B. 崔(B. Choi),“魚眼立體相機的半直接視覺里程計”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,縮寫為 IROS),2016 年 10 月,第 4077 - 4084 頁。
[121] M. 格珀特(M. Geppert)、P. 劉(P. Liu)、Z. 崔(Z. Cui)、M. 波利費斯(M. Pollefeys)和 T. 薩特勒(T. Sattler),“用于多相機視覺定位的高效二維 - 三維匹配”,《國際機器人與自動化會議論文集》(Proc. Int. Conf. Robot. Autom.,縮寫為 ICRA),2019 年 5 月,第 5972 - 5978 頁。
[122] D. 卡魯索(D. Caruso)、J. 恩格爾(J. Engel)和 D. 克雷默斯(D. Cremers),“面向全向相機的大規(guī)模直接同時定位與地圖構(gòu)建(SLAM)”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,縮寫為 IROS),2015 年 9 月,第 141 - 148 頁。
[123] V. R. 庫馬爾(V. R. Kumar)等人,“全向檢測(Omnidet):基于環(huán)視相機的自動駕駛多任務(wù)視覺感知網(wǎng)絡(luò)”,《電氣與電子工程師協(xié)會機器人學(xué)與自動化快報》(IEEE Robot. Autom. Lett.),第 6 卷,第 2 期,第 2830 - 2837 頁,2021 年 2 月。
[124] M. 西亞姆(M. Siam)、H. 馬赫古布(H. Mahgoub)、M. 扎赫蘭(M. Zahran)、S. 約加瑪尼(S. Yogamani)、M. 賈格斯安德(M. Jagersand)和 A. 埃爾 - 薩拉布(A. El-Sallab),“基于運動和外觀的自動駕駛運動目標檢測網(wǎng)絡(luò)(MODNet)”,《第 21 屆智能交通系統(tǒng)國際會議論文集》(Proc. 21st Int. Conf. Intell. Transp. Syst.,縮寫為 ITSC),2018 年 11 月,第 2859 - 2864 頁。
[125] E. 穆罕默德(E. Mohamed)等人,“用于自動駕駛的單目實例運動分割:KITTI 實例運動分割(InstanceMotSeg)數(shù)據(jù)集及多任務(wù)基準”,《電氣與電子工程師協(xié)會智能車輛研討會論文集》(Proc. IEEE Intell. Vehicles Symp.,縮寫為 IV),2021 年 7 月,第 114 - 121 頁。
[126] M. 亞希奧伊(M. Yahiaoui)等人,“魚眼 MODNet:用于自動駕駛的環(huán)視相機運動目標檢測”,《愛爾蘭機器視覺與圖像處理會議論文集》(Proc. Irish Mach. Vis. Image Process.),2019 年,第 1 - 4 頁。
[127] C. 艾辛(C. Eising)、L. 佩雷拉(L. Pereira)、J. 霍根(J. Horgan)、A. 塞爾瓦拉朱(A. Selvaraju)、J. 麥克唐納(J. McDonald)和 P. 莫蘭(P. Moran),“2.5 維車輛里程計估計”,《英國工程技術(shù)學(xué)會智能交通系統(tǒng)》(IET Intell. Transp. Syst.),第 16 卷,第 3 期,第 292 - 308 頁,2022 年 3 月。
[128] I. 白(I. Baek)、A. 戴維斯(A. Davies)、G. 嚴(G. Yan)和 R. R. 拉杰庫馬爾(R. R. Rajkumar),“使用多幅魚眼圖像進行運動和靜止物體的實時檢測、跟蹤及分類”,《電氣與電子工程師協(xié)會智能車輛研討會論文集》(Proc. IEEE Intell. Vehicles Symp.,縮寫為 IV),2018 年 6 月,第 447 - 452 頁。
[129] M. O. 泰茲坎(M. O. Tezcan)、Z. 段(Z. Duan)、M. 科克巴斯(M. Cokbas)、P. 伊什瓦爾(P. Ishwar)和 J. 康拉德(J. Konrad),“WEPDTOF:用于野外頭頂魚眼相機行人檢測與跟蹤的數(shù)據(jù)集及基準算法”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別冬季會議論文集》(Proc. IEEE/CVF Winter Conf. Appl. Comput. Vis.,縮寫為 WACV),2022 年 1 月,第 503 - 512 頁。
[130] T. 布赫特(T. Buhet)等人,“PLOP:用于自動駕駛的概率多項式物體軌跡預(yù)測”,《機器人學(xué)習會議論文集》(Proc. Conf. Robot Learn.),2021 年,第 329 - 338 頁。
[131] Z. 吳(Z. Wu)、M. 王(M. Wang)、L. 尹(L. Yin)、W. 孫(W. Sun)、J. 王(J. Wang)和 H. 吳(H. Wu),“環(huán)視相機系統(tǒng)的車輛重識別”,《計算機視覺與模式識別會議研討會論文集(可擴展性自動駕駛)》(Proc. CVPR Workshop Scalability Auto. Driving),2020 年,第 1 - 8 頁。
[132] Z. 趙(Z. Zhao)、Z. 趙(Z. Zhao)、S. 王(S. Wang)、P. 瓦塔(P. Watta)和 Y. 盧?墨菲(Y. Lu Murphey),“使用環(huán)視魚眼相機系統(tǒng)進行行人重識別”,《國際神經(jīng)網(wǎng)絡(luò)聯(lián)合會議論文集》(Proc. Int. Joint Conf. Neural Netw.,縮寫為 IJCNN),2021 年,第 1 - 8 頁,doi:10.1109/IJCNN52387.2021.9533301。
[133] J. 雷德曼(J. Redmon)和 A. 法哈迪(A. Farhadi),“YOLOv3:一種漸進式改進”,2018 年,arXiv:1804.02767。
[143] A. R. 塞卡特(A. R. Sekkat)、Y. 迪皮伊(Y. Dupuis)、P. 瓦瑟(P. Vasseur)和 P. 奧內(nèi)納(P. Honeine),“全景觀(OmniScape)數(shù)據(jù)集”,《電氣與電子工程師協(xié)會國際機器人與自動化會議論文集》(Proc. IEEE Int. Conf. Robot. Autom.,縮寫為 ICRA),2020 年 5 月,第 1603 - 1608 頁。
[144] C. R. 德爾 - 布蘭科(C. R. Del - Blanco)、P. 卡瓦列拉(P. Carballeira)、F. 紹雷吉扎爾(F. Jaureguizar)和 N. 加西亞(N. García),“使用空間感知分類器網(wǎng)格的全向相機進行穩(wěn)健的室內(nèi)人員定位”,《信號處理、圖像通信》(Signal Process., Image Commun.),第 93 卷,2021 年 4 月,文章編號:116135。
[145] N. 廣瀨(N. Hirose)、A. 薩德吉安(A. Sadeghian)、M. 巴斯克斯(M. Vazquez)、P. 戈貝爾(P. Goebel)和 S. 薩瓦雷塞(S. Savarese),“GONet:一種用于可通行性估計的半監(jiān)督深度學(xué)習方法”,《電氣與電子工程師協(xié)會 / 國際機器人與系統(tǒng)學(xué)會國際智能機器人系統(tǒng)會議論文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,縮寫為 IROS),2018 年 10 月,第 3044 - 3051 頁。
[146] W. 徐(W. Xu)等人,“Mo2Cap2:使用頭戴式魚眼相機的實時移動三維運動捕捉”,《電氣與電子工程師協(xié)會可視化與計算機圖形匯刊》(IEEE Trans. Vis. Comput. Graph.),第 25 卷,第 5 期,第 2093 - 2101 頁,2019 年 5 月。
[147] A. 艾興塞爾(A. Eichenseer)和 A. 考普(A. Kaup),“一個提供合成和真實世界魚眼視頻序列的數(shù)據(jù)集”,《電氣與電子工程師協(xié)會國際聲學(xué)、語音與信號處理會議論文集》(Proc. IEEE Int. Conf. Acoust., Speech Signal Process.,縮寫為 ICASSP),2016 年 3 月,第 1541 - 1545 頁。
[148] H. 羅丹(H. Rhodin)等人,“自我捕捉(EgoCap):使用兩個魚眼相機的以自身為中心的無標記運動捕捉”,《美國計算機協(xié)會圖形學(xué)匯刊》(ACM Trans. Graph.),第 35 卷,第 6 期,第 1 - 11 頁,2016 年 11 月。
[149] G. 西斯圖(G. Sistu)等人,“神經(jīng)全能(NeurAll):邁向自動駕駛的統(tǒng)一視覺感知模型”,《電氣與電子工程師協(xié)會智能交通系統(tǒng)會議論文集》(Proc. IEEE Intell. Transp. Syst. Conf.,縮寫為 ITSC),2019 年 10 月,第 796 - 803 頁。
[150] S. 切努帕蒂(S. Chennupati)、G. 西斯圖(G. Sistu)、S. 約加瑪尼(S. Yogamani)和 S. 拉瓦什德(S. Rawashdeh),“輔助網(wǎng)絡(luò)(AuxNet):用于自動駕駛的輔助任務(wù)增強語義分割”,《第 14 屆國際計算機視覺、成像、計算、圖形理論與應(yīng)用聯(lián)合會議論文集》,2019 年,第 645 - 652 頁。
[151] G. 西斯圖(G. Sistu)、I. 梁(I. Leang)和 S. 約加瑪尼(S. Yogamani),“用于自動駕駛的實時聯(lián)合目標檢測與語義分割網(wǎng)絡(luò)”,《神經(jīng)信息處理系統(tǒng)機器學(xué)習手機及其他消費設(shè)備研討會論文集》(Proc. NeurIPSW ML Phone Other Consum. Devices),2018 年,第 1 - 5 頁。
[152] I. 梁(I. Leang)、G. 西斯圖(G. Sistu)、F. 伯格(F. Burger)、A. 布爾蘇克(A. Bursuc)和 S. 約加瑪尼(S. Yogamani),“自動駕駛系統(tǒng)中多任務(wù)網(wǎng)絡(luò)的動態(tài)任務(wù)加權(quán)方法”,《電氣與電子工程師協(xié)會第 23 屆智能交通系統(tǒng)國際會議論文集》(Proc. IEEE 23rd Int. Conf. Intell. Transp. Syst.,縮寫為 ITSC),2020 年 9 月,第 1 - 8 頁。
[153] P. 馬杜(P. Maddu)等人,“魚眼多網(wǎng)(FisheyeMultiNet):用于環(huán)視自動泊車系統(tǒng)的實時多任務(wù)學(xué)習架構(gòu)”,《愛爾蘭機器視覺與圖像處理會議論文集》,2019 年,第 1 - 8 頁。
[154] H. 拉希德(H. Rashed)、A. 埃爾 - 薩拉布(A. El Sallab)、S. 約加瑪尼(S. Yogamani)和 M. 埃爾 - 赫爾瓦(M. ElHelw),“用于自主導(dǎo)航的運動和深度增強語義分割”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別會議研討會論文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. Workshops,縮寫為 CVPRW),2019 年 6 月,第 364 - 370 頁。
[155] I. 索布(I. Sobh)、A. 哈米德(A. Hamed)、V. R. 庫馬爾(V. R. Kumar)和 S. 約加瑪尼(S. Yogamani),“自動駕駛多任務(wù)視覺感知中的對抗攻擊”,《成像科學(xué)與技術(shù)雜志》(J. Imag. Sci. Technol.),第 65 卷,第 6 期,第 60408 頁,2021 年 11 月。
[156] M. 烏亞(M. Uiá)、D. 胡里奇(D. Hurych)、P. 基澤克(P. Kí?ek)和 S. 約加瑪尼(S. Yogamani),“自動駕駛數(shù)據(jù)集設(shè)計與驗證中的挑戰(zhàn)”,《第 14 屆國際計算機視覺、成像、計算、圖形理論與應(yīng)用聯(lián)合會議論文集》,2019 年,第 1 - 7 頁。
[157] A. 蓋格(A. Geiger)、P. 倫茨(P. Lenz)和 R. 烏爾塔松(R. Urtasun),“我們準備好自動駕駛了嗎?KITTI 視覺基準套件”,《電氣與電子工程師協(xié)會計算機視覺與模式識別會議論文集》,2012 年 6 月,第 3354 - 3361 頁。
[158] S. 拉馬錢德蘭(S. Ramachandran)、G. 西斯圖(G. Sistu)、J. 麥克唐納(J. McDonald)和 S. 約加瑪尼(S. Yogamani),“用于自動駕駛的木景魚眼語義分割 ——2021 年計算機視覺與模式識別會議全向視覺研討會挑戰(zhàn)”,2021 年,arXiv:2107.08246。
[159] M. 埃德(M. Eder)、M. 什韋茨(M. Shvets)、J. 林(J. Lim)和 J. -M. 弗拉姆(J. -M. Frahm),“用于減輕球面畸變的切向圖像”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別會議論文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit.,縮寫為 CVPR),2020 年 6 月,第 12426 - 12434 頁。
[160] A. 穆阿德(A. Muad)、A. 侯賽因(A. Hussain)、S. 薩馬德(S. Samad)、M. 穆斯塔法(M. Mustaffa)和 B. 馬吉利斯(B. Majlis),“用于開發(fā)自動車道跟蹤系統(tǒng)的逆透視映射算法實現(xiàn)”,《電氣與電子工程師協(xié)會第 10 區(qū)會議論文集》(Proc. IEEE Region 10 Conf.,縮寫為 TENCON),第 1 卷,2004 年 11 月,第 207 - 210 頁。
[161] S. 莫哈帕特拉(S. Mohapatra)、S. 約加瑪尼(S. Yogamani)、H. 戈齊格(H. Gotzig)、S. 米爾茨(S. Milz)和 P. 馬德爾(P. Mader),“鳥瞰視圖檢測網(wǎng)絡(luò)(BEVDetNet):基于鳥瞰視圖激光雷達點云的自動駕駛實時三維目標檢測”,《電氣與電子工程師協(xié)會國際智能交通系統(tǒng)會議論文集》(Proc. IEEE Int. Intell. Transp. Syst. Conf.,縮寫為 ITSC),2021 年 9 月,第 2809 - 2815 頁。
[162] T. 羅迪克(T. Roddick)和 R. 奇波拉(R. Cipolla),“使用金字塔占用網(wǎng)絡(luò)從圖像預(yù)測語義地圖表示”,《電氣與電子工程師協(xié)會 / 計算機視覺與模式識別會議論文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit.,縮寫為 CVPR),2020 年 6 月,第 11138 - 11147 頁。
[163] J. 菲利翁(J. Philion)和 S. 菲德勒(S. Fidler),“提升、展開、投射:通過隱式反投影到三維對任意相機裝置的圖像進行編碼”,《歐洲計算機視覺會議論文集》,瑞士尚姆:施普林格出版社,2020 年,第 194 - 210 頁。
[164] R. 普萊斯(R. Pless),“將多個相機當作一個使用”,《電氣與電子工程師協(xié)會計算機協(xié)會計算機視覺與模式識別會議論文集》,第 2 卷,2003 年 6 月,第 1 - 7 頁。
[165] Y. 王(Y. Wang)等人,“DETR3D:通過三維到二維查詢從多視圖圖像進行三維目標檢測”,《機器人學(xué)習會議論文集》,2022 年 1 月,第 180 - 191 頁。[166] M. 博亞爾斯基(M. Bojarski)等人,“英偉達 PilotNet 實驗”,2020 年,arXiv:2010.08776。