加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 動機(jī):了解人類
    • 人類狀態(tài)的分類
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

Seeing Machines對DMS商業(yè)化落地的挑戰(zhàn):Occula NPU(一)

2022/03/17
1070
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

繼續(xù)Seeing Machines對DMS商業(yè)化落地所遇到的挑戰(zhàn)的總結(jié)。

動機(jī):了解人類

如今,需要人機(jī)交互的產(chǎn)品幾乎都是用按鈕來輸入的,無論是軟件還是物理輸入。在許多情況下,按鈕是一種極其簡單有效的界面解決方案,然而,在任何機(jī)器和人之間需要進(jìn)行交互的地方,按鈕也可能成為使用機(jī)器的障礙(比如,電視遙控器)。

如果許多產(chǎn)品能夠以某種方式檢測到人類想要或需要的東西,而不需要人類去尋找和按下正確的按鈕,那么它們的使用就會簡單得多。這在理論上很簡單,但在實(shí)踐中,檢測一個隨機(jī)的人可能想要或需要什么,需要一個(在某種程度上)能夠解釋更自然的人類命令的AI。

今天,我們看到了語音識別技術(shù)的一些成功跡象,這些技術(shù)已非常成熟,能夠有效地解釋人類的語音,使一些產(chǎn)品能夠單獨(dú)使用語音控制。語音主要用于命令,然而許多人在向機(jī)器發(fā)出語音命令時會感到不舒服,這在多人場景且可能正在交談的情況下尤其如此。語音命令很強(qiáng)大,但并不總是合適的,當(dāng)然也不是萬能的。相反,它們只是創(chuàng)造了另一個界面選項(xiàng)。機(jī)器指令也可以通過使用手部、面部和眼睛的物理姿態(tài)發(fā)出。這些都可以單獨(dú)使用,或者與語音相結(jié)合,進(jìn)一步豐富界面選擇。

然而,雖然許多設(shè)備可以通過語音或手勢命令得到改進(jìn),但更大的價值來自于機(jī)器能夠獲得關(guān)于個人的更豐富的上下文信息,從而動態(tài)地使界面適應(yīng)實(shí)時上下文。

我們相信,上下文確實(shí)是更智能的機(jī)器界面的關(guān)鍵。上下文可以有以下四個來源:(i) 機(jī)器當(dāng)前的“狀態(tài)”(如駕駛員正試圖前往一個旅行目的地),(ii) 環(huán)境(如高速公路、道路場景、夜晚等),(iii) 人自身的數(shù)字信息(如他們過去的目的地、朋友的地址等),(iv) 人自己。如果機(jī)器能知道一個人是否沮喪、憤怒、不安、平靜、不知所措、困惑、放松、困倦、睡眠、歡快、醉酒、從事某項(xiàng)工作……),那么它將能夠更好地服務(wù)于用戶,同時需要更少的指令。

目前的世界只是剛剛開始見證實(shí)時人類的上下文可以為下一代人機(jī)界面提供的價值。第一批系統(tǒng)現(xiàn)在已出現(xiàn)在豪華車中,奔馳S級是主要例子。在這里,視覺、聽覺和觸覺感官界面(用于輸入和輸出)被放置在駕駛員周圍,將他們置于許多界面路徑的“循環(huán)”中。其結(jié)果是一個感覺自然、高度智能的界面,極大地簡化了對來自車輛系統(tǒng)和道路環(huán)境的極其廣泛的信號訪問。

總之,Occula的開發(fā)不僅是為了解決DMS的有限應(yīng)用范圍,而且是為了更廣泛的“理解人類”。雖然這可能聽起來是一個非常廣泛的應(yīng)用,但它仍然產(chǎn)生了一套通用的專門的神經(jīng)網(wǎng)絡(luò)(NN)算法,因此優(yōu)化了執(zhí)行方法,因此可以發(fā)現(xiàn)比起通用的NPU設(shè)計(jì),有明顯的嵌入式優(yōu)勢。盡管Occula NPU是為DMS解決方案而設(shè)計(jì)和打造的,但當(dāng)它與Seeing Machines DMS算法堆棧結(jié)合時,可以為更廣泛的產(chǎn)品提供性能優(yōu)勢。任何(i)對價格或功耗敏感的產(chǎn)品,以及(ii)可以從理解人類的上下文信息中獲得優(yōu)勢。我們把它留給讀者,讓他們?nèi)ハ胂蟾鞣N可能性。

SM-DETECT和SM-TRACK了解人類始于對人體的檢測和測量。人類已經(jīng)進(jìn)化為高度社會化的動物,而人類大腦的生物學(xué)告訴我們,要“視覺理解(visually understand)”或了解,人體最關(guān)鍵的組成部分之一是臉。

這一點(diǎn)通過對被稱為枕葉(occipital lobe)的大腦區(qū)域的研究得到了證明,枕葉位于頭骨后面,直接接收來自視神經(jīng)的神經(jīng)脈沖。枕葉包含一個稱為枕面區(qū)(occipital face area)的亞區(qū)。神經(jīng)科學(xué)家的實(shí)驗(yàn)表明,這似乎是一個NN集群,完全致力于面部特征的低水平檢測。

在面部本身,可以說最重要的檢測特征是眼睛。這是因?yàn)檠劬沂玖艘粋€人正在看哪里的所有重要信息。這一線索與場景的上下文相結(jié)合,為另一個人在任何特定時刻可能在想什么提供了極其寶貴的洞察,因此是高級社會互動的關(guān)鍵組成部分。在大腦中,對眼睛特征的檢測被認(rèn)為是在一個被稱為顳上溝(superior temporal sulcus)的專門區(qū)域進(jìn)行的,而將臉部和眼睛的時間空間信息轉(zhuǎn)化為情感線索的高階轉(zhuǎn)換則發(fā)生在杏仁核和前額葉皮層,它們也有無數(shù)的其他作用。

對于嵌入式工程師來說,人類大腦似乎只是進(jìn)化出了專門用于檢測和跟蹤面部特征的NN“硬件”加速器。這一進(jìn)化步驟的原因可能是,在社會環(huán)境中,面部理解是一項(xiàng)處理密集但又必不可少的任務(wù),而大腦作為一個器官(或計(jì)算機(jī)),已經(jīng)消耗了大量的卡路里。進(jìn)化似乎不僅選擇了更大的大腦,而且選擇了那些能夠極其高效地完成日常工作的大腦。

部分受到目睹這些專門的生物網(wǎng)絡(luò)的啟發(fā),Seeing Machines已經(jīng)開發(fā)了類似的優(yōu)化處理路徑,用于檢測和跟蹤人類的身體部位。這些功能單元是DMS處理層次的“金字塔底層”,共同構(gòu)成了人機(jī)交互所需的“感知”層。

SM-DETECT是檢測人臉、面部特征、軀干、手臂、手等的“快速路徑”,也可以通過訓(xùn)練來檢測可能出現(xiàn)在人體附近的其他種類的物體,如太陽鏡或手機(jī)。為檢測而選擇的算法絕不是檢測精度最高的,而是在速度和精度之間的權(quán)衡,經(jīng)過精心選擇,以最大限度地兼容硬件加速,并最大限度地減少處理功耗。

FOVIO芯片固件周期性地執(zhí)行SM-DETECT路徑,掃描場景中的人體部部位,這些檢測結(jié)果用于支持對車輛乘員的逐幀跟蹤。

SM-TRACK是一個類似的想法。一個快速路徑,但用于定位和跟蹤各幀的人體部件。該路徑利用了身體部位在視頻幀之間只能移動這么遠(yuǎn)的知識,并根據(jù)對身體部位在最新圖像中可能出現(xiàn)的位置的預(yù)測,結(jié)合人類基本形態(tài)的模型,對身體部位進(jìn)行局部檢測。SM-TRACK節(jié)省了大部分的處理帶寬,而標(biāo)準(zhǔn)的解決方案是使用一個NN來適應(yīng)每一幀視頻的3D(或4D)模型。再一次,所使用的算法來自于超過15年的內(nèi)部演化,從而在車內(nèi)環(huán)境中,在速度和準(zhǔn)確性之間做出了謹(jǐn)慎的權(quán)衡。

Seeing Machines并不聲稱這些算法在檢測和跟蹤圖像中人類的能力方面是最好的,但我們相信它們是“足夠好”的跟蹤性能和所有重要指標(biāo)與處理成本之間的最佳折中方案。

人類狀態(tài)的分類

在人腦中,復(fù)雜的高階推理任務(wù)由前額和額葉皮層執(zhí)行,它們似乎處于網(wǎng)絡(luò)層次的頂峰,也是我們?nèi)祟愐庾R的主要所在。

對于嵌入式工程師來說,大腦的額葉皮層區(qū)域看起來有點(diǎn)像一個通用的NPU。這也許是各種不同的網(wǎng)絡(luò)幫助我們在社會世界中解決復(fù)雜的生存難題的地方,每個網(wǎng)絡(luò)都將來自下方更高帶寬感知層的狀態(tài)作為輸入。

同樣,Occula的設(shè)計(jì)是為了支持更普遍的NN,特別是那種從SM-DETECT和SM-TRACK感知層獲取結(jié)果并進(jìn)行高階分類的類型和規(guī)模;例如,在最后兩秒的眼瞼數(shù)據(jù)中檢測出微睡眠,或者在對整個駕駛員的幾分鐘觀察中推斷出瞌睡的程度。

為了做到這一點(diǎn),Seeing Machines的工程師調(diào)查了現(xiàn)代DMS所需的一套分類器算法集,研究了操作者、模型大小、數(shù)字精度和所需的執(zhí)行時間預(yù)算,并設(shè)計(jì)了Occula,使其在芯片資源預(yù)算內(nèi)“最適合”所有已知組合。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

C.A.S.E.及大出行領(lǐng)域?qū)W習(xí)及知識分享。歡迎業(yè)內(nèi)朋友交流~!