加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 所謂的3D,很可能是2.5D
    • 2.5D拉低了3D視覺門檻,真3D技術壁壘依然很高
    • 一邊是人才流失,一邊是人才浪費
    • 結語
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

尷尬的2.5D :3D的「里子」,2D的「面子」

2023/09/21
3121
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者|路遙

編輯|余快

機器視覺領域,仍舊以2D為主,3D(2.5D)為輔。

2D和3D是機器視覺領域兩個重要的概念,一個維度之差,帶來的是從平面信息到空間信息的質(zhì)的飛躍。

3D視覺誕生之初以人眼作為參照,目的是讓機器能夠更清晰地認知人類所處的三維世界。

這個賽道的企業(yè)無不以“3D視覺”自居,然而,在這場從2D到3D的技術接力賽中,也潛藏著一個不被外界所知的維度——2.5D。

“一大半宣稱3D視覺的公司,其實都是2.5D,不是真3D,而且能做到2.5D已經(jīng)很不容易?!?/strong>機器視覺從業(yè)者馬迪這句話,揭下了不少3D視覺公司身上的新衣。

所謂的3D,很可能是2.5D

在機器視覺中,3D和2D的區(qū)別主要三點:

第一,物體的識別和測量。

2D獲取的信息相對簡單,只能看到物體的平面信息。3D則是在2D的基礎上,增添了深度信息。提供了一個超級“數(shù)據(jù)集”,能更準確地識別物體的形狀和位置,彌補2D無法進行深度測量和分析的不足。

第二,處理對象。

2D圖像由像素點組成,每個像素點都有一個顏色值,最終呈現(xiàn)出來的是一個規(guī)整、對齊的像素圖;3D圖像由許多點云組成,點云記錄的是物體在空間中的位置和形狀,點云是不對齊、無序的。

第三,算法上也有區(qū)別。

2D視覺常用的算法和技術包括邊緣檢測、特征提取、圖像分割、物體識別等。3D視覺常用的則是深度估計、點云處理、三維重建、SLAM等。前者通過分析像素之間的關系和特征來實現(xiàn),后者則通過分析和處理深度圖或點云數(shù)據(jù)得到。

換句話說,2D視覺對平面信息可以直接獲取,但3D視覺的深度信息,卻需要通過計算得到。

深度學習的理解能力為例,深度學習在2D上做圖像識別分類能達到九十多分,但當其碰到點云時,表現(xiàn)就會降至七八十分。

3D成像在國內(nèi)的發(fā)展歷史并不是很長,2D成像處理已經(jīng)很成熟,但3D的成像處理卻很難。

“真正的3D,因為有多個視角,所以得用多個深度圖表示,深度圖的融合,只能通過點云處理,點云是不對齊和無序的,可以旋轉(zhuǎn)和縮放,這個門檻卡住了很多的工程師?!瘪R迪解釋道。

但下游客戶的確有大量3D需求,面對3D成像技術這道難關,2.5D順勢而生。

作為技術過渡階段的產(chǎn)物,2.5D兼具2D和3D的部分特征,形成了對圖像的獨特處理方式。

相比2D,2.5D增加了深度信息,與3D相比,2.5D圖像又并非通過點云,而是通過顏色傳遞高度信息。并且不同于3D的多視角,2.5D是單視角,信息比較殘缺,很多算法最終都會回歸到2D算法上。

“2.5D和3D的本質(zhì)區(qū)別,可以從視角來解釋,單視角很有可能是2.5D,必須得是多視角才是真3D,多視角是判斷真假3D的一個充分不必要條件?!?/strong>馬迪指出從視角角度可以很容易區(qū)分3D、2.5D、2D的不同。

技術上的亟待突破投射到下游應用中表現(xiàn)為:機器視覺的相關工位,仍舊以2D為主,3D(2.5D)為輔。

“檢測任務就屬于大部分沒有解決,還靠人工在搞,小部分解決那些,基本依靠2D,當2D無法勝任時,會用3D解決,并且很多所謂的3D也不是真3D,而是2.5D?!?/p>

不過,2.5D的存在也有其合理性,在部分非復雜應用場合中,客戶又需要獲取深度信息時,相比高成本的3D視覺,2.5D常常能以絕對的性價比取勝。

2.5D拉低了3D視覺門檻,真3D技術壁壘依然很高

從趨勢看,人眼的世界是個三維世界,從替換人眼的角度,3D視覺一定是未來的趨勢,好比以前手機用2D相機,現(xiàn)在都在往3D相機轉(zhuǎn),大量場景需求只是時間問題。

不過現(xiàn)階段,需要真3D的下游應用場景還不夠多。

以3D檢測為例,“目前檢測任務大部分還在依靠人工,小部分用機器視覺解決的,基本上用的都是2D?!?/p>

追根溯源,是3D視覺產(chǎn)品在客戶端的接受度還不夠高。

一方面,3D相機的成本太貴,導致設備整體價格較貴;另一方面,多視角混合的真3D,超出了大部分工程師的處理水平,視覺廠商要真正把3D做好很難。

因此,站在解決問題和性價比角度考慮,在2D視覺足夠解決場景問題的情況下,客戶并不愿意為成本更高的3D買單。

在追求優(yōu)質(zhì)性價比的工業(yè)市場上,那些需要獲取深度信息的場景客戶,從成本方面考慮,選擇2.5D視覺,已經(jīng)能夠滿足基本需求。

這使得3D視覺行業(yè)的進入門檻變低,而技術壁壘和行業(yè)難題猶存。

多位機器視覺投資人也曾對AI掘金志表達過這個觀點。

目前,結構光、ToF和雙目立體是三個主流的3D成像技術,其他成像技術都是在其基礎上的變形,國內(nèi)均已有成熟的開源算法。

“反正都是開源的,只要學過算法,即便沒在機器視覺公司工作過,也很快能跑起來?!蓖鯗\介紹,他有不少朋友碩士畢業(yè)后到機器人或視覺公司工作,并且一開始就承擔核心研發(fā)工作,“都是先在實驗室用存量數(shù)據(jù)或者公用數(shù)據(jù),跑起來后,再去工廠用他們的數(shù)據(jù)?!?/p>

晏小鋒認為,除開半導體這類壁壘極高的領域,一旦出現(xiàn)新興技術和市場,國內(nèi)就開始內(nèi)卷,但以3D成像技術為例,要做到低功耗、低延遲、高幀率、高分辨率,國內(nèi)外仍然有不小差距。

前兩年疫情催生下,機器人行業(yè)需求爆發(fā),3D視覺作為機器人在復雜環(huán)境實現(xiàn)“無觸式”的關鍵技術,受到資本熱捧,尤以距離落地更近的中游設備商和方案商,最受追捧。

在此過程中,一項新的產(chǎn)業(yè),攀附著3D視覺行業(yè)悄然生長:3D視覺創(chuàng)業(yè)培訓。

傳感器從業(yè)者賈科介紹,北京有一家小公司,專門做3D傳感器的解決方案培訓班。他們會先從傳感器圈子找人參加各種行業(yè)論壇,一旦發(fā)現(xiàn)哪個老板想融資,就和對方建立合作,從研發(fā)培訓課程,到企業(yè)一步步搭建,再到配套硬件,提供一條龍服務。

“這個公司有個公眾號,每天講一點秘密,底下評論的全是這個圈子的老板,大家都是一條流水線快速培訓起來的,各種忽悠資本不挺香嗎?”賈科說。

這類企業(yè)帶著明確的To VC目的,“因為3D是一個很好的概念,所以玩命往上湊”,他們在低水平處重復建設,不僅毫無技術差異化可言,還拉低了3D視覺行業(yè)的整體對外形象。

至于業(yè)內(nèi)發(fā)展較好的企業(yè),也大都沿襲著主流的成像技術,用著成熟的開源算法,雖在國產(chǎn)替代浪潮中有所成績,但極少有企業(yè)能拿出創(chuàng)新技術或方案,能解決傳統(tǒng)視覺廠商解決不了的問題。

或許正因如此,在3D投融資熱潮過去后,不少投資人選擇“棄城而逃”。

當然,3D視覺創(chuàng)業(yè)者谷永道出投資人離場的部分原因:真正懂機器視覺的投資人,鳳毛麟角。

“機器視覺屬于硬科技賽道,對投資人有專業(yè)性方面的要求,即使不是互聯(lián)網(wǎng)背景、金融背景,哪怕是半導體背景,也看不懂機器視覺賽道?!?/p>

事實上,從技術底層看,3D視覺領域的技術壁壘依然很高。

不同于投資人的觀點,創(chuàng)業(yè)者、從業(yè)者普遍認為:3D視覺行業(yè)不是技術壁壘變低,反而是客戶有很多痛點問題需要解決,但目前還沒有真正被突破。

比如高速、高精度場景,國內(nèi)極少有企業(yè)能做得了。

“國外一家傳感器公司,專吃高速場景,售價比國產(chǎn)最低端相機貴30%-40%,并且不帶服務,還能保證四成的毛利?!辟Z科進一步解釋,這家公司之所以能做得好,是因為花真金白銀給客戶定制CMOS芯片。國內(nèi)極少有企業(yè)做高速高動態(tài)場景,部分原因在于給錢也買不到國外的定制芯片。

這些技術實現(xiàn)過程中的曲折,非業(yè)內(nèi)出身的人,很難有深刻的體會。

一位二十年從業(yè)經(jīng)歷的行業(yè)老兵表示,目前國內(nèi)大多數(shù)視覺公司實現(xiàn)不了真3D,一方面出在技術積累上,一方面出在數(shù)據(jù)積累上。

國外機器視覺,從20世紀70年代起就已真正開始發(fā)展,而機器視覺在國內(nèi)的發(fā)展,不過是近二十年的事。

除了3C、汽車、新能源、鋰電、光伏等已經(jīng)相對成熟的制造業(yè),其他行業(yè)的工業(yè)客戶,對于瑕疵樣本的留存意識不足,導致數(shù)據(jù)獲取成本非常昂貴。

當下,大家都在試圖用AI解決制造業(yè)中的瑕疵檢測難題,但依然很難達到客戶“4個9”(即0.9999,特定時間10000個里一個瑕疵品)的要求。

在谷永看來,這是因為一個AI模型的質(zhì)量,主要由數(shù)據(jù)的數(shù)量跟質(zhì)量決定。但工業(yè)場景里,瑕疵品的數(shù)量非常少,出現(xiàn)概率在千分之一甚至萬分之一,再加上客戶沒有留存意識導致的樣本數(shù)據(jù)積累嚴重不足,也使得AI技術做工業(yè)瑕疵檢測缺乏土壤。

因此,雖然部分企業(yè)宣稱能在視覺檢測樣本庫不夠大的情況下,用AI生成一些相似的樣本庫,但實際上檢測精度會有所下降。

“那些說能用幾十張圖訓練出一個AI模型,并且檢測效果也非常好的公司,都是給投資人講故事。他們的AI模型實際是從幾千甚至上萬張圖片訓練出來的大模型中,‘瘦身’優(yōu)化出來的小模型?!痹诠扔揽磥?,從技術原理上講,通過虛擬方式生成瑕疵樣本并非不可能,而是現(xiàn)階段的技術還達不到。

換句話說,現(xiàn)階段機器視覺領域的AI,投喂什么就認識什么,并且投喂的數(shù)據(jù)都需要來自實際的瑕疵品,不具備推演的能力。

而一旦實現(xiàn)虛擬瑕疵,AI能像人腦一樣歸類和推演出成千上萬種瑕疵,即使客戶沒有針對實際瑕疵品做留存,檢測準確率也將大大提升。

一邊是人才流失,一邊是人才浪費

不同于2D視覺能夠直接獲取平面信息,3D視覺的深度信息,需要通過計算得到。

“直接獲取最容易,加一步計算,就擋住了一半的人。相比2D,2.5D也要獲取精確的深度信息,因此能做到2.5D已經(jīng)很不容易?!瘪R迪表示。

在3D視覺概念已經(jīng)無孔不入的今天,真實應用場景中運行的卻大多是2.5D相機,甚至2D相機。

這一反差背后的原因在于,將3D變成現(xiàn)實的人才,并非真正的3D人才。

行業(yè)驅(qū)動從本質(zhì)上講,是人才驅(qū)動。

但目前中國機器視覺行業(yè)普遍的現(xiàn)狀是:高端人才不足;學校教育與市場需求脫軌;人才浪費。

首先,從整個3D視覺行業(yè)來看,視覺相關的畢業(yè)生中,大專生的供應量占比最大。

“目前機器視覺工程師中,??飘厴I(yè)生占據(jù)絕大部分,因為視覺行業(yè)存在大量較為簡單的視覺任務識別工作,因此即使是明星企業(yè),也需要相當數(shù)量的??粕鷣硗瓿蛇@部分工作?!?/p>

與數(shù)量眾多的專科生形成鮮明對比,進入視覺行業(yè)的高端人才太少了。

作為一項新興技術,3D視覺以其想象力,在過去兩年成為工業(yè)領域里的一條吸金賽道,少數(shù)明星企業(yè)吸引到了不少高端人才,但他們的生存狀態(tài),并不代表賽道的普遍情況。

谷永是3D視覺領域極具代表性的創(chuàng)業(yè)者,畢業(yè)于華中理工大學,然而當他回到母校做宣傳時卻發(fā)現(xiàn),自己根本招不到人。

“所有的碩士跟博士一畢業(yè)后全部進入大廠,或者進入一些有名的AI公司,這些公司開得起錢。視覺公司大都是一些小的創(chuàng)業(yè)公司,穩(wěn)定性不強?!?/p>

其次,全國各大高校每年為機器視覺領域培養(yǎng)的畢業(yè)生并不少,但只有很少的人在學校里學習到了真3D的相關知識,大部分學校培養(yǎng)出來的都是2.5D或者2D的視覺工程師。

魏源觀察到,很多大專畢業(yè)的機器視覺工程師,往往都會2D算法,懂得深度圖或者圖像,但是他們通常不懂點云,也不會點云處理算法。

再者,機器視覺領域還存在一個極為矛盾的現(xiàn)象,即人才不足背景下的人才浪費問題。

“機器視覺領域的人才浪費當下還比較普遍”馬迪認為,至少在去年,甚至今年上半年,都還有公司付著博士的薪水,卻讓博士干著一位專科生就能干的應用工程師的活。

機器視覺市場,成熟狀態(tài)下的分工模式,將是研發(fā)與項目相互獨立,博士生、研究生更多進行純研發(fā)的研究,本科生、專科生更多接觸項目和應用。

“按理說,應該要給他們做好分工,但以檢測行業(yè)來說,一開始并不容易判斷一個項目的檢測難度,一般的處理方式是,先找一個中等水平的工程師進行實驗判斷,如果項目難度小,就將任務下發(fā)給技術能力更低的工程師來做,如果項目難度大,就向上找能力更強的人來做。”

在不少業(yè)內(nèi)人看來,機器視覺領域的人才浪費,更是行業(yè)發(fā)展初期的一個必經(jīng)的階段。

一方面,現(xiàn)階段的機器視覺還并非一個盈利賽道,企業(yè)養(yǎng)不起純研發(fā),只能讓博士生、研究生們到一線接觸項目,接觸應用,既是為了賺錢,也能了解市場需求。

另一方面,行業(yè)初期需要做大量奠基工作,一般的工程師做不了,需要由高屋建瓴的人牽頭執(zhí)行。

馬迪以行業(yè)融資規(guī)模前幾名的梅卡曼德舉例,“梅卡曼德就比較典型,拿著投資人的錢就可以請得起碩士、博士還有更貴的行業(yè)專家,現(xiàn)在梅卡曼德的相機已經(jīng)迭代到第4代,相機已經(jīng)穩(wěn)定可靠了?!?/p>

開創(chuàng)奠基的工作一完成,碩士、博士們便自然回歸研發(fā)工作,相機的使用則可以完全交由真正的集成商,集成商再啟用大專畢業(yè)生、初級工程師,將3D相機具體落地到產(chǎn)線和產(chǎn)品中,解決許多之前解決不了的視覺任務。

結語

2.5D是技術躍遷過程中一個階段性的產(chǎn)物,如果說以互補關系存在的2D和3D是技術天空的兩顆恒星,那2.5D就是劃過天邊的一顆流星,只會在穿越大氣層時摩擦出耀眼的火光,而后將隨著3D視覺的成熟歸于堙滅。

國內(nèi)3D視覺行業(yè)更大的問題在于,無論線激光或者結構光,高端都較為空白,中端亟待充實,太多公司在低水平重復建設中耗費大量精力。

與此同時,行業(yè)發(fā)展也需要警惕一味追求高精度,因為站在客戶角度,無論2D、2.5D、3D,能解決問題的,就是“火眼金睛”。

機器視覺優(yōu)秀人才的匱乏,從業(yè)者能做的較為有限,更多需要政府、資本的支持。畢竟只有當行業(yè)聚集的優(yōu)秀人才足夠多時,行業(yè)才能夠快速發(fā)展。

國內(nèi)3D視覺尚處發(fā)展初期,整個供應鏈在逐步進步,下游終端產(chǎn)品的場景應用也在不斷拓展,我們期待一個成熟商業(yè)閉環(huán)的到來,但也需要給予這個年輕賽道更多的時間。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA256A3BU-MH 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64QFN

ECAD模型

下載ECAD模型
$5.86 查看
STM32F429VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FSMC, TFT

ECAD模型

下載ECAD模型
$34.08 查看
DSPIC33EP512MU814-E/PH 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144

ECAD模型

下載ECAD模型
$11.85 查看

相關推薦

電子產(chǎn)業(yè)圖譜