在近日舉辦的 ICME 2021 上,墨奇科技 CEO 及聯(lián)合創(chuàng)始人邰騁、墨奇科技 CTO 及聯(lián)合創(chuàng)始人湯林鵬受邀發(fā)表 Tutorial 演講,介紹了如何將指紋識(shí)別問題轉(zhuǎn)化為高精度圖像搜索問題,基于先進(jìn)的多尺度特征表示、極少樣本的自學(xué)習(xí)框架、超高性能的異構(gòu)搜索系統(tǒng),首次實(shí)現(xiàn)了無需細(xì)節(jié)特征的指紋比對系統(tǒng),達(dá)到 20 億量級上的秒級、高精度、自動(dòng)化比對,并揭示了這一技術(shù)泛化到其他自然圖像和非結(jié)構(gòu)化數(shù)據(jù)上的可能性。
演講還介紹了利用多目視覺和結(jié)構(gòu)光的非接觸指紋采集技術(shù)的原理,以及下一代保護(hù)隱私的生物識(shí)別技術(shù)特性和實(shí)現(xiàn)途徑探索。
指紋識(shí)別傳統(tǒng)方法的挑戰(zhàn)、基于機(jī)器學(xué)習(xí)的改進(jìn)與局限性
指紋識(shí)別是一種典型生物特征比對方式,一般來說有兩種類型任務(wù):第一種是驗(yàn)證,也稱之為 1:1 的比對,是看這個(gè)人是不是他所宣稱的人,例如手機(jī)解鎖等,這相對比較容易。第二種是識(shí)別,也稱之為 1:N 的比對,要回答的是這個(gè)人是誰。從以下系統(tǒng)錯(cuò)比率和漏比率就可以看到,1:N 的問題比 1:1 的問題要困難得多,而且隨著庫容增大,這一問題會(huì)變得更加困難。
現(xiàn)有的比對系統(tǒng)主要是基于衡量輸入的相似度取閾值,一個(gè)真的比對分?jǐn)?shù)是比較高的,通常會(huì)形成偏右的分布。而錯(cuò)誤比對的分?jǐn)?shù)會(huì)比較低,形成偏左邊分布。這兩個(gè)分布可能有重疊,所以系統(tǒng)會(huì)犯兩種錯(cuò)誤:錯(cuò)比(false match/false accept):把不同的人當(dāng)成同一個(gè)人;漏比(false nonmatch/false reject):把同一個(gè)人當(dāng)成不同的人。以下公式中,下標(biāo) N 是指有 N 個(gè)人的 1:1 的識(shí)別,可以看到兩類系統(tǒng)漏比率基本相當(dāng),而錯(cuò)比率 1:N 系統(tǒng)近似于是 1:1 系統(tǒng)的 N 倍。
現(xiàn)場指紋(latent-print)比對是一個(gè)典型的1:N 識(shí)別的問題,對這一問題,傳統(tǒng)指紋系統(tǒng)尚未能很好地解決。傳統(tǒng)指紋識(shí)別方法主要有三方面問題:如何實(shí)現(xiàn)現(xiàn)場指紋圖像自動(dòng)增強(qiáng)、如何進(jìn)行畸變校正,如何加速流程實(shí)現(xiàn)在大庫中的快速比對。
這三方面問題存在于指紋識(shí)別的不同環(huán)節(jié):
- 首先是采集環(huán)節(jié),通過指紋傳感器采集指紋信息,通常分為人員指紋和現(xiàn)場指紋兩類,其中,人員指紋(tenprint)通過人員主動(dòng)參與獲得(例如油墨按捺或滾動(dòng)),通常質(zhì)量較高,而現(xiàn)場指紋(latent-print)需要借助粉塵顯影等方式顯現(xiàn),圖像質(zhì)量往往較差,通常需要進(jìn)行圖像增強(qiáng)后才能使用。
- 第二個(gè)環(huán)節(jié)是通過圖像增強(qiáng)進(jìn)行特征提取。在傳統(tǒng)指紋識(shí)別流程中需要提取細(xì)節(jié)特征點(diǎn)(minutia),即一些帶有方向的點(diǎn),包括端點(diǎn)和分叉點(diǎn)等,用于比對相似性。這一環(huán)節(jié)需要使用方向估計(jì)(orientatioin estimation)(如傅里葉近似法或梯度法)、使用 Gabor 濾波器進(jìn)行圖像平滑、去除假特征等圖像增強(qiáng)操作,以獲得細(xì)節(jié)特征。然而對于現(xiàn)場指紋,有時(shí)圖像增強(qiáng)不佳,過度壓縮,反而把真正的細(xì)節(jié)特征給去除了。
- 第三個(gè)環(huán)節(jié)是細(xì)節(jié)特征比對,在對需要比對的兩個(gè)模型做細(xì)節(jié)特征對齊(alignment)后,對比對數(shù)量和精度進(jìn)行評分,并設(shè)置閾值,以獲得相似性分?jǐn)?shù)。然而傳統(tǒng)指紋系統(tǒng)這一環(huán)節(jié)依賴于專家對細(xì)節(jié)特征進(jìn)行人工標(biāo)注,技術(shù)門檻很高,效率卻很低。
針對這些問題,近年來,研究者們在利用機(jī)器學(xué)習(xí)技術(shù)來改進(jìn)傳統(tǒng)的指紋識(shí)別上做了大量的工作,包括利用生成對抗網(wǎng)絡(luò)(GAN)進(jìn)行現(xiàn)場指紋圖像增強(qiáng),使用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行畸變校正,以及通過 FingerNet 端到端細(xì)節(jié)特征提取方法直接從圖像中提取特征點(diǎn)。這些基于深度學(xué)習(xí)的方法是對傳統(tǒng)方法的一種改進(jìn)。
然而,這些方法在精確度、訓(xùn)練數(shù)據(jù)和性能上仍存在局限:
- 第一,在精確度上,由于這些方法都是基于細(xì)節(jié)特征,而細(xì)節(jié)特征本身的精度就有限,只覆蓋了指紋信息中的一小部分,曲率和幾何信息都丟失了。只使用了細(xì)節(jié)特征的系統(tǒng),隨著數(shù)據(jù)庫大小的增加,準(zhǔn)確率會(huì)迅速下降,即“大庫衰減”現(xiàn)象。
- 第二,這些方法需要大量的訓(xùn)練數(shù)據(jù),但是這些數(shù)據(jù)并不易于獲得,而通過合成數(shù)據(jù)訓(xùn)練的模型通常并不能很好地應(yīng)用到真實(shí)數(shù)據(jù)中。
- 第三,在性能表現(xiàn)上,仍不能達(dá)到預(yù)期,尤其在大型數(shù)據(jù)庫比對上花費(fèi)的時(shí)間過長。
新一代指紋識(shí)別技術(shù):將指紋比對問題轉(zhuǎn)化為高精度圖像搜索問題
墨奇科技一直致力于探尋新的技術(shù)路徑來解決這些問題,并發(fā)現(xiàn)了一種可行的方式:除了傳統(tǒng)細(xì)節(jié)特征外,指紋上還有很多信息,例如紋線的曲率、疏密分布、宏觀的走向、拓?fù)浣Y(jié)構(gòu)等等,這些信息對于身份識(shí)別都很重要。如果指紋比對看作一個(gè)特殊的圖像搜索問題,就會(huì)發(fā)現(xiàn)解決問題的關(guān)鍵在于多尺度表示,即對不同信息運(yùn)用不同尺度予以表示。然而圖像搜索問題更多是相似性搜索問題,對于準(zhǔn)確率的要求遠(yuǎn)沒有指紋比對這么高。
?
圖:多尺度特征
那么如何實(shí)現(xiàn)高精度的圖像搜索呢?
首先需要一個(gè)更有效的數(shù)學(xué)框架為指紋圖像構(gòu)建最佳的多尺度表示,可以更搜索友好而非壓縮友好,讓高精度、高性能的圖像搜索成為可能。這里運(yùn)用的是自適應(yīng)小波框架。新的表達(dá)方法具有三個(gè)顯著優(yōu)勢:一是可以學(xué)習(xí)向量、圖和標(biāo)簽的多尺度特征。二是更容易構(gòu)造多個(gè)特征。例如,在從像素到整體圖像的每一個(gè)中間尺度上,都提取了標(biāo)簽(label)、向量(vector)和圖(graph)等不同的特征,極大地?cái)U(kuò)充了指紋信息。三是表示更具冗余性,并且具有完全重構(gòu)特性,因此,可以對其應(yīng)用不同的操作以獲得更多特征,例如一個(gè)點(diǎn)在不同尺度上,可以包含標(biāo)簽等信息。
其次,只需要極少樣本的自學(xué)習(xí)框架,讓系統(tǒng)可以自學(xué)習(xí)。單張圖片的訓(xùn)練信號大大增加,因而學(xué)習(xí)所需的標(biāo)記數(shù)據(jù)很少;給定一對指紋圖像,在全部尺度都可以開展學(xué)習(xí);當(dāng)專家使用系統(tǒng)時(shí),會(huì)不斷提供匹配/非匹配對,從而實(shí)現(xiàn)系統(tǒng)自驅(qū)動(dòng);特征具有局部性,無需再使用細(xì)節(jié)特征。因而,適應(yīng)多尺度特征的 AI 自學(xué)習(xí)框架,能夠從搜索候選中不斷自學(xué),達(dá)到無監(jiān)督學(xué)習(xí)。
另外,超高性能的異構(gòu)系統(tǒng)和架構(gòu),讓準(zhǔn)確性和速度提升。專門用于視覺搜索的異構(gòu)多層分布式系統(tǒng),針對多尺度特征進(jìn)行了優(yōu)化。在比對過程中,向量和標(biāo)簽被首先分配到?GPU/NPU 中去,利用其強(qiáng)大的并行計(jì)算能力,對特征進(jìn)行初步的比對和過濾;對結(jié)果使用 CPU 進(jìn)行圖等幾何特征的比對和精確匹配,以及對于多種算法的候選列表進(jìn)行再排序以優(yōu)化最終的結(jié)果,最終實(shí)現(xiàn)指紋圖像的高速比對。
?
上圖:需要人工標(biāo)注細(xì)節(jié)特征
下圖:無標(biāo)注比對自動(dòng)搜索指紋圖像相似的區(qū)域
憑借這些底層的技術(shù)創(chuàng)新,墨奇科技的新一代指紋識(shí)別系統(tǒng)徹底改變了傳統(tǒng)系統(tǒng)的工作流程,且突破性地不需要人工標(biāo)注,與現(xiàn)有絕大部分依賴人工的指紋系統(tǒng)都有本質(zhì)的差別。
以前,人們必須去現(xiàn)場收集指紋,帶回到辦公室,讓指紋專家標(biāo)記特征并將這些模板發(fā)送到系統(tǒng)進(jìn)行比對、等待結(jié)果。而現(xiàn)在只需要在現(xiàn)場用一些攝影設(shè)備(例如手機(jī))來拍攝指紋,就可處理更多特征數(shù)量和特征維度,但比對效率和響應(yīng)速度卻更高,可以秒級返回高精度結(jié)果,突破性地實(shí)現(xiàn)了 20 億量級大庫的秒級、高精度、自動(dòng)化比對。這一技術(shù)目前已運(yùn)用到了指紋以外的更多圖像,如掌紋識(shí)別上,未來還可能推廣到更廣泛的圖像搜索應(yīng)用中。
相較于傳統(tǒng)系統(tǒng),雖然墨奇科技下一代指紋識(shí)別系統(tǒng)需要處理的特征數(shù)量和特征維度更多,但比對效率和響應(yīng)速度卻更高。基于以上的技術(shù)突破,該系統(tǒng)是目前行業(yè)內(nèi)比對速度更快、精度更高的系統(tǒng),同時(shí)降低了大庫衰減率。
新一代指紋采集技術(shù):將指紋采集升級到非接觸 3D 時(shí)代
疫情期間,非接觸指紋采集和識(shí)別技術(shù)受到越來越多的關(guān)注。傳統(tǒng)指紋采集大多是接觸式的,需要手指按壓在儀器表面。而非接觸指紋采集具有更明顯的優(yōu)勢:
- 一是因?yàn)檫@種技術(shù)能夠提供更高質(zhì)量的指紋圖像,包括采集更多 3D 信息和更大的指紋面積,且與傳統(tǒng)接觸式不同,無需擔(dān)心不同油墨量會(huì)影響指紋質(zhì)量,按壓過程中也不會(huì)出現(xiàn)非均勻畸變。
- 二是因?yàn)檫@種技術(shù)對用戶更友好,采集速度更快、更便捷、更衛(wèi)生,并且不需要非常專業(yè)的操作人員協(xié)助指導(dǎo)。
非接觸式指紋技術(shù)涉及到幾個(gè)關(guān)鍵技術(shù),包括三維曲面重建和三維到二維曲面映射。指紋三維曲面重建目前主要有兩種方案:第一種是利用多目視覺技術(shù),在指紋采集時(shí),手指的每一部分都需要出現(xiàn)在至少兩個(gè)攝像頭的視野中;另外一種則基于結(jié)構(gòu)光技術(shù),通過向被測物體表面投射特定圖案的光線,通過對光的反射構(gòu)建三維曲面。
墨奇科技提出了將多目視覺和結(jié)構(gòu)光結(jié)合使用的新方法。其中,多目視覺聚焦于中間部分,結(jié)構(gòu)光聚焦于邊緣部分,并與多目視覺的三維結(jié)果進(jìn)行交叉驗(yàn)證,這樣就實(shí)現(xiàn)了從不同角度對指紋的三維曲面進(jìn)行高精密度的重建。
圖:多目視覺技術(shù)+結(jié)構(gòu)光
三維到二維曲面映射技術(shù),主要有兩種展開方式:參數(shù)化展開和非參數(shù)化展開。參數(shù)化展開將手指看做一個(gè)圓柱體,將圓柱體從三維鋪平到二維平面。該方法簡單有效,但是它無法保持手指垂直方向上的曲線距離,況且指尖部分也和圓柱體有很大的不同,所以會(huì)有有很多失真和誤差。非參數(shù)化展開實(shí)際上是模擬手指如何在平面上展開,構(gòu)建從三維表面到二維平面的非參數(shù)映射。這種方法需要的計(jì)算量更大,對三維曲面的精度要求也更高。
墨奇科技組合運(yùn)用了這兩種方式。
?
圖:墨奇首創(chuàng)了高圖像質(zhì)量的非接觸式指紋掃描儀
第一行左邊結(jié)果來自傳統(tǒng)的掃描儀
中間圖像來自墨奇非接觸指紋掃描儀
第二行來自業(yè)界其他非接觸設(shè)備
基于這些技術(shù),墨奇首創(chuàng)了高圖像質(zhì)量、與滾動(dòng)捺印采集面積相當(dāng)?shù)姆墙佑|式指紋掃描儀。它融合了世界領(lǐng)先的非接觸光學(xué)采集技術(shù)和三維視覺技術(shù),通過高精度曲面重建算法,使手指表面三維建模達(dá)到亞毫米精度,擁有采集速度快、采集質(zhì)量高、無需滾動(dòng)捺印、無形變、采集面積更大等核心優(yōu)勢,是國際領(lǐng)先、國內(nèi)首創(chuàng)的自主科技創(chuàng)新成果,將指紋技術(shù)全面升級到非接觸 3D 時(shí)代。
保護(hù)隱私的生物識(shí)別技術(shù)
生物識(shí)別技術(shù)在許多應(yīng)用中帶來了便利和安全,但另一方面,對由此引發(fā)的隱私問題的關(guān)注也在不斷增長,而且重要日益凸顯。和密碼不同,生物特征與每個(gè)人都永久相連,具有終生不變的特性,一旦泄露就永遠(yuǎn)泄露。因此,生物特征識(shí)別技術(shù)需要一種更有效的隱私保護(hù)機(jī)制。
用戶的原始特征和采集到的模板都是用戶的隱私信息,都應(yīng)該被保護(hù)。用來比對的是使用變換函數(shù)變換后的特征,并只將變換后的特征存在數(shù)據(jù)庫里。對照密碼常使用的哈希加密,我們可以用類似的方法,使用加密哈希變換和存儲(chǔ)生物特征信息嗎?
實(shí)際上,典型的哈希函數(shù)在生物特征識(shí)別上并不起作用,因?yàn)樯锾卣鲾?shù)據(jù)會(huì)隨著時(shí)間變化,例如同一個(gè)人的指紋可以有不同的形狀和面積,面部圖像可以有不同的角度和亮度,虹膜數(shù)據(jù)也可能隨睜眼或閉眼而變化,而例如用一個(gè) SHA256 的哈希值,即使原始數(shù)據(jù)改變了一位,哈希值也完全改變了。
既然典型的哈希函數(shù)不起作用,保護(hù)隱私的生物識(shí)別技術(shù)應(yīng)該具有哪些特性?墨奇科技認(rèn)為,一個(gè)真正保護(hù)隱私的生物識(shí)別系統(tǒng)需要具備如下三點(diǎn):
- 第一,不可逆。在給定比對特征的情況下,恢復(fù)原始的特征模板非常困難,并且這一難度通常由 NP-hard 類問題來保證。這一特性防止了濫用存儲(chǔ)的生物特征數(shù)據(jù)進(jìn)行欺騙或重放攻擊,因?yàn)楣粽邔o法從變換后的特征中獲取原始模板,這樣就提高了生物識(shí)別認(rèn)證系統(tǒng)的安全性。
- 第二,可撤銷。一旦某一個(gè)模板泄露或被認(rèn)為不安全,就可以安全注銷,然后簽發(fā)一個(gè)新模板,這樣就使得使用生物識(shí)別的方式和使用密碼的方式一樣可撤銷。
- 第三,非關(guān)聯(lián)性。這意味著想要確定一個(gè)或者多個(gè)變換后的模板是源于同一個(gè)原始特征,在計(jì)算上應(yīng)該是困難的。也就是說,用戶有不同的生物識(shí)別應(yīng)用,但彼此之間并不關(guān)聯(lián),比如說有小區(qū)門禁、支付等不同的應(yīng)用并不交叉認(rèn)證,從而保護(hù)了個(gè)人的隱私。
如果滿足了上述三點(diǎn),那么這樣的方案才可被稱為可撤銷的生物識(shí)別技術(shù),其中有三種方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault。
- 第一種方案,Biohashing,使用一個(gè)外部密鑰 k 生成從原始模板 T 中生成 biohash H (T, k)。這種方法的優(yōu)點(diǎn)是由于需要同時(shí)借助原始生物特征模板和外部密鑰兩個(gè)因素驗(yàn)證,實(shí)際上提高了準(zhǔn)確性。然而,該方案的缺點(diǎn)是仍需要記住密鑰,且一旦密鑰暴露,原始生物特征數(shù)據(jù)也不安全。
- 第二種方案,F(xiàn)uzzy Commitment,使用糾錯(cuò)碼技術(shù),優(yōu)點(diǎn)是可以看到用戶不需要記住任何密鑰,而缺點(diǎn)在于取決于糾錯(cuò)碼的構(gòu)造,不可撤銷性或者不可鏈接性可能無法完全滿足。
- 第三種方案,F(xiàn)uzzy Vault,實(shí)際上假設(shè)原始生物特征模板包含圖像的許多特征點(diǎn),使用一組網(wǎng)格點(diǎn)對圖像進(jìn)行分區(qū),并將這些特征點(diǎn)量化到網(wǎng)格,如果足夠多的特征點(diǎn)是正確的,那多項(xiàng)式可以用Generalized Reed Solomon解碼技術(shù)來恢復(fù),否則,有很多錯(cuò)誤點(diǎn)的多項(xiàng)式重建問題,實(shí)際上是 NP-hard 問題。這種方法的優(yōu)點(diǎn)是多項(xiàng)式重建問題的難度保證了一定的安全屬性,缺點(diǎn)是比對速度很慢。
?
圖:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
由此可見,研發(fā)保護(hù)隱私的生物識(shí)別相當(dāng)困難,現(xiàn)有系統(tǒng)很難達(dá)到。另一方面,對于所有保護(hù)隱私的生物識(shí)別系統(tǒng),都存在錯(cuò)比率(FMR)和漏比率(FNMR)之間的權(quán)衡問題,可以視為安全性和便利性之間的權(quán)衡。
事實(shí)上,任何可撤銷的生物識(shí)別系統(tǒng)的安全級別實(shí)際上都受 1/FMR 的限制,因?yàn)楣粽呖赡軙?huì)生成一個(gè)數(shù)量超過 1/FMR 合成生物特征樣本數(shù)據(jù)庫,然后在如此大量的樣本中,可以只找到一個(gè)與原始樣本具有足夠相似度的樣本,然后我們就可以找到匹配并破解系統(tǒng),還原原始的生物特征樣本。因此,我們需要一個(gè)具有非常低的 FMR 錯(cuò)比率的系統(tǒng),才能確保安全。
對于指紋識(shí)別系統(tǒng)來說,未來可撤銷的保護(hù)隱私的指紋識(shí)別系統(tǒng),未來發(fā)展方向包括:
- 第一,進(jìn)一步提高指紋圖像的質(zhì)量和獨(dú)特性。通過采集更大的圖像面積、掃描一只手的多根手指等方式,可以顯著增加指紋細(xì)節(jié)特征的數(shù)量,從而有效提高安全級別,而非接觸指紋采集實(shí)際上是實(shí)現(xiàn)這一目標(biāo)的一種非常有前景的方法。
- 第二,結(jié)合多種方式在安全與便捷之間實(shí)現(xiàn)更好的平衡。比如,通過在每個(gè)指紋細(xì)節(jié)特征點(diǎn)中增加嵌入式向量,使得指紋細(xì)節(jié)點(diǎn)更具區(qū)別性,從而用更少的指紋細(xì)節(jié)特征達(dá)到相同的安全級別。
墨奇科技正在將圖像比對和密碼學(xué)相組合,引領(lǐng)下一代保護(hù)隱私的生物特征識(shí)別技術(shù)。盡管保護(hù)隱私的生物識(shí)別技術(shù)由于各種技術(shù)困難尚未被廣泛采用,但必是生物識(shí)別技術(shù)的未來。
????
ICME 2021 簡介:
全球計(jì)算機(jī)多媒體頂級會(huì)議 ICME 全稱 IEEE International Conference on Multimedia and Expo,2021 年于 7 月 5 日 - 9 日于線上召開。
ICME 是計(jì)算機(jī)多媒體領(lǐng)域最重要和權(quán)威的兩大國際旗艦會(huì)議之一,會(huì)議輪流由美洲、歐洲、亞洲城市主辦,至今已連續(xù)舉辦 20 屆,每年都有約 500 位學(xué)者參會(huì),收到約 1000 份論文,涵蓋文本分析、圖形圖像、視頻處理、語音和音頻信號處理等主題。