提到人工智能,就離不開算力、算法和數(shù)據(jù)這三要素。近些年,隨著算力平臺的升級以及全球物聯(lián)網(wǎng)帶來的數(shù)據(jù)爆發(fā),算法的注意力帶寬開始不斷延展。比如,人們不再滿足于數(shù)字域下的人臉識別,而開始尋求連通模擬世界的“聞聲識相”。
這是一種什么樣的技術(shù)?簡單來講就是,當(dāng)我們正在打電話或者聽廣播時,我們并沒有看到對方的臉,但可以通過AI模型在幾秒內(nèi)描繪出對方的長相。
這聽起來像是玄學(xué),但卻是有科學(xué)依據(jù)的。經(jīng)研究表明,人臉和聲音受到年齡、性別、種族、生理結(jié)構(gòu)、語言習(xí)慣等共同因素的影響,兩者的聯(lián)系強(qiáng)烈而復(fù)雜多樣。
簡單來講,人類講話靠的是聲帶的振動,聲帶的長度和寬度會影響音調(diào)的高低,通常女性的聲帶較窄、音調(diào)較高,男性的聲帶較寬、音調(diào)較低,然而聲帶振動后,聲音會在我們的胸腔里回轉(zhuǎn),大部分聲音從喉嚨里傳出去,少部分聲音通過我們的臉部,如顴骨、下巴、鼻子、嘴唇等的振動傳出去。有趣的是,當(dāng)我們臉部組成的結(jié)構(gòu)、厚度不同時,發(fā)出的聲音也會有所不同,這意味著除了語言、口音、語速、音調(diào)等體現(xiàn)民族、地域和文化特征的因素以外,聲音和人臉之間存在著更深層次的聯(lián)系。
有誰還記得,在《挑戰(zhàn)不可能》第二季第三期中,來自四川大學(xué)的心理學(xué)教授王英梅在現(xiàn)場通過聲音倒推影像的聞聲識相絕技,在無法看到發(fā)聲者的前提下,僅憑20秒的回答,從10位年齡相仿的女生中辨別出了其中3位發(fā)聲者的長相,網(wǎng)友直呼佩服。
這年頭,很多人能做到的事情,AI也能做到,甚至做的比人還好,“聞聲識相”就是其中之一。比如,中科院和阿里安全就在琢磨這事兒,他們通過訓(xùn)練AI模型,研究表情和聲音的潛在關(guān)系,從而找到聲音的主人。
根據(jù)中科院計算所溫佩松博士等發(fā)表在CVPR 2021中的論文《Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association》顯示,“聞聲識相”或者“見人知聲”本質(zhì)上是基于深度學(xué)習(xí)和跨模態(tài)檢索技術(shù),將人臉圖像和語音音頻片段分別輸入人臉編碼器網(wǎng)絡(luò)和語音編碼器網(wǎng)絡(luò),根據(jù)身份的平均損失為提取的特征值分配不同的權(quán)重,并過濾掉個性化樣本,然后使用兩級模態(tài)匹配更新神經(jīng)網(wǎng)絡(luò)參數(shù),從而找到聲音和人臉的關(guān)聯(lián)性。
目前,在給定一段聲音和僅含有一張正確人臉的若干張人臉圖片的條件下,這套AI算法匹配聲音和人臉的正確率約為87.2%,而相同條件下,人類判斷的準(zhǔn)確率約為81.3%,如果限定鑒別對象的性別,則準(zhǔn)確率將降到57.1%,而AI的自由度和魯棒性很好,因此準(zhǔn)確率相當(dāng)穩(wěn)定。
圖靈實驗室資深算法專家華棠表示:“該技術(shù)后續(xù)可輔助用于AI虛假視頻檢測,保護(hù)用戶的財產(chǎn)和信息安全?!北热纾诰W(wǎng)絡(luò)貸款和實名認(rèn)證中,騙子將無法利用盜取來的視頻獲取錢財。
事實上,不知中國的團(tuán)隊在做關(guān)于“聞聲識相”的研究,美國、日本、愛爾蘭、西班牙等國都在研究如何用音頻構(gòu)建人臉,也就是通過聲音進(jìn)行模擬畫像,這將比單純的聲音、人臉匹配辨別還要高一個難度。
據(jù)悉,業(yè)內(nèi)做的最好的人是卡內(nèi)基梅隆大學(xué)的Rita Singh,她已經(jīng)在這個領(lǐng)域深耕20余載,曾幫助美國海岸警衛(wèi)隊抓到過長期報假警的騷擾人員。
她通過將報警電話中的語音分割成多個幾毫秒的小片段,然后尋找信息點(diǎn),靠著微弱的信號,不僅可以知道報假警人的大致長相,還能了解其周圍的環(huán)境,比如房間的大小、是否有窗戶、墻壁材料等,甚至還能通過電網(wǎng)波動產(chǎn)生的雜音與當(dāng)?shù)仉娋W(wǎng)數(shù)據(jù)庫匹配,定位到其確切的地理位置和掛電話的時間。
除了Rita Singh以外,還有一個有趣的案例我們不得不提,這個案例源自于一篇來自MIT團(tuán)隊的論文《Speech2Face: Learning the Face Behind a Voice》。顧名思義,這個研究團(tuán)隊給他們的AI神經(jīng)網(wǎng)絡(luò)取了個直觀的名字“Speech2Face”。
在Speech2Face中,研究人員以AVSpeech數(shù)據(jù)集(由YouTube上的數(shù)百萬個視頻片段組成,有超過10萬人的語言數(shù)據(jù))為基礎(chǔ),將人臉圖像和語音音頻片段分別輸入人臉編碼器網(wǎng)絡(luò)和語音編碼器網(wǎng)絡(luò),從中提取到低維的4096-D人臉特征,再關(guān)聯(lián)人臉圖像和語音的信息要點(diǎn),然后通過一個經(jīng)過單獨(dú)訓(xùn)練的面部解碼器模型將預(yù)測的面部特征解碼成人臉的標(biāo)準(zhǔn)圖像。
大家可以看到,通過Speech2Face重建的人臉圖像在年齡、性別、種族和顱面信息方面與真實人臉圖像的一致性還是很高的。不過無論是中科院計算所的溫佩松團(tuán)隊,還是MIT的Speech2Face團(tuán)隊,他們也都強(qiáng)調(diào)了這些神經(jīng)網(wǎng)絡(luò)模型還處在進(jìn)一步研究階段,有時候也會翻車,因為有些人的聲音是非常有特色的,會導(dǎo)致這些AI系統(tǒng)的誤判。比如,有些變聲前的男孩子會被當(dāng)成女孩,聲音嘶啞的男性會被當(dāng)成老頭,英語流利的亞裔會被當(dāng)成白人等。
由于這項研究尚無法精確還原單一個體的臉部圖像,所以當(dāng)前通過語音識別進(jìn)行人臉匹配和重建的技術(shù)更多地將被運(yùn)用于輔助場景中,比如刑事案件中犯罪嫌疑人的畫像、詐騙案中虛假視頻的檢測、電話銀行中客戶面容的預(yù)測等。
啥?電話銀行中客戶面容的預(yù)測?沒錯,未來電話銀行可以利用類似的神經(jīng)網(wǎng)絡(luò)模型來預(yù)測客戶的年齡、性別和所在地區(qū)等信息,以便針對不同的客戶群體提供個性化的服務(wù),提升營銷水平。細(xì)思極恐,類似這樣的應(yīng)用場景非常多,難免有一種被泛人肉的感覺,以后還有誰敢隨便接聽電話?指不定AI悄悄就把我們給賣了,要不怎么說AI是把雙刃劍呢,用的恰到好處是天使,用的超過邊界就會變成魔鬼。