日韩人妻一区二区三区蜜桃视频,国产99视频精品免费视看6

提到人工智能，就離不開算力、算法和數(shù)據(jù)這三要素。近些年，隨著算力平臺的升級以及全球物聯(lián)網(wǎng)帶來的數(shù)據(jù)爆發(fā)，算法的注意力帶寬開始不斷延展。比如，人們不再滿足于數(shù)字域下的人臉識別，而開始尋求連通模擬世界的“聞聲識相”。

這是一種什么樣的技術(shù)？簡單來講就是，當(dāng)我們正在打電話或者聽廣播時，我們并沒有看到對方的臉，但可以通過AI模型在幾秒內(nèi)描繪出對方的長相。

這聽起來像是玄學(xué)，但卻是有科學(xué)依據(jù)的。經(jīng)研究表明，人臉和聲音受到年齡、性別、種族、生理結(jié)構(gòu)、語言習(xí)慣等共同因素的影響，兩者的聯(lián)系強(qiáng)烈而復(fù)雜多樣。

簡單來講，人類講話靠的是聲帶的振動，聲帶的長度和寬度會影響音調(diào)的高低，通常女性的聲帶較窄、音調(diào)較高，男性的聲帶較寬、音調(diào)較低，然而聲帶振動后，聲音會在我們的胸腔里回轉(zhuǎn)，大部分聲音從喉嚨里傳出去，少部分聲音通過我們的臉部，如顴骨、下巴、鼻子、嘴唇等的振動傳出去。有趣的是，當(dāng)我們臉部組成的結(jié)構(gòu)、厚度不同時，發(fā)出的聲音也會有所不同，這意味著除了語言、口音、語速、音調(diào)等體現(xiàn)民族、地域和文化特征的因素以外，聲音和人臉之間存在著更深層次的聯(lián)系。

有誰還記得，在《挑戰(zhàn)不可能》第二季第三期中，來自四川大學(xué)的心理學(xué)教授王英梅在現(xiàn)場通過聲音倒推影像的聞聲識相絕技，在無法看到發(fā)聲者的前提下，僅憑20秒的回答，從10位年齡相仿的女生中辨別出了其中3位發(fā)聲者的長相，網(wǎng)友直呼佩服。

這年頭，很多人能做到的事情，AI也能做到，甚至做的比人還好，“聞聲識相”就是其中之一。比如，中科院和阿里安全就在琢磨這事兒，他們通過訓(xùn)練AI模型，研究表情和聲音的潛在關(guān)系，從而找到聲音的主人。

根據(jù)中科院計算所溫佩松博士等發(fā)表在CVPR 2021中的論文《Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association》顯示，“聞聲識相”或者“見人知聲”本質(zhì)上是基于深度學(xué)習(xí)和跨模態(tài)檢索技術(shù)，將人臉圖像和語音音頻片段分別輸入人臉編碼器網(wǎng)絡(luò)和語音編碼器網(wǎng)絡(luò)，根據(jù)身份的平均損失為提取的特征值分配不同的權(quán)重，并過濾掉個性化樣本，然后使用兩級模態(tài)匹配更新神經(jīng)網(wǎng)絡(luò)參數(shù)，從而找到聲音和人臉的關(guān)聯(lián)性。

目前，在給定一段聲音和僅含有一張正確人臉的若干張人臉圖片的條件下，這套AI算法匹配聲音和人臉的正確率約為87.2%，而相同條件下，人類判斷的準(zhǔn)確率約為81.3%，如果限定鑒別對象的性別，則準(zhǔn)確率將降到57.1%，而AI的自由度和魯棒性很好，因此準(zhǔn)確率相當(dāng)穩(wěn)定。

圖靈實驗室資深算法專家華棠表示：“該技術(shù)后續(xù)可輔助用于AI虛假視頻檢測，保護(hù)用戶的財產(chǎn)和信息安全?！北热纾诰W(wǎng)絡(luò)貸款和實名認(rèn)證中，騙子將無法利用盜取來的視頻獲取錢財。

事實上，不知中國的團(tuán)隊在做關(guān)于“聞聲識相”的研究，美國、日本、愛爾蘭、西班牙等國都在研究如何用音頻構(gòu)建人臉，也就是通過聲音進(jìn)行模擬畫像，這將比單純的聲音、人臉匹配辨別還要高一個難度。

據(jù)悉，業(yè)內(nèi)做的最好的人是卡內(nèi)基梅隆大學(xué)的Rita Singh，她已經(jīng)在這個領(lǐng)域深耕20余載，曾幫助美國海岸警衛(wèi)隊抓到過長期報假警的騷擾人員。

她通過將報警電話中的語音分割成多個幾毫秒的小片段，然后尋找信息點(diǎn)，靠著微弱的信號，不僅可以知道報假警人的大致長相，還能了解其周圍的環(huán)境，比如房間的大小、是否有窗戶、墻壁材料等，甚至還能通過電網(wǎng)波動產(chǎn)生的雜音與當(dāng)?shù)仉娋W(wǎng)數(shù)據(jù)庫匹配，定位到其確切的地理位置和掛電話的時間。

除了Rita Singh以外，還有一個有趣的案例我們不得不提，這個案例源自于一篇來自MIT團(tuán)隊的論文《Speech2Face: Learning the Face Behind a Voice》。顧名思義，這個研究團(tuán)隊給他們的AI神經(jīng)網(wǎng)絡(luò)取了個直觀的名字“Speech2Face”。

在Speech2Face中，研究人員以AVSpeech數(shù)據(jù)集（由YouTube上的數(shù)百萬個視頻片段組成，有超過10萬人的語言數(shù)據(jù)）為基礎(chǔ)，將人臉圖像和語音音頻片段分別輸入人臉編碼器網(wǎng)絡(luò)和語音編碼器網(wǎng)絡(luò)，從中提取到低維的4096-D人臉特征，再關(guān)聯(lián)人臉圖像和語音的信息要點(diǎn)，然后通過一個經(jīng)過單獨(dú)訓(xùn)練的面部解碼器模型將預(yù)測的面部特征解碼成人臉的標(biāo)準(zhǔn)圖像。

大家可以看到，通過Speech2Face重建的人臉圖像在年齡、性別、種族和顱面信息方面與真實人臉圖像的一致性還是很高的。不過無論是中科院計算所的溫佩松團(tuán)隊，還是MIT的Speech2Face團(tuán)隊，他們也都強(qiáng)調(diào)了這些神經(jīng)網(wǎng)絡(luò)模型還處在進(jìn)一步研究階段，有時候也會翻車，因為有些人的聲音是非常有特色的，會導(dǎo)致這些AI系統(tǒng)的誤判。比如，有些變聲前的男孩子會被當(dāng)成女孩，聲音嘶啞的男性會被當(dāng)成老頭，英語流利的亞裔會被當(dāng)成白人等。

由于這項研究尚無法精確還原單一個體的臉部圖像，所以當(dāng)前通過語音識別進(jìn)行人臉匹配和重建的技術(shù)更多地將被運(yùn)用于輔助場景中，比如刑事案件中犯罪嫌疑人的畫像、詐騙案中虛假視頻的檢測、電話銀行中客戶面容的預(yù)測等。

啥？電話銀行中客戶面容的預(yù)測？沒錯，未來電話銀行可以利用類似的神經(jīng)網(wǎng)絡(luò)模型來預(yù)測客戶的年齡、性別和所在地區(qū)等信息，以便針對不同的客戶群體提供個性化的服務(wù)，提升營銷水平。細(xì)思極恐，類似這樣的應(yīng)用場景非常多，難免有一種被泛人肉的感覺，以后還有誰敢隨便接聽電話？指不定AI悄悄就把我們給賣了，要不怎么說AI是把雙刃劍呢，用的恰到好處是天使，用的超過邊界就會變成魔鬼。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
FTLX8573D3BTL	1	Finisar Corporation	Transceiver, 840nm Min, 860nm Max, LC Connector, Panel Mount, PACKAGE-20		$67.02	查看
LTST-C191KGKT	1	Lite-On Semiconductor Corporation	Single Color LED, Green, Water Clear, 1.1mm, GREEN, PLASTIC, THIN, 2 PIN	ECAD模型下載ECAD模型	$0.02	查看
ECS-120-12-33Q-JES-TR	1	ECS International Inc	Parallel - Fundamental Quartz Crystal, 12MHz Nom, SMD, 4 PIN		$0.91	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

FTLX8573D3BTL

Finisar Corporation

Transceiver, 840nm Min, 860nm Max, LC Connector, Panel Mount, PACKAGE-20