在這波人工智能浪潮中,智能語音首先以交互的形式在智能音箱領(lǐng)域落地,而語音交互作為人機交互方式的升級版,隨后必將滲透進家電、汽車、機器人等領(lǐng)域,甚至可能成為標配。
語音交互的“硬”道理
為了做好語音交互功能就需要相應(yīng)的硬件支持,聲智科技副總裁李智勇認為:智能語音硬件必須在喚醒率、誤喚醒率、識別率上達到一定指標,才可讓整體交互體驗流暢。當然,語音交互涉及眾多環(huán)節(jié),在技術(shù)層面保障聽清、命令控制精準的基礎(chǔ)上,加上百度 DuerOS、騰訊云小微等內(nèi)容平臺,才可能形成最終的完整方案。
?聲智科技副總裁李智勇
?
聲智科技是一家專注于聲學(xué)前沿技術(shù)和人工智能交互的公司,也是小米 AI 音箱遠場語音交互技術(shù)的供應(yīng)商。被小米音箱采用的是 SAI_MICAK_60_3229_EVK 方案,為主打遠場語音交互的 6 麥低成本方案,可應(yīng)用于智能音箱、DOT、電視盒子等語音智能產(chǎn)品中,具有全方向喚醒、聲源測向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠場語音識別、語義理解等多項功能,支持 Alexa、DuerOS、Mor 等第三方智能系統(tǒng)。
?
?SAI_MICAK_60_3229_EVK 方案
李智勇表示:聲智科技致力于解決當下語音交互最棘手的遠場問題。小米智能音箱之前的各種智能音箱軟硬架構(gòu)上都和 Amazon Echo 高度相似,也就是說整個智能音箱行業(yè)都在學(xué)習(xí)亞馬遜五六年前為智能音箱設(shè)定的架構(gòu)(特征是麥克風(fēng)陣列板和主控板是分離的),而小米+聲智的方案與此不同,可看作智能音箱第二代架構(gòu),此變化推動了終端產(chǎn)品性價比的大幅提升。據(jù)業(yè)內(nèi)消息,亞馬遜第二代產(chǎn)品也將采用同種架構(gòu),此架構(gòu)很可能一統(tǒng)未來智能音箱的天下,其它類方案(比如導(dǎo)入單獨 DSP 做信號處理的)會徹底失去生存空間。
除了智能音箱方面的應(yīng)用,聲智科技的語音方案還應(yīng)用在了智能醫(yī)療、機器人、智能汽車等領(lǐng)域。
面對聲智科技語音方案是否實現(xiàn)功能與性能的理想化這個問題,李智勇表示,長線來看語音交互產(chǎn)品需要做到“用戶隨便說一句話,產(chǎn)品就能給一個精準響應(yīng)”,而這還有很長一段路要走。當前聲智科技可讓用戶流暢體驗偏命令的語音交互,但真正賦予語音交互產(chǎn)品“智能”仍有很大提升空間。舉例而言,未來智能音箱可針對不同人、不同的偏好、不同場景,播放不同的歌曲,實現(xiàn)這種智能程度還需要語音與視覺的融合。盡管智能音箱在功能與性能上都有無限的想象空間,但在落地環(huán)節(jié)卻需要逆向思考,抓住“少即是多”原則,從核心體驗出發(fā),把某些功能的體驗做到極致,這將比“什么都做,卻什么都做不好”更有價值。
如何解決智能語音的瓶頸問題
語音交互與識別在應(yīng)用落地過程中逐漸暴露出一些“局限性”,智能語音技術(shù)的瓶頸在哪?
?
第一個問題是遠場環(huán)境復(fù)雜,夾雜噪音、混響、自噪聲等,容易導(dǎo)致機器端“聽不清”,從而影響后續(xù)一系列操作。解決了這個問題,偏命令控制的終端便能帶來良好的用戶體驗。
?
第二個問題是更深層次的智能問題,真正的智能需要實現(xiàn)語義的突破、需要聲音與視覺的融合,這樣的方案才更適合做擬人形態(tài)的機器人。
?
李智勇表示,第一個問題關(guān)乎當下的終端產(chǎn)品能否真正落地,聲智科技當前專注于解決這個問題,且目標很簡單,就是要通過“技術(shù) -- 應(yīng)用 -- 技術(shù)”上的反饋把技術(shù)做到最好、把性價比做到極致,通過與小米合作成為國內(nèi)把這些問題解決的最好的公司;第二個問題將影響到產(chǎn)品的應(yīng)用范圍,若不解決該該問題,產(chǎn)品應(yīng)用就會相對垂直,不能成為真正通用型產(chǎn)品。
語音交互作為一種交互方式,其核心推動力就是用戶體驗的更簡單便利。交互方式變革帶來的影響極其廣泛而深遠,因此單個產(chǎn)品不能成本背后的推動力,但變革需要找的一個起點與支點。因此,語音交互首先在智能音箱領(lǐng)域落地,而智能交互還需不斷革新才能逐漸滲透到各領(lǐng)域。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!