?
被譽為下一代人機交互新模式的智能語音,融合了多種人工智能技術(shù),涵蓋識別與交互環(huán)節(jié)。
?
如今,智能語音作為 AI 突破口似乎已是業(yè)內(nèi)共識,未來必將扮演“連接器”、入口的角色,把信息、內(nèi)容、服務(wù)連接起來。互聯(lián)網(wǎng)女皇瑪麗·米爾克在 2016 年的互聯(lián)網(wǎng)趨勢報告中,把語音交互列為 2016 年的發(fā)展趨勢之一。未來十年將是人工智能商業(yè)化落地的關(guān)鍵周期,智能語音也將成為重要受益者。
智能音箱打開語音交互首扇窗
智能音箱的本質(zhì)是一種基于語音人機交互的 AI 產(chǎn)品。
作為智能語音落地的先驅(qū)者,亞馬遜 Echo 迅速成為“現(xiàn)象級”產(chǎn)品。隨后,國內(nèi)外所有 IT 巨頭相繼進入到語音交互市場,2015 年科大訊飛智能音箱叮咚、2016 年谷歌智能音箱 Google Home,2017 年智能音箱發(fā)布更密集聯(lián)想、蘋果、微軟、阿里、百度、騰訊、華為等紛紛入局。
然而,智能音箱本身并不是爭奪的戰(zhàn)場,真正的戰(zhàn)場是在下一代人機交互的入口之爭,各巨頭都希望在人機交互變革前搶先入局,以抓住這次分紅的機會。因此,背后之爭其實是用戶、數(shù)據(jù)、入口的資源的搶奪。
如今,我們正見證著語音交互時代到來,也逐漸從鍵盤、鼠標、遙控的時代向語音交互的時代過渡。當然,交互方式的變革將帶來極其廣泛而深遠的影響,因此單個產(chǎn)品上不能成本背后的推動力,但變革需要找的一個起點與支點,智能音箱便是推動變革的開端。未來,我們必將看到智能語音滲透到各個領(lǐng)域。
中國智能音箱市場的“熱”與“冷”
智能音箱的發(fā)展歷程可大致劃分為三階段:
2014-2016,亞馬遜 Echo 開局,掌舵風向;
2016-2017,谷歌極力突圍,Google Home 全力進擊;
2017,戰(zhàn)場混戰(zhàn),全生態(tài)較量。
2014 年 11 月亞馬遜發(fā)布了 Echo 智能音箱,2015 年 Echo 的出貨量達到 250 萬臺,2016 年達到 520 萬臺,超越 Sonos 成為行業(yè)霸主。在 Google Home 推出之前,亞馬遜 Echo 占據(jù)智能音箱市場 99%的份額。
Google Home 重拳出擊,自 2016 年 11 月發(fā)售到今年 4 月,已成功從亞馬遜“壟斷”格局中,搶下了 23.8%的市場份額。當然,亞馬遜也做出了反擊,比如發(fā)布 Echo Dot 2 代、在今年 7 月的 Prime 會員日進行了史無前例的大降價。
當下,智能音箱的戰(zhàn)場中已不僅僅是音箱個體的競爭,已蔓延到整個生態(tài)系統(tǒng)。有分析機構(gòu)將智能音箱競爭升級分為四個階段,即音箱個體(單點戰(zhàn)役)、音箱品類(戰(zhàn)局較量)、家庭場景設(shè)備(多線占據(jù))、全場景語音設(shè)備(全面戰(zhàn)爭)。
?
當然,這場生態(tài)戰(zhàn)役還可以從另一個維度來解讀,即構(gòu)成智能音箱三個部分硬件、算法和內(nèi)容。與非網(wǎng)本月《封面故事》專題圍繞智能語音的調(diào)查采訪中了解到,如今我國廠商在這三個領(lǐng)域皆有滲透。當然,終端才是最大的狂歡場,據(jù)有關(guān)數(shù)據(jù)顯示,深圳某條街道上智能音箱的硬件生產(chǎn)商就有上百家。
與 Echo 國外大賣形成鮮明對比,與廠商的熱情參與形成鮮明對比,智能音箱卻難以吊足中國市場的胃口,消費者不感冒、不買單。這背后的原因首先是消費習(xí)慣的差異,歐美家庭音箱的家庭普及率高達 85%,而國內(nèi)卻不足 20%;其次,技術(shù)與應(yīng)用層面的差異,因此叮咚音箱與 Echo 相比銷量會有巨大差距。
同時,值得注意的一點是 Echo 早早的開放了自己的語音系統(tǒng),系統(tǒng)開放帶來更多的第三方應(yīng)用。Echo 的目標不僅僅打造一個智能音箱而是一個平臺,越來越多的第三方應(yīng)用接入、越來越多的用戶使用智能音箱連接并控制家中的設(shè)備。
智能音箱 2.0 時代
在本期《封面故事》采訪中,全志科技智慧家居事業(yè)部總經(jīng)理陳風表示,現(xiàn)階段的技術(shù)基本滿足了人們對智能語音的需求,而最大的問題就是性價比。
聲智科技副總裁李智勇恰提出了利用第二代智能音箱架構(gòu)大幅提升性價比的方案,他表示:小米智能音箱之前的各種智能音箱軟硬架構(gòu)上都和 Amazon Echo 高度相似,也就是說整個智能音箱行業(yè)都在學(xué)習(xí)亞馬遜五六年前為智能音箱設(shè)定的架構(gòu)(特征是麥克風陣列板和主控板是分離的),而小米+聲智的方案與此不同,可看作智能音箱第二代架構(gòu),此變化推動了終端產(chǎn)品性價比的大幅提升。據(jù)業(yè)內(nèi)消息,亞馬遜第二代產(chǎn)品也將采用同種架構(gòu),此架構(gòu)很可能一統(tǒng)未來智能音箱的天下,其它類方案(比如導(dǎo)入單獨 DSP 做信號處理的)將失去生存空間。
智能語音有哪些大山要跨越
前面也提到智能語音背后是硬件、算法、內(nèi)容三大要素的支撐。
?
硬件
硬件部分芯片與麥克風陣列是核心部件。市場上支持語音交互與識別的芯片很多。然而,全志科技陳風卻表示:市場上沒有一款專為智能語音而生的芯片。因此,當下的語音技術(shù)還只在算法階段。一類是成本較低的傳統(tǒng)語音模式識別技術(shù),通過波形比較、波形匹配以及特征化實現(xiàn);另一類是基于 AI 技術(shù)的,由于適應(yīng)性好,可做到更加精準地識別。只要芯片支持音頻輸入功能和對應(yīng)的運算性能即可,比如 CPU 能夠達到 ARM 雙核 1.2G 就可滿足語音識別的要求,但稱之為專用的智能語音芯片并不嚴謹。
全志 R16、意法半導(dǎo)體 STM32 通用控制系列就被應(yīng)用到了智能語音的方案中。當然,行業(yè)里面正在研發(fā)專用的語音芯片。
麥克風陣列是聲音的物理入口,技術(shù)包括噪聲抑制、混響消除、回聲抵消、聲源測向、波束形成、陣列增益、模型匹配等,發(fā)展趨勢是小型化、低成本化和多人識別模式。
算法
算法方面,主要包括語音檢測、降噪、去混響和回聲消除等傳統(tǒng)音箱和通訊工具也需要具備的基本算法。智能音箱的關(guān)鍵算法是喚醒、語音識別、自然語言理解、對話管理、自然語言生成和文語轉(zhuǎn)換等算法。
語音識別的目的是將語音信號轉(zhuǎn)化為文本,目前,語音識別技術(shù)相對成熟?;诮鼒鲂盘柕?、受控環(huán)境(低噪聲、低混響)下的標準語音識別能夠達到很高的水平。然而在智能音箱開放性的真實環(huán)境或者說收眾多因素影響的遠場環(huán)境,需要結(jié)合前端信號處理一起來優(yōu)化。
聲紋識別是根據(jù)語音波形反映出的個人生理和行為特征的語音參數(shù),并以此來識別說話者的身份。現(xiàn)實中,該識別的準確率并不如指紋、虹膜識別。這也是智能語音更高“智能”形態(tài)的表現(xiàn)特征。
綜合而言,智能語音技術(shù)的瓶頸在于以下兩點 :
第一個問題是遠場環(huán)境復(fù)雜,夾雜噪音、混響、自噪聲等,容易導(dǎo)致機器端“聽不清”,從而影響后續(xù)一系列操作。解決了這個問題,偏命令控制的終端便能帶來良好的用戶體驗;
第二個問題是更深層次的智能問題,真正的智能需要實現(xiàn)語義的突破、需要聲音與視覺的融合,這樣的方案才更適合做擬人形態(tài)的機器人。
目前,各硬件廠商都停留在如何解決第一個瓶頸并做到更好用戶體驗的階段。ADI 在硬件中嵌入了機器學(xué)習(xí)與深度學(xué)習(xí)算法,因此可以高效而準確地捕獲語音命令;意法半導(dǎo)體將 SNR 提高到 65~67dB、 AOP 提高到 135dBSPL,以及在麥克風 ASIC 電路中加入抗干擾的設(shè)計等;CEVA 通過降噪、麥克風陣列波束成形、揚聲器跟蹤、回聲消除器、始終聆聽喚醒詞和嵌入式(非基于云端)語音指令實現(xiàn)。
未來,智能語音無處不在
探其究竟,智能語音落地背后的驅(qū)動力是什么?與非《封面故事》在采訪調(diào)查中也找到了這個問題的答案:
- 解放雙手
- 實現(xiàn)了功能入口扁平化
- 趣味性
我們不妨先來看看智能語音的發(fā)展歷程。
第一階段,20 世紀 50-70 年代,技術(shù)萌芽階段。貝爾實驗室、普林斯頓大學(xué)等科研機構(gòu)做了大量的研究,進行技術(shù)開發(fā);
第二階段,20 世紀 80 年代,技術(shù)突破階段;
第三階段,20 世紀 80 年代至 21 世紀初,進入產(chǎn)業(yè)化階段;
第四階段,2010 年至今,快速應(yīng)用階段。智能語音技術(shù)已經(jīng)深入用戶生活之中。
?
智能語音技術(shù)的發(fā)展并非一朝一夕,所以在技術(shù)層面已具有根基,正如《封面故事》調(diào)查,現(xiàn)有的硬件與方案是可以滿足當下智能語音要求的,但若在性能、成本、智能程度上更進一層,仍需繼續(xù)深耕,因為產(chǎn)品的逐級落地自然就有一個不斷完善的過程。
智能語音市場是一個高速增長的市場,2014 年為僅為 45.6 億美元的規(guī)模,2017 年市場規(guī)模預(yù)計將達到 105 億美,較 2016 年增長 30%。而中國市場的增速要高于全球市場,2015 年中國智能語音產(chǎn)業(yè)規(guī)模達到 40.3 億元,較 2014 年增長 41.0%,2016 年中國語音產(chǎn)業(yè)規(guī)模達到 59 億元,預(yù)計 2017 年中國語音產(chǎn)業(yè)規(guī)模將超過 100 億元。遠遠高于全球市場增速。
隨著人工智能的發(fā)展和深度學(xué)習(xí)技術(shù)的使用,語音識別準確率已經(jīng)達到了 95%以上。計算機和智能終端的界面正在從“鍵盤+鼠標”變?yōu)椤胞溈孙L+按鈕”,智能語音帶來的交互新體驗正在滲透。
縱觀“Touch 1.0(鍵盤)——Touch 2.0(鼠標)——Touch 3.0(觸屏)——Touch 4.0(語音)”交互發(fā)展史,每一次交互模式的變革都是產(chǎn)業(yè)的重新洗牌。
如今,智能語音首先在智能音箱生根落地,而未來,智能語音必將以交互的形式出現(xiàn)在各個領(lǐng)域,家電、家居、汽車、工業(yè)等等。據(jù)調(diào)研機構(gòu)數(shù)據(jù),預(yù)計到 2019 年,智能語音在市場規(guī)模超 1500 億美元的智慧家庭領(lǐng)域的滲透率將達 12%。
那么,除了智能音箱,語音交互會首先在哪些領(lǐng)域落地呢?
本次《封面故事》得出的結(jié)論是:智慧家庭類產(chǎn)品,因為該類產(chǎn)品可簡單快捷地引入智能家居控制系統(tǒng),輔助用戶進行高效便捷的控制。汽車將是智能語音爆發(fā)的大市場,但由于領(lǐng)域產(chǎn)品周期等原因,后稍晚于智能語音在家居類上的普及。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!