智能音箱與ChatGPT能擦出什么樣的火花?
銷量緩踩剎車的智能音箱,與狂飆的ChatGPT,能擦出什么火花?
ChatGPT帶來的生成式AI熱潮正在席卷各行各業(yè),各類智能硬件產品上也不斷涌現(xiàn)出新的功能和應用。
在出貨量逐年下跌、消費者熱情逐漸消退的智能音箱產業(yè),生成式AI強大的語義理解、用戶意圖理解以及內容生成能力,給了這一產業(yè)的玩家們尋找新機遇的絕佳機會。
前有小度科技融合文心一言打造的針對智能設備場景的人工智能模型“小度靈機”,后有天貓精靈接入“鳥鳥分鳥”模型打造“AI嘴替”,并官宣將接入阿里大模型通義千問……智能音箱在生成式AI的加持下,正在變得更“聰明”,更有“人情味”。
那么,現(xiàn)在有哪些玩家已經入局生成式AI與智能音箱的集成?生成式AI如何賦能智能音箱,而搭載生成式AI技術的智能音箱距離大規(guī)模普及還有多遠?我們試圖通過追蹤各家智能音箱玩家的最新動作并與智能音箱行業(yè)從業(yè)者對話來找到這些問題的答案。
01.巨頭動作頻發(fā)ChatGPT是智能音箱的下一個風口嗎?
智能音箱與生成式AI技術的結合已經在巨頭玩家中初現(xiàn)雛形。2月9日,小度宣布將融合文心一言,打造針對智能設備場景的AI模型“小度靈機”,并將其應用到小度全系產品中。4月11日,天貓精靈宣布將正式接入阿里巴巴通義千問……
眾所周知,小度、天貓精靈已經穩(wěn)坐國內智能音箱市場前三甲多年。洛圖科技的數(shù)據(jù)顯示,2022年中國智能音箱全年銷量達到2631萬臺,百度(35%)、小米(31%)、天貓精靈(27%)、華為(4%)四個品牌合計占據(jù)了高達96.5%的市場份額。
當下,這些智能音箱玩家也成為了生成式AI浪潮中的主力軍,走得快的一批已經拿出了基于生成式AI技術的智能音箱測試產品,還有一類智能音箱玩家正在競相發(fā)布生成式AI技術領域的成果積累,而走得最慢的一類玩家,還尚未透露大模型領域的相關布局。
▲部分智能音箱玩家的生成式AI技術布局(來源:官方公開信息)
1、小度、天貓精靈搶跑,ChatGPT版智能音箱已公開測試
一類就是以小度、天貓精靈為代表的智能音箱玩家,它們已經大踏步入局,并初步亮出了自己的成果。小度這邊亮出的是人工智能模型“小度靈機”,借助小度靈機大模型,現(xiàn)有智能音箱中的語音助手可以變成“超級助理”。在官方發(fā)布的測試視頻中,測試員告訴超級助理,他要在周末做各種各樣的事情,而在敘述這些事的時候,測試員會故意提出“修改時間”的要求,比如原定于周日要做的A事件被B事件替換。即使面對測試員的一系列復雜要求,這位超級助理也可以從中提煉出真正有效的信息,并據(jù)此給測試員生成一份正確的時間安排表。此前小度智能音箱并沒有理解這樣復雜描述并提取信息、進行整合的能力,小度靈機模型的作用體現(xiàn)的比較明顯。
此外,在智能家居場景中的設備控制環(huán)節(jié),小度靈機大模型可以化身“智能管家”,更準確地識別出用戶的真實需求。在演示中,測試員告訴智能管家,“我每天早上七點半一定要起床,周末可以晚一些,大概九點左右,干脆就九點半吧。冬天室內溫度不能低于23度,夏天溫度可以定在26度?!贝藭r超級助理可以根據(jù)這些描述,確定要在什么時候開啟家中的空調、調整到什么樣的溫度比較合適。相比傳統(tǒng)智能助手只會理解“打開空調”這樣的簡單單一指令,靈機模型可以認識到:“用戶到家時,家里溫度與用戶期望的不一樣,所以需要打開空調,并且根據(jù)現(xiàn)在的季節(jié)調節(jié)到合適的溫度”。顯然,大模型的加入,可以讓智能音箱實現(xiàn)認知能力上的提升。
天貓精靈的策略是針對于智能音箱訓練出一個個性更為鮮明的大模型。4月11日,天貓精靈宣布將接入通義千問,據(jù)阿里巴巴集團董事會主席兼首席執(zhí)行官、阿里云智能集團首席執(zhí)行官張勇透露,未來,天貓精靈除了能回答用戶的提問外,還會成為更人性化的智能助手。
不同于知識面更為廣泛的通識性大模型,更加垂直的“個性化大模型”面向的是家居場景中相對更個性化的需求,在這種個性化的大模型加持下,這些智能音箱產品可以產生一些特定的“人格化”特征,比如“鳥鳥分鳥”,這一模型的語氣、語調與脫口秀演員鳥鳥如出一轍,使得智能音箱在內容生成、理解能力更強的基礎上,還增強了可玩性。
2、智能音箱+生成式AI雙雙參與,華為、亞馬遜、谷歌仍緘口不言
第二類是此前在生成式AI技術以及智能音箱領域均有布局,但尚未透露是否會將兩者進行結合的玩家,包括華為、亞馬遜、谷歌等。
擁有“盤古系列AI大模型”的華為,是智能音箱產業(yè)的重要參與玩家,從其應用領域來看,華為云盤古大模型將在氣象、醫(yī)藥、游戲、稅務等方面應用,但對于大模型在智能音箱領域的布局未有相關動向公布。亞馬遜穩(wěn)坐智能音箱市場出貨份額第一多年,上周,亞馬遜的Bedrock生成式AI服務和自有大模型泰坦(Titan)剛剛面世,相比于微軟、谷歌等,其動作已經落后。不過,亞馬遜還未透露是否將其相關技術應用于智能音箱Echo中。今年3月,谷歌發(fā)布聊天機器人Bard后,就有外媒報道,該公司正在重組其虛擬助理部門Assistant的匯報架構,以專注于其此前推出的聊天機器人Bard研發(fā)。
谷歌副總裁兼助理業(yè)務部門負責人Sissie Hsiao說:“隨著Bard團隊繼續(xù)這項工作,我們希望確保繼續(xù)支持并執(zhí)行未來的機會。今年,我們比以往任何時候都更加專注于為用戶提供有影響力的交付。”
而谷歌的智能音箱產品Echo是否會融入Bard的能力,谷歌尚未給出準確答復。3、蘋果、小米尚未官宣,內測或已開啟
最后一類是以蘋果、小米為代表的玩家,這些玩家已經深耕智能音箱市場多年,但尚未透露與大模型相關的技術研發(fā)具體進展。
小米曾透露,其很早就在AI大模型領域有嘗試,采用多技術路線并行,其中,小愛同學就是典型的大模型落地應用場景。
作為國內智能音箱玩家前三甲,小愛同學的實踐應用經驗已經非常豐富。據(jù)了解,截至2022年12月小愛同學全球月活躍用戶1.15億。上周五,小米雷軍在微博談到大模型,并著重提到了小愛同學團隊在AI領域已耕耘多年。
并且,他還透露:“我們正在研發(fā)一些有趣的技術和產品,等我們打磨好了,再給大家展示?!?/p>
此外,蘋果也曾在2月的內部會議上透露,蘋果正在重點關注人工智能和大模型,Siri開發(fā)團隊等在定期測試“語言生成概念”。此外據(jù)外媒9to5Mac報道,蘋果已經在tvOS 16.4中引入了“Siri自然語言生成”的新框架。
ChatGPT的出現(xiàn)與爆火證明了生成式AI這一路線的正確性,先行的巨頭玩家也證明了智能音箱與生成式AI結合的可行性,以及生成式AI技術正在為逐漸沒落的智能音箱產業(yè)帶來新變量的必然性。
回溯過往,2014年亞馬遜推出全新硬件品類Echo,將智能語音交互技術植入傳統(tǒng)音箱,帶動了智能音箱的火爆熱潮。時至今日,這一曾被科技圈眾星捧月的“黃金賽道”,卻聲勢漸熄。
02.熄火的智能音箱在ChatGPT浪潮里尋找新變量
從市場數(shù)據(jù)來看,市場調研機構洛圖科技的報告顯示,2022年全球智能音箱市場出貨量為1.2億臺,同比下降25%;國內智能音箱市場銷量2631萬臺,同比下降28%。IDC發(fā)布的2023年中國智能家居市場的十大洞察也透露,智能音箱和視頻娛樂設備的市場需求正在逐漸消退,整個市場呈現(xiàn)下滑趨勢。
▲2017年-2022年中國智能音箱市場銷量規(guī)模變化(圖源:洛圖科技)
智能音箱產品中存在的交互體驗、應用場景單一、產品缺乏創(chuàng)新、互聯(lián)互通差等問題使得一些設備被放在用戶家中“吃灰”。
當下,以ChatGPT為代表的生成式AI技術在上下文理解、多輪對話、內容生成等方面展現(xiàn)出了極高的交互水準,巨頭玩家的入局也展現(xiàn)了其與智能音箱的可行性,那么從整個行業(yè)來看,生成式AI技術能為智能音箱帶來什么新的變量?
首先從基本功能來看,智能音箱曾被看好的語音交互和智能家居入口兩大功能在實現(xiàn)上與生成式AI的特性有一定相似之處。這些功能都需要智能音箱去理解用戶的真實意圖,并且生成質量更高的答復,或者能通過對用戶說話內容上下文的理解來控制相應的智能家居設備。
此前,智能音箱大多情況下只能實現(xiàn)一問一答或者十分簡單的溝通,依托于生成式AI技術在內容生成和理解能力上的優(yōu)勢,智能音箱可以在進一步理解用戶意圖的基礎上,讓回答內容的質量能夠更趨向于真人的表現(xiàn)。
除了基本功能,生成式AI技術能制定計劃、生成摘要等強大理解能力的技術將進一步擴展智能音箱的應用場景。智能音箱在語音交互方面具有聲音大而清晰的天然優(yōu)勢。未來,智能音箱的功能可能并不止于家庭,或許會走進辦公場所成為人們工作的助手等。
從交互方式來看,生成式AI技術將會讓人與機器交互的體驗更加流暢。ChatGPT的交互方式是文本,需要用戶打開電腦或者手機,鍵入文字才能得到回應,而智能音箱則不同,其主要依靠語音,用戶不需要借助其它設備,只要智能音箱能聽到用戶聲音就可以觸發(fā)交互。
除此以外,在市場上,ChatGPT也正在帶動智能音箱產業(yè)成為資本的焦點。據(jù)證券之星的消息,奮達科技、漫步者、國光電器等智能音箱概念股都出現(xiàn)大漲行情,資金涌入跡象明顯。
在智能音箱產業(yè)進入瓶頸期的當下,生成式AI、大模型的出現(xiàn)又將其重新拉回大眾視野,并且迅速帶來顛覆性革新,其能為這一產業(yè)帶來多少新變量,還需要搭載著新技術的智能音箱真正走進家庭,我們才可能知道答案。
03.“ChatGPT版”智能音箱普及背后的三大挑戰(zhàn)
不過,想要讓搭載著生成式AI技術的智能音箱真正在每一個用戶家中實現(xiàn)普及,背后還有算力、數(shù)據(jù)、隱私等天然壁壘。
前段時間,生成式AI浪潮中最炙手可熱的ChatGPT也被踩下剎車,ChatGPT Plus暫停付費、多國的監(jiān)管機構禁止ChatGPT使用,這背后同樣折射出生成式AI進入C端市場需要面臨的算力、數(shù)據(jù)安全、隱私保護的考量。
首先從算力層面來看,面對參數(shù)規(guī)模的大幅增長,“暴力堆疊”(利用大量高性能GPU)已經成為企業(yè)提升大模型訓練效果的主要手段,這背后高昂的成本可能成為“ChatGPT版”智能音箱落地普及的門檻。
不過算力成本高昂的問題并非無解,此前,創(chuàng)新奇智推出制造業(yè)預訓練大模型,創(chuàng)新奇智CTO張發(fā)恩在接受媒體采訪時透露,同樣規(guī)模參數(shù)的大模型,其訓練精度和所需算力水平其實在快速下降。
更直觀的來看就是,隨著開源大模型的出現(xiàn),一些企業(yè)不需要自己從0到1去訓練大模型,前人被訓練好的大模型可以直接調用,再在這一基礎上進行優(yōu)化,這相比于從頭開始訓練的大模型,其成本將少得多。
并且,未來隨著算法進化,大模型訓練過程中對算力的依賴度也會大大降低。
第二個挑戰(zhàn)是,ChatGPT爆火的很大一部分原因是它可以顛覆式提升生產效率,而這種輸出方式主要以文字、圖片、視頻為主。智能音箱則更注重語音交互,但在人們的日常生活、工作中,需要音頻反饋的內容可能只占一小部分,大部分還是以文本、圖片、視頻輸出為主。因此,“ChatGPT版”智能音箱的普及落地需要找到一個能切準用戶真正剛需,并且適配于語音交互的場景。
物聯(lián)網音視頻技術底層服務商相關負責人告訴智東西,站在大模型的角度,它對意圖理解、情緒理解、個性塑造和反思有很強的表現(xiàn)能力,并擅長內容創(chuàng)作等,但此前智能音箱的交互還停留在機械式問答。他補充道,未來可能會誕生一些陪伴型的設備形態(tài),當然也有可能有別于現(xiàn)有的智能音箱。如果仍然以聊天對話、控制智能家居設備的功能為主,搭載“ChatGPT”的智能音箱可能很快也會褪去熱度,再次沉寂,因為這看起來與之前的智能音箱相比并沒有很大區(qū)別。第三個挑戰(zhàn)就是,對于用戶家庭數(shù)據(jù)、隱私安全的保護。消費者對于智能音箱收集個人數(shù)據(jù)的問題一直比較敏感,如果想要搭載生成式AI技術的智能音箱可以更好地理解用戶需求,并給出個性化解決方案,那么生成式AI勢必會涉及到對用戶個人信息的收集。此時用戶對于這類產品是否會接受,以及相關法規(guī)法律的健全完善,都會是行業(yè)要面對的挑戰(zhàn)。因此,當一個更聰明的智能音箱出現(xiàn)在用戶家庭中,勢必會經歷較長的市場教育階段。
一項新技術的革新以及對整個產業(yè)產生實際的影響必然是長期過程,而這一波AI新浪潮仍處于發(fā)展的早期,因此其對于智能音箱這一產業(yè)產生的切實影響可能還未明確展現(xiàn)出來。
現(xiàn)在,我們還無法給出類ChatGPT技術在智能音箱中廣泛應用、引起真正革命的確切時間,但可以預見的是,ChatGPT引爆的熱潮正在加速這一進程
04.結語:解密AI帶給智能音箱的想象空間
隨著生成式AI技術的快速發(fā)展,日漸熄火的智能音箱產業(yè)將有望找到新的增長空間。在此基礎上,智能音箱等智能終端設備的人機交互模式也將帶來新的變革。
多年以來,曾靠語音助手紅極一時的智能音箱一直沒發(fā)展出什么爆款新功能,也沒有出現(xiàn)令人驚艷的重磅升級,使得消費者的換新需求大打折扣,如今這類上知天文下知地理、還能擁有情感陪伴的生成式AI技術,未來如能和智能語音助手結合在一起并落地到用戶家中,將有望帶給智能音箱產業(yè)新的生機。不過對于其未來能產生哪些新的場景、新的應用?智能音箱的形態(tài)又會發(fā)生什么樣的變革?目前還未有定論。
作者?|??程茜
編輯?|??云鵬