“一峰一狀百樹迎,天水合璧兩岸情。”你能想象得到這句詩出自虛擬數(shù)字人之口嗎?近日,百度虛擬數(shù)字人家族在2022百度世界大會上的集體亮相再次引爆輿論場。它們有的能歌善舞,有的妙筆生花,有的已經(jīng)開始探索太空,有的則在輔助智能制造......IDC最新發(fā)布的報告顯示,中國虛擬數(shù)字人市場規(guī)模呈現(xiàn)高速增長趨勢,預(yù)計到2026年將達102.4億元。當(dāng)前,政策、應(yīng)用價值、市場需求、資本支出、技術(shù)成熟正合力推動虛擬數(shù)字人市場崛起。作為人工智能技術(shù)最熱門的應(yīng)用之一,業(yè)內(nèi)對虛擬數(shù)字人的進退觀點不一,眾說紛紜。但不可否認的是,虛擬數(shù)字人正在以不可抵擋的姿態(tài)迎面而來。
來源:IDC中國,2022
互聯(lián)網(wǎng)大廠差異化布局
據(jù)不完全統(tǒng)計,2021年,虛擬數(shù)字人領(lǐng)域投融資事件27起,融資金額在百萬至千萬元之間。尤其在元宇宙、Web 3.0等概念的推動下,虛擬數(shù)字人市場迅速升溫,資本不斷涌入。2022年以來,虛擬數(shù)字人領(lǐng)域融資已達到了近百起,融資金額累計突破4億元。
互聯(lián)網(wǎng)大廠雖集體入局,但切入點卻各有不同。其中,百度第一個明確了全場景、大生態(tài)定位,以虛擬數(shù)字人為載體全方位輸出其在人工智能算法、底層技術(shù)、行業(yè)應(yīng)用及生態(tài)搭建等方面的優(yōu)勢,旨在實現(xiàn)規(guī)?;a(chǎn)、快速降低成本,從而實現(xiàn)虛擬數(shù)字人普惠。
在2022百度世界大會上,希加加、度曉曉等虛擬數(shù)字人成為大會主角,出現(xiàn)在現(xiàn)場多個環(huán)節(jié)中。百度飛槳和文心大模型為其虛擬數(shù)字人提供了脫穎而出的深度學(xué)習(xí)和內(nèi)容創(chuàng)造能力。記者從會上獲悉,百度虛擬數(shù)字人家族數(shù)量已經(jīng)達到了幾十個,百度智能云曦靈虛擬數(shù)字人平臺將實現(xiàn)超寫實虛擬數(shù)字人24小時純AI直播。百度副總裁袁佛玉更是直言:“隨著百度AI算法的突破,能讓虛擬數(shù)字人制作成本十倍、百倍地下降,還能讓虛擬數(shù)字人生產(chǎn)周期,從動輒幾個月,縮短到小時級別。虛擬數(shù)字人的制作成本,將從百萬級降低到萬元級別。”
區(qū)別于百度,騰訊依托自身在語音智能和大文娛生態(tài)方面的優(yōu)勢,力圖將IP作為核心亮點和競爭力?;谠菩∥?shù)智人平臺,騰訊推出了一系列IP型虛擬數(shù)字人,目前聲量比較大的有《QQ炫舞》的星瞳、《和平精英》的吉莉、《王者榮耀》的無限王者團等。這些由游戲角色升級而來的虛擬偶像,天生具備廣泛的粉絲基礎(chǔ),商業(yè)價值高,且能對其游戲內(nèi)容進行反哺。
《QQ炫舞》系列發(fā)行制作人Todd此前表示,國內(nèi)虛擬偶像目前的變現(xiàn)邏輯距離成熟模式還很遠,除了品牌合作,未來還有發(fā)行唱片、制作動畫和游戲等一系列途徑,如果眼下進行過度的商業(yè)價值挖掘,會傷害這些長遠價值。因此,團隊并不急于變現(xiàn)。
不過,騰訊也并不是光靠IP布局虛擬數(shù)字人,還同步推出了一些基于特定場景的虛擬數(shù)字人,如平安普惠數(shù)字員工、新華社主播“新小微”、航天員“小諍”、3D手語翻譯官“聆語”、故宮博物館導(dǎo)游“福大人”等。這些虛擬數(shù)字人則多是為企業(yè)端業(yè)務(wù)場景量身定制,或者是與旗下智能車載、智能家居、智能交通等智能設(shè)備結(jié)合,定位是服務(wù)型數(shù)字助手。
阿里巴巴對于虛擬數(shù)字人的態(tài)度則更為保守,主要為自身業(yè)務(wù)需求服務(wù)。借著北京冬奧會的契機大火了一把的數(shù)字人“冬冬”采用了面向高質(zhì)量圖形的Unity高清渲染管線(HDRP),在視覺上有著不輸AR/VR的效果。但在應(yīng)用場景方面,仍是以直播帶貨為主,契合其老本行——電商業(yè)務(wù)的需求。
阿里巴巴研究員、數(shù)字人技術(shù)負責(zé)人李小龍表示:“虛擬數(shù)字人需要在特定場景內(nèi)真正解決人的問題。”電商直播間是一個已經(jīng)被驗證可行的商業(yè)化場景。阿里巴巴已經(jīng)在淘寶直播的場景中進行虛擬數(shù)字人應(yīng)用落地嘗試,“當(dāng)前階段,已經(jīng)有600多家商家在嘗試我們的虛擬主播,每天開播的超過200家”。
從產(chǎn)業(yè)鏈全局來看,不止是BAT,華為云、京東云、字節(jié)跳動、科大訊飛、商湯科技、小冰公司等科技廠商皆已參與到虛擬數(shù)字人生產(chǎn)中來?;A(chǔ)軟硬件方面,不僅有英偉達、英特爾、AMD等芯片大廠,還有百度、阿里、華為、浪潮、聯(lián)想等廠商在提供算力服務(wù)。在建模、動作捕捉及渲染方面,也不乏Adobe、AutoDesk、Unity、Unreal等知名廠商的身影。應(yīng)用層更是覆蓋了影視、傳媒、游戲、文旅、零售等諸多領(lǐng)域,數(shù)字王國、諾華視創(chuàng)、嗶哩嗶哩、浦發(fā)銀行、中國移動等皆在其中。某AI公司專家指出:“虛擬數(shù)字人的產(chǎn)業(yè)鏈較長且覆蓋面廣泛,多數(shù)入局企業(yè)正在基于自身技術(shù)優(yōu)勢以及客戶群體覆蓋的領(lǐng)域進行研發(fā)創(chuàng)新,以構(gòu)建差異化競爭優(yōu)勢。”
來源:IDC
虛擬數(shù)字人產(chǎn)業(yè)基礎(chǔ)尚待夯實
“由于行業(yè)內(nèi)產(chǎn)業(yè)鏈各環(huán)節(jié)公司專注于虛擬數(shù)字人生產(chǎn)流程中的單點環(huán)節(jié),各類企業(yè)相對割裂,尚未實現(xiàn)協(xié)同調(diào)優(yōu),加之目前虛擬數(shù)字人生產(chǎn)、運營成本較高,市場接受度尚低,整個產(chǎn)業(yè)發(fā)展尚處于起步階段。”賽迪顧問人工智能產(chǎn)業(yè)研究中心高級分析師于凱迪在接受《中國電子報》記者采訪時說道。
目前,虛擬數(shù)字人的生產(chǎn)商以互聯(lián)網(wǎng)公司為主,雖然許多公司都推出了自己的虛擬數(shù)字人,但它們各自的AI算法大多是自閉環(huán)的,只需要購買一些基礎(chǔ)的軟硬件即可。而產(chǎn)業(yè)鏈上那些純靠賣算法的AI公司則只能將目標(biāo)客戶定位于那些非互聯(lián)網(wǎng)公司企業(yè)身上。二者之間未能找到一種互惠互利的良性生態(tài)模式。
人類可以敏銳的通過口唇、表情、肢體行為來讀取非文本信息,因此對于虛擬數(shù)字人交互過程中呈現(xiàn)的效果有很高的要求,這就需要NLP、智能語音、知識圖譜等AI技術(shù)訓(xùn)練具備極高的協(xié)同能力,這種技術(shù)融合的難度較高。整體來看,虛擬數(shù)字人還處于前期探索階段,生產(chǎn)、運營成本較高,普遍面向B端客戶,針對c端市場的需求,如普通用戶生成自己的虛擬形象、AI化身等,還有待挖掘和激活。
在虛擬數(shù)字人生產(chǎn)技術(shù)方面,同樣存在許多薄弱環(huán)節(jié)。如登上春晚的虛擬數(shù)字人翎Ling就被吐槽面部僵硬一眼假;北京國際電影節(jié)的元宇宙星推官虛擬數(shù)字人“梅澀甜”也被吐槽角色建模塑膠感嚴(yán)重,“土味十足”;首個國風(fēng)虛擬男藝人秦佑同樣被吐槽“毫無特色”。
浙江大學(xué)國際聯(lián)合商學(xué)院數(shù)字經(jīng)濟與金融創(chuàng)新研究中心聯(lián)席主任、研究員盤和林坦言,國內(nèi)3D素材、生產(chǎn)3D形象動作的游戲引擎等工具軟件比較落后,生產(chǎn)虛擬數(shù)字人的工具軟件基本被國外公司壟斷,需要從基礎(chǔ)引擎、建模軟件、AI學(xué)習(xí)框架、編程語言方面有很多創(chuàng)新,來夯實虛擬數(shù)字人產(chǎn)業(yè)基礎(chǔ)。
北京虛擬動點科技有限公司技術(shù)總監(jiān)崔超在接受《中國電子報》記者采訪時表示:“虛擬數(shù)字人生產(chǎn)技術(shù)目前的薄弱環(huán)節(jié)主要體現(xiàn)在骨骼重定向、真實度模擬、聲音處理等方面,例如骨骼重定向時真實人和虛擬數(shù)字人的骨骼比例相差較大,骨骼拓撲結(jié)構(gòu)不同時,可起到很好的驅(qū)動作用,得到更真實的匹配效果,但這項技術(shù)難度較高;再比如虛擬數(shù)字人要達到與真人無異的還原度,聲音處理也是一大難點,AI驅(qū)動的聲音大都缺乏感情,有損虛擬數(shù)字人的真實度。多數(shù)生產(chǎn)商在軟件、算法端的技術(shù)能力依然有很大提升空間。”
“數(shù)智人不僅要聽得到、聽得清人類的語言,還需要能聽得懂、說得出,復(fù)雜應(yīng)用場景對技術(shù)提出了更高要求。”騰訊數(shù)智人業(yè)務(wù)相關(guān)負責(zé)人對《中國電子報》記者說道:“制作方式自動化水平較低、關(guān)鍵技術(shù)有待發(fā)展,以及技術(shù)人才、綜合人才的缺乏,也一定程度上限制了數(shù)智人的產(chǎn)業(yè)化發(fā)展。”
盡管一代又一代虛擬數(shù)字人蜂擁而至,但它們中的很多并未在市場中激起太大浪花就已消失不見了。究其原因,依然與成本問題有很大干系。雖然百度聲稱,基于算法突破可將虛擬數(shù)字人的制作成本從百萬級降低到萬元級別。百度集團資深副總裁、百度移動生態(tài)事業(yè)群組(MEG)總經(jīng)理何俊杰表示:“‘人均一個虛擬數(shù)字人’的時代已經(jīng)到來。”
但實際上,虛擬數(shù)字人的“支撐成本”遠比前期生產(chǎn)制作還要“燒錢”。公開數(shù)據(jù)顯示,設(shè)計一個虛擬偶像形象花費10萬元至100萬元,而后續(xù)的內(nèi)容制作和智能驅(qū)動則需一年200萬元到500萬元的持續(xù)性投入,這還不算營銷端、運營端等其他投入。
“柳夜熙”團隊曾透露,推出“柳夜熙”之前的半年多時間,研發(fā)成本、人員成本、技術(shù)成本等投入已“遠超百萬”,它的第一條短視頻成本就差不多花了幾十萬元人民幣。小冰公司首席運營官、人工智能創(chuàng)造力實驗室負責(zé)人徐元春也曾表示,目前運用3D建模等類似技術(shù)制作的超寫實虛擬數(shù)字人,僅單個形象部分,3D模型成本就在30萬元至45萬元左右,運營一年可能要花掉五六百萬。
在花團錦簇的表象之下,不得不承認的是我們距離“人均一個虛擬數(shù)字人”還有很長的一段路要走。于凱迪說道:“虛擬數(shù)字人是否達到批量化生產(chǎn)的標(biāo)準(zhǔn)受虛擬數(shù)字人系統(tǒng)平臺的工程化能力的影響,也就是系統(tǒng)的易用性、可拓展性、兼容性、可靠性等能力。待虛擬數(shù)字人系統(tǒng)平臺的制作效率和技術(shù)能力實現(xiàn)大幅提升,‘人均一個虛擬數(shù)字人’才有實現(xiàn)的可能。”
下一代虛擬數(shù)字人還有多遠?
IDC報告認為,當(dāng)前虛擬數(shù)字人大多處于L1-L3階段,即依賴算法驅(qū)動肢體、姿態(tài)、口型、表情等,虛擬數(shù)字人可執(zhí)行簡單的決策和操作。未來虛擬數(shù)字人將實現(xiàn)L4-L5水平,由虛擬數(shù)字人自主進行決策、執(zhí)行任務(wù),完全實現(xiàn)智能化交互。
隨著新興業(yè)態(tài)興起,直播購物、在線教育、線上旅游、遠程問診等生產(chǎn)生活新方式加速推廣;伴隨超高清電視的普及應(yīng)用,互動視頻、沉浸式視頻、VR/AR游戲等新業(yè)態(tài)正不斷拓展社交、購物、娛樂、展覽、旅游、教育、醫(yī)療等領(lǐng)域的邊界,人機智能交互將成為人工智能典型應(yīng)用模式,為虛擬數(shù)字人在上述行業(yè)的大規(guī)模落地提供良好的基礎(chǔ)。
“基于新一代多模態(tài)人機交互系統(tǒng)的業(yè)務(wù)型、功能型數(shù)智人,通過整合語音交互、知識圖譜、視覺識別和情緒識別等技術(shù),有效連接內(nèi)容和服務(wù)、B端和C端,在垂直產(chǎn)業(yè)鏈條中提供智能化服務(wù),以適應(yīng)更多元的行業(yè)化、業(yè)務(wù)化、場景化需求。這將大大拓展虛擬數(shù)字人的應(yīng)用場景,并助推這一新興領(lǐng)域的價值躍遷。”騰訊數(shù)智人業(yè)務(wù)相關(guān)負責(zé)人說道。
在技術(shù)方向上,文本數(shù)據(jù)和語音、圖像數(shù)據(jù)的多模態(tài)融合依然是未來虛擬數(shù)字人產(chǎn)品的剛需;在應(yīng)用方向上,國內(nèi)的優(yōu)勢在于豐富的落地應(yīng)用場景,虛擬數(shù)字人應(yīng)用將優(yōu)先面向金融、政府、傳媒、電商、影視特效等行業(yè)的ToB專業(yè)服務(wù)場景,如虛擬帶貨主播、媒體行業(yè)虛擬主播、金融及政務(wù)行業(yè)問答機器人、電影特效數(shù)字人等;此外,國內(nèi)互聯(lián)網(wǎng)直播、在線教育、在線文旅、在線醫(yī)療、電競、社交等行業(yè)對于具有更加鮮活形象的虛擬數(shù)字人也存在廣泛的潛在需求,ToC(個人端)的虛擬數(shù)字人產(chǎn)品研發(fā)也是未來的方向之一。
另有觀點認為,下一代虛擬數(shù)字人的進化方向與元宇宙的演進方向息息相關(guān)。它將成為人們從現(xiàn)實生活走入元宇宙的“數(shù)字化身”,擁有自己的身份、資產(chǎn),甚至是價值觀等,不但可以為元宇宙帶來豐富的內(nèi)容,還能給參與者提供一種更深層次的沉浸式體驗。
正如Forrester分析師盧冠男此前接受記者采訪時所言,當(dāng)前我們剛剛進入“元宇宙先兆”時期,后續(xù)還將進入初始型元宇宙(primordial metaverse,即不同虛擬世界的聯(lián)結(jié)機制使用戶可以從一個虛擬空間去往另一個空間,就像在不同網(wǎng)站瀏覽網(wǎng)頁)以及聯(lián)邦式元宇宙(federated metaverse,即不同的虛擬世界采納一套共同系統(tǒng),支持并遵循身份和資產(chǎn)的可移植性和一致性)。未來,我們也有可能以虛擬數(shù)字人的形態(tài)穿梭于元宇宙之中,讓科幻電影中的場景變?yōu)楝F(xiàn)實。
IDC中國助理研究總監(jiān)盧言霞表示,今天的虛擬數(shù)字人在某些領(lǐng)域發(fā)揮了明顯的商業(yè)價值。未來,在生活和工作中,將會有大量的數(shù)字人團隊與人類共存。一方面,行業(yè)用戶可以從相對成熟的應(yīng)用場景中引入虛擬數(shù)字人;另一方面,要對這些應(yīng)用場景保持耐心,不要設(shè)置過高的期望值。
作者丨宋婧
編輯丨劉晶
美編丨馬利亞
監(jiān)制丨連曉東