數(shù)字人,真不是人,但是正在輔助人、取代人。
這屆冬奧會(huì)上,數(shù)字人很忙。
沖擊三項(xiàng)項(xiàng)目的谷愛凌也很忙,但賽前還在咪咕演播室“趕通告”。不過,這不是她本人,而是她的數(shù)字分身Meet GU,這是一個(gè)以谷愛凌為原型的亞毫米級(jí)超寫實(shí)數(shù)字人。Meet GU的外形、聲音、神情、妝容,都與谷愛凌本人相似度較高,甚至毛孔細(xì)節(jié)、皮膚質(zhì)感和顏色都做到了1:1還原。Meet GU是中國(guó)移動(dòng)咪咕視頻推出的體育數(shù)字達(dá)人,她還將在演播室完成滑雪賽事解說、播報(bào)及場(chǎng)景電商的虛擬互動(dòng)等工作。
事實(shí)上,不止運(yùn)動(dòng)員數(shù)字分身這一項(xiàng),數(shù)字人已經(jīng)滲透到賽場(chǎng)內(nèi)外多個(gè)環(huán)節(jié)。
徐夢(mèng)桃奪冠背后,竟然有個(gè)虛擬教練“觀君”,他已經(jīng)在自由式滑雪空中技巧運(yùn)動(dòng)隊(duì)“服役”了三年之久,會(huì)針對(duì)運(yùn)動(dòng)員的每一跳做出專業(yè)判斷,嚴(yán)格判別扣分動(dòng)作。有了這些數(shù)據(jù)后,教練員便可以給予運(yùn)動(dòng)員更加精準(zhǔn)的指導(dǎo)。
此外,冬奧會(huì)上還有負(fù)責(zé)“冬奧觀賽氣象指數(shù)”播報(bào)的主播“馮小殊”;“百度智能云曦靈”數(shù)字人平臺(tái)的AI手語主播,承擔(dān)手語翻譯;阿里巴巴的冬奧宣推官數(shù)字人“冬冬”,兼任特約記者、帶貨主播;科大訊飛的3D虛擬冰冰,有著酷似央視主播王冰冰的眉眼和神韻,還解鎖了東北話、英語等多達(dá)31種語言技能;拓爾思旗下的“小思”,連續(xù)進(jìn)行冬奧熱點(diǎn)播報(bào)的同時(shí),還可以進(jìn)行自動(dòng)采編、智能寫稿、虛擬播報(bào)等……
自去年開始,“數(shù)字人”賽道熱度一路攀升,各種形態(tài)和“人設(shè)”的數(shù)字人屢見不鮮。清華學(xué)生“華智冰”,“鄧麗君”和粉絲“見面唱歌”,還有在金融、傳媒、文旅、城市管理等多個(gè)領(lǐng)域的應(yīng)用……數(shù)字人似乎正在突破現(xiàn)實(shí)與虛擬的邊界,越來越貼近我們的現(xiàn)實(shí)生活。
2022年開門紅,“數(shù)字人”融資累計(jì)金額逾4億
啟信寶數(shù)據(jù)顯示,2020~2022年,數(shù)字人相關(guān)企業(yè)數(shù)量逐漸呈現(xiàn)快速增長(zhǎng)趨勢(shì)。其中,2020年數(shù)字人相關(guān)企業(yè)新增數(shù)量為36080家,到2021年,新增數(shù)量是66293家。截至目前,國(guó)內(nèi)數(shù)字人相關(guān)企業(yè)存續(xù)數(shù)量超16萬家。2022年開年不到一個(gè)月的時(shí)間,數(shù)字人領(lǐng)域融資數(shù)量已有近百起,融資金額達(dá)4.11億元。
圖:2020年-2022年,數(shù)字人相關(guān)企業(yè)數(shù)量變化(來源:?jiǎn)⑿艑?,截?022年1月17日)
在元宇宙概念下,去年的硬件和軟件市場(chǎng)都異常熱鬧。有人試圖在硬件產(chǎn)品的新舊交替期搶占市場(chǎng),有人想在新的賽道上一馬當(dāng)先……在元宇宙這個(gè)相對(duì)肆意暢想的虛擬超現(xiàn)實(shí)藍(lán)圖中,其中就包括數(shù)字人、數(shù)字工廠、數(shù)字城市乃至所有現(xiàn)實(shí)元素的可數(shù)字化、虛擬化。
數(shù)字人并非依托元宇宙而產(chǎn)生,但元宇宙的火爆一定程度上帶動(dòng)了數(shù)字人的熱潮。相比元宇宙,數(shù)字人作為一個(gè)更具象的概念,疊加疫情下虛擬內(nèi)容需求的增加、相關(guān)硬件的快速發(fā)展,成為元宇宙風(fēng)口之中的“風(fēng)口”。
在與一些業(yè)內(nèi)人士的交流中收到這些反饋:“數(shù)字人是元宇宙中落地最快的一個(gè)應(yīng)用場(chǎng)景”、“數(shù)字人會(huì)是元宇宙的核心,承擔(dān)關(guān)鍵的交互”……一位投資人表示,“能明顯感覺到數(shù)字人在2021年下半年比上半年熱很多,元宇宙開始從一個(gè)不落地的概念慢慢落地下來”。
數(shù)字人研發(fā)門檻有多高?
與語音助手等AI數(shù)字助理相比,數(shù)字人要達(dá)到的標(biāo)準(zhǔn)更高。外觀效果、交互自然流暢度,是兩個(gè)被評(píng)判的核心指標(biāo)。前者涉及CG建模及驅(qū)動(dòng)模型的精細(xì)程度,后者主要需要具備NLP對(duì)話模型中的語義理解、多輪對(duì)話,上下文理解能力等。
以本次冬奧會(huì)的百度AI手語主播為例,探討一下研發(fā)一款A(yù)I手語主播有多難?
從外形看,對(duì)比以往的虛擬主播形象,AI手語主播不僅高度還原真人發(fā)膚,且在立體感、靈活度、可塑性上都有大幅提升。為了讓“她”完成承擔(dān)手語主播工作,百度智能云首先建立了規(guī)模龐大的手語動(dòng)作庫,基于《國(guó)家通用手語詞典》規(guī)范,結(jié)合動(dòng)作捕捉設(shè)備和真實(shí)手語老師的雙向調(diào)優(yōu),精修近1萬個(gè)手語動(dòng)作,保證了手語表達(dá)的動(dòng)作準(zhǔn)確性。同時(shí)首創(chuàng)4D掃描技術(shù),使得AI手語主播表情自然生動(dòng),口型生成準(zhǔn)確度高達(dá)98.5%。
此外,通過機(jī)器翻譯技術(shù),百度智能云構(gòu)建出一套精確的手語翻譯引擎,可懂度達(dá)到85%以上,結(jié)合語音識(shí)別技術(shù),可將冰雪賽事的文字及音視頻內(nèi)容轉(zhuǎn)化為手語;同時(shí)再通過專為手語優(yōu)化的自然動(dòng)作引擎,完成AI手語主播的動(dòng)作驅(qū)動(dòng),實(shí)時(shí)演繹為數(shù)字人的動(dòng)作、表情和唇語。這保證了AI手語主播具備高可懂度的手語表達(dá)能力和精準(zhǔn)連貫的呈現(xiàn)效果。
據(jù)百度方面表示,數(shù)字人要為人類提供服務(wù)、與人自然地交流,背后需要強(qiáng)大的知識(shí)體系和對(duì)話能力支撐。百度知識(shí)圖譜積累的5500億知識(shí),幫助數(shù)字人擁有“自己”的經(jīng)驗(yàn)和認(rèn)識(shí)去思考?;诎俣热ツ臧l(fā)布的百億參數(shù)對(duì)話模型PLATO,數(shù)字人才可以跟用戶進(jìn)行有料、有趣、有情感的交流。
算力、算法、AI模型的協(xié)同優(yōu)化必不可少
建模、AI、動(dòng)作捕捉、渲染是開發(fā)數(shù)字人的關(guān)鍵技術(shù),而這些都離不開算力的支撐。算力直接影響了是否可以進(jìn)行實(shí)時(shí)渲染、互動(dòng),從而可能會(huì)進(jìn)一步限制到實(shí)用場(chǎng)景,是打造和應(yīng)用的關(guān)鍵基礎(chǔ)。
思騰合力是AI服務(wù)器與HPC基礎(chǔ)架構(gòu)解決方案商,該公司AI算法工程師莊翔寧告訴<與非網(wǎng)>,數(shù)字人的開發(fā)需要用到計(jì)算機(jī)圖學(xué)、圖形渲染、動(dòng)作捕捉等等,因此在即時(shí)響應(yīng)性能方面會(huì)有一定程度算力的需求。
此外,為了滿足即時(shí)響應(yīng)的需求,在訓(xùn)練的模型上,有必要進(jìn)行模型壓縮,抑或是一開始就避免將訓(xùn)練模型設(shè)計(jì)得太復(fù)雜,以免影響到應(yīng)用時(shí)運(yùn)行的速度。思騰合力在圖形預(yù)處理和模型壓縮方面,通過自研算法來降低影像或視頻的解析度,但保留重要核心判定的物體。
他補(bǔ)充,在模型壓縮及布署方面,除了精簡(jiǎn)訓(xùn)練模型外,也可以通過壓縮方式進(jìn)一步精簡(jiǎn)其超參數(shù),最后通過模型布署的方式簡(jiǎn)化應(yīng)用模型。
由此可見,一款數(shù)字人的打造和成功應(yīng)用,算力支持必不可少,但是算法、模型的協(xié)同優(yōu)化也非常關(guān)鍵,不論是提升即時(shí)響應(yīng)能力,還是數(shù)字人的人格化訓(xùn)練,以及使數(shù)字人具備一定的知識(shí)體系、互動(dòng)能力等,都是數(shù)字人實(shí)現(xiàn)動(dòng)態(tài)性、交互性的關(guān)鍵支柱。
數(shù)字人:好看的皮囊下,AI交互是硬核
從數(shù)字人當(dāng)前的投資方向看,大多數(shù)集中在數(shù)字人主播、數(shù)字人偶像等制作上。一位投資人表示,目前,AI賦予數(shù)字人的交互能力在一級(jí)市場(chǎng)更受關(guān)注,可惜這樣的好項(xiàng)目并不多。
數(shù)字人仍處于發(fā)展初期,業(yè)界當(dāng)前首先在命名上就有很多方式:數(shù)字人、虛擬人、數(shù)智人、虛擬數(shù)字人、數(shù)字孿生、虛擬替身、數(shù)字分身等等,這也從一定程度上體現(xiàn)了它所處的發(fā)展階段——就像任何剛剛起跑的新事物一樣,難免有概念和定義上的紛爭(zhēng)。
根據(jù)《虛擬數(shù)字人深度產(chǎn)業(yè)報(bào)告》,這些命名都可以指代由計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語音合成等手段打造出來的具有人類外貌特征、表演能力、交互能力等等的非物理世界產(chǎn)物。
《中國(guó)虛擬數(shù)字人影響力指數(shù)報(bào)告》則從未來媒體形態(tài)和服務(wù)模式對(duì)虛擬數(shù)字人進(jìn)行了定義:計(jì)算機(jī)圖形學(xué)、語音合成技術(shù)、深度學(xué)習(xí)、類腦科學(xué)、生物科技、計(jì)算科學(xué)等聚合科技(Converging Technologies)帶來語義傳播與無障礙傳播的新空間,由此誕生的虛擬數(shù)字人將以新媒介角色,廣泛應(yīng)用在元宇宙新生態(tài)中,擔(dān)任著信息制造、傳遞的責(zé)任,是元宇宙中“人”與“人”、“人”與事物或事物與事物之間產(chǎn)生聯(lián)系或發(fā)生孿生關(guān)系的新介質(zhì)。
從以上定義中,可以提煉出數(shù)字人的三大發(fā)展特征:第一,它是聚合科技的產(chǎn)物;第二,兼具人類外形和內(nèi)在,交互能力是關(guān)鍵;第三,未來更大的市場(chǎng)存在于行業(yè)應(yīng)用新生態(tài)中,也就是說,它需要在更多的創(chuàng)新方向、下沉市場(chǎng)中找到更多的價(jià)值空間。
把冰冷的人機(jī)交互變成更加有真實(shí)體感的交流,或是作為真實(shí)人類的數(shù)字分身來幫助交流,這些都是數(shù)字人正在做的。未來,只要有交互需求的地方,數(shù)字人都會(huì)有用武之地,而這也是數(shù)字人當(dāng)前最大的考驗(yàn)。
寫在最后
數(shù)據(jù)顯示,2030年,圍繞虛擬數(shù)字人我國(guó)將會(huì)形成一個(gè)高達(dá)2700億的藍(lán)海市場(chǎng)(量子位《虛擬數(shù)字人》報(bào)告)。但現(xiàn)階段,數(shù)字人仍面臨著開發(fā)門檻高、成本高、制作周期長(zhǎng)、難以批量產(chǎn)出等挑戰(zhàn),這與元宇宙“人人都有一個(gè)數(shù)字分身”的愿景還有著巨大的鴻溝,也是當(dāng)前需要著力解決的問題。
下一步,數(shù)字人將重點(diǎn)向融合文字、聽覺、視覺、肢體動(dòng)作甚至觸覺等多模態(tài)交互的方式演進(jìn),除了在to B服務(wù)領(lǐng)域持續(xù)發(fā)力外,在生活服務(wù)中也會(huì)為C端用戶帶來更多陪伴、信息交互以及更深的情感鏈接,帶來有溫度的交流體驗(yàn)。