漢語(yǔ)是門“有聲語(yǔ)言”,手語(yǔ)是門“視覺語(yǔ)言”。
雷鋒網(wǎng)消息,5月17日,搜狗CEO王小川在搜狐科技5G&AI峰會(huì)對(duì)外發(fā)布了新一代搜狗AI合成主播——手語(yǔ)AI合成主播“小聰”。
作為搜狗AI合成主播經(jīng)過兩年多時(shí)間迭代后的新品,手語(yǔ)AI合成主播集成了超寫實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)技術(shù)。據(jù)搜狗官方信息顯示,在組織的聾人可懂度測(cè)評(píng)中,搜狗手語(yǔ)AI合成主播可懂度達(dá)到了85%以上。
搜狗這款手語(yǔ)AI合成主播研發(fā)初衷是什么?
為什么有了語(yǔ)音識(shí)別生成字幕技術(shù)后,還要做搜狗手語(yǔ)AI合成主播?
搜狗手語(yǔ)AI合成主播與一脈相承的語(yǔ)音識(shí)別、AI分身在技術(shù)研發(fā)過程中又有何異同?
……
這些問題都在5月19日的媒體溝通會(huì)上由搜狗AI交互技術(shù)部總經(jīng)理陳偉及他的團(tuán)隊(duì)進(jìn)行了一一解答。
1、研發(fā)初衷:聽障人士看字幕,如學(xué)外語(yǔ)般艱辛
2018年11月,搜狗與新華社合作研發(fā)的AI合成主播正式問世,幾經(jīng)迭代后,在2020年5月,又與新華社聯(lián)合推出了3D AI合成主播。
當(dāng)時(shí)陳偉和他的團(tuán)隊(duì)在為搜狗為3D AI合成主播規(guī)劃未來(lái)發(fā)展方向時(shí),著重考慮了三個(gè)方面:
第一,要把3D能力做好;
第二,我們希望搜狗在“數(shù)字人”這個(gè)方向上有自己更高的技術(shù)壁壘;
第三,我們要找到有強(qiáng)烈需求的場(chǎng)景。
綜合考慮場(chǎng)景、渠道和技術(shù)迭代中的創(chuàng)新后,2020年5月,手語(yǔ)AI合成主播在搜狗內(nèi)部正式立項(xiàng)。
既然有字幕了,還要手語(yǔ)干什么?
這也是搜狗手語(yǔ)AI合成主播立項(xiàng)之初,陳偉當(dāng)時(shí)需要考慮的問題。
對(duì)此,陳偉總結(jié)了三方面原因:
第一,并非所有聽障人士能看懂字幕。
在我國(guó)2700萬(wàn)聽障人士中,整體受教育程度參差不齊,有高中、大學(xué)學(xué)歷的聽障人士在這一群體中仍然只占非常小的比例,現(xiàn)在大家對(duì)字幕獲取的能力還在逐漸培養(yǎng)中,要想讓絕大部分聽障人士看懂字幕還有很長(zhǎng)的路要走。
第二,「有字幕」這件事兒和「做手語(yǔ)」不是必須二選一的。
我們?cè)诹私庑畔?、獲取信息過程中必然會(huì)通過多種方式,我們自己在看電影的時(shí)候,有時(shí)候盡管中文的電影我們可能也會(huì)看字幕,大家本能的想法是我怎么能更快更高效的獲取信息,他能看懂字幕更好,如果看不懂,還有手語(yǔ)可以提供信息。
第三,手語(yǔ)語(yǔ)言和有聲語(yǔ)言之間是完全不同的語(yǔ)言體系,聽障人士對(duì)有聲語(yǔ)言的接受程度類似健聽人對(duì)第二外語(yǔ)的接受程度。
聽障人士即便學(xué)習(xí)了漢語(yǔ),對(duì)他來(lái)說(shuō)也是第二語(yǔ)言,就像我們?cè)趯W(xué)習(xí)英語(yǔ)過程中,盡管我們學(xué)習(xí)了很長(zhǎng)時(shí)間,但還是很難產(chǎn)生熟悉的感覺。
與此同時(shí),聽障人士在學(xué)習(xí)漢語(yǔ)的過程中其實(shí)天生是有障礙的,因?yàn)闈h語(yǔ)或者普通話更多的是表音文字,每個(gè)字都有發(fā)音,我們之所以能夠快速學(xué)習(xí)語(yǔ)音,是因?yàn)橛姓Z(yǔ)境。我們跟別人溝通的時(shí)候,溝通的前提是眼睛看著大家,看到了唇形,同時(shí)聽到了聲音,結(jié)合在一起是多模態(tài)的,但是聽障人士在聽力上天生有障礙,就少了一個(gè)因素讓他更快地學(xué)習(xí)有聲語(yǔ)言。他們之所以學(xué)手語(yǔ)學(xué)得快,是因?yàn)槭终Z(yǔ)是視覺語(yǔ)言,不需要輔以聲音進(jìn)行理解。從這個(gè)角度來(lái)看,手語(yǔ)短期內(nèi)不可能完全被字幕替換掉,它仍然是聽障人士的主要學(xué)習(xí)方式,手語(yǔ)表達(dá)也更符合聽障人士的習(xí)慣。
就在搜狗手語(yǔ)AI合成主播發(fā)布的同時(shí),搜狗還對(duì)外發(fā)布了柳巖同款明星“數(shù)字人”。
據(jù)陳偉透露,柳巖同款明星“數(shù)字人”從錄制到上線用了有一個(gè)月的時(shí)間,其中錄制僅用了兩個(gè)半天(合計(jì)一天),數(shù)據(jù)標(biāo)注花了30%-40%的時(shí)間,剩下的則是技術(shù)研發(fā)和迭代用的時(shí)間。
而手語(yǔ)AI合成主播“小聰”的技術(shù)難度要遠(yuǎn)遠(yuǎn)大于明星“數(shù)字人”。
2、研發(fā)歷路:手語(yǔ)是門“視覺語(yǔ)言”
搜狗研發(fā)了多代AI合成主播,在語(yǔ)音識(shí)別技術(shù)上也積累頗豐。然而,手語(yǔ)AI合成主播對(duì)于搜狗而言,仍是一個(gè)全新的領(lǐng)域。
據(jù)陳偉介紹,搜狗在做手語(yǔ)AI合成主播“小聰”時(shí),主要做了三方面工作:
「語(yǔ)言側(cè)手語(yǔ)的研究」、「語(yǔ)言體系的翻譯」和「表征表達(dá)」。
首先,在研發(fā)“小聰”過程中,搜狗最先遇到的就是手語(yǔ)數(shù)據(jù)庫(kù)建立的問題。
搜狗開始接觸手語(yǔ)發(fā)現(xiàn)了一個(gè)問題:手語(yǔ)語(yǔ)言和所有其他(有聲)語(yǔ)言都不一樣,它是一個(gè)視覺語(yǔ)言。
隨之而來(lái)的一個(gè)問題是:“小聰”的訓(xùn)練數(shù)據(jù)從何而來(lái)?
陳偉解釋稱,手語(yǔ)語(yǔ)言如何轉(zhuǎn)換成計(jì)算機(jī)語(yǔ)言,之前行業(yè)在做手語(yǔ)語(yǔ)言體系時(shí)并沒有特別明確的做法,要么是純語(yǔ)言學(xué),要么是計(jì)算機(jī)相關(guān)背景的人根據(jù)自己的想象做手語(yǔ)。
在搜狗團(tuán)隊(duì)的認(rèn)知中,手語(yǔ)本身是沒有可記錄的文字信息的,因?yàn)樗旧砭褪且曈X信息。
《國(guó)家通用手語(yǔ)詞典》一共8000多個(gè)詞,“小聰”基于《國(guó)家通用手語(yǔ)詞典》進(jìn)行健聽人語(yǔ)言與聽障者手語(yǔ)語(yǔ)言的機(jī)器翻譯,在這個(gè)過程中,為了構(gòu)建用于模型訓(xùn)練的數(shù)據(jù)庫(kù),搜狗做了三方面工作:
第一,從語(yǔ)序到選詞,我們會(huì)考慮把健聽人的語(yǔ)言和聽障人士的語(yǔ)言做一個(gè)平行的翻譯,這樣就可以積累大量的資源,用這樣的資源作為翻譯系統(tǒng)的數(shù)據(jù);
第一,將手語(yǔ)詞匯轉(zhuǎn)化成用文字方式或用技術(shù)方式標(biāo)注出來(lái);
第二,構(gòu)建健聽人和聽障人士之間語(yǔ)序的平行翻譯語(yǔ)料,這需要大量的機(jī)器翻譯庫(kù);
第三,通過預(yù)先捕捉大量真人動(dòng)作和表情數(shù)據(jù),對(duì)構(gòu)建起的3D模型進(jìn)行模型訓(xùn)練,因?yàn)樗压纷叩氖浅瑢憣?shí)模型,這件事情每個(gè)環(huán)節(jié)都有很大的資源和研發(fā)投入。
據(jù)陳偉透露,從翻譯角度來(lái)講,現(xiàn)在初步建立起來(lái)的精標(biāo)數(shù)據(jù)達(dá)到幾萬(wàn)。
其次,搜狗要考慮的第二個(gè)問題是——語(yǔ)言體系如何構(gòu)建。
手語(yǔ)和漢語(yǔ)本質(zhì)上不是一個(gè)語(yǔ)言體系,存在著諸多結(jié)構(gòu)、表達(dá)上的差異。在這之中,“小聰”研發(fā)團(tuán)隊(duì)特別提到三個(gè)難點(diǎn):
第一,手語(yǔ)表達(dá)與漢語(yǔ)表達(dá)語(yǔ)序的不同。例如,漢語(yǔ)中的“開車不許喝酒”,手語(yǔ)表達(dá)出的則是“開車、喝酒、不準(zhǔn)”,包括像“北京常常堵車”會(huì)被翻譯成“北京、堵車、常常”。
為此,搜狗建立了相應(yīng)的語(yǔ)言規(guī)則嘗試做相應(yīng)的語(yǔ)序轉(zhuǎn)化,通過搜狗構(gòu)建數(shù)據(jù)庫(kù)給算法進(jìn)行訓(xùn)練。
第二,在詞匯上,手語(yǔ)中沒有虛詞和量詞。“我買兩只鉛筆、一本書”,手語(yǔ)表達(dá)出來(lái)的會(huì)是“我買鉛筆、二、書、一”;包括“在、的、了”等程度詞都會(huì)省略,“大雪紛飛”用手語(yǔ)表達(dá)也不會(huì)有一個(gè)詞表達(dá)“大”、一個(gè)詞表達(dá)“雪”,而是在“雪”的基礎(chǔ)上加大身體的擺動(dòng)來(lái)體現(xiàn)程度副詞。
為此,搜狗建立了手語(yǔ)到漢語(yǔ)之間的映射辭典,嘗試去解決手語(yǔ)和漢語(yǔ)之間詞匯上的差異問題。
第三,手語(yǔ)里特有的非手控的信息,例如表情、口動(dòng)、身體的朝向,這部分是在漢語(yǔ)語(yǔ)言中所沒有的。例如同一個(gè)手勢(shì)表達(dá)“我做的好不好”,如果沒有表情的話,大家很難明白手語(yǔ)表達(dá)出來(lái)的意思,但是如果有皺眉,就是能表達(dá)出疑問的語(yǔ)氣。
表情、身體姿態(tài)、口動(dòng)等非手控信息是搜狗在做“小聰時(shí)”遇到最大的難題,目前也在嘗試通過一些建立一些表情庫(kù)或存在表情標(biāo)記的數(shù)據(jù)庫(kù)驅(qū)動(dòng)算法的設(shè)計(jì)等規(guī)則的方式來(lái)解決這一問題。
最后,搜狗還需要用這樣的語(yǔ)言體系驅(qū)動(dòng)“數(shù)字人”“小聰”完成自然連貫的手語(yǔ)動(dòng)作、面部表情表達(dá)。
3、“手語(yǔ)翻譯是一個(gè)新的話題”
這個(gè)事情的難點(diǎn)是我們一幫不懂手語(yǔ)的工程師在做事情,特別容易陷入到自己的煙囪里面。
陳偉一語(yǔ)道破研發(fā)團(tuán)隊(duì)立項(xiàng)初期的窘境。
在進(jìn)行過深入研究后,陳偉發(fā)現(xiàn),手語(yǔ)翻譯是一個(gè)新的話題。
我們同傳上線了這么多年,原來(lái)做的中英翻譯、中日翻譯等結(jié)構(gòu)都是一樣的,但是放在手語(yǔ)上又不一樣了,它有一些新的話題。
為此,陳偉請(qǐng)來(lái)了制定手語(yǔ)標(biāo)準(zhǔn)的殘聯(lián)及相關(guān)協(xié)會(huì)專家、教手語(yǔ)的手語(yǔ)老師、做手語(yǔ)推廣的專業(yè)人士,由這些人組成了搜狗手語(yǔ)AI合成主播語(yǔ)言體系、產(chǎn)品體系、研發(fā)體系之外的智囊團(tuán)作為顧問團(tuán)隊(duì)。
從立項(xiàng)之初,搜狗就一直與這一顧問團(tuán)隊(duì)保持著緊密聯(lián)系,這也成為搜狗手語(yǔ)AI合成主播在技術(shù)迭代過程中不至于偏離最終用戶的一個(gè)保障。
“數(shù)字人”的一個(gè)終極目標(biāo)是手、嘴、表情、姿態(tài)的實(shí)時(shí)聯(lián)動(dòng),完美復(fù)刻真人表達(dá)能力,這也正是手語(yǔ)對(duì)表達(dá)能力的需求。
據(jù)搜狗官方信息顯示,“小聰”在測(cè)評(píng)中可懂度已經(jīng)可以達(dá)到85%以上,能夠進(jìn)行有效信息傳遞。
對(duì)此,陳偉也向雷鋒網(wǎng)解釋:
可懂度85%,跟(語(yǔ)音)識(shí)別準(zhǔn)確率98%是兩個(gè)概念。識(shí)別率是客觀指標(biāo),這個(gè)字到底對(duì)還是錯(cuò)的問題;可懂度更強(qiáng)調(diào)聽障人士的體驗(yàn),我在表達(dá)的時(shí)候,翻譯得準(zhǔn),“數(shù)字人”表達(dá)得準(zhǔn),這個(gè)鏈條太長(zhǎng)了,在這件事上每個(gè)環(huán)節(jié)都得做好,串聯(lián)起來(lái)才會(huì)得到一個(gè)比較滿意的效果。
與此同時(shí),陳偉也指出:
數(shù)據(jù)量足夠的話,提升讀懂度在技術(shù)上不是特別大的問題,不過,數(shù)據(jù)資源的積累需要比較長(zhǎng)的時(shí)間成本,我們?cè)诳焖偻七M(jìn),但還是需要有時(shí)間積累。