亚洲第一天堂中文字幕a∨ ,久久强奷乱码老熟女,亚洲欧美丝袜中文综合

漢語(yǔ)是門“有聲語(yǔ)言”，手語(yǔ)是門“視覺語(yǔ)言”。

雷鋒網(wǎng)消息，5月17日，搜狗CEO王小川在搜狐科技5G&AI峰會(huì)對(duì)外發(fā)布了新一代搜狗AI合成主播——手語(yǔ)AI合成主播“小聰”。

作為搜狗AI合成主播經(jīng)過兩年多時(shí)間迭代后的新品，手語(yǔ)AI合成主播集成了超寫實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)技術(shù)。據(jù)搜狗官方信息顯示，在組織的聾人可懂度測(cè)評(píng)中，搜狗手語(yǔ)AI合成主播可懂度達(dá)到了85%以上。

搜狗這款手語(yǔ)AI合成主播研發(fā)初衷是什么？

為什么有了語(yǔ)音識(shí)別生成字幕技術(shù)后，還要做搜狗手語(yǔ)AI合成主播？

搜狗手語(yǔ)AI合成主播與一脈相承的語(yǔ)音識(shí)別、AI分身在技術(shù)研發(fā)過程中又有何異同？

……

這些問題都在5月19日的媒體溝通會(huì)上由搜狗AI交互技術(shù)部總經(jīng)理陳偉及他的團(tuán)隊(duì)進(jìn)行了一一解答。

1、研發(fā)初衷：聽障人士看字幕，如學(xué)外語(yǔ)般艱辛

2018年11月，搜狗與新華社合作研發(fā)的AI合成主播正式問世，幾經(jīng)迭代后，在2020年5月，又與新華社聯(lián)合推出了3D AI合成主播。

當(dāng)時(shí)陳偉和他的團(tuán)隊(duì)在為搜狗為3D AI合成主播規(guī)劃未來(lái)發(fā)展方向時(shí)，著重考慮了三個(gè)方面：

第一，要把3D能力做好；

第二，我們希望搜狗在“數(shù)字人”這個(gè)方向上有自己更高的技術(shù)壁壘；

第三，我們要找到有強(qiáng)烈需求的場(chǎng)景。

綜合考慮場(chǎng)景、渠道和技術(shù)迭代中的創(chuàng)新后，2020年5月，手語(yǔ)AI合成主播在搜狗內(nèi)部正式立項(xiàng)。

既然有字幕了，還要手語(yǔ)干什么？

這也是搜狗手語(yǔ)AI合成主播立項(xiàng)之初，陳偉當(dāng)時(shí)需要考慮的問題。

對(duì)此，陳偉總結(jié)了三方面原因：

第一，并非所有聽障人士能看懂字幕。

在我國(guó)2700萬(wàn)聽障人士中，整體受教育程度參差不齊，有高中、大學(xué)學(xué)歷的聽障人士在這一群體中仍然只占非常小的比例，現(xiàn)在大家對(duì)字幕獲取的能力還在逐漸培養(yǎng)中，要想讓絕大部分聽障人士看懂字幕還有很長(zhǎng)的路要走。

第二，「有字幕」這件事兒和「做手語(yǔ)」不是必須二選一的。

我們?cè)诹私庑畔?、獲取信息過程中必然會(huì)通過多種方式，我們自己在看電影的時(shí)候，有時(shí)候盡管中文的電影我們可能也會(huì)看字幕，大家本能的想法是我怎么能更快更高效的獲取信息，他能看懂字幕更好，如果看不懂，還有手語(yǔ)可以提供信息。

第三，手語(yǔ)語(yǔ)言和有聲語(yǔ)言之間是完全不同的語(yǔ)言體系，聽障人士對(duì)有聲語(yǔ)言的接受程度類似健聽人對(duì)第二外語(yǔ)的接受程度。

聽障人士即便學(xué)習(xí)了漢語(yǔ)，對(duì)他來(lái)說(shuō)也是第二語(yǔ)言，就像我們?cè)趯W(xué)習(xí)英語(yǔ)過程中，盡管我們學(xué)習(xí)了很長(zhǎng)時(shí)間，但還是很難產(chǎn)生熟悉的感覺。

與此同時(shí)，聽障人士在學(xué)習(xí)漢語(yǔ)的過程中其實(shí)天生是有障礙的，因?yàn)闈h語(yǔ)或者普通話更多的是表音文字，每個(gè)字都有發(fā)音，我們之所以能夠快速學(xué)習(xí)語(yǔ)音，是因?yàn)橛姓Z(yǔ)境。我們跟別人溝通的時(shí)候，溝通的前提是眼睛看著大家，看到了唇形，同時(shí)聽到了聲音，結(jié)合在一起是多模態(tài)的，但是聽障人士在聽力上天生有障礙，就少了一個(gè)因素讓他更快地學(xué)習(xí)有聲語(yǔ)言。他們之所以學(xué)手語(yǔ)學(xué)得快，是因?yàn)槭终Z(yǔ)是視覺語(yǔ)言，不需要輔以聲音進(jìn)行理解。從這個(gè)角度來(lái)看，手語(yǔ)短期內(nèi)不可能完全被字幕替換掉，它仍然是聽障人士的主要學(xué)習(xí)方式，手語(yǔ)表達(dá)也更符合聽障人士的習(xí)慣。

就在搜狗手語(yǔ)AI合成主播發(fā)布的同時(shí)，搜狗還對(duì)外發(fā)布了柳巖同款明星“數(shù)字人”。

據(jù)陳偉透露，柳巖同款明星“數(shù)字人”從錄制到上線用了有一個(gè)月的時(shí)間，其中錄制僅用了兩個(gè)半天（合計(jì)一天），數(shù)據(jù)標(biāo)注花了30%-40%的時(shí)間，剩下的則是技術(shù)研發(fā)和迭代用的時(shí)間。

而手語(yǔ)AI合成主播“小聰”的技術(shù)難度要遠(yuǎn)遠(yuǎn)大于明星“數(shù)字人”。

2、研發(fā)歷路：手語(yǔ)是門“視覺語(yǔ)言”

搜狗研發(fā)了多代AI合成主播，在語(yǔ)音識(shí)別技術(shù)上也積累頗豐。然而，手語(yǔ)AI合成主播對(duì)于搜狗而言，仍是一個(gè)全新的領(lǐng)域。

據(jù)陳偉介紹，搜狗在做手語(yǔ)AI合成主播“小聰”時(shí)，主要做了三方面工作：

「語(yǔ)言側(cè)手語(yǔ)的研究」、「語(yǔ)言體系的翻譯」和「表征表達(dá)」。

首先，在研發(fā)“小聰”過程中，搜狗最先遇到的就是手語(yǔ)數(shù)據(jù)庫(kù)建立的問題。

搜狗開始接觸手語(yǔ)發(fā)現(xiàn)了一個(gè)問題：手語(yǔ)語(yǔ)言和所有其他（有聲）語(yǔ)言都不一樣，它是一個(gè)視覺語(yǔ)言。

隨之而來(lái)的一個(gè)問題是：“小聰”的訓(xùn)練數(shù)據(jù)從何而來(lái)？

陳偉解釋稱，手語(yǔ)語(yǔ)言如何轉(zhuǎn)換成計(jì)算機(jī)語(yǔ)言，之前行業(yè)在做手語(yǔ)語(yǔ)言體系時(shí)并沒有特別明確的做法，要么是純語(yǔ)言學(xué)，要么是計(jì)算機(jī)相關(guān)背景的人根據(jù)自己的想象做手語(yǔ)。

在搜狗團(tuán)隊(duì)的認(rèn)知中，手語(yǔ)本身是沒有可記錄的文字信息的，因?yàn)樗旧砭褪且曈X信息。

《國(guó)家通用手語(yǔ)詞典》一共8000多個(gè)詞，“小聰”基于《國(guó)家通用手語(yǔ)詞典》進(jìn)行健聽人語(yǔ)言與聽障者手語(yǔ)語(yǔ)言的機(jī)器翻譯，在這個(gè)過程中，為了構(gòu)建用于模型訓(xùn)練的數(shù)據(jù)庫(kù)，搜狗做了三方面工作：

第一，從語(yǔ)序到選詞，我們會(huì)考慮把健聽人的語(yǔ)言和聽障人士的語(yǔ)言做一個(gè)平行的翻譯，這樣就可以積累大量的資源，用這樣的資源作為翻譯系統(tǒng)的數(shù)據(jù)；

第一，將手語(yǔ)詞匯轉(zhuǎn)化成用文字方式或用技術(shù)方式標(biāo)注出來(lái)；

第二，構(gòu)建健聽人和聽障人士之間語(yǔ)序的平行翻譯語(yǔ)料，這需要大量的機(jī)器翻譯庫(kù)；

第三，通過預(yù)先捕捉大量真人動(dòng)作和表情數(shù)據(jù)，對(duì)構(gòu)建起的3D模型進(jìn)行模型訓(xùn)練，因?yàn)樗压纷叩氖浅瑢憣?shí)模型，這件事情每個(gè)環(huán)節(jié)都有很大的資源和研發(fā)投入。

據(jù)陳偉透露，從翻譯角度來(lái)講，現(xiàn)在初步建立起來(lái)的精標(biāo)數(shù)據(jù)達(dá)到幾萬(wàn)。

其次，搜狗要考慮的第二個(gè)問題是——語(yǔ)言體系如何構(gòu)建。

手語(yǔ)和漢語(yǔ)本質(zhì)上不是一個(gè)語(yǔ)言體系，存在著諸多結(jié)構(gòu)、表達(dá)上的差異。在這之中，“小聰”研發(fā)團(tuán)隊(duì)特別提到三個(gè)難點(diǎn)：

第一，手語(yǔ)表達(dá)與漢語(yǔ)表達(dá)語(yǔ)序的不同。例如，漢語(yǔ)中的“開車不許喝酒”，手語(yǔ)表達(dá)出的則是“開車、喝酒、不準(zhǔn)”，包括像“北京常常堵車”會(huì)被翻譯成“北京、堵車、常常”。

為此，搜狗建立了相應(yīng)的語(yǔ)言規(guī)則嘗試做相應(yīng)的語(yǔ)序轉(zhuǎn)化，通過搜狗構(gòu)建數(shù)據(jù)庫(kù)給算法進(jìn)行訓(xùn)練。

第二，在詞匯上，手語(yǔ)中沒有虛詞和量詞。“我買兩只鉛筆、一本書”，手語(yǔ)表達(dá)出來(lái)的會(huì)是“我買鉛筆、二、書、一”；包括“在、的、了”等程度詞都會(huì)省略，“大雪紛飛”用手語(yǔ)表達(dá)也不會(huì)有一個(gè)詞表達(dá)“大”、一個(gè)詞表達(dá)“雪”，而是在“雪”的基礎(chǔ)上加大身體的擺動(dòng)來(lái)體現(xiàn)程度副詞。

為此，搜狗建立了手語(yǔ)到漢語(yǔ)之間的映射辭典，嘗試去解決手語(yǔ)和漢語(yǔ)之間詞匯上的差異問題。

第三，手語(yǔ)里特有的非手控的信息，例如表情、口動(dòng)、身體的朝向，這部分是在漢語(yǔ)語(yǔ)言中所沒有的。例如同一個(gè)手勢(shì)表達(dá)“我做的好不好”，如果沒有表情的話，大家很難明白手語(yǔ)表達(dá)出來(lái)的意思，但是如果有皺眉，就是能表達(dá)出疑問的語(yǔ)氣。

表情、身體姿態(tài)、口動(dòng)等非手控信息是搜狗在做“小聰時(shí)”遇到最大的難題，目前也在嘗試通過一些建立一些表情庫(kù)或存在表情標(biāo)記的數(shù)據(jù)庫(kù)驅(qū)動(dòng)算法的設(shè)計(jì)等規(guī)則的方式來(lái)解決這一問題。

最后，搜狗還需要用這樣的語(yǔ)言體系驅(qū)動(dòng)“數(shù)字人”“小聰”完成自然連貫的手語(yǔ)動(dòng)作、面部表情表達(dá)。

3、“手語(yǔ)翻譯是一個(gè)新的話題”

這個(gè)事情的難點(diǎn)是我們一幫不懂手語(yǔ)的工程師在做事情，特別容易陷入到自己的煙囪里面。

陳偉一語(yǔ)道破研發(fā)團(tuán)隊(duì)立項(xiàng)初期的窘境。

在進(jìn)行過深入研究后，陳偉發(fā)現(xiàn)，手語(yǔ)翻譯是一個(gè)新的話題。

我們同傳上線了這么多年，原來(lái)做的中英翻譯、中日翻譯等結(jié)構(gòu)都是一樣的，但是放在手語(yǔ)上又不一樣了，它有一些新的話題。

為此，陳偉請(qǐng)來(lái)了制定手語(yǔ)標(biāo)準(zhǔn)的殘聯(lián)及相關(guān)協(xié)會(huì)專家、教手語(yǔ)的手語(yǔ)老師、做手語(yǔ)推廣的專業(yè)人士，由這些人組成了搜狗手語(yǔ)AI合成主播語(yǔ)言體系、產(chǎn)品體系、研發(fā)體系之外的智囊團(tuán)作為顧問團(tuán)隊(duì)。

從立項(xiàng)之初，搜狗就一直與這一顧問團(tuán)隊(duì)保持著緊密聯(lián)系，這也成為搜狗手語(yǔ)AI合成主播在技術(shù)迭代過程中不至于偏離最終用戶的一個(gè)保障。

“數(shù)字人”的一個(gè)終極目標(biāo)是手、嘴、表情、姿態(tài)的實(shí)時(shí)聯(lián)動(dòng)，完美復(fù)刻真人表達(dá)能力，這也正是手語(yǔ)對(duì)表達(dá)能力的需求。

據(jù)搜狗官方信息顯示，“小聰”在測(cè)評(píng)中可懂度已經(jīng)可以達(dá)到85%以上，能夠進(jìn)行有效信息傳遞。

對(duì)此，陳偉也向雷鋒網(wǎng)解釋：

可懂度85%，跟（語(yǔ)音）識(shí)別準(zhǔn)確率98%是兩個(gè)概念。識(shí)別率是客觀指標(biāo)，這個(gè)字到底對(duì)還是錯(cuò)的問題；可懂度更強(qiáng)調(diào)聽障人士的體驗(yàn)，我在表達(dá)的時(shí)候，翻譯得準(zhǔn)，“數(shù)字人”表達(dá)得準(zhǔn)，這個(gè)鏈條太長(zhǎng)了，在這件事上每個(gè)環(huán)節(jié)都得做好，串聯(lián)起來(lái)才會(huì)得到一個(gè)比較滿意的效果。

與此同時(shí)，陳偉也指出：