加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

語(yǔ)音合成(TTS)的概念和分類(lèi)

2021/09/09
740
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

語(yǔ)音合成

Speech Synthesis 或Text to Speech(TTS)

語(yǔ)音合成(Speech Synthesis)是人類(lèi)語(yǔ)音的人工合成。用于此目的的計(jì)算機(jī)系統(tǒng)稱為語(yǔ)音計(jì)算機(jī)或語(yǔ)音合成器,可以在軟件硬件產(chǎn)品中實(shí)現(xiàn)。文本到語(yǔ)音(TTS)系統(tǒng)將普通語(yǔ)言文本轉(zhuǎn)換為語(yǔ)音;其他系統(tǒng)則把像音標(biāo)這樣的符號(hào)語(yǔ)言表示法翻譯成語(yǔ)音。其他系統(tǒng)則使用符號(hào)語(yǔ)言表征例如標(biāo)音法翻譯成語(yǔ)音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )

1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.

2. A symbolic linguistic representation符號(hào)語(yǔ)言表征是一種話語(yǔ)的表征,它使用符號(hào)來(lái)表征話語(yǔ)的語(yǔ)言信息,如語(yǔ)音、音位、形態(tài)學(xué)、句法或語(yǔ)義的信息。符號(hào)語(yǔ)言表征不同于非符號(hào)表征,如錄音,因?yàn)樗鼈兪褂梅?hào)來(lái)表示語(yǔ)言信息,而不是測(cè)量。

合成語(yǔ)音可以通過(guò)連接存儲(chǔ)在數(shù)據(jù)庫(kù)中的記錄語(yǔ)音片段來(lái)創(chuàng)建。系統(tǒng)存儲(chǔ)的語(yǔ)音單元大小不同;存儲(chǔ)音素和亞音素(phones and diphones)[3]的系統(tǒng)提供最大的輸出范圍,但可能缺乏清晰度。對(duì)于特定的使用領(lǐng)域,整個(gè)單詞或句子的存儲(chǔ)允許高質(zhì)量的輸出?;蛘?,合成器可以結(jié)合聲道模型和其他人類(lèi)聲音特征來(lái)創(chuàng)建一個(gè)完全“合成”的聲音輸出。

3.語(yǔ)音學(xué)(Phonetics)是語(yǔ)言學(xué)的一個(gè)分支,研究人類(lèi)語(yǔ)言的聲音,或者,在手語(yǔ)中,是手語(yǔ)的等效方面。它涉及語(yǔ)音或信號(hào)(電話)的物理特性:它們的生理產(chǎn)生、聲學(xué)特性、聽(tīng)覺(jué)感知和神經(jīng)生理狀態(tài)。另一方面,音韻學(xué)是研究聲音或符號(hào)系統(tǒng)的抽象語(yǔ)法特征。

語(yǔ)音合成器的質(zhì)量是由它與人類(lèi)聲音的相似性和它被清晰理解的能力來(lái)判斷的。一種可理解的文本-語(yǔ)音轉(zhuǎn)換程序允許有視覺(jué)障礙或閱讀障礙的人在家用電腦上聽(tīng)書(shū)面文字。自上世紀(jì)90年代初以來(lái),許多計(jì)算機(jī)操作系統(tǒng)都包含語(yǔ)音合成器。

文本到語(yǔ)音系統(tǒng)(或“引擎”)由兩部分組成:前端和后端。前端有兩個(gè)主要任務(wù)。首先,它將包含數(shù)字和縮寫(xiě)等符號(hào)的原始文本轉(zhuǎn)換為相當(dāng)于輸出的單詞。這個(gè)過(guò)程通常稱為文本規(guī)范化、預(yù)處理或標(biāo)記化。然后前端為每個(gè)單詞分配語(yǔ)音轉(zhuǎn)錄,并將文本劃分和標(biāo)記為韻律單位,如短語(yǔ)、子句和句子。將音標(biāo)分配給單詞的過(guò)程稱為文本到音素或字母到音素的轉(zhuǎn)換。音標(biāo)和韻律信息共同構(gòu)成了前端輸出的符號(hào)語(yǔ)言表征。后端通常被稱為合成器,然后將符號(hào)語(yǔ)言表示轉(zhuǎn)換成聲音。在某些系統(tǒng)中,這部分包括計(jì)算目標(biāo)韻律(音高輪廓,音素時(shí)長(zhǎng)),然后將之加到輸出語(yǔ)音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)

之前的文章有提到過(guò),目前國(guó)內(nèi)的主流語(yǔ)音合成方案有科大訊飛、搜狗、云知聲、思必馳等。

而語(yǔ)音合成目前市面上一般使用參數(shù)合成,或者拼接合成,前者的音庫(kù)都是在10小時(shí)左右,基本用不到20小時(shí),對(duì)于合成人聲效果的自然度,更依賴算法,而拼接則對(duì)于數(shù)據(jù)的需求量很高,對(duì)合成人聲效果的自然度,更依賴數(shù)據(jù)量。很多聽(tīng)起來(lái)很自然的音庫(kù)時(shí)長(zhǎng)在100~200小時(shí)左右。

以及,TTS模型通常也會(huì)分為中文,英文,或者中英混輸?shù)摹W鲇?xùn)練的文本,有很多文字比較拗口,故而對(duì)錄音聲優(yōu)的功力有要求,中英混輸?shù)哪P蛿?shù)據(jù)就更難了。如果是普通的中文TTS模型,以剛才的例子“馬上為您播放周杰倫的《晴天》live版本”,這種就可以在錄音時(shí)加入一些簡(jiǎn)單的字母,單詞,短語(yǔ)等等。

合成的wav文件回傳到終端音箱,并播放出來(lái),如此,完成了一環(huán)基礎(chǔ)的用戶與智能硬件之間的對(duì)話。

方法上:波形拼接合成和參數(shù)合成

波形拼接語(yǔ)音合成:

基于統(tǒng)計(jì)規(guī)則的大語(yǔ)料庫(kù)拼接語(yǔ)音合成系統(tǒng)

超大規(guī)模音庫(kù)制作:語(yǔ)料設(shè)計(jì);音庫(kù)錄制;精細(xì)切分;韻律標(biāo)注;

優(yōu)點(diǎn):音質(zhì)最佳,錄音和合成音質(zhì)差異小,正常句子的自然度也好

缺點(diǎn):非常依賴音庫(kù)的規(guī)模大小和制作質(zhì)量,尺寸大,無(wú)法在嵌入式設(shè)備中應(yīng)用,仍然存在拼接不連續(xù)性

參數(shù)語(yǔ)音合成技術(shù):

對(duì)于引得頻譜特性參數(shù)進(jìn)行建模,生成參數(shù)合成器,來(lái)構(gòu)建文本序列映射到語(yǔ)音的映射關(guān)系

優(yōu)點(diǎn):尺寸小,語(yǔ)音自然度好

缺點(diǎn):音質(zhì)不如拼接合成

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

兔爾摩斯,芯片領(lǐng)域應(yīng)用工程師背景。 主要分享消費(fèi)類(lèi)電子領(lǐng)域行業(yè)動(dòng)態(tài),硬件方案等。希望專(zhuān)欄文章,能夠幫助到行業(yè)同仁,同時(shí),在寫(xiě)作和整理地過(guò)程中,也不斷鞭策自己,學(xué)無(wú)止境,業(yè)精于勤。