自動(dòng)語音識別系統(tǒng)的普及和視頻內(nèi)容共享信息和經(jīng)驗(yàn)的使用正在急劇增加。用于捕捉聲音的麥克風(fēng)的性能和質(zhì)量必須高,以確保良好的用戶體驗(yàn)。關(guān)鍵因素包括噪聲、畸變、頻率響應(yīng)和元件匹配。
在之前的文章中,已經(jīng)簡單說明了,麥克風(fēng)性能的特點(diǎn)通常是自噪聲和動(dòng)態(tài)范圍。動(dòng)態(tài)范圍的上限由聲學(xué)過載點(diǎn)(AOP Acoustic Overload Point)定義。下限由信噪比(SNR Signal-to-noise Ratio)定義。信噪比描述了麥克風(fēng)的自噪聲。麥克風(fēng)只能在其自噪聲層以上的聲壓級(SPL)下接收信號。因此,高信噪比的麥克風(fēng)可以在比低信噪比的麥克風(fēng)更低的聲壓下工作。本文,則集中于信噪比(SNR)和聲學(xué)過載點(diǎn)(AOP),并解釋了在語音識別和音頻/視頻捕獲系統(tǒng)中具有高麥克風(fēng)性能的好處。
麥克風(fēng)輸出中的噪聲可以定義為任何不是預(yù)期輸入源的信號,通常被認(rèn)為是輸出信號中不希望出現(xiàn)的元素。噪聲水平越高,越會(huì)降低音頻信號的質(zhì)量。噪聲可以來自麥克風(fēng)外部,也可以來自麥克風(fēng)本身。人們通常聽到麥克風(fēng)的自噪音作為一種嘶嘶聲,影響感知的聲音質(zhì)量。對于算法來說,噪聲會(huì)惡化信號的保真度,從而降低系統(tǒng)性能。
麥克風(fēng)的噪聲可以用不同的方式表達(dá):
- 自噪聲(Vrms、dBV、dBFS)是麥克風(fēng)本身在不受外界聲音激勵(lì)時(shí)產(chǎn)生的rms噪聲電壓。
- 信噪比(SNR (dB))描述了麥克風(fēng)相對于預(yù)期輸入信號的自噪聲。信噪比的測量通常使用一個(gè)標(biāo)準(zhǔn)的聲學(xué)輸入信號來表示想要的聲音,一個(gè)94 dBSPL (1 Pa)正弦波。
等效輸入噪聲EIN (dBSPL)是進(jìn)入麥克風(fēng)的(假想的)聲學(xué)噪聲水平,它相當(dāng)于麥克風(fēng)輸出時(shí)的電子噪聲水平。
所有現(xiàn)實(shí)生活中的音頻傳感器都是非線性系統(tǒng),因?yàn)樗鼈兿蛲ㄟ^它們的信號添加內(nèi)容。在失真的情況下,增加的內(nèi)容位于原始信號中出現(xiàn)的頻率的諧波。失真通常以總諧波失真THD(如果包含自噪聲則為THD+N)來測量。它是當(dāng)麥克風(fēng)被正弦波激發(fā)時(shí),信號諧波中的能量(通常是第二到第五次諧波)與基頻中的能量之比。測試信號通常是一個(gè)1 kHz的正弦信號,處于相對較高的聲壓級(SPL),通常為94 dBSPL或更高。THD以百分比(%)表示。聲學(xué)過載點(diǎn),AOP通常定義為THD超過10%的聲壓級。AOP的單元是dBSPL。
在大多數(shù)情況下,保持傳入麥克風(fēng)的聲音的原始形式和內(nèi)容是有益和重要的。在原始信號中加入內(nèi)容,比如失真,可能會(huì)讓聽聲音的人聽起來不舒服。增加的能量越多(即THD值越高),感知到的音頻質(zhì)量就越差。失真還可能使語音識別系統(tǒng)等算法產(chǎn)生混淆,特別是對輸入信號的內(nèi)容進(jìn)行非常詳細(xì)分析的語音識別系統(tǒng),失真造成的影響會(huì)更大。
圖1 Acoustical SNR 信噪比示意
音頻/視頻錄制的目的是捕捉來自受試者的傳入聲音,并將其復(fù)制到麥克風(fēng)系統(tǒng)的輸出中。當(dāng)錄音是為人類的耳朵,它是可取的電子輸出信號匹配的聲音信號盡可能接近,提供一個(gè)“自然”的聲音記錄。麥克風(fēng)及其信噪比是聲捕獲信號鏈的關(guān)鍵部分,影響錄音質(zhì)量。下表給出了一些典型的用例。
在自然情況下,每增加一倍距離,聲壓減半(降低6分貝)。捕獲的聲源越遠(yuǎn),到達(dá)麥克風(fēng)的聲音信號就越安靜。由于麥克風(fēng)的自噪聲實(shí)際上是恒定的,輸入信號電平的降低會(huì)導(dǎo)致麥克風(fēng)輸出信號的信噪比降低。通常,弱信號必須被放大,使其達(dá)到設(shè)備信號路徑的適當(dāng)水平。放大信號也會(huì)放大輸出信號中的噪聲。放大倍數(shù)越大,噪聲上升到顯著降低捕獲信號質(zhì)量的水平的風(fēng)險(xiǎn)就越大。
高麥克風(fēng)信噪比有助于保持本底噪聲是幾乎聽不見的,即使信號被放大。捕獲距離越長,麥克風(fēng)的自噪聲越小,以避免出現(xiàn)問題。當(dāng)距離很長且聲源本身很安靜時(shí),這一點(diǎn)尤其重要。當(dāng)每增加一倍的距離,聲壓會(huì)衰減6分貝時(shí),使用高信噪比6分貝的麥克風(fēng),可以使捕捉距離加倍而不會(huì)降低信號質(zhì)量。
POLQA (Objective Listening Quality Assessment)是一種ITU-T標(biāo)準(zhǔn)模型,它使用數(shù)字語音分析來客觀地確定錄制語音信號的質(zhì)量和可理解性。高信噪比的麥克風(fēng)在POLQA測試中表現(xiàn)明顯更好,并具有更好的語音清晰度。當(dāng)用高信噪比麥克風(fēng)記錄信號時(shí),同一水平的信號更容易理解。
和SNR一樣,AOP也是一個(gè)重要的音頻/視頻質(zhì)量因素。失真很容易使視頻記錄變得無用。網(wǎng)上有很多在流行音樂/搖滾音樂會(huì)上拍攝的智能手機(jī)視頻,由于音頻失真嚴(yán)重,無法觀看。如果預(yù)期聲音(或干擾聲音)的傳入聲壓水平高或非常高,則高AOP可以改善聲音質(zhì)量。高AOP幫助麥克風(fēng)系統(tǒng)處理傳入聲音信號中可能出現(xiàn)的非常高的信號峰值,即使平均聲壓水平不是非常高。參見下表中的一些典型用例。
直到幾年前,消費(fèi)電子設(shè)備麥克風(fēng)AOP的標(biāo)準(zhǔn)水平還在110到120 dBSPL之間。在最近的過去,AOP的需求已經(jīng)上升了。為了確保音質(zhì)和語音識別性能滿足客戶的要求,設(shè)備設(shè)計(jì)者應(yīng)該選擇AOPs接近或高于130 dBSPL的麥克風(fēng)。在較低的聲壓水平下,觀察比為AOP指定的10%更低的THD水平更有意義。除了擁有高的AOP之外,THD保持在低水平(低于2%)也很重要,對于預(yù)期的應(yīng)用程序(例如,高達(dá)120 dBSPL), THD應(yīng)該達(dá)到足夠高的聲壓級。
在系統(tǒng)中,所捕獲的聲音用于算法時(shí),聲音質(zhì)量目標(biāo)可能與信號用于人耳時(shí)不同。信號并不一定要聽起來很自然,只要它是為算法優(yōu)化的。不管用例是什么,保持信號不受干擾、工件、失真和噪聲的影響總是很重要的。
自然語音識別(ASR)是將語音信號自動(dòng)轉(zhuǎn)錄成文字的任務(wù)。轉(zhuǎn)錄正確率越來越接近人類水平,大約為95%。然而,到目前為止,只有在環(huán)境條件良好的實(shí)驗(yàn)室里才有可能達(dá)到這個(gè)水平。在現(xiàn)實(shí)生活環(huán)境和遠(yuǎn)距離語音識別涉及一些重要的聲學(xué)挑戰(zhàn),如背景噪聲、混響、回聲消除和麥克風(fēng)定位。僅僅有一個(gè)好的語音識別引擎是不夠的。系統(tǒng)中的每個(gè)元素都應(yīng)該以高標(biāo)準(zhǔn)執(zhí)行,以防止出現(xiàn)質(zhì)量瓶頸。麥克風(fēng)的工作是提供語音識別系統(tǒng)最好的輸入信號。 高輸入信號質(zhì)量有助于ASR系統(tǒng)分析傳入的聲音,并找到其中的特征,從而識別語音內(nèi)容。關(guān)鍵參數(shù)包括噪聲、畸變、頻率響應(yīng)和相位。
高AOP可以幫助在嘈雜環(huán)境中的語音識別系統(tǒng)。有時(shí),語音信號本身并不強(qiáng),同時(shí)存在其他干擾。例如,在語音控制的家庭娛樂系統(tǒng)和數(shù)字助理中,有靠近麥克風(fēng)的揚(yáng)聲器,可以輸出響度大的音樂或語音信息。高AOP有助于保持低失真,改善噪聲和回聲的消除。
距離語音源越遠(yuǎn),輸入到ASR算法的信號的信噪比越低。因此,當(dāng)目標(biāo)捕捉距離越長,麥克風(fēng)信噪比越高。
語音識別系統(tǒng)的一個(gè)關(guān)鍵功能是能夠忽略非待轉(zhuǎn)錄語音的聲音和噪聲。音頻/視頻捕捉和人與人之間的溝通質(zhì)量也可以通過從信號中排除不需要的聲音來提高。目標(biāo)是增加信噪比,在這種情況下,信噪比是想要的聲音(信號)與不想要的環(huán)境聲音(噪音)的比率。
將多麥克風(fēng)與算法相結(jié)合,可以實(shí)現(xiàn)噪聲消除和方向性。定向傳聲器系統(tǒng),如波束形成,可以集中麥克風(fēng)對所需方向的靈敏度和突出所需的聲源。不需要的聲音也可以根據(jù)參數(shù)取消,如兩個(gè)麥克風(fēng)之間的水平差異。盲源分離是一種更為復(fù)雜的降噪系統(tǒng)。它可以消除與方向、距離和位置無關(guān)的噪聲。所有這些噪聲消除方法都得益于其接收信號的準(zhǔn)確性和高質(zhì)量。麥克風(fēng)應(yīng)具有高信噪比,低失真,平坦頻響(也改善了相位響應(yīng))和低群延遲。
為了優(yōu)化噪聲消除算法的功能,系統(tǒng)中使用的麥克風(fēng)應(yīng)該具有相同的特性。麥克風(fēng)與麥克風(fēng)匹配的作用至關(guān)重要。麥克風(fēng)之間的靈敏度、相位特性和延遲的差異越小越好。
從2005年到2015年,最先進(jìn)的麥克風(fēng)在大眾市場消費(fèi)電子設(shè)備的信噪比從低于60分貝提高到約65分貝。隨著新的高性能語音識別系統(tǒng)和其他捕獲用例的需求,即使65 dB也不再足夠了。目前高端麥克風(fēng)的信噪比接近70分貝。
高麥克風(fēng)性能是實(shí)現(xiàn)高語音識別和音頻捕獲質(zhì)量的關(guān)鍵。自動(dòng)語音識別算法和相機(jī)等技術(shù)的性能正在迅速提高,設(shè)備購買者對用戶體驗(yàn)的期望也在提高。避免麥克風(fēng)成為改進(jìn)瓶頸是很重要的。幸運(yùn)的是,現(xiàn)在有高性能的麥克風(fēng)。噪聲性能在過去的幾年中有了顯著的提高。隨著AOP達(dá)到130 dBSPL的標(biāo)志,SNR已經(jīng)超過了70 dB的水平,而質(zhì)量下降的失真正在成為過去。這種水平的麥克風(fēng)性能有助于充分提升設(shè)備整體表現(xiàn)。