日韩一二三视频网,十八禁av无码免费网站

自動(dòng)語音識別系統(tǒng)的普及和視頻內(nèi)容共享信息和經(jīng)驗(yàn)的使用正在急劇增加。用于捕捉聲音的麥克風(fēng)的性能和質(zhì)量必須高，以確保良好的用戶體驗(yàn)。關(guān)鍵因素包括噪聲、畸變、頻率響應(yīng)和元件匹配。

在之前的文章中，已經(jīng)簡單說明了，麥克風(fēng)性能的特點(diǎn)通常是自噪聲和動(dòng)態(tài)范圍。動(dòng)態(tài)范圍的上限由聲學(xué)過載點(diǎn)(AOP Acoustic Overload Point)定義。下限由信噪比(SNR Signal-to-noise Ratio)定義。信噪比描述了麥克風(fēng)的自噪聲。麥克風(fēng)只能在其自噪聲層以上的聲壓級(SPL)下接收信號。因此，高信噪比的麥克風(fēng)可以在比低信噪比的麥克風(fēng)更低的聲壓下工作。本文，則集中于信噪比(SNR)和聲學(xué)過載點(diǎn)(AOP)，并解釋了在語音識別和音頻/視頻捕獲系統(tǒng)中具有高麥克風(fēng)性能的好處。

麥克風(fēng)輸出中的噪聲可以定義為任何不是預(yù)期輸入源的信號，通常被認(rèn)為是輸出信號中不希望出現(xiàn)的元素。噪聲水平越高，越會(huì)降低音頻信號的質(zhì)量。噪聲可以來自麥克風(fēng)外部，也可以來自麥克風(fēng)本身。人們通常聽到麥克風(fēng)的自噪音作為一種嘶嘶聲，影響感知的聲音質(zhì)量。對于算法來說，噪聲會(huì)惡化信號的保真度，從而降低系統(tǒng)性能。

麥克風(fēng)的噪聲可以用不同的方式表達(dá):

自噪聲(Vrms、dBV、dBFS)是麥克風(fēng)本身在不受外界聲音激勵(lì)時(shí)產(chǎn)生的rms噪聲電壓。
信噪比(SNR (dB))描述了麥克風(fēng)相對于預(yù)期輸入信號的自噪聲。信噪比的測量通常使用一個(gè)標(biāo)準(zhǔn)的聲學(xué)輸入信號來表示想要的聲音，一個(gè)94 dBSPL (1 Pa)正弦波。

等效輸入噪聲EIN (dBSPL)是進(jìn)入麥克風(fēng)的(假想的)聲學(xué)噪聲水平，它相當(dāng)于麥克風(fēng)輸出時(shí)的電子噪聲水平。

所有現(xiàn)實(shí)生活中的音頻傳感器都是非線性系統(tǒng)，因?yàn)樗鼈兿蛲ㄟ^它們的信號添加內(nèi)容。在失真的情況下，增加的內(nèi)容位于原始信號中出現(xiàn)的頻率的諧波。失真通常以總諧波失真THD(如果包含自噪聲則為THD+N)來測量。它是當(dāng)麥克風(fēng)被正弦波激發(fā)時(shí)，信號諧波中的能量(通常是第二到第五次諧波)與基頻中的能量之比。測試信號通常是一個(gè)1 kHz的正弦信號，處于相對較高的聲壓級(SPL)，通常為94 dBSPL或更高。THD以百分比(%)表示。聲學(xué)過載點(diǎn)，AOP通常定義為THD超過10%的聲壓級。AOP的單元是dBSPL。

在大多數(shù)情況下，保持傳入麥克風(fēng)的聲音的原始形式和內(nèi)容是有益和重要的。在原始信號中加入內(nèi)容，比如失真，可能會(huì)讓聽聲音的人聽起來不舒服。增加的能量越多(即THD值越高)，感知到的音頻質(zhì)量就越差。失真還可能使語音識別系統(tǒng)等算法產(chǎn)生混淆，特別是對輸入信號的內(nèi)容進(jìn)行非常詳細(xì)分析的語音識別系統(tǒng)，失真造成的影響會(huì)更大。

圖1 Acoustical SNR 信噪比示意

音頻/視頻錄制的目的是捕捉來自受試者的傳入聲音，并將其復(fù)制到麥克風(fēng)系統(tǒng)的輸出中。當(dāng)錄音是為人類的耳朵，它是可取的電子輸出信號匹配的聲音信號盡可能接近，提供一個(gè)“自然”的聲音記錄。麥克風(fēng)及其信噪比是聲捕獲信號鏈的關(guān)鍵部分，影響錄音質(zhì)量。下表給出了一些典型的用例。

在自然情況下，每增加一倍距離，聲壓減半(降低6分貝)。捕獲的聲源越遠(yuǎn)，到達(dá)麥克風(fēng)的聲音信號就越安靜。由于麥克風(fēng)的自噪聲實(shí)際上是恒定的，輸入信號電平的降低會(huì)導(dǎo)致麥克風(fēng)輸出信號的信噪比降低。通常，弱信號必須被放大，使其達(dá)到設(shè)備信號路徑的適當(dāng)水平。放大信號也會(huì)放大輸出信號中的噪聲。放大倍數(shù)越大，噪聲上升到顯著降低捕獲信號質(zhì)量的水平的風(fēng)險(xiǎn)就越大。

高麥克風(fēng)信噪比有助于保持本底噪聲是幾乎聽不見的，即使信號被放大。捕獲距離越長，麥克風(fēng)的自噪聲越小，以避免出現(xiàn)問題。當(dāng)距離很長且聲源本身很安靜時(shí)，這一點(diǎn)尤其重要。當(dāng)每增加一倍的距離，聲壓會(huì)衰減6分貝時(shí)，使用高信噪比6分貝的麥克風(fēng)，可以使捕捉距離加倍而不會(huì)降低信號質(zhì)量。

POLQA (Objective Listening Quality Assessment)是一種ITU-T標(biāo)準(zhǔn)模型，它使用數(shù)字語音分析來客觀地確定錄制語音信號的質(zhì)量和可理解性。高信噪比的麥克風(fēng)在POLQA測試中表現(xiàn)明顯更好，并具有更好的語音清晰度。當(dāng)用高信噪比麥克風(fēng)記錄信號時(shí)，同一水平的信號更容易理解。

和SNR一樣，AOP也是一個(gè)重要的音頻/視頻質(zhì)量因素。失真很容易使視頻記錄變得無用。網(wǎng)上有很多在流行音樂/搖滾音樂會(huì)上拍攝的智能手機(jī)視頻，由于音頻失真嚴(yán)重，無法觀看。如果預(yù)期聲音(或干擾聲音)的傳入聲壓水平高或非常高，則高AOP可以改善聲音質(zhì)量。高AOP幫助麥克風(fēng)系統(tǒng)處理傳入聲音信號中可能出現(xiàn)的非常高的信號峰值，即使平均聲壓水平不是非常高。參見下表中的一些典型用例。

直到幾年前，消費(fèi)電子設(shè)備麥克風(fēng)AOP的標(biāo)準(zhǔn)水平還在110到120 dBSPL之間。在最近的過去，AOP的需求已經(jīng)上升了。為了確保音質(zhì)和語音識別性能滿足客戶的要求，設(shè)備設(shè)計(jì)者應(yīng)該選擇AOPs接近或高于130 dBSPL的麥克風(fēng)。在較低的聲壓水平下，觀察比為AOP指定的10%更低的THD水平更有意義。除了擁有高的AOP之外，THD保持在低水平(低于2%)也很重要，對于預(yù)期的應(yīng)用程序(例如，高達(dá)120 dBSPL)， THD應(yīng)該達(dá)到足夠高的聲壓級。

在系統(tǒng)中，所捕獲的聲音用于算法時(shí)，聲音質(zhì)量目標(biāo)可能與信號用于人耳時(shí)不同。信號并不一定要聽起來很自然，只要它是為算法優(yōu)化的。不管用例是什么，保持信號不受干擾、工件、失真和噪聲的影響總是很重要的。

自然語音識別(ASR)是將語音信號自動(dòng)轉(zhuǎn)錄成文字的任務(wù)。轉(zhuǎn)錄正確率越來越接近人類水平，大約為95%。然而，到目前為止，只有在環(huán)境條件良好的實(shí)驗(yàn)室里才有可能達(dá)到這個(gè)水平。在現(xiàn)實(shí)生活環(huán)境和遠(yuǎn)距離語音識別涉及一些重要的聲學(xué)挑戰(zhàn)，如背景噪聲、混響、回聲消除和麥克風(fēng)定位。僅僅有一個(gè)好的語音識別引擎是不夠的。系統(tǒng)中的每個(gè)元素都應(yīng)該以高標(biāo)準(zhǔn)執(zhí)行，以防止出現(xiàn)質(zhì)量瓶頸。麥克風(fēng)的工作是提供語音識別系統(tǒng)最好的輸入信號。高輸入信號質(zhì)量有助于ASR系統(tǒng)分析傳入的聲音，并找到其中的特征，從而識別語音內(nèi)容。關(guān)鍵參數(shù)包括噪聲、畸變、頻率響應(yīng)和相位。

高AOP可以幫助在嘈雜環(huán)境中的語音識別系統(tǒng)。有時(shí)，語音信號本身并不強(qiáng)，同時(shí)存在其他干擾。例如，在語音控制的家庭娛樂系統(tǒng)和數(shù)字助理中，有靠近麥克風(fēng)的揚(yáng)聲器，可以輸出響度大的音樂或語音信息。高AOP有助于保持低失真，改善噪聲和回聲的消除。

距離語音源越遠(yuǎn)，輸入到ASR算法的信號的信噪比越低。因此，當(dāng)目標(biāo)捕捉距離越長，麥克風(fēng)信噪比越高。

語音識別系統(tǒng)的一個(gè)關(guān)鍵功能是能夠忽略非待轉(zhuǎn)錄語音的聲音和噪聲。音頻/視頻捕捉和人與人之間的溝通質(zhì)量也可以通過從信號中排除不需要的聲音來提高。目標(biāo)是增加信噪比，在這種情況下，信噪比是想要的聲音(信號)與不想要的環(huán)境聲音(噪音)的比率。

將多麥克風(fēng)與算法相結(jié)合，可以實(shí)現(xiàn)噪聲消除和方向性。定向傳聲器系統(tǒng)，如波束形成，可以集中麥克風(fēng)對所需方向的靈敏度和突出所需的聲源。不需要的聲音也可以根據(jù)參數(shù)取消，如兩個(gè)麥克風(fēng)之間的水平差異。盲源分離是一種更為復(fù)雜的降噪系統(tǒng)。它可以消除與方向、距離和位置無關(guān)的噪聲。所有這些噪聲消除方法都得益于其接收信號的準(zhǔn)確性和高質(zhì)量。麥克風(fēng)應(yīng)具有高信噪比，低失真，平坦頻響(也改善了相位響應(yīng))和低群延遲。

為了優(yōu)化噪聲消除算法的功能，系統(tǒng)中使用的麥克風(fēng)應(yīng)該具有相同的特性。麥克風(fēng)與麥克風(fēng)匹配的作用至關(guān)重要。麥克風(fēng)之間的靈敏度、相位特性和延遲的差異越小越好。

從2005年到2015年，最先進(jìn)的麥克風(fēng)在大眾市場消費(fèi)電子設(shè)備的信噪比從低于60分貝提高到約65分貝。隨著新的高性能語音識別系統(tǒng)和其他捕獲用例的需求，即使65 dB也不再足夠了。目前高端麥克風(fēng)的信噪比接近70分貝。

高麥克風(fēng)性能是實(shí)現(xiàn)高語音識別和音頻捕獲質(zhì)量的關(guān)鍵。自動(dòng)語音識別算法和相機(jī)等技術(shù)的性能正在迅速提高，設(shè)備購買者對用戶體驗(yàn)的期望也在提高。避免麥克風(fēng)成為改進(jìn)瓶頸是很重要的。幸運(yùn)的是，現(xiàn)在有高性能的麥克風(fēng)。噪聲性能在過去的幾年中有了顯著的提高。隨著AOP達(dá)到130 dBSPL的標(biāo)志，SNR已經(jīng)超過了70 dB的水平，而質(zhì)量下降的失真正在成為過去。這種水平的麥克風(fēng)性能有助于充分提升設(shè)備整體表現(xiàn)。

超高信噪比MEMS麥克風(fēng)的重要性

相關(guān)推薦

電子產(chǎn)業(yè)圖譜