王順利 夏長春 付嘉銘
摘 要 語音增強(qiáng)是語音處理的一個重要技術(shù),許多研究人員正通過不懈努力來尋求多種優(yōu)秀的語音增強(qiáng)算法,其目的是為了提高語音的清晰度和理解度。然而這兩個目標(biāo)是不相關(guān)的,有時甚至是相互矛盾的,因此語音增強(qiáng)系統(tǒng)是根據(jù)不同的應(yīng)用場合來選擇的。
關(guān)鍵詞 語音增強(qiáng) 語音信號 噪音污染 抑制干擾
中圖分類號:TN912 文獻(xiàn)標(biāo)識碼:A
1語音增強(qiáng)技術(shù)的研究意義
1.1語音增強(qiáng)技術(shù)簡介
語音信號處理是一種在信息高速公路中的應(yīng)用的關(guān)鍵技術(shù),新興的多媒體技術(shù),辦公自動化,現(xiàn)代通信和智能系統(tǒng)技術(shù),它主要包括語音通信,語音合成,識別和語音增強(qiáng)。然而,在接收到語音信號的同時,語音的干擾將不可避免地受到噪聲的影響。一些傳輸媒體,如通訊設(shè)備,電子音響和其他揚聲器就會出現(xiàn)這種情況。這些語音干擾不僅會造成噪音污染,還會導(dǎo)致許多語音處理系統(tǒng)性能的急劇惡化。
語音增強(qiáng)作為一種預(yù)處理方案是抑制干擾的一種有效途徑,是語音信號的其他應(yīng)用基礎(chǔ)。通過對語音增強(qiáng)技術(shù)的深入研究,人們越來越意識到由于噪聲通常是隨機(jī)的,從帶有噪聲的語音信號中提取完全純化的原始語音信號幾乎是不可能的。
語音增強(qiáng)是一個非常復(fù)雜的技術(shù),不僅是數(shù)字信號處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時,多樣性的噪聲,即噪聲來源眾多,具有不同的應(yīng)用和不同的特點,增加了語音增強(qiáng)的困難。因此,一勞永逸的設(shè)計一種算法是不可能的,噪音是唯一的,處理不同的噪聲就要使用不同的語音增強(qiáng)算法。如圖1所示,是噪聲對消法的原理框圖。
1.2語音增強(qiáng)技術(shù)的研究目的
由于受到環(huán)境噪聲的影響,語音通信過程中的干擾是不可避免的,從周圍的環(huán)境引發(fā)的噪聲嚴(yán)重影響了電子通信設(shè)備的語音信號采集。這些干擾將最終接收到的聲音是不純凈的原始語音信號,而是受噪聲污染的語音信號。例如,安裝在汽車,飛機(jī),船只,機(jī)場內(nèi)的公共電話,干擾往往是由強(qiáng)背景噪聲引起的,嚴(yán)重影響通信的質(zhì)量。
實際語音常常帶有各種噪聲信號,為了從噪聲信號中獲得純凈的語音信號,減少噪音的干擾,就需要使用語音增強(qiáng)技術(shù)。因為一般的干擾信號是隨機(jī)信號,想完全消除噪聲是不現(xiàn)實的,因此研究語音增強(qiáng)技術(shù)的目的主要是為了減少人們的疲勞,提高語音質(zhì)量,提高語音處理系統(tǒng)的識別能力,提升語音的清晰度,提高手機(jī)的識別率和抗干擾能力。
人耳對背景噪聲的抑制作用顯著,理解其機(jī)制有助于語音增強(qiáng)技術(shù)的發(fā)展。人類的聽覺系統(tǒng)可以從非平穩(wěn)噪聲中提取有用的信息,但有的語音增強(qiáng)采取了語音聽覺系統(tǒng)模擬技術(shù),這是人類未來科技的發(fā)展方向。許多環(huán)境噪聲是非平穩(wěn)的,所以很難找到一個共同的語音增強(qiáng)算法適用于各種噪聲環(huán)境。因此,非平穩(wěn)語音的隨機(jī)噪聲增強(qiáng)技術(shù)的研究具有十分重要的意義,這項工作將會在近幾年進(jìn)一步擴(kuò)展。
隨著語音激勵特點的深入分析研究,非線性語音信號的非平穩(wěn)性越來越受到人們的重視。傳統(tǒng)的線性分析技術(shù)也日益暴露出其對非線性信號處理的局限性,很難在理論和技術(shù)上有所突破,不同的研究方向開始進(jìn)展緩慢或停滯。因此,人們開始尋求新的數(shù)學(xué)方法分析語音信號的處理,各種非線性方法的研究是語音分析領(lǐng)域的一個熱門話題,如模糊理論,混沌分析和數(shù)學(xué)形態(tài)學(xué)。
2語音增強(qiáng)技術(shù)的研究背景
2.1語音增強(qiáng)技術(shù)的一般研究方法
語音增強(qiáng)技術(shù)成為語音數(shù)字信號處理的重要組成部分。語音增強(qiáng)是對帶噪語音進(jìn)行處理,以改善語音質(zhì)量,提高語音清晰度,可懂度和舒適度,使人們易于接受或提高語音處理系統(tǒng)的性能。環(huán)境噪聲污染使許多語音處理系統(tǒng)的性能急劇惡化。語音識別技術(shù)已經(jīng)取得了重大的進(jìn)展,進(jìn)入了實用階段。但目前的識別系統(tǒng)只能在安靜的環(huán)境中正常工作,在噪聲環(huán)境下,特別是在強(qiáng)噪聲環(huán)境下,語音識別率會受到影響。
由于語音生成模型的編碼參數(shù)比特率非常低,當(dāng)混合背景噪聲干擾嚴(yán)重時提取語音信號,重建語音的質(zhì)量會急劇惡化,甚至完全無法理解。在這種情況下,語音增強(qiáng)作為一種預(yù)處理方法,是一種有效的方法,解決了噪聲污染。
2.2語音增強(qiáng)技術(shù)的應(yīng)用背景
語音增強(qiáng)作為預(yù)處理,或抑制背景噪聲,提高語音質(zhì)量,是一種用來解決噪聲污染有效的方法。因此,語音增強(qiáng)應(yīng)用技術(shù)的研究具有重要的實踐價值。目前,語音增強(qiáng)系統(tǒng)在語音通信,多媒體技術(shù),數(shù)字家電等領(lǐng)域已被廣泛應(yīng)用。
語音增強(qiáng)的主要目的是從帶噪語音信號中提取盡可能多的純凈原始語音。然而,由于干擾通常是隨機(jī)的,從嘈雜的語音中完全提取純凈的原始語音幾乎是不可能的。在這種情況下,語音增強(qiáng)的目的主要有兩個:一是語音質(zhì)量的改善,消除背景噪聲,使人們愿意接受,消除人們的聽覺疲勞,這是主觀測量,另外一個就是提高語音的可懂性,這是一個客觀的測量。但這兩個目標(biāo)不可兼得,因此在實際應(yīng)用中往往是根據(jù)具體情況來確定的。
參考文獻(xiàn)
[1] 黃蘇雨,梁聲灼,黃蘇園.語音增強(qiáng)方法綜述[J]. 計算機(jī)與現(xiàn)代化,2007(03).
[2] 孫晉松.語音增強(qiáng)算法的研究及改進(jìn)[D]. 山東大學(xué),2009.