羅春梅
(遼東學(xué)院機(jī)械電子工程學(xué)院,遼寧 丹東 118000)
實(shí)際環(huán)境中干擾噪聲的存在影響了語音信號(hào)的質(zhì)量,也從也容易影響到人與人之間正常的語音交流。隨著海經(jīng)濟(jì)效益的提高,在大型船舶海上航行環(huán)境下工作和生產(chǎn)變得越來越頻繁,而船舶環(huán)境下語音通訊與交流必不可少,但船舶航行過程中各種設(shè)備產(chǎn)生的巨大噪聲,嚴(yán)重干擾了通訊端語音信號(hào),使得有用的語音不能被正常接收,影響了船舶工作者的正常交流,因此,削除語音信號(hào)通訊端工作環(huán)境中船舶的噪聲干擾,增強(qiáng)語音信號(hào),對(duì)語音交流的準(zhǔn)確性和舒適性有重要意義,而要在船舶噪聲持續(xù)存在的環(huán)境中,實(shí)現(xiàn)語音信號(hào)增強(qiáng),首先需要將含有語音的信號(hào)段從復(fù)雜多變而又長久持續(xù)的船舶背景噪聲中正確的檢測分離出來,進(jìn)而通過譜減法等方法進(jìn)一步實(shí)現(xiàn)語音增強(qiáng)。
由于噪聲的持續(xù)存在,首先從源信號(hào)中將含有語音的信號(hào)片段(后續(xù)簡記為語音段)與不含語音僅含有環(huán)境噪聲的信號(hào)片段(后續(xù)簡記為噪聲段)正確分割,然后通過譜減法等方法僅對(duì)語音段進(jìn)行增強(qiáng),是持續(xù)強(qiáng)噪聲環(huán)境下確保語音信號(hào)有效增強(qiáng)同時(shí)保證算法效率的關(guān)鍵,針對(duì)此,學(xué)者相繼提出了以短時(shí)譜能量[1]、短時(shí)分形維維數(shù)[2]、過零率[3]、多重回歸[4]及修正譜估計(jì)[5]等為特征的算法,對(duì)含噪信號(hào)的語音段和噪聲段進(jìn)行檢測分割,但這些方法用于以船舶為背景噪聲的環(huán)境時(shí)遇到了困難[6]。船舶背景噪聲和語音信號(hào)的這種特征復(fù)雜多變使得已有的檢測方法因類內(nèi)特征離散度大而失效,因此需要探索新的語音段和噪聲段的檢測分離方法以適應(yīng)船舶背景噪聲特征,通過提高語音段的檢測精度,為后續(xù)譜減法的有效使用作準(zhǔn)備。
樣本熵是由Richman 提出的用于衡量序列復(fù)雜性的一種改進(jìn)方法[7]。由于語音信號(hào)與船舶背景噪聲信號(hào)的產(chǎn)生機(jī)理不同,語音信號(hào)是由肺部氣流經(jīng)聲道震蕩產(chǎn)生,而船舶產(chǎn)生的背景噪聲則與其結(jié)構(gòu)、材質(zhì)和發(fā)動(dòng)機(jī)轉(zhuǎn)動(dòng)等相關(guān),因而兩種信號(hào)時(shí)間序列的新信息產(chǎn)生程序各不相同[8],而復(fù)雜性則描述了出現(xiàn)新信息量的程度,為此,在分析信號(hào)短時(shí)頻譜相似評(píng)價(jià)基礎(chǔ)上,根據(jù)信號(hào)中新信息量的差異,通過提出基于信號(hào)歸一化樣本熵特征的語音段檢測方法,實(shí)現(xiàn)了語音段與噪聲段的精確檢測和分段,以用于基于譜減法的語音段信號(hào)增強(qiáng)。實(shí)測數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證表明,算法取得了較好的檢測結(jié)果,有利于語音信號(hào)的增強(qiáng)。
船舶輻射的背景噪聲與話音信號(hào)本身都為復(fù)雜多變的信號(hào),現(xiàn)有方法提取的特征大都表現(xiàn)出較強(qiáng)的類內(nèi)離散及類間重疊[6],為此根據(jù)信號(hào)生成機(jī)理提出基于信號(hào)頻譜相似評(píng)價(jià)的含噪語音中語音段檢測方法,信號(hào)樣本的頻譜相似評(píng)價(jià)分析如下。
船舶作為一種工作環(huán)境有其本身的特殊性,船舶背景噪聲主要由船舶發(fā)動(dòng)機(jī)、發(fā)電機(jī)等各種設(shè)備的運(yùn)行產(chǎn)生[5],對(duì)于實(shí)際的工作環(huán)境,船舶自身的大小、材料、發(fā)動(dòng)機(jī)類型等會(huì)成為其噪聲特性的決定性因素[9],這說明當(dāng)在一個(gè)較短時(shí)間內(nèi)分析其噪聲特點(diǎn)時(shí),由于船舶自身運(yùn)動(dòng)狀態(tài)及發(fā)動(dòng)機(jī)狀態(tài)等通常會(huì)保持一個(gè)較穩(wěn)定的狀態(tài),因而對(duì)噪聲進(jìn)行頻譜等各種特征分析時(shí),頻譜在分析時(shí)間段內(nèi)會(huì)有較好穩(wěn)定性,如圖1 所示。圖中頻譜進(jìn)行了平滑處理,可以看出,其相鄰幀的頻譜分布表現(xiàn)出較大的相似性,即具有短時(shí)穩(wěn)定性。
圖1 船舶背景噪聲幀間頻譜相似特性Fig.1 Spectral Similarity of Noise Between Adjacent Frames
語音信號(hào)由肺部氣流經(jīng)聲道震蕩產(chǎn)生[10],其有意義的最小單元為音素組成的單詞。音素為聲腔可發(fā)出的最小發(fā)聲單位,每個(gè)音素的產(chǎn)生方法和聲道部位各不相同,因而其對(duì)應(yīng)的頻譜波形也各不相同。一段語音信號(hào)中會(huì)選擇各種不同單詞來表達(dá)內(nèi)容,而每個(gè)單詞又由多個(gè)不同的音素組成,因而在一段語音發(fā)聲時(shí),需要通過各種不同的音素發(fā)聲引起氣流、聲門和聲道的不斷變化,從而表現(xiàn)出即使在一個(gè)較短時(shí)間內(nèi),其相鄰時(shí)間幀信號(hào)的頻譜分布等特征由于音素頻譜波形的存在而表現(xiàn)出較大的差異,如圖2所示。圖中所示為純凈語音信號(hào)信號(hào)經(jīng)分幀處理后相鄰幀信號(hào)的頻譜分布特性,其頻譜計(jì)算方法與圖1 相同,且都進(jìn)行平滑處理。
綜上所述,由于不同的發(fā)聲機(jī)理,語音信號(hào)與船舶背景噪聲信號(hào)的短時(shí)頻譜相似性出現(xiàn)了較大的不同,對(duì)于背景噪聲信號(hào),其短時(shí)幀間頻譜分布相似性較大,說明其短時(shí)序列中的新信息量較少,而語音信號(hào)幀間頻譜差異較大,說明短時(shí)內(nèi)序列的新信息量會(huì)較多,因而通過反映信號(hào)復(fù)雜度的樣本熵來描述這種新信息量差異,可以實(shí)現(xiàn)兩種信號(hào)的判別。
圖2 語音信號(hào)幀間頻譜分布特性Fig.2 Spectrum Character of Speech Signal Between Adjacent Frames
樣本熵的定義為數(shù)據(jù)向量由m 維增加至m+1 維時(shí)繼續(xù)保持其相似性的條件概率,可以表示為[10]:
式中:N—信號(hào)長度;r—相似容限;Bm(r)和Bm+1(r)的定義,如式(7)所示。
序列較復(fù)雜而使其新息產(chǎn)生概率較大,則其樣本熵值就會(huì)偏大[11]。樣本熵通過序列統(tǒng)計(jì)來衡量序列復(fù)雜性,表征數(shù)據(jù)的前后變化,較短的數(shù)據(jù)長度即可完成估計(jì)。
實(shí)測信號(hào)受噪聲污染會(huì)其短時(shí)頻譜中存在不確定的瞬時(shí)突變,影響頻譜的相似評(píng)價(jià)魯棒性[12],為此,算法在進(jìn)行相似評(píng)價(jià)之前先對(duì)頻譜進(jìn)行曲線擬合平滑,計(jì)算頻譜曲線的變化趨勢。用N個(gè)鄰接的濾波器進(jìn)行濾波,再作平方積分和歸一化處理,并計(jì)算分貝值,得到頻譜的每幀估計(jì)值f(w)。
式中:f(w)′—位置標(biāo)準(zhǔn)化后的頻譜值。于是有f(w)′>0,然后進(jìn)一步得到歸一化的頻譜值為[13]:
式中:f(w)″—?dú)w一化頻譜值,可以反映曲線的趨勢,且滿足f(w)″≥0 和∑f(w)″=1,故可按概率密度函數(shù)處理。
設(shè)每幀長度為N 的含船舶背景噪聲的語音信號(hào)經(jīng)過預(yù)處理后為x,其組成m 維向量為:
語音信號(hào)與背景噪聲信號(hào)的樣本熵在一定時(shí)間內(nèi)的分布,可以看出由于語音信號(hào)的短時(shí)頻譜分布不具有穩(wěn)定的相似性,而船舶背景噪聲具有較好的短時(shí)頻譜相似性,兩種信號(hào)的樣本熵表現(xiàn)出明顯的差異,通過設(shè)置合理的閾值,可以實(shí)現(xiàn)信號(hào)段的檢測分割,如圖3 所示。
圖3 語音段及噪聲段樣本熵差異Fig.3 Difference of Sample Entropy Between Speech and Noise
對(duì)于采樣率為11025Hz 的輸入信號(hào),基于樣本熵的信號(hào)判別算法的實(shí)現(xiàn)步驟為:
(1)信號(hào)分幀。對(duì)信號(hào)預(yù)加重和漢明窗分幀,每幀512 個(gè)數(shù)據(jù)點(diǎn),幀移點(diǎn)數(shù)為256。實(shí)驗(yàn)中,m=2,容許值r=0.2。
(2)對(duì)信號(hào)段進(jìn)行初始判別。根據(jù)式(8)計(jì)算樣本熵,根據(jù)式(9)計(jì)算自適應(yīng)閾值。
其中:λ1與 λ2i=1,2,…,N-m+1 的值通過試驗(yàn)確定,這里取值為λ1=4 和λ2=6,u,δ 為信號(hào)的均值與標(biāo)準(zhǔn)差。比較的SampEn值與Threl 的值:如果SampEn≤Threl,信號(hào)為語音信號(hào);如果SampEn>Threl,信號(hào)為輻射噪聲。從而實(shí)現(xiàn)對(duì)每一幀信號(hào)的初始判別。
(3)鄰域平滑處理。根據(jù)同一種信號(hào)通道持續(xù)一定時(shí)間的規(guī)律,以當(dāng)前信號(hào)幀及其前兩幀信號(hào)作為當(dāng)前幀類別判斷的的鄰域,對(duì)信號(hào)進(jìn)行平滑處理。當(dāng)鄰域幀信號(hào)中有兩幀以上的信號(hào)的類別為環(huán)境噪聲信號(hào),則當(dāng)前幀信號(hào)最終類別判定為環(huán)境噪聲;反之亦然。在平滑階段以鄰域幀信號(hào)的初始判別類型為判據(jù)。
實(shí)驗(yàn)使用實(shí)測數(shù)據(jù)對(duì)提出的算法進(jìn)行驗(yàn)證,其中不同類別的船舶工作環(huán)境噪聲數(shù)據(jù)400min,不同的說話人和錄制環(huán)境的各種語音數(shù)據(jù)共400min,數(shù)據(jù)采樣率均調(diào)整為11025Hz。
將實(shí)測信號(hào)數(shù)據(jù)分成三組以驗(yàn)證算法對(duì)船舶背景噪聲語音信號(hào)段檢測的準(zhǔn)確性,第一組全部使用不時(shí)間和不同工況船舶背景噪聲,主要驗(yàn)證在長時(shí)間持續(xù)的背景噪聲中無語音信號(hào)時(shí)算法的效果;第二組實(shí)驗(yàn)將語音信號(hào)數(shù)據(jù)與背景噪聲數(shù)據(jù)各取相同時(shí)間長度連接成一個(gè)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),其中語音數(shù)據(jù)與噪聲數(shù)據(jù)使用不同的數(shù)據(jù)文件,主要驗(yàn)證算法對(duì)于語音段的起始位置檢測是否準(zhǔn)確;第三組實(shí)驗(yàn)中語音信號(hào)與背景噪聲信號(hào)隨機(jī)出現(xiàn),且每種信號(hào)的時(shí)長從1s 到30s 隨機(jī)選擇,驗(yàn)證算法對(duì)語音信號(hào)段的檢測準(zhǔn)確性。實(shí)驗(yàn)部分結(jié)果,如圖4 所示。圖中四個(gè)子圖從下到上分別為(a)為時(shí)域幅值;(b)為計(jì)算得到的歸一化樣本熵分布,其中三條橫線為進(jìn)行平滑所需要的閾值;(c)為未進(jìn)行平滑處理的初始判別結(jié)果,其中坐標(biāo)縱軸中1 代表識(shí)別結(jié)果為環(huán)境噪聲,2代表環(huán)境噪聲待定,3 為語音信號(hào)待定,4 代表判定結(jié)果為語音;(d)為經(jīng)平滑后的最終判斷結(jié)果。從圖中可以看出,三組實(shí)驗(yàn)中算法都取得了準(zhǔn)確的判別結(jié)果。
圖4 語音信號(hào)與環(huán)境噪聲判別算法處理結(jié)果Fig.4 Results of the Discrimination of Speech and Radiated Noise
進(jìn)一步通過式(10)來衡量算法判別的精度[15],即:
所有信號(hào)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)后得到的判斷精度結(jié)果,可以看出,基于信號(hào)樣本熵的語音信號(hào)與環(huán)境噪聲信號(hào)判別算法的檢測精度較好,如表1 所示。對(duì)實(shí)驗(yàn)結(jié)果分析后得出,語音信號(hào)的檢測精度相對(duì)偏低,其主要原因是信號(hào)中的靜音幀,其頻譜特征與背景噪聲相近,但其不影響后續(xù)語音增強(qiáng)。
表1 信號(hào)判別精度實(shí)驗(yàn)結(jié)果Tab.1 Signal Discrimination Accuracy Experiment Result
通過分析語音信號(hào)與船舶工作環(huán)境噪聲信號(hào)的不同產(chǎn)生機(jī)理,利用兩種信號(hào)在時(shí)間序列中出現(xiàn)新信息量的差異,在比較信號(hào)相鄰短時(shí)幀頻譜相似性基礎(chǔ)上,通過歸一化樣本熵實(shí)現(xiàn)信號(hào)的判別。文中僅使用樣本熵一個(gè)特征,避免了多特征之間的相關(guān)性帶來的不確定因素以及特征值的計(jì)算帶來的計(jì)算量較大等不足,實(shí)測數(shù)據(jù)實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的準(zhǔn)確性。