国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)和多特征融合的語(yǔ)音端點(diǎn)檢測(cè)

2021-08-03 08:26陳愛(ài)華張石清
關(guān)鍵詞:端點(diǎn)濾波器濾波

陳愛(ài)華,張石清

(臺(tái)州學(xué)院 電子與信息工程學(xué)院,浙江 臺(tái)州 318000)

0 引言

語(yǔ)音端點(diǎn)檢測(cè)(Voice Activity Detection)是語(yǔ)音識(shí)別領(lǐng)域一個(gè)重要內(nèi)容,是語(yǔ)音信號(hào)處理的第一步,它主要是從音頻文件中確定語(yǔ)音片段的起止點(diǎn),進(jìn)而分辨出語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)區(qū)域[1]。研究表明,即使是在理想條件下,語(yǔ)音識(shí)別技術(shù)的錯(cuò)誤大部分都是由語(yǔ)音端點(diǎn)檢測(cè)不準(zhǔn)確造成的[2],因此語(yǔ)音端點(diǎn)檢測(cè)在語(yǔ)音信號(hào)處理中具有重要的意義。

當(dāng)前,語(yǔ)音端點(diǎn)檢測(cè)的方法很多,早期算法主要是基于時(shí)域特征進(jìn)行檢測(cè)[3],如最早的語(yǔ)音端點(diǎn)檢測(cè)是以語(yǔ)音的短時(shí)能量和過(guò)零率特征來(lái)實(shí)現(xiàn)的[4],后來(lái)人們又將語(yǔ)音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,并將熵特征引入到語(yǔ)音端點(diǎn)檢測(cè)中[5],提出了基于頻帶方差的檢測(cè)[6]、基于共振諧波的檢測(cè)[7]、基于倒譜域特征的檢測(cè)[8]等等。隨著人工智能的不斷發(fā)展,新的算法不斷涌現(xiàn),小波分析、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等技術(shù)也應(yīng)用到了語(yǔ)音端點(diǎn)檢測(cè)中[9-11],取得了較好的效果。但在實(shí)際語(yǔ)言環(huán)境中,由于語(yǔ)音背景環(huán)境復(fù)雜,單一的語(yǔ)音端點(diǎn)檢測(cè)算法難以適應(yīng)各種環(huán)境,算法的魯棒性和準(zhǔn)確性不高。近年來(lái),新發(fā)展起來(lái)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)通過(guò)采用多層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行層次化特征學(xué)習(xí),表現(xiàn)出強(qiáng)大的非線性學(xué)習(xí)能力和預(yù)測(cè)能力[12],特別是在語(yǔ)音信號(hào)識(shí)別和增強(qiáng)方面表現(xiàn)出了優(yōu)越的性能[13-15][16]211。音頻文件的耳蝸特征具有較好的語(yǔ)音識(shí)別能力和噪聲魯棒性[17]168;短時(shí)特征可以有效地區(qū)分音頻信號(hào)的清音段和濁音段[18]755;長(zhǎng)時(shí)變化特征在非平穩(wěn)噪聲的環(huán)境下,具有更好的分辨率和更高的檢測(cè)率[19]。本文融合這三種語(yǔ)音信號(hào)特征,作為DNN的輸入計(jì)算信號(hào)屬于語(yǔ)音/非語(yǔ)音的概率,然后根據(jù)閾值判定語(yǔ)音端點(diǎn)。仿真實(shí)驗(yàn)結(jié)果表明,該算法可以在復(fù)雜語(yǔ)言環(huán)境下實(shí)現(xiàn)語(yǔ)音端點(diǎn)檢測(cè),適應(yīng)能力強(qiáng),具有較高的準(zhǔn)確性和魯棒性。

1 語(yǔ)音信號(hào)特征提取

1.1 Gammatone濾波

Gammatone(GT)濾波器是一種耳蝸聽(tīng)覺(jué)濾波器,濾波器低頻段信息豐富,高頻段信息簡(jiǎn)單,與人耳聽(tīng)覺(jué)特性較符合,中心頻率的分布和每個(gè)頻率子帶的特性都與人耳基底膜的特性對(duì)應(yīng),可用于音頻信號(hào)的分解及特征提取[17]169。GT濾波器組的表達(dá)式是從沖激響應(yīng)的測(cè)量中得出的,具有完整的幅度和相位信息。它的脈沖響應(yīng)公式如下所示:

其中,c為調(diào)節(jié)比例的常數(shù);n為濾波器的階數(shù),通常標(biāo)定為4.0;b為衰減速率,值越大衰減越快,脈沖反應(yīng)時(shí)間就越少;f0為濾波器組的中間頻率,f0取值為0時(shí)的GT濾波器稱為基帶GT;φ為濾波器相位。

1.2 Gabor濾波

Gabor變換是加窗傅里葉變換的一種,它可以抽取空間局部頻域特征,具有較好的頻率選擇和方向選擇的性質(zhì)[18]756。Gabor濾波器是一個(gè)二維濾波器,它的表達(dá)式如下所示:

其中,實(shí)部部分的表達(dá)式為

虛部部分的表達(dá)式為

其中,波長(zhǎng)(λ)以像素為單位,通常不會(huì)小于2;方向(θ)用于指定Gabor函數(shù)并行條紋的方向,取值范圍為0到360度;相位偏移(φ)取值范圍為±180°;長(zhǎng)寬比(γ)為空間縱橫比例,用于表示Gabor函數(shù)形狀的橢圓率,當(dāng)γ=1時(shí)為正圓形。

語(yǔ)音信號(hào)是一維信號(hào),本文首先對(duì)語(yǔ)音信號(hào)進(jìn)行方向場(chǎng)估計(jì)和脊線頻率估計(jì),生成一個(gè)帶有特定方向和頻率分布的正弦平面波。Gabor濾波器可以很好地增強(qiáng)代表諧波成分的脊線附近區(qū)域,由此可以獲取語(yǔ)音樣本信號(hào)的短時(shí)特征。

1.3 LTSV濾波

LTSV(Long-Term Signal Variability)濾波使用一個(gè)較長(zhǎng)時(shí)的語(yǔ)音分析窗口來(lái)分析語(yǔ)音信號(hào)和噪聲信號(hào)的非平穩(wěn)性變化特點(diǎn),因此在非平穩(wěn)噪聲的環(huán)境下,與短時(shí)特征相比,算法具有更好的分辨力和更高的準(zhǔn)確率[20]。算法首先對(duì)音頻文件進(jìn)行短時(shí)處理,然后使用一個(gè)長(zhǎng)時(shí)分析窗口利用熵的測(cè)量進(jìn)一步處理。算法的基本原理如下:首先,對(duì)語(yǔ)音信號(hào)進(jìn)行分幀加窗,采用短時(shí)傅里葉變換(Sort-Time Fourier Transform,STFT),將信號(hào)由時(shí)域變換到頻域,計(jì)算語(yǔ)音的短時(shí)譜為SX(n,ωk),具體公式如下所示:

其中,X(n,ωk)表示第n幀語(yǔ)音在頻率為ωk時(shí)的STFT系數(shù),Nω為語(yǔ)音幀長(zhǎng),Nsh表示幀偏移量。接著計(jì)算每個(gè)頻率點(diǎn)的熵,公式如下所示:

熵的計(jì)算范圍是包括當(dāng)前幀在內(nèi)的前R幀對(duì)應(yīng)頻率點(diǎn)的短時(shí)譜值,實(shí)現(xiàn)了語(yǔ)音的長(zhǎng)時(shí)分析。計(jì)算K個(gè)頻率點(diǎn)的熵的方差,就可以獲得長(zhǎng)時(shí)濾波的特征值Lx(m)。

2 基于深度神經(jīng)網(wǎng)絡(luò)和多特征融合的算法框架

2.1 深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)是在淺層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來(lái)的,它克服了淺層神經(jīng)網(wǎng)絡(luò)表示能力有限、易產(chǎn)生局部最優(yōu)等問(wèn)題,具有較好的非線性模擬性能和泛化能力。通常情況下,DNN的低層網(wǎng)絡(luò)主要用于提取高層特征,而高層網(wǎng)絡(luò)用于分類問(wèn)題。本文利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性學(xué)習(xí)能力和預(yù)測(cè)能力,解決傳統(tǒng)語(yǔ)音端點(diǎn)檢測(cè)對(duì)噪聲估計(jì)難、端點(diǎn)檢測(cè)準(zhǔn)確率低的問(wèn)題。DNN由輸入層、多個(gè)全連接的隱含層和輸出層構(gòu)成。采用DNN進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)時(shí),輸入層用于接收語(yǔ)音的特征信號(hào),隱含層對(duì)這些特征信號(hào)進(jìn)行處理分析、計(jì)算,建立特征與分類間的關(guān)系,輸出層給出DNN分類的后驗(yàn)概率。

其中,p(qi)是qi狀態(tài)的先驗(yàn)概率,可以通過(guò)模型訓(xùn)練得到[16]212。

本文以多特征融合的語(yǔ)音信號(hào)作為輸入信號(hào),通過(guò)事先訓(xùn)練好的DNN網(wǎng)絡(luò)模型,計(jì)算每一幀語(yǔ)音信號(hào)屬于語(yǔ)音或者非語(yǔ)音的概率。具體來(lái)說(shuō),采用典型的音頻數(shù)據(jù)集DARPA RATS[21]中的訓(xùn)練集用于DNN模型的訓(xùn)練,從而得到一個(gè)訓(xùn)練好的DNN模型。對(duì)于新的測(cè)試樣本,將使用該訓(xùn)練好的DNN模型進(jìn)行測(cè)試。

2.2 算法整體框架

基于深度神經(jīng)網(wǎng)絡(luò)和多特征融合的語(yǔ)音端點(diǎn)檢測(cè)算法的整體流程如圖1所示。首先加載音頻文件,然后采樣生成語(yǔ)音源文件;進(jìn)而采用GT濾波算法提取音頻源文件的耳蝸特征,采用Gabor濾波算法提取短時(shí)特征,采用LTSV濾波算法提取長(zhǎng)時(shí)變化特征。由于不同算法得到的語(yǔ)音信號(hào)特征值的范圍不同,因此,首先將這三種特征信號(hào)進(jìn)行歸一化處理,融合后作為深度神經(jīng)網(wǎng)絡(luò)的輸入信號(hào)。通過(guò)網(wǎng)絡(luò)模型計(jì)算每一幀語(yǔ)音信號(hào)屬于語(yǔ)音/非語(yǔ)音的概率,由于網(wǎng)絡(luò)輸出的語(yǔ)音概率準(zhǔn)確率較高,文中采用簡(jiǎn)單的閾值進(jìn)行判斷,若計(jì)算得到的語(yǔ)音概率如果大于0.5,則判斷為語(yǔ)音信號(hào),取值為1,否則取值為0。最后通過(guò)一定窗長(zhǎng)的中值濾波算法去掉孤立的跳變點(diǎn),完成語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)。

圖1 算法流程圖

3 仿真結(jié)果及分析

3.1 理想環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)

為了驗(yàn)證算法的有效性,首先對(duì)理想環(huán)境下采集的音頻文件進(jìn)行仿真實(shí)驗(yàn),檢測(cè)處理結(jié)果如圖2所示。圖2中用到的音頻文件是在安靜的實(shí)驗(yàn)室環(huán)境下采集得到,其中包含三段語(yǔ)音信號(hào)。圖2(a)是采用GT濾波處理后的數(shù)值顏色化輸出結(jié)果,獲取的是語(yǔ)音信號(hào)的耳蝸濾波后的特征;圖2(b)是采用Gabor濾波處理后的數(shù)值顏色化輸出結(jié)果,獲取的是語(yǔ)音樣本信號(hào)的短時(shí)特征;圖2(c)是采用LTSV濾波后的數(shù)值顏色化輸出結(jié)果,獲取的是語(yǔ)音信號(hào)的長(zhǎng)時(shí)變化特征。從這三個(gè)仿真結(jié)果可以看出:(1)音頻文件經(jīng)過(guò)這些算法處理后,得到的特征數(shù)據(jù)的語(yǔ)音區(qū)域明顯區(qū)別于非語(yǔ)音區(qū)域,有利于后面的檢測(cè);(2)三種特征檢測(cè)處理后的數(shù)據(jù)值范圍區(qū)別較大,因此在進(jìn)行特征融合前,必須對(duì)數(shù)據(jù)進(jìn)行歸一化處理后才可以送到DNN網(wǎng)絡(luò)的輸入端。圖2(d)是采用DNN和多特征融合的語(yǔ)音端點(diǎn)檢測(cè)出的三段語(yǔ)音信號(hào)。

圖2 理想語(yǔ)音信號(hào)檢測(cè)處理結(jié)果

為了便于觀察每種濾波算法的輸出結(jié)果與語(yǔ)音端點(diǎn)檢測(cè)結(jié)果的差異,將最后語(yǔ)音端點(diǎn)檢測(cè)結(jié)果疊加到濾波處理后的結(jié)果上,用方框表示。仿真結(jié)果如圖3所示,為了清晰顯示語(yǔ)音端點(diǎn)的位置,圖3(a)和圖3(b)中,語(yǔ)音區(qū)域設(shè)置值為10,非語(yǔ)音區(qū)域設(shè)置值為0,下面的仿真實(shí)驗(yàn)也是如此設(shè)置。

圖3 理想環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)結(jié)果

3.2 噪聲環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)

為了驗(yàn)證文中提出的語(yǔ)音端點(diǎn)檢測(cè)算法的魯棒性,分別在三種自然背景噪聲的干擾下采集三個(gè)音頻文件來(lái)進(jìn)行仿真實(shí)驗(yàn)。

第一個(gè)音頻文件是在開(kāi)著電風(fēng)扇的實(shí)驗(yàn)室環(huán)境下采集得到的,其中包含三段語(yǔ)音信號(hào),語(yǔ)音端點(diǎn)檢測(cè)結(jié)果如圖4所示。三段語(yǔ)音信號(hào)均被檢測(cè)到,但是由于電風(fēng)扇產(chǎn)生的噪音信號(hào)的干擾,檢測(cè)到的語(yǔ)音信號(hào)的起止點(diǎn)略有偏差。

圖4 開(kāi)著電風(fēng)扇的實(shí)驗(yàn)室環(huán)境下語(yǔ)音端點(diǎn)檢測(cè)結(jié)果

第二個(gè)音頻文件是在公園里采集得到,語(yǔ)音端點(diǎn)檢測(cè)結(jié)果如圖5所示。前面一段沒(méi)有人講話,但是有自然環(huán)境下的背景噪音;后半部分有人一直在講話,由于說(shuō)話人換氣等因素的影響,造成說(shuō)話聲音有間隔,最后被識(shí)別為幾段語(yǔ)音。

圖5 公園環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)結(jié)果

第三個(gè)音頻文件是在建筑工地施工環(huán)境下采集得到的,語(yǔ)音端點(diǎn)檢測(cè)結(jié)果如圖6所示。這段在相對(duì)惡劣語(yǔ)音環(huán)境下的語(yǔ)音信號(hào)與公園采集得到的語(yǔ)音信號(hào)有點(diǎn)相似。前面一段沒(méi)有人講話,只有工地里面的各種噪聲;后面是有人講話的語(yǔ)音信號(hào)。用文中算法雖然檢測(cè)到了語(yǔ)音信號(hào),但是由于受到施工工地榔頭敲打、砸東西等強(qiáng)噪聲的影響,前面的噪聲部分被誤檢出了語(yǔ)音信號(hào)。

圖6 建筑工地施工環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)結(jié)果

根據(jù)前面的仿真結(jié)果可以看到,本文提出的算法可在自然環(huán)境噪音背景下完成語(yǔ)音端點(diǎn)檢測(cè),即使在較為惡劣的環(huán)境下,仍然可以檢測(cè)到語(yǔ)音信號(hào)。結(jié)果說(shuō)明,結(jié)合DNN和多種特征融合的算法在語(yǔ)音端點(diǎn)檢測(cè)方面具有較高的準(zhǔn)確性和魯棒性。

4 結(jié)語(yǔ)

針對(duì)自然語(yǔ)言背景環(huán)境復(fù)雜、當(dāng)前單一語(yǔ)音端點(diǎn)檢測(cè)算法檢測(cè)準(zhǔn)確率較低及魯棒性較差的問(wèn)題,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)和多特征融合的語(yǔ)音端點(diǎn)檢測(cè)算法。該算法針對(duì)語(yǔ)音信號(hào)的特點(diǎn),分別提取了耳蝸特征、短時(shí)特征以及長(zhǎng)時(shí)變化特征,對(duì)語(yǔ)音信號(hào)分析較為全面,使算法具有較強(qiáng)的魯棒性。深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音信號(hào)增強(qiáng)及識(shí)別中取得了較好的效果,我們將以上三種特征融合后作為深度神經(jīng)網(wǎng)絡(luò)的輸入信號(hào),經(jīng)過(guò)處理后得到的語(yǔ)音信號(hào)的概率準(zhǔn)確性較高,進(jìn)一步提高了算法端點(diǎn)檢測(cè)的準(zhǔn)確性。但當(dāng)前論文研究主要停留在實(shí)驗(yàn)室環(huán)境下,計(jì)算較為復(fù)雜,后續(xù)工作考慮將算法進(jìn)一步簡(jiǎn)化并應(yīng)用到實(shí)際場(chǎng)景中,以期為自然語(yǔ)言背景下語(yǔ)音端點(diǎn)檢測(cè)技術(shù)的研究提供較高的參考價(jià)值和應(yīng)用價(jià)值。

猜你喜歡
端點(diǎn)濾波器濾波
船岸通信技術(shù)下艦船導(dǎo)航信號(hào)非線性濾波
例談求解“端點(diǎn)取等”不等式恒成立問(wèn)題的方法
不等式求解過(guò)程中端點(diǎn)的確定
從濾波器理解卷積
基于EKF濾波的UWB無(wú)人機(jī)室內(nèi)定位研究
開(kāi)關(guān)電源EMI濾波器的應(yīng)用方法探討
一種微帶交指濾波器的仿真
基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
一種GMPHD濾波改進(jìn)算法及仿真研究
基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
贵定县| 孙吴县| 西青区| 盖州市| 横山县| 江川县| 连江县| 大同市| 墨脱县| 龙井市| 中卫市| 泰顺县| 仁怀市| 林口县| 古丈县| 聂荣县| 河北省| 景谷| 苏尼特右旗| 张掖市| 余干县| 孝昌县| 蒙城县| 太仓市| 太谷县| 巴里| 永仁县| 林芝县| 东安县| 双鸭山市| 白山市| 太白县| 龙南县| 阳曲县| 南雄市| 西城区| 七台河市| 来宾市| 峨眉山市| 伽师县| 改则县|