国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MFCC的混響效果識別研究

2017-07-05 12:59馬賽謝茜劉嘉胤
關(guān)鍵詞:混響時間混響元音

馬賽,謝茜,劉嘉胤

(1.中國傳媒大學(xué) 媒介音視頻教育部重點實驗室,北京 100024;2.山東省煙草公司信息中心,濟南 250101)

基于MFCC的混響效果識別研究

馬賽1,謝茜1,劉嘉胤2

(1.中國傳媒大學(xué) 媒介音視頻教育部重點實驗室,北京 100024;2.山東省煙草公司信息中心,濟南 250101)

直達聲/混響聲能量比(Direct-to-Reverberant Ratio,DRR)和混響時間(Reverberation Time,RT)是判斷混響效果的兩個重要參數(shù)。針對合成有聲語音及元音EH,在給定的混響時間下,提取不同直達聲/混響聲能量比的混響語音信號的MFCC(Me-Frequency Cepstral Coefficients)特征,分別對其進行混響效果識別的10折交叉驗證。利用高斯混合模型對訓(xùn)練集進行聚類分析,得到其概率分布函數(shù),通過馬氏距離(Mahalanobis Distance,MD)計算測試集的每個樣本的混響效果概率,進而判斷其混響效果等級。實驗結(jié)果證明,合成有聲語音基于MFCC的混響效果識別準(zhǔn)確率可以達到90%以上,元音EH可以達到80%以上。

混響;MFCC;交叉驗證;高斯混合模型

1 引言

語音通過聲道產(chǎn)生,聲道可以看作改變聲帶振動頻譜形狀的濾波器。當(dāng)聲帶處于發(fā)聲狀態(tài)時生成有聲語音,發(fā)聲狀態(tài)指聲帶繃緊并周期振動,聲道濾波器被周期脈沖激勵,產(chǎn)生的語音波形具有準(zhǔn)周期性;當(dāng)聲帶處于無聲狀態(tài)時生成無聲語音,無聲狀態(tài)指聲帶不振動,聲道濾波器被噪聲源激勵,產(chǎn)生的語音波形無規(guī)則[1][2]。語音信號生成的源-濾波器模型(Source-Filter Model,SFM)[3]如圖1所示,聲帶的兩種狀態(tài)通過切換開關(guān)實現(xiàn),聲道通過時不變?yōu)V波器模擬,濾波器參數(shù)可以對語音信號進行線性預(yù)測分析獲得[4]。本文只關(guān)注有聲語音信號。

混響存在于任何封閉環(huán)境中。當(dāng)語音信號在房間等封閉環(huán)境中傳播時,房間的聲學(xué)屬性使語音信號產(chǎn)生失真,這些屬性包括房間的尺寸,聲音的反射路徑和墻壁的吸聲系數(shù)等,這種失真的語音信號稱之為混響語音信號。混響不僅能夠影響語音信號的質(zhì)量和清晰度[5][6],其作用還涉及到很多其他的實際應(yīng)用方面,比如降低自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)的性能[7],干擾學(xué)生的課堂學(xué)習(xí)質(zhì)量[8],妨礙耳蝸佩戴者的聽覺感知[9]等等。因此,混響效果的判斷對于語音應(yīng)用的各個領(lǐng)域具有重要意義。

聲像源模型(Image-Source Model,ISM)[10]是一種常用的混響語音信號處理模型,很多聲學(xué)相關(guān)領(lǐng)域的研究工作都是基于ISM進行的,例如盲源分離[11],信道識別與均衡[12],聲源定位與追蹤[13],語音增強[14],語音識別[15]。通過ISM生成的房間脈沖響應(yīng)(Room Impulse Response,RIR)函數(shù)代表聲源與麥克風(fēng)之間的系統(tǒng)傳遞函數(shù),許多混響參數(shù)可以通過RIR預(yù)測獲得,其中直達聲/混響聲能量比(Direct-to-Reverberant energy Ratio,DRR)[16]和混響時間(Reverberation Time,RT)[17]是房間混響特性的兩個重要指標(biāo)。DRR是聲源直接到達麥克風(fēng)的聲音能量與經(jīng)各種反射到達的聲音能量之比,是對聲源距離感知的主要線索;RT指聲源停止發(fā)聲以后聲壓級衰減60dB所用的時間,是聲學(xué)環(huán)境的基本屬性。

本文提出了一種基于MFCC特征的混響效果識別算法。在給定的RT下,以DRR代表不同混響效果等級,提取混響語音信號的MFCC特征,以高斯混合模型對其進行聚類分析,通過10折交叉驗證檢驗基于MFCC的混響效果識別的有效性。本文結(jié)構(gòu)如下:第二部分介紹合成有聲語音和元音EH的混響語料庫;第三部分介紹混響效果識別算法結(jié)構(gòu);第四部分介紹混響效果識別實驗結(jié)果;第五部分為本文結(jié)論。

圖1 語音信號源-濾波器模型

2 混響語料庫

2.1 房間脈沖響應(yīng)函數(shù)

通過ISM生成不同的房間脈沖響應(yīng)函數(shù)。混響時間是房間尺寸的近似函數(shù)(常系數(shù)反射時),選擇三組不同的混響時間,如RT=300ms,RT=600ms,RT=1000ms,改變聲源與麥克風(fēng)距離(Source-Microphone Distance,SMD)使得DRR的范圍從15dB到0dB(3dB步階),如表1所示。模擬房間尺寸為長×寬×高=9×4×6m3,共得到18個房間脈沖響應(yīng)函數(shù)。

2.2 合成有聲語音信號

利用線性預(yù)測模型分析一段純凈語音信號,為了獲得更好的諧波結(jié)構(gòu)以描繪聲道的諧振特性,選擇基頻在100Hz左右的短時語音信號。為了不失一般性,選擇3種線性預(yù)測分析階數(shù),分別為=12,20,28。通過3組線性預(yù)測分析系數(shù)構(gòu)成的全極點濾波器模擬聲道響應(yīng)函數(shù),即獲得3個聲道模型。根據(jù)人類基頻范圍[18],我們選擇基頻為150到350Hz(50Hz步階,共5個基頻)對應(yīng)周期的脈沖序列作為有聲語音激勵信號作用于聲道模型,合成語音信號的持續(xù)時間控制在5秒,期間沒有停頓或者靜音,一共可以獲得3×5=15個合成有聲語音信號。全極點濾波器是零狀態(tài)濾波器,為了排除濾波器起始與終止響應(yīng)的影響,我們從50ms開始采集,在4.55s停止采集,即最后所得到的合成語音信號長度控制在4.5秒。

表1 SMD及相應(yīng)DRR

2.3 合成元音EH

因為女性元音EH的頻譜結(jié)構(gòu)與所獲得的聲道模型較為接近,選擇其作為含有語義的研究實例,通過共振峰級聯(lián)濾波器的方法進行合成,其中女性元音EH的參數(shù)如表2所示。

表2 女性元音EH參數(shù)

從共振峰的頻率到帶寬有三套經(jīng)驗公式[19][20],本文選擇對前三個共振峰頻率最準(zhǔn)確的一組

B1=15*(500/F1)2+20*(F1/500)1/2
+5*(F1/500)2

(1)

B2=22+16*(F1/500)2
+12000/(F3-F2)

(2)

B3=25*(F1/500)2+4*(F2/500)2
+10*F3/(Fa-F3)

(3)

其中,女性Fa=3700。

通過純凈語音信號與房間脈沖響應(yīng)函數(shù)的卷積獲得混響語音信號,對于有聲語音信號,共有15*18=270個混響語音;對于女性元音EH,共有18個混響語音。使用前3s的有聲混響語音,混響元音EH的長度控制在2.5~3s之間。至此,本文所需混響語料庫構(gòu)造完成。

3 混響效果識別算法設(shè)計

在給定的混響時間下,根據(jù)不同的DRR為混響語音信號添加混響效果等級標(biāo)簽,分幀(幀長25ms)提取混響語音信號的MFCC(12階)特征,與對應(yīng)標(biāo)簽共同構(gòu)成數(shù)據(jù)集。將該數(shù)據(jù)分為訓(xùn)練集(training dataset)與測試集(test dataset),利用高斯混合模型對訓(xùn)練集進行訓(xùn)練,得到訓(xùn)練集在不同混響效果等級下的概率分布函數(shù)。計算測試集與不同混響效果等級概率分布函數(shù)的距離得到測試集屬于某混響效果等級的最大似然概率,對測試集數(shù)據(jù)所屬混響效果等級進行判斷,通過與測試集混響效果等級標(biāo)簽的對比,得到混響效果識別的準(zhǔn)確率,算法流程如圖2所示。

圖2 混響效果識別算法流程

假設(shè)有種混響效果等級,分別對其用模型數(shù)為M=(M=16)的高斯混合模型[21]進行訓(xùn)練,得到第n種等級的高斯混合模型中每個聚類的概率密度函數(shù)為

gn(xn|μni,∑ni),λn={ωni,μni,∑ni},i∈M

(4)

馬氏距離(MahalanobisDistance)[22]用來測量一個離散點與一個分布的距離,測試集為Y={y1,…,yl},其中第l個測試樣本到第n種高斯混合分布中第i個聚類的馬氏距離為

(5)

則測試樣本屬于該聚類的概率定義為

Plni=e-MDlni

(6)

測試樣本yl屬于第n種高斯混合分布的概率即為屬于各聚類概率的加權(quán)和

(7)

該測試樣本的混響效果等級判斷為

Levell=argmax{Pl1,…,Pln}

(8)

由此完成對所有測試樣本所屬混響效果等級的識別,并與測試集標(biāo)簽作對比,得到識別準(zhǔn)確率。

交叉驗證一種模型驗證方法[23],將對統(tǒng)計過程的判斷引用到獨立數(shù)據(jù)集。本實驗采取10折交叉驗證的方法,將混響語音特征矢量隨機劃分成10個大小相等的子樣本,其中9個樣本作為訓(xùn)練集,1個樣本作為測試集。交叉驗證過程重復(fù)10次,保證每個樣本都遍歷一次測試集,將10次驗證結(jié)果取平均值,作為混響效果識別的最終結(jié)果。

4 混響效果識別實驗結(jié)果

實驗環(huán)境:MATLAB2011b,DellVostro220s臺式計算機,2.6GHzPentium(R)Dual-CoreE5300處理器,2GB內(nèi)存。迭代時間定義為完成一次10折交叉驗證的運算時間。

4.1 有聲語音信號混響效果識別

將合成的有聲混響語音信號根據(jù)混響時間分為三組:RT=300ms,RT=600ms,RT=1000,為了獲得更好的統(tǒng)計效果,我們將10折交叉驗證實驗重復(fù)100次。以MFCC為特征的混響效果識別準(zhǔn)確率和迭代時間的100次交叉驗證結(jié)果如表3所示。

表3 有聲語音MFCC混響效果識別準(zhǔn)確率與迭代時間

4.2 元音EH混響效果識別

同樣按照混響時間分為三組,分別為RT=300ms,RT=600ms,RT=1000ms。與有聲語音的驗證過程相同,分別將10折交叉驗證重復(fù)100次以獲得更好的統(tǒng)計結(jié)果。將混響效果識別的100次交叉驗證的準(zhǔn)確率作為參量,可以得到識別準(zhǔn)確率的概率分布如圖3所示。

可以明顯看出其服從自由度是99的t分布,置信度是90%的置信區(qū)間與100次交叉驗證的平均迭代時間如表4所示。

圖3 MFCC混響效果識別準(zhǔn)確率概率分布

表4 元音EH混響效果識別準(zhǔn)確率與迭代時間

5 結(jié)論

MFCC可以有效的用于混響效果識別,對合成有聲語音其識別準(zhǔn)確率在90%以上,對合成元音EH其識別準(zhǔn)確率在80%以上,本文算法可以與語音信號去混響以及語音質(zhì)量/清晰度客觀評價等方面的研究進一步結(jié)合。但是,對于有聲語音信號,當(dāng)基頻提高至350Hz時,MFCC的識別準(zhǔn)確率有一個明顯衰減,其對于高基頻的語音信號表現(xiàn)不夠穩(wěn)定。另外,由實驗結(jié)果可以看出MFCC的識別迭代時間較高。如何在保證識別準(zhǔn)確率的情況下獲得更穩(wěn)定的表現(xiàn),以及降低識別過程的運算成本是下一步研究工作的重點。

[1]Dimitar D D.Acoustic Model and Evaluation of Pathological Voice Production [C].3rd Conference on Speech Communication and Technology EUROSPEECH,Berlin,Germany,1993:1969-1972.

[2]Abberton E R M,Howard D M,F(xiàn)ourcin A J.Laryngographic assessment of normal voice:A tutorial [J].Clinical Linguistics & Phonetics,1989,3(3):281-296.

[3]Fant G.The source filter concept in voice production [J].STL-QPSR,KTH,1981,22(1):21-37.

[4]Vaidyanathan P.The theory of linear prediction [J].Synthesis Lectures on Signal Processing,2007,2(1):1-184.

[5]Nábělek A K,Letowski T R,Tucker F M.Reverberant overlap and self‐masking in consonant identification[J].Journal of the Acoustical Society of America,1989,86(4):1259-65.

[6]Kokkinakis K,Loizou P C.The impact of reverberant self-masking and overlap-masking effects on speech intelligibility by cochlear implant listeners(L)[J].Journal of the Acoustical Society of America,2011,130(3):1099-1102.

[7]Kinoshita K,Delcroix M,Yoshioka T,et al.The reverb challenge:A common evaluation framework for dereverberation and recognition of reverberant speech[C].Applications of Signal Processing to Audio and Acoustics,IEEE,2014:1-4.

[8]Crandell C C,Smaldino J J.Classroom Acoustics for Children With Normal Hearing and With Hearing Impairment[J].Lang Speech Hear Serv Sch,2000,31(31):362-370.

[9]Hazrati O,Loizou P C.The combined effects of reverberation and noise on speech intelligibility by cochlear implant listeners[J].International Journal of Audiology,2012,51(6):437-443.

[10]Allen J B,Berkley D A.Image method for efficiently simulating small‐room acoustics [J].Journal of the Acoustical Society of America,1979,65(4):943-950.

[11]Ikram M Z,Morgan D R.A multiresolution approach to blind separation of speech signals in a reverberant environment[C].2001 IEEE International Conference on Acoustics,Speech,and Signal Processing,2001,5:2757-2760.

[12]Radlovic B D,Williamson R C,Kennedy R A.Equalization in an acoustic reverberant environment:robustness results [J].IEEE Transactions on Speech & Audio Processing,2000,8(3):311-319.

[13]Lehmann E A,Johansson A M.Particle Filter with Integrated Voice Activity Detection for Acoustic Source Tracking [J].EURASIP Journal on Advances in Signal Processing,2007,Article ID 50870,11pages.

[14]Aarabi P,Shi G.Phase-based dual-microphone robust speech enhancement [J].IEEE Transactions on Systems Man & Cybernetics-Part B:Cybernetics,2004,34(4):1763-1773.

[15]Kalle J.Palom?ki,Brown G J,et al.A binaural processor for missing data speech recognition in the presence of noise and small-room reverberation[J].Speech Communication,2004,43(4):361-378.

[16]Jeub M,Nelke C,Beaugeant C,et al.Blind estimation of the coherent-to-diffuse energy ratio from noisy speech signals[C].2011 European Signal Processing Conference,IEEE,2011:1347-1351.

[17]Lehmann E A,Johansson A M,Nordholm S.Reverberation-Time Prediction Method for Room Impulse Responses Simulated with the Image-Source Model[C].2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2007:159-162.

[18]Peterson G E,Barney H L.Control Methods Used in a Study of the Vowels [J].Journal of the Acoustical Society of America,1952,24(1):175-184.

[19]Fant G.Vocal Tract Wall Effects,Losses,and Resonance Bandwidths [J].STL-QPSR,1972,13(2-3):28-52.

[20]Fant G.the Vocal Tract in Your Pocket Calculator [J].STL-QPSR,1985,1:001-019.

[21]Dr D R.Gaussian Mixture Models [J].Encyclopedia of Biometrics,2008,03(4):93-105.

[22]Xiang S,Nie F,Zhang C.Learning a Mahalanobis distance metric for data clustering and classification [J].Pattern Recognition,2008,41(12):3600-3612.

[23]Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection[C].IJCAI’95 Proceedings of the 14th international joint conference on Artificial intelligence,1995,2:1137-1143.

(責(zé)任編輯:王謙)

Reverberation Level Recognition Based on MFCC

MA Sai1,XIE Xi1,LIU Jia-yin2

(1.Key Laboratory of Media Audio & Video,Ministry of Education,Communication University of China,Beijing 100024,China;2.Information Center of Shandong Tobacco Company,Jinan 250101,China)

Direct-to-Reverberant energy Ratio(DRR)and Reverberation Time(RT)are the primary parameters for reverberation strength judgement.Given some selected RT,cluster reverberant synthesized voiced speech and vowel EH at different DRR based on MFCC,and use 10-fold cross validation for reverberation level recognition,respectively.Train the training dataset by Gaussian Mixture Model to obtain the probability distribution,and calculate the test dataset probability via Mahalanobis Distance in order to achieve the recognition purpose.Experiments show that reverberant voiced speech recognition accuracy is higher than 90%,and reverberant vowel EH is higher than 80%.

reverberation;MFCC;cross validation;gaussian mixture model

2017-04-13

馬賽(1980-),男(漢族),山東壽光人,中國傳媒大學(xué)助理研究員.E-mail:saima@cuc.edu.cn

TN912.3

A

1673-4793(2017)04-0018-06

猜你喜歡
混響時間混響元音
元音字母和元音字母組合的拼讀規(guī)則
非完全深海聲道環(huán)境下混響強度建模與分析
元音字母和元音字母組合的拼讀規(guī)則
淺談在混音中混響插件的組合使用
海洋混響特性分析與建模仿真研究?
淺談音響效果器的應(yīng)用
淺談混響器在后期縮混中的應(yīng)用
Playing with “ar”
演播室聲學(xué)設(shè)計中需注意的問題
小學(xué)生時代·大嘴英語(2006年9期)2006-10-06
张家界市| 万年县| 本溪市| 武冈市| 金阳县| 饶阳县| 北京市| 沅陵县| 长治市| 淮滨县| 松潘县| 饶阳县| 绥滨县| 红安县| 正宁县| 罗江县| 屯门区| 秦皇岛市| 内江市| 潮安县| 田林县| 三明市| 信阳市| 涞源县| 连南| 沙洋县| 临漳县| 桑植县| 汉沽区| 大冶市| 广西| 汝州市| 洞头县| 施秉县| 应用必备| 含山县| 南投市| 屏东市| 堆龙德庆县| 游戏| 呼伦贝尔市|