国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于稀疏組LASSO約束的本征音子說話人自適應(yīng)

2015-01-06 01:08:24屈丹張文林
通信學(xué)報 2015年9期
關(guān)鍵詞:本征數(shù)據(jù)量正則

屈丹,張文林

(信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,河南 鄭州 450000)

1 引言

連續(xù)語音識別系統(tǒng)中訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的不匹配會造成系統(tǒng)性能的急劇下降。聲學(xué)模型自適應(yīng)技術(shù)就是根據(jù)少量的測試數(shù)據(jù)對聲學(xué)模型進行調(diào)整,增加其與測試數(shù)據(jù)的匹配程度,從而提高系統(tǒng)的識別性能。造成訓(xùn)練與測試數(shù)據(jù)不匹配的因素包括說話人、傳輸信道或說話噪聲環(huán)境等,相應(yīng)的自適應(yīng)技術(shù)分別稱為“說話人自適應(yīng)[1]”、“信道自適應(yīng)[2]”或“環(huán)境自適應(yīng)[3]”。說話人自適應(yīng)技術(shù)的方法也可以應(yīng)用于信道自適應(yīng)或環(huán)境自適應(yīng)。說話人自適應(yīng)通常包括特征層自適應(yīng)[4,5]和聲學(xué)模型自適應(yīng),因此,聲學(xué)模型的說話人自適應(yīng)[1]是當(dāng)前語音識別系統(tǒng)一個必不可少的重要組成部分。

聲學(xué)模型的說話人自適應(yīng)就是利用少量的未知說話人語料(自適應(yīng)語料),在最大似然或最大后驗準(zhǔn)則下,將說話人無關(guān)(SI, speaker independent)聲學(xué)模型調(diào)整至說話人相關(guān)(SD, speaker- dependent)聲學(xué)模型,使語音識別系統(tǒng)更具說話人針對性,從而提高系統(tǒng)的識別率。在隱馬爾可夫模型的連續(xù)語音識別系統(tǒng)框架下,主流的說話人自適應(yīng)技術(shù)可分為3大類[1]:基于最大后驗概率、基于變換和基于說話人子空間的自適應(yīng)方法,分別以最大后驗(MAP, maximum a posteriori)自適應(yīng)、最大似然線性回歸(MLLR, maximum likelihood linear regression)及本征音(EV, eigenvoice)方法及其相應(yīng)的拓展算法為代表。2004年,Kenny等[6]通過對SD聲學(xué)模型中各高斯混元均值矢量相對于 SI聲學(xué)模型的變化量進行子空間分析,得到一種新的子空間分析方法。該方法與說話人子空間中的“本征音”類似,因此稱該子空間的基矢量為“本征音子(EP, eigenphone)”,該空間為“音子變化子空間”,但該方法采用“多說話人”聲學(xué)建模技術(shù),只能得到訓(xùn)練集中說話人相關(guān)的聲學(xué)模型,對于測試集中的未知說話人沒有給出其聲學(xué)模型的自適應(yīng)方法。2011年,文獻[7]提出了一種基于本征音子的說話人自適應(yīng)方法,克服了 Kenny等方法的不足,能夠?qū)y試集未知說話人進行自適應(yīng)。但該方法在自適應(yīng)階段需要估計一個高維的擴展本征音子矩陣,故其待估參數(shù)數(shù)量多于傳統(tǒng)說話人自適應(yīng)方法,因此在自適應(yīng)數(shù)據(jù)量充足時,可以得到更好的自適應(yīng)性能。然而,當(dāng)自適應(yīng)數(shù)據(jù)量不足時,即使采用說話人自適應(yīng)訓(xùn)練(SAT, speaker adaptation training)等技術(shù),仍會出現(xiàn)嚴(yán)重的過擬合現(xiàn)象。

正則化方法是目前很多領(lǐng)域的一種非常有效的提高模型參數(shù)穩(wěn)健性的方法,在連續(xù)語音識別系統(tǒng)說話人自適應(yīng)中也逐步應(yīng)用。例如,文獻[8]將l2正則化方法應(yīng)用于 MLLR自適應(yīng)方法的變換矩陣估計,得到一種正則化的 MLLR說話人自適應(yīng)方法,并在單句話的無監(jiān)督說話人自適應(yīng)中取得了良好的效果;文獻[9,10]提出稀疏最大后驗(SMAP,sparse maximum a posteriori)自適應(yīng)方法,該方法可以在減少模型存儲量的同時提高MAP自適應(yīng)的效果,隨后文獻[11]又采用λ1正則化進行改進。文獻[12]將λ1正則化、l2正則化和彈性網(wǎng)正則化方法應(yīng)用于本征音說話人自適應(yīng),識別率得到進一步提升。

為此,本文提出了基于稀疏組LASSO約束的本征音子說話人自適應(yīng)方法。新方法本質(zhì)上是以本征音子作為字典項;在模型域?qū)で笳f話人相關(guān)模型參數(shù)的穩(wěn)健性稀疏表達;對自適應(yīng)問題的目標(biāo)函數(shù)引入稀疏組 LASSO正則項, 在自適應(yīng)階段通過優(yōu)化過程自動選擇說話人相關(guān)音子子空間基矢量及其組合系數(shù)。文中給出了一般正則化本征音自適應(yīng)原理框架,并討論了組稀疏正則化方法和稀疏組 LASSO正則化,分別給出了其數(shù)學(xué)優(yōu)化算法。

2 本征音子說話人自適應(yīng)

2.1 音子變化子空間及本征音子

2.2 本征音子的最大似然估計算法

3 基于稀疏組LASSO約束的本征音子說話人自適應(yīng)

本征音子說話人自適應(yīng)方法在自適應(yīng)階段需要估計一個D×(N+ 1 )維的擴展本征音子矩陣,其待估參數(shù)數(shù)量多于傳統(tǒng)說話人自適應(yīng)方法,因此在自適應(yīng)數(shù)據(jù)量充足時,可以得到更好的自適應(yīng)性能。然而,當(dāng)自適應(yīng)數(shù)據(jù)量不足時,即使采用說話人自適應(yīng)訓(xùn)練等技術(shù),仍會出現(xiàn)嚴(yán)重的過擬合現(xiàn)象。文獻[14]分別通過引入先驗分布和對本征音子矩陣引入低秩約束來解決這一問題,但提升的性能有限,因此可以考慮更好的約束方法來解決這一問題。

擴展本征音子矩陣的最大似然估計問題,引入正則化方法后,說話人自適應(yīng)目標(biāo)函數(shù)變?yōu)?/p>

3.1 組稀疏正則化方法

3.2 稀疏組LASSO正則化方法

組稀疏正則化方法使估計結(jié)果中的非零組盡量少,然而卻無法保證組內(nèi)參數(shù)的稀疏性。對于擴展的本征音子矩陣估計問題,組稀疏正則化可以使估計得到的矩陣V% 的某些列同時為0,然而不為0的那些列卻往往不是稀疏的。事實上λ1正則化可以控制矩陣V% 列內(nèi)參數(shù)的稀疏性,因此可以將λ1正則化與組稀疏正則化相結(jié)合,得到更為穩(wěn)健的估計,稱為“稀疏組LASSO(SGL, sparse-group LASSO)”正則化方法[17],其正則化函數(shù)

這意味著首先通過組稀疏正則化方法選擇不為零的那些參數(shù)組,然后通過λ1正則化方法選擇組內(nèi)的非零參數(shù)。對于擴展的本征音子矩陣估計問題,相當(dāng)于對待估矩陣同時施加列間和列內(nèi)稀疏性約束,從而得到結(jié)構(gòu)化的稀疏解。

式(8)與彈性網(wǎng)正則化函數(shù)很相似,然而這里的l2范數(shù)沒有平方運算,可以證明在每一個不為0的組(本征音子vn)內(nèi),稀疏組LASSO正則化方法相當(dāng)于一種特殊的彈性網(wǎng)正則化方法[17]。

3.3 稀疏組LASSO約束的本征音子自適應(yīng)優(yōu)化算法

對于組稀疏正則化與稀疏組LASSO正則化問題,常用的解法有快速迭代收縮域值算法(FISTA,fast iterative shrinkage-thresholding algorithm)[19]、加速的廣義梯度下降算法[17]等,文獻[20]也給出了多種正則化函數(shù)適用的一種通用數(shù)學(xué)優(yōu)化方法——遞增近點梯度(IPG, incremental proximal gradient)算法。由于本文的優(yōu)化問題包含一個可導(dǎo)的正則項(l2正則項)和多個不可導(dǎo)的正則項(λ1正則項和組稀疏正則項),對于這種問題,遞增近點梯度法是一種通用的、行之有效的迭代算法;而FISTA算法中的動量法及其選擇的參數(shù)((k)t的更新公式)可以對迭代過程進行加速。為此本文在遞增近點梯度算法中引入動量法(momentum method)[19]加速其收斂過程,得到一種“加速遞增近點梯度(AIPG, accelerated incremental proximal gradient)算法”。

在算法1中,第②步采用動量法[14]來加快其迭代收斂過程;第③步為原始遞增近點梯度算法的迭代公式,其中,別為λ1正則函數(shù)、l2正則函數(shù)和組稀疏正則函數(shù)的近點映射算子[21],η(k)是第k步迭代的步長;為進一步加快收斂速度,本文對η(k)進行線性搜索,即在第④步當(dāng)檢測到迭代后的目標(biāo)函數(shù)值變大時,按0.8的加權(quán)系數(shù)減小步長η(k),重新回到第③步;最后,檢查本次迭代前后Q%的相對減少量是否小于門限 10-5,若是則停止迭代,否則回到步驟②重新進行迭代。

4 實驗結(jié)果及分析

為了驗證本文算法的性能,采用微軟中文語料庫[18]進行連續(xù)語音識別的說話人自適應(yīng)實驗。訓(xùn)練集包括100個男性說話人,每人約200句話,共有19 688句話,每句話時長大約5 s,總時長為33 h。測試集中共有25個說話人,每人20句話,每句話時長也約為5 s。

聲學(xué)特征矢量采用13維的MFCC參數(shù)及其一階、二階差分,總特征維數(shù)為 39維。幀長和幀移分別為25 ms和10 ms。實驗中,借助語音開源工具箱HTK(hidden Markov toolkit)(版本3.4.1)[13]訓(xùn)練得到SI基線系統(tǒng)。首先訓(xùn)練單音子聲學(xué)模型,其中每個單音子對應(yīng)一個漢語有調(diào)音節(jié)。根據(jù)發(fā)音字典,對單音子進行上下文擴展,得到295 180個跨詞的三音子有調(diào)音節(jié),其中95 534個三音子在訓(xùn)練語料中得到覆蓋。每個三音子用一個包含3個發(fā)射狀態(tài)的、自左向右無跨越的隱馬爾可夫模型進行建模。采用基于決策樹的三音子狀態(tài)聚類后,系統(tǒng)中共有2 392個不同的上下文相關(guān)狀態(tài)。最終訓(xùn)練得到的說話人無關(guān)(SI)聲學(xué)模型中每個狀態(tài)含有8個高斯混元,因此聲學(xué)模型中的總高斯混元數(shù)為19 136個。

在測試階段,采用音節(jié)全連接的解碼網(wǎng)絡(luò),不采用任何語法模型。采用這種解碼網(wǎng)絡(luò)的語音識別系統(tǒng)對聲學(xué)模型的要求最高,可以充分展示聲學(xué)模型的識別性能。在原始測試集上,SI基線系統(tǒng)的平均有調(diào)音節(jié)正確識別率為53.04%(文獻[18]中結(jié)果為51.21%)。

為了便于比較本文算法的性能,本文針對下列說話人自適應(yīng)算法進行對比實驗。

1) EPNew:采用最大似然估計的本征音子自適應(yīng),且進行說話人自適應(yīng)訓(xùn)練得到的方法,簡稱EPNew方法。首先采用主分量分析得到本征音子矩陣和高斯混合坐標(biāo)矢量;其次利用訓(xùn)練數(shù)據(jù)重新SAT后的模型;然后采用最大似然準(zhǔn)則估計本征音子矩陣,采用λ1約束的最大似然準(zhǔn)則估計高斯混合坐標(biāo)矢量;不斷迭代得到最終的SAT模型和各高斯混合坐標(biāo)矢量。由于該算法具有較好的性能,因此作為后續(xù)算法的基線系統(tǒng)。

2) EPNew-L1:基于λ1約束的EPNew自適應(yīng)算法,λ1范數(shù)權(quán)重λ1從10 調(diào)整到40。

3) EPNew- L2:基于l2約束的EPNew自適應(yīng)算法,l2范數(shù)權(quán)重λ2從10調(diào)整到2 000。

4) EPNew-L1-L2:基于彈性網(wǎng)正則化約束的EPNew自適應(yīng)算法,其中λ1從10到20,λ2從10調(diào)整到100。

5) EPNew-GS:基于組稀疏正則化約束的EPNew自適應(yīng)算法,組稀疏權(quán)重λ3從60調(diào)整到150。

6) EPNew- SGL:基于稀疏組 LASSO 約束的EPNew自適應(yīng)算法,其中λ1從10到20,λ2從10調(diào)整到40。

為了比較各種方法在不同自適應(yīng)數(shù)據(jù)量下的自適應(yīng)效果,對每個測試說話人分別隨機抽取 1句、2 句、4 句、6 句、8 句和 10 句話作為自適應(yīng)數(shù)據(jù),從剩下語句中隨機抽取 10句話作為測試數(shù)據(jù),重復(fù)該過程8次,得到8組實驗數(shù)據(jù),將8組數(shù)據(jù)的平均結(jié)果作為系統(tǒng)性能指標(biāo)。表 1、表 2中黑體字所示為每種自適應(yīng)數(shù)據(jù)量條件下的最好實驗結(jié)果,斜體字所示為引入正則化約束后平均正確識別率下降的實驗結(jié)果。

4.1 經(jīng)典正則化約束的本征音子自適應(yīng)實驗

適當(dāng)引入約束條件可以提升系統(tǒng)性能,為了便于比較本文算法的性能,以EPNew為基線系統(tǒng),首先將λ1正則化、l2正則化和彈性網(wǎng)正則化3種經(jīng)典正則化方法引入到基線系統(tǒng)中來。

表1給出了本征音子算法EPNew在3種經(jīng)典正則化方法下的實驗結(jié)果,括號內(nèi)數(shù)字表示所有測試說話人擴展本征音子矩陣稀疏度的平均值

表1結(jié)果表明,引入λ1正則化方法之后,自適應(yīng)性能得到提高,特別是在自適應(yīng)數(shù)據(jù)量不足時(少于4句話時),性能的提升尤為明顯,過擬合現(xiàn)象得到有效緩解。對于某一個固定的正則化因子λ1(對應(yīng)表1中EPnew-L1方法中的某一行),隨著自適應(yīng)數(shù)據(jù)量的增加,平均稀疏度逐漸減小,表明擴展本征音子矩陣中的非零元素數(shù)量逐漸增加,更多的自適應(yīng)參數(shù)得到估計,因此λ1正則化方法具有良好的參數(shù)選擇功能,它可以使自適應(yīng)參數(shù)數(shù)量隨著數(shù)據(jù)量的增加而不斷增多。

在各種自適應(yīng)數(shù)據(jù)量下,隨著正則化因子λ1的增大(對應(yīng) EPnew-L1算法中的某一列),擴展本征音子矩陣的平均稀疏度也不斷增大,而平均正確識別率先增后減。當(dāng)自適應(yīng)數(shù)據(jù)量為 1、2、4、6句話時,自適應(yīng)方法在λ1=20時取得最好的效果,而當(dāng)自適應(yīng)數(shù)據(jù)量更為充足時(8句話和10句話時),λ1= 1 0可以取得更好的結(jié)果。

引入l2正則化后,當(dāng)自適應(yīng)數(shù)據(jù)量很少時(1或2句話時),系統(tǒng)的性能有了明顯提高,且λ2越大性能提高越明顯;而當(dāng)自適應(yīng)數(shù)據(jù)量較為充足時(多于4句話時),隨著λ2的增大,平均正識率先增后減,且λ2越大,系統(tǒng)性能的下降越明顯(如表1中斜體字所示部分)。因此隨著自適應(yīng)數(shù)據(jù)量的增加,應(yīng)逐漸減小λ2的值以放松約束,從而獲得更好的自適應(yīng)效果。

從表1中方法的對比結(jié)果來看,總體來講,l2正則化的效果不如λ1正則化。相關(guān)研究表明兩者具有一定的互補性,因此本文也對彈性網(wǎng)正則化方法進行測試,它是λ1和l22種正則化方法的一種線性組合。實驗中,將λ1正則化因子λ1分別固定為10或20,將l2正則化因子λ2從10調(diào)整至100。在引入l2正則化方法后,與原始的λ1正則化方法相比(λ1> 0 ,λ2= 0 時),彈性網(wǎng)正則化方法的平均正識率略有所提升。且隨著自適應(yīng)數(shù)據(jù)量的增加,l2正則化因子λ2應(yīng)逐漸減??;當(dāng)l2正則化因子取得過大時,平均正識率反而會下降。

表1 經(jīng)典正則化自適應(yīng)算法的實驗結(jié)果(正識率)(%)(括號內(nèi)數(shù)字表示平均稀疏度)

表1 經(jīng)典正則化自適應(yīng)算法的實驗結(jié)果(正識率)(%)(括號內(nèi)數(shù)字表示平均稀疏度)

自適應(yīng)方法 參數(shù)設(shè)置自適應(yīng)數(shù)據(jù)量1句 2句 4句 6句 8句 10句EPnew 42.35 51.52 58.22 59.32 60.12 60.85 λ1 = 10 52.25(0.61)56.04(0.43)58.32(0.23)59.36(0.16)60.32(0.12)61.32(0.04)EPnew-L1 λ1 = 20 λ1 = 30 53.88(0.83)53.63(0.91)56.55(0.63)55.96(0.74)58.54(0.42)57.70(0.54)59.54(0.33)59.31(0.44)60.24(0.26)60.05(0.37)61.12(0.23)60.92(0.34)λ1 = 40 53.82(0.95)55.18(0.82)57.30(0.65)59.19(0.61)59.89(0.49)60.60(0.42)λ2 = 10 43.52 52.64 58.26 59.42 60.22 60.93 EPnew -L2 λ2 = 100 43.95 53.25 58.42 59.21 60.05 60.82 λ2 = 1 000 46.32 53.92 58.35 59.15 59.27 59.65 λ2 = 2 000 48.65 54.26 58.21 58.65 58.83 59.32 λ2 = 0 52.25 56.04 58.32 59.36 60.32 61.32 EPnew-L1-L2 λ1 = 10 λ2 = 10 52.50 56.12 58.45 59.42 60.32 61.26 λ2 = 50 52.56 56.35 58.12 59.08 60.18 61.10 λ2 = 100 52.12 55.94 57.86 58.45 59.50 60.59 λ2 = 0 53.88 56.55 58.54 59.54 60.24 61.12 λ1 = 20 λ2 = 10 53.92 56.60 58.62 59.65 60.21 61.10 λ2 = 50 53.96 56.58 58.56 59.12 59.95 60.86 λ2 = 100 53.40 56.34 57.51 58.42 59.32 60.60

4.2 稀疏組LASSO約束的本征音子自適應(yīng)實驗

本節(jié)針對組稀疏正則化和稀疏組LASSO正則化方法進行自適應(yīng)實驗。由上面分析可知,利用式(6)給出的組稀疏正則化函數(shù),使估計得到的擴展本征音子矩陣V%出現(xiàn)許多元素全為0的列。為了了解正則化因子λ3對矩陣V% 的列稀疏性影響,定義“列稀疏度”θ為矩陣V%中全為0的列數(shù)占總列數(shù)的比例。實驗中將組稀疏正則化因子λ3從60調(diào)整到150。更重要一點,本節(jié)將通過實驗驗證組稀疏正則化與λ1正則化的互補性,將兩者進行線性組合,得到稀疏組 LASSO正則化方法。實驗中,將λ1正則化因子λ1分別固定為10和20,改變組稀疏正則化因子λ3的值進行實驗。

表2給出了不同自適應(yīng)數(shù)據(jù)量下的典型實驗結(jié)果,表中括號內(nèi)單個數(shù)字為所有測試說話人擴展本征音子矩陣的平均列稀疏度,以2個數(shù)字()的形式分別表示擴展本征音子矩陣的“平均稀疏度與“平均列稀疏度。

由表2可見,在自適應(yīng)數(shù)據(jù)量較少時,引入組稀疏正則化后,系統(tǒng)識別性能得到顯著提高;隨自適應(yīng)數(shù)據(jù)量的增大,應(yīng)逐漸減少正則化因子λ3以獲得更好的自適應(yīng)效果。在相同的自適應(yīng)數(shù)據(jù)量下(列縱向比較),隨著λ3的增大,平均列稀疏度也逐漸增大,而平均正識率卻先增后減。正則化因子對平均列稀疏度的影響在自適應(yīng)數(shù)據(jù)量少時(如1句話時)更為明顯,而當(dāng)自適應(yīng)數(shù)據(jù)量超過4句話時,平均列稀疏度始終接近于 0,這是由于正則化函數(shù)的近點映射算子[21]本質(zhì)上是一個乘性收縮算子,因此迭代若干次后,會使矩陣某些列的元素值變小,卻難以完全等于0。對比表 2和表 1結(jié)果可見,組稀疏正則化方法優(yōu)于l2正則化方法,由 2種方法的近點映射算子的比較可知,組稀疏正則化方法相當(dāng)于一種自適應(yīng)的l2正則化方法[21],本文實驗結(jié)果也驗證了組稀疏正則化方法這一優(yōu)勢。此外對比表2和表1的結(jié)果,總體而言,在各種自適應(yīng)數(shù)據(jù)量下,組稀疏正則化方法仍不及λ1正則化方法。

表2 組稀疏和稀疏組正則化自適應(yīng)算法的實驗結(jié)果(正識率)(%)(括號內(nèi)單個數(shù)字表示平均稀疏度,2個數(shù)字表示())

表2 組稀疏和稀疏組正則化自適應(yīng)算法的實驗結(jié)果(正識率)(%)(括號內(nèi)單個數(shù)字表示平均稀疏度,2個數(shù)字表示())

自適應(yīng)方法 參數(shù)設(shè)置自適應(yīng)數(shù)據(jù)量1句 2句 4句 6句 8句 10句EPnew 42.35 51.52 58.22 59.32 60.12 60.85 EPnewGS λ3 = 60 51.56(0.09)53.10(0.02)56.52(0.01)59.36(0.01)60.22(0.0)61.08(0.0)60.35(0.0)λ3 = 150 53.56(0.78)60.90(0.0)λ3 = 120 53.05(0.62)λ3 = 90 52.75(0.38)53.45(0.06)58.34(0.02)59.32(0.01)60.16(0.0)54.86(0.15)58.36(0.02)59.18(0.02)59.85(0.0)54.52(0.26)57.96(0.06)58.92(0.02)59.56(0.0)60.01(0.0)λ3 = 0 52.25(0.61, 0.0)56.04(0.43, 0.0)58.32(0.23, 0.0)59.36(0.16, 0.0)60.32(0.12, 0.0)61.32(0.04, 0.0)λ1 = 10 λ3 = 10 53.78(0.61,0.01)61.35(0.04, 0.0)λ3 = 20 54.55(0.62, 0.01)56.65(0.47, 0.0)58.45(0.32, 0.0)59.42(0.22, 0.0)60.40(0.13, 0.0)61.25(0.04, 0.0)λ3 = 30 54.76(0.62, 0.01)56.72(0.47, 0.01)58.62(0.33, 0.01)59.55(0.23, 0.0)60.22(0.13, 0.0)61.25(0.04, 0.0)λ3 = 40 54.49(0.62, 0.02)56.78(0.47, 0.01)58.45(0.33, 0.01)59.34(0.23, 0.01)60.18(0.13, 0.0)EPnew-SPL 56.12(0.49, 0.02)58.34(0.34, 0.01)59.25(0.23, 0.01)60.01(0.13, 0.01)60.89(0.04, 0.01)λ3 = 0 53.88(0.83, 0.0)56.55(0.63, 0.0)58.54(0.42, 0.0)59.54(0.33, 0.0)60.24(0.26, 0.0)61.12(0.23, 0.0)λ3 = 10 54.42(0.85, 0.01)61.13(0.23, 0.0)λ3 = 20 54.75(0.86, 0.01)56.82(0.64, 0.01)58.65(0.45, 0.01)59.58(0.36, 0.0)60.32(0.26, 0.0)λ1 = 20 60.92(0.23, 0.0)λ3 = 30 54.21(0.86, 0.02)56.65(0.64, 0.01)58.42(0.46, 0.01)59.52(0.36, 0.0)60.20(0.26, 0.0)60.89(0.23, 0.0)λ3 = 40 53.95(0.86,0.02)56.42(0.65, 0.01)58.38(0.46, 0.01)59.32(0.36, 0.0)60.22(0.26, 0.0)56.21(0.65, 0.02)58.38(0.46, 0.01)59.25(0.36, 0.0)60.12(0.26, 0.0)60.89(0.23, 0.0)

由于組稀疏正則化與λ1正則化具有互補性,表2給出了稀疏組LASSO約束的結(jié)果。結(jié)果表明,在λ1正則化基礎(chǔ)上引入組稀疏正則化后,自適應(yīng)性能得到進一步提高,特別是當(dāng)自適應(yīng)數(shù)據(jù)量較少時(1或 2句話),性能的提高尤為明顯。例如,當(dāng)λ1= 1 0,λ3= 3 0時,相比于λ1=10時的λ1正則化方法,在1句話和2句話下,正識率分別相對提高了4.8%和1.3%。在正則化因子λ1固定的條件下,隨著自適應(yīng)數(shù)據(jù)量的增加,應(yīng)減少正則化因子λ3以獲得更好的識別效果。

從“平均稀疏度”與“平均列稀疏度”上看,引入組稀疏正則化后,平均稀疏度相對于僅采用λ1正則化時的值幾乎沒有變化,而平均列稀疏度都基本接近于零,這說明最終估計得到的擴展本征音子矩陣并沒有呈現(xiàn)出明顯的列稀疏性。對比表 2中的實驗設(shè)置,可以看出由于組稀疏正則化因子λ3相對較小,而其對應(yīng)的近點映射算子為一種乘性收縮算子,因此只能使某些列的值相對縮小,卻難以將其縮小到0。

對比表 2和表 1中實驗結(jié)果可見,稀疏組LASSO正則化方法明顯優(yōu)于彈性網(wǎng)正則化方法,其原因在于組稀疏正則化方法相當(dāng)于一種自適應(yīng)的l2正則化方法,因此其與λ1正則化的線性組合(即稀疏組LASSO正則化方法)相當(dāng)于一種自適應(yīng)的彈性網(wǎng)正則化方法。

5 結(jié)束語

本文提出了一種基于稀疏組LASSO約束的本征音子說話人自適應(yīng)方法。新方法對自適應(yīng)問題的目標(biāo)函數(shù)引入稀疏組LASSO正則項,相當(dāng)于對待估本征音子矩陣同時施加列間稀疏性約束與列內(nèi)稀疏性約束,得到結(jié)構(gòu)化的模型稀疏解。通過該約束可以對自適應(yīng)模型的復(fù)雜度進行有效控制,在數(shù)據(jù)量少時得到低維音子變化子空間,在數(shù)據(jù)量充足時得到高維音子變化子空間。實驗證明,新算法在各種自適應(yīng)數(shù)據(jù)量下均優(yōu)于經(jīng)典的λ1正則化、l2正則化和彈性網(wǎng)正則化方法。

[1] ZHANG W L, ZHANG W Q, LI B C,et al. Bayesian speaker adaptation based on a new hierarchical probabilistic model[J]. IEEE Transactions on Audio, Speech and Language Processing[J]. 2012, 20(7):2002-2015.

[2] SOLOMONOFF A, CAMPBELL W M, BOARDMAN I. Advances in channel compensation[A]. for SVM speaker recognition. Proceedings of International Conference on Acoustics, Speech, and Signal Processing(ICASSP)[C]. Philadelphia, USA, 2005. 629-632.

[3] PAVAN KUMAR D S, PRASAD N V, JOSHI V,et al. Modified splice and its extension to non-stereo data for noise robust speech recognition[A]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)[C]. Olomouc, Czech Republic, 2013.174-179.

[4] HAMIDI S G, RICHARD C R. Two-stage speaker adaptation in subspace gaussian mixture models[A]. Proceedings of International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C].Florence, Italy, 2014. 6374-6378.

[5] WANG Y Q, GALE M J F. Tandem system adaptation using multiple linear feature transforms[A]. Proceedings of International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C]. Vancouver,Canada, 2013. 7932-7936.

[6] KENNY P, BOULIANNE G, OUELLETET P,et al. Speaker adaptation using an eigenphone basis[J]. IEEE Transaction on Audio, Speech and Language Processing, 2004, 12(6):579-589.

[7] ZHANG W L, ZHANG W Q, LI B C. Speaker adaptation based on speaker-dependent eigenphone estimation[A]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)[C].Hawaii, USA, 2011. 48-52.

[8] LI J, TSAO Y, LEE, C H. Shrinkage model adaptation in automatic speech recognition[A]. Proceedings of Annual Conference on International Speech Communication Association(INTERSPEECH)[C]. Makuhari, Chiba, Japan, 2010. 1656-1659.

[9] OLSEN P A, HUANG J, RENNIE S J,et al.Sparse maximum a posteriori adaptation[A]. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)[C]. Hawaii, USA, 2011.53-58.

[10] OLSEN P A, HUANG J, RENNIE S J,et al. Affine invariant sparse maximum a posteriori adaptation[A]. Proceedings of International Conference on Audio, Speech and Signal Processing(ICASSP)[C].Kyoto, Japan, 2012. 4317-4320.

[11] KIM Y G, KIM H. Constrained mle-based speaker adaptation withλ1regularization[A]. Proceedings of International Conference on Audio,Speech and Signal Processing(ICASSP)[C]. Florence, Italy, 2014.6419-6422.

[12] 張文林, 張連海, 牛銅, 等. 基于正則化的本征音說話人自適應(yīng)方法[J].自動化學(xué)報, 2012, 38(12):1950-1957.ZHANG W L, ZHANG L H, NIU T,et al. Regularization based eigenvoice speaker adaptation method[J]. ACTA Automatica Sinica,2012, 38 (12):1950-1957.

[13] YOUNG S, EVERMANN G, GALES M,et al. The HTK book (for HTK version 3.4)[EB/OL]. http://htk.eng.cam.ac.uk/docs/docs.shtml.2009.

[14] 張文林, 張連海, 陳琦, 等. 語音識別中基于低秩約束的本征音子說話人自適應(yīng)方法[J]. 電子與信息學(xué)報, 2014, 36(4):981-987.ZHANG W L, ZHANG L H, CHEN Q,et al. Low-rank constraint eigenphone speaker adaptation method for speech recognition[J]. Journal of Electronics & Information Technology, 2014, 36(4):981-987.

[15] YUAN M, LIN Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society(Series B),2007, 68(1): 49-67.

[16] TAN Q F, NARAYANAN S S. Novel variations of group sparse regularization techniques with applications to noise robust automatic speech recognition[J]. IEEE Transaction on Acoustic, Speech and Signal Processing, 2012, 20(4):1337-1346.

[17] SIMON N, FRIEDMAN J, HASTIE T,et al. A sparse-group LASSO[J]. Journal of Computational and Graphical Statistics, 2013, 22(2):231-245.

[18] CHANG E, SHI Y, ZHOU J,et al. Speech lab in a box: a Mandarin speech toolbox to jumpstart speech related research[A]. Proceedings of 7th European Conference on Speech Communication and Technology(EUROSPEECH) [C]. Aalborg, Denmark, 2001. 2799-2802.

[19] BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J]. SIAM Journal on Imaging Sciences, 2009, 2(1):183-202.

[20] BERTSEKAS D P. Incremental proximal methods for large scale convex optimization[J]. Mathematical Programming, 2011, 129(2):163-195.

[21] PARIKH N, BOYD S. Proximal Algorithms. Foundations and Trends in Optimization[M]. 2013.

猜你喜歡
本征數(shù)據(jù)量正則
基于本征正交分解的水平軸風(fēng)力機非定常尾跡特性分析
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
KP和mKP可積系列的平方本征對稱和Miura變換
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
電子制作(2019年13期)2020-01-14 03:15:18
剩余有限Minimax可解群的4階正則自同構(gòu)
類似于VNL環(huán)的環(huán)
本征平方函數(shù)在變指數(shù)Herz及Herz-Hardy空間上的有界性
有限秩的可解群的正則自同構(gòu)
当涂县| 忻城县| 湖口县| 万载县| 洪雅县| 错那县| 儋州市| 利辛县| 吉林省| 大理市| 九龙坡区| 桐乡市| 蒲城县| 仙桃市| 西乌| 通河县| 卢氏县| 贵港市| 成安县| 砀山县| 海丰县| 大新县| 简阳市| 江达县| 南乐县| 嘉兴市| 连江县| 邢台市| 九龙坡区| 珲春市| 时尚| 乐安县| 锦州市| 丘北县| 克东县| 金华市| 临清市| 连州市| 越西县| 甘孜县| 邓州市|