用說話人相似度i-vector的非負(fù)值矩陣分解說話人聚類

2017-04-24 10:38:25哈爾肯別克木哈西達(dá)瓦伊德木草

計(jì)算機(jī)應(yīng)用與軟件 2017年4期

哈爾肯別克·木哈西鐘珞達(dá)瓦·伊德木草

1(武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院湖北武漢 430070)2(新疆大學(xué)多語言技術(shù)重點(diǎn)實(shí)驗(yàn)室新疆烏魯木齊 830046)

哈爾肯別克·木哈西1鐘珞1達(dá)瓦·伊德木草2

基于貝葉斯或者全貝葉斯準(zhǔn)則的說話人自動(dòng)聚類或者識別方法，主要采取重復(fù)換算全發(fā)話語音段的相似量度，再組合相似性較大的語音片段實(shí)現(xiàn)說話人的聚類。這種方法中如果發(fā)話語音片段數(shù)越多，組合計(jì)算時(shí)間就越長，系統(tǒng)實(shí)時(shí)性變差，而且各說話人模型用GMM方法建立，發(fā)話語音時(shí)間短暫時(shí)GMM的信賴性降低，最終影響說話人聚類精度。針對上述問題，提出引用i-vector說話人相似度的非負(fù)值矩陣分解的高精度快速說話人聚類方法。

說話人分割及聚類非負(fù)值矩陣分解i-vectorGMM電話語音

0 引言

隨著信息技術(shù)和存儲技術(shù)的發(fā)展，音頻數(shù)據(jù)量呈現(xiàn)爆炸式增長。面對如此海量數(shù)據(jù)，人們迫切希望能準(zhǔn)確快速搜索到需要的信息，因而對相關(guān)語音技術(shù)的需求也與日俱增。會議講演(語音)的有聲記錄，或者為國家安全、社會穩(wěn)定、犯罪嫌疑人追蹤控制、身份確認(rèn)以及加強(qiáng)反腐力度等目的，錄制保留的多人長時(shí)間說話語音數(shù)據(jù)媒體規(guī)模逐年增多[1]。在這種大規(guī)模音頻文件中自動(dòng)提取(誰在說話、什么時(shí)間說話、說了什么等)不同發(fā)話人，不同時(shí)間及不同內(nèi)容的話語信息需要進(jìn)行自動(dòng)分析分割，并進(jìn)行數(shù)字化整理，作為有聲數(shù)據(jù)資源管理。多說話人識別技術(shù)的目的是在上述某種音頻文件中分割出或者分類出不同的說話人技術(shù)。和傳統(tǒng)的說話人識別技術(shù)相比，多說話人識別技術(shù)不僅能夠分割出不同的說話者，而且還能判斷每個(gè)說話人發(fā)話時(shí)間及內(nèi)容。它是說話人識別技術(shù)的一種延伸。

針對基于貝葉斯信息準(zhǔn)則(BIC)的說話人分割算法[2-3]對語音信號的分布估計(jì)較粗糙的缺點(diǎn)，以及高斯混合模型GMM說話人模型在發(fā)話時(shí)間短暫時(shí)信賴性底等問題，提出基于非負(fù)值矩陣分解NMF(Non-negative Matrix Factorization)的、引用i-vector說話人相關(guān)性模型組合方法的、高精度快速分割或聚類說話人方案。該方案主要利用i-vector說話人向量間的距離，計(jì)算相似量度，生成說話人相似矩陣，將K均值算法的聚類結(jié)果作為NMF的初始因子矩陣,并對超圖的鄰接矩陣進(jìn)行NMF,獲得基矩陣和系數(shù)矩陣；最后根據(jù)系數(shù)矩陣獲得最終的聚類結(jié)果。由于抽出i-vector作為知識事先利用大量的實(shí)驗(yàn)數(shù)據(jù)，因此相比于GMM，i-vector方法不受發(fā)話語音短暫的影響。另外由于i-vector方法很難受到聲道的影響、可以作為有效的說話人特征量使用[4-5]。

1 說話人識別研究工作現(xiàn)狀

2014年,在說話人識別(也稱聲紋識別)領(lǐng)域的國際頂級會SpeakerOdyssey2014專家學(xué)者報(bào)告討論表明，i-vector已是說話人識別的主流技術(shù)，成為其他算法的參照標(biāo)準(zhǔn)。洪青陽介紹了國內(nèi)把i-vector說話人識別技術(shù)率先應(yīng)用到公安部聲紋識別行業(yè)中大幅度提高了系統(tǒng)識別的效率情況報(bào)告[6]。栗志意等學(xué)者報(bào)告了系統(tǒng)融合以及對未知數(shù)據(jù)的聚類和自適應(yīng)提升性能的有效方法[7]。Tawara等學(xué)者提出的狄利克雷分布過程混合模型全貝葉斯準(zhǔn)則的說話人自動(dòng)聚類或者識別的新嘗試也受到了研究人員的關(guān)注[8]。

2 基于非負(fù)值矩陣分解方法的說話人聚類

2.1 非負(fù)值矩陣分解

NMF法是把非負(fù)值矩陣V分解為基底矩陣W和系數(shù)矩陣H的方法。即：

V?WH

(1)

式中W、H分別通過Kullback-Leibler[9]信息量(簡稱K-L信息量)D(q‖p)獲取。它表示對于真分布q推測出分布p，距離q的偏離程度。如果這兩個(gè)分布是一致的，那么偏離程度為0。要確定W和H，可以假設(shè)：當(dāng)推測分布設(shè)為WH，而真分布設(shè)為V時(shí)，K-L信息量由式(2)定義：

(2)

再經(jīng)過式(3)和式(4)的更換，可以獲得式(2)的最小化方程，即：

(3)

(4)

其中,Vij、Hij、Wij分別表示矩陣V、W及H的第i行j列元素。

2.2 說話人聚類方法

基于NMF法的說話人聚類是分解發(fā)話語音片段間的相似量度U×U矩陣V而實(shí)現(xiàn)的[10]。這里U為語音片段總數(shù)。如圖1所示，相似矩陣(similarity)可以分解成基底矩陣W(basis)和系數(shù)矩陣H(activation)的乘積。其中矩陣W為R×U類的基底矩陣，其各列表示各說話人;矩陣H也是R×U矩陣，其行表示對于各語音片段對應(yīng)的說話人比重;R為類數(shù)。按照說話人的不同，首先從矩陣H中選出比重較大的語音片段，然后將相同說話人的語音片段聚類在一起，實(shí)現(xiàn)說話人聚類。

圖1 NMF方法說話人聚類示意圖

3 說話人建模

在本節(jié)討論說話人建模以及通過說話人模型算出說話人間的相似量度方法。也就是，在多說話人語音流文件中生成各發(fā)話語音片段所表現(xiàn)的說話人模型，計(jì)算語音片段間的相似量度。本節(jié)討論常見基于GMM的說話人模型的交叉似然比CLR(CrossLikelihoodRatio) 距離的建模聚類方法和利用i-vector說話人模型余弦算相似量度建模聚類方法。

3.1 基于GMM的說話人建模

對于各發(fā)話語音片段，經(jīng)優(yōu)化學(xué)習(xí)法建GMM說話人模型。GMM的概率密度p(x|λ)由下式算出：

(5)

(6)

3.2 基于CLR方法的說話人相似量度計(jì)算

CLR方法可以通過兩個(gè)GMM參數(shù)的對數(shù)似然密度比算出。因?yàn)镚MM兩個(gè)似然密度相近時(shí)CLR取值為零。因此，CLR可以作為說話人間的距離尺度?；贜MF的聚類方法是利用相似度矩陣法，可以取CLR的倒數(shù)變換算出相似量度。第i個(gè)和第j個(gè)語音片段的CLR可以通過下式算出，即：

(7)

(8)

3.3 基于i-vector的說話人相似度計(jì)算

常見UBM(Universalbackgroundmodel)方法[12]對于不特定說話人全部特征空間概率模型，利用多說話人在不同內(nèi)容的話語，在不同說話環(huán)境以及不同實(shí)驗(yàn)條件下收集整理的大量語音數(shù)據(jù)學(xué)習(xí)GMM混合參數(shù)建模。而i-vector法是對于上述語音流按語音片段從UBM獲取話語依存UBM超級向量、再通過維數(shù)壓縮的方法獲得向量，既稱為i-vector。這種話語依存GMMm(u)超級向量可以表示為：

m(u)=m+Tw(u)

(9)

式(9)中，w(u)代表i-vector。m(u),m分別表示話語依存GMM和UBM超級向量、而T為部分空間映射矩陣。一般對i-vector實(shí)施FLDA分解(Fisherlineardiscriminantanalysis)法消除參數(shù)聲道影響。

3.4 基于余弦相似量度的說話人相似度計(jì)算

兩個(gè)向量間的相似性常用余弦相似量度尺度測量[13]。因此，該文中兩個(gè)語音片段i-vector間的相似性通過余弦相似量度獲取。因?yàn)橛嘞页叨热≈捣秶?1到+1之內(nèi)，而NMF(非負(fù)值矩陣)只能取正數(shù)。所以，本研究中對于余弦相似量度向量進(jìn)行下式變換，再實(shí)施NMF法。即：

(10)

4 多說話人聚類實(shí)驗(yàn)

針對NMF方法的說話人聚類實(shí)驗(yàn)，為便于比較，本文分別利用常見GMM方法和i-vector生成相似量度矩陣，通過兩種實(shí)驗(yàn)進(jìn)行討論。

4.1 實(shí)驗(yàn)條件及數(shù)據(jù)

本次多說話人聚類實(shí)驗(yàn)選用新疆大學(xué)多語言信息技術(shù)重點(diǎn)實(shí)驗(yàn)室開發(fā)的100個(gè)人電話語音錄用數(shù)據(jù)，從中選用50個(gè)發(fā)話人數(shù)據(jù)[14-16]。其中，男女性分別為25人，每人在不同時(shí)間段發(fā)話5次、每次發(fā)話語音片段長度5～10秒時(shí)間不等。特征量為12維的MFCC參數(shù)，幀長25ms，周期10ms。GMM用混合數(shù)設(shè)定8。

4.2 實(shí)驗(yàn)評估方法

本次試驗(yàn)結(jié)果的評估，我們采用各語音片段追加說話人標(biāo)簽，取標(biāo)簽平均聚類純度ACP(averageclusterpurity)及平均說話人純度ASP(averagespeakerpurity)的幾何K均值進(jìn)行評估。

假設(shè)ST為實(shí)際發(fā)話人數(shù)，S為說話人類數(shù)，nij為發(fā)話人j在全發(fā)話語音中分配到第i個(gè)說話人類的發(fā)話語音數(shù)，nj為發(fā)話人j的全發(fā)話數(shù)，ni為分配到說話人i類的發(fā)話數(shù)，U表示發(fā)話總數(shù)時(shí)，類純度pi和說話人純度qj分別由式(11)算出，即：

(11)

類純度表示，對各類分配到的發(fā)話語音中屬于同一個(gè)說話人的比例，而說話人純度表示，每個(gè)發(fā)話人所發(fā)話語音中屬于同一個(gè)類的發(fā)話語音比例。這樣，平均類純度VACP及平均說話人純度VASP分別表示為：

(12)

因此，ACP和ASP的幾何K均值設(shè)定為：

(13)

4.3 實(shí)驗(yàn)結(jié)果

本次試驗(yàn)結(jié)果如圖2所示。

圖2 GMM-CLR及-vector-COS相似度獲取說話人聚類的比較

從圖2可以看出，用i-vector-COS余弦相似量度生成相似矩陣所獲得的實(shí)驗(yàn)效果明顯好于用CLR方法生成相似矩陣的效果。為了便于比較，圖3中顯示了上述實(shí)驗(yàn)中追加標(biāo)簽的10個(gè)說話人在不同實(shí)驗(yàn)過程中聚類效果。

圖3 GMM-CLR及提按方法說話人聚類結(jié)果演示

從演示結(jié)果可以觀察到，各語音片段在不同類中分配聚類實(shí)況。其中每個(gè)矩形圖表示各說話人發(fā)話語音片段，橫坐標(biāo)代表各發(fā)話語音片段聚類的正確說話人標(biāo)簽，而縱坐標(biāo)代表推測出的說話人標(biāo)簽。從圖3可以觀察到，在GMM-CLR試驗(yàn)中，同一個(gè)說話人發(fā)話語音片段被分配到多個(gè)類中，而采用i-vector-Cos聚類試驗(yàn)中同一個(gè)說話人的發(fā)話語音基本上被正確地分配到同一個(gè)類中。因此，可以肯定本文提出的NMF算法及i-vector組合方法運(yùn)行高效，并且獲得了比其他常見的聚類集成算法更加優(yōu)越的結(jié)果。

5 結(jié) 語

針對小規(guī)模語音實(shí)驗(yàn)數(shù)據(jù)，對基于NMF(非負(fù)值矩陣分解)方法的說話人聚類中導(dǎo)入i-vector說話人相似度模型，實(shí)現(xiàn)短暫發(fā)話語音能夠獲取高速并高精度的說話人聚類方法。并探討了常見基于CLR相似量度矩陣算法說話人聚類與基于i-vector相似量度矩陣的說話人聚類方法，再利用K均值法對系統(tǒng)性能進(jìn)行了比較評估。實(shí)驗(yàn)結(jié)果顯示，i-vector說話人相似矩陣模型及NMF算法組合方法不僅可以獲得高精度說話人聚類效果，而且對于數(shù)據(jù)變動(dòng)也具有較強(qiáng)魯棒性。

進(jìn)一步擴(kuò)大實(shí)驗(yàn)人數(shù)以及實(shí)驗(yàn)數(shù)據(jù)環(huán)境，確認(rèn)提出方法對于無限說話人分割及聚類的推測效果是后期研究工作重點(diǎn)。

[1]NishidaM,IshigawaY,YamamotoS.SpeakerDiarizationBasedonNon-negativeMatrixFactorizationinMulti-partyConversations[J].SLP,2011,85(7):1-6.

[2] 伊·達(dá)瓦,吾守爾·斯拉木,匂坂芳典.LPC及F0參數(shù)組合基于GMM電話語音說話人識別[J].中文信息學(xué)報(bào),2011,25(4):105-109.

[3]KanagasundaramA,VogtR,DeanD,etal.i-vectorbasedspeakerrecognitiononshortutterances[C]//12thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2011:2341-2344.

[4]GeigerJ,WallhoffF,RigollG.GMM-UBMbasedopen-setonlinespeakerdiarization[C]//11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2010:2330-2333.

[5] 伊·達(dá)瓦,匂坂芳典,中村哲.語料資源缺乏的連續(xù)語音識別方法的研究[J].自動(dòng)化學(xué)報(bào),2010,36(4):550-557.

[6]JessenM.Currentdevelopmentsinforensicspeakeridentification[C]//Odyssey2010:TheSpeakerandLanguageRecognitionWorkshop,2010:378-394.

[7] 栗志意,張衛(wèi)強(qiáng),何亮,等.基于總體變化子空間自適應(yīng)的i-vector說話人識別系統(tǒng)研究[J].自動(dòng)化學(xué)報(bào),2014,40(8):1836-1840.

[8]TawaraN,WatanabeS,OgawaT,etal.SpeakerClusteringBasedonUtterance-OrientedDirichletProcessMixtureModel[C]//12thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2011:2905-2908.

[9]WatanabeS,MochihashiD,HoriT,etal.Gibbissamplingbasedmulti-scalemixturemodelforspeakerclustering[C]//Proceedingsofthe2011IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),2011:4524-4527.

[10] 達(dá)瓦·伊德木草,木合亞提·尼亞孜別克,吾守爾·斯拉木.語音技術(shù)在少數(shù)民族語言的應(yīng)用研究[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,31(1):88-96.

[11]MurtazaM,BSharifM,RazaM,etal.FaceRecognitionUsingAdaptiveMarginFisher’sCriterionandLinearDiscriminantAnalysis(AMFC-LDA)[J].TheInternationalArabJournalofInformationTechnology,2014,11(2):149-158.

[12] Dehak N,Kenny P J,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):788-798.

[13] Ye J.Cosine similarity measures for intuitionistic fuzzy sets and their applications[J].Mathematical and Computer Modelling,2011,53(1/2):91-97.

[14] 武曉敏,達(dá)瓦·伊德木草,吾守爾·斯拉木.自然預(yù)料缺乏的民族語言連續(xù)語音識別[J].計(jì)算機(jī)工程,2012,38(12):129-131,135.

[15] 李曉陽,伊·達(dá)瓦,吾守爾·斯拉木,等.基于GMM-UBM/SVM的維吾爾語電話語音監(jiān)控系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(1):46-48,77.

[16] Yidemucao D,Zhao Z,Silamu W.Sound scene clustering without prior knowledge[C]//2012 Chinese Conference on Pattern Recognition (CCPR),2012:613-621.

A SPEAKER CLUSTERING METHOD BASED ON NON-NEGATIVE MATRIX FACTORIZATION AND I-VECTOR OF SPEAKER SIMILARITY

Harhenbek Muhaxov1Zhong Lou1Dawa Idomucao2

1(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070,Hubei,China)2(KeyLaboratoryofXinjiangMulti-LanguageTechnology,XinjiangUnivrsity,Urumqi830046,Xingjiang,China)

Based on Bayesian or full Bayesian criterion, the speaker clustering or recognition method is mainly used to repeat the similarity measure of the whole utterance segment, and then combine the similar utterance segment to realize speaker clustering. In this method, if the number of utterance segment is increased, the combined computation time is longer and the system real-time property is worse. Moreover, the speaker model is established by GMM. The reliability of GMM is reduced when the speech time is short, which affects the accuracy of speaker clustering. Aiming at the above problems, this paper proposes a high-accuracy fast speaker clustering method based on non-negative matrix factorization and i-vectorofspeakersimilarity.

Speaker segmentation and clustering Non-negative matrix factorization I-vector GMM Telephone speech

2016-03-01。國家自然科學(xué)基金項(xiàng)目(61163030)。哈爾肯別克·木哈西，博士生，主研領(lǐng)域：語音信號處理。鐘珞，教授。達(dá)瓦·伊德木草，教授。

ADOI:10.3969/j.issn.1000-386x.2017.04.028

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

用說話人相似度i-vector的非負(fù)值矩陣分解說話人聚類

0 引 言

1 說話人識別研究工作現(xiàn)狀

2 基于非負(fù)值矩陣分解方法的說話人聚類

3 說話人建模

4 多說話人聚類實(shí)驗(yàn)

5 結(jié) 語

0 引言