国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聯(lián)合總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別

2021-07-22 17:02瞿于荃邵玉斌杜慶治
計(jì)算機(jī)與生活 2021年7期
關(guān)鍵詞:時(shí)延向量神經(jīng)網(wǎng)絡(luò)

瞿于荃,龍 華,2+,段 熒,邵玉斌,2,杜慶治,2

1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650000

2.昆明理工大學(xué) 云南省計(jì)算機(jī)國家重點(diǎn)實(shí)驗(yàn)室,昆明 650000

說話人識(shí)別(speaker verification,SV)屬于生物認(rèn)證領(lǐng)域的一種技術(shù),是一項(xiàng)根據(jù)說話人語音中代表說話人生理和行為的特征參數(shù),來判別說話人身份的技術(shù)。起初的短語音問題還沒能得到廣大信號處理界的重視,有些研究員們僅僅從側(cè)面提到了短語音問題[1],并未成為說話人識(shí)別的重點(diǎn)。由于說話人識(shí)別對樣本語音的時(shí)長非常敏感,短時(shí)語音的識(shí)別性能的好壞,是決定其能否商業(yè)化的關(guān)鍵一步。隨著說話人系統(tǒng)實(shí)際項(xiàng)目的落地,短語音問題開始被重視起來。由于實(shí)際生活環(huán)境的限制,收集目標(biāo)用戶長時(shí)間的語音數(shù)據(jù)不易,而在短語音條件下獲得的有效信息較少,這樣就無法提取足夠的說話人身份信息,直接導(dǎo)致識(shí)別性能的降低。在21 世紀(jì)初期,高斯混合模型通用背景模型(Gaussian mixture model universal background model,GMM-UBM)[2]的提出解決了注冊說話人語料不足的問題,它的成功應(yīng)用標(biāo)志著說話人識(shí)別的興起。隨后,聯(lián)合因子分析(joint factor analysis,JFA)[3]則對說話人變率空間和信道變率空間分別建模,以其高性能引領(lǐng)了說話人識(shí)別進(jìn)入一個(gè)新時(shí)代。繼而,基于總變率空間的身份向量(identity vector,i-vector)[4]成為了近十年來說話人識(shí)別研究的基線標(biāo)準(zhǔn)。直至深度學(xué)習(xí)流行的今日,身份向量仍占據(jù)一席之地。近來,針對短語音說話人識(shí)別的問題,大致思路分為兩方面。一是特征層面,增加特征有效維度是短語音的常用方法,它能有效提高識(shí)別率。然而,特征維數(shù)的增加,勢必加大計(jì)算的復(fù)雜度和維度災(zāi)難的風(fēng)險(xiǎn)。文獻(xiàn)[5]將聲學(xué)特征進(jìn)行特征融合后生成高維特征矩陣,再利用主成分分析(principal component analysis,PCA)降維;利用說話人特征信息在高頻區(qū)域更為突出的特點(diǎn),文獻(xiàn)[6]提出使用線性頻率倒譜系數(shù)(linear frequency cepstral coefficients,LFCC)提取短語音說話人嵌入向量;針對Baum-Welch 統(tǒng)計(jì)量的不足,文獻(xiàn)[7]通過聯(lián)合通用背景模型中的參數(shù)信息,增加說話人的個(gè)人信息表達(dá);文獻(xiàn)[8]利用神經(jīng)網(wǎng)絡(luò)極強(qiáng)的特征提取能力,提出了使用時(shí)延神經(jīng)網(wǎng)絡(luò)(time-delay neural networks,TDNN)提取語音的嵌入向量x-vector。針對x-vector 的不足,文獻(xiàn)[9]提出將語譜圖輸入進(jìn)時(shí)延神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)聲學(xué)特征,并在統(tǒng)計(jì)池化層使用注意力機(jī)制增強(qiáng)關(guān)鍵幀的信息。二是模型層面,對于傳統(tǒng)支持向量機(jī)模型,文獻(xiàn)[10]運(yùn)用多個(gè)核函數(shù)的線性組合構(gòu)造多核空間實(shí)現(xiàn)短語音下說話人識(shí)別。而深度學(xué)習(xí)的崛起,席卷整個(gè)語音處理界,人們開始嘗試不同模型應(yīng)用在短語音說話人識(shí)別上。文獻(xiàn)[11]將話語視為圖像,將深度卷積架構(gòu)直接應(yīng)用于時(shí)頻語音表征,像人臉識(shí)別一樣學(xué)習(xí)短時(shí)說話人嵌入。文獻(xiàn)[12]提出使用生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)的i-vector 補(bǔ)償方法來代替概率線性判別模型(probabilistic linear discriminant analysis,PLDA)在短語音下所出現(xiàn)的估計(jì)偏差。文獻(xiàn)[13]使用圖像特征金字塔(feature pyramid network,F(xiàn)PN)對多尺度聚合(multi-scale aggregation,MSA)進(jìn)行改進(jìn),提高處理變化時(shí)長下話語的魯棒性;然而,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[14]需要大量的數(shù)據(jù),而用于說話人識(shí)別的可用數(shù)據(jù)量通常非常小。這一直是使用深度學(xué)習(xí)構(gòu)建端到端說話者識(shí)別系統(tǒng)的最大障礙之一。

本文從特征方法出發(fā),提出使用典型聯(lián)合分析方法從總變率空間的i-vector 向量和TDNN 網(wǎng)絡(luò)的xvector 向量中學(xué)習(xí)線性關(guān)聯(lián)信息,再從投影矩陣中抽取相關(guān)向量組合成為新向量,以此增強(qiáng)說話人身份信息。在短注冊和短測試語音環(huán)境下,實(shí)驗(yàn)結(jié)果證明,融合超向量在注冊和測試時(shí)長不匹配問題條件下均對說話人識(shí)別等誤差率有下降的作用。

1 總變率空間模型

說話人語音的長短不一,讓學(xué)者耗費(fèi)大量的精力去尋求一種技術(shù)可以從變化長度的語音中獲得恒定長度表示說話人身份信息。i-vector 的出現(xiàn)為這種想法開創(chuàng)了先河,使得文本無關(guān)的說話人識(shí)別上升到了新高度。由聯(lián)合因子分析(JFA)理論獲得啟發(fā)[4],Dehak 提出從高斯混合模型的均值超向量中提取更加緊湊的身份向量,即i-vector。i-vector 模型利用因子分析來構(gòu)造總變率空間(total variability space),對說話人差異和信道差異共同進(jìn)行建模。假設(shè)說話人的一段語音,該語音的高斯均值超矢量可由下式表示:

其中,m為通用背景模型的高斯均值超矢量,T為總變率空間矩陣,ω為總變率空間因子,其后驗(yàn)均值就是身份向量i-vector。身份向量模型的重點(diǎn)就是總變率空間矩陣的估計(jì)和身份向量的提取。

1.1 總變率空間矩陣的估計(jì)

總變率空間矩陣的估計(jì)[15]用最大期望算法,提取Baum-Welch 統(tǒng)計(jì)量,計(jì)算隱藏因子的后驗(yàn)分布,更新模型參數(shù),迭代多次直至停止,最后得到總變率空間矩陣。前提條件是已訓(xùn)練好一個(gè)通用背景模型。

步驟1給定第s說話人第h句話,有若干幀{Y1,Y2,…}組成,對于每一個(gè)高斯分量c,計(jì)算零階、一階Baum-Welch 的統(tǒng)計(jì)量如下:

其中,mc為高斯分量所對應(yīng)的均值矢量。對于t時(shí)刻,γt(c)是第t幀Yt相對每個(gè)高斯分量c的狀態(tài)占有率,換句話說,第t時(shí)刻落入狀態(tài)c的后驗(yàn)概率,其值可以表示為:

步驟2計(jì)算總變率空間因子ω的后驗(yàn)分布。對于第s個(gè)說話人的第h段語音總變率空間因子記為ωs,h,令l(s)=I+TTΣ-1Nh(s)T:

Σ為UBM 的各階協(xié)方差矩為對角塊的對角矩陣。

步驟3最大似然值重估更新模型參數(shù)矩陣T和最大化似然函數(shù)值,得到如下:

對于每一個(gè)高斯混合分量c=1,2,…,C和特征參數(shù)的每一維d=1,2,…,P,令i=(c-1)P+d,Ti表示T的第i行,Ωi表示Ω的第i行,則說話人總變率空間矩陣T的更新公式如下:

1.2 抽取身份向量

步驟2、步驟3 在設(shè)置一定的次數(shù)迭代更新,完成總變率空間矩陣訓(xùn)練后,由式(6)得到每個(gè)說話人對應(yīng)的身份向量i-vector。這里,目標(biāo)說話人的模型訓(xùn)練的過程和i-vector說話人向量抽取就到此結(jié)束。

短語音下的說話人識(shí)別的困難很大程度上可以歸結(jié)于注冊和測試時(shí)長語音數(shù)據(jù)的不匹配。雖然通用背景模型中的均值超向量可以通過每個(gè)人的總變率因子來共享一些統(tǒng)計(jì)信息,在一定程度上減輕短語音帶來的影響,但從式(2)~(4)看來,總變率空間的估計(jì)很大程度上依賴于Baum-Welch 統(tǒng)計(jì)量的計(jì)算,而語音數(shù)據(jù)量過少勢必造成統(tǒng)計(jì)量估計(jì)的偏差。對于GMM-UBM、i-vector 等基于語音概率分布的統(tǒng)計(jì)模型來說,短語音下的語音分布必然存在偏差,使得估計(jì)的說話人特征在統(tǒng)計(jì)上變得不那么可靠。

2 時(shí)延神經(jīng)網(wǎng)絡(luò)模型

深度學(xué)習(xí)中的嵌入(embedding)是一項(xiàng)非常流行的技術(shù),它的原理是取一個(gè)低維稠密的向量表示一個(gè)對象?!氨硎尽贝碇鴈mbedding 向量能夠表達(dá)相應(yīng)對象的某些特性,同時(shí)兩個(gè)embedding 向量之間的距離反映了對象之間的相像性。比較典型的:graph embedding 中圖像為對象的deepwalk[16];word embedding 中文字為對象的word2vec[17];隨著深度學(xué)習(xí)在語音識(shí)別方面火熱進(jìn)行,說話人識(shí)別深受影響。而xvector 是由Snyder 從時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)[18]中提取的voice embedding 特征,并像i-vector 一樣使用。時(shí)延神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示,由此看來,TDNN 更像是一個(gè)一維卷積的過程,這樣的架構(gòu)更適合語音序列信息的處理。將分幀后的語音輸入進(jìn)TDNN 網(wǎng)絡(luò),網(wǎng)絡(luò)中的統(tǒng)計(jì)池化層會(huì)負(fù)責(zé)將幀級特征映射至話語級特征上,具體操作為計(jì)算幀級特征的均值和標(biāo)準(zhǔn)差。在統(tǒng)計(jì)池化層之后的全連接層用于抽取embedding 向量,網(wǎng)絡(luò)最后一層為softmax 層,輸出的神經(jīng)元數(shù)量與訓(xùn)練集中說話人個(gè)數(shù)保持一致。由于TDNN 是時(shí)延架構(gòu),利用其網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn)可以學(xué)習(xí)不同時(shí)長的特征,這也讓x-vector 在注冊測試不同時(shí)長語音上表現(xiàn)出更強(qiáng)的魯棒性。

Fig.1 Time delay neural network structure圖1 時(shí)延神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

傳統(tǒng)基線DNN(deep neural networks)網(wǎng)絡(luò)中,DNN 僅僅只對輸入層的語音特征做了前后若干幀的擴(kuò)展,在輸入層擁有上下文信息,而TDNN 與DNN 不同之處在于TDNN 對其中的隱藏層也進(jìn)行上下文的拓展,TDNN 會(huì)將隱層當(dāng)前時(shí)刻的輸出與前后若干時(shí)刻的輸出組成在一起,以此作為當(dāng)前時(shí)刻下一個(gè)隱藏層的輸入。由此來看,TDNN 中的每一層都被給予了上下層級的時(shí)間信息,對于處理時(shí)序數(shù)據(jù)是非常有效的。

3 聯(lián)合總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)模型

同為生物識(shí)別技術(shù),說話人識(shí)別許多的技術(shù)都是借鑒于人臉識(shí)別的經(jīng)驗(yàn),比如信道補(bǔ)償?shù)母怕示€性判別模型(PLDA)[19]、Face net以及新引入的代價(jià)函數(shù)三元組損失(triplet loss)。典型關(guān)聯(lián)分析(canonical correlation analysis,CCA)[20]可以被看作是為兩組變量間尋求基向量的問題,由此變量在基向量上的投影之間的相關(guān)性就可以相互最大化,這樣可以聯(lián)合特征提高分類的效果。CCA 主要在人臉識(shí)別中多視圖學(xué)習(xí)的特征融合方面,在驗(yàn)證目標(biāo)人身份時(shí),利用不同信息的人臉照片進(jìn)行多視圖信息學(xué)習(xí)。ivector 的獨(dú)到之處在于它結(jié)構(gòu)簡單,只考慮說話人差異和信道差異兩部分,這讓它在文本無關(guān)方面優(yōu)勢明顯。x-vector 是話語層級提取的嵌入特征,更符合說話人在多段話語中的一個(gè)平均代表。兩種向量都能單獨(dú)代表說話人,且又從不同形式下表征說話人獨(dú)有的信息。典型相關(guān)分析尋求一對線性轉(zhuǎn)換,每組變量對應(yīng)一對,當(dāng)這組變量被轉(zhuǎn)換時(shí),對應(yīng)的表示說話人的向量就會(huì)最大程度相關(guān),聯(lián)合兩個(gè)向量組成說話人超向量,用來增強(qiáng)說話人信息。

假設(shè)訓(xùn)練階段總變率空間,TDNN 已被訓(xùn)練。那么注冊和測試階段,每個(gè)說話人的i-vector 身份向量表示為I=(i1,i2,…,in)T,x-vector 向量為X=(x1,x2,…,xn)T,對于I其對應(yīng)的投影向量為α,對于X,對應(yīng)的投影向量為β,令Z=[I X]T,則:

設(shè)W=αTI,V=βTX,計(jì)算W、V方差和協(xié)方差:

由Pearson 相關(guān)系數(shù)可得優(yōu)化目標(biāo)為:

其中,cov(W,V)為W、V協(xié)方差,而σW、σV分別是I、X標(biāo)準(zhǔn)差,優(yōu)化的目標(biāo)是:

構(gòu)造Lagrangian 等式對式(16)進(jìn)行求解:

式(17)分別求導(dǎo)令等于0 得:

式(18)分別左乘αT和βT,結(jié)合式(16)得:

λ=θ(19)

將式(20)中下式帶入上式得:

將式(20)中上式帶入下式得:

Fig.2 Model combining total variability space with TDNN圖2 聯(lián)合總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)模型

流程如圖2 所示。訓(xùn)練階段,分別訓(xùn)練總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)。建立一個(gè)獨(dú)立說話人的適應(yīng)集提取i-vector 和x-vector 用來學(xué)習(xí)總變率空間與TDNN在說話人表示上的線性關(guān)系,i-vector 用來學(xué)習(xí)關(guān)聯(lián)性的輸入矩陣I,維度為P1×N,x-vector 學(xué)習(xí)關(guān)聯(lián)性的輸入矩陣X,維度為P2×N,獲得r個(gè)投影向量拼接為矩陣形式,其中N是適應(yīng)集說話人話語數(shù),P1為總變率空間維度,本次實(shí)驗(yàn)取400 維,P2為TDNN全連接層第一層輸出維度,同文獻(xiàn)[21]保持一致取512 維。若仍使用訓(xùn)練集提取說話人向量,說話人已存在訓(xùn)練集之中,不能表達(dá)集外說話人的普適特性,使用適應(yīng)集目的為解決CCA 學(xué)習(xí)中說話人的泛化能力和魯棒性問題。注冊和測試階段,提取i-vector 和x-vector 與投影變換α、β矩陣映射,得到一組線性關(guān)聯(lián)向量,組合得到超向量xi-vector。

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)設(shè)置

語料庫選自Librispeech 英文演講集、TIMIT 英文集,共1 257 人。語料庫分為注冊集、適應(yīng)集、測試集和訓(xùn)練集。注冊集為100 個(gè)說話人;測試集與注冊集說話人對應(yīng),適應(yīng)集為500 個(gè)說話人,剩余人數(shù)為訓(xùn)練集。特征預(yù)處理設(shè)置同i-vector、x-vector 原文獻(xiàn)保持一致:預(yù)加重系數(shù)0.95,幀長25 ms,幀移10 ms,使用基于能量的端點(diǎn)檢測對語音去靜音??傋兟士臻g設(shè)置方面:通用背景模型和總變率空間的訓(xùn)練集保持一致,高斯混合度為512,總變率空間維度400,20維梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC),以及一階、二階差分[6]。提取i-vector,使用LDA(linear discriminant analysis)降維至200 維,以及PLDA 信道補(bǔ)償和相似度打分。時(shí)延神經(jīng)網(wǎng)絡(luò)方面:TDNN 網(wǎng)絡(luò)結(jié)構(gòu)與文獻(xiàn)[21]保持一致,特征取24 維FilterBank,提取x-vector 向量,后端與i-vector 保持一致。

4.2 實(shí)驗(yàn)指標(biāo)

本次實(shí)驗(yàn)使用的說話人指標(biāo)為等誤差率(equal error rate,EER)。EER定義如下式:

式中,Pfrr(θ)為錯(cuò)誤拒絕率(false rejection rate),Pfar(θ)為錯(cuò)誤接受率(false acceptance rate)。stws為冒充者測試得分(spoof trials with score),tst為總冒充次數(shù)(total spoof trials);htws為正確測試得分(human trials with score),tht為總正確測試次數(shù)(total human trials);θ為判斷兩語音為同一人閾值,Pfrr(θ)和Pfar(θ)隨著θ變換而發(fā)生變化,當(dāng)θ=θEER時(shí),使Pfrr(θ)、Pfar(θ)值相等,該值為EER,其中:

以錯(cuò)誤接受率為橫坐標(biāo),錯(cuò)誤拒絕率為縱坐標(biāo),做檢測錯(cuò)誤權(quán)衡圖(detection error tradeoff,DET),反映說話人識(shí)別系統(tǒng)性能。

4.3 實(shí)驗(yàn)分析

首先,在不同注冊和測試時(shí)長下,分別統(tǒng)計(jì)了三種說話人向量的等誤差率。通過表1 的實(shí)驗(yàn)結(jié)果和圖3 的DET 曲線可以看出,固定說話人測試語音為全時(shí)長,注冊時(shí)長為30 s 時(shí),xi-vector 的誤差率相比ivector、x-vector 下降了6.15%和15.2%;20 s 時(shí),同比下降7.02%和15.6%;10 s 極短注冊語音下,分別下降6.5%和29.6%。面對逐漸縮短的短語音任務(wù),短注冊語音給i-vector 帶來的問題是對說話人語音分布估計(jì)的偏差,注冊說話人的身份偏差導(dǎo)致即使使用全時(shí)長的語音去測試說話人也不能獲得較好的等誤差率。而時(shí)延神經(jīng)網(wǎng)絡(luò)也會(huì)遇到相同的問題,雖然能夠利用自身結(jié)構(gòu)學(xué)習(xí)上下文的相關(guān)信息,但為了加速計(jì)算而會(huì)選擇在輸入層對語音進(jìn)行固定時(shí)長的分塊操作,直接造成了短注冊語音被再次分割和剔除,上下文信息的捕獲變得少之又少。從整體變化來看,i-vector 等誤差率上升幅度較大也印證了基于統(tǒng)計(jì)模型對于短語音的魯棒性能力較差的缺點(diǎn),而x-vector上升幅度趨緩的表現(xiàn)得益于時(shí)延神經(jīng)網(wǎng)絡(luò)連接softmax 的架構(gòu),所取出的x-vector 在說話人分類上有著極強(qiáng)的區(qū)分能力,這也讓x-vector代替i-vector成為近幾年說話人識(shí)別挑戰(zhàn)賽的基線系統(tǒng)。xi-vector 在上升幅度中有著最好的表現(xiàn),它在三者之中保持了短語音下較好的魯棒性,聯(lián)合總變率空間的信道變化,說話人差異變化的同時(shí)又有著時(shí)延神經(jīng)網(wǎng)絡(luò)的超強(qiáng)分類器能力。

Table 1 EER of each vector under different registered speech lengths表1 不同注冊語音長度下各向量的等誤差率

Fig.3 DET of each vector under different registered speech lengths圖3 不同注冊語音長度下各向量的檢測錯(cuò)誤權(quán)衡圖

值得注意的是,在全時(shí)長注冊和測試語音下,xivector 的效果并沒有i-vector 和x-vector 的好,原因就在于基于總變率空間提取i-vector 的說話人差異性和基于時(shí)延神經(jīng)網(wǎng)絡(luò)提取x-vector 的分類性在全時(shí)長下都可以完全表達(dá)說話人個(gè)人信息,反而聯(lián)合總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)下的xi-vector 在結(jié)合兩者之間線性關(guān)系在某種情況下成為一種冗余。x-vector等誤差率最低也說明在全時(shí)長注冊和測試的情況下,基于時(shí)延神經(jīng)網(wǎng)絡(luò)的x-vector已經(jīng)能達(dá)到較好的性能。

通過表2 的實(shí)驗(yàn)結(jié)果和圖4 的DET 曲線可以看出,固定注冊時(shí)長為全時(shí)長,測試時(shí)長為10 s 時(shí),xivector 的等誤差率相比i-vector、x-vector 分別下降了4.01%和15.8%,5 s測試語音時(shí),相比分別下降6.0%和22.1%,3 s 短測試語音下,分別下降了1.7%和12%。盡管注冊說話人已經(jīng)得到了充分的注冊,短測試語音下總變率空間對語音概率估計(jì)不足的問題,讓測試i-vector 缺少區(qū)分不同人的能力,而時(shí)延神經(jīng)網(wǎng)絡(luò)輸入的語音特征在短測試語音下并沒能在上下文關(guān)系上給予信息的共享。xi-vector 對上述情況做出補(bǔ)償,在i-vector 和x-vector 學(xué)習(xí)線性關(guān)聯(lián)關(guān)系,以結(jié)合的方式增強(qiáng)說話人個(gè)人信息,這一點(diǎn)讓xi-vector 在短測試環(huán)境下優(yōu)于前兩者。整體來看,本文所提出的聯(lián)合總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)的新向量xi-vector,在短注冊和短測試環(huán)境下,與基線i-vector、x-vector相比表現(xiàn)最佳,系統(tǒng)性能較基線系統(tǒng)有了良好改善,尤其是在極低時(shí)長環(huán)境下,依然有著較為理想和穩(wěn)定的等誤差率。

Table 2 EER of each vector under different test speech lengths表2 不同測試語音長度下各向量的等誤差率

Fig.4 DET of each vector under different test speech lengths圖4 不同測試語音長度下各向量的檢測錯(cuò)誤權(quán)衡圖

最后,更換數(shù)據(jù)集為aidatatang 中文普通話數(shù)據(jù)集和Primewords 中文語料庫,旨在驗(yàn)證本文算法對中文語料下的處理能力以及與不同針對短語音的改進(jìn)技術(shù)的文獻(xiàn)在等誤差率上進(jìn)行對比。設(shè)置中文語料庫注冊集為100 人,測試集與注冊集人數(shù)對應(yīng)。其余實(shí)驗(yàn)細(xì)節(jié)部分與上述實(shí)驗(yàn)保持一致。短語音時(shí)長設(shè)置方面,固定注冊時(shí)長為全時(shí)長,測試語音劃分為10 s、5 s和3 s三部分,固定測試時(shí)長為全時(shí)長,注冊語音劃分為30 s、20 s、10 s三部分,總計(jì)6 個(gè)短語音條件下對文獻(xiàn)[5]、文獻(xiàn)[6]、文獻(xiàn)[7]、文獻(xiàn)[9]和xi-vector 進(jìn)行實(shí)驗(yàn),對比結(jié)果如圖5 所示。

從圖5 可以看出,固定全時(shí)長注冊語音,在10 s測試語音下,xi-vector 比文獻(xiàn)[5]、文獻(xiàn)[6]、文獻(xiàn)[7]、文獻(xiàn)[9]在等誤差率上降低了44.46%、7.67%、39.9%、9.33%;5 s 測試語音下,xi-vector 相比下降30.16%、8.36%、25.03%、6.44%;3 s 測試語音下,xi-vector 相比下降30.41%、5.36%、22.21%、5.15%。固定全時(shí)長測試語音,在30 s 注冊語音下,xi-vector 在等誤差率上同比降低了32.74%、2.56%、26.89%、2.57%;在20 s 注冊語音下,xi-vector 在等誤差率上同比降低30.01%、7.42%、18.45%、7.2%;在10 s 注冊語音下,xi-vector 在等誤差率上同比降低26.9%、9.37%、18.68%、6.53%。文獻(xiàn)[5]所使用特征融合再進(jìn)行降維的方法,通過對淺層特征融合達(dá)到增強(qiáng)說話人信息的行為,但任何降維都導(dǎo)致原始信息的損失,而同樣是以總變率空間作為說話人模型的文獻(xiàn)[7]借助通用背景模型增強(qiáng)短語音下的Baum-Welch 統(tǒng)計(jì)量,但人為選擇超參量的方法對統(tǒng)計(jì)量進(jìn)行融合,在不同環(huán)境下應(yīng)用的魯棒性還有待商榷。文獻(xiàn)[6]提取線性頻率倒譜系數(shù)代替?zhèn)鹘y(tǒng)梅爾倒譜系數(shù)特征,并且將i-vector 與x-vector在提取后直接串聯(lián)實(shí)現(xiàn)融合,但串聯(lián)的方法增加維度的同時(shí),并不能有效提升識(shí)別性能。文獻(xiàn)[9]是基于時(shí)延變率空間的基礎(chǔ),將語譜圖作為x-vector輸入,并在統(tǒng)計(jì)池化層上添加注意力機(jī)制對幀級信息疊加權(quán)值,但是對于語音序列來說,使用注意力機(jī)制的缺點(diǎn)是忽略了序列中的上下文順序關(guān)系,這樣其實(shí)浪費(fèi)了TDNN 網(wǎng)絡(luò)的優(yōu)勢。相比上述文獻(xiàn),xi-vector 聯(lián)合i-vector 和x-vector 的說話人信息,進(jìn)行說話人識(shí)別在等誤差率上均優(yōu)于上述針對短語音所改進(jìn)的i-vector與x-vector 算法。有一點(diǎn)值得考慮的是,xi-vector 在優(yōu)化誤差率的同時(shí)也增大了計(jì)算量和負(fù)載量,對于實(shí)時(shí)性要求嚴(yán)格的識(shí)別系統(tǒng)來說,運(yùn)算時(shí)間可能是本文算法的一大挑戰(zhàn),相比實(shí)時(shí)性,本文算法更合適于離線識(shí)別,要求精度較高的說話人識(shí)別系統(tǒng),比如軍隊(duì)以及公安刑偵等方面。

Fig.5 EER comparison of various documents under different speech lengths圖5 不同語音長度下各文獻(xiàn)等誤差率對比

總體來看,在注冊測試語音不匹配條件下,xivector 在中文數(shù)據(jù)集的等誤差率比英文數(shù)據(jù)集上的表現(xiàn)上升了4.87%、9.21%、7.72%、10.19%、6.29%、6.36%,這說明xi-vector 在中文語料庫下的性能沒有英文下的好。原因可能是所使用的Librispeech 與TIMIT 是相對純凈的數(shù)據(jù)集且語音的長度分布較為均勻,可以保證注冊語音的長度足夠長而不需要進(jìn)行拼接的操作,而實(shí)驗(yàn)所使用的數(shù)據(jù)集的特點(diǎn)是較短語句,且大部分語音都在日常移動(dòng)設(shè)備聊天應(yīng)用上采集,更加貼近現(xiàn)實(shí)生活的說話人識(shí)別使用情況。另外一個(gè)原因是,所采用數(shù)據(jù)集的采集設(shè)備情況不一,所造成各個(gè)說話人之間的信道差異也有所不同,雖然實(shí)驗(yàn)后處理使用PLDA 進(jìn)行信道補(bǔ)償,但整體來說對基于總變率空間的模型產(chǎn)生些許影響。

綜上所述。本文實(shí)驗(yàn)在英文語料庫下對xi-vector進(jìn)行測試,在實(shí)驗(yàn)中均比i-vector、x-vector 等說話人嵌入向量在等誤差率上有所下降;同時(shí),在中文語料庫中對幾種針對短語音改進(jìn)說話人向量的方法進(jìn)行對比發(fā)現(xiàn),xi-vector 在等誤差率上均低于其余幾種方法,實(shí)驗(yàn)證明了本文算法的有效性。

5 總結(jié)

短語音條件下收集說話人語音信息的不足,嚴(yán)重制約了說話人現(xiàn)實(shí)商用的落地。針對短語音條件下總變率空間對不同時(shí)長魯棒性不足的問題,本文結(jié)合時(shí)延神經(jīng)網(wǎng)絡(luò),提出一種聯(lián)合總變率空間和時(shí)延神經(jīng)網(wǎng)絡(luò)的短語音說話人識(shí)別方法。通過典型關(guān)聯(lián)分析兩者的關(guān)聯(lián)性,并將其嵌入向量進(jìn)行投影,組合成新向量xi-vector 以獲取更加豐富的說話人信息超向量。實(shí)驗(yàn)證明,將本文方法應(yīng)用在說話人識(shí)別方面,能夠有效降低在短注冊語音或短測試語音中說話人識(shí)別的等誤差率,改善了說話人識(shí)別在短語音環(huán)境下的時(shí)長不匹配的魯棒性問題。

猜你喜歡
時(shí)延向量神經(jīng)網(wǎng)絡(luò)
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測
向量的分解
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
計(jì)算機(jī)網(wǎng)絡(luò)總時(shí)延公式的探討
計(jì)算機(jī)網(wǎng)絡(luò)總時(shí)延公式的探討
基于物聯(lián)網(wǎng)的IT運(yùn)維可視化管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
《舍不得星星》特輯:摘顆星星給你呀
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
向量垂直在解析幾何中的應(yīng)用
繁峙县| 徐闻县| 甘洛县| 龙川县| 永和县| 遵义县| 嵊泗县| 平塘县| 玛沁县| 建昌县| 仙桃市| 兴仁县| 莎车县| 濉溪县| 许昌市| 庆城县| 莒南县| 富锦市| 台北县| 华蓥市| 鄂州市| 桓台县| 浙江省| 河西区| 广饶县| 温宿县| 富顺县| 依安县| 威远县| 喀喇沁旗| 仁怀市| 凌源市| 荆门市| 吴堡县| 杭锦后旗| 宜春市| 福泉市| 潮安县| 开封市| 泰来县| 武乡县|