基于得分規(guī)整的說(shuō)話人確認(rèn)

2020-03-18 09:42梁春燕

智能計(jì)算機(jī)與應(yīng)用 2020年10期

曹偉，梁春燕

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東淄博 255049)

0 引言

說(shuō)話人識(shí)別，也稱為聲紋識(shí)別，是指利用語(yǔ)音波紋中所包含的信息自動(dòng)識(shí)別說(shuō)話人身份的技術(shù)[1]。由于語(yǔ)音獲取方便，采集設(shè)備簡(jiǎn)單，并能通過(guò)網(wǎng)絡(luò)遠(yuǎn)程識(shí)別，說(shuō)話人識(shí)別正成為一種主要的生物特征識(shí)別手段[2]。

根據(jù)識(shí)別的目的不同，說(shuō)話人識(shí)別可以分為說(shuō)話人辨認(rèn)(Speaker Identification)和說(shuō)話人確認(rèn)(Speaker Verification)兩種方式[3]。說(shuō)話人辨認(rèn)是從給定說(shuō)話人集合中找到與測(cè)試語(yǔ)音匹配的說(shuō)話人；說(shuō)話人確認(rèn)是判斷測(cè)試語(yǔ)音是否屬于某個(gè)預(yù)先聲明的說(shuō)話人，即需要將測(cè)試識(shí)別對(duì)(由測(cè)試語(yǔ)音和其聲明的說(shuō)話人身份構(gòu)成)作出“True”或“False”的二類判決。根據(jù)是否依賴于語(yǔ)音的內(nèi)容，說(shuō)話人識(shí)別可以分為與文本有關(guān)和與文本無(wú)關(guān)兩種類型[4]。本文主要基于文本無(wú)關(guān)的說(shuō)話人確認(rèn)展開(kāi)研究。

在說(shuō)話人確認(rèn)的測(cè)試階段，不同識(shí)別對(duì)的得分分布存在著很大的差異性[5]，差異性主要來(lái)自以下方面：

(1)相同說(shuō)話人的不一致性。由于受時(shí)間、健康狀況、心理狀態(tài)、錄音條件等因素的影響，同一說(shuō)話人的不同測(cè)試語(yǔ)音在目標(biāo)說(shuō)話人模型上的得分并不是一個(gè)恒定值，而是呈現(xiàn)某種概率分布。

(2)不同說(shuō)話人之間的不一致性。由于受說(shuō)話習(xí)慣、嗓音、語(yǔ)言等因素的影響，不同說(shuō)話人模型對(duì)應(yīng)的識(shí)別對(duì)得分表現(xiàn)出不一致性。有的說(shuō)話人模型對(duì)應(yīng)的識(shí)別對(duì)得分普遍偏高，有的說(shuō)話人模型對(duì)應(yīng)的識(shí)別對(duì)得分則相對(duì)偏低。

(3)不同測(cè)試語(yǔ)音間的不一致性。在時(shí)長(zhǎng)、環(huán)境噪聲、信道情況等影響下，不同測(cè)試語(yǔ)音對(duì)應(yīng)的識(shí)別對(duì)得分也會(huì)表現(xiàn)出不一致性，比如有的測(cè)試語(yǔ)音對(duì)應(yīng)的識(shí)別對(duì)得分普遍偏高，有的測(cè)試語(yǔ)音對(duì)應(yīng)的識(shí)別對(duì)得分則偏低，而有的測(cè)試語(yǔ)音在目標(biāo)說(shuō)話人模型和非目標(biāo)說(shuō)話人模型上的得分比較接近，不容易區(qū)分。

綜合以上方面的原因，如果將所有識(shí)別對(duì)的得分匯集在一起，“True”和“False”兩類識(shí)別對(duì)的得分會(huì)出現(xiàn)嚴(yán)重的交叉和混疊；在這種情況下使用統(tǒng)一的門限對(duì)每一個(gè)識(shí)別對(duì)作“True”或“False”的判決，會(huì)嚴(yán)重影響說(shuō)話人確認(rèn)系統(tǒng)的性能[6]。因此，需要在識(shí)別對(duì)原始得分的基礎(chǔ)上進(jìn)行得分規(guī)整[7]。

目前最常用也是最典型的得分規(guī)整方法有零規(guī)整(Zero normalization，Znorm)、測(cè)試規(guī)整(Test normalization，Tnorm)以及二者的結(jié)合算法ZTnorm等，通過(guò)估計(jì)“False”識(shí)別對(duì)的得分分布，對(duì)測(cè)試識(shí)別對(duì)的得分進(jìn)行規(guī)整，將“False”識(shí)別對(duì)的得分規(guī)整為均值為0、方差為1的分布，從而消除不同說(shuō)話人模型間的差異或不同測(cè)試語(yǔ)音之間的差異，有效減小兩類識(shí)別對(duì)得分匯集后的混疊部分，從而提高說(shuō)話人確認(rèn)的系統(tǒng)性能。一般來(lái)說(shuō)，得分規(guī)整不受限于系統(tǒng)所使用的說(shuō)話人模型建立方法，無(wú)論是簡(jiǎn)單基礎(chǔ)的高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model，GMM-UBM)，還是目前比較主流的聯(lián)合因子分析(Joint Factor Analysis，JFA)、總變化因子分析(Total Variability Factor Analysis)技術(shù)等，原始測(cè)試得分均需要進(jìn)行得分規(guī)整，而現(xiàn)有的得分規(guī)整方法也都適用于基于以上不同說(shuō)話人模型的確認(rèn)系統(tǒng)。

現(xiàn)有的得分規(guī)整方法中，大多數(shù)都是通過(guò)規(guī)整“False”識(shí)別對(duì)得分分布的方式，以減小兩類識(shí)別對(duì)得分匯集后的重疊部分，卻沒(méi)有有效擴(kuò)大同一說(shuō)話人模型或同一測(cè)試語(yǔ)音對(duì)應(yīng)的兩類識(shí)別對(duì)得分之間的差距；在這些得分規(guī)整方法中，都需要預(yù)先收集和選取大量的非目標(biāo)說(shuō)話人語(yǔ)音數(shù)據(jù)來(lái)估計(jì)“False”識(shí)別對(duì)得分的均值和方差，而非目標(biāo)說(shuō)話人語(yǔ)音數(shù)據(jù)選取的好壞會(huì)影響最終得分規(guī)整的效果。

針對(duì)現(xiàn)有得分規(guī)整方法的不足，本文提出一種對(duì)數(shù)似然值歸一化得分規(guī)整算法(Log-likelihood Normalization，LLN)，通過(guò)擴(kuò)大同一測(cè)試語(yǔ)音在目標(biāo)說(shuō)話人模型與非目標(biāo)說(shuō)話人模型上的得分差距，使同一測(cè)試語(yǔ)音對(duì)應(yīng)的兩類識(shí)別對(duì)得分混疊現(xiàn)象得到有效改善；與Znorm、Tnorm和ZTnorm等方法相結(jié)合，可同時(shí)從不同角度解決兩類識(shí)別對(duì)得分匯集后的混疊問(wèn)題，從而進(jìn)一步提高系統(tǒng)識(shí)別性能。

1 說(shuō)話人確認(rèn)系統(tǒng)

1.1 說(shuō)話人確認(rèn)系統(tǒng)的基本框架

說(shuō)話人確認(rèn)系統(tǒng)如圖1所示，主要分為三部分：提取特征、建立模型和打分判決[8]。

圖1 說(shuō)話人確認(rèn)系統(tǒng)

1.2 說(shuō)話人確認(rèn)系統(tǒng)的評(píng)價(jià)指標(biāo)

在說(shuō)話人確認(rèn)系統(tǒng)中，每一次測(cè)試，就是將一組識(shí)別對(duì)進(jìn)行“True”和“False”判決的過(guò)程。當(dāng)本是“False”的識(shí)別對(duì)判決為“True”(非目標(biāo)說(shuō)話人被接受)時(shí)，稱之為“虛警”(False Alarm)；當(dāng)本是“True”的識(shí)別對(duì)判決為“False”(目標(biāo)說(shuō)話人被拒絕)時(shí)，稱之為“漏檢”(Miss)，這兩種錯(cuò)判出現(xiàn)的概率分別稱為虛警率和漏檢率。

(1)等錯(cuò)率(Equal Error Rate，EER)。實(shí)際應(yīng)用中，應(yīng)同時(shí)降低虛警率和漏檢率，然而這二種錯(cuò)誤概率相互約束，隨著判決門限設(shè)定的不同，二者呈相反趨勢(shì)變化，只有當(dāng)虛警率和漏檢率大致相等的時(shí)候，系統(tǒng)的性能被認(rèn)為達(dá)到了最大發(fā)揮，此時(shí)的錯(cuò)誤率稱為等錯(cuò)率(EER)。

(2)最小檢測(cè)代價(jià)(Minimum Value of Detection Cost Function，minDCF)。不同的應(yīng)用場(chǎng)景對(duì)虛警率和漏檢率要求不同，系統(tǒng)門限的設(shè)定會(huì)按需調(diào)整，為了對(duì)不同情況下系統(tǒng)性能進(jìn)行更加貼切地描述，引入了檢測(cè)代價(jià)函數(shù)(Detection Cost Function，DCF)的概念，其數(shù)學(xué)表達(dá)式(1)為：

(1)

其中，CM和CFA分別是漏檢率PM|T和虛警率PFA|NT對(duì)應(yīng)的代價(jià)，PT是測(cè)試中應(yīng)該判決為“True”的識(shí)別對(duì)出現(xiàn)的概率，(1-PT)是應(yīng)該判決為“False”的識(shí)別對(duì)出現(xiàn)的概率。檢測(cè)代價(jià)函數(shù)是描述識(shí)別錯(cuò)誤發(fā)生后損失大小的一個(gè)函數(shù)，可以很好地表示系統(tǒng)的性能。設(shè)定門限可以得到該門限對(duì)應(yīng)的DCF值，遍歷判決門限，獲得最小檢測(cè)代價(jià)(minDCF)，這是目前美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院說(shuō)話人識(shí)別評(píng)測(cè)(NIST SRE)中最重要的指標(biāo)。

1.3 零規(guī)整(Znorm)和測(cè)試規(guī)整(Tnorm)

Znorm方法是用大量非目標(biāo)說(shuō)話人語(yǔ)音對(duì)目標(biāo)說(shuō)話人模型打分，計(jì)算出對(duì)應(yīng)于目標(biāo)說(shuō)話人模型λ的輔助參數(shù)均值μλ和方差σλ，用來(lái)規(guī)整得分分布的差異，其得分規(guī)整公式(2)如下：

(2)

Tnorm是用測(cè)試語(yǔ)音對(duì)大量非目標(biāo)說(shuō)話人模型計(jì)算得分，得到對(duì)應(yīng)于測(cè)試語(yǔ)音的輔助參數(shù)，同樣是均值和方差，用來(lái)減少測(cè)試語(yǔ)音環(huán)境不同對(duì)得分分布的影響，最終得分公式同(2)。

對(duì)于說(shuō)話人確認(rèn)系統(tǒng)，Znorm參數(shù)計(jì)算在模型訓(xùn)練階段完成，Tnorm參數(shù)計(jì)算在測(cè)試階段完成。ZTnorm是在得分域?qū)⒂?xùn)練模型和測(cè)試語(yǔ)音的信息結(jié)合起來(lái)，即將Znorm和Tnorm相結(jié)合的得分規(guī)整方法。上述3種得分規(guī)整方法的不足之處是沒(méi)有有效擴(kuò)大同一說(shuō)話人模型或同一測(cè)試語(yǔ)音對(duì)應(yīng)兩類識(shí)別對(duì)得分之間的差距；并且必須引入先驗(yàn)知識(shí)，需要將訓(xùn)練數(shù)據(jù)中的一小部分預(yù)留出來(lái)作為開(kāi)發(fā)集，用來(lái)估計(jì)得分規(guī)整時(shí)需要的參數(shù)，而開(kāi)發(fā)集選取的好壞會(huì)影響最終得分規(guī)整的效果。

2 對(duì)數(shù)似然值歸一化(Log-likelihood Normalization，LLN)

本文提出一種基于LLN的得分規(guī)整方法，該方法相對(duì)于Znorm、Tnorm和ZTnorm的優(yōu)勢(shì)在于擴(kuò)大了同一測(cè)試語(yǔ)音在目標(biāo)說(shuō)話人模型與非目標(biāo)說(shuō)話人模型上的得分差距，使同一測(cè)試語(yǔ)音對(duì)應(yīng)的兩類識(shí)別對(duì)得分混疊現(xiàn)象得到有效改善；并且可以直接對(duì)測(cè)試得分進(jìn)行規(guī)整，不需要引入先驗(yàn)知識(shí)，因此不需要預(yù)留訓(xùn)練數(shù)據(jù)。

(3)

(1)如果i=t，則Si較大，規(guī)整量Ni因不包含St，故數(shù)值較??；

(2)如果i≠t，則Si較小，規(guī)整量Ni因包含St，故數(shù)值較大。

公式(3)中每個(gè)得分Si作為e的指數(shù)是考慮目標(biāo)說(shuō)話人模型得分的獨(dú)特性(較大且數(shù)目少)，充分?jǐn)U大其得分的影響，求和是利用非目標(biāo)說(shuō)話人模型得分的共同特點(diǎn)(較小且數(shù)目多)，減少單個(gè)得分的影響，取對(duì)數(shù)可避免非目標(biāo)說(shuō)話人模型得分的規(guī)整量差距過(guò)大。經(jīng)過(guò)(3)式規(guī)整，測(cè)試語(yǔ)音對(duì)目標(biāo)說(shuō)話人模型和非目標(biāo)說(shuō)話人模型得分差距會(huì)進(jìn)一步拉大，即可以使識(shí)別對(duì)中“True”識(shí)別對(duì)和“False”識(shí)別對(duì)的得分具有更好的區(qū)分性，從而更容易設(shè)定門限區(qū)分“True”識(shí)別對(duì)和“False”識(shí)別對(duì)，提升了系統(tǒng)確認(rèn)性能。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)配置

本文實(shí)驗(yàn)在NIST SRE 2008核心測(cè)試集 (short2-short3)的電話訓(xùn)練、電話測(cè)試(tel-tel)情況下開(kāi)展。實(shí)驗(yàn)主要針對(duì)女聲測(cè)試集，該測(cè)試情況下共23 385個(gè)測(cè)試對(duì)，涉及1 674個(gè)測(cè)試語(yǔ)音和1 140個(gè)目標(biāo)說(shuō)話人模型，在LLN得分規(guī)整階段，每個(gè)識(shí)別對(duì)得分都是基于測(cè)試語(yǔ)音數(shù)據(jù)與全部1140個(gè)說(shuō)話人模型的匹配得分經(jīng)公式(3)得到。

本實(shí)驗(yàn)中所使用的特征為36維的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficents，MFCC)特征，其每幀特征由18維的基本倒譜系數(shù)及其一次差分(delta)構(gòu)成。首先用音素解碼器來(lái)對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音活動(dòng)性檢測(cè)(Voice Activity Detection，VAD)，以去除數(shù)據(jù)中的靜音部分；然后根據(jù)25ms的窗長(zhǎng)和10 ms的窗移提取36維的MFCC特征。由于得分規(guī)整方法具有普適性，不受限于系統(tǒng)所使用的說(shuō)話人建模方法，且目前主流的說(shuō)話人建模技術(shù)大多基于GMM-UBM模型，因此本實(shí)驗(yàn)的說(shuō)話人建模方法選用簡(jiǎn)單基礎(chǔ)的GMM-UBM。使用NIST SRE 2004 1side的目標(biāo)說(shuō)話人訓(xùn)練數(shù)據(jù)訓(xùn)練與性別相關(guān)的UBM，UBM高斯數(shù)為1023[9]。并利用本征信道(Eigenchannel)技術(shù)在模型域做了信道補(bǔ)償，訓(xùn)練Eigenchannel信道空間的數(shù)據(jù)，選擇的是NIST SRE 2004、2005以及2006的電話語(yǔ)音數(shù)據(jù)，包含755個(gè)說(shuō)話人的數(shù)據(jù)，共9 855個(gè)語(yǔ)音文件。另外，從NIST SRE2006的數(shù)據(jù)中挑選了340條數(shù)據(jù)，用于Tnorm得分規(guī)整和340條數(shù)據(jù)用于Znorm得分規(guī)整，基本上保證這兩個(gè)小數(shù)據(jù)集每個(gè)說(shuō)話人只有一條語(yǔ)音數(shù)據(jù)。

3.2 實(shí)驗(yàn)結(jié)果

表1比較了Znorm、Tnorm、ZTnorm和LLN不同得分規(guī)整方法的實(shí)驗(yàn)結(jié)果。從表1可以看出，LLN在不需要開(kāi)發(fā)集的條件下，具有良好的規(guī)整性能，相比無(wú)得分規(guī)整的情況，EER相對(duì)提升9.7%，minDCF相對(duì)提升4.57%，本身的規(guī)整性能可以和Znorm、Tnorm相當(dāng)。

表1 NIST SRE 2008測(cè)試集上Znorm、Tnorm和LLN性能比較

表2是在Znorm、Tnorm和ZTnorm基礎(chǔ)上做LLN規(guī)整的實(shí)驗(yàn)結(jié)果。結(jié)合表1和表2中的實(shí)驗(yàn)結(jié)果可以看出，LLN可以大幅度提升原有說(shuō)話人確認(rèn)系統(tǒng)的性能。在Znorm基礎(chǔ)上做LLN和不做LLN相比，系統(tǒng)的EER和minDCF分別有20.45%和24.44%的性能提升；在Tnorm基礎(chǔ)上做LLN和不做LLN相比，系統(tǒng)的EER和minDCF分別有5.59%和9.98%的性能提升；在ZTnorm基礎(chǔ)上做LLN和不做LLN相比，系統(tǒng)的EER和minDCF分別有11.7%和18.69%的性能提升。

表2 NIST SRE 2008測(cè)試集上做LLN的性能

對(duì)比LLN規(guī)整前后某測(cè)試語(yǔ)音在15個(gè)說(shuō)話人模型上的得分變化，如圖2所示。其中，spk13為該測(cè)試語(yǔ)音的目標(biāo)說(shuō)話人，其余為非目標(biāo)說(shuō)話人。從圖2可以看出經(jīng)LLN規(guī)整后，測(cè)試語(yǔ)音對(duì)目標(biāo)說(shuō)話人模型和非目標(biāo)說(shuō)話人模型得分差距會(huì)進(jìn)一步拉大。如果門限保持不變，相比LLN規(guī)整前，系統(tǒng)的虛警率會(huì)明顯降低。

圖2 某測(cè)試語(yǔ)音在不同說(shuō)話人模型上得分

隨機(jī)選取500個(gè)“True”識(shí)別對(duì)和500個(gè)“False”識(shí)別對(duì)，比較LLN規(guī)整前后的得分分布，如圖3所示。從圖3可以看出經(jīng)LLN規(guī)整后，“False”識(shí)別對(duì)的得分分布明顯向左偏移，而“True”識(shí)別對(duì)的得分分布變化不明顯，“True”識(shí)別對(duì)和“False”識(shí)別對(duì)的得分差距拉大，區(qū)分性增強(qiáng)，有效降低了虛警率。因此，用統(tǒng)一的門限進(jìn)行判決時(shí)會(huì)更有優(yōu)勢(shì)。LLN雖然不會(huì)改變同一測(cè)試語(yǔ)音在每個(gè)目標(biāo)說(shuō)話人上得分的排序，但可以有效降低EER和minDCF。

(a) LLN規(guī)整前識(shí)別對(duì)得分分布曲線

(b) LLN規(guī)整后識(shí)別對(duì)得分分布曲線

4 結(jié)束語(yǔ)

針對(duì)說(shuō)話人確認(rèn)系統(tǒng)中現(xiàn)有得分規(guī)整方法的不足，本文提出基于對(duì)數(shù)似然值歸一化(LLN)的得分規(guī)整方法。對(duì)每個(gè)測(cè)試對(duì)得分，充分利用其測(cè)試語(yǔ)音與集中所有說(shuō)話人模型的得分做出規(guī)整，使同一測(cè)試語(yǔ)音對(duì)目標(biāo)說(shuō)話人模型和非目標(biāo)說(shuō)話人模型的得分差距拉大；該方法不需要預(yù)留額外開(kāi)發(fā)集來(lái)估計(jì)規(guī)整參數(shù)，在后端得分域即可進(jìn)行，因此也不受限于系統(tǒng)所使用的特征參數(shù)和模型；與已有的Znorm、Tnorm和ZTnorm得分規(guī)整方法能夠很好互補(bǔ)，使不同測(cè)試語(yǔ)音或不同說(shuō)話人模型的得分分布一致的同時(shí)，擴(kuò)大“True”和“False”兩類得分距離，在系統(tǒng)的統(tǒng)一門限下，獲得更好的確認(rèn)準(zhǔn)確率，使說(shuō)話人確認(rèn)系統(tǒng)的性能進(jìn)一步提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡