曾繁祥 楊璐銘 扶 楠 廖云根
(1.梅州市公安局刑警支隊(duì),廣東 梅州 514000 2.廣東省公安廳刑事技術(shù)中心,廣東 廣州 510000)
聲紋原指借助有關(guān)科學(xué)儀器分析、顯示出來(lái)的語(yǔ)音的圖像,即語(yǔ)音的頻譜圖。聲紋現(xiàn)指作為訴訟證據(jù)的聲音特征的集合[1]。聲紋識(shí)別是一種語(yǔ)音識(shí)別技術(shù),它的特點(diǎn)在于該技術(shù)并不分析語(yǔ)音的內(nèi)容,只在意說(shuō)話人的身份,其原理是為每個(gè)說(shuō)話人建立一個(gè)聲紋模型,先將語(yǔ)音信號(hào)中能反映說(shuō)話人身份特征的個(gè)性特征參數(shù)提取出來(lái),再進(jìn)行一定的處理后,然后按一定規(guī)則加以匹配,從而確認(rèn)或鑒別出說(shuō)話人的身份。
隨著技術(shù)的進(jìn)步,犯罪手段也在不斷創(chuàng)新,變聲器等各種干擾手段層出不窮,影響了部分語(yǔ)音的質(zhì)量,導(dǎo)致識(shí)別比對(duì)效果欠佳。筆者在辦案過(guò)程中,發(fā)現(xiàn)不少語(yǔ)音存在背景噪聲、偽裝等可能影響比對(duì)效果的現(xiàn)象。
為研究不同的念讀狀態(tài)、背景噪聲、偽裝、情緒狀態(tài)等因素對(duì)聲紋識(shí)別技術(shù)的影響,本文利用小樣本數(shù)據(jù),針對(duì)其中的三類影響因素進(jìn)行初步研究:一是被試念讀的距離與狀態(tài),二是被試念讀時(shí)的背景噪音,三是人聲語(yǔ)音疊加。
訊飛聲紋采集設(shè)備(V2.0);真我手機(jī)自帶的錄音功能;國(guó)音智能聲紋鑒定專家系統(tǒng)(V2.10.5);MixPad 多軌道混音軟件(V10.24.CN);采集的實(shí)驗(yàn)語(yǔ)音與樣本語(yǔ)音采樣率均為16000Hz;不同被試均使用統(tǒng)一的念讀文本;參與實(shí)驗(yàn)的被試:樣本1 ~3 為男性,樣本4 ~5為女性。
在安靜的語(yǔ)音環(huán)境下,使用真我手機(jī)錄制以下實(shí)驗(yàn)樣本語(yǔ)音:
3.1.1 不同的被試距離:真我手機(jī)10cm(近距離)、50cm、100cm 三種距離進(jìn)行念讀。
3.1.2 不同的被試分別進(jìn)行快速、慢速念讀。由于每名被試本身語(yǔ)速存在差異,因此快速、慢速念讀的速度均為相對(duì)值。
3.1.3 不同的被試分別偽裝(捏鼻子)念讀。
3.1.4 不同被試均錄制10s 的短時(shí)長(zhǎng)念讀語(yǔ)音。
3.1.5 不同被試均使用客家方言念讀。
3.1.6 不同被試在不同情緒狀態(tài)下進(jìn)行念讀。
3.1.7 實(shí)驗(yàn)結(jié)果。分別將實(shí)驗(yàn)語(yǔ)音與被試正常念讀的樣本語(yǔ)音導(dǎo)入國(guó)音智能聲紋鑒定專家系統(tǒng)(V2.0),采樣率均設(shè)置為16000Hz。利用系統(tǒng)自帶的聲紋比對(duì)功能,對(duì)不同的實(shí)驗(yàn)語(yǔ)音與樣本語(yǔ)音進(jìn)行比對(duì)識(shí)別,觀察分值的差異(百分制)。結(jié)果如表1 所示。
表1 實(shí)驗(yàn)一結(jié)果
從表1 可以看出,遠(yuǎn)距離(50cm)、快、慢速念讀、語(yǔ)音時(shí)長(zhǎng)因素對(duì)聲紋識(shí)別分值干擾較?。贿h(yuǎn)距離(100cm)、方言、偽裝(捏鼻子)、情緒對(duì)聲紋識(shí)別分值影響較大。遠(yuǎn)距離(100cm)使聲音變得微弱,對(duì)聲紋特征產(chǎn)生了顯著影響,降低了識(shí)別的分值。方言是人們從小習(xí)得的母語(yǔ),經(jīng)過(guò)多年聽(tīng)、說(shuō)的沉浸,一個(gè)人的聽(tīng)覺(jué)、發(fā)音器官的神經(jīng)和肌肉已形成定勢(shì),方言部分音的發(fā)音方式與普通話發(fā)音方式存在明顯差別,因此造成方言的實(shí)驗(yàn)語(yǔ)音與普通話樣本識(shí)別比對(duì)分值差別大。捏鼻子的偽裝方式改變了鼻腔共鳴模式,影響了個(gè)體聲音特征,導(dǎo)致比對(duì)分值差別大。不同情緒會(huì)影響聲音的頻率、強(qiáng)度、韻律、語(yǔ)速和語(yǔ)調(diào)等特征,高亢的情緒使聲音變得更高更快、更尖銳、更強(qiáng)烈;低沉的情緒會(huì)使聲音變得更低、更柔和、緩慢,因此聲紋特征變得不穩(wěn)定,會(huì)對(duì)聲紋識(shí)別比對(duì)產(chǎn)生明顯的影響。但在偽裝(捏鼻子)、情緒低落的實(shí)驗(yàn)語(yǔ)音比對(duì)結(jié)果中發(fā)現(xiàn)男性被試比對(duì)分值影響顯著,女性被試比對(duì)分值影響較小,可能與個(gè)體部分語(yǔ)音特征相關(guān),由于樣本數(shù)量有限,有待進(jìn)一步研究。
將日常生活中常見(jiàn)的背景噪音,利用MixPad 多軌道混音軟件(V10.24.CN)疊加入樣本語(yǔ)音,合成導(dǎo)出為實(shí)驗(yàn)語(yǔ)音,疊加參數(shù)如圖1 所示,研究多變背景環(huán)境音對(duì)聲紋識(shí)別的影響。
圖1 實(shí)驗(yàn)語(yǔ)音疊加參數(shù)
3.2.1 疊加背景音樂(lè),音樂(lè)類型為平緩的無(wú)人聲音樂(lè)。
3.2.2 疊加風(fēng)噪聲。
3.2.3 疊加電視播放聲,播放內(nèi)容為紀(jì)錄片。
3.2.4 疊加物體摩擦、敲擊聲。
3.2.5 實(shí)驗(yàn)結(jié)果。分別將實(shí)驗(yàn)語(yǔ)音與被試正常念讀的樣本語(yǔ)音導(dǎo)入國(guó)音智能聲紋鑒定專家系統(tǒng)(V2.0),采樣率均設(shè)置為16000Hz。利用系統(tǒng)自帶的聲紋比對(duì)功能對(duì)不同的實(shí)驗(yàn)語(yǔ)音與樣本語(yǔ)音進(jìn)行比對(duì)評(píng)分,觀察分值的差異(百分制)。結(jié)果如表2 所示。
表2 實(shí)驗(yàn)二結(jié)果
從表2 可以看出,疊加背景音樂(lè)、風(fēng)噪聲、電視播放聲、物體摩擦敲擊聲等加性噪音均會(huì)對(duì)聲紋識(shí)別產(chǎn)生明顯的影響。加性噪音[2]會(huì)影響原始語(yǔ)音的特征,在提取特征時(shí),特征也會(huì)受到噪音的影響;噪音還會(huì)引起語(yǔ)音質(zhì)量下降,使其模糊、失真;噪音與原始語(yǔ)音信息混合在一起,會(huì)導(dǎo)致語(yǔ)音信噪比下降,使聲紋識(shí)別系統(tǒng)難以分辨語(yǔ)音信號(hào)和噪音信號(hào),進(jìn)而影響聲紋識(shí)別評(píng)分的準(zhǔn)確率。
采用MixPad 多軌道混音軟件(V10.24.CN)將2 名不同被試在安靜的語(yǔ)音環(huán)境下采集的實(shí)驗(yàn)語(yǔ)音與樣本語(yǔ)音進(jìn)行疊加,并從疊加語(yǔ)段中隨機(jī)選取2min 時(shí)長(zhǎng)的語(yǔ)音,合成導(dǎo)出為實(shí)驗(yàn)語(yǔ)音,疊加參數(shù)如圖1 所示,與其原始樣本語(yǔ)音的識(shí)別分值進(jìn)行分析比對(duì)。
3.3.1 同一被試在樣本語(yǔ)音與實(shí)驗(yàn)語(yǔ)音中念讀的是不同的文本。
3.3.2 為了研究女性與女性聲音的疊加,增加了女性被試5。
3.3.3 實(shí)驗(yàn)結(jié)果
分別將實(shí)驗(yàn)語(yǔ)音與被試正常念讀的樣本語(yǔ)音導(dǎo)入國(guó)音智能聲紋鑒定專家系統(tǒng)(V2.0),采樣率均設(shè)置為16000Hz。利用系統(tǒng)自帶的聲紋比對(duì)功能對(duì)不同的實(shí)驗(yàn)語(yǔ)音與樣本語(yǔ)音進(jìn)行比對(duì)評(píng)分,觀察分值的差異(百分制)。結(jié)果如表3 所示(標(biāo)紅的數(shù)據(jù)為同一人疊加比對(duì)分?jǐn)?shù))。
表3 實(shí)驗(yàn)三結(jié)果
從表3 的實(shí)驗(yàn)數(shù)據(jù)可以看出,疊加他人語(yǔ)音后的實(shí)驗(yàn)語(yǔ)音與原樣本語(yǔ)音相比,分值均有降低,其中疊加他人語(yǔ)音后樣本1、3、4 比對(duì)分值下降較明顯,這是由于一個(gè)人說(shuō)話的語(yǔ)音信號(hào)被另一個(gè)人所覆蓋,干擾了系統(tǒng)對(duì)聲紋特征的提取和匹配,從而影響聲紋識(shí)別的準(zhǔn)確性。雖然有他人的語(yǔ)音疊加,但是樣本2 的比對(duì)分值下降相對(duì)較小,樣本1 的分值下降顯著,說(shuō)明聲紋識(shí)別度并不是一成不變的,而是與自身語(yǔ)音在混合音中的強(qiáng)度有關(guān),自身語(yǔ)音被他人說(shuō)話聲淹沒(méi)程度低的,則自身語(yǔ)音被識(shí)別程度高,反之,自身語(yǔ)音淹沒(méi)程度高的,被識(shí)別程度就低。
此外,從實(shí)驗(yàn)結(jié)果可以看出,同一被試疊加了他人語(yǔ)音后,明顯降低了識(shí)別比對(duì)分值。但無(wú)論是男女疊加、男男疊加或女女疊加后,識(shí)別比對(duì)所降低的分差之間的差異都不明顯,這說(shuō)明在該算法下,只要混合了他人語(yǔ)音均會(huì)降低識(shí)別比對(duì)分?jǐn)?shù),但分?jǐn)?shù)的下降程度與所混合語(yǔ)音的性別無(wú)關(guān)。
通過(guò)上述三個(gè)實(shí)驗(yàn)可以得出,念讀狀態(tài)、背景噪聲、語(yǔ)音疊加等因素對(duì)聲紋識(shí)別技術(shù)有明顯影響,但是程度各有不同。例如在實(shí)驗(yàn)三中,樣本1說(shuō)話人識(shí)別分值受語(yǔ)音疊加的影響顯著,樣本3 的說(shuō)話人無(wú)論在實(shí)驗(yàn)二、實(shí)驗(yàn)三中,受實(shí)驗(yàn)因素影響相對(duì)不大,比對(duì)分?jǐn)?shù)較穩(wěn)定。說(shuō)明有的人存在部分不易受外界影響較穩(wěn)定的聲紋特征,同時(shí)部分人的聲紋特征容易被影響受波動(dòng),此外還可能與特征算法相關(guān)。由于這次實(shí)驗(yàn)樣本較少,有待進(jìn)一步擴(kuò)大樣本深入研究。
通過(guò)以上實(shí)驗(yàn)數(shù)據(jù)可知,實(shí)際案件中的語(yǔ)音存在著遠(yuǎn)距離說(shuō)話、各種情緒狀態(tài)、偽裝說(shuō)話、背景噪音、多人語(yǔ)音疊加等各種情況影響,對(duì)目標(biāo)人物的聲紋識(shí)別造成一定干擾。針對(duì)上述較低質(zhì)量的語(yǔ)音,在進(jìn)行聲紋識(shí)別比對(duì)前,可以將低質(zhì)量的語(yǔ)音進(jìn)行優(yōu)化清洗,進(jìn)而提升語(yǔ)音識(shí)別度,例如:(1)對(duì)于錄制設(shè)備離聲源較遠(yuǎn)距離、能量較低的語(yǔ)音進(jìn)行增益調(diào)節(jié)來(lái)提升語(yǔ)音的識(shí)別度;(2)對(duì)于存在較多背景噪音的語(yǔ)音,可以將語(yǔ)音的背景噪音刪除,若噪音與目標(biāo)人無(wú)法分離,可對(duì)背景噪音進(jìn)行降噪處理[3],適當(dāng)?shù)叵魅醣尘霸胍簦唬?)對(duì)于多人說(shuō)話音,可先對(duì)語(yǔ)音進(jìn)行分離分類,后將目標(biāo)人物分離后的語(yǔ)音聚類后再進(jìn)行聲紋比對(duì);(4)分析評(píng)判時(shí)需要結(jié)合考慮特定情緒因素下的語(yǔ)音特征,提高識(shí)別精確度。