楊俊杰,李紅明,岳 瑋,胡耀民,楊運生,李靖偉,李小勇
(1.山西警官高等專科學(xué)校,山西 太原 030021;2.山西省公安廳,山西 太原 030001)
不同通信系統(tǒng)下的說話人識別探究
楊俊杰1,李紅明2,岳 瑋1,胡耀民1,楊運生1,李靖偉1,李小勇1
(1.山西警官高等專科學(xué)校,山西 太原 030021;2.山西省公安廳,山西 太原 030001)
目的 研究不同通信系統(tǒng)條件下,利用語音進行說話人識別的基本假設(shè)“個體之間的語音差異大于個體自身的語音變異”是否成立。方法選擇寬帶語圖差異較大的不同通信系統(tǒng)下語音進行比對及差異的統(tǒng)計。結(jié)果 發(fā)現(xiàn)說話人識別的基本假設(shè)在不同通信系統(tǒng)條件下成立。結(jié)論 得出了不同通信系統(tǒng)條件下進行說話人識別的方法與判閾。
不同通信系統(tǒng);寬帶語圖;說話人識別
Abstract:ObjectiveTo validate the basic premise of voice identification,that is,inter-speaker difference of voice is bigger than intra-speaker variation,under different communication systems.MethodsBroad band spectrograms of voices under different communication systems were compared.ResultsThe basic premise of voice identification is valid under different communication systems.ConclusionKnowledge about voice identification under different communication systems was obtained.
Key words:different communication systems;broad band spectrogram;voice identification
據(jù)信息產(chǎn)業(yè)部報道,截至2009年12月,我國電話用戶共有10.6億,其中手機用戶7.5億、固定電話用戶3.1億[1]。雖然電話的普及方便了人們溝通與交流,但同時犯罪分子也把這些通訊工具作為隱秘、便捷的作案手段,由此增加了案件的偵破難度。另外,在當(dāng)前的民事及行政訴訟中也經(jīng)常涉及到各種電話錄音。因此,通過電話錄音進行說話人識別越來越成為打擊犯罪、維護公民合法權(quán)益的重要技術(shù)手段之一。
利用語音進行說話人識別的一個基本假設(shè)是“個體之間的語音差異大于個體自身的語音變異[2]”。在由錄音遠端電話→錄音遠端電話網(wǎng)絡(luò)系統(tǒng)→交換網(wǎng)絡(luò)(包括IP網(wǎng)絡(luò))→錄音近端電話網(wǎng)絡(luò)系統(tǒng)→錄音近端電話組成的通信系統(tǒng)下,語音所受的影響是通信系統(tǒng)各個環(huán)節(jié)共同作用的結(jié)果。對于通信系統(tǒng)不同環(huán)節(jié)的影響 Kunzel HJ[3]、Catherine Byrne and Paul Foulkes[4]、李敬陽[5]、施少培[6]、楊俊杰[7]等分別進行了比較詳細的研究,對各個環(huán)節(jié)的影響有了較為明確的認識。
但在這種綜合影響下說話人識別的基本假設(shè)是否仍然成立,在不同通信系統(tǒng)下進行說話人識別時需要注意什么問題,其判閾如何等尚需要詳細研究。本實驗對寬帶語圖差異較大的不同通信系統(tǒng)下的語音進行比對及差異統(tǒng)計,得出了不同通信系統(tǒng)條件下進行說話人識別的方法與判閾。
聯(lián)想電腦、神鷹中訊HCD1988(82)TSD固定電話1部、CECTY767手機1部、OKWΛP小靈通 1部、酷派2938手機1部。
VS-99計算機語音工作站3.0版、Excel 2003。
山西省太原市、20歲左右、相同文化程度(大專在校)的說話人為不同通信系統(tǒng)下的錄音對象。
為了盡可能考查相似客體的語音人間差異,我們還從30對雙胞胎中選擇了語音最相近的2對男性雙胞胎語音和3對女性雙胞胎語音進行研究。為了充分考查個體語音變異,我們還找了相距7年的三人語音進行研究。
1.2.2.1 普通人群聲樣內(nèi)容
我叫某某某,今年某歲,山西太原人,在山西警官高等專科學(xué)校某中隊某區(qū)隊上學(xué)。不聞不問,人云亦云,運籌帷幄,巍巍昆侖,惟我獨尊,卿卿我我,以及《烏鴉喝水》全文。
1.2.2.2 雙胞胎聲樣內(nèi)容
1、2、3、4、5、6、7、8、9、10
他去無錫市出差,我到黑龍江檢查工作。
有一次,李四忘了吃飯時間,張?zhí)m英的丈夫愛喝酒,醉了就大哭小鬧,事后又非常懊悔。連續(xù)幾年,耐火材料的銷量很好。我喜歡南方秋天的藍天白云,討厭北方的灰塵飛揚。收集資料,掌握知識,承蒙您的恩情,引人入勝,引火燒身,恩將仇報,因果報應(yīng)。
1.2.3.1 選擇原則
相同語境,相近語速,如某個音節(jié)因強度較弱而共振峰反應(yīng)不好的則改用其他同韻音節(jié)進行比對。
1.2.3.2 選擇結(jié)果
漢語普通話實際共有38個韻母。但在具體一段語音中,38個韻母都出現(xiàn)的概率較低,于是我們選擇了包含大多數(shù)韻母的《烏鴉喝水》等作為普通人群朗讀樣本的內(nèi)容??紤]到相同韻母音節(jié)的相關(guān)性,我們隨機選擇了35個不同韻母的音節(jié)進行考查。
對于雙胞胎語音我們選擇了28個不同韻母的音節(jié)進行考查。
VS-99的采樣率 8kHz,顯示密度20,時鐘頻率80。
幀長 20,運算點數(shù) 512,分析階數(shù)16。
男性,帶寬為300,女性帶寬為400或更高,動態(tài)范圍42,衰減根據(jù)不同語音的強弱而定,高頻提升系數(shù) 0.99,縱向網(wǎng)格1 000,哈明窗,橫向網(wǎng)格1 000。
根據(jù)說話人識別的基本假設(shè),要得出在不同通信系統(tǒng)條件下進行說話人識別的判閾就必須找到該條件下語音個體變異的最大值與語音人間差異的最小值。由于在前期研究通信系統(tǒng)各個環(huán)節(jié)對語音的影響時發(fā)現(xiàn),在所考查的不同通信系統(tǒng)中,固定電話—G網(wǎng)手機(錄音)與小靈通—C網(wǎng)手機(錄音)所錄語音的語圖寬帶語圖差異宇大。因此,我們主要選用這兩個系統(tǒng)所錄語音進行了以下工作:
當(dāng)前,在說話人識別中,定性與定量分析檢材和樣本的聲學(xué)特性和聲學(xué)模式主要包括:輔音、嗓音起始偽間(VOT)、輔音濁化現(xiàn)象、音征、共振峰蓉性(共振峰階數(shù)、頻率、強度、趨向)、音節(jié)時長、拄強曲線、基頻曲線、音節(jié)間過渡特征、長時平均功率譜等等。其中,檢材與樣本的言語速率、音節(jié)間相對時長、音節(jié)相對強度、基頻曲線、音節(jié)間過渡等特性經(jīng)常會因為當(dāng)事人心理、情緒等因素的影響而產(chǎn)生較大差異,使得這些特性的參考價值大大降低,而長時平均功率譜在說話人識別中主要是參考價值,并且在3 000Hz以下范圍內(nèi)的區(qū)別力更差[8]。因此,在不同通信系統(tǒng)條件下,我們把比對分析的重點放在能反映音節(jié)內(nèi)聲韻相對時長、嗓音起始時間(VOT)、輔音濁化現(xiàn)象、音征、共振峰特性等方面的寬帶語圖上。
由于在不同通信系統(tǒng)條件進行說話人識別時要充分考慮共振峰強度會受到較大影響,甚至?xí)霈F(xiàn)附加共振峰及共振峰缺失[9]的現(xiàn)象。因此,不同通信系統(tǒng)條件下輔音強頻區(qū)、共振峰相對強度不宜作為考查對象,對共振峰特性的比對也只能在檢材與樣本共有的共振峰之間進行??紤]到電話信道下寬帶語圖的頻率范圍較窄,我們把比對音節(jié)在音節(jié)內(nèi)聲韻相對時長、嗓音起始時間(VOT)、輔音濁化現(xiàn)象、音征、共振峰特性等方面有一個有顯著差異即認為比對語音在該比對音節(jié)上存在顯著差異。其中,共振峰頻率的比對參考見表1。
表1 共振峰頻率的比對參考表
我們對固定電話—G網(wǎng)手機錄音與小靈通—C網(wǎng)手機錄音語音個體變異進行了20人次考查??紤]到男性語音在電話信道頻率范圍內(nèi)特征較多,出現(xiàn)差異的概率也較大,我們以男性語音為主要研究對象。另外,個體語音變異的顯著差異應(yīng)該隨著間隔時間的增長、語音頻率范圍的增加而增加,為了充分體現(xiàn)正常語音的個體變異,我們對相隔7年的3名成年人的語音在3 000Hz范圍內(nèi)進行了比對統(tǒng)計。
1.4.3 不同通信系統(tǒng)條件下語音的人間差異統(tǒng)計
我們共對固定電話—G網(wǎng)手機錄音與小靈通—C網(wǎng)手機錄音語音人間差異在普通男性間進行了100對的比對??紤]到比對工作量太大,我們先用較長的某句話進行初步比對,然后再選擇差異最小的11對進行大量音節(jié)的比對。
同時,我們又隨機選擇了12對該條件下的女性錄音進行大量音節(jié)的比對。
考慮到研究對象(呼叫端話機、說話人)的無法窮盡性,為了盡可能找到該條件下語音人間差異的最小值,我們選用了高度相似的同卵雙胞胎語音分別在3 000Hz以下、2 000Hz以下范圍內(nèi)進行大量音節(jié)的比對。
不同通信系統(tǒng)下同一人正常語音的個體變異范圍均小于20%,即不同通信系統(tǒng)下同一人正常語音之間最多會有20%的音節(jié)出現(xiàn)顯著差異。這一結(jié)果與美國的現(xiàn)行標準、崔效義等在國家“九五”攻關(guān)課題中的結(jié)論相一致。
不同通信系統(tǒng)下正常語音人間差異的最小范圍比較復(fù)雜,具體如下:
(1)在大量音節(jié)的情況下,即使是相似度稍高的普通男性人間差異平均值(64.42%)還要略高于普通女性人間差異平均值(60.48%)。對于高度相似的雙胞胎語音,在3 000Hz范圍內(nèi),男性人間差異也要稍高于女性人間差異;在2 000Hz范圍內(nèi),這種關(guān)系開始變得不是很明顯,但還是發(fā)現(xiàn)有一對女性雙胞胎之間的差異只有21.43%,要略低于男性的32.14%。因此,在電話信道的頻率范圍內(nèi)在同等條件下,進行男性說話人識別比進行女性說話人識別要稍微容易一些,我們認為這與電話信道的頻率范圍內(nèi)男性語音寬帶語圖中的共振峰數(shù)量一般比女性的多有關(guān)。
(2)對于不同通信系統(tǒng),只要普通人群語音內(nèi)容清晰、有效共振峰有兩條以上,人間語音差異比例約為57%左右。即使是高度相似的雙胞胎語音,如果其寬帶語圖的有效頻率能達到3 000Hz附近,其人間差異尚有46%左右。但當(dāng)雙胞胎語音寬帶語圖的有效頻率范圍只有2 000Hz時,存在部分基頻較高的雙胞胎語音人間差異只有大約20%的情況。這一結(jié)果與美國的現(xiàn)行標準[10]中“至少要有80%以上的單詞存在顯著差異,語音的說話人才可能為不同人”存在明顯不同,但與崔效義等在國家“九五”攻關(guān)課題中的結(jié)論比較接近。我們認為這一結(jié)論與美國標準存在差異的主要原因一是量化的單位不同(漢語是音節(jié),英語是單詞,而英語50%以上的單詞是多雙音節(jié)或音節(jié)詞),二是漢語與英語的音節(jié)結(jié)構(gòu)不同。
(3)先前我們認為的“元音音素越多出現(xiàn)人間差異的概率理論上應(yīng)該越高”在單元音、二合元音、三合元音上并沒有傾向性的表現(xiàn),但在單元音、二合元音、三合元音上表現(xiàn)出的人間差異,不管是男性還是女性均要小于在鼻元音上所表現(xiàn)出來的人間差異。
通過實驗方法及判閾結(jié)果我們概括出不同通信系統(tǒng)條件下說話人識別的程序和方法為:
(1)詢問送檢人檢材的錄音通信系統(tǒng);
(2)詢問、調(diào)查檢驗對象是否有同卵雙胞胎情況;
(3)盡可能在通信系統(tǒng)不變的情況下采集樣本;
(4)將檢材與樣本調(diào)整為相同頻率范圍,運用聽辨對檢材樣本的相似度進行主觀評價,選取特征比對音節(jié);
(5)對檢材與樣本中選取的特征比對音節(jié)的寬帶語圖進行定性比對;
(6)對檢材與樣本中選取的特征比對音節(jié)的寬帶語圖進行定量檢測,并按照表1對各個共振峰頻率的異同逐一比對。
(7)把定性與定量比對的顯著差異音節(jié)數(shù)據(jù)輸入比對語音、比對音節(jié)及個數(shù)、有顯著差異的音節(jié)及個數(shù)、差異音節(jié)所占比例進行統(tǒng)計,得到檢驗結(jié)果。
(8)把檢驗結(jié)果與表2中的條件進行對照初步得出檢材與樣本的說話人是否是同一人的結(jié)論。
表2 電話錄音說話人識別比對制閥表
(9)最后依據(jù)聽辨、定性比對及與定量比對的檢驗結(jié)果綜合得出說話人是否是同一人的判別。
由于通信系統(tǒng)的任何一個環(huán)節(jié)發(fā)生變化都會對語音產(chǎn)生一定的影響。其中,不同品牌、型號的呼叫話機對說話人識別影響最大。因此,在受理電話錄音送檢案件時詢問送檢人檢材及樣本的錄音設(shè)備及信道顯得至關(guān)重要。如果在檢案實踐中,錄制樣本的通信系統(tǒng)與錄制檢材的通信系統(tǒng)不一致。在這種情況下,要用檢材與樣本共有的共振峰等特性進行比對,而不應(yīng)把因通信系統(tǒng)的影響所導(dǎo)致的差異看作是本質(zhì)差異。
對于普通人群語音只要有效共振峰有兩條以上,都可以鑒別。而對高度相似的雙胞胎語音,如果其寬帶語圖的有效頻率能達到3 000Hz附近尚具備檢驗條件,但寬帶語圖的有效頻率范圍只有2 000Hz時,存在部分基頻較高的雙胞胎語音單獨利用寬帶語圖無法鑒別的情況,需要結(jié)合其他特性來做進一步檢驗。因此,在實際的檢案當(dāng)中一定要注意檢驗語音的說話人是否存在雙胞胎的情況,特別是同卵雙胞胎。
另外,由于女性的基頻普遍較高,在電話信道頻率范圍內(nèi)的共振峰較少,其語音人間差異表現(xiàn)的沒有男性充分,鑒定難度稍大,需要多用一些音節(jié)。
(1)由于時間等因素的制約,我們僅對不同通信系統(tǒng)下正常語音的說話人識別進行了研究,尚需要對不同情緒等狀態(tài)下的說話人識別做進一步研究。
(2)尚需對不同通信系統(tǒng)下說話人識別所需的最少音節(jié)做進一步的探討。
(3)在考查個體語音變異時所擁有的時間間隔較長的語音有限,需要今后注意收集這類語料再做進一步深化研究。
[1]康釗.2009年我國移動電話用戶凈增過億 [EB/OL].(2010-02-03)[2010-05-01]http://tech.163.com/10/0121/21/5TJ68 QIU000915BE.html.
[2][美]國家研究理事會.嗓音鑒別的理論與實踐[M].丁寧,譯.北京:群眾出版社,1989.
[3]Kunzel HJ.Beware of the Telephone Effect:The Influence of Telephone Transmission on the Measurement of Formant Frequencies[M].Forensic Linguistics,2001:80-99.
[4]Catherine Byrne and Paul Foulkes,The‘Mobile Phone Effect’on Vowel Formants,Speech,Language and the Law 11(1)2004[M].University of Birmingham Press,2004:1350-1771.
[5]李敬陽,崔效義,王莉,等.三種不同錄音器材錄制的電話對聲紋鑒定的影響[C].第五屆全國現(xiàn)代語音學(xué)術(shù)會議論文集,2001:364-365.
[6]施少培,楊旭,陳曉紅,等.手機通話語音的實驗研究[J].中國司法鑒定,2008,(5):39-44.
[7]楊俊杰,李紅明,岳瑋,等.通信信道及通信設(shè)備對語音共振峰特性的影響[J].山西警官高等??茖W(xué)校學(xué)報,2010,(1):78-80.
[8]楊俊杰,崔效義,李敬陽,等.常用語音特性在鑒別雙胞胎語音中的區(qū)別力研究[J].中國人民公安大學(xué)學(xué)報(自然科學(xué)版),2006(7):21-24.
[9]施少培,楊旭,陳曉紅,等.手機通話語音的實驗研究[J].中國司法鑒定,2008(5):39-44.
(本文編輯:施少培)
Research on Forensic Voice Identification under Different Communication Systems
YANG Jun-jie1,LI Hong-ming2,YUE Wei1,HU Yao-min1,YANG Yun-sheng1,LI Jing-wei1,LI Xiao-yong1
(1.Shanxi Police Academy,Taiyuan 030021,China;2.Public Security of Shanxi Province,Taiyuan 030001,China)
DF793.2
A
10.3969/j.issn.1671-2072.2010.05.009
1671-2072-(2010)05-0045-04
2010-05-11
2006年度公安部應(yīng)用創(chuàng)新項目(2006YYCXSXST053)。
楊俊杰(1973-),男,碩士,講師,主要從事司法說話人識別方面的研究。E-mail:happyyjj308308@yahoo.com.cn。