楊光,沙貴君
(中國(guó)刑事警察學(xué)院刑事犯罪偵查系,遼寧沈陽(yáng) 100845)
語(yǔ)音識(shí)別樣本采集注意事項(xiàng)研究
楊光,沙貴君
(中國(guó)刑事警察學(xué)院刑事犯罪偵查系,遼寧沈陽(yáng) 100845)
聲紋鑒定技術(shù)是一項(xiàng)法庭科學(xué)的新興技術(shù),在實(shí)際應(yīng)用中受檢驗(yàn)對(duì)象不同狀態(tài)及獲取樣本所使用錄音設(shè)備等客觀因素的影響,偵技人員提取的樣本往往質(zhì)量不佳,從而難以做出準(zhǔn)確判斷[1]。研究不同錄音條件對(duì)聲紋鑒定的影響,通過(guò)實(shí)驗(yàn)來(lái)總結(jié)出規(guī)律性的結(jié)論,提出語(yǔ)音鑒定采樣工作中應(yīng)特別注意的環(huán)節(jié),能幫助偵技人員提高采集語(yǔ)音識(shí)別樣本的水平,進(jìn)而提高聲紋鑒定的精準(zhǔn)度。
語(yǔ)音;識(shí)別樣本;聲紋鑒定;樣本采集
隨著手機(jī)錄音功能的增加以及數(shù)字錄音器材的普及,人們可以非常方便地使用相關(guān)工具進(jìn)行溝通、交流。同時(shí),犯罪嫌疑人和被害人也在利用這些錄音設(shè)備進(jìn)行相關(guān)民事和刑事行為,因此近年來(lái)涉及聲紋鑒定的案件迅速增加。但是聲紋鑒定技術(shù)屬于新興的刑事科學(xué)技術(shù)門類,偵查和相關(guān)技術(shù)人員對(duì)其認(rèn)識(shí)還不夠全面,樣本提取過(guò)程中常出現(xiàn)問(wèn)題,從而影響到聲紋鑒定結(jié)論的精準(zhǔn)度[1][2]。
許多基層偵查和技術(shù)人員并不了解聲紋鑒定的相關(guān)原理,認(rèn)為只要有嫌疑人的語(yǔ)音樣本就可以進(jìn)行鑒定,因此在收集嫌疑人語(yǔ)音樣本時(shí)不注意所提取語(yǔ)音樣本的質(zhì)量,從而給聲紋鑒定工作造成了諸多困難。因?yàn)槁暭y鑒定檢材無(wú)法改變,并且獲得比較復(fù)雜,所以我們只能在收集提取犯罪嫌疑人語(yǔ)音樣本方面多做文章來(lái)提高聲紋鑒定工作的精確度。因此,當(dāng)前聲紋鑒定工作的重要內(nèi)容之一便是研究和總結(jié)偵技人員在聲紋鑒定中收集提取犯罪嫌疑人語(yǔ)音樣本的正確方法,以此來(lái)提高所提取的語(yǔ)音樣本的質(zhì)量[3]。
筆者做過(guò)大量檢驗(yàn)鑒定工作,從實(shí)踐中發(fā)現(xiàn)以下兩方面的問(wèn)題:一是不同的錄音器材的音頻特性會(huì)對(duì)檢驗(yàn)鑒定中部分聲學(xué)參量產(chǎn)生一定程度的影響,最終導(dǎo)致對(duì)于不同的錄音器材錄制的樣本鑒定出的結(jié)果和理想的結(jié)果產(chǎn)生較大差異;二是由于發(fā)音人音量的不同,同一數(shù)字錄音器材錄制的樣本在檢驗(yàn)鑒定中的聲學(xué)參量上也會(huì)產(chǎn)生差異。如果對(duì)這些差異缺乏全面深入的分析研究,簡(jiǎn)單或者片面地把它們認(rèn)定為語(yǔ)音的本質(zhì)差異,必然會(huì)導(dǎo)致錯(cuò)誤的鑒定結(jié)論[4]。
本研究目的是進(jìn)一步闡明兩種不同錄音條件對(duì)聲學(xué)參量的影響。通過(guò)對(duì)男女各5人共兩組發(fā)音人進(jìn)行一段時(shí)間的跟蹤和多次采樣,研究元音共振峰的頻率、峰值、基音三個(gè)參量在兩種不同錄音條件下的差異情況,從而總結(jié)出在不同錄音條件下應(yīng)該注意的事項(xiàng)。
(一)實(shí)驗(yàn)器材
1.硬件
實(shí)驗(yàn)一:清華同方數(shù)字錄音筆一支,三星手機(jī)I900手機(jī)一部,蘋果4S手機(jī)一部,計(jì)算機(jī)一臺(tái)。
實(shí)驗(yàn)二:清華同方數(shù)字錄音筆一支。
2.軟件
vs-99語(yǔ)音工作站(北京陽(yáng)宸電子技術(shù)公司)。
(二)錄音內(nèi)容
(三)錄音對(duì)象
共10人,男性5人,女性5人,年齡為19~24歲,來(lái)自全國(guó)不同方言區(qū),普通話發(fā)音較為標(biāo)準(zhǔn),無(wú)特殊發(fā)音習(xí)慣。
(四)實(shí)驗(yàn)設(shè)計(jì)
本研究分為兩個(gè)實(shí)驗(yàn),分別針對(duì)不同錄音器材和不同音量?jī)煞N錄音條件對(duì)聲學(xué)參量的影響來(lái)進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)一:發(fā)音人同時(shí)手持錄音筆、蘋果手機(jī)和三星手機(jī),在音量大小相同狀態(tài)下,分別說(shuō)出以上給定的元音和短句共六句錄音內(nèi)容,連續(xù)發(fā)音2遍,并且由三種錄音設(shè)備同時(shí)錄音,使錄音設(shè)備與嘴的距離相同,都為50厘米左右,這樣就保證了三種設(shè)備錄音的聲源一致[5]。
實(shí)驗(yàn)二:發(fā)音人手持錄音筆,用正常和大聲(非喊叫)兩種語(yǔ)氣分別說(shuō)出以上給定的元音以及短句,共六句錄音內(nèi)容,并且連續(xù)發(fā)音2遍,發(fā)音人的嘴部與錄音筆的距離保持控制在50厘米。
(五)參數(shù)設(shè)置
利用vs-99語(yǔ)音工作站線分析性預(yù)測(cè)譜長(zhǎng)時(shí)平均LPC時(shí)的參數(shù)設(shè)置為8.000kHz,4位,單聲道。
(六)數(shù)據(jù)提取
選取具有代表性的5男1女共6個(gè)人,分別檢測(cè)三種錄音設(shè)備以及兩種音量錄制的語(yǔ)音材料中含有〔a〕、〔i〕、〔u〕等元音的共振峰頻率(Hz)和共振峰幅值(dB)以及基音走勢(shì)。統(tǒng)計(jì)并整理上述數(shù)據(jù),制成相應(yīng)圖譜表格。
(一)三種不同錄音器材收集語(yǔ)音樣本的分析
圖1至圖3分別顯示的是隨機(jī)選取的3位發(fā)音人在錄音筆、蘋果手機(jī)和三星手機(jī)等三種錄音器材錄制下發(fā)含有〔a〕、〔i〕、〔u〕語(yǔ)料的共振峰頻率條形統(tǒng)計(jì)圖。(注:本研究作為理論研究擴(kuò)大了共振峰采集頻率,采集的共振峰增加到F7,但實(shí)際案件中鑒定人員一般只采集到F4。)可以看出三種錄音器材檢測(cè)到的共振峰頻率各不相同,甚至出現(xiàn)了蘋果4S以及三星I900手機(jī)共振峰丟失的現(xiàn)象。
圖1 三種器材錄制發(fā)音人YG發(fā)元音〔a〕時(shí)的共振峰頻率(Hz)
圖2 三種器材錄制發(fā)音人ZCJ發(fā)元音〔i〕時(shí)的共振峰頻率(Hz)
圖3 三種器材錄制發(fā)音人WW發(fā)元音〔u〕時(shí)的共振峰頻率(Hz)
表1 兩種錄音狀態(tài)元音〔a〕第一共振峰F1幅值分析(單位:dB)
表2 兩種錄音狀態(tài)元音〔i〕第一共振峰F1幅值分析(單位:dB)
表3 兩種錄音狀態(tài)元音〔u〕第一共振峰F1幅值分析(單位:dB)
(二)兩種不同音量條件下收集語(yǔ)音樣本的分析
1.第一共振峰
表1至表3顯示的是6位發(fā)音人在正常和大聲這兩種不同的音量狀態(tài)下發(fā)含有元音〔a〕、〔i〕、〔u〕等語(yǔ)料的F1的變化情況。很明顯,除發(fā)音人WW所發(fā)含元音〔a〕的語(yǔ)料的F1值未變化以及含元音〔i〕的值降低以外,其他所有F1普遍升高。
2.第二共振峰
表4至表6顯示的是F2的變化情況??梢钥吹剑l(fā)音人ZCJ發(fā)元音〔i〕以及WW發(fā)元音〔u〕時(shí)略有下降外,其他情況下元音F2均有所升高。
表4 兩種錄音狀態(tài)元音〔a〕第二共振峰F2幅值分析(單位:dB)
表5 兩種錄音狀態(tài)元音〔i〕第二共振峰F2幅值分析(單位:dB)
表6 兩種錄音狀態(tài)元音〔u〕第二共振峰F2幅值分析(單位:dB)
3.基音走勢(shì)
表7至表9反映的是正常和大聲兩種錄音狀態(tài)下6個(gè)發(fā)音人說(shuō)出含有元音〔a〕、〔i〕、〔u〕時(shí)的基音走勢(shì)圖??梢钥吹?,兩種不同錄音狀態(tài)下,共振峰并沒(méi)有因?yàn)橐袅康奶岣叨尸F(xiàn)某種固定的變化態(tài)勢(shì),沒(méi)有一定的規(guī)律可循。
表7 兩種錄音狀態(tài)元音〔a〕基音走勢(shì)分析
表8 兩種錄音狀態(tài)元音〔i〕基音走勢(shì)分析
表9 兩種錄音狀態(tài)元音〔u〕基音走勢(shì)分析
(一)三種不同錄音器材收集語(yǔ)音樣本
1.有共振峰丟失現(xiàn)象
通過(guò)三種不同錄音器材錄制的同一語(yǔ)音樣本共振峰頻率值的相互比較的統(tǒng)計(jì),可以發(fā)現(xiàn)有明顯共振峰丟失現(xiàn)象出現(xiàn)。相比較而言,錄音筆錄制的語(yǔ)音樣本共振峰丟失的現(xiàn)象較少,這一現(xiàn)象在高頻區(qū)域特別突出。而手機(jī)的共振峰在高頻區(qū)域丟失現(xiàn)象則較為嚴(yán)重。這樣的共振峰丟失現(xiàn)象是由錄音器材自身頻率響應(yīng)特性的差異形成的,性能高的器材比性能低的器材頻率響應(yīng)特性更好,能夠體現(xiàn)出共振峰強(qiáng)度的差異。由于共振峰頻率的提取方法與其強(qiáng)度直接密切相關(guān),因此錄音質(zhì)量較高的錄音器材在高頻區(qū)域共振峰丟失現(xiàn)象較少,錄音質(zhì)量較差的錄音器材在高頻區(qū)域共振峰丟失現(xiàn)象較多[6]。
2.同一語(yǔ)音樣本的同一共振峰頻率有差異
通過(guò)三種不同的常用錄音器材錄制的同一語(yǔ)音樣本共振峰頻率的相互比較統(tǒng)計(jì),發(fā)現(xiàn)三種錄音設(shè)備錄制相同語(yǔ)音的同一共振峰頻率具有差異。其中性能較低的三星手機(jī)與性能較高的錄音筆、蘋果手機(jī)等的差別相對(duì)較大,錄音筆與蘋果手機(jī)等高性能的錄音器材相互之間的共振峰頻率差異相對(duì)較小。
歸類總結(jié)三種常用錄音設(shè)備的差異對(duì)這些參數(shù)的影響發(fā)現(xiàn),當(dāng)錄音設(shè)備性能不同時(shí),質(zhì)量較差的錄音器材所錄制語(yǔ)音樣本共振峰丟失現(xiàn)象較多,質(zhì)量較高的錄音器材所錄制語(yǔ)音樣本共振峰丟失現(xiàn)象較少,而且質(zhì)量較高的錄音器材的寬帶要明顯高于質(zhì)量較低的器材[7]。隨著數(shù)字錄音器材和手機(jī)錄音功能的廣泛使用,在使用數(shù)字錄音器材獲取的檢材進(jìn)行聲紋鑒定時(shí)應(yīng)當(dāng)格外慎重,盡量使用與檢材相同或性能更好的錄音設(shè)備,以便提取到高質(zhì)量、檢測(cè)條件較好的語(yǔ)音樣本。
(二)兩種不同音量條件下收集語(yǔ)音樣本
1.共振峰變化
除發(fā)音人WW發(fā)元音〔a〕以及〔i〕的F1保持相等或略有降低以外,大聲說(shuō)話時(shí),三個(gè)元音的F1均有所提高。
對(duì)于F2,除發(fā)音人ZCJ發(fā)元音〔i〕以及WW發(fā)元音〔u〕時(shí)的F2略有降低以外,6個(gè)發(fā)音人發(fā)三個(gè)元音的其他F2值均有所升高。
由于聲紋研究界對(duì)F3、F4乃至更高次共振峰的規(guī)律認(rèn)識(shí)還不夠深入,筆者現(xiàn)在還難以解釋其變化原因。筆者相信F3、F4的變化與語(yǔ)音發(fā)聲類型的變化有著密切聯(lián)系,但具體細(xì)節(jié)還有待進(jìn)一步深入求證。
2.基音走勢(shì)變化
隨著音量的升高,三個(gè)元音的基因走勢(shì)沒(méi)有固定的趨勢(shì),并沒(méi)有因?yàn)橐袅康奶岣叨a(chǎn)生某種具有規(guī)律性的變化方式。通過(guò)以上分析可知,大聲說(shuō)話時(shí)的語(yǔ)音聲學(xué)參數(shù)并非正常說(shuō)話時(shí)的簡(jiǎn)單成倍放大,其語(yǔ)圖也不能通過(guò)正常語(yǔ)音簡(jiǎn)單的聲強(qiáng)轉(zhuǎn)換得到。這是因?yàn)閮煞N不同音量下的錄音樣本不僅在聲強(qiáng)上存在差異,而且在頻率域上也產(chǎn)生了很大的變化,同時(shí)高次的共振峰的變化情況規(guī)律并不統(tǒng)一[8]??偨Y(jié)兩種不同音量錄音狀態(tài)對(duì)參數(shù)的影響,在對(duì)大聲與小聲等不同狀態(tài)下的語(yǔ)音進(jìn)行對(duì)比分析時(shí),我們應(yīng)該有以下認(rèn)識(shí)。
首先,元音的共振模式并未隨著音量的改變而明顯改變,三個(gè)元音之間區(qū)分度依然較好。語(yǔ)音頻譜在兩種狀態(tài)下發(fā)生了較大變化,相似性與穩(wěn)定性在同種狀態(tài)下較強(qiáng)。因此,獲取與檢材錄音同種狀態(tài)或盡量相似狀態(tài)的語(yǔ)音對(duì)比樣本就成為一個(gè)十分關(guān)鍵的問(wèn)題[9]。
最后,本研究是在較為理想的實(shí)驗(yàn)室狀態(tài)下進(jìn)行的,而語(yǔ)音樣本提取在實(shí)踐中常常還伴隨各種其他影響因素,比如說(shuō)話人的情緒不同,錄音環(huán)境差異,噪聲大小,等等。因此,鑒定中獲得與檢材錄音狀態(tài)盡可能一致或相似的比對(duì)樣本是極為重要的一步。
現(xiàn)場(chǎng)語(yǔ)音檢材不易改變且較為復(fù)雜,想要提高聲紋鑒定工作的精確度就只能在收集提取嫌疑人語(yǔ)音樣本上多做文章[10]。希望此文能加深偵查技術(shù)人員對(duì)聲紋識(shí)別樣本提取的了解,在收集嫌疑人聲音樣本時(shí)重視所收集語(yǔ)音樣本的質(zhì)量,注意錄制時(shí)使嫌疑人講話的語(yǔ)速快慢、音量大小與現(xiàn)場(chǎng)檢材盡量保持一致,同時(shí),對(duì)所使用的錄音器材也要加以選擇,盡量使用高質(zhì)量或者與錄制檢材相同的錄音器材,以便提取高質(zhì)量的語(yǔ)音識(shí)別樣本,使鑒定工作減少干擾因素,以提高聲紋鑒定的準(zhǔn)確性。
[1]譚超英.淺談聲紋鑒定中語(yǔ)音樣本的提取[J].廣西公安管理干部學(xué)院學(xué)報(bào),2003(4):39-41.
[2]崔效義,李敬陽(yáng).聲紋鑒定[J].刑事技術(shù),1993(1):1-5.
[3]李敬陽(yáng).廣州話語(yǔ)音聲紋鑒定中的量化分析研究[J].刑事技術(shù),2005(6):6-8.
[4]吳新原.數(shù)字錄音筆的音頻特性對(duì)聲紋鑒定中主要聲學(xué)參量的影響[J].中國(guó)人民公安大學(xué)學(xué)報(bào),2007(4):20-22.
[5]曹洪林,劉建偉.正常、大聲兩種說(shuō)話狀態(tài)下語(yǔ)音的聲學(xué)差異及對(duì)聲紋鑒定的影響[J].證據(jù)科學(xué),2009(6):754-763.
[6]李敬陽(yáng),崔效義,王莉,馮祖煒.三種不同錄音器材錄制的電話對(duì)聲紋鑒定的影響[C]//中國(guó)中文信息學(xué)會(huì).新世紀(jì)的現(xiàn)代語(yǔ)言學(xué)——第五屆全國(guó)現(xiàn)代語(yǔ)言學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,2001:372-373.
[7]達(dá)釗,李倩,郭霞生,等.不同錄音系統(tǒng)對(duì)聲紋檢測(cè)的影響[J].南京大學(xué)學(xué)報(bào),2011(3):202-207.
[8]張亮.聲紋證據(jù)的應(yīng)用[J].中國(guó)人民公安大學(xué)學(xué)報(bào),2002(4):70-72.
[9]閻萍.聲紋鑒定及其在偵查破案中的作用[J].遼寧警專學(xué)報(bào),2008(1):70-72.
[10]黃燕芳.聲紋樣本收集過(guò)程中存在的問(wèn)題和解決方法[J].鐵道警官高等專科學(xué)校學(xué)報(bào),2007(3):95-96.
責(zé)任編輯:馬克
D631
A
1009-3192(2016)05-0054-04
2016-05-10
楊光,男,湖北仙桃人,中國(guó)刑事警察學(xué)院刑事犯罪偵查專業(yè)2015級(jí)碩士研究生;沙貴君,男,黑龍江樺南人,中國(guó)刑事警察學(xué)院刑事犯罪偵查系副主任教授,碩士研究生導(dǎo)師,主要從事現(xiàn)場(chǎng)勘查研究。