彭去桀, 張智勇, 駱建新, 張 帥
(1.中國(guó)人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院, 北京 100038; 2. 常德市澧縣公安局, 湖南澧縣 415500;3.鄭州市公安局犯罪偵查局, 河南鄭州 450000)
語(yǔ)音檢材自動(dòng)比對(duì)樣本召回率初探
彭去桀1,2, 張智勇3, 駱建新3, 張 帥3
(1.中國(guó)人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院, 北京 100038; 2. 常德市澧縣公安局, 湖南澧縣 415500;3.鄭州市公安局犯罪偵查局, 河南鄭州 450000)
使用高質(zhì)量聲紋采集終端采集10名自然人的方言和普通話樣本并存入聲紋樣本庫(kù),使用不同的錄音方式錄制多種方言的檢材,在現(xiàn)有聲紋庫(kù)中對(duì)每個(gè)檢材建立自動(dòng)比對(duì)任務(wù),考察聲紋檢材的目標(biāo)召回率。通過(guò)實(shí)驗(yàn)總結(jié)出:一般案件中涉及到的手機(jī)錄制的語(yǔ)音證據(jù),可以使用聲紋庫(kù)綜合應(yīng)用平臺(tái)服務(wù)于案件偵辦工作或者作為串并案的依據(jù);文本相同與否對(duì)比對(duì)結(jié)果有些微影響,相同文本的檢材和樣本之間相似度更大;同一人說(shuō)的同一種語(yǔ)言能夠準(zhǔn)確召回?;谶`法犯罪人員聲紋庫(kù)進(jìn)行語(yǔ)音檢材自動(dòng)比對(duì)實(shí)驗(yàn)是對(duì)聲紋庫(kù)應(yīng)用的積極探索,旨在總結(jié)一些應(yīng)用技巧以服務(wù)于實(shí)戰(zhàn)、并為聲紋庫(kù)的建設(shè)和應(yīng)用提供有益的參考。
聲紋庫(kù); 目標(biāo)召回率; 聲紋自動(dòng)檢索比對(duì); 電信詐騙
近年來(lái),隨著電信網(wǎng)絡(luò)、互聯(lián)網(wǎng)語(yǔ)音的飛速發(fā)展,電信詐騙、綁架、敲詐勒索等涉及語(yǔ)音案件的數(shù)量及案件中的語(yǔ)音物證也在不斷增加。我國(guó)的聲紋技術(shù)經(jīng)過(guò)20年的發(fā)展,在語(yǔ)音同一認(rèn)定方面已積累了大量專家資源和工作經(jīng)驗(yàn)。在網(wǎng)絡(luò)、通信、信息融合技術(shù)快速發(fā)展的今天,聲紋技術(shù)必須與信息化技術(shù)相融合,必須由個(gè)案和局部走向總體和全局才能夠適應(yīng)實(shí)戰(zhàn)的需求。聲紋數(shù)據(jù)庫(kù)的建立,能夠在有效支撐打擊犯罪的同時(shí),拓展我國(guó)聲紋技術(shù)整體水平和應(yīng)用能力,是我國(guó)聲紋技術(shù)新時(shí)期發(fā)展的必然選擇。聲紋庫(kù)是繼指紋、DNA庫(kù)后又一個(gè)生物特征庫(kù),將為案件偵破提供一種新的技術(shù)手段,為各警種提供一套新的個(gè)體識(shí)別應(yīng)用平臺(tái)。通過(guò)預(yù)先建立的重點(diǎn)人員聲紋庫(kù)和應(yīng)用基于智能語(yǔ)音技術(shù)的語(yǔ)音監(jiān)控系統(tǒng)能快速確認(rèn)說(shuō)話人身份、語(yǔ)種和方言口音以及檢測(cè)通話中的敏感內(nèi)容,在反恐、維穩(wěn)以及打擊刑事犯罪工作中具有非常重要的意義。
(1) 全國(guó)聲紋庫(kù)建設(shè)和應(yīng)用現(xiàn)狀
近幾年,我國(guó)逐步啟動(dòng)聲紋數(shù)據(jù)庫(kù)相關(guān)的研究和建設(shè)工作,智能語(yǔ)音技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室針對(duì)智能語(yǔ)音技術(shù)在公安領(lǐng)域的實(shí)戰(zhàn)應(yīng)用,重點(diǎn)在聲紋識(shí)別、語(yǔ)種識(shí)別、語(yǔ)音內(nèi)容識(shí)別、語(yǔ)音信號(hào)處理技術(shù)4個(gè)方向開(kāi)展研究。2011年5月,智能語(yǔ)音技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室已經(jīng)完成了聲紋數(shù)據(jù)庫(kù)建設(shè)的技術(shù)儲(chǔ)備工作,建立了聲紋庫(kù)標(biāo)準(zhǔn)體系,完成了高質(zhì)量聲紋專用采集工具的研發(fā),提高了聲紋檢索引擎的性能[1]。
目前,北京市、安徽省、福建省、河南省、山東省、江蘇省等地公安機(jī)關(guān)建立了重點(diǎn)人員或者違法犯罪人員聲紋庫(kù),工作重心在于擴(kuò)大樣本采集、迅速增加聲紋庫(kù)存量,部分地區(qū)將聲紋庫(kù)與傳統(tǒng)的聲紋鑒定技術(shù)結(jié)合起來(lái)摸索前進(jìn),邊建設(shè)、邊應(yīng)用。
(2) 語(yǔ)音檢材自動(dòng)比對(duì)研究現(xiàn)狀
語(yǔ)音檢材自動(dòng)比對(duì)實(shí)質(zhì)上是在一定聲紋庫(kù)庫(kù)存的情況下系統(tǒng)對(duì)說(shuō)話人的識(shí)別、對(duì)可疑目標(biāo)進(jìn)行同一認(rèn)定打分排序的結(jié)果。
語(yǔ)音自動(dòng)比對(duì)技術(shù)在歐美等西方國(guó)家深受重視,如美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)署(NIST)舉辦的說(shuō)話人識(shí)別評(píng)測(cè),就是針對(duì)實(shí)際應(yīng)用需求設(shè)計(jì)多樣化的測(cè)試,這些測(cè)試能夠準(zhǔn)確體現(xiàn)被測(cè)系統(tǒng)在接近真實(shí)環(huán)境中的實(shí)際表現(xiàn),被公認(rèn)為是國(guó)際上水平最高、最嚴(yán)謹(jǐn)、最公平、結(jié)果最權(quán)威的說(shuō)話人語(yǔ)音識(shí)別系統(tǒng)測(cè)試。而受邀參加該評(píng)測(cè)的都是世界頂級(jí)專業(yè)研究開(kāi)發(fā)機(jī)構(gòu),包括美國(guó)麻省理工大學(xué)、意大利都靈理工大學(xué)、法國(guó)科學(xué)研究中心等等。最近幾年,我國(guó)清華大學(xué)、中國(guó)科學(xué)院聲學(xué)研究所、科大訊飛語(yǔ)音實(shí)驗(yàn)室也參加了測(cè)試。根據(jù)2008、2010年美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)署(NIST)舉辦的說(shuō)話人識(shí)別評(píng)測(cè)結(jié)果,以科大訊飛公司為代表的我國(guó)聲紋自動(dòng)識(shí)別技術(shù)已經(jīng)達(dá)到國(guó)際領(lǐng)先水平[1]。
然而,語(yǔ)音檢材無(wú)論是在實(shí)驗(yàn)室環(huán)境設(shè)立的小型聲紋庫(kù)中準(zhǔn)確自動(dòng)比對(duì)成功,還是各種模擬實(shí)際情況、高水平的國(guó)際評(píng)測(cè)中準(zhǔn)確召回,都只能說(shuō)明我國(guó)完全擁有了這項(xiàng)技術(shù)。目前,公安實(shí)戰(zhàn)中語(yǔ)音檢材的自動(dòng)比對(duì)研究十分稀少。原因諸多,主要有以下幾點(diǎn):當(dāng)前語(yǔ)音為關(guān)鍵證據(jù)的案件在案件總體中比較少,而這些少數(shù)案件依靠傳統(tǒng)的專家鑒定就能消化;而大量涉及語(yǔ)音的電信詐騙等案件,犯罪地域遍及全國(guó),公安機(jī)關(guān)獲取到的語(yǔ)音檢材比較少、質(zhì)量差;另外,使得聲紋自動(dòng)比對(duì)有用武之地的聲紋數(shù)據(jù)庫(kù)還在建設(shè),庫(kù)存量正在累積中,而各地的聲紋庫(kù)建設(shè)進(jìn)度參差不齊。
(3) 鄭州市公安局聲紋庫(kù)建設(shè)情況和應(yīng)用
鄭州市公安局于2013年底參與了國(guó)家公安部金盾二期的聲紋庫(kù)建設(shè),在全市所有執(zhí)法辦案中心及執(zhí)法辦案區(qū)安裝了99套聲紋采集終端,按照“打一建一”的原則采集違法犯罪人員聲紋信息,并在聲紋采集規(guī)范化方面國(guó)內(nèi)首創(chuàng)了閱讀樣本提示牌。通過(guò)近3年的收集,鄭州市公安局的聲紋采集量已達(dá)到44 474條(截止到2016年12月19日,且包括少量檢材)。目前,鄭州市公安局違法犯罪人員聲紋庫(kù)庫(kù)存聲紋樣本數(shù)據(jù)分別從方言和年齡兩個(gè)角度進(jìn)行分類分析。
按方言分類。鄭州市是河南省省會(huì),這里的居民大多使用鄭州市本地方言,鄭州方言和普通話均屬北方方言,占樣本庫(kù)總數(shù)的67.6%;隨著經(jīng)濟(jì)發(fā)展、交通便利,違法犯罪人員的流動(dòng)性也隨之加大,比如湘方言、吳方言、贛方言、客家話、閩南語(yǔ)和粵語(yǔ)等均有涉及;另外,工作人員在錄入樣本時(shí)忽略或者存在沒(méi)有對(duì)方言種類進(jìn)行主觀判斷的情況,系統(tǒng)中“未知”項(xiàng)達(dá)到了31%。
圖1 按方言分類聲紋庫(kù)樣本
按照年齡來(lái)分類。樣本庫(kù)里20~50歲之間的人最多,其他年齡段均有涉及,且“未知”年齡的人是極其少量的個(gè)別現(xiàn)象。
圖2 按年齡分類聲紋庫(kù)樣本
1.1 聲紋檢索比對(duì)系統(tǒng)
聲紋檢索比對(duì)系統(tǒng)是在聲紋數(shù)據(jù)存儲(chǔ)系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)在海量聲紋數(shù)據(jù)庫(kù)中的聲紋排查等功能。聲紋檢索比對(duì)系統(tǒng)是聲紋庫(kù)的一個(gè)重要應(yīng)用,其功能是對(duì)于任意給定的一個(gè)可疑的錄音數(shù)據(jù),該系統(tǒng)通過(guò)聲紋識(shí)別技術(shù)并結(jié)合聲紋鑒定,實(shí)現(xiàn)從聲紋庫(kù)中檢索出與可疑錄音聲紋最為相近的候選人名單以及各自的聲紋相似程度,并將結(jié)果展現(xiàn)給用戶,縮小人工鑒別的范圍。
1.2 聲紋檢索比對(duì)機(jī)制介紹
聲紋檢索比對(duì)功能是基于聲紋自動(dòng)識(shí)別(也稱語(yǔ)音信號(hào)處理法),其基本原理是由系統(tǒng)對(duì)說(shuō)話人語(yǔ)音的特征參數(shù)進(jìn)行分離提取,并進(jìn)行線性或非線性處理,建立語(yǔ)音模型,然后由系統(tǒng)運(yùn)算進(jìn)行模式匹配,確定出與其最接近的若干已知說(shuō)話人錄音,得出相似度的結(jié)果,其結(jié)果是多選的(見(jiàn)圖3)。
圖3 聲紋數(shù)據(jù)自動(dòng)化檢索比對(duì)機(jī)制
聲紋檢索自動(dòng)比對(duì)功能的實(shí)現(xiàn)及其可靠性取決于聲紋模型的建立和聲紋檢索引擎技術(shù)。本實(shí)驗(yàn)聲紋庫(kù)技術(shù)是來(lái)源于科大訊飛公司基于聯(lián)合因子分析技術(shù)框架[7]開(kāi)發(fā)的,該公司前后研發(fā)了基于高階泰勒展開(kāi)的噪聲估計(jì)[8]、基于正反例的敏感區(qū)域得分規(guī)整算法、基于多通道錄音的穩(wěn)定聲紋提取、以及基于語(yǔ)音識(shí)別結(jié)果的文本相關(guān)聲紋比對(duì)等各項(xiàng)核心技術(shù)。該公司設(shè)計(jì)的最終聲紋檢索引擎順利通過(guò)了公安部物證鑒定中心2011年5月組織的基于100起真實(shí)案例的聲紋識(shí)別模擬實(shí)戰(zhàn)測(cè)試,達(dá)到了實(shí)用水平。
2.1 實(shí)驗(yàn)?zāi)康?/p>
本實(shí)驗(yàn)考察的主要是不同信道、不同方言在當(dāng)前聲紋庫(kù)中的目標(biāo)召回率,旨在為聲紋庫(kù)的建設(shè)和具體應(yīng)用提供有益的參考。
2.2 實(shí)驗(yàn)設(shè)計(jì)
2.2.1 聲紋檢索的目標(biāo)召回率釋義及影響因素
聲紋檢索的目標(biāo)召回率是指在自然人聲紋的聲紋庫(kù)中30S以上有效語(yǔ)音檢材,聲紋檢索引擎所給出的前100候選中,包含真正目標(biāo)人的樣本出現(xiàn)在候選中的內(nèi)容幾率。聲紋檢索的目標(biāo)召回率在實(shí)際應(yīng)用中與文本、聲紋相似性、信道和庫(kù)容4個(gè)方面相關(guān)。
2.2.2 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)所依托的鄭州市公安局違法犯罪人員聲紋數(shù)據(jù)庫(kù)樣本量已達(dá)到44 474條,且每周以平均1 000條的速度在累積增加。此庫(kù)容量下使用智能語(yǔ)音技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室專門研發(fā)的高質(zhì)量聲紋采集終端采集違法犯罪人員聲紋樣本,該聲紋采集終端可以同時(shí)生成包括電信CDMA、固定電話、手機(jī)GSM、聯(lián)通WCDMA、高保真、錄音筆、移動(dòng)TD-SDMA和其他在內(nèi)的8個(gè)信道的聲音樣本并上傳存儲(chǔ)在樣本庫(kù)中。
實(shí)驗(yàn)擬使用該終端采集10名自然人(A-J)的聲音生成21個(gè)聲紋樣本,并同時(shí)注冊(cè)上傳至鄭州市公安局違法犯罪人員聲紋數(shù)據(jù)庫(kù),具體采樣設(shè)計(jì)如表1。
表1 實(shí)驗(yàn)用樣本采集計(jì)劃表
實(shí)驗(yàn)1:考察檢材和樣本是同文本的情況下,同一人同一信道分別使用方言和普通話作為檢材入庫(kù)比對(duì)的情況。
實(shí)驗(yàn)2:考察檢材和樣本是同文本的情況下,同一人不同信道分別使用方言和普通話作為檢材入庫(kù)比對(duì)的情況。
實(shí)驗(yàn)3:考察檢材和樣本是不同文本的情況下,同一人不同信道分別用方言和普通話作為檢材入庫(kù)比對(duì)的情況。
實(shí)驗(yàn)4:考察檢材和樣本是不同文本的情況下,同一人偽裝聲音后使用方言作為檢材入庫(kù)比對(duì)的情況。
實(shí)驗(yàn)5:考察檢材和樣本是不同文本的情況下,同一人在不同環(huán)境下記錄聲音作為檢材入庫(kù)比對(duì)的情況。
實(shí)驗(yàn)6:考察檢材和樣本是不同文本的情況下,多人分別用方言和普通話作為檢材入庫(kù)比對(duì)的情況。
根據(jù)以上實(shí)驗(yàn)設(shè)計(jì),分別使用錄音筆和手機(jī)采集10名自然人(A-J)的聲紋檢材共49個(gè)上傳至聲紋檢索比對(duì)系統(tǒng)各自執(zhí)行比對(duì)任務(wù),檢材采集計(jì)劃如表2。
表2 實(shí)驗(yàn)用檢材采集計(jì)劃表
2.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)1:同文本手機(jī)錄音檢材召回實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)象檢材錄音工具是否處理處理手段檢材內(nèi)容實(shí)驗(yàn)結(jié)果是否排名前100比中樣本得分排名A手機(jī)否無(wú)鄭州方言是鄭州方言74 051是鄭州方言73 622是普通話73 283手機(jī)否無(wú)普通話是鄭州方言77 231是普通話76 292
實(shí)驗(yàn)2:同文本手機(jī)、錄音筆兩種信道檢材召回實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)象檢材錄音工具是否處理處理手段檢材內(nèi)容實(shí)驗(yàn)結(jié)果是否排名前100比中樣本得分排名A手機(jī)否無(wú)鄭州方言是鄭州方言73 672是鄭州方言72 33是普通話71 84手機(jī)否無(wú)普通話是普通話78 861是鄭州方言74 873C手機(jī)否無(wú)湖南常德方言是湖南常德方言75 271是普通話61 1915A錄音筆否無(wú)鄭州方言否錄音筆否無(wú)普通話否錄音筆是降采樣鄭州方言否錄音筆是降采樣普通話否錄音筆否降采樣、降噪、語(yǔ)音增益鄭州方言是鄭州方言73 051是鄭州方言71 962是普通話70 074錄音筆否降采樣、降噪、語(yǔ)音增益普通話是普通話72 631是鄭州方言71 242
實(shí)驗(yàn)3:不同文本、不同信道檢材召回實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)象檢材錄音工具是否處理處理手段檢材內(nèi)容實(shí)驗(yàn)結(jié)果是否排名前100比中樣本得分排名B手機(jī)否無(wú)河南安陽(yáng)林州是林州方言63 521是普通話57 735錄音筆否無(wú)河南安陽(yáng)林州是普通話61 5916是林州方言61 4518錄音筆是降采樣、降噪、語(yǔ)音增益河南安陽(yáng)林州是林州方言63 13是普通話59 7314C手機(jī)否無(wú)湖南常德方言是常德方言64 099是普通話63 3912手機(jī)否無(wú)普通話是普通話70 971否常德方言錄音筆否無(wú)湖南常德方言是常德方言65 919是普通話64 3518錄音筆否無(wú)普通話是普通話62 6257否常德方言錄音筆是降采樣、降噪、語(yǔ)音增益湖南常德方言是常德方言65 827是普通話64 5315錄音筆是降采樣、降噪、語(yǔ)音增益普通話是普通話62 1955否常德方言
現(xiàn)象:此次實(shí)驗(yàn)中實(shí)驗(yàn)對(duì)象C的手機(jī)和錄音筆錄入的同一人普通話檢材均未召回C的方言樣本,但在未召回的3次比對(duì)任務(wù)中前100名候選均在60分以上。
分析:考慮庫(kù)中與實(shí)驗(yàn)對(duì)象C聲紋特征模型相近的人比較多,且實(shí)驗(yàn)對(duì)象C 所說(shuō)的湖南常德方言也屬于北方方言,并與普通話區(qū)別不大。
實(shí)驗(yàn)4:不同文本同一人偽裝前后檢材召回實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)象檢材錄音工具是否偽裝偽裝手段檢材內(nèi)容實(shí)驗(yàn)結(jié)果是否排名前100比中樣本得分排名A手機(jī)是手捂喉嚨鄭州方言是普通話71 021是普通話67 816~8是鄭州方言64 8726手機(jī)是手捏緊喉嚨鄭州方言否
實(shí)驗(yàn)5:不同文本同一人不同環(huán)境下檢材召回實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)象檢材錄音工具環(huán)境是否處理處理手段檢材內(nèi)容實(shí)驗(yàn)結(jié)果是否排名前比中樣本得分排名A手機(jī),微信語(yǔ)音實(shí)驗(yàn)室否無(wú)普通話是普通話74 111是普通話72 912~5是鄭州方言71 296手機(jī),微信語(yǔ)音實(shí)驗(yàn)室否無(wú)鄭州方言是鄭州方言70 771是普通話70 152手機(jī),微信語(yǔ)音辦公室否無(wú)鄭州方言是鄭州方言68 143是鄭州方言68 054是鄭州方言66 288是普通話65 2921~23是普通話65 5317手機(jī),微信語(yǔ)音大街上否無(wú)鄭州方言是鄭州方言65 251是鄭州方言62 556是鄭州方言61 4411手機(jī),微信語(yǔ)音大街上是降噪50%、語(yǔ)音增益2點(diǎn)鄭州方言是鄭州方言65 021手機(jī),微信語(yǔ)音大街上是降噪20%、語(yǔ)音增益2點(diǎn)鄭州方言是鄭州方言66 331是鄭州方言61 4412是鄭州方言59 8124手機(jī),微信語(yǔ)音大街上是委托科大訊飛公司處理鄭州方言是鄭州方言65 082是鄭州方言63 275是鄭州方言61 878
實(shí)驗(yàn)6:不同文本多人方言、普通話檢材召回實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)象檢材錄音工具是否處理處理手段檢材內(nèi)容實(shí)驗(yàn)結(jié)果是否排名前100比中樣本得分排名D手機(jī)通話錄音否無(wú)浙江湖州方是湖州方言701普通話69 722手機(jī)通話錄音否無(wú)普通話是普通話78 851湖州方言65 125E手機(jī)否無(wú)藏語(yǔ)是藏語(yǔ)74 471普通話63 3519手機(jī)否無(wú)普通話是普通話74 311藏語(yǔ)62 3334F手機(jī)否無(wú)福建蒲田方言是蒲田方言73 871普通話63 593手機(jī)否無(wú)普通話是普通話76 341蒲田方言62 5910G手機(jī)否無(wú)維語(yǔ)是維語(yǔ)74 641否普通話手機(jī)否無(wú)普通話是普通話75 191否維語(yǔ)H手機(jī)否無(wú)陜西咸陽(yáng)方言是咸陽(yáng)方言76 061是普通話71 712是英語(yǔ)56 7337手機(jī)否無(wú)普通話是普通話77 071是咸陽(yáng)方言72 752是英語(yǔ)61 8217手機(jī)否無(wú)英語(yǔ)是英語(yǔ)79 81是咸陽(yáng)方言62 272是普通話61 853I手機(jī)否無(wú)客家話是客家話77 451是普通話75 812手機(jī)否無(wú)普通話是普通話82 591是客家話80 682J手機(jī)否無(wú)廣東省粵語(yǔ)是粵語(yǔ)83 421是普通話59 762手機(jī)否無(wú)廣東省粵語(yǔ)是粵語(yǔ)83 421是粵語(yǔ)70 052
現(xiàn)象:實(shí)驗(yàn)對(duì)象G的維語(yǔ)檢材未能召回G的普通話樣本、G的普通話檢材未能召回G的維語(yǔ)樣本。
分析:觀察不同語(yǔ)種和方言的比對(duì)結(jié)果,發(fā)現(xiàn)方言(語(yǔ)種)與普通話的差異越大,樣本庫(kù)中同一人的兩種樣本在召回時(shí)排名差距越大(維語(yǔ)>英語(yǔ)>藏語(yǔ)>莆田方言>一般方言),說(shuō)明同一人在說(shuō)不同語(yǔ)言時(shí)整體改變程度不同從而影響模型的生成??紤]比對(duì)結(jié)果與樣本庫(kù)中某語(yǔ)種(或者某方言)的庫(kù)存量有關(guān),相似或相同的方言樣本越少,檢材比對(duì)時(shí)越容易“脫穎而出”。
3.1 結(jié)論
(1) 在檢材和樣本為同一文本的情況下,手機(jī)錄音作為檢材對(duì)目標(biāo)的召回率是100%,且排名均在前50,得分均在60分以上;錄音筆錄音檢材一般情況下直接入庫(kù)比對(duì)效果有待商榷,經(jīng)過(guò)降采樣、降噪、語(yǔ)音增益的處理后的檢材能夠達(dá)到100%的召回率,且排名均在前50 ,得分均在60分以上。
(2) 檢材和樣本文本不同的情況下,普通話檢材能準(zhǔn)確召回普通話樣本、方言檢材能準(zhǔn)確召回方言樣本。手機(jī)檢材的比對(duì)結(jié)果要比錄音筆檢材的比對(duì)結(jié)果普遍靠前,且經(jīng)過(guò)降采樣、降噪、語(yǔ)音增益處理后的錄音筆檢材要比沒(méi)有處理過(guò)的錄音筆檢材排名靠前。
(3) 檢材和樣本是不同文本的情況下,同一人偽裝聲音后使用方言作為檢材入庫(kù)比對(duì)的情況是不可預(yù)測(cè)的,這與偽裝手段有關(guān)系,不同的偽裝手段對(duì)檢材生成模型的影響不同。
(4) 檢材和樣本是不同文本的情況下,手機(jī)微信語(yǔ)音檢材能夠準(zhǔn)確召回普通話和方言兩種樣本,且排名在前50,得分均在60分以上,說(shuō)明微信語(yǔ)音算法疊加在手機(jī)信道上對(duì)比對(duì)結(jié)果的影響不大。噪音比較大的環(huán)境下錄制的手機(jī)微信方言語(yǔ)音檢材對(duì)同一實(shí)驗(yàn)對(duì)象的普通話樣本難以召回,且比相對(duì)安靜環(huán)境下錄制的檢材的得分更低,排名也更靠后。對(duì)噪音較大的檢材使用不同的噪音處理方法處理后入庫(kù)比對(duì),會(huì)得到不同的比對(duì)結(jié)果(得分和排名均會(huì)發(fā)生改變)。
(5) 一般來(lái)說(shuō),方言和語(yǔ)種在檢材和樣本文本不同的情況下,均能準(zhǔn)確召回樣本庫(kù)里的兩種或兩種以上同一人注冊(cè)的樣本。同一人所說(shuō)同一種語(yǔ)言的目標(biāo)召回率是100%,且排名均在第一。
綜上所述,本文通過(guò)實(shí)驗(yàn)得出在當(dāng)前聲紋庫(kù)規(guī)模下可以逐步開(kāi)展服務(wù)于實(shí)戰(zhàn)的檢材聲紋自動(dòng)檢索比對(duì),并能較好地縮小偵查范圍,極大地減少專家鑒別犯罪嫌疑人的工作量。實(shí)驗(yàn)中手機(jī)錄音的目標(biāo)召回率達(dá)到86.8%,錄音筆錄音的目標(biāo)召回率為58.3%,錄音筆錄入語(yǔ)音文件最好是處理之后再入庫(kù)檢索。這意味著一般案件中涉及到的語(yǔ)音證據(jù)均可使用聲紋庫(kù)綜合應(yīng)用平臺(tái)服務(wù)于案件偵辦工作或者作為串并案的依據(jù)。文本相同與否對(duì)比對(duì)結(jié)果有些微影響,相同文本的檢材和樣本之間相似度更大。
3.2 存在的問(wèn)題及建議
目前,鄭州市公安局違法犯罪嫌疑人員聲紋庫(kù)的儲(chǔ)存量在低于5萬(wàn)時(shí)自動(dòng)檢索比對(duì)的速度還是比較快的,比對(duì)任務(wù)通過(guò)審核后30秒內(nèi)出結(jié)果。但隨著庫(kù)容上升,比對(duì)速度可能會(huì)隨之下降,建議開(kāi)設(shè)專題子庫(kù),辦案時(shí)選擇相應(yīng)子庫(kù)做初次比對(duì)篩選,縮小比對(duì)基數(shù),加速比對(duì)工作。另外,自動(dòng)檢索比對(duì)速度與后臺(tái)聲紋庫(kù)存儲(chǔ)服務(wù)器、電腦配置等硬件以及公安內(nèi)網(wǎng)網(wǎng)速也有關(guān)系。
在庫(kù)容量不大的情況下,相似的聲紋模型較少;庫(kù)容量上升,相似模型也會(huì)隨之增多。此次實(shí)驗(yàn)中湖南常德人的普通話檢材的比對(duì)結(jié)果中就出現(xiàn)了前100名均在60分以上的情況,僅有該實(shí)驗(yàn)對(duì)象的普通話樣本排名第一,湖南常德方言檢材排到了100名以后,無(wú)法進(jìn)入專家鑒定的視野,所以,當(dāng)比對(duì)結(jié)果出現(xiàn)前100名均在60分以上的情況時(shí)也在提醒民警有可能檢材聲紋模型的區(qū)分度比較小,而相似模型比較多,進(jìn)行個(gè)體鑒別時(shí)需要更加謹(jǐn)慎。
本實(shí)驗(yàn)中,同一實(shí)驗(yàn)對(duì)象的方言檢材比中樣本庫(kù)里方言樣本以及普通話檢材比中樣本庫(kù)里普通話樣本的概率是100%,且排名均是第一;當(dāng)方言和普通話之間差別大時(shí),單一檢材難以跨過(guò)壁壘找到同一人的另一種語(yǔ)言樣本,這是存在的問(wèn)題??紤]到犯罪嫌疑人有可能在不同案件中說(shuō)不同方言的情況,比對(duì)結(jié)果中有可能錯(cuò)失,所以,建議在采集樣本和檢材時(shí)盡可能地采集違法犯罪嫌疑人所有會(huì)說(shuō)的語(yǔ)言。
另外,針對(duì)電信詐騙案中犯罪團(tuán)伙“廣撒網(wǎng)”的特性,一部分防詐騙意識(shí)高的群眾能夠較快地意識(shí)到自己接的電話是詐騙電話,建議鄭州市局在官方微信公眾號(hào)和其他官方公開(kāi)宣傳平臺(tái)上開(kāi)設(shè)專門端口,用于收集群眾舉報(bào)的詐騙電話錄音,在專業(yè)民警的鑒別和語(yǔ)音處理之后匯入聲紋檢材庫(kù),加速串并案碰撞,震懾電信詐騙違法犯罪。
3.3 展望
目前,聲紋樣本的采集工作還停留在室內(nèi)或者固定的辦公場(chǎng)所里,為了加快樣本采集工作,鄭州市局正在嘗試和科大訊飛公司進(jìn)行聲紋采集軟件的兼容性和自動(dòng)化的研發(fā),希望聲紋采集終端能夠更方便攜帶、更加簡(jiǎn)單實(shí)用;民警能夠攜帶新的采集終端深入基層,以最快的速度采集海量語(yǔ)音匯入聲紋庫(kù),實(shí)現(xiàn)聲紋庫(kù)由量變到質(zhì)變,使聲紋庫(kù)應(yīng)用盡快成為打擊刑事犯罪新的增長(zhǎng)點(diǎn),推動(dòng)打擊刑事犯罪工作再上新臺(tái)階。
[1] 李敬陽(yáng),胡國(guó)平,王莉.聲紋自動(dòng)識(shí)別技術(shù)與聲紋庫(kù)建設(shè)應(yīng)用[J].警察技術(shù),2012(4).
[2] 王英利,李敬陽(yáng),曹紅林.聲紋鑒定技術(shù)綜述[J].警察技術(shù),2012(4).
[3] 劉勇,劉夢(mèng)蓮.聲紋認(rèn)證在呼叫中心的應(yīng)用[J].廣東通信技術(shù),2009(10).
[4] 王英利.關(guān)于聲紋鑒定技術(shù)的若干問(wèn)題[C]∥第九屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集,2010.
[5] 李敬陽(yáng),胡國(guó)平,劉浩.全國(guó)重點(diǎn)人員聲紋庫(kù)建設(shè)[C]∥第一屆全國(guó)聲像資料檢驗(yàn)鑒定技術(shù)交流會(huì)論文集,2011.
[6] 付新立,靳業(yè),吳銳,張海東,朱云龍.聲紋數(shù)據(jù)庫(kù)建設(shè)與應(yīng)用[C]∥第一屆全國(guó)聲像資料檢驗(yàn)鑒定技術(shù)交流會(huì)論文集,2011.
[7] KENNY P, BOULIANNE G, OULLET P, et al. Joint factor analysis versus eigenchannes in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing,2007,15(4):1435-1447.
[8] HU Y, HUO Q. Irrelevant variability normalization based HMM training using VTS approximation of an explicit model of environmental distortions[C]∥INTERSPEECH 2007. 2007:1042-1045.
[9] 呂亮.基于深度學(xué)習(xí)的說(shuō)話人識(shí)別方法的研究[D].南京:東南大學(xué),2016.
[10] 熊冰峰.基于聽(tīng)覺(jué)特征參數(shù)的說(shuō)話人識(shí)別技術(shù)[D].湘潭:湘潭大學(xué),2016.
(責(zé)任編輯陳小明)
D918.9
彭去桀(1988—),女,湖南澧縣人, 碩士研究生,民警。研究方向?yàn)槲募z驗(yàn)、聲紋技術(shù)。