周穎慧,劉亞麗
(中國(guó)傳媒大學(xué) 傳播聲學(xué)研究所,北京 100024)
說(shuō)話人識(shí)別是一種不需直接接觸,可遠(yuǎn)程操作的生物識(shí)別技術(shù),因此受到關(guān)注與應(yīng)用,如電話銀行身份確認(rèn)、司法案件偵破等[1-2]。說(shuō)話人識(shí)別也面臨被偽造的安全問(wèn)題。目前主要的偽造手段有模擬說(shuō)話人、語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換和錄音回放。因?yàn)殇浺艋胤旁O(shè)備的不斷發(fā)展,高質(zhì)量偽造語(yǔ)音的獲取變得不再?gòu)?fù)雜難操作。所以,在進(jìn)行說(shuō)話人識(shí)別系統(tǒng)設(shè)計(jì)的時(shí)候,防錄音回放功能就成為一個(gè)重要的考慮因素[3]。關(guān)于該課題,國(guó)內(nèi)外均以展開(kāi)了一系列的相關(guān)研究。
在國(guó)外,1999年,Lindberg等人[4]首次評(píng)估了回放攻擊的易破壞性,實(shí)驗(yàn)說(shuō)話人只包含兩人;2008年,Shang等[5]指出了基于語(yǔ)譜圖相似度的檢測(cè)算法,為評(píng)估系統(tǒng)性能,建立了一個(gè)由四個(gè)發(fā)音人、三種錄音設(shè)備、三種回放設(shè)備組成的數(shù)據(jù)集;2017年,Kinnunen等人[6]為對(duì)不同錄音回放環(huán)境下文本相關(guān)說(shuō)話人識(shí)別系統(tǒng)進(jìn)行保護(hù),建立了一套進(jìn)行錄音回放檢測(cè)的數(shù)據(jù)集。該開(kāi)放錄音回放數(shù)據(jù)集源自RedDots集。在The ASV spoof 2017 Challenge,該數(shù)據(jù)集被選為基礎(chǔ)評(píng)估數(shù)據(jù)集。
國(guó)內(nèi)針對(duì)漢語(yǔ)語(yǔ)音數(shù)據(jù)集的建立也在逐步完善中。2007年,清華大學(xué)張利鵬等人[7]從回放前后信道變化的角度出發(fā),提出了一種基于靜音段MFCC特征檢測(cè)待測(cè)語(yǔ)音方法,該實(shí)驗(yàn)在安靜的環(huán)境下,用高保真錄音設(shè)備和普通錄音設(shè)備同時(shí)錄制發(fā)音人的語(yǔ)音,然后在相同的環(huán)境下回放高保真錄音設(shè)備錄制語(yǔ)音,用錄音設(shè)備采集,得到數(shù)據(jù)集。2011年,王志鋒等人[8]在華南理工大學(xué)多媒體與信息處理實(shí)驗(yàn)室設(shè)計(jì)并錄制的“多設(shè)備錄音回放語(yǔ)音數(shù)據(jù)集”已由中文語(yǔ)言資源聯(lián)盟(Chinese Linguistic Data Con-sortium,CLDC)收錄并發(fā)布,該數(shù)據(jù)集以發(fā)音人語(yǔ)音子庫(kù)為基礎(chǔ),采用多個(gè)錄音設(shè)備錄音建成多錄音設(shè)備語(yǔ)音子集,采用高保真回放設(shè)備將所錄語(yǔ)音進(jìn)行回放擴(kuò)展成錄音回放語(yǔ)音子集。該數(shù)據(jù)集在安靜辦公室和實(shí)驗(yàn)室環(huán)境下錄制。2017年,陳亞楠等人[9]在一較為安靜的辦公室錄制了包含31名發(fā)音人、兩種采集設(shè)備、五種入侵設(shè)備和三種回放設(shè)備的錄音回放語(yǔ)音數(shù)據(jù)集。
以上為錄音回放攻擊檢測(cè)建立的數(shù)據(jù)集大部分針對(duì)具體研究目標(biāo)和具體團(tuán)隊(duì)需求,因此存在環(huán)境單一、發(fā)音人覆蓋面小、語(yǔ)料類(lèi)型不足、設(shè)備不全面等問(wèn)題。且針對(duì)中文的、成熟公認(rèn)的語(yǔ)音數(shù)據(jù)集并未形成。
鑒于此,本文根據(jù)錄音回放檢測(cè)技術(shù)實(shí)際需求,建立一套多設(shè)備、多環(huán)境、多語(yǔ)料的針對(duì)中文的錄音回放語(yǔ)音數(shù)據(jù)集,并通過(guò)聽(tīng)音實(shí)驗(yàn)與時(shí)域波形、語(yǔ)譜圖和共振峰圖的聲學(xué)參數(shù)初步分析,對(duì)數(shù)據(jù)集質(zhì)量進(jìn)行綜合評(píng)價(jià),為錄音回放數(shù)據(jù)集的進(jìn)一步完善與錄音回放檢測(cè)技術(shù)的更好發(fā)展提供參考。
語(yǔ)料文本按照漢語(yǔ)普通話音節(jié)組成規(guī)則進(jìn)行設(shè)計(jì),基本遍歷了所有的單音節(jié)結(jié)構(gòu),并且四聲齊全。詳細(xì)文本如下:
1.單語(yǔ)料
本部分語(yǔ)料以實(shí)際應(yīng)用需求為指導(dǎo),錄制固定短語(yǔ)多次,如重復(fù)錄制AI音箱喚醒詞 “小愛(ài)同學(xué)”20遍。
2.多語(yǔ)料
?102個(gè)單音節(jié):MHK一級(jí)詞匯表中單音節(jié)60個(gè),漢語(yǔ)中頻率出現(xiàn)最多的前42個(gè)單字。
?140個(gè)多音節(jié):其中包括指令詞5個(gè),四個(gè)聲調(diào)的16種組合,音素音節(jié)分布均勻平穩(wěn)。
?10個(gè)數(shù)字串:每個(gè)數(shù)字串包含8個(gè)數(shù)字,數(shù)字隨機(jī)排列,數(shù)字0-9出現(xiàn)頻率相等。
?10個(gè)短句:以一年級(jí)教材所學(xué)句子為主,有陳述句、疑問(wèn)句、感嘆句等類(lèi)型。
?20首古詩(shī)詞:常見(jiàn)的中國(guó)古詩(shī)詞。
?自由文本:從給定話題(但不限于給定話題)中選取一兩個(gè),一分鐘自由發(fā)揮。
選取209名發(fā)音人,男女比例基本平衡,普通話發(fā)音較好。具體情況如下:
?年齡分布:10-20歲140人,20-30歲58人,30-40歲10人,40-50歲1人。
?性別分布:男生87人,女生122人。
?地域分布:發(fā)音人籍貫共覆蓋26省、自治區(qū)和直轄市,地域分布情況如表1所示。
表1 發(fā)音人地域分布情況
錄音回放過(guò)程主要由三部分構(gòu)成,分別是錄音環(huán)境、錄音設(shè)備和回放設(shè)備。
錄音環(huán)境有語(yǔ)言錄音室(面積30m2,全封閉隔音設(shè)計(jì),本底噪聲為PNC 15),會(huì)議室(約25m2)、辦公室(約20m2)以及實(shí)驗(yàn)室(約50m2)。
錄音設(shè)備包括采集設(shè)備和入侵設(shè)備。采集設(shè)備的選取必須可以保證語(yǔ)音原始音質(zhì)盡可能的保留。入侵設(shè)備必須具有易隱藏、便于攜帶的特點(diǎn)。錄音設(shè)備選取如表2所示。
表2 錄音設(shè)備信息
注:因?yàn)樯虡I(yè)因素,隱去設(shè)備品牌型號(hào),用編號(hào)標(biāo)注。
結(jié)合實(shí)際場(chǎng)景需求,回放設(shè)備需具有易隱藏、便于攜帶的特點(diǎn),所以本文回放設(shè)備選取手機(jī)1、手機(jī)7和手機(jī)8。
以現(xiàn)場(chǎng)發(fā)音人或者已有發(fā)音人語(yǔ)音集為原始素材,采用多錄音設(shè)備進(jìn)行采錄(如圖1所示),選取回放設(shè)備將所錄語(yǔ)音進(jìn)行回放(如圖2所示),形成由發(fā)音人語(yǔ)音子集、多錄音設(shè)備語(yǔ)音子集和錄音回放語(yǔ)音子集構(gòu)成的語(yǔ)音數(shù)據(jù)集。發(fā)音人口齒清晰、情緒正常,發(fā)音語(yǔ)速、語(yǔ)調(diào)、發(fā)聲響度正常。錄音回放包括以下三個(gè)步驟:
(1)發(fā)音人語(yǔ)音子集:發(fā)音人發(fā)音或用高保真揚(yáng)聲器播放已有發(fā)音人語(yǔ)音,用采集設(shè)備采錄,采集設(shè)備距發(fā)音人(或高保真揚(yáng)聲器)0.3m左右。
(2)多錄音設(shè)備語(yǔ)音子集:采錄發(fā)音人語(yǔ)音子集同時(shí),用不同入侵設(shè)備進(jìn)行多角度入侵,入侵設(shè)備距錄音人員(或高保真揚(yáng)聲器)0.7m左右。
(3)錄音回放語(yǔ)音子集:同一環(huán)境,用回放設(shè)備對(duì)各個(gè)入侵設(shè)備錄制得到語(yǔ)音進(jìn)行回放,同時(shí)用采集設(shè)備進(jìn)行采錄,采集設(shè)備與回放設(shè)備間距離0.3m左右。
圖1 錄音過(guò)程現(xiàn)場(chǎng)圖
圖2 回放過(guò)程現(xiàn)場(chǎng)圖
語(yǔ)音文件為 wav 格式,16bit 采樣。對(duì)已錄數(shù)據(jù)集進(jìn)行分類(lèi),存儲(chǔ)于各級(jí)文件夾下。一級(jí)文件夾根據(jù)錄制環(huán)境分別命名為語(yǔ)言錄音室、會(huì)議室、辦公室以及實(shí)驗(yàn)室。二級(jí)文件夾根據(jù)設(shè)備類(lèi)型分別命名為采集設(shè)備、入侵設(shè)備和回放設(shè)備。每個(gè)二級(jí)文件夾內(nèi)包含該類(lèi)設(shè)備對(duì)應(yīng)所有語(yǔ)音文件。文件夾命名規(guī)則如圖3所示。
語(yǔ)音文件的命名規(guī)則如圖4所,例如OHF0119BJ.wav表示的是編號(hào)01的19歲來(lái)自北京的女生的用華為手機(jī)采集的信號(hào);RHMRM0126TJ.wav表示的是編號(hào)01的26歲來(lái)自天津的男生用小米入侵用華為回放并通過(guò)錄音筆進(jìn)行采集的語(yǔ)音信號(hào)。
圖4 語(yǔ)音文件的命名規(guī)則
對(duì)已錄數(shù)據(jù)集內(nèi)容進(jìn)行人工聽(tīng)辨校對(duì),去除偏差較大及具有明顯錯(cuò)誤的語(yǔ)音。采用Praat軟件進(jìn)行語(yǔ)音標(biāo)注,標(biāo)注分為三個(gè)級(jí)別,分別是聲韻母級(jí)、單字級(jí)、詞級(jí),如圖5所示。在進(jìn)一步研究中,可依據(jù)需求對(duì)語(yǔ)音文本進(jìn)行音素標(biāo)注。
圖5 語(yǔ)音文本標(biāo)注示意圖
本文通過(guò)聽(tīng)音實(shí)驗(yàn),一方面對(duì)錄制語(yǔ)音的質(zhì)量做主觀聽(tīng)感評(píng)價(jià),另一方面從聽(tīng)覺(jué)感知角度為錄音回放檢測(cè)技術(shù)提供參考。
實(shí)驗(yàn)在中國(guó)傳媒大學(xué)全封閉隔音設(shè)計(jì)的聲學(xué)實(shí)驗(yàn)室內(nèi)進(jìn)行,基本尺度7×6×4 米,本底和空調(diào)噪音低于N1。聽(tīng)音人共12名,5男7女,年齡分布在22-25歲之間,無(wú)聽(tīng)音障礙,有一定聽(tīng)音經(jīng)驗(yàn)。
從錄音回放語(yǔ)音子集中選取12組(6男6女)發(fā)音人發(fā)音數(shù)據(jù)“今天的太陽(yáng)多么大啊 我們家有三十六只羊”。錄音回放環(huán)境為辦公室;采集設(shè)備為手機(jī)2;入侵設(shè)備為錄音筆1和手機(jī)1;回放設(shè)備選取手機(jī)1和手機(jī)7。
為了進(jìn)行細(xì)致聽(tīng)辨,確保實(shí)驗(yàn)的準(zhǔn)確性,本實(shí)驗(yàn)采用對(duì)偶比較法進(jìn)行聽(tīng)音評(píng)價(jià)。聽(tīng)音者只需就某個(gè)給定的信號(hào),按要求進(jìn)行判斷選擇。首先通過(guò)預(yù)實(shí)驗(yàn)讓聽(tīng)音者掌握實(shí)驗(yàn)過(guò)程。正式實(shí)驗(yàn)包括三部分:能否辨別出原始語(yǔ)音和回放語(yǔ)音;能否聽(tīng)出不同入侵設(shè)備之間區(qū)別;能否聽(tīng)出不同回放設(shè)備之間的區(qū)別。除了判斷信號(hào)是否具有區(qū)別以外,三部分實(shí)驗(yàn)都需要根據(jù)給出選項(xiàng)對(duì)判斷依據(jù)進(jìn)行選擇(如:空間感、噪聲、音色、清晰度、明亮感、音調(diào)、遠(yuǎn)近、感情、親切感、高低頻成分、通透感),同時(shí)也可添加選項(xiàng)中沒(méi)有的判斷依據(jù)(如:溫暖感、磁性、真實(shí)感等)。
對(duì)三組實(shí)驗(yàn)獲取到的數(shù)據(jù)進(jìn)行計(jì)算分析,同時(shí)對(duì)判斷依據(jù)進(jìn)行順序統(tǒng)計(jì),得到表3-表4。
表3 能否辨別出原始語(yǔ)音和回放語(yǔ)音
表4 不同設(shè)備之間區(qū)別
由表3可以看出,回放語(yǔ)音與原始語(yǔ)音的聽(tīng)辨準(zhǔn)確率為99.5%,準(zhǔn)確率非常高。聽(tīng)辨判斷依據(jù)主要有清晰度、通透感、噪聲和音色。
由表4可知,1)不同入侵設(shè)備之間整體準(zhǔn)確度為82.1%,不同回放設(shè)備之間整體準(zhǔn)確度為76.6%。相比較而言,入侵設(shè)備之間的差距大于回放設(shè)備之間的差距,原因可能是入侵過(guò)程中不僅存在設(shè)備之間的差距,還存在入侵位置不同;2)同類(lèi)型設(shè)備比較分析,對(duì)于入侵設(shè)備,相同設(shè)備被誤為不同設(shè)備的概率為1.0%,不同設(shè)備被誤認(rèn)為相同設(shè)備的概率為13.6%。對(duì)于回放設(shè)備,相同設(shè)備被誤為不同設(shè)備的概率4.0%小于不同設(shè)備被誤認(rèn)為相同設(shè)備的概率42.9%。由此可知,不同設(shè)備之間的聽(tīng)感辨別還是有一定困難;3)在進(jìn)行不同設(shè)備區(qū)別判斷時(shí),主要用來(lái)進(jìn)行判斷的依據(jù)有:清晰度、通透感、噪聲和音色。該判斷依據(jù)可為回放檢測(cè)技術(shù)中的參數(shù)提取過(guò)程提供依據(jù)。
本文將采集設(shè)備和入侵設(shè)備錄制的用戶語(yǔ)音定義為原始語(yǔ)音;將回放設(shè)備重放已采錄語(yǔ)音得到的語(yǔ)音定義為回放語(yǔ)音。
以1名女性發(fā)音人發(fā)音數(shù)據(jù)“中午的太陽(yáng)多么大啊”為例,從時(shí)域波形、語(yǔ)譜圖、共振峰對(duì)比分析原始語(yǔ)音與回放語(yǔ)音。錄音回放環(huán)境為語(yǔ)言錄音室;采集設(shè)備為錄音筆1;入侵設(shè)備為手機(jī)4、錄音筆1和手機(jī)5;回放設(shè)備選取手機(jī)1和手機(jī)7。
圖6-圖7分別表示回放設(shè)備為手機(jī)1和手機(jī)7時(shí)對(duì)應(yīng)回放語(yǔ)音與原始語(yǔ)音的波形圖。
(a)原始采集語(yǔ)音 (b)手機(jī)4入侵
(c)錄音筆1入侵 (d)手機(jī)5入侵圖6 原始語(yǔ)音與回放錄音波形圖(手機(jī)7回放)
(a)原始采集語(yǔ)音 (b)手機(jī)4入侵
(c)錄音筆1入侵 (d)手機(jī)5入侵圖7 原始語(yǔ)音與回放錄音波形圖(手機(jī)1回放)
由圖6和圖7可知,經(jīng)同一入侵設(shè)備不同回放設(shè)備錄制語(yǔ)音,衰減程度有區(qū)別。經(jīng)同一回放設(shè)備不同入侵設(shè)備錄制語(yǔ)音波形圖間差異較小。整體來(lái)看,不同回放設(shè)備、不同入侵設(shè)備對(duì)應(yīng)的回放語(yǔ)音相較原始語(yǔ)音波形圖整體趨勢(shì)相近,差別較小。
圖8-圖9分別表示回放設(shè)備為手機(jī)1和手機(jī)7時(shí)對(duì)應(yīng)回放語(yǔ)音與原始語(yǔ)音的語(yǔ)譜圖。
(a)原始采集語(yǔ)音 (b)手機(jī)4入侵
(c)錄音筆1入侵 (d)手機(jī)5入侵圖8 原始語(yǔ)音與回放錄音語(yǔ)譜圖(手機(jī)7回放)
(a)原始采集語(yǔ)音 (b)手機(jī)4入侵
(c)錄音筆1入侵 (d)手機(jī)5入侵圖9 原始語(yǔ)音與回放錄音語(yǔ)譜圖(手機(jī)1回放)
由圖8和圖9可知,1)不同入侵設(shè)備、不同回放設(shè)備產(chǎn)生的回放語(yǔ)音語(yǔ)譜圖變化趨勢(shì)與原始語(yǔ)音基本相同,但回放語(yǔ)音能量有衰減,且在靜音區(qū)有較多噪聲出現(xiàn),其高頻部分能量有增加;2)同一回放設(shè)備不同入侵設(shè)備,錄音筆1產(chǎn)生的能量衰減較為明顯,手機(jī)4和手機(jī)5能量衰減基本相同;3)同一入侵設(shè)備不同回放設(shè)備產(chǎn)生語(yǔ)音,能量變化趨勢(shì)基本一致。
綜上所述,從語(yǔ)譜圖直接觀察可得到,回放語(yǔ)音與原始語(yǔ)音差異主要存在于能量及噪聲分布上。
圖10-圖11分別表示回放設(shè)備為手機(jī)1和手機(jī)7時(shí)對(duì)應(yīng)回放語(yǔ)音與原始語(yǔ)音的共振峰圖。圖中紅點(diǎn)表示共振峰的中心頻率。
(a)原始采集語(yǔ)音 (b)手機(jī)4入侵
(c)錄音筆1入侵 (d)手機(jī)5入侵圖10 原始語(yǔ)音與回放錄音共振峰圖(手機(jī)7回放)
(a)原始采集語(yǔ)音 (b)手機(jī)4入侵
(c)錄音筆1入侵 (d)手機(jī)5入侵圖11 原始語(yǔ)音與回放錄音共振峰圖(手機(jī)1回放)
從圖10和圖11可知,原始語(yǔ)音共振峰中心頻率位置相較于回放語(yǔ)音更加規(guī)律?;胤耪Z(yǔ)音共振峰中心頻率分布增加了很多的不確定性,分布更加分散,這部分引起原因可能是設(shè)備引起的噪聲。但變化趨勢(shì)一致,即錄音回放沒(méi)有改變共振峰整體走向。
從時(shí)域波形、語(yǔ)譜圖、共振峰對(duì)比分析發(fā)現(xiàn),原始語(yǔ)音與回放語(yǔ)音在時(shí)頻域的相似度很高,因此直接通過(guò)波形、語(yǔ)譜圖或者共振峰相似度進(jìn)行二者識(shí)別,則難度較大。所以,尋求更具有區(qū)別度的深度特征進(jìn)行模式匹配,對(duì)防錄音回放攻擊而言是非常有必要的。
本文建立了具有豐富發(fā)音人信息、信道信息以及環(huán)境信息的針對(duì)中文的多場(chǎng)景下錄音回放語(yǔ)音數(shù)據(jù)集,包含209個(gè)發(fā)音人,4種采集設(shè)備、6種偷錄設(shè)備和3種回放設(shè)備,涉及4種不同應(yīng)用場(chǎng)景。通過(guò)聽(tīng)音實(shí)驗(yàn)對(duì)錄制語(yǔ)音質(zhì)量進(jìn)行主觀聽(tīng)感評(píng)價(jià),同時(shí)從時(shí)域波形、語(yǔ)譜圖、共振峰角度進(jìn)行聲學(xué)參數(shù)初步分析,為錄音回放檢測(cè)技術(shù)的發(fā)展提供參考。