徐嘉,簡(jiǎn)志華,金宏輝,吳超,游林,吳迎笑
研究與開(kāi)發(fā)
基于中心對(duì)稱(chēng)局部二值模式的合成偽裝語(yǔ)音檢測(cè)方法
徐嘉1,簡(jiǎn)志華1,金宏輝1,吳超1,游林2,吳迎笑3
(1. 杭州電子科技大學(xué)通信工程學(xué)院,浙江 杭州 310018;2.杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,浙江 杭州 310018;3.杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
針對(duì)基于局部二值模式的偽裝語(yǔ)音檢測(cè)方法的合成語(yǔ)音檢測(cè)準(zhǔn)確度較低的情況,提出了一種基于中心對(duì)稱(chēng)局部二值模式的偽裝語(yǔ)音檢測(cè)方法。該方法通過(guò)短時(shí)傅里葉變換得到語(yǔ)音信號(hào)的語(yǔ)譜圖,再利用中心對(duì)稱(chēng)局部二值模式提取語(yǔ)譜圖的紋理特征,并用該紋理特征訓(xùn)練隨機(jī)森林分類(lèi)器,從而實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的判別。該方法綜合考慮語(yǔ)譜圖中像素點(diǎn)的數(shù)值大小和位置關(guān)系,包含了更加全面的紋理信息,并將特征維度降低至16維,有利于減少計(jì)算量。實(shí)驗(yàn)結(jié)果表明,在ASVspoof 2019數(shù)據(jù)集上,與傳統(tǒng)的基于局部二值模式的偽裝語(yǔ)音檢測(cè)方法相比,所提方法將合成偽裝語(yǔ)音的串聯(lián)檢測(cè)代價(jià)函數(shù)(t-DCF)降低了16.98%,檢測(cè)速度提高了89.73%。
說(shuō)話人驗(yàn)證;偽裝語(yǔ)音檢測(cè);中心對(duì)稱(chēng)局部二值模式;隨機(jī)森林
語(yǔ)音是人機(jī)交互的一種重要方式,語(yǔ)音信號(hào)中包含了說(shuō)話人特有的身份信息。隨著科技的進(jìn)步,語(yǔ)音合成技術(shù)不斷發(fā)展,生成的語(yǔ)音信號(hào)足以欺騙人類(lèi)聽(tīng)覺(jué)系統(tǒng)和計(jì)算機(jī)[1]。通過(guò)語(yǔ)音合成技術(shù)生成的高質(zhì)量語(yǔ)音,若被應(yīng)用在銀行的身份認(rèn)證上,將對(duì)個(gè)人的財(cái)產(chǎn)安全造成重大影響;若利用合成語(yǔ)音操控智能家居等設(shè)備,將造成隱私的泄露;若利用合成語(yǔ)音進(jìn)行電信詐騙,將對(duì)社會(huì)治安產(chǎn)生不良影響。使用偽裝語(yǔ)音檢測(cè)技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行分析,從而實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的判別,對(duì)于提高聲紋識(shí)別系統(tǒng)的安全性具有重要意義,應(yīng)用前景廣闊[2]。
偽裝語(yǔ)音檢測(cè)技術(shù)通過(guò)提取語(yǔ)音信號(hào)的特征參數(shù)并應(yīng)用分類(lèi)模型實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的判別。常用的特征參數(shù)包括以下兩大類(lèi)。一類(lèi)是短時(shí)譜特征,比如梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)、線性預(yù)測(cè)倒譜系數(shù)(linear prediction cepstral coefficient,LPCC)等。文獻(xiàn)[3]比較了MFCC等特征的檢測(cè)性能,在ASVspoof 2019數(shù)據(jù)庫(kù)的LA數(shù)據(jù)集上,利用MFCC進(jìn)行偽裝語(yǔ)音檢測(cè)的等錯(cuò)誤率(equal error rate,EER)為9.33%。崔兆國(guó)[4]比較了MFCC、LPCC特征以及36階MFCC及其差分倒譜系數(shù)的偽裝檢測(cè)效果,實(shí)驗(yàn)結(jié)果表明,這3種特征均可用于偽裝語(yǔ)音檢測(cè)且36階MFCC及其差分倒譜系數(shù)具有更優(yōu)的效果。另一類(lèi)是短時(shí)相位特征,比如修正群延遲(modified group delay,MGD)、相對(duì)相移(relative phase shift,RPS)等。文獻(xiàn)[5]發(fā)現(xiàn)群時(shí)延特征保留了較多的共振峰結(jié)構(gòu),證明了其對(duì)于語(yǔ)音處理的魯棒性。文獻(xiàn)[6]比較了MGD和RPS兩種特征的檢測(cè)性能,在使用MGD進(jìn)行偽裝語(yǔ)音檢測(cè)時(shí),EER為4.918 7%,利用RPS做特征時(shí),EER為4.473 0%。上述聲學(xué)特征都可以實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的判別,但對(duì)合成語(yǔ)音提取這些特征時(shí),僅保留了原始語(yǔ)音中的幅度或相位信息,保留信息不全面,影響了檢測(cè)性能。
近年來(lái),紋理分析成為圖像處理領(lǐng)域的研究熱點(diǎn),局部二值模式(local binary pattern,LBP)是一種較為常用的紋理描述方法。文獻(xiàn)[7-8]利用LBP特征實(shí)現(xiàn)了顏色紋理分類(lèi),文獻(xiàn)[9-10]通過(guò)提取面部圖像的LBP特征,實(shí)現(xiàn)了人臉識(shí)別。在語(yǔ)音偽裝檢測(cè)領(lǐng)域,Alegre等[11]提出了一種利用LBP描述符實(shí)現(xiàn)偽裝語(yǔ)音檢測(cè)的方法,該方法對(duì)語(yǔ)音分幀后提取特征向量,將每一幀的特征向量級(jí)聯(lián)后運(yùn)用LBP描述符進(jìn)行紋理信息提取,實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的區(qū)分,在NIST數(shù)據(jù)集上將EER降低至0.5%。文獻(xiàn)[12]提出了對(duì)語(yǔ)譜圖直接進(jìn)行紋理分析的方法,在ASVspoof 2015數(shù)據(jù)集上將EER從2.589%降至0.796%。然而LBP特征維數(shù)為256維,維數(shù)較高,檢測(cè)效率有待提高,且LBP特征只利用了像素點(diǎn)之間的大小關(guān)系,包含的紋理信息較為單一,檢測(cè)準(zhǔn)確率有待提升。本文提出了一種利用中心對(duì)稱(chēng)局部二值模式的合成語(yǔ)音偽裝檢測(cè)方法,通過(guò)短時(shí)傅里葉變換(short-time Fourier transform,STFT)得到語(yǔ)音信號(hào)的語(yǔ)譜圖,再利用中心對(duì)稱(chēng)局部二值模式(central-symmetric local binary pattern,CSLBP)對(duì)語(yǔ)譜圖進(jìn)行紋理分析得到紋理特征圖,將特征圖映射至統(tǒng)計(jì)直方圖得到16維特征向量,用該向量訓(xùn)練隨機(jī)森林實(shí)現(xiàn)合成語(yǔ)音的偽裝檢測(cè)。該方法直接對(duì)語(yǔ)譜圖提取CSLBP特征,綜合考慮了語(yǔ)音信號(hào)的幅度和相位信息,并利用語(yǔ)譜圖像素點(diǎn)之間的大小和位置關(guān)系,降低了特征維數(shù),提高了系統(tǒng)的檢測(cè)性能。
LBP是一種描述圖像局部紋理信息的紋理描述方法,該方法將圖像劃分為若干個(gè)3×3的鄰域,將每個(gè)鄰域中心像素點(diǎn)的灰度值作為閾值,將周?chē)?個(gè)像素點(diǎn)的灰度值與閾值進(jìn)行比較,若周?chē)袼攸c(diǎn)的灰度值大于或等于閾值,則該像素點(diǎn)被標(biāo)記為1,否則為0,LBP紋理示意圖如圖1所示[13]。
圖1 LBP紋理示意圖
經(jīng)比較,每個(gè)鄰域可按順時(shí)針得到一個(gè)8位二進(jìn)制數(shù),該8位二進(jìn)制數(shù)可轉(zhuǎn)換成十進(jìn)制,這個(gè)十進(jìn)制數(shù)值代表了該鄰域中心像素點(diǎn)的LBP特征值,且每個(gè)十進(jìn)制數(shù)表示一種LBP紋理模式,因此LBP特征值共有256種不同的模式,計(jì)算式如下[14]:
圖2 CSLBP紋理示意圖
CSLBP的計(jì)算式如下:
用CSLBP進(jìn)行紋理描述時(shí),每個(gè)像素點(diǎn)僅由4位二進(jìn)制數(shù)表示,因此CSLBP共有16種不同的模式,大大降低了紋理特征的維數(shù),且包含了梯度方向上的信息[16]。
基于CSLBP的偽裝語(yǔ)音檢測(cè)方法,首先將語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,再提取語(yǔ)譜圖的CSLBP紋理特征,然后將該特征輸入隨機(jī)森林網(wǎng)絡(luò)進(jìn)行訓(xùn)練和分類(lèi),從而實(shí)現(xiàn)偽裝語(yǔ)音檢測(cè)。CSLBP特征提取流程如圖3所示。
首先通過(guò)STFT得到語(yǔ)音信號(hào)的語(yǔ)譜圖,然后將語(yǔ)譜圖轉(zhuǎn)換為灰度圖,再將灰度圖劃分為若干個(gè)3×3鄰域,對(duì)每一鄰域內(nèi)的像素點(diǎn)提取十進(jìn)制的CSLBP值,即可得到整幅圖像的CSLBP矩陣,最后對(duì)整幅圖像的CSLBP值進(jìn)行直方圖統(tǒng)計(jì),統(tǒng)計(jì)每種模式下像素點(diǎn)的數(shù)目,最終得到16維的CSLBP特征向量。
圖3 CSLBP特征提取流程
本文提出的利用CSLBP的偽裝語(yǔ)音檢測(cè)整體流程如圖4所示,首先用圖3的方法獲取訓(xùn)練集中語(yǔ)音信號(hào)的CSLBP特征向量,并輸入隨機(jī)森林網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到分類(lèi)器,檢測(cè)時(shí)提取待測(cè)語(yǔ)音的CSLBP特征向量,然后利用隨機(jī)森林分類(lèi)器實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的判別。
圖4 利用CSLBP的偽裝語(yǔ)音檢測(cè)整體流程
實(shí)驗(yàn)是在ASVspoof 2019語(yǔ)音數(shù)據(jù)庫(kù)中的LA數(shù)據(jù)集上進(jìn)行的,其中包含真實(shí)、合成和轉(zhuǎn)換3種語(yǔ)音,本實(shí)驗(yàn)僅采用其中的真實(shí)語(yǔ)音和合成語(yǔ)音進(jìn)行訓(xùn)練和測(cè)試。LA數(shù)據(jù)集分為訓(xùn)練集、開(kāi)發(fā)集和評(píng)估集,3個(gè)子集之間無(wú)重復(fù)語(yǔ)音,LA數(shù)據(jù)集見(jiàn)表1。該數(shù)據(jù)集中的語(yǔ)音由神經(jīng)波形模型、聲碼器、波形拼接等17種算法生成[17]。
表1 LA數(shù)據(jù)集
本實(shí)驗(yàn)采用串聯(lián)檢測(cè)代價(jià)函數(shù)(tandem detection cost function,t-DCF)作為語(yǔ)音偽裝檢測(cè)性能的評(píng)價(jià)方法[18]。在實(shí)際應(yīng)用中,偽裝語(yǔ)音檢測(cè)系統(tǒng)往往需要與自動(dòng)說(shuō)話人驗(yàn)證(automatic speaker verification,ASV)系統(tǒng)結(jié)合使用,且檢測(cè)結(jié)果同時(shí)受到偽裝語(yǔ)音檢測(cè)系統(tǒng)和ASV系統(tǒng)的影響,若僅使用EER作為評(píng)價(jià)標(biāo)準(zhǔn),無(wú)法反映檢測(cè)模型的整體性能。t-DCF綜合考慮了錯(cuò)誤拒絕和錯(cuò)誤接受發(fā)生的代價(jià)、錯(cuò)誤率以及真?zhèn)握Z(yǔ)音的先驗(yàn)概率,用來(lái)評(píng)估偽裝語(yǔ)音檢測(cè)系統(tǒng)較為合理,且t-DCF值越小,系統(tǒng)檢測(cè)效果越好。
t-DCF的計(jì)算式為:
表2 不同閾值T下CSLBP特征的t-DCF
為了驗(yàn)證CSLBP特征的有效性,比較了36 維MFCC特征、LPCC特征、對(duì)語(yǔ)譜圖提取的LBP特征和對(duì)語(yǔ)譜圖提取的CSLBP特征在SVM和隨機(jī)森林做后端分類(lèi)器時(shí)的t-DCF,在這里用訓(xùn)練集中的真實(shí)語(yǔ)音和A01~A04 4種類(lèi)型的合成語(yǔ)音進(jìn)行訓(xùn)練,用評(píng)估集中的真實(shí)語(yǔ)音和A07~A16類(lèi)型的合成語(yǔ)音一起進(jìn)行評(píng)估。4種特征的t-DCF見(jiàn)表3。同時(shí),對(duì)4種不同特征的檢測(cè)時(shí)間進(jìn)行了比較,4種特征的檢測(cè)耗時(shí)見(jiàn)表4。
表3 幾種特征的t-DCF
表4 幾種特征的檢測(cè)耗時(shí)
從表3和表4來(lái)看,利用CSLBP特征訓(xùn)練隨機(jī)森林的方法在合成語(yǔ)音檢測(cè)時(shí)取得了最佳檢測(cè)結(jié)果,與LBP相比,CSLBP特征的t-DCF降低了16.98%,且檢測(cè)速度提高了89.73%,這是因?yàn)镃SLBP特征不僅利用了像素點(diǎn)之間的大小關(guān)系,還利用了像素點(diǎn)之間的空間位置關(guān)系,紋理信息更為全面,極大地提高了合成語(yǔ)音的檢測(cè)性能。評(píng)估集中不同類(lèi)型合成語(yǔ)音檢測(cè)的t-DCF見(jiàn)表5。
表5對(duì)評(píng)估集中不同類(lèi)型的合成語(yǔ)音檢測(cè)性能進(jìn)行了比較,在這個(gè)比較實(shí)驗(yàn)中,訓(xùn)練所用樣本是訓(xùn)練集中的真實(shí)語(yǔ)音和A01~A04 4種類(lèi)型的合成語(yǔ)音,然后對(duì)評(píng)估集中A07~A16 10種類(lèi)型的合成語(yǔ)音分別進(jìn)行偽裝檢測(cè)。在檢測(cè)A07、A08、A14類(lèi)型的合成語(yǔ)音時(shí),CSLBP的t-DCF值比LBP略高,這是因?yàn)閷?duì)于這幾種類(lèi)型的合成語(yǔ)音來(lái)說(shuō),其語(yǔ)譜圖中鄰域中心像素點(diǎn)的灰度值包含了豐富的紋理信息,而CSLBP特征沒(méi)有將中心像素點(diǎn)的灰度值利用起來(lái),因此效果相對(duì)較差。另外,從表5可以看出,這幾種檢測(cè)方法在檢測(cè)A14、A15這兩種類(lèi)型的合成語(yǔ)音時(shí),相比于其他幾種類(lèi)型,t-DCF值較高。原因在于A14、A15這兩種類(lèi)型的語(yǔ)音在生成時(shí)不僅利用了語(yǔ)音合成算法,還利用了語(yǔ)音轉(zhuǎn)換技術(shù),生成的語(yǔ)音更加貼近真實(shí)語(yǔ)音,保留了較多的紋理信息。雖然A13的語(yǔ)音也采用了類(lèi)似于A14、A15的生成方法,但檢測(cè)效果優(yōu)于A14、A15,這是因?yàn)锳14、A15采用基于長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)的聲學(xué)模型生成語(yǔ)音[20]。而生成A13語(yǔ)音時(shí),采用傳統(tǒng)的語(yǔ)音轉(zhuǎn)換方法以及基于矩匹配的損失函數(shù)進(jìn)行訓(xùn)練[21],用直接波形修改的方式生成輸出波形,紋理信息也隨之改變,因此易于檢測(cè)。整體來(lái)看,CSLBP特征降低了合成語(yǔ)音的t-DCF,減少了檢測(cè)所需時(shí)間,提高了合成語(yǔ)音檢測(cè)系統(tǒng)的整體性能。
表5 評(píng)估集中不同類(lèi)型合成語(yǔ)音檢測(cè)的t-DCF
本文提出了一種利用CSLBP特征的合成語(yǔ)音檢測(cè)方法。該方法首先通過(guò)STFT得到語(yǔ)音信號(hào)的語(yǔ)譜圖,然后利用語(yǔ)譜圖中像素灰度值和空間位置的差異,提取CSLBP特征進(jìn)行紋理分析,再進(jìn)行直方圖統(tǒng)計(jì)得到特征向量,然后利用隨機(jī)森林對(duì)特征向量進(jìn)行訓(xùn)練和分類(lèi),實(shí)現(xiàn)偽裝語(yǔ)音的檢測(cè)。該方法不僅比較了像素點(diǎn)之間的灰度值,還利用了像素點(diǎn)之間的位置關(guān)系,提取了更多的紋理信息,降低了特征維度,有效地改善了傳統(tǒng)LBP特征的檢測(cè)性能,提高了檢測(cè)速度,降低了t-DCF。實(shí)驗(yàn)結(jié)果表明,在全局閾值為5時(shí),由CSLBP特征和隨機(jī)森林構(gòu)建的合成語(yǔ)音檢測(cè)系統(tǒng)在ASVspoof 2019數(shù)據(jù)集上取得了最佳的檢測(cè)性能。利用CSLBP的合成語(yǔ)音檢測(cè)方法雖較傳統(tǒng)方法有所改進(jìn),但仍存在問(wèn)題需要解決,如全局閾值自適應(yīng)化等,在未來(lái)的工作中,將繼續(xù)進(jìn)行優(yōu)化。
[1] KANERVISTO A, HAUTAM?KI V, KINNUNEN T, et al. Optimizing tandem speaker verification and anti-spoofing systems[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 477-488.
[2] LEI Z C, YAN H, LIU C H, et al. Two-path GMM-ResNet and GMM-SENet for ASV spoofing detection[C]//Proceedings of ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2022: 6377-6381.
[3] ALZANTOT M, WANG Z Q, SRIVASTAVA M B. Deep residual neural networks for audio spoofing detection[C]//Proceedings of Interspeech 2019. Cary: ISCA, 2019: 1078-1082.
[4] 崔兆國(guó). 基于SVM的反蓄意模仿說(shuō)話人識(shí)別研究[D]. 桂林: 桂林電子科技大學(xué), 2013.
CUI Z G. Research on speaker recognition of anti-deliberate imitation based on SVM[D]. Guilin: Guilin University of Electronic Technology, 2013.
[5] PADMANABHAN R, PARTHASARATHI S H K, MURTHY H A. Robustness of phase based features for speaker recognition[C]//Proceedings of Interspeech 2009. Cary: ISCA, 2009: 2299-2302.
[6] SARATXAGA I, SANCHEZ J, WU Z, et al. Synthetic speech detection using phase information[J]. Speech Communication, 2016(81): 30-41.
[7] HOANG V T. Unsupervised LBP histogram selection for color texture classification via sparse representation[C]//Proceedings of 2018 IEEE International Conference on Information Communication and Signal Processing. Piscataway: IEEE Press, 2018: 79-84.
[8] SHU X, SONG Z, SHI J, et al. Multiple channels local binary pattern for color texture representation and classification[J]. Signal Processing: Image Communication, 2021(98): 116392.
[9] KARANWAL S. A comparative study of 14 state of art descriptors for face recognition[J]. Multimedia Tools and Applications, 2021, 80(8): 12195-12234.
[10] SHI L, WANG X, SHEN Y. Research on 3D face recognition method based on LBP and SVM[J]. Optik: International Journal for Light and Electron Optics, 2020(220):165157.
[11] ALEGRE F, VIPPERLA R, AMEHRAYE A, et al. A new speaker verification spoofing countermeasure based on local binary patterns[C]//Proceedings of Interspeech 2013. Cary: ISCA, 2013: 940-944.
[12] 徐劍, 簡(jiǎn)志華, 于佳祺, 等. 采用完整局部二進(jìn)制模式的偽裝語(yǔ)音檢測(cè)[J]. 電信科學(xué), 2021, 37(5): 91-99.
XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.
[13] XIA Z H, YUAN C S, LYU R, et al. A novel weber local binary descriptor for fingerprint liveness detection[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018, 50(4): 1526-1536.
[14] TOFFA O K, MIGNOTTE M. Environmental sound classification using local binary pattern and audio features collaboration[J]. IEEE Transactions on Multimedia, 2021(23): 3978-3985.
[15] SHAH A, EL-ALFY E. Comparative analysis of feature extraction and fusion for blind authentication of digital images using chroma channels[J]. Signal Processing: Image Communication, 2021(95): 116271.
[16] 王科俊, 曹逸, 邢向磊. 基于MB-CSLBP的手指靜脈加密算法研究[J]. 智能系統(tǒng)學(xué)報(bào), 2018, 13(4): 543-549.
WANG K J, CAO Y, XING X L. Finger-vein encryption algorithm based on MB-CSLBP[J]. CAAI Transactions on Intelligent Systems, 2018, 13(4): 543-549.
[17] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public database of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020(64): 101114.
[18] KINNUNEN T , DELGADO H , EVANS N , et al. Tandem assessment of spoofing countermeasures and automatic speaker verification: fundamentals[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020(28): 2195-2210.
[19] HEIKKILA M, PIETIKAINEN M. A texture-based method for modeling the background and detecting moving objects[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 657-662.
[20] LIU L J, LING Z H, JIANG Y, et al. WaveNet vocoder with limited training data for voice conversion[C]//Proceedings of Annual Conference of the International Speech Communication Association (Interspeech). Cary: ISCA, 2018: 1983-1987.
[21] LI Y J, SWERSKY K, ZEMEL R. Generative moment matching networks[C]//Proceedings of International Conference on Machine Learning (ICML). [S.l.: s.n.], 2015: 1718-1727.
Synthetic spoofing speech detection method based on center-symmetric local binary pattern
XU Jia1, JIAN Zhihua1, JIN Honghui1, WU Chao1, YOU Lin2, WU Yingxiao3
1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China 2. School of Cyberspace Security, Hangzhou Dianzi University, Hangzhou 310018, China 3. School of Computer, Hangzhou Dianzi University, Hangzhou 310018, China
In view of the fact that the local binary pattern (LBP) based speech spoofing detection method has low detection accuracy when detecting synthetic speech, a spoofing speech detection method based on center-symmetric local binary pattern (CSLBP) was proposed. In this method, the spectrogram of the speech signal was obtained through short-time Fourier transform (STFT), and then the texture feature was extracted from the spectrogram using the CSLBP. The random forest classifier was trained by the extracted texture feature to realize the discrimination of genuine and spoofing speech. The CSLBP-based method comprehensively considered the value and position relationship of pixels in the spectrogram so as to contain more texture information, and reduced the feature dimension to 16 beneficial to decrease the amount of computation. Experimental results on the ASVspoof 2019 dataset show that, compared with the LBP-based spoofing detection method, the proposed method reduced the tandem detection cost function (t-DCF) of synthetic spoofing speech by 16.98% and increased the detection speed by 89.73%.
speaker verification, spoofing speech detection, CSLBP, random forest
TP391.42
A
10.11959/j.issn.1000–0801.2023005
2022-05-16;
2022-12-15
簡(jiǎn)志華,jianzh@hdu.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61201301,No.61772166,No.61901154)
The National Natural Science Foundation of China (No.61201301, No.61772166, No.61901154)
徐嘉(1998-),女,杭州電子科技大學(xué)通信工程學(xué)院碩士生,主要研究方向?yàn)閭窝b語(yǔ)音檢測(cè)。
簡(jiǎn)志華(1978-),男,杭州電子科技大學(xué)通信工程學(xué)院副教授、碩士生導(dǎo)師,主要研究方向?yàn)檎Z(yǔ)音轉(zhuǎn)換、偽裝語(yǔ)音檢測(cè)、聲紋識(shí)別等。
金宏輝(1999-),男,杭州電子科技大學(xué)通信工程學(xué)院碩士生,主要研究方向?yàn)檎Z(yǔ)音轉(zhuǎn)換和偽裝語(yǔ)音檢測(cè)。
吳超(1988-),男,杭州電子科技大學(xué)通信工程學(xué)院講師,主要研究方向?yàn)閷?dǎo)航信號(hào)處理及欺騙干擾檢測(cè)。
游林(1966-),男,杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院教授、博士生導(dǎo)師,主要研究方向?yàn)樯镄畔⑻幚?、信息安全、密碼學(xué)等。
吳迎笑(1980-),女,杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院特聘教授,主要研究方向?yàn)楹撩撞ǜ兄糜诼暭y識(shí)別與認(rèn)證、射頻信息處理和工業(yè)互聯(lián)網(wǎng)。