国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ERes-ECAM 的動物聲紋識別

2024-09-14 00:00:00侯衛(wèi)民孫藝菲劉峻滔
無線電通信技術(shù) 2024年4期
關(guān)鍵詞:聲紋識別深度學(xué)習(xí)

摘 要:聲紋識別技術(shù)不僅在人類身份驗證領(lǐng)域廣泛應(yīng)用,在動物種類識別方面也取得一定進展?,F(xiàn)有模型存在特征表達能力不足的問題,同時,在保證性能的前提下,模型的時間復(fù)雜度和推理速度有待優(yōu)化。提出用于發(fā)聲動物嵌入學(xué)習(xí)的改進的殘差塊連接改進的上下文感知掩蔽(Enhanced Res2block connected Enhanced Context Aware Masking,ERes-ECAM)新型架構(gòu),采用了稠密連接的時延神經(jīng)網(wǎng)絡(luò)(Densely-connected Time Delay Neural Network,D-TDNN)作為骨干,為了解決模糊不相關(guān)噪聲問題的同時能夠提取更多有效的關(guān)鍵信息,在D-TDNN 層中采用多粒度池化方法的改進的上下文感知掩蔽(Enhanced Context Aware Masking,ECAM)模塊,前端連接殘差模塊,通過局部特征融合(Local FeatureFusion,LFF)的方式,將殘差塊內(nèi)提取的特征進行融合來提取局部信息,提升了聲紋驗證系統(tǒng)的準(zhǔn)確性和魯棒性。在Anim-Celeb 和Pig-Celeb 兩個測試集中分別實驗,實驗結(jié)果表明,所提架構(gòu)的等錯誤率(Equal Error Rate,EER)分別達到6. 88% 和7. 24% ,同時,對動物種類和豬只種類識別準(zhǔn)確率達到了93. 12% 和92. 76% 。

關(guān)鍵詞:深度學(xué)習(xí);聲紋識別;上下文感知掩碼;局部特征融合;動物種類識別

中圖分類號:TN912. 34 文獻標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

文章編號:1003-3114(2024)04-0789-10

0 引言

近年來,隨著人類對生態(tài)環(huán)境的影響,尤其是對生物棲息地的破壞[1],各種類動物數(shù)量大幅下降。因此,無論是在復(fù)雜的野外環(huán)境還是在日常生產(chǎn)養(yǎng)殖方面,對動物種群進行有效監(jiān)測是進行有效動物保護的重要途徑。目前,應(yīng)用較多的是圖像觀測識別和DNA 分析檢測方法[2]。但是這些方法存在著成本高、識別率有待提高等缺點。于是,借助聲紋特征進行動物種類識別進而估計分布區(qū)域逐漸成為研究熱點[3]。采用動物聲紋識別動物種類具有高效率、非損傷、低干擾、大范圍等優(yōu)勢,有很好的應(yīng)用前景[4]。

此前,很多學(xué)者對基于深度學(xué)習(xí)方法的說話人識別系統(tǒng)做了大量研究。Snyder 等[5]提出一種基于時延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)的端到端說話人嵌入模型,該模型提取的說話人嵌入矢量稱為x-vector。Desplanques 等[6]提出的ECAPA-TDNN 神經(jīng)網(wǎng)絡(luò)完成說話人驗證的任務(wù),采用的是Res2Net 中的Res2block,其具有更大的感受野,可獲取不同尺度的特征。

同時,基于動物聲紋的動物種類識別方法也得到了廣泛的研究。Cheng 等[7]采用音頻信號的梅爾頻率倒譜系數(shù)作為輸入,利用高斯混合模型實現(xiàn)了基于鳥鳴的鳥類識別,最佳準(zhǔn)確率達到92. 5% 。Towsey 等[8]的研究中,可以在野外有噪聲環(huán)境中區(qū)別黑噪鐘雀、大石鸻、雄性考拉、海蟾蜍、亞洲家壁虎、地棲鸚鵡、綠嘯冠鶇、澳洲鴉等動物的聲音。Larranaga 等[9]研究匈牙利馬地犬叫聲,性別識別達到了85. 13% 的準(zhǔn)確率,發(fā)育程度識別(幼年、成年、老年)達到了80. 25% 的準(zhǔn)確率。Sasmaz 等[10]采集了10 種動物的875 段音頻構(gòu)建動物叫聲數(shù)據(jù)集,使用的網(wǎng)絡(luò)模型由3 個卷積層和3 個全連接層組成,提取動物叫聲音頻的梅爾頻率倒譜系數(shù)特征并作為模型輸入進行物種分類,最終獲得了75%的準(zhǔn)確率。

雖然國內(nèi)外學(xué)者對發(fā)聲動物的聲紋識別展開了深入研究,但仍存在一些問題:當(dāng)前對發(fā)聲動物的聲紋識別的研究仍存在技術(shù)難點;忽視了不相關(guān)噪聲及缺乏局部信息交互的影響,不能提取更多有效的關(guān)鍵信息,導(dǎo)致模型特征表達能力不足;在不犧牲性能的前提下,現(xiàn)有模型的時間復(fù)雜度有待降低且推理速度有待提高。

針對上述問題,本文提出一種動物聲紋識別的新型架構(gòu),主要貢獻如下:

① 提出了改進的殘差塊連接改進的上下文感知掩蔽(Enhanced Res2block connected Enhanced ContextAware Masking,ERes-ECAM)架構(gòu)利用動物聲紋進行身份識別,提取相關(guān)的聲紋特征訓(xùn)練模型,建立了動物的聲紋識別系統(tǒng),有效地對動物種類和豬只種類進行分類。

② 改進了稠密連接的TDNN(Densely-connectedTime Delay Neural Network,D-TDNN)骨干網(wǎng)絡(luò)以提升模型的表征能力,采用多粒度池化的方法使網(wǎng)絡(luò)模型在模糊不相關(guān)噪聲的同時能夠提取更多有效的關(guān)鍵信息。

③ 在ERes2block(Enhanced Res2block,ERes2-block)中提出局部特征融合(Local Feature Fusion,LFF)的結(jié)構(gòu),可以捕獲輸入信號中的本地模式,獲取更細(xì)粒度的特征,加強局部信息交互,從而提高聲紋識別系統(tǒng)的魯棒性和準(zhǔn)確性。

1 網(wǎng)絡(luò)結(jié)構(gòu)

1. 1 總體架構(gòu)

本文所提出的算法流程如圖1 所示。首先,提取音頻Fbank 特征作為輸入;其次,將輸入的特征經(jīng)過前端殘差模塊(Front-end Residual Module,FRM)結(jié)構(gòu),計算局部關(guān)注權(quán)值,增強了局部信息的交互,從而獲得更高分辨率的時頻細(xì)節(jié);再次,通過采用密集連接的D-TDNN 骨干網(wǎng)絡(luò),包含3 個塊,增加了網(wǎng)絡(luò)深度,減小了模型參數(shù);然后,通過每個D-TDNN層的改進的上下文感知掩蔽(Enhanced ContextAware Masking,ECAM)模塊,在模糊不相關(guān)噪聲的同時能提取更多有效關(guān)鍵信息;最后,利用ERes-ECAM 進行識別,得到識別結(jié)果。

本文提出的ERes-ECAM 網(wǎng)絡(luò)模型總體框架結(jié)構(gòu)如圖2 所示。該體系結(jié)構(gòu)主要由兩部分組成:FRM 和D-TDNN 結(jié)構(gòu)。FRM 由多個殘差模塊組成,通過在時頻域?qū)β晫W(xué)特征進行編碼從而獲得更高分辨率的時頻細(xì)節(jié)。其中,在ERes2block 塊中通過在相鄰特征映射之間的類殘差連接中引入了一種注意特征融合(Attentional Feature Fusion,AFF)模塊,可對LFF 進行增強。FRM 所得到的特征圖隨后沿通道和頻率維度被平坦化,并用作D-TDNN 的輸入。

在D-TDNN 主干中包括3 個塊,每個塊包含一系列D-TDNN 層,通過ECAM 為每層D-TDNN 的輸出特征分配不同的權(quán)重。本文在ECAM 模塊中采用多粒度池化的方法,將全局平均池化和分段平均池化進行結(jié)合,更有效聚合不同層次的上下文信息。通過密集鏈接的方式,將每個DTDNN 層的輸出與前面的所有層連接起來作為下一層的輸入。

1. 2 Res2block 與ERes2block

Res2block[11]通過增大感受野來提高模型的多尺度表示能力。在每個殘差塊內(nèi),使用分層類殘差連接提取通道維度上的多尺度特征,Res2block 結(jié)構(gòu)示意如圖3 所示。

在圖3 中,將特征映射劃分為s 個特征映射子集,用xi 表示,其中i∈{1,2,…,s}。每個特征子集xi 具有相同的空間大小,但通道數(shù)為1 / s。除了x1之外,每個xi 都要經(jīng)過一個卷積濾波器Ki(·)輸出yi 的表達式如式(1)所示:

Res2block 的分割和拼接策略缺乏有效的局部信息交互。針對該問題,本文對其改進提出了ERes2block 模塊,其結(jié)構(gòu)示意如圖4 所示。在該模塊中提出LFF 結(jié)構(gòu),該結(jié)構(gòu)通過在相鄰特征映射之間的類殘差連接中引入了AFF 模塊,可對LFF 的進行增強,獲取更細(xì)粒度的特征,加強局部信息交互。并且LFF 允許ERes2block 塊捕獲輸入信號中的本地模式,從而提高動物聲紋驗證系統(tǒng)的準(zhǔn)確性和魯棒性。

在圖4 中,特征映射用X∈RD×T×C 表示,其中D、T、C 分別表示頻率維度、時間維度和信道維度。將X 經(jīng)過1 × 1 卷積后,根據(jù)通道維數(shù)分成不同的組xEi,i∈{1,2,…,s},其中,AFF 模塊將前一組的輸出特征與另一組輸入特征映射進行融合,從而加強信息之間的交互。

在LFF 模塊中的分層融合結(jié)構(gòu)可以增加模型的接受域,并跨不同通道整合局部信息。ERes2block 的輸出如式(2)所示:

AFF 模塊將相鄰特征映射xEi 和yEi-1 作為輸入,其中計算局部關(guān)注權(quán)值U 如式(3)所示:

U=tanh(BN(V2 *SiLU(BN(V1*[xEi,yEi-1])))),(3)

式中:[·]為沿通道維度的連接,V1 和V2 分別為輸出通道大小為C/r和C 的點向卷積,r 為通道縮減比(本文設(shè)r = 4),BN(·)為批歸一化,SiLU(·)和tanh(·)分別為Sigmoid Linear Unit(SiLU)和tanh激活函數(shù)。根據(jù)特征的重要程度,該模塊進行動態(tài)加權(quán)和組合特征,提高模型從輸入信號中提取相關(guān)信息的能力。

1. 3 Front-end Residual Module

基于TDNN 的網(wǎng)絡(luò)沿著時間軸進行一維卷積,使用的卷積核覆蓋了輸入特征的完整頻率范圍。與二維卷積網(wǎng)絡(luò)相比,這種方法更難捕捉發(fā)生在某些局部頻率區(qū)域的發(fā)聲動物特征[12]。通常,需要大量的濾波器來模擬完整頻率區(qū)域中的復(fù)雜細(xì)節(jié)。在本文中,每個D-TDNN 塊中使用較窄的層來控制參數(shù)的大小,可能導(dǎo)致在一些局部區(qū)域內(nèi)難以準(zhǔn)確捕捉特定頻率模式。于是,需要增強D-TDNN 對時間頻率領(lǐng)域中的微小和合理變化的魯棒性,并補償實際發(fā)聲動物的發(fā)音變化。

針對這個問題,本文提出在D-TDNN 網(wǎng)絡(luò)前連接一個二維FRM[12-13],在FRM 中加入4 個殘差塊,如圖5 所示。

在圖5 中,包含一個Res2block 塊和3 個ERes2block 塊,所有殘差塊的通道數(shù)設(shè)置為32。在最后3 個ERes2block 塊中,本文在頻率維度上使用步幅2,導(dǎo)致在頻率域中進行8 倍的下采樣。FRM的輸出特征圖隨后沿通道和頻率維度展平,并用作D-TDNN 主干的輸入。

1. 4 D-TDNN 骨干結(jié)構(gòu)

x-vector 模型中的TDNN 最先采用沿時間軸擴展的一維卷積結(jié)構(gòu)作為主干,目前TDNN 在說話人驗證任務(wù)中被廣泛應(yīng)用。基于TDNN 改進的D-TDNN[14] 是一種高效的說話人嵌入模型,與DenseNet[15]類似,它采用密集連接,即各層之間以前饋方式直接連接。本文采用D-TDNN 作為ERes-ECAM 網(wǎng)絡(luò)骨干,其與傳統(tǒng)的TDNN 相比,參數(shù)量更小,識別效果更好。

D-TDNN 的基本單元由前饋神經(jīng)網(wǎng)絡(luò)(Feed-forward Neural Network,FNN)和TDNN 層組成。在兩個連續(xù)D-TDNN 層的輸入之間通過直接連接的方式連接。第l 層D-TDNN 表達式為:

Sl = Hl([s0,s1,…,sl-1]), (4)

式中:s0 為D-TDNN 模塊的輸入,Sl 為第l 層D-TDNN 的輸出, Hl 為第l 層D-TDNN 的非線性變換。

普通的D-TDNN 有兩個塊,每個塊分別包含6 和12 個D-TDNN 層。如圖6 所示,本文增加D-TDNN 網(wǎng)絡(luò)深度,在最后添加一個額外的塊,并將每個塊的層數(shù)擴展到12、24 和16。同時,為了降低網(wǎng)絡(luò)的復(fù)雜性,在每個塊中采用更窄的D-TDNN 層,即將原始增長率k 從64 降低到32。

1. 5 ECAM

擠壓-激勵(Squeeze-Excitation,SE)[16]將全局空間信息壓縮到通道描述符中,目的是模擬通道相互依賴性并重新校準(zhǔn)濾波器響應(yīng)。同時,利用自注意力機制來計算加權(quán)統(tǒng)計量,改進時序池化技術(shù)[17-19]。

CAM[20]通過專注于目標(biāo)發(fā)聲動物并模糊不相關(guān)的噪聲,從而提高D-TDNN 的性能。但CAM 僅應(yīng)用于每個D-TDNN 塊之后的過渡層,并且有限的CAM 模塊數(shù)量不足以提取有效的關(guān)鍵信息,針對該問題,本文在每個D-TDNN 層中插入了一個更輕的ECAM,以捕獲更多有用的目標(biāo)發(fā)聲動物的聲紋特征。

本文將D-TDNN 塊中頭部FNN 輸出的隱藏特征表示為X。將X 輸入TDNN 層,提取局部時間特征F 如式(5)所示:

F= (X), (5)

式中:F (·)表示TDNN 層的變換,并只關(guān)注局部感受野。因此,比例子掩碼M 是基于提取的上下文嵌入來進行預(yù)測,并且期望包含有用的聲紋權(quán)值及噪聲特征,其表達如式(6)所示:

M*t =σ(W2 δ(W1 e+b1)+b2), (6)

式中:σ (·)和δ (·)分別表示Sigmoid 函數(shù)和ReLU 函數(shù),M*t 表示M 的第t 幀,e 表示上下文嵌入,W1 和W2 表示聲紋權(quán)值,b1 和b2 表示噪聲特征。

語音信號具有典型的層次結(jié)構(gòu),并在不同字段之間具有動態(tài)變化的特征。因此在特定的語段中,目標(biāo)發(fā)聲動物也存在一種特定的發(fā)聲方式,此時通過全局池化[20]的單個嵌入可能會導(dǎo)致精確的本地上下文信息丟失,從而導(dǎo)致次優(yōu)屏蔽。

針對該問題,本文采用多粒度池化的方式替代傳統(tǒng)的單一全局池化,使網(wǎng)絡(luò)能夠在不同層次上捕獲更多的上下文信息,從而生成更準(zhǔn)確的掩碼。使用全局平均池化來提取全局級別的上下文信息eg如式(7)所示:

式中:sk 為特征X 的第k 段的起始幀。

對不同層次的上下文嵌入(eg 和es)進行聚合,以預(yù)測上下文感知掩碼Mk*t。式(6)可改寫為:

Mk*t =σ(W2 δ(W1(eg +eks)+b1)+b2),sk≤t≤sk+1。(9)

使用預(yù)測的Mk*t 進行校準(zhǔn)并生成改進后的時間特征F ~ ,如式(10)所示:

F~ =F(X)⊙Mk*t, (10)

式中:⊙表示逐元素的乘法。與傳統(tǒng)的CAM 相比,式(10)具有更簡單的形式和更少的可訓(xùn)練參數(shù)。將這種高效的上下文感知掩碼插入到每個DTDNN層中,以增強整個網(wǎng)絡(luò)中基本層的表示能力。

2 實驗過程及結(jié)果分析

2. 1 聲音樣本集

為使得聲紋識別算法適應(yīng)更多應(yīng)用場景的需求,本文使用多種算法來驗證聲紋識別模型在動物數(shù)據(jù)集的應(yīng)用效果。本文使用了自制的包含各種類動物叫聲數(shù)據(jù)集和自制的包含各種類豬只叫聲數(shù)據(jù)集。每個數(shù)據(jù)集詳細(xì)信息如下:

① Anim-Celeb:對于Anim-Celeb,使用Anim-Celeb1 和Anim-Celeb2 的開發(fā)集進行訓(xùn)練,其中包括24 個動物種類,有鯨魚、青蛙、鳥、貓、狗、大象、鴨子、雞、牛、羊、豬等。數(shù)據(jù)集中的所有動物種類音頻材料來自于各個動物網(wǎng)站,總共792 條音頻數(shù)據(jù)。對訓(xùn)練數(shù)據(jù)進行預(yù)處理,使用Goldwave 軟件將所收集到的所有音頻文件格式轉(zhuǎn)換為wav 格式,并以44. 1 kHz 的采樣頻率進行重采樣。使用Audacity軟件收聽音頻,截取各個動物發(fā)聲片段并進行相應(yīng)的標(biāo)記,同時將短音頻進行拼接,保證每段音頻時長不小于5 s。在Anim-Celeb 測試集中,每種動物都有多段發(fā)聲音頻。選擇對注冊的同種類發(fā)聲動物的所有語料嵌入進行平均,得到最終的發(fā)聲動物嵌入進行評估。

② Pig-Celeb:對于Pig-Celeb,使用Pig-Celeb1和Pig-Celeb2 的開發(fā)集進行訓(xùn)練,其中包含長白豬、大約克夏豬、杜洛克豬、香豬、寧鄉(xiāng)花豬、馬身豬等10 個種類的豬只,共計1 738 頭豬只。豬只全部音頻取自于各種類豬只音頻數(shù)據(jù)集的集合。在訓(xùn)練數(shù)據(jù)的數(shù)據(jù)預(yù)處理中,制作數(shù)據(jù)集方法與各種類動物的相同,同樣以44. 1 kHz 的采樣頻率進行重采樣,將短音頻進行拼接,保證每段音頻時長不小于5 s,在Pig-Celeb 測試集中,每個種類注冊的發(fā)聲豬只都有多段發(fā)聲音頻。選擇對注冊的同一種類發(fā)聲豬只的所有語料嵌入進行平均,得到最終的發(fā)聲豬只嵌入進行評估。

2. 2 實驗設(shè)計

本文仿真實驗在每10 ms 提取25 ms 窗口,在25 ms 長窗口中提?。福?維的Fbank 特征作為輸入。采用速度擾動增強,通過從[0. 9,1. 0,1. 1]中隨機抽樣一個比率。處理后的音頻被視為來自一個新的發(fā)聲動物[21]。此外,在訓(xùn)練過程中采用了兩種常見的數(shù)據(jù)增強技術(shù),分別是使用RIR 數(shù)據(jù)集模擬混響效果[22],同時,為了評估ECAM 的有效性,使用MUSAN 數(shù)據(jù)集添加噪聲。

實驗均采用Arc-Softmax 損失函數(shù)[23]。Arc-Softmax 損失的邊界余量和縮放因子分別設(shè)置為0. 2和32。在訓(xùn)練過程中,使用隨機梯度下降優(yōu)化器,結(jié)合余弦退火調(diào)度器和線性熱身調(diào)度器,學(xué)習(xí)率在10-4 和0. 1 之間進行變化。動量設(shè)定為0. 9,權(quán)重衰減設(shè)定為10-4。每個音頻樣本都會被隨機裁剪為3 s 時長的片段,以構(gòu)建訓(xùn)練小批次數(shù)據(jù)。

本文使用余弦相似度得分進行評估,在后端沒有進行得分歸一化。本文采用等錯誤率(EqualError Rate,EER)和準(zhǔn)確率作為評價指標(biāo)。

EER 是錯誤拒絕率(False Acceptance Rate,FAR)與錯誤接收率(False Rejection Rate,FRR)相等時的錯誤率。

FAR:被錯誤檢索的正樣本數(shù)與所有標(biāo)記的負(fù)樣本數(shù)之比,如式(11)所示。

FRR:被錯誤檢索的負(fù)樣本數(shù)與所有標(biāo)記的正樣本數(shù)之比,如式(12)所示。

FAR= FP/FP+TN, (11)

FRR= FN/TP+FN, (12)

式中:TP 表示識別正確的正樣本數(shù),TN 表示識別正確的負(fù)樣本數(shù),FP 表示識別錯誤的正樣本數(shù),FN 表示識別錯誤的負(fù)樣本數(shù)。

EER:FAR 與FRR 相等時的錯誤率,如式(13)所示。

EER=FAR=FRR, (13)

準(zhǔn)確率作為最常用的性能指標(biāo)之一,可以從整體上衡量一個模型的性能,表示被正確檢索的正負(fù)樣本數(shù)和總樣本數(shù)之比。當(dāng)使用EER 評估時,也等于1減等差率,如式(14)所示:

Accuracy=1-EER。(14)

2. 3 實驗結(jié)果分析

在本組仿真實驗中,對本文所提模型進行驗證,同時與TDNN[5]、ECAPA-TDNN[6]、ResNet34、Res2Net[19]、D-TDNN[24]、D-TDNN-L 模型進行性能比較,其中ResNet34 模型在每個塊中包含4 個不同通道大小的剩余塊[64,128,256,512],ECAPA-TDNN 模型所構(gòu)建的通道數(shù)為1 024,實驗結(jié)果如表1 所示。

由表1 可知,通過ECAPA-TDNN 模型計算得到的EER 相較于TDNN 和Res2Net 有所提升,但其模型所需參數(shù)有所變大。而D-TDNN 采用密集連接的方式,相較于TDNN 可以在模型參數(shù)更少的情況下提升性能。本文對D-TDNN 進行深度及濾波器參數(shù)改進得到的D-TDNN-L 模型雖然性能優(yōu)于D-TDNN,但與ECAPA-TDNN 和ResNet34 相比仍具有性能差距。當(dāng)本文將D-TDNN-L 作為骨干網(wǎng)絡(luò)與ECAM 和FRM 結(jié)合時,ERes-ECAM 在參數(shù)量及性能均優(yōu)于本文所提其他模型。

為便于直觀分析數(shù)據(jù),對Anim-Celeb 和Pig-Celeb 測試集中的EER 實驗結(jié)果進行數(shù)據(jù)可視化,如圖7 所示。

由圖7 可以看出,ERes-ECAM 對比其他基線模型有最低的EER。特別是Pig-Celeb 測試集中,ERes-ECAM 相比ECAPA-TDNN,模型參數(shù)量減少49% 且EER 降低了6% 。在Anim-Celeb 測試集上,ERes-ECAM 相對比其他模型具有最低的EER。

為進一步驗證不同模塊對整體模型的性能影響,分別對ECAM 及FRM 模塊進行消融實驗,實驗結(jié)果如表2 所示。

由表2 可知,采用多粒度池化的ECAM 在Anim-Celeb 和Pig-Celeb 測試集上的EER 分別降低了9%和8% ,在Anim-Celeb 和Pig-Celeb 測試集上提高了0. 64% 和0. 65% 的識別準(zhǔn)確率。結(jié)果進一步論證在不同層次上聚合上下文向量來執(zhí)行注意力掩蔽的可行性。當(dāng)去除FRM 時,導(dǎo)致兩個測試集中的EER均提升,并且識別準(zhǔn)確率明顯降低。實驗結(jié)果表明,本文所采用的二維卷積和基于TDNN 的混合網(wǎng)絡(luò)可以更好地提取發(fā)聲動物的聲紋特征。

2. 4 多粒度池化與其他池化方法的性能對比

進一步對改進的多粒度池化CAM 性能進行實驗仿真,本組仿真在Anim-Celeb 測試集中進行,并與D-TDNN、CAM 進行對比。實驗結(jié)果如表3 所示。

表3 在Anim-Celeb 測試集上重新實現(xiàn)了文獻[20]中提出的CAM,并發(fā)現(xiàn)它能將EER 降低8% ,但參數(shù)量增加了44% 。本文將ECAM 應(yīng)用于D-TDNN,僅使用全局平均池化(Global average Poo-ling,GP),這將使EER 得到類似的改善,但參數(shù)僅增加了8% ,顯示出更好的參數(shù)效率。使用分段平均池化(Segment average Pooling,SP),并將其與GP融合,在不引入額外參數(shù)的情況下觀察性能提升。這些結(jié)果表明,在執(zhí)行更準(zhǔn)確的掩蔽時,局部的上下文信息對降低EER 起到重要作用。

2. 5 LFF 模塊對模型的影響

進一步評估改進的殘差模塊Res2block 的有效性。附加實驗結(jié)果如表4 所示,針對Anim-Celeb 測試集進行實驗。將FRM 部分只應(yīng)用Res2block 塊的ERes-ECAM 作為基線模型。在Anim-Celeb 測試集上重新實現(xiàn)了基線模型和所提出的模型架構(gòu),將LFF 的ERes2block 塊應(yīng)用于FRM,并將其與Res2block 塊融合,在不引入額外參數(shù)的情況下觀察性能提升。

表4 的實驗結(jié)果顯示,Res2block 塊與Res2block+ERes2block 塊參數(shù)相差無幾,但Res2block +ERes2block 塊在EER 降低了2% ,識別準(zhǔn)確率也有提高。這些結(jié)果表明,在提取聲紋特征時,FRM 使用LFF 結(jié)構(gòu),能夠獲取更細(xì)粒度的特征,加強局部信息交互,提高聲紋驗證系統(tǒng)的準(zhǔn)確性和魯棒性。

2. 6 聲紋識別在動物種類識別中的應(yīng)用

使用動物的聲紋識別可以用來識別動物身份。這對動物保護和畜牧業(yè)發(fā)展具有重要意義,可以幫助監(jiān)測動物數(shù)量、研究遷徙模式以及跟蹤動物的種群變化,同時,為大型養(yǎng)殖場的運用提供新方法。對比ECAPA-TDNN 模型,ERes-ECAM 模型大大減少了模型參數(shù),在動物種類和豬只種類的識別準(zhǔn)確率方面也有顯著的提升。Anim-Celeb 和Pig-Celeb 測試集的準(zhǔn)確率折線圖如圖8 所示。

由圖8 可以看出,在Anim-Celeb 和Pig-Celeb 測試集上,相比ECAPA-TDNN 及Res2Net,除了在EER 上的提高外,動物種類識別分別提升了0. 05%和8. 45% 的準(zhǔn)確率,豬只種類識別提升了0. 43% 和6. 28% 的準(zhǔn)確率。對比其他基線模型,本文提出的模型對動物種類和豬只種類的識別準(zhǔn)確率最高,其識別準(zhǔn)確率分別達到了93. 12% 和92. 76% 。

2. 7 模型復(fù)雜性分析

本文比較了ECAPA-TDNN、ResNet34 和ERes-ECAM 模型的復(fù)雜性,包括參數(shù)量、浮點運算(Floating Point Operations,FLOPs)和實時率(Real-Time Factor,RTF),如表5 所示。

由表5 可以看出,ERes-ECAM 與ResNet34 相比,ERes-ECAM 的參數(shù)量有所增大,但FLOPs 有所降低。同時,ERes-ECAM 的參數(shù)量和FLOPs 只有ECAPA-TDNN 的一半,而ERes-ECAM 實現(xiàn)的推理速度是ResNet34 和ECAPA-TDNN 的兩倍以上。

3 結(jié)束語

本文提出了一種新穎的聲紋識別模型———ERes-ECAM,用于對發(fā)聲動物進行動物種類分類。ERes-ECAM 采用LFF 和ECAM。LFF 提取了保留目標(biāo)發(fā)聲動物特征,加強了局部信息交互。ECAM 旨在關(guān)注目標(biāo)發(fā)聲動物并提高提取特征的質(zhì)量,其中,多粒度池化融合了不同層次的上下文信息以產(chǎn)生準(zhǔn)確的注意力權(quán)重。本文在Anim-Celeb 數(shù)據(jù)集和Pig-Celeb數(shù)據(jù)集上進行了全面的實驗,通過對比6 種不同實驗?zāi)P停瑢嶒灲Y(jié)果表明本文所提出的模型在兩個數(shù)據(jù)集下EER 分別為6. 88%和7. 24%,相較于其他模型,獲得的EER 值最小。同時,對動物種類和豬只種類識別準(zhǔn)確率分別達到了93. 12% 和92. 76%。此外,與ECAPA-TDNN 和ResNet34 模型相比,ERes-ECAM 具有更低的時間復(fù)雜度和更快的推理速度。

參考文獻

[1] VIGNIERI S. Vanishing Fauna [J]. Science,2014,345(6195):392-395.

[2] HANNAY D E,DELARUE J,MOUY X,et al. MarineMammal Acoustic Detections in the Northeastern ChukchiSea,September 2007 - July 2011 [J]. Continental ShelfResearch,2013,67:127-146.

[3] MIELKE A,ZUBERBHLER K. A Method for AutomatedIndividual,Species and Call Type Recognition in Freeranging Animals [J]. Animal Behaviour,2013,86 (2):475-482.

[4] MA K. Biodiversity Monitoring Relies on the Integration ofHuman Observation and Automatic Collection of Data withAdvanced Equipment and Facilities[J]. Biodiversity Science,2016,24(11):1201-1202.

[5] SNYDER D,GARCIAROMERO D,SELL G,et al. Xvectors:Robust DNN Embeddings for Speaker Recognition[C]∥2018 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Calgary:IEEE,2018:5329-5333.

[6] DESPLANQUES B,THIENPONDT J,DEMUYNCK K.ECAPATDNN:Emphasized Channel Attention,Propagation and Aggregation in TDNN Based Speaker Verification[C]∥2020 Annual Conference of the International SpeechCommunication Association (INTERSPEECH). Shanghai:ISCA,2020:3830-3834.

[7] CHENG J K,XIE B G,LIN C T,et al. A ComparativeStudy in Birds:Calltypeindependent Species and Individual Recognition Using Four Machinelearning Methodsand Two Acoustic Features [J]. Bioacoustics,2012,21(2):157-171.

[8] TOWSEY M,WIMMER J,WILLIAMSON I,et al. The Useof Acoustic Indices to Determine Avian Species Richnessin Audiorecordings of the Environment [J]. EcologicalInformatics,2013,21(3):110-119.

[9] LARRANAGA P,POZA M,YURRAMENDI Y,et al.Structure Learning of Bayesian Networks by Genetic Algorithms:A Performance Analysis of Control Parameters[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence,1996,18(9):912-926.

[10]SASMAZ E,TEK F B. Animal Sound Classification Usinga Convolutional Neural Network[C]∥ 2018 3rd International Conference on Computer Science and Engineering(UBMK). Sarajevo:IEEE,2018:625-629.

[11]GAO S,CHENG M,ZHAO K,et al. Res2Net:A NewMultiscale Backbone Architecture[J]. IEEE Transactionson Pattern Analysis Machine Intelligence,2021,43(2):652-662.

[12]THIENPONDT J,DESPLANQUES B,DEMUYNCK K.Integrating Frequency Translational Invariance in TDNNsand Frequency Positional Information in 2D ResNets to Enhance Speaker Verification[C]∥2021 Annual Conferenceof the International Speech Communication Association(INTERSPEECH). Brno:ISCA,2021:2302-2306.

[13]LIU T,DAS R K,LEE K A,et al. MFA:TDNN withMultiscale Frequencychannel Attention for Textindependent Speaker Verification with Short Utterance[C]∥2022 IEEE International Conference on Acoustics,Speechand Signal Processing (ICASSP ). Singapore:IEEE,2022:7517-7521.

[14]LIU B,CHEN Z Y,WANG S,et al. DFResNet:BoostingSpeaker Verification Performance with Depthfirst Design[C ]∥ 2022 Annual Conference of the InternationalSpeech Communication Association (INTERSPEECH).Incheon:ISCA,2022:296-300.

[15]HUANG G,LIU Z,VAN DER MAATEN L,et al. DenselyConnected Convolutional Networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu:IEEE,2017:2261-2269.

[16]HU J,SHEN L,SUN G. SqueezeandExcitation Networks[C]∥ 2018 IEEE Conference on Computer Vision andPattern Recognition (CVPR). Salt Lake City:IEEE,2018:7132-7141.

[17]OKABE K,KOSHINAKA T,SHINODA K. Attentive Statistics Pooling for Deep Speaker Embedding[C]∥2018Annual Conference of the International Speech Communication Association (INTERSPEECH). Hyderabad:ISCA,2018:2252-2256.

[18]ZHU Y K,KO T,SNYDER D,et al. Selfattentive SpeakerEmbeddings for Textindependent Speaker Verification[C ]∥ 2018 Annual Conference of the InternationalSpeech Communication Association (INTERSPEECH).Hyderabad:ISCA,2018:3573-3577.

[19]INDIA M,SAFARI P,HERNANDO J. Self Multihead Attention for Speaker Recognition[C]∥2019 Annual Conferenceof the International Speech Communication Association(INTERSPEECH). Graz:ISCA,2019:4305-4309.

[20]YU Y Q,ZHENG S Q,SUO H B,et al. Cam:Contextaware Masking for Robust Speaker Verification [C]∥2021 IEEE International Conference on Acoustics,Speechand Signal Processing (ICASSP). Toronto:IEEE,2021:6703-6707.

[21]CHEN Z Y,HAN B,XIANG X,et al. Build a SRE Challenge System:Lessons from VoxSRC 2022 and CNSRC2022[C]∥2022 Annual Conference of the InternationalSpeech Communication Association (INTERSPEECH).Dublin:ISCA,2023:3202-3206.

[22]KO T,PEDDINTI V,POVEY D,et al. A Study on DataAugmentation of Reverberant Speech for Robust SpeechRecognition[C]∥2017 IEEE International Conferenceon Acoustics,Speech and Signal Processing (ICASSP).New Orleans:IEEE,2017:5220-5224.

[23]DENG J K,GUO J,YANG J,et al. Arcface:AdditiveAngular Margin Loss for Deep Face Recognition [C]∥2019 IEEE Conference on Computer Vision and PatternRecognition (CVPR). Long Beach:IEEE,2019:4690-4699.

[24]YU Y Q,LI W J. Densely Connected Time Delay NeuralNetwork for Speaker Verification[C]∥2020 Annual Conference of the International Speech Communication Association (INTERSPEECH). Shanghai:ISCA,2020:921-925.

作者簡介:

侯衛(wèi)民 男,(1972—),博士,教授。主要研究方向:人工智能、圖形處理和應(yīng)用、陣列信號處理和無線通信。

(*通信作者)孫藝菲 女,(1998—),碩士研究生。主要研究方向:人工智能、聲紋識別。

劉峻滔 男,(1998—),碩士研究生。主要研究方向:遙感圖像處理、數(shù)字圖像處理和深度學(xué)習(xí)。

基金項目:河北省省級科技計劃項目(20355901D,21355901D)

猜你喜歡
聲紋識別深度學(xué)習(xí)
智能聲紋識別系統(tǒng)與技術(shù)分析
科技傳播(2018年23期)2018-12-19 18:55:58
TL—CNN—GAP模型下的小樣本聲紋識別方法研究
聲紋識別中的區(qū)分性訓(xùn)練
淺談一種基于聲紋識別的教室上課點名系統(tǒng)
基于i—vector聲紋識別上課點名系統(tǒng)的設(shè)計與實現(xiàn)
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
宜君县| 榆树市| 渭南市| 东宁县| 额尔古纳市| 房产| 周至县| 周宁县| 苏州市| 莎车县| 齐齐哈尔市| 晋中市| 荔浦县| 银川市| 林西县| 郁南县| 探索| 南靖县| 信阳市| 马山县| 格尔木市| 阿图什市| 永清县| 阳泉市| 尚志市| 寿光市| 兴隆县| 堆龙德庆县| 丹巴县| 鄂州市| 新沂市| 通辽市| 海南省| 大安市| 天津市| 鄂州市| 九江市| 日土县| 张家川| 凉山| 达孜县|