基于ERes-ECAM 的動物聲紋識別

2024-09-14 00:00:00侯衛(wèi)民孫藝菲劉峻滔

無線電通信技術(shù) 2024年4期

摘要：聲紋識別技術(shù)不僅在人類身份驗證領(lǐng)域廣泛應(yīng)用，在動物種類識別方面也取得一定進展?，F(xiàn)有模型存在特征表達能力不足的問題，同時，在保證性能的前提下，模型的時間復(fù)雜度和推理速度有待優(yōu)化。提出用于發(fā)聲動物嵌入學(xué)習(xí)的改進的殘差塊連接改進的上下文感知掩蔽（ＥｎｈａｎｃｅｄＲｅｓ２ｂｌｏｃｋｃｏｎｎｅｃｔｅｄＥｎｈａｎｃｅｄＣｏｎｔｅｘｔＡｗａｒｅＭａｓｋｉｎｇ，ＥＲｅｓ-ＥＣＡＭ）新型架構(gòu)，采用了稠密連接的時延神經(jīng)網(wǎng)絡(luò)（Ｄｅｎｓｅｌｙ-ｃｏｎｎｅｃｔｅｄＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ，Ｄ-ＴＤＮＮ）作為骨干，為了解決模糊不相關(guān)噪聲問題的同時能夠提取更多有效的關(guān)鍵信息，在Ｄ-ＴＤＮＮ層中采用多粒度池化方法的改進的上下文感知掩蔽（ＥｎｈａｎｃｅｄＣｏｎｔｅｘｔＡｗａｒｅＭａｓｋｉｎｇ，ＥＣＡＭ）模塊，前端連接殘差模塊，通過局部特征融合（ＬｏｃａｌＦｅａｔｕｒｅＦｕｓｉｏｎ，ＬＦＦ）的方式，將殘差塊內(nèi)提取的特征進行融合來提取局部信息，提升了聲紋驗證系統(tǒng)的準(zhǔn)確性和魯棒性。在Ａｎｉｍ-Ｃｅｌｅｂ和Ｐｉｇ-Ｃｅｌｅｂ兩個測試集中分別實驗，實驗結(jié)果表明，所提架構(gòu)的等錯誤率（ＥｑｕａｌＥｒｒｏｒＲａｔｅ，ＥＥＲ）分別達到６．８８％和７．２４％，同時，對動物種類和豬只種類識別準(zhǔn)確率達到了９３．１２％和９２．７６％。

關(guān)鍵詞：深度學(xué)習(xí)；聲紋識別；上下文感知掩碼；局部特征融合；動物種類識別

中圖分類號：ＴＮ９１２．３４文獻標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識碼（ＯＳＩＤ）：

文章編號：１００３－３１１４（２０２４）０４－０７８９－１０

０引言

近年來，隨著人類對生態(tài)環(huán)境的影響，尤其是對生物棲息地的破壞［１］，各種類動物數(shù)量大幅下降。因此，無論是在復(fù)雜的野外環(huán)境還是在日常生產(chǎn)養(yǎng)殖方面，對動物種群進行有效監(jiān)測是進行有效動物保護的重要途徑。目前，應(yīng)用較多的是圖像觀測識別和ＤＮＡ分析檢測方法［２］。但是這些方法存在著成本高、識別率有待提高等缺點。于是，借助聲紋特征進行動物種類識別進而估計分布區(qū)域逐漸成為研究熱點［３］。采用動物聲紋識別動物種類具有高效率、非損傷、低干擾、大范圍等優(yōu)勢，有很好的應(yīng)用前景［４］。

此前，很多學(xué)者對基于深度學(xué)習(xí)方法的說話人識別系統(tǒng)做了大量研究。Ｓｎｙｄｅｒ等［５］提出一種基于時延神經(jīng)網(wǎng)絡(luò)（ＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ，ＴＤＮＮ）的端到端說話人嵌入模型，該模型提取的說話人嵌入矢量稱為ｘ-ｖｅｃｔｏｒ。Ｄｅｓｐｌａｎｑｕｅｓ等［６］提出的ＥＣＡＰＡ-ＴＤＮＮ神經(jīng)網(wǎng)絡(luò)完成說話人驗證的任務(wù)，采用的是Ｒｅｓ２Ｎｅｔ中的Ｒｅｓ２ｂｌｏｃｋ，其具有更大的感受野，可獲取不同尺度的特征。

同時，基于動物聲紋的動物種類識別方法也得到了廣泛的研究。Ｃｈｅｎｇ等［７］采用音頻信號的梅爾頻率倒譜系數(shù)作為輸入，利用高斯混合模型實現(xiàn)了基于鳥鳴的鳥類識別，最佳準(zhǔn)確率達到９２．５％。Ｔｏｗｓｅｙ等［８］的研究中，可以在野外有噪聲環(huán)境中區(qū)別黑噪鐘雀、大石鸻、雄性考拉、海蟾蜍、亞洲家壁虎、地棲鸚鵡、綠嘯冠鶇、澳洲鴉等動物的聲音。Ｌａｒｒａｎａｇａ等［９］研究匈牙利馬地犬叫聲，性別識別達到了８５．１３％的準(zhǔn)確率，發(fā)育程度識別（幼年、成年、老年）達到了８０．２５％的準(zhǔn)確率。Ｓａｓｍａｚ等［１０］采集了１０種動物的８７５段音頻構(gòu)建動物叫聲數(shù)據(jù)集，使用的網(wǎng)絡(luò)模型由３個卷積層和３個全連接層組成，提取動物叫聲音頻的梅爾頻率倒譜系數(shù)特征并作為模型輸入進行物種分類，最終獲得了７５％的準(zhǔn)確率。

雖然國內(nèi)外學(xué)者對發(fā)聲動物的聲紋識別展開了深入研究，但仍存在一些問題：當(dāng)前對發(fā)聲動物的聲紋識別的研究仍存在技術(shù)難點；忽視了不相關(guān)噪聲及缺乏局部信息交互的影響，不能提取更多有效的關(guān)鍵信息，導(dǎo)致模型特征表達能力不足；在不犧牲性能的前提下，現(xiàn)有模型的時間復(fù)雜度有待降低且推理速度有待提高。

針對上述問題，本文提出一種動物聲紋識別的新型架構(gòu)，主要貢獻如下：

① 提出了改進的殘差塊連接改進的上下文感知掩蔽（ＥｎｈａｎｃｅｄＲｅｓ２ｂｌｏｃｋｃｏｎｎｅｃｔｅｄＥｎｈａｎｃｅｄＣｏｎｔｅｘｔＡｗａｒｅＭａｓｋｉｎｇ，ＥＲｅｓ-ＥＣＡＭ）架構(gòu)利用動物聲紋進行身份識別，提取相關(guān)的聲紋特征訓(xùn)練模型，建立了動物的聲紋識別系統(tǒng)，有效地對動物種類和豬只種類進行分類。

② 改進了稠密連接的ＴＤＮＮ（Ｄｅｎｓｅｌｙ-ｃｏｎｎｅｃｔｅｄＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ，Ｄ-ＴＤＮＮ）骨干網(wǎng)絡(luò)以提升模型的表征能力，采用多粒度池化的方法使網(wǎng)絡(luò)模型在模糊不相關(guān)噪聲的同時能夠提取更多有效的關(guān)鍵信息。

③ 在ＥＲｅｓ２ｂｌｏｃｋ（ＥｎｈａｎｃｅｄＲｅｓ２ｂｌｏｃｋ，ＥＲｅｓ２-ｂｌｏｃｋ）中提出局部特征融合（ＬｏｃａｌＦｅａｔｕｒｅＦｕｓｉｏｎ，ＬＦＦ）的結(jié)構(gòu)，可以捕獲輸入信號中的本地模式，獲取更細(xì)粒度的特征，加強局部信息交互，從而提高聲紋識別系統(tǒng)的魯棒性和準(zhǔn)確性。

１網(wǎng)絡(luò)結(jié)構(gòu)

１．１總體架構(gòu)

本文所提出的算法流程如圖１所示。首先，提取音頻Ｆｂａｎｋ特征作為輸入；其次，將輸入的特征經(jīng)過前端殘差模塊（Ｆｒｏｎｔ-ｅｎｄＲｅｓｉｄｕａｌＭｏｄｕｌｅ，ＦＲＭ）結(jié)構(gòu)，計算局部關(guān)注權(quán)值，增強了局部信息的交互，從而獲得更高分辨率的時頻細(xì)節(jié)；再次，通過采用密集連接的Ｄ-ＴＤＮＮ骨干網(wǎng)絡(luò)，包含３個塊，增加了網(wǎng)絡(luò)深度，減小了模型參數(shù)；然后，通過每個Ｄ-ＴＤＮＮ層的改進的上下文感知掩蔽（ＥｎｈａｎｃｅｄＣｏｎｔｅｘｔＡｗａｒｅＭａｓｋｉｎｇ，ＥＣＡＭ）模塊，在模糊不相關(guān)噪聲的同時能提取更多有效關(guān)鍵信息；最后，利用ＥＲｅｓ-ＥＣＡＭ進行識別，得到識別結(jié)果。

本文提出的ＥＲｅｓ-ＥＣＡＭ網(wǎng)絡(luò)模型總體框架結(jié)構(gòu)如圖２所示。該體系結(jié)構(gòu)主要由兩部分組成：ＦＲＭ和Ｄ-ＴＤＮＮ結(jié)構(gòu)。ＦＲＭ由多個殘差模塊組成，通過在時頻域?qū)β晫W(xué)特征進行編碼從而獲得更高分辨率的時頻細(xì)節(jié)。其中，在ＥＲｅｓ２ｂｌｏｃｋ塊中通過在相鄰特征映射之間的類殘差連接中引入了一種注意特征融合（ＡｔｔｅｎｔｉｏｎａｌＦｅａｔｕｒｅＦｕｓｉｏｎ，ＡＦＦ）模塊，可對ＬＦＦ進行增強。ＦＲＭ所得到的特征圖隨后沿通道和頻率維度被平坦化，并用作Ｄ-ＴＤＮＮ的輸入。

在Ｄ-ＴＤＮＮ主干中包括３個塊，每個塊包含一系列Ｄ-ＴＤＮＮ層，通過ＥＣＡＭ為每層Ｄ-ＴＤＮＮ的輸出特征分配不同的權(quán)重。本文在ＥＣＡＭ模塊中采用多粒度池化的方法，將全局平均池化和分段平均池化進行結(jié)合，更有效聚合不同層次的上下文信息。通過密集鏈接的方式，將每個ＤＴＤＮＮ層的輸出與前面的所有層連接起來作為下一層的輸入。

１．２Ｒｅｓ２ｂｌｏｃｋ與ＥＲｅｓ２ｂｌｏｃｋ

Ｒｅｓ２ｂｌｏｃｋ［１１］通過增大感受野來提高模型的多尺度表示能力。在每個殘差塊內(nèi)，使用分層類殘差連接提取通道維度上的多尺度特征，Ｒｅｓ２ｂｌｏｃｋ結(jié)構(gòu)示意如圖３所示。

在圖３中，將特征映射劃分為ｓ個特征映射子集，用ｘｉ表示，其中ｉ∈｛１，２，…，ｓ｝。每個特征子集ｘｉ具有相同的空間大小，但通道數(shù)為１／ｓ。除了ｘ１之外，每個ｘｉ都要經(jīng)過一個卷積濾波器Ｋｉ（·）輸出ｙｉ的表達式如式（１）所示：

Ｒｅｓ２ｂｌｏｃｋ的分割和拼接策略缺乏有效的局部信息交互。針對該問題，本文對其改進提出了ＥＲｅｓ２ｂｌｏｃｋ模塊，其結(jié)構(gòu)示意如圖４所示。在該模塊中提出ＬＦＦ結(jié)構(gòu)，該結(jié)構(gòu)通過在相鄰特征映射之間的類殘差連接中引入了ＡＦＦ模塊，可對ＬＦＦ的進行增強，獲取更細(xì)粒度的特征，加強局部信息交互。并且ＬＦＦ允許ＥＲｅｓ２ｂｌｏｃｋ塊捕獲輸入信號中的本地模式，從而提高動物聲紋驗證系統(tǒng)的準(zhǔn)確性和魯棒性。

在圖４中，特征映射用Ｘ∈ＲＤ×Ｔ×Ｃ表示，其中Ｄ、Ｔ、Ｃ分別表示頻率維度、時間維度和信道維度。將Ｘ經(jīng)過１ × １卷積后，根據(jù)通道維數(shù)分成不同的組ｘＥｉ，ｉ∈｛１，２，…，ｓ｝，其中，ＡＦＦ模塊將前一組的輸出特征與另一組輸入特征映射進行融合，從而加強信息之間的交互。

在ＬＦＦ模塊中的分層融合結(jié)構(gòu)可以增加模型的接受域，并跨不同通道整合局部信息。ＥＲｅｓ２ｂｌｏｃｋ的輸出如式（２）所示：

ＡＦＦ模塊將相鄰特征映射ｘＥｉ和ｙＥｉ－１作為輸入，其中計算局部關(guān)注權(quán)值Ｕ如式（３）所示：

Ｕ＝ｔａｎｈ（ＢＮ（Ｖ２ *ＳｉＬＵ（ＢＮ（Ｖ１*［ｘＥｉ，ｙＥｉ－１］）））），（３）

式中：［·］為沿通道維度的連接，Ｖ１和Ｖ２分別為輸出通道大小為Ｃ/ｒ和Ｃ的點向卷積，ｒ為通道縮減比（本文設(shè)ｒ＝４），ＢＮ（·）為批歸一化，ＳｉＬＵ（·）和ｔａｎｈ（·）分別為ＳｉｇｍｏｉｄＬｉｎｅａｒＵｎｉｔ（ＳｉＬＵ）和ｔａｎｈ激活函數(shù)。根據(jù)特征的重要程度，該模塊進行動態(tài)加權(quán)和組合特征，提高模型從輸入信號中提取相關(guān)信息的能力。

１．３Ｆｒｏｎｔ-ｅｎｄＲｅｓｉｄｕａｌＭｏｄｕｌｅ

基于ＴＤＮＮ的網(wǎng)絡(luò)沿著時間軸進行一維卷積，使用的卷積核覆蓋了輸入特征的完整頻率范圍。與二維卷積網(wǎng)絡(luò)相比，這種方法更難捕捉發(fā)生在某些局部頻率區(qū)域的發(fā)聲動物特征［１２］。通常，需要大量的濾波器來模擬完整頻率區(qū)域中的復(fù)雜細(xì)節(jié)。在本文中，每個Ｄ-ＴＤＮＮ塊中使用較窄的層來控制參數(shù)的大小，可能導(dǎo)致在一些局部區(qū)域內(nèi)難以準(zhǔn)確捕捉特定頻率模式。于是，需要增強Ｄ-ＴＤＮＮ對時間頻率領(lǐng)域中的微小和合理變化的魯棒性，并補償實際發(fā)聲動物的發(fā)音變化。

針對這個問題，本文提出在Ｄ-ＴＤＮＮ網(wǎng)絡(luò)前連接一個二維ＦＲＭ［１２－１３］，在ＦＲＭ中加入４個殘差塊，如圖５所示。

在圖５中，包含一個Ｒｅｓ２ｂｌｏｃｋ塊和３個ＥＲｅｓ２ｂｌｏｃｋ塊，所有殘差塊的通道數(shù)設(shè)置為３２。在最后３個ＥＲｅｓ２ｂｌｏｃｋ塊中，本文在頻率維度上使用步幅２，導(dǎo)致在頻率域中進行８倍的下采樣。ＦＲＭ的輸出特征圖隨后沿通道和頻率維度展平，并用作Ｄ-ＴＤＮＮ主干的輸入。

１．４Ｄ-ＴＤＮＮ骨干結(jié)構(gòu)

ｘ-ｖｅｃｔｏｒ模型中的ＴＤＮＮ最先采用沿時間軸擴展的一維卷積結(jié)構(gòu)作為主干，目前ＴＤＮＮ在說話人驗證任務(wù)中被廣泛應(yīng)用。基于ＴＤＮＮ改進的Ｄ-ＴＤＮＮ［１４］是一種高效的說話人嵌入模型，與ＤｅｎｓｅＮｅｔ［１５］類似，它采用密集連接，即各層之間以前饋方式直接連接。本文采用Ｄ-ＴＤＮＮ作為ＥＲｅｓ-ＥＣＡＭ網(wǎng)絡(luò)骨干，其與傳統(tǒng)的ＴＤＮＮ相比，參數(shù)量更小，識別效果更好。

Ｄ-ＴＤＮＮ的基本單元由前饋神經(jīng)網(wǎng)絡(luò)（Ｆｅｅｄ-ｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ，ＦＮＮ）和ＴＤＮＮ層組成。在兩個連續(xù)Ｄ-ＴＤＮＮ層的輸入之間通過直接連接的方式連接。第ｌ層Ｄ-ＴＤＮＮ表達式為：

Ｓｌ＝ Hｌ（［ｓ０，ｓ１，…，ｓｌ－１］），（４）

式中：ｓ０為Ｄ-ＴＤＮＮ模塊的輸入，Ｓｌ為第ｌ層Ｄ-ＴＤＮＮ的輸出， Hｌ為第ｌ層Ｄ-ＴＤＮＮ的非線性變換。

普通的Ｄ-ＴＤＮＮ有兩個塊，每個塊分別包含６和１２個Ｄ-ＴＤＮＮ層。如圖６所示，本文增加Ｄ-ＴＤＮＮ網(wǎng)絡(luò)深度，在最后添加一個額外的塊，并將每個塊的層數(shù)擴展到１２、２４和１６。同時，為了降低網(wǎng)絡(luò)的復(fù)雜性，在每個塊中采用更窄的Ｄ-ＴＤＮＮ層，即將原始增長率ｋ從６４降低到３２。

１．５ＥＣＡＭ

擠壓－激勵（Ｓｑｕｅｅｚｅ-Ｅｘｃｉｔａｔｉｏｎ，ＳＥ）［１６］將全局空間信息壓縮到通道描述符中，目的是模擬通道相互依賴性并重新校準(zhǔn)濾波器響應(yīng)。同時，利用自注意力機制來計算加權(quán)統(tǒng)計量，改進時序池化技術(shù)［１７－１９］。

ＣＡＭ［２０］通過專注于目標(biāo)發(fā)聲動物并模糊不相關(guān)的噪聲，從而提高Ｄ-ＴＤＮＮ的性能。但ＣＡＭ僅應(yīng)用于每個Ｄ-ＴＤＮＮ塊之后的過渡層，并且有限的ＣＡＭ模塊數(shù)量不足以提取有效的關(guān)鍵信息，針對該問題，本文在每個Ｄ-ＴＤＮＮ層中插入了一個更輕的ＥＣＡＭ，以捕獲更多有用的目標(biāo)發(fā)聲動物的聲紋特征。

本文將Ｄ-ＴＤＮＮ塊中頭部ＦＮＮ輸出的隱藏特征表示為Ｘ。將Ｘ輸入ＴＤＮＮ層，提取局部時間特征Ｆ如式（５）所示：

Ｆ＝（Ｘ），（５）

式中：F （·）表示ＴＤＮＮ層的變換，并只關(guān)注局部感受野。因此，比例子掩碼Ｍ是基于提取的上下文嵌入來進行預(yù)測，并且期望包含有用的聲紋權(quán)值及噪聲特征，其表達如式（６）所示：

Ｍ*ｔ＝σ（Ｗ２ δ（Ｗ１ｅ＋ｂ１）＋ｂ２），（６）

式中：σ （·）和δ （·）分別表示Ｓｉｇｍｏｉｄ函數(shù)和ＲｅＬＵ函數(shù)，Ｍ*ｔ表示Ｍ的第ｔ幀，ｅ表示上下文嵌入，Ｗ１和Ｗ２表示聲紋權(quán)值，ｂ１和ｂ２表示噪聲特征。

語音信號具有典型的層次結(jié)構(gòu)，并在不同字段之間具有動態(tài)變化的特征。因此在特定的語段中，目標(biāo)發(fā)聲動物也存在一種特定的發(fā)聲方式，此時通過全局池化［２０］的單個嵌入可能會導(dǎo)致精確的本地上下文信息丟失，從而導(dǎo)致次優(yōu)屏蔽。

針對該問題，本文采用多粒度池化的方式替代傳統(tǒng)的單一全局池化，使網(wǎng)絡(luò)能夠在不同層次上捕獲更多的上下文信息，從而生成更準(zhǔn)確的掩碼。使用全局平均池化來提取全局級別的上下文信息ｅｇ如式（７）所示：

式中：ｓｋ為特征Ｘ的第ｋ段的起始幀。

對不同層次的上下文嵌入（ｅｇ和ｅｓ）進行聚合，以預(yù)測上下文感知掩碼Ｍｋ*ｔ。式（６）可改寫為：

Ｍｋ*ｔ＝σ（Ｗ２ δ（Ｗ１（ｅｇ＋ｅｋｓ）＋ｂ１）＋ｂ２），ｓｋ≤ｔ≤ｓｋ＋１。（９）

使用預(yù)測的Ｍｋ*ｔ進行校準(zhǔn)并生成改進后的時間特征Ｆ～，如式（１０）所示：

Ｆ～＝Ｆ（Ｘ）⊙Ｍｋ*ｔ，（１０）

式中：⊙表示逐元素的乘法。與傳統(tǒng)的ＣＡＭ相比，式（１０）具有更簡單的形式和更少的可訓(xùn)練參數(shù)。將這種高效的上下文感知掩碼插入到每個ＤＴＤＮＮ層中，以增強整個網(wǎng)絡(luò)中基本層的表示能力。

２實驗過程及結(jié)果分析

２．１聲音樣本集

為使得聲紋識別算法適應(yīng)更多應(yīng)用場景的需求，本文使用多種算法來驗證聲紋識別模型在動物數(shù)據(jù)集的應(yīng)用效果。本文使用了自制的包含各種類動物叫聲數(shù)據(jù)集和自制的包含各種類豬只叫聲數(shù)據(jù)集。每個數(shù)據(jù)集詳細(xì)信息如下：

① Ａｎｉｍ-Ｃｅｌｅｂ：對于Ａｎｉｍ-Ｃｅｌｅｂ，使用Ａｎｉｍ-Ｃｅｌｅｂ１和Ａｎｉｍ-Ｃｅｌｅｂ２的開發(fā)集進行訓(xùn)練，其中包括２４個動物種類，有鯨魚、青蛙、鳥、貓、狗、大象、鴨子、雞、牛、羊、豬等。數(shù)據(jù)集中的所有動物種類音頻材料來自于各個動物網(wǎng)站，總共７９２條音頻數(shù)據(jù)。對訓(xùn)練數(shù)據(jù)進行預(yù)處理，使用Ｇｏｌｄｗａｖｅ軟件將所收集到的所有音頻文件格式轉(zhuǎn)換為ｗａｖ格式，并以４４．１ｋＨｚ的采樣頻率進行重采樣。使用Ａｕｄａｃｉｔｙ軟件收聽音頻，截取各個動物發(fā)聲片段并進行相應(yīng)的標(biāo)記，同時將短音頻進行拼接，保證每段音頻時長不小于５ｓ。在Ａｎｉｍ-Ｃｅｌｅｂ測試集中，每種動物都有多段發(fā)聲音頻。選擇對注冊的同種類發(fā)聲動物的所有語料嵌入進行平均，得到最終的發(fā)聲動物嵌入進行評估。

② Ｐｉｇ-Ｃｅｌｅｂ：對于Ｐｉｇ-Ｃｅｌｅｂ，使用Ｐｉｇ-Ｃｅｌｅｂ１和Ｐｉｇ-Ｃｅｌｅｂ２的開發(fā)集進行訓(xùn)練，其中包含長白豬、大約克夏豬、杜洛克豬、香豬、寧鄉(xiāng)花豬、馬身豬等１０個種類的豬只，共計１７３８頭豬只。豬只全部音頻取自于各種類豬只音頻數(shù)據(jù)集的集合。在訓(xùn)練數(shù)據(jù)的數(shù)據(jù)預(yù)處理中，制作數(shù)據(jù)集方法與各種類動物的相同，同樣以４４．１ｋＨｚ的采樣頻率進行重采樣，將短音頻進行拼接，保證每段音頻時長不小于５ｓ，在Ｐｉｇ-Ｃｅｌｅｂ測試集中，每個種類注冊的發(fā)聲豬只都有多段發(fā)聲音頻。選擇對注冊的同一種類發(fā)聲豬只的所有語料嵌入進行平均，得到最終的發(fā)聲豬只嵌入進行評估。

２．２實驗設(shè)計

本文仿真實驗在每１０ｍｓ提取２５ｍｓ窗口，在２５ｍｓ長窗口中提?。福?維的Ｆｂａｎｋ特征作為輸入。采用速度擾動增強，通過從［０．９，１．０，１．１］中隨機抽樣一個比率。處理后的音頻被視為來自一個新的發(fā)聲動物［２１］。此外，在訓(xùn)練過程中采用了兩種常見的數(shù)據(jù)增強技術(shù)，分別是使用ＲＩＲ數(shù)據(jù)集模擬混響效果［２２］，同時，為了評估ＥＣＡＭ的有效性，使用ＭＵＳＡＮ數(shù)據(jù)集添加噪聲。

實驗均采用Ａｒｃ-Ｓｏｆｔｍａｘ損失函數(shù)［２３］。Ａｒｃ-Ｓｏｆｔｍａｘ損失的邊界余量和縮放因子分別設(shè)置為０．２和３２。在訓(xùn)練過程中，使用隨機梯度下降優(yōu)化器，結(jié)合余弦退火調(diào)度器和線性熱身調(diào)度器，學(xué)習(xí)率在１０－４和０．１之間進行變化。動量設(shè)定為０．９，權(quán)重衰減設(shè)定為１０－４。每個音頻樣本都會被隨機裁剪為３ｓ時長的片段，以構(gòu)建訓(xùn)練小批次數(shù)據(jù)。

本文使用余弦相似度得分進行評估，在后端沒有進行得分歸一化。本文采用等錯誤率（ＥｑｕａｌＥｒｒｏｒＲａｔｅ，ＥＥＲ）和準(zhǔn)確率作為評價指標(biāo)。

ＥＥＲ是錯誤拒絕率（ＦａｌｓｅＡｃｃｅｐｔａｎｃｅＲａｔｅ，ＦＡＲ）與錯誤接收率（ＦａｌｓｅＲｅｊｅｃｔｉｏｎＲａｔｅ，ＦＲＲ）相等時的錯誤率。

ＦＡＲ：被錯誤檢索的正樣本數(shù)與所有標(biāo)記的負(fù)樣本數(shù)之比，如式（１１）所示。

ＦＲＲ：被錯誤檢索的負(fù)樣本數(shù)與所有標(biāo)記的正樣本數(shù)之比，如式（１２）所示。

ＦＡＲ＝ＦＰ/ＦＰ＋ＴＮ，（１１）

ＦＲＲ＝ＦＮ/ＴＰ＋ＦＮ，（１２）

式中：ＴＰ表示識別正確的正樣本數(shù)，ＴＮ表示識別正確的負(fù)樣本數(shù)，ＦＰ表示識別錯誤的正樣本數(shù)，ＦＮ表示識別錯誤的負(fù)樣本數(shù)。

ＥＥＲ：ＦＡＲ與ＦＲＲ相等時的錯誤率，如式（１３）所示。

ＥＥＲ＝ＦＡＲ＝ＦＲＲ，（１３）

準(zhǔn)確率作為最常用的性能指標(biāo)之一，可以從整體上衡量一個模型的性能，表示被正確檢索的正負(fù)樣本數(shù)和總樣本數(shù)之比。當(dāng)使用ＥＥＲ評估時，也等于１減等差率，如式（１４）所示：

Ａｃｃｕｒａｃｙ＝１－ＥＥＲ。（１４）

２．３實驗結(jié)果分析

在本組仿真實驗中，對本文所提模型進行驗證，同時與ＴＤＮＮ［５］、ＥＣＡＰＡ-ＴＤＮＮ［６］、ＲｅｓＮｅｔ３４、Ｒｅｓ２Ｎｅｔ［１９］、Ｄ-ＴＤＮＮ［２４］、Ｄ-ＴＤＮＮ-Ｌ模型進行性能比較，其中ＲｅｓＮｅｔ３４模型在每個塊中包含４個不同通道大小的剩余塊［６４，１２８，２５６，５１２］，ＥＣＡＰＡ-ＴＤＮＮ模型所構(gòu)建的通道數(shù)為１０２４，實驗結(jié)果如表１所示。

由表１可知，通過ＥＣＡＰＡ-ＴＤＮＮ模型計算得到的ＥＥＲ相較于ＴＤＮＮ和Ｒｅｓ２Ｎｅｔ有所提升，但其模型所需參數(shù)有所變大。而Ｄ-ＴＤＮＮ采用密集連接的方式，相較于ＴＤＮＮ可以在模型參數(shù)更少的情況下提升性能。本文對Ｄ-ＴＤＮＮ進行深度及濾波器參數(shù)改進得到的Ｄ-ＴＤＮＮ-Ｌ模型雖然性能優(yōu)于Ｄ-ＴＤＮＮ，但與ＥＣＡＰＡ-ＴＤＮＮ和ＲｅｓＮｅｔ３４相比仍具有性能差距。當(dāng)本文將Ｄ-ＴＤＮＮ-Ｌ作為骨干網(wǎng)絡(luò)與ＥＣＡＭ和ＦＲＭ結(jié)合時，ＥＲｅｓ-ＥＣＡＭ在參數(shù)量及性能均優(yōu)于本文所提其他模型。

為便于直觀分析數(shù)據(jù)，對Ａｎｉｍ-Ｃｅｌｅｂ和Ｐｉｇ-Ｃｅｌｅｂ測試集中的ＥＥＲ實驗結(jié)果進行數(shù)據(jù)可視化，如圖７所示。

由圖７可以看出，ＥＲｅｓ-ＥＣＡＭ對比其他基線模型有最低的ＥＥＲ。特別是Ｐｉｇ-Ｃｅｌｅｂ測試集中，ＥＲｅｓ-ＥＣＡＭ相比ＥＣＡＰＡ-ＴＤＮＮ，模型參數(shù)量減少４９％且ＥＥＲ降低了６％。在Ａｎｉｍ-Ｃｅｌｅｂ測試集上，ＥＲｅｓ-ＥＣＡＭ相對比其他模型具有最低的ＥＥＲ。

為進一步驗證不同模塊對整體模型的性能影響，分別對ＥＣＡＭ及ＦＲＭ模塊進行消融實驗，實驗結(jié)果如表２所示。

由表２可知，采用多粒度池化的ＥＣＡＭ在Ａｎｉｍ-Ｃｅｌｅｂ和Ｐｉｇ-Ｃｅｌｅｂ測試集上的ＥＥＲ分別降低了９％和８％，在Ａｎｉｍ-Ｃｅｌｅｂ和Ｐｉｇ-Ｃｅｌｅｂ測試集上提高了０．６４％和０．６５％的識別準(zhǔn)確率。結(jié)果進一步論證在不同層次上聚合上下文向量來執(zhí)行注意力掩蔽的可行性。當(dāng)去除ＦＲＭ時，導(dǎo)致兩個測試集中的ＥＥＲ均提升，并且識別準(zhǔn)確率明顯降低。實驗結(jié)果表明，本文所采用的二維卷積和基于ＴＤＮＮ的混合網(wǎng)絡(luò)可以更好地提取發(fā)聲動物的聲紋特征。

２．４多粒度池化與其他池化方法的性能對比

進一步對改進的多粒度池化ＣＡＭ性能進行實驗仿真，本組仿真在Ａｎｉｍ-Ｃｅｌｅｂ測試集中進行，并與Ｄ-ＴＤＮＮ、ＣＡＭ進行對比。實驗結(jié)果如表３所示。

表３在Ａｎｉｍ-Ｃｅｌｅｂ測試集上重新實現(xiàn)了文獻［２０］中提出的ＣＡＭ，并發(fā)現(xiàn)它能將ＥＥＲ降低８％，但參數(shù)量增加了４４％。本文將ＥＣＡＭ應(yīng)用于Ｄ-ＴＤＮＮ，僅使用全局平均池化（ＧｌｏｂａｌａｖｅｒａｇｅＰｏｏ-ｌｉｎｇ，ＧＰ），這將使ＥＥＲ得到類似的改善，但參數(shù)僅增加了８％，顯示出更好的參數(shù)效率。使用分段平均池化（ＳｅｇｍｅｎｔａｖｅｒａｇｅＰｏｏｌｉｎｇ，ＳＰ），并將其與ＧＰ融合，在不引入額外參數(shù)的情況下觀察性能提升。這些結(jié)果表明，在執(zhí)行更準(zhǔn)確的掩蔽時，局部的上下文信息對降低ＥＥＲ起到重要作用。

２．５ＬＦＦ模塊對模型的影響

進一步評估改進的殘差模塊Ｒｅｓ２ｂｌｏｃｋ的有效性。附加實驗結(jié)果如表４所示，針對Ａｎｉｍ-Ｃｅｌｅｂ測試集進行實驗。將ＦＲＭ部分只應(yīng)用Ｒｅｓ２ｂｌｏｃｋ塊的ＥＲｅｓ-ＥＣＡＭ作為基線模型。在Ａｎｉｍ-Ｃｅｌｅｂ測試集上重新實現(xiàn)了基線模型和所提出的模型架構(gòu)，將ＬＦＦ的ＥＲｅｓ２ｂｌｏｃｋ塊應(yīng)用于ＦＲＭ，并將其與Ｒｅｓ２ｂｌｏｃｋ塊融合，在不引入額外參數(shù)的情況下觀察性能提升。

表４的實驗結(jié)果顯示，Ｒｅｓ２ｂｌｏｃｋ塊與Ｒｅｓ２ｂｌｏｃｋ＋ＥＲｅｓ２ｂｌｏｃｋ塊參數(shù)相差無幾，但Ｒｅｓ２ｂｌｏｃｋ＋ＥＲｅｓ２ｂｌｏｃｋ塊在ＥＥＲ降低了２％，識別準(zhǔn)確率也有提高。這些結(jié)果表明，在提取聲紋特征時，ＦＲＭ使用ＬＦＦ結(jié)構(gòu)，能夠獲取更細(xì)粒度的特征，加強局部信息交互，提高聲紋驗證系統(tǒng)的準(zhǔn)確性和魯棒性。

２．６聲紋識別在動物種類識別中的應(yīng)用

使用動物的聲紋識別可以用來識別動物身份。這對動物保護和畜牧業(yè)發(fā)展具有重要意義，可以幫助監(jiān)測動物數(shù)量、研究遷徙模式以及跟蹤動物的種群變化，同時，為大型養(yǎng)殖場的運用提供新方法。對比ＥＣＡＰＡ-ＴＤＮＮ模型，ＥＲｅｓ-ＥＣＡＭ模型大大減少了模型參數(shù)，在動物種類和豬只種類的識別準(zhǔn)確率方面也有顯著的提升。Ａｎｉｍ-Ｃｅｌｅｂ和Ｐｉｇ-Ｃｅｌｅｂ測試集的準(zhǔn)確率折線圖如圖８所示。

由圖８可以看出，在Ａｎｉｍ-Ｃｅｌｅｂ和Ｐｉｇ-Ｃｅｌｅｂ測試集上，相比ＥＣＡＰＡ-ＴＤＮＮ及Ｒｅｓ２Ｎｅｔ，除了在ＥＥＲ上的提高外，動物種類識別分別提升了０．０５％和８．４５％的準(zhǔn)確率，豬只種類識別提升了０．４３％和６．２８％的準(zhǔn)確率。對比其他基線模型，本文提出的模型對動物種類和豬只種類的識別準(zhǔn)確率最高，其識別準(zhǔn)確率分別達到了９３．１２％和９２．７６％。

２．７模型復(fù)雜性分析

本文比較了ＥＣＡＰＡ-ＴＤＮＮ、ＲｅｓＮｅｔ３４和ＥＲｅｓ-ＥＣＡＭ模型的復(fù)雜性，包括參數(shù)量、浮點運算（ＦｌｏａｔｉｎｇＰｏｉｎｔＯｐｅｒａｔｉｏｎｓ，ＦＬＯＰｓ）和實時率（Ｒｅａｌ-ＴｉｍｅＦａｃｔｏｒ，ＲＴＦ），如表５所示。

由表５可以看出，ＥＲｅｓ-ＥＣＡＭ與ＲｅｓＮｅｔ３４相比，ＥＲｅｓ-ＥＣＡＭ的參數(shù)量有所增大，但ＦＬＯＰｓ有所降低。同時，ＥＲｅｓ-ＥＣＡＭ的參數(shù)量和ＦＬＯＰｓ只有ＥＣＡＰＡ-ＴＤＮＮ的一半，而ＥＲｅｓ-ＥＣＡＭ實現(xiàn)的推理速度是ＲｅｓＮｅｔ３４和ＥＣＡＰＡ-ＴＤＮＮ的兩倍以上。

３結(jié)束語

本文提出了一種新穎的聲紋識別模型———ＥＲｅｓ-ＥＣＡＭ，用于對發(fā)聲動物進行動物種類分類。ＥＲｅｓ-ＥＣＡＭ采用ＬＦＦ和ＥＣＡＭ。ＬＦＦ提取了保留目標(biāo)發(fā)聲動物特征，加強了局部信息交互。ＥＣＡＭ旨在關(guān)注目標(biāo)發(fā)聲動物并提高提取特征的質(zhì)量，其中，多粒度池化融合了不同層次的上下文信息以產(chǎn)生準(zhǔn)確的注意力權(quán)重。本文在Ａｎｉｍ-Ｃｅｌｅｂ數(shù)據(jù)集和Ｐｉｇ-Ｃｅｌｅｂ數(shù)據(jù)集上進行了全面的實驗，通過對比６種不同實驗?zāi)Ｐ停瑢嶒灲Y(jié)果表明本文所提出的模型在兩個數(shù)據(jù)集下ＥＥＲ分別為６．８８％和７．２４％，相較于其他模型，獲得的ＥＥＲ值最小。同時，對動物種類和豬只種類識別準(zhǔn)確率分別達到了９３．１２％和９２．７６％。此外，與ＥＣＡＰＡ-ＴＤＮＮ和ＲｅｓＮｅｔ３４模型相比，ＥＲｅｓ-ＥＣＡＭ具有更低的時間復(fù)雜度和更快的推理速度。

參考文獻

［１］ＶＩＧＮＩＥＲＩＳ．ＶａｎｉｓｈｉｎｇＦａｕｎａ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１４，３４５（６１９５）：３９２－３９５．

［２］ＨＡＮＮＡＹＤＥ，ＤＥＬＡＲＵＥＪ，ＭＯＵＹＸ，ｅｔａｌ．ＭａｒｉｎｅＭａｍｍａｌＡｃｏｕｓｔｉｃＤｅｔｅｃｔｉｏｎｓｉｎｔｈｅＮｏｒｔｈｅａｓｔｅｒｎＣｈｕｋｃｈｉＳｅａ，Ｓｅｐｔｅｍｂｅｒ２００７－Ｊｕｌｙ２０１１［Ｊ］．ＣｏｎｔｉｎｅｎｔａｌＳｈｅｌｆＲｅｓｅａｒｃｈ，２０１３，６７：１２７－１４６．

［３］ＭＩＥＬＫＥＡ，ＺＵＢＥＲＢＨＬＥＲＫ．ＡＭｅｔｈｏｄｆｏｒＡｕｔｏｍａｔｅｄＩｎｄｉｖｉｄｕａｌ，ＳｐｅｃｉｅｓａｎｄＣａｌｌＴｙｐｅＲｅｃｏｇｎｉｔｉｏｎｉｎＦｒｅｅｒａｎｇｉｎｇＡｎｉｍａｌｓ［Ｊ］．ＡｎｉｍａｌＢｅｈａｖｉｏｕｒ，２０１３，８６（２）：４７５－４８２．

［４］ＭＡＫ．ＢｉｏｄｉｖｅｒｓｉｔｙＭｏｎｉｔｏｒｉｎｇＲｅｌｉｅｓｏｎｔｈｅＩｎｔｅｇｒａｔｉｏｎｏｆＨｕｍａｎＯｂｓｅｒｖａｔｉｏｎａｎｄＡｕｔｏｍａｔｉｃＣｏｌｌｅｃｔｉｏｎｏｆＤａｔａｗｉｔｈＡｄｖａｎｃｅｄＥｑｕｉｐｍｅｎｔａｎｄＦａｃｉｌｉｔｉｅｓ［Ｊ］．ＢｉｏｄｉｖｅｒｓｉｔｙＳｃｉｅｎｃｅ，２０１６，２４（１１）：１２０１－１２０２．

［５］ＳＮＹＤＥＲＤ，ＧＡＲＣＩＡＲＯＭＥＲＯＤ，ＳＥＬＬＧ，ｅｔａｌ．Ｘｖｅｃｔｏｒｓ：ＲｏｂｕｓｔＤＮＮＥｍｂｅｄｄｉｎｇｓｆｏｒＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｃａｌｇａｒｙ：ＩＥＥＥ，２０１８：５３２９－５３３３．

［６］ＤＥＳＰＬＡＮＱＵＥＳＢ，ＴＨＩＥＮＰＯＮＤＴＪ，ＤＥＭＵＹＮＣＫＫ．ＥＣＡＰＡＴＤＮＮ：ＥｍｐｈａｓｉｚｅｄＣｈａｎｎｅｌＡｔｔｅｎｔｉｏｎ，ＰｒｏｐａｇａｔｉｏｎａｎｄＡｇｇｒｅｇａｔｉｏｎｉｎＴＤＮＮＢａｓｅｄＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ［Ｃ］∥２０２０ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｓｈａｎｇｈａｉ：ＩＳＣＡ，２０２０：３８３０－３８３４．

［７］ＣＨＥＮＧＪＫ，ＸＩＥＢＧ，ＬＩＮＣＴ，ｅｔａｌ．ＡＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｉｎＢｉｒｄｓ：ＣａｌｌｔｙｐｅｉｎｄｅｐｅｎｄｅｎｔＳｐｅｃｉｅｓａｎｄＩｎｄｉｖｉｄｕａｌＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＦｏｕｒＭａｃｈｉｎｅｌｅａｒｎｉｎｇＭｅｔｈｏｄｓａｎｄＴｗｏＡｃｏｕｓｔｉｃＦｅａｔｕｒｅｓ［Ｊ］．Ｂｉｏａｃｏｕｓｔｉｃｓ，２０１２，２１（２）：１５７－１７１．

［８］ＴＯＷＳＥＹＭ，ＷＩＭＭＥＲＪ，ＷＩＬＬＩＡＭＳＯＮＩ，ｅｔａｌ．ＴｈｅＵｓｅｏｆＡｃｏｕｓｔｉｃＩｎｄｉｃｅｓｔｏＤｅｔｅｒｍｉｎｅＡｖｉａｎＳｐｅｃｉｅｓＲｉｃｈｎｅｓｓｉｎＡｕｄｉｏｒｅｃｏｒｄｉｎｇｓｏｆｔｈｅＥｎｖｉｒｏｎｍｅｎｔ［Ｊ］．ＥｃｏｌｏｇｉｃａｌＩｎｆｏｒｍａｔｉｃｓ，２０１３，２１（３）：１１０－１１９．

［９］ＬＡＲＲＡＮＡＧＡＰ，ＰＯＺＡＭ，ＹＵＲＲＡＭＥＮＤＩＹ，ｅｔａｌ．ＳｔｒｕｃｔｕｒｅＬｅａｒｎｉｎｇｏｆＢａｙｅｓｉａｎＮｅｔｗｏｒｋｓｂｙＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ：ＡＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆＣｏｎｔｒｏｌＰａｒａｍｅｔｅｒｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，１９９６，１８（９）：９１２－９２６．

［１０］ＳＡＳＭＡＺＥ，ＴＥＫＦＢ．ＡｎｉｍａｌＳｏｕｎｄＣｌａｓｓｉｆｉｃａｔｉｏｎＵｓｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ［Ｃ］∥ ２０１８３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ（ＵＢＭＫ）．Ｓａｒａｊｅｖｏ：ＩＥＥＥ，２０１８：６２５－６２９．

［１１］ＧＡＯＳ，ＣＨＥＮＧＭ，ＺＨＡＯＫ，ｅｔａｌ．Ｒｅｓ２Ｎｅｔ：ＡＮｅｗＭｕｌｔｉｓｃａｌｅＢａｃｋｂｏｎｅＡｒｃｈｉｔｅｃｔｕｒｅ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０２１，４３（２）：６５２－６６２．

［１２］ＴＨＩＥＮＰＯＮＤＴＪ，ＤＥＳＰＬＡＮＱＵＥＳＢ，ＤＥＭＵＹＮＣＫＫ．ＩｎｔｅｇｒａｔｉｎｇＦｒｅｑｕｅｎｃｙＴｒａｎｓｌａｔｉｏｎａｌＩｎｖａｒｉａｎｃｅｉｎＴＤＮＮｓａｎｄＦｒｅｑｕｅｎｃｙＰｏｓｉｔｉｏｎａｌＩｎｆｏｒｍａｔｉｏｎｉｎ２ＤＲｅｓＮｅｔｓｔｏＥｎｈａｎｃｅＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ［Ｃ］∥２０２１ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｂｒｎｏ：ＩＳＣＡ，２０２１：２３０２－２３０６．

［１３］ＬＩＵＴ，ＤＡＳＲＫ，ＬＥＥＫＡ，ｅｔａｌ．ＭＦＡ：ＴＤＮＮｗｉｔｈＭｕｌｔｉｓｃａｌｅＦｒｅｑｕｅｎｃｙｃｈａｎｎｅｌＡｔｔｅｎｔｉｏｎｆｏｒＴｅｘｔｉｎｄｅｐｅｎｄｅｎｔＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎｗｉｔｈＳｈｏｒｔＵｔｔｅｒａｎｃｅ［Ｃ］∥２０２２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｓｉｎｇａｐｏｒｅ：ＩＥＥＥ，２０２２：７５１７－７５２１．

［１４］ＬＩＵＢ，ＣＨＥＮＺＹ，ＷＡＮＧＳ，ｅｔａｌ．ＤＦＲｅｓＮｅｔ：ＢｏｏｓｔｉｎｇＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎＰｅｒｆｏｒｍａｎｃｅｗｉｔｈＤｅｐｔｈｆｉｒｓｔＤｅｓｉｇｎ［Ｃ］∥ ２０２２ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｉｎｃｈｅｏｎ：ＩＳＣＡ，２０２２：２９６－３００．

［１５］ＨＵＡＮＧＧ，ＬＩＵＺ，ＶＡＮＤＥＲＭＡＡＴＥＮＬ，ｅｔａｌ．ＤｅｎｓｅｌｙＣｏｎｎｅｃｔｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ［Ｃ］∥２０１７ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．Ｈｏｎｏｌｕｌｕ：ＩＥＥＥ，２０１７：２２６１－２２６９．

［１６］ＨＵＪ，ＳＨＥＮＬ，ＳＵＮＧ．ＳｑｕｅｅｚｅａｎｄＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋｓ［Ｃ］∥ ２０１８ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．ＳａｌｔＬａｋｅＣｉｔｙ：ＩＥＥＥ，２０１８：７１３２－７１４１．

［１７］ＯＫＡＢＥＫ，ＫＯＳＨＩＮＡＫＡＴ，ＳＨＩＮＯＤＡＫ．ＡｔｔｅｎｔｉｖｅＳｔａｔｉｓｔｉｃｓＰｏｏｌｉｎｇｆｏｒＤｅｅｐＳｐｅａｋｅｒＥｍｂｅｄｄｉｎｇ［Ｃ］∥２０１８ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｈｙｄｅｒａｂａｄ：ＩＳＣＡ，２０１８：２２５２－２２５６．

［１８］ＺＨＵＹＫ，ＫＯＴ，ＳＮＹＤＥＲＤ，ｅｔａｌ．ＳｅｌｆａｔｔｅｎｔｉｖｅＳｐｅａｋｅｒＥｍｂｅｄｄｉｎｇｓｆｏｒＴｅｘｔｉｎｄｅｐｅｎｄｅｎｔＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ［Ｃ］∥ ２０１８ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｈｙｄｅｒａｂａｄ：ＩＳＣＡ，２０１８：３５７３－３５７７．

［１９］ＩＮＤＩＡＭ，ＳＡＦＡＲＩＰ，ＨＥＲＮＡＮＤＯＪ．ＳｅｌｆＭｕｌｔｉｈｅａｄＡｔｔｅｎｔｉｏｎｆｏｒＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥２０１９ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｇｒａｚ：ＩＳＣＡ，２０１９：４３０５－４３０９．

［２０］ＹＵＹＱ，ＺＨＥＮＧＳＱ，ＳＵＯＨＢ，ｅｔａｌ．Ｃａｍ：ＣｏｎｔｅｘｔａｗａｒｅＭａｓｋｉｎｇｆｏｒＲｏｂｕｓｔＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ［Ｃ］∥２０２１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｔｏｒｏｎｔｏ：ＩＥＥＥ，２０２１：６７０３－６７０７．

［２１］ＣＨＥＮＺＹ，ＨＡＮＢ，ＸＩＡＮＧＸ，ｅｔａｌ．ＢｕｉｌｄａＳＲＥＣｈａｌｌｅｎｇｅＳｙｓｔｅｍ：ＬｅｓｓｏｎｓｆｒｏｍＶｏｘＳＲＣ２０２２ａｎｄＣＮＳＲＣ２０２２［Ｃ］∥２０２２ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｄｕｂｌｉｎ：ＩＳＣＡ，２０２３：３２０２－３２０６．

［２２］ＫＯＴ，ＰＥＤＤＩＮＴＩＶ，ＰＯＶＥＹＤ，ｅｔａｌ．ＡＳｔｕｄｙｏｎＤａｔａＡｕｇｍｅｎｔａｔｉｏｎｏｆＲｅｖｅｒｂｅｒａｎｔＳｐｅｅｃｈｆｏｒＲｏｂｕｓｔＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．ＮｅｗＯｒｌｅａｎｓ：ＩＥＥＥ，２０１７：５２２０－５２２４．

［２３］ＤＥＮＧＪＫ，ＧＵＯＪ，ＹＡＮＧＪ，ｅｔａｌ．Ａｒｃｆａｃｅ：ＡｄｄｉｔｉｖｅＡｎｇｕｌａｒＭａｒｇｉｎＬｏｓｓｆｏｒＤｅｅｐＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥２０１９ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．ＬｏｎｇＢｅａｃｈ：ＩＥＥＥ，２０１９：４６９０－４６９９．

［２４］ＹＵＹＱ，ＬＩＷＪ．ＤｅｎｓｅｌｙＣｏｎｎｅｃｔｅｄＴｉｍｅＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ［Ｃ］∥２０２０ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｓｈａｎｇｈａｉ：ＩＳＣＡ，２０２０：９２１－９２５．

作者簡介：

侯衛(wèi)民男，（１９７２—），博士，教授。主要研究方向：人工智能、圖形處理和應(yīng)用、陣列信號處理和無線通信。

（*通信作者）孫藝菲女，（１９９８—），碩士研究生。主要研究方向：人工智能、聲紋識別。

劉峻滔男，（１９９８—），碩士研究生。主要研究方向：遙感圖像處理、數(shù)字圖像處理和深度學(xué)習(xí)。

基金項目：河北省省級科技計劃項目（２０３５５９０１Ｄ，２１３５５９０１Ｄ）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于ERes-ECAM 的動物聲紋識別