吉訓(xùn)生 江 昆 謝 捷,2,3
(1.江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無(wú)錫 214122;2.輕工業(yè)先進(jìn)過(guò)程控制重點(diǎn)實(shí)驗(yàn)室(教育部),江南大學(xué),江蘇無(wú)錫 214122;3.江蘇省先進(jìn)食品制造裝備與技術(shù)重點(diǎn)實(shí)驗(yàn)室,江南大學(xué),江蘇無(wú)錫 214122)
近年來(lái),隨著生態(tài)環(huán)境的不斷惡化,全球鳥(niǎo)類數(shù)量正不斷減少,越來(lái)越多的學(xué)者開(kāi)始關(guān)注鳥(niǎo)類生物多樣性的保護(hù)。然而,這項(xiàng)工作的首要任務(wù),就是對(duì)鳥(niǎo)類的活動(dòng)進(jìn)行監(jiān)測(cè)[1]。目前,鳥(niǎo)類活動(dòng)的監(jiān)測(cè)主要由專家進(jìn)行,他們一般通過(guò)聽(tīng)覺(jué)來(lái)識(shí)別鳥(niǎo)的種類[2]。然而,這個(gè)過(guò)程是昂貴且耗時(shí)的。
隨著無(wú)線聲傳感器網(wǎng)絡(luò)的發(fā)展,人們可以自主部署無(wú)線聲傳感器網(wǎng)絡(luò)進(jìn)行連續(xù)錄音[3-4],通過(guò)遠(yuǎn)程分析錄音數(shù)據(jù)來(lái)獲得物種的組成。然而,每一個(gè)聲傳感器每天會(huì)產(chǎn)生大量的聲學(xué)數(shù)據(jù)。因此,開(kāi)發(fā)一個(gè)自動(dòng)化的鳥(niǎo)鳴識(shí)別系統(tǒng)變得非常重要[5]。目前,鳥(niǎo)類識(shí)別主要包括基于視覺(jué)的方法、基于聲音的方法以及二者混合的方法。其中,聲學(xué)傳感器可以幫助收集更大時(shí)空尺度的音頻數(shù)據(jù),無(wú)需考慮角度與遮擋問(wèn)題,成本低廉。
現(xiàn)今,已有很多學(xué)者對(duì)鳥(niǎo)鳴識(shí)別開(kāi)展了研究,LUCIO 等人[6]使用三種紋理特征算子:局部二值模式、局部相位量化與Gabor濾波器,聯(lián)合支持向量機(jī)在46 種鳥(niǎo)類中獲得了77.65% 的準(zhǔn)確率。FRITZLER 等人[7]以音頻信號(hào)的聲譜圖為特征,使用預(yù)先訓(xùn)練的Inception-v3 卷積神經(jīng)網(wǎng)絡(luò)在1500 種鳥(niǎo)類,36492 個(gè)樣本中獲得了0.567 的平均精度均值。XIE 等人[8]首先分別使用聲學(xué)特征、視覺(jué)特征與深度學(xué)習(xí)等三種方法對(duì)鳥(niǎo)鳴分類,其中,深度學(xué)習(xí)最高獲得了94.36%的F1 得分,優(yōu)于聲學(xué)特征(88.97%)與視覺(jué)特征(88.87%),最后,將三種方法融合在14種鳥(niǎo)類中獲得了95.95%的F1得分。
飛行叫聲指的是鳥(niǎo)類在持續(xù)飛行中所發(fā)出的特有聲音,如候鳥(niǎo)遷徙,其研究如下:SCHRAMA 等人[9]提出使用持續(xù)時(shí)間、最高頻率、最低頻率、最大頻率幅值、平均帶寬、最大帶寬和平均頻率斜率作為特征集,使用歐氏距離算法匹配最優(yōu)類別。MARCARINI 等人[10]使用梅爾頻率倒譜系數(shù)聯(lián)合高斯混合模型用于鳥(niǎo)鳴分類。SALAMON 等人[2]提出使用球形k-means 無(wú)監(jiān)督學(xué)習(xí)算法,從對(duì)數(shù)尺度的梅爾譜圖中生成字典特征,使用支持向量機(jī)在含有43 種鳥(niǎo)類,5428 個(gè)樣本的CLO-43SD 數(shù)據(jù)集中獲得了93.96%的準(zhǔn)確率。之后,為了進(jìn)一步提高模型的表現(xiàn),SALAMON 等人[11]將球形k-means算法與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行基于類的后期融合,獲得了96.00%的分類準(zhǔn)確率。然而,CLO-43SD 是一個(gè)不平衡的數(shù)據(jù)集,不同類別的樣本數(shù)量存在顯著差異。因此,通過(guò)準(zhǔn)確率難以衡量模型對(duì)每一種鳥(niǎo)類的分類性能。為了解決這一問(wèn)題,文獻(xiàn)[1]使用平衡準(zhǔn)確率作為衡量指標(biāo),將VGG Style 網(wǎng)絡(luò)與Sub-SpectralNet 進(jìn)行后期融合,獲得86.31%的平衡準(zhǔn)確率。
為了進(jìn)一步優(yōu)化鳥(niǎo)鳴識(shí)別,本文以CLO-43SD數(shù)據(jù)集為研究對(duì)象,包含43種北美林鶯(鸚鵡科)的鳥(niǎo)鳴[2],提出一種基于多維神經(jīng)網(wǎng)絡(luò)的深度特征融合系統(tǒng)用于鳥(niǎo)鳴分類,包括1D CNN-LSTM、2D VGG Style 與3D DenseNet121,使用兩種淺層分類器:最近鄰與支持向量機(jī),在含有43 種鳥(niǎo)類的CLO-43SD數(shù)據(jù)集中最高獲得了93.89%的平衡準(zhǔn)確率,顯著優(yōu)于先前的工作。
論文的主要貢獻(xiàn):(1)對(duì)已有的Mel-VGG模型進(jìn)行改進(jìn),提取鳥(niǎo)鳴對(duì)數(shù)尺度的梅爾譜圖作為時(shí)頻特征,增強(qiáng)時(shí)頻譜圖的能量分布,并使用Mix up數(shù)據(jù)混合以減少過(guò)擬合。(2)將CNN-LSTM 與DenseNet121的全連接層優(yōu)化,減少模型參數(shù),提高實(shí)時(shí)性。(3)提出一種基于多維神經(jīng)網(wǎng)絡(luò)深度特征融合的鳥(niǎo)鳴識(shí)別系統(tǒng),有效提高了鳥(niǎo)鳴識(shí)別準(zhǔn)確性,相對(duì)于最新的Mel-VGG 與Subnet-CNN 融合模型[1],平衡準(zhǔn)確率提高了7.58%。
本文以CLO-43SD 數(shù)據(jù)集為研究對(duì)象,包含43類北美林鶯的遷徙鳴聲,具有持續(xù)時(shí)間短、頻率高等特點(diǎn),一般不超過(guò)200 ms,不同北美林鶯鳴聲的發(fā)聲時(shí)長(zhǎng)與峰值頻率如圖1 與圖2 所示??梢钥闯?,不同種類鳥(niǎo)鳴的持續(xù)時(shí)間與峰值頻率各不相同,對(duì)應(yīng)的時(shí)頻譜圖也存在差異,如BTYW 的峰值頻率為22 Hz,LOWA 的峰值頻率為7963 Hz,其對(duì)應(yīng)的梅爾譜圖如圖3 所示。BTYW 的能量主要集中在低頻,LOWA 的能量主要集中在高頻,二者的梅爾譜圖存在顯著差異。
針對(duì)深度學(xué)習(xí)優(yōu)異的學(xué)習(xí)能力以及不同維度模型表現(xiàn)的互補(bǔ)性,本文提出一種基于多維神經(jīng)網(wǎng)絡(luò)的深度特征融合過(guò)程用于鳥(niǎo)鳴分類,包括1D CNN-LSTM、2D VGG Style 與3D DenseNet121,如圖4所示??梢钥闯?,該過(guò)程主要包括5個(gè)階段:預(yù)處理、特征提取、深度特征生成、最小最大歸一化與分類,詳細(xì)描述如下。
在CLO-43SD 數(shù)據(jù)集中,每一段鳥(niǎo)鳴的持續(xù)時(shí)間不同,其對(duì)應(yīng)的時(shí)頻譜圖大小不一致。本文將每一段鳥(niǎo)鳴多次復(fù)制連接,通過(guò)截取前2 s 使每個(gè)樣本持續(xù)時(shí)間相同[12]。由于錄音條件的不同,同一類鳥(niǎo)鳴樣本幅值差異較大,本文將每一段鳥(niǎo)鳴去均值歸一化,如式(1)所示:
其中,s(n)為輸入信號(hào),mean(·)、max(·)與abs(·)分別為均值、最大值與絕對(duì)值。
一般來(lái)說(shuō),鳥(niǎo)鳴具有頻率高,短促等特點(diǎn),使用紋理描述子可以將鳥(niǎo)聲劃分為長(zhǎng)度很小的時(shí)間片段,通過(guò)整合短時(shí)間內(nèi)的紋理特征來(lái)描述鳥(niǎo)鳴。為了提取鳥(niǎo)鳴的深層特征,本文使用多層局部二值模式[13](Multi-level local binary pattern,Multi-level LBP)作為紋理描述子,以一維二值模式[14-15](one dimensional binary pattern,1D BP)與一維三值模式[16-17](one dimensional ternary pattern,1D TP)為基礎(chǔ),以“sym4”為基小波對(duì)鳥(niǎo)鳴信號(hào)進(jìn)行9 層小波分解,最后,分別對(duì)9層低頻小波系數(shù)與輸入鳥(niǎo)鳴提取1D BP與1D TP并連接得到Multi-level LBP-T特征。
為了描述鳥(niǎo)鳴的頻域信息,對(duì)預(yù)處理后的鳥(niǎo)聲進(jìn)行離散余弦變換[18](discrete cosine transform,DCT)和傅里葉變換(fast Fourier transform,F(xiàn)FT),并對(duì)FFT 結(jié)果的幅值提取多層LBP 特征,得到Multilevel LBP-F[19]。最后,將Multi-level LBP-T 與Multilevel LBP-F 特征連接,得到Multi-level LBP-T-F,作為1D CNN-LSTM的訓(xùn)練特征,如圖5所示。
對(duì)于2D VGG Style,針對(duì)不同種類鳥(niǎo)鳴梅爾譜圖的差異性,如圖3 所示。本文選用預(yù)處理后鳥(niǎo)聲對(duì)數(shù)尺度的梅爾譜圖作為VGG Style 的訓(xùn)練特征。其中,梅爾譜圖的行數(shù)為40,幀移為1.45 ms。同時(shí),將對(duì)數(shù)尺度的梅爾譜圖復(fù)制三份形成三通道作為3D DenseNet121 的訓(xùn)練特征,與彩色圖像類似。
2.3.1 VGG Style模型
VGG 模型[20]是2014 年ILSVRC 競(jìng)賽的第二名,性能優(yōu)異,然而其參數(shù)量有140M 之多,需要更大的存儲(chǔ)空間。VGG Style 作為輕量級(jí)的VGG 模型在聲音識(shí)別中得到了廣泛應(yīng)用,如聲音場(chǎng)景分類[21]與鳥(niǎo)鳴識(shí)別[1]。本文使用VGG Style 作為鳥(niǎo)鳴時(shí)頻譜圖的特征提取器,如表1所示。
表1 VGG Style的網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 The Network Structure of VGG Style
可以看出,VGG Style 主要有9 層,包含三個(gè)卷積塊、一個(gè)全局平均池化層與全連接層。其中,每個(gè)卷積塊包含兩次卷積和一次dropout。在CLO-43SD 數(shù)據(jù)集中,含有43 種鳥(niǎo)鳴,因此輸出層神經(jīng)元個(gè)數(shù)為43,通過(guò)Softmax函數(shù),輸出43種鳥(niǎo)鳴的預(yù)測(cè)概率,如式(2)所示:
最后,使用argmax 函數(shù)將概率最大的鳥(niǎo)類作為最后的預(yù)測(cè)標(biāo)簽。其中,優(yōu)化器為Adam,學(xué)習(xí)率為10-4,損失函數(shù)為交叉熵,批大小為32,訓(xùn)練批次為200。同時(shí),使用Mix up數(shù)據(jù)增廣[22]以線性插值方式生成虛擬數(shù)據(jù)加入模型訓(xùn)練,如式(3)和(4)所示:
其中,λ∈[0,1]。α∈(0,∞)時(shí),λ~Beta(α,α)。xi,yi為數(shù)據(jù)集中隨機(jī)抽取的原始的特征與標(biāo)簽,x′i,y′i為生成的特征與標(biāo)簽,yi,y′i為one-hot編碼形式。模型訓(xùn)練完成后,計(jì)算每一段鳥(niǎo)鳴Dense(512)層的輸出作為深度特征。
2.3.2 CNN-LSTM 模型
以往的研究表明,不同維度的模型可以分別學(xué)習(xí)信號(hào)中的時(shí)間與空間動(dòng)態(tài)信息,通過(guò)將不同維度的模型融合,往往可以有效提升性能[23]。據(jù)我們所知,這是第一次將多維度網(wǎng)絡(luò)融合應(yīng)用于持續(xù)飛行中的鳥(niǎo)鳴識(shí)別。對(duì)于1D CNN-LSTM[24],通過(guò)堆疊三個(gè)局部特征學(xué)習(xí)塊和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)以提取鳥(niǎo)鳴特征,其中,局部特征學(xué)習(xí)塊由一層卷積和一層最大池化組成。鳥(niǎo)鳴信號(hào)是時(shí)變信號(hào),需要特殊處理以反映時(shí)變特性,因此,引入LSTM 層來(lái)提取長(zhǎng)期的上下文依賴。這里,我們使用Multi-level LBP-T-F作為網(wǎng)絡(luò)的訓(xùn)練特征,然而過(guò)多的參數(shù)將影響模型的訓(xùn)練效率。通過(guò)VGG Style 的初步實(shí)驗(yàn)表明,512 個(gè)神經(jīng)元將足夠用于該鳥(niǎo)鳴分類任務(wù)。因此,本文將CNNLSTM的全連接層簡(jiǎn)化為512個(gè)神經(jīng)元,此時(shí),模型參數(shù)從30505019減少到15679579,如表2所示。
表2 CNN-LSTM的網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 The Network Structure of CNN-LSTM
可以看出,CNN-LSTM 主要由三個(gè)卷積塊、一個(gè)LSTM 層與全連接層組成。其中,每個(gè)卷積塊包含一個(gè)卷積層和一個(gè)池化層。對(duì)于LSTM 層,將其輸出轉(zhuǎn)換為一維后使用全連接層分類。其中,優(yōu)化器為Adam,學(xué)習(xí)率為10-4,損失函數(shù)為交叉熵,批大小為32,訓(xùn)練批次為200。模型訓(xùn)練完成后,將每一段鳥(niǎo)鳴Dense(512)層的輸出作為深度特征。
2.3.3 DenseNet121模型
在三維模型中,我們選用DenseNet121[25]提取鳥(niǎo)鳴的空間動(dòng)態(tài)信息。在DenseNet121 模型中,對(duì)于每一層,前面所有層的特征圖都被用作輸入,每一層的特征圖都被用作后續(xù)層的輸入。它有效緩解了梯度消失問(wèn)題,加強(qiáng)了特征傳播,并大大減少了參數(shù)數(shù)量與訓(xùn)練模型所需的時(shí)間。同CNNLSTM,本文將CNN-LSTM 的全連接層簡(jiǎn)化為512 個(gè)神經(jīng)元,如表3 所示。此時(shí),模型參數(shù)從51113547減少到29604459。
表3 DenseNet121的網(wǎng)絡(luò)結(jié)構(gòu)Tab.3 The Network Structure of DenseNet121
其中,優(yōu)化器為Adam,學(xué)習(xí)率為10-4,損失函數(shù)為交叉熵,批大小為8,訓(xùn)練批次為200。同VGGStyle 相同,使用Mix up 生成虛擬數(shù)據(jù)加入模型訓(xùn)練以減少過(guò)擬合。訓(xùn)練完成后,計(jì)算每一段鳥(niǎo)鳴Dense(512)層的輸出作為深度特征。最后,將1D CNN-LSTM、2D VGG Style 與3D DenseNet121 生成的深度特征連接,得到了1536個(gè)特征。
深度特征生成后,使用最小最大歸一化[26]將每個(gè)特征縮放到[0,1]區(qū)間,如式(5)所示。
其中,feat 表示輸入特征,featmin表示特征的最小值,featmax表示特征的最大值,featN表示歸一化的特征。
本文使用CLO-43SD[2]的數(shù)據(jù)集,包含43 種北美林鶯(鸚鵡科)的飛行叫聲,共5428 個(gè)音頻片段。這些音頻片段來(lái)自于不同的錄音條件,包括使用高定向獵槍麥克風(fēng)獲得的干凈錄音,使用全向麥克風(fēng)獲得的嘈雜現(xiàn)場(chǎng)錄音以及從圈養(yǎng)鳥(niǎo)類獲得的聲音。每一個(gè)音頻片段包含一種鳥(niǎo)類的一次發(fā)聲,采樣率為22.05 kHz,量化位數(shù)為8,通道數(shù)為1,以wav 格式保存。此外,CLO-43SD 數(shù)據(jù)集是不平衡的,不同鳥(niǎo)類的樣本數(shù)有顯著差異,其樣本分布如圖6 所示。其中,X軸為鳥(niǎo)類名稱的縮寫(xiě),Y軸為樣本的數(shù)量。
首先將數(shù)據(jù)集隨機(jī)劃分出15%測(cè)試集,剩余85%的數(shù)據(jù)被隨機(jī)劃分為60%的訓(xùn)練集和40%的驗(yàn)證集。其中,劃分后的數(shù)據(jù)集中每種鳥(niǎo)類樣本所占比重與原數(shù)據(jù)集相同。這個(gè)過(guò)程被重復(fù)五次,并將實(shí)驗(yàn)結(jié)果的均值展示。由于CLO-43SD 數(shù)據(jù)集是不平衡的,為了評(píng)估模型對(duì)每種鳥(niǎo)類的分類性能,我們使用平衡準(zhǔn)確率作為性能指標(biāo),如式(6)所示:
其中,n為類別數(shù),TP 為真正數(shù),Si為類別i的樣本數(shù)量。
為了對(duì)本文方法進(jìn)行基準(zhǔn)測(cè)試,本文將每一段鳥(niǎo)鳴預(yù)處理,提取13 維梅爾倒譜系數(shù)及其一階、二階差分作為訓(xùn)練特征(39-MFCCs),使用KNN 與SVM作為分類器,如圖7所示。
其中,濾波器的個(gè)數(shù)為40,幀長(zhǎng)為11.6 ms,幀移為1.45 ms,實(shí)驗(yàn)結(jié)果如表4所示。
表4 基線的分類結(jié)果Tab.4 Classification results at baseline
首先,針對(duì)已有的Mel-VGG 模型,本文替換其訓(xùn)練特征為對(duì)數(shù)尺度的梅爾譜圖,并去掉z-score 歸一化步驟,實(shí)驗(yàn)對(duì)比如圖8所示??梢钥闯?,改進(jìn)后的Mel-VGG 平衡準(zhǔn)確率提升了4.34%。之后,本文實(shí)驗(yàn)了Mix up 數(shù)據(jù)增強(qiáng)聯(lián)合改進(jìn)Mel-VGG 的分類性能,獲得了89.66%的準(zhǔn)確率,這表明了數(shù)據(jù)增強(qiáng)的有效性。因此,在后續(xù)的實(shí)驗(yàn)中,默認(rèn)對(duì)VGG Style 與DenseNet121 進(jìn)行數(shù)據(jù)增強(qiáng)。最后,本文分別測(cè)試了1D CNN-LSTM 與3D DenseNet121 的分類結(jié)果,可以看出,1D CNN-LSTM 表現(xiàn)最差,獲得了84.84%的平衡準(zhǔn)確率。
為了生成鳥(niǎo)鳴的高級(jí)特征,本文分別使用1D CNN-LSTM、2D VGG Style 與3D DenseNet121 提取深度特征,分別計(jì)算出全連接層512 個(gè)神經(jīng)元的輸出,將其最小最大歸一化后送入KNN 與SVM 分類,實(shí)驗(yàn)結(jié)果如圖9 所示??梢钥闯觯琄NN 分類器的表現(xiàn)要優(yōu)于SVM,其中,2D VGG Style 聯(lián)合KNN 表現(xiàn)最好,獲得了91.20%的分類準(zhǔn)確率。
針對(duì)不同維度模型可以分別提取信號(hào)時(shí)間與空間動(dòng)態(tài)信息的特性,本文將1D CNN-LSTM、2D VGG Style 與3D DenseNet121 生成的深度特征連接(深度特征-1-2-3),將其最小最大歸一化后送入KNN與SVM分類,實(shí)驗(yàn)結(jié)果如表5所示。
表5 深度特征融合的平衡準(zhǔn)確率Tab.5 Balanced accuracy of deep feature fusion
可以看出,深度特征-1-2-3 聯(lián)合KNN 最高獲得93.89%的平衡準(zhǔn)確率,這表明融合不同維度模型的深度特征對(duì)于鳥(niǎo)鳴識(shí)別的有效性。為了進(jìn)一步分析深度特征融合模型的分類結(jié)果,本文繪制出深度特征-1-2-3聯(lián)合KNN的混淆矩陣,如圖10所示。
可以看出,該模型對(duì)13 種鳥(niǎo)類獲得了100%的分類準(zhǔn)確率。然而,13%的BLPW 與17%的BWWA被誤分為MAWA,其梅爾譜圖如圖11所示。
可以看出,它們的譜圖結(jié)構(gòu)非常相似,這解釋了模型難以區(qū)分這些鳥(niǎo)類的原因。在先前的工作中,文 獻(xiàn)[1]將Mel-VGG 與Subnet-CNN 后期融合(Fusion1),獲得了86.31%的平衡準(zhǔn)確率。其中Mel-VGG 指的是梅爾譜圖+Z-SCORE 歸一化+VGG Style,Mel-Subnet 指的是梅爾譜圖+Z-SCORE 歸一化+SubSpectralNet[1]。整體實(shí)驗(yàn)結(jié)果如圖12所示。
該項(xiàng)工作中,本文首先對(duì)Mel-VGG 的預(yù)處理進(jìn)行改進(jìn),使用對(duì)數(shù)尺度的梅爾譜圖作為訓(xùn)練特征,獲得了87.61%的平衡準(zhǔn)確率。之后,聯(lián)合Mix up數(shù)據(jù)混合生成虛擬數(shù)據(jù),減少過(guò)擬合,獲得了89.66%的平衡準(zhǔn)確率(Mixmel-VGG)。為了生成鳥(niǎo)鳴的高級(jí)特征,本文將Mixmel-VGG 作為特征提取器,計(jì)算每一段鳥(niǎo)鳴全連接層的輸出作為深度特征,初步實(shí)驗(yàn)表明,KNN最高獲得了91.20%的平衡準(zhǔn)確率(Deep 1)。最后,為了融合利用不同維度模型的學(xué)習(xí)特性,提高鳥(niǎo)鳴識(shí)別的準(zhǔn)確率,將1D CNNLSTM、2D VGG Style 與3D DenseNet121 提取的深度特征連接(深度特征-1-2-3),聯(lián)合KNN 最高獲得了93.89%的平衡準(zhǔn)確率(Fusion 2),相對(duì)于先前的工作,平衡準(zhǔn)確率提高了7.58%。
本文提出一種基于多維神經(jīng)網(wǎng)絡(luò)的深度特征融合方法用于鳥(niǎo)鳴分類。針對(duì)不同維度模型描述鳥(niǎo)鳴的互補(bǔ)性,分別使用1D CNN-LSTM、2D VGG Style與3D DenseNet121作為特征提取器生成深度特征描述鳥(niǎo)鳴。對(duì)于CNN-LSTM,針對(duì)鳥(niǎo)鳴頻率高、短促等特點(diǎn),將鳥(niǎo)鳴劃分為長(zhǎng)度很小的時(shí)間片段,通過(guò)整合短時(shí)間片段內(nèi)的紋理特征來(lái)描述鳥(niǎo)鳴的快速變化。為了提取鳥(niǎo)鳴的深層特征,獲取更豐富的時(shí)頻信息,以小波分解為池化方法,分別對(duì)鳥(niǎo)鳴時(shí)、頻域提取多層LBP 特征作為網(wǎng)絡(luò)輸入。針對(duì)不同種類鳥(niǎo)鳴時(shí)頻譜圖的差異性(見(jiàn)圖3),提取鳥(niǎo)鳴對(duì)數(shù)尺度的梅爾譜圖作為VGG Style 的網(wǎng)絡(luò)輸入,并復(fù)制三份形成三通道作為3D DenseNet121 的訓(xùn)練特征。為了減少模型參數(shù),提高訓(xùn)練效率,分別將CNN-LSTM與DenseNet121 的全連接層簡(jiǎn)化為512 個(gè)神經(jīng)元。同時(shí)使用Mix up 數(shù)據(jù)增強(qiáng)減少過(guò)擬合。最后,為了融合不同維度模型的學(xué)習(xí)特性,將三個(gè)模型的深度特征連接,聯(lián)合淺層分類器:KNN與SVM,在含有43種鳥(niǎo)類,5428 個(gè)樣本的CLO-43SD 數(shù)據(jù)集中最高獲得了93.89%的平衡準(zhǔn)確率。然而,對(duì)于頻譜相似的鳥(niǎo)類,如BLPW、MAWA 與BWWA,模型難以進(jìn)行有效區(qū)分。同時(shí),較高的算法復(fù)雜度使得模型需要指定的設(shè)備方可運(yùn)行。在將來(lái)的工作中,我們將致力于解決頻譜相似鳥(niǎo)類的識(shí)別,以及模型的輕量化。