国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于C-LSTM 的鳥(niǎo)鳴聲識(shí)別方法*

2021-06-03 14:34:54邢照亮吳偉銀張正曉陳麒麟倪東明
科技創(chuàng)新與應(yīng)用 2021年15期
關(guān)鍵詞:語(yǔ)譜鳴聲鳥(niǎo)類(lèi)

邢照亮,吳偉銀,張正曉,陳麒麟,倪東明

(1.先進(jìn)輸電技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(全球能源互聯(lián)網(wǎng)研究院有限公司),北京 102209;2.國(guó)網(wǎng)浙江省電力有限公司永嘉縣供電公司,浙江 溫州 325100;3.北京林業(yè)大學(xué) 工學(xué)院,北京 100083)

鳥(niǎo)鳴聲中包含的豐富的生態(tài)學(xué)信息,是衡量生物群落總體平衡的重要指標(biāo)[1]?;谝纛l采集的鳥(niǎo)類(lèi)監(jiān)測(cè)系統(tǒng)具有非干擾、實(shí)時(shí)等優(yōu)點(diǎn),在國(guó)外已經(jīng)得到廣泛應(yīng)用。然而該監(jiān)測(cè)方法運(yùn)行時(shí)會(huì)產(chǎn)生海量的鳥(niǎo)鳴聲數(shù)據(jù),依靠生態(tài)保護(hù)工作者手動(dòng)處理這些數(shù)據(jù),需要耗費(fèi)大量的時(shí)間、人力和物力[2]。

國(guó)內(nèi)外學(xué)者對(duì)鳥(niǎo)鳴聲識(shí)別方法開(kāi)展了大量研究。徐淑正等[3]將基于動(dòng)態(tài)時(shí)間規(guī)劃模板的算法用于多標(biāo)簽的鳥(niǎo)聲識(shí)別,最終在11 類(lèi)的鳥(niǎo)聲分類(lèi)中達(dá)到0.92 的準(zhǔn)確率。劉昊天等[4]用特征遷徙學(xué)習(xí)的鳥(niǎo)類(lèi)識(shí)別方法,在多物種鳥(niǎo)聲數(shù)據(jù)集上取得了較高的識(shí)別準(zhǔn)確率。Zhang 等[5]用鳥(niǎo)鳴聲的光譜圖案和紋理特征作為輸入,用基于SVM的分類(lèi)方法對(duì)2762 個(gè)鳥(niǎo)類(lèi)事件進(jìn)行了分類(lèi)并得到了較好的分類(lèi)效果。Selin 等[6]用無(wú)監(jiān)督的分類(lèi)器SOM 和受監(jiān)督的分類(lèi)器MLP 對(duì)8 種鳥(niǎo)類(lèi)的鳴聲進(jìn)行分類(lèi),最后分別達(dá)到了0.78 和0.96 的識(shí)別準(zhǔn)確率。謝將劍等[7]利用線(xiàn)性調(diào)頻小波變換(Linear Chirplet Transform,LCT)、短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)、梅爾頻率倒譜變換(Mel Frequency Cepstrum,MFCT)獲得3種語(yǔ)譜數(shù)據(jù)集,用VGG16 模型對(duì)18 種鳥(niǎo)類(lèi)語(yǔ)譜圖進(jìn)行分類(lèi)達(dá)到了較高的識(shí)別準(zhǔn)確率。鳥(niǎo)鳴聲中不僅包含個(gè)性聲音的空間特征[8],而且包含了鳴聲段之間的時(shí)序特征,上述鳥(niǎo)鳴聲識(shí)別方面的研究均沒(méi)有充分利用鳥(niǎo)類(lèi)聲紋時(shí)序特征。

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)適合于處理具有時(shí)間關(guān)聯(lián)度的聲紋信號(hào)。本文在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)提取鳥(niǎo)聲語(yǔ)譜圖幀間的時(shí)間關(guān)聯(lián)度特征,形成了CLSTM 識(shí)別模型。以Xeno-Canto 中的5 種鳥(niǎo)類(lèi)作為研究對(duì)象,通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了本文提出模型的優(yōu)越性。

1 鳥(niǎo)鳴聲數(shù)據(jù)及其預(yù)處理

1.1 數(shù)據(jù)集介紹

本文采用的鳥(niǎo)鳴聲數(shù)據(jù)集來(lái)自Xeno-Canto(https://www.xeno-canto.org/)數(shù)據(jù)庫(kù),選取了5 種鳥(niǎo)類(lèi)的鳴聲數(shù)據(jù),具體的物種信息如表1 所示。每個(gè)鳴聲信號(hào)均為WAV 格式,采樣頻率均為44.1kHZ。

表1 5 種鳥(niǎo)鳴聲信號(hào)的信息

1.2 數(shù)據(jù)集的預(yù)處理

為了補(bǔ)償鳥(niǎo)鳴聲信號(hào)傳播時(shí)高頻成分的衰減,首先需要對(duì)鳴聲信號(hào)進(jìn)行預(yù)加重處理,即用高通濾波器對(duì)鳴聲信號(hào)進(jìn)行濾波:

式(1)中,μ 通常取值為0.97。

為了減少靜音段占用內(nèi)存空間增大計(jì)算量的影響,需要對(duì)輸入的鳴聲信號(hào)做去靜音段處理,其中去除靜音段的無(wú)聲閾值為0.5。由于鳴聲信號(hào)為非平穩(wěn)的隨機(jī)信號(hào),在對(duì)鳴聲信號(hào)進(jìn)行時(shí)頻變換前,需要對(duì)信號(hào)分幀和加窗,其中窗函數(shù)采用Hanning 窗函數(shù),分段的時(shí)間長(zhǎng)度為300ms,段與段之間的重疊率為0.5。

分幀和加窗以后,對(duì)各個(gè)幀信號(hào)進(jìn)行梅爾頻譜倒譜變換(Mel Frequency Cepstrum,MFCT),其計(jì)算參數(shù)如表2 所示。

表2 梅爾頻譜域倒譜變換計(jì)算參數(shù)

最后再將變換后的每一幀信號(hào)輸出為224*224 的RGB 圖像,圖1 所示為5 種鳥(niǎo)類(lèi)的梅爾語(yǔ)譜圖的示例圖像。

圖1 5 種鳥(niǎo)類(lèi)的語(yǔ)譜圖

2 基于C-LSTM 的識(shí)別模型

本文模型的特征提取部分采用了VGG16 模型[9],VGG16 卷積神經(jīng)網(wǎng)絡(luò)是牛津大學(xué)在2014 年提出來(lái)的模型,VGG 模型采用3*3 的小型卷積核和2*2 的最大池化核,通過(guò)不斷加深網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升性能,在圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù)中都表現(xiàn)出非常好的結(jié)果。在2014 年的ILSVRC比賽中,VGG 在Top-5 中取得了92.3%的正確率。

LSTM(Long Short-Term Memory)是一種長(zhǎng)短時(shí)記憶序列網(wǎng)絡(luò)[10],其核心的概念在于細(xì)胞狀態(tài)以及“門(mén)”結(jié)構(gòu)。細(xì)胞狀態(tài)相當(dāng)于信息傳輸?shù)穆窂?,讓信息在序列中傳遞下去。信息的添加和移除可以通過(guò)“門(mén)”結(jié)構(gòu)來(lái)實(shí)現(xiàn),“門(mén)”結(jié)構(gòu)在訓(xùn)練過(guò)程中會(huì)去學(xué)習(xí)該保存或遺忘哪些信息,如圖2 所示為L(zhǎng)STM 網(wǎng)絡(luò)單元結(jié)構(gòu)圖。

圖2 LSTM 網(wǎng)絡(luò)單元

基于VGG16 的空間特征提取能力及LSTM 的時(shí)序特征建模能力,本文提出了C-LSTM 模型,如圖3 所示,模型由三部分組成,分別是VGG16 卷積層、LSTM 層及全連接層。

圖3 C-LSTM 模型框圖

其中模型輸入的為鳥(niǎo)鳴聲語(yǔ)圖序列,首先通過(guò)VGG-16 卷積層提取圖像的特征,作為L(zhǎng)STM 的輸入。對(duì)于輸入的圖像序列,通過(guò)CNN 網(wǎng)絡(luò)后的輸出特征為4 維向量,而LSTM 的輸入的大小為3 維向量。因此本文采取了將卷積后的輸出特征先降維,然后再轉(zhuǎn)置的運(yùn)算。最后再將經(jīng)過(guò)LSTM 單元輸出的特征向量連接到2 個(gè)全連接層和Softmax 輸出層組成的分類(lèi)器中,如圖4 所示為CLSTM 模型結(jié)構(gòu)圖。

圖4 C-LSTM 模型結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 模型訓(xùn)練設(shè)置

實(shí)驗(yàn)在Win10、64 位操作系統(tǒng)下,Python3.6 的編程環(huán)境,基于深度學(xué)習(xí)框架Tensorflow1.8.0 完成。實(shí)驗(yàn)建立的數(shù)據(jù)集訓(xùn)練樣本數(shù)如表3 所示。

表3 數(shù)據(jù)集訓(xùn)練樣本

選擇平均識(shí)別準(zhǔn)確率MAP 作為模型的評(píng)價(jià)指標(biāo),MAP 的計(jì)算公式如下:

其中:q 為鳥(niǎo)類(lèi)物種編號(hào),AveP(q)為對(duì)應(yīng)物種的識(shí)別準(zhǔn)確率。

3.2 C-LSTM 模型和VGG16 模型性能對(duì)比

為了驗(yàn)證長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)對(duì)模型的提升效果,選擇VGG16 模型進(jìn)行對(duì)比實(shí)驗(yàn),C-LSTM 和VGG16模型的訓(xùn)練參數(shù)均采用表4 所示的參數(shù)值。

表4 訓(xùn)練參數(shù)

選擇表3 中的5 種鳥(niǎo)類(lèi)的梅爾語(yǔ)譜圖樣本集作為輸入,分別對(duì)物種識(shí)別模型進(jìn)行訓(xùn)練和驗(yàn)證。圖5 為模型在驗(yàn)證時(shí)損失函數(shù)值隨迭代次數(shù)的變化。

由圖5 可得,在相同的訓(xùn)練參數(shù)條件下,訓(xùn)練初期C-LSTM 的損失值大于VGG16,但隨著迭代輪數(shù)的增加,C-LSTM 的損失值收斂為小于VGG16 模型的損失值。

圖5 VGG16 和C-LSTM 測(cè)試損失值變化

圖6 為驗(yàn)證時(shí)VGG16 和C-LSTM 模型的MAP 值隨迭代次數(shù)的變化。

由圖6 可知,VGG16 和C-LSTM 隨著訓(xùn)練迭代次數(shù)的增加,MAP 值一直處于上升趨勢(shì)。在訓(xùn)練初期,CLSTM 的MAP 值小于VGG16,但隨著迭代輪數(shù)的增加,C-LSTM 的MAP 值收斂為大于VGG16 的MAP 值。

表5 記錄了VGG16 和C-LSTM 網(wǎng)絡(luò)在測(cè)試時(shí)MAP的起始值和最終值。

綜合分析圖5、圖6 和表5 可得:

圖6 VGG16 和C-LSTM 測(cè)試準(zhǔn)確率變化

表5 VGG16 和C-LSTM 測(cè)試結(jié)果對(duì)比

(1)在訓(xùn)練初期,由于訓(xùn)練模型迭代次數(shù)較少,C-LSTM 網(wǎng)絡(luò)對(duì)語(yǔ)譜圖輸入序列的時(shí)序特征的學(xué)習(xí)能力還未體現(xiàn)出來(lái),所以此時(shí)VGG16 的性能要優(yōu)于CLSTM。

(2)隨著迭代次數(shù)增加,C-LSTM 模型將CNN 網(wǎng)絡(luò)對(duì)語(yǔ)譜圖空間特征的學(xué)習(xí)能力及LSTM 網(wǎng)絡(luò)對(duì)輸入語(yǔ)譜圖序列時(shí)序特征的學(xué)習(xí)能力有效結(jié)合,其最終MAP 值在測(cè)試集上達(dá)到了0.9147,優(yōu)于VGG16 模型的0.8628,驗(yàn)證了C-LSTM 模型的優(yōu)越性能。

4 結(jié)論

本文提出了一種基于C-LSTM 模型的識(shí)別鳥(niǎo)鳴聲方法,該方法首先通過(guò)計(jì)算得到鳥(niǎo)類(lèi)鳴聲的梅爾語(yǔ)譜圖,然后輸入到融合CNN 和LSTM 的C-LSTM 模型中,實(shí)現(xiàn)鳥(niǎo)類(lèi)的識(shí)別。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的CNN 網(wǎng)絡(luò)模型相比,C-LSTM 作為識(shí)別模型時(shí)能夠更好地對(duì)鳥(niǎo)鳴聲的時(shí)間特征進(jìn)行學(xué)習(xí),具有更高的識(shí)別準(zhǔn)確率,可以為鳥(niǎo)鳴聲識(shí)別提供新的思路及方法。

猜你喜歡
語(yǔ)譜鳴聲鳥(niǎo)類(lèi)
又是年盡別離時(shí)
善于學(xué)習(xí)的鳥(niǎo)類(lèi)
學(xué)與玩(2022年9期)2022-10-31 02:54:08
口袋(外一首)
自制樂(lè)器
我的濕地鳥(niǎo)類(lèi)朋友
文苑(2020年12期)2020-04-13 00:54:14
HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
鳥(niǎo)類(lèi)
揚(yáng)子鱷幼鱷求救鳴聲聲譜特征及個(gè)體簽名
基于時(shí)頻域特征的場(chǎng)景音頻研究
鳥(niǎo)類(lèi)的叫聲
饶河县| 罗源县| 衡阳市| 叶城县| 乌兰县| 理塘县| 九台市| 尖扎县| 桐柏县| 探索| 广东省| 吉安县| 江津市| 繁峙县| 崇义县| 民勤县| 盖州市| 济南市| 银川市| 张家口市| 崇阳县| 比如县| 轮台县| 大名县| 新竹县| 宁蒗| 观塘区| 探索| 嘉禾县| 兴国县| 三江| 三亚市| 宝应县| 石林| 固安县| 永福县| 寻乌县| 合川市| 日喀则市| 新疆| 墨玉县|