楊春勇 祁宏達(dá) 彭焱秋 尹 濱 侯 金 舒振宇 陳少平
(1 智能無線通信湖北省重點(diǎn)實(shí)驗(yàn)室 武漢 430074)
(2 中南民族大學(xué)電子信息工程學(xué)院 武漢 430074)
隨著國家生態(tài)文明建設(shè)加速推進(jìn),高效快捷評(píng)估生態(tài)環(huán)境質(zhì)量的方法和技術(shù)亟待研究和開發(fā)。鳥類在生態(tài)系統(tǒng)中扮演著重要角色,其群落是環(huán)境質(zhì)量的重要指標(biāo),有效監(jiān)測與識(shí)別其分布對保護(hù)和評(píng)估生態(tài)系統(tǒng)都具有重要意義[1]。
目前,鳥類識(shí)別(Birds recognition,BR)一般依靠人工望遠(yuǎn)觀測法,該法受限于鳥類移動(dòng)高度不確定性、移動(dòng)范圍大、識(shí)別目標(biāo)難捕捉等特點(diǎn),效率較低。鳴聲作為鳥類的重要生物學(xué)特征,已被證明可以用于鳥類自動(dòng)識(shí)別[2-3]。2010 年,Cheng等[4]通過提取4種雀形目鳥類的梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)結(jié)合高斯混合模型(Gaussian mixture model,GMM)進(jìn)行了雀形目鳥類聲音識(shí)別,但其采用的實(shí)驗(yàn)樣本數(shù)偏少,且在噪聲環(huán)境下的識(shí)別性能劣化較為嚴(yán)重。2014 年,王恩澤等[5]進(jìn)一步提出一種基于MFCC的新型特征參數(shù)MFCCA 和雙重GMM 模型,識(shí)別率有明顯提升,但其未討論該模型在噪聲環(huán)境下的適應(yīng)效果。2015年,Ptacek等[6]著重討論了噪聲背景下的識(shí)別問題,提出一種基于GMM 和通用背景模型(Universal background model,UBM)的鳥個(gè)體識(shí)別系統(tǒng),但其識(shí)別率并不高。2017 年,程龍等[7]提出一種基于經(jīng)驗(yàn)?zāi)B(tài)分解改進(jìn)的MFCC 算法,但仍屬于MFCC+GMM識(shí)別方法,且提升后的識(shí)別率增益不大,識(shí)別率為70.09%。Chakraborty等[8]使用支持向量機(jī)與深度學(xué)習(xí)技術(shù)相結(jié)合,但是復(fù)雜度較高,識(shí)別率沒有較大提升。2018年,Sevilla等[9]提出了針對解決生物聲學(xué)分類問題的深度卷技術(shù)網(wǎng)絡(luò)Inception-V4 的改良版Soundception,并使用數(shù)據(jù)增強(qiáng)策略和兩種注意力模型,平均識(shí)別準(zhǔn)確率(Mean average precision,MAP)得分達(dá)到71.4%,在模型訓(xùn)練階段依賴較高的硬件支持,耗時(shí)長且存在各種可拓展的優(yōu)化空間。因此,綜合可查閱的一些典型文獻(xiàn)來看,目前關(guān)于鳥類鳴聲自動(dòng)識(shí)別技術(shù)的研究大多采用MFCC+GMM 識(shí)別方法,且集中在提高識(shí)別率上,鮮有針對噪聲環(huán)境應(yīng)用和識(shí)別耗時(shí)的討論,而抗噪和耗時(shí)問題又是識(shí)別技術(shù)能否獲得推廣應(yīng)用所面臨的重要挑戰(zhàn)。
鳥類語譜圖是研究鳥的生物種類屬性的重要途徑[10-12],但是由于種類間譜圖特征重合度較高,難以直接用語譜圖進(jìn)行鳥類準(zhǔn)確識(shí)別。而鳴聲能量譜圖(Voice-power spectrogram,VPS)由鳥類語譜圖間接生成,使用Librosa庫可以提取Mel標(biāo)度譜圖、色度圖、光譜對比度和色調(diào)質(zhì)心等特征,最終使用這些方法生成能量譜圖的相關(guān)信息。因鳴聲能量譜圖兼具頻譜分布和時(shí)域波形的特點(diǎn),可較清楚地顯示鳴聲能量隨時(shí)間變化的關(guān)系,時(shí)頻域演化將為鳥鳴聲識(shí)別提供較為顯著的判別信息,且能形成每種鳥類對應(yīng)的鳴聲模式,這種特征提取技術(shù)屬于信號(hào)特征提取,主要目的是擴(kuò)展和隔離每個(gè)樣本的重要特征。在能量譜圖中,亮度越高表示此段時(shí)間內(nèi)鳥鳴聲能量越高,不同的鳥鳴聲會(huì)形成該種類特有的鳴聲模式,而圖像背景亮度較低的地方為環(huán)境噪聲與信道噪聲。對于單幅圖像而言,圖像上的噪聲部分與鳴聲主體能量差異大,邊緣特征尤其明顯,使得噪聲在鳴聲識(shí)別過程中整體影響較小;對整個(gè)鳥類鳴聲特征圖譜鳴聲模式而言,雖然不同個(gè)體鳥鳴聲具有差異性,但是與整個(gè)鳥類群的鳴聲模式上只存在一定合理范圍上閾值偏差,即鳥個(gè)體的鳴聲與整個(gè)鳥類群的鳴聲模式差異較小,從而使得單幅鳴聲譜圖不偏離整個(gè)鳥類鳴聲模式圖像。因此,本文提出的融合聲紋信息的能量譜圖的鳥類識(shí)別方法(VPS-BR)考慮到噪聲環(huán)境和識(shí)別耗時(shí)的應(yīng)用需要,并結(jié)合聲紋特征在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用[13-15],具有較大的研究意義與價(jià)值。在計(jì)算機(jī)視覺的邊緣特征識(shí)別領(lǐng)域,主要有具有良好容噪性能的方向梯度直方圖(Histogram of oriented gradient,HOG)[16-17]與在計(jì)算收斂方面表現(xiàn)出較快速度的局部二值模式(Local binary pattern,LBP)[18]算子兩類。本文使用這兩種算子對模型進(jìn)行測試,實(shí)驗(yàn)表明VPS-BR 方法識(shí)別速度快,魯棒性高且模型訓(xùn)練部分易于收斂。并且對LBP 算子在本文中的應(yīng)用,本文提出一種改進(jìn)的多尺度塊中心對稱(Multi-scale block center symmetric,MBCS)局部二值模式(MBCS-LBP)。MBCS-LBP 特征融合了多尺度塊局部二值模式(MB-LBP)[19]算子與中心對稱局部二值模式(CS-LBP)特征算子的特性,以進(jìn)一步降低計(jì)算復(fù)雜度。而由于大多數(shù)鳥類語音識(shí)別研究所使用的都是經(jīng)過篩選的質(zhì)量好的實(shí)驗(yàn)室錄音,或者經(jīng)過濾波等技術(shù)手段進(jìn)行降噪處理后的干凈語音,且數(shù)據(jù)量較少,對于現(xiàn)實(shí)世界中所具有的不同類型的自然噪聲、信道噪聲和失真等信息缺失,難以得到有效的模擬。而針對數(shù)據(jù)集的問題,本文引入生成對抗網(wǎng)絡(luò)(Generated-adversarialnetwork,GAN)進(jìn)行圖譜特征數(shù)據(jù)增強(qiáng),由于GAN能夠?qū)τ趫D像數(shù)據(jù)分布進(jìn)行有效的學(xué)習(xí),對鳥類鳴聲譜圖而言,不僅保留整體的鳴聲能量模式,并且會(huì)有細(xì)節(jié)上的變化,如背景環(huán)境噪聲的變化,或者鳴聲邊緣聲紋的細(xì)微變化,這些都能夠更好地模擬現(xiàn)實(shí)世界中每一鳴聲都不盡相同的情況,在引入GAN之后再次進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明GAN 確實(shí)學(xué)習(xí)到了有效信息。
VPS-BR 的識(shí)別原理如圖1所示,主要步驟包括數(shù)據(jù)采集、特征提取和鳥類識(shí)別3部分。
圖1 VPS-BR 原理Fig.1 The principle of VPS-BR
圖1 中,采集的樣本數(shù)據(jù)分為訓(xùn)練樣本與測試樣本。兩類不同的樣本數(shù)據(jù)分別經(jīng)由如圖2所示的信號(hào)采樣、Mel 濾波、色譜圖計(jì)算、對數(shù)能量和分貝轉(zhuǎn)換步驟生成相應(yīng)的VPS。在特征提取步驟中,分別采用MBCS-LBP 特征和HOG 特征進(jìn)行計(jì)算,將來自訓(xùn)練樣本處理路徑①→②→③→④所獲得的特征參數(shù)預(yù)置入?yún)?shù)庫,測試樣本經(jīng)處理路徑⑥→⑦→⑧獲得對應(yīng)VPS 特征。VPS特征分別用MBCS-LBP和HOG特征進(jìn)行計(jì)算。用MBCS-LBP 特征經(jīng)過分塊計(jì)算,再將中心對稱化計(jì)算得到的結(jié)果,經(jīng)組合以直方圖形式呈現(xiàn)。用HOG 特征經(jīng)過分塊計(jì)算梯度值,組合所有塊向量的梯度值后以梯度矩陣形式呈現(xiàn),具有不同頻域或時(shí)域變化的鳥鳴聲的VPS 特征將會(huì)差異明顯。在鳥類識(shí)別步驟中,將特征提取步驟所提取的VPS特征,經(jīng)由處理路徑④→⑨→⑤→④對輸入的測試樣本進(jìn)行識(shí)別。分類器④主要可由常規(guī)支持向量機(jī)(Support vector machine,SVM)、K 最近鄰(K nearest neighbor,KNN)、隨機(jī)森林(Random forest,RF)分類算法實(shí)現(xiàn)。識(shí)別結(jié)果通過自適應(yīng)判決反饋算法完成鳥鳴聲特征向量等參數(shù)的自動(dòng)優(yōu)化,并回置參數(shù)庫,替換原訓(xùn)練所得參數(shù)。在此過程中,后續(xù)的特征提取及識(shí)別都建立能量圖譜的生成基礎(chǔ)之上。參數(shù)入庫步驟引入人為的糾正與管理,體現(xiàn)了半監(jiān)督學(xué)習(xí)的特性。
圖2 能量譜圖生成步驟Fig.2 Steps of generating energy spectra
據(jù)上述可知,特征提取作為VPS-BR 鳥類鳴聲識(shí)別中的重要內(nèi)容,接下來將詳細(xì)描述本文所用MBCS-LBP和HOG特征提取算法原理。
本文設(shè)計(jì)的MBCS-LBP 特征提取流程如圖3所示。生成的VPS分別經(jīng)由灰度圖像轉(zhuǎn)換、Gamma標(biāo)準(zhǔn)化、檢測窗口掃描、二值量化、直方圖統(tǒng)計(jì)和、中心對稱統(tǒng)計(jì)與直方圖拼接步驟生成相應(yīng)的MBCS-LBP 特征。在檢測窗口掃描前,所進(jìn)行的操作是對VPS 的預(yù)處理。在對檢測窗口進(jìn)行逐個(gè)掃描的步驟中,分別對每個(gè)窗口所對應(yīng)的掃描圖塊進(jìn)行轉(zhuǎn)換進(jìn)制的灰度值計(jì)算,經(jīng)中心對稱處理后拼接統(tǒng)計(jì)直方圖,最后綜合所有掃描窗口的統(tǒng)計(jì)值,獲得MBCS-LBP特征。
圖3 MBCS-LBP 特征提取流程Fig.3 Flows of MBCS-LBP feature extraction
MBCS-LBP 特征采用鄰域多像素灰度均值替換傳統(tǒng)單像素灰度[20],進(jìn)而根據(jù)多像素均值步進(jìn)到多像素塊LBP 特征的計(jì)算來表達(dá)鳥類鳴聲聲紋特征。以N×N的鄰域?yàn)槔?,對整幅能量譜圖進(jìn)行計(jì)算時(shí),相應(yīng)的MBCS-LBP特征計(jì)算如下:
式(1)中,“2j”是LBP 中的卷積運(yùn)算,其中Bj表示鄰域內(nèi)第j個(gè)像素塊的灰度均值,計(jì)算方法如式(2)所示;(Bj-Bj+N/2)表示互為中心對稱的兩個(gè)像素塊灰度均值之差;S(x)為單位階躍函數(shù),計(jì)算方法如式(3)所示:
式(2)中,gi表示第j個(gè)像素塊內(nèi)第i個(gè)像素的灰度值。
MBCS-LBP 特征計(jì)算示意圖如圖4所示,在LBP 特征提取步驟上進(jìn)一步優(yōu)化,使得編碼更短、傳輸識(shí)別速度更快。
圖4 MBCS-LBP 特征提取示意圖Fig.4 Diagram of MBCS-LBP feature extraction
由文獻(xiàn)[21],HOG特征提取示意圖如圖5所示。生成的VPS 分別經(jīng)由灰度圖像轉(zhuǎn)換、Gamma 標(biāo)準(zhǔn)化、單元格梯度計(jì)算、空間直方圖計(jì)算、累加直方圖投影、對比度標(biāo)準(zhǔn)化與塊向量拼接步驟生成相應(yīng)的HOG特征。在預(yù)處理環(huán)節(jié),首先對從原始鳴聲譜圖轉(zhuǎn)換得到的灰度圖像進(jìn)行Gamma 標(biāo)準(zhǔn)化,然后設(shè)置步長、掃描窗口大小等參數(shù),最后啟動(dòng)HOG 特征提取。在掃描步驟中,對每一個(gè)掃描窗口中的單元格進(jìn)行梯度計(jì)算,并將不同權(quán)重的梯度信息進(jìn)行累加直方圖投影,然后將所有單元格在像素塊上再次進(jìn)行歸一化,最后組合檢測空間所有像素塊的HOG特征。
圖5 HOG 特征提取流程Fig.5 Steps of HOG feature extraction
本文樣本采自于鳥類識(shí)別領(lǐng)域引用較多且較為權(quán)威的網(wǎng)站Xeno-Canto。該網(wǎng)站收錄了世界各地上千種鳥類的幾十萬條語音樣本。通過分析從該網(wǎng)站下載的部分樣本,發(fā)現(xiàn)有些鳥類的記錄數(shù)量較少,也有些鳥類的鳴唱復(fù)雜多變,不利于識(shí)別驗(yàn)證。為了減小這些情況對識(shí)別實(shí)驗(yàn)的影響,本文選取樣本時(shí)按照“同種異域,鳴叫優(yōu)先”原則,采集了不含鳴唱的鳥鳴叫聲片段進(jìn)行實(shí)驗(yàn)。不失一般性,為有利于開展實(shí)驗(yàn),本文選取了淡眉柳鶯、華西柳鶯、黃腹柳鶯、寬尾樹鶯、四聲杜鵑、北方中杜鵑、美洲旋木雀、太平洋鷦鷯、白頭鵯、烏鶇、中華鷓鴣、棕北伯勞、麻雀、鸊鷉、花尾榛雞共15種帶標(biāo)簽的鳥鳴聲樣本。對每一種鳥,均取100 個(gè)WAV 格式片段,每個(gè)片段用時(shí)5 s,共計(jì)125 min,每種樣本含噪類型及程度不同,與純凈場景下的鳴聲識(shí)別對比,體現(xiàn)了本文算法的普適性及魯棒性。
淡眉柳鶯與寬尾樹鶯同屬鶯科,因其種群的地理分布范圍相近,而且體態(tài)較小,難以從遠(yuǎn)距離進(jìn)行人工辨識(shí)。據(jù)前述原理,若將二者的鳴聲信號(hào)轉(zhuǎn)為能量譜圖,特征差異將較為明顯,易于區(qū)分。因此,本文以淡眉柳鶯與寬尾樹鶯兩種鳥類為例,在圖6中展示了對二者鳴聲進(jìn)行LBP特征提取的效果,以及相應(yīng)的聲能譜圖特征對比。
在計(jì)算機(jī)視覺中,圖像邊緣特征、平坦特征和拐角特征對識(shí)別性能有重要作用。借此,將淡眉柳鶯VPS的邊緣特征、平坦特征和拐角特征分別展示在圖6中的子圖(a1)、(a2)、(a3)中,并用紅色像素點(diǎn)標(biāo)示;作為對比,將寬尾樹鶯VPS的3個(gè)特征分別展示在圖6 中的子圖(b1)、(b2)、(b3)中,也用紅色像素點(diǎn)標(biāo)示。從能譜圖直觀對比看,淡眉柳鶯與寬尾樹鶯的鳴聲譜圖形狀有明顯差異。將能量譜圖作進(jìn)一步直方圖量化,如子圖(a4)、(a5)、(a6)分別對應(yīng)淡眉柳鶯VPS 邊緣特征、平坦特征和拐角特征這3種像素點(diǎn)的LBP直方圖。從LBP直方圖(b4)、(b5)、(b6)中可以較為明顯地觀察到,根據(jù)不同特征像素點(diǎn)量化灰度分別在相應(yīng)能量譜圖(a1)、(a2)、(a3)中所占的百分比權(quán)重分布,即可確定出此鳥鳴聲來自淡眉柳鶯。同理,子圖(b4)、(b5)、(b6)分別對應(yīng)子圖(b1)、(b2)、(b3)特征像素點(diǎn)的LBP直方圖,可看出,3 種特征像素點(diǎn)量化灰度百分比權(quán)重分布較為明顯地表征了此鳥鳴聲與淡眉柳鶯鳴聲的差別,可以確定為來自寬尾樹鶯。因此,鑒于VPS 中特征灰度在整幅譜圖中所占的百分比權(quán)重有較大的區(qū)別,結(jié)合LBP 直方圖,這種差異特征可以用于科屬相近鳥類識(shí)別的量化辨識(shí)。
聲能譜圖中鳥鳴聲的邊緣特征對識(shí)別結(jié)果影響較大。根據(jù)文獻(xiàn)[22—23],HOG特征提取精度與圖像聲紋特征描述精細(xì)度呈正相關(guān)。如對特征提取精度越高,則對譜圖的描述程度更好,對圖像邊緣的擬合度也越好,識(shí)別率就越高。圖7 分別展示了對9 s 淡眉柳鶯鳴聲譜圖進(jìn)行8×8 像素、16×16 像素、32×32 像素的HOG 特征提取實(shí)驗(yàn),相比而言,8×8像素提取精度具有更好的圖像聲紋特征表述效果。因此綜合考慮計(jì)算量,在后續(xù)的特征對比實(shí)驗(yàn)中,將掃描塊大小設(shè)置為3×3 個(gè)單元格,其中每一單元格大小設(shè)定為8×8 像素,對每個(gè)掃描塊的直方圖投影設(shè)置為9個(gè)方向進(jìn)行實(shí)驗(yàn)。
中華鷓鴣與花尾榛雞科屬不同但同屬亞鳥綱,其種群分布范圍相近,生活習(xí)性也相近。圖8展示了淡眉柳鶯、中華鷓鴣和花尾榛雞這3 種鳥類鳴聲的HOG 特征提取效果及其聲能譜圖特征對比。子圖(a1)、(b1)、(c1)分別為淡眉柳鶯、中華鷓鴣和花尾榛雞這3種鳥類原始VPS;子圖(a2)、(b2)、(c2)為8×8像素精度的HOG 特征提取形式,圖中白色標(biāo)識(shí)的梯度基本擬合了鳴聲譜邊緣;子圖(a3)、(b3)、(c3)進(jìn)一步展示了對每個(gè)掃描塊求梯度值,并進(jìn)行直方圖投影所得到的HOG 特征三維圖,由此可看出不同鳥類在HOG 特征上有較好區(qū)分度,證明HOG特征描述具有較好的識(shí)別效果,也可用于鳥類鳴聲識(shí)別。
圖6 淡眉柳鶯與寬尾樹鶯鳴聲譜圖特征對比Fig.6 the feature contrast of Phylloscopus humei and Cettia cetti’s spectrogram
圖7 不同精度HOG 特征提取Fig.7 HOG feature extraction with different accuracy
圖8 淡眉柳鶯、中華鷓鴣和花尾榛雞的VPS 特征對比Fig.8 VPS feature contrast between Phylloscopus humei,Francolinus pintadeanus and Bonasa bonasia
本文VPS-BR 算法實(shí)現(xiàn)所采用的硬件平臺(tái)為TITAN X GPU、8 G 內(nèi)存,軟件環(huán)境為MATLAB 7.0、Python 3.6 以及相關(guān)工具包。為了進(jìn)一步評(píng)估VPS-BR 的性能,對照文獻(xiàn)[5]所研究的MFCC 與GMM 組合模型,將提取的LBP、HOG 特征分別與SVM、KNN、RF分類器算法進(jìn)行兩兩組合實(shí)驗(yàn)。在實(shí)驗(yàn)中,依次選擇2 種、5種、10種、15種鳥的鳴聲進(jìn)行特征提取與種數(shù)識(shí)別。為便于比較,各算法按照識(shí)別率從低到高的順序依次列于表1。
表1 識(shí)別率對比Table 1 Comparison table of recognition rate
觀察并分析表1 中的數(shù)據(jù),VPS-BR算法下的6種組合模型平均識(shí)別率為80.9%,較MFCC+GMM組合模型高出11.3%,證明VPS-BR識(shí)別算法(即從VPS提取LBP與HOG兩類特征,再與SVM、KNN、RF 三種分類器兩兩組合)比MFCC+GMM 的組合模型具有更高的識(shí)別率。其主要原因是鳥鳴聲一維波形信號(hào)被轉(zhuǎn)換為二維能量譜圖,通過增加維度引入更多高性能的多特征提取及識(shí)別算法對識(shí)別增益有直接貢獻(xiàn)。為更好地比較不同模型的識(shí)別性能,再將表1 中的7 種模型對2 種~15 種鳥類的識(shí)別情況示于圖9。
如圖9(a)所示,盡管每一波形樣本所含噪聲不盡相同,各模型識(shí)別變化趨勢也略有波動(dòng),但總體看,隨著識(shí)別種數(shù)增加,這7 種模型的識(shí)別率均逐漸減小,而且圖9(b)箱線圖顯示VPS-BR 算法各模型識(shí)別率比較穩(wěn)定,多數(shù)優(yōu)于MFCC+GMM。還可看出,在種數(shù)較少情況下,SVM和KNN分類器性能表現(xiàn)較好;在種數(shù)較多情況下,KNN 分類器性能仍然較為突出,RF 分類器識(shí)別率略高于MFCC+GMM組合模型。圖9 中還顯示LBP+SVM 組合模型較MFCC+GMM 模型以及其他5 種VPS-BR 算法中的模型,表現(xiàn)出較明顯的性能劣勢。這是因?yàn)镾VM分類器難以適應(yīng)大于2 的多分類,而且其LBP 直方圖操作因二值化隱去了特征細(xì)節(jié),因此這兩方面因素疊加,導(dǎo)致LBP+SVM組合模型識(shí)別率最低。
為便于對比,設(shè)定鳥的種數(shù)為15,將聲能譜圖大小統(tǒng)一調(diào)整為180×180像素,然后依次用N×N分別為1×1、3×3、5×5、7×7、9×9 的像素塊大小進(jìn)行測試。MB-LBP 和MBCS-LBP 特征提取方法在不同分塊情形下的識(shí)別性能如圖10所示。
圖9 MFCC+GMM 模型與VPS-BR 算法各模型識(shí)別性能對比Fig.9 Comparison of recognition performance between MFCC+GMM model and VPS-BR algorithm
由圖10 可以看出,隨著分塊維度N增加,識(shí)別耗時(shí)均逐漸減少。相比于前文提到的HOG+KNN模型,識(shí)別耗時(shí)縮短了91.1%。對于相同分塊維度,采用MBCS-LBP 方法在識(shí)別時(shí)間上的開銷比MB-LBP 方法少,其原因在于提取聲能譜圖特征時(shí),MBCS-LBP 方法采用鄰域多像素灰度均值較MB-LBP 采用的單像素灰度方法大幅度降低了計(jì)算量。但分塊維度的持續(xù)增大并不能換取持續(xù)增加的識(shí)別率。隨著分塊維度N增大,這兩種方法所獲識(shí)別率均表現(xiàn)為先逐漸升高后逐漸降低的趨勢。而且均在分塊維度為5×5 時(shí),這兩種方法的識(shí)別率達(dá)到各自性能頂點(diǎn),其中MBCS-LBP 識(shí)別率最大值92%,比MB-LBP 方法高出2.32%。如分塊維度大于5×5,則因?yàn)樽V圖微觀特征信息出現(xiàn)相對較大的損失,識(shí)別率會(huì)發(fā)生大幅降低。因此,分塊維度對基于LBP 特征提取的識(shí)別影響較大;若兼顧聲能譜圖微觀和宏觀特性,適當(dāng)?shù)貙ζ溥M(jìn)行分塊,不僅可提高識(shí)別效率,還可以提高識(shí)別質(zhì)量。
圖10 LBP 特征分塊維度對識(shí)別率及識(shí)別時(shí)間的影響Fig.10 The influence of LBP feature block dimension on recognition rate and recognition time
針對自然復(fù)雜聲學(xué)環(huán)境下鳥鳴聲數(shù)據(jù)采集難度大、背景噪聲高、質(zhì)量難以保障等問題,本文應(yīng)用GAN 對原有的鳥鳴聲數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)以解決鳴聲數(shù)據(jù)不平衡的問題。
參考文獻(xiàn)[24—26]使用深度卷積生成對抗網(wǎng)絡(luò)(Deep convolutional generated-adversarialnetwork,DCGAN)在禽鳥鳴聲特征譜圖數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn),本文在判別器上和生成器上分別使用步幅卷積和微步幅卷積代替池化,這種卷積結(jié)構(gòu)能夠?qū)⒋蟛糠中畔鬟f給下一層,以保證生成圖譜的準(zhǔn)確程度;其次引入批規(guī)范化操作,解決了梯度消失的問題;最后移除了全連接層并使用不同的激活函數(shù),具體超參數(shù)包括Adam 優(yōu)化、生成器使用ReLU激活函數(shù)、判別器使用leakyReLU 激活函數(shù)、學(xué)習(xí)率設(shè)為0.0002、每個(gè)批次32 個(gè)樣本。實(shí)驗(yàn)證明圖譜生成效果較好,譜圖生成前后對比圖如圖11和圖12所示。
圖11 單物種-麻雀鳴聲原始譜圖Fig.11 Original spectrum of single sparrow song
圖12 單物種-麻雀鳴聲生成譜圖Fig.12 Generated spectrum of single sparrow song
圖11 和圖12 展示了部分以麻雀鳴聲為樣本的GAN 網(wǎng)絡(luò)生成案例。因?yàn)樽V圖顏色表示能量高低,可以看出雖然背景噪聲各不相同,但是生成的語音與原始語音邊緣特征近似,表明GAN 生成網(wǎng)絡(luò)生成再進(jìn)行訓(xùn)練后生成的譜圖能夠反映原始鳴聲特征譜圖所描述的信息;而且譜圖形狀、結(jié)構(gòu)差異性較小,表明在GAN 網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)到的知識(shí)是可以被使用的,若將迭代次數(shù)增加,更進(jìn)一步得到更好的擬合譜圖。
在實(shí)驗(yàn)中將鳴聲數(shù)據(jù)分為三組:第一組為訓(xùn)練集,第二組為數(shù)據(jù)增強(qiáng)后的“訓(xùn)練集”,第三組為測試集,可以有效地防止過擬合造成的識(shí)別率虛高情況。依次選擇2種、3種、4種、5種鳥的鳴聲進(jìn)行特征提取與種數(shù)識(shí)別。為便于比較,各算法按照識(shí)別率從低到高的順序依次列于表2。
表2 識(shí)別率對比Table 2 Comparison table of recognition rate
觀察并分析表2 中的數(shù)據(jù),在5 種鳥類鳴聲數(shù)據(jù)參與識(shí)別的情況下,原始VPS-BR 算法下的6 種組合模型平均識(shí)別率為90.47%,而加入GAN 生成的圖片之后,VPS-BR 算法的識(shí)別率為91.95%,比之原來提升1.48%。其主要原因一是可用于訓(xùn)練和識(shí)別的樣本數(shù)增多,二是增多的數(shù)據(jù)能夠較好地?cái)M合出原有鳥類語音的信息,對訓(xùn)練和識(shí)別過程起到正向作用,表明GAN 網(wǎng)絡(luò)確實(shí)起到了數(shù)據(jù)增強(qiáng)的效果。
針對鳥鳴聲識(shí)別的容噪性能差、高復(fù)雜度及收斂困難問題,提出一種融合聲紋信息的能量譜圖鳥類識(shí)別方法(VPS-BR),通過描述鳥類鳴聲特征譜圖的聲紋特征并進(jìn)行分類識(shí)別。通過LBP 和HOG特征分別與SVM、KNN、RF 分類器算法兩兩組合進(jìn)行帶噪鳥鳴聲識(shí)別實(shí)驗(yàn),在15種鳥類參與分類的情況下,最高識(shí)別率可達(dá)92%,驗(yàn)證了VPS-BR 方法兼具良好的容噪性能與識(shí)別魯棒性,且易于收斂。同時(shí)表明VPS-BR 方法不僅對噪聲環(huán)境有較強(qiáng)的適應(yīng)性,而且具有較好的識(shí)別性能,這是利用圖像方法識(shí)別鳴聲的初步嘗試,而基于深度學(xué)習(xí)以及多種類的特征提取和模型驗(yàn)證是下一階段的努力方向。GAN網(wǎng)絡(luò)的增強(qiáng)處理能夠進(jìn)一步增強(qiáng)其識(shí)別性能,對VPS-BR 中所使用的模型進(jìn)行改進(jìn),實(shí)驗(yàn)效果還可以進(jìn)一步提高,后續(xù)工作將進(jìn)一步研究如何在整個(gè)模型網(wǎng)絡(luò)中引入鳥類相關(guān)先驗(yàn)知識(shí)。本文可為鳥類識(shí)別與保護(hù)、濕地生態(tài)環(huán)境監(jiān)測和動(dòng)物行為學(xué)研究等領(lǐng)域提供應(yīng)用方法上的理論參考,也為計(jì)算機(jī)語音與圖形搭建了聯(lián)系的橋梁。