周鵬,李成娟,趙沁,王艷,唐洪瑩,李寶清,袁曉兵
基于語譜圖與改進(jìn)DenseNet的野外車輛識別
周鵬1,2,3,李成娟1,3,趙沁1,3,王艷1,唐洪瑩1,李寶清1,袁曉兵1
(1. 中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所微系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 201800;2. 上??萍即髮W(xué)信息學(xué)院,上海 201210;3. 中國科學(xué)院大學(xué),北京 100049
針對在野外運(yùn)動(dòng)車輛分類過程中,傳統(tǒng)梅爾倒譜系數(shù)與高斯混合模型分類方法對干擾噪聲較為敏感的情況,提出了改進(jìn)的密集卷積網(wǎng)絡(luò)結(jié)構(gòu)(DenseNet)方法。首先是將聲音信號轉(zhuǎn)換為語譜圖,然后送入到改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行識別。其中,改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)是在全連接層加入了中心損失(center loss)函數(shù),使得同類特征聚合程度較高,這樣就能夠提取出聲音信號的深度特征,有利于分類。實(shí)驗(yàn)結(jié)果表明,在相同的樣本集下,改進(jìn)DenseNet方法的識別率得到了明顯的提升,達(dá)到97.70%。
野外運(yùn)動(dòng)車輛分類;深度特征;密集卷積網(wǎng)絡(luò);語譜圖;中心損失
在野外環(huán)境中,無人值守地面?zhèn)鞲衅飨到y(tǒng)是用來獲得入侵目標(biāo)軍事情報(bào)的有效手段[1]。常用的傳感器有:圖像傳感器、聲音傳感器、震動(dòng)傳感器和紅外傳感器[2]等。相對于其他傳感器來說,聲音傳感器比較小巧,容易布置,隱蔽性較好,更為安全[3]。
利用聲音傳感器對野外的運(yùn)動(dòng)車輛進(jìn)行識別,識別的步驟主要是先對聲音信號進(jìn)行特征提取,然后根據(jù)提取的特征進(jìn)行分類。常用的特征提取方法有:提取梅爾倒譜系數(shù)(Mel-Frequency Cepstum Coefficients, MFCC)[4],提取快速傅里葉變換頻譜信息(Fast Fourier Transform, FFT)[5],提取基于經(jīng)驗(yàn)?zāi)J椒纸?Empirical Mode Decomposition, EMD)的相關(guān)特征[6],提取關(guān)于信號的自回歸模型(Autoregressive Model)、離散小波變換(Discrete Wavelet Transform, DWT)、小波包變換(Wavelet Packet Transform, WPT)與信息熵(Sample Entropy)的混合特征[7]等。常見的分類方法主要有高斯混合模型方法(Gaussian Mixed Model, GMM)[8]、支持向量機(jī)(Support Vector Machine, SVM)[9]、稀疏表示分類(Sparse Representation Classification, SRC)[10]和樸素貝葉斯分類器(Naive Bayesian Classifier, NBC)[11]。
本文首先使用傳統(tǒng)分類方法中的MFCC特征提取方法對聲音信號進(jìn)行特征提取,然后使用GMM模型進(jìn)行分類。然而在識別的過程中發(fā)現(xiàn),MFCC特征提取方法對噪聲比較敏感[12],而噪聲中風(fēng)噪聲占絕大部分,所以在風(fēng)噪聲較大的情況下,提取的特征中會(huì)包含大量的風(fēng)噪聲信息,從而影響識別結(jié)果。為了提取出聲音信號中更深度層次的特征,本文借鑒圖像處理中目標(biāo)識別的方法。根據(jù)文獻(xiàn)[13]提出的密集卷積網(wǎng)絡(luò)(Dense Convolutional Network, DenseNet)結(jié)構(gòu)具有加強(qiáng)特征的傳遞,能夠有效地重復(fù)利用之前提取的特征等優(yōu)點(diǎn),本文在原有的DenseNet的基礎(chǔ)上加入了中心損失(center loss)函數(shù)的改進(jìn),使得同類特征之間較為緊湊,不同類之間的特征較為分散,從而達(dá)到更好的識別目的。本文首先將采集到的聲音信號轉(zhuǎn)換為語譜圖,然后利用改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取并生成深度層次的特征,最終得到識別結(jié)果。
本文中的聲音信號是由微孔徑均勻圓陣(Uniform Circular Array, UCA)來采集的,圓陣為四元十字形狀,半徑為4cm,該設(shè)備采集的信號具有如下特點(diǎn)[8]:
(1) 雖然傳聲器陣列緊密排列,但各陣元傳聲器接收的信號相位不同,依然有相位偏差。
(2) 野外環(huán)境中,各傳聲器陣元采集到的噪聲信號主要是風(fēng)噪聲和電路噪聲,無論是風(fēng)噪聲還是電路噪聲,在各陣元間都是不相關(guān)的。
車輛聲音信號主要是由發(fā)動(dòng)機(jī)、輪胎、排氣系統(tǒng)、傳動(dòng)系統(tǒng)以及機(jī)械碰撞等5種發(fā)聲部件產(chǎn)生,當(dāng)一輛狀態(tài)良好的車輛以恒定的速度運(yùn)動(dòng)時(shí),其信號的主要噪聲是由發(fā)動(dòng)機(jī)、推進(jìn)系統(tǒng)和排氣系統(tǒng)決定的。傳聲器陣列各個(gè)陣元采集得到的聲音信號模型可表示為
傳統(tǒng)分類方法中,對聲音信號進(jìn)行目標(biāo)識別的常見算法是使用MFCC特征,以GMM作為分類器。具體的識別流程如圖1所示。其中,在該處的特征提取算法框圖如圖2所示,其中FFT表示快速傅里葉變換,DCT表示離散余弦變換。
文獻(xiàn)[8]中已經(jīng)描述了具體的MFCC特征提取流程和GMM分類算法的設(shè)計(jì),本文不再贅述。
圖1 目標(biāo)識別流程圖
圖2 MFCC流程圖
為了提取出聲音信號的深度特征,本文借鑒了目前圖像處理中目標(biāo)識別的方法,將聲音信號轉(zhuǎn)換為語譜圖,這樣就可以運(yùn)用文獻(xiàn)[13]中提出的DenseNet方法進(jìn)行圖像層次的目標(biāo)識別。由于DenseNet網(wǎng)絡(luò)結(jié)構(gòu)在網(wǎng)絡(luò)層加強(qiáng)了對特征的傳遞,能夠更為有效地重復(fù)利用之前的特征,從而得到聲音信號的深度特征,所以本文將對DenseNet改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)用于本文的野外運(yùn)動(dòng)車輛識別。改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)整體識別過程如下:首先將聲音信號轉(zhuǎn)換為語譜圖,然后使用對DenseNet改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行識別,得到識別結(jié)果。本文對該網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)點(diǎn)是在其全連接層加入了center loss函數(shù)。這樣做可以使同類特征之間的間距變小,不同類之間的間距變大[14]。
2.2.1 語譜圖
與上述MFCC特征提取過程類似,聲音信號在送到Mel濾波器組之前的處理過程中就已經(jīng)得到了語譜圖。語譜圖是語音能量時(shí)頻分布的二維平面圖,橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,具有連通時(shí)、頻兩域的特點(diǎn)。
本文中語譜圖的生成過程如圖3所示。其中值得注意的是,需要將流程圖中的功率譜矩陣進(jìn)行偽彩色映射函數(shù)處理。
圖3 語譜圖的生成過程
2.2.2 改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)形式
2.2.3 改進(jìn)的DenseNet識別算法
池化層(Pooling layers):在進(jìn)行式(2)的級聯(lián)(concatenation)操作中,需要保持特征圖的尺寸大小相同,池化操作的目的就是使得特征圖的尺寸保持一致。為了改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)中池化操作更為方便,將改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)分成了如圖5所示的多個(gè)密集連接塊(dense blocks)。各個(gè)密集連接塊之間的是過渡層(transition layers),主要包含卷積和池化操作,處理過程如圖5所示。
圖4 5層密集連接塊結(jié)構(gòu)示意圖
瓶頸層(bottleneck layers):雖然每一層只輸出個(gè)特征圖,但是它依然有許多輸入。為了減少輸入的特征圖數(shù)量,提高計(jì)算效率,每個(gè)密集連接塊的3×3卷積操作前都包含了一個(gè)1×1的卷積操作。
在將語譜圖送到第一個(gè)密集連接塊之前,對該語譜圖進(jìn)行卷積,卷積層每個(gè)卷積核尺寸為3×3。為了使得特征圖尺寸保持一致,需要在輸入的每層特征圖中加入全0填充(padding)。在兩個(gè)密集連接塊之間,使用1×1的卷積層和2×2的平均池化層作為過渡層。在最后一個(gè)密集連接塊之后,本文使用交叉熵?fù)p失函數(shù)(softmax loss)和中心損失(center loss)函數(shù)。具體的改進(jìn)DenseNet網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
softmax loss函數(shù)如式(3)所示:
圖5 帶有4個(gè)密集連接塊的改進(jìn)DenseNet網(wǎng)絡(luò)結(jié)構(gòu)
圖6 改進(jìn)的DenseNet結(jié)構(gòu)圖
center loss函數(shù)如式(4)所示:
式(6)中:
本文為了得到區(qū)別性比較明顯的特征,采用softmax loss與center loss函數(shù)去訓(xùn)練DenseNet網(wǎng)絡(luò),表達(dá)式為
在實(shí)驗(yàn)中,本文使用傳統(tǒng)分類方法進(jìn)行算法對比。為了突出傳聲器陣列信號的空時(shí)特性,特地選取了第一通道信號作對比實(shí)驗(yàn)。其中MFCC+GMM分類方法是在Windows 10環(huán)境下,使用的是MATLAB R2017a軟件平臺(tái),硬件配置參數(shù)如下:Intel i7 CPU,主頻率為2.80 GHz,8G內(nèi)存;改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)方法是在Windows 10環(huán)境下,使用的是Pytorch軟件平臺(tái),硬件配置參數(shù)如下:Titanx GPU,32G內(nèi)存,12 G顯存。
本次實(shí)驗(yàn)的數(shù)據(jù)集使用的是在外場采集的信號,數(shù)據(jù)庫為Vehicle_SIMIT。實(shí)驗(yàn)場景示意圖如圖7所示,道路全長約1 000 m,聲音采集設(shè)備位于道路中心點(diǎn),距離路面中心約15 m,每次運(yùn)動(dòng)車輛從圖7的起點(diǎn)處駛向終點(diǎn)處,該過程稱作一次運(yùn)行。聲音采集設(shè)備是由4個(gè)ICS40720傳聲器組成的均勻圓陣,采樣率為8 192 Hz,圓陣直徑為8 cm,采集設(shè)備如圖8所示。本實(shí)驗(yàn)一共采集了草地、砂石路、水泥路以及硬土路4種車輛目標(biāo)的聲音信號。車輛的運(yùn)行速度分別為10 km·h-1、20 km·h-1、30~60 km·h-1不等。針對小型車,速度在30~60 km·h-1范圍內(nèi);對于重型車,車速為10、20 km·h-1。本文所做的實(shí)驗(yàn)均是基于傳聲器陣列距離路面中心15 m的場景,不適用于其他應(yīng)用場景。4種類型的車輛分別是三種輪式車和一種履帶車,記作Smallwheel(SW)、Truckwheel(TW)、Largewheel(LW)、Tracked vehicle(TV)。
圖7 實(shí)驗(yàn)場景圖
圖8 聲音采集設(shè)備實(shí)物圖
本文的實(shí)驗(yàn)進(jìn)行了4種野外車輛的識別準(zhǔn)確率研究。每條樣本信號按照12.5 ms時(shí)長進(jìn)行分幀,按照幀數(shù)計(jì)算,樣本集中訓(xùn)練集占66%,測試集為34%。各個(gè)車型幀數(shù)如表1和表2所示。
同時(shí)對該樣本集進(jìn)行了語譜圖的轉(zhuǎn)換操作,此時(shí)語譜圖的訓(xùn)練集占比為66%,測試集占比為34%,各個(gè)車型的語譜圖張數(shù)如表3和表4所示。
表1 訓(xùn)練集中各車型的樣本數(shù)
表2 測試集中各車型的樣本數(shù)
表3 語譜圖訓(xùn)練集中各車型的樣本數(shù)
表4 語譜圖測試集中各車型的樣本數(shù)
3.2.1 參數(shù)設(shè)計(jì)
3.2.2 實(shí)驗(yàn)分析
在進(jìn)行特征提取之前,本文分別對傳聲器陣列信號進(jìn)行了不同的波束形成處理,然后使用GMM分類器進(jìn)行分類實(shí)驗(yàn)驗(yàn)證。
為了突出傳聲器陣列信號的空時(shí)特性,本文選取了單通道信號進(jìn)行對比。第一種方法是直接選取傳聲器陣列的第一通道聲信號(記作Sig1)進(jìn)行MFCC特征提取,其他的方法是使用一些常見的波束形成方法對四通道傳聲器陣列信號進(jìn)行處理,例如對四通道信號進(jìn)行疊加加權(quán)波束形成(Overlay Weighting BeamForming, OWBF)、最佳加權(quán)矢量波束形成,又稱最小方差無畸變響應(yīng)波束形成(Minimum Variance Distortionless Response, MVDR)[15]、常規(guī)波束形成(Conventional Beamforming, CBF)[15]、延遲求和波束形成(Delay and Sum, DS)[16]來進(jìn)行信號增強(qiáng),然后執(zhí)行后續(xù)的步驟。這些方法的訓(xùn)練誤差如圖9所示。
圖9 不同波束形成方式的特征提取訓(xùn)練誤差
由圖9中可知,隨著迭代次數(shù)的增加,不同波束形成方式的特征提取訓(xùn)練誤差逐漸趨于平緩。這說明隨著訓(xùn)練次數(shù)的增加,訓(xùn)練誤差趨于收斂。在眾多波束形成方式中,MFCC+OWBF的訓(xùn)練誤差初始值最小,為0.06左右,MFCC+MVDR的訓(xùn)練誤差初始值最大,為0.21左右。
在分類過程中,每一條樣本的識別錯(cuò)誤率如圖10所示,由圖中可以看出,由于第8條信號包含一些干擾噪聲,所以傳統(tǒng)方法MFCC+GMM對該條聲音樣本識別誤差較大。第8條的原始信號以及其分類結(jié)果如圖11所示。圖11(a)表示SW車第一通道的原始信號圖,從圖中可以看出其包含很多干擾噪聲。圖11(b)表示的是其分類結(jié)果,縱坐標(biāo)的1、2、3、4分別代表的是該條樣本中每一幀被預(yù)測為SW、TW、LW、TV結(jié)果的情況。
圖10 不同波束形成方式下的測試集識別錯(cuò)誤率
圖11 包含干擾噪聲較多的SW車原始信號圖和識別結(jié)果圖
由于MFCC+GMM對包含干擾噪聲的信號識別效果不佳,所以本文借鑒圖像目標(biāo)識別的方法,將聲音信號轉(zhuǎn)換為語譜圖圖像信號,并且使用能夠提取出聲音信號深度層次特征的改進(jìn)DenseNet來進(jìn)行野外車輛的分類識別。
本文使用圖3所示的方法得到的語譜圖結(jié)果如圖12所示。每一條樣本的完整語譜圖會(huì)被切割成10多張256×256的小尺寸語譜圖。語譜圖的橫軸是時(shí)間軸(時(shí)間/s),縱軸是頻率軸(頻率/Hz),這些語譜圖包含了原始信號的完整運(yùn)動(dòng)過程,反映了相對于傳聲器陣列,目標(biāo)車輛在由遠(yuǎn)及近和遠(yuǎn)離的運(yùn)動(dòng)過程中其聲音信號中所有頻率的變化。由于同一地理環(huán)境中空氣介質(zhì)的相對均勻性,傳聲器陣列在不同的布設(shè)位置,對于同一車型所采集的目標(biāo)聲信號頻譜成分基本不變,僅整體幅度有所不同。4種野外車輛的大語譜圖如圖13所示??梢钥闯?,4種車型的主要頻率成分都在4 000 Hz以內(nèi),但不同車型的語譜圖差距較大。
圖12 256×256小語譜圖示意圖
圖13 四種野外車輛的語譜圖
由圖9可知,MFCC+OWBF與MFCC+CBF的特征提取訓(xùn)練誤差與識別的測試誤差較小,因此,在將語譜圖輸入到改進(jìn)DenseNet網(wǎng)絡(luò)結(jié)構(gòu)之前,本文對傳聲器陣列信號也同樣選取了第一通道信號、OWBF、CBF,同時(shí)使用原有DenseNet網(wǎng)絡(luò)結(jié)構(gòu)加上CBF波束形成方法做對比,本文將這些操作記作DenseNet+CBF,改進(jìn)DenseNet+ Sig1,改進(jìn)DenseNet+OWBF,改進(jìn)DenseNet+ CBF。識別曲線如圖14所示。
圖14 改進(jìn)DenseNet結(jié)構(gòu)下的野外車輛識別率
由圖14可知,改進(jìn)DenseNet+CBF的初始值要比改進(jìn)DenseNet+Sig1和改進(jìn)DenseNet+OWBF高,說明使用CBF進(jìn)行傳聲器陣列信號的預(yù)處理波束形成效果要比單通道信號與OWBF好,同時(shí)改進(jìn)DenseNet+CBF方法的識別率比DenseNet+CBF的識別率高2%,為97.70%,說明加入了center loss函數(shù)之后的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)提取出了聲音信號語譜圖的深度特征,有利于分類。結(jié)合傳統(tǒng)方法分類實(shí)驗(yàn),本文所用方法得到的識別率如表5所示。
由表5可知,無論是傳統(tǒng)MFCC+GMM分類方法還是神經(jīng)網(wǎng)絡(luò)方法,使用波束形成對傳聲器陣列信號進(jìn)行操作之后,其識別率明顯要高于Sig1方式。這說明對傳聲器陣列信號進(jìn)行波束形成能夠?qū)崿F(xiàn)信號增強(qiáng),有效地利用了傳聲器陣列信號的空時(shí)特性;對于同一數(shù)據(jù)集,使用的DenseNet方法與改進(jìn)DenseNet方法均明顯優(yōu)于傳統(tǒng)方法,DenseNet方法的識別率為95.133%,改進(jìn)DenseNet方法的識別率平均為97%左右,傳統(tǒng)方法為90%左右。這說明相對于傳統(tǒng)方法,DenseNet方法能夠更好地提取出包含干擾噪聲的聲音信號特征,減少干擾噪聲對識別結(jié)果的影響;同時(shí),相對于原有的DenseNet網(wǎng)絡(luò)結(jié)構(gòu),加入center loss的DenseNet識別準(zhǔn)確率也有所提高,平均提高了2%。這說明加入center loss使得同類特征之間較為緊湊,得到了較好的識別結(jié)果。其中在改進(jìn)的DenseNet方法中,改進(jìn)DenseNet+CBF方法的識別率最高,為97.70%。不同方法的運(yùn)行時(shí)間如表6所示。
表5 傳統(tǒng)分類方法與改進(jìn)DenseNet方法下的野外車輛識別率
表6 各實(shí)驗(yàn)運(yùn)行時(shí)間
針對MFCC+GMM方法易受干擾噪聲的影響,進(jìn)而影響目標(biāo)識別的特征提取過程,最終導(dǎo)致野外運(yùn)動(dòng)目標(biāo)識別率變差的問題,本文嘗試引入圖像目標(biāo)識別的方法,并在原有的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行了改進(jìn)。改進(jìn)點(diǎn)主要是在該網(wǎng)絡(luò)結(jié)構(gòu)的softmax處加入了center loss,以使得同類之間的特征較為緊湊,不同類之間的特征差別變大。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的DenseNet網(wǎng)絡(luò)結(jié)構(gòu)的識別率相較于傳統(tǒng)方法平均提高了7%左右,效果較好的改進(jìn)DenseNet+ CBF方法識別率為97.70%。因?qū)嶋H項(xiàng)目需要,今后計(jì)劃對該網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,從而可以移植到本課題的外場試驗(yàn)中,達(dá)到提高野外監(jiān)控傳感網(wǎng)中運(yùn)動(dòng)車輛的識別準(zhǔn)確率的目的。
[1] HUANG J C, ZHOU Q W, ZHANG X, et al. Seismic target classification using a wavelet packet manifold in unattended ground sensors systems[J]. Sensors, 2013, 13(7): 8534-8550.
[2] WILLIAM P E, HOFFMAN M W. Classification of military ground vehicles using time domain harmonics' amplitudes[J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3720-3731.
[3] SUNU J, PERCUS A G. Dimensionality reduction for acoustic vehicle classification with spectral embedding[C]//2018 IEEE 15th International Conference on Networking, Sensing and Control (ICNSC), 2018: 1-5.
[4] ZHOU Q W, TONG G J, XIE D F, et al. A seismic-based feature extraction algorithm for robust ground target classification[J]. IEEE Signal Processing Letters, 2012, 19(10): 639-642.
[5] NTALAMPIRAS S. Moving vehicle classification using wireless acoustic sensor networks[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(2): 129-138.
[6] 趙天青, 梁旭斌, 許學(xué)忠, 等. EMD在目標(biāo)聲信號特征提取中的應(yīng)用研究[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015(S1): 102-106.
ZHAO Tianqing, LIANG Xubin, XU Xuezhong, et al. A feature extraction algorithm of acoustic target based on empirical mode decomposition[J]. Journal of Nanjing University(Natural Sciences), 2015(S1): 102-106.
[7] REN W J, HAN M, WANG J, et al. Efficient feature extraction framework for EEG signals classification[C]//Seventh International Conference on Intelligent Control and Information Processing. IEEE, 2017: 167-172.
[8] HUANG J C, ZHANG X, GUO F, et al. Design of an acoustic target classification system based on small-aperture microphone array[J]. IEEE Transactions on Instrumentation & Measurement, 2015, 64(7): 2035-2043.
[9] Kü?üKBAY S E, SERT M, YAZICI A. Use of acoustic and vibration sensor data to detect objects in surveillance wireless sensor networks[C]//International Conference on Control Systems and Computer Science, IEEE, 2017: 207-212.
[10] WANG K Y, WANG R, FENG Y T, et al. Vehicle recognition in acoustic sensor networks via sparse representation[C]//IEEE International Conference on Multimedia and Expo Workshops, IEEE, 2014: 1-4.
[11] ASTAPOV S, RIID A, PREDEN J S. Military vehicle acoustic pattern identification by distributed Ground Sensors[C]//Electronics Conference, IEEE, 2016: 167-170.
[12] ZHAO Q, GUO F, ZU X S, et al. An acoustic signal enhancement method based on independent vector analysis for moving target classification in the wild[J]. Sensors, 2017, 17(10): 2224.
[13] HUANG G, LIU Z, MAATEN L V D, et al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017: 2261- 2269.
[14] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[J]. 2016, 47(9): 499-515.
[15] 張小飛, 陳華偉, 仇小鋒. 陣列信號處理及MATLAB實(shí)現(xiàn)[M]. 北京: 電子工業(yè)出版社, 2015.
[16] GUO F, HUANG J C, ZHANG X, et al. A classification method for moving targets in the wild based on microphone array and linear sparse auto-encoder[J]. Neurocomputing, 2017, 241: 28-37.
Field vehicle identification based on spectrogram and improved DenseNet
ZHOU Peng1,2,3, LI Chengjuan1,3, ZHAO Qin1,3, WANG Yan1, TANG Hongying1, LI Baoqing1, YUAN Xiaobing1
(1. Science and Technology on Microsystem Laboratory, Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences, Shanghai 201800, China; 2. School of Information Science and Technology, ShanghaiTech University, Shanghai 201210, China; 3. University of Chinese Academy of Sciences, Beijing 100049, China)
The traditional classification method based on Mel cepstrum coefficient and Gaussian mixture model is sensitive to interference noise in the classification process of field vehicles. To address the issue, an improved method based on dense convolution network structure (DenseNet) is proposed in this paper. First, the acoustic signal is converted to the spectrogram and then inputs to the improved DenseNet network structure for identification. The improved DenseNet network structure adds the function ‘center loss’ at the full connection layer to make the similar features more highly aggregated, so that the depth features of the acoustic signal can be extracted, which is beneficial to classification. The experimental results show that under the same sample set, the recognition rate of the improved DenseNet method can reach 97.70%, which outperforms the existing method.
field vehicle identification; deep features; Dense convolution network structure; spectrogram; center loss
O422.8
A
1000-3630(2020)-02-0235-08
10.16300/j.cnki.1000-3630.2020.02.019
2018-12-10;
2019-02-05
微系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室基金項(xiàng)目(614280401020617)
周鵬(1994-), 男, 安徽宿州人, 碩士研究生, 研究方向?yàn)槁曇粜盘柼幚?、車輛聲音信號的分類、模式識別。
袁曉兵,E-mail: sinowsn@mail.sim.ac.cn