王念濱, 何 鳴,2, 王紅濱, 郎澤宇
(1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 黑龍江 哈爾濱 150001;2. 黑龍江科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院, 黑龍江 哈爾濱 150022)
水下目標(biāo)自動(dòng)識(shí)別是目標(biāo)識(shí)別技術(shù)研究的一個(gè)重要領(lǐng)域,也是水聲信號(hào)處理領(lǐng)域的突出難題。為此,國內(nèi)外的學(xué)者們從多方面進(jìn)行了研究,并且提出了多種解決方法。目前,水下目標(biāo)特征提取存在的問題,單一特征表示的片面性,因此,如何把時(shí)域信號(hào)和頻域信號(hào)有效的融合,實(shí)現(xiàn)基于信號(hào)融合的特征提取方法成為本文需要解決的關(guān)鍵問題。針對(duì)這樣的問題,本文利用低頻分析與記錄(low frequency analysis and recording, LoFAR)譜圖實(shí)現(xiàn)了兩種信號(hào)的有效融合,LoFAR譜圖保留了信號(hào)在時(shí)間和頻率兩個(gè)維度的信息。目前的特征提取工作需要大量的人工參與,這些操作都過于依賴人的主觀意識(shí)和經(jīng)驗(yàn)積累[1-4]。選取的特征不同對(duì)分類效果的影響也很大,同時(shí)對(duì)數(shù)據(jù)預(yù)處理也影響到特征提取的好壞。本文的研究就是針對(duì)當(dāng)前研究的不足,對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)的水下目標(biāo)特征提取方法進(jìn)行了研究。在本文的研究中,主要采用了具有端到端處理能力的深層神經(jīng)網(wǎng)絡(luò),利用其自學(xué)習(xí)的特點(diǎn)隱式地提取目標(biāo)特征并尋找到分類邊界,最終提高了特征提取的質(zhì)量。
CNN通過對(duì)輸入數(shù)據(jù)的逐層線性和非線性映射處理,這種網(wǎng)絡(luò)結(jié)構(gòu)能夠有效且更加抽象的描述出具有復(fù)雜分布的圖像信息,從而提取出深層次的圖像特征。
利用上述理論,本文把CNN在處理圖像方面的獨(dú)特能力,應(yīng)用在對(duì)LoFAR圖的處理上,進(jìn)而對(duì)目標(biāo)信號(hào)進(jìn)行深層特征分析,最后利用提取到的深層特征進(jìn)行水下目標(biāo)的分類。
CNN 在對(duì)LoFAR圖進(jìn)行分析時(shí),其卷積濾波器在沿著頻率軸方向掃描時(shí)是對(duì)局部時(shí)間上不同頻率信號(hào)進(jìn)行分析的,這樣會(huì)保留LoFAR譜圖的短時(shí)平穩(wěn)態(tài)信息,而濾波器在沿著時(shí)間軸方向掃描整個(gè)LoFAR譜圖時(shí)又保留了信號(hào)的時(shí)序特性,進(jìn)而實(shí)現(xiàn)了對(duì)信號(hào)從時(shí)域和頻域兩方面綜合。卷積神經(jīng)網(wǎng)絡(luò)中每一層都是由多個(gè)二維特征圖羅列而成,每個(gè)特征圖中一個(gè)像素代表一個(gè)神經(jīng)元節(jié)點(diǎn)[5-6]。網(wǎng)絡(luò)中把神經(jīng)元節(jié)點(diǎn)分為卷積神經(jīng)元和池化神經(jīng)元。池化神經(jīng)元組成二維池化特征圖,其激活值對(duì)應(yīng)特征圖像素值,而池化特征圖的組合又形成了池化層[7]。卷積神經(jīng)元、卷積特征圖和卷積層之間存在類似的關(guān)系。CNN以卷積層和池化層交替棧式結(jié)構(gòu)連接而成,網(wǎng)絡(luò)將二維圖像數(shù)據(jù)作為輸入。區(qū)別于傳統(tǒng)模式識(shí)別手段,樣本的數(shù)據(jù)處理、特征提取以及分類流程都隱式的嵌入到這種深度互聯(lián)結(jié)構(gòu)的卷積網(wǎng)絡(luò)中。一般情況下,卷積層又被稱為特征提取層,前一層的某一局部感受野以適當(dāng)大小輸入到卷積層對(duì)應(yīng)的神經(jīng)元上,將這一過程稱為提取局部特征,也就是說局部特征之間的位置關(guān)系較上一層的輸入是未發(fā)生位置變化的;又將池化層稱為特征映射層或下采樣層,將每個(gè)特征圖映射為一個(gè)平面[8]。為了保持特征映射過程中特征的位移、旋轉(zhuǎn)不變性,卷積層的激活函數(shù)通常采用激活值不易發(fā)散的Sigmoid函數(shù)。另外,因?yàn)槊總€(gè)特征映射層上的神經(jīng)元采用權(quán)值共享的原則,從而極大的減少了網(wǎng)絡(luò)參數(shù)的數(shù)量,又避免了因過多的自由參數(shù)帶來的過擬合現(xiàn)象[9]。網(wǎng)絡(luò)中每一個(gè)特征提取層(卷積層)后伴隨著一個(gè)特征映射層(池化層),這種帶有池化結(jié)構(gòu)的網(wǎng)絡(luò),可以使得模型對(duì)原始數(shù)據(jù)具有很強(qiáng)的降噪和抗干擾能力。
池化層中某一區(qū)域內(nèi)的多個(gè)神經(jīng)元,只有激活值大的那個(gè)神經(jīng)元才能起到強(qiáng)化權(quán)值的作用,這也符合了“最大值檢出假說”[10]。這種神經(jīng)元在不斷強(qiáng)化自身的同時(shí)還控制了周圍神經(jīng)元的輸出結(jié)果,也就是特征映射圖中提取到的特征為每個(gè)局部區(qū)域的相同特征。
通過圖1可以看出,CNN結(jié)構(gòu)以原始圖像作為網(wǎng)絡(luò)輸入,圖1中使用了4層網(wǎng)絡(luò)結(jié)構(gòu),每層各個(gè)特征圖中的相鄰神經(jīng)元以卷積核大小為單位,逐層將局部信息向下層傳遞,而下層則對(duì)傳遞過來的信息進(jìn)行卷積運(yùn)算即特征提取,如邊緣特征或方向特征。網(wǎng)絡(luò)的訓(xùn)練過程則是不斷修改卷積核中參數(shù)的過程。而同一個(gè)卷積核是被特征圖所共享的,可以視卷積核為一個(gè)可滑動(dòng)的濾波器,掃描整個(gè)特征圖的過程記為對(duì)某一特征進(jìn)行提取的過程[11]。而作為二次特征提取的池化層更像是模糊濾波器??梢岳斫鉃閷⒈姸嚯s糅在輸入數(shù)據(jù)中的特征信息經(jīng)過網(wǎng)絡(luò)的過濾最終分散到了各個(gè)低分辨率特征圖上。
圖1 CNN結(jié)構(gòu)Fig.1 CNN structure
二維圖像中特征信息往往具有很強(qiáng)的隱蔽性,因?yàn)橛^測(cè)目標(biāo)位置的變化,觀察角度的不同等都會(huì)導(dǎo)致觀測(cè)目標(biāo)產(chǎn)生形變、位移甚至扭曲。然而,用顯式的方法將圖像中具有位移、縮放和扭曲不變性的特征提取出來的難度又是巨大的,即使存在也不具有廣泛的適用性。
針對(duì)這樣的問題,CNN的特征檢測(cè)機(jī)制則給出了很好的答案。CNN的每次卷積運(yùn)算都是針對(duì)局部特征進(jìn)行的提取,因而目標(biāo)的位置變化或縮放變化都不會(huì)對(duì)特征提取過程產(chǎn)生影響,并且CNN這種隱式的提取過程使得模型具有廣泛的適用性。大量訓(xùn)練數(shù)據(jù)中的不變性結(jié)構(gòu)信息在網(wǎng)絡(luò)的特征空間中逐層被提取出來,又因?yàn)槠浣Y(jié)構(gòu)的特點(diǎn)能與邏輯回歸分類器進(jìn)行無縫的融合,實(shí)現(xiàn)了端到端的圖像處理方法[12]。其可以直接將圖像輸入到網(wǎng)絡(luò),并獲得分類信息。避免了特征提取和分類之間的數(shù)據(jù)重構(gòu),而其中的特征提取過程隱藏在了網(wǎng)絡(luò)結(jié)構(gòu)當(dāng)中。
由于特征圖之間的權(quán)值是局部相連且權(quán)值共享的,基于這一特點(diǎn)可以將一個(gè)網(wǎng)絡(luò)置于多個(gè)機(jī)器中同時(shí)進(jìn)行訓(xùn)練實(shí)現(xiàn)并行的效果。其在計(jì)算和訓(xùn)練速度上明顯優(yōu)于其他全連接神經(jīng)網(wǎng)絡(luò)。
CNN模型的設(shè)計(jì)靈感來自于仿生學(xué),其結(jié)構(gòu)特點(diǎn)更接近生物神經(jīng)網(wǎng),所以在處理一些自然界的原始信號(hào),如圖像信息或聲音信息時(shí)具有獨(dú)特的優(yōu)越性[13]。
可以概括出,CNN較其他網(wǎng)絡(luò)模型在特征提取方面有如下優(yōu)勢(shì):
(1) 檢測(cè)數(shù)據(jù)可以直接作為網(wǎng)絡(luò)的輸入數(shù)據(jù),無需任何預(yù)處理過程;
(2) 端到端的數(shù)據(jù)處理過程,簡(jiǎn)化了數(shù)據(jù)重建的復(fù)雜度;
(3) 權(quán)值共享的策略,在減輕了訓(xùn)練負(fù)擔(dān)的同時(shí),為訓(xùn)練提供并行化的可能。
由于原始輸入通過深層網(wǎng)絡(luò)得到的深層特征數(shù)據(jù)都是以特征圖的方式呈現(xiàn)出來,而三維特征最終又都會(huì)通過一維向量化即全連接的方式輸入到全連接層進(jìn)行分類處理,其中,全連接層和卷積層的主要區(qū)別是卷積層嵌入了有大量的空間信息,而全連接層則沒有[14]。卷積層的空間結(jié)構(gòu)可以用一個(gè)三維張量來表示,其表示形式為H×W×D,其中,H與W表示卷積層中的一個(gè)卷積特征圖的縱向神經(jīng)元數(shù)目和橫向神經(jīng)元數(shù)目,D則表示層中特征圖的數(shù)目。這種三維張量可以理解為卷積層將二維輸入數(shù)據(jù)分解成了多個(gè)H×W的局部區(qū)域,而D維個(gè)這樣的局部區(qū)域組成的集合一同描述著一種視覺模式。全連接層將卷積層得到的出作為輸入,但是會(huì)將三維的特征圖進(jìn)行向量化,得到的一維特征向量代表分類器的特征向量。在這一過程中,空間信息會(huì)丟失并且空間特征不能在SoftMax層得到恢復(fù),進(jìn)而影響到分類準(zhǔn)確度,并且在網(wǎng)絡(luò)不斷反饋調(diào)節(jié)時(shí)間接影響特征提取的質(zhì)量。
針對(duì)上面提出的問題,本節(jié)提出一個(gè)簡(jiǎn)單直接的方法,來彌補(bǔ)上面所提到的因全連接層的一維向量化所帶來的空間信息丟失。在最后一個(gè)特征圖層向量化之前,本小節(jié)將會(huì)強(qiáng)化特征圖層的空間信息,使得這種空間信息可以輸入到最后的全連接層中。強(qiáng)化的角度則會(huì)從通道(channel)和空間(spatial)兩個(gè)維度來增強(qiáng),最后聚合為一維向量輸入到全連接層。
強(qiáng)化特征圖層空間信息的方法首先假設(shè)不同的特征圖之間的重要程度是不一樣的,比如有的特征圖中包含的信息會(huì)比較單一,而有的會(huì)因?yàn)槟承┨卣餍畔⒌臄?shù)據(jù)表示是非線性的,所以經(jīng)過深層過濾后的特征圖里仍然包含許多信息。同樣,每個(gè)特征像素的重要程度也是有區(qū)分的?;谝陨舷敕?本節(jié)將給予不同特征圖和特征像素賦予權(quán)值,來強(qiáng)化空間結(jié)構(gòu)信息,進(jìn)而提取高質(zhì)量的數(shù)據(jù)特征。
針對(duì)多維加權(quán)算法的步驟和流程,在具體的賦權(quán)過程中,假設(shè)已經(jīng)得到在一次前向傳播過程中的最終特征圖層,對(duì)該特征圖層進(jìn)行多維加權(quán)流程如下:
步驟1局部池化
對(duì)最后一層卷積層的每個(gè)特征圖使用局部池化操作,池化窗口大小為w×h,窗口滑動(dòng)步長(zhǎng)為S。經(jīng)過池化后得到一個(gè)三維張量。
步驟2計(jì)算空間(spatial)權(quán)重因子
對(duì)池化后的特征圖上的每個(gè)特征像素都指派一個(gè)權(quán)重αij,對(duì)應(yīng)特征圖上的第(i,j)個(gè)像素。
步驟3計(jì)算通道權(quán)重因子
對(duì)于池化后的每個(gè)特征圖即通道k,都賦予一個(gè)權(quán)重βk。
步驟4加權(quán)計(jì)算
將步驟2和步驟3計(jì)算得到的空間權(quán)值和通道權(quán)值賦予到其對(duì)應(yīng)的位置上,最后得到一個(gè)帶權(quán)三維張量。
步驟5向量歸一化
針對(duì)以上數(shù)據(jù)進(jìn)行歸一化處理,得到聚合后的多維加權(quán)特征向量。
經(jīng)過以上5步處理好的向量稱為“多維加權(quán)特征向量”。在以上流程中,將最后一層卷積層進(jìn)行池化操作的目的是為了起到特征二次提取的作用。同時(shí),本池化操作方法還可以有效地降低待處理數(shù)據(jù)的規(guī)模。
(1)
如圖2所示的操作,卷積層的特征通過面向空間和面向通道兩個(gè)維度進(jìn)行了加權(quán)處理,從而強(qiáng)化了空間的結(jié)構(gòu)信息。面向空間的權(quán)重因子集合A={aij|i 圖2 特征加權(quán)過程Fig.2 Feature weighting procedure 最后再對(duì)χ′的每個(gè)特征圖進(jìn)行加和池化操作,將三維的帶權(quán)特征張量聚合成一個(gè)一維的特征向量F={f1,f2,…,fk},其中fk計(jì)算為 (2) 通過以上的處理,已經(jīng)將三維的帶權(quán)特征張量聚合成一個(gè)一維的特征向量。下一步需要針對(duì)得到的特征向量F做歸一化處理后再連入全連接層,進(jìn)行聚合的主要目的就是為了減少全連階層的輸入規(guī)模,進(jìn)而減少了需要訓(xùn)練的網(wǎng)絡(luò)連接權(quán)值,從而避免過擬合現(xiàn)象發(fā)生。最后再將特征向量做歸一處理,就是得到了最終的多維加權(quán)特征向量。 針對(duì)多維加權(quán)算法中的空間權(quán)重和通道權(quán)重,本文提出了兩種無參數(shù)化的空間權(quán)重因子和通道權(quán)重因子的計(jì)算方法,其中,無參數(shù)化指的是不會(huì)對(duì)卷積網(wǎng)絡(luò)帶來額外的參數(shù),而使其影響到網(wǎng)絡(luò)的訓(xùn)練效率和可能發(fā)生的過擬合現(xiàn)象。 根據(jù)神經(jīng)認(rèn)知機(jī)對(duì)可塑性突觸的形成的假設(shè):如果在神經(jīng)元y的近旁存在有比y更強(qiáng)的激活神經(jīng)元y′,則從x至y的突觸連接就不進(jìn)行強(qiáng)化[15]。也就是說,這種突觸連接的強(qiáng)化應(yīng)符合“最大值檢出假說”,即在某一小區(qū)域(稱之為鄰域)內(nèi)存在的一神經(jīng)元集合中,只有輸出最大的神經(jīng)元才發(fā)生輸入突觸的強(qiáng)化[16]。 從以上理論可以理解為,激活值越大的神經(jīng)元對(duì)其附近的連接權(quán)值影響越大,其重要程度也就越大。那么定義Ck為三維特征張量χ中的第k個(gè)特征圖,S∈RW×H為特征張量中所有特征圖的累加,表示為 (3) 通過式(3)得到了初步的空間權(quán)值矩陣,其含義為將不同特征圖的同一位置激活值xkij進(jìn)行疊加,從而反映出平面空間上某一位置累計(jì)激活值的強(qiáng)度,即強(qiáng)度越大該位置也就越重要,該位置對(duì)應(yīng)αij的值也就應(yīng)該越大,之后對(duì)S進(jìn)行歸一化操作,得到最終的權(quán)值矩陣A,此處的歸一化處理選取的是含有兩個(gè)超參的歸一化函數(shù),表示為 (4) 式中,Sij表示S中第(i,j)個(gè)像素值,可調(diào)參數(shù)a與b的選取,可以根據(jù)網(wǎng)絡(luò)訓(xùn)練情況而定。 對(duì)于面向通道上的權(quán)值向量的選取,本文提出了一種基于圖像熵的加權(quán)算法。因?yàn)槟承┨卣餍畔⒌臄?shù)據(jù)表示是非線性和線性不可分的,所以經(jīng)過深層過濾后的特征圖里仍然包含許多信息。因此,對(duì)于每個(gè)特征圖的重要程度可以用其中含有的信息量多少進(jìn)行分析。 衡量信息多少的信息熵是從整個(gè)信息來源的統(tǒng)計(jì)特性上進(jìn)行分析獲得的,是從平均意義上來反映信源的總體特性[17]。對(duì)于某特定的信源,其信息熵只有一個(gè)。不同統(tǒng)計(jì)特性的信息來源,其信息熵也會(huì)有相應(yīng)的變化。針對(duì)未知性較大的變量,其信息熵的個(gè)數(shù)也相對(duì)較多。 鑒于信息熵以上特性,本文引入圖像熵的思想來衡量特征圖中信息量的多少。雖然圖像熵指的是整個(gè)圖像中的平均信息量,但是一維的圖像熵只能反映出圖像中灰度分布的聚集情況,并不能表現(xiàn)出信息在空間的分布特征[18-19]。針對(duì)此問題,為了能與特征圖相適應(yīng)且同時(shí)反映出特征圖中信息的空間分布特征,本文采用了二維圖像熵的方法來解決該問題。在具體操作上,本文選擇特征圖的鄰域激活均值作為激活值分布的空間特征量,與特征圖內(nèi)某一像素的激活值組成特征二元組。 圖像熵中的灰度值是一個(gè)離散化的數(shù)值,而特征圖中激活值是通過連續(xù)的激活函數(shù)得到的。所以在計(jì)算特征圖的圖像熵之前,本文采用等寬離散化的方法對(duì)特征圖重新處理,實(shí)現(xiàn)連續(xù)數(shù)據(jù)的離散化,其中對(duì)每個(gè)像素點(diǎn)的激活值處理公式表示為 (5) 式中,x為某像素點(diǎn)的激活值;Xmax與Xmin為激活函數(shù)有效的下界和上界;m為離散后的區(qū)間長(zhǎng)度。定義(I,J)為離散化后的特征二元組,其中I(0 (6) 至此本文給出的特征圖熵值計(jì)算公式既反映出了特征圖中所含信息量的多少,又強(qiáng)調(diào)了特征圖中激活值與其鄰域的信息分布情況。最后再對(duì)所有特征圖的熵值進(jìn)行歸一化處理,即 (7) 本節(jié)以仿真實(shí)驗(yàn)的形式來分析卷積網(wǎng)絡(luò)在水下目標(biāo)特征提取工作上的有效性。將時(shí)域信號(hào)和頻域信號(hào)進(jìn)行融合的LoFAR譜作為卷積網(wǎng)絡(luò)的輸入數(shù)據(jù),將輸出的分類結(jié)果作為驗(yàn)證水下目標(biāo)特征提取好壞的依據(jù)。 目前對(duì)水下目標(biāo)的特征提取與識(shí)別工作都是利用輻射噪聲的時(shí)序信號(hào)結(jié)構(gòu)、功率譜特征或是時(shí)頻譜圖分析等手段展開的。所以在進(jìn)行實(shí)驗(yàn)之前,先模擬出水下目標(biāo)輻射噪聲信號(hào)。為了保證模擬出的目標(biāo)噪聲信號(hào)具有真實(shí)環(huán)境下的結(jié)構(gòu),那么就必須研究它的聲學(xué)線譜特性?,F(xiàn)假定目標(biāo)噪聲由線譜和連續(xù)譜組成且符合平穩(wěn)態(tài)隨機(jī)過程,其中線譜通常分布在1 kHz以下的低頻端。并將多組具有隨機(jī)相位的正弦波作為目標(biāo)信號(hào)的線譜分量,表示為 (8) 式中,K為線譜數(shù)量;Ak為第k條線譜的幅度;fk為線譜頻率;φk為隨機(jī)的相位。在模擬不同的信號(hào)時(shí),fk控制在1 kHz以內(nèi)。為了模擬真實(shí)環(huán)境下的噪聲情況,在仿真的時(shí)序信號(hào)中混入幅值不同的高斯白噪聲。 時(shí)頻分析可以從LoFAR分析角度進(jìn)行。雖然水下目標(biāo)噪聲信號(hào)具有非平穩(wěn)性,但是在局部時(shí)間內(nèi)還是具有平穩(wěn)特性的。因此LoFAR譜圖利用這一特點(diǎn),將輻射噪聲做短時(shí)傅里葉變換得到時(shí)變功率譜,并以時(shí)間順序展開,得到關(guān)于時(shí)間和頻率的二維圖像。其具體處理流程如下: (1) 定義S(n)為原始輻射噪聲信號(hào)的采樣序列,將其分成K個(gè)連續(xù)部分,每個(gè)部分再設(shè)置L個(gè)采樣點(diǎn)。其中K個(gè)連續(xù)部分之間允許有數(shù)據(jù)交叉重疊的部分,比如,交叉重疊度可以設(shè)置為50%,或者根據(jù)具體情況綜合確定。 (2) 定義Mj(n)為第j段信號(hào)的采樣樣本,并對(duì)其做歸一化和中心化處理,其目的是讓輻射噪聲信號(hào)的幅值在時(shí)間上分布均勻和達(dá)到去直流使樣本的均值為零。 歸一化處理 (9) 為了方便進(jìn)行傅里葉變換的計(jì)算,通常將L的取值設(shè)置為2的整數(shù)次冪。 中心化處理 (10) (11) 將以上獲得的各段數(shù)據(jù)的功率譜按時(shí)間順序依次展開,即得到完整的LoFAR圖。 雖然LoFAR譜圖是二維的圖像,橫軸表示時(shí)間,縱軸表示頻率,但反映的卻是三維的信息。可以用灰度值的大小來表示在該時(shí)間和該頻率下的能量大小。將LoFAR譜圖作為水下目標(biāo)特征提取的對(duì)象,是因?yàn)長(zhǎng)oFAR譜圖自身持有多維的信號(hào)信息,所攜帶的信息量豐富并且其二維的數(shù)據(jù)結(jié)構(gòu),正好滿足具有特征抽取能力的卷積網(wǎng)絡(luò)輸入要求。 依據(jù)第3.1節(jié)所示方法獲得實(shí)驗(yàn)樣本集合,如表1所示。每組選取1 300個(gè)樣本作為訓(xùn)練樣本,余下的作為測(cè)試樣本。訓(xùn)練樣本約占總樣本數(shù)的75%,而測(cè)試樣本約占總樣本數(shù)的25%。 表1 實(shí)驗(yàn)樣本情況 其中傳統(tǒng)CNN和特征加權(quán)CNN使用大致相同的網(wǎng)絡(luò)結(jié)構(gòu),不同的是,加權(quán)CNN在內(nèi)部增加一層加權(quán)層,最后一層為Softmax分類層。特征加權(quán)網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)如表2所示,其中網(wǎng)絡(luò)的輸入為224×224的LoFAR二維灰度圖,第一層為8通道卷積層該層卷,感受野大小為5×5,且滑動(dòng)步長(zhǎng)為2;第二層池化層的輸入大小是55×55,池化窗口為3×3,滑動(dòng)步長(zhǎng)為2。隨后卷積池化層交替連接,再經(jīng)過加權(quán)操作得到一維特征向量輸入到全連接層。 表2 特征加權(quán)CNN參數(shù) 網(wǎng)絡(luò)結(jié)構(gòu)差異和網(wǎng)絡(luò)參數(shù)的不同都有可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響,以特征加權(quán)CNN結(jié)構(gòu)為藍(lán)本,分析濾波器大小和濾波器數(shù)量的不同對(duì)實(shí)驗(yàn)結(jié)果造成的影響以及在使用不同激活函數(shù)情況下的分類效果。 感受野的大小反映了對(duì)特征圖處理的粒度,感受野越大,濾波器所提取的局部區(qū)域就越大,反映的特征就越粗化。極端情況下,感受野為整個(gè)特征圖,那么提取的特征就是全局特征了。 現(xiàn)對(duì)濾波器按照表3所示的設(shè)計(jì)方案進(jìn)行調(diào)整,再進(jìn)行結(jié)果分析。 表3 感受野調(diào)整方案 上述感受野調(diào)整方案中,以方案1為基準(zhǔn),方案2則是向著感受野窗口增大的方向進(jìn)行調(diào)整,也就是說粗化了特征提取的粒度;而方案3則是將感受野窗口減小,是向著更小的局部區(qū)域進(jìn)行特征提取。從實(shí)驗(yàn)結(jié)果上可以看出,如圖3所示局部感受野小的分類效果要優(yōu)于局部感受野大的分類效果。當(dāng)分析的窗口越小,則提取的特征越具體,越能反映出目標(biāo)特有的類別信息。反之,提取的特征越?jīng)]有表現(xiàn)力。 圖3 感受野窗口對(duì)比結(jié)果Fig.3 Contrast results of receptive field window 對(duì)于卷積網(wǎng)絡(luò)中的每一層來說,有多少個(gè)濾波器就對(duì)應(yīng)著多少個(gè)特征圖,每個(gè)特征圖又對(duì)應(yīng)著一個(gè)權(quán)值矩陣。每個(gè)濾波器又視為一個(gè)特征分析的分析角度,用所有濾波器的排列組合表征了上一層的數(shù)據(jù)特征信息。理論上越詳盡越完備的濾波器組,對(duì)數(shù)據(jù)特征的分析能力就越強(qiáng)。但是過完備的濾波器組則會(huì)帶來分析角度的冗余,并且會(huì)給網(wǎng)絡(luò)帶來更多的參數(shù),進(jìn)而影響到網(wǎng)絡(luò)的訓(xùn)練效率。如果濾波器設(shè)置過少又不能完全覆蓋輸入信息的所有特征,反而使得分析能力弱化。本實(shí)驗(yàn)環(huán)節(jié)從向增加濾波器組數(shù)量和減少濾波器組數(shù)量?jī)蓚€(gè)方向進(jìn)行對(duì)比實(shí)驗(yàn)。 具體濾波器組設(shè)計(jì)方案設(shè)計(jì)如表4所示。 表4 濾波器數(shù)量調(diào)整方案 實(shí)驗(yàn)結(jié)果如圖4所示,增加濾波器數(shù)量確實(shí)可以使得識(shí)別率有所提升,這與之前的理論分析結(jié)果相一致。即更完備的濾波器組對(duì)特征表現(xiàn)力更強(qiáng),相反相對(duì)單薄的濾波器組則對(duì)特征的表達(dá)能力不夠。 圖4 感受野數(shù)量對(duì)比結(jié)果Fig.4 Contrast results of receptive field quantity 網(wǎng)絡(luò)節(jié)點(diǎn)中的激活函數(shù)主要起到對(duì)數(shù)據(jù)進(jìn)行非線性變換的作用。這種非線性的操作可以讓數(shù)據(jù)在空間中進(jìn)行折疊、扭曲等形變,從而方便了尋找不同特征之間的劃分邊界。作為激活函數(shù)在具備非線性性質(zhì)的同時(shí),還應(yīng)該具有平滑性、單調(diào)性和連續(xù)性。 同一個(gè)神經(jīng)網(wǎng)絡(luò)中是可以允許使用多種不同類型的激活函數(shù)的?;诔S檬褂貌呗?本實(shí)驗(yàn)環(huán)節(jié)采用單一激活函數(shù)策略。而常用的激活函數(shù)有Sigmoid、tanh和修正線性單元(rectified linear unit, ReLU)函數(shù)。 對(duì)于不同的應(yīng)用背景,不同的激活函數(shù)帶來的效果上的差別可能會(huì)很大。 Sigmoid函數(shù)作為最常用且普適的激活函數(shù),將輸入數(shù)據(jù)映射到0到1之間,利用該激活函數(shù)的網(wǎng)絡(luò)可以使得網(wǎng)絡(luò)具有較好的稀疏性。 tanh函數(shù)為雙曲正切函數(shù),該函數(shù)將節(jié)點(diǎn)輸出值映射到了-1至1區(qū)間內(nèi)。和Sigmoid相比,其健壯性更強(qiáng),但是梯度消失的速度很快。對(duì)訓(xùn)練效率和網(wǎng)絡(luò)收斂速度影響很大。 ReLU函數(shù),其簡(jiǎn)單直接將小于0的激活值設(shè)置為0。這樣可以保證能夠抽象出更稀疏更離散的特征,這一特點(diǎn)與生物神經(jīng)元很相似。而單一的稀疏性會(huì)使得輸出數(shù)據(jù)的分布方差過大,即熵值過小。而離散性則表示的是神經(jīng)元節(jié)點(diǎn)對(duì)刺激是很敏感的,即熵值較大。ReLU正是從兩方面考慮,進(jìn)而帶來良好的性能。 幾種激活函數(shù)對(duì)比圖如圖5所示,根據(jù)分析比較,在對(duì)LoFAR譜做特征提取時(shí),Sigmoid激活函數(shù)的效果要優(yōu)于其他兩種。 圖5 激活函數(shù)對(duì)比圖Fig.5 Activation function contrast chart 本文主要在卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了分析的基礎(chǔ)之上,進(jìn)一步分析了卷積網(wǎng)絡(luò)在全連接操作時(shí),會(huì)丟失特征圖層的空間信息。為了彌補(bǔ)這一損失,本文提出了多維特征加權(quán)算法來強(qiáng)化待全連接的特征圖。其中從空間和通道兩個(gè)維度進(jìn)行加權(quán),而加權(quán)的策略則是根據(jù)最大檢出假說和二維圖像熵理論,即將空間中相同位置激活值的均值作為該空間位置的權(quán)重,將通道上每個(gè)特征圖的圖像熵值作為該通道的權(quán)重。并且該加權(quán)過程不會(huì)引入額外參數(shù)給網(wǎng)絡(luò)訓(xùn)練帶來負(fù)擔(dān)。 由于時(shí)間和條件所限,本課題的實(shí)驗(yàn)中使用到的仿真數(shù)據(jù),在后續(xù)的研究中應(yīng)對(duì)真實(shí)的水下信號(hào)進(jìn)行研究。 參考文獻(xiàn): [1] 楊西林,王炳和.水下運(yùn)動(dòng)目標(biāo)譜特征提取與增強(qiáng)技術(shù)綜述[J]. 水聲及物理聲學(xué), 2007, 26(4): 69-72. YANG X L, WANG B H. Review of techniques for underwater moving target spectrum feature extraction and enhancement[J].Underwater & Physical Acoustics, 2007,26(4):69-72. [2] 張海龍,冶鑫晨,趙青,等.天文數(shù)據(jù)索引技術(shù)綜述[J].中國科學(xué):物理學(xué)·力學(xué)·天文學(xué),2017,47(5): 059505. ZHANG H L, YE X C, ZHAO Q, et al. Astronomical data indexing technologies review[J]. Scientia Sinica(Physica,Mechanica & Astronomica) , 2017,47(5): 059505. [3] 宋振宇, 丁勇鵬, 趙秀麗, 等. 基于LOFAR譜圖的水下目標(biāo)識(shí)別方法[J]. 海軍航空工程學(xué)院學(xué)報(bào), 2011, 26(3): 283-286. SONG Z Y,DING Y P,ZHAO X L, et al. Target recognition method of LOFAR spectrum based on the underwater[J]. Journal of Naval Aeronautical Engineering Institute, 2011, 26(3): 283-286. [4] LIU J, HE Y, LIU Z, et al. Underwater target recognition based on line spectrum and support vector machine[C]∥Proc.of the International Conference on Mechatronics, Control and Electronic Engineering, 2014. [5] LECUN Y, BENGIO Y. Convolutional networks for images, speech, and time-series[C]∥Proc.of the Handbook of Brain Theory and Neural Networks, 1995: 255-258. [6] COHEN N, SHARIR O, SHASHUA A. On the expressive power of deep learning: a tensor analysis[C]∥Proc.of the Conference on Learning Theory, 2016. [7] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al.Dropout: a simple way to prevent neural networks from overfitting [J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958. [8] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]∥Proc.of the ACM International Conference on Multimedia, 2014:675-678. [9] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]∥Proc.of the International Conference on Neural Information Processing Systems, 2012:1097-1105. [10] HUANG Y M, XIA M Y, HUANG S. Evolutionary process unveiled by the maximum genetic diversity hypothesis[J].Hereditas,2013, 35(5): 599-606. [11] MASCI J, MEIER U, CIREAN D, et al. Stacked convolutional auto-encoders for hierarchical feature extraction[C]∥Proc.of the International Conference on Artificial Neural Networks, 2011:52-59. [12] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(12): 3371-3408. [13] CUI Z, CAO Z, YANG J, et al. A hierarchical propelled fusion strategy for SAR automatic target recognition[J]. Eurasip Journal on Wireless Communications & Networking,2013,2013(1):39. [14] ZHONG Z, LI J, CUI W, et al. Fully convolutional networks for building and road extraction: preliminary results[C]∥Proc.of the Geoscience and Remote Sensing Symposium, 2016:1591-1594. [15] OLSHAUSEN B A, FIELD D J. How close are we to understanding V1?[J].Neural Computation,2005,17(8):1665-1699. [16] 陳燕. 神經(jīng)元的突觸可塑性與學(xué)習(xí)和記憶[J]. 生物化學(xué)與生物物理進(jìn)展, 2008, 35(6): 610-619. CHEN Y. Synaptic plasticity and learning and memory[J].Progress in Biochemistry and Biophysics,2008,35(6):610-619. [17] 李金才, 馬自輝, 彭宇行, 等. 基于圖像熵的各向異性擴(kuò)散相干斑噪聲抑制[J]. 物理學(xué)報(bào), 2013, 62(9): 574-583. LI J C,MA Z H,PENG Y X,et al. Speckle reduction by image entropy anisotropic diffusion[J].Acta Physica Sinica,2013,62(9):574-583. [18] KIM S E, JEON J J, EOM I K. Image contrast enhancement using entropy scaling in wavelet domain[J]. Signal Processing, 2016, 127: 1-11. [19] WANG X, CHEN C. Ship detection for complex background SAR images based on a multiscale variance weighted image entropy method[J]. IEEE Geoscience & Remote Sensing Letters, 2017, 14(2): 184-191.2.2 特征權(quán)值的計(jì)算方法分析
3 CNN的水下目標(biāo)特征提取
3.1 仿真信號(hào)的獲取
3.2 LoFAR譜的獲取
3.3 數(shù)據(jù)集及網(wǎng)絡(luò)結(jié)構(gòu)
3.4 結(jié)果及分析
4 結(jié) 論