符書楠 許 楓 劉 佳 逄 巖
(1 中國科學(xué)院聲學(xué)研究所 北京 100190)
(2 中國科學(xué)院大學(xué) 北京 100049)
水下小目標(biāo)檢測是水聲領(lǐng)域的熱點(diǎn)之一,在水下搜救、石油勘探和可疑物探測等方面有著重要應(yīng)用[1-3]。電磁波等探測媒介在水下傳播衰減明顯,相比之下,聲波的衰減較小,聲吶成為最常用的水下探測設(shè)備。然而由于水下環(huán)境復(fù)雜多變,聲吶圖像存在低信噪比、干擾嚴(yán)重的問題,同時(shí)小目標(biāo)相對(duì)于海底背景較小、所含信息較為有限,難以提取出表達(dá)力強(qiáng)的特征,導(dǎo)致水下小目標(biāo)的檢測效率低、漏檢嚴(yán)重[4]。因此,如何更好地利用小目標(biāo)的特征信息,實(shí)現(xiàn)準(zhǔn)確、低虛警的水下小目標(biāo)檢測已成為當(dāng)前亟需解決的問題之一。
針對(duì)上述問題,相關(guān)學(xué)者提出了許多基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的水下小目標(biāo)檢測方法。王梁等[5]利用擬合的超橢圓曲線的尺寸、形狀和位置參數(shù)構(gòu)建分類特征對(duì)水下小目標(biāo)進(jìn)行分類,實(shí)驗(yàn)證實(shí)該方法可行有效,但對(duì)于極不規(guī)則的小目標(biāo)識(shí)別效果不佳。Abu等[6]利用目標(biāo)統(tǒng)計(jì)特征對(duì)分割后的區(qū)域進(jìn)行分類實(shí)現(xiàn)了一種無監(jiān)督水下小目標(biāo)探測方法,該方法實(shí)現(xiàn)了較高的檢測率和虛警率,然而實(shí)時(shí)性較差。Zhou 等[7]提出了一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)和Fisher 判別的水下遠(yuǎn)距離小目標(biāo)實(shí)時(shí)檢測方法,優(yōu)于常用的深度學(xué)習(xí)方法,步驟卻較為繁瑣復(fù)雜。諶雨章等[8]采用多速率空洞卷積方法檢測復(fù)雜水下環(huán)境中的小目標(biāo),提高了對(duì)水下小目標(biāo)的檢測能力,但該方法使用反卷積操作會(huì)產(chǎn)生偽影現(xiàn)象,影響目標(biāo)檢測性能。Chen等[9]基于樣本加權(quán)混合網(wǎng)絡(luò)提出了一種有效處理水下弱小目標(biāo)的深度集成檢測器,然而計(jì)算復(fù)雜度較高。
水下小目標(biāo)檢測任務(wù)通常分為區(qū)域提取和分類兩個(gè)階段,即先從存在較多干擾的聲圖中提取感興趣區(qū)域(Region of interest,ROI),確保潛在目標(biāo)被篩選出來,同時(shí)盡可能多地消除虛警,然后利用分類算法對(duì)潛在目標(biāo)區(qū)域進(jìn)行分類。區(qū)域提取階段常用方法有閾值分割法、區(qū)域生長算法、馬爾可夫隨機(jī)場(Markov random field,MRF)分割方法[10]等。其中,MRF分割算法因參數(shù)設(shè)置少、分割效果好,而被廣泛應(yīng)用于聲吶圖像的區(qū)域提取[11-13]。分類階段的關(guān)鍵是提取出具有代表性的特征,通常利用人為設(shè)計(jì)的多種特征提取算法進(jìn)行提取,操作難度較高。而深度特征是一種通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)自主提取,具有豐富特征表達(dá)的隱式特征,常用于水下目標(biāo)分類[14-16]。但CNN 的多層卷積和池化易導(dǎo)致部分底層特征信息丟失[17],較難取得理想的檢測效果。為進(jìn)一步增強(qiáng)CNN 對(duì)目標(biāo)特征的表征能力,可將目標(biāo)的基礎(chǔ)特征融入CNN,形成更有利于分類的網(wǎng)絡(luò),提高目標(biāo)檢測效率。
綜上所述,針對(duì)水下小目標(biāo)信息量有限而難以提取有效特征導(dǎo)致目標(biāo)檢測性能不佳的問題,本文提出了一種基于區(qū)域提取和融合Hu 矩特征的改進(jìn)CNN 水下小目標(biāo)檢測方法。該方法包括區(qū)域提取和分類兩個(gè)階段。首先,利用基于MRF分割算法的區(qū)域提取方法從聲圖中提取ROI,實(shí)現(xiàn)潛在目標(biāo)定位。然后為進(jìn)一步降低區(qū)域提取階段帶來的虛警,同時(shí)保持較高的檢測率,將ROI 輸入融合Hu 矩特征的改進(jìn)CNN 中完成水下小目標(biāo)檢測。第一階段的區(qū)域提取方法可以有效地從復(fù)雜水下環(huán)境中篩選出潛在目標(biāo),避免后續(xù)的分類被環(huán)境因素影響。分類階段的改進(jìn)CNN 融合了潛在目標(biāo)的深度特征和形狀特征,形成形狀特征表征能力更強(qiáng)的特征融合網(wǎng)絡(luò),有利于提升目標(biāo)檢測性能。最后以側(cè)掃聲吶實(shí)測數(shù)據(jù)為例進(jìn)行處理分析,實(shí)驗(yàn)結(jié)果表明,本文提出的方法可以有效提高對(duì)水下小目標(biāo)的發(fā)現(xiàn)概率和正確報(bào)警率,同時(shí)對(duì)不同側(cè)掃聲吶獲取的數(shù)據(jù)進(jìn)行驗(yàn)證,證明該方法具有一定的泛化性。
為定位潛在目標(biāo)區(qū)域并保留其完整性,本文對(duì)聲圖進(jìn)行分割處理。MRF 分割算法常用于對(duì)圖像特征(區(qū)域標(biāo)簽、邊緣等)的連續(xù)性進(jìn)行建模,能夠最大限度地保留目標(biāo)完整性[18],因此本文選擇基于MRF 分割算法對(duì)聲吶圖像進(jìn)行區(qū)域提取。MRF 分割算法本質(zhì)上是一種對(duì)聲圖的每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行標(biāo)記的統(tǒng)計(jì)方法,利用MRF 對(duì)數(shù)據(jù)點(diǎn)的空間域進(jìn)行建模,并將其作為先驗(yàn)知識(shí),在貝葉斯準(zhǔn)則下對(duì)聲圖的數(shù)據(jù)點(diǎn)進(jìn)行分類。
設(shè)一個(gè)M×N的聲圖是一個(gè)MRF,S={(i,j)|1 ≤i≤M,1 ≤j≤N}是該聲圖上定義的空間位置集合。設(shè)Y={ys,s ∈S}是觀測到的聲圖數(shù)據(jù),稱為觀測場;X={xs,s ∈S}是數(shù)據(jù)點(diǎn)的類別標(biāo)簽,稱為標(biāo)記場,即聲圖的分割結(jié)果。根據(jù)貝葉斯定理:
其中,P(Y|X)為待分割聲圖的概率模型,P(X)和P(X|Y)分別為標(biāo)記場的先驗(yàn)概率和后驗(yàn)概率,P(Y)為計(jì)算中未考慮的常數(shù)。因此,聲圖的分割問題可以轉(zhuǎn)化為最大后驗(yàn)問題,即當(dāng)后驗(yàn)概率P(X|Y)達(dá)到最大值時(shí),得到此時(shí)的標(biāo)記場:
其中,似然函數(shù)P(Y|X)可由混合高斯模型表示:
其中,n為聲圖數(shù)據(jù)點(diǎn)的標(biāo)簽類別數(shù),μs和Σxs分別是隸屬不同類別的觀測場數(shù)據(jù)的均值和協(xié)方差矩陣。
由Hammcrslcy-Clifford 定理,MRF 與Gibbs隨機(jī)場具有等價(jià)性,則MRF先驗(yàn)概率可表示如下:
其中耦合系數(shù)β一般取值[0,2],本文中該系數(shù)取為1。
算法具體流程圖如圖1所示。
圖1 MRF 算法流程圖Fig.1 The flowchart of MRF algorithm
受海水介質(zhì)、成像環(huán)境、混響等因素影響,聲吶圖像存在較多噪聲干擾,為準(zhǔn)確提取潛在目標(biāo)區(qū)域,在圖像分割之前需要進(jìn)行預(yù)處理操作。同時(shí),由于分割后的區(qū)域仍存在與目標(biāo)尺寸差距較大的干擾,需要對(duì)分割區(qū)域進(jìn)行篩選,從而精準(zhǔn)地獲取潛在目標(biāo)區(qū)域。本文提出的區(qū)域提取方法如圖2 所示,該方法主要由5個(gè)步驟組成,具體操作如表1所示。
表1 區(qū)域提取步驟Table 1 Region extraction steps
圖2 區(qū)域提取流程圖Fig.2 The flowchart of region extraction
水下小目標(biāo)的基礎(chǔ)特征是形狀特征、尺寸特征等,可作為主要特征用于目標(biāo)分類。Hu 矩特征[19]是一種有效描述目標(biāo)形狀的矩特征,具有平移、旋轉(zhuǎn)和尺度不變性,不受目標(biāo)位置和方向影響,常作為水下目標(biāo)特征,應(yīng)用于小目標(biāo)分類[20-21]。
設(shè)f(x,y)(x=1,···,M,y=1,···,N)為大小M×N圖像在(x,y)處的灰度值,則它的p+q階幾何矩mpq定義為
通過幾何矩mpq構(gòu)建的中心矩反映了圖像灰度相對(duì)于灰度重心的分布,p+q階中心矩μpq如式(8)所示:
其中,(x0,y0)是圖像的重心坐標(biāo),x0=m10/m00,y0=m01/m00。
該圖像的p+q階歸一化中心矩ηpq定義為
其中,r=(p+q)/2+1。
通過式(9)歸一化中心矩的多種線性組合,可計(jì)算出7個(gè)Hu矩,如式(10)~(16)所示:
上述7 個(gè)Hu 矩構(gòu)成了目標(biāo)的形狀特征H=(H1,H2,H3,H4,H5,H6,H7)。
LeNet-5[22]是由Lecun于1998年提出的7層CNN,主要用于手寫數(shù)字識(shí)別,常用于低分辨率圖像的分類。本文以LeNet-5為基礎(chǔ),設(shè)計(jì)包含3 個(gè)卷積層、3 個(gè)池化層、3 個(gè)全連接層的基礎(chǔ)CNN 結(jié)構(gòu),其中激活函數(shù)采用ReLU 函數(shù)。各網(wǎng)絡(luò)層詳情如表2所示。
表2 基礎(chǔ)CNN 各網(wǎng)絡(luò)層詳情Table 2 Details of basic CNN
由于CNN 的多層卷積和池化易使?jié)撛谀繕?biāo)的部分底層特征丟失,為進(jìn)一步增強(qiáng)CNN分類特征的表征能力,在基礎(chǔ)CNN 中融入Hu 矩特征,構(gòu)建融合Hu 矩的改進(jìn)CNN (Hu-CNN),最終構(gòu)建的由兩條分支網(wǎng)絡(luò)構(gòu)成的Hu-CNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。其中,基礎(chǔ)CNN 分支網(wǎng)絡(luò)提取目標(biāo)深度特征,輸入FC-1全連接層進(jìn)行映射;另一條分支網(wǎng)絡(luò)提取目標(biāo)Hu 矩特征,輸入FC-4 全連接層進(jìn)行映射;最后將兩條分支網(wǎng)絡(luò)映射得到的特征向量進(jìn)行融合,經(jīng)過FC-2 全連接層映射后輸入FC-3 層進(jìn)行目標(biāo)分類。Hu-CNN的具體細(xì)節(jié)如下:
圖3 改進(jìn)的分類網(wǎng)絡(luò)結(jié)構(gòu)(Hu-CNN)Fig.3 Structure of the improved classification network (Hu-CNN)
(1) CNN 深度特征提取:由于提取的ROI尺寸不同,所以在提取深度特征之前對(duì)ROI進(jìn)行雙線性插值,將大小調(diào)整為64×64。然后將其輸入設(shè)計(jì)的基礎(chǔ)CNN中,通過FC-1層輸出為256維特征向量。
(2) Hu 矩特征提?。簽楸A裟繕?biāo)更多的特征信息,直接提取原始ROI 的七維Hu 矩特征,并通過FC-4全連接層映射為48維。
(3) 特征融合與分類:將步驟(1)和步驟(2)中得到的256 維和48 維特征向量進(jìn)行拼接融合,形成304 維特征向量,由具有128 個(gè)節(jié)點(diǎn)的FC-2 層映射輸出后,通過FC-3層得到最終分類結(jié)果。
以側(cè)掃聲吶實(shí)測圓柱目標(biāo)數(shù)據(jù)為例,對(duì)方法的有效性進(jìn)行分析。本節(jié)數(shù)據(jù)集來自不同海域,分別記為DATA 1和DATA 2。從DATA 1和DATA 2的40 張和85 張聲圖中分別提取得到了172 個(gè)和179個(gè)ROI,其中DATA 1 得到41 個(gè)目標(biāo)和131 個(gè)非目標(biāo),DATA 2 得到93 個(gè)目標(biāo)和86 個(gè)非目標(biāo)。實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)情況如表3 所示。圖4 為大小調(diào)整為64×64 的ROI 示例,即CNN 端的輸入,其中包括DATA 1 和DATA 2 中的目標(biāo)和非目標(biāo)。
表3 數(shù)據(jù)集詳情Table 3 Datasets details
圖4 提取出的ROI 示例Fig.4 Examples of extracted ROI
本文采用發(fā)現(xiàn)概率(Detection rate,DR)、正確報(bào)警率(Correct alarm rate,CAR)以及AUC 值3個(gè)性能指標(biāo)來評(píng)價(jià)實(shí)驗(yàn)結(jié)果。
發(fā)現(xiàn)概率反映正確檢測到的目標(biāo)占目標(biāo)總數(shù)的比例,正確報(bào)警率反映所有預(yù)測目標(biāo)中正確的比例,其計(jì)算公式如式(17)~(18)所示:
其中,TP 表示正確檢測到的目標(biāo)數(shù),F(xiàn)P 表示誤檢為目標(biāo)的數(shù)量,TN表示正確檢測到的非目標(biāo)數(shù),F(xiàn)N表示誤檢為非目標(biāo)的數(shù)量。
AUC 值為受試者工作特性(Receiver operating characteristic,ROC)曲線下的面積,ROC 曲線是根據(jù)不同的閾值,以模型分類結(jié)果的假陽性率(False positive rate,FPR)為橫坐標(biāo),真陽性率(True positive rate,TPR)為縱坐標(biāo)繪制的曲線,其中
曲線越靠近左上角,即AUC 值越接近1,則模型的整體性能越好。
為驗(yàn)證該方法的有效性,分別進(jìn)行實(shí)驗(yàn)1 和實(shí)驗(yàn)2,同時(shí)采用五折交叉驗(yàn)證評(píng)估方法的性能。在實(shí)驗(yàn)1 中,將DATA 2 隨機(jī)分成5 份,其中一份作為測試集,剩余4份作為訓(xùn)練集,重復(fù)訓(xùn)練測試5次,該實(shí)驗(yàn)中的測試集記為測試集1;同時(shí)利用訓(xùn)練好的5個(gè)模型分類DATA 1 (記為測試集2),以驗(yàn)證方法對(duì)不同環(huán)境的適用性。在實(shí)驗(yàn)2 中,所有數(shù)據(jù)(DATA 1和DATA 2)隨機(jī)分成5 份,按4:1 的比例重復(fù)訓(xùn)練和測試5 次。兩次實(shí)驗(yàn)中均取五次測試結(jié)果平均值作為最終的結(jié)果。
考慮到試驗(yàn)海域水聲環(huán)境、試驗(yàn)工況等因素對(duì)目標(biāo)聲圖的影響,為保證算法的泛化性,對(duì)兩個(gè)實(shí)驗(yàn)的訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),分別進(jìn)行旋轉(zhuǎn)90°、180°、270°、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、變亮、變暗、加入高斯帶限噪聲的操作,將訓(xùn)練集擴(kuò)充為原來的9倍,測試集保持不變。
為驗(yàn)證本文提出方法的優(yōu)越性,本文使用常用的水下目標(biāo)分類器(Haar+AdaBoost)[23]、小波包變換(Wavelet packet transform,WPT)+支持向量機(jī)(Support vector machine,SVM)[24]、方向梯度直方圖(Histogram of oriented gradient,HOG)+SVM[25]和傳統(tǒng)CNN)進(jìn)行比較,不同分類器對(duì)輸入特征的敏感性不同,識(shí)別精度也不同,設(shè)置每個(gè)分類器的參數(shù)如下:
(1) 基于WPT+SVM的分類器采用db3小波函數(shù),對(duì)輸入進(jìn)行5 層分解,支持向量機(jī)采用RBF核函數(shù);
(2)基于Haar+AdaBoost 的分類器中迭代次數(shù)設(shè)為50;
(3) 基于HOG+SVM 的分類器,也采用RBF核函數(shù);
(4) 對(duì)于傳統(tǒng)的基于CNN 的分類器和本文提出的分類方法(Hu-CNN),采用隨機(jī)梯度下降算法和交叉熵?fù)p失函數(shù),學(xué)習(xí)率設(shè)置為0.01,批大小設(shè)置為64,epoch設(shè)置為100。
兩次實(shí)驗(yàn)的檢測結(jié)果如表4 和表5 所示,ROC曲線如圖5 和圖6 所示。由表4 可以看出,在實(shí)驗(yàn)1中,對(duì)于測試集1,由于訓(xùn)練集和測試集均來自于DATA 1,發(fā)現(xiàn)概率可達(dá)93.2%,性能指標(biāo)均優(yōu)于其他方法。其中相較于傳統(tǒng)CNN,Hu-CNN 的發(fā)現(xiàn)概率和正確報(bào)警率分別提高了5.0%和2.7%。對(duì)于來自不同海域的測試集2,由于成像環(huán)境不同、噪聲干擾等因素的影響,檢測性能略低于測試集1,但Hu-CNN 的性能指標(biāo)均高于其他方法,發(fā)現(xiàn)概率達(dá)到87.8%,比傳統(tǒng)CNN 提高了4.9%。實(shí)驗(yàn)1 結(jié)果表明Hu-CNN可以有效檢測不同環(huán)境下的小目標(biāo)。
表4 實(shí)驗(yàn)1 結(jié)果Table 4 Experimental 1 results
圖5 實(shí)驗(yàn)1 的ROC 曲線及AUC 值Fig.5 ROC curves and AUC values of Experiment 1
圖6 實(shí)驗(yàn)2 的ROC 曲線及AUC 值Fig.6 ROC curves and AUC values of Experiment 2
通過表5 可以看出,在實(shí)驗(yàn)2 中,Hu-CNN 的發(fā)現(xiàn)概率和正確報(bào)警率分別達(dá)到89.0%和86.4%,與其他方法相比,性能指標(biāo)均得到顯著提升。同時(shí)相較于傳統(tǒng)CNN,Hu-CNN 的發(fā)現(xiàn)概率提高了6.6%,正確報(bào)警率提高了6.2%,證明了改進(jìn)方法的有效性。
從圖5 的ROC 曲線及AUC 值可以看出,對(duì)于實(shí)驗(yàn)1 的不同測試集,Hu-CNN 的AUC 值分別為0.93 和0.90,均高于其他4 種方法。同時(shí)由圖6 的ROC 曲線可以看出,實(shí)驗(yàn)2 中Hu-CNN 的AUC 值為0.91,比傳統(tǒng)CNN 提高了0.03,證明了改進(jìn)方法的優(yōu)越性。
Hu-CNN 融合Hu 矩特征和CNN 深度特征,克服CNN 卷積和池化操作導(dǎo)致底層特征信息丟失帶來的影響,形成具有形狀特征表征能力更強(qiáng)的改進(jìn)CNN,有效利用了小目標(biāo)關(guān)鍵特征信息,從而提高目標(biāo)檢測的準(zhǔn)確性。
為檢驗(yàn)提出方法的泛化性,采用不同側(cè)掃聲吶獲取的數(shù)據(jù)進(jìn)行泛化性測試。本節(jié)數(shù)據(jù)集共14 張聲圖,提取ROI 得到16 個(gè)目標(biāo)和121 個(gè)非目標(biāo),輸入實(shí)驗(yàn)2 得到的5 個(gè)分類模型中進(jìn)行目標(biāo)分類,結(jié)果如表6所示。
表6 泛化性驗(yàn)證結(jié)果Table 6 Generalization verification results
由表6 可以看出,本文方法對(duì)不同側(cè)掃聲吶測得的數(shù)據(jù)仍然具有較好的檢測性能,相較于傳統(tǒng)CNN,改進(jìn)后的Hu-CNN 發(fā)現(xiàn)概率提高了6.3%,達(dá)到96.3%,正確報(bào)警率提高了2.1%。泛化性驗(yàn)證實(shí)驗(yàn)結(jié)果表明,該方法具有良好的泛化性能,可以有效應(yīng)用于不同側(cè)掃聲吶獲取的數(shù)據(jù)。
本文提出了一種結(jié)合區(qū)域提取和融合Hu 矩特征的改進(jìn)CNN 的水下小目標(biāo)檢測方法,該方法由區(qū)域提取和分類兩部分組成。區(qū)域提取階段根據(jù)目標(biāo)特征采用基于MRF 分割算法的5 個(gè)步驟提取聲圖中的ROI,實(shí)現(xiàn)潛在目標(biāo)定位。在分類階段,本文提出的Hu-CNN 特征融合網(wǎng)絡(luò)將CNN 深度特征與Hu矩特征融合,形成更具代表性和精確性的融合特征,可有效區(qū)分目標(biāo)與偽目標(biāo),提升目標(biāo)檢測性能。在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不同側(cè)掃聲吶數(shù)據(jù)均具有較優(yōu)越的檢測性能和泛化性,對(duì)水下小目標(biāo)的檢測具有一定的研究意義。