回 征,周 詮
(西安空間無線電技術研究所,西安 710100)
遙感[1]技術是指,通過使用不同傳感器,在沒有物理接觸情況下,獲取各類目標的光譜、物理等屬性的信息和數(shù)據(jù)的技術。遙感圖像在軍/民用不同領域中有著重要作用。如何在海量遙感圖像數(shù)據(jù)中準確有效地提取出重要目標,是遙感領域研究的一個重要方向。
主流的遙感圖像目標區(qū)域提取方法,包括基于機器學習、基于深度學習以及基于視覺顯著性檢測的方法等?;跈C器學習的目標檢測方法[2-3]涉及大量統(tǒng)計學原理,可以通過分析數(shù)據(jù)統(tǒng)計出規(guī)律,并根據(jù)得出的規(guī)律進行相應目標提取。該類方法需要構造大量的目標模板,且需要先驗知識才能提取目標,在資源受限的工程應用場合(如衛(wèi)星遙感)中,尚存在一些問題。
近年來,人工智能領域出現(xiàn)了突破性的進展,隨著各類深度神經(jīng)網(wǎng)絡的蓬勃發(fā)展,一些學者也開始探索將其應用于遙感圖像的目標檢測中[4-6],與傳統(tǒng)的機器學習方法不同,使用基于深度學習的方法進行遙感圖像目標提取能夠自動地從圖像中的標注目標學習特征,而不需要考慮人工構造和計算目標特征。此外,基于深度學習的方法擁有極高的檢測準確率,也可以有效抵抗復雜的背景干擾。但是,這類方法搭建網(wǎng)絡模型的過程十分繁瑣,網(wǎng)絡的訓練也比較復雜,難以適應高實時性要求的應用場合,如航天器遙感等。
與上述兩類方法不同,基于視覺顯著性檢測[7]的目標提取方法是一種不依賴人工標注樣本進行網(wǎng)絡訓練的方法。人類視覺在觀察自然場景時,大腦經(jīng)過搜索可以在短時間內找到感興趣的區(qū)域,并將更多的視神經(jīng)計算資源分配給該區(qū)域,從而對目標進行更加高效的識別和判斷。視覺顯著性模型[8]正是通過建立數(shù)學模型,模擬人類上述視覺機制的方法。
根據(jù)顯著性模型提取出的特征所屬圖像不同的域,視覺顯著性模型可以分為空間域模型以及變換域模型。ITTI[9]模型是最具代表性的空間域模型,通過輸入圖像的色彩、強度以及方向通道使用不同尺度高斯濾波器,提取顯著性特征,并提出一種“中心-周邊差異”機制來融合計算顯著性圖。AIM(Attention-based on Information Maximization)模型[10]是另一種典型空間域,它從信息論的角度對人類視覺機制進行解釋建模,從而構造顯著性模型。Achanta等提出的模型[11]通過計算圖像局部區(qū)域對比度,來構建輸入圖像顯著性圖,它改進了ITTI模型輸出顯著性圖與原圖像尺寸不同的缺陷。此外,典型空間域視覺顯著性模型還包括GBVS(Graph-Based Visual Saliency)模型[12],CA(Context Aware)模型[13],LC(Local Contrast)模型[14],HC(Histogram Contrast)模型[15]等??臻g域視覺顯著性模型的物理意義不如頻率域清晰,背景抑制能力較弱,且計算消耗較大。
Hou等[16]提出的SR(Spectrum Residual)模型是一種基于DFT視覺顯著性模型,通過抑制圖像頻譜中低頻部分來產(chǎn)生顯著性圖。由于相位譜在顯著性圖計算中起著更為重要的作用,Guo等在SR基礎上放棄使用圖像的幅度譜,提出了PFT(Phase Fourier Transform)[17],并通過對該描述子帶進行IDCT變換分離出圖像的顯著性區(qū)域。Schauerte等在IS模型的基礎上,將DCT模型替換為針對彩色圖像的四元數(shù)傅里葉變換(Quaternion Fourier Transform,QFT)運算[19]。在Li等提出了超復數(shù)傅里葉變換(Hypercomplex Fourier Transform, HFT)[20]模型中,使用四元數(shù)對彩色圖像的亮度以及CIELAB顏色空間上的色彩特征進行表示,隨后通過四元數(shù)傅里葉變換得到圖像在頻率域的超復數(shù)表示,并通過多尺度高斯濾波來計算出的顯著性圖。
通過對現(xiàn)有視覺顯著性模型進行研究和歸納,發(fā)現(xiàn)大多數(shù)視覺顯著性模型都是針對彩色圖像的空間域模型,其中的色彩特征是生成顯著性圖中不可缺少的參數(shù),不適合直接應用于灰度圖像;此外,空間域模型在計算上較為復雜,其顯著性區(qū)域的物理特性也不如變換域模型清晰明了。而現(xiàn)有基于DFT和DCT的灰度圖像視覺顯著性模型,對于不同遙感圖像和其中目標,其目標區(qū)域提取結果十分不穩(wěn)定,準確率相差很大,提取出的目標區(qū)域也不夠完整。
相較于DCT和DFT變換,小波變換擁有多分辨和時頻域分析特性,其高頻細節(jié)分量(水平、垂直和對角系數(shù))可以表達輸入圖像的顯著性信息,即一幅圖像的目標(顯著性)區(qū)域會與背景區(qū)域存在明顯的特征差異,而這種差異則會在特定尺度的小波系數(shù)中凸顯出來。平穩(wěn)小波變換,在傳統(tǒng)小波變換基礎上略去了下采樣操作,從而增加了冗余性和平移不變性,其細節(jié)分量保留的目標信息更為豐富。因此,本文提出一種基于平穩(wěn)小波變換的變換域視覺顯著性模型,用以進行灰度遙感圖像中目標區(qū)域的提取。
本文基于多分辨的平穩(wěn)小波變換(Stationary Wavelet Transform,SWT)[21],提出一種目標區(qū)域的提取方法,算法流程如圖1所示。
圖1 本文算法流程
輸入圖像,經(jīng)過不同尺度二維SWT分解之后,可得到一系列逼近系數(shù),以及三個方向子帶分量,使用所得的子帶分量,可以重構出一系列特征圖。由于SWT的冗余性,這些特征圖的分辨率與輸入圖像相同。隨后根據(jù)每一特征圖的二維熵進行加權融合,得到顯著性圖。通過大津(OTSU)[22]算法分割對顯著性圖進行二值分割,最后通過形態(tài)學增強二值分割圖,得到目標的二值輪廓。目標區(qū)域通過輸入圖像與二值輪廓相乘即可提取出來。
小波變換的高頻細節(jié)分量(水平、垂直和對角系數(shù))可以表達輸入圖像的顯著性信息,一幅圖像的目標(顯著性)區(qū)域會與背景區(qū)域存在明顯的特征差異,而這種差異則會在特定尺度的小波系數(shù)中凸顯出來。因此在本文中,我們首先對輸入圖像進行K級的二維SWT分解,對于輸入圖像I,多級SWT分解如下:
(1)
對于每一級分解得到的四個分量,使用N×N的全0矩陣A代替逼近分量Lj,利用逆平穩(wěn)小波變換進行重構,得出該尺度下的特征圖。隨著分解級數(shù)的增加,可以得到一系列包含由粗到精圖像結構的特征圖,第j級ISWT重構特征圖計算如下:
(2)
式中,ISWTj()為第j級逆平穩(wěn)小波重構函數(shù),Sj為特征圖,η=104為一個約束因子。通過逐級對所得系數(shù)進行重構,一共可以得到K個特征圖,相應地,由于SWT的冗余性,重構的特征圖與輸入圖像分辨率相同。
本節(jié)中,使用熵來計算顯著圖,是考慮到顯著圖的實質是一種概率分布。理想的顯著圖中,顯著性(目標)區(qū)域的直方圖應集中在幾個有限的值處,而目標區(qū)域之外的值則應被有效地抑制。也就是說,當?shù)玫斤@著圖的熵越小時,顯著性區(qū)域就越凸顯,對背景區(qū)域的抑制作用也就更強。
在傳統(tǒng)信息論中,熵是一種統(tǒng)計量,無法提現(xiàn)出圖像的結構特性。因此,需要對傳統(tǒng)的熵定義加以改進。二維熵的定義如下:
H2D(x)=H{g*x}
(3)
式中,H為熵函數(shù),g為高斯核函數(shù),*為二維卷積運算。對每一幅特征圖Sj,可得到其基于二維熵的加權系數(shù)wj
wj=(H2D(Sj*g))-1
(4)
得到加權系數(shù)后,對K幅特征圖進行加權融合,得到顯著性圖
(5)
在融合得到顯著圖后,本節(jié)采用OTSU(大津)算法對得到的顯著圖進行二值化處理。OTSU算法假定圖像由前景色和背景色組成,通過計算選取最佳閾值,使得兩者的類間方差最大,進而完成分割。對顯著圖進行OTSU分割后,顯著性(目標)區(qū)域的像素值為1,而背景區(qū)域像素值為0。
對顯著圖進行OTSU粗分割后,得到的目標區(qū)域中含有較多的孤立點、空洞以及斷裂,這里使用圖像形態(tài)學閉運算對這些來填充這些離散孔洞以及分散部分,對于圖像A以及結構體B,閉運算的定義如下:
A·B=(A⊕B)⊙B
(6)
式中,·為閉運算,⊕為膨脹運算,⊙為腐蝕運算。通過原圖像與經(jīng)過OTSU分割和閉運算處理后得到的二值掩模進行相乘運算,提取出最終目標區(qū)域。算法的大致流程如圖2所示。
圖2 基于顯著性圖的目標區(qū)域提取過程
為了測試本文算法提取遙感圖像目標的性能,本文在NWPU VHPR-10數(shù)據(jù)集中截取出6幅大小為512×512像素的灰度測試圖像。此外,本文選取了3種經(jīng)典的頻域視覺顯著性模型作為對比,包括基于DFT變換的SR算法,PFT算法以及基于DCT變換的IS算法,從主觀視覺效果以及客觀評價指標兩個方面進行性能對比。
下面從人類視覺直覺角度上進行算法性能的對比,圖3中(a)為輸入原始圖像。(b)~(e)分別展示了使用IS算法、PFT算法、SR算法和本文算法得到的顯著圖的直觀視覺效果。為了能夠抑制背景干擾,在不引入虛警目標的情況下,準確完整地分離出目標區(qū)域,所得到的顯著圖應具備以下特點:①目標(顯著性)區(qū)域與背景區(qū)域具有較高的對比度,即目標區(qū)域保持均勻高亮;②與真實目標區(qū)域相比,顯著圖目標(顯著性)區(qū)域應盡可能完整;③所得顯著圖中目標區(qū)域之外的錯誤目標應被有效抑制。
圖3 不同算法顯著性圖的主觀視覺效果
由圖3可見,IS算法得到的顯著圖中,背景區(qū)域存在的干擾(如第一幅圖中的云層以及第五幅圖中機場跑道)可以被有效抑制,得到的目標區(qū)域也較為完整,但其對比度較低,所得到的顯著性圖中目標區(qū)域無法保持高亮。由SR和PFT算法得到的顯著圖效果較為類似,其中目標區(qū)域與背景區(qū)域的對比度較高,可以看出艦船及飛機目標的輪廓都能被有效標記出來,但其目標區(qū)域內部亮度不均,導致目標區(qū)域不夠完整,此外一些干擾區(qū)域如云層和機場跑道也被錯誤標記為顯著性區(qū)域。與其他三種算法得到的顯著性圖相比,使用本文算法得到的顯著圖,目標區(qū)域的亮度較高,與背景區(qū)域形成鮮明對比,標記的目標區(qū)域完整,區(qū)域內部亮度較為均勻,此外使用本文算法得到的顯著性圖對背景區(qū)域的干擾也起到有效的抑制作用。
為進一步對不同算法分離出的目標區(qū)域效果進行探究。使用手動標記的Ground-Truth圖和四種算法分離出的二值輪廓圖像進行對比。
圖4 不同算法提取的目標二值輪廓對比
由子圖像(b)~(e),我們不難看出,對于測試圖像2、3,IS算法、PRT算法和SR算法提取出的目標區(qū)域較為完整,但是其他四幅圖像,對比Ground-Truth圖像,有著下列問題:①目標區(qū)域不完整,遠小于原目標(圖像1);②引入了檢測錯誤的干擾背景(圖像1、4、5);③檢測的目標切片破碎,完整度較低(圖像6)。相比之下,使用本文算法提取的艦船、飛機目標,形狀最接近于Ground-Truth圖像中的目標,背景干擾被有效地抑制(云層以及機場跑道)。此外我們可以觀察到,在四類算法中,使用本算法提取出的目標亮度最為均勻,形狀完整度最高。
在本節(jié)中,我們選取了查準率P(Precision)[23]、查全率R(Recall)[23]以及F度量[23]值Fβ對相關算法提取目標的準確度進行評價,實驗中遙感圖像的真實目標Ground-Truth記為G,提取出的目標區(qū)域記為T。
查準率P和查全率R是目標檢測領域的重要評價指標,Precision指的是正確提取的目標區(qū)域面積|G∩T|與提取的目標區(qū)域面積|T|之比,Recall指的是正確提取的目標區(qū)域面積|G∩T|與Ground-truth圖中目標區(qū)域面積|G|的比值,其具體定義如下:
(7)
(8)
Recall和Precision的取值范圍都為[0,1],其取值越靠近1性能越好。但是,二者不能孤立的討論,后續(xù)又有學者提出F度量值Fβ對提取的目標區(qū)域性能進行綜合評價。
在2.2節(jié)中,我們提到對于N×N大小的輸入圖像,其最大SWT分解級數(shù)為J=log2N,而本文算法需要一個最大分解級數(shù)K≤J,來計算得出K幅特征圖,圖5展示的是不同分解級數(shù)K下測試圖像的F度量值曲線。
圖5 不同K值下測試圖像的F度量曲線
由圖5可以看出,不同的測試圖像,其目標區(qū)域提取綜合準去度F度量值受最大SWT分解級數(shù)K影響,通過選取合適的K值,測試圖像的F度量可以在0.85以上。在前文中分析過,K值越高,得到的特征圖就會引入更多輸入原圖像的細節(jié)信息,對于包含更多背景區(qū)域干擾的圖像,選取較低的K值,所得的特征圖含有較少的細節(jié)分量,可以有效抑制面積較小的背景區(qū)域干擾。而對包含較少背景干擾區(qū)域的圖像,選取較高的K值,可有效增加顯著性圖中目標區(qū)域的對比度,提取出更完整清晰的背景區(qū)域。
對6幅測試圖像,使用IS算法、PFT算法、SR算法和本算法進行目標區(qū)域提取,并對照手工標記的Ground-Truth圖像,計算得出一系列的Recall、Precision以及F度量,得出的柱狀圖如下。
由圖6的Recall和Precision柱狀圖可以看出,對于6幅測試圖像,本算法得到的Recall和Precision值集中在0.75~0.8之間,而基于DFT的SR算法和PFT算法,對于其中一部分測試圖像,出現(xiàn)了Recall值接近于1而Precision值只有0.25~0.4的情況,這是因為使用這兩種算法提取出的目標區(qū)域過大,混入了過多不屬于真正目標的背景區(qū)域,使得面積|G∩T|≈|G|而|G∩T|=|T|,出現(xiàn)了很多檢測錯誤的目標。而根據(jù)子圖(c)計算出來的F度量柱形圖,可以發(fā)現(xiàn)本文算法的綜合目標提取準確度,并沒有隨圖像的不同而產(chǎn)生變化,同時使用本文算法得到的F度量也明顯高于其他三類算法。
圖6 不同視覺顯著性模型的目標提取客觀評價指標
綜上所述,在主觀視覺上,相較于其他三類經(jīng)典頻域視覺顯著性算法,使用本算法提取出的目標區(qū)域在視覺上形狀與輸入原圖像目標更為接近,提取出的目標更為清晰完整,且能夠一定程度抑制背景區(qū)域干擾。在客觀評價標準上,本文算法的Recall值和Precision值相對穩(wěn)定,可達到0.85以上,而綜合Recall和Precision值計算出的F度量,也處于四種算法中的領先地位,具有更好的目標區(qū)域提取準確性。
目標區(qū)域提取是遙感圖像處理的一大重要研究方向?;跈C器學習和深度學習的目標提取方法,具有良好的性能,但對樣本需求較高,且網(wǎng)絡訓練較為復雜,在資源受限的工程應用場中不宜發(fā)揮其性能優(yōu)勢。而視覺顯著性檢測,不需要額外的樣本進行訓練,具有較低的運算復雜性,較好契合資源受限的應用場合。本文提出了一種針對灰度遙感圖像的基于多尺度平穩(wěn)小波分解的目標區(qū)域提取算法?,F(xiàn)階段通過視覺顯著性計算來提取目標區(qū)域的大多數(shù)算法,都需要圖像的色彩特征,針對灰度圖像的算法較少。此外,基于DFT和DCT的視覺顯著性模型,提取的目標區(qū)域的準確率,很大程度依賴于輸入圖像,隨不同圖像性能變換很大。本文針對這一系列問題,利用多尺度平穩(wěn)小波分解,使用細節(jié)分量構造特征圖,并根據(jù)不同特征圖的二值熵進行加權,融合出顯著性圖。最后通過OTSU分割以及形態(tài)學處理,得到目標的二值輪廓完成目標區(qū)域提取。實驗證明,本文的目標分割效果在主觀客觀上都取得較好效果。