張芳 王萌 肖志濤 吳駿 耿磊 童軍 王雯
隨著信息科技的快速發(fā)展與推廣,圖像數據成為人類重要的信息來源之一,人們接收的信息量呈指數級增長.如何在海量的圖像信息中篩選出人類感興趣的目標區(qū)域具有重要研究意義.研究發(fā)現,在復雜場景下,人類視覺處理系統(tǒng)會將視覺注意力集中于該場景的少數幾個對象,也稱為感興趣區(qū)域.感興趣區(qū)域與人類視覺感知關系較為密切,具有一定的主觀性.顯著性檢測作為圖像預處理過程,可以廣泛應用到視覺跟蹤[1]、圖像分類[2]、圖像分割[3]和目標重定位[4?5]等視覺工作領域.
顯著性檢測方法分為自上而下和自下而上兩種.自上而下的檢測方法[6?8]是任務驅動型,需要人工標注真值圖進行監(jiān)督訓練,融入更多的人類感知(例如中心先驗信息、色彩先驗信息和語義先驗信息等)得到顯著圖.而自下而上的方法[9?17]是數據驅動型,更注重利用對比度、位置和紋理等圖像特征得到顯著圖.最早的研究者Itti 等[9]提出一種基于局部對比度的空間域視覺模型,使用由中心向四周變化的圖像差異性得到顯著圖.Hou等[10]提出了基于譜殘差(Spectral residual,SR)的顯著性檢測算法.Achanta 等[11]提出基于圖像頻域計算顯著度的頻率調諧(Frequency-tuned,FT)算法.Cheng 等[12]提出了基于直方圖計算全局對比度的方法.Perazzi 等[13]引進了一種將顯著性檢測看作濾波的思想,提出了顯著性過濾器(Saliency filters,SF)方法.Goferman 等[14]提出了基于上下文感知(Context-aware,CA)的顯著性檢測算法.Yang 等[15]先后提出基于圖形正則化(Graphregularized,GR)的顯著性檢測算法和利用顯著性傳播的流行排序(Manifold ranking,MR)算法[16].Qin 等[17]提出基于背景先驗和單層元胞自動機(Background-based method via single-layer cellular automata,BSCA)的顯著性檢測算法.此外,低秩矩陣恢復作為高維數據分析及處理的工具應用到顯著性檢測中[18?20].Yan 等[18]提出將圖像顯著區(qū)域看作是稀疏噪聲,將背景看作是低秩矩陣,利用稀疏表示和魯棒主成分分析算法計算圖像的顯著性.該算法首先將圖像分解成8×8 的小塊,對每個圖像塊進行稀疏編碼并合并成一個編碼矩陣;然后利用魯棒主成分分析分解編碼矩陣;最后利用分解得到的稀疏矩陣構建相應圖像塊的顯著性因子.但是,由于大尺寸的顯著目標包含很多圖像塊,每個圖像塊中的顯著目標不再滿足稀疏特性,因而極大地影響了檢測效果.Lang 等[19]提出多任務低秩恢復的顯著性檢測算法,利用多任務低秩表示算法分解特征矩陣,并約束同一圖像塊中所有特征稀疏成分的一致性,然后采用重構誤差構建相應圖像塊的顯著性.該算法充分利用多特征描述的一致性信息,效果比文獻[18]有所提升,但由于大尺寸的目標包含大量的特征描述,此時特征不再具有稀疏特性,僅利用重構誤差不能解決這一問題,故該方法同樣不能完整地檢測出大尺寸的顯著性目標.為了改善低秩矩陣恢復的結果,Shen 等[20]提出一種融合高層次和低層次信息的低秩矩陣恢復檢測算法(Low rank matrix recovery,LRMR),這是一種自下而上與自上而下結合的算法.改進了文獻[18]中的不足,首先將圖像進行超像素分割,并提取超像素的多個特征;然后通過學習得到特征變換矩陣和先驗知識,包括中心先驗、人臉先驗和色彩先驗,再利用學習得到的特征變換矩陣和先驗知識對特征矩陣進行變換;最后利用魯棒主成分分析算法對變換后的矩陣進行低秩與稀疏分解.該方法在一定程度上改善了文獻[18?19]的不足,但是由于中心先驗存在一定的局限性,而在復雜場景下色彩先驗也會失效,因此該算法對背景較復雜的圖像檢測效果不理想.
隨著深度學習研究的不斷深入,卷積神經網絡逐漸應用到顯著性檢測中.李岳云等[21]提出了一種基于深度卷積神經網絡的顯著性檢測方法,首先利用超像素算法和雙邊濾波分別得到區(qū)域和邊緣信息,再利用深度卷積神經網絡學習圖像的區(qū)域和邊緣特征,最后將卷積神經網絡輸出的區(qū)域置信圖和邊緣置信圖融入到條件隨機場中,達到判斷顯著性的目的.Wang 等[22]提出了一種基于循環(huán)全卷積神經網絡(Recurrent fully convolutional neural networks,RFCNN)的顯著性檢測方法,主要包括預訓練和微調兩個步驟,利用RFCN 對原圖和顯著先驗圖進行訓練達到對顯著先驗圖修正的目的,然后利用傳統(tǒng)算法對修正后的顯著圖進行進一步優(yōu)化處理.Lee 等[23]提出了在一個統(tǒng)一的深度學習框架中利用高層次和低層次特征進行顯著性檢測的深度顯著(Deep saliency,DS)算法,使用VGG-net 提取高級特征,利用低層次特征與圖像中其他部分進行對比得到低層次距離圖,然后使用卷積神經網絡對距離圖進行編碼,最后將編碼的低層次距離圖和高級特征連接起來,采用一個全連接的神經網絡分類器對特征進行評估,得到顯著圖.以上方法顯示了深度學習在顯著性檢測中的優(yōu)良性能.
如前文所述,文獻[20]中的中心先驗存在一定的局限性,而在復雜場景下色彩先驗也會失效,二者均為不穩(wěn)定的先驗知識.為了提高方法在復雜場景下進行顯著性檢測的性能,本文對文獻[20]進行改進,利用基于全卷積神經網絡(Fully convolutional neural networks,FCNN)學習得到的高層語義先驗知識替換文獻[20]中的中心先驗、人臉先驗和色彩先驗知識,并將其融入到低秩稀疏分解中.FCNN通常用于語義分割[24],即對圖像中的各部分進行區(qū)域分割并給出語義類別.本文忽略類別因素,僅利用FCNN 定位前景目標,由于前景目標通常是觀察者感興趣的區(qū)域,因此FCNN 分割出的前景可作為顯著性檢測的語義先驗知識.因為FCNN 對前景目標定位準確,所以本文方法能夠有效提高顯著性檢測的準確性.
本文方法的具體步驟是:1)對圖像進行Meanshift 超像素聚類,并計算每個超像素中所有像素的顏色、紋理和邊緣特征均值構造特征矩陣;2)為了使圖像背景具有相似性以利于低秩稀疏分解,需要對上述特征矩陣進行變換,使其在新的特征空間中背景部分可以被表示為低秩矩陣,本文利用MSRA圖像數據庫中的圖像基于梯度下降法學習特征變換矩陣[20];3)為了利用高層次信息以提高感興趣區(qū)域的檢測效果,利用全卷積神經網絡對MSRA 數據庫標記的圖像進行學習,得到高層語義先驗知識矩陣;4)利用特征變換矩陣和高層語義先驗知識對特征矩陣進行變換;5)利用魯棒主成分分析算法對變換后的矩陣進行低秩稀疏分解得到顯著圖.總體框架如圖1 所示.
輸入一幅圖像,提取顏色、紋理和邊緣等特征,構成維度d53 的特征矩陣.
1)顏色特征.提取圖像的R、G、B 三通道灰度值以及色調(Hue)和飽和度(Saturation)描述圖像的顏色特征;
2)邊緣特征.采用可控金字塔(Steerable pyramid)濾波器[25]對圖像作多尺度和多方向分解,這里選取3 個尺度、4 個方向的濾波器,得到12 個響應作為圖像的邊緣特征;
3)紋理特征.采用Gabor 濾波器[26]提取不同尺度、不同方向上的紋理特征,這里選取3 個尺度、12 個方向,得到36 個響應作為圖像的紋理特征.
利用Mean-shift 聚類算法[27]對圖像進行超像素聚類,得到N個超像素{pi|i1,2,3,···,N},如圖2(b)所示.這里的N為超像素個數,是Meanshift 方法自動聚類的類別數.計算每個超像素中所有像素特征的均值表示該超像素的特征值fi,所有超像素特征共同構成特征矩陣F[f1,f2,···,fN],Rd×N.
本文采用文獻[18?20]的思想,將圖像顯著區(qū)域看作稀疏噪聲,將背景看作低秩矩陣.在復雜背景下,超像素聚類結果后的圖像背景相似度依舊不高,如圖2(b)所示,因此原始圖像空間中的特征并不利于低秩稀疏分解.為了找到一個合適的特征空間能夠將大部分的圖像背景表示為低秩矩陣,本文基于梯度下降法利用MSRA 標記的數據庫學習得到特征變換矩陣,在此基礎上對特征矩陣F進行特征變換.獲得特征變換矩陣的過程如下:
1)構造標記矩陣Qdiag{q1,q2,···,qN}RN×N,如果超像素pi在人工標注的顯著性區(qū)域內,qi0,否則qi1.
圖1 本文方法的總體框架Fig.1 The overall framework of the proposed method
2)根據下式利用數據庫中K幅圖像學習特征變換矩陣T的優(yōu)化模型[19].
其中,FkRd×Nk為第k幅圖像的特征矩陣,Nk表示第k幅圖像的超像素個數,QkRNk×Nk為第k幅圖像的標記矩陣;表示矩陣的核范數,即矩陣的所有奇異值之和,γ是權重系數,在一定意義下,核范數是矩陣的秩的最佳凸估計;2 表示矩陣T的2 范數,c是一個常數,阻止T任意變大或變小.如果特征變換矩陣T是合適的,則TFQ是低秩的,的作用是為了避免當T的秩任意小時得到平凡解[20].
3)找到梯度下降方向,即
具體過程參見文獻[20].
4)利用下式更新特征變換矩陣T,直到算法收斂至局部最優(yōu).
其中α為步長.
圖2 顯示部分中間過程結果.圖2(a)是原圖;圖2(b)表示Mean-shift 聚類結果,可以看出由于背景復雜,聚類后的圖像背景的相似性不夠高,不利于低秩稀疏分解;圖2(c)表示R、G、B 三個特征經過特征變換后合成的可視化結果,可以看出特征變換后背景的相似性明顯提高;圖2(d)表示利用特征變換矩陣對特征矩陣進行特征變換,再對變換后的特征矩陣進行低秩稀疏分解得到的顯著圖;圖2(e)是真值圖.從圖2 可以看出,其中的背景噪聲比較多,感興趣區(qū)域不突出,顯著圖并不理想.說明雖然特征變換提高了背景的相似性,在一定程度上提升了低秩稀疏分解的效果,但由于背景非常復雜,僅基于顏色、紋理和邊緣等低層次信息仍然無法得到準確的感興趣區(qū)域.因此本文考慮在特征變換時融入高層語義先驗知識,進一步提高特征的有效性.
圖2 部分中間過程結果圖Fig.2 Part of the intermediate process result
如前所述,僅利用特征變換矩陣對特征矩陣進行變換,得到的最終顯著圖并不理想,這是由于僅利用底層特征提取顯著圖,干擾物體比較多,因此需要補充高層次信息以提升效果.本文采用的高層語義先驗知識主要是根據以往經驗(即訓練樣本)預測圖像中最有可能感興趣的區(qū)域,利用全卷積神經網絡訓練得到高層語義先驗知識,并將其融入到特征變換過程中,用以優(yōu)化最終的顯著圖.卷積神經網絡(Convolutional neural network,CNN)是一種多階段可全局訓練的人工神經網絡模型,可以從經過少量預處理甚至最原始的數據中學習到抽象的、本質的、高階的特征[28].全卷積神經網絡(FCNN)是卷積神經網絡的一種擴展形式,由Matan 等首次提出[29],并成功運用到經典的卷積神經網絡LeNet-5中.FCNN 可以接受任意尺寸的輸入圖像,與CNN的區(qū)別在于FCNN 以反卷積層代替全連接層,對最后一個卷積層的feature map 進行上采樣,從而恢復到與輸入圖像相同的尺寸,最后在上采樣的特征圖上進行逐像素分類,對每個像素都產生一個二分類預測,輸出像素級別的分類結果,從而解決了語義級別的圖像分割問題.語義先驗是感興趣區(qū)域檢測的一種重要的高層次信息,可以輔助檢測感興趣區(qū)域,因此本文利用FCNN 得到高層語義先驗知識并將其用于感興趣區(qū)域檢測.
FCNN 的網絡結構[24]如圖3 所示,本文在原分類器參數的基礎上,利用MSRA 數據庫使用反向傳播算法微調FCNN 所有層的參數.
實驗的訓練數據集來自MSRA 數據庫中標記的17 838 張圖片,將訓練圖像標記為前景和背景兩類.在如圖3 所示的網絡結構中,第1 行在交替經過7 個卷積層和5 個池化層之后,得到feature map,最后一步反卷積層是對feature map 進行步長為32像素的上采樣,此時的網絡結構記為FCNN-32s.本文首先訓練得到FCNN-32s 模型,實驗發(fā)現,由于經過多次最大池化操作造成精度下降,直接對降采樣輸出的feature map 進行上采樣會導致輸出結果非常粗糙,損失很多細節(jié).因此,本文嘗試將步長為32 像素上采樣得到的特征做2 倍上采樣,與步長為16 像素上采樣得到的特征進行求和,并將得到的特征上采樣至原圖大小進行訓練,得到FCNN-16s 模型,此時獲得了相比于FCNN-32s 更加精確的細節(jié)信息.使用同樣的方法繼續(xù)訓練網絡得到FCNN-8s模型,對細節(jié)信息的預測更為準確.實驗表明,繼續(xù)融合更底層的特征訓練網絡雖然能使得細節(jié)信息預測更為準確,但對低秩稀疏分解所得結果圖的效果提升不明顯,而訓練時間會明顯增加,故本文采用FCNN-8s 模型獲取圖像的高層語義先驗知識,而不再融合更底層的特征.
至此,已訓練得到FCNN-8s 模型.對于每一幅待處理圖像,利用訓練好的FCNN-8s 模型進行處理,輸出基于FCNN 的語義先驗知識,據此構建相應的高層語義先驗知識矩陣RN×N,即
其中,pri表示FCNN 測試結果圖像中超像素pi內所有像素的均值.
圖4 是FCNN 高層語義先驗知識及顯著性結果圖.圖4(a)是原圖;圖4(b)是基于FCNN 的高層語義先驗知識;圖4(c)是融合高層先驗知識后基于低秩稀疏分解的結果圖;圖4(d)是文獻[20]方法的結果圖;圖4(e)是真值圖.圖4(b)中白色區(qū)域是根據訓練圖像學習得到的高層語義先驗知識,即FCNN 預測的前景目標物體.經實驗發(fā)現,基于FCNN 得到的高層語義信息對目標物體的定位比較準確.雖然有些目標物體的輪廓變形(例如圖4(b)中的第2 行)有時存在誤檢(例如圖4(b)中的第1行),但是并不影響其消除背景噪聲的作用,將其應用到低秩稀疏分解(低秩稀疏分解方法將在第1.4節(jié)中介紹)中,可以提升感興趣區(qū)域的檢測效果.尤其是在復雜背景下,相比于文獻[20]利用中心、顏色、人臉先驗知識得到的結果而言,融合FCNN 高層語義先驗知識后,基于低秩稀疏分解的檢測效果明顯改善,如圖4(c)和圖4(d)的對比結果所示.
圖3 FCNN 的網絡結構Fig.3 The network structure of FCNN
圖4 FCNN 高層語義先驗知識及顯著性檢測結果圖比較Fig.4 The FCNN high-level semantic prior knowledge and the comparison of saliency detection results
需要說明的是,雖然FCNN 能夠準確預測人們感興趣的前景目標,但給出的前景目標既不完整,也不精細,如圖4(b)所示,需要進一步修正.所以本文利用FCNN 定位出前景目標并將其作為高層先驗知識與提取的傳統(tǒng)特征相融合,然后再進行低秩稀疏分解,得到最終的顯著性檢測結果,具體見第1.4 節(jié).
受文獻[18]的啟發(fā),圖像中的背景可表達為低秩矩陣,而顯著區(qū)域可看作是稀疏噪聲.對于一幅原始圖像,首先根據第1.1 節(jié)所述方法得出特征矩陣F[f1,f2,···,fN]Rd×N,以及根據第1.2 節(jié)得出特征變換矩陣T,然后根據第1.3 節(jié)得出高層先驗知識P.根據下式,利用學習得到的特征變換矩陣T和高層語義先驗知識P對特征矩陣F進行變換,并利用魯棒主成分分析算法[30]對變換后的矩陣進行低秩稀疏分解.
其中,Rd×N是特征矩陣,Rd×d是學習得到的特征變換矩陣,RN×N是高層先驗知識矩陣,Rd×N表示低秩矩陣,Rd×N表示稀疏矩陣,表示矩陣的核范數,即矩陣的所有奇異值之和,1 表示矩陣的1 范數,即矩陣中所有元素的絕對值之和.
假設是稀疏矩陣的最優(yōu)解,由下式可計算出顯著圖為
其中,Sal(pi)表示超像素pi的顯著值,(:,i)1表示的第i列向量的1 范數,即向量中所有元素的絕對值之和.
利用兩個公開標準數據庫MSRA-test1000 和PASCAL?S 對方法的準確性和有效性進行評價.MSRA-test1000 是本文在MSRA-20000 數據庫中隨機挑選出來的1 000 幅圖像,這些圖像未參與高層先驗知識的訓練,其中有些圖像背景比較復雜,如圖5(a)所示.PASCAL?S 來源于PASCAL VOC2010 數據庫,包含了850 幅復雜背景的自然圖像.這些數據庫圖片都有人工標注的真值圖,方便對算法進行客觀評價.
將本文方法與當前較為經典和流行的算法進行比較,包括基于頻域的FT 算法[11]、SR 算法[10]、基于上下文感知的CA 算法[14]、基于濾波的SF 算法[13]、基于凸殼中心和圖形正則化的GR 算法[15]、基于流行排序的MR 算法[16]、基于單層元胞自動機的BSCA 算法[17]和基于低秩矩陣恢復并且融合先驗知識的LRMR 算法[20].這8 種傳統(tǒng)算法是前述自上而下和自下而上方法中較為經典或者處理效果較好的算法,源代碼均由作者提供.此外,將本文算法與基于深度學習的RFCN 算法[22]和DS 算法[23]進行對比.
圖5 實驗結果比較圖Fig.5 The comparison of experimental results
圖5 是本文方法結果與其他8 種傳統(tǒng)算法的結果比較圖.圖5(a)~5(l)分別是原圖、真值圖、FT 算法、SR 算法、CA 算法、SF 算法、GR 算法、MR 算法、BSCA 算法、LRMR 算法、和FCNN高層語義先驗知識、本文算法.由圖中對比效果可以直觀看出,FT 算法可以檢測出部分圖像的感興趣區(qū)域,但背景噪聲較多.SR 和CA 算法可以較為準確地定位感興趣區(qū)域,但是檢測出的感興趣區(qū)域邊緣較明顯而內部區(qū)域不突出,并且背景噪聲較多.SF 算法背景噪聲小,但是感興趣區(qū)域顯著度不高.GR、MR、BSCA 和LRMR 算法都是比較優(yōu)秀的算法,對于背景與感興趣區(qū)域對比度較明顯的圖像可以很好地檢測出感興趣區(qū)域,但是對背景噪聲抑制有些不足,例如第2 行和第4 行的圖像;對于背景復雜的圖像,感興趣區(qū)域與背景對比度不明顯,這4 種方法不能很好地定位感興趣區(qū)域,檢測出的感興趣區(qū)域顯著度不夠高,背景噪聲抑制不足,例如第1、3 和5 行的圖像.本文方法可以在復雜的圖像中準確檢測出感興趣區(qū)域,并且很好地抑制背景噪聲,與其他8 種算法相比更接近于真值圖.此外,圖5(k)是FCNN 高層語義先驗知識圖,由圖可以看出,FCNN 高層先驗知識圖可以準確定位感興趣區(qū)域,但是對于細節(jié)的表達有些粗糙,例如第2、4 和5 行的圖像,由圖5(l)可以看出,本文方法可以利用FCNN 高層先驗知識更好地處理一些細節(jié),這也證明了FCNN 高層語義先驗知識對文本方法的貢獻是較為突出的.
為了對本文方法的性能進行客觀評價,采用四個評價指標,即準確率(Precision)、召回率(Recall)、F-measure 以及平均絕對誤差(Mean absolute error,MAE)進行對比分析.
2.2.1 與傳統(tǒng)方法比較
1)準確率和召回率
首先采用最常用的準確率–召回率曲線對算法進行客觀比較.如下式所示.
依次選取0 到255 之間的灰度值作為閾值Ti,分別將各算法的結果圖進行二值化,得到二值圖,并與人工標注的真值圖進行比較,利用下列二式計算各算法的準確率Pi和召回率Ri,并畫出Precision-Recall 曲線.
其中,STi表示顯著圖經過二值分割后值為1 的區(qū)域,GT表示真值圖中值為1 的區(qū)域,|R|表示區(qū)域R中的像素個數.
Precision-Recall 曲線中,在相同召回率下,準確率越高,說明對應的方法越有效.圖6 是9 種算法在MSRA-test1000 和PASCAL?S 兩個數據庫上的Precision-Recall 曲線,由圖可以看出,在這兩個數據庫上本文方法優(yōu)于其他算法.
為了綜合考慮準確率和召回率,本文采用Fmeasure(Fβ)進一步評價各個算法.
其中,P是準確率,R是召回率,β是權重系數.根據文獻[11],設置β20.3,可以達到突出準確率的目的.F-measure 衡量了準確率和召回率的整體性能,數值越大,說明方法性能越好.計算F-measure時,需要將各個算法結果在同等條件進行二值化,本文采用自適應閾值分割算法,即將閾值設置為每幅顯著圖的平均值,然后與真值圖進行比較,計算得到準確率和召回率,再利用式(10)計算F-measure值.圖7 是9 種算法在兩個數據庫上的比較結果,可以看出本文方法的F-measure 最大.
圖6 準確率–召回率比較Fig.6 The comparison of Precision-Recall curves
2)平均絕對誤差
Precision-Recall 曲線只是評價目標的準確性,而沒有評判非顯著區(qū)域,即不能表征算法對背景噪聲的抑制情況,因此本文利用平均絕對誤差(MAE)對整幅圖進行評價.MAE 是以像素點為單位計算顯著圖與真值圖之間的平均差異,計算公式為
其中,M和N代表圖像的高度和寬度,S(i,j)代表顯著圖對應的像素值,GT(i,j)代表真值圖對應的像素值.顯然MAE 的值越小,顯著圖越接近于真值圖.表1 為9 種算法的MAE 比較結果.可以看出,在兩個數據庫中本文方法的MAE 值均小于其他8種算法,說明本文方法的顯著圖更接近于真值圖.
圖7 F-measure 比較Fig.7 The comparison of F-measure
3)運行時間
在配置為i7-6700 k,內存32 GB,4.00 GHz CPU 的PC 機上利用MATLAB2012a 運行9 種算法,平均運行時間如表2 所示.
綜合表1 和表2 可以看出,早期的一些算法,如FT、SR 和SF,雖然運行時間較快,但是在主觀評價和客觀評價中表現不太理想;CA 算法運行時間較長;GR、MR 和BSCA 算法在時間上稍慢于早期的幾種算法,但效果有明顯提高;本文方法的運行時間與LRMR 算法相當,雖然時間上沒有太大的優(yōu)勢,但是無論是主觀對比還是客觀的P-R 曲線、F-measure 和MAE 等指標的對比,都明顯優(yōu)于其他算法.
表1 本文方法與傳統(tǒng)方法的MAE 比較Table 1 The comparison of MAE between the proposed method and traditional methods
表2 本文方法與其他方法的平均運行時間比較Table 2 The comparison of average running time between the proposed method and other methods
2.2.2 與深度學習方法比較
圖4 雖然體現出了FCNN 高層先驗知識的不足之處,但并不能否認它的重要作用.本節(jié)通過比較FCNN 分割的前景目標與本文最終分割得到的感興趣區(qū)域的準確性說明FCNN 在本文方法中的重要作用.由于得到的FCNN 高層先驗知識是二值圖像,所以將本文方法結果圖進行二值化,在MAE 指標上對二者進行比較.表3 是二者在兩個數據庫上的MAE 值對比,可以看出本文方法的二值化結果與FCNN 結果圖的MAE 值很相近,說明本文方法的結果圖在一定程度上是由FCNN 結果圖決定的.
表4 為在PASCAL-S 數據庫上本文方法與RFCN 算法、DS 算法的F-measure 值和MAE 對比.可以看出,在PASCAL-S 數據庫上,一方面,本文方法的F-measure 值高于其他兩種算法,說明本文方法穩(wěn)健性很好;另一方面,本文方法的MAE 指標略高于DS 算法.本文方法F-measure 值較好但MAE 指標略差的原因是經過低秩稀疏分解得到的稀疏矩陣能準確反映顯著區(qū)域的位置,但稀疏矩陣中的數值偏低,造成恢復得到的結果圖中顯著區(qū)域的灰度值偏低(如圖5 所示).
表3 FCNN 分割的前景目標與本文最終分割得到的二值感興趣區(qū)域的MAE 比較Table 3 The comparison of MAE between the segmented foreground object by FCNN and the segmented binary ROI by the proposed method
表4 本文方法與深度學習方法的指標比較Table 4 The comparison of evaluation indexs between the proposed method and deep learning methods
為了證實以上分析的正確性,本文對顯著性結果乘以一個線性因子θ進行對比度線性拉伸,再計算MAE 指標,并繪制θ-MAE 關系圖,如圖8 所示.由圖8 可以看出,θ3.2 時,本文方法的MAE 值與DS 算法相當,如果θ繼續(xù)增大,則本文方法的MAE 值優(yōu)于DS 算法.
圖8 對本文結果進行線性拉伸后與DS 方法的MAE 值比較Fig.8 The comparison of MAE between the results of linear stretching in this paper and the results of the DS method
因此綜合來看,本文方法是一種定位準確、檢測信息完整的顯著性檢測方法.
本文提出一種基于全卷積神經網絡與低秩稀疏分解的顯著性檢測方法.首先,對原圖像進行超像素聚類,并提取每個超像素的顏色、紋理和邊緣特征,據此構成圖像的特征矩陣;然后,利用MSRA數據庫基于梯度下降法學習得到特征變換矩陣;接著,再次利用MSRA 數據庫對全卷積神經網絡進行微調,學習得到高層語義先驗知識矩陣;最后,利用特征變換矩陣和高層語義先驗知識矩陣對特征矩陣進行變換,再利用魯棒主成分分析算法對變換后的矩陣進行低秩稀疏分解,得到最終的顯著圖.在公開的MSRA-test1000 和PASCAL?S 數據集上進行實驗驗證,在準確率–召回率曲線、F-measure 和MAE 指標上優(yōu)于當前流行算法.