蔣峰嶺, 孔 斌, 錢 晶, 王 燦, 楊 靜
(1.中國科學(xué)院合肥物質(zhì)科學(xué)研究院 智能機械研究所,安徽 合肥 230031; 2.中國科學(xué)技術(shù)大學(xué),安徽 合肥 230026; 3.合肥師范學(xué)院,安徽 合肥 230061; 4.鵬城實驗室,廣東 深圳 518053; 5.安徽省智能駕駛技術(shù)及應(yīng)用工程實驗室,安徽 合肥 230088)
人類的視覺系統(tǒng)具有極強的數(shù)據(jù)處理能力,能夠在復(fù)雜場景中快速地選擇比較醒目的區(qū)域或者是感興趣的區(qū)域,并且只對選擇出的區(qū)域進行處理而忽略其他區(qū)域中的信息。這種視覺信息處理機制被人們稱之為“選擇性視覺注意機制”或者“視覺注意力機制”,又常常簡稱“注意機制”。由于選擇性視覺注意機制能夠快速地鎖定視覺場景中的感興趣區(qū)域或者目標(biāo)區(qū)域,從而極大地減少數(shù)據(jù)的處理量、加快信息處理的速度,這對于計算資源有限以及實時性要求較高的各種機器視覺應(yīng)用來說具有非常大的吸引力,因而受到學(xué)術(shù)界的廣泛關(guān)注。將人類這種選擇性視覺注意機制引入到計算機視覺的信息處理中,近些年來已經(jīng)成為計算機視覺領(lǐng)域的研究熱點,并在各種視覺計算任務(wù)中得到了快速的發(fā)展,如目標(biāo)檢測[1]、目標(biāo)跟蹤[2]和圖像理解[3]等。
人工神經(jīng)網(wǎng)絡(luò)被認為是一種以簡化的方式模仿人類大腦并行計算機制的數(shù)學(xué)模型,人們同樣試圖建立一些計算模型來模仿人類視覺系統(tǒng)注意機制,以實現(xiàn)選擇性地專注于一些與視覺任務(wù)目的相關(guān)的事物而忽略其他事物,從而可以利用有限的計算資源來快速完成視覺場景的處理和理解等過程。
早在1980年,Treisman等[4]就從認知心理學(xué)與神經(jīng)科學(xué)方面對人類注意力機制進行了研究,提出了顯著特征整合理論。Koch等于1985年發(fā)表了被認為是視覺注意力領(lǐng)域的奠基文章[5],并于1987年發(fā)表了該文的擴展版[6]。到1998年,Itti等[7]發(fā)表了第一個基于顯著度的視覺注意計算模型,使用多種特征的融合獲得最終的顯著圖,視覺注意力機制模型正式引入到計算機視覺領(lǐng)域。之后,視覺注意模型逐漸受到研究者的關(guān)注,并運用于視覺任務(wù)計算的方方面面。在今年前不久召開的IEEE國際計算機視覺與模式識別會議(CVPR)和全國圖象圖形學(xué)學(xué)術(shù)會議(NCIG)中,都各有超過15篇論文/報告的主題或內(nèi)容涉及注意力機制或顯著性檢測。
對視覺注意力的研究主要有兩個分支——關(guān)注點檢測(Fixation Prediction)和顯著物體檢測(Salient Object Detection)。關(guān)注點檢測可以應(yīng)用在廣告和人類行為研究等領(lǐng)域,顯著物體檢測可廣泛應(yīng)用于各種視覺任務(wù)的預(yù)處理過程(詳見第4.1節(jié))。用于這兩個分支研究的數(shù)據(jù)集都需要人為地標(biāo)注真值。關(guān)注點的真值需要利用專門設(shè)備——眼動儀對實驗者的注視落點(如圖1(b)中的白色點)進行標(biāo)注,標(biāo)注通常側(cè)重于物體的某塊區(qū)域或某些像素值;而顯著物體的真值則是根據(jù)人眼主觀感知通過手工標(biāo)注,一般標(biāo)注整個顯著物體的像素區(qū)域,并表示為二值圖片(如圖2(b)所示),通常值為1的白色部分表示顯著物體區(qū)域,值為0的黑色部分表示背景。人眼關(guān)注點檢測示意圖如圖1所示,顯著性物體檢測示意圖如圖2所示。在本綜述中,主要關(guān)注的是顯著物體檢測。
圖1 人眼關(guān)注點檢測示意圖
圖2 顯著性物體檢測示意圖
目前在視覺注意力和顯著物體檢測方面已有一些較長的綜述文獻。其中,文獻[8]主要介紹顯著性檢測的發(fā)展歷程、模型等,從傳統(tǒng)方法到深度學(xué)習(xí)方法對顯著性檢測進行了總結(jié)歸納;文獻[9]側(cè)重于介紹深度學(xué)習(xí)時代的顯著性檢測模型,并對其進行分析和討論;文獻[10]分別從人眼關(guān)注點檢測和顯著物體檢測兩個方面綜述了視覺注意力檢測的最新研究進展;文獻[11]則側(cè)重于對視頻中顯著目標(biāo)檢測的相關(guān)研究成果的介紹;另外,文獻[12]主要對視覺注意力機制在相關(guān)領(lǐng)域的應(yīng)用進行了綜述。還有幾篇中文綜述,因其篇幅很短、參考價值較低,在此不予提及。
與上述綜述文獻相比,本文首先簡單敘述視覺注意力研究的發(fā)展歷程,然后主要介紹顯著性物體檢測的各種方法,包括傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法,并根據(jù)不同的算法特點和網(wǎng)絡(luò)結(jié)構(gòu)對這兩大類的方法進行了進一步的分類和小結(jié),同時從不同角度對現(xiàn)有的顯著性物體檢測的數(shù)據(jù)集進行了整理和列表、對評測算法效果的方法和指標(biāo)作了詳細的介紹,另外還探討了顯著性物體檢測在不同領(lǐng)域的應(yīng)用,最后對顯著性物體檢測研究的發(fā)展趨勢和方向進行了分析和總結(jié)展望。
顯著性物體檢測可以分為靜態(tài)物體檢測和動態(tài)物體檢測,靜態(tài)物體檢測主要是針對一幅圖像中的顯著物體進行檢測,而動態(tài)顯著物體檢測主要是對視頻場景中的顯著物體進行檢測。靜態(tài)圖像和動態(tài)視頻中物體顯著性的區(qū)別有:① 靜態(tài)圖像中的顯著性物體主要表現(xiàn)在顯著目標(biāo)與環(huán)境中其他目標(biāo)在特征上和語義上的對比,而視頻中運動的物體一般被定義為顯著物體,并且人眼會隨著視頻中物體的運動關(guān)注和跟蹤該物體,或者隨著物體的消失和出現(xiàn)而不斷改變顯著物體;② 由于視頻播放的過程是一個連續(xù)動態(tài)的過程,因此在觀看視頻時人眼的注意力在每一幀的停留時間很短,新的物體出現(xiàn)更能吸引人的注意,另外視頻顯著性目標(biāo)的能量相對較為集中,當(dāng)沒有顯著物體時,人的關(guān)注點往往會集中在視頻畫面的中央。一般來說,對于視頻中的運動物體,其顯著性檢測依賴于每一幀圖像(如圖3所示),當(dāng)存在物體消失和出現(xiàn)時,其顯著性檢測也依賴于前后幀圖像的對比。因此,圖像的顯著性物體檢測是基礎(chǔ),所以本文對顯著性物體檢測方法的綜述主要集中在靜態(tài)圖像的顯著性物體檢測上。
圖3 視頻顯著性檢測示意圖(每列圖像的上圖為視頻中的幀、
近些年來,一些高性能的顯著性物體檢測方法相繼被提出,總的來說可分為傳統(tǒng)的顯著性物體檢測方法和基于深度學(xué)習(xí)的顯著性物體檢測方法。傳統(tǒng)方法屬于自底向上的檢測方法,主要利用低級特征,如顏色、紋理、亮度等信息,通過顏色對比、圖像周邊和中心的差異等獲得顯著圖?;谏疃葘W(xué)習(xí)的方法屬于自頂向下的檢測方法,主要利用任務(wù)先驗和高級特征,可以被認為是任務(wù)驅(qū)動的檢測方法,如在駕駛場景下司機更關(guān)注于前方的信號燈、標(biāo)識牌、前車尾燈等,通過這些目標(biāo)的先驗特征,進行顯著目標(biāo)的檢測。下面分別對這兩類方法進行介紹。
自從Itti等[7]將視覺注意力機制模型引入到計算機視覺領(lǐng)域,其后研究的顯著度檢測或顯著圖計算主要針對圖像中具有各種顯著特征的區(qū)域而不是具有明確語義的整個物體。對于具備顯著性的整個物體的檢測研究一般被認為是從2007年開始興起的。文獻[13]將視覺注意力檢測從特征區(qū)域級別發(fā)展為物體級別的顯著度計算與檢測研究,即在檢測出顯著區(qū)域的同時提取該區(qū)域的顯著物體的輪廓,并給出了第一個顯著性物體數(shù)據(jù)集MSRA-B,以及顯著性物體檢測的相關(guān)評價標(biāo)準,如查準率、查全率。隨后,文獻[14]使用了基于頻域的方法來進行顯著性物體檢測,并給出了兩種新的評價指標(biāo),即PR曲線(查準率對比查全率曲線)和F測度(一般又簡稱F值)。這兩篇文獻對后續(xù)的顯著性物體檢測研究具有重要的影響。對于傳統(tǒng)的顯著性物體檢測方法,文獻[8]等都進行了分類。根據(jù)這些方法在計算過程中的不同特點,將顯著性物體檢測方法劃分為:基于全局和基于局部對比的計算方法、基于頻域的計算方法、基于稀疏理論的計算方法、基于圖的計算方法和基于背景及前景先驗的計算方法等。當(dāng)然,有一些算法不能籠統(tǒng)地歸屬某一種方法,它們可能是結(jié)合多種方法來使用的,所以在本文的歸類中可能會出現(xiàn)同一文獻在多個分類中出現(xiàn)的情況。
1.1.1 基于全局和基于局部對比的計算方法
全局信息和局部信息在顯著性物體檢測當(dāng)中分別起到不同的作用。對基于全局對比和基于局部對比的計算方法的劃分,主要考慮視覺系統(tǒng)是先加工圖形的整體性質(zhì),還是加工其局部的性質(zhì)。陳霖等在文獻[15]中,對圖片中的整體性質(zhì)和局部性質(zhì)的關(guān)系、視覺系統(tǒng)感知圖片中的全局信息和局部信息的順序,進行了實驗和分析,并提出了視知覺“大范圍拓撲優(yōu)先”理論。同樣,程明明等[16]提出基于直方圖對比度的方法(Histogram Contrast,HC)和基于區(qū)域?qū)Ρ榷鹊姆椒?Region Contrast,RC)來計算顯著性目標(biāo),這兩個方法都歸類為基于全局對比的方法,其中RC是在HC的基礎(chǔ)上改進的算法。HC方法是通過像素點之間的顏色差異來得到像素點的顯著值。RC方法將像素的空間關(guān)系和顏色差異結(jié)合到一起,首先將圖像劃分為若干個區(qū)域塊,然后計算區(qū)域塊之間的顏色對比度,再將區(qū)域之間的對比度加權(quán)和作為該區(qū)域的顯著值。
基于全局對比和基于局部對比的方法有很多,除了文獻[16],其他主要的方法歸納在表1中。
表1 基于全局和基于局部對比的方法
1.1.2 基于頻域的計算方法
基于頻域的計算方法,主要是根據(jù)信息論的觀點來對圖像進行處理,該觀點認為圖像由冗余和突出兩部分組成,那么找出圖像當(dāng)中的冗余部分,將其除去即為突出部分,也就是對應(yīng)的顯著部分。Hou等[26]提出了頻域殘差法(Spectral Residual)來計算圖像的顯著部分。該文認為圖像的統(tǒng)計特性具有尺度變換不變性,首先將原圖進行傅里葉變換,得到振幅譜和相位譜;然后根據(jù)得到的振幅譜,求其對數(shù)振幅譜;將對數(shù)振幅譜減去對數(shù)振幅譜均值濾波后的結(jié)果,即為剩余譜;最后利用傅里葉反變換將相位譜和剩余譜求得的自然指數(shù)轉(zhuǎn)換到空間域,再進行高斯濾波,即得到最終的顯著圖。但是該方法得到的結(jié)果僅僅是對圖像中顯著物體部分像素進行高亮處理,沒有檢測到整個顯著物體。在Hou等的基礎(chǔ)上,復(fù)旦大學(xué)Guo等[27-28]提出相位譜方法。在文獻[14]中,作者從圖像的頻率域角度進行圖像中的顯著性物體檢測,即通過濾波器將圖像分為高頻域和低頻域,然后通過高斯平滑和均值的計算得到了顯著圖,隨后作者在之前的基礎(chǔ)上,考慮到顯著物體的邊緣與物體中心的頻率特征不同,又提出了改進的頻域方法[29],從而提升了顯著性物體的檢測性能。
1.1.3 基于稀疏理論的計算方法
基于稀疏理論的計算方法,主要是將樣本轉(zhuǎn)換為稀疏表示的形式,達到簡化模型、降低數(shù)據(jù)維度的目的。根據(jù)人眼觀察的特性,人們在觀察場景中的目標(biāo)時,往往更關(guān)注于稀疏區(qū)域的物體,而獲得的這部分稀疏區(qū)域可以用來作為顯著性物體檢測的結(jié)果。Shen等[30]提出了使用稀疏理論進行顯著性物體檢測,該方法通過分割和特征變換,將圖像表示成一個低秩矩陣和稀疏噪聲的組合,再融合了底層信息和高層先驗知識實現(xiàn)顯著區(qū)域的優(yōu)化。該算法存在的主要問題是計算量大、運行速度慢、實驗效果一般。隨后,Li等[22]在稀疏理論的基礎(chǔ)上,利用圖像的邊界作為提取背景線索的模板,在得到背景模板的基礎(chǔ)上,通過構(gòu)造稠密和稀疏重建誤差來進行顯著性檢測,最后利用多尺度重構(gòu)得到顯著性結(jié)果。
這類基于稀疏理論的計算方法為顯著性物體檢測開辟了一個新的解決問題的思路,也獲得了較好的實驗效果,后續(xù)還有學(xué)者在此基礎(chǔ)上進行了改進和優(yōu)化,如文獻[31]等。
1.1.4 基于圖模型的計算方法
自從簡單線性迭代聚類算法[32](Simple Linear Iterative Cluster,SLIC)在圖像分割中得到廣泛應(yīng)用之后,出現(xiàn)了越來越多的基于圖模型的顯著性物體檢測方法。基于圖模型的計算方法一般是通過SLIC算法將圖像的像素轉(zhuǎn)換為超像素(Superpixel),以各個超像素作為圖模型的節(jié)點、超像素之間的關(guān)系作為模型的邊,構(gòu)建好圖模型后,利用圖的相關(guān)知識來解析圖像得到顯著圖。Jiang等[20]將圖像轉(zhuǎn)換為圖模型,利用馬爾可夫鏈(Markov Chain,MC)的吸收特性來計算顯著圖,即將圖像四周邊界的節(jié)點作為吸收節(jié)點,然后計算轉(zhuǎn)移節(jié)點到吸收節(jié)點的平均吸收時間,吸收時間短的被認為是背景的可能性大,而吸收時間長的被認為是前景的可能性大,根據(jù)這種原理最終得到顯著圖。Yang等[33]采用基于圖的流形排序(Manifold Ranking,MR)方法來計算顯著性,首先構(gòu)造圖模型,然后使用圖像四邊界的節(jié)點作為背景種子點,得到4個邊界的顯著值并進行融合,作為第一階段的顯著圖,然后對第一階段的顯著圖進行閾值分割,從而選出種子節(jié)點,再通過優(yōu)化計算得到最終的顯著結(jié)果。Zhu等[18]利用邊界連通率來度量節(jié)點與邊界之間的關(guān)系,并提出一個統(tǒng)一的優(yōu)化框架來優(yōu)化結(jié)果,得到最終的顯著圖。
這類基于圖模型的計算方法都取得了較好的性能,類似的方法如文獻[34]等。
1.1.5 基于背景和前景先驗的計算方法
先驗信息在顯著性物體檢測中非常重要,如顏色先驗[30]、中心先驗[35]、形狀先驗[36]等。在這里,主要介紹基于背景和前景先驗的顯著物體檢測方法。
很多基于背景先驗的計算方法都將圖像四周的邊界作為背景先驗。Wei等[37]提出一種基于背景先驗的顯著性檢測方法,認為背景區(qū)域通常比顯著的物體更加接近邊界,這樣就將計算顯著圖的問題轉(zhuǎn)化為計算到邊界的距離長短的問題。其他采納類似思想的方法有:Jiang等[20]在馬爾可夫鏈的基礎(chǔ)上,將四邊界作為吸收節(jié)點;Yang等[33]提出的流形排序的顯著性檢測算法,將圖像四邊界作為背景節(jié)點?;谇熬跋闰灥挠嬎惴椒?,主要通過假設(shè)前景先驗信息進行顯著物體檢測。Zhu等[38]提出了一種利用Harris角的凸包來近似定位前景物體的方法,將凸包先驗圖和凸包中心偏置值相結(jié)合為初始顯著圖,然后對其進行優(yōu)化得到最終結(jié)果。
還有一些將背景先驗和前景先驗相結(jié)合的方法,如文獻[39]等。
1.1.6 小結(jié)
總的來說,傳統(tǒng)方法使用空域或頻域中大量的特征對比,或者利用先驗信息等進行圖像顯著性檢測,其針對性較強,一般來說只適用于主體明確、物體顏色及結(jié)構(gòu)較為單調(diào)的場景。由于泛化能力差、無法描述和適應(yīng)復(fù)雜的場景和對象結(jié)構(gòu),導(dǎo)致此類顯著性檢測方法的研究陷入瓶頸。但因不需要進行大規(guī)模的樣本訓(xùn)練,并且具有較快的計算速度,可滿足實時性需求,此類方法還是具有一定的吸引力。
隨著計算機計算能力的提升、深度學(xué)習(xí)相關(guān)模型在眾多視覺任務(wù)上的成功應(yīng)用,基于深度學(xué)習(xí)的顯著性物體檢測也逐漸成為當(dāng)前該領(lǐng)域的主流方法。
基于深度學(xué)習(xí)的顯著性物體檢測方法,需要對模型進行訓(xùn)練,因此需要大量的樣本圖片及其對應(yīng)的標(biāo)簽。雖然在人工標(biāo)注時耗費大量的時間,以及在網(wǎng)絡(luò)訓(xùn)練和調(diào)參時也花費一定的時間,但是一旦將網(wǎng)絡(luò)模型訓(xùn)練好,可以適用于較為復(fù)雜場景下的顯著性物體檢測,其性能明顯優(yōu)于傳統(tǒng)的顯著性物體檢測方法。目前,大多數(shù)的基于深度學(xué)習(xí)的顯著性物體檢測方法都是采取全監(jiān)督的方式,即需要大量的樣本進行訓(xùn)練;按照其網(wǎng)絡(luò)結(jié)構(gòu),一般可以將這些方法分為基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的方法和基于完全卷積神經(jīng)網(wǎng)絡(luò)的方法。
1.2.1 基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的方法
由于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測和圖像分類等視覺任務(wù)時展現(xiàn)了卓越的性能,它也被用來進行顯著性物體檢測。在這類方法的網(wǎng)絡(luò)訓(xùn)練中,一般將圖像塊對照標(biāo)簽,其包含的顯著區(qū)域閾值大于某個指定值的被認為是正樣本,反之為負樣本。文獻[40]中,作者提出了一種融合局部估計和全局搜索的顯著性檢測方法。該方法先訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)DNN-L來檢測局部顯著性,確定每個像素的顯著度值、獲得局部信息中對象邊界等細節(jié)信息,但沒有突出整個對象;另外再結(jié)合局部顯著度值、對象候選框和顏色對比度進行特征提取,訓(xùn)練另一個深度神經(jīng)網(wǎng)絡(luò)DNN-G,根據(jù)全局特征預(yù)測每個目標(biāo)區(qū)域的顯著性得分;最后將兩個網(wǎng)絡(luò)的結(jié)果加權(quán)得到最終的顯著圖。Li等[41]提出了一種多尺度的卷積神經(jīng)網(wǎng)絡(luò)檢測模型,將圖片分為3個尺度,利用3個卷積網(wǎng)絡(luò)模型進行特征提取,然后對特征進行融合,最后進行顯著區(qū)域的檢測,并達到了超過傳統(tǒng)顯著性物體檢測的性能。Zhao等[42]則是利用上下文信息,通過上采樣和下采樣,構(gòu)建兩個卷積神經(jīng)網(wǎng)絡(luò)模型,然后將通過網(wǎng)絡(luò)得到的顯著值進行展平融合獲得最終的顯著圖。He等[43]提出SuperCNN來進行顯著性物體檢測,將輸入的圖片劃分為3個超像素塊,然后分別生成顏色類別和顏色分布的特征向量,再進行卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,最后將得到的多尺度顯著圖進行融合獲得最終的結(jié)果。其他的方法還有Chen等[44]提出的漸進式表示學(xué)習(xí)的深度計算模型等。
通過以上介紹可以看出,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型的顯著性物體檢測要將圖像塊的區(qū)域大小調(diào)整到固定的尺寸,或進行多尺度的處理,然后進行卷積神經(jīng)網(wǎng)絡(luò)的特征提取,最后進行融合,獲得每個區(qū)域的顯著值。從模型結(jié)構(gòu)可以看出,卷積神經(jīng)網(wǎng)絡(luò)最后的全連接層丟失了空間信息,從而影響了分割顯著物體結(jié)果的性能。
1.2.2 基于完全卷積神經(jīng)網(wǎng)絡(luò)的方法
自從基于完全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)的語義分割模型[45]被提出,因其可以克服傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型的缺陷,具有空間保存的功能,被廣泛應(yīng)用于顯著性物體檢測當(dāng)中。FCN模型是端到端的模型,可以輸入任意尺度的圖像,并且是像素級別的檢測,很好地保留了空間特性。自FCN模型被提出,出現(xiàn)了很多基于FCN模型的顯著性物體檢測方法,而這些檢測方法中大多使用了VGGNet[46]或ResNet[47]這兩種骨干網(wǎng)絡(luò)架構(gòu)。下面主要基于這兩種骨干網(wǎng)絡(luò)架構(gòu),進行基于完全卷積神經(jīng)網(wǎng)絡(luò)顯著性檢測方法的介紹。
VGGNet網(wǎng)絡(luò)都使用了3×3的卷積核和2×2的池化層,訓(xùn)練時間相對較少,文獻中有各種各樣具體的VGGNet架構(gòu),主要體現(xiàn)在有不同的網(wǎng)絡(luò)深度,如VGG16,VGG19等。Liu等[48]提出了一個端到端的顯著性物體檢測網(wǎng)絡(luò)DHSNet,首先從全局結(jié)構(gòu)信息得到一個粗略的顯著圖,然后再用一個層次結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)HRCNN,通過整合局部上下文信息,分層逐步地細化得到最終的顯著圖。在文獻[49]中,作者針對高分辨率圖像進行顯著性物體檢測,在建立高分辨率顯著物體數(shù)據(jù)庫的同時,提出融合全局語義信息和局部高分辨率信息進行顯著性物體的檢測,在下采樣的過程中,利用全局語義網(wǎng)絡(luò)提取全局語義信息;然后在此結(jié)果上,利用局部細化網(wǎng)絡(luò)針對一些局部區(qū)域進行檢測,產(chǎn)生高分辨率的預(yù)測;最后利用全局和局部融合的網(wǎng)絡(luò)進一步增強空間表現(xiàn)力,得出最終的檢測結(jié)果。文獻[50]中,作者提出一個多尺度的注意反饋模型,利用邊界增強損失函數(shù)預(yù)測邊界輪廓更清晰的顯著性物體。在文獻[51]中,同樣為了解決基于FCN的網(wǎng)絡(luò)對顯著物體輪廓細節(jié)檢測不精確的問題,作者提出了利用顯著性物體前景輪廓和邊界等信息進行顯著性物體檢測,構(gòu)建了一個相互學(xué)習(xí)模塊,在前3個VGG-based模塊下,利用相互學(xué)習(xí)模塊和邊界模型得到3個特征,然后利用另外3個VGG-based模塊和前景輪廓、顯著物體在相互學(xué)習(xí)模塊的作用下得到2個特征,最后將這些特征級聯(lián)起來,得到最終的顯著結(jié)果。
雖然基于VGGNet的顯著性物體檢測方法大多取得了不錯的性能,并且隨著其模型深度的增加,往往能提高模型的檢測精度,但造成了梯度消失的現(xiàn)象,導(dǎo)致了模型訓(xùn)練誤差的提高。相比較于VGGNet,ResNet架構(gòu)具有更深的卷積層,如ResNet50,ResNet101,因ResNet使用了短連接(Shortcut Connection),不僅加快了模型的訓(xùn)練速度、提高了訓(xùn)練效果,而且當(dāng)模型的深度加深時,這個簡單的結(jié)構(gòu)能夠很好地解決退化問題。因此ResNet的提出在圖像檢測上具有重要的意義,近些年來也被廣泛應(yīng)用在顯著性物體檢測當(dāng)中。文獻[52]中,作者提出了一個自頂向下和自下而上迭代和協(xié)作的顯著性物體檢測模型。自頂向下的過程用于從粗到細的預(yù)測,高層信息逐漸利用底層信息獲取到精細的檢測結(jié)果,自下而上的過程通過逐漸使用上層語義上更豐富的功能來推斷出高級但粗略的顯著性特征;這兩個過程是交替執(zhí)行的,其中自下而上的過程使用從自頂向下的過程獲得的細粒度顯著性來產(chǎn)生增強的顯著性檢測結(jié)果,而自頂向下的過程又進一步受益于改進的高層的顯著性信息。針對顯著性物體的內(nèi)部一致性和邊界清晰度,文獻[53]提出了一種圖像連續(xù)擴展的邊界感知網(wǎng)絡(luò)模型,該模型通過一個邊界定位過程來增強邊界特性的提取,而物體內(nèi)部的特征通過一個復(fù)雜的內(nèi)部感知過程獲得,同時針對物體內(nèi)部和邊界區(qū)域,提出一個過渡補償模塊進行特征提取,最后融合這些信息,獲得最終的顯著圖。文獻[54]中,作者針對現(xiàn)有模型的缺陷,提出了一個新的顯著性物體檢測模型。該模型將先驗信息轉(zhuǎn)換到一個嵌入空間中,獲得可選擇的注意特征,并獲得顯著物體的輪廓。具體地說,作者先通過網(wǎng)絡(luò)模型獲得一個粗略的預(yù)測圖,然后利用訓(xùn)練的特征嵌入網(wǎng)絡(luò)獲得顯著目標(biāo),并抑制非顯著區(qū)域的像素,最后通過深淺層遞歸特征集成網(wǎng)絡(luò)優(yōu)化最終的顯著結(jié)果。
1.2.3 小結(jié)
總的說來,雖然基于完全卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測方法相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測方法能更好地保存空間信息,但經(jīng)過卷積、下采樣和上采樣后,最終的特征圖喪失了顯著物體的一些細節(jié),在一定程度上影響了檢測的精度。因此,在此基礎(chǔ)上,基于復(fù)雜的特征融合網(wǎng)絡(luò)結(jié)構(gòu)被提出,如將底層特征和高層特征進行連接,獲得更加豐富的語義信息;在文獻[55]中,作者加入了注意力機制,來進行更加精確的顯著目標(biāo)檢測,從而克服之前的網(wǎng)絡(luò)模型的缺點,提高模型的檢測精度。
顯著性物體檢測近年來得到快速發(fā)展的重要原因是其具有很多公開數(shù)據(jù)集,有系統(tǒng)的評價標(biāo)準。參考了其他綜述文獻中的形式,對這些數(shù)據(jù)集的信息進行了搜集整理,詳細列表如表2所示。表2中主要列舉了數(shù)據(jù)集的名稱、容量,數(shù)據(jù)集中物體的屬性、特點,以及相關(guān)文獻和發(fā)表時間等信息。
表2 顯著物體檢測數(shù)據(jù)集
在這里主要列舉了幾個廣泛應(yīng)用的顯著性物體檢測數(shù)據(jù)集,這些數(shù)據(jù)集中的圖片質(zhì)量都比較清晰,其中數(shù)據(jù)集MSRA-10K[13,16],DUT-OMRON[33],HKU-IS[41],ECSSD[61],DUTS[62]和SOC[64]被廣泛應(yīng)用于深度顯著性物體檢測模型的訓(xùn)練。圖4展示了這6個常用數(shù)據(jù)集的圖片和對應(yīng)的真值。下面對其進行介紹。
Liu等在文獻[13]中公開了第一個用于顯著物體檢測的數(shù)據(jù)集MSRA-B,Cheng等[16]在其基礎(chǔ)上,將原來的只有5000張標(biāo)注物體邊界框的圖像的數(shù)據(jù)集,擴展成為有10K張標(biāo)注顯著物體像素級別標(biāo)注的數(shù)據(jù)集MSRA-10K。如圖4(a)所示,該數(shù)據(jù)集中的圖片目標(biāo)清晰,多為大目標(biāo),并且具有一個目標(biāo)物體的圖片居多,被研究者廣泛使用。
圖4 6種常見的數(shù)據(jù)集中的圖片和真值示例圖
DUT-OMRON是由Yang等[33]在2013年建立的,該數(shù)據(jù)集包含了5168張圖像,每張圖像中有一個或者多個目標(biāo)(見圖4(b)),且目標(biāo)背景復(fù)雜,具有一定的相似性。該數(shù)據(jù)集不僅包含顯著物體檢測的像素級別的真值,還提供了人眼關(guān)注點的真值和物體標(biāo)注框的真值。
HKU-IS是Li等[41]于2015年建立的,該數(shù)據(jù)集包含了4447張圖像,具有多個目標(biāo),并且每個目標(biāo)具有分散性,如圖4(c)所示,背景和目標(biāo)具有相似性,給檢測帶來了一定的難度,具有很大的挑戰(zhàn)性。
ECSSD是Shi等[61]于2015年在CSSD數(shù)據(jù)集[58]的基礎(chǔ)上建立的,將原來200張的數(shù)據(jù)集擴展到1000張,該數(shù)據(jù)集中的圖片具有復(fù)雜的背景結(jié)構(gòu)(見圖4(d)),具有一個或多個目標(biāo),具有一定的檢測難度,也被廣泛使用于各種方法的研究中。
DUTS是Wang等[62]于2017年建立的,該數(shù)據(jù)集包含10553張訓(xùn)練數(shù)據(jù)和5019張測試數(shù)據(jù),總共15572張圖片,適用于基于深度學(xué)習(xí)的檢測方法,需要大量標(biāo)簽的數(shù)據(jù)。該數(shù)據(jù)集的圖片中具有多個目標(biāo),并且目標(biāo)與背景相似度高(見圖4(e)),被廣泛應(yīng)用于基于深度學(xué)習(xí)的方法當(dāng)中。
SOC是Fan等[64]于2018年建立的,該數(shù)據(jù)集有6000張圖片,其中包含3000張具有顯著目標(biāo)的圖片和3000張沒有顯著目標(biāo)的圖片。SOC全稱為Salient Objects in Clutter,譯為雜亂環(huán)境下的顯著對象,該數(shù)據(jù)集具有復(fù)雜背景和非顯著目標(biāo)(如圖4(f)前兩張圖片所示,因其沒有顯著目標(biāo),其真值圖片是一張全黑色的圖片)。SOC建立的目的是面向深度學(xué)習(xí)的方法,作者將該數(shù)據(jù)集分成了3600張訓(xùn)練子集、1200張測試子集和1200張驗證子集。
對顯著性物體檢測的算法效果進行評價的相關(guān)方法,主要是計算其算法得到的顯著圖像與標(biāo)注的真值圖像之間的誤差,其公式表示為
(1)
式中,i為1,2,…,n張圖片中的任意一張圖片;Li為任意一張圖片的真值,即Li的取值為0或1;f(Ii)為對于任意輸入的圖片Ii,通過相關(guān)顯著性物體檢測的算法f(·)得到的顯著圖像的值,這里f(Ii)∈[0,1],0表示背景,1表示顯著值;E為顯著性物體檢測的評價標(biāo)準。而算法優(yōu)化的目標(biāo)是使得非顯著物體所在區(qū)域的像素值趨向于0,顯著物體所在區(qū)域的像素值趨向于1。
為了進行不同方法之間的性能對比,在建立統(tǒng)一的標(biāo)準數(shù)據(jù)集后,需要有統(tǒng)一的評價標(biāo)準和指標(biāo)。目前,關(guān)于顯著性物體檢測的評價指標(biāo)主要有PR曲線(Precision-Recall Curves)、F測度值(F-measure)、平均絕對誤差(Mean Absolute Error,MAE)、接收者操作特征曲線(Receiver Operating Characteristic Curve,ROC)、ROC曲線下方的面積(Area Under the Curve of ROC,AUC ROC)和S測度值(S-Measure)等,下面分別對各評價指標(biāo)進行簡單的介紹。
PR曲線是反映Precision和Recall相互關(guān)系的曲線。其中,Precision指的是查準率,Recall指的是查全率(也譯為召回率),一般將Precision作為PR曲線的縱坐標(biāo),Recall作為PR曲線的橫坐標(biāo)。所謂查準率(Precision)指的是檢測出的正樣本數(shù)與檢測的所有正樣本數(shù)之間的比值,查全率(Recall)指的是正確檢測的正樣本數(shù)占所有正樣本數(shù)的比例。檢測結(jié)果和真實樣本之間的關(guān)系如表3所示。參見表3的示意可以用公式(2)給出其定義:
(2)
表3 檢測結(jié)果和真實樣本之間的關(guān)系表
在實際的顯著性物體檢測過程中,一般用公式(3)進行計算。
(3)
式中,S為檢測方法得出的顯著值;G為真實的實際標(biāo)注的值。在圖5中用通俗易懂的可視化的形式展示了這幾個值的具體對應(yīng)區(qū)域及其相互關(guān)系。其中,白色區(qū)域(綠色框顯示部分)為標(biāo)記的G真值為1的部分,其他區(qū)域(黃色區(qū)域)為真值G的背景0部分;藍色框的區(qū)域為顯著性檢測方法得到的顯著區(qū)域,S與G相交的部分為其重疊的區(qū)域,即為TP,藍色框的區(qū)域去除重疊部分為FP,綠色框的白色區(qū)域去除重疊部分為FN,黑色框的黃色區(qū)域去除畫線段的部分為TN。
圖5 PR值相關(guān)區(qū)域示意圖
這里,與文獻[10]中所比較的方法不同,分別選擇了另外一些傳統(tǒng)顯著性計算方法和基于深度學(xué)習(xí)的計算方法對它們在ECSSD數(shù)據(jù)集上檢測效果進行了測試,得到如圖6所示的PR曲線圖。這些方法包括MR[20],MS[65],RBD[18],RR[66],MST[67],DHS[48],FSN[68],ASNet[69],BDMP[70]和SCRN[71]10種。前5種方法主要是傳統(tǒng)的顯著性計算方法,后5種主要是基于深度學(xué)習(xí)的顯著性計算方法,具體對比參見表4。從PR曲線上來看,一般認為曲線越靠近圖的右上方表示該模型的效果越好。從圖6中可以看出,基于深度學(xué)習(xí)的顯著性計算方法明顯優(yōu)于傳統(tǒng)的顯著性計算方法,因為基于深度學(xué)習(xí)方法的PR曲線的高度都高于傳統(tǒng)方法的PR曲線。
表4 10種方法對比列表
因PR曲線的值不能很好地評估模型的有效性,在文獻[14]中,提出了F測度值(F-measure),簡稱F值。F值是根據(jù)查準率(Precision)和查全率(Recall)加權(quán)和的平均值求得的結(jié)果,當(dāng)一個顯著性物體檢測模型的F值較高時,表示該模型越有效。F值可以通過式(4)計算得出:
圖6 10種方法在ECSSD數(shù)據(jù)集中的PR曲線
(4)
式中β2的值,根據(jù)文獻[16],一般經(jīng)驗性地取0.3。
另外,在文獻[72]中,作者對F值進行了改進,對表3中的4個值進行了非二值化的處理,根據(jù)檢測錯誤的位置分配不同的權(quán)重w,得出了新的F值,為了跟之前F值的進行區(qū)分,其被寫為Fw,表示為
(5)
同樣地,計算了上述10種方法的F值,一般認為F值越大,該方法的檢測效率越好。10種方法在ECSSD數(shù)據(jù)集中的F值如圖7所示。從圖7中可以看出,基于深度學(xué)習(xí)的方法比傳統(tǒng)的方法高出0.2,表明了基于深度學(xué)習(xí)的方法要優(yōu)于傳統(tǒng)的顯著性計算方法。
圖7 10種方法在ECSSD數(shù)據(jù)集中的F值
另外一種關(guān)于F值的曲線圖將統(tǒng)計的閾值和對應(yīng)的F值進行關(guān)聯(lián),如圖8所示。
MAE (Mean Absolute Error)即為平均絕對誤差,反映的是模型的檢測值與實際真值的誤差情況,可表示為式(6)。
(6)
圖8 10種方法在ECSSD數(shù)據(jù)集中的F值和對應(yīng)的閾值曲線圖
式中,w為檢測圖像的寬度;h為檢測圖像的高度;S為檢測模型計算出的顯著值;G為標(biāo)注圖像的真值。將S和G二值化后,通過計算每個像素點在顯著值與真值之間的誤差的平均值,反映出圖像中各個像素點通過模型檢測的正確率。因此,平均絕對誤差值越低,表示模型檢測的精確程度越高。這里,給出了上述的10種方法在ECSSD數(shù)據(jù)集上的MAE值,具體如表5所示,可以看出基于深度學(xué)習(xí)的顯著性計算方法具有較低的MAE值,表示這類方法的檢測正確率比傳統(tǒng)的方法更高。
表5 10種方法在ECSSD數(shù)據(jù)集中的MAE值表
ROC(Receiver Operating Characteristic curve)譯為接收者操作特征曲線,而AUC(Area Under the Curve of ROC)為ROC曲線下的面積。通過表3可知,TP表示檢測為正樣本,實際也是正樣本,而FP表示檢測為正樣本,但實際為負樣本?;诖?,得出兩個比值,即真正率TPR(True Positive Rate)和假正率FPR(False Positive Rate),用式(7)表示。
(7)
由式(7)可知,TPR表示正確被檢測出的正樣本和實際的正樣本的比值,F(xiàn)PR表示被檢測為正樣本的負樣本占實際的負樣本的比值。在ROC曲線中,一般將FPR設(shè)為橫坐標(biāo),TPR設(shè)為縱坐標(biāo)。因得到的顯著值S的灰度值范圍為[0,255],二值化后的區(qū)間為[0,1],通過設(shè)置閾值對像素進行標(biāo)記,若S中的某個像素的值大于閾值則標(biāo)記為1,否則為0,結(jié)合圖5和式(3),最終能計算出TPR和FPR的值。
ROC曲線及其AUC如圖9所示。從圖9中可以看出,如果ROC曲線越靠近左上方,那么檢測結(jié)果效果越好。同時,通過積分可以計算得到AUC的值,其值越大,則表示顯著目標(biāo)檢測算法效果越好。
圖9 ROC曲線及其AUC
以上所有的評測方法主要針對像素級別的誤差評估,但對顯著性物體的結(jié)構(gòu)性特性沒有進行評測,F(xiàn)an等[73]針對以往的評測標(biāo)準忽略了結(jié)構(gòu)相似性,提出新的評測指標(biāo)S-measure。該評測指標(biāo)主要由區(qū)域結(jié)構(gòu)相似性度量和物體結(jié)構(gòu)相似性度量組成,從而更好地評價前景物體,如顯著性物體。具體公式如下:
S=a×So+(1-a)×Sr
(8)
式中,S為結(jié)構(gòu)性評測S度量值(S-measure);a為權(quán)重參數(shù),其取值范圍為[0,1],一般地,a的值設(shè)置為0.5。So為結(jié)構(gòu)相似性度量值:
So=λ×OFG+(1-λ)OBG
(9)
式中,λ為前景區(qū)域與整個圖像區(qū)域的比值。作者通過實驗得出前景和背景具有強烈的對比特性以及內(nèi)部近似均勻分布特性,因此,OFG和OBG分別為前景和背景相似性度量值,將兩者通過λ參數(shù)加權(quán)求和,作為最終的物體結(jié)構(gòu)性度量值So。式(8)中,Sr為區(qū)域結(jié)構(gòu)相似性度量值:
(10)
即在計算區(qū)域相似性度量值時,將真值和檢測的結(jié)果切分成k×k塊,然后用結(jié)構(gòu)性評價指標(biāo)SSIM[74]計算每一塊的ssim(k),再加上每塊占前景的比例權(quán)重wk,最后將每塊的乘積相加得到區(qū)域相似性度量值Sr。通過在相關(guān)數(shù)據(jù)集上進行實驗,表明了S-measure評測指標(biāo)具有很強的魯棒性和穩(wěn)定性,因其計算方式簡單、計算速度快,將被廣泛運用于顯著性物體檢測當(dāng)中。
顯著性物體檢測的相關(guān)方法的不斷出現(xiàn)、數(shù)據(jù)集的不斷更新和評價標(biāo)準的更加有效,使得顯著性物體檢測的應(yīng)用范圍越來越廣。正如在本文開始所述,顯著性物體檢測既可以應(yīng)用于各種任務(wù)的預(yù)處理,也可以用于完成相關(guān)任務(wù)的檢測。本節(jié)介紹了近年來顯著物體檢測在多個領(lǐng)域的應(yīng)用,如表6所示。
表6 顯著性物體檢測在各個領(lǐng)域的應(yīng)用
表6展示了顯著性物體檢測可以應(yīng)用在計算機視覺、計算機圖形學(xué)、多媒體等眾多領(lǐng)域的許多任務(wù)中。下面分別介紹其代表性的工作。
計算機視覺中有各種各樣的視覺任務(wù),這里主要列舉了顯著性物體檢測在目標(biāo)檢測、目標(biāo)識別、目標(biāo)分割和目標(biāo)跟蹤等方面的應(yīng)用。
在目標(biāo)檢測任務(wù)當(dāng)中,主要任務(wù)是把目標(biāo)的輪廓從背景中檢測出來。文獻[75]中指出,針對水下復(fù)雜環(huán)境,如何從大量的水下場景的視頻和圖像中檢測物體的輪廓,是一項具有挑戰(zhàn)的任務(wù);作者提出一種基于顯著性梯度的形態(tài)活動輪廓模型去提取水下目標(biāo)的形狀,活動輪廓模型的停止條件是從顯著性梯度和場景的梯度中得到的,其流程圖如圖10所示。文獻[76]提出了一個基于顏色和運動特征的顯著煙霧檢測模型,該模型首先增強煙霧的顏色和所在區(qū)域,然后將得到的增強的區(qū)域圖和運動圖結(jié)合得到顯著圖,最后利用顯著圖和運動能量圖得到最終的煙霧區(qū)域預(yù)測。
圖10 基于顯著物體檢測的水下目標(biāo)輪廓檢測流程圖
在目標(biāo)識別的任務(wù)當(dāng)中,需要檢測到物體,并識別出物體所屬于的類別。在文獻[77]中,作者針對細粒度圖像識別問題,判別類間物體類別,即在識別出物體所屬鳥類(大類)的同時判斷該物體具體屬于哪種鳥類(小類)。作者提出了一個遞歸注意卷積神經(jīng)網(wǎng)絡(luò)模型用于細粒度圖像的識別,該網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上主要包含3個尺度的子網(wǎng)絡(luò),每個尺度的子網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相同,網(wǎng)絡(luò)參數(shù)不同,在每個尺度的子網(wǎng)絡(luò)中包含兩種類型的網(wǎng)絡(luò):分類網(wǎng)絡(luò)和注意力建議網(wǎng)絡(luò)(Attention Proposal Network,APN)。因此,數(shù)據(jù)流為:輸入圖像通過分類網(wǎng)絡(luò)提取特征并進行分類,然后APN網(wǎng)絡(luò)基于提取到的特征進行訓(xùn)練得到注意區(qū)域信息,再將該區(qū)域剪裁出來并放大,再作為第二個尺度網(wǎng)絡(luò)的輸入,這樣重復(fù)進行3次就能得到3個尺度網(wǎng)絡(luò)的輸出結(jié)果,通過融合不同尺度網(wǎng)絡(luò)的結(jié)果可達到更好的效果。具體流程圖如圖11所示。
在目標(biāo)分割任務(wù)當(dāng)中,主要是將目標(biāo)從背景中分離出來,并且找到目標(biāo)物體的輪廓。在視頻中的目標(biāo)分割使用較多,這部分的文獻有文獻[78]和文獻[79],兩篇論文中均使用了顯著性物體檢測作為其分割的預(yù)處理過程。文獻[78]中,作者提出了一個融合運動信息和圖像顯著特性的目標(biāo)分割模型,該模型通過光流法得到了運動顯著信息,再與區(qū)域?qū)Ρ鹊娘@著性方法得到的顯著圖進行組合,通過閾值設(shè)置,達到目標(biāo)分割的目的,可以很好地應(yīng)用于靜態(tài)和動態(tài)的目標(biāo)分割。文獻[79]中,Wang等提出了視頻目標(biāo)分割模型,該模型利用光流得到運動邊界,再結(jié)合靜態(tài)的邊界概率圖和超像素塊分割圖得到時空邊界概率圖,通過測地距離得到初始的顯著圖,最后再融合全局外觀模型(Global Appearance Model)和動態(tài)定位模型(Dynamic Location Model)得到最終的分割結(jié)果,如圖12所示。
圖11 遞歸注意卷積神經(jīng)網(wǎng)絡(luò)的細顆粒度圖像識別流程圖[77]
圖12 基于顯著性檢測的視頻目標(biāo)分割流程圖[79]
目標(biāo)跟蹤任務(wù)中,需要先檢測出目標(biāo),在目標(biāo)后續(xù)的運動幀當(dāng)中,根據(jù)目標(biāo)的位置變化和大小變化等,實現(xiàn)目標(biāo)的鎖定。文獻[80]提出了一種基于視覺顯著性的海上目標(biāo)跟蹤方法,該檢測方法在自適應(yīng)滯后閾值的顯著性映射的布爾映射顯著性(BMS)方法[86]的基礎(chǔ)上進行改進,從而抑制海上目標(biāo)的尾跡和表面閃爍的檢測問題來減少假陽性,然后將檢測的結(jié)果匹配到幀,進行跟蹤,并用卡爾曼濾波器平滑軌跡,對海上船只具有較好的檢測效果。具體示意圖如圖13所示。
圖13 基于顯著性檢測的海上目標(biāo)跟蹤示意圖[80]
在計算機圖形學(xué)領(lǐng)域,顯著性物體檢測也有廣泛的應(yīng)用。顯著性物體檢測算法一般先找到圖片中的最顯著的目標(biāo),通過其他方法再次優(yōu)化該目標(biāo),然后實現(xiàn)背景和目標(biāo)的分離、目標(biāo)的大小調(diào)整、顏色渲染和縮放等操作,如文獻[81]中所述。文獻[82]將顯著性檢測方法應(yīng)用在圖像處理當(dāng)中。
在多媒體領(lǐng)域,主要涉及圖像和視頻的壓縮和圖像的檢索。如在文獻[83]中,作者將顯著性檢測方法應(yīng)用在圖像壓縮方面,從而以較少的計算量來產(chǎn)生高質(zhì)量的壓縮圖像,實現(xiàn)高壓縮率。在文獻[84]中,作者將顯著性檢測方法應(yīng)用在圖像檢索當(dāng)中,從而獲得較高的圖像檢索能力。
程明明及其團隊在2017年成功地將顯著性物體檢測的相關(guān)成果應(yīng)用在華為Mate10手機當(dāng)中[85],使得手機的攝像機能夠?qū)崿F(xiàn)類似于單反相機的功能,能夠鎖定場景中的顯著物體,并且對背景進行虛化,從而突出拍攝者想拍攝的目標(biāo)。如圖14所示,顯示了未使用該項技術(shù)拍攝的圖片和使用該項技術(shù)拍攝的圖片,從圖像中可以明顯看出,使用顯著性檢測方法拍攝的圖片目標(biāo)更加清晰,輪廓更加顯著。
圖14 顯著性檢測方法在華為Mate10上的應(yīng)用
因視覺顯著性的特性,其相關(guān)方法也被用在物體表面缺陷檢測中。如文獻[87]和文獻[88]利用顯著性的特點,將其與其他方法結(jié)合,用來檢測存在表面缺陷的物體,從而幫助提高檢測的效率。當(dāng)然,隨著顯著性相關(guān)方法的發(fā)展,未來越來越多的應(yīng)用將與相關(guān)方法結(jié)合起來,從而更好地幫助人們解決實際應(yīng)用中的問題。
本文主要介紹了顯著性物體檢測的方法、數(shù)據(jù)集、評價標(biāo)準及其在多個領(lǐng)域的應(yīng)用??偟恼f來,顯著性物體檢測仍然是一個非常具有挑戰(zhàn)性的工作,具有十分重要的研究價值。目前,顯著性物體檢測的首選方法是基于深度學(xué)習(xí)的方法,具有較高的檢測精度,可適應(yīng)于復(fù)雜場景下的物體檢測。未來,顯著性物體檢測將更加關(guān)注網(wǎng)絡(luò)模型的大小、檢測的精度以及實時性方面,作為視覺任務(wù)的前序的預(yù)處理,為各種實際的應(yīng)用任務(wù)服務(wù)。當(dāng)然,基于顯著性物體檢測也可拓展為其他的研究方向,如最近Fan等[89]提出了偽裝物體檢測,提出了相應(yīng)的數(shù)據(jù)集和檢測標(biāo)準,為顯著性物體的檢測提供了一個新的挑戰(zhàn)方向。
另外,本文初始部分提到過,人類的選擇性視覺注意機制包含兩個方面,一個是選擇場景中比較醒目的區(qū)域,既涉及自下而上的視覺處理過程,也涉及自頂向下的視覺處理過程;另一個是選擇場景中感興趣的區(qū)域,主要涉及自頂向下的視覺處理過程。比較醒目的區(qū)域與感興趣的區(qū)域在視覺場景中并不總是一致的。例如,駕駛員在駕駛車輛行駛在道路上時,需要經(jīng)常關(guān)注交通標(biāo)志牌和信號燈,以便于按照交規(guī)采取正確的行動,然而在復(fù)雜的交通場景中,交通標(biāo)志牌和信號燈常常未處于醒目位置。到目前為止,在視覺注意力相關(guān)的研究中,人們關(guān)注的基本都是比較醒目的區(qū)域,對于感興趣區(qū)域的視覺選擇注意方面,未有有效的研究。關(guān)于感興趣區(qū)域的視覺選擇注意模型和計算方法的研究具有極大的挑戰(zhàn)性,并且在這一方面的突破將有助于視覺信息處理技術(shù)、類腦計算等領(lǐng)域的發(fā)展,值得相關(guān)學(xué)者關(guān)注研究。