国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視覺注意力檢測綜述?

2019-03-05 03:45:50王文冠沈建冰賈云得
軟件學(xué)報 2019年2期
關(guān)鍵詞:關(guān)注點人眼注意力

王文冠,沈建冰,賈云得

(智能信息技術(shù)北京市重點實驗室(北京理工大學(xué)),北京 100081)

人類的視覺系統(tǒng)(human visual system)具有極強(qiáng)的感知和數(shù)據(jù)處理能力,有研究顯示[1,2],每秒約有 108~109字節(jié)的數(shù)據(jù)進(jìn)入人眼.認(rèn)知科學(xué)領(lǐng)域的研究表明[3,4],視覺注意力機(jī)制(visual attention mechanism)是人類視覺系統(tǒng)具備如此驚人數(shù)據(jù)處理能力的重要基礎(chǔ):在處理視覺數(shù)據(jù)的初期,人類視覺系統(tǒng)會迅速將注意力集中在場景中的重要區(qū)域上,這一選擇性感知機(jī)制極大地減少了人類視覺系統(tǒng)處理數(shù)據(jù)的數(shù)量,從而使人類在處理復(fù)雜的視覺信息時,能夠抑制不重要的刺激,將有限的神經(jīng)計算資源分配給場景中的關(guān)鍵部分,為更高層次的感知推理和更復(fù)雜的視覺處理任務(wù)(如物體識別[5]、場景分類[6]、視頻理解[7]等),提供更易于處理且更相關(guān)的信息.從人類生理機(jī)理的角度而言,人類的視覺注意力機(jī)制基于視網(wǎng)膜的特殊生理結(jié)構(gòu):高分辨率的視網(wǎng)膜中央凹(central fovea)和較低分辨率的邊緣視網(wǎng)膜(periphery).視網(wǎng)膜的中央凹區(qū)域集中了絕大多數(shù)的視錐細(xì)胞(cone cells),負(fù)責(zé)視力的高清成像.當(dāng)人類關(guān)注某一物體時,通過轉(zhuǎn)動眼球,將光線集中到中央凹,從而獲取顯著區(qū)域的更多細(xì)節(jié)而忽略其他不相關(guān)區(qū)域的信息.可見,人類視覺注意力機(jī)制引導(dǎo)視網(wǎng)膜的生理結(jié)構(gòu),完成對場景信息的選擇性收集任務(wù).而在計算機(jī)視覺領(lǐng)域,主要的研究問題在于怎樣建立合適的計算模型來解釋這種人類視覺注意力機(jī)制的潛在機(jī)理.在計算機(jī)視覺信息處理過程中引入注意力機(jī)制,不僅可以將有限的計算資源分配給重要的目標(biāo),而且能夠產(chǎn)生出符合人類視覺認(rèn)知要求的結(jié)果.因此,視覺注意力檢測已經(jīng)成為計算機(jī)視覺領(lǐng)域的研究熱點,得到學(xué)界的大力關(guān)注.

人類視覺注意力機(jī)制研究起源于認(rèn)知心理學(xué)(cognitive psychology)和神經(jīng)科學(xué)(neuroscience),早期的代表工作可以追溯到Koch和Ullman的著作[8].Itti等人[9]利用認(rèn)知心理學(xué)中的經(jīng)典理論——特征整合理論(feature integration theory,簡稱FIT)[10]和指向搜索模型(guided search model)[11]提出了早期的人類視覺注意力機(jī)制的計算模型,并將人類視覺顯著性檢測研究引入了計算機(jī)視覺領(lǐng)域,該任務(wù)也被稱為人眼關(guān)注點檢測(human eye fixation prediction).在 Itti等人的工作后,學(xué)界提出了大量的視覺顯著性計算模型,這些模型對人眼在場景中某一個位置停留的可能性進(jìn)行預(yù)測.隨著計算機(jī)視覺的進(jìn)一步發(fā)展,針對目標(biāo)物體級別的理解顯得尤為重要,在此背景下,視覺顯著性檢測出現(xiàn)了另一個重要的分支——顯著物體檢測(salient object detection).這一分支的早期研究有Liu等人[12]和Achanta等人[13]的工作,強(qiáng)調(diào)對場景中顯著目標(biāo)整體的準(zhǔn)確預(yù)測并且獲取清晰的顯著物體邊界,為物體級別的視覺任務(wù)(如目標(biāo)檢測[14]、目標(biāo)備選提取[15]、視頻摘要[16]、基于內(nèi)容感知的圖像裁剪[17,18]、目標(biāo)跟蹤[19]等)提供更直接更有效的信息.

與同類文獻(xiàn)相比,本文的主要貢獻(xiàn)如下.

(1)對視覺注意力檢測在近年來的代表性方法進(jìn)行了系統(tǒng)和全面的研究,并根據(jù)輸入數(shù)據(jù)的不同,將上述模型進(jìn)一步劃分為動態(tài)視頻和靜態(tài)圖像的視覺顯著性檢測模型.

(2)對近年來基于深度學(xué)習(xí)的視覺注意力計算模型進(jìn)行了研究和分析,對它們的典型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了闡述和分類.

(3)對人眼關(guān)注點檢測以及顯著物體檢測領(lǐng)域的代表性實驗數(shù)據(jù)集、算法的性能評估指標(biāo)進(jìn)行了討論和總結(jié).

(4)對經(jīng)典的人眼關(guān)注點檢測和顯著物體檢測模型,在靜態(tài)及動態(tài)場景下的性能進(jìn)行了定量分析,并探討了視覺注意力檢測領(lǐng)域未來的發(fā)展趨勢.

本文第1節(jié)對人眼關(guān)注點檢測模型進(jìn)行綜述.第2節(jié)介紹顯著物體檢測領(lǐng)域的代表性工作、主要假設(shè)以及基于深度學(xué)習(xí)的算法.第 3節(jié)介紹人眼關(guān)注點檢測和顯著物體檢測領(lǐng)域常用的數(shù)據(jù)集.第 4節(jié)介紹人眼關(guān)注點檢測和顯著物體檢測領(lǐng)域用于算法性能評估的指標(biāo).第 5節(jié)針對當(dāng)前經(jīng)典的人眼關(guān)注點檢測模型以及顯著物體檢測模型,在靜態(tài)及動態(tài)場景下的性能進(jìn)行定量評估.第 6節(jié)對視覺注意力檢測這一研究領(lǐng)域未來的發(fā)展趨勢進(jìn)行展望.

1 人眼關(guān)注點檢測模型

人眼關(guān)注點檢測是指通過數(shù)學(xué)建模的方式模擬人類視覺注意系統(tǒng)的機(jī)能,對圖像或視頻中不同位置受到視覺關(guān)注的概率進(jìn)行計算,通過與真實的人類眼動數(shù)據(jù)相比對,能夠?qū)δP皖A(yù)測的視覺顯著性結(jié)果進(jìn)行量化評估.設(shè)有K個觀測對象注視了N張圖像為觀測對象在觀測第n張圖像時的眼動數(shù)據(jù)(人眼關(guān)注點位置),人眼關(guān)注點檢測任務(wù)可以定義為:找到一個刺激-注意力變換函數(shù)(stimuli-saliency mapping function)f∈F.該函數(shù)通過最小化人眼關(guān)注點預(yù)測誤差得到,如式(1)所示.

這里,m∈M被定義為一種人眼關(guān)注點真值與顯著性預(yù)測的距離度量(參見第4.1節(jié)).

這一領(lǐng)域早期的代表性工作是Koch等人[8]于1985年提出的視覺選擇性注意理論.他們在對靈長類動物和人類視覺系統(tǒng)進(jìn)行研究的基礎(chǔ)上,提出了視覺注意力分配過程中的3個要素.

(1)圖像中的一些基本底層特征:顏色、朝向、運(yùn)動方向和差異;

(2)視覺選擇性注意機(jī)制的一個重要功能,是使不同圖像之間的信息變成一個連貫的整體;

(3)WTA 機(jī)制,即贏者取全(winner-take-all)的競爭機(jī)制,在視覺注意過程中,先選擇最明顯的目標(biāo),然后選擇次明顯目標(biāo).

1998年,Itti等人[9]基于Koch等人的理論以及認(rèn)知心理學(xué)經(jīng)典的特征整合理論[10]、指向搜索模型[11],提出了首個視覺顯著性的計算模型,其算法流程主要含有3個步驟:提取顏色、亮度和朝向這3種初級視覺特征;在多尺度下使用中央-周圍對比度(center-surrounding contrast)計算3種體現(xiàn)顯著性的特征圖(顯著特征提取);對特征圖進(jìn)行歸一化處理,然后進(jìn)行特征圖的合成(特征融合),運(yùn)用WTA機(jī)制標(biāo)注出圖像中的顯著目標(biāo).該算法對后來計算機(jī)視覺領(lǐng)域中視覺顯著性計算模型的研究產(chǎn)生了重要影響,尤其是在深度學(xué)習(xí)技術(shù)得到大規(guī)模運(yùn)用之前,主流的顯著性檢測算法都采用了類似的框架.

1.1 靜態(tài)場景中的人眼關(guān)注點檢測模型

在Itti的工作之后,計算機(jī)視覺領(lǐng)域出現(xiàn)了大量關(guān)于人眼注意點檢測的工作,這些工作主要關(guān)注靜態(tài)圖像中的視覺顯著性檢測.根據(jù)這些模型所采用的人類視覺注意力機(jī)制的作用機(jī)理,可以將其劃分為兩種:自底向上(bottom-up)的模型和自頂向下(top-down)的模型.

自底向上的模型[20-25]受數(shù)據(jù)的驅(qū)動,典型的例子是人類在自由觀看(free-viewing)模式下分配視覺注意力的情形.這類模型主要利用圖像中的顏色、亮度、邊緣等特征,考慮像素與周圍領(lǐng)域在特征上的差異,計算該像素的顯著性.Itti等人在 1998年的工作[9]就是這一類模型的典型代表.中央-周圍(center-surround)原理是自底向上模型使用最多的理論,相關(guān)研究結(jié)果表明,視覺神經(jīng)元往往只針對一個較小的中心區(qū)域敏感,如果在中心的周圍區(qū)域也產(chǎn)生刺激,那么這個刺激會抑制中心區(qū)域?qū)σ曈X神經(jīng)元的刺激,這意味著視覺神經(jīng)元對局部空間的不連續(xù)性較為敏感,容易注意到那些與局部周圍鄰域?qū)Ρ容^為明顯的位置,這也是視網(wǎng)膜、外側(cè)膝狀體和底層視覺皮層的工作原理.為了檢測局部中心與周圍鄰域間的對比度(contrast),相關(guān)工作往往在不同的尺度上采用不同的特征進(jìn)行計算,得到的差異度被作為估計最終顯著性結(jié)果的依據(jù).

自頂向下的模型[26-28]主要受任務(wù)驅(qū)動,受到人類主觀意識的影響,包括先驗性知識、當(dāng)前的目標(biāo)或?qū)ξ磥淼念A(yù)期.例如在等待客人時,人的注意力會集中在門的位置;或者在監(jiān)控場景下,場景中的人往往更能引起監(jiān)控者的注意.自頂向下的模型需要考慮高層的先驗信息,例如人臉、車輛等,因此在基于特定任務(wù)數(shù)據(jù)上使用機(jī)器學(xué)習(xí)算法進(jìn)行建模的方式,成為這類工作的主流.由于在自頂向下的注意力機(jī)制中,人類個體的情感、意志等主觀因素難以控制,絕大部分人眼關(guān)注點檢測算法都屬于自底向上的模型.自底向上和自頂向下模型是基于不同的視覺注意力機(jī)制,根本機(jī)理不同.從人類認(rèn)知學(xué)角度而言,自底向上模型主要是研究人類注意力機(jī)制的早期機(jī)制,數(shù)據(jù)驅(qū)動和任務(wù)、人的主觀情感無關(guān);而自頂向下的模型綜合人類復(fù)雜推理和認(rèn)知過程,和人類的心理活動、當(dāng)下的主觀情感相關(guān).而自底向上的注意力機(jī)制是人在放松狀態(tài)下,不加思考地自由觀看場景時的視覺選擇性特性,和人的主觀個人因素關(guān)聯(lián)較少,因此在計算機(jī)視覺領(lǐng)域,主要研究重點在自底向上的注意力機(jī)制,因為外部變量可控,內(nèi)部變量影響少,而自頂向下模型主要在認(rèn)知心理學(xué)相關(guān)領(lǐng)域有較多研究.

從Itti等人的工作[9]開始,傳統(tǒng)的人眼關(guān)注點檢測模型的計算框架主要是基于Treisman和Gelade的經(jīng)典特征融合理論[10].該理論通過對人類視覺系統(tǒng)的研究,描述了不同視覺特征的融合,能夠?qū)θ祟惖囊曈X注意力機(jī)制產(chǎn)生引導(dǎo)作用.基于這一理論,傳統(tǒng)的人眼關(guān)注點檢測模型主要包含 3個步驟:(1)顯著性特征提取;(2)基于顯著特征的顯著性圖推斷;(3)不同特征的顯著性圖融合.在顯著性特征提取階段,首先檢測不同的底層顯著性特征,如顏色、紋理等.在顯著性推斷階段,根據(jù)中央-周圍理論,計算中央?yún)^(qū)域與不同尺度上的周圍區(qū)域的差異,如考慮局部鄰域[9,23,27],或更大范圍的全局鄰域[20,22,24].由于上述過程同時使用不同的特征對顯著性進(jìn)行推斷,因此在最后一步,需要融合不同特征得到的顯著性圖,這一融合過程可以基于不同的計算方式,如通過手工定義的線性組合權(quán)重[9],或通過支持向量機(jī)(support vector machine,簡稱SVM)訓(xùn)練得到組合權(quán)重[25].

近年來,隨著深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域的興起,基于深度神經(jīng)網(wǎng)絡(luò)的顯著性檢測模型[29-36]已經(jīng)成為主流.這些模型利用大規(guī)模的眼動數(shù)據(jù)集[37]以及深度學(xué)習(xí)技術(shù)的強(qiáng)大學(xué)習(xí)能力,達(dá)到了遠(yuǎn)好于傳統(tǒng)模型的性能.在著名的公共人眼關(guān)注點檢測數(shù)據(jù)集MIT300[38]上,排名前10的顯著性檢測模型均使用了深度學(xué)習(xí)技術(shù),其中,eDN模型[29]是利用深度神經(jīng)網(wǎng)絡(luò)來對視覺注意機(jī)制進(jìn)行建模的早期代表性工作,此后相繼提出了 DeepFix模型[30]、SALICON 模型[31]、Mr-CNN 模型[32]、Shallow and Deep模型[33]、attentive LSTM 模型[34]、DVA 模型[35].這些工作的研究思路主要是探討更復(fù)雜更有效的網(wǎng)絡(luò)結(jié)構(gòu).Jetle等人[36]測試了多個損失函數(shù),這些損失函數(shù)主要基于概率理論的距離測度,實驗結(jié)果表明,基于Bhattacharyya距離測度的損失函數(shù)能夠給出最好的訓(xùn)練效果.

1.2 動態(tài)場景中的人眼關(guān)注點檢測模型

在顯著性檢測領(lǐng)域中,有很多工作研究了如何模擬人類在觀看圖像時的視覺注意力機(jī)制,但關(guān)于動態(tài)場景下人類如何分配視覺注意力的研究相對較少,動態(tài)視覺注意力機(jī)制在人類日常行為中卻更為普遍且更為重要.與靜態(tài)的視覺注意力檢測相比,動態(tài)視頻中的運(yùn)動信息為人眼關(guān)注點檢測提供了很強(qiáng)的引導(dǎo),然而,背景區(qū)域中的運(yùn)動同樣也會產(chǎn)生強(qiáng)烈的干擾,此外,光流模型計算運(yùn)動信息時產(chǎn)生的計算誤差也會給動態(tài)顯著性檢測帶來很大的負(fù)面影響.

早期的動態(tài)人眼關(guān)注點檢測的研究工作[39-46]主要為自底向上的模型,這些模型通過將靜態(tài)顯著性特征和時間域信息(如光流場、時域差分等)相結(jié)合,檢測動態(tài)場景下的視覺注意力,其中大部分工作[39-41]都可被看作是已有靜態(tài)顯著性模型的基礎(chǔ)上考慮運(yùn)動信息后的擴(kuò)展.例如,Gao等人[39]通過在圖像顯著性檢測模型[47]中添加額外的運(yùn)動信息,來計算視頻上的顯著性.類似的,Mahadevan等人[40]利用文獻(xiàn)[47]中的模型,將中心-周圍對比度顯著性與動態(tài)紋理特征相結(jié)合;Guo等人[48]采用傅里葉變換的相位譜(phase spectrum of the Fourier transform)計算動態(tài)顯著性;Seo等人[41]利用局部回歸算子(local regression kernel)計算視頻中像素或超體素和周圍區(qū)域的相似性;Rahtu等人[49]利用統(tǒng)計模型和局部特征(如光照、顏色和運(yùn)動信息)上的對比度來計算視頻顯著性.這些模型嚴(yán)重依賴于特征工程,因而模型的性能受到了手工設(shè)計特征的限制.

目前,基于深度學(xué)習(xí)的人眼關(guān)注點檢測模型非常少[50-52],主要原因是動態(tài)場景的眼動數(shù)據(jù)集的數(shù)量較少且規(guī)模普遍較小.其中,

· Bak等人[50]使用了經(jīng)典的雙流網(wǎng)絡(luò)架構(gòu)(two-stream network),將提取靜態(tài)表觀特征的網(wǎng)絡(luò)與提取運(yùn)動特征的網(wǎng)絡(luò)相結(jié)合.

· Jiang等人[51]使用兩層長短期記憶神經(jīng)網(wǎng)絡(luò)(long-short-term memory network),與用于檢測似物性(objectness)、光流和靜態(tài)表觀特征的網(wǎng)絡(luò)相結(jié)合.

· Wang等人[52]提出了基于卷積長短期記憶神經(jīng)網(wǎng)絡(luò)(convolutional long short-term memory network)的動態(tài)人眼關(guān)注點檢測模型.該模型通過加入靜態(tài)注意力模塊(attentive module),將動態(tài)和靜態(tài)顯著性特征的提取進(jìn)一步解耦合,并充分利用現(xiàn)有的大規(guī)模靜態(tài)眼動數(shù)據(jù),對整個網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行充分的訓(xùn)練;同時,該網(wǎng)絡(luò)設(shè)計還避免了之前動態(tài)顯著模型需要進(jìn)行耗時的光流計算的缺陷,進(jìn)一步提升了檢測速度.

相對于之前基于手工特征的動態(tài)顯著性計算模型而言,這些基于深度學(xué)習(xí)的工作取得了更好的性能,同時也證明了將神經(jīng)網(wǎng)絡(luò)用于解決該問題的潛在優(yōu)勢.

2 顯著物體檢測模型

與人眼關(guān)注點檢測任務(wù)相比,顯著物體檢測任務(wù)的研究歷史相對較短,且該任務(wù)是一個純計算機(jī)視覺任務(wù),Liu等人[12]和Achanta等人[13]的研究是該領(lǐng)域的早期代表性工作.2007年,Liu等人[12]正式提出了顯著物體檢測任務(wù),可以視為視覺注意力機(jī)制在物體分割任務(wù)上的延拓,提出的背景是計算機(jī)視覺領(lǐng)域從底層視覺處理任務(wù)向高層視覺理解方向的深入,對物體級別的感知和描述成為相關(guān)研究的關(guān)鍵.Liu等人使用了不同尺度下的對比度(multi-scale contrast)、中心-周圍直方統(tǒng)計(center-surround histogram)以及顏色空間分布(color spatialdistribution)這 3種顯著性度量方式,之后,使用條件隨機(jī)場(conditional random field)對這些顯著性特征進(jìn)行整合,同時也提出了第1個顯著物體檢測數(shù)據(jù)集,并引入了查準(zhǔn)率(precision)、查全率(recall)、F-值(F-measure)這3個重要的評估指標(biāo).2009年,Achanta等人[13]在Liu等人工作的基礎(chǔ)上,提出了在頻率域(frequency domain)上對顯著物體進(jìn)行快速檢測的方法,該工作給出了查準(zhǔn)率-查全率曲線(precision-recall curve),并進(jìn)一步優(yōu)化了F-值的定義,這兩種評估指標(biāo)成為日后顯著物體檢測領(lǐng)域最常用的評估指標(biāo).Liu等人[12]和Achanta等人[13]的研究為顯著物體檢測這一方向上的后續(xù)工作奠定了基礎(chǔ).

設(shè)有N張圖像和相應(yīng)的顯著物體真值標(biāo)定,這里為第n張圖像的顯著性二值化標(biāo)定,基于以上定義,顯著物體檢測任務(wù)可以定義為:找到一個圖像-顯著物體預(yù)測函數(shù)f∈F,該函數(shù)可以通過最小化顯著物體預(yù)測誤差得到,如式(2)所示.

這里,m∈M被定義為一種顯著物體真值標(biāo)定與顯著物體預(yù)測的距離度量(參見第 4.2節(jié)).顯著物體真值可以通過觀測對象的眼動數(shù)據(jù)進(jìn)行標(biāo)定,這表示顯著物體檢測和人眼關(guān)注點檢測兩者間存在著密切的相關(guān)性.

2.1 圖像顯著物體檢測模型

早期的圖像顯著物體檢測模型[53-57]主要基于自底向上的方法,使用了不同的底層視覺特征,如顏色、邊緣等,由于顯著物體檢測與人眼關(guān)注點檢測任務(wù)關(guān)系密切,都是對人類視覺注意力機(jī)制的建模,因此早期的顯著物體檢測模型也借鑒了人類視覺注意力機(jī)制的一些基本理論,包括經(jīng)典的對比度假設(shè)、中心-周圍假設(shè).比如,Liu等人[12]和 Achanta等人[13]都使用了這兩種假設(shè),Cheng等人[53]也使用了類似的假設(shè),他們考慮了局部和全局范圍上的顏色對比度信息,算法簡潔明了,得到了學(xué)界的廣泛關(guān)注.此外,Yan等人[55]提出通過對圖像進(jìn)行不同尺度的過分割,完成在不同尺度上表觀一致的圖像表達(dá),并在不同尺度上對顯著性特征進(jìn)行提取和融合優(yōu)化,來得到最終顯著物體檢測結(jié)果.視覺中心偏移(center bias)也是一個常用的基于人類注意力機(jī)制的假設(shè)[55].該假設(shè)基于這樣的現(xiàn)象:人類在觀測場景時,視覺系統(tǒng)具有向場景中央分配較高注意力權(quán)重的傾向.之后,流行的假設(shè)是背景先驗假設(shè)(background prior),該假設(shè)在2012年由Wei等人[54]提出.與中心-周圍假設(shè)和視覺中心偏移假設(shè)嘗試定義“什么更有可能是顯著區(qū)域”不同,該假設(shè)嘗試定義“什么更有可能是背景”.該假設(shè)基于這樣的觀察:在大部分場景中,圖像四周邊緣的部分屬于背景的概率較大.該假設(shè)可視為對視覺中心偏移假設(shè)的進(jìn)一步發(fā)展,在深度學(xué)習(xí)技術(shù)得到大規(guī)模應(yīng)用之前,背景先驗假設(shè)是顯著性檢測領(lǐng)域最有效的假設(shè),絕大多數(shù)性能優(yōu)異的模型[58-62]都基于這一假設(shè),這些工作主要關(guān)注如何進(jìn)一步提高背景先驗假設(shè)的準(zhǔn)確度以及如何應(yīng)用更先進(jìn)的單分類器(one-class classifier).通過背景先驗假設(shè),相當(dāng)于獲取了一類(背景)樣本,那么該問題可被視為只給出1類樣本的單類分類(one-class classification)問題.例如,Jiang等人[59]的工作可被視為基于可吸收隨機(jī)游走算法的單分類器,Wei等人[54]和Zhang等人[61]的工作則是通過不同的距離度量方式對樣本進(jìn)行分類.

隨著深度學(xué)習(xí)技術(shù)在圖像分類問題上取得巨大的成功,顯著物體檢測領(lǐng)域的研究重心也逐漸向基于深度學(xué)習(xí)的模型偏移.稍早期的工作(2015年~2016年)使用了深度學(xué)習(xí)特征作為更有效的顯著性表達(dá),并使用全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.例如,Zhao等人[63]的工作使用深度神經(jīng)網(wǎng)絡(luò)預(yù)測圖像超像素(superpixel)或目標(biāo)物體備選(object proposal)的顯著性值,從而將顯著物體檢測任務(wù)轉(zhuǎn)換為對圖像超像素或目標(biāo)物體備選的分類問題(顯著/不顯著);Wang等人[64]使用兩個深度網(wǎng)絡(luò)分別用于預(yù)測局部超像素和全局目標(biāo)物體備選的顯著性值;Li等人[65]利用每個超像素在不同尺度上的深度學(xué)習(xí)特征,提取上下文信息(contextual information),然后,通過分類網(wǎng)絡(luò)來對每個超像素是否顯著進(jìn)行分類;Lee等人[66]將深度特征作為高層信息,將Gabor濾波響應(yīng)、顏色直方統(tǒng)計等作為底層特征,融合不同層次的顯著性信息后進(jìn)行顯著性預(yù)測.這類模型取得了較好的性能,但存在一些缺陷,比如,由于使用了基于全連層(fully connected layer)的分類網(wǎng)絡(luò),這類模型的參數(shù)量較大且損失了空間信息;同時,由于需要對每一個超像素或目標(biāo)物體備選進(jìn)行顯著/不顯著分類,這類算法的計算代價較大.

隨著全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network)的興起,近年來(2016年~2018年),基于深度學(xué)習(xí)的顯著物體檢測工作都使用或改造了全卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行像素級別的顯著性預(yù)測.例如,Wang等人[67]將深度學(xué)習(xí)技術(shù)與之前的顯著性先驗相結(jié)合,利用顯著性先驗獲取初始的顯著性估計,然后,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network)來對初始的顯著性先驗進(jìn)行優(yōu)化.有一些工作[68-72]受到像素級語義分割任務(wù)的啟發(fā),提出將不同神經(jīng)網(wǎng)絡(luò)層的特征相融合來進(jìn)行顯著物體檢測.由于深度神經(jīng)網(wǎng)絡(luò)的較淺層網(wǎng)絡(luò)能夠保留較多較細(xì)粒度的底層視覺特征,而較深層的網(wǎng)絡(luò)能夠提取更高層的、語義級的特征,因而,融合不同神經(jīng)網(wǎng)絡(luò)層的特征既能保留原有的底層空間信息,又能獲得高層語義信息.目前,基于深度學(xué)習(xí)技術(shù)的顯著物體檢測工作的主要研究重心是探索更有效、能保留更多空間細(xì)節(jié)的網(wǎng)絡(luò)結(jié)構(gòu).例如,Zhang等人[68]利用不同尺度輸入得到了深度信息,Hou等人[69]將每一層的深度神經(jīng)網(wǎng)絡(luò)特征都進(jìn)行互連.除此之外,2018年,Wang等人[70]提出了通過視覺注意力先驗來檢測視覺顯著物體的 ASNet模型.該模型將視覺注意力作為對整個場景的高層次理解,通過較高層的神經(jīng)網(wǎng)絡(luò)層進(jìn)行學(xué)習(xí),顯著物體檢測任務(wù)則被視為更細(xì)粒度的、物體層面的顯著性檢測,由視覺注意力提供自頂向下地引導(dǎo).ASNet模型基于堆棧卷積長短期記憶神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)特有的循環(huán)結(jié)構(gòu)能夠迭代地優(yōu)化顯著性檢測結(jié)果.該工作為視覺注意力機(jī)制提供了更深層次的解讀,揭示了顯著物體檢測和人眼關(guān)注點檢測二者之間的關(guān)聯(lián)性.就整體而言,基于深度學(xué)習(xí)的顯著物體檢測模型取得了遠(yuǎn)超傳統(tǒng)模型的性能.

2.2 視頻顯著物體檢測模型

早期的動態(tài)視覺顯著性模型主要關(guān)注動態(tài)場景下的人眼關(guān)注點檢測任務(wù),針對視頻顯著物體檢測的研究,可以追溯到 Liu等人[73]和 Wang[74]等人的工作.2014年,Liu等人[73]提出在超像素級別上,利用運(yùn)動和表觀信息來檢測視頻中的顯著物體整體.Wang等人[74]提出了梯度流場(gradient flow field)和全局顯著物體連續(xù)性假設(shè),首先,利用目標(biāo)的表觀和運(yùn)動的不連續(xù)性,計算光流梯度幅值和顏色梯度幅值,建立梯度流場來確定顯著物體的初始位置,結(jié)合局部和全局顯著性線索進(jìn)一步優(yōu)化;然后,利用視頻顯著物體在時空域上連續(xù)的假設(shè),建立全局顯著性優(yōu)化方程,得到最終的時空域平滑的顯著物體估計結(jié)果.該工作同時提出了第 1個專門用于顯著物體檢測的數(shù)據(jù)集ViSal,并將查準(zhǔn)率-查全率曲線和MAE值這兩個評估指標(biāo)用于視頻顯著物體檢測任務(wù).

關(guān)于視頻顯著物體檢測的工作逐年增多.2015年,Wang等人[75,76]進(jìn)一步提出了基于測地距(geodesic distance)的視頻顯著物體檢測算法,并將顯著物體檢測用于無監(jiān)督的視頻分割.該算法通過建立幀內(nèi)和幀間圖模型對視頻幀內(nèi)和幀間信息進(jìn)行建模,并使用測地距在幀內(nèi)和幀間圖模型上對每個超像素的顯著性進(jìn)行度量,因為測地距能夠較好地獲取相應(yīng)的結(jié)構(gòu)化信息.Kim 等人[77]提出了基于重啟動隨機(jī)游走(random walk with restart,簡稱RWR)的視頻顯著物體檢測算法.該算法將空間域的顯著性作為隨機(jī)游走的重啟動分布,利用空間特征建立隨機(jī)游走的轉(zhuǎn)移概率矩陣,將達(dá)到穩(wěn)定狀態(tài)時相應(yīng)的概率分布作為最終的時空顯著物體估計.2017年,Liu等人[78]通過對顯著性檢測結(jié)果在時間域上的迭代更新,進(jìn)一步發(fā)展了他們之前的工作[73].此外,還有Guo等人[79]提出的基于目標(biāo)物體備選(object proposal)的頻顯著物體檢測模型;文獻(xiàn)[80]提出的基于低秩相關(guān)性(low-rank coherency)的模型;文獻(xiàn)[81]提出的利用時空顯著性線索、局部約束以及似物性指標(biāo)的算法;Li等人[82]提出的基于棧式自動編碼器(stacked autoencoder)的視頻顯著物體檢測模型;Alshawi等人[83]通過計算每個像素的不確定性(uncertainty)來提高視頻顯著物體的檢測結(jié)果.

2017年,Wang等人[84]提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的視頻顯著性物檢測模型,這也是第1個基于深度學(xué)習(xí)的視頻顯著物體檢測模型.該工作主要解決了兩個關(guān)鍵問題:(1)在缺乏充分訓(xùn)練樣本的條件下,如何對深度學(xué)習(xí)模型進(jìn)行訓(xùn)練;(2)如何建立快速且準(zhǔn)確的視頻顯著性檢測模型.該模型包含了兩個模塊,分別用于學(xué)習(xí)空間域和時間域上的顯著性信息.其中,動態(tài)顯著性檢測模塊,顯式地利用了靜態(tài)顯著性檢測模塊的靜態(tài)顯著性估計,直接生成時空顯著性檢測結(jié)果,并且避免了耗時的光流計算.同時,該工作中提出了一個重要的數(shù)據(jù)擴(kuò)充技術(shù),能夠利用已有的標(biāo)定好的圖像數(shù)據(jù)集來合成大量的視頻數(shù)據(jù),從而使深度視頻顯著物體檢測模型能夠?qū)W習(xí)到豐富的顯著性信息,并避免了在原來少量視頻樣本上的過擬合.通過利用合成的視頻數(shù)據(jù)和真實的視頻數(shù)據(jù),該視頻顯著物體檢測模型能夠成功地學(xué)習(xí)到時間域和空間域的顯著性信息,從而產(chǎn)生更準(zhǔn)確的顯著性檢測結(jié)果和達(dá)到更快的檢測速度.

3 視覺顯著性檢測數(shù)據(jù)集

本節(jié)主要介紹圖像人眼關(guān)注點檢測、視頻人眼關(guān)注點檢測、圖像顯著物體檢測以及視頻顯著物體檢測領(lǐng)域的代表性數(shù)據(jù)集.

3.1 圖像眼動數(shù)據(jù)集

常用的靜態(tài)眼動數(shù)據(jù)集有 MIT300[38]、MIT1003[25]、TORONTO[22]、PASCAL-S[85]、SALICON[37]以及 DUTOMRON[58].

(1)MIT300數(shù)據(jù)集

2012年,麻省理工的Judd等人建立了MIT300數(shù)據(jù)集[38].該數(shù)據(jù)集包含了300張自然圖像以及39名觀測者的眼動數(shù)據(jù),是圖像人眼關(guān)注點檢測領(lǐng)域影響力最大、使用最廣泛的數(shù)據(jù)集.該數(shù)據(jù)集得以廣泛應(yīng)用的原因是:數(shù)據(jù)分布較為合理且具有一定的難度;建立較早,影響力較大;人眼關(guān)注點的真值標(biāo)定不公開,從而防止了模型在該數(shù)據(jù)集上的過擬合;發(fā)布了相關(guān)評估實驗的代碼,且評估結(jié)果詳實充分.

(2)MIT1003數(shù)據(jù)集

MIT1003數(shù)據(jù)集[25]也是由麻省理工的Judd等人建立的.該數(shù)據(jù)集包含了從Flikr和 LabelMe網(wǎng)站得到的1 003張圖像,其中779張為風(fēng)景像,228張為肖像,并公開了15名觀測者的眼動數(shù)據(jù).同時,眼動數(shù)據(jù)的記錄過程還考慮了記憶機(jī)制:每個觀測者被要求在 100張圖像中指出哪一張是先前看到的.MIT1003數(shù)據(jù)集可以作為MIT300數(shù)據(jù)集的補(bǔ)充,即在MIT1003數(shù)據(jù)集上訓(xùn)練基于機(jī)器學(xué)習(xí)的注意力模型,然后,以MIT300數(shù)據(jù)集作為測試集進(jìn)行性能評估.

(3)TORONTO數(shù)據(jù)集

TORONTO數(shù)據(jù)集[22]于2006年由約克大學(xué)的Bruce等人建立,是計算機(jī)視覺領(lǐng)域提出最早、使用最廣的數(shù)據(jù)集之一.它包括了120張分辨率為511×681的彩色圖像.這些圖像屬于室內(nèi)和室外場景,一共記錄了20名觀測者的眼動數(shù)據(jù).在每名觀測者眼動數(shù)據(jù)的采集過程中,每張圖像呈現(xiàn)3s,圖像之間插入為時2s的灰度圖像作為間隔.

(4)PASCAL-S數(shù)據(jù)集

PASCAL-S數(shù)據(jù)集[85]于2014年由喬治亞理工學(xué)院的Li等人建立.該數(shù)據(jù)集使用了PASCAL VOC 2010[86]數(shù)據(jù)集驗證集的850張圖像,并公布了8名觀測者在2s內(nèi)、自由觀看模式下觀測圖像得到的眼動數(shù)據(jù).

(5)SALICON數(shù)據(jù)集

SALICON數(shù)據(jù)集[37]是 2015年由新加坡國立大學(xué)的 Jiang等人建立的.該數(shù)據(jù)集包含了 20 000張選自Microsoft COCO數(shù)據(jù)集[87]的圖像,是迄今為止圖像人眼關(guān)注點檢測領(lǐng)域規(guī)模最大的數(shù)據(jù)集.但是該數(shù)據(jù)集沒有使用眼動儀錄制眼動數(shù)據(jù),而是利用了亞馬遜眾籌標(biāo)記平臺(Amazon Mechanical Turk,簡稱 AMT),讓標(biāo)注者用鼠標(biāo)點擊自己關(guān)注的位置.Jiang等人強(qiáng)調(diào)了用鼠標(biāo)記錄的眼動數(shù)據(jù)與眼動儀記錄的實際數(shù)據(jù)高度接近,但是Tavakoli等人[9]指出,眼動儀記錄的真實眼動數(shù)據(jù)和鼠標(biāo)記錄的眼動數(shù)據(jù)之間仍然存在著較大的區(qū)別,當(dāng)分別利用不同方式記錄的眼動數(shù)據(jù)作為訓(xùn)練樣本訓(xùn)練模型時,不同的訓(xùn)練樣本會對模型的最終性能產(chǎn)生不同的影響;同時,利用鼠標(biāo)記錄的眼動數(shù)據(jù)對模型的性能進(jìn)行評估時,產(chǎn)生的評估結(jié)果以及模型性能的相對好壞也與在真實眼動數(shù)據(jù)上的測試結(jié)果不符.盡管如此,鑒于 SALICON數(shù)據(jù)集的較大規(guī)模,還是被當(dāng)前主流的基于深度學(xué)習(xí)技術(shù)的顯著性檢測模型廣泛使用.SALICON數(shù)據(jù)集公開了訓(xùn)練集(10 000張)和驗證集(5 000張)的眼動數(shù)據(jù),但保留了測試集(5 000張)的眼動數(shù)據(jù).

(6)DUT-OMRON數(shù)據(jù)集

DUT-OMRON數(shù)據(jù)集[58]由大連理工大學(xué)的Yang等人于2013年建立.該數(shù)據(jù)集包含5 168張圖像,每張圖像提供了 5名觀測者的眼動數(shù)據(jù).該數(shù)據(jù)集主要關(guān)注顯著物體檢測,因而在物體之外的視覺注意點在后處理過程中被移除.

我們將上述常用的靜態(tài)場景的眼動數(shù)據(jù)集的相關(guān)信息進(jìn)行了總結(jié),見表1.

Table 1 Information of eye-tracking datasets collected in static scenes表1 關(guān)于靜態(tài)場景下眼動數(shù)據(jù)集的相關(guān)信息

3.2 視頻眼動數(shù)據(jù)集

與圖像眼動數(shù)據(jù)集相比,動態(tài)場景下的眼動數(shù)據(jù)集較少.這主要是由于收集人類在觀測動態(tài)視頻時的眼動數(shù)據(jù)更為困難,對眼動儀器的要求更高,并且需要的工作量也更多.目前,代表性的動態(tài)眼動數(shù)據(jù)集主要有 4個:Hollywood-2[88]、UCF-sports[88]、DIEM[89]以及最新提出的 DHF1K[52].

(1)Hollywood-2數(shù)據(jù)集

Hollywood-2眼動數(shù)據(jù)集[88]由多倫多大學(xué)的Mathe等人在2012年建立,包括了Hollywood-2動作識別數(shù)據(jù)集[90]中的所有1 770個視頻.這些視頻是從69個電影中收集的,并按照12個動作類別進(jìn)行了標(biāo)注,例如吃飯、接吻和跑步等.眼動數(shù)據(jù)的收集過程共有19個觀測對象參與完成,這些觀測對象被分為3組:自由觀看組(3個觀測對象)、人類動作標(biāo)注組(12個觀測對象)和視頻內(nèi)容標(biāo)注組(4個觀測對象).雖然Hollywood-2數(shù)據(jù)集的視頻數(shù)量較大,但這些視頻的內(nèi)容僅限于常見的人類動作行為和電影場景,并且該數(shù)據(jù)集主要關(guān)注在任務(wù)驅(qū)動(動作識別)的觀看模式下,由于人類視覺系統(tǒng)的顯著性機(jī)制,自由觀看模式下的人眼關(guān)注點數(shù)據(jù)僅占所有數(shù)據(jù)的很小一部分比例.Wang等人的研究[52]指出,當(dāng)從 Hollywood-2數(shù)據(jù)集中隨機(jī)抽取 1 000個視頻幀后,統(tǒng)計結(jié)果顯示,84.5%的人眼注視點都位于場景中的人臉位置附近.

(2)UCF-sports數(shù)據(jù)集

UCF-sports眼動數(shù)據(jù)集[88]也是由Mathe等人在2012年建立的.該數(shù)據(jù)集包含了UCF sports action數(shù)據(jù)集[91]中的150個視頻,這些視頻涵蓋了9種常見的體育運(yùn)動類別,如潛水、游泳和跑步等.與Hollywood-2數(shù)據(jù)集相類似,該數(shù)據(jù)集偏向于任務(wù)驅(qū)動的觀看方式,即觀測對象在觀看過程中被指示“識別在視頻序列中發(fā)生的動作”,因此,觀測對象在觀看時具有偏向于動作識別的目的性.Wang等人的研究[52]指出,當(dāng)從UCF sports數(shù)據(jù)集上隨機(jī)選擇1 000個視頻幀進(jìn)行統(tǒng)計后,結(jié)果表明,有82.3%的人眼注視點位于運(yùn)動人物的身體區(qū)域內(nèi).

(3)DIEM數(shù)據(jù)集

DIEM數(shù)據(jù)集[89]是倫敦大學(xué)的Mital等人于2011年建立的.該數(shù)據(jù)集包含了從公共網(wǎng)絡(luò)中收集到的84個視頻,包括廣告、紀(jì)錄片、體育賽事和電影預(yù)告片等.數(shù)據(jù)集中的每段視頻都有人眼關(guān)注點的標(biāo)注,這些標(biāo)注來自約50名觀測對象在自由觀看模式下的眼動數(shù)據(jù).但該數(shù)據(jù)集包含的場景內(nèi)容較為有限,并且數(shù)據(jù)規(guī)模較小.

(4)DHF1K數(shù)據(jù)集

DHF1K數(shù)據(jù)集[52]是由北京理工大學(xué)的Wang等人于2018年建立的,是學(xué)術(shù)領(lǐng)域迄今為止規(guī)模最大的、用于動態(tài)場景自由觀看模式下的眼動數(shù)據(jù)集.整個數(shù)據(jù)集的收集、標(biāo)定過程耗時近半年.Wang等人通過 Youtube搜索引擎搜索了大約200個關(guān)鍵字(如狗、行人、汽車等),并忽略了返回結(jié)果中包含較大圖標(biāo)、文字或分辨率較低的視頻,最終從檢索結(jié)果中選擇了1 000個視頻序列,這些視頻被統(tǒng)一地轉(zhuǎn)換為30fps的Xvid MPEG-4視頻格式,并統(tǒng)一地縮放到640×360的分辨率.DHF1K數(shù)據(jù)集一共包含了1 000個視頻序列和582 605個視頻幀,總持續(xù)時間達(dá)19 420s.同時,DHF1K數(shù)據(jù)集還提供了更豐富的標(biāo)定,每個視頻都被人工標(biāo)記了一個場景子類別(共有150類),這些子類別進(jìn)一步被聚類為7種主要類別,即動物、景物、人造物以及4種人類活動(日常活動、運(yùn)動、群體行為、藝術(shù)表演),這些場景的語義標(biāo)注幫助人們更深入地理解引導(dǎo)動態(tài)注意力機(jī)制的高層信息,對將來的研究很有幫助.此外,DHF1K還提供了運(yùn)動模式、場景明暗、物體數(shù)量等標(biāo)定.共有 17位志愿者作為觀測對象參與了眼動數(shù)據(jù)收集,這些觀測對象包括 10名男性和 7名女性,年齡范圍在 20歲~28歲之間,得到共計51 038 600組眼動數(shù)據(jù).DHF1K數(shù)據(jù)集的1 000個視頻被分為3部分,包括:600個視頻作為訓(xùn)練集、100個視頻作為驗證集和300個視頻的測試集.Wang等人公開發(fā)布了訓(xùn)練集和驗證集的眼動數(shù)據(jù),用于模型的訓(xùn)練和驗證,測試集作為對各方法進(jìn)行統(tǒng)一評估的標(biāo)準(zhǔn),保留了標(biāo)注數(shù)據(jù).此外,Wang等人還在 DHF1K、Hollywood-2和UCF-sports這3個數(shù)據(jù)集上對16個視覺注意力模型進(jìn)行了評估,這也是當(dāng)前動態(tài)視覺注意力檢測領(lǐng)域規(guī)模最大的一次測評.

(5)其他數(shù)據(jù)集

除了以上數(shù)據(jù)集之外,還有Itti等人在2004年建立的CRCNS數(shù)據(jù)集[92]以及Hadizadeh等人在2012年建立的SFU數(shù)據(jù)集[93],但是這些數(shù)據(jù)集的規(guī)模和影響力都相對較小.

我們在表2中對上述靜態(tài)場景的眼動數(shù)據(jù)集的相關(guān)信息進(jìn)行了總結(jié).

Table 2 Information of eye-tracking datasets collected in dynamic scenes表2 關(guān)于動態(tài)場景下眼動數(shù)據(jù)集的相關(guān)信息

3.3 圖像顯著物體檢測數(shù)據(jù)集

常用的圖像顯著物體檢測數(shù)據(jù)集有 MSRA10K[12,53]、ASD[12,13]、ECSSD[55]、PASCAL-S[85]、DUT-OMRON[58]和HKU-IS[65].

(1)MSRA10K數(shù)據(jù)集

2007年,西安交通大學(xué)與微軟亞洲研究院的Liu等人[12]提出了第1篇顯著物體檢測的論文,同時也提出了第 1個顯著物體檢測數(shù)據(jù)集,但是該數(shù)據(jù)集只提供了物體邊界框這一級別的顯著性真值標(biāo)定.之后,Cheng等人[53]對該數(shù)據(jù)集[12]中的10 000張數(shù)據(jù)進(jìn)行了像素級的標(biāo)定,這一重標(biāo)定的數(shù)據(jù)集被稱為MSRA10K數(shù)據(jù)集,是目前顯著物體檢測領(lǐng)域最常用的數(shù)據(jù)集之一(主要作為深度顯著物體檢測模型的訓(xùn)練樣本).

(2)ASD數(shù)據(jù)集

ASD數(shù)據(jù)集是最早使用的顯著物體檢測數(shù)據(jù)集之一,由洛桑聯(lián)邦理工學(xué)院的Achanta等人[13]在2009年建立.該數(shù)據(jù)集包含了Liu等人[12]建立的數(shù)據(jù)集中的1 000張圖像,Achanta等人對這1 000張圖像進(jìn)行了像素級的顯著物體真值標(biāo)定,該數(shù)據(jù)集也常被稱為MSRA1000.

(3)ECSSD數(shù)據(jù)集

ECSSD數(shù)據(jù)集[55]由香港中文大學(xué)的Yan等人于2013年建立,包含了1 000張圖像,這些圖像由互聯(lián)網(wǎng)得到.該數(shù)據(jù)集中的顯著物體包含較復(fù)雜的結(jié)構(gòu),且背景具備一定的復(fù)雜性.

(4)PSCAL-S數(shù)據(jù)集

PASCAL-S數(shù)據(jù)集[85]于2014年由喬治亞理工學(xué)院的Li等人建立.該數(shù)據(jù)集使用了PASCAL VOC 2010[86]數(shù)據(jù)集的驗證集的850張圖像.Li等人根據(jù)該數(shù)據(jù)集上的眼動數(shù)據(jù)(參見第3.1節(jié)),對該數(shù)據(jù)集中每張圖像的顯著物體進(jìn)行了標(biāo)定.該數(shù)據(jù)集與其他顯著物體檢測數(shù)據(jù)集區(qū)別較大,沒有非常明顯的、較少的顯著物體,并主要根據(jù)人類的眼動數(shù)據(jù)集進(jìn)行標(biāo)注,因此該數(shù)據(jù)集的難度較大.

(5)DUT-OMRON數(shù)據(jù)集

DUT-OMRON數(shù)據(jù)集[58]由大連理工的Yang等人于2013年建立,包含了5 168張圖像,每張圖像提供了5名觀測者的眼動數(shù)據(jù).該數(shù)據(jù)集的主要任務(wù)是顯著物體檢測,但也提供了眼動數(shù)據(jù)集(參見第3.1節(jié)),同時也包括了物體的標(biāo)定框.該數(shù)據(jù)集每張圖像由5人標(biāo)注完成.

(6)HKU-IS數(shù)據(jù)集

HKU-IS數(shù)據(jù)集[65]由香港大學(xué)的Li等人于2015年建立,包含了4 447張圖像和相應(yīng)的像素級顯著物體真值標(biāo)定.該數(shù)據(jù)集的每張圖像至少滿足以下的3個標(biāo)準(zhǔn)之一:(1)含有多個分散的顯著物體;(2)至少有1個顯著物體在圖像邊界;(3)顯著物體與背景表觀相似.

我們在表3中對上述常用的圖像顯著物體檢測數(shù)據(jù)集的相關(guān)信息進(jìn)行了總結(jié).

Table 3 Information of image salient object detection datasets表3 關(guān)于圖像顯著物體檢測數(shù)據(jù)集的相關(guān)信息

3.4 視頻顯著物體檢測數(shù)據(jù)集

在視頻顯著物體檢測領(lǐng)域常用的數(shù)據(jù)集有 ViSal[74]、MCL[77]、UVSD[78]、VOS[82]、SegTrack[94,95]、FBMS[96,97]和DAVIS[98],其中,ViSal、MCL、UVSD、VOS是專門用于視頻顯著物體檢測任務(wù)的數(shù)據(jù)集,SegTrack、FBMS和DAVIS則在視頻物體分割領(lǐng)域有較多的應(yīng)用.

(1)ViSal數(shù)據(jù)集

ViSal數(shù)據(jù)集[74]由北京理工大學(xué)的Wang等人于2015年建立,是第1個明確提出用于視頻顯著物體檢測的數(shù)據(jù)集.該數(shù)據(jù)集包含了17個從Youtube上收集的視頻序列,包含了多種類別的顯著物體,如人類、動物等,視頻的分辨率多為320×240,長度為30幀~500幀.該數(shù)據(jù)集每間隔5幀提供像素級的顯著物體真值標(biāo)定.該數(shù)據(jù)集涵蓋了豐富的場景內(nèi)容、不同的目標(biāo)運(yùn)動模式、較為復(fù)雜的背景、快速物體形狀變化以及相機(jī)移動.

(2)MCL數(shù)據(jù)集

2015年,高麗大學(xué)的Kim等人建立了MCL數(shù)據(jù)集[77].該數(shù)據(jù)集包含了9個分辨率為480×270的視頻序列,每個視頻序列包含約100幀~400幀視頻圖像,涉及室內(nèi)和室外場景,包含了多個快速運(yùn)動的目標(biāo)以及相機(jī)運(yùn)動.該數(shù)據(jù)集每隔8幀視頻圖像給出了視頻顯著物體的像素級真值標(biāo)定.

(3)UVSD數(shù)據(jù)集

UVSD數(shù)據(jù)集[78]由上海大學(xué)的Liu等人于2017年建立.該數(shù)據(jù)集含有18個視頻序列,每一幀視頻圖像均進(jìn)行了像素級的顯著性標(biāo)注.該數(shù)據(jù)集的視頻分辨率以320×240為主,長度為70幀~300幀.該數(shù)據(jù)集的難度主要在于顯著的物體相對較小,且顯著物體與背景具有一定的相似性.

(4)VOS數(shù)據(jù)集

VOS數(shù)據(jù)集[82]由北京航空航天大學(xué)的Li等人于2018年建立,該數(shù)據(jù)集包含了200個室內(nèi)/室外場景下的視頻序列,時長共64min,包含116 103幀視頻圖像,幀率統(tǒng)一為30fps.該數(shù)據(jù)集對7 650個關(guān)鍵幀進(jìn)行了像素級的標(biāo)定;同時,該數(shù)據(jù)集還收集了23名觀測者的眼動數(shù)據(jù),以此作為確定顯著物體的依據(jù).

(5)SegTrack數(shù)據(jù)集

SegTrack數(shù)據(jù)集的初始版本(V1)于2010年由佐治亞理工學(xué)院的Tsai等人[94]建立.該數(shù)據(jù)集建立的初始目標(biāo)是用于視頻跟蹤分割,在視頻分割領(lǐng)域曾經(jīng)極為流行.之后,在2015年被Wang等人[74]引入視頻顯著物體檢測,SegTrack-V1數(shù)據(jù)集包含了6個視頻,共224幀,其中,penguin這一視頻中不包含顯著的前景物體,故這一視頻在無監(jiān)督的視頻物體分割和視頻顯著物體檢測任務(wù)上不予以采用.之后,在2014年,Li等人[95]建立了SegTrack的擴(kuò)充版本(V2),增添了8個視頻,并提供了多個目標(biāo)的標(biāo)定,SegTrack-V2數(shù)據(jù)集因而共包含了14個視頻序列以及1 065幀像素級的標(biāo)定.

(6)FBMS數(shù)據(jù)集

FBMS數(shù)據(jù)集[96]的早期版本由加州大學(xué)伯克利分校的 Brox等人在 2010年建立,包含了 26個視頻.之后,Ochs等人[97]在 2014年對其進(jìn)行了擴(kuò)展,最終版本共包含了 59個視頻.該數(shù)據(jù)集最早是用來進(jìn)行運(yùn)動分割(motion segmentation)的.該任務(wù)主要是在無監(jiān)督條件下對視頻中的運(yùn)動物體進(jìn)行分割.之后,由Wang等人[74]引入到視頻顯著物體檢測任務(wù)中.該數(shù)據(jù)集的標(biāo)定較為稀疏,13 860幀視頻中共有720幀的真值標(biāo)定;并且,該數(shù)據(jù)集的標(biāo)定較為簡單,且并不完全符合視頻顯著物體的定義.

(7)DAVIS數(shù)據(jù)集[98]

DAVIS數(shù)據(jù)集于2016年由蘇黎世聯(lián)邦理工學(xué)院的Perazzi等人建立,主要用于視頻物體分割.該數(shù)據(jù)集經(jīng)過精心設(shè)計,因此一經(jīng)提出就在視頻分割領(lǐng)域獲得了極大的影響力.該數(shù)據(jù)集包含了 50個高質(zhì)量的視頻序列,含有480p和1 080p兩個版本,視頻長度約為2s~4s,且提供了對每幀視頻圖像的像素級真值標(biāo)注.該數(shù)據(jù)集包含了多種挑戰(zhàn),如遮擋、運(yùn)動模糊、表觀變化等,因而有較高的難度.由于該數(shù)據(jù)集有明顯的前景目標(biāo),在標(biāo)注時主要考慮單一的前景目標(biāo)或相連的兩個明顯前景目標(biāo),較為符合視頻顯著物體的定義,Wang等人于 2018年[84]將其引入視頻顯著物體檢測任務(wù).

我們對上述常用的視頻顯著物體檢測數(shù)據(jù)集的相關(guān)信息進(jìn)行了總結(jié),見表4.

Table 4 Information of video salient object detection datasets表4 關(guān)于視頻顯著物體檢測數(shù)據(jù)集的相關(guān)信息

4 視覺顯著性檢測評估指標(biāo)

本節(jié)主要介紹視覺顯著性檢測任務(wù)中常用的評估指標(biāo).

4.1 人眼關(guān)注點檢測評估指標(biāo)

在人眼關(guān)注點檢測任務(wù)中,研究者們提出了較多的評估指標(biāo),其中較為典型的包括EMD距離(earth movers distance)、交叉熵(kullback-leibler divergence)、標(biāo)準(zhǔn)化掃描路徑顯著性(normalized scanpath saliency,簡稱NSS)、相似性測度(similarity metric,簡稱SIM)、線性相關(guān)系數(shù)(linear correlation coefficient,簡稱CC)、AUC指標(biāo)(the area under the receiver operating characteristic(ROC)curve).

這些指標(biāo)遵循了不同的設(shè)計原則,如,交叉熵指標(biāo)將顯著性預(yù)測結(jié)果與真實的人眼注意力標(biāo)定視為概率分布;AUC指標(biāo)將顯著性預(yù)測結(jié)果視為二分類結(jié)果,并使用信號檢測理論,從分析分類器分類性能的角度進(jìn)行評估;或?qū)@著性預(yù)測結(jié)果與真實的人眼注意力標(biāo)定二者都視為隨機(jī)變量,從而可以采用線性相關(guān)系數(shù)或標(biāo)準(zhǔn)化掃描路徑顯著性來度量二者相關(guān)性.本質(zhì)上,這些評估指標(biāo)為顯著性檢測結(jié)果和真實的人眼注意力分布之間的一致性提供了不同維度上的評估,從實際效果而言,綜合采取多種評估方式對模型進(jìn)行評估的做法更可取.

當(dāng)給定顯著性預(yù)測結(jié)果P=[0,1]W×H時,真實的二值人眼注意點記錄R={0,1}W×H以及連續(xù)的視覺注意力真值分布Q=[0,1]W×H.這里,連續(xù)的視覺注意力真值分布Q是通過對二值的人眼注意點分布圖使用較小的高斯核卷積得到的,高斯核的參數(shù)主要根據(jù)不同眼動數(shù)據(jù)集上人眼大小和眼動設(shè)備的情況來進(jìn)行設(shè)定.下面我們詳細(xì)介紹人眼關(guān)注點檢測任務(wù)中常用的評估指標(biāo):

(1)EMD距離

EMD距離(earth movers distance)衡量的是顯著性預(yù)測結(jié)果P與連續(xù)的人眼注意力真值分布Q之間的相似性,該度量方式被定義為:從顯著性預(yù)測結(jié)果P上的概率分布轉(zhuǎn)移到連續(xù)的人眼注意力真值分布Q上的最小代價.因而,EMD距離越小,表示估計結(jié)果越準(zhǔn)確.

(2)交叉熵

交叉熵(kullback-leibler divergence)主要基于信息理論,經(jīng)常被用于衡量兩個概率分布之間的距離.在人眼關(guān)注點檢測中,該指標(biāo)被定義為:通過顯著性預(yù)測結(jié)果P來近似連續(xù)的人眼注意力真值分布Q時產(chǎn)生的信息損失,可通過式(3)來計算.

其中,ε表示很小的正則化系數(shù),i表示第i個像素.交叉熵指標(biāo)是非對稱的度量指標(biāo),交叉熵越小,表示顯著性估計結(jié)果越準(zhǔn)確.交叉熵這一指標(biāo)對零值非常敏感,會對稀疏的人眼關(guān)注點預(yù)測產(chǎn)生非常大的懲罰.

(3)標(biāo)準(zhǔn)化掃描路徑顯著性

標(biāo)準(zhǔn)化掃描路徑顯著性(normalized scanpath saliency,簡稱NSS)是專門為顯著性檢測設(shè)計的評估指標(biāo).該指標(biāo)被定義為:對在人眼關(guān)注點位置歸一化的顯著性(均值為0和歸一化標(biāo)準(zhǔn)差)求平均,可通過式(4)來計算.

其中,N表示所有的人眼關(guān)注點數(shù)目;μ(·)表示均值;σ(·)表示標(biāo)準(zhǔn)差,該指標(biāo)越小,表示顯著估計結(jié)果越準(zhǔn)確.

(4)線性相關(guān)系數(shù)

線性相關(guān)系數(shù)(linear correlation coefficient,簡稱 CC)是一種用于衡量兩個變量之間相關(guān)性的統(tǒng)計指標(biāo).在使用該度量時,將顯著性預(yù)測結(jié)果P和連續(xù)的人眼注意力真值分布Q視為隨機(jī)變量.然后,統(tǒng)計它們之間的線性相關(guān)性,如式(5)所示.

其中,cov(·,·)表示表示協(xié)方差,該統(tǒng)計指標(biāo)的取值范圍是[-1,+1].當(dāng)該指標(biāo)的值接近-1或+1時,代表顯著性預(yù)測結(jié)果與真值標(biāo)定高度相似.

(5)相似性測度

相似性測度(similarity metric,簡稱SIM)指標(biāo)將顯著性預(yù)測結(jié)果P和連續(xù)的人眼注意力真值分布Q視為概率分布,將二者歸一化后,通過計算每一個像素上的最小值,最后加和得到,如式(6)所示.

當(dāng)相似性測度為1時,表示兩個概率分布一致;為0時,表示二者完全不同.

(6)AUC指標(biāo)

AUC指標(biāo)(the area under the receiver operating characteristic curve,簡稱ROC曲線),即受試者工作特性曲線下面積.ROC曲線是以假陽性概率(false positive rate,簡稱 FPR)為橫軸,以真陽性概率(true positive rate,簡稱TPR)為縱軸所畫出的曲線,如式(7)所示.

其中,TN表示二值顯著性圖中的背景區(qū)域且對應(yīng)于顯著性真值圖中的背景區(qū)域的像素個數(shù).ROC曲線越趨近于左上方,說明算法的性能越好.AUC即為ROC曲線下的面積,通過在[0,1]上滑動的閾值,能夠?qū)@著性檢測結(jié)果P進(jìn)行二值化,從而得到ROC曲線.當(dāng)采用較小的閾值時,可以視為計算兩個概率分布的整體相似度;當(dāng)取較大的閾值時,進(jìn)而計算兩個分布在峰值處的相似度,通過ROC曲線可以計算AUC指標(biāo),AUC數(shù)值越大,說明算法性能越好.當(dāng)接近1時,代表著顯著性估計與真值標(biāo)定完全一致.根據(jù)ROC曲線的定義,AUC指標(biāo)主要受高閾值的影響.此外,AUC指標(biāo)對人眼關(guān)注點的中心偏向較為敏感,根據(jù)對FPR以及TPR定義的不同,AUC指標(biāo)也產(chǎn)生了許多變體,典型的包括:Judd等人[25]提出的AUC-Judd,真陽性概率是所有真值關(guān)注點上預(yù)測準(zhǔn)確的像素比率,假陽性概率為非關(guān)注點上被預(yù)測為顯著的像素比率;Borji等人[99]提出了AUC-Borji指標(biāo),該指標(biāo)在計算假陽性時,在非關(guān)注點上采用了均一的隨機(jī)采樣,而不是直接選取所有的非關(guān)注點,但由于采取了隨機(jī)采樣,AUC-Borji指標(biāo)容易出現(xiàn)多次對同一個模型評估但結(jié)果不一致的現(xiàn)象;shuffled AUC(簡稱sAUC)[100]也是一個常用的AUC變體,該指標(biāo)降低了原AUC指標(biāo)對中心偏移的敏感性,sAUC指標(biāo)對非顯著性點進(jìn)行采樣時,是從其他多張圖像上的關(guān)注點分布中進(jìn)行采樣,而不是根據(jù)在原來圖像上的非顯著點上進(jìn)行隨機(jī)采樣,這一采樣方法能夠?qū)е路细咚狗植嫉牟蓸?如果在一個模型的檢測結(jié)果上人為地加入了中心偏向,那么 sAUC指標(biāo)在圖像中心位置的密集采樣會導(dǎo)致這個模型的評估結(jié)果下降.

我們對以上人眼關(guān)注點評估指標(biāo)進(jìn)行了統(tǒng)計和歸類,見表5.根據(jù)這些評估指標(biāo)對視覺顯著性做出的不同假設(shè)[101],可以將其分為基于位置的評估指標(biāo)和基于概率分布的評估指標(biāo):基于位置的評估指標(biāo)將顯著性視為隨機(jī)變量,基于概率分布的評估指標(biāo)將顯著性視為概率分布.根據(jù)不同評估指標(biāo)的度量方式,可以分為相似性度量指標(biāo)和非相似性度量指標(biāo):相似性指標(biāo)越大,表示模型表現(xiàn)越好;非相似性指標(biāo)越小,表示模型表現(xiàn)越好.根據(jù)不同評估指標(biāo)采用的真值形式,可以將其分為使用連續(xù)顯著性真值Q的評估指標(biāo)和使用二值離散人眼注意點真值R的評估指標(biāo).

Table 5 Information of evaluation metrics used in eye fixation prediction表5 關(guān)于人眼關(guān)注點檢測評估指標(biāo)的相關(guān)信息

4.2 顯著物體檢測評估指標(biāo)

在顯著物體檢測任務(wù)中,查準(zhǔn)率-查全率曲線(precision-recall curve)、F值(F-measure)以及平均絕對誤差MAE值(mean absolute error)是3個最常見的評估指標(biāo).

(1)查準(zhǔn)率-查全率曲線

給定顯著性估計結(jié)果,取值范圍在[0,255]之間,通過使用從0到255依次變化的閾值,能夠生成一組二值化的顯著性結(jié)果圖(小于閾值的像素標(biāo)記為 0,大于閾值的像素標(biāo)記為 1).將每張二值化顯著性結(jié)果圖與顯著性真值標(biāo)定的結(jié)果進(jìn)行比較,可以得到相應(yīng)的查準(zhǔn)率和查全率,如式(8)所示.

其中,TP表示二值顯著性結(jié)果中顯著區(qū)域與真值顯著性標(biāo)定中一致的像素個數(shù);FP表示二值顯著性結(jié)果中被錯誤劃分為顯著的像素的個數(shù);FN表示二值顯著性結(jié)果中被錯誤劃分為背景的像素的個數(shù).即查準(zhǔn)率是指在算法生成的所有前景像素中被正確標(biāo)定的像素的比率,查全率是指在實際真值標(biāo)定的前景像素中被算法正確標(biāo)定的像素的比率.查準(zhǔn)率較高,說明有較多的顯著區(qū)域被正確地檢測到,而這往往意味著被誤檢為顯著的像素也較多,從而查全率可能較低;查全率較高,代表檢測到的顯著區(qū)域中檢測正確的概率很高,但這也往往意味著有較多的顯著區(qū)域沒有被正確檢出,從而精確度可能較低.通過不斷變化的閾值,能夠得到一組相應(yīng)的查準(zhǔn)率和查全率結(jié)果.以查全率為橫軸,查準(zhǔn)率為縱軸,可以繪得查準(zhǔn)率-查全率曲線(precision-recall curve,簡稱PR-curve).曲線越靠近右上方,說明算法性能越好.

(2)F-值

由于查準(zhǔn)率和查全率相互制約,且查準(zhǔn)率-查全率曲線包含了兩個維度的評估指標(biāo),不易比較,因而需要就二者進(jìn)行綜合考量.Achanta等人[13]提出了F-值指標(biāo)(F-measure).該指標(biāo)同時考慮了查準(zhǔn)率和查全率,能夠較為全面、直觀地反映出算法的性能.其定義如式(9)所示.

其中,β2=0.3,以此強(qiáng)調(diào)查全率更高的重要性.F-值指標(biāo)的數(shù)值越大,說明算法性能越好.在實際中,有算法使用F-值曲線,而有的則直接給出F-值曲線上的最大值.

(3)MAE值

MAE值(mean absolute error,簡稱MAE)是指平均每個像素估計的顯著性概率與相應(yīng)的真值顯著性標(biāo)定之間的絕對誤差.由于查準(zhǔn)率-查全率曲線和F-值這兩個評估指標(biāo)都只考慮了顯著像素的劃分結(jié)果,而沒有考慮對背景劃分正確的情況(真陰性),因此,MAE指標(biāo)經(jīng)常作為查準(zhǔn)率-查全率曲線和F-值這兩個評估指標(biāo)的補(bǔ)充.其定義如式(10)所示.

其中,S表示歸一化到[0,1]之間的顯著性估計結(jié)果,G表示顯著性真值標(biāo)定,W和H對應(yīng)圖像的寬和高.作為相似性度量指標(biāo),MAE值越小,代表算法性能越好.MAE指標(biāo)較為直觀,對評估顯著性檢測模型的實際應(yīng)用能力(如物體分割)十分重要.

5 視覺顯著性檢測模型性能評估

本節(jié)針對靜態(tài)及動態(tài)場景下的人眼關(guān)注點檢測模型以及顯著物體檢測模型的性能進(jìn)行定量評估.

5.1 人眼關(guān)注點檢測模型在靜態(tài)場景下的性能評估

本節(jié)針對 14個經(jīng)典的靜態(tài)人眼關(guān)注點檢測模型(DeepFix[30]、SALICON[31]、DVA[35]、Mr-CNN[32]、SalNet[33]、Deep Gaze I[102]、BMS[103]、eDN[29]、CAS[104]、AIM[105]、Judd Model[25]、GBVS[23]、ITTI[9]、SU[106])的性能進(jìn)行定量測試,使用了3個靜態(tài)人眼關(guān)注點檢測數(shù)據(jù)集,分別為MIT300[38]、MIT1003[25]和PASCAL-S[85].實驗使用了AUC-Judd、SIM、s-AUC、CC和NSS這5種評估指標(biāo),相關(guān)定量評估結(jié)果分別見表6~表8.在MIT300數(shù)據(jù)集上的定量評估結(jié)果是根據(jù)該數(shù)據(jù)集的公開結(jié)果(http://saliency.mit.edu/)得到的,在MIT1003及PASCAL-S數(shù)據(jù)集上的定量評估結(jié)果是通過運(yùn)行這些模型的代碼或論文中公布的數(shù)據(jù)得到的.

Table 6 Quantitative evaluation of different static visual fixation prediction models on MIT300 dataset[38]表6 對不同的靜態(tài)人眼關(guān)注點檢測模型在MIT300數(shù)據(jù)集[38]上性能的定量評估

Table 7 Quantitative evaluation of different static visual fixation prediction models on MIT1003 dataset[25]表7 對不同的靜態(tài)人眼關(guān)注點檢測模型在MIT1003數(shù)據(jù)集[25]上性能的定量評估

Table 8 Quantitative evaluation of different static visual fixation prediction models on PASCAL-S dataset[85]表8 對不同的靜態(tài)人眼關(guān)注點檢測模型在PASCAL-S數(shù)據(jù)集[85]上性能的定量評估

5.2 人眼關(guān)注點檢測模型在動態(tài)場景下的性能評估

本節(jié)針對16個經(jīng)典的人眼關(guān)注點檢測模型在動態(tài)場景下的性能進(jìn)行定量測試,其中包括6個靜態(tài)人眼關(guān)注點檢測模型(ITTI[9]、GBVS[23]、SALICON[31]、Shallow-Net[33]、Deep-Net[33]、DVA[35])以及 10 個動態(tài)人眼關(guān)注點檢測模型(PQFT[107]、SEO[41]、RUDOY[43]、HOU[44]、FANG[108]、OBDL[45]、AWS-D[46]、OM-CMM[51]、Two-stream[50]和 ACLNet[52]),使用了 3個動態(tài)人眼關(guān)注點檢測數(shù)據(jù)集,分別為 DHF1K[52]、Hollywood-2[88]和UCF-sports[88].實驗使用了AUC-Judd、SIM、s-AUC、CC和NSS這5種評估指標(biāo),相關(guān)定量評估結(jié)果分別見表9~表11.評估結(jié)果主要根據(jù)DHF1K數(shù)據(jù)集的公開結(jié)果(https://github.com/wenguanwang/DHF1K)得到.

Table 9 Evaluation of visual fixation prediction models in dynamic scenes using DHF1K dataset[52]表9 DHF1K數(shù)據(jù)集[52]上,對不同的人眼關(guān)注點檢測模型在動態(tài)場景下的性能評估

Table 10 Evaluation of visual fixation prediction models in dynamic scenes using Hollywood-2 dataset[88]表10 Hollywood-2數(shù)據(jù)集[88]上,對不同的人眼關(guān)注點檢測模型在動態(tài)場景下的性能評估

Table 11 Evaluation of visual fixation prediction models in dynamic scenes using UCF-sports dataset[88]表11 UCF-sports數(shù)據(jù)集[88]上,對不同的人眼關(guān)注點檢測模型在動態(tài)場景下的性能評估

5.3 顯著物體檢測模型在靜態(tài)場景下的性能評估

本節(jié)針對20個經(jīng)典的靜態(tài)人眼關(guān)注點檢測模型,包括4個傳統(tǒng)的、非深度學(xué)習(xí)的模型(HS[55]、DRFI[56]、wCtr[57]、CST[109])以及 16 個基于深度學(xué)習(xí)的模型(MDF[65]、LEG[64]、MDS[110]、DCL[111]、ELD[66]、SU[106]、RFCN[67]、DHS[72]、HEDS[69]、NLDF[112]、DLS[71]、AMU[68]、UCF[113]、SRM[114]、FSN[115]、ASNet[70]),在 ECCSD[55]、HKU-IS[65]和PASCAL-S[85]這3個數(shù)據(jù)集上的性能進(jìn)行了定量測試.表12總結(jié)了使用F-score和MAE作為評估指標(biāo)的定量結(jié)果.

圖1中以查準(zhǔn)率-查全率曲線作為評估指標(biāo)的定量結(jié)果.這些結(jié)果是通過運(yùn)行以上模型的代碼或論文中公布的數(shù)據(jù)得到的,圖1中沒有提供SU模型的結(jié)果,因為該模型的實現(xiàn)源碼和相關(guān)查準(zhǔn)率-查全率結(jié)果都未給出.

Table 12 Quantitative evaluation of different static salient object detection models on ECCSD[55],HKU-IS[65],and PASCAL-S[85] datasets usingF-score and MAE表12 對不同的靜態(tài)顯著物體檢測模型在ECCSD[55]、HKU-IS[65]和PASCAL-S[85]數(shù)據(jù)集上性能的定量評估,使用F-score和MAE作為評估指標(biāo)

Fig.1 Quantitative evaluation of different static salient object detection models on ECCSD[55],HKU-IS[65],and PASCAL-S[85] datasets using precision-recall curve圖1 對不同的靜態(tài)顯著物體檢測模型在ECCSD[55],HKU-IS[65]和PASCAL-S[85]數(shù)據(jù)集上性能的定量評估,使用查準(zhǔn)率-查全率曲線作為評估指標(biāo)

5.4 顯著物體檢測模型在動態(tài)場景下的性能評估

本節(jié)針對17個經(jīng)典的顯著物體檢測模型在動態(tài)場景下的性能進(jìn)行定量測試,其中包括10個靜態(tài)顯著物體檢測模型(AMU[68]、SRM[114]、UCF[113]、HEDS[69]、NLDF[112]、DCL[111]、DHS[72]、ELD[66]、KSR[116]和 RFCN[67])以及 7 個動態(tài)顯著物體檢測模型(FCNS[84]、SGSP[78]、GAFL[74]、SAGE[75]、STUW[42]、SP[73]和 PDB[117]),使用了 3個動態(tài)視頻顯著物體檢測數(shù)據(jù)集,分別為 DAVIS[98]、FBMS[97]和 ViSal[74].SGSP、GAFL、SAGE、STUW和SP為非深度學(xué)習(xí)模型,其余算法均為深度學(xué)習(xí)模型.表13總結(jié)了使用F-score和MAE作為評估指標(biāo)的定量結(jié)果,圖2中為查準(zhǔn)率-查全率曲線作為評估指標(biāo)的定量結(jié)果.這些結(jié)果是通過運(yùn)行以上模型的代碼或論文中公布的數(shù)據(jù)得到的.

Table 13 Evaluation of salient object detection models in dynamic scenes using DAVIS[98],FBMS[97],and ViSal[74] datasets,measured byF-score and MAE表13 在DAVIS[98]、FBMS[97]以及ViSal[74]數(shù)據(jù)集上,對不同的顯著物體檢測模型在動態(tài)場景下的性能評估,使用F-score和MAE作為評估指標(biāo)

Fig.2 Evaluation of salient object detection models in dynamic scenes using DAVIS[98],FBMS[97],and ViSal[74] datasets,measured by precision-recall curve圖2 在DAVIS[98]、FBMS[97]以及ViSal[74]數(shù)據(jù)集上,對不同的顯著物體檢測模型在動態(tài)場景下的性能評估,使用查準(zhǔn)率-查全率曲線作為評估指標(biāo)

6 總結(jié)與展望

隨著深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域取得廣泛的成功,深度神經(jīng)網(wǎng)絡(luò)成為當(dāng)前視覺注意力機(jī)制計算和建模的首選工具,基于深度學(xué)習(xí)的視覺顯著性模型在人眼關(guān)注點檢測和顯著物體檢測領(lǐng)域都取得了極佳的效果.我們認(rèn)為,視覺注意力檢測領(lǐng)域未來可能的研究工作主要包括以下幾個方面.

(1)在人眼關(guān)注點檢測方向,進(jìn)一步將經(jīng)典的認(rèn)知理論與深度學(xué)習(xí)技術(shù)相融合.

傳統(tǒng)的認(rèn)知領(lǐng)域通過對人類和其他靈長類動的觀測和研究,積累了很多經(jīng)典的關(guān)于視覺注意力機(jī)制的理論和模型,這些理論更符合生物學(xué)原理,如1985年Koch等人[8]提出的WTA理論、1991年Leventhal提出的中央周邊差[118]、Treisman的特征整合(FIT)理論[10]、Wolfe等人提出的指向搜索模型[11]等.但是,現(xiàn)在計算機(jī)視覺領(lǐng)域中,對視覺注意力機(jī)制的計算建模主要基于深度學(xué)習(xí)技術(shù),很少與之前經(jīng)典的認(rèn)知理論相結(jié)合,雖然基于深度學(xué)習(xí)技術(shù)的計算模型具有較好的性能,但是對研究界理解視覺注意力機(jī)制背后更深層次的機(jī)理,難以提供更多更有價值的實驗支持.因而,有必要將基于深度學(xué)習(xí)技術(shù)的計算模型與經(jīng)典認(rèn)知理論相結(jié)合,進(jìn)一步發(fā)展新理論和新模型.此外,經(jīng)典的視覺注意力機(jī)制理論指出,人眼注意力的分配是由自底向上與自頂向下兩個過程協(xié)同完成的,但是當(dāng)前的基于深度學(xué)習(xí)技術(shù)的顯著性檢測模型主要通過融合不同網(wǎng)絡(luò)層抽取的不同層次的特征來得到顯著性檢測結(jié)果,而缺乏有效地、顯式地融合自底向上和自頂向下信息的過程,這與之前針對視覺注意力機(jī)制的研究成果不符,因此,有必要進(jìn)一步發(fā)掘現(xiàn)有的深度學(xué)習(xí)技術(shù),將自底向上和自頂向下的顯著性檢測過程融合到深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,并能夠通過端到端的方式進(jìn)行學(xué)習(xí).

(2)從注意力機(jī)制角度,研究深度神經(jīng)網(wǎng)絡(luò)的可解釋性.

目前,深度神經(jīng)網(wǎng)絡(luò)受到注意力機(jī)制的啟發(fā),通過特殊的網(wǎng)絡(luò)結(jié)構(gòu),能夠“迫使”神經(jīng)網(wǎng)絡(luò)關(guān)注文本或圖像中與任務(wù)最相關(guān)的部分.這種神經(jīng)網(wǎng)絡(luò)的注意力模塊,可以被視為一種自頂向下、任務(wù)相關(guān)的注意力機(jī)制.這類帶有注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)在許多任務(wù)上表現(xiàn)出了較好的性能,但是這種通過隱式學(xué)習(xí)的、與任務(wù)相關(guān)的注意力是否真的與人類的注意力相一致?這一問題對通過注意力機(jī)制來研究深度神經(jīng)網(wǎng)絡(luò)的事后解釋性(posthoc explanation)非常重要,但卻很少有工作關(guān)注這一點.我們有必要在現(xiàn)有的公共數(shù)據(jù)集上收集人類在執(zhí)行有關(guān)任務(wù)時的眼動數(shù)據(jù),據(jù)此和深度神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制進(jìn)行比較;同時,利用人類實際的注意力機(jī)制來顯式引導(dǎo)神經(jīng)網(wǎng)絡(luò),即觀察當(dāng)神經(jīng)網(wǎng)絡(luò)利用有監(jiān)督的注意力機(jī)制時其性能的變化,從而能夠從注意力機(jī)制的角度,對深度神經(jīng)網(wǎng)絡(luò)的可解釋性進(jìn)行更深入的研究.

(3)通過借鑒認(rèn)知科學(xué)的理論研究,進(jìn)一步拓寬計算機(jī)視覺領(lǐng)域?qū)σ曈X注意力研究的內(nèi)涵和外延.

認(rèn)知科學(xué)中,對人類的注意力機(jī)制進(jìn)行了更深入、更廣泛的研究,如:群體的注意力機(jī)制(group attention)、人類在社交場景中的注意力機(jī)制(co-attention in social scenes).因此,計算機(jī)視覺領(lǐng)域針對視覺注意力計算模型的研究,有必要充分吸收借鑒認(rèn)知科學(xué)領(lǐng)域中對于人類注意力機(jī)制的理論成果,進(jìn)一步研究挖掘人類視覺注意力機(jī)制以及更高層次的感知理解,如:研究第一人稱視角下的人類注意力機(jī)制、研究人類在社交場景下的認(rèn)知機(jī)制、研究人類的多輪注意力分配和轉(zhuǎn)移機(jī)制,并基于人類的行為、動作、注意力進(jìn)一步研究人類的行為意圖(intention).

猜你喜歡
關(guān)注點人眼注意力
讓注意力“飛”回來
冬奧關(guān)注點
新體育(2022年2期)2022-02-09 07:04:32
尋找關(guān)注點 提高復(fù)習(xí)效率——以初中教學(xué)中“0”為關(guān)注點為例
甘肅教育(2020年14期)2020-09-11 07:58:44
下半年尿素市場四大關(guān)注點
如何分析一組數(shù)據(jù)的集中和分散——數(shù)據(jù)分析的兩個關(guān)注點
人眼X光
快樂語文(2019年9期)2019-06-22 10:00:38
人眼為什么能看到虛像
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
閃瞎人眼的,還有唇
優(yōu)雅(2016年12期)2017-02-28 21:32:58
A Beautiful Way Of Looking At Things
芦山县| 红桥区| 泰顺县| 高州市| 平顶山市| 布拖县| 凤阳县| 灵武市| 民权县| 罗城| 新安县| 新宾| 樟树市| 南涧| 通许县| 阆中市| 铜梁县| 鲜城| 佳木斯市| 原阳县| 武汉市| 饶平县| 竹溪县| 永清县| 岫岩| 左贡县| 讷河市| 衡水市| 秭归县| 循化| 婺源县| 仙居县| 秦皇岛市| 曲靖市| 垦利县| 萨嘎县| 靖江市| 江安县| 巴中市| 西平县| 桐城市|