馮 潔,王世剛,韋 健,趙 巖
(吉林大學(xué) 通信工程學(xué)院,吉林 長春 130012)
顯著性區(qū)域檢測研究的目的是從圖像中標(biāo)記出最容易引起人注意的目標(biāo)或最能表達(dá)圖像的內(nèi)容,常應(yīng)用于圖像檢索[1]、圖像壓縮[2]、目標(biāo)識別與跟蹤[3]、圖像融合[4]以及圖像分割[5]等領(lǐng)域。
根據(jù)人類視覺選擇注意機制,目前的顯著性檢測方法大致可分為自底向上和自頂向下兩類。自底向上的顯著性檢測模型是由數(shù)據(jù)驅(qū)動的,利用圖像的亮度、紋理、顏色和空間位置等特征,判斷目標(biāo)區(qū)塊與周圍的差異,進而計算出顯著性。自頂向下的顯著性檢測模型[6-8]是由具體檢測任務(wù)驅(qū)動的,需要通過類標(biāo)簽進行監(jiān)督學(xué)習(xí)。Yan等人[9]提出了綜合這兩種機制的顯著目標(biāo)檢測方法,由感知格式塔法則指導(dǎo)自底向上的模型,自頂向下模型則是使用計算模型描述注意力的背景連通性并生成優(yōu)先級圖。該方法的有效性雖優(yōu)于無監(jiān)督技術(shù),但檢測結(jié)果與基于監(jiān)督的深度學(xué)習(xí)方法仍有一些差距[10]。與自頂向下的顯著性檢測模型相比,自底向上的顯著性檢測模型通常執(zhí)行速度快并且易于適應(yīng)各種情況,因此已得到廣泛應(yīng)用。Achanta等人[11]提出了一種頻率調(diào)諧方法,從整個圖像的色差得出顯著圖。Cheng等人[12]提出基于直方圖的對比度和基于區(qū)域的對比度,其考慮了空間距離,克服了色彩對比度的局限性。Goferman等人[13]提出上下文感知方法,增強了顯著目標(biāo)附近的其他顯著點。Fu等人[14]提出了結(jié)合顏色對比度和顏色空間分布的顯著性檢測算法的流程以及抑制噪聲和偽影的細(xì)化過程。Sun等人[15]提出了融合高低層多特征的顯著性檢測算法,結(jié)合高層先驗知識和低層的4種顯著性特征,利用類間差異最大閾值對高低層特征進行線性和非線性融合,最終得到高質(zhì)量的顯著圖。
近年來,基于圖的顯著目標(biāo)檢測方法[16-19]因其簡單、高效等特點而備受關(guān)注。這些算法將圖像表示為以超像素為節(jié)點的圖,圖的邊為節(jié)點與給定種子或查詢節(jié)點的相關(guān)性,通過傳播模型將標(biāo)簽在圖中擴散。傳播模型一般基于聚類假設(shè)和平滑度假設(shè),聚類假設(shè)認(rèn)為同一集群中的節(jié)點應(yīng)該具有相同的標(biāo)簽,平滑度假設(shè)則認(rèn)為相同流行結(jié)構(gòu)上的節(jié)點應(yīng)該具有相同的標(biāo)簽。雖然這些方法的性能優(yōu)于大多數(shù)自底向上的顯著性檢測方法,但是仍存在一些缺陷。例如,Yang等人[16]提出的基于圖的流行排序算法中,用作背景查詢的4個邊界,可能會存在與前景相鄰的情況,在背景估計中使用這樣有問題的查詢可能導(dǎo)致結(jié)果不理想或不完整。另外,采用標(biāo)準(zhǔn)平滑約束可能會遺漏區(qū)域局部信息。Wu等人[17]針對背景查詢可能不可靠的問題,提出了邊界顯著性度量以去除邊界種子中的顯著性區(qū)域,獲得可靠的背景查詢,提高檢測精度。Li等人[18]引入正則化隨機游走排序來計算像素級的顯著圖,結(jié)果能反映出輸入圖像的更多細(xì)節(jié)。Wu等人[19]在標(biāo)簽傳播模型中使用變形平滑度約束,考慮節(jié)點及其相鄰節(jié)點平滑度,防止與背景對比度低的節(jié)點的錯誤標(biāo)簽傳播。
但針對包含多個顯著性目標(biāo)和顯著性目標(biāo)的某些區(qū)域與背景區(qū)域?qū)Ρ炔幻黠@的場景,上述方法所得顯著圖不夠精細(xì),甚至?xí)G失某些顯著性區(qū)域。故本文提出一種結(jié)合相機陣列選擇性光場重聚焦的顯著性檢測,采集同一場景的多幅視點圖像,利用場景的深度、聚焦等信息結(jié)合基于圖的顯著性檢測方法,同時采用結(jié)合全局和局部平滑度約束的傳播模型來解決上述問題。本文的主要貢獻在于:第一,利用場景的多幅視點圖像進行顯著性檢測,對中心視點圖像進行結(jié)合bokeh渲染和超分辨的重聚焦,使得本文方法能夠結(jié)合場景的深度和聚焦信息進行顯著性檢測。第二,在基于圖的顯著性檢測方法的基礎(chǔ)上提出了一種結(jié)合全局和局部平滑度約束的傳播模型來防止錯誤標(biāo)簽的傳播。另外,在包含多個顯著目標(biāo)的場景中,通過選擇對場景的某一深度層進行重聚焦,同時對其他深度層產(chǎn)生不同程度的模糊,可以更精確、細(xì)致地檢測出位于該深度層上的顯著目標(biāo),一定程度上實現(xiàn)了可選擇的顯著性檢測。
本文提出的方法分為兩個主要步驟,如圖1所示。第一步,首先利用同一場景的多幅視點圖像進行視差估計,所得視差圖用于指導(dǎo)中心視點圖像的重聚焦渲染[20]。重聚焦渲染過程結(jié)合了bokeh渲染和超分辨率重建,利用基于深度的各向異性濾波器對指定的聚焦深度層進行渲染,模糊其他深度層中的非必要元素,然后通過超分辨率重建生成重聚焦后的圖像。第二步,首先對重建的結(jié)果進行超像素處理,然后以超像素為節(jié)點建立圖模型,通過結(jié)合了全局和局部平滑度約束的傳播模型得到顯著性粗圖。最后,利用目標(biāo)圖進行細(xì)化,得到最終顯著性檢測的結(jié)果。
圖 1 結(jié)合相機陣列選擇性光場重聚焦的顯著性檢測算法的框架圖Fig. 1 Framework diagram of the saliency detection algorithm combined with selective light field refocusing of camera array
將bokeh渲染和超分辨率重建集成到一個方案中,可在提高bokeh渲染性能的同時提高重聚焦后圖像的分辨率[21]。首先采用RGDP (Reliability Guided Disparity Propagation)算法[22]對視點圖像進行視差估計,用以指導(dǎo)bokeh渲染。考慮到在實際圖像采集過程中,存在傳感器排列密度受限,光學(xué)畸變,景物與采集設(shè)備之間存在相對位移等諸多降質(zhì)因素,建立攝像機陣列的退化模型:
其中,gk表示第k個相機捕獲的視點圖像,F(xiàn)表示高分辨率圖像,nk表示空間域附加噪聲,D、B和Md,k分別表示下采樣、光學(xué)模糊和位移(取決于深度d和視點k)。超分辨率重建的主要任務(wù)就是估計F以適應(yīng)退化模型,求解以下方程:
其中,第一項為對觀測到的低分辨率圖像與理想高分辨率圖像的一致性度量, ωb是基于深度和空間變化的權(quán)重向量,⊙代表哈達(dá)瑪乘積(Hadamard product),也稱逐元素乘積,Jb(F)為bokeh正則化項,JBTV(F)為 雙邊總變異BTV正則化項[23],λb和 λBTV為正則化系數(shù),Jb(F)可以表示為:
其中,F(xiàn)b為由bokeh渲染生成的圖像。采用梯度下降法逼近公式(2)的最優(yōu)解,步長和迭代次數(shù)均可設(shè)置。
生成bokeh圖像的過程為:利用基于深度的各向異性濾波器對中心視點圖像進行渲染,通過調(diào)節(jié)其參數(shù)可實現(xiàn)對場景中某一深度層的聚焦,而對其他深度層產(chǎn)生不同程度的模糊。下面對具體過程進行解釋:假設(shè)圖像中的某點p沒有被聚焦,其在圖像中對應(yīng)的混疊圓[24]半徑為:
其中,lf和lp分別表示焦距深度和p點深度,f為焦距,F(xiàn)為透鏡F數(shù),深度l可表示為l=fb/d,其中b為基線長度,d為視差。那么公式(4)可表示為:
在bokeh渲染過程中,f,F,b和df是固定不變的,那么p點對應(yīng)的混疊圓半徑與p點和焦點之間的絕對視差成正比。K=f/2F(b?df)表示整體的模糊程度,同時反映場景深度,K越大表示模糊程度越強,景深越小。
假設(shè)q點周圍存在多個以pi為中心的混疊圓,由于混疊圓中強度是均勻分布的,計算pi對q的貢獻可 通 過Ipiq=Ipi/πr2pi,rpiq≤rpi表 示,其中Ipi為pi點渲染前的強度,rpi為 以pi為中心的混疊圓的半徑,rpiq為pi與q之間的距離。那么q點強度可表示為:
其中,Sq={pi|rpiq≤rmax}表 示q點周圍點的集合,rmax是圖像中混疊圓半徑的最大值。由于Sq中的某些點可能對q點沒有作用,所以將權(quán)重λpi定義為:
各向異性濾波器基于公式(6)和公式(7),采用雙三次插值渲染中心視點圖像生成Fb。
另外還需要對公式(2)和公式(3)中的 ωb進行計算, ωb是基于深度和空間變化的權(quán)重向量,未聚焦的區(qū)域應(yīng)具有較大的權(quán)重。一幅圖像的模糊程度由混疊圓半徑?jīng)Q定,通過γp=(rp?rmin)/(rmax?rmin)將 半徑歸一化至[0, 1],rmin為圖像中混疊圓半徑的最小值。使用sigmoid函數(shù)將 γp轉(zhuǎn)化為ωp,ωp=1/{1+exp[?α(γp?β)]}, 其中 α為衰減因子,β為閾值。遍歷所有像素點,得到權(quán)值向量ωb。
上述步驟中通過設(shè)置參數(shù)能夠?qū)鼍爸心骋簧疃葘舆M行聚焦,而對其他部分產(chǎn)生不同程度的模糊,在此基礎(chǔ)上進行如下基于圖的顯著性檢測。首先,對重聚焦后的圖像進行超像素處理,采用SLIC (Simple Linear Iterative Clustering)算法[25]將圖像分割為n個超像素,該算法計算速度快,能生成緊湊且近似均勻的超像素。然后,構(gòu)建圖結(jié)構(gòu)G=(V,E), 其 中V={v1,···,vn}為 超 像 素 點 集,E為邊集,E=E1∪E2∪E3∪E4由V中任意兩節(jié)點之間通過邊權(quán)值矩陣W=[wij]n×n量化的連接構(gòu)成。通過以下4條規(guī)則對其進行定義:
接著分兩個階段生成并細(xì)化顯著圖,第一階段采用結(jié)合全局和局部平滑度約束的傳播模型進行標(biāo)簽傳播,計算一個關(guān)于表示向量y=[y1,···,yn]T的排序向量。 表示向量y定義為:如果vi是 種子節(jié) 點,則yi=1, 否則yi=0。排序向 量f用以表示節(jié)點與背景種子節(jié)點的相關(guān)性,可通過求解下式獲得排序向量f:
其中, λ1=1/(1+μ1), λ2=μ2/(1+μ1)。分別將上、下、左、右4個邊界所含超像素節(jié)點作為種子,得到排序向量,分別歸一化后計算其互補值得到前景目標(biāo)相關(guān)性,然后將對應(yīng)元素相乘生成顯著性粗圖
在顯著性區(qū)域與背景具有明顯對比度的情況下,Mc會是良好的顯著性檢測結(jié)果,但是通過背景查詢并不能表示全部的顯著性目標(biāo)信息,特別是對于顯著性目標(biāo)具有復(fù)雜結(jié)構(gòu)或與背景相似的情況,結(jié)果受背景噪聲影響較大。第二階段,對上一階段得到的顯著性粗圖進行細(xì)化。首先,采用邊界盒[27]生成包含目標(biāo)區(qū)域、排除背景區(qū)域的目標(biāo)圖
其中,Aj為 邊界框 ?j的 分?jǐn)?shù),δ為指示函數(shù),表示節(jié)點vi是 否在邊框內(nèi),L用于對要檢測的邊界盒生成的邊框數(shù)量進行限制。結(jié)合Mc和Mo細(xì)化模型,細(xì)化結(jié)果f?計算公式如下:
式(14)中,第一項仍為平滑約束,用以保證顯著性值連續(xù),第二項為標(biāo)簽適應(yīng)度約束,用以保證細(xì)化的結(jié)果與粗圖Mc相差不大,第三項是通過Mo構(gòu)建的正則化約束,抑制不屬于目標(biāo)的背景區(qū)域,增強可能屬于目標(biāo)的區(qū)域。令式(14)導(dǎo)數(shù)為0得最優(yōu)解
在4D光場數(shù)據(jù)集[28]上進行實驗,該數(shù)據(jù)集對于每個場景提供9×9×512×512×3光場。選擇每個場景3×3的子視點圖像序列作為輸入,輸出對該場景進行顯著性檢測的顯著圖。另外,實驗對數(shù)據(jù)集中每一場景都進行了人為的顯著性標(biāo)注,使每一場景都帶有顯著性檢測的真值圖,用于對檢測結(jié)果進行定量分析。算法中的參數(shù)設(shè)置如下:重聚焦過程中,兩項正則化系數(shù)分別設(shè)為λb=5, λBTV=0.2;bokeh渲染過程中,衰減因子α=15; 閾值 β=0.3;bokeh強度K= 3(可根據(jù)對模糊程度及景深的需要進行調(diào)節(jié));顯著性檢測過程中,每個超像素包含的像素數(shù)量設(shè)置為600;控制約束 σ2=0.1; λ1=0.99; λ2=0.5;要檢測的邊框數(shù)量L=104。
實驗中,將場景深度量化為30個層次,通過設(shè)置索引i指定要聚焦的深度層,生成在該深度層聚焦,其他深度層散焦的重聚焦圖像,如圖2所示。圖2(a)為場景Herbs的中心視點圖像;圖2(b)為聚焦于第29個深度層的重聚焦圖像,圖中場景最前側(cè)花盆得以清晰顯示;圖2(c)為聚焦于第19個深度層的重聚焦圖像,場景較前側(cè)花盆得以清晰顯示;圖2(d)為聚焦于第9個深度層的重聚焦圖像,圖中場景較后側(cè)花盆得以清晰顯示;圖2(e)為聚焦于第2個深度層的重聚焦圖像,圖中場景最后側(cè)花盆得以清晰顯示。實驗結(jié)果表明,對于輸入的多幅視點圖像,通過選擇對場景的某一深度層進行重聚焦,能夠使位于該深度層上的物體清晰顯示,對位于其他深度層上的物體產(chǎn)生不同程度的模糊。實驗中將中心視點圖像作為真值圖,使用PSNR定量評估聚焦區(qū)域(方框框出)的清晰度。
圖 2 聚焦于場景不同深度層上的重聚焦結(jié)果Fig. 2 Refocusing results focusing on different depth layers of the scene
將本文方法所得的最終檢測結(jié)果與4種不同類型的顯著性檢測算法以及1種最新的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法進行了比較,如圖3(彩圖見期刊電子版)所示。其中文獻[19]、文獻[18]為基于圖的顯著性檢測方法,文獻[9]為綜合自底向上和自頂向下兩種機制的顯著目標(biāo)檢測方法,文獻[13]為上下文感知的顯著性檢測方法。由圖3可知,本文方法顯著性檢測的結(jié)果最為完整、細(xì)致,圖中對用紅色和藍(lán)色方框標(biāo)注出的部分細(xì)節(jié)進行放大展示以做視覺對比。對于第一行所展示的包含多個顯著性目標(biāo)的場景Table,本文方法能檢測出更多的顯著性目標(biāo),例如,左側(cè)的盆栽、筆筒、前方的臺燈等,另外本文方法得到的顯著圖中主要顯著性目標(biāo)也更為細(xì)致,例如,收納盒和打開的書。對于第二行所展示的顯著性區(qū)域與背景對比度不大的場景Boxes,本文方法檢測出的顯著性目標(biāo)最為精細(xì),例如,收納箱的右上邊緣和收納袋。
圖 3 5種算法對場景Table和Boxes進行顯著性檢測所得結(jié)果比較Fig. 3 Comparison of the saliency detection results obtained by five algorithms for the scene Table and Boxes
采用平均絕對值誤差(Mean Absolute Error,MAE)來評價檢測出的顯著圖與人工標(biāo)注的真值圖之間的差異,由下面的公式進行計算:
其中,W和H分別代表圖像的寬度和高度,S為顯著圖,G為真值圖,MAE越小說明檢測結(jié)果與真值圖之間的差異越小,算法的性能越好。針對Table和Boxes這兩種特殊場景,本文提出算法的MAE值均小于其他4種算法,檢測結(jié)果能體現(xiàn)出更豐富的顯著性目標(biāo)信息。對整個數(shù)據(jù)集中的全部場景進行顯著性檢測,計算MAE值,見表1。結(jié)果表明本文算法較其他4種算法,平均MAE值均有所降低,所得顯著圖與真值圖之間的差距有所縮小,檢測結(jié)果更為精細(xì)。
表1 5種算法的平均MAE值Tab. 1 Average MAE values of 5 different kinds of algorithms
對本文算法所得顯著性檢測結(jié)果進行閾值處理,用二值化的結(jié)果與文獻[10]中提出的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法所得結(jié)果進行比較,如圖4所示。可以看出雖然對于包含多個顯著性目標(biāo)的復(fù)雜場景,本文結(jié)果也存在部分顯著性目標(biāo)丟失的不足,但是所包含的顯著性目標(biāo)的信息更多,對細(xì)節(jié)處理得更好,與真值圖之間的差異更小,且無需預(yù)先通過大量數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),也無需在測試時下載預(yù)訓(xùn)練模型。故與基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法相比,本文方法更簡單、有效。
圖 4 本文算法所得結(jié)果與最新的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法所得結(jié)果的比較Fig. 4 The comparison between the results of our algorithm and the latest salient object detection algorithm based on deep learning
另外,由于本文方法結(jié)合了光場重聚焦,可通過選擇聚焦于不同的深度層,將該深度層上的顯著性目標(biāo)更精確、細(xì)致地檢出。圖5展示的是聚焦于場景兩個不同深度層(索引i分別設(shè)置為29和9)所得顯著圖。第一行從左至右分別為中心視點圖像、聚焦到果盤所在深度層后所得的顯著圖以及聚焦到較后側(cè)花盆所在深度層后所得的顯著圖;第二行將兩幅顯著圖中果盤部分進行放大展示??梢钥闯?,當(dāng)設(shè)置聚焦于果盤所在深度層(i= 29)時,場景中前側(cè)的果盤能夠被更精細(xì)的檢測出;當(dāng)設(shè)置聚焦于場景較后側(cè)花盆所在深度層(i= 9)時,后側(cè)花盆能夠被更精細(xì)地檢測出,一定程度上實現(xiàn)了可選擇的顯著性檢測。
圖 5 聚焦于場景不同深度層所得顯著圖比較Fig. 5 Comparison of saliency maps obtained by focusing on different depth layers of the scene
本文提出了一種結(jié)合相機陣列選擇性光場重聚焦的顯著性檢測方法。通過同一場景的多幅視點圖像,結(jié)合場景的深度、聚焦等信息,利用基于圖的顯著性檢測方法,提出結(jié)合全局和局部平滑度約束的傳播模型來防止錯誤標(biāo)簽傳播,得到的顯著性粗圖經(jīng)過目標(biāo)圖的細(xì)化最終輸出精細(xì)的結(jié)果圖。此外,通過參數(shù)設(shè)置對場景的某一深度層進行重聚焦,而對其他深度層產(chǎn)生不同程度的模糊,使得對包含多個顯著目標(biāo)的場景中位于該深度層的顯著目標(biāo)得以更精確、細(xì)致地被檢測出,一定程度上實現(xiàn)了可選擇的顯著性檢測。在4D光場數(shù)據(jù)集上進行的實驗表明本文所提出的算法效果良好,所得的顯著圖與人為標(biāo)注的真值圖之間的平均絕對誤差的均值為0.2128,較其他方法有所降低,檢測出的顯著圖最為精細(xì),改善了現(xiàn)有顯著性檢測方法針對包含多個顯著目標(biāo)以及顯著目標(biāo)的某些區(qū)域與背景區(qū)域?qū)Ρ炔幻黠@的場景所得的顯著圖不夠精細(xì),甚至?xí)G失某些顯著性區(qū)域的不足。