李增祿,郭孝玉,林志興,劉孫發(fā),余 建,許章華
(1.三明學(xué)院 網(wǎng)絡(luò)中心(信息化建設(shè)辦公室),福建 三明 36500412.三明學(xué)院福建省資源環(huán)境監(jiān)測與可持續(xù)經(jīng)營利用重點實驗室資源與化工學(xué)院,福建 三明 3650043.福州大學(xué)福州大學(xué)地理與生態(tài)環(huán)境研究院,環(huán)境與安全工程學(xué)院,福建 福州 350001)
將前景目標(biāo)從圖像中準(zhǔn)確地分離出來稱為摳圖(matting),是計算機(jī)視覺任務(wù)(例如圖像編輯、視頻處理、目標(biāo)檢測)中重要的組分之一[1-3]。目前,摳圖技術(shù)已經(jīng)成熟地應(yīng)用于網(wǎng)頁制作、電影特效制作等領(lǐng)域。隨著技術(shù)的進(jìn)一步發(fā)展,快速、準(zhǔn)確的摳圖技術(shù)是從結(jié)構(gòu)多樣復(fù)雜的自然圖像中提取所需前景目標(biāo)的有力保障。對于給定的自然圖像可以表示為前景和背景的線性組合。摳圖問題就是要求解每一個像素的透明度,從而而實現(xiàn)精準(zhǔn)的前景目標(biāo)提取。不幸的是,摳圖問題是一個嚴(yán)重欠約束的問題,研究人員很難根據(jù)一幅圖像紅綠藍(lán)三個通道像素值集合來確定每個像元位置的三通道的前景值、三通道的背景值,以及前景與背景之間的透明度等七個未知量。為了更好地求解這個問題,早期的工作一般會通過先驗知識或者統(tǒng)計假設(shè)的方法,例如三分圖或者涂鴉,以在一定程度上降低求解的復(fù)雜性。精確的三分圖的確有利于高質(zhì)量摳圖結(jié)果的獲取。三分圖中將給定的自然圖像劃分為前景、背景和未知區(qū)域。但是,創(chuàng)建三分圖無疑是一項非常耗費時間和精力的工作,而且創(chuàng)建大規(guī)模數(shù)據(jù)的三分圖的花費更加高昂。
關(guān)于小波變換[4]的工作最早出現(xiàn)在信號處理中。研究人員發(fā)現(xiàn),在處理非平穩(wěn)信號時,小波變換展現(xiàn)出了更為優(yōu)秀的性能。在此基礎(chǔ)上,小波變換擴(kuò)展到圖像處理領(lǐng)域,從多個尺度上分解圖像信息以捕獲更具代表性的圖像特征。值得注意的是,小波變換能夠多級展開以實現(xiàn)高級圖像特征的捕獲,同時能夠保留圖像的低級特征信息[5-6]。根據(jù)小波的分解系數(shù),在重構(gòu)圖像信息時不僅能夠保留更多的細(xì)節(jié)信息,而且也能夠根據(jù)多尺度信息實現(xiàn)更為魯棒的圖像重構(gòu)質(zhì)量。
前景目標(biāo)邊界的精確度是影響摳圖質(zhì)量的重要因素之一。大部分自然圖像都沒有清晰的前景和背景邊界。復(fù)雜的背景結(jié)構(gòu)、更為接近的前景顏色和背景顏色以及背景中包含前景目標(biāo)的部分結(jié)構(gòu)等因素都會導(dǎo)致模糊的前景和背景界限[7]。此外,因為某些前景目標(biāo)的獨特結(jié)構(gòu),例如頭發(fā)、毛發(fā)等細(xì)小的物體,或者水杯、玻璃、火焰等半透明物體,邊界的透明度值很容易失真。在基于先驗知識的摳圖算法中,未知區(qū)域在絕大部分情況下都是標(biāo)記前景對象的邊界區(qū)域?;诖?,我們在貝葉斯摳圖算法的基礎(chǔ)上,結(jié)合邊避免小波以更好地計算前景對象的邊界從而實現(xiàn)更為精準(zhǔn)的摳圖結(jié)果。
在本文中,邊避免小波被用于處理貝葉斯摳圖的滑動窗口信息,在多尺度方向上增強(qiáng)圖像的邊緣信息。在背景復(fù)雜的情況下,突出的邊界信息有助于貝葉斯摳圖算法采集更為魯棒的像素點特征以實現(xiàn)更為理想的透明度估計。
在復(fù)雜背景中估計前景目標(biāo)的遮罩,稱為自然圖像matting問題[8-10]。過去,基于采樣的摳圖算法和基于傳播的摳圖算法是估計透明度值的兩種主要方法。在基于采樣[11-14]的方法中,假設(shè)未知區(qū)域像素點的前景和背景都可以通過樣本估計得到,采樣的方法試圖從給定圖像的粗略劃分(Trimap)的區(qū)域采集大量的樣本,并按照定義的方法估計alpha,將未知像素表示為前景和背景的最佳混合。基于采樣的方法從局部采樣到全局采樣,雖然提高了計算精度,但是其計算復(fù)雜度無疑大大增加。基于傳播[15-18]的方法大多會采用局部連續(xù)性或者局部平滑性假設(shè),通過像素之間的相似性度量將透明度值從已知區(qū)域傳播到未知區(qū)域。但是,當(dāng)給定的自然圖像中包含大量不連續(xù)的結(jié)構(gòu),例如孔洞,基于傳播的自然圖像摳圖算法不能達(dá)到理想的性能。
為了結(jié)合基于采樣的摳圖方法和基于傳播的摳圖方法的優(yōu)勢,文獻(xiàn)[19]利用卷積神經(jīng)網(wǎng)絡(luò)融合CF(Closed-Form)摳圖方法和KNN(K-Nearest Neighbor)摳圖方法估計的alpha遮罩[20]以實現(xiàn)更為準(zhǔn)確的遮罩估計。文獻(xiàn)[21]基于點擴(kuò)散函數(shù)恢復(fù)前景對象的模糊邊界,并與經(jīng)典的摳圖算法結(jié)合以優(yōu)化估計的透明度遮罩。文獻(xiàn)[22]同樣基于深度卷積神經(jīng)網(wǎng)絡(luò),結(jié)合三分圖先驗知識估計alpha遮罩。文獻(xiàn)[23]則認(rèn)為梯度信息附近的像素信息更為關(guān)鍵,通過分階段摳圖的方式整合基于采樣和基于傳播的摳圖方法的優(yōu)勢以實現(xiàn)更為精確的前景目標(biāo)提取。文獻(xiàn)[24]基于k近鄰算法開發(fā)了一種自適應(yīng)采樣摳圖算法以解決在樣本缺失情況下?lián)笀D效果不佳的問題。文獻(xiàn)[25]通過多通道摳圖的方式,在不同的顏色通道中估計像素之間的親和力以實現(xiàn)alpha值的傳播?;诜蔷植吭淼淖匀粓D像摳圖算法采用相似采樣方式,例如顏色相似性或者空間相近性實現(xiàn)透明度值的估計[26-29]。
線性濾波在圖像處理方面有著廣泛的應(yīng)用[30-31],如去除陰影,動態(tài)范圍壓縮等領(lǐng)域。依賴于數(shù)據(jù)的濾波,依靠每個像素距離中心像素的距離調(diào)整平均權(quán)重。雖然此過程不是線性的,但是這兩種濾波的方法都是通過空間和頻率來確定數(shù)據(jù)?;谛〔ㄗ儞Q[32]的多分辨率分析,實質(zhì)上是一個線性無關(guān)變換濾波。由一對縮放函數(shù)和小波函數(shù)定義,并表現(xiàn)為小波變換中的卷積運(yùn)算。在圖像處理領(lǐng)域,主要利用小波變換對圖像進(jìn)行分解,產(chǎn)生一個低頻分量和一個高頻分量,分別對其進(jìn)行處理,再經(jīng)小波重構(gòu)后得到我們想要的圖像。通常,僅依據(jù)一層頻域分解的子帶分量所提供的信息,對圖像進(jìn)行處理是比較困難的。
將圖像邊緣增強(qiáng)同時平滑圖像,稱為邊緣保留平滑濾波器。此方法避免了使用線性濾波器處理圖像時產(chǎn)生的光暈偽影,在平滑彩色圖像、邊緣保留去噪[33]、動態(tài)范圍壓縮等領(lǐng)域有著較好的應(yīng)用。文獻(xiàn)[34]提出利用雙邊濾波器對線性濾波器進(jìn)行擴(kuò)展,包含空間和像素強(qiáng)度范圍。通過多級策略有效地計算線性濾波,利用大內(nèi)核實現(xiàn)雙向濾波的線性計算。文獻(xiàn)[35]利用非均勻泊松方程計算多尺度邊緣平滑。文獻(xiàn)[36]提出一種自適應(yīng)地利用邊緣對圖像進(jìn)行粗化處理。此外,文獻(xiàn)[37]還將魯棒平滑與提升方案[38]相結(jié)合,構(gòu)建了一種新的依賴于數(shù)據(jù)的邊避免小波。
Lifting Scheme是快速小波變換的有效實現(xiàn),它提供了一種在沒有傅里葉變換的輔助下通過空間構(gòu)造正交小波的方法。在此方案中,利用一些結(jié)構(gòu)簡單、平移不變的雙正交基,通過一系列的改進(jìn)使其適應(yīng)小波。此過程一般分為三個步驟:分裂、預(yù)測和更新。加權(quán)CDF(Cohen-Daubechies-Feauveau)小波(weighted cohen-daubechies-feauveau wavelets,WCDF)和加權(quán)紅黑小波(weighted red-black wavelets,WRB)兩種結(jié)構(gòu)中的邊界都很容易處理,通常用于提升方案。預(yù)測和更新操作符都僅限于域內(nèi)的操作。
邊避免小波提升方案分為三個步驟:分裂、預(yù)測和更新。給定輸入信號a[n],將其分裂為兩個不相交的集合C、F,分別為粗略和精細(xì)的數(shù)據(jù)。其中,C={(x,y)|xodd},F={(x,y)|xeven},even表示偶數(shù)網(wǎng)格點集,odd表示奇數(shù)網(wǎng)格點集,如圖1所示。使用aC[n]和aF[n]表示信號值僅限于這些集合。一個簡單的方式是將數(shù)據(jù)分割為偶數(shù)和奇數(shù)網(wǎng)格點的集合。使用粗略的數(shù)據(jù)點aC預(yù)測精細(xì)的數(shù)據(jù)點aF,通過P:C→F表示預(yù)測算子,定義預(yù)測誤差為:
圖1 小波預(yù)測方案
粗略變量和精細(xì)變量在空間中混合,并且每個精細(xì)變量aF[n]在粗略變量aC[n]內(nèi)具有與其預(yù)測相關(guān)的幾個相鄰變量。假定圖像是局部相關(guān)的,預(yù)測誤差d1[n]是下一級小波變幻的細(xì)節(jié)系數(shù)。通過附加更新算子u:F→C實現(xiàn)近似系數(shù)的總和保持穩(wěn)定。該算子實現(xiàn)了精細(xì)變量aF到d1的平均:
新變量a1[n]為下一級小波變換的近似系數(shù)。
小波變換在數(shù)學(xué)上具有完備的分析。通過設(shè)置合適的參數(shù),可以將小波擴(kuò)展到整幅圖像的不同尺度上以實現(xiàn)不同特征的有效提取?;谄涠喑叨鹊膬?yōu)點,可以粗中帶細(xì)地捕獲圖像特征。
基于CDF小波變換,推導(dǎo)出沿不同軸的加權(quán)預(yù)測。沒有使用粗略變量作為平均值,而是重新定義了穩(wěn)健的平均值:
(x,y)∈C,根據(jù)式(2)計算下一級的粗略系數(shù),其中。在圖像中沿y軸重復(fù)上述步驟。
首先,利用四個最接近的黑色像素的加權(quán)平均值來預(yù)測每個紅色像素
其中 Nx,y={(x+1,y),(x-1,y),(x,y-1),(x,y+1)},(x',y')∈C。
與加權(quán)CDF小波類似,同樣利用式(1)計算精確數(shù)據(jù)點的近似系數(shù)dj+1。更新算子
其中(x,y)∈C,根據(jù)式(2)計算下一級的近似系數(shù)。
其次,利用偶數(shù)坐標(biāo)的四個對角線最近的深灰色鄰居來預(yù)測偶數(shù)坐標(biāo)的淺灰色變量?;谶@種預(yù)測,在每個像素處計算。根據(jù)式(6)更新算子ublack,利用此算子使四個對角線的像素在每個淺灰色變量出平均,根據(jù)式(2)計算下一級的近似系數(shù)aj+1。
邊避免小波根據(jù)輸入的數(shù)據(jù)內(nèi)容構(gòu)建了縮放和小波函數(shù),在提升背景的同時定義魯棒預(yù)測算子,并根據(jù)預(yù)測像素的相似度對像素進(jìn)行加權(quán)?;陬A(yù)測像素與其相鄰粗略變量之間的相似性使用后驗影響函數(shù),利用邊緣停止函數(shù)定義預(yù)測權(quán)重:
其中,α 在 0.8到 1.2之間,ε=10-5。
對于一些粗糙級別的縮放函數(shù),在輸入圖像平滑的地方可以得到平滑的輪廓。在邊避免小波中,跨越邊界時可以使用縮放函數(shù)表示數(shù)據(jù)中的不連續(xù)性。小波對邊緣的影響減少,細(xì)節(jié)間的相關(guān)尺度增大。
為提高機(jī)器對圖像的理解,獲得高質(zhì)量的matting結(jié)果,利用邊避免小波對圖像細(xì)節(jié)進(jìn)行增強(qiáng)?,F(xiàn)有的一些算法,如直方圖均衡、空間濾波、圖像邊緣銳化等,在捕獲圖像信息的同時可能導(dǎo)致圖像中的噪聲也得到了增強(qiáng)。利用小波多分辨率分析理論,多尺度對圖像質(zhì)量進(jìn)行增強(qiáng)。本文基于邊避免小波變換的特性,從不同尺度、多個位置和方向分析圖像特征,通過調(diào)節(jié)邊避免小波變換的參數(shù)以增強(qiáng)前景對象的邊緣特征。
作為經(jīng)典的摳圖算法,貝葉斯摳圖通過計算滑動窗口中未知像素附近的前景像素和背景像素之間的概率分布以估計未知像素的透明度值。之后,貝葉斯摳圖將計算得到的未知像素的透明度值作為已知條件,逐步估計全部未知像素的透明度值。當(dāng)滑動窗口中的像素更具識別性時能夠更準(zhǔn)確地計算未知像素的透明度值。貝葉斯摳圖的滑動窗口是從前景目標(biāo)邊界的未知像素區(qū)域逐步向內(nèi)部滑動,因而更為顯著清晰的邊界信息有助于貝葉斯摳圖采集更為有效的像素特征。
貝葉斯摳圖通過滑動窗口采集未知區(qū)域中的前景像素信息和背景像素信息。在采樣過程中,我們利用邊避免小波優(yōu)化圖像信息,將粗糙的信息平滑化,表示為aJ,并通過細(xì)節(jié)系數(shù)dj調(diào)節(jié)圖像的平滑程度,以實現(xiàn)對圖像細(xì)節(jié)的增強(qiáng)。在此過程中,考慮到Y(jié)UV空間具備更好的亮度表示,更有利于邊界細(xì)節(jié)的增強(qiáng),因此,本文在YUV空間實現(xiàn)目標(biāo)對象的邊界優(yōu)化。那么,邊避免小波在YUV空間的圖像分解工作可以表示為。本文通過調(diào)節(jié)多個細(xì)節(jié)指數(shù)以實現(xiàn)不同程度的細(xì)節(jié)增強(qiáng):
實現(xiàn)采集信息的優(yōu)化之后,貝葉斯摳圖算法根據(jù)已知的前景、背景和透明度信息,通過貝葉斯定理和最大概率算法計算未知像素的透明度值:
其中L(·)=lgP(·),P(C)是一個常數(shù)。在滑動窗口采集的像素信息中,前景像素、背景像素和透明度值一般會按照高斯分布排列。在貝葉斯摳圖算法中默認(rèn)L(a)為常數(shù)。因此,通過貝葉斯摳圖算法計算未知像素的透明度值可以簡化為:
通過計算滑動窗口采集到的像素信息,建立高斯混合模型以估計未知像素的最大概率值。貝葉斯摳圖算法假設(shè)符合高斯分布:
背景像素的處理方式與前景像素的處理方式極為相似,只需要將α替換為(1-α)即可。在計算出前景像素和背景像素的透明度值之后,將其帶入到高斯模型之中,利用前景和背景之間的匹配尋找的最優(yōu)解。
在貝葉斯摳圖中,通過求解最大化公式的偏導(dǎo)以求解:
基于已經(jīng)計算得到的前景F和背景B,可以計算得到透明度α:
通過不斷的交替運(yùn)算,使得最終的結(jié)果逐漸收斂于某一個值,即可得到最終的摳圖結(jié)果。
圖像的組成比較復(fù)雜,僅通過視覺觀察很難得到準(zhǔn)確的評價。定量分析的評價方法在matting效果的評價中得到廣泛的應(yīng)用[38-40]。我們對摳圖圖像基準(zhǔn)測試集(alpha matting)[21]上的所有圖像進(jìn)行了實驗,將部分具有代表性的圖像在下文進(jìn)行了表述。我們使用絕對誤差和(sum of absolute difference,SAD)及均方誤差(mean squared error,MSE)兩種評價指標(biāo)對matting結(jié)果進(jìn)行評價。評價指標(biāo)的計算公式為:
其中,αi是matting算法求得的結(jié)果,是測試集提供的真值結(jié)果,N為像素點的總和。樣本數(shù)據(jù)在同一環(huán)境下進(jìn)行處理。電腦配置如下:i9 CPU,8GB內(nèi)存,NVDIA GT2080Ti顯卡。
基于貝葉斯摳圖,利用邊避免小波提取前景對象,在YUV空間中構(gòu)建特征向量。在此基礎(chǔ)上,提出了一種基于邊避免小波的摳圖方法。實驗結(jié)果證明,基于邊避免小波可以實現(xiàn)更為平滑的摳圖效果。改進(jìn)的方法對于復(fù)雜的前景和背景交錯圖像有更好的效果。我們選擇一張圖片進(jìn)行詳細(xì)比較,如圖2所示。
圖2 細(xì)節(jié)比較
圖2中兩個孩子之間的頭發(fā)是交錯的,綠色的頭發(fā)接近背景色。從方法區(qū)域可以更為清晰地看出,CF和LB(learning based)無法有效提取區(qū)域的輪廓并將它們?nèi)恳暈榍熬?。KNN對頭發(fā)輪廓的提取很好,但是,圖像中有更多不連續(xù)的區(qū)域。本文使用邊避免小波提取前景物體的輪廓,它在提取頭發(fā)的前景和保留頭發(fā)之間的輕微背景信息方面表現(xiàn)更好。因為綠色的頭發(fā)和背景顏色差別不大,CF和LB方法只能提取大部分輪廓,導(dǎo)致細(xì)毛的信息丟失。KNN提取細(xì)小頭發(fā)的輪廓,但是前景和背景的區(qū)分不是很好,使提取的頭發(fā)輪廓變得模糊。本文的方法更適合提取邊緣毛發(fā),背景色和前景色之間的區(qū)分良好,保持細(xì)小頭發(fā)的精確輪廓。
對于樣本缺失的圖像,本文的方法仍然可以取得較好的效果。如圖3所示,在LB和CF方法中,標(biāo)志部分是灰色的,表明基于采樣的摳圖算法對于樣本缺失圖像的透明度值的估計不夠準(zhǔn)確。而在KNN中,小熊手中的旗幟與本體之間存在明顯的邊界,在處理樣本缺失的圖像時未能有效提取前景對象的邊界信息。在本文的方法中,旗幟與小熊本體之間的邊界與地面真值更為接近。本文的方法在處理樣本缺失的圖像時依然能夠獲得更為理想的邊界。
圖3 樣本缺失圖像處理
當(dāng)給定的自然圖像具備較為簡單的背景結(jié)構(gòu)時,各種摳圖算法得到的結(jié)果差別不大。 但是,本文的方法對于處理小頭發(fā)很方便,即使頭發(fā)區(qū)域的前景色與背景色相似。在小波優(yōu)化采樣的基礎(chǔ)上,本文的方法使得前景和背景之間具備更為清晰的邊界信息。在此基礎(chǔ)上,本文的方法能夠取得更為魯棒的摳圖結(jié)果。從圖4中第一行和第二行展示的結(jié)果來看,本文的方法在處理前景對象邊界的細(xì)小毛發(fā)時展現(xiàn)出更具競爭力的結(jié)果。
圖4 自然圖像matting比較
對于結(jié)構(gòu)復(fù)雜的自然圖像,僅僅通過視覺信息判斷最終結(jié)果的優(yōu)劣是不夠準(zhǔn)確的。本文使用文獻(xiàn)[30]中提供的方法來評估摳圖結(jié)果。本文選擇圖2和圖4展示的圖像作為定量評估數(shù)據(jù)集,通過計算不同摳圖方法獲得的結(jié)果的絕對誤差和(SAD)及均方誤差(MSE)來評估結(jié)果。 SAD和MSE的值越小,表明摳圖效果越好。圖5展示了定量評估結(jié)果??梢郧逦乜吹?,本文的方法展示出更為優(yōu)越的性能。在定量評估中,無論是結(jié)構(gòu)簡單的圖像還是圖像信息缺失的圖像,本文的方法都能估計出更為準(zhǔn)確的透明度值。
圖5 測試集定量評估比較
本文基于邊避免小波的原理對自然圖像進(jìn)行優(yōu)化以突出前景對象的邊界信息。在圖像處理中,小波變換能夠平滑復(fù)雜的背景結(jié)構(gòu)并強(qiáng)化弱小的邊緣細(xì)節(jié)信息。本文考慮到不同色彩空間的差別,在YUV空間中優(yōu)化圖像的細(xì)節(jié)信息以達(dá)到更為理想的增強(qiáng)效果??紤]到貝葉斯摳圖算法在計算不透明度值時依賴于滑動窗口采樣,本文利用邊避免小波突出圖像的細(xì)節(jié)信息以實現(xiàn)更佳的采樣性能。在未來,更為精確、快速的摳圖算法是發(fā)展的趨勢。因此,在后續(xù)的工作中嘗試從不同的角度優(yōu)化摳圖算法是一項更具意義的工作。