牛連丁 陳婷婷 張立志
摘 要:由于二維圖像三維化技術(shù)重建三維場景可以低成本、高效率地提供三維顯示資源,使得該技術(shù)成為圖像處理領(lǐng)域重要的研究課題。深度線索的提取是重建三維場景的重要研究內(nèi)容之一。為了更好的描述紋理特征與場景深度之間的關(guān)系,提出了一種基于多尺度紋理特征的最小二乘深度信息估計(jì)方法。通過構(gòu)建多尺度模型、紋理濾波的方法捕捉頭像的多尺度紋理梯度、紋理變化等特征作為訓(xùn)練樣本;并進(jìn)行訓(xùn)練,得到紋理線索與場景深度間的關(guān)系參量;最后用該參量來估計(jì)待測樣本的深度。實(shí)驗(yàn)結(jié)果表明,該方法對場景深度信息的估計(jì)具有較好的效果。
關(guān)鍵詞:多尺度紋理,最小二乘方法,深度估計(jì)
中圖分類號:TP391 文獻(xiàn)標(biāo)識(shí)號:A
The Least-square Depth Information Estimation Method based on Multi-scale Texture Features
NIU Lianding1, CHEN Tingting 2, ZHANG Lizhi2
(1 Network and Educational Technology Center, Harbin University of Commerce, Harbin 150028, China;2 Department of Computer and Information Engineering, Harbin University of Commerce, Harbin 150028, China)
Abstract: With the advantage of low cost and high efficiency for 3D display market, the technique of 3D scene reconstruction from 2D scene image has been the main research contents in the field of image processing. For the 3D reconstruction, the extraction of depth cues is one of the most important contents. Therefore, the paper proposes a least-square depth estimation method based on multi-scale texture features, which can better describe the relationship between the texture features and the scene depth. By using the methods of constructing multi-scale model and texture filtering, the paper captures the features of the texture gradient and texture variations as the training sample sets, and then trains these samples to get the relationship parameters between texture cues and scene depth, which can finally be applied to estimate the depth of the test sample sets. The experimental results show that the proposed method performs well in scene depth information extraction.
Keywords: Multi-scale Texture; Least-square; Depth Estimation; Texture Feature
0 引言
由于三維影像可以帶給受眾更加逼真的臨場感,在各領(lǐng)域中都得到了廣泛的應(yīng)用[1],市場潛力巨大。然而,三維視頻制作成本高、技術(shù)難度大、現(xiàn)實(shí)周期長等問題,限制了資源的供應(yīng),無法滿足市場需求。為了解決這一矛盾,通過獲取二維影像的深度信息,并利用該信息將現(xiàn)有二維影像三維化處理獲得三維影像,成為解決三維顯示內(nèi)容不足的一個(gè)重要手段。該方案不但可以降低制作成本,縮短制作周期,還能夠充分利用現(xiàn)有的影像資源避免資源浪費(fèi)。自2003年,德國Christoph Fehn提出了基于深度圖繪制DIBR(Depth-Image-based Rendering)[2]的三維圖像生成方式后,深度信息即已提取成為實(shí)現(xiàn)二維影像三維化的關(guān)鍵技術(shù)之一。
場景深度信息是指在空間上場景對象與圖像物理成像焦平面的實(shí)際距離。二維場景圖像的紋理變化、紋理梯度、顏色都能給人們提供良好的深度感知。通過比較一紋理區(qū)域在不同尺度下的位置、大小、方向,估算出紋理區(qū)域的相對位置關(guān)系,進(jìn)而得到相應(yīng)紋理區(qū)域的場景深度。Knorr等提出了利用圖像紋理梯度線索來提取深度的方法[3]實(shí)現(xiàn)深度估計(jì)。對于室外場景的轉(zhuǎn)換得到了較好的重建質(zhì)量,但由于線索單一,對室內(nèi)場景圖像效果較差。Malic,Saxena[4-5]等人,根據(jù)景物對象在不同深度上存在著紋理及陰影差異,通過建立馬爾科夫隨機(jī)場模型,監(jiān)督學(xué)習(xí)方法訓(xùn)練參數(shù),從而估計(jì)圖片場景深度。Derpanis等人則從時(shí)空方向能量對動(dòng)態(tài)紋理進(jìn)行描述[6],提出利用方向?yàn)V波器的能量響應(yīng)對視頻進(jìn)行處理,按照不同的等級對運(yùn)動(dòng)的形式進(jìn)行定向分析。
基于對紋理特征的研究及優(yōu)化算法的總結(jié),提出了一種基于多尺度紋理特征的最小二乘深度估計(jì)方法。該方法采用了紋理濾波器分別對圖像的紋理梯度、紋理漸變、顏色進(jìn)行濾波,用以捕捉圖像不同尺度的紋理能量作為特征,通過訓(xùn)練得到紋理線索與場景深度間的關(guān)系參量,并利用該關(guān)系參量來估計(jì)特測試樣本的深度。
1多尺度紋理特征提取
二維圖像是三維場景在二維平面上的投影。在投影過程中丟失了大量的三維信息,其中不僅包括深度信息,還包括真實(shí)物體的形狀等幾何信息。只有充分挖掘二維圖像中殘留的信息,才能重構(gòu)三維場景。因此,通過構(gòu)建多尺度模型,捕捉多尺度紋理特征實(shí)現(xiàn)二維圖像的深度信息估計(jì)。
在研究中,以宏塊為基本處理單位,通過計(jì)算圖像中的所有宏塊的深度值,獲得整幅圖像的深度信息。首先,將圖像劃分成固定大小的宏塊;然后,對于任一宏塊構(gòu)建多尺度模型;最后采用濾波器模板對該多尺度模型中的每個(gè)宏塊進(jìn)行卷積,進(jìn)而求得該宏塊的多尺度紋理特征。
1.1多尺度模型構(gòu)建
單目二維場景圖像的局部特征并不能夠完全正確地反映場景對象中某一宏塊的深度值,因此需要引入與之相鄰的局部特征或全局特征才能正確估計(jì)圖像的深度信息。因此,為了獲得更多圖像本質(zhì)特征,引入了尺度空間的思想[7-8]。構(gòu)建如圖1所示的多尺度空間模型,采用多尺度分析法獲得二維場景的本質(zhì)特征。
圖1 多尺度模型
Fig.1 the multi-scale model
在觀察物體時(shí),隨著物體和觀察者之間的距離不斷地變化,視網(wǎng)膜感知到的圖像信息也是不斷變化的,通過綜合分析這些不同的視覺信息可以獲得被觀察物體的本質(zhì)特征。多尺度空間分析思想是根據(jù)人眼觀察事物的這一特點(diǎn),在圖像信息處理過程中引入一個(gè)尺度參數(shù)(如物體和觀察者之間的距離),通過不斷變化尺度參數(shù)獲得在不同尺度下的圖像信息,然后綜合分析這些信息深入地挖掘圖像的本質(zhì)特征。多尺度空間分析方法對于深度特征提取具有重大意義。如圖1中,A0、B0、C0分別是三個(gè)尺度下的圖像宏塊。對于宏塊A0,僅通過其本身特征來推斷其深度信息是不可能的。而B0、C0提供了不同尺度下的圖像特征,通過綜合分析這些全局信息可以更好地推斷出宏塊A0的深度信息。
在對圖像中景物深度信息判斷過程中,發(fā)現(xiàn)相鄰宏塊的特征對目標(biāo)宏塊的深度估計(jì)也具有很大貢獻(xiàn),可以約束相鄰宏塊之間深度的依賴關(guān)系。因此,將宏塊A0、B0、C0的上、下、左、右四個(gè)相鄰宏塊包含在多尺度模型中。這樣不僅可以將與目標(biāo)宏塊直接相鄰的宏塊的特征引入深度判斷,而且還可以將較遠(yuǎn)的宏塊的特征引入深度判斷。
最終構(gòu)建了宏塊A0的多尺度模型,共計(jì)5宏塊/尺度×3尺度=15個(gè)宏塊。
1.2 紋理特征提取
紋理是一種反映圖像中同質(zhì)現(xiàn)象的視覺特征,體現(xiàn)了物體表面共有的內(nèi)在屬性,包含了物體表面結(jié)構(gòu)組織排列的重要信息以及其與周圍的聯(lián)系[9]。在圖像的分析中將描述這種灰度變化規(guī)律的數(shù)字特征稱為圖像的紋理特征。
紋理的變化在人眼視覺感知深度的過程中扮演著重要的角色[10]。圖像紋理線索作為深度提取的主要因子之一,在人眼視覺深度感知過程中發(fā)揮著關(guān)鍵性的功能主導(dǎo)作用。隨著深度的變化,圖像紋理在視覺中的變化是很明顯的。紋理分析方法廣泛應(yīng)用于視頻圖像恢復(fù)、圖像增強(qiáng)、三維立體視頻制作等。因此,采用Laws濾波器以及紋理梯度濾波器濾波的方式獲得紋理特征。
由于Laws濾波器[11]檢測均值(Level)、邊緣(Edge)、斑點(diǎn)(Spot)等諸多信息簡單有效,至今為止仍被廣泛用于分割與模式識(shí)別等領(lǐng)域。本文采用3階Laws模板(如圖2所示)對圖像的灰度通道進(jìn)行濾波,以獲得圖像的灰度紋理變化信息;采用圖2中第一個(gè)模板對圖像的兩個(gè)色度通道濾波,以獲得色度通道的紋理變化信息。
圖2 Laws模板
Fig.2 the Laws Mask
紋理梯度偵測器是用于檢測圖像紋理方向的一組濾波器模板。圖3中給出的是間隔為30°方向偵測器,將0~180°的空間劃分成6個(gè)方向,考慮到紋理方向不存在正向與反向之分,可以通過這組偵測器將紋理分析具體歸結(jié)到6個(gè)方向上來處理。
圖3 紋理梯度濾波器模板
Fig.3 the mask of texture gradient filtering
將上述9+2+6=17個(gè)濾波器 ( )與圖像宏塊 卷積并求其能量。式(1) 中,k=1時(shí)為絕對能量,k=2時(shí)為平方能量和。這樣,每一個(gè)宏塊獲得34維特征向量。
(1)
再將多尺度空間模型與紋理特征提取方法相結(jié)合。即采用式1所示的方法,對于每個(gè)目標(biāo)宏塊i所建立的多尺度模型中的15個(gè)宏塊,進(jìn)行紋理變化、紋理梯度等特征的提取,最終獲得34×15=510維可以反映其深度信息的特征。利用這些特征,采用模式識(shí)別的概率模型來估計(jì)場景對象深度。
2 基本算法模型
模式識(shí)別起源于二十世紀(jì)二十年代,隨著計(jì)算機(jī)的出現(xiàn)和人工智能的興起,在六十年代發(fā)展成為一門重要的學(xué)科,并廣泛應(yīng)用于代數(shù)、矩陣論、概率論等其他領(lǐng)域。模式識(shí)別是研究圖像或各種物理對象的分類與描述的實(shí)用性科學(xué),是將每一具體事物正確地歸入某一類別??梢哉f,模式識(shí)別是模式空間經(jīng)過特征空間變換到類別空間的一個(gè)實(shí)現(xiàn)過程。
將深度估計(jì)引入模式識(shí)別,即把深度估計(jì)問題歸為模式識(shí)別問題,深度即是離散的擬要識(shí)別的模式類。對訓(xùn)練樣本集和待估計(jì)的測試樣本集內(nèi)圖像分別進(jìn)行特征的提取;以貝葉斯原理為基礎(chǔ)建立分類器進(jìn)行分類決策模型;然后,根據(jù)最小二乘方法訓(xùn)練模型參數(shù),使得基于這種分類決策對被識(shí)別對象進(jìn)行分類所造成的誤差要盡量趨?。蛔詈?,利用所得模型參數(shù)完成深度估計(jì),生成待估計(jì)測試樣本的深度圖。
2.1 基于模式識(shí)別方法的深度模型
利用模式識(shí)別分類方法,對已有的真實(shí)深度圖像和二維場景圖像進(jìn)行監(jiān)督訓(xùn)練,在本實(shí)驗(yàn)中參考Saxena的數(shù)學(xué)模型方法,將訓(xùn)練樣本圖像分成 個(gè)宏塊單元,選取三個(gè)尺度的紋理能量作為訓(xùn)練樣本集的紋理特征,并將訓(xùn)練樣本同一行的紋理特征進(jìn)行相關(guān)組合,構(gòu)成特征矢量,研究樣本集中場景圖像深度與紋理能量之間的關(guān)系模型,模型數(shù)學(xué)表達(dá)如式(2)所示[12]:
(2)
這種算法是針對宏塊的深度值屬于每一類進(jìn)行決策。式中 是歸一化常數(shù); 是宏塊 的特征矢量; 是宏塊 的真實(shí)深度值。 表示真實(shí)深度的方差,用來衡量深度對于紋理能量特征的不確定性。大多相片是由水平安裝的相機(jī)拍攝,每行具有不同的布局。因此,對不同行 采用不同的參數(shù)( , )。針對同一圖像中不同行場景布局的不同,所需訓(xùn)練的行參數(shù)也不盡相同,并用 來表示每一行的參數(shù)矩陣, 的估計(jì)是通過 的極大似然函數(shù)來獲得。將其他參數(shù)看成已知,則 的最大似然估計(jì)即為求解線性最小二乘問題的真實(shí)結(jié)果。
2.2 基于最小二乘的參量估計(jì)
最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù),通過最小化誤差的平方和來尋找數(shù)據(jù)的最佳匹配函數(shù),進(jìn)而簡便求得未知數(shù)據(jù),并使得這些計(jì)算數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的誤差平方和達(dá)到最小值。
利用最小二乘法的思想,根據(jù)估計(jì)深度值與真實(shí)深度值之差的平方最小來估計(jì)最優(yōu)參數(shù)矢量 ,滿足式(2)中概率最大的估計(jì)深度值即為二維場景圖像在三維場景中的最適深度。式(2)中, 表示滿足二維圖像宏塊的深度值取值概率,因此通過確定式中 的最大值,就可確定該宏塊最有可能的深度值。同時(shí),又根據(jù)指數(shù)基本性質(zhì),可知若使得 取最大值,則需要滿足式(2)中 的取值為最小,并且式中 ,因此,就要使其中 取值達(dá)到最小,此處可令:
(3)
那么滿足關(guān)系式 取值為最小,即需使:
(4)
根據(jù)矩陣的基本性質(zhì),利用最小二乘方法,對式(4)求導(dǎo)可得:
(5)
為滿足式(4)中 取最小值,令 ,則:
(6)
從而得出二維場景圖像的紋理特征與深度之間的關(guān)系參量:
(7)
2.3 深度估計(jì)
由式(7)得知,參數(shù)矩陣 與紋理特征 有著直接的關(guān)系。如前所述,每個(gè)宏塊的紋理特征 都是510×1維特征向量,參數(shù)矩陣 則為1×510的特征矩陣。在進(jìn)行深度估計(jì)時(shí),可以認(rèn)為深度 是宏塊 的紋理特征矩陣的非線性組合。這樣,參數(shù)矩陣 就是不同的權(quán)值組合,每一權(quán)值就是其相應(yīng)的紋理特征對深度的影響程度,進(jìn)而得到深度值如式(8)所示:
(8)
3 實(shí)驗(yàn)結(jié)果與分析
在Matlab2011b環(huán)境下通過仿真驗(yàn)證方法的有效性。選取400幅1 704*2 272像素的二維圖像及其真實(shí)深度圖為訓(xùn)練集,133幅1 704*2 272像素的二維圖像及其真實(shí)深度圖作為測試樣本集。場景中包括人造環(huán)境(樓房,街道等),自然環(huán)境(森林,灌木叢等)。
試驗(yàn)中,為了權(quán)衡由宏塊大小所帶來的訓(xùn)練速度與深度的統(tǒng)計(jì)特性的顯著性之間的矛盾,將圖像分成17×32像素的宏塊。實(shí)驗(yàn)結(jié)果如圖4所示,其中(a)為原始圖像、(b)為本方法得到的二維場景圖像深度估計(jì)結(jié)果、(c)組圖像是激光掃描設(shè)備得到的二維場景圖像的真實(shí)深度圖像,深度范圍是在0~81m,對于超過81m的深度都將記為81m。
(a)原始圖像 (b)實(shí)驗(yàn)結(jié)果 (c)真實(shí)深度
(a) original image (b) result of our method (c) real depth image
圖4 實(shí)驗(yàn)結(jié)果
Fig.4 The experimental results
4 結(jié)束語
本文中,提出了一種基于多尺度紋理特征的最小二乘深度信息估計(jì)方法。該方法通過建立多尺度模型、采用了紋理濾波器對圖像的紋理梯度、紋理漸變、顏色進(jìn)行濾波,捕捉圖像不同尺度的紋理能量作為特征, 并通過訓(xùn)練得到紋理線索與場景深度間的關(guān)系參量,該關(guān)系參量可用來估計(jì)特測試樣本的深度。
實(shí)驗(yàn)結(jié)果表明,該方法可以獲得較好的深度信息提取效果,且對場景結(jié)構(gòu)及空間布局要求較低。但對于紋理輪廓不明顯,深度值高度接近的圖像,很難得到一個(gè)理想的深度圖。因此,在未來的研究中將重點(diǎn)解決這個(gè)問題。首先,在深度特征提取方面,可以嘗試使用其他特征,并且可嘗試結(jié)合其他特征不同的特點(diǎn),分配不同的權(quán)重。其次,在模式識(shí)別方法模型方面,可以嘗試更好的方法來研究特征和深度信息之間的關(guān)系,建立不同的更加有效的模型。
參考文獻(xiàn)
[1] KARSCH K,LIU C, KAN S B Kan, Depth extraction from video using non-parametric sampling [C] // Computer Vision, Florence: ECCV, 2012: 775-788.
[2] FEHN C. A 3D-TV approach using Depth-Image-Based Rendering (DIBR) [C]// Proceedings of Visualization, Imaging and Image Processing, Benalmadena: [s. n.] 2003:482-487.
[3] KNORR, IMRE S, OZKALAYCI E, et al. A modular scheme for 2D/3D conversion of TV broadcast [C] 3DPVT 2006, North Carolina: IEEE Computer Society,2006: 703-710.
[4] MALIK J, ROSENHOLTZ R. computing local surface orientation and shape from texture for curved surface[J]. Intermation Journal of Computer Vision, 1997, 23(2):149-168.
[5] SAXENA A, SCHULTE J, NG A Y. Depth estimation using monocular and stereo cues [C]// 20th Int'l Joint Conf. Artificial Intelligence, Hyderabad: IJCAI, 2007.
[6] DERPANIS K G, WILDES R P. Dynamic texture recognition based on distributions of spacetime oriented structure [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), California : CVPR 2010,2010(6):191-198..
[7] WITKIN A. Scale-space filtering [C]// Proc 8th Int Joint Conf Artificial Intell, Karlsruhe: [s.n.], 1983: 1019-1021.
[8] 孫劍, 徐宗本. 計(jì)算機(jī)視覺中的尺度空間方法[J] . 工程數(shù)學(xué)學(xué)報(bào), 2005.22(6):951-960.
[9] HARALICK R M. Statistical and structural approaches to texture[J]. Proceedings of the IEEE, 1979, 67(5) :786-804.
[10] Gibson. The ecological approach to visual perception [M]. London: Lawrence Erlbaum Associates, 1986.
[11] E. R. Davies. Laws Texture Energy in TEXTURE. Machine vision: Theory, Algorithms, Practicalities[M]. 3th edition.Morgan Kaufman, 2005:756-799.
[12] SAXENA A, SUN M, NG A Y. Learning 3-D scene structure from a single still image [J]. IEEE Trans. Pattern Analysis and Machine Intelligence (PAMI), 2009, 31(5): 824-840.