吳麗娜,邱 鈞,劉 暢
(北京信息科技大學(xué) 應(yīng)用數(shù)學(xué)研究所,北京 100101)
圖像特征檢測(cè)技術(shù)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),是解決圖像配準(zhǔn)、場(chǎng)景重構(gòu)以及目標(biāo)識(shí)別與分類等問(wèn)題的基礎(chǔ).
尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)方法對(duì)圖像的平移、縮放、旋轉(zhuǎn)等變換具有不變性,是常用的特征檢測(cè)方法之一[1-2].由于缺失場(chǎng)景表面的三維結(jié)構(gòu)信息,基于RGB圖像的SIFT方法無(wú)法檢測(cè)表征物體本質(zhì)屬性的特征.深度圖像(Depth map)記錄了場(chǎng)景各點(diǎn)與相機(jī)之間的距離,相對(duì)穩(wěn)定地反映了場(chǎng)景表面的三維結(jié)構(gòu)信息,是對(duì)RGB圖像的有效補(bǔ)充,也促使越來(lái)越多的學(xué)者開(kāi)始研究基于顏色-深度圖像(RGB-D)的三維特征.Karpushin等[3]給出了RGB-D圖像的一種多尺度表示方法,并實(shí)現(xiàn)了特征檢測(cè).Mirdanies等[4]將RGB圖像和深度圖像的SIFT與SURF(Speeded Up Robust Features)特征進(jìn)行融合,實(shí)現(xiàn)了較理想的三維目標(biāo)識(shí)別效果.現(xiàn)有的RGB-D圖像特征檢測(cè)方法大部分是將RGB特征和深度特征簡(jiǎn)單連接,并沒(méi)有有效地融合物體表面的顏色和結(jié)構(gòu)信息.因此,如何基于RGB-D圖像提取穩(wěn)定的三維特征是一個(gè)重要的研究?jī)?nèi)容.
本文利用透視投影,建立物點(diǎn)的三維保結(jié)構(gòu)模型.基于擴(kuò)散方程與尺度空間的聯(lián)系,將深度信息融入圖像的尺度空間中,給出RGB-D尺度空間的一種表示方法,并在RGB-D尺度空間中檢測(cè)三維特征點(diǎn).
圖像尺度空間是圖像在多個(gè)尺度下的描述,尺度空間的構(gòu)建主要包括:① 利用低通濾波器平滑圖像;② 對(duì)平滑后的圖像進(jìn)行降采樣.
Lindeberg證明了高斯核是生成尺度空間的唯一線性變換核[5].假設(shè)I0表示輸入圖像,則I0的尺度空間L(x,y,σ)表示為高斯函數(shù)G(x,y,σ)與I0(x,y)的卷積,即
L(x,y,σ)=G(x,y,σ)*I(x,y),
(1)
SIFT是David Lowe于1999年提出,2004年完善的圖像特征點(diǎn)檢測(cè)與匹配方法[1-2].特征檢測(cè)階段主要包括尺度空間的極值檢測(cè)與特征點(diǎn)的精確定位.
1.2.1 尺度空間的極值檢測(cè)
Mikolajczyk K等[6-7]在實(shí)驗(yàn)中發(fā)現(xiàn)高斯拉普拉斯函數(shù)σ2G2的極值同其他特征提取函數(shù)(如Hessian[6-7]、Harris角點(diǎn)[8]和Morevec[9])相比,能夠產(chǎn)生更穩(wěn)定的圖像特征.早在1994年,Lindeberg發(fā)現(xiàn)高斯差分函數(shù)(Difference-of-Guassian,DOG)與高斯拉普拉斯函數(shù)近似[5].因此,高斯差分函數(shù)的極值點(diǎn)對(duì)應(yīng)圖像的穩(wěn)定特征點(diǎn).高斯差分函數(shù)D(x,y,σ)的定義為
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*
I0(x,y)=L(x,y,kσ)-L(x,y,σ),
(2)
式中:k為尺度空間中相鄰圖像的尺度比.
由尺度空間的描述可知,D(x,y,σ)表示尺度空間中相鄰圖像的差值,則由D(x,y,σ)建立的尺度空間稱為高斯差分尺度空間.在此尺度空間上檢測(cè)極值,即可提取出圖像的特征點(diǎn).
1.2.2 特征點(diǎn)的精確定位
為精確定位特征點(diǎn),需要利用子像元插值法獲取連續(xù)空間中的極值點(diǎn).假設(shè)檢測(cè)到的極值點(diǎn)為X0=(x0,y0,σ0),在X0處將D(x,y,σ)泰勒展開(kāi)為
(3)
對(duì)式(3)求導(dǎo),并令導(dǎo)函數(shù)為零,得
(4)
式中:δ為X與X0的偏移量,由偏移量δ中分量的大小可以精確定位特征點(diǎn)的位置,即δ=X0+X.
透視投影將場(chǎng)景從三維空間映射到二維像平面,實(shí)現(xiàn)場(chǎng)景降維.類似于物點(diǎn)在相機(jī)坐標(biāo)系中的參數(shù)化模型[3],基于透視投影,可以建立物點(diǎn)在像平面上的參數(shù)化模型.
(5)
圖 1 基于透視投影的物點(diǎn)參數(shù)化模型示意圖Fig.1 Parametric model diagram of object point based on perspective projection
基于透視投影的物點(diǎn)參數(shù)化模型刻畫(huà)了物體從三維坐標(biāo)系變換到二維坐標(biāo)系的過(guò)程.在不考慮遮擋的情況下,三維物體表面的顏色和結(jié)構(gòu)信息完全蘊(yùn)含在RGB-D圖像中,則此模型是物點(diǎn)的三維保結(jié)構(gòu)模型.
由尺度空間的描述可知,圖像的尺度空間可以表示為
(6)
用步長(zhǎng)h對(duì)圖像I0的支撐域Ω進(jìn)行離散,得到離散形式的支撐域Ωd.基于有限差分理論,引入差分量
(7)
(8)
(9)
(10)
同理,?yyf有類似的表示形式,即
(11)
由上述引入的差分量,得到擴(kuò)散方程式(6)的差分形式為
(12)
式中:L=?xx+?yy.
將上述方程寫(xiě)成矩陣形式,令Lf=Af;由導(dǎo)數(shù)的定義可知,式(12)近似于
(13)
式中:τ為圖像間的尺度差,即τ=σn+1=σn.給定圖像I0,迭代求解式(13),即可得到RGB-D圖像的多尺度表示,即RGB-D尺度空間.因?yàn)槿谌肓吮碚魑矬w表面結(jié)構(gòu)信息的深度圖像,則RGB-D尺度空間是三維保結(jié)構(gòu)的.
令采樣步長(zhǎng)趨于零,得?xxf和?yyf,即式(10)和式(11)的連續(xù)形式
Dxxf=fxx‖rx‖-2-fx‖rx‖-4(rx,rxx),
(14)
Dyyf=fyy‖ry‖-2-fy‖ry‖-4(ry,ryy),
(15)
式中:fx和fy分別為函數(shù)f關(guān)于x與y的一階偏導(dǎo),rx和fy分別為函數(shù)r關(guān)于x與y的一階偏導(dǎo),fxx和fyy分別為函數(shù)f關(guān)于x與y的二階偏導(dǎo),rxx和ryy分別為函數(shù)r關(guān)于x與y的二階偏導(dǎo).式(12)的連續(xù)形式為
(16)
如果D(x,y)為常數(shù),則有rx=ry≡const和rxx=ryy≡0,上式等價(jià)于擴(kuò)散方程式(6).因此,在深度值恒定的情況下,RGB-D尺度空間對(duì)應(yīng)二維圖像的尺度空間.
本節(jié)基于保結(jié)構(gòu)的RGB-D尺度空間提出一種三維特征點(diǎn)檢測(cè)方法.檢測(cè)過(guò)程包括初始特征點(diǎn)的選擇;特征點(diǎn)的精確定位;特征點(diǎn)的篩選.
2.3.1 初始特征點(diǎn)的選擇
因高斯拉普拉斯函數(shù)的極值點(diǎn)對(duì)應(yīng)圖像的穩(wěn)定特征,則在RGB-D尺度空間上檢測(cè)極值,即可初步定位RGB-D圖像的三維特征點(diǎn).值得注意的是,RGB-D尺度空間中的尺度為場(chǎng)景的實(shí)際尺度,而非場(chǎng)景在成像面上的尺度.所以檢測(cè)極值時(shí),只需尋找每個(gè)尺度下圖像的極值,而不考慮尺度間圖像極值的大小關(guān)系.
2.3.2 特征點(diǎn)的精確定位
為精確定位特征點(diǎn),利用子像元插值法獲取連續(xù)空間中的極值點(diǎn).假設(shè)檢測(cè)到的極值點(diǎn)為(x1,y1,σ1),因不考慮尺度變量σ1,故可將(x1,y1,σ1)視為(x1,y1).令F(x,y)=Af(x,y),X1=(x1,y1), 將F(x,y)在X1處泰勒展開(kāi)為
F(x,y)=F|X1+(Fx,Fy)|X1δ1+
(17)
式中:δ1=(x-x1,y-y1)T為偏移量,F(xiàn)x和Fy分別為函數(shù)F關(guān)于x與y的一階偏導(dǎo),F(xiàn)xx和Fyy分別為關(guān)于x與y的二階偏導(dǎo),F(xiàn)xy為關(guān)于x與y的混合偏導(dǎo).
對(duì)上式求導(dǎo),并令導(dǎo)函數(shù)為零,則有
(18)
根據(jù)偏移量δ1中分量的大小可以確定連續(xù)空間中的極值點(diǎn),即三維特征點(diǎn)的位置X=X1+δ1.
2.3.3 特征點(diǎn)的篩選
為獲取穩(wěn)定的三維特征點(diǎn),需要對(duì)特征點(diǎn)進(jìn)行篩選.將上述精確定位的特征點(diǎn)X代入式(17),得特征點(diǎn)X處的函數(shù)值為
(19)
給定一個(gè)閾值λ1,若|F(X)|<λ1,說(shuō)明F(X) 與周圍像素點(diǎn)的函數(shù)值相差不大,即X為低對(duì)比度的特征點(diǎn),其易受噪聲干擾而不穩(wěn)定,需要?jiǎng)h除.
函數(shù)F(x,y)有較強(qiáng)的邊緣響應(yīng),使得位于邊緣的特征點(diǎn)不穩(wěn)定,需要?jiǎng)h除.當(dāng)特征點(diǎn)位于邊緣時(shí),對(duì)應(yīng)的函數(shù)F(x,y)在橫跨邊緣的方向上有較大主曲率,而在其垂直方向上有較小主曲率.因此,可以利用主曲率之比篩選特征點(diǎn).F(x,y)的主曲率可由Hessian矩陣HF來(lái)計(jì)算
(20)
F(x,y)的主曲率與HF的特征值成正比,則主曲率之比可轉(zhuǎn)化為HF矩陣的特征值之比.為簡(jiǎn)便計(jì)算,假設(shè)矩陣HF的兩特征值之比為λ,根據(jù)矩陣的跡和行列式與特征值之間的關(guān)系可知,
(21)
給定閾值λ2,若
(22)
則認(rèn)為特征點(diǎn)位于圖像邊緣,需要?jiǎng)h除.特征點(diǎn)的精確定位與篩選之后,保留下來(lái)包含位置信息(x,y)和尺度信息σ的特征點(diǎn),即為RGB-D圖像的保結(jié)構(gòu)三維特征點(diǎn).
本節(jié)采用Heidelberg圖像處理合作實(shí)驗(yàn)室(HCI)[10]公開(kāi)的兩組標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)驗(yàn)證本文提出的檢測(cè)方法.實(shí)驗(yàn)通過(guò)比較SIFT和本文提出的特征點(diǎn)檢測(cè)和匹配結(jié)果,給出新方法的性能分析.
具體實(shí)驗(yàn)設(shè)計(jì)如下:第一組實(shí)驗(yàn)從Table場(chǎng)景的RGB-D圖像中截取兩個(gè)含有公共區(qū)域的圖像,將它們分別視為基準(zhǔn)圖像和待匹配圖像;第二組實(shí)驗(yàn)將Dino場(chǎng)景的RGB-D圖像視為基準(zhǔn)圖像,截取基準(zhǔn)圖像中心區(qū)域并將擴(kuò)大二倍后的圖像視為待匹配圖像.
圖 2 給出了SIFT和新方法在兩組HCI標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)實(shí)驗(yàn)中的特征點(diǎn)檢測(cè)結(jié)果.圖中(a1)~(a4)為待檢測(cè)的RGB圖像,(b1)~(b4)為對(duì)應(yīng)的深度圖像,(c1)~(c4)為SIFT方法的特征點(diǎn)檢測(cè)結(jié)果,(d1)~(d4)為新方法的特征點(diǎn)檢測(cè)結(jié)果.從圖中可以發(fā)現(xiàn):相比SIFT方法,融入深度信息的新方法能夠檢測(cè)到更多的圖像特征點(diǎn),且在某些紋理相似的區(qū)域檢測(cè)結(jié)果更好.
圖 3 是SIFT和新方法在兩組HCI標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)實(shí)驗(yàn)中的特征點(diǎn)匹配結(jié)果.圖中(a1),(b1),(a3),(b3)為實(shí)現(xiàn)匹配的特征點(diǎn);(a2),(b2),(a4)、(b4)為局部區(qū)域的特征點(diǎn)匹配結(jié)果.由圖 3 可知,相比SIFT特征點(diǎn)的匹配結(jié)果,三維特征點(diǎn)的匹配結(jié)果更好,驗(yàn)證了三維特征點(diǎn)保結(jié)構(gòu)檢測(cè)方法的有效性與可行性.
表 1 給出了SIFT和新方法的特征點(diǎn)檢測(cè)數(shù)(Total of Feature Detection,TFD)、特征點(diǎn)匹配數(shù)(Total of Feature Matching,TFM)、特征點(diǎn)匹配率(Rate of Feature Matching,RFM)和程序的運(yùn)行時(shí)間(Running Time,RT).定義特征點(diǎn)匹配率為
(23)
式中:TFD1和TFD2分別為基準(zhǔn)圖像和待匹配圖像的特征點(diǎn)檢測(cè)數(shù).
圖 2 Table和Dino的特征檢測(cè)結(jié)果Fig.2 Feature detection results of Table and Dino
圖 3 Table和Dino的特征匹配結(jié)果Fig.3 Feature matching results of Table and Dino
表 1 特征點(diǎn)的檢測(cè)數(shù)、匹配數(shù)、匹配率與運(yùn)行時(shí)間
與SIFT方法利用高斯差分函數(shù)近似高斯拉普拉斯函數(shù)不同,新方法直接建立高斯拉普拉斯函數(shù)的計(jì)算模型.由表1可知,融合RGB和深度信息的三維特征點(diǎn)保結(jié)構(gòu)檢測(cè)方法能夠檢測(cè)并匹配更多穩(wěn)定的圖像特征點(diǎn).同時(shí),對(duì)比二維SIFT方法,新方法的特征匹配率相對(duì)較低、運(yùn)行時(shí)間較長(zhǎng),說(shuō)明該方法檢測(cè)出的特征點(diǎn)中有噪點(diǎn)存在.進(jìn)一步針對(duì)噪點(diǎn)誤差消除以及匹配計(jì)算優(yōu)化的改進(jìn),可以提高特征點(diǎn)匹配率和計(jì)算的實(shí)時(shí)性,使算法具有更好的適用性.因此,如何去除三維特征點(diǎn)中的噪點(diǎn),是后續(xù)研究的重要方面.
本文基于透視投影與尺度空間,提出了一種RGB-D圖像三維特征點(diǎn)的保結(jié)構(gòu)檢測(cè)方法.該方法利用透視投影,建立了物點(diǎn)的三維保結(jié)構(gòu)模型;基于擴(kuò)散方程和尺度空間的聯(lián)系,將深度信息融入圖像的尺度空間中,給出了RGB-D尺度空間的一種表示方法,并檢測(cè)出包含顏色和結(jié)構(gòu)信息的三維特征點(diǎn).由于RGB-D圖像是三維點(diǎn)云在固定視角下的場(chǎng)景深度表示,新方法可應(yīng)用于三維點(diǎn)云的特征檢測(cè),并且在高精度三維圖像配準(zhǔn)、大視野三維場(chǎng)景拼接、目標(biāo)識(shí)別與跟蹤等領(lǐng)域有著廣泛應(yīng)用.