劉琛++張建敏
摘要:基于文本的圖像檢索技術(shù)已經(jīng)不能滿足人們的需求,基于內(nèi)容的圖像檢索技術(shù)將是未來圖像處理領(lǐng)域的研究熱點。將基于局部特征提取的特征提取算法(SIFT)跟DOG算子結(jié)合,運用于MPEG-7數(shù)據(jù)庫的二進(jìn)制圖像的檢索,得到了很好的圖像匹配結(jié)果。
關(guān)鍵詞:圖像檢索;SIFT;二值圖像
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)17-0155-03
SIFT-Based Image Retrieval For Binary Images
LIU Chen, ZHANG Jian-min
(College of Data and Information Engineering, Guizhou University, Guiyang 550003, China)
Abstract: Text-based image retrieval technology already cannot satisfy people's needs, Content-based image retrieval technology will be the center topic in the field of image processing. Combined the Feature extraction algorithm based on local feature extraction (SIFT) with DOG operator, Applied to binary image retrieval based on MPEG - 7 database. Obtained good image matching results.
Key words: image retrieval; SIFT; binary images
在早期,文本檢索技術(shù)是圖像檢索主要的方式,也就是基于文本的圖像檢索(text-based image retrieval,簡稱TBIR)。該引擎使用一系列的關(guān)鍵字來標(biāo)注網(wǎng)站和網(wǎng)頁中的內(nèi)容查詢時,用戶輸入關(guān)鍵字后,搜索引擎會根據(jù)關(guān)鍵字索引到相應(yīng)的網(wǎng)址或者網(wǎng)站。首先,TBIR的缺點就是速度慢,每一張圖片都需要人工標(biāo)注關(guān)鍵字,隨著圖像數(shù)量增大,需要進(jìn)行檢索的圖像庫規(guī)模越來越大,人工標(biāo)注的難度越來越大。其次,由于人的主觀因素影響,不同的人對同一幅圖像的信息理解可能存在著很大的不同,使得其沒有一個統(tǒng)一的標(biāo)注標(biāo)準(zhǔn),這樣更是加大了人工關(guān)鍵字標(biāo)注的難度[1]。
為了解決上述的TBIR方法所存在的各種問題,到了20世紀(jì)的80年代,研究者們提出來了一種新的技術(shù)——基于內(nèi)容的圖像檢索技術(shù)(content-based image retrieval,簡稱 CBIR)。這種方法只需要利用圖像的一些自身的特征,如顏色、紋理、布局等,然后利用圖像處理技術(shù)和技術(shù)及視覺算法來提取這些圖像特征,這樣的方法就有著很高的處理速度和很強(qiáng)的客觀性[2]。
一個高效的、自動化的CBIR系統(tǒng)是非常有必要的,它可以根據(jù)用戶的需求有效檢索圖像以及把圖像按照相似度排列起來。一般地,如果正在研究的圖像類型是輪廓,則二值圖像是更恰當(dāng)?shù)?,本文提出了一種提取給定的二值圖像特征的方法。通常情況下,二值圖像是由兩種顏色組成,黑和白。對于CBIR系統(tǒng),使用的二進(jìn)制圖像相比于使用實值位運算有很多的優(yōu)勢,這些優(yōu)勢包括操作簡單,儲存成本低以及加工速度快等。
本文介紹一種基于SIFT算法的關(guān)鍵點匹配技術(shù),且只研究對二進(jìn)制圖像的檢索。SIFT是一種基于局部特征提取和描述的算法,全稱是尺度不變性變換(scale invariant feature transform),主要思想就是將圖像之間的匹配轉(zhuǎn)化成特征點向量之間的相似性度量[3]。
1 尺度不變性變換(SIFT)
SIFT算法由四個主要階段組成:(1)建立尺度空間并檢測其極值點。(2)精確定位特征點。(3)制定每個特征的主方向參數(shù)。(4)生成SIFT描述符。下面將具體介紹這四個步驟。
1.1建立尺度空間并檢測其極值點
首先通過尺度空間理論對圖像的多尺度特征進(jìn)行模擬極值點檢測,在多尺度空間下進(jìn)行SIFT特征提取,圖像的尺度空間可以定義為:
圖1 構(gòu)造圖像尺度空間和DOG空間
如圖1所示,一般說來,高斯金字塔的圖像為[O]組,每組中包含高斯平滑圖像奇數(shù)張([S]張) ,相同的組內(nèi)相鄰圖像尺度因子大小的比例為[K],相鄰的高斯平滑圖像進(jìn)行相減就可以得到高斯差分圖像。對第[N]組高斯平滑圖像釆樣可以得到第[N+1]組小高斯平滑圖像,對相鄰的圖像重復(fù)的進(jìn)行相減就可以得到高斯差分空間,然后得到圖像若干組,圖像的高斯差分金字塔就由它們組成。
在DOG空間的每一組圖像中,都需要對每個像素點判定極值(第一張和最后一張除外),判定的過程為:將每個像素點與跟它上下相鄰和本尺度領(lǐng)域內(nèi)的26個點來進(jìn)行對比,然后判斷時不時極大值點或極小值點,如果被判定為極值點,則將其保存為候選特征點,對應(yīng)的尺度就是所在圖像的尺度因子[4]。
1.2精確定位特征點
因為DOG算子會有較強(qiáng)的邊緣響應(yīng)產(chǎn)生,所以如果想要有比較穩(wěn)定的SIFT特征描述符,還必須要對檢測到的極值點進(jìn)行精煉處理。這主要由兩個部分組成,第一是抑制低對比度點,也就是指去除其響應(yīng)值小于給定閾值的點;第二是去除邊緣響應(yīng)點,也就是指篩選掉候選點中曲率很大的邊緣點。所以,在精煉極值點之前,先得通過三維二次函數(shù)來精確定位特征點的位置,然后計算這個位置的DOG響應(yīng)值以及曲率來篩選出真正的極值點。
1.3制定每個特征的主方向參數(shù)
所有的通過精確定位得到的特征點,都有旋轉(zhuǎn)不變性和尺度因子[σ],計算特征點的鄰域內(nèi)各個像素點的梯度大小和方向統(tǒng)計信息,從而得到了每個特征點的主方向。梯度大小和方向統(tǒng)計信息分別為:
[m=(Lx+1,y-Lx-1,y)2+(Lx,y+1-Lx,y-1)2] (4)
[θ=tan-1((Lx,y+1-Lx,y-1)/(Lx+1,y-Lx-1,y))] (5)
如果梯度直方圖中存在另一個相當(dāng)于主峰值80%的峰值時,則將整個方向認(rèn)為是該關(guān)鍵點的輔方向。一個關(guān)鍵點可能被指定多個方向(一個主方向,一個以上的輔方向)。此時,我們可以將同一個關(guān)鍵點復(fù)制,使得它們的方向各不相同。
1.4生成SIFT描述子
將圖像沿著所檢測到的關(guān)鍵特征點的主方向進(jìn)行旋轉(zhuǎn),以這個特征點為中心,在這個尺度圖像內(nèi)選取4*4個子區(qū)域,子區(qū)域的大小也是4*4,然后計算每一個子區(qū)域的8個方向上的梯度直方圖,依次將每個子區(qū)域中8個方向向量進(jìn)行排序,就可以得到4*4*8=128維圖像特征向量。因此,在每一個特征點都能得到128維的特征向量,這樣就能確保即使只有少數(shù)的幾個物體,仍然可以得到大量的SIFT特征,這就體現(xiàn)出SIFT特征的多量性。這樣的SIFT特征去除了尺度變化和圖像旋轉(zhuǎn)等幾何形變帶來的影響,
為進(jìn)一步減少灰度和光照對于SIFT特征描述的影響,還要對其進(jìn)行歸一化處理。圖2示出一個2x2的描述符數(shù)組從一個8x8樣本集的計算。
2 實驗和結(jié)果
本文圖像檢索仿真實驗采用操作系統(tǒng)Windows7作為仿真平臺,開發(fā)工具是Matlab。計算機(jī)的硬件配置是奔騰CPU,主頻2.8GHZ,2G內(nèi)存。實驗中使用的圖像數(shù)據(jù)庫是MPEG7_CE-Shape-1_Part_B。它是由運動圖像專家組(MPEG)委員會,通過了ISO/ IEC的工作組創(chuàng)建。此圖像采集包括由它們的內(nèi)容分為70類1400二進(jìn)制圖像,每個類別??包含20個圖像樣本。
2.1 特征檢測
SIFT局部特征是在確定DOG函數(shù)在尺度空間的極大值與極小值中被有效檢測到的。特征向量是通過測量局部圖像梯度在周圍的每個位置的區(qū)域中形成在相對于該位置,尺度和特征的取向。
對于在本文中所進(jìn)行的實驗中,DOG函數(shù)所監(jiān)測到的最大值和最小值均顯示為關(guān)鍵點。圖3為MPEG-7數(shù)據(jù)集的圖像的示例出檢測到的SIFT關(guān)鍵點。SIFT關(guān)鍵點顯示為藍(lán)色箭頭線和箭頭覆蓋指示位置、尺度和方向的關(guān)鍵特性。箭頭線的長度對應(yīng)于構(gòu)造描述符的圖像區(qū)域。
在該示例中,應(yīng)當(dāng)注意的是更多的關(guān)鍵點會與圖像的角進(jìn)行檢測。這個數(shù)據(jù)庫中所有被監(jiān)測到的關(guān)鍵點都已經(jīng)保存在特征數(shù)據(jù)庫中,用于檢索和匹配。
2.2 特征匹配和索引
從查詢圖像的關(guān)鍵點可以通過與來自數(shù)據(jù)集的圖像的所有矢量中最接近的歐幾里得距離的描述符矢量匹配到來自數(shù)據(jù)集的圖像。根據(jù)歐幾里得距離的公式,兩點之間的平面坐標(biāo)(x,y)和距離(A,B)被給定為在方程(6)。
[Dist((x,y),(a,b))=(x-a)2+(y-b)2] (6)
SIFT特征使用特征尺度和方向的關(guān)鍵點,形成了相似性匹配,在本實驗中,SIFT關(guān)鍵點需要被存儲,在圖像查詢中用于關(guān)鍵點的索引和相似性匹配。圖4展現(xiàn)出一些在圖像庫中在圖像查詢(右邊)和圖像索引(左邊)中關(guān)鍵點匹配的實例。黃線對應(yīng)了相匹配的索引圖像的SIFT特征。
在這個實驗中,每個查詢圖像的SIFT特征匹配了相應(yīng)的特征,兩個輸入相鄰圖像用線條連接匹配的位置。匹配點是被找到最近的鄰居每個關(guān)鍵點的查詢圖像數(shù)據(jù)庫中的圖像,錘子和章魚圖像的第一行是分別與13和62的關(guān)鍵點。在第二行中,錘子匹配到了7個關(guān)鍵點,而部分被遮擋章魚的觸角被匹配到22個關(guān)鍵點。對于第三排章魚形象,錘子圖像匹配到了5個關(guān)鍵點,章魚圖像匹配到了10個關(guān)鍵點。在下面一行中,錘子和勺子圖像之間只匹配到了一個關(guān)鍵點,章魚和樹的圖案找到了4個匹配點。
2.3 檢索結(jié)果
從檢索結(jié)果,可以觀察到,與其他三個圖像比較,章魚和樹的檢索效果最佳,大多數(shù)同類別的圖像能夠被檢索排在前十名。相比于其他四個圖像,章魚的圖像有更多的邊角。對于錘,蘋果和勺子查詢圖像來說,他們被檢測到的關(guān)鍵點更少,因此,特征匹配率變小,從而導(dǎo)相同類型圖像檢索的準(zhǔn)確度變低。由此可以得出結(jié)論,擁有更多邊角的圖像有更好的匹配效果,因此,SIFT算法是一個可靠的圖像檢索算法。
3 結(jié)束語
對于互聯(lián)網(wǎng)上不斷產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)的信息處理方法已經(jīng)無法滿足我們的需求。在圖像檢索方面,基于文本的圖像檢索局限性越來越明顯,基于內(nèi)容的圖像檢索方法將是未來研究的重點。提出一種結(jié)合SIFT和DOG算子的局部特征提取算法,運用于二進(jìn)制圖像的檢索,實驗的對象是MPEG7_CE-Shape-1_Part_B圖像庫。在實驗結(jié)果中,我們看到有更多角的圖像檢索正確率更高。因此,雖然SIFT算法是一種有效的圖像檢索方法,但是還需要進(jìn)一步的改進(jìn)和完善,來得到準(zhǔn)確率更高、更可靠地圖像檢索方法。
參考文獻(xiàn):
[1] 楊麗. 網(wǎng)絡(luò)信息檢索中的圖像檢索技術(shù)[J]. 中國管理信息化,2013,16(3):73-74.
[2] 張磊. 大規(guī)?;ヂ?lián)網(wǎng)圖像檢索與模式挖掘[J]. 中國科學(xué),2013,43:1641-1653.
[3] 馮鏡蒯. 基于改進(jìn)SIFT算法的圖像搜索技術(shù)研究[D]. 華南理工大學(xué),2011.
[4] 吳建波,趙建民,朱信忠,等.基于一種 SIFT 優(yōu)化算法的圖像檢索[J].設(shè)計與研究,2011,27(5):4-7.