金 銘 汪友生 邊 航 王雨婷
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院 北京 100124)
一種基于視覺詞袋模型的圖像檢索方法
金 銘 汪友生 邊 航 王雨婷
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院 北京 100124)
為了提高圖像檢索的效率,提出一種基于視覺詞袋模型的圖像檢索方法。一方面在圖像局部特征提取算法中,使用添加漸變信息的盒子濾波器構(gòu)造尺度空間,以保留圖像更多的細(xì)節(jié)信息,另一方面在特征表達(dá)時(shí)僅計(jì)算一次特征點(diǎn)圓形鄰域內(nèi)的Haar小波響應(yīng),避免了Haar小波響應(yīng)的重復(fù)計(jì)算,并在保證描述子旋轉(zhuǎn)不變性的同時(shí)做降維處理。同時(shí),以改進(jìn)k-means對(duì)特征庫聚類構(gòu)建加權(quán)的視覺詞典,基于概率計(jì)算的方式選取k-means初始聚類中心,降低了傳統(tǒng)k-means聚類效果對(duì)初始聚類中心選擇的敏感性。實(shí)驗(yàn)結(jié)果表明該方法比傳統(tǒng)方法具有更高的效率,特征提取速度提高48%左右,查準(zhǔn)率提高2%以上。
圖像檢索 視覺詞袋模型 局部特征提取 特征聚類
與圖像的全局特征相比,圖像的局部特征在面對(duì)復(fù)雜背景、噪聲干擾較大、光照條件變化、存在多個(gè)事物和語義復(fù)雜等場(chǎng)景時(shí)都能更好地描述圖像,近年來廣泛使用于圖像處理任務(wù)中[1-5]。直接使用局部特征進(jìn)行圖像分類、圖像檢索時(shí),由于圖像庫中每一幅圖像所檢測(cè)到的特征點(diǎn)數(shù)目不統(tǒng)一,并且常用局部特征如SIFT、SURF、DAISY特征等都是高維特征[6-9],每幅圖像都由多個(gè)不同的高維特征表示,逐一匹配計(jì)算相似性時(shí)效率很低。為了解決上述問題,文獻(xiàn)[10]首先將視覺詞袋模型BoVW(Bag of Visual Words)運(yùn)用到圖像處理領(lǐng)域。視覺詞袋模型將圖像庫中所有圖像特征提取后聚類成為k個(gè)視覺單詞,將每幅圖像以各個(gè)單詞出現(xiàn)頻率表示為k維向量[11-12]。這樣可以很好地解決不同圖像提取出的局部特征不統(tǒng)一的問題,并且能將多幅圖像用一定量的視覺單詞表示,節(jié)約空間,處理方便,可擴(kuò)展性強(qiáng),可以很大程度上提高多圖像處理任務(wù)的效率。
視覺詞袋模型效率的高低取決于圖像特征的選取。比如采用SIFT的改進(jìn)算法SURF,其處理速度比SIFT提高了三倍左右[7]。然而SURF算法用積分圖像和盒子濾波代替高斯濾波,雖然提高了速度,但也損失了圖像中的細(xì)節(jié)信息[7,13-14];SURF描述子生成時(shí),需要先計(jì)算一次圓形鄰域的Haar小波響應(yīng)得到特征點(diǎn)的主方向,再計(jì)算一次方形鄰域的Haar小波響應(yīng)以得到64維向量,這樣的重復(fù)計(jì)算過程對(duì)SURF的效率有很大影響[7,15]。
為此,本文提出一種基于視覺詞袋模型的圖像檢索新方法,使用改進(jìn)的SURF算法提取圖像特征,以改進(jìn)k-means算法聚類建立詞袋模型,基于此詞袋模型實(shí)現(xiàn)圖像檢索,提高圖像檢索的效率。
建立視覺詞袋模型的步驟主要包括三部分:圖像特征提取、視覺詞袋學(xué)習(xí)以及利用視覺詞袋量化圖像特征,并由詞頻表示圖像。首先對(duì)圖像庫中所有的圖像提取局部特征,存入特征庫。要求選取的特征對(duì)圖像的代表性強(qiáng),并且提取速度快。本文使用改進(jìn)的SURF特征,其比SURF特征對(duì)圖像更具代表性,并且提取效率更高。然后統(tǒng)計(jì)圖像數(shù)據(jù)庫中的所有特征,用聚類算法聚類結(jié)果組成詞袋。為了使聚類結(jié)果更穩(wěn)定,本文使用改進(jìn)的k-means聚類算法,采用一種基于概率的方式來選取初始聚類中心,削弱初始聚類中心選擇隨機(jī)性對(duì)聚類效果的影響。最后將一幅圖像映射到視覺詞袋,根據(jù)視覺詞袋中每個(gè)單詞在這幅圖像中出現(xiàn)的頻率,將每幅圖像表示成k維向量。不同圖像帶給人的視覺效果不同,所包含的視覺單詞種類及頻率也應(yīng)不相同,但相近的圖像包含的視覺單詞及頻率是相似的,根據(jù)這個(gè)原則可以通過計(jì)算k維向量之間的距離來計(jì)算圖像之間的相似度,實(shí)現(xiàn)圖像檢索任務(wù)??紤]到不同的視覺單詞對(duì)一幅圖像的描述作用不同,圖像表示時(shí)不區(qū)別對(duì)待每個(gè)視覺單詞,會(huì)對(duì)圖像檢索的效果有所影響,所以在這里用加權(quán)的視覺詞典來表示圖像。本文使用視覺詞袋模型進(jìn)行圖像檢索的流程如圖1所示。
圖1 檢索流程圖
建立視覺詞袋模型,首先要提取圖像特征。SIFT算法因其具有較強(qiáng)的匹配能力和魯棒性而被廣泛應(yīng)用,但它計(jì)算復(fù)雜、實(shí)時(shí)性差,用于圖像檢索時(shí)導(dǎo)致用戶體驗(yàn)變差。與SIFT相比,SURF算法在尺度空間生成時(shí)使用了積分圖像和盒子濾波,將圖像與高斯二階微分模板的卷積過程簡(jiǎn)化成了簡(jiǎn)單的積分圖像盒子濾波運(yùn)算,降低了SIFT算法的復(fù)雜度,提高了特征點(diǎn)檢測(cè)和匹配的實(shí)時(shí)性,但同時(shí)由于盒子濾波對(duì)高斯二階微分模板的簡(jiǎn)化損失了圖像細(xì)節(jié)信息,而降低了匹配準(zhǔn)確度。并且,SURF特征描述子表達(dá)時(shí)計(jì)算了兩次Haar小波響應(yīng),一定程度上影響了算法的效率。為此,本文使用添加漸變信息的盒子濾波模板[13-14],該模板與SIFT和SURF的9×9濾波模板比較如圖2所示。可以看出,與SURF盒子濾波模板相比,本文算法模板與SIFT的高斯二階微分模板更加接近,并且模板仍由簡(jiǎn)單的矩形框構(gòu)成,保證算法在高效運(yùn)算的同時(shí)保留圖像的細(xì)節(jié)信息。將濾波模板中矩形框的四個(gè)頂點(diǎn)標(biāo)上字母,每個(gè)字母代表相應(yīng)點(diǎn)的積分圖像值,設(shè)三個(gè)不同方向模板的面積分別為Sxx、Syy、Sxy(Sxx=Syy),三個(gè)方向盒子濾波的響應(yīng)值為Dxx、Dyy、Dxy,則:
(B+F-D-E+K+N-L-M)+(-1)×
(E+H-F-G+I+L-J-K)+(-2)×
(G+J-H-I)
(1)
(B+F-D-E+K+N-L-M)+(-1)×
(E+H-F-G+I+L-J-K)+(-2)×
(G+J-H-I)
(2)
(3)
圖2 SIFT、SURF、本文算法濾波模板比較
其中,Sxx、Syy、Sxy的大小可以根據(jù)模板的大小直接得到,而字母代表的積分圖像值可通過查積分圖像值表得到。由上述過程可知,SURF模板對(duì)大塊區(qū)域賦單一值進(jìn)行處理,而改進(jìn)的模板在矩形區(qū)域里填入了漸變的值,使處理過程更近似于高斯二階模板濾波過程,保留了更多的圖像細(xì)節(jié)信息,并且濾波計(jì)算仍然很簡(jiǎn)單,計(jì)算量沒有大的增加。
構(gòu)造尺度空間時(shí),將9×9模板作為尺度空間金字塔中的初始層(由于每一層的響應(yīng)長度為模板大小的1/3,即初始層的響應(yīng)長度l0=3),并在每一層都采用與SURF算法一樣的模板大小,如圖3(a)所示。模板大小變化時(shí),給盒子濾波器中填充漸變值遵守初始層響應(yīng)為模板大小的1/3的原則,先將顏色最深的地方填充后,再填充漸變值。圖3(b)為yy方向盒子濾波模板大小由9×9變?yōu)?5×15的示例。
圖3 不同尺度模板大小變化
得到不同大小的模板后,圖像尺寸不變,用不同大小的模板與圖像進(jìn)行卷積,構(gòu)成三維尺度空間。在三維尺度空間中,每個(gè)3×3×3的局部區(qū)域里,使用非最大值抑制將像素點(diǎn)與其周圍的26個(gè)像素點(diǎn)進(jìn)行比較來檢測(cè)極值點(diǎn),并記下極值點(diǎn)的位置作為特征點(diǎn)。
在傳統(tǒng)SURF特征描述子計(jì)算時(shí),為了保證算法的旋轉(zhuǎn)不變性,通過計(jì)算特征點(diǎn)周圍圓形鄰域內(nèi)Haar小波響應(yīng)的大小,確定每個(gè)特征點(diǎn)描述子的主方向;接下來又需要計(jì)算一次特征點(diǎn)周圍方形鄰域內(nèi)的Haar小波響應(yīng),得到64維的特征向量。這樣的重復(fù)計(jì)算勢(shì)必對(duì)算法的效率有所影響。本文對(duì)每一個(gè)特征點(diǎn),以特征點(diǎn)為圓心,以10S(S為樣本所處空間的尺度值)為半徑作圓形鄰域,在該圓形鄰域內(nèi)統(tǒng)計(jì)Haar小波響應(yīng)值,能同樣實(shí)現(xiàn)局部特征描述子的計(jì)算和表達(dá)。具體做法是:以尺寸為2S×2S的Haar小波模板對(duì)圓形鄰域內(nèi)圖像進(jìn)行處理,計(jì)算鄰域內(nèi)所有特征點(diǎn)在x、y方向的Haar小波響應(yīng),并賦給每個(gè)向量不同的高斯權(quán)重,權(quán)重與距離成正比,越靠近圓心(貢獻(xiàn)值越大)的特征點(diǎn)賦值權(quán)重越大。以一個(gè)圓心角為π/4的扇形旋轉(zhuǎn)遍歷整個(gè)圓形鄰域,如圖4所示,共有8個(gè)扇形窗口,每一次滑動(dòng)到一個(gè)窗口內(nèi)時(shí),統(tǒng)計(jì)該窗口內(nèi)Haar小波響應(yīng)值的和。設(shè)dx、dy分別代表水平和垂直方向的Haar小波響應(yīng),mi為方向矢量,θi為方向矢量的角度,則:
(4)
(5)
(6)
圖4 本文算法特征表達(dá)
為了保證描述子的旋轉(zhuǎn)不變形,比較得到的8個(gè)窗口的mi矢量的模值,按從大到小的順序排序,排第一位的(矢量最長)mi的方向?yàn)樘卣鼽c(diǎn)的主方向;按照mi值序列的順序,將對(duì)應(yīng)的8個(gè)Vi矢量排列,得到8×4=32維的特征描述子。改進(jìn)的局部特征描述子由原算法的64維變成了32維,并且避免了Haar小波響應(yīng)的重復(fù)計(jì)算,提高了算法效率。生成描述子時(shí),從主方向開始按照mi值遞減的順序生成特征向量,主方向的權(quán)重最大,從而保證了旋轉(zhuǎn)不變性。
綜上所述,本文的特征提取算法對(duì)圖像表達(dá)能力更強(qiáng),并且提取特征時(shí)間更短,更適合于圖像檢索。
按照上述步驟得到圖像庫中所有圖像特征后,按照傳統(tǒng)詞袋模型構(gòu)造的步驟,應(yīng)當(dāng)用k-means聚類算法對(duì)所有特征進(jìn)行聚類。但k-means算法聚類性能的好壞依賴于k個(gè)初始中心點(diǎn)的選擇,當(dāng)k個(gè)初始中心的位置在數(shù)據(jù)空間中分布不均勻時(shí),將導(dǎo)致收斂迭代所需的次數(shù)增多,甚至陷入局部最優(yōu),而得不到準(zhǔn)確的聚類結(jié)果。為了減少初始聚類中心對(duì)聚類性能結(jié)果的影響,選擇初始聚類中心時(shí)必須遵從一個(gè)原則:初始的聚類中心之間的距離應(yīng)當(dāng)盡可能遠(yuǎn)[16-18]?;谶@個(gè)思想,結(jié)合本文上述工作,使用改進(jìn)的k-means算法對(duì)特征聚類生成視覺詞典,具體步驟如下:
步驟1 從特征數(shù)據(jù)集S={s1,s2,…,sm}中隨機(jī)選取一個(gè)種子點(diǎn)c,作為一個(gè)初始聚類中心;
步驟2 對(duì)于數(shù)據(jù)集S中的每一個(gè)點(diǎn),計(jì)算它與最近聚類中心的距離D(si,c),其中i≤m;
步驟3 按照式(7)計(jì)算下個(gè)點(diǎn)被選為聚類中心的概率,選擇概率最大的點(diǎn)作為下一個(gè)聚類中心c;
(7)
步驟4 重復(fù)步驟2和步驟3,直到得到k個(gè)初始聚類中心:C={c1,c2,…,ck};
步驟5 計(jì)算數(shù)據(jù)集S中非聚類中心的對(duì)象到k個(gè)聚類中心的歐式距離,根據(jù)距離將它們分配到最相似的類中;
步驟7 不斷重復(fù)步驟5和步驟6,計(jì)算直到標(biāo)準(zhǔn)測(cè)度函數(shù)收斂至最小值,標(biāo)準(zhǔn)測(cè)度函數(shù)的計(jì)算公式如式(8):
(8)
步驟8 步驟7得到的k個(gè)聚類中心定義為k個(gè)視覺單詞,k個(gè)視覺單詞共同構(gòu)成視覺詞典。
以這種計(jì)算概率的方法選擇初始聚類中心,避免了經(jīng)典k-means的初始聚類中心隨機(jī)性對(duì)聚類效果帶來的影響,使生成的詞典對(duì)圖像數(shù)據(jù)庫更具有代表性。
由于不同的視覺單詞對(duì)一幅圖像的描述作用是不同的,圖像表示時(shí)不區(qū)別對(duì)待每個(gè)視覺單詞,會(huì)對(duì)圖像檢索的效果有所影響。所以在這里使用tf-idf加權(quán)方法,用加權(quán)的視覺詞典來表示圖像。tf-idf是信息檢索領(lǐng)域常用的一種權(quán)重機(jī)制,其思想主要是基于統(tǒng)計(jì)方法。tf指詞頻(TermFrequency),如果某個(gè)視覺單詞在一幅圖像中出現(xiàn)的頻率tf高,并且在其他圖文件頻率(InverseDocumentFrequency),如果在圖像庫中包含視覺單詞w的圖像很少,則w的idf值越大,說明視覺單詞w具有很好的區(qū)分能力,應(yīng)當(dāng)增大它的權(quán)重。根據(jù)以上規(guī)則,用帶有權(quán)重的視覺詞典將圖像庫中的N幅圖像表示為向量,圖像In表示為:Wn=[wn1,wn2,…,wnk]T,其中:
wj=tfnj×idfnjn=1,2,…,Nj=1,2,…,k
(9)
得到N幅圖像的向量表示后,建立倒排索引表,至此視覺詞袋模型建立完成。
4.1 圖像特征提取實(shí)驗(yàn)
對(duì)一張圖像,用SURF算法和本文算法提取特征,提取結(jié)果對(duì)比如圖5所示。對(duì)圖像SURF特征提取時(shí)特征點(diǎn)數(shù)量為1 677個(gè),耗時(shí)1.056秒,本文算法提取時(shí)特征點(diǎn)數(shù)量為1 965個(gè),耗時(shí)僅0.652秒。由于本文算法使用了與高斯二階微分模板更接近的盒子濾波器,更多地保留了圖像的細(xì)節(jié)信息,檢測(cè)出的特征點(diǎn)更多,并且在描述子生成時(shí)只計(jì)算了一次Haar小波響應(yīng),這樣雖然檢測(cè)出的特征點(diǎn)更多,但是運(yùn)行時(shí)間卻縮短了。為了證明這一點(diǎn),從Corel標(biāo)準(zhǔn)圖像庫中隨機(jī)選擇10幅圖像,統(tǒng)計(jì)檢測(cè)出的特征點(diǎn)數(shù)量和提取時(shí)間,如表1所示。
圖5 特征提取對(duì)比
表1的數(shù)據(jù)表明,本文算法在提取圖像特征點(diǎn)數(shù)量增加的同時(shí),平均提取時(shí)間縮短了48%左右。特別是本文方法提取的特征不僅效率大大提高,而且對(duì)圖像也更具代表性,在多幅圖像檢索任務(wù)中,更能體現(xiàn)出本文算法的優(yōu)勢(shì)。
4.2 圖像檢索實(shí)驗(yàn)
使用Corel標(biāo)準(zhǔn)圖像庫對(duì)本文算法進(jìn)行圖像檢索測(cè)試,Corel圖像庫中有10類圖像,分別為:AfricanPeople、Beach、Buildings、Buses、Dinosaurs、Elephants、Flowers、Horses、Mountains、Food,每個(gè)類別中都有100張圖像。如圖1中的步驟,檢索時(shí)用同樣的詞袋構(gòu)建算法將待檢索圖像表示為視覺單詞出現(xiàn)頻率的向量,計(jì)算該向量與圖像庫中各個(gè)向量的歐氏距離,按距離從小(最相似)到大返回與待檢索圖像相似的L幅圖像。圖6是一個(gè)檢索示例。
圖6 檢索示例
在詞典大小K值的選擇方面,K值越大,詞典中包含視覺單詞數(shù)量越多,對(duì)圖像庫的代表性越強(qiáng)。測(cè)試L=10時(shí)本文算法在50、100、150、200這幾種詞典大小時(shí)每類的平均查準(zhǔn)率,如圖7所示。可以看出在K=200時(shí)平均查準(zhǔn)率反而下降了,并且生成詞典時(shí)K=150比K=100耗費(fèi)的時(shí)間增加了將近一倍左右,所以綜合查準(zhǔn)率和檢索效率,選擇K=100來進(jìn)行檢索實(shí)驗(yàn)。
圖7 不同詞典大小時(shí)檢索平均查準(zhǔn)率
由于在檢索過程中一般關(guān)心的都是檢索返回結(jié)果中靠前的一些圖像,故本文選擇L=10、L=20兩個(gè)參數(shù)統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果。在每類圖像中隨機(jī)抽取20幅圖像進(jìn)行檢索,統(tǒng)計(jì)每類平均的查準(zhǔn)率,得到的結(jié)果如圖8所示。
圖8 不同算法檢索查準(zhǔn)率比較
從圖8中可以看出,對(duì)于兩種算法來說,返回圖像數(shù)量為10張時(shí)每類的查準(zhǔn)率都比返回?cái)?shù)量為20張圖像的查準(zhǔn)率要高;本文改進(jìn)BoVW的檢索結(jié)果與原BoVW的檢索結(jié)果相比,在取兩種不同L值時(shí)查準(zhǔn)率都有一定的提高,這是因?yàn)楦倪M(jìn)BoVW中的特征提取保留了圖像更多的漸變細(xì)節(jié)信息,且改進(jìn)k-means一定程度上提高了詞袋聚類的穩(wěn)定性。在類別(5)Dinosaurs中兩種算法的檢索效果最好,查準(zhǔn)率幾乎達(dá)到了100%,在類別(7)Flowers中查準(zhǔn)率也達(dá)到了82.5%左右,然而因?yàn)檫@兩種類別圖像的漸變特征較少,本文特征提取算法并沒有體現(xiàn)出很大的優(yōu)勢(shì)。除了在類別(4)中L=10時(shí),本文方法比原方法查準(zhǔn)率略有降低,在其他所有類別中本文改進(jìn)算法的檢索效果都要優(yōu)于原算法。計(jì)算十類圖像的平均查準(zhǔn)率,在L=10時(shí)改進(jìn)BoVW查準(zhǔn)率比BoVW的查準(zhǔn)率提高了2.2%左右,L=20時(shí)提高了4.1%左右。
為了提高圖像檢索的效率,從圖像檢索的關(guān)鍵技術(shù)入手,提出一種基于視覺詞袋模型的圖像檢索方法。針對(duì)SURF算法提取圖像特征點(diǎn)少、特征表達(dá)需重復(fù)計(jì)算Haar小波響應(yīng)的問題,提出一種改進(jìn)的局部特征提取方法,使用添加漸變信息的盒子濾波器構(gòu)造尺度空間,并在特征表達(dá)時(shí)避免Haar小波響應(yīng)的重復(fù)計(jì)算,同時(shí)保留了圖像更多的細(xì)節(jié)信息,特征提取速度提高48%左右;通過改進(jìn)k-means算法對(duì)特征庫聚類構(gòu)建加權(quán)的視覺詞典,以概率計(jì)算的方式選取初始聚類中心,降低了傳統(tǒng)k-means聚類效果對(duì)初始聚類中心選擇的敏感性。改進(jìn)的詞袋比起改進(jìn)前的詞袋對(duì)圖像庫更具代表性,圖像檢索實(shí)驗(yàn)表明本算法構(gòu)建詞袋效率較高,同時(shí)查準(zhǔn)率也提高2%以上。
[1] 何云峰,周玲,于俊清,等.基于局部特征聚合的圖像檢索方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(11):2224-2233.
[2] 賈平,徐寧,張葉.基于局部特征提取的目標(biāo)自動(dòng)識(shí)別[J].光學(xué)精密工程,2013,21(7):1898-1905.
[3]KharchenkoV,MukhinaM.Correlation-extremevisualnavigationofunmannedaircraftsystemsbasedonspeed-uprobustfeatures[J].Aviation,2014,18(2):80-85.
[4] 薛峰,顧靖,崔國影,等.基于SURF特征貢獻(xiàn)度矩陣的圖像ROI選取與檢索方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015,27(7):1271-1277.
[5] 丘文濤,趙建,劉杰.結(jié)合區(qū)域分割的SIFT圖像匹配方法[J].液晶與顯示,2012,27(6):827-831.
[6]LindebergT.ScaleInvariantFeatureTransform[J].Scholarpedia,2012,7(5):2012-2021.
[7]BayH,EssA,TuytelaarsT,etal.Speeded-UpRobustFeatures(SURF)[J].ComputerVisionandImageUnderstanding,2008,110(3):346-359.
[8]TolaE,LepetitV,FuaP.DAISY:AnEfficientDenseDescriptorAppliedtoWide-BaselineStereo[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(5):815-830.
[9] 羅楠,孫權(quán)森,陳強(qiáng),等.結(jié)合SURF特征點(diǎn)與DAISY描述符的圖像匹配算法[J].計(jì)算機(jī)科學(xué),2014,41(11):286-290,300.
[10]Fei-FeiL,FergusR,PeronaP.Learninggenerativevisualmodelsfromfewtrainingexamples:anincrementalBayesianapproachtestedon101objectcategories[J].ComputerVisionandImageUnderstanding,2007,106(1):59-70.
[11]AlfanindyaA,HashimN,EswaranC.ContentBasedImageRetrievalandClassificationusingspeeded-uprobustfeatures(SURF)andgroupedbag-of-visual-words(GBoVW)[C]//Technology,Informatics,Management,Engineering,andEnvironment(TIME-E),2013InternationalConferenceon.IEEE,2013:77-82.
[12]RochaBM,NogueiraEA,GuliatoD,etal.ImageretrievalviageneralizedI-divergenceinthebag-of-visual-wordsframework[C]//Electronics,CircuitsandSystems(ICECS),2014 21stIEEEInternationalConferenceon.IEEE,2014:734-737.
[13]HuangX,WangJ,ZhangM,etal.Gradual-SURF[C]//ImageandSignalProcessing(CISP),2011 4thInternationalCongresson.IEEE,2011:906-909.
[14] 張滿囤,王潔,黃向生,等.Gradual-SURF算子的角點(diǎn)提取[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):191-194,200.
[15] 周燕,吳學(xué)文,劉娜.基于改進(jìn)的SURF算法的視頻總結(jié)方法[J].微型電腦應(yīng)用,2015,31(10):65-68.
[16] 翟東海,魚江,高飛,等.最大距離法選取初始簇中心的K-means文本聚類算法的研究[J].計(jì)算機(jī)應(yīng)用研究,2014,31(3):713-715,719.
[17]AgarwalS,YadavS,SinghK.K-meansversusk-means++clusteringtechnique[C]//EngineeringandSystems(SCES),2012StudentsConferenceon.IEEE,2012:1-6.
[18] 趙春暉,王瑩,MasahideKaneko.一種改進(jìn)的k-means聚類視覺詞典構(gòu)造方法[J].儀器儀表學(xué)報(bào),2012,33(10):2380-2386.
AN IMAGE RETRIEVAL METHOD BASED ON BAG OF VISUAL WORDS MODEL
Jin Ming Wang Yousheng Bian Hang Wang Yuting
(SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing100124,China)
In order to improve the efficiency of image retrieval, an image retrieval method based on BoVW (Bag of Visual Words) model is proposed. On the one hand, in image local feature extraction algorithm, we use box filter with gradient information to form scale space, to retain more image details information. On the other hand, only the Haar wavelet response in the circular neighborhood of the feature point is calculated in the feature expression, which avoids the repeated calculation of the Haar wavelet response and reduces the dimension while guarantee rotational invariance. At the same time, using improved k-means clustering method to construct a weighted visual dictionary, the k-means initial clustering center is selected based on probabilistic calculation method, which reduces the sensitivity of the traditional k-means clustering to the initial clustering center selection. The experimental results show that the proposed method is more efficient than the traditional method, feature extraction speed is increased by about 48% and the precision is improved by more than 2%.
Image retrieval Bag of visual words model Local feature extraction Feature clustering
2016-03-08。金銘,碩士,主研領(lǐng)域:圖像處理。汪友生,副教授。邊航,碩士。王雨婷,碩士。
TP391.9
A
10.3969/j.issn.1000-386x.2017.04.042