秦智康,張衡陽(yáng)
(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,陜西 西安 710077)
圖像搜索在電子商務(wù)、醫(yī)學(xué)影像、圖像處理等領(lǐng)域都有重要地位。近年來(lái),硬件技術(shù)的快速發(fā)展和計(jì)算機(jī)能力的增長(zhǎng)為移動(dòng)互聯(lián)網(wǎng)爆炸式增長(zhǎng)提供了條件,也導(dǎo)致互聯(lián)網(wǎng)能獲取大量圖像數(shù)據(jù)。由于空間和時(shí)間的限制,圖像以壓縮格式表示。主流的圖像檢索系統(tǒng)分兩個(gè)階段運(yùn)行:索引和搜索。在索引階段,使用一組圖像特征屬性(例如顏色、形狀、紋理和布局)來(lái)表示數(shù)據(jù)庫(kù)的每個(gè)圖像。提取的特診存儲(chǔ)在特征數(shù)據(jù)庫(kù)中[1]。在搜索階段,當(dāng)用戶進(jìn)行查詢時(shí),計(jì)算查詢信息的特征向量。根據(jù)相似性標(biāo)準(zhǔn)將該向量與特征數(shù)據(jù)庫(kù)中的向量進(jìn)行比較,再將最相似的圖像返回。學(xué)術(shù)界和工業(yè)界一直研究如何更高效地實(shí)現(xiàn)圖片檢索,孫世然等采用圖像信息熵來(lái)提取圖片的紋理特征,同時(shí)利用Gabor濾波器進(jìn)一步提升了特征準(zhǔn)確性,從而改進(jìn)了檢索的準(zhǔn)確率[2]。許喆等采用局部哈希的策略對(duì)圖像特征點(diǎn)進(jìn)行聚類操作,并利用映射鏈投票來(lái)降低復(fù)雜度,提升檢索精度[3]。王力采用Hadoop分布式系統(tǒng)采集圖像SURF特征,并利用K-Means聚類方法將相似度高的圖片進(jìn)行聚合,提高了處理速度[4]。文獻(xiàn)[5]采用多特征融合的圖像檢索算法,結(jié)合全局和局部特征來(lái)提升檢索的成功率。文獻(xiàn)[6]利用顏色直方圖和GWLBP結(jié)合,實(shí)現(xiàn)了圖像的良好分類,提升了檢索效率。
目前為止,對(duì)于圖像搜索的研究在變換域中關(guān)于紋理特征的利用還不夠充分[7],大多采用固定的參數(shù)實(shí)現(xiàn)紋理特征的提取[8-12],本文研究工作將重點(diǎn)放在變換域中的特征提取,并利用自適應(yīng)的方法動(dòng)態(tài)調(diào)整變換域的參數(shù),從而更加適用于更多類型的圖片。
圖1顯示了基于內(nèi)容的圖像檢索系統(tǒng)的基本框圖。
圖1 本文系統(tǒng)核心框架圖
本文提出的方法比較了使用DWT的基于內(nèi)容的圖像檢索與融合歐幾里德距離(L2)、曼哈頓距離(L1)和標(biāo)準(zhǔn)歐幾里德距離(標(biāo)準(zhǔn)L2)的相似性匹配的紋理的性能。使用離散小波變換分解圖像分量。在DWT之后,使用GLCM獲取圖像的低頻分量(LL)用于紋理特征提取,然后將所有列車圖像的最終特征向量存儲(chǔ)在數(shù)據(jù)庫(kù)中,同時(shí)對(duì)查詢圖像執(zhí)行相同的過(guò)程。最后通過(guò)使用L1、L2、標(biāo)準(zhǔn)L2的加權(quán)總和作為實(shí)際距離,檢索前5個(gè)相似圖像。
用Wφ來(lái)表示圖像變換結(jié)果,尺寸為N1×N2的圖像函數(shù)s(n1,n2)的二維DWT可以表示為
(1)
(2)
其中:i={H,V,D}表示小波函數(shù)的方向指數(shù);j0表示任何起始標(biāo)度,其可以被視為j0=0。
與其他變換相比,DWT[6]的特點(diǎn)是同時(shí)考慮到了時(shí)間和頻率特性,同時(shí)具有較強(qiáng)的魯棒性,因此在很多領(lǐng)域得到廣泛應(yīng)用。從第一級(jí)到第三級(jí)的二維離散小波變換結(jié)果如圖2所示,其中L為低頻分量,H為高頻,數(shù)字1和2為離散小波變換的分解級(jí)別。子圖像LL是低頻分量,它是原始圖像的近似子圖像;子圖像HL是水平方向上的低頻和垂直方向上的高頻分量,它表示原始圖像的水平邊緣;子圖像LH是水平方向上的高頻和垂直方向上的低頻分量,它表示原始圖像的垂直邊緣;子圖像HH是高頻分量,它表現(xiàn)出原始圖像的傾斜邊緣。顯示原始圖像的大部分能量包含在LL2低頻區(qū)域中。并且相同尺寸的其他區(qū)域以不同角度反映圖像的邊緣特征。這里使用二維離散Haar小波變換來(lái)分解圖像。
圖2 二維離散小波變換結(jié)果
圖像的一個(gè)重要特征是紋理。為了描述區(qū)域的紋理特性,在圖像處理中使用3種方法,這些方法是統(tǒng)計(jì)、結(jié)構(gòu)和光譜的方法。統(tǒng)計(jì)方法通過(guò)光滑、粗糙、顆粒狀、絲滑等來(lái)指定紋理的分類。常見(jiàn)的二階統(tǒng)計(jì)方法是灰度共生矩陣。
灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)方法基于條件概率密度函數(shù),它包含了具有相似灰度值的像素位置的信息,包括方向和距離。在給定了方向和距離的情況下,可以計(jì)算符號(hào)灰度級(jí)像素i、j,如式(3)所示:
(3)
其中行數(shù)和列數(shù)等于圖像中的灰度界別。矩陣元素p(i,j|d,θ)是由距離d分開(kāi)的兩個(gè)像素的相對(duì)頻率,可以看到,GLCM是通過(guò)使用方向、距離、位置這3個(gè)屬性的灰度級(jí)共現(xiàn)矩陣來(lái)提取紋理特征。
相似度:它返回一個(gè)值用于衡量GLCM中元素分布的緊密程度。其范圍為[0 1]。
(4)
圖像能量:灰度共生矩陣中的平方元素之和稱為能量。其范圍為[0 1]。恒定圖像的能量為1。
(5)
相關(guān)性:返回一個(gè)像素與整個(gè)圖像上領(lǐng)域的相似度。它的范圍是[-1 1]。對(duì)于完全正相關(guān)或負(fù)相關(guān)的圖像,相關(guān)性為1或-1。
已經(jīng)使用諸如歐幾里德、曼哈頓和標(biāo)準(zhǔn)歐幾里德距離的距離測(cè)量來(lái)確定特征向量的相似性。在本文實(shí)現(xiàn)的算法中,歐幾里德距離、標(biāo)準(zhǔn)歐幾里德距離以及曼哈頓距離都用于比較圖像之間的相似性。兩個(gè)圖像之間的距離主要用于查找、查詢圖像與數(shù)據(jù)庫(kù)中圖像之間的相似性。
歐幾里得距離:歐幾里德距離的平方根與相應(yīng)值之間距離的平方和。
(6)
曼哈頓距離:它計(jì)算從一個(gè)數(shù)據(jù)點(diǎn)到另一個(gè)數(shù)據(jù)點(diǎn)距離的相應(yīng)樣本的差異總和。
(7)
標(biāo)準(zhǔn)歐氏距離:將歐幾里德距離根據(jù)標(biāo)準(zhǔn)化算法計(jì)算出來(lái)。標(biāo)準(zhǔn)值=(原始值-平均值)/標(biāo)準(zhǔn)偏差。
(8)
相關(guān)反饋(RF)算法可以交互式地提高檢索系統(tǒng)的有效性。傳統(tǒng)的相關(guān)反饋算法由3個(gè)步驟組成:(a)系統(tǒng)對(duì)用戶提供的查詢模式進(jìn)行初始搜索,返回少量圖像;(b)用戶指出哪些檢索到的圖像是有用的(相關(guān)的);(c)系統(tǒng)根據(jù)用戶的相關(guān)性判斷自動(dòng)重新構(gòu)造原始查詢。此過(guò)程可以繼續(xù)迭代,直到用戶滿意為止。
本文提出以下算法來(lái)確定查詢圖像與圖像數(shù)據(jù)庫(kù)中圖像之間的相似度:
步驟1:輸入需要查詢的圖像I;
步驟2:將RGB顏色空間圖像轉(zhuǎn)換為HSV顏色空間;
步驟3:將圖像分成3個(gè)相等的非重疊水平區(qū)域;
步驟4:計(jì)算3個(gè)區(qū)域的顏色通道,以對(duì)應(yīng)從查詢圖像I中的相似度;
步驟5:使用公式(6)、(7)、(8)計(jì)算兩個(gè)圖像之間的距離d并存儲(chǔ)到距離矩陣dm中;
步驟6:數(shù)組d按升序排序,與查詢圖像I相比,對(duì)應(yīng)于d的第一元素的圖像是最相似的圖像。
本文采用交互式遺傳算法(IGA)來(lái)實(shí)現(xiàn)自適應(yīng)[13]。在圖像檢索的早期階段,系統(tǒng)的準(zhǔn)確率較低,返回的結(jié)果也較少,在這種情況下先由較少的幾個(gè)結(jié)果作為父代執(zhí)行遺傳操作,并讓用戶反饋效果,根據(jù)這些相關(guān)性反饋,重新計(jì)算查詢圖像與數(shù)據(jù)庫(kù)中圖像之間的相似性。當(dāng)用戶對(duì)檢索結(jié)果滿意時(shí),系統(tǒng)終止。
用戶輸入查詢圖像,最初執(zhí)行所有數(shù)據(jù)庫(kù)圖像的特征提取。執(zhí)行每個(gè)查詢圖像的特征提取,完成使用交互式遺傳算法的相似性測(cè)量結(jié)果顯示。如果用戶滿意,則顯示的結(jié)果是最終結(jié)果并且搜索結(jié)束。如果用戶不滿意,根據(jù)用戶對(duì)檢索結(jié)果的反饋再次使用遺傳算法來(lái)搜索結(jié)果,并通過(guò)調(diào)整用戶判斷來(lái)計(jì)算相似度函數(shù)。如果用戶仍不滿意,則重復(fù)此步驟。在實(shí)際應(yīng)用中,僅使用單個(gè)特征的檢索結(jié)果可能是低效的,因此會(huì)導(dǎo)致整個(gè)遺傳算法的執(zhí)行次數(shù)過(guò)多,效率低下,因此為了獲得更加高效的結(jié)果,本文使用顏色和紋理特征的組合。查詢圖像與數(shù)據(jù)庫(kù)中圖像之間的距離計(jì)算如下:
d=w1×d1+w2×d2,
(9)
其中:w1是顏色特征的權(quán)重,w2是紋理特征的權(quán)重,d1和d2是計(jì)算的距離。
本文用查準(zhǔn)率度和召回率衡量檢索系統(tǒng)的性能。查準(zhǔn)率p等于檢索到的相關(guān)圖像數(shù)除以數(shù)據(jù)圖像集中總的相關(guān)圖像數(shù),召回率r等于系統(tǒng)中檢索到的相關(guān)圖像數(shù)處于檢索到的總的圖像數(shù)[14]。
本文采用CIFAR-10數(shù)據(jù)集進(jìn)行測(cè)試,CIFAR-10數(shù)據(jù)集有50 000訓(xùn)練圖片和10 000測(cè)試圖片[15],含有10類彩色圖像,圖像規(guī)格是32×32??紤]顏色和紋理特征的組合不僅能夠表達(dá)更多的圖像信息,還能從不同方面描述圖像以獲得更詳細(xì)的信息以獲得更好的搜索結(jié)果。同時(shí)對(duì)于不同圖片,其特征信息的權(quán)重也有所不同,本文對(duì)CIFAR-10中不同類型圖像的權(quán)重設(shè)置如表1所示。
表1 不同類型圖像的權(quán)重選擇
通過(guò)本文算法,經(jīng)過(guò)訓(xùn)練之后,輸入不同的圖片類型,輸出結(jié)果如圖3所示。
圖3 檢索結(jié)果
通過(guò)檢索結(jié)果可以看到,本文算法搜索出的前5張的圖片準(zhǔn)確度相對(duì)較高,都能夠搜索出正確的結(jié)果。
本文的對(duì)比實(shí)驗(yàn)采用傳統(tǒng)的GA算法、GA+傳統(tǒng)的DCT變換以及本文提出算法。表2總結(jié)了不同訓(xùn)練迭代次數(shù)下的召回率和查準(zhǔn)率對(duì)比,可以看到,在增加訓(xùn)練次數(shù)的情況下,不同的算法都在召回率和查準(zhǔn)率上有所提高,同時(shí)本文算法準(zhǔn)確率都優(yōu)于對(duì)比的傳統(tǒng)算法。
表2 檢索查準(zhǔn)率和召回率對(duì)比
提出了一個(gè)基于灰度共生矩陣的二維離散Haar小波變換算法,改進(jìn)了基于內(nèi)容的圖像檢索,該灰度共生矩陣用于提取圖像的紋理特征、并采用IGA算法進(jìn)行自適應(yīng)。算法充分考慮了顏色特征,紋理特征和形狀特征,并融合了歐式距離、標(biāo)準(zhǔn)歐氏距離以及曼哈頓距離作為相似度度量。通過(guò)實(shí)驗(yàn)可以看出,本文提出的算法能有效搜索到相似圖片,同時(shí)在召回率和查準(zhǔn)率上都優(yōu)于傳統(tǒng)算法,訓(xùn)練迭代次數(shù)為30,60,100的情況下,本文算法的準(zhǔn)確率達(dá)到67%以上。實(shí)驗(yàn)證明本文的算法對(duì)于圖像檢索有較高的參考價(jià)值。