陳宏
(西安歐亞學(xué)院 陜 西 西 安 7 10065)
近年來,隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速普及,信息量與日俱增。隨著多媒體技術(shù)和數(shù)字設(shè)備的出現(xiàn),大量的圖像信息涌入人們的生活,如何有效地管理和訪問圖像信息已成為人們亟待解決的問題,因此,人們迫切需要一種能夠快速地、準(zhǔn)確地檢索圖像的技術(shù),這就是圖像檢索技術(shù)。基于內(nèi)容的圖像檢索技術(shù)(Content-based Image Retrieval,CBIR)克服了基于文本的圖像檢索方法的不足,根據(jù)圖像自身的視覺信息進(jìn)行檢索,使檢索更符合人對圖像的認(rèn)知特性,具有廣闊的應(yīng)用前景,是一個具有強(qiáng)大生命力的研究方向?;趦?nèi)容圖像檢索的核心是圖像特征的提取和特征的相似性度量。其檢索是通過提取圖像的視覺特征來進(jìn)行相似性度量,從而獲得用戶需要的檢索結(jié)果,達(dá)到檢索的目的。形狀特征作為圖像的重要視覺特征之一,它不隨周圍的環(huán)境如亮度等變化而變化,是物體的穩(wěn)定信息;人們對圖像的理解也在很大程度上依賴于對圖像中物體形狀的感知和區(qū)別。但是,形狀特征本身的特殊性使形狀檢索的實現(xiàn)具有一定的難度,因此基于形狀的圖像檢索技術(shù)研究是基于內(nèi)容圖像檢索中一個極具挑戰(zhàn)性的課題,具有十分重要的研究意義。
提取圖像的邊緣是統(tǒng)計圖像邊緣方向的關(guān)鍵步驟,圖像邊緣提取效果的好壞將直接影響到圖像形狀特征的提取結(jié)果。常用的邊緣檢測算子[1-2]有Roberts邊緣算子、Prewitt邊緣算子、Sobel邊緣算子、Kirsch邊緣算子和Laplacian邊緣算子等。
本文通過對上述邊緣算子的研究,分析得到以下結(jié)論:Roberts邊緣算子定位比較精確,能夠提供較好的不變性邊緣取向,但對噪聲敏感,同時由于采用偶數(shù)模板,對點所求的梯度值偏移了半個像素。Prewitt邊緣算子和Sobel邊緣算子都是對圖像進(jìn)行差分和濾波來檢測邊緣,只是平滑部分的權(quán)值不同,因此對噪聲都具有平滑作用,但邊緣定位的精度不高,易產(chǎn)生偽邊緣,對灰度漸變、低噪聲的圖像檢測效果較好。Krisch邊緣算子對邊緣進(jìn)行8個方向上的檢測,具有較好的邊緣定位能力,對噪聲也有一定的抑制作用,但運(yùn)算量比較大。Laplacian邊緣算子作為一個二階導(dǎo)數(shù),對噪聲具有無法接受的敏感性,其幅值容易產(chǎn)生雙邊緣,且不能檢測邊緣的方向[3]。
邊緣方向直方圖特征提取方法是基于輪廓的形狀描述符,是在邊緣檢測的理論基礎(chǔ)上提出的一種形狀邊緣特征的提取方法。該方法首先要剝離出原始圖像的邊緣,并計算出每個邊緣點的方向,然后統(tǒng)計每個方向上的邊緣點數(shù)目構(gòu)成邊緣方向直方圖,以此作為圖像的形狀特征,提取步驟如圖1所示。
圖1 邊緣方向直方圖特征提取步驟示意圖Fig.1 Schematic diagram on steps of extracting the edge direction histogram features
所謂邊緣是指其周圍像素灰度急劇變化的象素的集合,與色調(diào)無關(guān)。生活中的數(shù)字圖像一般都是24位真彩色圖,即圖像的每個象素用R、G、B 3個分量表示。因此,本文在對彩色圖像提取圖像中目標(biāo)的邊緣前,首先將彩色圖像轉(zhuǎn)化為灰度圖像[4-5]。具體做法是將R、G、B看成三維空間的X、Y、Z軸,則圖像中每一點的像素值(r,g,b)與坐標(biāo)(Y,Y,Y)距離最小時的Y即為該點的灰階值,公式如下:
其中,R表示紅色分量,G表示綠色分量,B表示藍(lán)色分量。
在對邊緣算子的研究基礎(chǔ)上,本文總結(jié)了圖像邊緣檢測的步驟:
1)去除圖像噪聲,減少圖像虛假邊緣的產(chǎn)生;
2)計算圖像梯度的幅值,位于邊緣上的像素點梯度幅值較大;
3)設(shè)定梯度幅值的閾值,取出真實的邊緣點像素。
根據(jù)以上原理,本文實現(xiàn)了圖像邊緣的檢測,收到了較好的檢測結(jié)果。具體方法如下:
1)去除圖像噪聲
去除圖像噪聲的目的是防止產(chǎn)生偽邊緣。消除圖像噪聲可以通過圖像處理技術(shù)中的平滑來實現(xiàn)。選擇的濾波器應(yīng)該在各個方向上的平滑程度相等,且每一鄰域像素點的權(quán)值應(yīng)該隨著該點與中心點的距離單調(diào)遞減。因此,作者采用了具備以上兩個特性的二維零均值離散高斯函數(shù)作為平滑濾波器。函數(shù)表達(dá)式如下:
其中,σ是高斯濾波器的寬度,用來控制平滑程度,f(x,y)為原始圖像,G(x,y)為通過高斯函數(shù)平滑后的圖像。
通過對圖像平滑可以獲得兩個效果,一個是模糊,另一個是消除噪聲。隨著σ越大,平滑的程度就越好,圖像就越模糊。本文在圖像特征分量模糊與平滑圖像中由噪聲所引起的過多不希望突變量之間取得折衷,對比分析后選擇了σ=1.0,使平滑后的圖像盡可能地去除或減弱圖像中的噪聲,同時又較好地保留了圖像的邊緣信息。
2)計算梯度幅值
圖像一階導(dǎo)數(shù)的幅度值反映了圖像的灰度變化情況,研究發(fā)現(xiàn)灰度不連續(xù)的位置處存在一個向上的階躍,這表明可以用一階導(dǎo)數(shù)的幅度值來檢測邊緣的存在。由于求導(dǎo)的計算是復(fù)雜的,本文則利用一階差分卷積模板來近似計算梯度的幅值和方向,使計算變得簡單化。本文選用3×3鄰域模板,根據(jù)8連通區(qū)域,將邊緣方向量化到圓周的1/8扇區(qū),以0°、45°、90°、135°等為中心角度。對整個坐標(biāo)系而言,梯度向量共分為8類,利用中心對稱原理,作者分析后認(rèn)為只需要4個方向,如圖2所示。作者通過計算這4個方向上的一階差分來確定梯度幅值,不僅能夠有效控制噪聲,而且邊緣定位準(zhǔn)確。
圖2 邊緣方向示意圖Fig.2 Schematic diagram on edge direction
各方向梯度的計算公式如下:
0°方向偏導(dǎo)數(shù)
45°方向偏導(dǎo)數(shù)
90°方向偏導(dǎo)數(shù)
135°方向偏導(dǎo)數(shù)
梯度幅值
表示為模板形式:
圖3 算子模板Fig.3 Operator template
3)閾值的設(shè)定
由上步計算出的圖像梯度幅值反映的是圖像灰度值的顯著變化程度。由于目標(biāo)和背景的邊緣處像素之間的灰度值差別較大,而目標(biāo)和背景內(nèi)部像素之間的灰度值差別較小,所以邊緣像素點的梯度幅值相對較大,而內(nèi)部的梯度幅值相對較小。由此,可設(shè)定一個合適的閾值T,如果像素點的梯度幅值 M(i,j)大于等于 T,則該點為邊緣點,并將 Edge(i,j)的值標(biāo)記為 255;如果像素點的梯度幅值小于 T,則將 Edge(i,j)值計為0。這樣便勾勒出了原圖像的邊緣(即所有Edge(i,j)=225的像素點)。
閾值T的取值直接影響到邊緣點的選取,本文采用了梯度值直方圖來確定閾值。在一幅圖像中,非邊緣點數(shù)目在圖像像素點總數(shù)目中占有一定的比例,對應(yīng)的比例因子表示為LOW。根據(jù)圖像梯度值對應(yīng)直方圖,從低梯度值等級開始逐步累加圖像點數(shù)目,當(dāng)累加數(shù)目達(dá)到圖像總像素數(shù)目的LOW時,對應(yīng)的圖像梯度值設(shè)置為閾值T,文中中設(shè)定LOW為0.7,經(jīng)測試得知圖像邊緣的定位更準(zhǔn)確,細(xì)節(jié)處理得更好,為提取圖像的邊緣方向直方圖打下了良好的基礎(chǔ)。
由上可知,Edge(i,j)=225 處的點均為邊緣點,其邊緣方向為:
其中,θ(i,j)的范圍為[0.360)。
在360個角度方向上,統(tǒng)計每個方向上邊緣點的個數(shù),構(gòu)成邊緣方向的直方圖。由于統(tǒng)計的是邊緣的方向,因此該特征具有平移不變性。對得到的邊緣方向直方圖進(jìn)行了歸一化處理,使特征具有了尺度不變性。
考慮到提取出的圖像邊緣方向直方圖特征向量雖然具有平移和尺度不變性,但對旋轉(zhuǎn)是敏感的。因為當(dāng)圖像內(nèi)的目標(biāo)或景物發(fā)生了旋轉(zhuǎn)變換,所有邊緣像素的方向也都發(fā)生相應(yīng)旋轉(zhuǎn),它對應(yīng)了邊緣方向直方圖的周期循環(huán)移位。因此,在進(jìn)行圖像特征匹配時,采用邊緣方向循環(huán)移位最小值來計算圖像間的距離,有效消除了圖像特征匹配中的旋轉(zhuǎn)易變性。修改了的歐式距離公式如下:
其中,H為查詢例圖的邊緣方向直方圖,HS是圖像庫中待查圖像的邊緣直方圖,HSl是對HS平移l個單位所得到的直方圖,Hi和HSli分別為H和HSl中第i個特征分量。
為了更好地評價算法的檢索性能,選擇了MPEG-7 ShapeB標(biāo)準(zhǔn)形狀測試集[6]。測試集中有1 400幅圖像,被分成70類,每類20幅圖像。圖像庫內(nèi)的圖像均為灰度圖像,且每幅圖像目標(biāo)唯一、背景單一,其中目標(biāo)為白色,背景為黑色。在該測試集的基礎(chǔ)上從幾何不變性和檢索性能兩個方面設(shè)計了實驗。
1)幾何不變性
幾何不變性實驗重在檢查算法對平移、尺度和旋轉(zhuǎn)不變性的有效性。從測試集中選擇了兩幅圖像,對第一幅圖像進(jìn)行了平移變換、尺度變換和旋轉(zhuǎn)變換等相應(yīng)的幾何變換。采用本文方法進(jìn)行檢索,通過計算第一幅圖、幾何變換后圖像和視覺特征不同的另一幅圖像間的距離進(jìn)行測試。測試數(shù)據(jù)表明該算法具有平移不變性、尺度不變性和旋轉(zhuǎn)不變性。
2)檢索性能
對性能的評價,采用“查準(zhǔn)率”對本章算法輸出的結(jié)果與人們期望結(jié)果的一致性進(jìn)行比較。將P(G)(即輸出近似圖像的數(shù)目)分別選擇為10和20。具體實驗步驟如下:以MPEG-7 ShapeB形狀庫為基礎(chǔ),從中選擇10類作為本實驗的測試形狀庫,其中每類包含了20幅圖像,這些圖像的分類是基于語義的分類,具體分類如圖4所示,其中每一類中所包含的圖像在視覺上是相似的,一些不同類之間也有相似性,如camel和elephant。對每一類圖像隨機(jī)抽取10幅分別作為關(guān)鍵圖像,用查準(zhǔn)率公式計算出P10和P20,然后對每類計算平均查準(zhǔn)率P10和P20,本章算法檢索查準(zhǔn)率結(jié)果如表1。
圖4 測試庫分類及示例圖Fig.4 Test library classification and examples
表1 算法檢索準(zhǔn)確率Tab.1 Algorithm retrieval accuracy
實驗表明,基于邊緣方向直方圖的形狀檢索算法在基于內(nèi)容的圖像檢索方面具有較好的平移、尺度和旋轉(zhuǎn)等幾何不變性,在檢索性能上也取得了較好的表現(xiàn),尤其是在規(guī)則形狀檢索方面,如hammer、jar類的圖像檢索,準(zhǔn)確率能達(dá)到80%左右。
基于內(nèi)容的圖像檢索技術(shù)旨在研究如何由圖像自身提取特征,如何利用提取出的特征對圖像數(shù)據(jù)進(jìn)行檢索。圖像的特征包括顏色、紋理、形狀和語義等,基于形狀特征的圖像檢索是基于內(nèi)容圖像檢索的一個十分重要的方面。通過對該技術(shù)的研究,提出了一種基于邊緣方向直方圖的輪廓形狀檢索算法,該方法首先用改進(jìn)后的邊緣檢測算子檢測出圖像的邊緣,然后統(tǒng)計各方向上的邊緣點數(shù)目構(gòu)成特征向量,最后采用邊緣方向循環(huán)移位最小歐式距離作為相似性度量。實驗表明,算法在檢索背景單一的圖像上取得了較好的效果,但對于背景復(fù)雜的圖像檢索效果略顯不足。
[1]岡薩雷斯.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2005.
[2]張潔.數(shù)字圖像邊緣檢測技術(shù)的研究[D].安徽:合肥工業(yè)大學(xué),2009.
[3]胡學(xué)龍.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2011.
[4]Mark S.Nixon,Alberto S.Aguado.計算機(jī)視覺特征提取與圖像處理[M].北京:電子工業(yè)出版社,2013.
[5]李勇.基于內(nèi)容的圖像檢索技術(shù)研究[D].吉林:吉林大學(xué),2009.
[6]L.J.Latecki.Shape Data for the MPEG-7 Core Experiment CE-Shape-1, [EB/OL](2002)[2013-06-26]http://www.cis.temple.edu/~latecki/TestData/mpeg7shapeB.tar.gz.