龍 清
(重慶廣播電視集團(總臺),重慶 401147)
目前,廣電系統(tǒng)所建的媒資系統(tǒng)大多采用基于文本方式的檢索,由于文本檢索是精確檢索,也是最原始的檢索,只要文本不重復或發(fā)生錯誤,都能一一對應檢索出來,這對于播出來說是非常必要的,但對于節(jié)目制作來說,這種檢索就有些不太適應,因為媒資系統(tǒng)中所存資料的文本信息并不能完全準確地表示所存資料的全部內(nèi)容,有些素材很可能存在于某些節(jié)目中,而這些節(jié)目在媒資庫中的文本信息很可能與該素材的內(nèi)容不一致,若再采用文本方式的檢索就可能無法找到所需要的素材,再者,對于已播節(jié)目的監(jiān)播查詢,特別是廣告和新聞節(jié)目的監(jiān)播查詢,基于文本方式的檢索就更不能滿足要求,這時就需要采用其他方式的檢索。目前,可用于電視圖像檢索的方式很多,本文將介紹基于顏色特征的電視圖像檢索。
顏色特征是圖像三大低層視覺特征之一。圖像的顏色與圖像中的景物密切相關。與其他視覺特征相比,顏色特征具有較強的穩(wěn)定性和可靠性,是人眼最敏感、最易識別的特征之一。顏色特征的提取有顏色直方圖、顏色集、顏色矩[1]和顏色聚合向量[2]等多種方法,其中最簡單易行的方法是顏色直方圖法。顏色直方圖法首先要確定顏色空間,常用的顏色空間有RGB顏色空間和HSV色彩空間[3],這兩種顏色空間可以相互轉換。本文研究采用RGB顏色空間。在確定了顏色空間后,根據(jù)統(tǒng)計得到圖像每種顏色分量的像素數(shù)以及各種顏色分量相對出現(xiàn)的數(shù)值,將顏色分量作為橫坐標,相對出現(xiàn)的數(shù)值作為縱坐標,就得到顏色直方圖。其函數(shù)表達式如下
式中:k表示圖像顏色分量的取值;L表示圖像顏色分量總的取值數(shù);nk表示圖像中顏色分量為k的顏色相對出現(xiàn)的數(shù)值;N表示圖像總的像素個數(shù)。顏色直方圖體現(xiàn)了該圖像的基本色調(diào),也反映了圖像在一個方向上顏色元素的統(tǒng)計分布情況。不相交的顏色直方圖滿足疊加性,即全圖直方圖就是所有子區(qū)域的直方圖之和。
關鍵幀的提取是電視圖像檢索中的幾個關鍵技術之一,在電視圖像檢索中起到重要作用。電視圖像是連續(xù)的,構成電視圖像最基本的單位是幀,一幀畫面就是一幅靜止圖像,一段連續(xù)的電視圖像是由許多幀組成,即一段連續(xù)的電視畫面是由許多幅靜止圖像按照一定的時間順序串聯(lián)組成。利用抽取關鍵幀的方法,可將連續(xù)動態(tài)的電視圖像檢索轉化為靜態(tài)的圖像檢索,將靜態(tài)圖像檢索的方法用于動態(tài)的電視圖像檢索。關鍵幀的選取原則是關鍵幀盡可能完全準確地表達一個鏡頭的關鍵圖像畫面,反映一個鏡頭的主要內(nèi)容,同時,為了便于儲存和計算,應盡量減小關鍵幀的數(shù)據(jù)量。由于同一個鏡頭中的各幀圖像之間的內(nèi)容有相當程度的冗余,所以,關鍵幀的數(shù)量不宜多。
圖像檢索中的匹配方式可分為完全匹配和相似性匹配兩種。當兩個被檢測的圖像樣本的特征值完全相同時,圖像匹配成功,稱為完全匹配。當兩個樣本圖像的特征值不相同,但其差值距離小于某一閾值時,圖像匹配成功,稱為相似性匹配?;诘蛯犹卣鞯膱D像檢索大多采用相似性匹配檢索。圖像在提取其顏色特征后,采用顏色直方圖來進行相似性匹配,匹配程度由特征向量空間中點與點之間的距離差值來確定。比較常用和簡單的差值距離算法是直方圖相交距離法。設s為樣本示例例圖,hs表示該樣本圖像直方圖;p為圖庫中任一圖像,hp表示該圖像直方圖,則兩圖像之間的匹配值Dsp(s,p)可借助直方圖相交距來計算,其數(shù)學表達式為
理想的相似性匹配方法應該滿足主觀視覺的要求,即主觀視覺看上去相似的圖像在相似性匹配上應該具有較小的距離,在視覺上不相似的圖像應該具有較大的距離,即Dsp(s,p)值越小,說明圖像越相似。
檢索原理框圖如圖1所示。在媒資系統(tǒng)中,電視節(jié)目素材(視頻)通過錄入進入電視節(jié)目庫,然后對電視節(jié)目庫中的電視節(jié)目進行關鍵幀提取,建立關鍵幀數(shù)據(jù)庫,再對數(shù)據(jù)庫中的關鍵幀進行顏色特征提取,并將特征值存入顏色特征數(shù)據(jù)庫。圖片素材經(jīng)過錄入進入圖片庫,然后提取其顏色特征,并將特征值存入顏色特征數(shù)據(jù)庫。在用戶端,對于連續(xù)的樣本電視片段,首先提取其關鍵幀,然后再提取關鍵幀的顏色特征值,并將特征值與媒資系統(tǒng)中顏色特征數(shù)據(jù)庫中的數(shù)據(jù)進行相似性匹配,匹配結果送給媒資系統(tǒng)中的圖片庫和電視節(jié)目庫,并將圖片庫和電視節(jié)目庫中相應的圖片和節(jié)目以及對應的文本信息返給用戶端。對于靜止的樣本圖像,其原理過程與連續(xù)的樣本電視片段一樣,只是用戶不用提取關鍵幀,而是直接提取其顏色特征值后進行相似性匹配。
圖1 檢索原理框圖
圖像檢索性能評價的方法有很多,如查準率與查全率法、排序值評法、ANMRR法[4]等,但比較常用的還是查準率與查全率法。查準率與查全率是較為直觀且具有通用性的檢索性能客觀評價指標。查全率是指一次檢索后,返回用戶的檢索結果中有效結果的數(shù)目和數(shù)據(jù)庫中存儲的與該分類圖像總數(shù)之比。查準率是在該次檢索后,返回用戶的檢索結果中有效結果的數(shù)目同返回用戶的圖片數(shù)目之比。查準率的數(shù)學定義為
查全率的數(shù)學定義為
式中:a代表正確檢索出的相關圖像數(shù)目;b代表檢索出的無關圖像;c代表漏檢的相關圖像數(shù)目;A代表某分類所有相關圖像的集合;B代表檢索出的所有圖像的集合。查準率體現(xiàn)檢索結果的精確性,重點在精;而查全率體現(xiàn)檢索結果覆蓋的全面性,重點在廣。查準率和查全率分別從精度和廣度來衡量檢索的結果,查準率和查全率越高說明檢索系統(tǒng)效果越好,檢索算法越有效。但查全率和查準率也是相互矛盾的,對同一類圖片而言,要想提高查準率勢必要在一定程度上降低查全率作為代價,反之,若要提高查全率就要以降低查準率作為代價。故在評價一個檢索系統(tǒng)的檢索效率時不能單純地只看查準率或者查全率,必須綜合考慮2個指標,找到一個可以接受的平衡點。
通過關鍵幀的提取,可將連續(xù)動態(tài)的電視圖像檢索轉化為靜態(tài)的圖像檢索,本文用靜態(tài)的關鍵幀和圖片做Matlab[5]實驗。首先,建立一個由關鍵幀和靜止圖像組成的圖庫,圖庫中有廣告、建筑、人物、山景等4個類型的圖像,每個類型包含90幅圖像,共計360幅圖像。從每類圖像中抽出1幅圖像作為樣本圖像進行相似性匹配檢索,并返回在相似性匹配中距離最小的前9幅圖像。表1列出了圖像類別、編號范圍和樣本圖像號。
表1 圖像類別、編號范圍、樣本圖像號以及查準率和查全率
用Matlab提取樣本圖像的顏色特征(64×3維),其程序如下:
批量處理360幅圖像的程序如下:
用Matlab計算直方圖相交距匹配值,其計算程序如下:
檢索后返回與樣本圖像相似性匹配值最小的前9幅圖像,其排序程序如下:
圖2為廣告監(jiān)播檢索后返回的前9幅圖像,圖3為建筑類樣本圖像檢索后返回的前9幅圖像,圖4為人物類樣本圖像檢索后返回的前9幅圖像,圖5為山景類樣本圖像檢索后返回的前9幅圖像。圖下標為該圖的圖號,括弧內(nèi)為與樣本圖像的匹配值。實驗維數(shù)均為64×3維。通過相似性匹配后,返回用戶前9幅圖像中與樣本圖像相關的圖像數(shù)量(即有效結果數(shù)量)和據(jù)此計算出的查準率及查全率如表1所示。
從上述仿真實驗中可以看出,建筑和山景類圖像檢索的查準率和查全率都較高,而人物類圖像檢索的查準率和查全率都較低,說明基于顏色特征的圖像檢索對于建筑和山景類圖像的檢索較為準確,檢索也更為全面,相比之下,人物類圖像的檢索效果不如廣告和山景類的好,但4種類型的樣本圖像都能從實驗圖庫中準確無誤地檢索出來。
通過對顏色特征電視圖像檢索原理、算法和仿真實驗結果的分析,可以得出,基于顏色特征的電視圖像檢索能從圖片庫中準確地檢索出所需要的目標圖像,其原理和算法都較為簡單,所需資源較少,實現(xiàn)起來比較容易,能夠滿足電視圖像檢索升級的要求。
[1]楊紅菊,張艷,曹付元.一種基于顏色矩和多尺度紋理特征的彩色圖像檢索方法[J].計算機科學,2009,36(9):274-277.
[2]黃誠,王國營.一種基于顏色聚合向量的圖像檢索方法[J].計算機工程,2006,32(2):194-196.
[3]周明全,狄國華,韋娜.基于內(nèi)容圖像檢索技術[M].北京:清華大學出版社,2007.
[4]孫君頂,趙珊.圖像低層特征提取與檢索技術[M].北京:電子工業(yè)出版社,2009.
[5]CHAPMAN S J.Matlab編程[M].2版.邢樹軍,鄭碧波,譯.北京:科學出版社,2010.