呂英麗 徐小君 顧 勇
(河北建筑工程學院,河北張家口075000)
隨著網(wǎng)絡技術和成像技術的迅猛發(fā)展,基于內(nèi)容的多媒體圖像資料的搜索需求日益強大[1].現(xiàn)有的搜索引擎如百度、谷歌等對圖像資料的搜索主要依賴于圖像對應的標注信息,使得搜索結(jié)果不盡準確.而手工進行圖像標注的方法費用太過昂貴,僅僅根據(jù)標注的文本信息檢索圖像資料已經(jīng)不能滿足搜索的需求.新興的研究主要集中在基于內(nèi)容的圖像檢索系統(tǒng)上,即通過分析圖像內(nèi)容數(shù)據(jù)確定圖像的檢索信息進而進行圖像檢索[2][3].這些研究將促進基于圖像內(nèi)容搜索技術的應用,帶來很大的經(jīng)濟效益,同時能引起人們生活方式的變革進而產(chǎn)生巨大的社會效益[4][5].正是在這樣的背景下,本文應用LDA(latent Dirichlet allocation)模型對基本圖像特征進行建模,然后應用且具有良好分類效果的支持向量機SVM(Support Vector Machine)算法進行分類.
本文利用圖像低層特征和圖片文件數(shù)據(jù)建立圖片的LDA模型.把模型參數(shù)送到LDA模型數(shù)據(jù)庫進行檢索,返回根據(jù)圖像內(nèi)容檢索到的類似圖像結(jié)果.尋找圖像的重要特征并構建圖像的語義模型.應用shift特征結(jié)合低層特征進行特征融合.建立圖像的改進LDA模型.根據(jù)語義模型進行圖像庫的預分類技術加快檢索速度.其中LDA模型是系統(tǒng)的核心模型.
LDA即隱狄立特雷分配[6],是David Blei,Andrew Ng和Michael Jordan在2002年首先提出的一種生成模型.它是為文本處理領域引入的一個采用無參數(shù)分級貝葉斯方法產(chǎn)生的主題模型.在2006年,加州理工大學的李菲菲教授[7]將其引入圖像檢索領域并取得較好的效果.該模型每個主題下的文檔θi服從多項式分布Multi(θ),語料庫中的每個主題服從多項式分布p(w|zi),將其應用到圖像處理領域時,語料庫對應圖像領域的圖像庫,主題對應類別,文檔對應一幅圖像.α,β,θ,和φ是系統(tǒng)對應的參數(shù).
用戶輸入圖片到計算機,在本地先進行預處理,對圖片格式及其他圖片信息進行檢測.提取圖像低層特征包括顏色、紋理及SIFT特征,然后把圖像低層特征和圖片文件送入服務器端,在服務器端建立圖片的LDA模型.把模型參數(shù)送到LDA模型數(shù)據(jù)庫進行比對,確定圖片屬于的類別,在同類別中根據(jù)與輸入圖片相似度進行排序輸出前幾幅圖像.同時LDA模型數(shù)據(jù)庫匹配的文字信息也一起傳送到用戶端.如果用戶采用的是文字檢索方式,則直接用文字同模型數(shù)據(jù)庫中的文字進行檢索匹配.
本系統(tǒng)提取SIFT特征的實驗部分使用SIFT-VC程序進行,該程序是Rob Hess編制的VC界面下的特征提取程序,具有特征提取速度快并與Lowe,D.的SIFT特征接近的效果.LDA建模部分采用GibbsLDA++進行,SVM部分使用臺灣林智仁教授的LIBSVM程序軟件包進行開發(fā).這些軟件包均是目前這些應用的主流軟件包,最貼近算法設計者的原算法且應用簡單.
實驗用的數(shù)據(jù)庫是ImageNet數(shù)據(jù)庫,該庫是2008年普林斯頓大學的李菲菲教授團隊開始建立的數(shù)據(jù)庫,該庫目前仍在建設中,不過已經(jīng)具有相當?shù)囊?guī)模.ImageNet根據(jù)WordNet分級機制組織數(shù)據(jù)庫.每個節(jié)點選取幾百到上千幅圖像描述該節(jié)點并由人工進行標注以確保數(shù)據(jù)庫數(shù)據(jù)的準確性.
實驗中我們由ImageNet數(shù)據(jù)庫中選卻了8類圖片進行檢索實驗,分別是哺乳動物、山、鳥、花、飛機、汽車、船和房屋.每類圖片選取500個樣本圖片.圖3給出了汽車類別和花類別的圖片的基本特征對比情況,由圖中可以看出同類別圖片的特征較不同類別有較大相似性.
在檢索率試驗中,由8類圖像中每類選取500幅圖像,按照檢索試驗方法進行試驗,表1列出了各類圖片的檢索率值.由表中可以看出不同類別的檢索率不同,這是由于不同檢索類別的特征特點不同,且與其他類別的區(qū)分度有差異造成的.
表1 八類圖片的檢索率
表2給出了當圖像訓練數(shù)據(jù)量變化時對檢索率的影響.訓練數(shù)據(jù)樣本量越大,檢索率越高.但訓練數(shù)據(jù)樣本量越大,檢索系統(tǒng)構建時的計算量也越大,系統(tǒng)構建的時間也越長.
表2 訓練數(shù)據(jù)變化時檢索率提高表
本文在數(shù)字圖像內(nèi)容研究的基礎上提出了一種基于LDA模型的圖像檢索方法.該方法提取出圖像的顏色、紋理及SIFT特征進行混合得到圖像的復合特征,使用這些特征與圖像和圖像庫構建LDA模型.根據(jù)不同類別的LDA模型參數(shù)的不同進行圖像檢索.實驗表明該方法對基于內(nèi)容的多媒體圖像資料檢索效果良好.
[1]Datta R.,D.Joshi,J.Li,etc.Image retrieval:ideas,influences,and trends of the new age[M].New York:Association for Computing Machinery,2008,1971 ~2035
[2]Russell,B.C.,Torralba,A.,Murphy,K.P.,etc.LabelMe:A database and web -based tool for image annotation.International Journal of Computer Vision,2008,77(1-3):157~173
[3]Vedaldi,A.,Gulshan,V.,Varma,M.,etc,A.Multiple kernels for object detection[C].Kyoto:In Twelfth International Conference on Computer Vision,2009
[4]Kinh Tieu,Paul Viola.Boosting Image Retrieval.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2000
[5]James Z.Wang,Jia Li,Gio Wiederhold.SIMPLIcity:Semantics-sensitive Integrated Matching for Picture Libraries[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2001,23(9):pp947 -963
[6]D.Blei,A.Ng,M.Jordan.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3:993 ~1022
[7]Fei- Fei.L.,Perona.P.A Bayesian Hierarchical Model for Learning Natural Scene Categories.CVPR,2005,6:524 ~53