郭玉堂,李 艷
(1.安徽大學計算機科學與技術學院,安徽 合肥 230601;2.合肥師范學院計算機科學與技術系,安徽 合肥 230601)
基于連續(xù)預測的半監(jiān)督學習圖像語義標注*
郭玉堂1,2,李 艷1
(1.安徽大學計算機科學與技術學院,安徽 合肥 230601;2.合肥師范學院計算機科學與技術系,安徽 合肥 230601)
為了在圖像底層特征與高層語義之間建立關系,提高圖像自動標注的精確度,結合基于圖學習的方法和基于分類的標注算法,提出了基于連續(xù)預測的半監(jiān)督學習圖像語義標注的方法,并對該方法的復雜度進行分析。該方法利用標簽數(shù)據(jù)提供的信息和標簽事例與無標簽事例之間的關系,根據(jù)鄰接點(事例)屬于同一個類的事實,構建K鄰近圖。用一個基于圖的分類器,通過核函數(shù)有效地計算鄰接信息。在建立圖的基礎上,把經過劃分后的樣本節(jié)點集通過基于連續(xù)預測的多標簽半監(jiān)督學習方法進行標簽傳遞。實驗表明,提出的算法在圖像標注中的標注詞的平均查準率、平均查全率方面有顯著的提高。
連續(xù)預測;半監(jiān)督;圖像標注;圖學習;多標簽
圖像檢索技術從誕生以來,經歷了基于文本的圖像檢索TBIR(Text Based Image Retrieval)、基于內容的圖像檢索CBIR(Content Based Image Retrieval)以及基于標注的圖像檢索技術ABIR(Annotation Based Image Retrieval)。ABIR技術能有效地解決圖像低層特征與高層語義之間存在的“語義鴻溝”問題,它的出現(xiàn)促進了自動圖像標注技術AIA(Automatic Image Annotation)的發(fā)展。自動圖像標注技術是利用計算機視覺、模式識別、機器學習等技術,讓計算機自動地給未標注圖像加上能準確反映圖像語義特征的關鍵詞,以便將圖像檢索技術轉化為相對比較成熟的文本檢索技術。
對于自動圖像標注技術,目前已經取得一定的成果,也存在各種不同的標注方法。1999年,Mori Y等人[1]提出共生模型,它首創(chuàng)性地開辟了自動圖像標注領域的研究。Jeon J等人[2]提出一種交叉媒體相關模型CMRM,將圖像標注問題看作跨語言檢索問題,通過計算圖像區(qū)域類和標簽集的聯(lián)合概率對圖像進行標注。文獻[3]提出的基于機器翻譯的識別模型,將圖像分割的區(qū)域進行聚類,利用機器翻譯模型在區(qū)域類與標簽之間形成映射,再通過EM算法進行實現(xiàn)。Lavrenko V等人[4]提出的連續(xù)空間相關模型CRM(Continueness Relationship Model),則是用連續(xù)概率密度函數(shù)來描述區(qū)域類,進而利用區(qū)域類與標簽的聯(lián)合概率分布圖像進行標注。有監(jiān)督多標注方法SML(Supervised Multi-Label)[5,6]采用最小錯誤率的優(yōu)化準則和統(tǒng)計分類的思想。文獻[7]利用支持向量機SVM(Support Vector Machine)的多分類器為空間映射方法,將圖像的低層特征映射成具有一定高層語義的模型特征,從而實現(xiàn)基于概念索引的圖像標注。近年來,基于圖學習的方法受到很多學者的關注。文獻[8]提出了一種基于Gcap自動圖像標注的方法,它運用圖像分割算法把圖像分割成一系列區(qū)域,用一個關聯(lián)圖表示圖像與區(qū)域、圖像與標注詞、區(qū)域與區(qū)域的關系,以待標注的圖像節(jié)點作為起點,運行隨機游走算法對待標注圖像進行標注。文獻[9]介紹了圖的半監(jiān)督學習,并敘述了如何構建圖等內容。文獻[10]提出通過連續(xù)預測的方式傳遞標簽的半監(jiān)督學習方法,但這種方法是一種傳統(tǒng)的二分類方法,在很多方面具有局限性。
為了提高圖像標注的精確度,結合基于圖學習標注方法和基于分類的標注方法,提出了基于連續(xù)預測的半監(jiān)督學習圖像語義標注,該方法利用標簽數(shù)據(jù)提供的信息和標簽事例與無標簽事例之間的關系,根據(jù)鄰接點(事例)屬于同一個類的事實,以頂點對應事例,邊權值對應相似性的形式,構建相似圖,用相似圖表示數(shù)據(jù)點之間的關系。用一個基于圖的分類器,通過核函數(shù)有效地計算鄰接信息。進而,每一個無標簽節(jié)點相對于每個類都對應一個值,這個值用來度量屬于這個類的程度,進而得出每個節(jié)點關于類的一序列的值,根據(jù)某一量度對這一序列的值進行取舍,便可得出這個無標簽點對應的多標簽。并可以應用兩種不同方式:類標簽(硬標簽)和似然類估計(軟標簽)對圖像進行標注。
2.1 基于圖的半監(jiān)督學習
傳統(tǒng)的基于分類的機器學習的方法僅僅利用標簽集作為訓練集得出分類器,然而困難的是如何得到這些標簽集,因為這些標簽集的得到是很費時費事的,需要大量的人力和物力。而無標簽數(shù)據(jù)是很容易得到的,但無標簽數(shù)據(jù)卻很少被利用。半監(jiān)督學習卻可以充分利用少量的標簽數(shù)據(jù)和大量的無標簽數(shù)據(jù)建立分類器,進而對無標簽數(shù)據(jù)進行分類,事實證明結果確實比較精確,很令人滿意,同時節(jié)省了大量的人力。在理論和實踐上有很大的意義和可行性,因此得到多數(shù)學者的青睞。
在半監(jiān)督算法中,已知類標的訓練數(shù)據(jù)和未知類標的測試數(shù)據(jù)都將參與到算法的學習過程中。在學習階段利用更多的信息,如數(shù)據(jù)的分布特性等,它適用于總數(shù)據(jù)量較大、已標記訓練數(shù)據(jù)量相對較小的情況。主要利用數(shù)據(jù)的總體空間分布特征和原始類標簽信息,使得最終得到的分類結果在數(shù)據(jù)空間上能夠總體充分平滑(相鄰點的標簽相似),并保證盡可能地擬合訓練數(shù)據(jù)。
2.2 基于連續(xù)預測的半監(jiān)督學習
傳統(tǒng)的連續(xù)預測算法利用一個基于圖的核光滑分類器和一個標準化機制,依次預測Xu內節(jié)點的標簽。在給定相似矩陣Wr的情況下,首先進行光滑化,光滑矩陣Sr的元素是:
(1)
光滑矩陣Sr是一個隨機矩陣,所有行之和等于1。然后在經過局部階段的迭代后,預測出對任何一個v∈Xr的標簽fv,fv是一個[0,1]的真實實數(shù)值,若v∈Xl,則fv=1。在局部階段的基礎上,全局階段把局部階段的值進行規(guī)則化。同時,這個正規(guī)化部分考慮到遠離標簽節(jié)點的無標簽節(jié)點的分類更加不確定的事實,最終每一個樣本點對應一個數(shù)值,這個數(shù)值表示它屬于某個指定類的概率的大小。
傳統(tǒng)的連續(xù)預測的半監(jiān)督學習是一個二分類問題。對于傳統(tǒng)的二分類,它的主要思想是:假設類與類之間相互獨立,一個樣本只歸為其中的一個類。而在實際應用中,僅僅二分類并不能理想地解決一些現(xiàn)實問題,因為樣本會和多個類相關聯(lián),需將樣本同時歸到多個類,如:圖像標注問題,因為一個圖像它可以同時擁有多個標簽,假如一個人物山水畫的圖像,二分類標注只會把它標注為人物、山、水中的某一個標簽,這具有局限性。而多標簽分類則把上面的三個關鍵詞同時標注出來,這能更準確和全面地反映出圖像的特性。這就是多標簽分類問題的優(yōu)點。所以,僅僅用二分類的方法是很難合理解決一些問題的,但若用多標簽分類方法來解決的話,問題就會變得簡單易行。所以,在此基礎上,我們提出基于連續(xù)預測的多標簽半監(jiān)督學習。
基于連續(xù)預測的多標簽半監(jiān)督學習是在傳統(tǒng)的連續(xù)預測算法的基礎上進行的擴展。基于連續(xù)預測的多標簽半監(jiān)督學習在光滑化的基礎上,首先定義一個分類器,對于任何一個節(jié)點v∈Xr,分類器Hr(v)為:
(2)
其中Fr是標簽預測矩陣,F(xiàn)r∈Rn×c,且F0=YL。對每個節(jié)點v∈Xr對應的Hr(v)是一個Rn×c的矩陣。
多標簽連續(xù)預測算法描述如下:
輸出:Y=Fk。
從r=1開始進行下面兩個階段的循環(huán):
(1)局部階段:
(2)全局階段:
首先我們從圖像數(shù)據(jù)庫中取出一小部分圖像作為標簽集,其余圖像作為待標注點。然后對數(shù)據(jù)庫中所有的圖像進行視覺特征提取,為避免分割后的局部特征不能完整反映圖像的全局語義信息的問題,我們采取提取圖像全局特征的方法。這里的視覺特征包括顏色特征、邊緣特征、邊緣方向特征、紋理特征等。對于圖像庫我們分別進行某一視覺特征的提取。如顏色特征的提?。簭牟季峙c結構信息得到圖像特征,對每個給定的圖像求出其對應的顏色分布直方圖,采用一定的量化方法(如:歸一化)將顏色特征直方圖轉化為顏色特征向量。對以上圖像特征我們分別進行了實驗比較,發(fā)現(xiàn)顏色特征在我們實驗中效果最好。
(3)
其中d(,)表示最短路徑,調節(jié)參數(shù)τ>0。在距離的計算中,我們對歐氏距離、余弦角距離、直方圖相交距離等,進行了一系列的實驗比較,發(fā)現(xiàn)歐氏距離具有很大的優(yōu)越性。
劃分后,Xr對應的對稱相似矩陣Wr,是權值相似矩陣W的子矩陣。對每個節(jié)點集Xr(r∈1,…,k)中的點利用多標簽連續(xù)預測算法,分別進行局部和全局的處理,最終得出標簽預測矩陣Fk。
對于實驗數(shù)據(jù)集的選取,為了實驗的可靠性,我們選取Corel 5000圖像數(shù)據(jù)集作為實驗對象,其中有花、熊、虎、人物、飛機、山脈、鳥,珊瑚等50類圖像,每類中包含100幅圖像,共計5 000幅圖像作為實驗數(shù)據(jù),每幅圖像與l~5個標注詞關聯(lián),共371個詞。取其中的500個圖像作為已標簽數(shù)據(jù),其余的作為未標簽樣本數(shù)據(jù),我們的最終目標是對未標簽圖像進行語義標注,我們用4到5個關鍵詞描述每個圖像的基本語義。用Matlab 7.10作為實驗的平臺。
由于每幅圖像使用1~5個來標注,因此取概率最大的5個詞作為該圖像的標注詞。對每個標注詞用查準率(Precision)、查全率(Recall)和F-Measure標準對各種方法的性能進行分析。并用平均查準率(ave-precision)、平均查全率(ave-recall)和平均F值(ave-F)的三種情況的分布情況進行比較分析。
Figure 1 Performance comparison of several kinds of annotation algorithms
為了說明我們的算法標注圖像的有效性,在圖1中,把我們的算法與下面的幾種傳統(tǒng)的經典算法TM、CMRM、GLM(Graph Learning Model)[11]、Gcap、互相關傳播模型(CLP)[12]和CRM在平均查準率(ave-precision)、平均查全率(ave-recall)、平均F值(ave-F)進行比較。其中GLM是采用傳統(tǒng)建圖方法的基本圖像標注,CLP利用詞匯間的相關性提高圖像標注的性能。從圖1可以看出,即使與標注性能比較好的GLM、CLP相比較,本文方法的標注性能都比GLM、CLP要好,因此可以知道:我們提出的算法的標注性能得到了顯著的改進。
Table 1 Results of image annotation
Figure 2 Effect of K values on experimental resutlts in the sparse graph
本文提出的基于連續(xù)預測的多標簽半監(jiān)督學習是在傳統(tǒng)的連續(xù)預測算法的思想上進行的擴展。結合連續(xù)預測和半監(jiān)督學習的思想,在傳統(tǒng)的二分類的連續(xù)預測的基礎上,進一步把連續(xù)預測算法擴展為多標簽半監(jiān)督學習,并利用這種方法進行圖像標注。它根據(jù)圖像之間的相似度建立圖,把經過劃分后的樣本節(jié)點集通過連續(xù)預測的方法進行多標簽傳遞。實驗表明,本文提出的算法顯著提高了圖像標注的性能。與經典的算法相比,算法的實時性,有待于進一步提高。所以,在今后的工作中將考慮進一步提高算法的效率和半監(jiān)督學習算法的研究。
[1] Mori Y, Takahashi H, Oka R. Image-to-word transformation based on dividing and vector quantizing images with words[EB/OL].[2013-06-13]. http://citeseer.ist.psu.edu/368129.html.
[2] Jeon J, Lavrenko V, Mnmatha R. Automatic image annotation and retrieval using cross-media relevance models[C]∥Proc of the 26th Annual Intelnational ACM SIGIR Conference on Research and Development in information Retrieval, 2003:119-126.
[3] Duygulu P, Barnard K, de Freitas J F G, et al. Object recognition as machine translation:learning a lexicon for a fixed image vocabulary[C]∥Proc of the 7th European Conference on Computer Vision Copenhagen, 2002:97-112.
[4] Lavrenko V, Mnmatha R, Jeon J. A model for learning the semantics of pictures[C]∥Proc of Information Retrieval(2003) Citeseer, 2003:553-560.
[5] Carneiro G, Chan A B, Moreno P J, et al.Supervised learning of semantic classes for image annotation and retrival[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):394-410.
[6] Vasconcelos N. Minimum probability of error image retrieval [J]. IEEE Transactions on Signal Processing,2004,52(8):2322-2336.
[7] Cusano C, Ciocca G, Schettini R. Image annotation using SVM [J]. Proceedings of SPIE,2004,53(41):330-338.
[8] Pan Jia-yu, Yang Hyung-jeong, Faloutsos C, et al. Gcap:Graphbased automatic image captioning[C]∥Proc of the 4th International Workshop on Muhimedia Data and Document Engineering(MDDE 04),in Conjunction with Computer Vision Pat-tern Recognition Conference(CVPR 04),2004:146-156.
[9] Zhu X. Semi-supervised learning with graphs[R]. Technical Report, Pittsburgh:Carnegie Mellon University, 2005.
[10] Culp M, Michailidis G. Graph-based semisupervised learning[J]. IEEE Transactions on Pattern Analysis and Mac-
hine Intelligence,2008, 30(6):174-179.
[11] Tong H,He J,Li M,et al.Graph based multi-modality learning[C]∥Proc of the 13th Annual ACM International Conference on Multimedia,2005:862-871.
[12] Kang F, Jin R, Sukthankar R. Correlated label propagation with application to multi-label learning[C]∥Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1719-1726.
[13] Liu Wei,Wang Jun,Chang S-F.Robust and scalable graph-based semisupervised learning[J]. Proceedings of the IEEE,2012,100(9):2624-2638.
[14] Tang Jin-hui, Hong Ri-chang, Yan Shui-chang, et al. Image annotation by kNN-sparse graph-based label propagation over noisily tagged web images[J].ACM Transactions on Intelligent Systems and Technology,2011,2(2):14.
[15] Gu Fang-ming,Liu Oayou,Wang Xin-ying.Semi-supervised weighted distance metric learning for kNN classification[C]∥Proc of IEEE International Conference on Computer, Mechatronics, Control and Electronic Engineering (CMCE)2010:406-409.
GUO Yu-tang,born in 1962,PhD,professor,his research interests include pattern recognition, and image processing.
李艷(1984-),女,安徽阜陽人,碩士生,研究方向為模式識別與圖像處理。E-mail:274732046@qq.com
LI Yan,born in 1984,MS candidate,her research interests include pattern recognition, and image processing.
Semi-supervised learning image semantic annotation based on sequential prediction
GUO Yu-tang1,2,LI Yan1
(1.School of Computer Science and Technology,Anhui University,Hefei 230601;2.Department of Computer Science and Technology,Hefei Normal College,Hefei 230601,China)
In order to establish the relationship between low-level features and high-level semantics of the image,improve the accuracy of image automatic annotation,combining with graph learning and classification annotation algorithm,we propose an image semantic annotation method for sequential prediction-based semi-supervised learning,and analyze the complexity of the method.According to the fact that the adjacent vertexes (cases) should belong to the same class, by using the information provided by tag datum and the relationship between tag cases and cases with no labels,the method constructs a K relative neighborhood graph.We use a graph-based classifier and a kernel function to calculate the adjacency information effectively.On the basis of building graphs,we propagate the labels of the node sets derived from the samples by sequential prediction-based semi-supervised multiple labels learning method.Experiments show that the proposed algorithm for image annotation significantly improves the average precision ratio and the average recall ratio of the marked words .
sequential prediction;semi-supervised;image annotation;graph learning;multiple labels
1007-130X(2015)03-0553-06
2013-09-24;
2014-02-22基金項目:安徽省自然科學基金資助項目(11040606M134);安徽省高校自然科學基金資助項目(KJ2103A217)
TP391.41
A
10.3969/j.issn.1007-130X.2015.03.024
郭玉堂(1962-),男,安徽潛山人,博士,教授,研究方向為模式識別與圖像處理。E-mail:aieyt@ah.edu.cn
通信地址:230601 安徽省合肥市合肥經濟技術開發(fā)區(qū)九龍路111號安徽大學新區(qū)計算機科學與技術學院
Address:School of Computer Science and Technology,New Area,Anhui University,111 Jiulong Rd,District of Economic Technology Development,Hefei 230601,Anhui,P.R.China