国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖正則化與非負(fù)組稀疏的自動圖像標(biāo)注

2015-07-12 13:54:45錢智明平王潤生
電子與信息學(xué)報 2015年4期
關(guān)鍵詞:集上正則語義

錢智明 鐘 平王潤生

(國防科技大學(xué)電子科學(xué)與工程學(xué)院 長沙 410073)

基于圖正則化與非負(fù)組稀疏的自動圖像標(biāo)注

錢智明 鐘 平*王潤生

(國防科技大學(xué)電子科學(xué)與工程學(xué)院 長沙 410073)

設(shè)計一個穩(wěn)健的自動圖像標(biāo)注系統(tǒng)的重要環(huán)節(jié)是提取能夠有效描述圖像語義的視覺特征。由于顏色、紋理和形狀等異構(gòu)視覺特征在表示特定圖像語義時所起作用的重要程度不同且同一類特征之間具有一定的相關(guān)性,該文提出了一種圖正則化約束下的非負(fù)組稀疏(Graph Regularized Non-negative Group Sparsity, GRNGS)模型來實現(xiàn)圖像標(biāo)注,并通過一種非負(fù)矩陣分解方法來計算其模型參數(shù)。該模型結(jié)合了圖正則化與l2,1-范數(shù)約束,使得標(biāo)注過程中所選的組群特征能體現(xiàn)一定的視覺相似性和語義相關(guān)性。在Corel5K和ESP Game等圖像數(shù)據(jù)集上的實驗結(jié)果表明:相較于一些最新的圖像標(biāo)注模型,GRNGS模型的魯棒性更強(qiáng),標(biāo)注結(jié)果更精確。

圖像標(biāo)注;圖正則化;組稀疏;非負(fù)矩陣分解

1 引言

隨著圖像獲取與存儲技術(shù)的不斷進(jìn)步,圖像數(shù)據(jù)呈現(xiàn)井噴式增長。如何檢索這些圖像是當(dāng)前計算機(jī)視覺領(lǐng)域的一大難題。一般而言,用戶傾向于用文本查找相關(guān)圖像,這使得自動圖像標(biāo)注技術(shù)受到了研究者們的廣泛關(guān)注。然而,由于“語義鴻溝”的存在,自動圖 像標(biāo)注是一件極具挑戰(zhàn)性的任務(wù)。這里的“語義鴻溝”主要體現(xiàn)在很難建立低層視覺特征與高層圖像語義之間的相互映射關(guān)系。由于高層語義所對應(yīng)視覺內(nèi)容往往非常復(fù)雜,這里主要從多類特征選擇和人的認(rèn)知需求兩個方面來分析視覺特征對語義理解的影響。

由于圖像內(nèi)容千變?nèi)f化,僅僅使用一類視覺特征往往不足以滿足不同圖像語義的需求,所以圖像通常由多類異構(gòu)視覺特征所共同表示。然而,這種高維的混合圖像特征在表示圖像特定語義時往往是冗余的。因此,選擇一個合理而又緊湊的圖像表示方法將能夠大大地提高圖像標(biāo)注的效率。在處理高維特征方面,稀疏表示被證明是極其有效的[1]。對于圖像標(biāo)注而言,稀疏表示的意義主要體現(xiàn)在:盡管豐富的圖像內(nèi)容需要由高維特征來表示,但屬于某一特定語義類別的圖像往往可以由若干低維空間的視覺特征來很好地描述。近年來,有很多圖像標(biāo)注方法[2,3]都通過對特征系數(shù)施以l1-范數(shù)約束來兼顧模型誤差與特征系數(shù)的稀疏性,以獲取更加穩(wěn)健和準(zhǔn)確的標(biāo)注結(jié)果。但是,這些方法僅考慮了各獨立特征對圖像標(biāo)注的不同作用,而忽略了特征之間的相關(guān)性對標(biāo)注結(jié)果的影響。一般情況下,同類特征之間往往相關(guān)性較大,而異類特征對某一圖像語義則往往表現(xiàn)出不同的描述能力。例如,紋理特征能夠很好地用于指紋識別,而形狀特征則對車輛檢測有著較好的效果。這也就是說,選擇合適的組群特征能夠更加有效地描述圖像語義。為此,組稀疏方法[4?8]結(jié)合了傳統(tǒng)稀疏表示的l1-范數(shù)約束與嶺回歸中的l2-范數(shù)約束,使得在針對某一圖像語義的特征組選擇上盡可能保持稀疏,而在用同類特征表示圖像時則使損失誤差盡可能小。例如,Wu等人[5]構(gòu)建了一個結(jié)構(gòu)化的稀疏選擇模型來應(yīng)對圖像標(biāo)注過程中的特征組選擇問題。Yang等人[6]則在此基礎(chǔ)上提出了一種拉普拉斯聯(lián)合組稀疏模型(Laplacian Joint Group Lasso, LJGL),用于從訓(xùn)練數(shù)據(jù)中重構(gòu)圖像區(qū)域,并根據(jù)區(qū)域特性來賦予標(biāo)注信息??紤]到圖像數(shù)據(jù)中的多層特征結(jié)構(gòu),Gao等人[7]提出了一種多層組稀疏編碼的方法來實現(xiàn)圖像分類與標(biāo)注。最近,Jayaraman等人[8]將結(jié)構(gòu)化組稀疏用于多任務(wù)學(xué)習(xí),以此選擇判別性較強(qiáng)的特征類,從而保持具有一致性的特征間的相關(guān)性并降低非相關(guān)特征對結(jié)果的影響。Bahrampour等人[9]則將樹結(jié)構(gòu)組稀疏方法用于多模分類,如多視角人臉識別,多傳感器目標(biāo)分類等。此外,組稀疏方法在視頻[10]、文檔[11]以及網(wǎng)頁數(shù)據(jù)分析[12]上也有著極具前景的應(yīng)用。這些方法表明組稀疏模型能夠提取最具相關(guān)性的低層特征組來對高層語義進(jìn)行建模,大大提高了模型的學(xué)習(xí)效率與應(yīng)用性能。

在人的認(rèn)知需求方面,一些心理學(xué)和生理學(xué)上的證據(jù)表明:基于部件(part-based)的表示方法在一定程度上能夠很好地描述人類大腦的認(rèn)知模式[13,14]。這里的部件可以指圖像的局部結(jié)構(gòu)或目標(biāo)的組成部分,也可以指視覺特征的部分屬性。這一結(jié)論為進(jìn)一步描述圖像語義提供了有力理論支撐。非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)[13]就是一種典型的用于學(xué)習(xí)目標(biāo)部件的方法。由于NMF在求解過程中只包含加性的而不含減性的矩陣運算,這與目標(biāo)部件表示的過程相吻合,所以其結(jié)果能夠在一定程度上較好地表示目標(biāo)部件。然而,NMF在處理數(shù)據(jù)時假設(shè)數(shù)據(jù)的分布是全局線性的,而沒有考慮數(shù)據(jù)的內(nèi)蘊幾何結(jié)構(gòu),這就使得NMF在處理具有非線性流形結(jié)構(gòu)的數(shù)據(jù)時其效果往往不盡人意。于是,一些研究工作開始關(guān)注流形子空間里的數(shù)據(jù)處理問題。其中,圖正則化[6,14]是研究數(shù)據(jù)流形結(jié)構(gòu)的最重要的方法之一。這類方法一般假設(shè):如果數(shù)據(jù)點在原空間是鄰近點,那么對應(yīng)到新的基下也是鄰近點。根據(jù)這一假設(shè),圖正則化與傳統(tǒng)的線性降維方法相比,能夠更好地保持?jǐn)?shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)。

本文提出了一種圖正則化約束下的非負(fù)組稀疏(Graph Regularized Non-negative Group Sparsity, GRNGS)模型來實現(xiàn)圖像標(biāo)注。相較于以往的組稀疏模型,GRNGS模型考慮到了圖像視覺特征空間的流形結(jié)構(gòu)和非負(fù)特征對圖像理解所起到的作用,并根據(jù)這些特性選擇符合人眼視覺且最具鑒別力的圖像特征,以實現(xiàn)更高效的圖像標(biāo)注。同時,利用特征的非負(fù)性,該模型參數(shù)可通過非負(fù)矩陣分解來有效地求解。

2 本文方法

如圖1所示,整個標(biāo)注框架由模型構(gòu)建與模型測試兩部分組成。在模型構(gòu)建過程中,我們根據(jù)多種異構(gòu)視覺特征和圖像語義信息來訓(xùn)練模型參數(shù);在模型測試過程中,我們首先提取測試圖像的多種異構(gòu)視覺特征,然后根據(jù)模型參數(shù)計算各語義標(biāo)簽的后驗概率,并對所求概率進(jìn)行排序以確定標(biāo)注結(jié)果。

2.1 組稀疏模型

給定一圖像訓(xùn)練集{(xi,yi)∈?p×{0,1}C, i=1,2,…,n},其中xi=[xi1xi2…xip]T∈?p表示第i幅圖像的特征向量,yi=[yi1yi2…yiC]T∈{0,1}C表示第i幅圖像所對應(yīng)的標(biāo)注信息(即如果該圖像的標(biāo)注信息中有標(biāo)簽k,則yik=1;否則,yik=0)。圖像特征一般由多種異構(gòu)視覺特征所組成,這里我們假設(shè)p維圖像特征中含有G組不同類別的特征。用mg表示第g組特征的維數(shù),則有。于是,第i幅圖像的特征向量可重新表示為xi=。令X=[x1x2…xn]T為n×p的訓(xùn)練特征矩陣,Y=[y1y2…yn]T為n×C的標(biāo)注矩陣,則結(jié)合組稀疏方法的圖像標(biāo)注問題可表示為

圖1 基于GRNGS模型的圖像標(biāo)注框架

其中,λ>0為組稀疏因子,B=[β1β2…βC], βk=[βk1βk2…βkp]T∈?p為標(biāo)記標(biāo)簽k時的系數(shù)矢量,βk,g為第g組特征所對應(yīng)的系數(shù)矢量。該方法可通過調(diào)節(jié)λ選擇對標(biāo)注問題有意義的特征組,即βk,g≠0,并根據(jù)這些特征組來建立圖像視覺特征與圖像語義間的映射關(guān)系。由于每一語義標(biāo)簽所對應(yīng)的特征系數(shù)各不相同,我們將上述矩陣求解問題進(jìn)一步細(xì)分為標(biāo)簽k所對應(yīng)的矢量求解問題。

2.2 GRNGS模型

為了有效地利用圖像特征的組效應(yīng)、流形結(jié)構(gòu)的緊湊性和非負(fù)性,本文提出了一種GRNGS模型來實現(xiàn)圖像標(biāo)注。流形是線性子空間的一種非線性推廣,我們也可以將流形看作是一個局部可坐標(biāo)化的拓?fù)淇臻g。要保持上一節(jié)所描述的圖像標(biāo)注問題中流形結(jié)構(gòu)的緊湊性,可根據(jù)圖正則化方法中較典型的拉普拉斯特征映射(Laplacian Eigenmap, LE)[14]來尋找一個最佳映射,使得下面的損失函數(shù)最?。?/p>

其中,σ為一帶寬參數(shù),NK(·)表示K近鄰搜索函數(shù)。于是,引入模型參數(shù)的非負(fù)約束以及式(3)中的流形約束,我們可將式(2)中的標(biāo)注問題改為

其中,λ1>0為組稀疏參數(shù),用以選擇合適的特征組;λ2>0為圖正則化參數(shù),用以控制模型結(jié)構(gòu)的復(fù)雜度。

則式(5)可重寫為

對于一幅測試圖像xnew,根據(jù)式(6)中所求的βk獲得標(biāo)簽k對該圖像的后驗概率:

對所有標(biāo)簽的后驗概率進(jìn)行降序排序,則可取后驗概率最大的若干標(biāo)簽對該圖像進(jìn)行標(biāo)注。

2.3 模型優(yōu)化

為了求解式(6)中的優(yōu)化問題,本文提出一種非負(fù)矩陣分解算法。首先,我們定義拉格朗日函數(shù):

其中,Φ=[φ1φ2…φp]T為拉普拉斯乘子。對式(8)求導(dǎo),可得φiβki=0),并使?L/?βk=0,可得

為了確保算法的收斂性,利用K.K.T.條件[14](即

其中,“?”表示Hadamard積[15]。于是,我們可得模型優(yōu)化算法的非負(fù)迭代過程如下:

這里,矢量商a/b是指矢量a和b中各元素值的商。該優(yōu)化算法的具體過程如下:

第1步 計算Π,Θ,Λg,令迭代次數(shù)t=0,初始化;

2.4 模型分析

由于Π,Θ在給定數(shù)據(jù)的情況下是固定的,其計算復(fù)雜度為O(n2p2)。在每次迭代過程中,分母項的計算復(fù)雜度為O(np+p2) ,分子項的計算復(fù)雜度為O(np2),因而其每次迭代過程的計算復(fù)雜度為O(np2),與圖像個數(shù)是線性相關(guān)的,這對于大規(guī)模數(shù)據(jù)庫的標(biāo)注工作是極其有利的。另外,非負(fù)迭代過程的迭代次數(shù)與所求系數(shù)矢量的維數(shù)一般是成比例的,故總的計算復(fù)雜度為O(n2p2+np3C)。

3 實驗

本文實驗安排如下:首先,給出實驗數(shù)據(jù)和評價準(zhǔn)則等信息;然后,對實驗參數(shù)進(jìn)行了評估;最后,給出了GRNGS模型與其他模型在圖像標(biāo)注上的性能對比結(jié)果。

3.1 實驗設(shè)置

本文采用的數(shù)據(jù)集包括:Corel5K數(shù)據(jù)集[16]和ESP Game數(shù)據(jù)集[17],其詳細(xì)信息如表1所示。

表 1 實驗數(shù)據(jù)集詳細(xì)信息

在特征提取方面,按照特征屬性不同將特征分為不同組群。本文實驗所采用的特征維數(shù)共320維,具體描述如下:128維的CPAM(Colored Pattern Appearance Model)特征[18],96維的RGB和HSV顏色直方圖特征(每個顏色通道提取16維特征),32維的梯度和方向直方圖特征,64維的形狀特征[19]。對于每一特征,我們將其值轉(zhuǎn)換到區(qū)間[0,1]上來,并對轉(zhuǎn)換后的特征值進(jìn)行歸一化處理,即?xi,有。

為了對標(biāo)注結(jié)果進(jìn)行合理評價,本文采用兩種評價策略:第一,固定每幅圖像的語義標(biāo)簽數(shù)為5,計算查準(zhǔn)率(Prec@5)和查全率(Rec@5)[18];第二,針對不同的查全率,計算所有平均查準(zhǔn)率的平均值(Mean Average Precision, MAP):

此外,所有實驗均在Matlab 2010平臺上運行,實驗所用計算機(jī)的主頻為2.30 GHz, RAM內(nèi)存為8 G。

3.2 模型參數(shù)對圖像標(biāo)注的影響

GRNGS模型主要需考察3個參數(shù):式(4)中的最近鄰參數(shù)K,式(6)中的組稀疏參數(shù)λ1和圖正則化參數(shù)λ2。由于最近鄰參數(shù)K與另外兩個參數(shù)的相關(guān)性較弱,我們將分開對其進(jìn)行評估,并使用MAP來衡量各參數(shù)取值的實驗結(jié)果。首先,我們令K=100,并考察參數(shù)λ1和λ2。在本實驗中,我們對這兩參數(shù)分別取值{0.0001,0.001,0.01,0.1,1,10}。

圖2給出了GRNGS模型在不同參數(shù)設(shè)置下的標(biāo)注結(jié)果。我們發(fā)現(xiàn)當(dāng)λ1=λ2時,標(biāo)注結(jié)果相對較好。在接下來的實驗中,我們選取標(biāo)注結(jié)果最好的模型參數(shù)作為實驗參數(shù),即在處理Corel5K和ESP Game數(shù)據(jù)集時分別選取參數(shù)λ1=λ2=0.1和λ1= λ2=0.01。

接下來,我們考察最近鄰參數(shù)K對實驗結(jié)果的影響。由圖3可知,在K值較小時,標(biāo)注結(jié)果隨著K值的增加而逐步改善;而當(dāng)K達(dá)到一定值時,標(biāo)注結(jié)果的MAP值則相對穩(wěn)定或略微呈下降趨勢。據(jù)此,我們在接下來的所有實驗中均令K=200。

圖2 GRNGS模型在不同組稀疏參數(shù)和圖正則化參數(shù)下的標(biāo)注結(jié)果比較

圖3 GRNGS模型在不同最近鄰參數(shù)下的標(biāo)注結(jié)果比較

3.3 算法收斂性分析

為了驗證本文所提的非負(fù)矩陣分解算法的收斂性,我們對兩個數(shù)據(jù)庫的建模過程進(jìn)行了跟蹤,并通過計算式(6)中的目標(biāo)函數(shù)值來確定其收斂狀態(tài)。如圖4所示,GRNGS模型的優(yōu)化算法在兩個數(shù)據(jù)集上都是收斂的。具體來講,該算法在Corel5K數(shù)據(jù)集上僅需不到50次迭代就可達(dá)到收斂條件;而在ESP Game數(shù)據(jù)集上達(dá)到收斂的迭代次數(shù)則需600次左右。另外,僅考慮算法的收斂過程,本文針對GRNGS模型所提的優(yōu)化算法在Corel5K和ESP Game數(shù)據(jù)集上的用時分別為5 min 29 s和12 min 45 s。這些實驗結(jié)果均反映了本文所提的模型優(yōu)化算法具有較好的收斂性能,且計算復(fù)雜度較低,有利于算法的進(jìn)一步推廣和應(yīng)用。

3.4 模型參數(shù)結(jié)構(gòu)比較

為了更好地分析GRNGS模型的模型參數(shù),我們將該參數(shù)與NMF和圖正則化的非負(fù)矩陣分解(Graph-regularized Nonnegative Matrix Factorization, GNMF )[14]所得的模型參數(shù)進(jìn)行稀疏性和結(jié)構(gòu)比較。圖5顯示了這3種方法在Corel5K數(shù)據(jù)集和ESP Game數(shù)據(jù)集上所學(xué)習(xí)得到的模型參數(shù)。這3種模型在Corel5K和ESP Game數(shù)據(jù)集上的參數(shù)矩陣分別為320×374和320×268。從這些結(jié)果可以看出,GNMF的稀疏性一般比GRNGS和NMF差,而GRNGS在較大的ESP GAME數(shù)據(jù)集上的稀疏性明顯強(qiáng)于NMF和GNMF。同時,GRNGS所學(xué)習(xí)得到的矢量具有明顯的組效應(yīng)和較好的一致性,從而體現(xiàn)了組群特征的相關(guān)性且能夠去除不相關(guān)特征的干擾,以更好地滿足圖像部分屬性特征表示的需求。

3.5 圖像標(biāo)注結(jié)果比較與分析

為了更好地分析GRNGS模型在圖像標(biāo)注方面的性能,本文所比較的方法包括一些基準(zhǔn)圖像標(biāo)注方法和與本文方法最為接近的若干方法。基準(zhǔn)圖像標(biāo)注方法包括:SVM模型和TagProp模型[20]。與本文方法最接近的圖像標(biāo)注方法包括:NMF模型[13]、GNMF模型[14]、基于結(jié)構(gòu)化組稀疏的多標(biāo)注學(xué)習(xí)模型(Multi-label Boosting with structural Grouping Sparsity, MtBGS)[6]、結(jié)合組稀疏與圖正則化的LJGL模型[7]。前兩種模型是非負(fù)分解方法,后3種模型是結(jié)合組稀疏的圖像標(biāo)注模型。與MtBGS模型相比,LJGL模型和GRNGS模型在其基礎(chǔ)上增加了圖正則化項。而與LJGL模型相比,GRNGS模型則又進(jìn)一步結(jié)合了模型的非負(fù)參數(shù)約束,使得模型學(xué)習(xí)過程更加符合人腦的認(rèn)知模式。表2和表3給出了各方法的標(biāo)注結(jié)果。

圖4 非負(fù)迭代算法的收斂過程

圖5 模型參數(shù)及其稀疏性分析

表 2 Corel5K數(shù)據(jù)集上的標(biāo)注結(jié)果比較

表 3 ESP Game數(shù)據(jù)集上的標(biāo)注結(jié)果比較

從實驗結(jié)果中可以看出,在Corel5K和ESP Game數(shù)據(jù)集上,將結(jié)合組稀疏的標(biāo)注模型(如MtBGS, LJGL和GRNGS)相較于其他標(biāo)注模型(如SVM, TagProp, NMF和GNMF)在實驗結(jié)果上有了一定的提高,這充分說明了組稀疏對圖像高層語義理解有著重要的意義。通過比較MtBGS, LJGL和GRNGS在兩個數(shù)據(jù)集上的標(biāo)注結(jié)果,我們可以發(fā)現(xiàn)LJGL模型的標(biāo)注結(jié)果相較于MtBGS的標(biāo)注結(jié)果提高較少,這說明單一的流形約束并不能夠顯著地提高模型對圖像語義的理解;而本文方法在組稀疏和圖正則化的基礎(chǔ)上又進(jìn)一步考慮了模型參數(shù)的非負(fù)性約束條件,使得標(biāo)注結(jié)果相較于其他模型有了較為顯著的提高。

4 結(jié)束語

本文研究了組稀疏、圖正則化以及非負(fù)參數(shù)約束對圖像標(biāo)注的影響,提出了GRNGS模型來構(gòu)建多種異構(gòu)視覺特征與圖像語義標(biāo)簽之間的映射關(guān)系。實驗結(jié)果表明,本文方法具有較好的穩(wěn)定性和良好的標(biāo)注性能。在今后的工作中,我們將側(cè)重研究不同視覺特征在核映射空間上的自適應(yīng)距離測度,并從層次化語義角度進(jìn)一步改善“語義鴻溝”問題的解決方案。

[1] Wright J, Ma Y, Mairal J, et al.. Sparse representation for computer vision and pattern recognition[J]. Proceedings of the IEEE, 2010, 98(6): 1031-1044.

[2] Shen L, Yeo C, and Hua B. Intrinsic image decomposition using a sparse representation of reflectance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2904-2915.

[3] 宋相法, 焦李成. 基于稀疏編碼和集成學(xué)習(xí)的多示例多標(biāo)記圖像分類方法[J]. 電子與信息學(xué)報, 2013, 35(3): 622-628.

Song Xiang-fa and Jiao Li-cheng. A multi-instance multi-label image classification method based on sparse coding and ensemble learning[J]. Journal of Electronics & Information Technology, 2013, 35(3): 622-628.

[4] Wu F, Han Y, Liu X, et al.. The heterogeneous feature selection with structural sparsity for multimedia annotation and hashing: a survey[J]. International Journal of Multimedia Information Retrieval, 2012, 1(1): 3-15.

[5] Wu F, Han Y, Tian Q, et al.. Multi-label boosting for image annotation by structural grouping sparsity[C]. ACM International Conference on Multimedia, Firenze, Italy, 2010: 15-24.

[6] Yang Y, Huang Z, Yang Y, et al.. Local image tagging via graph regularized joint group sparsity[J]. Pattern Recognition, 2013, 46(5): 1358-1368.

[7] Gao S, Chia L T, Tsang I W H, et al.. Concurrent single-label image classification and annotation via efficient multi-layer group sparse coding[J]. IEEE Transactions on Multimedia, 2014, 16(3): 762-771.

[8] Jayaraman D, Sha F, and Grauman K. Decorrelating semantic visual attributes by resisting the urge to share[C]. IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 1629-1636.

[9] Bahrampour S, Ray A, Nasrabadi N M, et al.. Quality-based multimodal classification using tree-structured sparsity[C]. IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 4114-4121.

[10] Cho J, Lee M, Chang H J, et al.. Robust action recognition using local motion and group sparsity[J]. Pattern Recognition, 2014, 47(5): 1813-1825.

[11] Yogatama D and Smith N A. Making the most of bag of words: sentence regularization with alternating direction method of multipliers[C]. International Conference on Machine Learning, Beijing, 2014, Vol. 32: 656-664.

[12] Yan L, Yan L, Xue G R, et al.. Coupled group lasso for web-scale CTR prediction in display advertising[C]. International Conference on Machine Learning, Beijing, 2014: 802-810.

[13] Lee D D and Seung H S. Learning the parts of objects by nonnegative matrix factorization[J]. Nature, 1999, 401(6755): 788-791.

[14] Cai D, He X, Han J, et al.. Graph regularized nonnegative matrix factorization for data representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560.

[15] Zhou B, Zhang F, and Peng L. Compact representation for dynamic texture video coding using tensor method[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(2): 280-288.

[16] Müller H, Marchand-Maillet S, and Pun T. The truth about corel-evaluation in image retrieval[C]. ACM International Conference on Image and Video Retrieval, London, UK, 2002, Vol. 2383: 38-49.

[17] Von Ahn L and Dabbish L. Labeling images with a computer game[C]. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, New York, USA, 2004: 319-326.

[18] Zhou N, Cheung W K, Qiu G, et al.. A hybrid probabilistic model for unified collaborative and content-based image tagging[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(7): 1281-1294.

[19] Oliva A and Torralba A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

[20] Guillaumin M, Mensink T, Verbeek J, et al.. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]. International Conference on Computer Vision, Kyoto, Japan, Sept. 2009: 309-316.

錢智明: 男,1986年生,博士,研究方向為圖像理解與目標(biāo)識別.

鐘 平: 男,1979年生,副教授,研究方向為圖像理解與目標(biāo)識別.

王潤生: 男,1941年生,教授,研究方向為圖像理解與目標(biāo)識別.

Automatic Image Annotation via Graph Regularization and Non-negative Group Sparsity

Qian Zhi-ming Zhong Ping Wang Run-sheng
(College of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China)

Extracting an effective visual feature to uncover semantic information is an important work for designing a robust automatic image annotation system. Since different kinds of heterogeneous features (such as color, texture and shape) show different intrinsic discriminative power and the same kind of features are usually correlated for image understanding, a Graph Regularized Non-negative Group Sparsity (GRNGS) model for image annotation is proposed, which can be effectively solved by a new method of non-negative matrix factorization. This model combines graph regularization with l2,1-norm regularization, and is able to select proper group features, which can describe both visual similarities and semantic correlations when performing the task of image annotation. Experimental results reported over the Corel5K and ESP Game databases show the robust capability and good performance of the proposed method.

Image annotation; Graph regularization; Group sparsity; Non-negative matrix factorization

TP391

: A

:1009-5896(2015)04-0784-07

10.11999/JEIT141282

2014-10-09收到,2014-12-30改回

國家自然科學(xué)基金(61271439)資助課題

*通信作者:鐘平 zhongping@nudt.edu.cn

猜你喜歡
集上正則語義
Cookie-Cutter集上的Gibbs測度
語言與語義
鏈完備偏序集上廣義向量均衡問題解映射的保序性
剩余有限Minimax可解群的4階正則自同構(gòu)
類似于VNL環(huán)的環(huán)
復(fù)扇形指標(biāo)集上的分布混沌
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
有限秩的可解群的正則自同構(gòu)
幾道導(dǎo)數(shù)題引發(fā)的解題思考
额尔古纳市| 南华县| 静乐县| 新安县| 略阳县| 柳州市| 海伦市| 鄂尔多斯市| 平阳县| 安顺市| 鲜城| 宣武区| 榆树市| 武平县| 洪湖市| 钟祥市| 富阳市| 嘉荫县| 巩义市| 莲花县| 盐山县| 康乐县| 乐清市| 和林格尔县| 饶阳县| 南澳县| 金寨县| 富川| 泰安市| 西和县| 泰宁县| 松桃| 辽阳县| 怀集县| 正宁县| 土默特左旗| 枣强县| 西城区| 镇康县| 澄江县| 成都市|