羅菊香
(江西服裝學(xué)院 大數(shù)據(jù)學(xué)院,江西 南昌 330000)
圖像自動標注是指針對圖像的視覺內(nèi)容,通過機器學(xué)習(xí)的方法自動給圖像添加反映其內(nèi)容的文本特征信息的過程。基本思想是:利用已標注圖像集或其他可獲得的信息,自動學(xué)習(xí)語義概念空間與視覺特征空間的潛在關(guān)聯(lián)或映射關(guān)系,給未知圖像添加文本關(guān)鍵詞。經(jīng)過圖像自動標注技術(shù)的處理,圖像信息問題可以轉(zhuǎn)化為技術(shù)已經(jīng)相對較成熟的文本信息處理問題。傳統(tǒng)的圖像標注是通過人工方式完成的,隨著圖像數(shù)據(jù)的爆發(fā)式增長,人工方式成本高而效率低,同時也存在一定的主觀性,使得效果不理想。為了能夠高效地從大量圖像數(shù)據(jù)中尋找到自己需要的圖像,對圖像自動標注研究就變得非常重要。
目前,各種標注模型及方法層出不窮,其中,很多圖像標注概率主題模型是基于Corr-LDA 模型的[1]。而 Corr-LDA-ITD 模型[2]是對 Corr-LDA 改進之后的圖像標注模型,具有更好的標注效果。文獻[3]提出了基于Corr-LDA 模型,利用類別信息來促進圖像標注的方法?;诖?,本文利用Corr-LDA-ITD 模型對不同類別的圖像進行學(xué)習(xí),選取log 似然值最大的模型來對2 個數(shù)據(jù)集(Labelme 和Uiuc-sport)中的測試集圖像進行標注實驗。
LDA 模型是單模態(tài)的主題模型,對LDA 模型進行擴展,形成文本和圖像的多模態(tài)概率主題模型Corr-LDA 模型,而 Corr-LDA-ITD 將 Corr-LDA 的文本主題的均勻分布抽取修改為在已抽取的圖像主題中按圖像主題分布抽取,這種生成方式更加符合真實圖像,均勻分布只是認為的理想情況,從已抽取的圖像主題中按圖像主題分布抽取更能體現(xiàn)真實圖片的圖片主題情況。因此相較于Corr-LDA 模型,Corr-LDA-ITD 模型中文本和圖像的關(guān)系更緊密,文獻[2]中的實驗驗證了Corr-LDA-ITD模型的標注性能要優(yōu)于Corr-LDA 模型。文獻[3]是基于Corr-LDA模型利用類別信息促進標注,因此,本文在Corr-LDA-ITD模型的基礎(chǔ)上進行改進,利用類別信息來促進圖像標注,提出了一種基于Corr-LDA-ITD 模型利用類標促進標注的方法,利用該模型可以對未標注圖像集進行自動標注。概率圖模型如圖1所示。
圖1 Corr-LDA-ITD的概率圖模型
模型的具體生成過程為:假設(shè)圖像集由D張照片經(jīng)過圖像處理之后構(gòu)成M個圖像詞匯和N個文本詞匯,首先按照狄利克雷分布抽取主題比例θ;對每一個圖像詞匯vm先按照多項式分布抽取圖像主題Zm|θ,再按照多項式分布抽取圖像詞vm|Zm;對每一個文本詞wn,先按照多項式分布抽取主題比例Tn|Z,再按照多項式分布抽取文本詞wn|Tn。模型的潛變量和觀測變量的聯(lián)合分布為:
本文基于文獻[2]和文獻[3],利用類標信息結(jié)合Corr-LDA-ITD 模型進行模型構(gòu)建,因為不同類別的圖像之間,圖像呈現(xiàn)的事物差距較大,相同類別的圖像之間,圖像呈現(xiàn)的事物相近。標注方法的構(gòu)建過程如圖2所示。
圖2 模型選擇
模型構(gòu)建首先利用Corr-LDA-ITD對各個類的圖像進行學(xué)習(xí),然后用各個類圖像集學(xué)習(xí)出的模型對測試圖像集進行測試,選出所有模型中l(wèi)og 似然值最大的標注模型來對圖像進行標注,模型通過公式(2)確定log似然值。
模型具體標注過程是首先使用訓(xùn)練好的模型參數(shù)計算圖像主題分布;再依據(jù)該分布選擇文本主題;最后按照這個選中的主題生成標注詞,確定概率較大的前4個標注詞作為圖像的標注模型:
為比較本文方法的標注效果,實驗在2個真實圖像集(Labelme和Uiuc-sport)上進行,模型選取6組主題(K=20,40,60,80,100,120)進行標注實驗,實驗將本文方法與Corr-LDA模型、Corr-LDA-ITD 模型以及Mca-SLDA[4]模型進行標注比較,在 2 個真實圖像集(Labelme 和Uiuc-sport)的實驗效果分別如圖3—4 所示。
圖3 Labelme數(shù)據(jù)集上F-mesaure值性能比較
圖4 Uiuc-sport數(shù)據(jù)集上F-mesaure值性能比較
從實驗結(jié)果可知,本文方法在2 個真實圖像集(Labelme 和Uiuc-sport)上表現(xiàn)出了圖像標注效果總體要高于相比較的3 個模型。Labelme 和Uiuc-sport數(shù)集都是在主題數(shù)為60 時表現(xiàn)出最好的標注效果,在實驗的幾組主題上標注效果都優(yōu)于相比較的其他3個模型。
本文利用類標信息結(jié)合Corr-LDA-ITD模型進行模型構(gòu)建,通過在各個類圖像集中進行模型學(xué)習(xí),利用所有模型中l(wèi)og似然值最大的標注模型來對圖像進行標注。實驗驗證了本文方法相較于其他模型標注效果有所優(yōu)化。
目前,自動圖像標注是計算機視覺和自然語言處理交叉研究領(lǐng)域的研究熱點,近年來學(xué)術(shù)界和工業(yè)界都對其進行了大量的研究。其中有一部分學(xué)者致力于卷積神經(jīng)網(wǎng)絡(luò)在圖像標注中的應(yīng)用研究。卷積神經(jīng)網(wǎng)絡(luò)融合了人工神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)的理論基礎(chǔ),可以大幅度減少參數(shù)估計的數(shù)量。因此相比于其他網(wǎng)絡(luò)結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)會更容易得到訓(xùn)練,也可以有效避免傳統(tǒng)人為干預(yù)選擇特征提取方式時的預(yù)處理過程,筆者后續(xù)也將著力于這方面的研究。