羅菊香
摘要:從增強(qiáng)類標(biāo)簽和標(biāo)注關(guān)聯(lián)性出發(fā)進(jìn)行驗(yàn)證研究,提出了一個(gè)類標(biāo)簽生成直接來自圖像主題同時(shí)做圖像分類和標(biāo)注的概率主題模型,即改進(jìn)的Mca-sLDA模型。給出了基于變分EM算法的模型參數(shù)推導(dǎo)過程以及使用該模型分類和標(biāo)注圖像的方法,并在兩個(gè)真實(shí)數(shù)據(jù)集上對模型的分類和標(biāo)注性能進(jìn)行了驗(yàn)證。
關(guān)鍵詞:圖像分類和標(biāo)注;變分EM;Mca-sLDA模型
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1008-4657(2020)05-0073-09
0 引言
計(jì)算機(jī)視覺在人工智能和深度學(xué)習(xí)的背景下又一次正在經(jīng)歷蓬勃發(fā)展,圖像分類和標(biāo)注[1]作為計(jì)算機(jī)視覺的關(guān)鍵技術(shù)也伴隨著相應(yīng)的挑戰(zhàn)。圖像分類是指自動(dòng)的給圖像分配類標(biāo),圖像標(biāo)注是指用關(guān)鍵詞描繪圖像中出現(xiàn)的事物或某些區(qū)域。圖像的分類和標(biāo)注技術(shù)在文本檢索、圖像信息管理、模式識別與機(jī)器學(xué)習(xí)等領(lǐng)域都具有重要的理論意義[2-3]。當(dāng)今,圖像標(biāo)注和分類問題已經(jīng)成為計(jì)算機(jī)視覺中的研究熱點(diǎn)。
隨著詞袋特征[4]的出現(xiàn),概率主題模型的圖像標(biāo)注和分類算法[5-13]近年來受到研究人員和學(xué)者的廣泛關(guān)注,并已成為圖像標(biāo)注和分類問題研究領(lǐng)域的一個(gè)主要工作。近年來研究人員已經(jīng)做了大量工作,包括基于概率主題模型的圖像標(biāo)注方法[5-8],基于概率主題模型的圖像分類研究[9-11],基于概率主題模型的同時(shí)做圖像分類和標(biāo)注模型[12-14]。
文獻(xiàn)[5]在Corr-LDA模型的基礎(chǔ)上利用圖像類別來改進(jìn)圖像的標(biāo)注性能。Xu等[6]提出了圖像標(biāo)注的Corr-CTM模型,該模型以Corr-LDA模型為基礎(chǔ)引入了主題之間的相關(guān)性。文獻(xiàn)[8]將圖像視覺特征、環(huán)繞文本以及實(shí)體抽取所得到的能夠描述圖像中顯著特征的詞在概率主題模型中進(jìn)行聯(lián)合建模,學(xué)習(xí)到多種數(shù)據(jù)模態(tài)之間的關(guān)聯(lián)關(guān)系。sLDA-bin模型是Putthividhya等[9]將sLDA模型和Corr-LDA模型結(jié)合提出的做圖像分類的概率主題模型。近年,神經(jīng)主題模型的圖像標(biāo)注和分類研究也相繼展開。如無監(jiān)督神經(jīng)網(wǎng)絡(luò)DocNADE模型[11],模型能夠?qū)崿F(xiàn)文檔的檢索與分類任務(wù)。Mca-sLDA模型[12]是CVPR會議上提出的同時(shí)做圖像分類和標(biāo)注的經(jīng)典模型。文獻(xiàn)[13]在Mca-sLDA的基礎(chǔ)上提出了一個(gè)類標(biāo)和標(biāo)注相互促進(jìn)的同時(shí)做圖像分類和標(biāo)注的模型。DocNADE的擴(kuò)展模型SupDocNADE[14]模型可以對圖像詞、文本詞及類別進(jìn)行共同學(xué)習(xí)。
上述工作基于不同目的都取得了相對較好的性能。到目前為止,同時(shí)做圖像分類和標(biāo)注的工作相對較少,且大多是基于Mca-sLDA模型做的改進(jìn),注意到該模型中類標(biāo)簽和標(biāo)注只是通過潛主題連接,這也就使得類標(biāo)簽和標(biāo)注之間的關(guān)聯(lián)性有一定限制,對于從增強(qiáng)類標(biāo)簽和標(biāo)注關(guān)聯(lián)性出發(fā)進(jìn)行的驗(yàn)證研究還比較欠缺。
1 Mca-sLDA模型
Mca-sLDA通過模型潛主題Z連接標(biāo)注模型Corr-LDA和有監(jiān)督主題模型Mc-sLDA實(shí)現(xiàn)同時(shí)執(zhí)行圖像分類和標(biāo)注的功能。
模型用到的符號及其意義如表1所示。
2 基于改進(jìn)的Mca-sLDA模型同時(shí)做圖像分類和標(biāo)注的方法
本文在研究基于概率主題模型做圖像分類和標(biāo)注課題時(shí)注意到Mca-sLDA模型中類標(biāo)簽和標(biāo)注只是通過潛主題Z連接,類標(biāo)簽和標(biāo)注之間的關(guān)聯(lián)性較弱。為此,本文對Mca-sLDA模型進(jìn)行改進(jìn),新模型文本主題是按圖像主題分布從已抽取的圖像主題中抽取,模型類標(biāo)簽直接從文本主題中生成,提出了一個(gè)類標(biāo)簽生成直接來自圖像主題同時(shí)做圖像分類和標(biāo)注的概率主題模型,模型簡稱為P-Mca-sLDA模型。本文推導(dǎo)了模型的參數(shù)估計(jì)算法,同時(shí)也給出了利用該模型分類和標(biāo)注圖像的方法,真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)也驗(yàn)證了模型的分類和標(biāo)注性能得到了改進(jìn)。
P-Mca-sLDA模型用到的符號及其所表示意義如表1所示,令E=v,w,c表示可觀測變量,Δ=α,π,β,μ表示模型參數(shù),ω=γ,φ,ρ表示變分參數(shù)。
模型具體生成過程如下:
模型的生成過程:從潛主題中生成圖像,在已抽取的圖像主題中按圖像主題分布抽取文本主題,同時(shí)生成圖像詞和類標(biāo)簽,類標(biāo)簽生成過程的主題直接來自文本主題,這就使類標(biāo)簽和標(biāo)注的關(guān)聯(lián)性增強(qiáng)。
3 P-Mca-sLDA模型參數(shù)求解與圖像分類和標(biāo)注
3.1 變分E步驟
3.1.1 計(jì)算后驗(yàn)Dirichlet參數(shù)γ
3.1.2 計(jì)算參數(shù)φ
3.1.3 計(jì)算參數(shù)ρ
3.2 變分M步驟
經(jīng)過E步驟,可求得變分參數(shù)ω=γ,φ,ρ的值。在M步驟中,固定變分參數(shù)ωd=γ,φ,ρ,d∈1,2,3,...,D,相對于模型參數(shù)Δ=α,π,β來最大化集合D上的log似然。即最大化
3.2.1 求解模型參數(shù)π
3.2.2 求解模型參數(shù)β
3.2.3 確定模型參數(shù)α:
本文沒有對α進(jìn)行優(yōu)化,多次實(shí)驗(yàn)發(fā)現(xiàn),將α設(shè)置成全為1的向量,模型性能較好。
3.2.4 確定模型參數(shù)μ:
3.3 圖像的分類與標(biāo)注
測試集中的圖像沒有標(biāo)記類標(biāo)和標(biāo)注。對于分類,使用文本的主題頻次P-分類圖像,概率最大的類標(biāo)將被作為此圖像的類,也就是使得μTP-的期望最大時(shí)的類標(biāo)。即確定類的公式如下該預(yù)測程序使主題頻次的均值的期望代替圖像的原始特征。每個(gè)類別有一個(gè)對應(yīng)的的參數(shù)μ,與該圖像最相近的類別會分派給這個(gè)預(yù)測圖像。
4 實(shí)驗(yàn)結(jié)果與分析
為評估Mca-sLDA模型的分類和標(biāo)注性能,本文在LabelMe和UIUC-Sport兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)。分別采用分類平均準(zhǔn)確度和F值來評價(jià)模型的分類和標(biāo)注性能。