劉凱,張立民,孫永威,林雪原
(海軍航空工程學(xué)院信息融合研究所,264001,山東煙臺(tái))
?
利用深度玻爾茲曼機(jī)與典型相關(guān)分析的自動(dòng)圖像標(biāo)注算法
劉凱,張立民,孫永威,林雪原
(海軍航空工程學(xué)院信息融合研究所,264001,山東煙臺(tái))
提出一種基于深度玻爾茲曼機(jī)與典型相關(guān)分析的自動(dòng)圖像標(biāo)注算法(DBM-CCA)。該算法利用深度玻爾茲曼機(jī)實(shí)現(xiàn)圖像與文本的低層次特征向稀疏高層次抽象概念的轉(zhuǎn)變,并通過(guò)典型相關(guān)分析建立子空間映射關(guān)系以實(shí)現(xiàn)標(biāo)注詞匯的生成。首先在深度玻爾茲曼機(jī)提取圖像與文本高層特征過(guò)程中,選用伯努利分布和高斯分布分別擬合標(biāo)注詞匯和圖像特征,然后在圖像與標(biāo)注詞匯高層特征形成的典型變量空間內(nèi)計(jì)算待標(biāo)注圖像與訓(xùn)練集圖像的馬氏距離并據(jù)此加權(quán)計(jì)算得到高層標(biāo)注詞匯特征,最后由平均場(chǎng)估計(jì)生成圖像標(biāo)注詞匯。實(shí)驗(yàn)結(jié)果表明,所提算法對(duì)圖像的標(biāo)注準(zhǔn)確率改善較好,與經(jīng)典的基于監(jiān)督的多類標(biāo)簽方法和多重伯努利相關(guān)模型相比,在Corel5K實(shí)驗(yàn)中平均查準(zhǔn)率和查全查準(zhǔn)均率分別提高了10%和5%。
自動(dòng)圖像標(biāo)注;深度學(xué)習(xí);深度玻爾茲曼機(jī);典型相關(guān)分析
為提高海量圖像檢索管理效率,以及克服“語(yǔ)義鴻溝”瓶頸的制約,自動(dòng)圖像標(biāo)注成為了圖像檢索領(lǐng)域中非常具有挑戰(zhàn)性的任務(wù)。近年來(lái),已有多種自動(dòng)圖像標(biāo)注的新方法被提出[1-3]。文獻(xiàn)[1]提出了結(jié)合潛在社區(qū)與多核學(xué)習(xí)的自動(dòng)圖像標(biāo)注算法(latent - community and multi-kernel learning, ICMKL);文獻(xiàn)[2]針對(duì)圖像標(biāo)注詞間存在的噪聲以及失衡問(wèn)題,提出基于相似兼容性的標(biāo)注濾波方法;文獻(xiàn)[3]在此基礎(chǔ)上設(shè)計(jì)了多樣化語(yǔ)義圖像標(biāo)注方法。這些方法最大的特點(diǎn)是通過(guò)構(gòu)建面向標(biāo)注詞匯與圖像特征的多種模型,實(shí)現(xiàn)圖像與標(biāo)注詞匯之間復(fù)合平衡的映射關(guān)聯(lián)。雖然這些方法能夠較好地實(shí)現(xiàn)圖像標(biāo)注,但受到模型參數(shù)影響較大,且參數(shù)較多,往往需要大量實(shí)驗(yàn)驗(yàn)證,帶來(lái)實(shí)際應(yīng)用的不便。
作為2013年十大突破技術(shù)之首,多種深度學(xué)習(xí)模型[4-7]被應(yīng)用于跨媒體檢索和多模態(tài)信息處理領(lǐng)域。文獻(xiàn)[8]提出通過(guò)在圖像與文本間建立多模態(tài)深度玻爾茲曼機(jī),以解決圖像與文本的檢索和標(biāo)注問(wèn)題,但與經(jīng)典的自動(dòng)圖像標(biāo)注算法相比,其詞匯模型和頂層特征融合機(jī)制仍有待改進(jìn)。
目前,典型相關(guān)分析[9]作為反映兩組指標(biāo)之間的整體相關(guān)性的多元統(tǒng)計(jì)分析方法,已被用于建立兩種模態(tài)信息間的關(guān)聯(lián)關(guān)系,以實(shí)現(xiàn)不同類型信息的聯(lián)合學(xué)習(xí)[10-12],但其問(wèn)題在于典型相關(guān)分析往往適應(yīng)于低層次信息的關(guān)聯(lián),對(duì)于抽象、稀疏的高層概念應(yīng)用范圍較窄,這就需要選取合適的信息特征提取方式。
為解決上述問(wèn)題,鑒于深度學(xué)習(xí)的發(fā)展以及現(xiàn)有方法[1-3]的出發(fā)點(diǎn),本文對(duì)深度學(xué)習(xí)在自動(dòng)圖像標(biāo)注的應(yīng)用進(jìn)行研究,提出了結(jié)合深度玻爾茲曼機(jī)與典型相關(guān)分析的自動(dòng)圖像標(biāo)注算法(deep Boltzmann machine-canonical correlation analysis, DBM-CCA),通過(guò)深度玻爾茲曼機(jī)(deep Boltzmann machine, DBM)提取抽象離散特征,利用典型相關(guān)分析實(shí)現(xiàn)圖像與標(biāo)注詞匯的映射關(guān)系,并在Corel5K實(shí)驗(yàn)中取得了較好的結(jié)果。
本文提出的自動(dòng)圖像標(biāo)注算法——DBM-CCA,其基本思想是利用深度玻爾茲曼機(jī)逐層提取不同層次特征的優(yōu)勢(shì),形成圖像和標(biāo)注詞高層抽象概念,通過(guò)典型相關(guān)分析建立圖像與標(biāo)注詞之間高層特征的相關(guān)關(guān)系,并采用典型變量空間投影法求得標(biāo)注詞匯抽象特征繼而生成標(biāo)注詞匯。
DBM-CCA算法中包含兩種DBM結(jié)構(gòu),分別為面向圖像特征生成圖像高層特征的圖像深度玻爾茲曼機(jī)(image-deep Boltzmann machine, I-DBM)和面向文本特征生成文本高層特征的文本深度玻爾茲曼機(jī)(text-deep Boltzmann machine, T-DBM),其處理的對(duì)象分別為圖像集合DI和標(biāo)注詞集合DT,本文算法結(jié)構(gòu)如圖1所示。
圖1 DBM-CCA算法結(jié)構(gòu)
1.1 基于DBM的高層特征提取
DBM是由Salakhutdinov提出的一種以RBM為基礎(chǔ)的深度學(xué)習(xí)模型[13]。該模型不同于Hinton提出的深度信念網(wǎng)絡(luò)(deep belief net, DBN)之處在于模型中各單元層間均為無(wú)向連接,省略了DBN中由上至下的反饋參數(shù)訓(xùn)練,同時(shí)使模型處理不確定性樣本的健壯性更強(qiáng)。雖然DBM的訓(xùn)練時(shí)間略長(zhǎng),但是模型的數(shù)據(jù)泛化能力有所提高,且在多個(gè)公共訓(xùn)練集上的表現(xiàn)也優(yōu)于DBN。
圖2 3層T-DBM模型結(jié)構(gòu)
T-DBM中可見(jiàn)單元vi的后驗(yàn)激活概率(vi對(duì)應(yīng)的標(biāo)注詞匯出現(xiàn)的概率)為
(1)
由于在圖像標(biāo)注任務(wù)中,通常限定圖像的標(biāo)注詞匯個(gè)數(shù)N,因此在對(duì)圖像進(jìn)行標(biāo)注時(shí),待計(jì)算完成T-DBM中所有可見(jiàn)單元的后驗(yàn)激活概率以后,選取激活概率最高的前N個(gè)單詞作為該圖像的標(biāo)注詞匯。
I-DBM中可見(jiàn)單元vi的后驗(yàn)激活概率為
(2)
1.2 典型變量空間
完成圖像文本高層特征提取后,構(gòu)建出圖像高層特征集合DI-abs與標(biāo)注詞匯高層特征集合DT-abs。對(duì)DI-abs和DT-abs進(jìn)行典型相關(guān)分析,建立典型變量空間的映射關(guān)系。以3元坐標(biāo)系為例,DI-abs與DT-abs的坐標(biāo)軸分別為XI-absYI-absZI-abs和XT-absYT-absZT-abs,XYZ為典型相關(guān)分析后形成的典型變量空間坐標(biāo)軸,如圖4所示。
從圖4可以看出,通過(guò)典型相關(guān)分析,將DI-abs與DT-abs共同映射到了典型變量空間,從而使得稀疏高層次圖像特征與稀疏二進(jìn)制語(yǔ)義特征轉(zhuǎn)變?yōu)橥粋€(gè)空間內(nèi)的特征向量。對(duì)于包含N個(gè)訓(xùn)練樣本的圖像標(biāo)注集合{(hI1,hT1),(hI2,hT2),…,(hIN,hTN)},hIi代表第i幅圖像的I-DBM高層隱單元向量,維度為p;hTi代表對(duì)應(yīng)的T-DBM高層隱單元向量,維度為q。圖像標(biāo)注集合分別構(gòu)成兩組大小為p×N和q×N的DI-abs、DT-abs。對(duì)兩組矩陣DI-abs和DT-abs進(jìn)行典型相關(guān)分析,將得到n組典型變量組{(ρ1,a1,b1),(ρ2,a2,b2),…,(ρn,an,bn)}(其中ρi、ai、bi(i=1,2,…,n)分別為CCA中的第i個(gè)典型變量相關(guān)系數(shù)),以及DI-abs和DT-abs對(duì)應(yīng)的典型相關(guān)變量。定義AI=[a1,a2,…,an]、BT=[b1,b2,…,bn]作為hIi、hTi的投影變換矩陣。
完成圖像標(biāo)注集的典型相關(guān)分析后,依據(jù)典型變量空間性質(zhì)給出待標(biāo)注圖像的標(biāo)注詞匯預(yù)測(cè)方法。
2.1 投影法生成T-DBM高層特征
DBM-CCA采用典型變量空間投影的方式生成待標(biāo)注圖像的標(biāo)注詞匯:首先將圖像高層特征依據(jù)CCA投影關(guān)系將其映射到典型變量空間中;然后在其空間內(nèi)查找與之相鄰的訓(xùn)練集圖像,構(gòu)成子集合DI-dis;最后依據(jù)距離遠(yuǎn)近,將DI-dis對(duì)應(yīng)的標(biāo)注詞匯高層特征加權(quán)平均,構(gòu)建新的文本高層特征。對(duì)于圖像J={hI1,hI2,…,hIm;hT1,hT2,…,hTn},其中{hI1,hI2,…,hIm}和{hT1,hT2,…,hTn}集合分別為I-DBM、T-DBM的頂層隱單元組,則依據(jù)投影法生成T-DBM高層特征的步驟如下:
(2)在典型變量空間內(nèi)查找與投影點(diǎn)近鄰的圖像樣本,構(gòu)成子集合DI-dis;
圖5為DBM-CCA的圖像標(biāo)注流程,其中典型變量空間內(nèi)黑色點(diǎn)代表訓(xùn)練集圖像高層特征映射點(diǎn),虛方框表示圖像樣本集合DI-dis。
圖5 DBM-CCA圖像標(biāo)注流程
(3)
2.2 平均場(chǎng)估計(jì)
實(shí)驗(yàn)選用經(jīng)典的自動(dòng)圖像標(biāo)注測(cè)試集Corel5K圖像集作為測(cè)試對(duì)象。選取5種視覺(jué)特征用于表征圖像,分別為顏色直方圖(特征向量維度為64)、邊緣方向直方圖(特征向量維度為73)、小波紋理(特征向量維度為128)、基于塊的顏色矩(特征向量維度為225)和基于SIFT描述符的詞袋模型特征(特征向量維度為500),則每幅圖像由990維的向量代表,且每個(gè)維度均進(jìn)行均值中心化處理。
為評(píng)估本文DBM-CCA算法在自動(dòng)圖像標(biāo)注方面的性能,采用按照以標(biāo)注詞為單位的客觀評(píng)價(jià)指標(biāo)有:①平均查準(zhǔn)率;②平均查全率;③查全查準(zhǔn)均率F1為查全率與查準(zhǔn)率的調(diào)和平均值,用于折中查全率與查準(zhǔn)率,反映了標(biāo)注算法的綜合性能;④標(biāo)注多樣性值N+用以衡量正確標(biāo)注詞匯的多樣性,數(shù)值為標(biāo)注詞出現(xiàn)頻率大于0的次數(shù)。
實(shí)驗(yàn)設(shè)定:鑒于MBRM的時(shí)間開(kāi)銷過(guò)大,且SML模型過(guò)于復(fù)雜,因此在本文實(shí)驗(yàn)環(huán)境下沒(méi)有進(jìn)行對(duì)比實(shí)驗(yàn),而是直接采用文獻(xiàn)[14]的實(shí)驗(yàn)數(shù)據(jù)。本文實(shí)驗(yàn)設(shè)置了2種模型進(jìn)行Corel5K數(shù)據(jù)集的圖像標(biāo)注效果對(duì)比,分別為DBM-CCA和多模態(tài)DBM,其參數(shù)設(shè)置如下(其中DBM的訓(xùn)練與文獻(xiàn)[13]一致)。
(1)DBM-CCA: 設(shè)定I-DBM中可見(jiàn)單元數(shù)為990,第1隱單元層單元數(shù)為400,第2隱單元層單元數(shù)為400;T-DBM中可見(jiàn)單元數(shù)為374,第1隱單元層單元數(shù)為100,第2隱單元層單元數(shù)為100。
(2)多模態(tài)DBM: 設(shè)定以GRBM為底的DBM可見(jiàn)單元數(shù)為990,第1隱單元層單元數(shù)為400,第2隱單元層單元數(shù)為400;以RSM為底的DBM可見(jiàn)單元數(shù)為374,第1隱單元層單元數(shù)為100,第2隱單元層單元數(shù)為100;中間融合層隱單元數(shù)為400。
在DBM-CCA中選擇不同參與典型變量組數(shù)和Msim的標(biāo)注綜合性能如圖6所示。
(a)Msim=2
(b)Msim=3
(c)Msim=4
(d)Msim=5圖6 不同參數(shù)下DBM-CCA算法的標(biāo)注綜合性能
從圖6可以看出:在Msim相同的條件下,隨著典型變量參與的數(shù)量增大,F1基本呈現(xiàn)出先增大后變小的趨勢(shì);當(dāng)F1處于峰頂時(shí),典型變量組數(shù)為85;當(dāng)Msim=4時(shí),F1值最大。從圖6的實(shí)驗(yàn)結(jié)果可以看出,對(duì)于DBM-CCA算法中較為重要的兩個(gè)參數(shù)——典型變量個(gè)數(shù)和Msim值,F1均存在峰頂,其原因在于,隨著變量個(gè)數(shù)與Msim的增加,圖像子集合DI-dis與待標(biāo)注圖像的總體相關(guān)程度增大,但平均相似度減小,同時(shí)DI-dis與待標(biāo)注圖像的多樣化差異變大,從而使得待標(biāo)注圖像的標(biāo)注不僅來(lái)自于訓(xùn)練集中相似的圖像,也保證了一定的多樣性。
4種模型在Corel5K實(shí)驗(yàn)的標(biāo)注指標(biāo)如表1所示。
表1 DBM-CCA與其他算法的性能對(duì)比
注:黑體數(shù)據(jù)表示對(duì)應(yīng)指標(biāo)的最優(yōu)值。
從表1中可以看出:DBM-CCA性能優(yōu)于多模態(tài)DBM,體現(xiàn)在查準(zhǔn)率和查全率分別提高了12%和2%;與MBRM相比,DBM-CCA的查全率提高了9%,并且查準(zhǔn)率也略有提高,約為3%;與SML相比,DBM-CCA雖然在查全率和N+上略有不足,但在查準(zhǔn)率上提高了10%左右。由此可以看出,DBM-CCA的優(yōu)勢(shì)主要體現(xiàn)在查準(zhǔn)率上,同時(shí)對(duì)查全率也略有改善,其原因在于算法的主要參數(shù)Msim首先考慮的是圖像子集合DI-dis的相似程度,其次通過(guò)典型變量個(gè)數(shù)與Msim的選擇,改善了標(biāo)注詞匯與圖像的多樣性關(guān)系。鑒于DBM-CCA的標(biāo)注過(guò)程僅需要有限個(gè)數(shù)的圖像參與,其時(shí)間復(fù)雜度、空間復(fù)雜度均遠(yuǎn)遠(yuǎn)小于MBRM和SML。因此,當(dāng)數(shù)據(jù)集越大時(shí),DBM-CCA的標(biāo)注效果和效率優(yōu)勢(shì)將越明顯。
為更加形象地展示DBM與多模態(tài)DBM兩種算法生成圖像標(biāo)注的效果,表2列出了在本實(shí)驗(yàn)中部分圖像的標(biāo)注示例,其中黑體詞匯表示與人工標(biāo)注相同。
表2 DBM-CCA與DBM標(biāo)注示例
從表2中可以看出,DBM-CCA生成的標(biāo)注詞匯基本能夠涵蓋人工標(biāo)注詞匯,且相較于多模態(tài)DBM,DBM-CCA的標(biāo)注更加準(zhǔn)確。例如示例圖像1添加的harbor和示例圖像3添加的castle詞匯,表明DBM-CCA能充分利用圖像本身內(nèi)容以完善人工標(biāo)注結(jié)果。所以,DBM-CCA能夠較好地完成自動(dòng)圖像標(biāo)注任務(wù),并對(duì)圖像的語(yǔ)義信息也能提供較為準(zhǔn)確的描述。
本文提出了一種基于DBM-CCA的自動(dòng)圖像標(biāo)注算法,通過(guò)深度玻爾茲曼機(jī)實(shí)現(xiàn)圖像、標(biāo)注詞匯高層抽象特征的提取,使用伯努利分布擬合圖像的標(biāo)注詞匯數(shù)據(jù),利用典型相關(guān)分析建立圖像特征與標(biāo)注詞之間相關(guān)關(guān)系進(jìn)行圖像標(biāo)注。Corel5K實(shí)驗(yàn)結(jié)果表明,本文所提出的算法在各個(gè)指標(biāo)均優(yōu)于多模態(tài)DBM,且能夠通過(guò)算法參數(shù)的選擇,改善標(biāo)注詞匯與圖像的多樣性關(guān)系,提高標(biāo)注性能。
[1]LI Q, GU Y, QIAN X.LCMKL: latent-community and multi-kernel learning based image annotation [C]∥Proceedings of the 22nd ACM International Conference on Information & Knowledge Management.New York, USA: ACM, 2013: 1469-1472.
[2]QIAN X, HUA X S, HOU X.Tag filtering based on similar compatible principle [C]∥Proceedings of IEEE International Conference on Image Processing.Piscataway, NJ, USA: IEEE, 2012: 2349-2352.
[3]QIAN X, HUA X S, TANG Y Y, et al.Social image tagging with diverse semantics [J].IEEE Transactions on Cybernetics, 2014, 44(12): 2493-2508.
[4]NGIAM J, KHOSLA A, KIM M, et al.Multimodal deep learning [C]∥Proceedings of the 28th International Conference on Machine Learning.New York, USA: ACM, 2011: 689-696.
[5]OUYANG W, CHU X, WANG X.Multi-source deep learning for human pose estimation [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ, USA: IEEE, 2014: 2337-2344.
[6]KIROS R, ZEMEL R, SALAKHUTDINOV R.Multimodal neural language models [J].Journal of Machine Learning Research, 2014, 32(1): 595-603.
[7]邱立達(dá), 劉天鍵, 林南, 等.基于深度學(xué)習(xí)模型的無(wú)線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法 [J].傳感技術(shù)學(xué)報(bào), 2014, 27(12): 1704-1709.
QIU Lida, LIU Tianjian, LIN Nan, et al.Data aggregation in wireless sensor network based on deep learning model [J].Chinese Journal of Sensors and Actuators, 2014, 27(12): 1704-1709.
[8]SRIVASTAVA N, SALAKHUTDINOV R.Multimodal learning with deep Boltzmann machines [C]∥Proceedings of Advances in Neural Information Processing Systems.Cambridge,MA,USA:MIT, 2012: 2222-2230.
[9]高軍峰, 鄭崇勛, 王沛.腦電信號(hào)中肌電偽差的實(shí)時(shí)去除方法研究 [J].西安交通大學(xué)學(xué)報(bào), 2010, 44(4): 114-118.
GAO Junfeng, ZHENG Chongxun, WANG Pei.Electromyography artifact removal from electroencephalogram in real-time [J].Journal of Xi’an Jiaotong University, 2010, 44(4): 114-118.
[10]RASIWASIA N.A new approach to cross-modal multimedia retrieval [C]∥Proceedings of the 18 th ACM International Conference on Multimedia.New York, USA: ACM, 2010: 251-260.
[11]FENG F, WANG X, LI R.Cross-modal retrieval with correspondence autoencoder [C]∥Proceedings of the 22nd ACM International Conference on Multimedia.New York, USA: ACM, 2014: 7-16.
[12]GALEN A, RAMAN A, JEFF B.Deep canonical correlation analysis [J].Journal of Machine Learning Research, 2013, 28(3): 1247-1255.
[13]SALAKHUTDINOV R, HINTON G E.Deep Boltzmann machines [C]∥Proceedings of International Conference on Artificial Intelligence and Statistics 2009.Brookline, MA, USA: Microtome Publishing, 2009: 448-455.
[14]MAKADIA A, PAVLOVIC V, KUMAR S.Baselines for image annotation [J].International Journal on Computer Vision, 2010, 90(1): 88-105.
[本刊相關(guān)文獻(xiàn)鏈接]
彭亞麗,劉侍剛,裘國(guó)永.一種線性迭代非剛體射影重建方法.2015,49(1):102-106.[doi:10.7652/xjtuxb201501017]
楊宏暉,王蕓,孫進(jìn)才,等.融合樣本選擇與特征選擇的AdaBoost支持向量機(jī)集成算法.2014,48(12):63-68.[doi:10.7652/xjtuxb201412010]
符均,牟軒沁,季文博.亮色分離的飽和圖像校正方法.2014,48(10):101-107.[doi:10.7652/xjtuxb201410016]
任茂棟,梁晉,唐正宗,等.數(shù)字圖像相關(guān)法中的優(yōu)化插值濾波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]
靳峰,馮大政.利用空間序列描述子的快速準(zhǔn)確的圖像配準(zhǔn)算法.2014,48(6):19-24.[doi:10.7652/xjtuxb201406004]
(編輯 劉楊)
An Automatic Image Annotation Algorithm Using Deep Boltzmann Machine and Canonical Correlation Analysis
LIU Kai, ZHANG Limin, SUN Yongwei, LIN Xueyuan
(Research Institute of Information Fusion, Naval Aeronautical and Astronautical University, Yantai, Shandong 264001, China)
An automatic image annotation algorithm is proposed based on deep Boltzmann machine and canonical correlation analysis, named DBM-CCA.The algorithm utilizes DBM to transform low-level features of images and labels to sparse high-level abstract concepts, and builds subspace mapping relations by CCA in order to generate labels.The multiple Bernoulli distribution is used to fit labels and the Gaussian distribution is used to fit image features in the process of using DBM to extract high-level features of images and labels.CCA is used to establish relevant connection among image features and labeling words which form canonical variable subspace.High-level text features are calculated based on the Mahalanobis distance between images in canonical variable subspace, and image annotation words are generated by mean-field inference.Experimental results show that the proposed automatic image annotation method significantly outperforms both the traditional MBRM and the SML, and the precision ratio and recall-precision mean ratio are increased by 10% and 5%, respectively, in experiments with Corel5K image dataset.
automatic image annotation; deep learning; deep Boltzmann machine; canonical correlation analysis
2014-11-10。 作者簡(jiǎn)介:劉凱(1986—),男,博士生;張立民(通信作者),男,教授,博士生導(dǎo)師。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61032001)。
時(shí)間:2015-03-19
http:∥www.cnki.net/kcms/detail/61.1069.T.20150319.1153.003.html
10.7652/xjtuxb201506006
TP391.4
A
0253-987X(2015)06-0033-06