田 楓,孫小強,劉 芳,李婷玉,張 蕾,劉志剛
1(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,大慶 163318)
2(中國石油天然氣股份有限公司 冀東油田分公司 信息中心,唐山 063004)
圖像是目前信息傳播的主流媒介之一,隨著成像設(shè)備的普及,圖像數(shù)據(jù)量增長迅速.然而圖像以像素的形式存儲,這與用戶對圖像的解讀之間存在巨大的差異,高效地對海量圖像資源進行檢索和管理極具挑戰(zhàn)性.如何使計算機依照人類理解的形式對圖像進行描述,已是目前圖像理解領(lǐng)域的研究熱點.
圖像描述(Image Caption,IC)[1,2]是指計算機針對給定的圖像,自動地以符合人類語法規(guī)則的句子將該圖像的畫面內(nèi)容進行轉(zhuǎn)換.句子不僅可以作為圖像檢索的元數(shù)據(jù),從而提升對圖像資源的檢索和管理效率;而且相比詞匯標(biāo)簽?zāi)芨蜗?、直觀地傳達圖像內(nèi)容,因此圖像描述任務(wù)吸引了眾多研究者關(guān)注.現(xiàn)有的圖像描述研究可分為3 類,分別是基于模板的圖像描述生成方法[3]、基于檢索的圖像描述生成方法[4]以及基于翻譯的圖像描述生成方法[5–10],其中基于翻譯的圖像描述生成方法借助深度學(xué)習(xí)端到端的訓(xùn)練特性,通過在大規(guī)模圖像句子對應(yīng)數(shù)據(jù)集上進行學(xué)習(xí),模型生成的描述句子更為新穎.現(xiàn)有的圖像描述工作[3–10]以研究如何為圖像生成英文的描述句子為主,顯然此項研究不應(yīng)該受限于語言,將圖像描述研究擴展到母語使用人口最多的中文環(huán)境,具有更為重要的現(xiàn)實意義.
相比英文描述,中文詞語含義更加豐富,中文句子結(jié)構(gòu)也更為復(fù)雜,因此圖像中文描述任務(wù)更具有難度;在模型構(gòu)建方式上,現(xiàn)有的圖像英文描述研究利用編碼器-解碼器框架[5–7]和融合注意力機制的編碼器-解碼器框架[8–10]來構(gòu)建模型,而圖像中文描述模型主要是基于編碼器-解碼器框架構(gòu)建的.例如,2016年Li 等人[11]將文獻[5]中的模型在中文的環(huán)境下重新訓(xùn)練,實現(xiàn)了首個圖像中文描述模型CS-NIC;2019年張凱等人[12]通過利用機器翻譯構(gòu)建偽語料庫,從而將常規(guī)編碼器-解碼器框架在中文的環(huán)境下重新訓(xùn)練.通過實驗發(fā)現(xiàn),雖然現(xiàn)有的圖像中文描述模型可以對圖像進行描述,但是描述句子的質(zhì)量仍有待提升.通過對現(xiàn)有的圖像中文描述研究進行分析,本文認(rèn)為目前圖像中文描述句子質(zhì)量不高的原因可以歸結(jié)為:1)現(xiàn)有研究利用編碼器-解碼器框架來構(gòu)建模型,該框架僅在解碼器的僅接收一次圖像特征,由于解碼器的“遺忘”特性,導(dǎo)致模型生成的描述句子整體質(zhì)量不高;2)中文詞語的含義較為豐富,現(xiàn)有研究在解碼視覺特征時,并未考慮視覺特征中的誤差因素;3)現(xiàn)有方法的優(yōu)化目標(biāo)主要是基于輸入視覺特征和已經(jīng)生成的詞語,使預(yù)測的下一個詞語是正確詞語的概率最大化,這在一定程度上忽略了最終生成句子整體語義與圖像內(nèi)容的關(guān)聯(lián)度.
針對上述問題,2016年Xu 等人[8]在編碼器-解碼器框架中引入注意力機制,使單詞與圖像視覺特征之間進行對齊,提升了模型對視覺特征的鑒別能力.注意力機制與人眼視覺特性相似,其原理是使模型在生成文字序列時,自主決定圖像特征的權(quán)值,從而實現(xiàn)模型動態(tài)地關(guān)注圖像中重要的區(qū)域.此外,也有研究利用從圖像中提取多標(biāo)簽信息對模型生成的描述句子質(zhì)量進行改善.例如,2019年藍瑋毓等人[13]利用概率編碼的圖像多標(biāo)簽重排模型生成的描述句子候選集,提升了模型生成的描述句子與圖像內(nèi)容的關(guān)聯(lián)度.因此為提升中文描述句子質(zhì)量,本文在現(xiàn)有研究的基礎(chǔ)上提出融合雙注意力與多標(biāo)簽的圖像中文描述方法.本文方法通過融合圖像多標(biāo)簽文本信息,增強解碼器與圖像內(nèi)容的關(guān)聯(lián)度;通過利用注意力機制,使模型能更好地利用視覺特征.通過實驗對比分析,本文模型生成的圖像描述句子更符合圖像的內(nèi)容,對圖像的背景等細節(jié)信息也能夠進行描述.
現(xiàn)有的圖像描述生成方法可分為3個類別.
1)基于模板的圖像描述生成方法.該類方法先利用計算機視覺技術(shù)識別出圖像中視覺語義信息,然后填充到模板句子中.該類研究的代表性工作為Fang 等人[3]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[14,15]預(yù)測出一系列詞語,再利用最大熵語言模型生成描述句子.該類方法往往能生成語法正確的描述句子,但是由于模板句子的數(shù)量有限,導(dǎo)致描述句子的多樣性受限.
2)基于檢索的圖像描述生成方法.該類方法將相似圖像描述句子作為輸入圖像的描述句子.該類研究的代表性工作為Ordonez 等人[4]從Flickr 網(wǎng)站收集大量圖片,通過使用數(shù)據(jù)清洗技術(shù)使最終檢索庫中的每幅圖像均對應(yīng)一個描述句子,然后尋找與測試圖像最相似圖像,將該圖像的描述句子作為測試圖像的描述句子.該類方法往往能生成語義正確的描述句子,但是嚴(yán)重依賴于檢索算法與數(shù)據(jù)集質(zhì)量,當(dāng)數(shù)據(jù)集中缺少與目標(biāo)圖像相似的圖像,將導(dǎo)致匹配失敗.
3)基于翻譯的圖像描述生成方法.該類方法受機器翻譯的啟發(fā),將圖像看作待翻譯數(shù)據(jù),描述句子視為翻譯結(jié)果,利用編碼器-解碼器框架將圖像內(nèi)容進行翻譯.該類研究的代表性工作為Vinyals 等人[5]利用CNN作為編碼器,將圖像編碼為特定長度的語義向量,然后利用長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Neural Network,LSTM)[16]作為解碼器,對語義向量進行解碼,模型使用最大似然概率函數(shù)進行訓(xùn)練.湯鵬杰等人[7]在編碼器-解碼器框架中融合場景信息,使模型的性能得到提升.該類方法生成的描述句子要更為新穎,成為目前構(gòu)建圖像描述模型的主流方法.
Xu 等人[8]將注意力機制引入到圖像描述研究中,先利用CNN 提取圖像的卷積層特征,在生成每一個單詞時,根據(jù)解碼器LSTM的隱藏狀態(tài)計算出各個特征區(qū)域?qū)?yīng)的權(quán)重,通過權(quán)重乘上對應(yīng)區(qū)域的特征對圖像特征重新加權(quán),然后由解碼器對加權(quán)后的特征進行解碼.該類方法通過使模型動態(tài)關(guān)注圖像中的重要區(qū)域,提升模型的性能,吸引了眾多研究者關(guān)注.隨后,越來越多的研究者進一步地提出不同的注意力機制,比如全局-局部注意力機制[9]、自適應(yīng)注意力機制[10]等.
僅有少數(shù)的工作研究了面向非英語語種的圖像描述.李錫榮等人[11]借助人工翻譯、機器翻譯得到首個中文的數(shù)據(jù)集Flickr8k-cn,并對文獻[5]中的模型重新訓(xùn)練,得到首個圖像中文描述模型.張凱等人[12]通過利用機器翻譯構(gòu)建偽語料庫,從而完成了端到端的中文描述生成.藍瑋毓等人[13]提出利用概率向量編碼的圖像標(biāo)簽信息,重排生成的圖像描述文本集,提升了模型生成的描述句子與圖像內(nèi)容的關(guān)聯(lián)度.這些工作都是利用編碼器-解碼器框架構(gòu)建模型,解碼器僅接收一次視覺特征,而且在解碼過程中對視覺特征的利用方式簡單,雖然注意力機制可以根據(jù)解碼器的隱藏狀態(tài)增強視覺特征的利用方式,但是融合注意力機制的編碼器-解碼器框架僅在圖像英文描述生成中被證實是可行的,由于中文與英文之間的差異,注意力機制能否應(yīng)用到圖像中文描述研究中仍有待驗證;此外,現(xiàn)有利用圖像多標(biāo)簽改善描述句子質(zhì)量的研究是使用概率向量編碼的圖像多標(biāo)簽進行的,且并沒有利用圖像多標(biāo)簽信息生成新的描述句子,對于一幅圖像,其中的對象、場景、行為等信息往往是確定的,如何使用非概率編碼的多標(biāo)簽文本輔助模型生成更高質(zhì)量的描述句子仍需要實驗進行驗證;最后,本文根據(jù)圖像中包含的目標(biāo)類型和數(shù)量,對模型的描述能力進行分析.
1)優(yōu)化目標(biāo)
圖像多標(biāo)簽不僅能反映圖像內(nèi)容,而且能作為描述句子中的詞語,可為模型生成更高質(zhì)量的中文描述文本提供幫助.因此對于輸入圖像Ii,令中文詞表為D,本文為該圖像預(yù)測一個中文標(biāo)簽集合{Li},標(biāo)簽Li與D中的單詞對應(yīng).即本文利用Li輔助模型生成更高質(zhì)量的中文描述句子S.模型的訓(xùn)練目標(biāo)為式(1)所示:
其中,θ是模型需要學(xué)習(xí)的參數(shù);N是訓(xùn)練集圖像的數(shù)量;i是指數(shù)據(jù)集中第i幅圖像,M是指第i幅圖像對應(yīng)的描述句子S的長度,S={s1,s2,…,sn}.因為CNN 提取的視覺特征相比圖像Ii本身,能更好地反映其高層語義,因此令V(Ii)=Ii,V(Ii)表示圖像對應(yīng)的視覺特征,W(Ii)=Li,W(Ii)表示圖像對應(yīng)的多標(biāo)簽文本信息.利用鏈?zhǔn)角髮?dǎo)法則,式(1)可轉(zhuǎn)化式(2):
本文利用圖像語義編碼網(wǎng)絡(luò)和雙注意力解碼網(wǎng)絡(luò)對式(2)進行求解.圖像語義編碼網(wǎng)絡(luò)用于提取視覺特征V(Ii)和多標(biāo)簽文本W(wǎng)(Ii);雙注意力解碼網(wǎng)絡(luò)根據(jù)圖像多標(biāo)簽文本W(wǎng)(Ii),更好地對視覺特征V(Ii)進行解碼,從而生成更高質(zhì)量的描述句子S.融合雙注意力與多標(biāo)簽的圖像中文描述生成模型框架如圖1所示.
2)圖像語義編碼網(wǎng)絡(luò)
如圖1所示,圖像語義編碼網(wǎng)絡(luò)由兩部分組成,分別是視覺特征編碼網(wǎng)絡(luò)和多標(biāo)簽文本生成網(wǎng)絡(luò).對于輸入圖像Ii,視覺特征編碼網(wǎng)絡(luò)輸出該圖像的視覺特征V(Ii),多標(biāo)簽文本生成網(wǎng)絡(luò)輸出多標(biāo)簽文本W(wǎng)(Ii).為防止模型在訓(xùn)練階段的損失相互干擾,圖像多標(biāo)簽文本預(yù)測網(wǎng)絡(luò)與圖像視覺特征編碼網(wǎng)絡(luò)分離開進行訓(xùn)練.接下來本文分別介紹這兩個子網(wǎng)絡(luò).
圖1 模型框架圖
① 視覺特征提取網(wǎng)絡(luò)
本文以ResNet101 作為視覺特征提取網(wǎng)絡(luò).ResNet-101是ResNet[14]衍生出的一種網(wǎng)絡(luò),通過在大規(guī)模圖像分類數(shù)據(jù)集ImageNet[15]上進行訓(xùn)練,ResNet101 在目標(biāo)識別、目標(biāo)檢測等領(lǐng)域仍能有效刻畫圖像視覺信息.對于輸入圖像Ii,將其縮放到256×256個像素,利用視覺特征提取網(wǎng)絡(luò)輸出其視覺特征V(Ii).
② 多標(biāo)簽文本生成網(wǎng)絡(luò)
本文微調(diào)AlexNet[15]網(wǎng)絡(luò)結(jié)構(gòu),將微調(diào)后的網(wǎng)絡(luò)作為本文的多標(biāo)簽文本生成網(wǎng)絡(luò).AlexNet是深度學(xué)習(xí)的一個代表性網(wǎng)絡(luò),不僅在圖像分類等任務(wù)上表現(xiàn)優(yōu)異,而且比ResNet 等網(wǎng)絡(luò)的計算量少.但是AlexNet 網(wǎng)絡(luò)本身并不適用于多標(biāo)簽分類,因此本文將AlexNet網(wǎng)絡(luò)輸出層的神經(jīng)元結(jié)點的數(shù)量修改為中文詞表D的長度,并將最后一層的激活函數(shù)改為適合多分類的Sigmoid 函數(shù).訓(xùn)練過程中以BCEloss[17]作為模型的損失函數(shù),其數(shù)學(xué)表達式如式(3)所示:
其中,N是圖像數(shù)量,m是標(biāo)簽數(shù)量,其中O∈{0,1}n*o,表示樣本的真實標(biāo)簽,T∈Rn*o,是模型對不同標(biāo)簽的預(yù)測概率輸出.多標(biāo)簽文本生成網(wǎng)絡(luò)的訓(xùn)練過程如圖2所示.
圖2 多標(biāo)簽文本生成網(wǎng)絡(luò)訓(xùn)練過程
對圖像描述數(shù)據(jù)集進行預(yù)處理,得到圖像多標(biāo)簽數(shù)據(jù)集,將微調(diào)后的AlexNet 網(wǎng)絡(luò)在圖像多標(biāo)簽數(shù)據(jù)集上進行訓(xùn)練,將訓(xùn)練后模型的參數(shù)遷移到本文的多標(biāo)簽文本生成網(wǎng)絡(luò)中.對于輸入圖像Ii,將其縮放到256×256個像素后,再利用多標(biāo)簽文本生成網(wǎng)絡(luò)輸出概率編碼的圖像多標(biāo)簽,最后通過設(shè)置閾值輸出圖像對應(yīng)的多標(biāo)簽文本W(wǎng)(Ii).
由圖1可知,一幅圖像Ii,模型提取其視覺特征V(Ii)和多標(biāo)簽文本W(wǎng)(Ii)后,將其輸入到雙注意力的解碼網(wǎng)絡(luò)中,由雙注意力解碼網(wǎng)絡(luò)對視覺特征進行解碼生成描述詞語.
3)雙注意力解碼網(wǎng)絡(luò)
由于中文詞語的含義較為豐富,因此合理地利用視覺特征對于圖像描述生成尤為重要.本文模型在解碼器中引入注意力機制,使解碼器可以根據(jù)LSTM內(nèi)部的隱藏狀態(tài)ht,加權(quán)出與當(dāng)前輸出詞語關(guān)聯(lián)度高的視覺特征,進而對加權(quán)后的視覺特征進行解碼生成描述詞語.本文的雙注意力解碼網(wǎng)絡(luò)工作流程解碼流程如圖3所示.
圖3 雙注意力的解碼網(wǎng)絡(luò)工作流程
雙注意力解碼網(wǎng)絡(luò)首先利用視覺特征V(Ii)和解碼器上一次輸出詞語更新LSTM內(nèi)部的隱藏狀態(tài)ht,LSTM內(nèi)部更新公式如式(4)所示:
其中,Ew是詞嵌入矩陣,Wt–1是LSTM的上一次的輸出詞語,ht–1是LSTM 上一次的隱藏狀態(tài),xt是LSTM當(dāng)前的輸入,σ是指Sigmoid 激活函數(shù),f、i、o分別表示LSTM內(nèi)部是否忘記此前信息、是否接受新的輸入以及是否輸出當(dāng)前信息的“閘門”,W、U和b是LSTM結(jié)構(gòu)中需要訓(xùn)練的模型參數(shù),⊙表示對應(yīng)向量與閘門取值的乘積,ct是LSTM 當(dāng)前的記憶單元狀態(tài),ht是LSTM 當(dāng)前的隱藏狀態(tài).
由圖3可知,在LSTM內(nèi)部的隱藏狀態(tài)ht更新后,雙注意力解碼網(wǎng)絡(luò)根據(jù)LSTM內(nèi)部的隱藏狀態(tài)ht利用通道注意力機制加權(quán)出與當(dāng)前輸出關(guān)聯(lián)度較高的視覺特征V′(Ii).通道注意力機制從特征通道的角度分析與不同通道的視覺特征與當(dāng)前輸出詞語的關(guān)聯(lián)度,從而降低特征通道層的誤差干擾,其內(nèi)部的數(shù)學(xué)計算為式(5)所示:
其中,B是視覺特征的通道數(shù),tanh和Softmax為激活函數(shù),ba、bb、Wa、Wht、Wb是網(wǎng)絡(luò)要學(xué)習(xí)的參數(shù),V表示視覺特征的每一個通道平均池化后的通道特征,ht表示LSTM 在t時刻的隱藏狀態(tài),β的每個值表示每個通道特征的權(quán)重,⊙表示逐元素相乘,⊕表示逐元素相加.
如圖3所示,雙注意力解碼網(wǎng)絡(luò)加權(quán)出與當(dāng)前輸出詞語關(guān)聯(lián)度高的視覺特征V′(Ii)后,利用自適應(yīng)注意力機制計算視覺特征V′(Ii)與當(dāng)前輸出詞語的視覺關(guān)聯(lián)度.自適應(yīng)注意力機制利用視覺監(jiān)督向量st對LSTM進行擴展,視覺監(jiān)督向量st通過對已經(jīng)生成的文本信息和當(dāng)前輸入的視覺特征進行建模,分析解碼器輸出的當(dāng)前詞語是否需要關(guān)注視覺特征.當(dāng)模型生成非語義詞語時,可以通過視覺監(jiān)督向量st直接生成,而不需要再關(guān)注圖像特征信息.自適應(yīng)注意力解碼網(wǎng)絡(luò)內(nèi)部的計算為:
其中,gt表示LSTM內(nèi)部記憶單元ot中的候選狀態(tài),σ是指Sigmoid 激活函數(shù),Ew是詞嵌入矩陣,xt表示在t時刻LSTM 網(wǎng)絡(luò)的輸入單詞.
最后雙注意力機制解碼網(wǎng)絡(luò)將原有的上下文向量ct與視覺監(jiān)督向量st進行加權(quán)生成一個新的上下文向量c′t.
其中,參數(shù)αt的取值范圍為0 到1 之間.從式(7)中可以看出,當(dāng)αt=1 時,新的上下文向量c′t為視覺監(jiān)督向量st,此時雙注意力解碼網(wǎng)絡(luò)只需利用已生成的文本信息可以預(yù)測下一個詞語;反之,當(dāng)αt=0 時,模型更關(guān)注視覺特征信息生成下一個單詞.
為使雙注意力解碼網(wǎng)絡(luò)更好地解碼視覺特征,本文利用多標(biāo)簽文本W(wǎng)(Ii)初始化LSTM,增強LSTM內(nèi)部的隱藏狀態(tài),初始化方式如式(8)所示:
其中,Wv,Ww是模型需要學(xué)習(xí)的參數(shù),V(Ii)是視覺特征,W(Ii)是多標(biāo)簽文本.
4)中文描述生成
在MLP 層利用Softmax函數(shù)將c′t與詞表D建立映射連接:
其中,yt是指在t時刻LSTM的輸出,pt是MLP 對詞表D中不同單詞的預(yù)測概率,Softmax是激活函數(shù),Wt是網(wǎng)絡(luò)的學(xué)習(xí)參數(shù).
本節(jié)對本文方法的實驗環(huán)境與具體參數(shù)設(shè)置進行介紹,并結(jié)合實驗對本文模型進行分析.
1)實驗環(huán)境
本文實驗在深度學(xué)習(xí)服務(wù)器上運行,顯卡其型號是NVIDIA 1070Ti,內(nèi)存大小為8 GB.數(shù)據(jù)的預(yù)處理過程與模型的訓(xùn)練和測試過程均在Python3、PyTorch 0.4 上進行.
2)數(shù)據(jù)集
本文在Flickr8k-CN[11]、COCO-CN[18]兩個圖像中文描述數(shù)據(jù)集上進行實驗.
Flickr8k-CN[11]是首個圖像中文描述數(shù)據(jù)集,數(shù)據(jù)集中的圖像大多來源于人類真實生活場景,且圖像中的描述目標(biāo)較為顯著.該數(shù)據(jù)集中共有8000 張圖像,
其中每幅圖像對應(yīng)5個描述文本,每個描述文本從不同的角度描述圖像的內(nèi)容,其中訓(xùn)練集6000 張圖像,驗證集1000 張圖像,測試集1000 張圖像.
COCO-CN[18]數(shù)據(jù)集中圖像的場景更為多樣化,圖像中的干擾元素更多,每幅圖像對應(yīng)的描述文本由1個到5個不等,該數(shù)據(jù)集共有20341 張圖像,其中訓(xùn)練集18341 張圖像,驗證集1000 張圖像,測試集1000 張圖像.數(shù)據(jù)集構(gòu)成與示例如表1所示.
表1 數(shù)據(jù)集構(gòu)成與示例
3)實驗設(shè)置
由于中文句子缺乏自然分隔符,本文利用THULAC[19]中文分詞工具對數(shù)據(jù)集中的描述句子進行分詞.為避免罕見單詞不利于描述文本生成,本文統(tǒng)計詞頻大于5的詞語,并且增加“
表2 不同數(shù)據(jù)集合對應(yīng)的詞表D 大小
① 多標(biāo)簽文本生成網(wǎng)絡(luò)參數(shù)設(shè)置
利用詞表D對圖像中文描述數(shù)據(jù)集中的出現(xiàn)頻率大于5的名詞、動詞進行映射,得到圖像中文多標(biāo)簽數(shù)據(jù)集.使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的AlexNet網(wǎng)絡(luò)參數(shù)對多標(biāo)簽文本生成網(wǎng)絡(luò)進行初始化.在網(wǎng)絡(luò)的訓(xùn)練過程中,輸入的圖像分辨率設(shè)置為256×256個像素,學(xué)習(xí)率大小設(shè)置為0.001.為避免過擬合,訓(xùn)練過程中采用Dropout 對網(wǎng)絡(luò)的隱藏輸出采樣.本文將多標(biāo)簽文本生成網(wǎng)絡(luò)輸出概率較大的作為該圖像的多標(biāo)簽文本,通過在驗證集上進行搜索,選取在驗證集上取得最好效果為0.9.
② 融合雙注意力與多標(biāo)簽?zāi)P偷膮?shù)設(shè)置
將雙注意力解碼網(wǎng)絡(luò)的LSTM的隱藏層維度設(shè)置為512,利用Adam 優(yōu)化器優(yōu)化模型的誤差,批訓(xùn)練樣本的大小設(shè)置為32.為了避免過擬合,采用Dropout 對網(wǎng)絡(luò)的隱藏輸出采樣.在測試階段采用了集束搜索策略,beam_size 大小為1.
③ 模型的評價指標(biāo)設(shè)置
本文使用的評價指標(biāo)為:BLEU[20]:機器翻譯的評價指標(biāo),能夠分析機器生成語句和參考語句間的N元文法準(zhǔn)確率,根據(jù)N 元文法的選擇該指標(biāo)有BLEU-1、BLEU-2、BLEU-3、BLEU-4 被廣泛使用.METEOR[21]:利用單精度的加權(quán)調(diào)和平均數(shù)和單字召回率的方法改善BLEU 指標(biāo)存在的問題.ROUGE[22]:通過比較召回率的相似度來度量指標(biāo).
4)實驗結(jié)果與分析
① 實驗1.數(shù)據(jù)集上模型效果對比
實驗中選擇CS-NIC[8]、軟注意力機制(Soft-ATT)[11]、自適應(yīng)注意力機制(Adaptive)[23]、通道注意力機制(SCA-CNN)[24]作為對比.其中CS-NIC是作為首個圖像中文描述模型有重要的參考價值;軟注意力機制、通道注意力機制與自適應(yīng)注意力機制在圖像英文描述研究中是有效的,為了驗證注意力機制是否能應(yīng)用于中文環(huán)境,本文將在中文的環(huán)境下對注意力模型重新訓(xùn)練.表3與表4是以上模型在Flickr8k-CN和COCO-CN 數(shù)據(jù)集上的表現(xiàn).
表3 不同模型在Flickr8k-CN 數(shù)據(jù)集上的表現(xiàn)
表4 不同模型在COCO-CN 數(shù)據(jù)集上的表現(xiàn)
圖4是對表3的可視化.從圖4中可知,相比目前的主流的圖像中文描述模型CS-NIC,本文的模型通過融合雙注意力機制與圖像多標(biāo)簽文本,在BLEU-1、BLEU-2、BLEU-3 上均有提升,這證明本文提出的模型是有效的.具體地本文模型相比CS-NIC 模型,在BLEU-1 上的提升10.3%,在BLEU-2 上的提升12.1%,在BLEU-3 上的提升17.8%;此外,將注意力機制在中文的環(huán)境下重新訓(xùn)練后,相比CS-NIC 模型來說在不同的評價指標(biāo)上,也均有一定的提升,這說明注意力機制可以應(yīng)用到中文環(huán)境;另外,相比自適應(yīng)注意力機制和通道注意力機制,本文模型在BLEU 評價指標(biāo)上也有提升,這一點在表3和表4中均有所體現(xiàn),這說明通過利用多標(biāo)簽文本初始化雙注意力解碼網(wǎng)絡(luò),可以生成更高質(zhì)量的圖像描述句子.
圖4 Flickr8k-CN 數(shù)據(jù)集上不同模型在評價指標(biāo)上的得分
② 實驗2.Flickr8k-CN 數(shù)據(jù)集上消融實驗
表5給出了本文模型不同組成部分對模型提升貢獻度.通過表5可知,相比自適應(yīng)注意力機制,本文通過融合通道注意力機制,在BLEU-1 上提升0.1%,在BLEU-2 上提升0.9%,在BLEU-3 上提升0.7%,BLEU-4上提升0.9%,這說明降低在視覺通道特征中誤差因素的干擾,模型可以生成更高質(zhì)量的描述句子;本文模型利用多標(biāo)簽文本初始化LSTM內(nèi)部的隱藏狀態(tài),在BLEU-1 上提升0.4%,在BLEU-2 上提升0.4%,在BLEU上提升0.3%,在BLEU-4 上提升0.9%,這驗證了通過利用多標(biāo)簽文本初始化LSTM內(nèi)部的隱藏狀態(tài),可以提升圖像中文描述模型的效果.
表5 不同模型在Flickr8k-CN 數(shù)據(jù)集上的消融實驗
5)可視化實例分析
根據(jù)圖像中描述對象的類型和數(shù)量進行分類,本文將數(shù)據(jù)集中的描述場景分為3 種類型,即單類單目標(biāo)場景、單類多目標(biāo)場景和多類多目標(biāo)場景.表6是軟注意力機制(Soft-ATT)、自適應(yīng)注意力機制(Adaptive)、通道注意力機制(SCA-CNN)以及本文模型對不同場景的圖像的描述效果.從表6可看出,本文提出的模型對圖像中物體的識別和語義的理解還是比較準(zhǔn)確的.
表6 不同場景下對比模型生成的圖像中文描述文本
為提升圖像中文描述句子質(zhì)量,本文在驗證注意力機制可用于圖像中文描述生成的基礎(chǔ)上,提出融合雙注意力與圖像多標(biāo)簽的圖像中文描述生成方法.通過在圖像中文描述數(shù)據(jù)集上進行評測,在多個圖像描述評價指標(biāo)上優(yōu)于目前主流的圖像中文描述生成模型.然而本文模型所使用的注意力機制是英文環(huán)境下的注意力機制遷移而來的,由于中文與英文語法的差異,因此結(jié)合中文語法規(guī)則設(shè)計出符合中文環(huán)境的注意力機制是該領(lǐng)域的目標(biāo).此外,在對不同場景的圖像分析過程中,本文模型在單類單目標(biāo)場景和多類多目標(biāo)場景下,生成的描述句子更符合圖像本身的內(nèi)容,語義也更為飽滿,但是對于多類單目標(biāo)的場景,本文模型生成的圖像中文描述句子容易只描述出圖像中的部分區(qū)域,因此在未來的工作中會專注于提升模型對圖像全局語義的理解能力.