趙 宏,孔東一
(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院,蘭州 730050)
(*通信作者電子郵箱kdongyi@163.com)
圖像內(nèi)容描述主要工作是通過計(jì)算機(jī)視覺(Computer Vision,CV)識(shí)別圖像內(nèi)的實(shí)體、實(shí)體屬性及實(shí)體間的關(guān)系,然后利用自然語言處理(Natural Language Processing,NLP)技術(shù)生成一段合理的描述語句。圖像內(nèi)容描述屬于多模態(tài)任務(wù)的一種,通過計(jì)算機(jī)視覺與自然語言處理技術(shù)的交叉融合,從而實(shí)現(xiàn)圖像到文本描述之間的跨模態(tài)轉(zhuǎn)換[1]。當(dāng)前國內(nèi)外的圖像內(nèi)容描述研究工作,根據(jù)技術(shù)類型主要分為三類:基于模板的方法、基于檢索的方法和基于深度學(xué)習(xí)的編解碼方法。
計(jì)算機(jī)視覺與自然語言處理領(lǐng)域借助于深度學(xué)習(xí)的快速發(fā)展,使得圖像特征提取和語句生成效果大大提升,基于深度學(xué)習(xí)的編解碼方法進(jìn)行圖像內(nèi)容描述,其效果已經(jīng)遠(yuǎn)遠(yuǎn)超過前兩種圖像內(nèi)容描述方法,因此本文使用基于深度學(xué)習(xí)的編解碼方法進(jìn)行圖像內(nèi)容描述研究。
圖像由實(shí)體、實(shí)體的屬性以及實(shí)體間的關(guān)系組成,例如圖1 中有一個(gè)男人正在騎一匹棕色的馬,“男人”和“馬”是實(shí)體,“棕色”是“馬”的屬性,“騎”就是“男人”和“馬”之間的關(guān)系,實(shí)體間的關(guān)系等這類信息隱含在圖像結(jié)構(gòu)中,不易被網(wǎng)絡(luò)模型檢測和識(shí)別。Jiang等[2]研究表明人類在處理隱含信息時(shí)可以吸引并引導(dǎo)注意力。Bahrami 等[3]研究表明人類的注意力可以調(diào)節(jié)隱含信息所引發(fā)的大腦活動(dòng)。因此,人類在對圖像進(jìn)行描述時(shí),在重點(diǎn)關(guān)注圖像實(shí)體對象的同時(shí)也會(huì)合理地關(guān)注實(shí)體間的關(guān)系等類似的隱含信息?,F(xiàn)有文獻(xiàn)中,通過引入注意力機(jī)制來將文本描述中的詞語對應(yīng)到圖像中相應(yīng)的區(qū)域,從而提高文本描述的生成效果,但是存在以下問題:1)人類在描述圖像時(shí),更加關(guān)注圖像中的重點(diǎn)內(nèi)容,同時(shí)會(huì)合理地關(guān)注隱含信息,現(xiàn)有模型如自適應(yīng)注意力[4],雖然對實(shí)體及實(shí)體屬性等重點(diǎn)內(nèi)容進(jìn)行了重點(diǎn)關(guān)注,但該方法是通過忽略或降低了對某些隱含信息的注意力關(guān)注換取的,會(huì)導(dǎo)致一些內(nèi)容的關(guān)注信息減弱或缺失。2)現(xiàn)有工作中,圖像特征注意力機(jī)制[5]雖然可以均等地關(guān)注圖像實(shí)體、實(shí)體屬性及實(shí)體間關(guān)系等內(nèi)容,但是并沒有考慮對圖像中重點(diǎn)內(nèi)容對象進(jìn)行加強(qiáng)關(guān)注。
圖1 圖像的實(shí)體、實(shí)體的屬性以及實(shí)體間關(guān)系Fig.1 Entities,properties of entities and relationship between entities in an image
如表1 所示,由于上述問題,現(xiàn)有模型在對圖像進(jìn)行中文描述時(shí),會(huì)出現(xiàn)重點(diǎn)內(nèi)容如圖中顏色、對象動(dòng)作等識(shí)別錯(cuò)誤,以及未重點(diǎn)關(guān)注到圖像內(nèi)主體對象如圖中生成的描述未關(guān)注到圖中的草莓,而是關(guān)注了大棚內(nèi)后方蔬菜形狀的物體上。
表1 注意力信息缺失或減弱及重點(diǎn)內(nèi)容未加強(qiáng)關(guān)注Tab.1 Attention information weakening or missing and not focusing on key content
針對上述問題,本文首先通過圖像特征注意力來關(guān)注圖像中實(shí)體、實(shí)體屬性及實(shí)體間的關(guān)系等內(nèi)容,然后使用自適應(yīng)注意力機(jī)制來對圖像內(nèi)的重點(diǎn)對象進(jìn)行加強(qiáng)關(guān)注,使得在突出圖像中重點(diǎn)對象的同時(shí)合理地關(guān)注圖像中的隱含信息,模擬人類在描述圖像時(shí)對圖像的關(guān)注度,從而更加精準(zhǔn)地提取圖像內(nèi)的主體內(nèi)容,使描述語句更加合理準(zhǔn)確。
Mao 等[6]提出了一種多模式遞歸神經(jīng)網(wǎng)絡(luò)(multimodal Recurrent Neural Network,m-RNN)模型。該模型首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與RNN 結(jié)合,解決了傳統(tǒng)的基于模板和基于檢索方法對圖像進(jìn)行描述時(shí),生成的描述語句存在生硬、單一且受限于數(shù)據(jù)集文本等問題。Vinyals 等[7]提出了NIC(Neural Image Caption)模型,該模型使用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)替換m-RNN 模型中的RNN,增強(qiáng)模型的長期記憶能力,顯著地改善了圖像描述的生成效果。上述工作利用編碼-解碼結(jié)構(gòu),通過CNN提取圖像語義特征信息,經(jīng)過RNN解碼后生成圖像描述語句,得益于深度神經(jīng)網(wǎng)絡(luò)的特征提取能力和自然語言生成能力,使得生成的描述語句結(jié)構(gòu)合理、通順自然。
文獻(xiàn)[6]的NIC 模型不同于文獻(xiàn)[7]的m-RNN 模型,m-RNN 模型在RNN 解碼的每個(gè)時(shí)刻,都將圖像特征信息輸入到模型中,因此容易放大圖像噪聲,引起過擬合問題;NIC 模型在訓(xùn)練每張圖像時(shí),圖像特征信息只輸入一次,在循環(huán)訓(xùn)練每個(gè)詞語時(shí),圖像特征信息完全依靠LSTM 的長期記憶,該模型雖然解決了過擬合問題,但是會(huì)由于LSTM 長期記憶的減弱問題,而導(dǎo)致圖像特征信息逐漸減弱。為解決上述圖像內(nèi)容描述研究中出現(xiàn)的問題,Xu 等[5]借鑒來自于機(jī)器翻譯領(lǐng)域的注意力機(jī)制,在編碼-解碼結(jié)構(gòu)的圖像描述模型基礎(chǔ)上,加入圖像特征注意力機(jī)制對模型進(jìn)行改進(jìn)。圖像特征注意力機(jī)制將描述文本中的詞匯與圖像中每個(gè)特征進(jìn)行權(quán)重計(jì)算,生成一個(gè)帶有權(quán)重信息的圖像特征向量,解碼網(wǎng)絡(luò)每一時(shí)刻接收不同權(quán)重的圖像特征信息,從而解決過擬合及圖像特征信息減弱的問題。
文獻(xiàn)[5]中通過圖像特征注意力機(jī)制在圖像特征與詞語之間建立注意力關(guān)注機(jī)制,但是該模型并未考慮對實(shí)體及實(shí)體屬性的突出關(guān)注。Lu 等[4]建立了自適應(yīng)注意力機(jī)制,通過引入視覺哨兵對文本詞匯在圖像中的重要度進(jìn)行計(jì)算,由視覺哨兵決定最終的預(yù)測詞匯是使用語言模型直接生成,還是使用空間注意力對詞向量進(jìn)行注意力權(quán)重計(jì)算后生成。Anderson 等[8]使用Faster R-CNN 代替CNN 對圖像進(jìn)行目標(biāo)檢測,進(jìn)而識(shí)別出圖像中的實(shí)體并進(jìn)行注意力關(guān)注。但是上述兩個(gè)模型在注意力關(guān)注時(shí),會(huì)忽略某些實(shí)體、實(shí)體屬性及實(shí)體間的關(guān)系,造成圖像注意力信息的缺失,導(dǎo)致模型不能很好地學(xué)習(xí)到圖像與詞匯間的映射關(guān)系,影響圖像描述生成效果。
本文提出的圖像特征注意力與自適應(yīng)注意力融合的圖像內(nèi)容中文描述模型框架如圖2 所示。在訓(xùn)練時(shí),將原始圖像進(jìn)行圖像預(yù)處理后,送入預(yù)訓(xùn)練的CNN 中得到圖像特征向量;圖像文本描述語句使用分詞工具進(jìn)行分詞,將分詞后的詞語進(jìn)行匯總統(tǒng)計(jì)并去除低頻詞語,為每個(gè)詞語進(jìn)行唯一編號(hào)后形成詞典表,然后使用詞典表將所有圖像文本描述語句進(jìn)行編號(hào)形成數(shù)字序列;使用Word2Vec工具以詞嵌入的方式對上述數(shù)字序列進(jìn)行文本向量化,形成高維度詞向量矩陣;將上述圖像特征向量與詞向量一起送入圖像特征注意力模塊中,從而計(jì)算得到帶有權(quán)重信息的圖像特征語義向量,緊接著將其送入LSTM 網(wǎng)絡(luò)進(jìn)行解碼預(yù)測得到當(dāng)前時(shí)刻的隱藏狀態(tài),該隱藏狀態(tài)中蘊(yùn)含著詞向量對圖像特征的注意力視覺信息以及語句間的語義信息;然后將生成的隱藏狀態(tài)送入自適應(yīng)注意力模塊,以自適應(yīng)方式對當(dāng)前時(shí)刻不同區(qū)域圖像特征的關(guān)注度進(jìn)行動(dòng)態(tài)調(diào)節(jié),從而實(shí)現(xiàn)圖像特征重點(diǎn)內(nèi)容的加強(qiáng)關(guān)注;最后模型利用SoftMax 算法來將生成的詞向量概率矩陣還原為文本語句。在測試時(shí),將測試圖片經(jīng)過預(yù)處理后送入模型預(yù)測得到描述語句,利用評價(jià)算法計(jì)算得分。
圖2 圖像內(nèi)容中文描述框架Fig.2 Framework of Chinese image captioning
2.1.1 編碼器網(wǎng)絡(luò)
模型中Encoder 部分使用預(yù)訓(xùn)練的ResNet152 作為圖像特征提取網(wǎng)絡(luò),ResNet 網(wǎng)絡(luò)作為大規(guī)模視覺識(shí)別競賽ILSVRC2015的冠軍,在網(wǎng)絡(luò)中引入殘差結(jié)構(gòu)解決了梯度消失問題[9],網(wǎng)絡(luò)層深度可以達(dá)到152 層,在圖像特征提取和識(shí)別效果上有著非常高的準(zhǔn)確率。本文將ResNet152 網(wǎng)絡(luò)的倒數(shù)第二層輸出大小為1×1的平均池化層和最后一層全連接層替換成一個(gè)輸出大小為14×14 的平均池化層,最終得到圖像特征向量的維度為2048×14×14,這里將得到的圖像特征向量Va用式(1)表示:
其中:vi∈R2048是圖像特征向量中任意位置的圖像特征;k表示圖像特征的個(gè)數(shù)。
為了使自適應(yīng)注意力模塊的圖像特征與LSTM 輸出的隱藏狀態(tài)ht維度匹配,使用帶有ReLU(Rectified Linear Unit)激活函數(shù)的全連接層進(jìn)行維度調(diào)整,通過式(2)~(4)計(jì)算輸入到自適應(yīng)注意力模型的圖像特征向量Vb。
其中:∈Rm,m為LSTM 輸出的詞向量維度大?。籛y為全連接層需要訓(xùn)練的權(quán)重參數(shù);by為全連接層需要訓(xùn)練的偏置參數(shù)。
2.1.2 解碼器網(wǎng)絡(luò)
模型中Decoder 部分使用LSTM 對圖像特征進(jìn)行解碼,LSTM 由經(jīng)典的RNN 改進(jìn)而來,解決了RNN 中的梯度消失和長期依賴問題[10],傳統(tǒng)LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3(a)所示。
圖3 傳統(tǒng)LSTM與改進(jìn)LSTM的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic diagrams of traditional LSTM and improved LSTM network structures
LSTM通過三個(gè)門控單元來對網(wǎng)絡(luò)中的信息進(jìn)行控制,計(jì)算過程如下:
首先,利用式(5)的輸入門it來控制網(wǎng)絡(luò)需要存儲(chǔ)和處理的信息。
其中:Wi為輸入門的權(quán)重參數(shù);bi為輸入門的偏移參數(shù);σ為Sigmoid 激活函數(shù);ht-1為t-1 時(shí)刻網(wǎng)絡(luò)的短期記憶輸出;xt為t時(shí)刻網(wǎng)絡(luò)的輸入。
然后,利用式(6)計(jì)算長期記憶ct,通過式(7)的遺忘門ft來控制網(wǎng)絡(luò)丟棄無用信息,為t時(shí)刻網(wǎng)絡(luò)的中間量用式(8)表示。
其中:Wf為遺忘門的權(quán)重參數(shù);bf為遺忘門的偏移參數(shù);Wc為中間量的權(quán)重參數(shù);bc為中間量的偏移參數(shù);⊙表示矩陣元素相乘。
最后,利用式(9)的輸出門ot來控制短期記憶ht的輸出,如式(10)所示。
其中:Wo為輸出門的權(quán)重參數(shù);bo為輸出門的偏移參數(shù)。
圖像特征注意力計(jì)算生成的帶有注意力權(quán)重信息的圖像特征信息與數(shù)據(jù)集標(biāo)簽中的詞向量融合后作為解碼器的輸入信息,因此解碼器的LSTM 中存儲(chǔ)了圖像隱藏信息和語言語義信息,在傳統(tǒng)LSTM 中加入一個(gè)新的門控單元gt,用于提取這些信息,如圖3(b)。從而在LSTM 中提取出新的輸出,包含圖像和語義的隱藏信息st,用于自適應(yīng)注意力模塊的輸入,計(jì)算過程如式(11)~(12)所示。LSTM 的隱藏信息ht和st中雖然都包含有圖像特征注意力信息和語言語義信息,但是st會(huì)通過訓(xùn)練過程更加匹配自適應(yīng)注意力的自適應(yīng)調(diào)節(jié)任務(wù),而ht主要用于最后的詞向量的計(jì)算輸出。
其中:Wg和bg為新增加門控需要學(xué)習(xí)的權(quán)重參數(shù)和偏置參數(shù)。
在t0時(shí)刻,將圖像特征Va進(jìn)行加權(quán)平均并通過單層感知機(jī)訓(xùn)練,作為LSTM 啟動(dòng)輸入信息c0和h0,計(jì)算過程如式(13)~(14)所示。
其中:finit,c和finit,h為單層感知機(jī)計(jì)算函數(shù);vi為式(1)中的圖像特征;k表示圖像特征的個(gè)數(shù)。
2.2.1 圖像特征注意力機(jī)制
通過圖像特征注意力將訓(xùn)練集的文本描述的詞匯信息映射到對應(yīng)的圖像特征區(qū)域,計(jì)算過程如下:
首先計(jì)算時(shí)刻t圖像特征各個(gè)區(qū)域的注意力權(quán)重,通過式(15)的多層感知器(MultiLayer Perceptron,MLP)來耦合圖像特征區(qū)域vi和解碼器LSTM 上一時(shí)刻輸出的隱藏信息ht-1。將上述計(jì)算結(jié)果送入式(16)所示的softmax 函數(shù)來計(jì)算t時(shí)刻第i個(gè)圖像特征區(qū)域的權(quán)重值φti,可以得到圖像各個(gè)區(qū)域的權(quán)重分布φt,權(quán)重分布的和為1,即=1,這些權(quán)重分布代表了t時(shí)刻的詞向量信息對圖像各個(gè)區(qū)域的關(guān)注程度。
其中:Wf_att、We、bf_att和be為多層感知機(jī)需要學(xué)習(xí)的權(quán)重參數(shù)和偏置參數(shù);vi為式(1)所表示的圖像特征;k表示圖像特征的個(gè)數(shù)。
然后通過式(17)將上述計(jì)算的權(quán)重分布φti施加到對應(yīng)的圖像區(qū)域,其中閾值λt用來讓注意力模型集中關(guān)注圖像特征中的目標(biāo),如式(18)所示,最后得到t時(shí)刻帶有權(quán)重信息的圖像特征向量qt。
其中:L為圖像特征區(qū)域的個(gè)數(shù);Wβ為閾值λt需要學(xué)習(xí)的權(quán)重參數(shù)。
2.2.2 自適應(yīng)注意力機(jī)制
利用自適應(yīng)注意力機(jī)制從圖像特征Vb和LSTM 里蘊(yùn)含有圖像特征注意力的隱藏信息ht中提取出加強(qiáng)注意力信息et;通過自適應(yīng)的方式來調(diào)節(jié)圖像和語言語義的隱藏信息st與自適應(yīng)注意力信息et之間的依賴比例,從而達(dá)到對圖像特征中的重點(diǎn)內(nèi)容再次加強(qiáng)關(guān)注的目的。計(jì)算過程如下:
首先通過式(19)~(21)計(jì)算自適應(yīng)注意力的加強(qiáng)關(guān)注信息et,為自適應(yīng)注意力提供圖像中的注意力信息。
然后利用式(22)中的視覺哨兵模塊βt,來自適應(yīng)地調(diào)節(jié)該注意力機(jī)制的輸出rt,從而決定rt是更加依賴基于自適應(yīng)注意力加強(qiáng)關(guān)注后的信息et,還是更依賴基于圖像特征注意力提取的隱藏信息st。
其中:st在式(12)求得;視覺哨兵模塊βt計(jì)算過程如式(23)~(24)所示。
其中:式(24)表示βt取自向量∈Rk+1的最后一個(gè)元素由語義隱藏信息ht和圖像隱藏信息st融合而來。
2.2.3 注意力融合機(jī)制
基于人類在圖像描述時(shí)的注意力機(jī)制,本文將圖像特征注意力和自適應(yīng)注意力進(jìn)行深度融合,如圖4所示。
圖4 注意力融合機(jī)制示意圖Fig.4 Schematic diagram of attention fusion mechanism
首先將上述圖像特征注意力生成的帶有權(quán)重信息的圖像特征向量qt與文本描述詞嵌入后的詞向量wt進(jìn)行向量拼接,得到LSTM的輸入xt,如式(25)所示。
其中:{;}代表將兩個(gè)向量進(jìn)行拼接。
然后把拼接后的向量xt送入LSTM,預(yù)測出當(dāng)前時(shí)刻的LSTM 的圖像及語言語義隱藏狀態(tài)ht和st,通過式(26)融合為,用來指導(dǎo)自適應(yīng)注意力的視覺哨兵模塊,從而自適應(yīng)地調(diào)節(jié)對圖像產(chǎn)生注意力的加強(qiáng)程度,決定某個(gè)圖像區(qū)域中是否更依賴于再次提取的圖像加強(qiáng)關(guān)注信息et。如式(22)所示,當(dāng)某個(gè)圖像特征區(qū)域中隱藏信息st比重較大時(shí),則該區(qū)域的圖像關(guān)注信息主要由圖像特征注意力提供;當(dāng)加強(qiáng)關(guān)注信息et比重較大時(shí),則該區(qū)域圖像關(guān)注信息會(huì)在圖像特征注意力基礎(chǔ)上二次加強(qiáng)關(guān)注。通過上述過程,實(shí)現(xiàn)在圖像內(nèi)其他內(nèi)容關(guān)注度不減弱或丟失的前提下,對圖像中的主體內(nèi)容進(jìn)行再次加強(qiáng)關(guān)注。
其中:Wz和Wh與式(19)中的權(quán)重參數(shù)相同。
最后通過多層感知機(jī)MLP 將自適應(yīng)注意力輸出rt和LSTM 隱藏狀態(tài)ht融合,然后利用softmax 函數(shù)求得模型最終輸出的詞向量yt,如式(27)~(28)所示。
其中:Wp、Wy和bp、by為多層感知機(jī)需要學(xué)習(xí)的權(quán)重參數(shù)和偏置參數(shù)。
不同于文獻(xiàn)[4]中的自適應(yīng)注意力模型只對圖像特征內(nèi)的不同內(nèi)容進(jìn)行不同程度的關(guān)注,這會(huì)減弱或丟失對實(shí)體間關(guān)系等隱含信息的關(guān)注度。本模型對圖像特征中重點(diǎn)區(qū)域進(jìn)行注意力加強(qiáng)關(guān)注,同時(shí)由于前面已經(jīng)利用圖像特征注意力提取了所有注意力信息,自適應(yīng)注意力模型是在包含了所有注意力信息的隱藏狀態(tài)st和ht的基礎(chǔ)上,有針對性地再次加強(qiáng)關(guān)注,因此不會(huì)減弱或丟失對圖像中隱含信息的關(guān)注,而文獻(xiàn)[4]中LSTM的隱藏狀態(tài)中并不包含圖像注意力信息。
本文使用交叉熵?fù)p失函數(shù)來計(jì)算模型預(yù)測生成的詞向量yt與數(shù)據(jù)集中語句描述標(biāo)簽的詞向量的損失值,通過最小化損失函數(shù)的值來對模型進(jìn)行訓(xùn)練,交叉熵?fù)p失函數(shù)計(jì)算過程如式(29)所示。
其中:C為描述語句的長度;表示t時(shí)刻生成的詞向量yt預(yù)測為的概率。
為了使圖像特征注意力中的每個(gè)圖像特征區(qū)域都得到關(guān)注,在損失函數(shù)中加入正則項(xiàng),使得模型在解碼階段的所有時(shí)刻的任一圖像特征區(qū)域權(quán)重值之和均相等,即≈1,從而使圖像特征注意力所關(guān)注的每個(gè)圖像區(qū)域參與到文本描述生成過程中。模型的損失函數(shù)如式(30)所示。
其中:η為正則項(xiàng)的參數(shù),本文取1;k為圖像特征的個(gè)數(shù);C為描述語句的長度。
本文實(shí)驗(yàn)的硬件平臺(tái)為Intel Xeon Silver 4116 CPU@2.10 GHz 處理器,運(yùn)行內(nèi)存為128 GB,顯卡為NVIDIA Tesla T4 GPU,顯存為16 GB,軟件平臺(tái)使用支持GPU 加速運(yùn)算的PyTorch 深度學(xué)習(xí)框架,配置NVIDIA CUDA 10.1 及cuDNNV7.6深度學(xué)習(xí)加速庫。
為了驗(yàn)證本文模型的有效性,選取在圖像內(nèi)容中文描述領(lǐng)域涉及場景最全面、語言描述最豐富、規(guī)模最大的ICC 數(shù)據(jù)集[11]進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集中訓(xùn)練集、驗(yàn)證集和測試集分別有210 000 張、30 000 張和30 000 張圖片,每張圖片對應(yīng)5 句中文語句描述,如圖5所示。
圖5 ICC圖像內(nèi)容中文描述數(shù)據(jù)集示例Fig.5 Examples of ICC Chinese image captioning dataset
為客觀評測模型性能,本文使用廣泛用于圖像內(nèi)容描述領(lǐng)域的BLEU(BiLingual Evaluation Understudy)[12]、METEOR(Metric for Evaluation of Translation with Explicit ORdering)[13]、ROUGEL(Recall-Oriented Understudy for Gisting Evaluation with Longest common subsequence)[14]和CIDEr(Consensusbased Image Description Evaluation)[15]作為評價(jià)指標(biāo),為本文模型和對比模型計(jì)算評價(jià)得分,從而客觀評價(jià)模型的語句描述生成效果。值得注意的是,CIDEr 評價(jià)指標(biāo)是專門設(shè)計(jì)用于客觀評價(jià)圖像描述任務(wù)的指標(biāo),本文將在對比其他評價(jià)指標(biāo)得分基礎(chǔ)上,重點(diǎn)分析CIDEr評價(jià)指標(biāo)得分差異。
在圖像預(yù)處理時(shí),將數(shù)據(jù)集原始圖片大小縮放至256×256 像素大小,在模型讀取圖片時(shí),進(jìn)行15°隨機(jī)旋轉(zhuǎn),并對圖像進(jìn)行隨機(jī)裁剪,得到224×224 像素大小的圖像。在描述語句預(yù)處理時(shí),采用“jieba”分詞工具對數(shù)據(jù)集中的描述文本進(jìn)行分詞,對分詞后的描述詞匯進(jìn)行匯總統(tǒng)計(jì),將大于低頻閾值的詞匯形成詞匯表,本文選取的低頻詞匯閾值為5,最終得到7 768 個(gè)詞匯。解碼器中的LSTM 輸入的詞嵌入向量維度、輸出維度、圖像特征注意力和自適應(yīng)注意力層維度大小均設(shè)置為512,在生成詞向量時(shí),使用Dropout 技術(shù)[16]防止模型過擬合,Dropout取值為0.5。
模型訓(xùn)練階段,使用Adam[17]優(yōu)化算法對模型參數(shù)進(jìn)行優(yōu)化,批訓(xùn)練大小為64;初始學(xué)習(xí)率為0.000 1,每輪次訓(xùn)練結(jié)束后,若模型在驗(yàn)證集上評價(jià)得分連續(xù)3 個(gè)輪次沒有增長時(shí),將學(xué)習(xí)率衰減0.1;為防止梯度爆炸,在反向傳播時(shí)進(jìn)行梯度裁剪。在模型訓(xùn)練起步階段,首先固定編碼器網(wǎng)絡(luò)的參數(shù),訓(xùn)練到模型在驗(yàn)證集評價(jià)得分不再增長時(shí),對編碼器參數(shù)進(jìn)行微調(diào),使編碼器和解碼器進(jìn)行聯(lián)合訓(xùn)練。
訓(xùn)練過程中,每輪次訓(xùn)練結(jié)束后,在驗(yàn)證集進(jìn)行推理預(yù)測并計(jì)算評價(jià)指標(biāo)得分,每輪次得分結(jié)果繪制曲線如圖6 所示,保存驗(yàn)證集上評價(jià)得分最高的模型,在訓(xùn)練結(jié)束后在測試集進(jìn)行測試。在圖6 中第10 輪次得分有明顯的跳躍式增長,因?yàn)槟P徒獯a器剛開始的參數(shù)是隨機(jī)初始化的,并不具備有效的解碼能力,為防止產(chǎn)生的誤差反向傳播到編碼器,剛開始訓(xùn)練時(shí)固定編碼器中預(yù)訓(xùn)練的ResNet 網(wǎng)絡(luò)參數(shù)。當(dāng)驗(yàn)證集評價(jià)得分不再上升時(shí),說明解碼器已經(jīng)具備模型解碼能力,并且達(dá)到解碼器參數(shù)優(yōu)化的瓶頸,此時(shí)進(jìn)行ResNet 網(wǎng)絡(luò)的參數(shù)微調(diào),讓預(yù)訓(xùn)練的編碼器更加適應(yīng)本模型的任務(wù),因此模型評價(jià)得分迅速增加。
圖6 模型各輪次評價(jià)指標(biāo)得分Fig.6 Evaluation index scores of models in each round
為驗(yàn)證模型的有效性,本文使用相同的實(shí)驗(yàn)環(huán)境,分別搭建基于自適應(yīng)注意力和基于圖像特征注意力的圖像內(nèi)容描述模型,在ICC 數(shù)據(jù)集進(jìn)行模型對比實(shí)驗(yàn),實(shí)驗(yàn)評價(jià)得分結(jié)果如表2 所示。從表2 可可知,在圖像內(nèi)容中文描述任務(wù)上,單一的圖像特征注意力比自適應(yīng)注意力模型性能要好;相較于單一的基于自適應(yīng)注意力和基于圖像特征注意力的模型,本文模型進(jìn)行注意力融合后,模型識(shí)別性能大幅提升,尤其是CIDEr 評價(jià)指標(biāo),分別提升10.1%和7.8%,說明本文模型有效提升了圖像內(nèi)容描述任務(wù)的性能。
表2 不同注意力機(jī)制模型下的評價(jià)指標(biāo)得分對比Tab.2 Comparison of evaluation index scores under different attention mechanism models
本文還與圖像描述領(lǐng)域具有權(quán)威代表性的研究工作進(jìn)行了對比,表3為對比結(jié)果。
表3 本文模型與其他模型的性能對比Tab.3 Performance comparison of proposed model with other models
表3 中:Baseline-NIC 模型[11]使用NIC 模型對其公開的ICC 數(shù)據(jù)集進(jìn)行性能測試的結(jié)果?;谧缘紫蛏虾妥皂斚蛳拢˙ottom-Up and Top-Down,BUTD)注意力的圖像描述模型[8]使用Faster R-CNN 提取圖像內(nèi)的實(shí)體對象,該模型的實(shí)驗(yàn)結(jié)果為文獻(xiàn)[18]在ICC 數(shù)據(jù)集上的復(fù)現(xiàn)結(jié)果,結(jié)果表明在圖像內(nèi)容中文描述任務(wù)上,BUTD 模型在BLEU、METEOR 和ROUGEL 評價(jià)指標(biāo)上優(yōu)于NIC 模型,但是CIDEr 評價(jià)指標(biāo)遜色于NIC 模型。全局注意力機(jī)制模型[18]在BUTD 模型基礎(chǔ)上加入了全局注意力機(jī)制,結(jié)果表明該模型的CIDEr 評價(jià)指標(biāo)上有優(yōu)化提升,其他指標(biāo)與BUTD 模型持平。相較于以上三種模型,本文模型評價(jià)指標(biāo)得分均有大幅提升,分別提升10.9%、12.1%和10.3%。
除此之外,本文還進(jìn)行了主觀對比實(shí)驗(yàn)。如表4 中第一個(gè)實(shí)例,自適應(yīng)注意力模型成功識(shí)別出實(shí)體對象“草莓”,但是由于對衣服顏色屬性的注意力信息減弱,將白色衣服識(shí)別為紅色;圖像特征注意力由于沒有注意力的重點(diǎn)關(guān)注機(jī)制,將注意力重點(diǎn)關(guān)注到了圖像后方蔬菜形狀的物體上,并沒有重點(diǎn)關(guān)注實(shí)體對象“草莓”;第二個(gè)實(shí)例,自適應(yīng)注意力和圖像特征注意力模型在圖像內(nèi)的行為描述出現(xiàn)錯(cuò)誤,本文模型成功描述出“下棋”這一行為動(dòng)作;第三個(gè)實(shí)例,自適應(yīng)注意力和圖像特征注意力模型并沒有將注意力聚焦到“喂”這個(gè)隱含信息上,因此兩者描述沒有抓住圖像重點(diǎn),本文模型合理準(zhǔn)確地對該圖像進(jìn)行了描述。由對比效果可知,本文模型相較于單一注意力模型能夠生成更加準(zhǔn)確、質(zhì)量更高的圖像中文描述語句。
表4 各模型描述效果在實(shí)例中的主觀對比Tab.4 Subjective comparison of different model description effects for examples
本文提出一種圖像特征注意力與自適應(yīng)注意力融合的圖像內(nèi)容中文描述模型,通過圖像特征注意力對圖像特征進(jìn)行全面關(guān)注,然后使用自適應(yīng)注意力對圖像特征重點(diǎn)區(qū)域再次加強(qiáng)關(guān)注,很好地模擬了人類的注意力過程,提升了模型對圖像的關(guān)注和理解能力,使模型對圖像的內(nèi)容描述性能大幅提高。最后將本文模型與單一注意力模型進(jìn)行了對比實(shí)驗(yàn)測試,并與其他前沿的圖像描述方法進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明本文模型相較于其他模型性能提升明顯,圖像的內(nèi)容識(shí)別更加準(zhǔn)確,描述語句更加合理。