陳 彪, 周之平, 葉 琴
(南昌航空大學(xué) 信息工程學(xué)院,南昌 330063)
圖像字幕[1-4]生成任務(wù)是針對(duì)一幅給定的圖像生成一段文本描述語(yǔ)句,它不僅能準(zhǔn)確地表達(dá)圖像中的物體及其相互關(guān)系,而且在語(yǔ)法和用詞上盡可能接近人類標(biāo)準(zhǔn)。與視覺(jué)問(wèn)答(Visual Question Answering,VQA)[5-8]類似,圖像字幕生成任務(wù)也屬于多模態(tài)學(xué)習(xí)任務(wù),它涉及到計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)研究領(lǐng)域。注意力機(jī)制在處理圖像特征信息時(shí)可以強(qiáng)調(diào)或選擇處理重要信息,并且抑制一些無(wú)關(guān)信息,這對(duì)優(yōu)化圖像特征信息有顯著效果,所以注意力機(jī)制被廣泛應(yīng)用于圖像字幕生成任務(wù)中。本文在多頭注意力機(jī)制上引入注意力優(yōu)化模塊來(lái)產(chǎn)生準(zhǔn)確度更高的描述語(yǔ)句,并在MS COCO[9]數(shù)據(jù)集上對(duì)算法性能進(jìn)行驗(yàn)證和比較。
目前圖像字幕生成任務(wù)主要是基于神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)的,該任務(wù)通常使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為圖像編碼器,將提取的圖像特征輸送到作為解碼器的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)中去預(yù)測(cè)句子。這種方法抽象度高,泛化能力強(qiáng),同時(shí)生成的語(yǔ)句靈活度高,不受固定句式影響,更接近人類的表達(dá)。隨著人工智能的發(fā)展,圖像字幕生成在圖像特征提?。ň幋a器)和詞匯預(yù)測(cè)(解碼器)方面都有了提高。目前的解碼器大多都是以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)為基礎(chǔ)構(gòu)造的,如LSTM(Long-short Term Memory,長(zhǎng)短期記憶)網(wǎng)絡(luò)或者GRU(Gate Recurrent Unit,門控循環(huán)單元)網(wǎng)絡(luò),這兩種網(wǎng)絡(luò)都是為了解決長(zhǎng)期記憶和梯度消失、爆炸等問(wèn)題而提出的。圖像字幕生成任務(wù)為了提升生成語(yǔ)句的準(zhǔn)確度,通常在編碼器或者解碼器模型中加入注意力機(jī)制和其他網(wǎng)絡(luò)結(jié)構(gòu)。
自Hochreiter等[10]提出LSTM網(wǎng)絡(luò)以來(lái),LSTM在處理序列到序列的任務(wù),尤其是在處理文本信息和自然語(yǔ)言任務(wù)有著突出的貢獻(xiàn)。目前在圖像字幕生成任務(wù)中,LSTM網(wǎng)絡(luò)常用于解碼圖像特征信息。Oriol Vinyals等[11]提出了一種基于神經(jīng)網(wǎng)絡(luò)的圖像字幕生成的方法,在LSTM網(wǎng)絡(luò)中增加細(xì)胞門、輸入門、輸出門、忘記門;通過(guò)細(xì)胞狀態(tài)記憶信息,減少梯度消失和梯度爆炸的可能性,避免信息的丟失,從而能多利用圖像特征信息生成準(zhǔn)確度高的語(yǔ)句。Mahmoud等[12]提出雙向網(wǎng)格LSTM網(wǎng)絡(luò),將網(wǎng)格LSTM的空間特征和本地區(qū)域文本集成到一起,第一層對(duì)全局場(chǎng)景(例如對(duì)象存在)進(jìn)行建模,第二層利用基于另一個(gè)網(wǎng)格LSTM的新穎動(dòng)態(tài)空間關(guān)注機(jī)制來(lái)逐字生成全局字幕。
由于注意力機(jī)制在處理圖像特征領(lǐng)域獲得的突破性進(jìn)展,在隨后的研究過(guò)程中,研究人員開(kāi)始嘗試將注意力機(jī)制引入到圖像字幕生成中。Xu等[13]提出的基于注意力的模型,自動(dòng)學(xué)習(xí)描述圖像內(nèi)容,使用標(biāo)準(zhǔn)反向傳播技術(shù)以確定性方式訓(xùn)練模型,并通過(guò)最大化變分下界隨機(jī)訓(xùn)練模型和利用可視化展示模型在生成序列中相應(yīng)單詞的同時(shí),自動(dòng)學(xué)習(xí)將注意力集中在圖像中的突出目標(biāo)上。You等[14]提出的語(yǔ)義注意,有選擇地學(xué)習(xí)關(guān)注語(yǔ)義概念的建議并將其融入到隱藏層中和遞歸神經(jīng)網(wǎng)絡(luò)的 輸出中,選擇和融合形成一個(gè)反饋連接,自上而下和自下而上的計(jì)算。Lu等[15]提出了一種新的基于視覺(jué)哨兵(visual sentinel)的自適應(yīng)注意模型,在每個(gè)時(shí)間步驟中,該模型決定是否關(guān)注圖像(如果是,則是哪些區(qū)域)或是視覺(jué)哨兵;模型決定是否關(guān)注圖像以及關(guān)注哪里,以便提取有意義的信息進(jìn)行連續(xù)的單詞生成。
注意力機(jī)制在當(dāng)前的圖像描述編碼器-解碼器框架中得到廣泛使用,但傳統(tǒng)的注意力機(jī)制在處理圖像特征時(shí),關(guān)注于圖像中目標(biāo)之間的聯(lián)系,而非目標(biāo)之間的聯(lián)系程度,這將使得生成過(guò)多的無(wú)關(guān)信息向量,從而影響生成語(yǔ)句的準(zhǔn)確度。由于在處理圖像特征時(shí),多頭注意力(Mutil-head Attention)機(jī)制[16]能對(duì)輸入的圖像特征信息進(jìn)行多次計(jì)算,優(yōu)化圖像特征信息,并且能提高模型的學(xué)習(xí)性能。因此本文針對(duì)多頭注意力模型,對(duì)其注意力模塊進(jìn)行優(yōu)化,以拓展常規(guī)的注意力機(jī)制,以此提升所生成的描述語(yǔ)句的準(zhǔn)確度。
圖1 具有Refining模塊的編/解碼器框架
本文提出的圖像字幕生成網(wǎng)絡(luò)模型如圖1所示。在編碼器中首先經(jīng)過(guò)Faster R-CNN[17]提取輸入圖像的特征信息;然后將特征信息饋送給Refining(優(yōu)化)模塊產(chǎn)生關(guān)注信息,最后利用解碼器(Decoder)對(duì)關(guān)注信息進(jìn)行解碼生成一條描述語(yǔ)句。
圖1中Refining模塊為引入優(yōu)化注意力模塊(Optimize Attention,OA)的多頭注意力模型。下面將對(duì)OA模塊和Refining??爝M(jìn)行詳細(xì)闡述。
1)OA(Optimize Attention)模塊;
注意力模型從宏觀上可以理解為一個(gè)查詢(query)到一系列鍵值對(duì) < key,value > 的映射。傳統(tǒng)的注意力模塊輸出每個(gè)查詢的加權(quán)平均值,即使在沒(méi)有相關(guān)向量的情況下,注意力模塊仍然會(huì)產(chǎn)生加權(quán)平均向量,它們可能是不相關(guān)的,甚至是誤導(dǎo)信息。無(wú)關(guān)的信息會(huì)忽視圖像中目標(biāo)之間的關(guān)聯(lián)程度,影響對(duì)圖像內(nèi)容的正確描述。Huang等[18]提出通過(guò)“信息向量”和“注意門”進(jìn)行逐元素相乘生成關(guān)注信息來(lái)關(guān)注圖像中目標(biāo)之間的聯(lián)系,但該方法生成的關(guān)注信息會(huì)過(guò)多的關(guān)注圖像中的目標(biāo)而忽略圖像中的背景信息,造成信息的丟失和降低信息的利用率,最后影響生成語(yǔ)句的準(zhǔn)確率。本文提出的優(yōu)化注意力模塊在其基礎(chǔ)之上進(jìn)行改進(jìn),使其不僅能夠更多的關(guān)注圖像中目標(biāo)之間的的聯(lián)系和測(cè)量圖像中目標(biāo)之間的關(guān)聯(lián)程度,還能增強(qiáng)對(duì)圖像中的背景信息的關(guān)注度和提高信息利用率來(lái)更好的描述圖像內(nèi)容。
在Huang[18]的基礎(chǔ)上,通過(guò)將生成的關(guān)注信息再與“信息向量”進(jìn)行逐元素相乘來(lái)提高圖像對(duì)背景信息的關(guān)注度,如圖2所示,OA模塊如圖中虛線框所示。
圖2 優(yōu)化的多頭注意力模型
在圖2中,Q、K和V是提取的圖像特征向量A的三個(gè)單獨(dú)的線性投影,在多頭注意力中經(jīng)過(guò)獨(dú)立計(jì)算生成各自的注意結(jié)果,然后將注意結(jié)果進(jìn)行拼接結(jié)合得到關(guān)注結(jié)果。OA模塊用來(lái)測(cè)量關(guān)注結(jié)果和查詢之間的相關(guān)性,關(guān)注結(jié)果再加上當(dāng)前的上下文(即查詢)通過(guò)Concat(結(jié)合)生成關(guān)注向量,為降低計(jì)算復(fù)雜度,關(guān)注向量通過(guò)線性變換降維,然后生成一個(gè)“信息向量”I和一個(gè)“注意門”G,再使用逐元素乘法將“注意門”應(yīng)用于“信息向量”來(lái)產(chǎn)生關(guān)注信息I?,最后將關(guān)注信息I?與“信息向量”I逐元素相乘生成一個(gè)新的關(guān)注信息。其中“注意門”G作 為門控來(lái)控制“信息向量”I中的信息輸出,對(duì)I中有用信息向量進(jìn)行加權(quán)關(guān)注?!靶畔⑾蛄俊盜與關(guān)注信息I?進(jìn)行點(diǎn)乘目的在于增強(qiáng)關(guān)注信息I?對(duì)圖像背景信息的關(guān)注,提高信息的利用率。具體計(jì)算公式如下:
2)Refining模塊。
對(duì)于一幅輸入圖像,首先使用基于Faster-RCNN的網(wǎng)絡(luò)提取一組圖像特征向量A={a1,a2,…,ak},其中ai的維度為D,k表示A中的向量數(shù)(k=100)。與文獻(xiàn)[13]不同的是,本文將提取的圖像特征向量經(jīng)過(guò)Refining模塊優(yōu)化后作為解碼器的輸入,而不是將提取的特征向量直接輸送給解碼器,具體如圖3所示,Refining模塊如圖虛線框所示。
圖3 Refining模塊
編碼器中的OA模塊,稱為OAD。由上可知,經(jīng)由多頭注意力產(chǎn)生的關(guān)注結(jié)果通過(guò)OA塊優(yōu)化后生成關(guān)注信息Iˉ;將圖像特征A和OAD模塊產(chǎn)生的關(guān)注信息Iˉ相加然后經(jīng)過(guò)Layer Normalization(LN,層歸一化)[19]生成特征向量A?,其中LN的作用為降低模型計(jì)算時(shí)間,提高模型的訓(xùn)練速度和精度,公式如下:
Xu等[13]提出的解碼器網(wǎng)絡(luò)結(jié)構(gòu)在解碼圖像特征信息并引導(dǎo)其生成字幕時(shí),網(wǎng)絡(luò)結(jié)構(gòu)中的注意力機(jī)制指導(dǎo)模型集中關(guān)注信息中重要的子區(qū)域,忽略對(duì)字幕生成無(wú)關(guān)的信息,從而提高生成字幕質(zhì)量。因此本文采用該網(wǎng)絡(luò)結(jié)構(gòu)對(duì)提取的圖像特征信息進(jìn)行解碼并生成描述語(yǔ)句。公式如下:
式中,it,ft,ct,ot和ht分別是輸入門,忘記門,細(xì)胞狀態(tài),輸出門和LSTM中的隱藏層信息。fatt是模型中的注意力機(jī)制,ht?1是上一時(shí)刻隱藏層的信息,A?是從編碼器輸出的圖像特征向量,zt是上下文向量。本文用I表示圖像,C表示描述該圖像N個(gè)詞匯(y1,y2,…yN)的集合,采用的損失函數(shù)如下所示:
式中p(yt+1|yt)=softmax(Wht)和ht=LSTM(Eyt,ht?1,zt),W是線性矩陣,E是嵌入式矩陣,yt是生成的單詞向量。首先每個(gè)t時(shí)刻的隱藏層信息,都由t-1時(shí)刻的隱藏層信息,t時(shí)刻的上下文向量和單詞向量經(jīng)過(guò)LSTM單元輸出,其中t=-1時(shí)刻的隱藏層信息為圖像特征向量A?。然后生成的t時(shí)刻隱藏層信息經(jīng)過(guò)softmax函數(shù)輸出預(yù)測(cè)單詞的概率。
本文在流行的MS COCO數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了實(shí)驗(yàn),MS COCO數(shù)據(jù)集包含123 287張圖片,平均每個(gè)圖像都帶有5個(gè)標(biāo)題,訓(xùn)練集包括82 783張圖片和驗(yàn)證集包括40 504張圖片。MS COCO包含9957個(gè)詞匯,所描述的是綜合性圖片主題。本文中使用訓(xùn)練集進(jìn)行模型的訓(xùn)練,在測(cè)試階段,基于Karpathy和Li[20]提出的測(cè)試方法,使用整個(gè)驗(yàn)證集來(lái)衡量模型性能和測(cè)試,并且將在訓(xùn)練集中出現(xiàn)至少5次的單詞納入單詞表。
為了能夠更加準(zhǔn)確地評(píng)價(jià)生成結(jié)果,選用BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR等5種評(píng)價(jià)指標(biāo),同時(shí)通過(guò)與不同方法對(duì)比,更加直觀地體現(xiàn)出本文提出方法在生成結(jié)果上的提高。
經(jīng)過(guò)多次實(shí)驗(yàn)確定最終的模型參數(shù),輸入圖像特征的原始維度為2048,通過(guò)線性映射之后D=1024,這同樣也是LSTM在解碼器中隱藏層的維數(shù)。對(duì)于訓(xùn)練過(guò)程,在損失函數(shù)下訓(xùn)練Refining模塊30周期,最小批處理為256個(gè),使用Adam[21]優(yōu)化方法優(yōu)化模型,并且η=0.002,β=(0.9,0.997)。
由于Layer Normalization(LN,層歸一化)能提高模型的訓(xùn)練速度和精度,使得模型更加穩(wěn)健,在模型中加入LN,并且驗(yàn)證其對(duì)字幕生成的影響。在不同情況和BLEU-1、METEOR兩個(gè)評(píng)價(jià)指標(biāo)下進(jìn)行對(duì)比,得分越高說(shuō)明模型效果更好,具體如表1所示。通過(guò)表1可以看出OA與LN的結(jié)合生成字幕的效果最好,并且有LN比沒(méi)有LN的模型效果都提高了(雖然提高的不多)。由此可以看出,通過(guò)在模型中加入LN增強(qiáng)模型的穩(wěn)定性可以提升字幕生成的準(zhǔn)確度。
表1 不同情況下LN在MSCOCO數(shù)據(jù)集上的效果對(duì)比
本文提出的具有OA模塊的Refining 模型和沒(méi)有OA模塊的Refining 模型與其他3種提出的對(duì)比方法作了比較,如表2所示。從表中可以看出,具有OA模塊的Refining 模型分別在評(píng)價(jià)指標(biāo)BLEU-1、BLEU-3、BLEU-4、METEOR上取得了最優(yōu)值。與沒(méi)有OA模塊的Refining 模型對(duì)比提升效果也較為明顯,這正說(shuō)明了OA模塊在Refining模型中的重要性和對(duì)生成高質(zhì)量字幕的有效性。
表2 不同方法在MSCOCO數(shù)據(jù)集上的效果對(duì)比
表3所示為模型生成的字幕,從表3中前三張圖片及其生成字幕可以看出,當(dāng)圖片中的目標(biāo)較少、目標(biāo)較大或能準(zhǔn)確識(shí)別目標(biāo)時(shí),網(wǎng)絡(luò)可以準(zhǔn)確的的描述出圖片中的內(nèi)容。后3張圖片可以看出當(dāng)圖中目標(biāo)較多、目標(biāo)較小或者不能準(zhǔn)確識(shí)別目標(biāo)時(shí),就較難描述出目標(biāo)之間的關(guān)系,從而導(dǎo)致所生成的字幕對(duì)于描述圖片中的內(nèi)容效果不佳。對(duì)于這些出現(xiàn)的問(wèn)題也是今后圖像字幕生成所要研究的方向。
表3 模型生成字幕與真實(shí)字幕的對(duì)比
1)優(yōu)化注意力機(jī)制(OA)模塊能關(guān)注和測(cè)量圖像中目標(biāo)之間的聯(lián)系,以及提高對(duì)圖像背景信息的關(guān)注和信息的利用率,從而更全面的描述圖像內(nèi)容。
2)實(shí)驗(yàn)結(jié)果表明,本文提出的OA模塊能有效提升生成字幕地準(zhǔn)確性,模型在MS COCO數(shù)據(jù)集上訓(xùn)練和驗(yàn)證,并在BLEU-1和METEOR評(píng)價(jià)指標(biāo)分別達(dá)到了75.2%和27.5%的結(jié)果。