基于優(yōu)化注意力機(jī)制的圖像字幕生成方法研究

2021-06-02 08:57周之平

南昌航空大學(xué)學(xué)報(bào)（自然科學(xué)版） 2021年1期

陳彪，周之平，葉琴

（南昌航空大學(xué) 信息工程學(xué)院，南昌 330063）

引言

圖像字幕[1-4]生成任務(wù)是針對(duì)一幅給定的圖像生成一段文本描述語(yǔ)句，它不僅能準(zhǔn)確地表達(dá)圖像中的物體及其相互關(guān)系，而且在語(yǔ)法和用詞上盡可能接近人類標(biāo)準(zhǔn)。與視覺(jué)問(wèn)答（Visual Question Answering，VQA）[5-8]類似，圖像字幕生成任務(wù)也屬于多模態(tài)學(xué)習(xí)任務(wù),它涉及到計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)研究領(lǐng)域。注意力機(jī)制在處理圖像特征信息時(shí)可以強(qiáng)調(diào)或選擇處理重要信息，并且抑制一些無(wú)關(guān)信息，這對(duì)優(yōu)化圖像特征信息有顯著效果，所以注意力機(jī)制被廣泛應(yīng)用于圖像字幕生成任務(wù)中。本文在多頭注意力機(jī)制上引入注意力優(yōu)化模塊來(lái)產(chǎn)生準(zhǔn)確度更高的描述語(yǔ)句，并在MS COCO[9]數(shù)據(jù)集上對(duì)算法性能進(jìn)行驗(yàn)證和比較。

1 相關(guān)工作

目前圖像字幕生成任務(wù)主要是基于神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)的，該任務(wù)通常使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）作為圖像編碼器，將提取的圖像特征輸送到作為解碼器的遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）中去預(yù)測(cè)句子。這種方法抽象度高，泛化能力強(qiáng)，同時(shí)生成的語(yǔ)句靈活度高，不受固定句式影響，更接近人類的表達(dá)。隨著人工智能的發(fā)展，圖像字幕生成在圖像特征提?。ň幋a器）和詞匯預(yù)測(cè)（解碼器）方面都有了提高。目前的解碼器大多都是以循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）為基礎(chǔ)構(gòu)造的，如LSTM（Long-short Term Memory，長(zhǎng)短期記憶）網(wǎng)絡(luò)或者GRU（Gate Recurrent Unit，門控循環(huán)單元）網(wǎng)絡(luò)，這兩種網(wǎng)絡(luò)都是為了解決長(zhǎng)期記憶和梯度消失、爆炸等問(wèn)題而提出的。圖像字幕生成任務(wù)為了提升生成語(yǔ)句的準(zhǔn)確度，通常在編碼器或者解碼器模型中加入注意力機(jī)制和其他網(wǎng)絡(luò)結(jié)構(gòu)。

1.1 LSTM網(wǎng)絡(luò)

自Hochreiter等[10]提出LSTM網(wǎng)絡(luò)以來(lái)，LSTM在處理序列到序列的任務(wù)，尤其是在處理文本信息和自然語(yǔ)言任務(wù)有著突出的貢獻(xiàn)。目前在圖像字幕生成任務(wù)中，LSTM網(wǎng)絡(luò)常用于解碼圖像特征信息。Oriol Vinyals等[11]提出了一種基于神經(jīng)網(wǎng)絡(luò)的圖像字幕生成的方法，在LSTM網(wǎng)絡(luò)中增加細(xì)胞門、輸入門、輸出門、忘記門；通過(guò)細(xì)胞狀態(tài)記憶信息，減少梯度消失和梯度爆炸的可能性，避免信息的丟失，從而能多利用圖像特征信息生成準(zhǔn)確度高的語(yǔ)句。Mahmoud等[12]提出雙向網(wǎng)格LSTM網(wǎng)絡(luò)，將網(wǎng)格LSTM的空間特征和本地區(qū)域文本集成到一起，第一層對(duì)全局場(chǎng)景(例如對(duì)象存在)進(jìn)行建模，第二層利用基于另一個(gè)網(wǎng)格LSTM的新穎動(dòng)態(tài)空間關(guān)注機(jī)制來(lái)逐字生成全局字幕。

1.2 注意力機(jī)制

由于注意力機(jī)制在處理圖像特征領(lǐng)域獲得的突破性進(jìn)展，在隨后的研究過(guò)程中，研究人員開(kāi)始嘗試將注意力機(jī)制引入到圖像字幕生成中。Xu等[13]提出的基于注意力的模型，自動(dòng)學(xué)習(xí)描述圖像內(nèi)容，使用標(biāo)準(zhǔn)反向傳播技術(shù)以確定性方式訓(xùn)練模型，并通過(guò)最大化變分下界隨機(jī)訓(xùn)練模型和利用可視化展示模型在生成序列中相應(yīng)單詞的同時(shí)，自動(dòng)學(xué)習(xí)將注意力集中在圖像中的突出目標(biāo)上。You等[14]提出的語(yǔ)義注意，有選擇地學(xué)習(xí)關(guān)注語(yǔ)義概念的建議并將其融入到隱藏層中和遞歸神經(jīng)網(wǎng)絡(luò)的輸出中，選擇和融合形成一個(gè)反饋連接，自上而下和自下而上的計(jì)算。Lu等[15]提出了一種新的基于視覺(jué)哨兵（visual sentinel）的自適應(yīng)注意模型，在每個(gè)時(shí)間步驟中，該模型決定是否關(guān)注圖像（如果是，則是哪些區(qū)域）或是視覺(jué)哨兵；模型決定是否關(guān)注圖像以及關(guān)注哪里，以便提取有意義的信息進(jìn)行連續(xù)的單詞生成。

注意力機(jī)制在當(dāng)前的圖像描述編碼器-解碼器框架中得到廣泛使用，但傳統(tǒng)的注意力機(jī)制在處理圖像特征時(shí)，關(guān)注于圖像中目標(biāo)之間的聯(lián)系，而非目標(biāo)之間的聯(lián)系程度，這將使得生成過(guò)多的無(wú)關(guān)信息向量，從而影響生成語(yǔ)句的準(zhǔn)確度。由于在處理圖像特征時(shí)，多頭注意力（Mutil-head Attention）機(jī)制[16]能對(duì)輸入的圖像特征信息進(jìn)行多次計(jì)算，優(yōu)化圖像特征信息，并且能提高模型的學(xué)習(xí)性能。因此本文針對(duì)多頭注意力模型，對(duì)其注意力模塊進(jìn)行優(yōu)化，以拓展常規(guī)的注意力機(jī)制，以此提升所生成的描述語(yǔ)句的準(zhǔn)確度。

2 本文方法

圖1 具有Refining模塊的編/解碼器框架

本文提出的圖像字幕生成網(wǎng)絡(luò)模型如圖1所示。在編碼器中首先經(jīng)過(guò)Faster R-CNN[17]提取輸入圖像的特征信息；然后將特征信息饋送給Refining（優(yōu)化）模塊產(chǎn)生關(guān)注信息，最后利用解碼器（Decoder）對(duì)關(guān)注信息進(jìn)行解碼生成一條描述語(yǔ)句。

2.1 編碼器

圖1中Refining模塊為引入優(yōu)化注意力模塊（Optimize Attention，OA）的多頭注意力模型。下面將對(duì)OA模塊和Refining?？爝M(jìn)行詳細(xì)闡述。

1）OA（Optimize Attention）模塊;

注意力模型從宏觀上可以理解為一個(gè)查詢（query）到一系列鍵值對(duì) ＜ key,value ＞的映射。傳統(tǒng)的注意力模塊輸出每個(gè)查詢的加權(quán)平均值，即使在沒(méi)有相關(guān)向量的情況下，注意力模塊仍然會(huì)產(chǎn)生加權(quán)平均向量，它們可能是不相關(guān)的，甚至是誤導(dǎo)信息。無(wú)關(guān)的信息會(huì)忽視圖像中目標(biāo)之間的關(guān)聯(lián)程度，影響對(duì)圖像內(nèi)容的正確描述。Huang等[18]提出通過(guò)“信息向量”和“注意門”進(jìn)行逐元素相乘生成關(guān)注信息來(lái)關(guān)注圖像中目標(biāo)之間的聯(lián)系，但該方法生成的關(guān)注信息會(huì)過(guò)多的關(guān)注圖像中的目標(biāo)而忽略圖像中的背景信息，造成信息的丟失和降低信息的利用率，最后影響生成語(yǔ)句的準(zhǔn)確率。本文提出的優(yōu)化注意力模塊在其基礎(chǔ)之上進(jìn)行改進(jìn)，使其不僅能夠更多的關(guān)注圖像中目標(biāo)之間的的聯(lián)系和測(cè)量圖像中目標(biāo)之間的關(guān)聯(lián)程度，還能增強(qiáng)對(duì)圖像中的背景信息的關(guān)注度和提高信息利用率來(lái)更好的描述圖像內(nèi)容。

在Huang[18]的基礎(chǔ)上，通過(guò)將生成的關(guān)注信息再與“信息向量”進(jìn)行逐元素相乘來(lái)提高圖像對(duì)背景信息的關(guān)注度，如圖2所示，OA模塊如圖中虛線框所示。

圖2 優(yōu)化的多頭注意力模型

在圖2中，Q、K和V是提取的圖像特征向量A的三個(gè)單獨(dú)的線性投影，在多頭注意力中經(jīng)過(guò)獨(dú)立計(jì)算生成各自的注意結(jié)果，然后將注意結(jié)果進(jìn)行拼接結(jié)合得到關(guān)注結(jié)果。OA模塊用來(lái)測(cè)量關(guān)注結(jié)果和查詢之間的相關(guān)性，關(guān)注結(jié)果再加上當(dāng)前的上下文(即查詢)通過(guò)Concat（結(jié)合）生成關(guān)注向量，為降低計(jì)算復(fù)雜度，關(guān)注向量通過(guò)線性變換降維，然后生成一個(gè)“信息向量”I和一個(gè)“注意門”G，再使用逐元素乘法將“注意門”應(yīng)用于“信息向量”來(lái)產(chǎn)生關(guān)注信息I?，最后將關(guān)注信息I?與“信息向量”I逐元素相乘生成一個(gè)新的關(guān)注信息。其中“注意門”G作為門控來(lái)控制“信息向量”I中的信息輸出，對(duì)I中有用信息向量進(jìn)行加權(quán)關(guān)注?！靶畔⑾蛄俊盜與關(guān)注信息I?進(jìn)行點(diǎn)乘目的在于增強(qiáng)關(guān)注信息I?對(duì)圖像背景信息的關(guān)注，提高信息的利用率。具體計(jì)算公式如下：

2）Refining模塊。

對(duì)于一幅輸入圖像，首先使用基于Faster-RCNN的網(wǎng)絡(luò)提取一組圖像特征向量A={a1,a2,…,ak}，其中ai的維度為D，k表示A中的向量數(shù)（k=100）。與文獻(xiàn)[13]不同的是，本文將提取的圖像特征向量經(jīng)過(guò)Refining模塊優(yōu)化后作為解碼器的輸入，而不是將提取的特征向量直接輸送給解碼器，具體如圖3所示，Refining模塊如圖虛線框所示。

圖3 Refining模塊

編碼器中的OA模塊，稱為OAD。由上可知，經(jīng)由多頭注意力產(chǎn)生的關(guān)注結(jié)果通過(guò)OA塊優(yōu)化后生成關(guān)注信息Iˉ；將圖像特征A和OAD模塊產(chǎn)生的關(guān)注信息Iˉ相加然后經(jīng)過(guò)Layer Normalization(LN，層歸一化)[19]生成特征向量A?，其中LN的作用為降低模型計(jì)算時(shí)間，提高模型的訓(xùn)練速度和精度，公式如下：

2.2 解碼器

Xu等[13]提出的解碼器網(wǎng)絡(luò)結(jié)構(gòu)在解碼圖像特征信息并引導(dǎo)其生成字幕時(shí)，網(wǎng)絡(luò)結(jié)構(gòu)中的注意力機(jī)制指導(dǎo)模型集中關(guān)注信息中重要的子區(qū)域，忽略對(duì)字幕生成無(wú)關(guān)的信息，從而提高生成字幕質(zhì)量。因此本文采用該網(wǎng)絡(luò)結(jié)構(gòu)對(duì)提取的圖像特征信息進(jìn)行解碼并生成描述語(yǔ)句。公式如下：

式中，it，ft，ct，ot和ht分別是輸入門，忘記門，細(xì)胞狀態(tài)，輸出門和LSTM中的隱藏層信息。fatt是模型中的注意力機(jī)制，ht?1是上一時(shí)刻隱藏層的信息，A?是從編碼器輸出的圖像特征向量，zt是上下文向量。本文用I表示圖像，C表示描述該圖像N個(gè)詞匯(y1,y2,…yN)的集合，采用的損失函數(shù)如下所示：

式中p(yt+1|yt)=softmax(Wht)和ht=LSTM(Eyt,ht?1,zt)，W是線性矩陣，E是嵌入式矩陣，yt是生成的單詞向量。首先每個(gè)t時(shí)刻的隱藏層信息，都由t-1時(shí)刻的隱藏層信息，t時(shí)刻的上下文向量和單詞向量經(jīng)過(guò)LSTM單元輸出，其中t=-1時(shí)刻的隱藏層信息為圖像特征向量A?。然后生成的t時(shí)刻隱藏層信息經(jīng)過(guò)softmax函數(shù)輸出預(yù)測(cè)單詞的概率。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文在流行的MS COCO數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了實(shí)驗(yàn)，MS COCO數(shù)據(jù)集包含123 287張圖片，平均每個(gè)圖像都帶有5個(gè)標(biāo)題，訓(xùn)練集包括82 783張圖片和驗(yàn)證集包括40 504張圖片。MS COCO包含9957個(gè)詞匯，所描述的是綜合性圖片主題。本文中使用訓(xùn)練集進(jìn)行模型的訓(xùn)練，在測(cè)試階段，基于Karpathy和Li[20]提出的測(cè)試方法，使用整個(gè)驗(yàn)證集來(lái)衡量模型性能和測(cè)試，并且將在訓(xùn)練集中出現(xiàn)至少5次的單詞納入單詞表。

3.2 評(píng)價(jià)指標(biāo)

為了能夠更加準(zhǔn)確地評(píng)價(jià)生成結(jié)果，選用BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR等5種評(píng)價(jià)指標(biāo)，同時(shí)通過(guò)與不同方法對(duì)比，更加直觀地體現(xiàn)出本文提出方法在生成結(jié)果上的提高。

3.3 實(shí)驗(yàn)細(xì)節(jié)

經(jīng)過(guò)多次實(shí)驗(yàn)確定最終的模型參數(shù)，輸入圖像特征的原始維度為2048，通過(guò)線性映射之后D=1024，這同樣也是LSTM在解碼器中隱藏層的維數(shù)。對(duì)于訓(xùn)練過(guò)程，在損失函數(shù)下訓(xùn)練Refining模塊30周期，最小批處理為256個(gè)，使用Adam[21]優(yōu)化方法優(yōu)化模型，并且η=0.002，β=(0.9,0.997)。

3.4 實(shí)驗(yàn)結(jié)果分析

由于Layer Normalization（LN，層歸一化）能提高模型的訓(xùn)練速度和精度，使得模型更加穩(wěn)健，在模型中加入LN，并且驗(yàn)證其對(duì)字幕生成的影響。在不同情況和BLEU-1、METEOR兩個(gè)評(píng)價(jià)指標(biāo)下進(jìn)行對(duì)比，得分越高說(shuō)明模型效果更好，具體如表1所示。通過(guò)表1可以看出OA與LN的結(jié)合生成字幕的效果最好，并且有LN比沒(méi)有LN的模型效果都提高了（雖然提高的不多）。由此可以看出，通過(guò)在模型中加入LN增強(qiáng)模型的穩(wěn)定性可以提升字幕生成的準(zhǔn)確度。

表1 不同情況下LN在MSCOCO數(shù)據(jù)集上的效果對(duì)比

本文提出的具有OA模塊的Refining 模型和沒(méi)有OA模塊的Refining 模型與其他3種提出的對(duì)比方法作了比較，如表2所示。從表中可以看出，具有OA模塊的Refining 模型分別在評(píng)價(jià)指標(biāo)BLEU-1、BLEU-3、BLEU-4、METEOR上取得了最優(yōu)值。與沒(méi)有OA模塊的Refining 模型對(duì)比提升效果也較為明顯，這正說(shuō)明了OA模塊在Refining模型中的重要性和對(duì)生成高質(zhì)量字幕的有效性。

表2 不同方法在MSCOCO數(shù)據(jù)集上的效果對(duì)比

表3所示為模型生成的字幕，從表3中前三張圖片及其生成字幕可以看出，當(dāng)圖片中的目標(biāo)較少、目標(biāo)較大或能準(zhǔn)確識(shí)別目標(biāo)時(shí)，網(wǎng)絡(luò)可以準(zhǔn)確的的描述出圖片中的內(nèi)容。后3張圖片可以看出當(dāng)圖中目標(biāo)較多、目標(biāo)較小或者不能準(zhǔn)確識(shí)別目標(biāo)時(shí)，就較難描述出目標(biāo)之間的關(guān)系，從而導(dǎo)致所生成的字幕對(duì)于描述圖片中的內(nèi)容效果不佳。對(duì)于這些出現(xiàn)的問(wèn)題也是今后圖像字幕生成所要研究的方向。

表3 模型生成字幕與真實(shí)字幕的對(duì)比

4 結(jié)論

1）優(yōu)化注意力機(jī)制（OA）模塊能關(guān)注和測(cè)量圖像中目標(biāo)之間的聯(lián)系，以及提高對(duì)圖像背景信息的關(guān)注和信息的利用率，從而更全面的描述圖像內(nèi)容。

2）實(shí)驗(yàn)結(jié)果表明，本文提出的OA模塊能有效提升生成字幕地準(zhǔn)確性，模型在MS COCO數(shù)據(jù)集上訓(xùn)練和驗(yàn)證，并在BLEU-1和METEOR評(píng)價(jià)指標(biāo)分別達(dá)到了75.2%和27.5%的結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡