圖像的文本描述方法研究綜述

2018-05-29 07:45:36馬龍龍韓先培

中文信息學(xué)報 2018年4期

馬龍龍,韓先培,孫樂

(中國科學(xué)院軟件研究所中文信息處理實驗室，北京 100190)

0 引言

隨著可拍照移動智能終端的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展，融合視覺和文本信息的多模態(tài)數(shù)據(jù)在急劇增加，例如，帶文本標(biāo)注的照片、報紙文章中的圖文對照內(nèi)容、帶標(biāo)題的視頻以及社交媒體出現(xiàn)的多模態(tài)交互數(shù)據(jù)。多模態(tài)機(jī)器學(xué)習(xí)(multi modal machine learning)為機(jī)器提供了處理多模態(tài)數(shù)據(jù)的能力，多模態(tài)學(xué)習(xí)的長遠(yuǎn)目標(biāo)是使機(jī)器充分感知環(huán)境，更智能地和環(huán)境進(jìn)行交互。當(dāng)前多模態(tài)處理包括圖像/視頻的文本描述、基于視覺的問答和看圖講故事等任務(wù)。本文聚焦于多模態(tài)學(xué)習(xí)中的圖像文本描述(image captioning)[1]方法。使用圖像文本描述方法可以有效組織圖像數(shù)據(jù)，結(jié)合文本信息檢索技術(shù)方便地對海量圖像數(shù)據(jù)進(jìn)行搜索，能夠從幻燈片中的圖片讀懂演講者所講的內(nèi)容。此外，使用圖像文本描述方法可以幫助視覺障礙者理解圖像。

圖像的文本描述也是計算機(jī)視覺和自然語言處理領(lǐng)域的交叉任務(wù)，能夠完成從圖像到文本的多模態(tài)轉(zhuǎn)換，最早由Farhadi[2]等人提出。該任務(wù)可具體形式化描述為：給定二元組(I,S)，其中I表示圖像，S表示圖像的文本描述句子，模型完成從圖像I到描述句子S的多模態(tài)映射I→S。該任務(wù)對于人類來說非常容易，但是卻給機(jī)器帶來了巨大挑戰(zhàn)，因為機(jī)器不僅要理解圖像的內(nèi)容，還要產(chǎn)生人類可讀的描述性句子。

圖像的文本描述方法可用來分析圖像中的視覺內(nèi)容并產(chǎn)生文本描述。典型任務(wù)是用一句話描述圖像中出現(xiàn)的視覺對象、對象屬性及對象之間的關(guān)系；給出圖像中描述情境的特征，提供圖像的情境背景知識，如室內(nèi)還是戶外；描述圖像中出現(xiàn)的對象之間的相互關(guān)系，甚至推理出圖像中未出現(xiàn)的內(nèi)容。例如，圖像內(nèi)容為火車站候車室，人們在等候火車，雖然圖像中并未出現(xiàn)火車，但是自動生成的文本描述中可能出現(xiàn)火車字樣。而傳統(tǒng)的圖像理解任務(wù)主要集中于發(fā)現(xiàn)并分割出圖像中的對象、確定對象的屬性、計算圖像情境的屬性和識別出現(xiàn)在圖像中的人與對象的相互關(guān)系。圖像理解的結(jié)果為無結(jié)構(gòu)的標(biāo)簽列表，無法直接用于圖像的文本描述。

圖1給出了MS COCO[3]數(shù)據(jù)集中圖像的英文文本描述實例。在該實例中，要生成圖像的文本描述句子，首先需要模型能夠分析圖像，理解圖像中出現(xiàn)的對象、動作、屬性和場景等信息，通過選擇并執(zhí)行一定的語義和語法規(guī)則，生成概括性的描述句子。

圖像的文本描述不但需要理解圖像內(nèi)容，而且需要實現(xiàn)內(nèi)容選擇、內(nèi)容組織，以及用語言生動表現(xiàn)出所要表達(dá)內(nèi)容的自然語言產(chǎn)生過程，因此圖像的文本描述句子需要滿足以下三個條件。

(1) 正確描述圖像內(nèi)容。

(2) 產(chǎn)生的文本描述必須類似于人類的描述，而且能夠較好地描述個性化的特征，例如，對于同一幅圖片，藝術(shù)評論顯然不同于一般的娛樂性雜志撰稿。

(3) 產(chǎn)生的圖像文本描述能夠盡可能地包含不同視角、人類對圖像各個層次的理解。

縱觀國內(nèi)外研究人員關(guān)于圖像的文本描述方法的研究，根據(jù)所處階段的關(guān)鍵技術(shù)不同及文本描述方法的不同，我們將圖像的文本描述方法分為以下三大類。

(1) 基于生成的方法(generation-based method)。該方法分為檢測過程和生成過程。檢測過程基于圖像特征檢測圖像中出現(xiàn)的對象、對象屬性、圖像表達(dá)內(nèi)容的場景和行為等信息；生成過程使用這些信息驅(qū)動自然語言產(chǎn)生系統(tǒng)輸出圖像的文本描述。

(2) 基于檢索的方法(retrieval-based method)。為了生成圖像的文本描述，該方法檢索數(shù)據(jù)庫中與輸入圖像相似的圖像集，基于檢索到的相似圖像集的文本描述，用最相似的檢索結(jié)果合理組織生成圖像的文本描述。

(3) 基于編碼—解碼的方法(encoder-decoder method)。該方法以深度學(xué)習(xí)為基礎(chǔ)，采用編碼—解碼的方式直接生成文本描述。這種方法需要大規(guī)模的訓(xùn)練語料支撐，生成的文本描述形式多種多樣，不受限于固定的語言模板。

本文其余章節(jié)結(jié)構(gòu)如下：第一～三節(jié)分別詳細(xì)介紹了基于生成的方法、基于檢索的方法和基于編碼—解碼的方法；第四節(jié)闡述了圖像文本描述的數(shù)據(jù)集和評測標(biāo)準(zhǔn)；第五節(jié)對主要開源工具包進(jìn)行簡介；第六節(jié)分析目前圖像的文本描述所要解決的關(guān)鍵問題及研究難點(diǎn)；第七節(jié)為結(jié)束語。

1 基于生成的方法

基于生成的方法用計算機(jī)視覺技術(shù)檢測出圖像中的對象，預(yù)測對象的屬性和相互關(guān)系，識別圖像中可能發(fā)生的行為，然后用特定的模板、語言模型或句法模型生成圖像的文本描述句子。

該方法依賴于預(yù)先設(shè)定的場景對象、對象屬性以及行為等語義類別，根據(jù)句子生成方法的不同又可分為基于模板的方法、基于句法分析的方法和基于語言模型的方法。

1.1 基于模板的方法

基于模板的方法需要預(yù)先設(shè)置包含多個需要用對象關(guān)系和屬性標(biāo)簽去填充的模板，這些對象關(guān)系和屬性標(biāo)簽形成空槽，對空槽進(jìn)行填充，形成圖像的文本描述句子。

Kulkarni[4]等人提出Baby Talk模型，該模型使用檢測器識別對象、屬性和相互關(guān)系，采用CRF算法預(yù)測標(biāo)簽，最后使用模板生成文本描述。Kuznetsova[5]等人學(xué)習(xí)訓(xùn)練集已有的句子描述產(chǎn)生樹形句子片段，測試時與新生成的文本描述再組合，產(chǎn)生最終的圖像文本描述。Yang[6]等人用隱馬爾科夫模型選擇可能的對象、動詞、介詞及場景類型填充句子模板。

1.2 基于句法分析的方法

基于句法分析的方法首先檢測對象、對象屬性、對象之間空間關(guān)系、圖像場景類型、對象行為等，然后使用依存句法樹/圖驅(qū)動句子的各個部件逐步生成完整的描述句子。

Elliott[7]等人提出首個基于句法分析的方法VDR(visual dependency representation)，該方法用依存圖表示對象之間的關(guān)系，將圖像解析為VDR，然后遍歷VDR并考慮VDR與依存句法樹的約束關(guān)系填充句子模板的空槽，從而生成圖像的文本描述。Elliott[8]等人進(jìn)一步改進(jìn)了VDR方法，提出了從數(shù)據(jù)自動生成依存圖的方法，該方法通過使用圖像和文本數(shù)據(jù)自動學(xué)習(xí)圖像中對象的顏色、紋理和形狀等屬性，并對各屬性按打分進(jìn)行排序。該方法的優(yōu)勢是解決了VDR方法對大量人工標(biāo)注數(shù)據(jù)的依賴問題。Mitchell[9]等人把圖像文本描述問題看作是VDR句子對的機(jī)器翻譯問題，執(zhí)行顯式的圖像內(nèi)容選擇和語法約束，用帶約束的整數(shù)規(guī)劃方法得到圖像的文本描述。

1.3 基于語言模型的方法

基于語言模型的方法首先生成若干句子中可能出現(xiàn)的短語，然后依賴語言模型對這些短語片段進(jìn)行組織，從而生成圖像的文本描述。

Kulkarni[4]等人首先確定圖像中的對象、屬性和介詞等相關(guān)信息，將其表示成元組，然后使用預(yù)先訓(xùn)練好的N-gram語言模型生成流暢的文本描述句子。同樣，Li[10]等人先產(chǎn)生多個句法合理的句子片段并用維基百科數(shù)據(jù)訓(xùn)練N-gram語言模型，然后組合這些句子片段產(chǎn)生最終的圖像文本描述。Fang[11]等人提出基于最大熵語言模型生成圖像文本描述的方法，該方法首先使用多實例學(xué)習(xí)的方法生成若干單詞，然后使用最大熵語言模型確定已知若干單詞的條件下最可能產(chǎn)生的文本描述句子。

最近得益于深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展，越來越多的方法采用RNN作為語言模型，RNN是基于時序的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，相比于傳統(tǒng)的N-gram語言模型，RNN能夠捕獲任意長度的上下文信息，而不僅僅局限于前后n個上下文單詞。關(guān)于RNN語言模型的方法我們將在第三節(jié)詳細(xì)描述。

1.4 小結(jié)

基于生成的方法在檢測過程中依賴于概念檢測的質(zhì)量，在生成過程中受限于人工設(shè)計的模板、不完備的語言模型以及有限的句法模型，因而，該方法生成的文本描述句子單一，不具有多樣性。

2 基于檢索的方法

基于檢索的方法將圖像的文本描述問題看作信息檢索問題，即在數(shù)據(jù)集C中尋找查詢圖像Iq的相似子集M=(Im,Sm)，其中Im表示圖像集，Sm表示圖像對應(yīng)的文本描述集，通過合理地組織Sm輸出查詢圖像Iq的文本描述結(jié)果Sq。

根據(jù)圖像表示方法和相似度計算方法，基于檢索的方法進(jìn)一步分為基于視覺空間的檢索方法和基于多模態(tài)空間的檢索方法。

2.1 基于視覺空間的檢索方法

基于視覺空間的檢索方法利用圖像視覺特征的相似性，從訓(xùn)練圖像集中查詢，得到候選圖像集，然后利用候選圖像集中的圖像和文本信息生成圖像的文本描述，具體步驟如下：

(1) 用特定視覺特征表示輸入圖像；

(2) 從訓(xùn)練圖像集中基于視覺特征空間相似性度量標(biāo)準(zhǔn)檢索得到候選圖像集；

(3) 利用包含在候選集的圖像和文本信息，根據(jù)一定規(guī)則或方法組合生成圖像的候選文本描述，最后對圖像的候選文本描述進(jìn)行排序，選取最優(yōu)結(jié)果。

Torralba[12]等人構(gòu)建了Tiny Image數(shù)據(jù)庫，該數(shù)據(jù)庫使用WordNet中的單詞為每張圖像建立多個標(biāo)簽。Kuznetsova[13]等人基于Tiny Image數(shù)據(jù)庫來描述查詢圖像，檢索視覺相似性圖像集。大多數(shù)基于視覺空間的檢索方法以這個步驟為基準(zhǔn)，然后用對象行為檢測及場景分類器對候選圖像進(jìn)行處理，將視覺和短語識別結(jié)果作為特征，根據(jù)排序算法得到最優(yōu)文本描述。

Verma[14]等人使用RGB、HSV顏色直方圖、Gabor和Haar描述、GIST和SIFT描述作為圖像視覺特征，利用這些圖像視覺特征的相似性得到圖像的文本描述信息。候選圖像的文本描述劃分為一定類型的短語，如主語、介詞、賓語等，查詢圖像的最優(yōu)描述，由圖像相似性、谷歌搜索計數(shù)值以及圖像三元組構(gòu)成的聯(lián)合概率分布確定。

Ordonez[15]等人提出了Im2Text模型，并在規(guī)模為一百萬的圖像文本描述數(shù)據(jù)庫中進(jìn)行檢索。Patterson[16]等人構(gòu)造了大規(guī)模場景屬性數(shù)據(jù)集，在該數(shù)據(jù)集上訓(xùn)練屬性分類器作為圖像文本描述的全局屬性特征，通過擴(kuò)展Im2Text模型，可產(chǎn)生更好的圖像檢索和文本描述結(jié)果。Mason[17]等人使用該場景屬性描述方法，先從訓(xùn)練集中找出視覺相似的圖像，基于相似圖像集的文本描述采用概率密度估計的方法預(yù)測描述句子中單詞的條件概率。最終查詢圖像的文本描述使用兩種方法得到，一種方法基于SumBasic模型[18]，另一種方法由查詢圖像的單詞條件概率分布與候選圖像集描述概率分布的K-L散度最小化得到。

Yagcioglu[19]等人提出組合分布語義平均查詢擴(kuò)展方法，圖像特征表示由卷積神經(jīng)網(wǎng)絡(luò)VGG-CNN(visual geometry group convolutional neural network)[20]得到，圖像特征為在ImageNet數(shù)據(jù)集上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)最后一層計算激活函數(shù)值得到，查詢圖像的文本描述由相似性檢索得到圖像集的分布式表示得到，權(quán)值為查詢圖像與檢索訓(xùn)練圖像之間的相似性。Devlin[21]等人使用VGG-CNN最后一層激活函數(shù)作為全局圖像描述特征，用K近鄰方法確定查詢圖像的視覺相似圖像集。計算相似度時，用訓(xùn)練集中圖像和查詢圖像的N-gram重疊F測度作為度量距離標(biāo)準(zhǔn)，查詢圖像的文本描述由具有最高平均n元重疊F測度得到，也就是K近鄰中心描述。

2.2 基于多模態(tài)空間的檢索方法

基于多模態(tài)空間的檢索方法分為兩步：

(1) 用訓(xùn)練集上的圖像和對應(yīng)的文本描述學(xué)習(xí)多模態(tài)空間表示；

(2) 給定查詢圖像，在圖像和對應(yīng)文本描述的聯(lián)合表示空間進(jìn)行圖像和文本模態(tài)的交叉檢索，即查詢圖像得到圖像的文本描述和查詢句子可得到對應(yīng)的圖像內(nèi)容。

Hodosh[22]等人提出KCCA(kernel canonical correlation analysis)方法學(xué)習(xí)多模態(tài)空間表示，該方法使用核函數(shù)提取高維特征，并將圖像的文本描述問題看作檢索問題，使用最近鄰方法進(jìn)行檢索，最后對候選文本綜合排序，產(chǎn)生圖像的文本描述結(jié)果。該方法需要保存核矩陣，只適用于小規(guī)模數(shù)據(jù)集。Socher[23]等人用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像—句子聯(lián)合隱嵌入空間，分別學(xué)習(xí)圖像和文本模態(tài)表示，然后再映射到多模態(tài)空間。Socher[24]等人進(jìn)一步提出一種基于KCCA的半監(jiān)督視覺語義對齊模型，該模型能夠使用少量的標(biāo)注數(shù)據(jù)和大量的無標(biāo)注數(shù)據(jù)訓(xùn)練，完成單詞和圖像區(qū)域的對齊。單詞和圖像區(qū)域被映射到多模態(tài)空間，根據(jù)EM算法估計模型參數(shù)，多模態(tài)特征相似的單詞和圖像區(qū)域顯式地對齊。

Karpathy[25]等人考慮嵌入細(xì)粒度單元，即圖像中對象對應(yīng)的依存樹嵌入共有子空間，最終模型集成了全局圖像—句子特征和對象—部分句子依存樹局部特征。Kiros[26]等人基于深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生文本描述，使用LSTM遞歸神經(jīng)網(wǎng)絡(luò)計算句子特征，用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，將圖像特征投影到LSTM隱狀態(tài)空間，神經(jīng)網(wǎng)絡(luò)語言模型從多模態(tài)空間產(chǎn)生查詢圖像的文本描述。

2.3 小結(jié)

基于檢索的方法能夠很好地利用訓(xùn)練數(shù)據(jù)集，當(dāng)訓(xùn)練集與測試集相關(guān)性較高時效果顯著。該方法依賴于大規(guī)模的訓(xùn)練語料，產(chǎn)生的文本描述局限于訓(xùn)練集的描述文本。

3 基于編碼—解碼的方法

近幾年，基于編碼—解碼的方法在計算機(jī)視覺和自然語言處理等領(lǐng)域都有廣泛的應(yīng)用。基于編碼—解碼方法的圖像文本描述過程分為兩步。

(1) 編碼階段：用深度卷積神經(jīng)網(wǎng)絡(luò)CNN提取圖像的視覺特征；

(2) 解碼階段：基于提取的圖像視覺特征作為解碼階段的輸入，利用RNN/LSTM輸出圖像的文本描述句子。

Vinyals[27]等人提出了谷歌NIC模型，該模型將圖像和單詞投影到多模態(tài)空間，并使用長短時記憶LSTM網(wǎng)絡(luò)生成文本描述。Xu[28]等人提出模型gLSTM，該模型使用語義信息引導(dǎo)長短時記憶LSTM網(wǎng)絡(luò)生成文本描述。Li[30]等人構(gòu)建了首個中文圖像文本描述數(shù)據(jù)集Flickr8kCN，并提出中文文本描述生成模型CS-NIC，該方法使用GoogLeNet[19]對圖像進(jìn)行編碼，并使用長短時記憶LSTM網(wǎng)絡(luò)對圖像生成過程建模。Donahue[31]等人提出的學(xué)習(xí)模型把靜態(tài)圖像和圖像文本描述單詞輸入到四層LSTM網(wǎng)絡(luò)。Gan[32]等人提出基于語義組合網(wǎng)絡(luò)的圖像文本描述方法，在文本描述生成過程中引入高層語義概念。Rennie[33]等人提出分兩步生成段落長度的圖像文本描述方法。第一步，LSTM沿時間展開的每個時刻，圖像特征向量都輸入到LSTM，生成表示圖像文本描述句子的單詞向量序列；第二步，將第一步生成的單詞向量序列作為另一個用來生成圖像描述句子的LSTM輸入，這個LSTM通過在序列模型的輸入中加入句子向量來預(yù)測圖像描述句子中的下一個單詞。

根據(jù)編碼和解碼方法不同，基于編碼—解碼的圖像文本描述方法又可分為三種：基于融合的方法、基于注意力的方法以及基于強(qiáng)化學(xué)習(xí)的方法。

3.1 基于融合的方法

基于融合的方法主要是將圖像特征向量和文本描述過程中產(chǎn)生的文本特征向量相融合。融合操作分為三種方式。

(1) 疊加融合：將圖像特征向量和圖像文本描述過程中產(chǎn)生的文本特征向量疊加在一起，形成增廣向量，增廣向量長度是兩個向量長度之和。疊加融合方法直觀、簡便，易于實現(xiàn)，但是如果深度學(xué)習(xí)的層數(shù)較多的話，疊加融合方法使得神經(jīng)網(wǎng)絡(luò)的參數(shù)個數(shù)增加。

(2) 加融合：假定圖像特征向量和圖像文本描述過程中產(chǎn)生的文本特征向量的維數(shù)一樣，將這兩種模態(tài)特征向量的相同下標(biāo)的元素相加，產(chǎn)生一個相同維數(shù)的向量。

(3) 乘融合：假定圖像特征向量和圖像文本描述過程中產(chǎn)生的文本特征向量的維數(shù)一樣，將這兩種模態(tài)特征向量的相同下標(biāo)的元素相乘(element-wise product)，產(chǎn)生一個相同維數(shù)的向量。

融合過程把描述圖像的句子用RNN處理，再與CNN計算得到的圖像特征向量按上述三種融合策略合并，合并后的向量輸入到softmax，最終輸出圖像的文本描述句子。

Kiros[34]等人通過求解圖像特征向量和圖像文本描述過程中產(chǎn)生的文本特征向量最大相似性，把圖像特征向量和圖像文本描述過程中產(chǎn)生的文本特征向量投影到多模態(tài)共有子空間，將對數(shù)雙線性語言模型的輸出、圖像特征向量或者文本特征向量進(jìn)行融合，以便預(yù)測圖像文本描述句子的下一個單詞。Mao[35]等人提出首個基于神經(jīng)網(wǎng)絡(luò)的圖像文本描述生成模型m-RNN，該模型使用CNN對圖像建模，用RNN對句子建模，并使用多模態(tài)空間為圖像和文本建立關(guān)聯(lián)。Hendricks[36]等人也使用了把圖像特征向量和LSTM生成的文本嵌入向量融合形成多模態(tài)空間向量的方法。Tanti[37]等人提出的圖像文本描述方法采用兩種不同融合方式： (1)圖像特征和文本特征融合后作為RNN的輸入；(2)RNN僅處理文本序列，RNN的輸出與圖像特征融合后送入前饋神經(jīng)網(wǎng)絡(luò)產(chǎn)生輸出結(jié)果。實驗結(jié)果表明RNN僅處理文本序列效果較好。

3.2 基于注意力的方法

Xu[38]等人最早將基于注意力的方法引入到圖像的文本描述中，使用卷積層提取基于位置的空間特征，在圖像多個局部區(qū)域和文本句子之間建立關(guān)聯(lián)。文中介紹了兩種基于注意力的方法： Hard attention和Soft attention注意力機(jī)制。解碼使用整個圖像特征向量來初始化LSTM單元。用融合的方式把區(qū)域圖像(指整個圖像中的一塊區(qū)域)輸入到LSTM，使LSTM產(chǎn)生新的狀態(tài)；然后把這個狀態(tài)和區(qū)域圖像融合在一起，以此來預(yù)測圖像文本描述句子中的下一個單詞。圖像特征向量經(jīng)過加權(quán)平均被融合到LSTM的解碼過程中，使得文本描述生成網(wǎng)絡(luò)能夠捕捉圖像的局部信息，提升了圖像文本描述方法的性能。Andrej[39]等人提出對圖像中的多個局部區(qū)域和文本描述片段進(jìn)行顯式對齊，使用RCNN(region convolutional neural network)的方法選取可能的圖像區(qū)域進(jìn)行排序，選擇概率最大的19個作為候選區(qū)域，經(jīng)過仿射變換得到圖像區(qū)域特征，與單詞特征進(jìn)行相似度匹配，使用注意力的思想為每個單詞找到最匹配的圖像區(qū)域。圖像文本描述的生成過程用RNN完成，首先將第一個單詞和圖像特征向量一同輸入RNN中，在其后的輸入中，圖像特征被看作是一個全零向量。

Zhou[40]等人提出一種基于text-conditional注意力機(jī)制的方法，傳統(tǒng)的注意力機(jī)制方法關(guān)注于圖像的局部區(qū)域，而該方法強(qiáng)調(diào)關(guān)注于文本描述句子的某個單詞，使用文本信息改善局部注意力。模型采用td-gLSTM(time-dependent gLSTM)方法，該方法對句子中各單詞的嵌入表示求平均，并與圖像嵌入表示相融合，生成text-conditional guidance信號，該信號用于引導(dǎo)LSTM產(chǎn)生文本描述序列。

Yang[41]等人描述了一種通用的基于注意力機(jī)制的編碼—解碼模型，這個模型可以用來生成圖像描述句子。該方法在編碼—解碼結(jié)構(gòu)中添加了評價網(wǎng)絡(luò)(review network)，評價網(wǎng)絡(luò)基于注意力機(jī)制設(shè)計，每個步驟輸出一個思考向量(thought vector)，思考向量用來作為注意力網(wǎng)絡(luò)的輸入。注意力機(jī)制模型中的圖像子區(qū)域和整個圖像融合后，參與到圖像文本描述生成過程中。

You[42]等人提出一種注意力機(jī)制的圖像文本描述方法，該方法將自底向上和自頂向下的方法相融合?；谡Z義注意(semantic attention)的思想，整個方法有選擇地聚焦于單詞，分別提取圖像整體特征和若干概念的局部特征，將若干局部特征加權(quán)與圖像的整體特征在單詞級執(zhí)行融合，并參與到RNN運(yùn)算過程中。Chen[43]等人基于注意力機(jī)制的編碼-解碼框架提出StructCap模型，通過聯(lián)合訓(xùn)練視覺分析樹、結(jié)構(gòu)語義注意和基于RNN的文本描述生成模塊來改進(jìn)圖像文本描述的性能。Li[44]等人提出一種全局-局部注意的圖像文本描述方法，通過注意力機(jī)制集成圖像層的全局表示和對象層的局部表示。Mun[45]等人提出基于文本引導(dǎo)的注意力模型來生成圖像的文本描述，采用基于實例的學(xué)習(xí)方法獲取相似圖像的文本描述句子集，并通過相似圖像的文本描述句子來學(xué)習(xí)圖像相關(guān)區(qū)域的注意力。

3.3 基于強(qiáng)化學(xué)習(xí)的方法

強(qiáng)化學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的熱點(diǎn)方法，它關(guān)注于智能體如何在環(huán)境中采取一系列行為，從而獲得最大的累積(reward)。

Zhang[46]等人將強(qiáng)化學(xué)習(xí)應(yīng)用在圖像的文本描述生成中，該過程被看作有限馬爾科夫決策過程(Markov decision process, MDP)，決策過程的狀態(tài)值由CNN提取的圖像特征和已經(jīng)生成的文本序列構(gòu)成。訓(xùn)練過程采用actor-critic方法，包括策略網(wǎng)絡(luò)(policy network)和值網(wǎng)絡(luò)(value network)，策略網(wǎng)絡(luò)根據(jù)狀態(tài)值生成一系列決策，值網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)給出策略的reward。圖像文本描述模型首先采用最大似然估計的方法進(jìn)行預(yù)訓(xùn)練，然后使用強(qiáng)化學(xué)習(xí)再優(yōu)化。訓(xùn)練過程使用蒙特卡洛抽樣，根據(jù)采樣序列的CIDEr或BLEU作為reward更新目標(biāo)函數(shù)。

Liu[47]等人提出基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于圖像的文本描述，訓(xùn)練過程采用策略梯度(policy gradient)的方法，策略梯度方法根據(jù)值函數(shù)對策略進(jìn)行改進(jìn)，從而選取最優(yōu)策略。實驗結(jié)果表明，使用BLEU-4、METEOR、CIDEr和SPICE評測標(biāo)準(zhǔn)組合指導(dǎo)最優(yōu)化過程，生成的圖像文本描述質(zhì)量優(yōu)于傳統(tǒng)方法。

Ren[48]等人提出基于決策框架的圖像文本描述方法，利用強(qiáng)化學(xué)習(xí)中的策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)共同來確定執(zhí)行每次決策的下一個單詞的輸出。策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)預(yù)測下一個單詞的概率，值網(wǎng)絡(luò)根據(jù)預(yù)測值給出reward，reward函數(shù)采用視覺語義嵌入(visual semantic embedding)的形式，這種形式能夠評判圖像和句子的相似度，可以作為最終優(yōu)化的全局目標(biāo)，這兩種網(wǎng)絡(luò)的參數(shù)通過基于actor-critic的強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到。

3.4 小結(jié)

基于編碼—解碼的方法生成的句子具有多樣性，不依賴于單一的語言模板，有時甚至可以推理出圖像中未出現(xiàn)的內(nèi)容，例如，火車站候車室中的人們正在等候火車，雖然圖像中并未出現(xiàn)火車，但模型能夠基于圖像的情境信息進(jìn)行推理。

4 數(shù)據(jù)集和評測標(biāo)準(zhǔn)

公開的數(shù)據(jù)集和評測標(biāo)準(zhǔn)對于推動圖像的文本描述方法研究起著至關(guān)重要的作用。本節(jié)將對現(xiàn)有比較有影響力的數(shù)據(jù)集、評測標(biāo)準(zhǔn)和評測組織進(jìn)行小結(jié)。

4.1 數(shù)據(jù)集

當(dāng)前圖像的文本描述數(shù)據(jù)集主要包括英文、德文、日文和中文數(shù)據(jù)集。英文數(shù)據(jù)集包括IAPR-TC12[49]、PASCAL[50]、Flickr8k[22]、SBU[15]、MS COCO[3]、Flickr30k[51]、Visual Genome[52]和Multi30k[53]；德文數(shù)據(jù)集包括IAPR-TC12[49]和Multi30k[53]；日文數(shù)據(jù)集有STAIR[54]；中文數(shù)據(jù)集有Flickr8kCN[29]和AIC-ICC[55]。數(shù)據(jù)集的發(fā)表年份如圖2所示，從發(fā)表年份來看，首先出現(xiàn)英文數(shù)據(jù)集，然后其他研究者逐漸開始構(gòu)建德文數(shù)據(jù)集、日文數(shù)據(jù)集以及中文數(shù)據(jù)集。數(shù)據(jù)集的具體統(tǒng)計情況如表1所示。

數(shù)據(jù)集規(guī)模語言標(biāo)準(zhǔn)劃分Flickr8k8000英有Flickr30k30000英有MSCOCO82783英有SBU1000英無Multi30k31014英、德有PASCAL1000英無IAPR-TC1220000英、德無Flickr8kCN8000中有AIC-ICC300000中有STAIR82783日有VisualGenome108077英無

4.2 評測標(biāo)準(zhǔn)

面向圖像文本描述方法的評測標(biāo)準(zhǔn)主要包括四大類，分別是主流評測標(biāo)準(zhǔn)、概率評測標(biāo)準(zhǔn)、檢索評測標(biāo)準(zhǔn)以及多樣性評測標(biāo)準(zhǔn)(圖3)。下面將對這四種評測標(biāo)準(zhǔn)分別進(jìn)行介紹。

圖3 圖像文本描述的評測標(biāo)準(zhǔn)分類

4.2.1 主流評測標(biāo)準(zhǔn)

目前的研究多采用生成的文本描述句子和參考句子之間的匹配程度來評價圖像文本描述結(jié)果的優(yōu)劣，我們將采用這類方法的評測標(biāo)準(zhǔn)歸為主流評測標(biāo)準(zhǔn)。包括BLEU(bilingual evaluation understudy)[56]、METEOR(metric for evaluation of translation with explicit ordering)[57]、ROUGE(recall-oriented understudy for gisting evaluation)[58]、CIDEr(consensus-based image description evaluation)[59]和SPICE(semantic propositional image caption evaluation)[60]五種衡量指標(biāo)。其中BLEU和METEOR兩種指標(biāo)來源于機(jī)器翻譯，ROUGE來源于文本摘要，而CIDEr和SPICE是依據(jù)圖像文本描述任務(wù)定制的指標(biāo)。

BLEU是基于N-gram共現(xiàn)統(tǒng)計的評測標(biāo)準(zhǔn)。給定生成的圖像文本描述s和多個人工標(biāo)注的參考文本描述Ri，圖像—文本描述對(i,s)的BLEU值是指在n元模型下，圖像文本描述s在參考文本描述Ri上的查準(zhǔn)率。

ROUGE與BLEU類似，它是基于查全率的相似度衡量方法，根據(jù)計算方法的不同又可分為ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。其中ROUGE-N基于N-gram計算查全率；ROUGE-L基于最大公共序列(longest common subsequence, LCS)計算查全率；ROUGE-W與ROUGE-L類似，基于帶權(quán)重的最大公共序列計算查全率；ROUGE-S基于skip-bigram度量參考文本描述與預(yù)測文本描述的共現(xiàn)統(tǒng)計來計算查全率。

CIDEr是基于共識的評測標(biāo)準(zhǔn)，計算n元語言模型(N-gram)在參考描述句子和模型生成待評測句子的共現(xiàn)概率。其目標(biāo)是計算圖像I的生成的測評句子ci與m個參考描述Si={si,1,…,si,m}的一致性。研究證明，CIDEr與人的共識的匹配度好于其他評測標(biāo)準(zhǔn)。

METEOR用于計算圖像描述句子和參考描述句子的相似程度，考慮了單詞精確匹配、詞干、同義詞和釋義等因素，其計算基于單精度加權(quán)調(diào)和平均和單字查全率，相比于基于查全率的BLEU評測標(biāo)準(zhǔn)，METEOR結(jié)果與人工判別結(jié)果更具有相關(guān)性。

SPICE考慮語義命題內(nèi)容(semantic propositional content)，圖像的文本描述應(yīng)包含圖像中存在的各個語義命題。SPICE通過將生成的描述句子和參考句子均轉(zhuǎn)換為基于圖的語義表示，即場景圖，來評價圖像文本描述的質(zhì)量。場景圖提取自然語言中詞法和句法信息，顯式地表示出圖像中包含的對象、屬性和關(guān)系。場景圖的計算過程包含兩個階段：使用預(yù)先訓(xùn)練的依存語法器建立依存句法樹；采用基于規(guī)則的方法將依存句法樹映射為場景圖。

4.2.2 概率評測標(biāo)準(zhǔn)

概率評測標(biāo)準(zhǔn)采用困惑度來評價圖像文本描述的生成質(zhì)量，困惑度也是語言模型常見的評測標(biāo)準(zhǔn)，計算困惑度的公式定義如式(1) 所示。

(1)

這里，P是已知前n-1個單詞得到下一單詞的概率，C為包含|C|個單詞的圖像文本描述句子，I是C所描述的圖像，H是熵函數(shù)。Cn是C中的第n個單詞，C0,…,n-1是從句子起始標(biāo)識符開始的n-1個單詞。為了得到整個測試集的困惑度，可以取測試集中所有圖像描述句子的算術(shù)均值、幾何均值和所有圖像描述句子的困惑度的中值。

4.2.3 多樣性評測標(biāo)準(zhǔn)

生成圖像文本描述時，多樣性評測標(biāo)準(zhǔn)使用了詞匯的多樣性。如果圖像文本描述方法每次產(chǎn)生的文本描述都是一樣的，則這個圖像文本描述方法具有最低多樣性。多樣性評測標(biāo)準(zhǔn)定義為式(2)所示。

(2)

F是1-gram或2-gram的極大似然概率估計，|F|是1-gram或2-gram的個數(shù)，F(xiàn)n是第n個1-gram或2-gram的頻率，熵度量頻率分布的均勻程度，熵越高，分布越均勻。分布越均勻，1-gram或2-gram更可能等比例出現(xiàn)，而在大多數(shù)時候不會只使用很少的幾個單詞，此時，圖像文本描述中出現(xiàn)的單詞的變化會更大，從而使得文本描述具有更大的多樣性。

4.2.4 檢索評測標(biāo)準(zhǔn)

許多模型采用基于檢索的方法生成圖像的文本描述，檢索評測標(biāo)準(zhǔn)能夠很好地衡量基于視覺空間的檢索方法和多模態(tài)空間的檢索方法的性能。檢索評測標(biāo)準(zhǔn)常用的指標(biāo)是正確率和召回率。正確率是衡量某一檢索方法信號噪聲比的指標(biāo)，即相關(guān)結(jié)果占全部結(jié)果的比率。召回率是衡量檢索方法檢出相關(guān)結(jié)果成功度的一項指標(biāo)，即檢出相關(guān)結(jié)果占所有相關(guān)結(jié)果的百分比。

4.3 評測組織

圖像的中文文本描述評測是“AI challenger全球挑戰(zhàn)賽”的五項評測內(nèi)容之一，由創(chuàng)新工場、搜狗、今日頭條三方于2017年聯(lián)合首次主辦*https://challenger.ai/datasets/caption。該評測的主要任務(wù)是針對給定的每一張測試圖片輸出一句話的描述，要求描述句子符合自然語言習(xí)慣，涵蓋圖像中的重要信息，如主要人物、場景、動作等內(nèi)容。對參加評測的系統(tǒng)從客觀指標(biāo)(BLEU, METEOR, ROUGE-L和 CIDEr)和主觀指標(biāo)(Coherence，Relevance，Helpful for Blind)進(jìn)行評價。來自清華大學(xué)的胡曉林團(tuán)隊獲得2017年該競賽任務(wù)的冠軍，在AIC-ICC的測試數(shù)據(jù)集B上取得BLEU-4、CIDEr、METEOR和ROUGE-L值分別為0.746 57、2.145 95、0.431 9和0.721 72。

Microsoft COCO Image Captioning Challenge*https://competitions.codalab.org/competitions/3221#results是微軟于2015年推出的圖像英文文本描述評測，迄今共有103個隊伍參加。參加評測的系統(tǒng)通過評測API平臺提交圖像在MS COCO測試數(shù)據(jù)集的英文文本描述結(jié)果。該平臺將實時展示提交系統(tǒng)的排名。截至2018年2月底，來自騰訊的TencentAI團(tuán)隊暫排系統(tǒng)的第一名，在C5數(shù)據(jù)集上取得BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE-L和CIDEr-D值分別為0.811、0.657、0.508、0.386、0.286、0.587和1.254。

5 主要開源工具包簡介

基于圖像文本描述方法的介紹，對目前的主要開源工具包進(jìn)行簡介，如表2所示。

表2 圖像文本描述的主要開源工具包簡介

續(xù)表

6 關(guān)鍵問題及研究難點(diǎn)

綜上所述，雖然圖像的文本描述研究已經(jīng)取得顯著效果，但對于諸如圖像的視覺概念提取、圖像與文本模態(tài)融合、圖像的跨語言文本描述等子任務(wù)的性能仍有待改進(jìn)。本節(jié)針對現(xiàn)有的圖像文本描述尚存的關(guān)鍵問題和研究難點(diǎn)予以介紹。

(1) 圖像的視覺概念提取

圖像的文本描述是視覺與語言結(jié)合的新任務(wù)，其性能的提升離不開視覺與語言本身的技術(shù)突破。圖像的視覺概念包括圖像類別、場景信息、檢測對象、對象屬性和對象關(guān)系等，視覺概念的提取依賴于計算機(jī)視覺技術(shù)，目前還不十分成熟。而視覺概念的提取是生成圖像文本描述的重要基礎(chǔ)，直接決定圖像文本描述的性能。因此，圖像的視覺概念提取是圖像的文本描述中待解決的關(guān)鍵問題及研究難點(diǎn)。

(2) 圖像與文本模態(tài)融合

圖像的文本描述首先要解決的是語義鴻溝問題，即用單純的圖像視覺特征信息在圖像內(nèi)容的表達(dá)上存在多義性和不確定性問題。圖像中常常隱式或顯式包含文本信息，充分利用與圖像數(shù)據(jù)共現(xiàn)的文本信息，進(jìn)行多模態(tài)的語義分析和相似性度量，是克服語義鴻溝的有效方法。目前已有基于深度神經(jīng)網(wǎng)絡(luò)的多種融合方法(見3.1)，但并未真正深入到圖像與文本在高層語義的融合問題，因此如何對圖像和文本模態(tài)信息進(jìn)行多模態(tài)高層語義融合是圖像的文本描述中待解決的關(guān)鍵問題及研究難點(diǎn)。

(3) 圖像的跨語言文本描述

現(xiàn)有的圖像文本描述方法通常采用基于深度學(xué)習(xí)或機(jī)器學(xué)習(xí)的方法，然而，當(dāng)有標(biāo)記的訓(xùn)練樣本非常少時，這種方法的效果往往較差。而在實際應(yīng)用中，要求針對圖像能夠給出多種語言文字的文本描述來滿足不同母語的用戶需求。目前圖像英文和中文文本描述的訓(xùn)練樣本較多，其他語言文本描述對應(yīng)的標(biāo)記訓(xùn)練樣本較少，若對圖像的每一種語言文本描述進(jìn)行人工標(biāo)記將需要耗費(fèi)大量的人力和時間。因此，如何實現(xiàn)圖像的跨語言文本描述是圖像的文本描述中待解決的關(guān)鍵問題及研究難點(diǎn)。

7 結(jié)束語

圖像的文本描述近幾年得到研究界和企業(yè)界的廣泛關(guān)注，它借助深度學(xué)習(xí)技術(shù)為視覺和語言搭建的橋梁獲得了突飛猛進(jìn)的發(fā)展，其跨越了視覺和語言的領(lǐng)域界限，把直觀上的感知提升到了認(rèn)知的概念范疇。圖像的文本描述能夠提高基于內(nèi)容的圖像檢索效率，擴(kuò)大在醫(yī)學(xué)、安全、軍事等領(lǐng)域的可視化理解應(yīng)用范圍，具有廣闊的應(yīng)用前景。同時，圖像文本描述的理論框架和研究方法可以推動圖像標(biāo)注和視覺問答的理論和應(yīng)用的發(fā)展，具有重要的學(xué)術(shù)和實踐應(yīng)用價值。

圖像的文本描述，不僅需要理解視覺，也需要知道如何對語言進(jìn)行建模。當(dāng)前的主要解決方案是端到端的黑盒子式深度學(xué)習(xí)，并未真正深入到視覺與語言的本質(zhì)問題。如何進(jìn)行視覺與語言的深度語義融合，將有助于提升圖像文本描述的性能，這也是多模態(tài)智能交互的關(guān)鍵步驟，是未來的主要發(fā)展方向。

[1] Bernardi R, Cakici R, Elliott D, et al. Automatic description generation from images: A survey of models, datasets, and evaluation measures[J]. J. Artif. Intell. Res.(JAIR), 2016(55): 409-442.

[2] Farhadi A, Hejrati M, Sadeghi A, et al. Every picture tells a story: Generating sentences from images[C]//Proceedings of Part IV of the 11th European Conference on Computer Vision, 2010:15-29.

[3] Lin T, Maire M, Belongie S, et al. Microsoft Coco: Common objects in context[C]//Proceedings of European Conference on Computer Vision, 2014: 740-755.

[4] Kulkarni G, Premraj V, Dhar S, et al. Baby talk: Understanding and generating simple image descriptions[C]//Proceedings of the 24th IEEE Conference on Computer Vision and Pattern Recognition, 2011: 1601-1608.

[5] Kuznetsova P, Ordonez V, Berg T, et al. TREETALK: Composition and compression of trees for image descriptions [J]. TACL, 2014, (2): 351-362.

[6] Yang Y, Teo C, Daume III H, et al. Corpus-guided sentence generation of natural images[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011: 444-454.

[7] Elliott D, Vries A. Describing images using inferred visual dependency representations[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, 2015: 42-52.

[8] Elliott D, Keller F. Image description using visual dependency representations[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 1292-1302.

[9] Mitchell M, Dodge J, Goyal A, et al. Midge: Generating image descriptions from computer vision detections[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 2012: 747-756.

[10] Li S, Kulkarni G, Berg T, et al. Composing simple image descriptions using Web-scale N-grams[C]//Proceedings of the 15th Conference on Computational Natural Language Learning, CfoNLL 2011. Portland, Oregon, USA, 2011: 220-228.

[11] Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1473-1482.

[12] Torralba A, Fergus R, Freeman W. 80 million tiny images: A large data set for nonparametric object and scene recognition[J]. IEEE TPAMI, 2008, 30(11): 1958-1970.

[13] Kuznetsova P, Ordonez V, Berg A, et al. Collective generation of natural image descriptions[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea, 2012: 359-368.

[14] Verma Y, Gupta A, Mannem P, et al. Generating image descriptions using semantic similarities in the output space[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, CVPR Workshops 2013. Portland, OR, USA, 2013: 288-293.

[15] Ordonez V, Kulkarni G, Berg T. Im2Text: Describing images using 1 million captioned photographs[C]//Proceedings of Advances in Neural Information Processing Systems 24: 25th Annual Conference on Neural Information Processing Systems 2011. Granada, Spain: NIPS, 2011: 1143-1151.

[16] Patterson G, Xu C, Su H, et al. The SUN Attribute Database: Beyond Categories for Deeper Scene Understanding[J]. International Journal of Computer Vision, 2014,108 (1-2): 59-81.

[17] Mason R, Charniak E. Nonparametric method for 143 image captioning[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014. Baltimore, MD, USA, 2014: 592-598.

[18] A Nenkova A,L Vanderwende L. The impact of frequency on summarization[R]. Microsoft Research, 2005.

[19] Yagcioglu S, Erdem E, Erdem A, et al. A distributed representation based query expansion approach for image captioning[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015. Beijing, China, 2015: 106-111.

[20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556, 2014.

[21] Devlin J, Cheng H, Fang H, et al. Language models for image captioning: The quirks and what works[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015. 2015: 100-105.

[22] Hodosh M, Young P, Hockenmaier J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013, (47): 853-899.

[23] Socher R, Li F. Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora[C]//Proceedings of the 23rd IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2010. San Francisco, CA, USA, 2010: 966-973.

[24] Socher R, Karpathy A, Le Q, et al. Grounded compositional semantics for finding and describing images with sentences [J]. Transactions of the Association for Computational Linguistics, 2014, (2): 207-218.

[25] Karpathy A, Joulin A, Li F. Deep fragment embeddings for bidirectional image sentence mapping[C]//Proceedings of Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 1889-1897.

[26] Kiros R, Salakhutdinov R, Zemel R. Unifying visual-semantic embeddings with multimodal neural language models[C]//Proceedings of Advances in Neural Information Processing Systems Deep Learning Workshop, 2015.

[27] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3156-3164.

[28] Xu J, Gawes E, Fernando B, et al. Guiding the long-short term memory model for image caption generation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision, ICCV 2015. Santiago, Chile, 2015: 2407-2415.

[29] Li X, Lan W, Dong J, et al. Adding Chinese captions to images [C]//Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval. New York, USA, 2016: 271-275.

[30] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, USA: IEEE Computer Society, 2015: 1-9.

[31] Donahue J, Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015: 2625-2634.

[32] Gan Z, Gan C, He X,et al. Semantic compositional networks for visual captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, 2017: 5630-5639.

[33] Rennie S, Cui X, Goel V. Efficient non-linear feature adaptation using maxout networks[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China, 2016: 5310-5314.

[34] Kiros R,Zemel R, Salakhutdinov R. A multiplicative model for learning distributed text-based attribute representations[C]//Proceedings of Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 2348-2356.

[35] Mao J, Xu W, Yang Y, et al. Deep captioning with multimodal recurrent neural networks(m-rnn)[J]. arXiv preprint arXiv:1412.6632, 2014.

[36] Hendricks L, Venugopalan S, Rohrbach M, et al. Deep compositional captioning: Describing novel object categories without paired training data[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 1-10.

[37] Tanti M, Gatt A, Camilleri K. What is the role of recurrent neural networks(RNNs) in an image caption generator[J]. arXiv preprint arXiv:1708.02043, 2017.

[38] Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning, 2015: 2048-2057.

[39] Andrej K, Li F. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 3128-3137.

[40] Zhou L, Xu C, Koch P, et al. Watch what you just said: Image captioning with text-conditional attention [J]. arXiv preprint arXiv:1606.04621, 2016.

[41] Yang Z, Yuan Y, Wu Y, et al. Review networks for caption generation[C]//Proceedings of Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems, 2016: 2361-2369.

[42] You Q, Jin H, Wang Z, et al. Image captioning with semantic attention[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 4651-4659.

[43] Chen F, Ji R, Su J,et al. StructCap: structured semantic embedding for image captioning[C]//Proceedings of the ACM Multimedia, Mountain View, CA USA, 2017: 46-54.

[44] Li L, Tang S, Deng L, et al. Image caption with global-local attention[C]//Proceedings of the 31st AAAI Conference on Artificial Inteligence. San Francisco, Californial USA, 2017: 4133-4139.

[45] Mun J, Cho M, Han B. Text-guided attention model for image captioning[C]//Proceedings of the 31st AAAI Conference on Artificial Inteligence. San Francisco, Californial USA, 2017: 4233-4239.

[46] Zhang L, Sung F, Liu F, et al. Actor-critic sequence training for image captioning[J]. arXiv preprint arXiv:1706.09601, 2017.

[47] Liu S, Zhu Z, Ye N, et al. Improved image captioning via policy gradient optimization of Spider[C]//Proceedings of the International Conference on Computer Vision, 2017:873-881.

[48] Ren Z, Wang X, Zhang N. Deep reinforcement learning-based image captioning with embedding reward [J]. arXiv preprint arXiv:1704.03899, 2017.

[49] Grubinger M, Clough P, et al. The IAPR TC-12 benchmark: A new evaluation resource for visual information systems[C]//Proceedings of the International Conference on Language Resources and Evaluation, 2006: 13-23.

[50] Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using amazon’s mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, 2010: 139-147.

[51] Young P, Lai A, Hodosh M, et al, From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions[J].Transactions of the Association for Computational Linguistics, 2014, (2): 67-78.

[52] Krishna R, Zhu Y, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations [J]. International Journal of Computer Vision, 2016, 123(1): 32-73.

[53] Elliott D, Frank S, Sima’an K, Multi30K: Multilingual English-German image descriptions[C]//Proceedings of the 5th Workshop on Vision and Language, 2016: 70-74.

[54] Yoshikawa Y, Shigeto Y, Takeuchi A, STAIR captions: Constructing a large-scale Japanese image caption dataset[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017: 417-421.

[55] Wu J, Zheng H,et al. AI challenger: A large-scale dataset for going deeper in image understanding. arXiv preprint arXiv:1711.06475, 2017.

[56] Papineni K, Roukos S, Ward T, et al. BLEU: A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 311-318.

[57] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005: 65-72.

[58] Lin C. ROUGE: A package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop, 2004: 25-26.

[59] Vedantam R, Zitnick C, Parikh D. CIDEr: Consensus-based image description evaluation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 4566-4575.

[60] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic propositional image caption evaluation[C]//Proceedings of European Conference on Computer Vision. Springer International Publishing, 2016: 382-398.

[61] Fu K, Jin J, Cui R, et al. Aligning where to see and what to tell: Image captioning with region-based attention and scene-specific contexts [J]. IEEE TPAMI, 2017, 39(12): 2321-2334.

[62] Chen L, Zhang H, Xiao J, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6298-6306.

馬龍龍(1980-)，博士，副研究員，主要研究領(lǐng)域為多模態(tài)信息處理與自然語言處理。

E-mail： longlong@iscas.ac.cn

韓先培(1984-)，博士，副研究員，主要研究領(lǐng)域為信息抽取、知識庫構(gòu)建以及自然語言處理。

E-mail： hanxianpei@qq.com

孫樂(1971-)，博士，研究員，主要研究領(lǐng)域為信息檢索與自然語言處理。

E-mail： lesunle@163.com

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡