国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像中文摘要生成方法

2017-03-12 08:30:46劉澤宇馬龍龍
中文信息學(xué)報 2017年6期
關(guān)鍵詞:標(biāo)簽模態(tài)神經(jīng)網(wǎng)絡(luò)

劉澤宇,馬龍龍,吳 健,孫 樂

(1. 中國科學(xué)院 軟件研究所 中文信息處理研究室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100190)

0 引言

自然語言處理(natural language processing,NLP)和計算機視覺(computer vision,CV)是當(dāng)前的研究熱點。NLP集中于理解自然語言,對文本產(chǎn)生過程建模,實現(xiàn)分詞、詞性標(biāo)注、命名實體識別、句法分析和多語言機器翻譯等。CV則集中于理解圖像或視頻,實現(xiàn)分類、目標(biāo)檢測、圖像檢索、語義分割和人體姿態(tài)估計等。最近融合文本和圖像信息的多模態(tài)處理問題引起了研究者的極大興趣。圖像的自然語言描述(Image Captioning)是多模態(tài)處理的關(guān)鍵技術(shù),它能夠完成圖像到文本的多模態(tài)轉(zhuǎn)換,幫助視覺障礙者理解圖像內(nèi)容。該技術(shù)最早由Farhadi[1]等人提出,給定二元組(I,S),其中I表示圖像,S表示摘要句子,模型完成從圖像I到摘要句子S的多模態(tài)映射I→S。該任務(wù)對于人類來說非常容易,但給機器帶來了巨大挑戰(zhàn),因為模型不僅要理解圖像的內(nèi)容,還要產(chǎn)生人類可讀的摘要句子。

當(dāng)前的研究主要針對圖像生成英文摘要,對于中文摘要的生成方法研究較少。由于中文詞語含義豐富,句子結(jié)構(gòu)復(fù)雜,因此圖像的中文描述問題更具有難度。本文在現(xiàn)有研究的基礎(chǔ)上提出了基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的中文摘要生成模型。編碼過程中,使用單標(biāo)簽視覺特征提取網(wǎng)絡(luò)和多標(biāo)簽關(guān)鍵詞預(yù)測網(wǎng)絡(luò)提取多模態(tài)特征。解碼過程中,融合多個神經(jīng)網(wǎng)絡(luò)的輸出生成摘要。本文的貢獻在于構(gòu)建了基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像中文摘要生成模型,探索了序列模型中特征融合的方法,驗證了本文方法在中文圖像摘要任務(wù)上的良好性能。

1 相關(guān)工作

當(dāng)前的圖像摘要算法大致可以分為三類,分別是基于檢索(retrieval-based)的方法、基于模板(template-based)的方法和基于神經(jīng)網(wǎng)絡(luò)(neural network-based)的方法。

1.1 基于檢索的方法

基于檢索的方法早期研究較多,該方法將圖像摘要問題看作信息檢索問題。算法在數(shù)據(jù)集C中尋找查詢圖像Iq的相似子集M=(Im,Sm),合理地組織摘要句子集Sm,輸出Iq的摘要結(jié)果Sq。Ordonez[2]等人在規(guī)模為一百萬的圖像摘要數(shù)據(jù)庫中檢索,提出了首個模型IM2TEXT。Torralba[3]等人構(gòu)建了Tiny Image數(shù)據(jù)庫,該數(shù)據(jù)庫使用WordNet中的單詞為每張圖像建立多個標(biāo)簽。Gupta[4]等人從圖像Iq提取短語描述,并將短語描述作為關(guān)鍵詞,在摘要數(shù)據(jù)集內(nèi)檢索輸出Sq。Hodosh[5]等人提出KCCA方法學(xué)習(xí)多模態(tài)空間表示,該方法使用核函數(shù)提取高維特征,并使用最近鄰方法進行檢索。

1.2 基于模板的方法

基于模板的方法用計算機視覺技術(shù)檢測出圖像中的對象,預(yù)測對象的屬性和相互關(guān)系,識別圖像中可能發(fā)生的行為,最后用模板生成摘要句子。E-lliott[6]等人提出了首個基于模板的方法VDR,該方法用依存圖表示對象之間的關(guān)系,同時使用句法依存樹生成摘要。Desmond[7]等人改進了VDR方法,提出了從數(shù)據(jù)自動生成依存圖的算法。Kulkarni[8]等人提出了Baby Talk模型,該模型使用檢測器識別對象、屬性和相互關(guān)系,采用CRF算法打標(biāo)簽,最后使用模板生成摘要。Mitchell[9]等人使用圖像檢測技術(shù)生成多個短語片段,然后使用句法樹和替換規(guī)則生成圖像摘要。

1.3 基于神經(jīng)網(wǎng)絡(luò)的方法

基于神經(jīng)網(wǎng)絡(luò)的方法來源于機器翻譯,這些方法大都由編碼器和解碼器組成。編碼器獲取圖像的特征表示,解碼器產(chǎn)生句子。Mao[10]等人提出了基于神經(jīng)網(wǎng)絡(luò)的圖像摘要生成模型m-RNN,該模型使用CNN對圖像建模,使用RNN對句子建模,并使用多模態(tài)空間為圖像和文本建立關(guān)聯(lián)。Vinyals[11]等人提出了谷歌NIC模型,該模型將圖像和單詞投影到多模態(tài)空間,并使用長短時記憶網(wǎng)絡(luò)生成摘要。Jia[12]等人提出模型gLSTM,該模型使用語義信息引導(dǎo)長短時記憶網(wǎng)絡(luò)生成摘要。Xu[13]等人將注意力機制引入解碼過程,使得摘要生成網(wǎng)絡(luò)能夠捕捉圖像的局部信息。Li[14]等人構(gòu)建了首個中文圖像摘要數(shù)據(jù)集Flickr8k-CN,并提出中文摘要生成模型CS-NIC,該方法使用GoogleNet[15]對圖像進行編碼,并使用長短時記憶網(wǎng)絡(luò)對摘要生成過程建模。

2 多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像摘要生成模型

現(xiàn)有的圖像摘要生成模型大多基于編碼器解碼器架構(gòu),編碼器對圖像進行編碼得到視覺特征,解碼器對視覺特征進行解碼生成句子,從而完成從圖像到文本的多模態(tài)轉(zhuǎn)換。本文充分利用多模態(tài)信息,編碼過程同時提取圖像特征和文本特征,解碼過程融合多模態(tài)特征對摘要建模。

2.1 模型框架

圖1所示是多模態(tài)神經(jīng)網(wǎng)絡(luò)摘要生成模型的框架。編碼器由兩個神經(jīng)網(wǎng)絡(luò)組成,一個是單標(biāo)簽視覺特征提取網(wǎng)絡(luò),另一個是多標(biāo)簽關(guān)鍵詞特征預(yù)測網(wǎng)絡(luò)。視覺特征V(I)∈n是單標(biāo)簽分類網(wǎng)絡(luò)的隱藏層輸出,刻畫了圖像的深層視覺特征,側(cè)重于視覺信息,采用實數(shù)向量編碼。關(guān)鍵詞特征W(I)=[w1,w2,…,wm],0≤wi≤1是多標(biāo)簽分類網(wǎng)絡(luò)的輸出層結(jié)果,反映了關(guān)鍵詞在摘要中出現(xiàn)的概率,側(cè)重于文本信息,采用概率向量編碼。解碼器由多模態(tài)摘要生成網(wǎng)絡(luò)構(gòu)成,該網(wǎng)絡(luò)融合單標(biāo)簽視覺特征和多標(biāo)簽關(guān)鍵詞特征,輸出是圖像的中文句子摘要。編碼器基于卷積神經(jīng)網(wǎng)絡(luò)對特征建模,解碼器基于長短時記憶網(wǎng)絡(luò)對序列建模。由于中文摘要數(shù)據(jù)集規(guī)模有限,使用協(xié)同訓(xùn)練的方法降低了神經(jīng)網(wǎng)絡(luò)的泛化性,因此三個神經(jīng)網(wǎng)絡(luò)在不同的數(shù)據(jù)集上單獨訓(xùn)練。對于足夠大的摘要數(shù)據(jù)集,協(xié)同訓(xùn)練是理想的選擇。

圖1 多模態(tài)神經(jīng)網(wǎng)絡(luò)摘要生成模型框架

2.2 單標(biāo)簽視覺特征提取網(wǎng)絡(luò)

對于多模態(tài)數(shù)據(jù)集C中圖像I,單標(biāo)簽視覺特征提取網(wǎng)絡(luò)CNNV(I)完成了I→V(I)∈n的特征映射,其中網(wǎng)絡(luò)輸入為圖像I,輸出為視覺特征向量V(I)。視覺特征提取網(wǎng)絡(luò)CNNV采用GoogleNet Inception V3[16]結(jié)構(gòu)。單標(biāo)簽視覺特征提取網(wǎng)絡(luò)使用了遷移學(xué)習(xí)的思想,該網(wǎng)絡(luò)在大規(guī)模單標(biāo)簽分類數(shù)據(jù)集ImageNet[17]上進行訓(xùn)練,在圖像中文摘要數(shù)據(jù)集Flickr8k-CN上測試。與訓(xùn)練過程不同,測試過程中提取的視覺特征向量V(I)是神經(jīng)網(wǎng)絡(luò)隱藏層特征,能夠體現(xiàn)圖像模態(tài)的整體信息。對于多模態(tài)數(shù)據(jù)集C中原始圖像I,首先對圖像進行縮放和裁剪,得到大小為299×299的三通道RGB彩色圖像I′。然后使用表1描述的結(jié)構(gòu)對圖像I′進行處理,該結(jié)構(gòu)使用不同的Inception模塊組處理輸入矩陣,將多個模塊組的處理結(jié)果拼接起來得到高度結(jié)構(gòu)化的特征表示。最后通過池化層對特征進行聚合得到圖像的整體特征??紤]到單標(biāo)簽分類任務(wù)和視覺特征提取任務(wù)的差異性,我們使用Dropout正則化和歸一化處理(batch normalization, BN)[18]來提高模型在摘要數(shù)據(jù)集上的泛化能力。表1給出了單標(biāo)簽視覺特征提取網(wǎng)絡(luò)的設(shè)置。

2.3 多標(biāo)簽關(guān)鍵詞特征預(yù)測網(wǎng)絡(luò)

表1 單標(biāo)簽視覺特征提取網(wǎng)絡(luò)的設(shè)置

down(·)用下采樣函數(shù)對每組特征的平均值進行計算。線性層對xk進行投影,最后通過sigmoid函數(shù)輸出關(guān)鍵詞特征W(I):

如圖2所示, 訓(xùn)練過程在多模態(tài)圖像摘要數(shù)據(jù)

集上進行,多分類標(biāo)簽用摘要的分詞結(jié)果構(gòu)建,相應(yīng)關(guān)鍵詞出現(xiàn)記為1。對于T個關(guān)鍵詞特征和N個訓(xùn)練數(shù)據(jù)(Ii,Li),其中i={1,…,N},Li=(li1,li2,…,liT),神經(jīng)網(wǎng)絡(luò)的損失函數(shù)可以表示為式(4)形式:

圖2 多標(biāo)簽關(guān)鍵詞預(yù)測網(wǎng)絡(luò)

2.4 多模態(tài)摘要生成網(wǎng)絡(luò)

對于視覺特征V(I)和關(guān)鍵詞特征W(I),多模態(tài)摘要生成網(wǎng)絡(luò)RNN(V(I),W(I))完成了V(I),W(I)→S(I)的映射,其中S(I)為圖像I的中文摘要。本文使用長短時記憶網(wǎng)絡(luò)對摘要生成過程建模,網(wǎng)絡(luò)t時刻的計算過程為ht,ct=LSTM(xt-1,ht-1,ct-1),其中xt∈d為t時刻的輸入,ct∈d為細(xì)胞單元狀態(tài),ht∈d為隱藏單元狀態(tài),LSTM(·)函數(shù)表示為下列形式:

(5)

其中,it∈d為輸入門,ft∈d為遺忘門,ot∈d為輸出門。根據(jù)長短時記憶網(wǎng)絡(luò)的特點,本文提出四種基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的摘要生成的方法CNIC-X、CNIC-C、CNIC-H和CNIC-HC。如圖3所示,t>-1時,對摘要句子中詞向量st∈z做投影,當(dāng)作t時刻的輸入,即xt>-1=WSst。t=-1時,多模態(tài)摘要生成網(wǎng)絡(luò)對特征進行融合,計算t=0時刻的隱狀態(tài)h0和c0,四種多模態(tài)摘要生成方法如下。

(1) CNIC-X將視覺信息和關(guān)鍵詞信息相加作為t=-1時刻的輸入x-1。其中WV和WW為投影矩陣。

(2) CNIC-H將視覺信息作為t=-1時刻的輸入x-1,并使用關(guān)鍵詞信息W(I)對t=-1時刻的隱藏單元狀態(tài)h-1初始化:

(3) CNIC-C與CNIC-H類似,使用關(guān)鍵詞信息W(I)對t=-1時刻的細(xì)胞單元狀態(tài)c-1初始化:

圖3 多模態(tài)摘要生成網(wǎng)絡(luò)

(4) CNIC-HC使用關(guān)鍵詞信息W(I)對t=-1 時刻的隱狀態(tài)h-1和c-1同時進行初始化:

多模態(tài)摘要生成網(wǎng)絡(luò)將t時刻的輸出ot作為p(st|s0,…,st-1,W(I),V(I))的概率估計,訓(xùn)練的目標(biāo)是使似然函數(shù)J(θ)最大化,從而估計模型參數(shù)θ:

3 實驗與結(jié)果

本節(jié)在圖像中文摘要數(shù)據(jù)集上進行實驗,對多個模型的摘要生成質(zhì)量進行評測。實驗中比較的模型包括谷歌NIC[11]、人民大學(xué)CS-NIC[14]以及本文提出的CNIC、CNIC-X、CNIC-H、CNIC-C、CNIC-HC和CNIC-Ensemble。

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集為Flickr8k-CN*http://lixirong.net/datasets/flickr8kcn,該數(shù)據(jù)集是雅虎英文數(shù)據(jù)集Flickr8k的中文擴展,圖像數(shù)據(jù)來源于雅虎的相冊網(wǎng)站Flickr,數(shù)據(jù)集包含8 000張圖像,每張圖像都有五個人工標(biāo)注的中文摘要,從不同的角度描 述圖 像的內(nèi)容(見表2)。本文遵循文獻[14]中的方法來構(gòu)造訓(xùn)練集、驗證集和測試集。其中訓(xùn)練集6 000張圖片,共3萬個句子描述,驗證集和測試集各1 000張圖片,共1萬個句子描述。此外,測試集包含了人工標(biāo)注的結(jié)果以及對英文數(shù)據(jù)集人工翻譯的結(jié)果,與文獻[14]一致,本文同時針對上述兩種測試集進行評測。

表2 Flickr8kCN數(shù)據(jù)集中圖像與摘要示例

3.2 實驗設(shè)置

(1) 單標(biāo)簽視覺特征提取網(wǎng)絡(luò)設(shè)置

該網(wǎng)絡(luò)在大規(guī)模單標(biāo)簽分類任務(wù)ImageNet[17]上進行訓(xùn)練,使用衰減率為0.9的RMSProp優(yōu)化算法進行學(xué)習(xí),初始學(xué)習(xí)率為0.045。測試過程中,該網(wǎng)絡(luò)在圖像摘要數(shù)據(jù)集上提取特征,特征向量為網(wǎng)絡(luò)隱藏層輸出。

(2) 多標(biāo)簽關(guān)鍵詞預(yù)測網(wǎng)絡(luò)設(shè)置

訓(xùn)練集6 000張圖像3萬條摘要共包含 270 463個單詞,詞典大小為4 473??紤]到低頻詞訓(xùn)練數(shù)據(jù)較少,本文僅保留詞頻大于40的高頻詞作為多分類標(biāo)簽。如表3所示,最終過濾后的類標(biāo)簽共四類319個。本文使用帶有動量的隨機梯度下降算法學(xué)習(xí)模型參數(shù), 其中批處理個數(shù)為10,動量值為0.9,初始學(xué)習(xí)率為0.01,同時實驗使用了權(quán)值衰減算法改進訓(xùn)練過程,衰減比例為0.000 5。各參數(shù)的初值從高斯分布N(0,0.01)中抽樣得到,在訓(xùn)練過程中不斷更新,直至收斂。

表3 高頻詞特征

(3) 多模態(tài)摘要生成網(wǎng)絡(luò)設(shè)置

本文將詞頻數(shù)大于4的1 559個單詞作為集內(nèi)詞構(gòu)建詞向量字典,同時將其他低頻詞當(dāng)作集外詞。詞向量字典使用矩陣表示,本文對1 559個單詞進行編號,序列開始符“”和結(jié)束符“”編號為0,集外詞編號為1,從而建立單詞編號到矩陣行向量的映射關(guān)系,矩陣的每個行向量對應(yīng)一個單詞。模型采用Tensorflow框架搭建,神經(jīng)網(wǎng)絡(luò)輸入詞向量維數(shù)N=512,長短時記憶網(wǎng)絡(luò)節(jié)點個數(shù)H=512,詞向量和模型參數(shù)的初值從[0, 0.08]的均勻分布中抽樣得到,實驗采用初始學(xué)習(xí)率為1的隨機梯度下降算法訓(xùn)練。此外,本文使用了學(xué)習(xí)率衰減算法,衰減率為0.5。詞向量和各模型參數(shù)在訓(xùn)練過程中不斷更新,直至收斂。測試過程中,柱搜索算法棧大小為3。

(4) 評測指標(biāo)

本文使用BLEU-1,2,3,4[21]、METEOR[22]、Rouge[23]和CIDEr[24]六種指標(biāo)衡量摘要生成結(jié)果的質(zhì)量。其中BLEU指數(shù)同時采用了長度懲罰和非長度懲罰的計算結(jié)果,它反映了生成結(jié)果與參考答案之間的N元文法準(zhǔn)確率。METEOR測度基于單精度加權(quán)調(diào)和平均數(shù)和單字召回率。Rouge與BLEU類似,它是基于召回率的相似度衡量方法。CIDEr是基于共識的評價方法,優(yōu)于上述其他指標(biāo)。

3.3 實驗結(jié)果與分析

本節(jié)分別評估了基于單標(biāo)簽視覺特征編碼的谷歌NIC、人民大學(xué)CS-NIC,基于多標(biāo)簽關(guān)鍵詞特征編碼的CNIC,以及基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的CNIC-X、CNIC-H、CNIC-C、CNIC-HC模型。其中CNIC僅考慮關(guān)鍵詞信息編碼,在解碼過程中,將W(I)作為序列t=-1時刻的輸入對摘要生成過程建模。本節(jié)進行了三方面比較分析,主要包括:

(1) 基于視覺特征編碼的NIC、CS-NIC與基于關(guān)鍵詞特征編碼的CNIC性能比較,主要分析使用圖像的不同信息編碼對于摘要生成結(jié)果的影響;

(2) 基于多模態(tài)融合的摘要生成模型與基于單一特征編碼的NIC、CNIC和CS-NIC的性能比較,主要驗證多模態(tài)融合方法的有效性;

(3) 基于多模態(tài)融合的不同方法CNIC-X、CNIC-H、CNIC-C、CNIC-HC之間的性能比較,主要分析幾種多模態(tài)融合方法的優(yōu)劣。

圖4 各模型在驗證集上的困惑度隨迭代次數(shù)變化的曲線

本文遵循文獻[11]的方法,使用模型在驗證集上的困惑度選取最優(yōu)模型。如圖4所示,NIC在10萬次迭代達(dá)到最優(yōu),CNIC-H、CNIC-C和CNIC-HC在13萬次迭代達(dá)到最優(yōu),CNIC、CNIC-X在17萬次迭代達(dá)到最優(yōu)。由于文獻[14]沒有提供驗證集上的相關(guān)信息,本文無法繪制CS-NIC的困惑度曲線。

如圖5所示,本文使用文獻[25]中的類別激活映射方法(class activation map, CAM),對概率最大的七個關(guān)鍵詞特征可視化。關(guān)鍵詞特征的可視化結(jié)果能夠反映特征在圖像中的位置信息, 例如特征“人”的可視化結(jié)果中激活程度較高的區(qū)域描繪了“人”所在的位置;特征“草地”的可視化結(jié)果中,激活程度較高的區(qū)域勾勒出了“草地”的輪廓。

圖6給出了CNIC-HC模型的中文摘要生成結(jié)果,我們用柱狀圖表示了概率最大的八個關(guān)鍵詞特征。圖(a)和(b)是成功的摘要生成結(jié)果;圖(c)和(d)是失敗的摘要生成結(jié)果,圖(c)的結(jié)果中沒有體現(xiàn)“人”站在“河馬”身上的信息,而圖(d)的結(jié)果中沒有出現(xiàn)“驢”這一實體。經(jīng)過統(tǒng)計,“河馬”和“驢”在訓(xùn)練語料中的詞頻為0和4,由于詞頻小于5為集外詞,所以生成結(jié)果中不包含“河馬”或“驢”這兩個單詞。

圖6 CNIC-HC模型生成的中文摘要結(jié)果示例

表4給出了各模型在人工標(biāo)注的測試集上的實驗結(jié)果,可以看到使用單標(biāo)簽視覺特征編碼的NIC優(yōu)于使用多標(biāo)簽關(guān)鍵詞特征編碼的CNIC,而采用多模態(tài)融合的方法性能優(yōu)于使用單個模態(tài)編碼的模型,CNIC-HC優(yōu)于其他融合方法。CNIC-Ensemble代表模型CNIC-X、CNIC-H、CNIC-C、CNIC-HC集成的結(jié)果,對于各模型生成的摘要,本文選取最大概率的結(jié)果輸出。表中括號內(nèi)的BLEU值是使用長度懲罰因子(Brevity Penalty, BP)的結(jié)果,括號外的BLEU值沒有使用長度懲罰因子。文獻[14]中沒有對BLEU-4、METEOR、Rouge和CIDEr進行測評,因此本文無法列出CS-NIC的這些指標(biāo)。

表4 各模型在人工標(biāo)注的測試集上的性能比較

表5給出了各模型在人工翻譯的測試集上的性能比較,實驗結(jié)果與表4基本一致,使用單標(biāo)簽視覺特征編碼優(yōu)于使用多標(biāo)簽關(guān)鍵詞特征編碼,使用關(guān)鍵詞特征能夠顯著提高模型性能,CNIC-HC優(yōu)于其他多模態(tài)融合方法。本文提出的多模態(tài)融合方法優(yōu)于現(xiàn)有的中文摘要生成模型,在該數(shù)據(jù)集上集成模型取得了最好結(jié)果。由于翻譯結(jié)果與標(biāo)注結(jié)果存在差異,各模型均在人工標(biāo)注的數(shù)據(jù)集上進行訓(xùn)練,所以表5的各項參數(shù)低于表4。通過觀察可以發(fā)現(xiàn)翻譯的句子長度大于標(biāo)注的句子長度,因此可能包含更多的摘要信息。

表5 各模型在人工翻譯的測試集上的性能比較

4 結(jié)束語

本文提出了基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像中文摘要生成方法,我們使用單標(biāo)簽視覺特征提取網(wǎng)絡(luò)和多標(biāo)簽關(guān)鍵詞預(yù)測網(wǎng)絡(luò)改進編碼過程,使用長短時記憶網(wǎng)絡(luò)融合多模態(tài)信息。本文提出四種多模態(tài)融合模型CNIC-X、CNIC-H、CNIC-C和CNIC-HC,在8 000張圖像4萬條摘要信息的Flickr8k-CN數(shù)據(jù)集上實驗。結(jié)果表明本文提出的模型產(chǎn)生了更好的中文摘要結(jié)果。

目前,我們提出的模型在視覺特征提取中僅考慮圖像的全局特征,沒有利用局部特征。在未來的工作中,我們將引入注意力機制,綜合考慮圖像的全局特征和局部特征生成目標(biāo)摘要。

[1] Ali Farhadi, Seyyed Mohammad, Mohsen Hejrati, et al. Every picture tells a story: Generating sentences from images[C]//Proceedings Part IV of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece: Springer, 2010:15-29.

[2] Vicente Ordonez, Girish Kulkarni, Tamara L B. Im2Text: Describing images using 1 million captioned photographs[C]//Proceedings of the Advances in Neural Information Processing Systems: 25th Annual Conference on Neural Information Processing Systems Granada, Spain: NIPS,2011: 1143-1151.

[3] Torralba A, Fergus R, Freeman W T. 80 million tiny images: A large data set for nonparametric object and scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(11):1958-1970.

[4] Gupta A, Mannem P. From image annotation to image description[C]//Proceedings of Neural Information Processing- 19th International Conference, ICONIP 2012. Doha,Qatar:Springer, 2012, 7667:196-204.

[5] Micah Hodosh, Julia Hockenmaier. Sentence-based image description with scalable, explicit models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR Workshops 2013. Portland, OR, USA:IEEE,2013: 294-300.

[6] Elliott D, Keller F. Image description using visual dependency representations[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013. Seattle, Washington, USA:ACL,2013: 1292-1302.

[7] Desmond Elliott, Arjen P. de Vries. Describing images using inferred visual dependency representations[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing. Beijing, China: The Association for Computer Linguistics, 2015: 42-52.

[8] Girish Kulkarni, Visruth Premraj, Vicente Ordonez, et al. BabyTalk: Understanding and generating simple image descriptions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013,35(12): 2891-2903.

[9] Margaret Mitchell, Jesse Dodge, Amit Goyal, et al. Midge: Generating image descriptions from computer vision detections[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France: ACL, 2012: 747-756.

[10] Mao J, Xu W, Yang Y, et al. Deep captioning with multimodal recurrent neural networks (m-rnn)[J]. arXiv preprint arXiv:1412.6632, 2014.

[11] Oriol Vinyals, Alexander Toshev, Samy Bengio, et al. Show and tell: A neural image caption generator [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015: 3156-3164.

[12] Jia X, Gavves E, Fernando B, et al. Guiding the long-short term memory for image caption generation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015: 2407-2415.

[13] Kelvin Xu, Jimmy Ba, Ryan Kiros, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France:JMLR.org,2015:2048-2057.

[14] Li Xirong, Lan Weiyu, Dong Jianfeng, et al. Adding Chinese captions to images[C]//Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval. New York, USA:ACM,2016: 271-275.

[15] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France:JMLR.org,2015: 1-9.

[16] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE, 2016:2818-2826.

[17] Olga Russakovsky, Jia Deng, Hao Su, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 115(3): 211-252.

[18] Sergey Ioffe, Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France:JMLR.org,2015: 448-456.

[19] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXivpreprint arXiv:1409.1556, 2014.

[20] Bisiani R. Search, beam. Encyclopedia of Artificial Intelligence. 2nd edt. 1992: 1467-1468.

[21] Kishore Papineni, Salim Roukos, Todd Ward, et al. Bleu: A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, PA, USA:ACL,2002: 311-318.

[22] Michael Denkowski Alon Lavie. Meteor universal: Language specific translation evaluation for any target language. Michael J. Denkowski, Alon Lavie. Meteor Universal: Language Specific Translation Evaluation for Any Target Language [C]//Proceedings of the 9th Workshop on Statistical Machine Translation, Baltimore, Maryland, USA: A C,2014: 376-380.

[23] Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries [C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics. Barcelona, Spain: ACL, 2004:10-18.

[24] Ramakrishna V C. Lawrence Zitnick, Devi Parikh. CIDEr: Consensus-based image description evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015: 4566-4575.

[25] Zhou Bolei, Aditya Khosla,gata Lapedriza, et al. Learning deep features for discriminative localization[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE Computer Society, 2016: 2921-2929.

猜你喜歡
標(biāo)簽模態(tài)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
標(biāo)簽化傷害了誰
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于多進制查詢樹的多標(biāo)簽識別方法
計算機工程(2015年8期)2015-07-03 12:20:27
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
丹棱县| 金平| 高要市| 古蔺县| 会东县| 开封县| 二连浩特市| 高青县| 永登县| 九台市| 玉门市| 苏尼特左旗| 德保县| 策勒县| 社会| 大兴区| 太和县| 颍上县| 齐齐哈尔市| 宾川县| 西充县| 子洲县| 邯郸县| 黔西| 东源县| 望江县| 托里县| 同德县| 海丰县| 宁城县| 苍梧县| 天峻县| 农安县| 梅州市| 图片| 广德县| 长葛市| 长寿区| 汉沽区| 甘谷县| 开远市|