国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像語義相似性網(wǎng)絡(luò)的文本描述方法

2018-02-27 03:06:39周向東施伯樂
關(guān)鍵詞:隱層相似性語句

劉 暢 周向東 施伯樂

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433)

0 引 言

圖像的文本化描述是指根據(jù)一幅圖像自動(dòng)的生成一句描述性的文字。由于互聯(lián)網(wǎng)上的大部分的數(shù)據(jù)是圖像等非結(jié)構(gòu)數(shù)據(jù),圖像的文本化描述有助于人們從海量圖像中進(jìn)行數(shù)據(jù)挖掘、分析和檢索,是橫跨計(jì)算機(jī)視覺領(lǐng)域和自然語言處理領(lǐng)域的新興的研究方向。該任務(wù)是從圖像中學(xué)習(xí)自然語言,面臨著克服語義鴻溝、圖像文本對(duì)齊、訓(xùn)練模型收斂等挑戰(zhàn)。圖像具有多通道、高維度的特點(diǎn),并且受到光照、分辨率、環(huán)境和噪聲的影響。自然語言具有結(jié)構(gòu),語法多樣規(guī)范,詞匯靈活多變,建立圖像和文本之間的對(duì)應(yīng)關(guān)系是一項(xiàng)極具挑戰(zhàn)的任務(wù)。近年來圖像的文本化描述研究引起了愈來愈多的關(guān)注。

解決圖像的文本化描述問題,常用的方法分為基于檢索和基于語言模型兩種?;跈z索的方法是對(duì)圖像和文本分別進(jìn)行語義分割,利用馬爾科夫隨機(jī)場MRF(Markov Random Field)[1]或者典型關(guān)聯(lián)分析CCA(Canonical Correlation Analysis)[2]等方法,把圖像和文本投影到同一空間,建立對(duì)應(yīng)關(guān)系,從數(shù)據(jù)庫中找到與圖像最匹配的文本?;谡Z言模型的方法可以生成全新的語句,例如使用條件隨機(jī)場提取圖像中的物體、場景和關(guān)系,然后采用模板生成語句。文獻(xiàn)[3-4]提取圖像的卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)特征[5]作為特殊的視覺單詞,采用遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)[6]建立語言模型?;跈z索的方法生成的語句更加自然,依賴大規(guī)模有標(biāo)注的數(shù)據(jù)庫?;谡Z言模型的方法可以靈活的生成全新的語句。目前神經(jīng)網(wǎng)絡(luò)方法在該任務(wù)的實(shí)驗(yàn)效果較好,利用在ImageNet數(shù)據(jù)集上訓(xùn)練好的CNN網(wǎng)絡(luò),提取圖像的全連接層特征[7]。RNN網(wǎng)絡(luò)按照時(shí)間展開,可以直接處理時(shí)序數(shù)據(jù)和構(gòu)建語言模型[4],隱層節(jié)點(diǎn)一般選用LSTM[8]或GRU[9]。采用CNN網(wǎng)絡(luò)和RNN網(wǎng)絡(luò)結(jié)合的方法,可以直接得到圖像和文本的對(duì)應(yīng)關(guān)系,不需要進(jìn)行目標(biāo)檢測、句法分析和模板填充等步驟,是一個(gè)端到端的模型。

傳統(tǒng)方法僅考慮圖像和文本之間的轉(zhuǎn)換過程,由于存在語義鴻溝和缺乏大規(guī)模數(shù)據(jù)集,模型訓(xùn)練困難,預(yù)測的文本與圖像內(nèi)容可能存在較大差異。受到圖像檢索的視覺相似性的啟發(fā)[4],本文考慮數(shù)據(jù)間的相似程度,用相似圖像的語義信息作為補(bǔ)充構(gòu)造語義相似性神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,深入挖掘圖像間和對(duì)應(yīng)文本描述間的相似性信息,并與遞歸神經(jīng)網(wǎng)絡(luò)語言模型相互配合。用圖像CNN特征的余弦距離和BLEU[14]等機(jī)器翻譯指標(biāo)分別衡量圖像間的視覺相似度和語義相似度。把視覺相似度與RNN網(wǎng)絡(luò)生成的文本串聯(lián),作為全連接網(wǎng)絡(luò)的輸入,擬合得到語義相似度。通過引入數(shù)據(jù)間的相似性信息,在預(yù)測階段保持相似圖像的有效語義,從而獲得更好的文本描述。另外,為提高語言模型學(xué)習(xí)能力,增加棧式隱層和普通隱層的深度,最終得到接近人類語言的通順語句。在這種背景下,本文提出圖像語義相似性神經(jīng)網(wǎng)絡(luò)。Flickr30k數(shù)據(jù)集[19]和MSCOCO數(shù)據(jù)集[20]的實(shí)驗(yàn)結(jié)果表明,本文方法在BLEU、ROUGE[15]、METEOR[16]和CIDEr[17]等多數(shù)機(jī)器翻譯評(píng)價(jià)指標(biāo)上超過了Google NIC[3]和log Bilinear[21]等目前主流的方法。

1 相關(guān)工作

Farhadi等提出圖像的文本化描述任務(wù)[1],把圖像和文本投影到<對(duì)象,動(dòng)作,場景>的三元組空間,利用馬爾科夫隨機(jī)場對(duì)圖像進(jìn)行投影,用句法解析對(duì)文本進(jìn)行投影,然后計(jì)算相似性。Kulkarni等利用條件隨機(jī)場對(duì)圖像的對(duì)象、屬性和空間關(guān)系進(jìn)行標(biāo)注[10],采用模板生成方法產(chǎn)生全新的語句。Gong等采用典型關(guān)聯(lián)分析方法[2],建立圖像和文本之間的對(duì)應(yīng)關(guān)系。圖像采用卷積神經(jīng)網(wǎng)絡(luò)特征,文本采用詞袋特征,同時(shí)用大量弱標(biāo)注的圖像文本數(shù)據(jù)集進(jìn)行輔助學(xué)習(xí)。Karpathy和Vinyals等提出使用神經(jīng)網(wǎng)絡(luò)構(gòu)造端到端的語言模型[3-4],提取圖像的CNN特征作為視覺單詞,采用三層遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型,可以直接得到圖像到文本的映射關(guān)系。Johnson等提出全卷積定位網(wǎng)絡(luò)[11],不僅能生成整幅圖像的描述,也能生成圖像內(nèi)部區(qū)域的描述。Xu等提出的網(wǎng)絡(luò)模型可以學(xué)習(xí)圖像內(nèi)部區(qū)域和單詞的對(duì)應(yīng)關(guān)系[12]。Tang等提出一種基于深度遞歸神經(jīng)網(wǎng)絡(luò)的方法[13],把圖像特征輸入到遞歸神經(jīng)網(wǎng)絡(luò)的每一個(gè)時(shí)刻。

2 模型架構(gòu)

本文提出圖像語義相似性神經(jīng)網(wǎng)絡(luò)模型,由兩個(gè)共享參數(shù)的多層遞歸神經(jīng)網(wǎng)絡(luò)和一個(gè)全連接網(wǎng)絡(luò)構(gòu)成。首先對(duì)圖像語義相似性網(wǎng)絡(luò)預(yù)訓(xùn)練,學(xué)習(xí)相似圖像的語義信息,然后在遞歸神經(jīng)網(wǎng)絡(luò)上繼續(xù)訓(xùn)練語言模型。多層遞歸神經(jīng)網(wǎng)絡(luò)能夠增強(qiáng)模型的學(xué)習(xí)能力,有助于理解圖像的高級(jí)語義信息。

2.1 圖像語義相似性網(wǎng)絡(luò)

圖像語義相似性神經(jīng)網(wǎng)絡(luò)模型如圖1所示,能夠?qū)W習(xí)圖像之間的視覺相似性和對(duì)應(yīng)文本描述的語義相似性,進(jìn)而提升網(wǎng)絡(luò)的泛化能力。其主要思想是,當(dāng)模型學(xué)習(xí)圖像的文本描述時(shí),應(yīng)當(dāng)受到相似圖像語義的約束,在預(yù)測階段,通過聯(lián)想相似圖像的語義信息進(jìn)而提升文本描述的質(zhì)量。該方法可以應(yīng)用到現(xiàn)有的遞歸神經(jīng)網(wǎng)絡(luò)語言模型。

圖1 圖像語義相似性神經(jīng)網(wǎng)絡(luò)

為了衡量圖像的視覺相似性,首先提取圖像的卷積神經(jīng)網(wǎng)絡(luò)特征[24],然后計(jì)算兩個(gè)特征的余弦距離:

(1)

為了衡量文本描述的語義相似性,本文采用BLEU,ROUGE,METEOR和CIDEr等機(jī)器翻譯的評(píng)價(jià)指標(biāo)。由于數(shù)據(jù)集中每幅圖像都有多句文本描述,因此可以直接計(jì)算文本的機(jī)器翻譯得分作為語義相似性。

(2)

(3)

集合Z={BLEU-1, BLEU-2, BLEU-3, BLEU-4, METEOR, CIDEr, ROUGE},表示7種評(píng)價(jià)指標(biāo)。t表示圖像的獨(dú)立描述語句的個(gè)數(shù),n表示具體一種評(píng)價(jià)指標(biāo)的類型。構(gòu)造圖像文本相似性四元組數(shù)據(jù)集,按CNN特征的余弦距離對(duì)圖像聚類,在每個(gè)類里選擇兩幅圖像計(jì)算余弦距離cos和文本的語義相似性ψ組成四元組,再從不同的類中選擇圖像組成相同數(shù)量的四元組,共同構(gòu)成四元組數(shù)據(jù)集:

(imgi,imgj,cos,ψ)

(4)

(5)

o1=σ(?!1+b1)

(6)

o2=σ(o1·W2+b2)

(7)

式中:Wi、bi和oi是第i個(gè)全連接層的權(quán)重、偏置和輸出。其中,σ是sigmoid函數(shù),是全連接層的激活函數(shù):

(8)

全連接網(wǎng)絡(luò)用來擬合輸入向量Γ和文本相似性得分Ψ的映射關(guān)系。損失函數(shù)采用均方誤差損失:

(9)

2.2 遞歸神經(jīng)網(wǎng)絡(luò)語言模型

圖像語義相似性神經(jīng)網(wǎng)絡(luò)中的RNN網(wǎng)絡(luò)采用圖2中的結(jié)構(gòu)。把圖像的卷積神經(jīng)網(wǎng)絡(luò)特征WCNN和單詞的詞向量特征Wi投影到p維空間。遞歸神經(jīng)網(wǎng)絡(luò)的各個(gè)時(shí)刻的輸入是Xi=[WCNN,WST,W1,…,Wn]∈R(n+2)×p,輸出是Xo=[WST,W1,W2,…,WEND]∈R(n+2)×p。WST和WEND表示語句的特殊起始詞和終止詞,語句的最大長度是n。由于傳統(tǒng)的淺層RNN網(wǎng)絡(luò)學(xué)習(xí)能力較弱,為了學(xué)習(xí)圖像的復(fù)雜語義信息,本文從以下三個(gè)方面增加網(wǎng)絡(luò)深度:

1) 棧式隱層(ST層):可以接受上一時(shí)刻隱層狀態(tài)輸入的層,增強(qiáng)多尺度時(shí)間序列記憶。

2) 普通隱層(CH層):除去棧式隱層之外的隱層,增強(qiáng)當(dāng)前時(shí)刻網(wǎng)絡(luò)深度。

3) 輸出層(MO層):在隱層節(jié)點(diǎn)和最后的輸出層節(jié)點(diǎn)之間添加層,把隱層的輸出投影到輸出空間。

圖2 遞歸神經(jīng)網(wǎng)絡(luò)語言模型

Xi=[WCNN,WST,W1,…,Wn]

(10)

(11)

Xo=[WST,W1,W2,…,WEND]

(12)

采用交叉熵?fù)p失函數(shù)訓(xùn)練RNN網(wǎng)絡(luò)。在預(yù)測階段,采用束搜索算法預(yù)測語句。語句的搜索空間是一個(gè)有向無環(huán)圖,WST是起始節(jié)點(diǎn),WEND是終止節(jié)點(diǎn),每層的大小是束(beam),表示該層單詞的搜索空間,束越大,搜索結(jié)果越接近全局最優(yōu),計(jì)算復(fù)雜度是O(beamn)。

sentence=argmaxsP(s|image)

(13)

s表示遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測的語句。首先對(duì)圖像語義相似性神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后在數(shù)據(jù)集上繼續(xù)訓(xùn)練RNN網(wǎng)絡(luò)語言模型。引入相似圖像的語義信息和增強(qiáng)語言模型的學(xué)習(xí)能力,有利于生成符合圖像內(nèi)容的通順的語句。

3 實(shí)驗(yàn)結(jié)果和分析

3.1 數(shù)據(jù)集和預(yù)處理

本文采用Flickr30K數(shù)據(jù)集[19]和MSCOCO數(shù)據(jù)集[20],每幅圖像均有5個(gè)獨(dú)立的標(biāo)注語句。Flickr30K數(shù)據(jù)集包含31 783幅圖像,訓(xùn)練集、驗(yàn)證集和測試集大小分別是29 783、1 000和1 000。MSCOCO數(shù)據(jù)集包含123 287幅圖像,訓(xùn)練集、驗(yàn)證集和測試集大小分別是113 287、5 000和5 000。

經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型包括AlexNet[23]、VGGNet[24]、GoogleNet[25]和ResNet[26]等,本文采用16層的VGGNet提取圖像特征。圖像尺寸縮放為224×224,采用均值歸一化,使得RGB通道的像素均值為0。人工標(biāo)注的語句長度不固定,大于16的語句分布超過90%,長度閾值取16。大于閾值的語句,多余單詞截?cái)?,小于閾值的語句,末尾用終止字符WEND補(bǔ)全。數(shù)據(jù)集中出現(xiàn)頻率小于閾值5的單詞為停止詞,去除停止詞后的Flickr30K數(shù)據(jù)集和MSCOCO數(shù)據(jù)集的單詞表大小分別為8 625和9 566。

3.2 評(píng)價(jià)方法和對(duì)比方法

本文采用BLEU[14],ROUGE[15],METEOR[16]和CIDEr[17]指標(biāo)評(píng)價(jià)圖像的文本化描述效果。原理是比較機(jī)器翻譯結(jié)果(candidate)和人工翻譯結(jié)果(reference)的相似度。BLEU準(zhǔn)則比較candidate和reference的n-gram匹配的數(shù)量,可以評(píng)價(jià)生成文本的充分性、保真性和流暢程度。ROUGE準(zhǔn)則定義最長公共子序列來計(jì)算相似度,序列要求有順序不一定連續(xù)。METEROR準(zhǔn)則采用精確匹配、詞根詞干匹配和同義詞匹配三種方式計(jì)算相似度。CIDEr準(zhǔn)則首先計(jì)算n-gram的項(xiàng)頻反向文檔頻率TFIDF(Term Frequency-Inverse Document Frequency)[18],然后計(jì)算candidate和reference的余弦距離。

本文方法和GoogleNIC[3]、BRNN[4]、Log Bilinear[21]、LRCN[22]、Semantic Attention[27]、Memory Cells[13]、Hard-Attention[12]等方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。GoogleNIC和BRNN方法均采用三層遞歸神經(jīng)網(wǎng)絡(luò)語言模型,分別用GoogleNet和VGGNet提取圖像特征。Log Bilinear方法采用多模態(tài)LBL語言模型學(xué)習(xí)圖像到文字的映射關(guān)系。Semantic Attention方法首先識(shí)別圖像屬性,然后輸入到遞歸神經(jīng)網(wǎng)絡(luò)。LRCN方法是一種融合遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò),能夠?qū)W習(xí)圖像和視頻的文本描述。Memory Cell方法把圖像特征輸入到遞歸神經(jīng)網(wǎng)絡(luò)的每一個(gè)時(shí)刻。Hard Attention方法采用圖像的卷積層特征,建立圖像子區(qū)域和文本單詞的對(duì)應(yīng)關(guān)系。

3.3 結(jié)果分析

本文分別在Flickr30k數(shù)據(jù)集和MSCOCO數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。首先訓(xùn)練圖像語義相似性神經(jīng)網(wǎng)絡(luò),如圖1,然后訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)語言模型,如圖2。分析不同的棧式隱層、普通隱層和輸出層的組合對(duì)生成文本質(zhì)量的影響,結(jié)果如表1和表2,然后和最新的方法進(jìn)行對(duì)比,結(jié)果如表3和表4,最后舉例說明本文模型生成文本的效果。

表1 Flickr30k數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(BLEU-i簡寫為Bi)

表2 MSCOCO數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(BLEU-i簡寫為Bi)

表3 本文方法和其他方法在Flickr30k數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(BLEU-i簡寫為Bi)

表4 本文方法和其他方法在MSCOCO數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(BLEU-i簡寫為Bi)

表1和表2的結(jié)果表明,F(xiàn)lickr30k數(shù)據(jù)集訓(xùn)練的“模型ST層+CH層”和MSCOCO數(shù)據(jù)集訓(xùn)練的“模型2ST層”效果最好,說明增加遞歸神經(jīng)網(wǎng)絡(luò)棧式隱層和普通隱層的深度能夠提高生成文本的質(zhì)量。棧式隱層負(fù)責(zé)把信息傳遞到下一時(shí)刻,對(duì)語言模型生成文本起到關(guān)鍵作用。普通隱層只能在當(dāng)前時(shí)刻傳遞信息,適當(dāng)增加普通隱層能夠提升模型復(fù)雜度和學(xué)習(xí)能力。增加輸出層深度會(huì)降低實(shí)驗(yàn)效果。同時(shí)隱層總深度不宜太大,否則導(dǎo)致模型復(fù)雜度過高和模型訓(xùn)練困難,降低生成文本的質(zhì)量。

表3和表4的結(jié)果表明,F(xiàn)lickr30k數(shù)據(jù)集上,本文方法的BLEU-1、ROUGE和CIDEr的得分最高,其他指標(biāo)略低于Semantic Attention方法。Semantic Attention方法在BLEU-2、BLEU-3、BLEU-4指標(biāo)較高是因?yàn)樘崛D像的屬性標(biāo)簽加入RNN結(jié)構(gòu)中,有利于生成多詞匹配較高的語句。MSCOCO數(shù)據(jù)集上,“模型ST層”的各項(xiàng)指標(biāo)超過GoogleNIC和BRNN等方法,“模型ST層”和“模型2ST層”的多項(xiàng)指標(biāo)均達(dá)到最高,其中BLEU-2、BLEU-3、BLEU-4的得分達(dá)到53.6、39.3和28.6,顯著超過其他方法,說明了圖像語義相似性網(wǎng)絡(luò)可以提供相似圖像的有效語義信息,進(jìn)而改善文本描述的質(zhì)量?!澳P?ST層”的多項(xiàng)指標(biāo)均超過“模型ST層”,表明增加隱層深度可以提升語言模型的學(xué)習(xí)能力,有利于生成更加通順的語句。Hard Attention方法的BLEU-1得分最高,因?yàn)榭紤]單詞和圖像子區(qū)域的對(duì)應(yīng)關(guān)系,而文本描述的通順程度更加依賴于多詞匹配數(shù)量。

圖3是本文方法生成的圖像文本化描述的示例。第一行是錯(cuò)誤的描述。圖3(a)描述的是兩個(gè)人站在飛機(jī)旁邊,但是生成的文本是“a man standing next to a plane on a field”,僅僅識(shí)別出了一個(gè)人。圖3(b)描述的是一個(gè)人坐在街道旁,但是生成的文本是“a man sitting on a bench talking on a cell phone”,錯(cuò)誤的認(rèn)為一個(gè)男人拿著手機(jī)。第二行是正確的描述,生成的文本分別是“a cow is standing in a field of grass”和“a man riding a motorcycle down a street”。圖3(a)和圖3(b)生成了錯(cuò)誤的描述,可能是由于訓(xùn)練集中缺乏相關(guān)類型的數(shù)據(jù),并且圖像分辨率較低,陰影部分的內(nèi)容較難識(shí)別。由于圖像語義相似性網(wǎng)絡(luò)能夠通過相似圖像的文本描述作為補(bǔ)充信息,因此正確的識(shí)別了圖中的主體,例如“man”“plane”,以及動(dòng)作,例如“standing”“sitting”。

圖3 本文方法的圖像文本化標(biāo)注示例

4 結(jié) 語

本文提出圖像語義相似性神經(jīng)網(wǎng)絡(luò)的圖像文本化描述模型,采用多層復(fù)合遞歸神經(jīng)網(wǎng)絡(luò)語言模型。能夠?qū)W習(xí)到相似圖像的有效語義信息,并通過增加遞歸神經(jīng)網(wǎng)絡(luò)的深度,提高網(wǎng)絡(luò)的學(xué)習(xí)能力,進(jìn)而提升圖像的文本描述的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,該方法在多個(gè)評(píng)價(jià)指標(biāo)上均取得很好效果,超過目前的主流方法。

[1] Farhadi A,Hejrati M,Sadeghi M A,et al.Every picture tells a story:Generating sentences from images[C]//European Conference on Computer Vision.Springer Berlin Heidelberg,2010:15-29.

[2] Gong Y,Wang L,Hodosh M,et al.Improving image-sentence embeddings using large weakly annotated photo collections[C]//European Conference on Computer Vision.Springer International Publishing,2014:529-545.

[3] Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:3156-3164.

[4] Karpathy A,Fei-Fei L.Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:3128-3137.

[5] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems,2012:1097-1105.

[6] Lee Giles C,Kuhn G M,Williams R J.Dynamic recurrent neural networks:Theory and applications[J].IEEE Transactions on Neural Networks,1994,5(2):153-156.

[7] Donahue J,Jia Y,Vinyals O,et al.DeCAF:A Deep Convolutional Activation Feature for Generic Visual Recognition[C]//ICML.2014:647-655.

[8] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.

[9] Cho K,Van Merri?nboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[DB].arXiv preprint arXiv:1406.1078,2014.

[10] Kulkarni G,Premraj V,Ordonez V,et al.Babytalk:Understanding and generating simple image descriptions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

[11] Johnson J,Karpathy A,Fei-Fei L.Densecap:Fully convolutional localization networks for dense captioning[DB].arXiv preprint arXiv:1511.07571,2015.

[12] Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image caption generation with visual attention[DB].arXiv preprint arXiv:1502.03044,2015.

[13] Tang S,Han S.Generate Image Descriptions based on Deep RNN and Memory Cells for Images Features[DB].arXiv preprint arXiv:1602.01895,2016.

[14] Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Association for Computational Linguistics,2002:311-318.

[15] Lin C Y.ROUGE:A package for automatic evaluation of summaries[C]//Text summarization branches out:Proceedings of the ACL-04 workshop.2004.

[16] Denkowski M,Lavie A.Meteor Universal:Language Specific Translation Evaluation for Any Target Language[C]//The Workshop on Statistical Machine Translation.2014:376-380.

[17] Vedantam R,Lawrence Zitnick C,Parikh D.Cider:Consensus-based image description evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:4566-4575.

[18] Robertson S.Understanding inverse document frequency:on theoretical arguments for IDF[J].Journal of documentation,2004,60(5):503-520.

[19] Young P,Lai A,Hodosh M,et al.From image descriptions to visual denotations:New similarity metrics for semantic inference over event descriptions[J].Transactions of the Association for Computational Linguistics (TACL),2014,2(4):67-78.

[20] Lin T Y,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//European Conference on Computer Vision.Springer International Publishing,2014:740-755.

[21] Kiros R,Salakhutdinov R,Zemel R S.Multimodal neural language models[C]//ICML’14 Proceedings of the 31st International Conference on International Conference on Machine Learning,2014:595-603.

[22] Donahue J,Hendricks L A,Guadarrama S,et al.Long-term recurrent convolutional networks for visual recognition and description[C]//Computer Vision and Pattern Recognition.IEEE,2015:677-691.

[23] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(2):2012.

[24] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[DB].arXiv preprint arXiv:1409.1556,2014.

[25] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:1-9.

[26] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.

[27] You Q,Jin H,Wang Z,et al.Image captioning with semantic attention[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:4651-4659.

[28] Tang S,Han S.Generate Image Descriptions based on Deep RNN and Memory Cells for Images Features[DB].arXiv preprint arXiv:1602.01895,2016.

猜你喜歡
隱層相似性語句
一類上三角算子矩陣的相似性與酉相似性
淺析當(dāng)代中西方繪畫的相似性
重點(diǎn):語句銜接
基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
人民珠江(2019年4期)2019-04-20 02:32:00
精彩語句
低滲透黏土中氯離子彌散作用離心模擬相似性
基于近似結(jié)構(gòu)風(fēng)險(xiǎn)的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動(dòng)軸承故障診斷
如何搞定語句銜接題
BP神經(jīng)網(wǎng)絡(luò)隱層單元數(shù)確定方法
邯郸市| 古交市| 怀宁县| 越西县| 武陟县| 铜陵市| 民和| 新化县| 册亨县| 明光市| 延安市| 灵石县| 龙泉市| 潼南县| 牡丹江市| 商水县| 宜宾市| 丹棱县| 渝中区| 开阳县| 昭平县| 鹤山市| 安化县| 崇阳县| 海林市| 任丘市| 施甸县| 漠河县| 景东| 永顺县| 准格尔旗| 靖江市| 白河县| 唐河县| 通渭县| 桐柏县| 稻城县| 吕梁市| 桃园市| 灵武市| 甘肃省|