朱晨豪,葉 霞,陸琪多
(火箭軍工程大學(xué),陜西西安710025)
近十年的時(shí)間里,深度學(xué)習(xí)技術(shù)飛速發(fā)展,2012年AlexNet[1]在ImageNet圖像識(shí)別大賽中一舉奪魁,正式拉開(kāi)了深度學(xué)習(xí)技術(shù)快速發(fā)展的序幕,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被更多學(xué)者認(rèn)可,成為計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等領(lǐng)域進(jìn)行科研實(shí)驗(yàn)的主流方法。隨著研究人員數(shù)量上的增多,更多高效的網(wǎng)絡(luò)架構(gòu)也被提出,例如:VGG[2]、Google Net[3]、ResNet[4]、LSTM[5]和GRU[6]等,逐步提高了深度學(xué)習(xí)技術(shù)在目標(biāo)識(shí)別[21]、語(yǔ)義分割[37]等任務(wù)上的性能表現(xiàn),也解決了許多現(xiàn)實(shí)生活中的許多問(wèn)題并催生了實(shí)際應(yīng)用,包括手機(jī)中的語(yǔ)音助手、具有人臉識(shí)別功能的門(mén)禁系統(tǒng)以及現(xiàn)在觸手可及的各種智能家居,都是深度學(xué)習(xí)技術(shù)發(fā)展為人類生活帶來(lái)的便利。
當(dāng)深度學(xué)習(xí)技術(shù)在傳統(tǒng)的計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域取得巨大成功時(shí),有越來(lái)越多的學(xué)者關(guān)注到了結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的多模態(tài)任務(wù),即嘗試讓機(jī)器通過(guò)構(gòu)建能夠聯(lián)合多種模態(tài)信息的模型來(lái)捕捉不同模態(tài)之間的對(duì)應(yīng)關(guān)系和語(yǔ)義特征,從而能夠同時(shí)處理多種形式的數(shù)據(jù)(圖像、音頻、文本等),加深機(jī)器對(duì)現(xiàn)實(shí)世界的感知。主要研究任務(wù)有多模態(tài)情感識(shí)別[42]、圖片描述[27,30,31]、視頻分類[56]、多模態(tài)對(duì)話系統(tǒng)[35]等,它們?cè)诂F(xiàn)實(shí)生活中都有相應(yīng)的研究背景和應(yīng)用價(jià)值,以圖片描述為例,它在目標(biāo)識(shí)別的基礎(chǔ)上,進(jìn)一步提高了機(jī)器對(duì)圖像理解和描述能力的要求,不僅僅局限于識(shí)別圖像內(nèi)的實(shí)體對(duì)象并給出其正確的分類標(biāo)簽,而是嘗試讓機(jī)器關(guān)注圖像中實(shí)體之間的關(guān)系,以文本形式來(lái)展現(xiàn)圖像中所包含的信息,實(shí)現(xiàn)機(jī)器從看到圖像到看“懂”圖像、從感知智能到認(rèn)知智能的轉(zhuǎn)變,這對(duì)人工智能無(wú)論是在技術(shù)層面的發(fā)展還是在工業(yè)應(yīng)用上的推動(dòng)都具有重要意義,該技術(shù)在圖片檢索、視頻描述、幫助視障人群和嬰幼兒早教方面都有極大的應(yīng)用前景。
在本節(jié)中,將介紹圖像描述任務(wù)各類方法的發(fā)展情況,根據(jù)文本生成時(shí)是否依賴于人為制定的規(guī)則將所有方法分為兩大類:半自動(dòng)化生成方法和自動(dòng)化生成方法,在這兩類之下,又從生成規(guī)則、模型架構(gòu)、模態(tài)融合等方面對(duì)各類方法進(jìn)行詳細(xì)劃分,為了使讀者有更直觀清楚的閱讀體驗(yàn),方法分類結(jié)構(gòu)如圖1所示。
圖1 圖像描述任務(wù)的方法分類
這類方法是圖像描述生成早期的方法,這類方法的特征是文本生成模型一般都有所依賴,要遵循已有的標(biāo)題生成規(guī)則或圖像和標(biāo)題的語(yǔ)料庫(kù)來(lái)生成圖像描述。按照生成規(guī)則的不同,又分為了基于固定模板的方法和基于空間檢索的方法。
2.1.1 基于固定模板的方法
Farhadi等人[22]提出了一個(gè)由物體、動(dòng)作、場(chǎng)景組成的三元組模板填充方法,通過(guò)求解馬爾可夫隨機(jī)場(chǎng)(MRF)從圖像中檢測(cè)出相應(yīng)的三元組元素,將其填充到模板相應(yīng)的空白槽中來(lái)生成文本描述。Kulkarni等人[19]在此基礎(chǔ)上擴(kuò)展介詞元素,組成四要素對(duì)模板進(jìn)行填充?;谀0宸椒ú襟E分為:
1)預(yù)定義帶有空白槽的模板;
2)從圖像中檢測(cè)出對(duì)象、動(dòng)作、場(chǎng)景等要素;
3)將上一步的要素填入空白槽生成標(biāo)題。
由于該方法的模板結(jié)構(gòu)和長(zhǎng)度固定,不能根據(jù)特定圖像的需要生成變長(zhǎng)語(yǔ)句描述,導(dǎo)致生成的文本句式固定,不同圖像描述任務(wù)生成的語(yǔ)句具有很高相似性,與人為自然化描述有較大差距,所以基于模板的方法不能完全勝任圖像描述的生成任務(wù)。
2.1.2 基于空間檢索的方法
空間檢索方法需要維護(hù)一定數(shù)量圖片和與之相匹配的標(biāo)題組成的語(yǔ)料庫(kù),將它作為圖像描述任務(wù)的檢索庫(kù)。例如,Hodosh等人[14]創(chuàng)建了由8000張圖片和40000條標(biāo)題組成的語(yǔ)料庫(kù),每張圖片有5個(gè)不同的標(biāo)題來(lái)描述其中對(duì)象與事件,整個(gè)語(yǔ)料庫(kù)用于支撐圖片和文本的空間檢索方法。其方法概括為:
1)首先基于圖像搜索方法在檢索池中檢索相似圖像;
2)將相似圖像的標(biāo)題作為候選的標(biāo)題庫(kù),然后從中選擇最為匹配語(yǔ)段組成標(biāo)題。
該方法要花費(fèi)較大的人力和時(shí)間去維護(hù)一個(gè)語(yǔ)料庫(kù),如果語(yǔ)料庫(kù)數(shù)據(jù)范圍存在局限性導(dǎo)致與檢索圖像匹配度過(guò)低,則生成的標(biāo)題會(huì)在語(yǔ)義和精確度上呈現(xiàn)出較差結(jié)果。而這種根據(jù)已有的標(biāo)題進(jìn)行檢索生成標(biāo)題的方法顯然不能達(dá)到人工智能標(biāo)準(zhǔn),因?yàn)樗荒軌蚋鶕?jù)自己的理解創(chuàng)造性的為圖像生成標(biāo)題。
隨著CNN和RNN在計(jì)算機(jī)視覺(jué)和機(jī)器翻譯任務(wù)上取得較好效果,在各大比賽中拔得頭籌時(shí),這也直接影響了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理交叉領(lǐng)域圖像描述任務(wù)的進(jìn)展,有學(xué)者將其應(yīng)用到多模態(tài)領(lǐng)域的圖像描述任務(wù),提出了基于神經(jīng)網(wǎng)絡(luò)的端到端模型,這種模型一般采用編碼器—解碼器架構(gòu),相較于基于固定模板或空間檢索的方法,該方法不依賴人為預(yù)定的生成規(guī)則或用于檢索的語(yǔ)料庫(kù),生成的文本句式靈活、創(chuàng)新度高,對(duì)于不同圖像的描述任務(wù)有較高的泛化能力,逐漸成為研究熱點(diǎn),本文從多角度將自動(dòng)化生成方法分為不同類別。
2.2.1 視覺(jué)空間表示方法
該方法以卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的視覺(jué)向量作為圖像和文本之間的媒介,將圖像特征向量和文本特征向量作為獨(dú)立輸入傳給解碼器,以生成文本。Fang等人[49]提出了詞檢測(cè)器模型,提取出圖像中可能存在的單詞表述詞集,基于這個(gè)詞集來(lái)生成文本描述。Lebret等人[50]提出用短語(yǔ)來(lái)表示圖像中的內(nèi)容,基于短語(yǔ)集來(lái)生成文本描述。
2.2.2 多模態(tài)空間表示方法
單模態(tài)數(shù)據(jù)往往不能包含所有有效信息,例如:文本數(shù)據(jù)無(wú)法包含音頻中的語(yǔ)氣語(yǔ)調(diào)信息,音頻數(shù)據(jù)又無(wú)法包含視頻中的神態(tài)和肢體動(dòng)作的信息。所以對(duì)于預(yù)測(cè)任務(wù),不同模態(tài)數(shù)據(jù)之間存在語(yǔ)義上的互補(bǔ)性,多模態(tài)融合能實(shí)現(xiàn)信息的補(bǔ)充,使得預(yù)測(cè)結(jié)果更為精確。多模態(tài)數(shù)據(jù)的融合方法也成為了多模態(tài)任務(wù)中的基礎(chǔ)性問(wèn)題,現(xiàn)有的融合方法主要分為三類:前端融合、中間融合和后端融合。其中圖片描述任務(wù)應(yīng)用中間融合方法居多,這類方法的模態(tài)融合步驟為:
1)通過(guò)CNN和RNN,分別取得圖像特征向量和文本特征的詞向量;
2)將視覺(jué)特征向量和文本特征的詞向量映射到共同的多模態(tài)向量空間;
3)將多模態(tài)空間向量傳給語(yǔ)言模型解碼器生成文本描述。
Kiros等人[30]首次提出了多模態(tài)語(yǔ)言模型,基于對(duì)數(shù)雙線性模型提出了模態(tài)偏對(duì)數(shù)雙線性模型和三因子對(duì)數(shù)雙線性模型,該方法基于卷積神經(jīng)網(wǎng)絡(luò)和多模態(tài)神經(jīng)語(yǔ)言模型,通過(guò)學(xué)習(xí)圖片和文本的聯(lián)合表示來(lái)生成文本描述。在現(xiàn)在看了該融合方法雖然有不足之處,但它首次將多模態(tài)融合的數(shù)據(jù)表示方法引入學(xué)者視線中,對(duì)于圖像描述任務(wù)的發(fā)展仍有重大意義。Kiros等人[31]在文獻(xiàn)[30]的基礎(chǔ)之上將學(xué)習(xí)到的圖片和文本表示,通過(guò)一個(gè)全連接層映射到多模態(tài)空間,引入了結(jié)構(gòu)-內(nèi)容神經(jīng)語(yǔ)言模型(Structure-Content Neural Language Model-s,SC-NLM)模型對(duì)多模態(tài)空間向量進(jìn)行解碼生成標(biāo)題,它能夠提取句子結(jié)構(gòu)變量來(lái)指導(dǎo)標(biāo)題的生成,降低語(yǔ)法錯(cuò)誤概率。比較有意思的是,由于SC-NLM采用線性編碼器,學(xué)習(xí)得到的多模態(tài)空間向量也滿足加法運(yùn)算性質(zhì)。
Mao等人[40]提出了多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)模型(M-RNN),該模型包含兩個(gè)詞向量層,一個(gè)RNN層,一個(gè)多模態(tài)層和一個(gè)SoftMax輸出層。多模態(tài)層將三個(gè)輸入(文本特征、循環(huán)層特征和圖像特征)通過(guò)元素相加的方式來(lái)映射到共同的多模態(tài)向量空間,該方法沒(méi)有考慮文本和視覺(jué)特征之間的語(yǔ)義關(guān)系,忽略了多模態(tài)融合時(shí)的語(yǔ)義對(duì)齊問(wèn)題,這樣的映射處理過(guò)于粗糙會(huì)產(chǎn)生噪聲,對(duì)模型最終產(chǎn)生的結(jié)果會(huì)有負(fù)面影響,導(dǎo)致生成描述的準(zhǔn)確性下降。
針對(duì)多模態(tài)融合時(shí)的語(yǔ)義對(duì)齊問(wèn)題,Karp-athy等人[43]在文獻(xiàn)[36]的基礎(chǔ)上提出了視覺(jué)語(yǔ)義對(duì)齊模型,該模型由負(fù)責(zé)提取圖像視覺(jué)特征的R-CNN[21]、提取文本特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(B-RNN)以及計(jì)算圖像與文本匹配得分的函數(shù)三部分組成,通過(guò)計(jì)算句子片段和圖像區(qū)域的向量點(diǎn)積來(lái)代表兩者的相似性度量,只將相似性最高的句子片段和對(duì)應(yīng)的圖像區(qū)域進(jìn)行匹配,以相互匹配的圖片區(qū)域和句子片段作為目標(biāo)函數(shù)中的得分項(xiàng),以不匹配的圖片區(qū)域和句子片段作為懲罰項(xiàng),來(lái)不斷優(yōu)化模型參數(shù),達(dá)到語(yǔ)義對(duì)齊的效果。實(shí)驗(yàn)結(jié)果表明,在將多模態(tài)信息進(jìn)行語(yǔ)義對(duì)齊后,模型在圖像與句子的檢索和生成任務(wù)上的表現(xiàn)都有所提升。
Chen等人[51]研究了圖像和文本雙向映射的可能性,在為圖像生成描述的基礎(chǔ)上,嘗試讓機(jī)器能夠像人一樣通過(guò)文本描述而生成與之相匹配的畫(huà)面。在Mikolo等人[9,10]工作的基礎(chǔ)上做了結(jié)構(gòu)上的創(chuàng)新,這里的模態(tài)融合把VGG網(wǎng)絡(luò)提取到的視覺(jué)特征作和RNN時(shí)間步t-1時(shí)刻隱藏層的輸出作為時(shí)間步t的輸入,計(jì)算出單詞Wt的概率。該文章主要貢獻(xiàn)分成兩個(gè)方面:
1)提出了一個(gè)全新的任務(wù)。不同于前期大家致力于由圖像生成對(duì)于描述的目標(biāo),該文獻(xiàn)提出了由文本描述生成對(duì)應(yīng)視覺(jué)表示的全新任務(wù);
2)提出一個(gè)可以實(shí)現(xiàn)文本和圖片相互轉(zhuǎn)化的雙向生成模型,該模型主要是在文獻(xiàn)[9,10]的基礎(chǔ)上增加了循環(huán)視覺(jué)隱藏層,它能根據(jù)上層RNN生成的文本來(lái)更新調(diào)整圖像內(nèi)容,也可以將生成的圖像與輸入圖像視覺(jué)特征集進(jìn)行比較,幫助RNN預(yù)測(cè)下一個(gè)詞語(yǔ)。
2.2.3 組合網(wǎng)絡(luò)結(jié)構(gòu)
組合網(wǎng)絡(luò)架構(gòu)[48-50,55]一般是由幾個(gè)獨(dú)立的模塊組成的非端到端模型,主要包括提取圖像特征的視覺(jué)模塊和生成文本的語(yǔ)言模型模塊,這類結(jié)構(gòu)一般將圖片描述任務(wù)分成幾步來(lái)完成,其方法如下:
1)由CNN或其它視覺(jué)模塊提取圖像特征,包括場(chǎng)景、對(duì)象、屬性等信息;
2)語(yǔ)言模型根據(jù)步驟1中的信息生成候選文本描述;
3)根據(jù)圖片—文本相似度度量模型篩選出得分最高的文本描述。
Fang等人[49]采用bottom-up機(jī)制,整個(gè)模型由詞檢測(cè)器、最大熵語(yǔ)言模型和深度多模態(tài)相似模型(Deep Multimodal Similarity Model,DMSM)三部分組成,DMSM是在單模態(tài)深度結(jié)構(gòu)化語(yǔ)義模型[59]的基礎(chǔ)上提出的,它由圖片模型和文本模型兩部分神經(jīng)網(wǎng)絡(luò)組成,將文本和圖片模態(tài)數(shù)據(jù)映射到共同的語(yǔ)義空間,定義兩者的余弦相似度為生成描述和圖像之間的匹配程度。本文生成描述的方法為:
1)訓(xùn)練詞檢測(cè)器。常用的圖像檢測(cè)方法智能檢測(cè)出圖像中的實(shí)體,而形容詞、動(dòng)詞等描述性詞語(yǔ)很難檢測(cè)出了,為了從圖像中檢測(cè)出想要的詞,采用弱監(jiān)督的多示例學(xué)習(xí)方法Noisy-OR MIL在由訓(xùn)練標(biāo)題組成的詞集上訓(xùn)練詞檢測(cè)器;
2)提取單詞集。用訓(xùn)練好的詞檢測(cè)器提取出圖像中所有可能存在的詞;
3)生成描述集。基于檢測(cè)出的單詞集,使用最大熵函數(shù)語(yǔ)言模型使生成的描述盡可能包含多的信息;
4)計(jì)算圖像—文本相似度。使用DMSM計(jì)算生成描述與圖片之間的相似度,選擇具有最高相似度的文本作為最終結(jié)果。
Ma等人[48]提出使用基于多層優(yōu)化的多任務(wù)方法來(lái)生成〈對(duì)象,屬性,動(dòng)作,場(chǎng)景〉的結(jié)構(gòu)化詞語(yǔ)作為L(zhǎng)STM輸入生成描述。Lebret等人[50]認(rèn)為圖像描述的關(guān)鍵要素是名詞短語(yǔ),而名詞短語(yǔ)之間的作用關(guān)系則可以用介詞短語(yǔ)或動(dòng)詞短語(yǔ)來(lái)表示,所以只要識(shí)別出圖像中的名詞短語(yǔ)、介詞短語(yǔ)和動(dòng)詞短語(yǔ)后便能很好的對(duì)一副圖像進(jìn)行描述,提出了一種檢測(cè)圖像短語(yǔ)描述的模型,由短語(yǔ)來(lái)生成文本描述。利用CNN從圖像中提取可能的短語(yǔ)集,將短語(yǔ)向量表示為短語(yǔ)中詞向量的平均值,采用約束語(yǔ)言模型生成文本描述,固定的生成規(guī)則會(huì)限制模型學(xué)習(xí)方向,無(wú)法學(xué)習(xí)更多自然描述方式來(lái)修飾句子,從而大大減小生成語(yǔ)句的靈活性。組合網(wǎng)絡(luò)結(jié)構(gòu)的幾個(gè)組成模塊不能實(shí)現(xiàn)端到端訓(xùn)練,需要分別學(xué)習(xí)各部分模型參數(shù)。
2.2.4 編碼器—解碼器結(jié)構(gòu)
編碼器—解碼器結(jié)構(gòu)是一種端到端的學(xué)習(xí)機(jī)制,網(wǎng)絡(luò)接收輸入圖像之后的輸出結(jié)果便是對(duì)該圖像的描述,一般由CNN視覺(jué)編碼器和LSTM語(yǔ)言解碼器組成,如圖2所示。
圖2 編碼器—解碼器結(jié)構(gòu)示意圖
Kiros等人[31]受機(jī)器翻譯和多模態(tài)學(xué)習(xí)最新方法的啟發(fā),將編碼器和解碼器引入了圖像描述任務(wù),提出使用CNN和LSTM組成的編碼器學(xué)習(xí)圖片和文本表示,SC-NLM模型對(duì)多模態(tài)空間向量進(jìn)行解碼生成標(biāo)題。Vinyals等人[41]提出了一種神經(jīng)圖像標(biāo)題生成器(Neural Image Caption Generator,NIC)模型,NIC是典型的端到端模型,由CNN和LSTM組成編碼器和解碼器,CNN隱藏層的輸出作為L(zhǎng)STM編碼器的輸入。Wang等人[34]提出了并行RNN-LSTM結(jié)構(gòu),進(jìn)一步提高了解碼效率。
經(jīng)典LSTM在生成長(zhǎng)序列時(shí)的生成效果會(huì)下降,主要問(wèn)題在于CNN編碼器傳入的圖像信息只在t0時(shí)刻傳入LSTM,隨著時(shí)間步的增加,圖像信息的指導(dǎo)作用會(huì)逐漸減弱,LSTM也不能保留所有時(shí)間步的信息,會(huì)遺忘之前的已經(jīng)生成的文本,只能結(jié)合當(dāng)前時(shí)間步的輸入以及之前一定范圍內(nèi)的隱藏狀態(tài)預(yù)測(cè)輸出。針對(duì)此問(wèn)題,Jia等人[37]主要對(duì)LSTM提出了改進(jìn),在原有遺忘門(mén)、輸入門(mén)、輸出門(mén)的基礎(chǔ)之上增加了一個(gè)從圖像中提取的全局語(yǔ)義信息作為額外輸入,這樣LSTM的每個(gè)單元中每個(gè)門(mén)都有全局語(yǔ)義信息的輸入,使圖像信息能夠持續(xù)的指導(dǎo)文本生成,提高生成的文本與圖像內(nèi)容的契合度。g-LSTM根據(jù)全局語(yǔ)音信息的不同又細(xì)分為基于檢索指導(dǎo)、語(yǔ)義向量指導(dǎo)和圖像指導(dǎo)。
LSTM對(duì)當(dāng)前輸出的預(yù)測(cè)依賴于視覺(jué)特征和前一時(shí)刻隱藏層信息,無(wú)法根據(jù)下文信息推斷當(dāng)前的輸出。為了利用上下文信息提高預(yù)測(cè)的準(zhǔn)確率,Wang等人[53]使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional LSTM,b-LSTM),整個(gè)模型由負(fù)責(zé)圖像編碼的CNN,文本編碼的b-LSTM和多模態(tài)LSTM三部分組成,b-LSTM分別按照順序和倒序?qū)斎胛谋揪幋a,同視覺(jué)特征向量輸入多模態(tài)LSTM層嵌入到共同語(yǔ)義空間,并解碼成文本描述。
不難看出對(duì)于編碼器—解碼器結(jié)構(gòu)的改進(jìn),主要從圖像特征提取的編碼器和生成描述的解碼器部分入手,嘗試使用性能更強(qiáng)大的網(wǎng)絡(luò)來(lái)提取圖像內(nèi)的信息(圖像中的對(duì)象、對(duì)象之間的聯(lián)系等)。解碼器部分對(duì)RNN或LSTM的改進(jìn)也是為了根據(jù)編碼器的輸出生成更精確的描述。未來(lái)隨著目標(biāo)檢測(cè)和機(jī)器翻譯技術(shù)的進(jìn)一步發(fā)展,基于編碼器—解碼器的圖像描述方法也會(huì)隨之取得更好的效果。
2.2.5 注意力機(jī)制
為了使生成描述能夠更加細(xì)致的,研究人員在原有方法的基礎(chǔ)上引入了注意力機(jī)制[23-29,66-72],以在特征提取方面取得更好的效果。Xu等人[27]受機(jī)器翻譯任務(wù)啟發(fā),提出了一種基于注意力機(jī)制模型,該模型提出了軟確定性和硬隨機(jī)性兩種注意力方法。文獻(xiàn)[70]在文獻(xiàn)[27]的基礎(chǔ)上提出了改進(jìn),將全連接層替換為分組卷積的注意力機(jī)制。Pedersoli等人[24]提出了一種區(qū)域注意力模型,該模型使用基于空間Transformer的卷積變體來(lái)提取圖像的注意區(qū)域,將注意區(qū)域與生成的詞聯(lián)合起來(lái),對(duì)下一時(shí)刻的生成詞和注意區(qū)域進(jìn)行預(yù)測(cè)。文獻(xiàn)[65]提出一種多層注意力模型,多層注意力結(jié)構(gòu)與多層LSTM交叉連接組成多層次的語(yǔ)言模型,由Faster-RCNN提取不同區(qū)域的圖像特征,分層依次傳入多層次語(yǔ)言模型生成描述。
在注意力驅(qū)動(dòng)模型的情況下,體系結(jié)構(gòu)隱式地選擇在每個(gè)時(shí)間步驟中關(guān)注哪些區(qū)域,但它不能從外部進(jìn)行監(jiān)督,無(wú)法控制描述哪些區(qū)域以及每個(gè)區(qū)域的重要性。Cornia等人[45]提出了一種區(qū)域可控的注意力模型,通過(guò)Fast-RCNN得到區(qū)域序列,再由排序網(wǎng)絡(luò)(SortingNetwork)得到排序后的區(qū)域序列,在原有LSTM基礎(chǔ)上增加了語(yǔ)塊轉(zhuǎn)換門(mén)和自適應(yīng)注意力機(jī)制的視覺(jué)哨兵,前者選擇下一時(shí)間步的圖像區(qū)域,哨兵向量控制模型在預(yù)測(cè)詞語(yǔ)時(shí)是否根據(jù)圖像區(qū)域進(jìn)行預(yù)測(cè)。
2.2.6 強(qiáng)化學(xué)習(xí)方法
以上所提及的工作都是監(jiān)督學(xué)習(xí)方法,這些方法都存在共性問(wèn)題,訓(xùn)練出來(lái)的模型受限于標(biāo)注的數(shù)據(jù)集,所以模型生成的文本與數(shù)據(jù)集的描述很相似,這種現(xiàn)象成為暴露偏差,成因是模型的輸入在訓(xùn)練和推斷時(shí)的不一致造成的。在訓(xùn)練時(shí)每一個(gè)詞輸入都來(lái)自真實(shí)樣本,但是在推斷時(shí)輸入用的卻是上一個(gè)詞的輸出。為解決這個(gè)問(wèn)題,研究人員引入了強(qiáng)化學(xué)習(xí)方法。Ren等人[73]提出了基于政策網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的圖像描述方法,分別起到局部和全局指導(dǎo)的作用,其中政策網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)下個(gè)詞語(yǔ),價(jià)值網(wǎng)絡(luò)評(píng)估當(dāng)前狀態(tài)的可能拓展評(píng)估獎(jiǎng)勵(lì)價(jià)值,使用了一種新的視覺(jué)語(yǔ)義嵌入獎(jiǎng)勵(lì)的actor-critic強(qiáng)化學(xué)習(xí)方法來(lái)訓(xùn)練這個(gè)模型。Ranzato等人[74]針對(duì)暴露偏差問(wèn)題,提出一種新的序列訓(xùn)練方法,在解碼器部分采用了基于強(qiáng)化學(xué)習(xí)的混合增量交叉熵增強(qiáng)方法 (Mixed Incremental Cross-Entropy Reinforce,MIXER),在訓(xùn)練時(shí)通過(guò)隨機(jī)采樣的方法使用前一時(shí)刻預(yù)測(cè)的高概率詞語(yǔ)作為下一時(shí)刻的輸入,避免因訓(xùn)練和測(cè)試時(shí)輸入不同問(wèn)題導(dǎo)致生成描述的準(zhǔn)確性降低。Rennie等人[75]提出了自我批判序列訓(xùn)練(self-critical sequence training,SCST)優(yōu)化算法,該方法使用貪婪搜索的方法計(jì)算獎(jiǎng)勵(lì)信號(hào),利用測(cè)試時(shí)的輸出獎(jiǎng)勵(lì)規(guī)范獎(jiǎng)勵(lì)信號(hào),這樣可以避免估計(jì)獎(jiǎng)勵(lì)信號(hào)和獎(jiǎng)勵(lì)歸一化,實(shí)驗(yàn)結(jié)果表明,該方法能夠提升模型訓(xùn)練效果。
本節(jié)從多角度對(duì)圖像描述任務(wù)方法進(jìn)行分類,為了對(duì)各方法的具體效果有更直觀的展示,從各類別中選出幾個(gè)方法在MS COCO數(shù)據(jù)集上的效果進(jìn)行對(duì)比,見(jiàn)表1。
表1 不同方法在MS COCO數(shù)據(jù)集上的對(duì)比
深度學(xué)習(xí)技術(shù)的發(fā)展是建立在大型數(shù)據(jù)集的基礎(chǔ)之上,如果沒(méi)有數(shù)據(jù)集提供給模型進(jìn)行訓(xùn)練,模型的各種性能的比較就無(wú)從提起。本節(jié)介紹了圖像描述領(lǐng)域常用的6個(gè)數(shù)據(jù)集,從圖片數(shù)量、平均標(biāo)注數(shù)量、實(shí)體類別、是否分組四個(gè)方面進(jìn)行對(duì)比,見(jiàn)表2。
表2 數(shù)據(jù)集對(duì)比
3.1.1 Flickr8K
Flickr8K數(shù)據(jù)集總共包含8000張圖片,每張圖片配有5個(gè)不同的標(biāo)注,對(duì)圖片中的內(nèi)容進(jìn)行了描述。其中6000張圖片和對(duì)應(yīng)的標(biāo)注組成訓(xùn)練數(shù)據(jù)集,2000張用于測(cè)試和開(kāi)發(fā)。
3.1.2 Flickr30K
Flickr30K數(shù)據(jù)集包含31783張圖像,每個(gè)圖像有五條不同的標(biāo)注,共計(jì)158915句話,它沒(méi)有劃分好訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集的大小和內(nèi)容可以由研究人員按需確定。
3.1.3 MSCOCO
MS COCO是由微軟團(tuán)隊(duì)提供的用于圖像識(shí)別、語(yǔ)義分割和圖像標(biāo)注的數(shù)據(jù)集,有超過(guò)30萬(wàn)張圖片、200多萬(wàn)條標(biāo)注,圖像分為80種類別并且已經(jīng)劃分好了訓(xùn)練集和測(cè)試集。
3.1.4 Visual Genome
Visual Genome數(shù)據(jù)集是斯坦福大學(xué)李飛飛團(tuán)隊(duì)于2016年發(fā)布的大規(guī)模圖片語(yǔ)義理解數(shù)據(jù)集,共計(jì)10.8萬(wàn)多張圖片,每張圖像平均包含35個(gè)對(duì)象、26個(gè)屬性和21個(gè)對(duì)象之間的成對(duì)關(guān)系。標(biāo)注工作主要包括七個(gè)部分:區(qū)域描述、對(duì)象、屬性、關(guān)系、區(qū)域圖、場(chǎng)景圖和問(wèn)答對(duì)。
3.1.5 Instagram
Instagram數(shù)據(jù)集是由Tran等人[55]和Chunseong等人[56]提出的兩個(gè)數(shù)據(jù)集組成,包含來(lái)自Instagram應(yīng)用上的約1萬(wàn)張圖片,大部分是名人的照片。后者提出的數(shù)據(jù)集主要應(yīng)用于標(biāo)簽預(yù)測(cè)任務(wù),包含了110萬(wàn)條主題廣泛的帖子和一個(gè)來(lái)自6300多個(gè)用戶的標(biāo)簽列表。
3.1.6 ImageNet
ImageNet數(shù)據(jù)集是深度學(xué)習(xí)圖像研究領(lǐng)域經(jīng)常使用的大型可視化數(shù)據(jù)庫(kù)。超過(guò)1400萬(wàn)的圖像URL被ImageNet手動(dòng)注釋,來(lái)標(biāo)注出圖像中的對(duì)象,在至少一百萬(wàn)個(gè)圖像中,還提供了邊界框。ImageNet包含2萬(wàn)多個(gè)類別,每個(gè)類別包含數(shù)百個(gè)圖像。
由于圖像描述任務(wù)生成的是文本描述,不同于目標(biāo)檢測(cè)任務(wù),文本打分并沒(méi)有一個(gè)完美的評(píng)判標(biāo)準(zhǔn),其中最重要的還是人類對(duì)生成描述的評(píng)價(jià),但由于人與人的看法不同,難以有一個(gè)統(tǒng)一的評(píng)判標(biāo)準(zhǔn),所以對(duì)于圖像描述任務(wù)采用有固定標(biāo)準(zhǔn)的評(píng)價(jià)機(jī)制,常用的評(píng)價(jià)指標(biāo)有BLEU、ROUGE、METEOR和CIDEr。
3.2.1 BLEU
BLEU(Bilingual Evaluation Understudy)實(shí)際上是判斷兩個(gè)句子的相似程度,基于n-gram來(lái)判斷譯文與參考譯文的n元組匹配個(gè)數(shù),得分范圍是0~1,得分越高代表模型效果越好,根據(jù)n的不同又分為不同指標(biāo),如,BLEU-1、BLEU-2等,一般只計(jì)算BLEU-1~4的得分。
3.2.2 ROUGE
ROUGE(recall-oriented understanding for gisting evaluation)是評(píng)估自動(dòng)文摘以及機(jī)器翻譯的一組指標(biāo)。它將生成的描述與人工描述進(jìn)行比對(duì),統(tǒng)計(jì)二者之間相同的基本單元的數(shù)目,來(lái)評(píng)價(jià)摘要的質(zhì)量,得分越高代表模型效果越好,常用的評(píng)價(jià)標(biāo)準(zhǔn)有:Rouge-N、Rouge-L、Rouge-S等。
3.2.3 METEOR
METEOR是基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率的度量方法,它將語(yǔ)序納入打分范圍,通過(guò)比對(duì)生成文本與參考文本的單個(gè)詞的重疊部分,當(dāng)兩者不同時(shí)適當(dāng)給予懲罰來(lái)降低分?jǐn)?shù),同樣也是得分越高代表模型效果越好。
3.2.4 CIDEr
與以上方法不同,CIDEr是為圖像描述專門(mén)提出的一種評(píng)價(jià)方法,其基本工作原理就是通過(guò)度量帶測(cè)評(píng)語(yǔ)句與其它大部分人工描述句之間的相似性來(lái)評(píng)價(jià)相似性,CIDEr首先根據(jù)n-grams編碼參考句子中的出現(xiàn)頻率,根據(jù)信息熵公式,數(shù)據(jù)集中圖片出現(xiàn)頻率越高其包含的信息量越少,相應(yīng)的其權(quán)重也應(yīng)降低,通過(guò)TF-IDF計(jì)算每個(gè)n-gram的權(quán)重。將句子用n-gram表示成向量形式,每個(gè)參考句和生成句之間通過(guò)計(jì)算TF-IDF向量的余弦距離來(lái)度量其相似性。
本文回顧了近年來(lái)多模態(tài)領(lǐng)域圖像描述任務(wù)的發(fā)展,對(duì)其方法從多角度進(jìn)行了分類總結(jié),深度學(xué)習(xí)的方法和強(qiáng)化學(xué)習(xí)方法的引入,使得圖像描述效果得到很好地提升,也產(chǎn)生了許多應(yīng)用,但距離真正意義上使機(jī)器能夠智能化描述圖像還有不小的差距?;谀壳鞍l(fā)展趨勢(shì),以下幾個(gè)方面可能會(huì)成為未來(lái)研究重點(diǎn)。
1)從監(jiān)督學(xué)習(xí)轉(zhuǎn)向無(wú)監(jiān)督學(xué)習(xí)圖像描述方法研究。機(jī)器監(jiān)督學(xué)習(xí)需要使用有標(biāo)注的圖像數(shù)據(jù)集,但圖像數(shù)據(jù)集的標(biāo)注是一項(xiàng)耗時(shí)耗力的工作,現(xiàn)有標(biāo)注的數(shù)據(jù)集容量遠(yuǎn)小于未標(biāo)注的數(shù)據(jù),由于無(wú)監(jiān)督學(xué)習(xí)方法可以擺脫數(shù)據(jù)集限制,使用未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,所以為了取得更好的效果,無(wú)監(jiān)督學(xué)習(xí)方法可能會(huì)成為未來(lái)圖像描述任務(wù)的研究熱點(diǎn)。
2)帶有情感的多樣化圖像描述生成研究。通過(guò)數(shù)據(jù)集訓(xùn)練得到的描述模型,其描述風(fēng)格在一定程度上與數(shù)據(jù)集中描述的風(fēng)格相類似,無(wú)法做到像人類一樣根據(jù)看到圖像時(shí)的情感來(lái)生成多樣化的描述,在未來(lái)的研究中,可以考慮將情感作為額外的輸入信息,來(lái)指導(dǎo)編碼器結(jié)構(gòu)生成描述文本,從而生成多樣化圖像描述。
3)去復(fù)雜化的圖像描述模型研究。自從引入深度學(xué)習(xí)技術(shù)后,圖像描述任務(wù)的模型不斷復(fù)雜化,從組合網(wǎng)絡(luò)到編碼器—解碼器結(jié)構(gòu),在編碼器—解碼器的基礎(chǔ)上又加入了注意力機(jī)制,而且神經(jīng)網(wǎng)絡(luò)層數(shù)的加深會(huì)導(dǎo)致誤差累積而降低訓(xùn)練效果。模型復(fù)雜化會(huì)提高對(duì)設(shè)備的算力要求,不利于圖像描述技術(shù)在手機(jī)、車(chē)載電腦等微端的應(yīng)用。所以為了使圖像描述技術(shù)更好的應(yīng)用于現(xiàn)實(shí)生活中,模型的去復(fù)雜化研究可能成為未來(lái)的研究方向。