耿耀港,梅紅巖,張興,李曉會
遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州121000
隨著多媒體技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)的多模態(tài)性日顯突出,數(shù)據(jù)量爆發(fā)式增長,學(xué)術(shù)界和企業(yè)界對多模態(tài)數(shù)據(jù)處理的需求也日益迫切。另一方面,深度學(xué)習(xí)技術(shù)的日益成熟,給處理多模態(tài)數(shù)據(jù)提供了強(qiáng)有力的技術(shù)支持。
圖像標(biāo)題生成任務(wù)由Farhadi 等人在2010 年提出,其任務(wù)是通過模型實(shí)現(xiàn)從圖像模態(tài)到文本模態(tài)的模態(tài)轉(zhuǎn)換,具體化表示為二元組(,),模型完成圖像模態(tài)(image)到文本模態(tài)(sentence)的模態(tài)轉(zhuǎn)換。圖像標(biāo)題生成任務(wù)是計(jì)算機(jī)視覺領(lǐng)域(computer vision,CV)和自然語言處理領(lǐng)域(natural language processing,NLP)的交叉任務(wù)。這項(xiàng)任務(wù)對有一定生活經(jīng)驗(yàn)的人類來說非常簡單,但是對于計(jì)算機(jī)來說卻有著巨大的挑戰(zhàn)性,這不僅要求計(jì)算機(jī)能夠理解圖像的內(nèi)容,而且還要求計(jì)算機(jī)能夠生成符合人類語言習(xí)慣的句子。圖像標(biāo)題生成任務(wù),在圖像理解、人機(jī)交互和視覺障礙患者輔助和新聞等領(lǐng)域有著重要的作用,由于任務(wù)的重要性和挑戰(zhàn)性,逐漸成為人工智能領(lǐng)域研究的一個重要方面,越來越多的研究者們投身到了這個領(lǐng)域的研究,提出了一系列效果顯著的算法和模型框架。
從Farhadi 等人提出的基于模板的方法,到Kuznetsova 等人提出的基于檢索的方法,再到現(xiàn)在主流的基于編碼-解碼的方法,圖像標(biāo)題生成技術(shù)不斷革新,圖像標(biāo)題的質(zhì)量也越來越高。目前基于編碼-解碼的圖像標(biāo)題生成方法在圖像生成質(zhì)量和模型性能方面取得了較好的效果,備受關(guān)注。本文基于編碼-解碼圖像標(biāo)題生成方法整體流程,分別從圖像理解和標(biāo)題生成兩方面對該方法的研究進(jìn)展進(jìn)行了相關(guān)的研究與闡述。
目前圖像標(biāo)題生成領(lǐng)域中主要有三種圖像標(biāo)題生成方法,分別是基于模板的方法、基于檢索的方法和基于編碼-解碼的方法。本章簡要介紹三種方法的代表工作和各自的優(yōu)缺點(diǎn)。
基于模板的方法(template-based method)是一種依賴人工設(shè)計(jì)語言模板和目標(biāo)檢測技術(shù)的圖像標(biāo)題生成方法。首先由人工設(shè)計(jì)語言模板,然后通過目標(biāo)檢測技術(shù)檢測圖像中的對象、對象屬性、對象之間的相互關(guān)系等信息;最后使用這些信息將模板填充完整,生成圖像標(biāo)題,其代表性研究是Farhadi 等人在2010 年提出的基于模板的圖像標(biāo)題生成方法和模型。該模型首先按照語法規(guī)范人工設(shè)定句型模板和<對象,動作,場景>三元組,然后使用計(jì)算機(jī)視覺中目標(biāo)檢測的方法檢測圖像中的場景、對象、對象的屬性及動作所有可能的值,并使用條件隨機(jī)場算法(conditional random field,CRF)預(yù)測正確的三元組填入模板,組成標(biāo)題的基本結(jié)構(gòu);最后使用相關(guān)算法填充模板中的其他部分,生成圖像標(biāo)題,其流程如圖1所示。Kulkarni 等人在此基礎(chǔ)上提出了Baby talk 模型。該模型通過目標(biāo)檢測技術(shù),檢測多組對象及其相關(guān)信息,使用分類器對其分類。然后使用CRF 對三元組的值進(jìn)行預(yù)測,最后填充模板,生成完整的標(biāo)題。該模型中使用了更多的對象及其相關(guān)信息驅(qū)動標(biāo)題的生成,為此獲得了更為詳細(xì)、質(zhì)量更好的圖像標(biāo)題。
圖1 基于模板的方法流程Fig.1 Template-based method flow
基于模板的方法的優(yōu)點(diǎn)是生成的標(biāo)題符合語法規(guī)范,但該方法需要人工設(shè)計(jì)句法模板,依賴于硬解碼的視覺概念,受到圖像檢測質(zhì)量、句法模板數(shù)量等條件的限制,且該方法生成的標(biāo)題、語法形式單一,標(biāo)題的多樣性不足。
基于檢索的方法是一種依賴大型圖像數(shù)據(jù)庫和檢索方法的圖像標(biāo)題生成方法。該方法首先檢索數(shù)據(jù)庫中與給定圖像相似度高的圖像作為候選圖像集,從候選圖像集中選取最相似的幾個圖像,利用它們的圖像標(biāo)題,組合成給定圖像的標(biāo)題,其代表性研究是Kuznetsova 等人在2012 年提出的基于檢索方法的圖像標(biāo)題生成模型。該模型由整體的數(shù)據(jù)驅(qū)動生成圖像標(biāo)題,基于輸入圖像,在數(shù)據(jù)庫中檢索相似圖像以及描述該圖像的人工合成短語,然后有選擇地將這些短語組合起來,生成圖像標(biāo)題,其示意圖如圖2 所示。Ordonez 等人基于對圖像數(shù)據(jù)庫規(guī)模的擴(kuò)充和相似度計(jì)算方法的改進(jìn)對該模型進(jìn)行了優(yōu)化。數(shù)據(jù)庫包括從網(wǎng)絡(luò)上收集的100 萬張帶有標(biāo)題的圖片。該模型獲取到輸入圖像后,在數(shù)據(jù)庫中檢索相似的圖像作為候選,通過目標(biāo)檢測技術(shù)檢測候選圖像中的對象、動作、場景和TF-IDF(term frequencyinverse document frequency)權(quán)重,計(jì)算候選圖像與輸入圖像的相似度,取相似度前四的圖像標(biāo)題組合成輸入圖像的標(biāo)題。在一定程度上提高了標(biāo)題質(zhì)量。
圖2 基于檢索的方法流程Fig.2 Retrieval-based method flow
基于檢索的方法是由現(xiàn)有的圖像標(biāo)題驅(qū)動生成新的圖像標(biāo)題,對輸入圖像與數(shù)據(jù)庫圖像的相似度有較強(qiáng)的依賴性,即若給定的圖片與數(shù)據(jù)庫中的圖像相似度高,生成的圖像標(biāo)題質(zhì)量就高;若相似度低,結(jié)果就不盡人意,且圖像標(biāo)題的形式也受到數(shù)據(jù)庫中標(biāo)題形式的限制,不會產(chǎn)生數(shù)據(jù)庫以外的單詞,標(biāo)題生成局限性較大。
基于編碼-解碼的方法是一種依賴深度學(xué)習(xí)技術(shù)的圖像標(biāo)題生成方法。該方法使用兩組神經(jīng)網(wǎng)絡(luò)分別作為編碼器和解碼器。編碼過程是使用編碼器提取圖像的特征,解碼過程是對圖像的特征進(jìn)行解碼,按照時(shí)間順序生成單詞,最終組合成圖像標(biāo)題。其代表性工作源于Cho 等人在2014 年提出的解決機(jī)器翻譯(machine translation,MT)任務(wù)的編碼器-解碼器模型,該模型使用兩個遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)分別作為編碼器和解碼器,模型使用編碼器對源語言進(jìn)行編碼,再使用解碼器解碼成目標(biāo)語言,該模型在機(jī)器翻譯任務(wù)中取得了令人鼓舞的效果。2015年,Vinyals等人將編碼-解碼的思想引入圖像標(biāo)題生成領(lǐng)域中,提出NIC(neural image caption)模型。該模型采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為編碼器,長短期記憶網(wǎng)絡(luò)(long short-term memory networks,LSTM)作為解碼器。模型獲取到輸入圖像后,首先使用CNN提取圖像的全局特征,使用圖像的全局特征初始化解碼器,然后解碼器按時(shí)刻生成單詞,最終組合成圖像標(biāo)題,其流程如圖3 所示?!?span id="syggg00" class="emphasis_italic">S代表圖像標(biāo)題中的單詞,和S為標(biāo)題的開始標(biāo)志和結(jié)束標(biāo)志,代表生成單詞的概率。
圖3 基于編碼-解碼方法流程Fig.3 Method flow based on encode-decode
基于編碼-解碼的方法擺脫了對模板和數(shù)據(jù)庫的依賴,生成的標(biāo)題具有前兩種方法不具有的高靈活性、高質(zhì)量和高擴(kuò)展性。但該種方法依然存在一些問題需要深入研究,如視覺特征的提取問題、語義鴻溝問題、模型復(fù)雜度高等問題。
圖像標(biāo)題生成方法均有其各自的優(yōu)缺點(diǎn),其中基于編碼-解碼的方法憑借其生成標(biāo)題不受模板和數(shù)據(jù)庫容量限制,具有高多樣性、高靈活性等優(yōu)點(diǎn),目前已經(jīng)成為圖像標(biāo)題生成領(lǐng)域的主流生成方法。針對基于編碼-解碼方法的研究也不斷深入,本文將在第2 章深入介紹基于編碼-解碼的圖像標(biāo)題生成方法的研究現(xiàn)狀。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和針對圖像標(biāo)題生成任務(wù)研究的不斷深入,研究者們提出了一系列優(yōu)秀的模型和算法。本章按照圖像標(biāo)題生成流程將這些模型和算法分類為圖像理解階段的研究和標(biāo)題生成階段的研究,闡述相關(guān)研究的思路、優(yōu)勢以及存在的問題。本章采用NIC 模型作為基線進(jìn)行對比。
圖像理解階段工作為完成對圖像內(nèi)容的理解,提取圖像特征。作為本節(jié)的基線,NIC 模型在圖像理解階段存在以下兩個主要缺陷:
(1)模型直接使用圖像的全局特征指導(dǎo)解碼器生成標(biāo)題,因此模型沒有關(guān)注圖像重點(diǎn)區(qū)域的能力。
(2)圖像的全局特征中只含有圖像的高層語義,其感受野較大,對圖像中對象的位置和相互關(guān)系感知能力較差,不足以支撐模型生成高質(zhì)量的標(biāo)題。
根據(jù)解決這兩個問題的方法,本文將相關(guān)研究分類為注意力機(jī)制的研究和語義獲取的研究。
注意力機(jī)制在機(jī)器翻譯領(lǐng)域廣泛應(yīng)用的背景下,研究者們針對模型生成標(biāo)題關(guān)注不到圖像重點(diǎn)的問題,提出使用注意力機(jī)制解決此問題。2015 年,Xu 等人首次將注意力機(jī)制應(yīng)用到圖像標(biāo)題生成領(lǐng)域,提出基于注意力機(jī)制的圖像標(biāo)題生成模型,其中包括基于“軟”注意力機(jī)制(soft attention)的模型和基于“硬”注意力機(jī)制(hard attention)的模型?!败洝弊⒁饬γ看谓獯a會將權(quán)重分配到所有區(qū)域,權(quán)重取值在0 到1 之間,采用后向傳播進(jìn)行訓(xùn)練?!坝病弊⒁饬C(jī)制每次解碼只關(guān)注圖中的一個區(qū)域,采用one-hot 編碼,花費(fèi)時(shí)間較少,但是不可微分,一般采用蒙特卡洛采樣方法先對梯度進(jìn)行估計(jì),然后進(jìn)行后向傳播訓(xùn)練。目前圖像標(biāo)題生成領(lǐng)域常用的注意力機(jī)制,以“軟”注意力機(jī)制為主。注意力機(jī)制模型將CNN 提取的圖像特征由全局特征優(yōu)化為區(qū)域特征。模型在生成單詞之前都會通過注意力機(jī)制計(jì)算要生成的單詞與圖像中各區(qū)域的相關(guān)度,選取相關(guān)度高的區(qū)域的區(qū)域特征,傳入解碼器,指導(dǎo)解碼器生成圖像標(biāo)題。注意力機(jī)制的引入使圖像標(biāo)題生成模型有了關(guān)注重點(diǎn)區(qū)域的能力。但這種注意力機(jī)制會將單詞與去向區(qū)域強(qiáng)制對應(yīng),像“of”“the”這種虛詞也會強(qiáng)制對應(yīng)圖像中的區(qū)域造成算力浪費(fèi)。因此,Lu等人提出一種自適應(yīng)注意力機(jī)制。該注意力機(jī)制引入“視覺前哨(visual sentinel)”向量,此向量表示生成單詞與視覺信息的相關(guān)性取值在0 和1 之間,當(dāng)單詞與圖像直接相關(guān)時(shí),取值為1,模型會關(guān)注圖像的區(qū)域并生成單詞。當(dāng)生成“of”“the”這種與圖像相關(guān)性低的單詞時(shí),則直接通過語言模型推測。該模型解決了虛詞強(qiáng)制對應(yīng)圖像區(qū)域的問題,并且有良好的泛化性,改善了原有的注意力機(jī)制的算力浪費(fèi)的問題。Huang 等人提出了一種AOA(attention on attention)模塊。AOA 是針對注意力機(jī)制設(shè)計(jì)的一種擴(kuò)展模塊,AOA 能夠更加精確地計(jì)算向量和注意力查詢的相關(guān)性,避免了即使無關(guān)也產(chǎn)生加權(quán)平均值的問題。該模塊相當(dāng)靈活,可以對任何模型和任何注意力機(jī)制進(jìn)行擴(kuò)展。
傳統(tǒng)模型采用CNN 的高層卷積層提取的圖像特征作為輸出,這種特征圖丟失了很多圖像信息并且較大的感受野會影響注意力機(jī)制的性能。于是研究者們提出使用注意力機(jī)制融合高層特征圖中的高級特征與低級特征圖中的低級特征。Chen 等人提出空間和通道注意力機(jī)制模型(spatial and channel-wise attention,SCA),融合了通道注意力機(jī)制和空間注意力機(jī)制的SCA 可以同時(shí)關(guān)注多層的圖像特征圖,即在使用低層特征圖保留的圖像信息的同時(shí)關(guān)注高層特征圖提取的圖像的高層語義,避免了傳統(tǒng)注意力機(jī)制使用高層空間特征圖造成的空間信息丟失和注意力機(jī)制功能受限的問題。Ding 等人模仿人類視覺系統(tǒng)的感官刺激理論,提出自底向上的注意力機(jī)制算法,對圖像區(qū)域的低級特征,如對比度、銳度、清晰度,高級特征,如人臉影響進(jìn)行評分,并將評分進(jìn)行綜合,以此來決定注意力應(yīng)該關(guān)注的區(qū)域。You 等人則是融合自頂向下和自底向上方法。該模型獲取到圖片后,通過CNN 獲取其視覺特征,同時(shí)檢測圖像中的視覺概念,如對象、區(qū)域、屬性等。然后通過一個語義注意力模塊將圖片的視覺特征和視覺概念融合,并使用LSTM 生成單詞。該模型能夠處理圖像中語義上重要的概念或感興趣的區(qū)域,加權(quán)多個概念所關(guān)注的相對強(qiáng)度和根據(jù)任務(wù)狀態(tài)動態(tài)地在概念之間切換注意力。以上幾項(xiàng)研究,選擇使用注意力機(jī)制算法融合高級特征和低級特征的方式,彌補(bǔ)了只使用高級特征造成的信息丟失,獲取了更多的圖像信息。其中,文獻(xiàn)[10]直接使用完整圖像的特征圖作為圖像的高級特征,文獻(xiàn)[10-11]則是使用Faster RCNN(faster region convolutional neural network)檢測后的區(qū)域特征作為高級特征。這兩種方式在圖像方面都有一定的局限性,文獻(xiàn)[10]使用整張圖像的特征,提取的為圖像的粗粒度語義。文獻(xiàn)[11-12]提取的則是區(qū)域級的細(xì)粒度語義,會造成一定的區(qū)域外的語義丟失問題。而這一問題,也是未來需要研究的問題。
語義作為計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的常見概念,其對于圖像標(biāo)題生成領(lǐng)域也是及其重要的。圖像理解階段其實(shí)就是獲取的圖像特征和語義的過程,這個階段獲取的圖像特征和語義越多,解碼器生成標(biāo)題時(shí)獲得的指導(dǎo)也就更多,而NIC 模型的全局圖像特征對對象屬性、位置和相互關(guān)系等語義反映不足。圖像標(biāo)題生成模型中語義獲取方面的問題,研究者們也進(jìn)行了相應(yīng)的探索。
Wu 等人首先對圖像標(biāo)題生成任務(wù)中是否需要圖像的高級概念(對象屬性)進(jìn)行了探究,方法是CNN和LSTM 之間加入了一層屬性預(yù)測層,構(gòu)成基于屬性的卷積神經(jīng)網(wǎng)絡(luò)(attribute convolutional neural network,att-CNN)模型。該模型是一種基于屬性的神經(jīng)網(wǎng)絡(luò)模型,att-CNN 模型中的編碼器在提取了圖像特征后,對圖像中的對象屬性進(jìn)行預(yù)測,獲取圖像的高級概念,將其構(gòu)造成向量,并指導(dǎo)LSTM 生成圖像標(biāo)題。經(jīng)過實(shí)驗(yàn)對比發(fā)現(xiàn),模型獲取了圖像的高級概念之后,模型在標(biāo)準(zhǔn)數(shù)據(jù)集和評價(jià)指標(biāo)下的評分均顯著高于以NIC 模型為代表的傳統(tǒng)編碼器-解碼器模型。證明了圖像標(biāo)題生成模型中圖像高層語義的必要性和重要性。在此基礎(chǔ)上,Yao 等人探究了五種不同的將圖像特征和語義注入LSTM 的方式,分別是:(1)只注入語義特征;(2)先注入圖像特征再注入語義特征;(3)先注入語義特征再注入圖像特征;(4)先注入語義特征,將圖像特征伴隨詞嵌入注入;(5)先注入圖像特征,將語義特征伴隨詞嵌入注入。最終得出結(jié)論第五種方式是五種方式中語義特征和圖像特征結(jié)合最好的方式。文獻(xiàn)[13-14]為圖像標(biāo)題生成領(lǐng)域語義獲取方面的研究奠定了基礎(chǔ),文獻(xiàn)[13]證明了模型需要圖像的對象屬性指導(dǎo)標(biāo)題生成。而文獻(xiàn)[14]則是對語義注入解碼器的最優(yōu)方式進(jìn)行了探究。不同于將編碼器優(yōu)化為屬性預(yù)測器,Tanti等人在獲取語義方面采取了雙編碼器策略。一個CNN 提取圖像特征,一個RNN 提取標(biāo)題特征,特征融合后輸入前饋神經(jīng)網(wǎng)絡(luò),生成標(biāo)題。該模型同時(shí)對圖像和標(biāo)題進(jìn)行特征提取,獲取圖像特征及圖像語義,指導(dǎo)模型生成標(biāo)題。該方法優(yōu)點(diǎn)是更加適合遷移學(xué)習(xí),兩個編碼器都可以進(jìn)行遷移學(xué)習(xí)。
自編碼器-解碼器模型提出以來,由于技術(shù)條件所限,對圖像的高層語義提取的研究進(jìn)展較為緩慢。直到Kipf 等人提出圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)。GCN 在提取圖結(jié)構(gòu)這種非歐式數(shù)據(jù)的特征時(shí),表現(xiàn)出了極高的性能,而且其在未經(jīng)過訓(xùn)練時(shí)的性能也保持較高的性能。而圖結(jié)構(gòu)在表達(dá)圖像中的語義信息方面有著其他數(shù)據(jù)結(jié)構(gòu)無法比擬的優(yōu)勢,其可以表達(dá)出圖像中的對象、對象的屬性以及對象間的相互關(guān)系這種圖像的高層語義。
2018 年,Yao 等人提出了GCN-LSTM 架構(gòu)的圖像標(biāo)題生成模型,首次將GCN 應(yīng)用到圖像標(biāo)題生成領(lǐng)域。模型依賴目標(biāo)檢測技術(shù)(如Faster R-CNN)。該模型首先通過目標(biāo)檢測技術(shù)檢測出圖像中的對象、對象屬性和對象之間的關(guān)系,然后構(gòu)造圖結(jié)構(gòu)。使用GCN 提取圖結(jié)構(gòu)的特征,使用該特征指導(dǎo)LSTM生成標(biāo)題。目前圖卷積神經(jīng)網(wǎng)絡(luò)被廣泛地使用在圖像標(biāo)題生成模型中。值得一提的是配合圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),圖像的特征由原來的直接提取網(wǎng)格級(grid)特征變成了先由目標(biāo)檢測技術(shù)提取圖像的區(qū)域級(region)特征。Yao等人提出了層次分析法體系結(jié)構(gòu)(hierarchy parsing,HIP),該結(jié)構(gòu)通過Faster RCNN 和Mask R-CNN(mask region convolutional neural network)技術(shù)對圖像進(jìn)行區(qū)域級和實(shí)例級分割,將圖像構(gòu)造成樹結(jié)構(gòu)={,,,,其中代表圖像,代表區(qū)域級對象,代表實(shí)例級對象,代表樹結(jié)構(gòu)中的關(guān)系,然后采用GCN 提取樹結(jié)構(gòu)的特征,將特征傳入U(xiǎn)p-to-down 注意力機(jī)制進(jìn)行計(jì)算,計(jì)算出最相關(guān)的幾個對象,通過對象特征指導(dǎo)Tree-LSTM 生成圖像標(biāo)題。HIP 層次分析法,模型能夠提取到圖像的三級語義,獲取的語義更加豐富,產(chǎn)生的標(biāo)題質(zhì)量更高且模型泛化能力較強(qiáng)。但是樹結(jié)構(gòu)在表達(dá)圖像中對象的復(fù)雜關(guān)系時(shí),有一定的局限性。因此,Shi等人提出了一種標(biāo)題引導(dǎo)的視覺關(guān)系圖(captionguided visual relationship graph,CGVRG)的框架。該框架首先通過Faster R-CNN 獲取圖像中的對象,文本場景圖解析器從標(biāo)題中提取關(guān)系三元組。然后將對象和謂語動詞通過弱監(jiān)督學(xué)習(xí)對應(yīng)起來,構(gòu)造CGVRG。將CGVRG 輸入GCN,通過GCN 提取CGVRG 的特征和上下文向量,該模型使用圖結(jié)構(gòu)的特征和上下文向量指導(dǎo)解碼器生成標(biāo)題,因此模型具有更好的語義信息。與之類似的,Chen 等人提出了一種ASG2Caption(abstract scene graph to caption),該模型通過一種名為抽象場景圖的有向圖結(jié)構(gòu)驅(qū)動模型生成標(biāo)題。ASG 中包含三種抽象節(jié)點(diǎn),對象節(jié)點(diǎn)、屬性節(jié)點(diǎn)以及關(guān)系節(jié)點(diǎn)。模型首先通過目標(biāo)檢測技術(shù)構(gòu)建ASG,然后使用GCN 對ASG 進(jìn)行編碼,最后通過ASG 和圖像特征指導(dǎo)解碼器生成標(biāo)題。以上幾項(xiàng)研究總體上概括了圖卷積神經(jīng)網(wǎng)絡(luò)在圖像標(biāo)題生成領(lǐng)域應(yīng)用的現(xiàn)狀。首先使用Faster R-CNN 對圖像進(jìn)行目標(biāo)檢測,生成區(qū)域級的圖像特征。然后使用區(qū)域級的圖像特征和語義,如對象、對象屬性和對象關(guān)系等,構(gòu)造成不同的數(shù)據(jù)結(jié)構(gòu)(大部分是各種圖結(jié)構(gòu))。最后將生成的圖結(jié)構(gòu)傳入GCN,通過解碼器生成標(biāo)題。
圖卷積神經(jīng)網(wǎng)絡(luò)高度依賴目標(biāo)檢測技術(shù)提取的區(qū)域級描述特征,這種特征本身存在缺乏上下文信息和細(xì)粒度信息的缺點(diǎn)。傳統(tǒng)卷積提取的網(wǎng)格特征不存在這兩種缺點(diǎn),但語義并不如區(qū)域級特征豐富。Luo 等人針對這個問題提出了雙極協(xié)同的Transformer 架構(gòu),這種架構(gòu)可以通過注意力機(jī)制運(yùn)算選取并融合兩種級別的特征,并傳入Transformer解碼器中生成圖像標(biāo)題。該架構(gòu)生成的標(biāo)題,具有豐富的細(xì)節(jié)和語義信息。Li等人則是通過兩個Transformer構(gòu)成一個Entangle-Transformer 結(jié)構(gòu),分別對文本和圖像進(jìn)行特征提取并通過Entangle-Transformer 融合,緩解了語義鴻溝問題。
以上針對圖像理解階段的研究模型的性能表現(xiàn)如表1 所示(實(shí)驗(yàn)數(shù)據(jù)均源自相關(guān)文章,只統(tǒng)計(jì)在Karpathy 分割下MSCOCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果),優(yōu)勢及缺陷如表2 所示,具體數(shù)據(jù)集和評測指標(biāo)相關(guān)內(nèi)容見第3章。由以上研究可以看出,目前在圖像理解階段的研究依然圍繞兩個方面。一方面通過各種技術(shù)獲取圖像中更豐富的語義信息,比如將屬性預(yù)測器添加進(jìn)CNN-LSTM,使用各種圖結(jié)構(gòu)表達(dá)圖像中的語義信息。另一方面則是獲取到豐富的信息之后,使用各種不同的注意力機(jī)制方法,使模型能夠在生成單詞時(shí)“關(guān)注”到正確且豐富的信息。
表1 圖像理解模型在MSCOCO 數(shù)據(jù)集上的性能表現(xiàn)Table 1 Performance of image understanding models on MSCOCO dataset
表2 圖像理解模型優(yōu)勢及局限性Table 2 Advantages and limitations of image understanding models
圖像理解階段的主流編碼器已經(jīng)完成了從CNN到GCN 的更迭,但正如文獻(xiàn)[21-22],Transformer和BERT及其相關(guān)變體模型,也逐步應(yīng)用到圖像標(biāo)題生成領(lǐng)域。相對于CNN 對整張圖片進(jìn)行特征提取,GCN 則是依賴目標(biāo)檢測技術(shù)中的Faster R-CNN 先對圖像進(jìn)行目標(biāo)檢測,再提取區(qū)域級特征。目前對于GCN 的研究主要集中在構(gòu)造各種類型的圖結(jié)構(gòu),表達(dá)更多的圖像語義。這方面的研究的確取得了卓越的表現(xiàn)。但其依然存在一些問題值得未來深入研究:一方面,區(qū)域級特征和傳統(tǒng)網(wǎng)格特征融合的問題;另一方面,目前的針對圖像理解的研究還是處于割裂的階段,很少能有模型注意到標(biāo)題中的文本語義對模型的影響。因此,如何融合圖像語義和文本語義也是未來需要深入研究的一個問題。
標(biāo)題生成階段的工作為解碼器根據(jù)編碼器提取的圖像特征和語義信息生成圖像標(biāo)題。解碼器主要采用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)。本節(jié)根據(jù)生成標(biāo)題的類型,將近年來針對標(biāo)題生成階段的研究分為三類:生成傳統(tǒng)標(biāo)題的研究、生成密集標(biāo)題的研究和生成個性化標(biāo)題的研究。
傳統(tǒng)標(biāo)題作為最常見的標(biāo)題,多為陳述性句子。按照主謂賓經(jīng)典結(jié)構(gòu),再加以適當(dāng)?shù)男揎?,能夠言簡意賅地描述出圖像的核心內(nèi)容。然而,作為主流解碼器的LSTM 存在明顯的局限性,主要有以下幾點(diǎn):
(1)LSTM 作為一種序列型語言模型,傾向于預(yù)測語料庫中出現(xiàn)頻率高的語料,造成標(biāo)題多樣性低。
(2)序列模型在逐字預(yù)測過程中,對象、對象的屬性和對象的關(guān)系的混合會影響訓(xùn)練的效果。
(3)LSTM 作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,具有高復(fù)雜度的遞歸單元,且其固有時(shí)間順序,無法并行訓(xùn)練,訓(xùn)練成本較高。
因此,針對傳統(tǒng)標(biāo)題的研究熱點(diǎn)主要是站在語言模型的角度,優(yōu)化解碼器的結(jié)構(gòu)。目的是生成更流暢、更多樣以及更符合邏輯的句子。2016 年,Wang等人對LSTM 結(jié)構(gòu)進(jìn)行了調(diào)整,提出了雙向深層LSTM,這種模型將LSTM 由單向構(gòu)造為雙向,并通過堆疊多層LSTM,相較于原始LSTM,雙向深層LSTM能夠更好地表達(dá)圖像以及上下文語義。值得一提的是,該模型在未引入注意力機(jī)制的情況下,表現(xiàn)出的性能在當(dāng)時(shí)也具有很強(qiáng)的競爭力。但其缺點(diǎn)也很明顯,雙向深層LSTM 具有更高的復(fù)雜度,需要更多的訓(xùn)練時(shí)間。
Wang 等人針對序列模型的局限性,提出了組合型LSTM,該組合型LSTM 由一個骨架LSTM 和一個屬性LSTM 組成,使用含有高級語義的圖像特征的骨架LSTM 指導(dǎo)生成句子的基本骨架,然后通過屬性LSTM 生成句子的定語部分,最終組合成句子。Dai等人同樣針對此問題提出了不同的解決方法,模型首先從圖像中提取各種名詞-屬性的短語,組成初始短語池。然后遞歸地使用一個連接模塊將兩個短語組合成一個較長的短語,直到評估模塊確定獲得了一個完整的標(biāo)題。以上兩種模型都通過組合的思想,改善序列模型的問題,能夠更準(zhǔn)確、更具體地生成分布外的圖像標(biāo)題,因此該模型在SPICE 指標(biāo)上表現(xiàn)優(yōu)越,但是犧牲了一定的句子流暢度(BLEU 評分較低)。為了調(diào)節(jié)序列模型和組合模型的缺陷,Tian等人提出了一種組合神經(jīng)模塊網(wǎng)絡(luò)的序列模型,該模型結(jié)合了序列模型和組合模型的優(yōu)點(diǎn)。該模型首先提出感興趣的區(qū)域,根據(jù)上下文計(jì)算要關(guān)注的區(qū)域;然后所選區(qū)域的區(qū)域特征和整個圖像特征被輸入到一組模塊中,其中每個模塊負(fù)責(zé)預(yù)測對象的一個方面,如數(shù)量、顏色和大??;最終將這些模塊的結(jié)果動態(tài)組合,并在多次預(yù)測后組合成標(biāo)題。該模型產(chǎn)生的標(biāo)題既擁有序列模型產(chǎn)生標(biāo)題沒有的靈活性,也比組合型模型產(chǎn)生的標(biāo)題流暢度更高。
為了增強(qiáng)LSTM 長序列依賴性,Ke 等人提出反射解碼網(wǎng)絡(luò)(reflective decoding network,RDN),該網(wǎng)絡(luò)通過反射注意力模塊(reflective attention module,RAM)和反射位置模塊(reflective position module,RPM)的協(xié)作,增強(qiáng)了解碼器的長序列依賴性和位置感知能力,有效地提高了解碼器的長序列建模能力。該網(wǎng)絡(luò)生成的圖像標(biāo)題能關(guān)注到“更早”之前生成的單詞,并且具有了聯(lián)想的能力,例如模型可以通過圖中的“火車”“鐵軌”推斷出所在的地點(diǎn)為車站。Wang 等人在解碼器上引入了一種召回機(jī)制,模仿人類進(jìn)行圖片描述時(shí)會思考過去的經(jīng)驗(yàn)的行為,提出了基于召回機(jī)制的圖像標(biāo)題生成模型。召回機(jī)制由召回單元(recall unit,RU)、語義指南(semantic guide,SG)和召回詞槽(recalled-word slot,RWS)組成。模型首先通過計(jì)算圖像特征和單詞特征映射在同一空間,然后語義指南模塊通過注意力機(jī)制計(jì)算圖像與召回詞之間的相關(guān)度,獲得召回詞權(quán)重,選擇召回詞。召回詞槽負(fù)責(zé)將被召回的單詞復(fù)制到標(biāo)題中。該模型生成的標(biāo)題更加符合人類語言邏輯,增加了模型的長依賴性。
LSTM 的遞歸性和時(shí)序性,造成其高復(fù)雜度和無法并行訓(xùn)練的固有局限。因此,Aneja 等人開創(chuàng)性提出了一種卷積解碼結(jié)構(gòu),該結(jié)構(gòu)將模型中的解碼器替換成了一組掩碼卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過掩碼的操作能夠完成并行訓(xùn)練,且沒有任何遞歸單元,節(jié)省了模型訓(xùn)練的時(shí)間,且不受梯度消失的影響。Transformer 和BERT 近年來也開始逐漸被應(yīng)用在標(biāo)題生成階段,Cornia 等人提出了一種MTransformer(meshed-memory transformer)結(jié)構(gòu),該體系結(jié)構(gòu)改進(jìn)了圖像編碼和語言生成步驟:它整合學(xué)習(xí)到的先驗(yàn)知識,學(xué)習(xí)圖像區(qū)域之間關(guān)系的多層次表示,并在解碼階段使用類似網(wǎng)格的連接來利用低級和高級特征,在降低模型復(fù)雜度的同時(shí),緩解了語義鴻溝問題。Hosseinzadeh 等人則是使用Transformer模型完成了描述圖像細(xì)微差別的任務(wù),該模型通過與圖像檢索技術(shù)相結(jié)合,能夠?qū)蓮堉挥屑?xì)微差別的圖片進(jìn)行差別描述。
密集標(biāo)題(dense caption)是標(biāo)題生成模型功能的一種擴(kuò)展。其功能是為所有檢測到的對象生成描述。具體標(biāo)題形式見圖4。
圖4 密集標(biāo)題Fig.4 Dense caption
2013 年,Kulkarni 等人在基于模板的模型上進(jìn)行了密集標(biāo)題,提出了一個能夠生成密集標(biāo)題的模型。該模型檢測到圖像中的對象后,對圖像的屬性和關(guān)系進(jìn)行推理,生成一個詳細(xì)的描述,然后通過條件隨機(jī)場生成具有一定邏輯性的段落。該模型雖然一定程度上完成生成密集的任務(wù),但是由于當(dāng)時(shí)技術(shù)限制,以及基于模板方法手動提取特征的缺陷,導(dǎo)致該模型魯棒性較差。
2016 年,Johnson等人首次引入了密集的標(biāo)題任務(wù)概念,即為圖像生成更多條語句,多條語句之間有一定的相關(guān)性,能夠更加詳細(xì)地描述圖像的內(nèi)容。其還提出了一個全卷積定位網(wǎng)絡(luò)(fully convolutional localization network,F(xiàn)CLN)架構(gòu),該架構(gòu)由一個卷積網(wǎng)絡(luò)、一種密集定位層和生成標(biāo)簽序列的遞歸神經(jīng)網(wǎng)絡(luò)語言模型組成,密集定位層即對圖像分塊定位、分塊描述。密集定位層的加入使得圖像能夠被更精細(xì)地描述,生成更加詳細(xì)的標(biāo)題。雖然取得了令人印象深刻的結(jié)果,但這種方法沒有考慮到突出的圖像區(qū)域之外的上下文。為了解決這個問題,Yang 等人提出了使用Faster R-CNN 進(jìn)行目標(biāo)檢測,并提取區(qū)域圖像特征后,將整個圖像的特征傳入解碼器中作為上下文使用。而Kim 等人提出使用POS(part of speech)標(biāo)簽指導(dǎo)生成標(biāo)題。該模型使用一個多任務(wù)三重流網(wǎng)絡(luò)預(yù)測各個對象的POS,然后使用POS 作為上下文指導(dǎo)標(biāo)題生成。以上的工作只能針對2D圖像無法捕捉到3D 圖像。Chen 等人使用commodity RGB-D 傳感器的三維掃描密集標(biāo)題任務(wù)。該模型通過三維掃描,能夠更加精準(zhǔn)地捕獲對象的定位,以及對象的特征及屬性,使模型能夠完成3D 圖像的密集標(biāo)題生成任務(wù)。
通過以上研究可以看出,針對生成圖像密集標(biāo)題的任務(wù),研究重心主要集中在對象定位的準(zhǔn)確性上,一般來說目標(biāo)檢測越精準(zhǔn),生成的密集標(biāo)題質(zhì)量也越高。
傳統(tǒng)的圖像標(biāo)題生成模型生成的標(biāo)題大多數(shù)都是陳述性句子,基本不帶有感情色彩。隨著圖像標(biāo)題生成模型在日常生活中的應(yīng)用,人們發(fā)現(xiàn)了讓生成句子帶有情感的必要性,具體標(biāo)題形式見圖5。
圖5 個性化標(biāo)題Fig.5 Stylish caption
Mathews 等人提出了具有開關(guān)式RNN 的模型。這種模型實(shí)際上是在傳統(tǒng)RNN 上添加了一個“情感門”,“情感門”通過函數(shù)來控制生成句子中的積極情感(positive)和消極情感(negative),從而生成帶有情感色彩的文本描述。但是該模型對于積極情感和消極情感的區(qū)分過于粗糙,并且無法生成帶有復(fù)雜情感的句子。Chen 等人提出了Style-Factual LSTM,通過對抗性訓(xùn)練的方法來訓(xùn)練程式化的圖像標(biāo)題生成模型。該模型可以生成積極、消極、浪漫和幽默風(fēng)格的標(biāo)題。以上這兩種方法很大程度上依賴于成對圖像的程式化句子來訓(xùn)練程式化圖像標(biāo)題生成模型。
Gan 等人提出一種StyleNet 框架,該框架使用未配對的程式化語料庫生成具有浪漫、幽默風(fēng)格的圖像標(biāo)題。該框架中使用了一種可以自動提取文本語料庫中的樣式風(fēng)格的Factored-LSTM,可以通過對圖像數(shù)據(jù)集和帶有風(fēng)格的文本數(shù)據(jù)集的聯(lián)合訓(xùn)練,生成帶有風(fēng)格的標(biāo)題。張凱等人提出了一種雙解碼器的雙語圖像標(biāo)題生成模型,該模型使用雙解碼器,對同一圖像生成兩種語言的標(biāo)題,這種方法雖然有效地利用了兩門語言特征,但是由于不同語種的語序有所不同,兩種語言的聯(lián)合方法可能存在融合噪聲的問題。Chen 等人提出了一種可控的時(shí)尚圖像描述生成模型。使用兩種訓(xùn)練集和兩種編碼器——傳統(tǒng)訓(xùn)練集(源訓(xùn)練集)和帶有目標(biāo)風(fēng)格的文本訓(xùn)練集(目標(biāo)訓(xùn)練集),傳統(tǒng)編碼器CNN 和文本編碼器(skip-thought vectors,STV),通過對兩種數(shù)據(jù)集的聯(lián)合訓(xùn)練,可以生成帶有寫作風(fēng)格的圖像標(biāo)題,句子的靈活性有了極大的提高。Zhao 等人提出了一種新的程式化圖像字幕方法MemCap。MemCap 使用記憶模塊記憶語言風(fēng)格,并在解碼階段使用注意力機(jī)制關(guān)注標(biāo)題和語言風(fēng)格來生成標(biāo)題。因此,該方法能夠準(zhǔn)確地描述圖像的內(nèi)容,并適當(dāng)?shù)胤从吵鰣D像所期望的語言風(fēng)格。另外,該方法能夠同時(shí)執(zhí)行單風(fēng)格和多風(fēng)格標(biāo)題,泛化性強(qiáng)。
以上針對圖像理解階段的研究模型的性能表現(xiàn)如表3所示(實(shí)驗(yàn)數(shù)據(jù)均源自相關(guān)文章,只統(tǒng)計(jì)在Karpathy 分割下MSCOCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果),優(yōu)勢及缺陷如表4 所示,具體數(shù)據(jù)集和評測指標(biāo)相關(guān)內(nèi)容見第3章。由以上研究可以看出,相較于圖像理解階段的圍繞大方面進(jìn)行研究,標(biāo)題生成階段的研究更加多樣。傳統(tǒng)標(biāo)題生成、密集標(biāo)題生成和個性化標(biāo)題生成的研究重點(diǎn)各有側(cè)重。傳統(tǒng)標(biāo)題生成較為依賴目標(biāo)檢測技術(shù),因此其研究重點(diǎn)主要是優(yōu)化解碼器局限性,提高標(biāo)題的流暢性、邏輯性、長依賴性等質(zhì)量指標(biāo)。密集標(biāo)題生成的研究主要圍繞著如何對圖像中的對象進(jìn)行精準(zhǔn)定位,獲取更多的對象信息,如位置、屬性和相對關(guān)系等。而個性化標(biāo)題的生成研究焦點(diǎn)則是使用不同風(fēng)格的語料庫和配對方式,生成不同風(fēng)格的標(biāo)題。
表3 標(biāo)題生成模型在MSCOCO 數(shù)據(jù)集上的表現(xiàn)Table 3 Performance of caption generation models on MSCOCO dataset
表4 標(biāo)題生成模型優(yōu)勢及局限性Table 4 Advantages and limitations of caption generation models
圖像標(biāo)題生成領(lǐng)域,目前有多個常用的數(shù)據(jù)集,如MSCOCO、Flickr30K、Flickr8K 等,其信息如表5所示。
表5 圖像標(biāo)題生成數(shù)據(jù)集信息Table 5 Information of image captions generation datasets
(1)MSCOCO 數(shù)據(jù)集是目前最大的圖像標(biāo)題生成數(shù)據(jù)集,適用于各種計(jì)算機(jī)視覺任務(wù),如目標(biāo)檢測、圖像分割、圖像標(biāo)題生成等。在圖像標(biāo)題部分,包括訓(xùn)練集82 783 張圖像,驗(yàn)證集40 504 張圖像。MSCOCO 數(shù)據(jù)集對圖像標(biāo)題生成模型和算法具有極高的挑戰(zhàn)性,因?yàn)榇蠖鄶?shù)圖像中都包含復(fù)雜場景下的多個對象,每張圖像都包括5 個人工標(biāo)注的圖像標(biāo)題。模型評估時(shí),一般采用Karpathy 等人的劃分標(biāo)準(zhǔn),即從驗(yàn)證集中取出10 000 張圖像,其中5 000 張圖像用于驗(yàn)證,另外5 000 張用于最終測試。由于MSCOCO 數(shù)據(jù)集的專業(yè)性及挑戰(zhàn)性,MSCOCO 數(shù)據(jù)集目前是圖像標(biāo)題生成領(lǐng)域的主流評測標(biāo)準(zhǔn)數(shù)據(jù)集,各種模型和方法在該數(shù)據(jù)集上的評分是評價(jià)模型和算法性能的重要指標(biāo)。
(2)Flickr30K 數(shù)據(jù)集由Young 等人提出,其數(shù)據(jù)量相對較小,包括31 783 張日?;顒印⑹录蛨鼍暗恼掌?,每張圖像對應(yīng)5 條人工標(biāo)注的描述句子。在線評估是采用Karpathy 等人的劃分標(biāo)準(zhǔn),取其中29 000 張圖像及其標(biāo)題作為訓(xùn)練集,1 000 張圖像及其標(biāo)題作為驗(yàn)證集,其余樣本作為測試集。Flickr30K也是圖像標(biāo)題生成領(lǐng)域的一個重要評測標(biāo)準(zhǔn)數(shù)據(jù)集,一般和MSCOCO 數(shù)據(jù)集一起評測模型和算法的性能,作為MSCOCO 的補(bǔ)充。
(3)Flickr8K 數(shù)據(jù)集,由Hodosh 等人提出,其樣本量更少,共包含8 091 張圖像。同樣地,每張圖像對應(yīng)5 條參考句子。在具體使用時(shí),一般選取其中的6 000 張圖像及其參考句子用于模型訓(xùn)練,另外1 000張圖像與參考句子用于模型驗(yàn)證,其余1 091 張圖像用于最終的模型測試。
(4)其他數(shù)據(jù)集基本都是在以上三種數(shù)據(jù)集基礎(chǔ)上擴(kuò)展而來,如Flickr8kCN 是由Li等人對Flickr8K進(jìn)行了中文標(biāo)注,STAIR 數(shù)據(jù)集是Yoshikawa 等人對MSCOCO 數(shù)據(jù)集進(jìn)行了日文標(biāo)注。
圖像標(biāo)題生成任務(wù)的研究多采用生成的標(biāo)題和參考標(biāo)題之間的匹配程度來評價(jià)生成標(biāo)題的質(zhì)量。常用的評價(jià)指標(biāo)有BLEU(bilingual evaluation understudy)、METEOR(metric for evaluation of translation with explicit ordering)、ROUGE-L(recall-oriented understudy for gisting evaluation)、CIDEr(consensusbased image description evaluation)和SPICE(semantic propositional image caption generation evaluation)。其中BLEU、METEOR 和ROUGE-L 是機(jī)器翻譯的評測標(biāo)準(zhǔn),CIDEr 和SPICE 是圖像標(biāo)題生成任務(wù)專用的評測標(biāo)準(zhǔn)。
BLEU 指標(biāo)主要用于衡量句子的準(zhǔn)確性和連貫性,它通過計(jì)算生成句子與參考句子-gram 的匹配程度對生成句子進(jìn)行打分,其中的取值為{1,2,3,4},指幾個連續(xù)的單詞分為一個元組。當(dāng)確定時(shí),BLEU 的值越高,生成的句子就越連貫,其計(jì)算公式如下:
其中,每一個語句用元組ω來表示,元組在人工標(biāo)注語句S中出現(xiàn)的次數(shù)記作h(S),元組ω在待評價(jià)語句c中出現(xiàn)的次數(shù)記作h(c),l是待評價(jià)語句的總長,l是人工標(biāo)注語句的總長度。BLEU 得分越高,性能也就越好。BLEU 指標(biāo)對句子的長度也有一定的要求,若句子過短,便會使用懲罰因子降低句子的分?jǐn)?shù)。BLEU 關(guān)注的是-gram 而不是單個單詞,考慮了更長的匹配信息。但是由于BLEU 提出的時(shí)候,研究者們還沒有發(fā)現(xiàn)召回率這個因素對評價(jià)指標(biāo)的影響,BLEU 并沒考慮到召回率這個因素。
METEOR 則是研究者們發(fā)現(xiàn)在評價(jià)指標(biāo)加入召回率之后,評測的結(jié)果和人工評測的結(jié)果相似度提高之后提出的評價(jià)指標(biāo)。METEOR 提出時(shí)就是為了解決BLEU 的固有缺陷,因此METEOR 指標(biāo)考慮了召回率的影響,并且該指標(biāo)可以計(jì)算同義詞、詞根、詞綴之間的匹配關(guān)系,評測結(jié)果與人工評測的結(jié)果相關(guān)度更高,其計(jì)算公式如下:
其中,為召回率,為準(zhǔn)確率,為匹配的總對數(shù),為候選標(biāo)題的長度,為參考標(biāo)題的長度,為懲罰因子,是為了考慮詞之間的順序,如果兩句子中,互相匹配的單詞都是相鄰的,那么就將它們定義為同一個,總數(shù)為。
ROUGE 是由Lin 提出的一組評價(jià)指標(biāo),主要包括ROUGE-N、ROUGE-L、ROUGE-S、ROUGE-W、ROUGE-SU,使用者可以根據(jù)需要選擇合適的評價(jià)指標(biāo),圖像標(biāo)題生成領(lǐng)域一般采用ROUGE-L 評價(jià)指標(biāo)來評價(jià)模型的性能。ROUGE-L 主要針對BLEU 評價(jià)指標(biāo)忽視了召回率的問題做出了優(yōu)化,與BLEU 類似,ROUGE-L 也是基于-gram 的評價(jià)指標(biāo),計(jì)算生成標(biāo)題與參考標(biāo)題之間的元組重合度來衡量標(biāo)題的質(zhì)量,其思路與BLEU 基本一致,只是在算法中增加了召回率因素,其計(jì)算公式如下:
其中,表示候選標(biāo)題,表示參考標(biāo)題,(,)表示候選標(biāo)題和參考標(biāo)題的最長公共子序列長度,表示參考標(biāo)題的長度,表示候選標(biāo)題的長度。
CIDEr 是圖像標(biāo)題生成任務(wù)提出后,專門為圖像標(biāo)題生成任務(wù)設(shè)計(jì)的評價(jià)主表,避免了前幾種指標(biāo)只在自然語言的角度評價(jià)句子質(zhì)量的缺陷。CIDEr是一種對BLEU 評價(jià)指標(biāo)的改進(jìn),首先計(jì)算生成標(biāo)題和參考標(biāo)題的TF-IDF 向量,然后計(jì)算它們的余弦相似度,通過余弦相似度來衡量生成標(biāo)題與參考標(biāo)題之間的相關(guān)性,其計(jì)算公式如下:
其中,一個元組ω在人工標(biāo)注語句S中出現(xiàn)的次數(shù)記作h(S),在待評價(jià)語句中出現(xiàn)的次數(shù)記作h(C),元組的TF-IDF 權(quán)重g(S),是所有元組的個數(shù),是數(shù)據(jù)集中所有圖像的集合。CIDEr 的得分越高,生成的語句的質(zhì)量也就越好。
SPICE 指標(biāo)也是針對圖像標(biāo)題生成領(lǐng)域設(shè)計(jì)的評價(jià)指標(biāo)。與CIDEr 不同的是,SPICE 更加關(guān)注語義命題內(nèi)容。SPICE 認(rèn)為圖像標(biāo)題中應(yīng)該包括圖像中存在的各個語義命題,SPICE 將生成標(biāo)題和參考標(biāo)題均轉(zhuǎn)化為場景圖的形式,場景圖中表示了圖像中的對象、屬性和關(guān)系,通過對比場景圖來生成標(biāo)題評分,其計(jì)算公式如下:
其中,為候選標(biāo)題,為參考標(biāo)題集合,(·)表示轉(zhuǎn)換場景圖的方法,(·)表示元組轉(zhuǎn)換方法,?表示匹配運(yùn)算。
以上幾個指標(biāo)均為標(biāo)題工作中進(jìn)行語義相關(guān)性評估的指標(biāo),而個性化標(biāo)題生成任務(wù)評價(jià)指標(biāo)比較特殊。個性化標(biāo)題的評價(jià)分為兩個方面:一方面是語義相關(guān)性的評估,采用的評分標(biāo)準(zhǔn)為以上幾個評分指標(biāo),而其中SPICE 指標(biāo)在個性化標(biāo)題生成中更關(guān)鍵;另一方面是標(biāo)題的個性化評估,這方面由于其構(gòu)造數(shù)據(jù)集和評估的復(fù)雜性,目前沒有明確統(tǒng)一的評估指標(biāo),一般是采用語言風(fēng)格遷移的評價(jià)指標(biāo)或采用人工評估的方式進(jìn)行評估。
目前,經(jīng)過近幾年的研究工作,圖像標(biāo)題生成領(lǐng)域的工作已經(jīng)有了顯著的進(jìn)展。但其在語義融合、模型的高復(fù)雜度以及數(shù)據(jù)集的標(biāo)注及規(guī)模方面仍然存在諸多問題需要深入研究。
語義融合問題:目前大部分圖像標(biāo)題生成的研究圖像和文本的割裂感較為嚴(yán)重,容易出現(xiàn)語義鴻溝問題。如何將圖像語義和標(biāo)題的文本語義結(jié)合起來,關(guān)注到圖像模態(tài)和文本模態(tài),是未來值得研究的問題。
模型復(fù)雜度問題:LSTM 作為圖像標(biāo)題生成模型的解碼器,盡管一定程度上解決了RNN 網(wǎng)絡(luò)梯度消失、梯度爆炸和長依賴性等問題,表現(xiàn)出了較高的性能。但隨著自然語言處理領(lǐng)域的研究愈加深入,生成的文本越來越長,越來越復(fù)雜,LSTM 的缺陷也暴露出來,如訓(xùn)練開銷巨大,在處理長文本時(shí)性能會降低等問題。因此,解決解碼器的自身缺陷,也是圖像標(biāo)題生成領(lǐng)域的難點(diǎn)。目前解決這個問題的思路是采用2017 年Vaswani 等人提出的Transformer 模型,該模型是一種利用純注意力機(jī)制計(jì)算的神經(jīng)網(wǎng)絡(luò)模型,在處理序列數(shù)據(jù)上表現(xiàn)出了很好的性能,目前其各種變體已經(jīng)廣泛應(yīng)用在了自然語言處理領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域。因此,使用或改進(jìn)Transformer 模型,將其應(yīng)用在圖像標(biāo)題生成領(lǐng)域?qū)⑹菬衢T問題。
數(shù)據(jù)集的構(gòu)建:圖像標(biāo)題生成領(lǐng)域的數(shù)據(jù)集在構(gòu)建時(shí)需要專業(yè)人員為每張圖片標(biāo)注五條或以上不同表達(dá)形式的標(biāo)題,構(gòu)建成本高昂。隨著研究的不斷深入,高性能模型層出不窮,現(xiàn)有的數(shù)據(jù)集規(guī)模已經(jīng)很難滿足訓(xùn)練需求。另外如中文、德語、日語等數(shù)據(jù)集規(guī)模較小,難以訓(xùn)練出高性能模型,限制了圖像標(biāo)題生成模型的跨語言能力。這方面的解決思路一般是通過半監(jiān)督學(xué)習(xí)去訓(xùn)練圖像標(biāo)注的模型作為數(shù)據(jù)集。
圖像標(biāo)題生成任務(wù)作為一種融合了計(jì)算機(jī)視覺和自然語言處理的多模態(tài)任務(wù),打破了視覺與文本之間的界限,在人工智能領(lǐng)域引起了廣泛關(guān)注。自其被提出以來,經(jīng)歷了基于模板的方法、基于檢索的方法和基于編碼器-解碼器的方法。而基于編碼器-解碼器的方法中又經(jīng)歷了從CNN 到GCN,從LSTM到目前逐漸被應(yīng)用的Transformer 和BERT 的技術(shù)革新??梢园l(fā)現(xiàn)圖像標(biāo)題生成領(lǐng)域的研究與計(jì)算機(jī)視覺技術(shù)和自然語言處理技術(shù)之間的關(guān)系越來越密切。諸如目標(biāo)檢測、圖像檢索、機(jī)器翻譯等任務(wù)的思路和技術(shù)都逐漸被應(yīng)用在了圖像標(biāo)題生成領(lǐng)域,可見其研究思路的開闊性和巨大的可能性。近年來,研究者們不斷提出高性能的圖像標(biāo)題生成模型及其相關(guān)算法。本文在廣泛閱讀國內(nèi)外文獻(xiàn)的基礎(chǔ)上,對圖像標(biāo)題生成的概念和三種方法進(jìn)行了闡述。其次本文按照圖像標(biāo)題生成的流程,將近年來的研究分為圖像理解階段的研究及標(biāo)題生成階段的研究并詳細(xì)介紹了各項(xiàng)研究的模型內(nèi)容及優(yōu)缺點(diǎn)。最后,介紹了圖像標(biāo)題生成領(lǐng)域的經(jīng)典數(shù)據(jù)集和評價(jià)指標(biāo),討論了圖像標(biāo)題生成領(lǐng)域目前的研究難點(diǎn)與熱點(diǎn)。