陳耀傳,奚雪峰*,崔志明,盛勝利
(1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000;2.蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215000)
在計(jì)算機(jī)視覺領(lǐng)域中,目標(biāo)檢測(cè)[1-2]與圖像分類[3]等技術(shù)已經(jīng)發(fā)展的較為成熟,在實(shí)際生活中也出現(xiàn)了采用這些技術(shù)的應(yīng)用和產(chǎn)品。圖像描述(Image Captioning)作為結(jié)合人工智能領(lǐng)域中的計(jì)算機(jī)視覺(Computer Vision,CV)和自然語(yǔ)言處理(Natural Language Process,NLP)兩個(gè)領(lǐng)域的任務(wù),也逐漸成為人工智能領(lǐng)域的研究熱點(diǎn),圖像描述的目標(biāo)是生成輸入圖片的文本描述,整個(gè)過(guò)程需要使用計(jì)算機(jī)視覺技術(shù)識(shí)別圖像中的顯著目標(biāo),并利用自然語(yǔ)言處理技術(shù)生成連貫的文本描述,如圖1所示。區(qū)別于圖像分類與目標(biāo)檢測(cè),讓計(jì)算機(jī)理解輸入的圖像,顯然是具有挑戰(zhàn)性的任務(wù)。計(jì)算機(jī)不僅需要通過(guò)模型提取出圖像中的“表層信息”(圖像特征),也要提取出圖像中的“深層信息”(目標(biāo)關(guān)系),這對(duì)計(jì)算機(jī)來(lái)說(shuō)是十分困難的。
圖1 圖像描述實(shí)例
在圖像描述技術(shù)發(fā)展初期,研究者們主要使用圖像處理技術(shù)提取圖像特征并進(jìn)行圖片分類,分類后得到圖像特征中可能存在的對(duì)象與目標(biāo)。獲取到的對(duì)象與目標(biāo)通過(guò)人為制定的規(guī)則生成對(duì)應(yīng)的文本描述。然而這種方法的效果并不理想,原因在于該做法十分依賴對(duì)圖像的特征提取,并且在生成文本描述時(shí)制定的規(guī)則也非常重要。隨著圖像描述技術(shù)的發(fā)展,研究者們發(fā)現(xiàn)了提高生成文本多樣性的方法,即基于檢索的方法。但是這種方法過(guò)于依賴對(duì)語(yǔ)料庫(kù)的訓(xùn)練,并且人力投入過(guò)大,因此該方法沒有成為目前圖像描述技術(shù)的主流方法。
深度學(xué)習(xí)技術(shù)的發(fā)展,使得圖像描述迅速成為人工智能領(lǐng)域的研究熱點(diǎn)之一。深度神經(jīng)網(wǎng)絡(luò)可以提取圖片中的高維語(yǔ)義信息,這種高維語(yǔ)義信息表示了圖像中目標(biāo)與目標(biāo)的關(guān)系,從而使生成的圖像描述有不錯(cuò)的準(zhǔn)確率。在深度學(xué)習(xí)技術(shù)的支持下,圖像描述方法的研究迅速向前發(fā)展,在近些年涌現(xiàn)了越來(lái)越多的方法,使用深度學(xué)習(xí)技術(shù)完成圖像描述任務(wù)正在成為未來(lái)的主要趨勢(shì)。
為了更好地理解和比較圖像描述領(lǐng)域中顯著的研究貢獻(xiàn),本節(jié)將從三個(gè)方面介紹分析圖像描述的相關(guān)工作:模板填充的方法、檢索的方法和深度學(xué)習(xí)的方法。其中深度學(xué)習(xí)的方法是目前圖像描述任務(wù)的主流方法。
使用模板填充的圖像描述方法在生成文本時(shí)有固定的文本模板,在整個(gè)過(guò)程中,首先通過(guò)算法提取出圖像的視覺特征,包括圖像的對(duì)象、動(dòng)作、場(chǎng)景及屬性等其他元素對(duì)應(yīng)的文本。然后檢測(cè)出這些元素對(duì)應(yīng)的單詞,并把這些單詞填入模板生成圖像描述。
Farhadi等[4]通過(guò)支持向量機(jī)[5](Support Vector Machines,SVM)構(gòu)建節(jié)點(diǎn)特征,檢測(cè)圖像的三元素,包括場(chǎng)景、對(duì)象和行為。生成圖像描述時(shí),利用隱馬爾可夫模型計(jì)算得到最有可能的詞語(yǔ),并且根據(jù)檢測(cè)出的三元素填充制定好的模板中得到圖像描述。Mitchell[6]等提出了Midge系統(tǒng),該系統(tǒng)從計(jì)算機(jī)視覺的檢測(cè)中生成類似于人類的自然語(yǔ)言描述。其中,通過(guò)統(tǒng)計(jì)句法上出現(xiàn)的詞匯次數(shù),并通過(guò)生成器過(guò)濾并約束視覺系統(tǒng)輸出的嘈雜檢測(cè)結(jié)果生成的句法樹,來(lái)說(shuō)明計(jì)算機(jī)視覺系統(tǒng)看到的信息。結(jié)果顯示,該生成系統(tǒng)優(yōu)于當(dāng)時(shí)最先進(jìn)的模板填充方法,自動(dòng)生成了一些自然的圖像描述。Kulkarni等[7]提出一種基于文本統(tǒng)計(jì)數(shù)據(jù)和計(jì)算機(jī)視覺的識(shí)別算法,該算法生成的圖像描述更符合特定的圖像內(nèi)容。這種方法通過(guò)對(duì)象和物體檢測(cè)器找出候選對(duì)象,使用屬性分類器和介詞關(guān)系函數(shù)處理每個(gè)候選對(duì)象,計(jì)算得到候選對(duì)象之間的關(guān)系,構(gòu)建條件隨機(jī)場(chǎng)預(yù)測(cè)圖像標(biāo)簽,最終根據(jù)標(biāo)簽生成文本填入既定的模板得到圖像描述。
使用模板填充的方法生成圖像描述的優(yōu)勢(shì)在于語(yǔ)法正確率很高,這得益于人工制定的填充模板。但也正是因?yàn)槟0宓南拗?使得生成的圖像描述較為單一,在靈活性和多樣性方面表現(xiàn)欠佳。另外,模板的數(shù)量問(wèn)題也是限制這種圖像描述方法的一大難點(diǎn)。
基于檢索的圖像描述方法是在存有所有圖像描述的集合中搜索,找出與輸入圖像相似性最高的圖片后,提取出該圖片對(duì)應(yīng)的圖像描述,再經(jīng)過(guò)修改得到輸入圖像的描述。
Ordonez等[8]提出了一種自動(dòng)收集數(shù)據(jù)的方法,該方法過(guò)濾了帶有噪音的數(shù)據(jù),得到100萬(wàn)張帶有視覺描述的圖片。在收集到帶有視覺描述圖片的基礎(chǔ)上,通過(guò)全局搜索和內(nèi)容估計(jì)檢索生成圖像描述。Hodosh等[9]提出了KCCA方法,構(gòu)建捕獲語(yǔ)義相似性的核函數(shù)與序列核函數(shù),通過(guò)搜索找出基于句子的圖像描述,再根據(jù)規(guī)則對(duì)候選描述排序,排序結(jié)果作為最終的圖像描述。這種排序的方法和生成式的方法不同,這種方法不需要考慮生成語(yǔ)句的合理性,而是以排序作為圖像描述的方法。Socher等[10]提出DT-RNN模型,該模型使用依賴樹將句子嵌入到向量空間,以便檢索這些句子描述的圖像,如圖2所示。與RNN相比,DT-RNN模型更加關(guān)注句子中的動(dòng)作和主體,所以對(duì)語(yǔ)法結(jié)構(gòu)和詞序的變化更有魯棒性。Kuznetsova等[11]提出一種文本生成方法,該方法以樹形結(jié)構(gòu)為主體,樹的片段來(lái)自數(shù)據(jù)庫(kù)自存的圖像描述,從這些片段中篩選出合適的文本,將這些文本重新組合抽取,生成的文本作為最終的圖像描述。
圖2 DT-RNN模型框架
基于檢索的圖像描述方法在靈活性和多樣性方面表現(xiàn)較好,在生成文本描述時(shí)能夠保證語(yǔ)句的正確性,但是這種方法對(duì)大規(guī)模訓(xùn)練語(yǔ)料的依賴性過(guò)高,并且受到訓(xùn)練文本的制約,所以難以保證圖像描述的語(yǔ)義正確性。
近些年深度學(xué)習(xí)技術(shù)迅速發(fā)展,各種基于深度學(xué)習(xí)的方法相繼問(wèn)世,在各個(gè)領(lǐng)域都取得了顯著的效果。得益于深度學(xué)習(xí)技術(shù)的發(fā)展,圖像描述技術(shù)也成為多模態(tài)學(xué)習(xí)領(lǐng)域的重要組成部分。使用深度學(xué)習(xí)的方法,能夠生成準(zhǔn)確率較高的圖像描述,是目前圖像描述領(lǐng)域最主流的方法。
作為多模態(tài)學(xué)習(xí)領(lǐng)域中的分支,基于深度學(xué)習(xí)的圖像描述技術(shù)有著較高的靈活性,這種靈活性來(lái)自于編碼器-解碼器結(jié)構(gòu),該結(jié)構(gòu)保證了編碼端和解碼端能夠使用大部分的深度學(xué)習(xí)模型。Mao等[12]在2014年提出的m-RNN模型,創(chuàng)造性地將CNN和RNN結(jié)合,并在圖像描述中使用該模型,使得CNN-RNN結(jié)構(gòu)成為編碼器-解碼器結(jié)構(gòu)的熱門結(jié)構(gòu)。然而RNN在學(xué)習(xí)序列數(shù)據(jù)時(shí),會(huì)出現(xiàn)信息遺忘的現(xiàn)象,這導(dǎo)致生成圖像描述的準(zhǔn)確率大打折扣。為了解決這個(gè)問(wèn)題,Vinyals等[13]提出了NIC框架,該框架在編碼端使用了深度更深的卷積神經(jīng)網(wǎng)絡(luò),并且CNN提取出的圖像特征只會(huì)在初始階段輸入一次。在解碼端,使用LSTM代替了RNN,生成準(zhǔn)確率更高的圖像描述。
雖然編碼器-解碼器結(jié)構(gòu)在圖像描述任務(wù)中表現(xiàn)良好,但是也存在著局限性。在定長(zhǎng)的向量中,向量能夠保存的信息量往往是有限的,這種限制帶來(lái)的問(wèn)題和輸入序列的長(zhǎng)度呈正比關(guān)系。此外,如何在編碼端更有效地提取圖像特征,如何在解碼端完善文本生成的方法,都是提升圖像描述準(zhǔn)確率需要解決的問(wèn)題。
1.3.1 注意力機(jī)制的方法
生成圖像描述時(shí),每一個(gè)輸出的詞語(yǔ)往往關(guān)聯(lián)著圖像的不同區(qū)域,理想的情況應(yīng)該是解碼端更加關(guān)注預(yù)測(cè)單詞對(duì)應(yīng)的圖像區(qū)域,這種在模型中引入注意力機(jī)制的方法,提高了圖像描述的準(zhǔn)確率。在編碼器-解碼器結(jié)構(gòu)中融入注意力機(jī)制,還可以助力解決序列長(zhǎng)度帶來(lái)的信息遺忘問(wèn)題。
Xu等[14]最早在圖像描述中引入注意力機(jī)制,在編碼端利用CNN對(duì)圖像進(jìn)行特征提取,得到位置特征集合后,使用注意力機(jī)制學(xué)習(xí)位置特征的權(quán)重。位置權(quán)重使模型在生成圖像描述時(shí),更加關(guān)注圖像的區(qū)域特征。Xu等還在工作中借助可視化的方法,表達(dá)了融入注意力機(jī)制的工作效果。Lu等[15]在Xu的基礎(chǔ)上提出了帶有視覺標(biāo)記的自適應(yīng)注意力機(jī)制,該機(jī)制在解碼端會(huì)對(duì)不同的詞匯使用不同的注意力策略。通過(guò)在LSTM中加入視覺標(biāo)記,將圖片信息和文本信息加權(quán)組合,從而控制解碼器生成與視覺信息無(wú)關(guān)的詞。這種方法使模型在生成圖像描述時(shí)自行決定依賴于視覺信息還是語(yǔ)義信息,從而生成信息更加豐富的圖像描述。Chen等[16]也指出視覺注意在圖像描述任務(wù)中的重要作用,在使用CNN進(jìn)行編碼時(shí)引入空間與通道的注意力機(jī)制。該方法通過(guò)動(dòng)態(tài)地學(xué)習(xí)多層特征圖中的每一個(gè)特征,計(jì)算出與隱藏層之間的關(guān)系,從而增強(qiáng)圖像描述的效果。Tavakoli等[17]提出的自下而上(Top-Down)的視覺注意力機(jī)制,是一種基于顯著性的注意力模型,該方法處理圖像的位置數(shù)據(jù)效果較好。在Top-Down視覺注意力機(jī)制的基礎(chǔ)上,Anderson等[18]提出了自上而下(Bottom-Up)和自下而上相結(jié)合的視覺注意力機(jī)制。在編碼端使用Faster R-CNN檢測(cè)目標(biāo)區(qū)域并提取圖像特征,Bottom-Up和Top-Down聯(lián)合得到圖像與文本的注意力權(quán)重。在解碼端,使用2個(gè)LSTM層并結(jié)合注意力機(jī)制生成圖像描述。Huang等[19]提出的AoA模塊改進(jìn)了注意力機(jī)制,在傳統(tǒng)的注意力基礎(chǔ)上增加了另一個(gè)注意力。該模塊促使編碼器和解碼器都能了解注意力結(jié)果和查詢(Query)之間的相關(guān)性,作者將AoA模塊應(yīng)用在模型的編碼端和解碼端,使模型衡量圖像中的區(qū)域關(guān)系以及文本中的有關(guān)信息,提高圖像描述的準(zhǔn)確率。Cornia等[20]在自注意力中加入先驗(yàn)知識(shí),構(gòu)建記憶增強(qiáng)注意力機(jī)制,從而生成更加可控和風(fēng)格多樣的圖像描述。在高階特征交互方面,Pan等[21]提出的X-LAN網(wǎng)絡(luò),通過(guò)雙線性池化選擇性地利用視覺信息或進(jìn)行多模態(tài)推理,實(shí)現(xiàn)了高階特征之間的交互。在編碼端使用Faster R-CNN檢測(cè)圖像區(qū)域后,利用堆疊的X-LAN模塊對(duì)區(qū)域級(jí)特征進(jìn)行編碼,經(jīng)過(guò)高階模內(nèi)互動(dòng)得到增強(qiáng)的區(qū)域級(jí)和圖像級(jí)特征。根據(jù)增強(qiáng)的視覺特征,在解碼端利用X-LAN模塊,進(jìn)行多模態(tài)推理生成圖像描述。這種高階模態(tài)之間交互的方法,在如今的圖像描述領(lǐng)域也達(dá)到了極好的效果。近些年基于注意力機(jī)制的改進(jìn)方法層出不窮,并且廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語(yǔ)言處理和多模態(tài)技術(shù)等領(lǐng)域。在圖像描述任務(wù)中,注意力機(jī)制不僅在編碼端可以獲取局部圖像和全局信息的關(guān)系,而且可以提升文本與圖像區(qū)域的相關(guān)性,提高生成圖像描述的準(zhǔn)確率。上述方法在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示。
表1 基于注意力機(jī)制的方法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
根據(jù)表1數(shù)據(jù)集的使用來(lái)看,隨著工作的不斷進(jìn)行,大部分工作都選擇使用MS COCO數(shù)據(jù)集,而Flickr30K數(shù)據(jù)集的使用相對(duì)較少,該問(wèn)題來(lái)自于數(shù)據(jù)集的規(guī)模差異。和MS COCO相比,Flickr30K的數(shù)據(jù)量較少,涉及領(lǐng)域不夠廣泛,導(dǎo)致實(shí)驗(yàn)結(jié)果的說(shuō)服力不強(qiáng)。從實(shí)驗(yàn)效果來(lái)看,得益于深度學(xué)習(xí)技術(shù)的創(chuàng)新和注意力機(jī)制的改進(jìn),新提出的方法在實(shí)驗(yàn)上的表現(xiàn)越發(fā)出色。在編碼器-解碼器的基礎(chǔ)架構(gòu)上,自Anderson開始,研究者逐漸將視線轉(zhuǎn)移到改進(jìn)注意力機(jī)制本身,針對(duì)注意力機(jī)制的改進(jìn)效果優(yōu)于其他基于注意力機(jī)制的方法。實(shí)驗(yàn)效果不斷提高的另一個(gè)原因是實(shí)驗(yàn)設(shè)備的優(yōu)化,算力的提高給實(shí)驗(yàn)帶來(lái)了極大的利好,模型能夠處理更復(fù)雜的算法,參數(shù)量不斷增大的同時(shí),使擬合的結(jié)果更接近真實(shí)結(jié)果。
1.3.2 對(duì)抗生成網(wǎng)絡(luò)的方法
近些年,對(duì)抗生成網(wǎng)絡(luò)[22](Generative Adversarial Networks,GAN)在計(jì)算機(jī)視覺領(lǐng)域發(fā)展迅速,由于在圖像生成任務(wù)中表現(xiàn)良好,GAN開始被廣泛應(yīng)用于機(jī)器翻譯、文本總結(jié)、對(duì)話系統(tǒng)、圖像描述等自然語(yǔ)言處理任務(wù)中。GAN的內(nèi)部結(jié)構(gòu)包含兩個(gè)網(wǎng)絡(luò),分別是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。為了獲得強(qiáng)大的生成模型,縮小生成樣本和真實(shí)樣本間的差異,判別器與生成器不斷地對(duì)抗博弈,直到真假難辨。
Dai等[23]提出的條件生成對(duì)抗網(wǎng)絡(luò)(Conditional GAN)模型,首次在圖像描述任務(wù)中使用GAN,提升了生成句子的多樣性,輸出更加自然的圖像描述。該模型生成部分的輸入由提取的圖像特征和隨機(jī)噪音變量構(gòu)成,通過(guò)LSTM生成偽造的圖像描述。在判別部分使用LSTM對(duì)句子進(jìn)行編碼,編碼后與圖像特征計(jì)算得到概率值,用于判斷生成描述是否可靠以及是否與輸入圖像相關(guān)。最后利用策略梯度算法更新參數(shù),根據(jù)得到的最大概率值輸出最佳的圖像描述。在多樣性方面,Shetty等[24]也在圖像描述任務(wù)上使用了Conditional GAN。不同的是,Dai等主要依賴生成部分的隨機(jī)噪音輸入實(shí)現(xiàn)圖像描述的多樣性;而Shetty等在判別部分使用圖像和對(duì)應(yīng)的文本描述作為輸入,從而引導(dǎo)生成器生成多樣化的圖像描述。另外,生成部分新增了Faster RCNN,用于檢測(cè)目標(biāo)特征,并用Gumbel-Softmax代替了常用的策略梯度算法,不僅解決生成器采樣過(guò)程中不可微的問(wèn)題,而且提升了模型的計(jì)算效率。Chen等[25]提出了一種跨領(lǐng)域圖像描述的對(duì)抗訓(xùn)練,旨在訓(xùn)練樣本較少的領(lǐng)域,提升模型生成圖像描述的準(zhǔn)確性。該方法使用對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)將未配對(duì)的數(shù)據(jù)應(yīng)用到新的領(lǐng)域,在多個(gè)數(shù)據(jù)集上表現(xiàn)較好。為了判斷圖像描述的真實(shí)性和自然性,Chen等[26]提出了結(jié)合GAN和強(qiáng)化學(xué)習(xí)的圖像描述框架,利用強(qiáng)化學(xué)習(xí)的自我批判算法對(duì)生成模型進(jìn)行優(yōu)化,進(jìn)而衡量圖像描述的可靠性。該模型在編碼端引入兩種判別器結(jié)構(gòu),得到給定句子真實(shí)性的概率值。在解碼端的判別器采用了標(biāo)準(zhǔn)的LSTM架構(gòu),通過(guò)輸入的圖像特征和單詞編碼信息,輸出圖像描述為真的概率值,這種方法生成的圖像描述真實(shí)性較高。雖然在圖像描述任務(wù)上使用GAN可以提高生成描述的多樣性,但還是無(wú)法同時(shí)生成多種風(fēng)格的圖像描述。Guo等[27]提出的MSCap模型,通過(guò)在輸入文本信息時(shí)引入風(fēng)格參數(shù),從而生成多種風(fēng)格的圖像描述,并且引入了一個(gè)風(fēng)格分類器用于區(qū)分圖像描述的樣式。另外模型中還使用了反向翻譯模塊,確保生成以視覺為基礎(chǔ)的風(fēng)格化圖像描述,保證真實(shí)的圖像描述和風(fēng)格化描述的一致性。使用GAN的方法能夠改善圖像描述的多樣性,生成風(fēng)格眾多的圖像描述。在眾多的圖像描述方法中,基于GAN的方法最為靈活有趣,然而使用GAN的方法在評(píng)估標(biāo)準(zhǔn)上的表現(xiàn)卻差強(qiáng)人意?;贕AN的圖像描述方法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。
根據(jù)表2可以看出,基于GAN的圖像描述方法的效果略低于基于注意力機(jī)制的方法,但是該方法的準(zhǔn)確率并不低,而且生成的圖像描述更加自然。另外,從表中可以看出相較于僅使用GAN的方法,Chen在模型中引入強(qiáng)化學(xué)習(xí)的方法大大提升了實(shí)驗(yàn)效果,這為研究者們提供了廣闊的研究思路,啟發(fā)研究者們將其他深度學(xué)習(xí)技術(shù)應(yīng)用在基于GAN的圖像描述模型中。
表2 基于對(duì)抗生成網(wǎng)絡(luò)的方法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
1.3.3 強(qiáng)化學(xué)習(xí)的方法
強(qiáng)化學(xué)習(xí)[28](Reinforcement Learning)是機(jī)器學(xué)習(xí)領(lǐng)域必不可少的一部分,在圖像描述任務(wù)中使用強(qiáng)化學(xué)習(xí)可以提升模型的性能。強(qiáng)化學(xué)習(xí)又叫鼓勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)和增強(qiáng)學(xué)習(xí),模型包括智能體、環(huán)境、行為和獎(jiǎng)勵(lì)四個(gè)元素。
在使用編碼器-解碼器結(jié)構(gòu)的方法中,訓(xùn)練圖像描述模型的損失函數(shù)大部分都采用交叉熵函數(shù),這帶來(lái)了兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是在模型訓(xùn)練階段和測(cè)試階段存在曝光誤差(Exposure Bias),這導(dǎo)致了預(yù)測(cè)單詞的錯(cuò)誤累計(jì)。第二個(gè)問(wèn)題是損失評(píng)估不匹配(Loss-Evaluation Mismatching),由于評(píng)價(jià)標(biāo)準(zhǔn)不可微分,交叉熵函數(shù)不能直接對(duì)評(píng)價(jià)函數(shù)進(jìn)行微分計(jì)算,可能會(huì)造成評(píng)價(jià)標(biāo)準(zhǔn)對(duì)正確圖像描述的誤判,導(dǎo)致正確的圖像描述得分卻不高。
為了解決這兩個(gè)問(wèn)題,Ranzato等[29]將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到了自己的模型中。在生成模型中采用交叉熵函數(shù)和強(qiáng)化學(xué)習(xí)同時(shí)訓(xùn)練,取代了單獨(dú)使用交叉熵?fù)p失函數(shù)訓(xùn)練的方法。針對(duì)生成文本階段的錯(cuò)誤累計(jì)問(wèn)題,該模型在解碼器的尾部引入強(qiáng)化學(xué)習(xí),并直接對(duì)評(píng)估標(biāo)準(zhǔn)進(jìn)行優(yōu)化,取得了不錯(cuò)的效果。在使用策略梯度訓(xùn)練端到端模型的背景下,Rannie等[30]提出了SCST方法,在訓(xùn)練圖像描述模型時(shí)融入強(qiáng)化學(xué)習(xí),改善了使用序列訓(xùn)練的圖像描述模型性能,大大提升了實(shí)驗(yàn)準(zhǔn)確率。同樣使用序列訓(xùn)練,Zhang等[31]提出使用Actor-Critic的強(qiáng)化學(xué)習(xí)方法。該方法在原有序列訓(xùn)練的基礎(chǔ)上,新增了價(jià)值模型作為強(qiáng)化學(xué)習(xí)中的baseline,并且在模型中引入自注意力機(jī)制,降低采樣過(guò)程中樣本重復(fù)出現(xiàn)的概率,實(shí)驗(yàn)表明該方法在各項(xiàng)指標(biāo)上都有不錯(cuò)的效果。Liu等[32]提出使用交叉熵函數(shù)和強(qiáng)化學(xué)習(xí)損失函數(shù)協(xié)調(diào)訓(xùn)練的方法,首先使用交叉熵函數(shù)進(jìn)行訓(xùn)練,隨著訓(xùn)練時(shí)間的提升,不斷提高使用強(qiáng)化學(xué)習(xí)損失函數(shù)訓(xùn)練的時(shí)間,直到圖像描述都是由強(qiáng)化學(xué)習(xí)損失函數(shù)訓(xùn)練得來(lái)。在解決損失評(píng)估不匹配的問(wèn)題上,Gao等[33]從狀態(tài)值函數(shù)與當(dāng)前狀態(tài)前一時(shí)刻狀態(tài)動(dòng)作值函數(shù)的關(guān)系中,提出了n-step的優(yōu)勢(shì)函數(shù)。在強(qiáng)化學(xué)習(xí)的過(guò)程中,使用n個(gè)時(shí)間步逐漸增加狀態(tài)值函數(shù)絕對(duì)值的均值,在降低方差的同時(shí)重新設(shè)置優(yōu)勢(shì)的平均值。目前的強(qiáng)化學(xué)習(xí)有著巨大的發(fā)展空間,如何設(shè)計(jì)出更好的獎(jiǎng)勵(lì)機(jī)制和反饋機(jī)制是提升強(qiáng)化學(xué)習(xí)性能的關(guān)鍵所在。并且強(qiáng)化學(xué)習(xí)算法已經(jīng)逐漸成為圖像描述任務(wù)不可缺少的一部分,在不同的評(píng)價(jià)指標(biāo)下,使用強(qiáng)化學(xué)習(xí)的方法顯著提升了圖像描述效果。使用強(qiáng)化學(xué)習(xí)的方法在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。
根據(jù)表3可以看出,基于強(qiáng)化學(xué)習(xí)的方法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相差不大,在強(qiáng)化學(xué)習(xí)技術(shù)的使用上,Ranzato、Rannie和Liu在訓(xùn)練階段引入強(qiáng)化學(xué)習(xí);Zhang和Gao引入強(qiáng)化學(xué)習(xí)的同時(shí),還引入了注意力機(jī)制,這種方法和同時(shí)代的使用強(qiáng)化強(qiáng)化學(xué)習(xí)的圖像描述方法相比,準(zhǔn)確率更高。基于強(qiáng)化學(xué)習(xí)的方法是圖像描述任務(wù)的重點(diǎn),它能夠在現(xiàn)有方法的基礎(chǔ)上,優(yōu)化模型訓(xùn)練函數(shù)和實(shí)驗(yàn)評(píng)價(jià)指標(biāo),提升模型性能,起到錦上添花的效果。
表3 基于強(qiáng)化學(xué)習(xí)的方法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
圖像描述領(lǐng)域中,已知大約有幾十個(gè)公開的大型數(shù)據(jù)集,其中使用最廣泛的數(shù)據(jù)集主要有MS COCO[34]、Flickr30K[35]、Conceptual Captions[36]。
2.1.1 MS COCO數(shù)據(jù)集
MS COCO(Microsoft Common Objects in Context)數(shù)據(jù)集主要使用在目標(biāo)檢測(cè)、目標(biāo)追蹤和圖像描述任務(wù)中,在2014年發(fā)布了第一個(gè)版本。MS COCO數(shù)據(jù)集共包含16.4萬(wàn)張圖像,其中有8.3萬(wàn)張訓(xùn)練圖像、4.1萬(wàn)張驗(yàn)證圖像以及4.1萬(wàn)張測(cè)試圖像,每一張圖像都有5個(gè)對(duì)應(yīng)的圖像描述。整個(gè)數(shù)據(jù)集具有80個(gè)對(duì)象類別,91個(gè)物體類別;用于關(guān)鍵點(diǎn)檢測(cè)的圖像超過(guò)20萬(wàn)張,帶有關(guān)鍵點(diǎn)標(biāo)注的個(gè)體實(shí)例圖像25萬(wàn)張,帶有注釋的實(shí)例圖像5.6萬(wàn)張。2015年,MS COCO數(shù)據(jù)集發(fā)布了補(bǔ)充版本,在原有數(shù)據(jù)的基礎(chǔ)上新增了8.1萬(wàn)張測(cè)試圖像,包括所有以前的4.1萬(wàn)張測(cè)試圖像和4萬(wàn)張全新圖像。隨后在2017年,MS COCO數(shù)據(jù)集再次更新,更新后的數(shù)據(jù)集共有超過(guò)32萬(wàn)張圖像,是目前圖像描述任務(wù)最主流的數(shù)據(jù)集之一。
2.1.2 Flickr30K數(shù)據(jù)集
Flickr30K數(shù)據(jù)集于2015年發(fā)布,圖像從Flickr網(wǎng)站上收集而來(lái),包含3.1萬(wàn)張圖像與5.1萬(wàn)個(gè)實(shí)體,其中驗(yàn)證圖像和測(cè)試圖像都為1 000張。與MS COCO數(shù)據(jù)集相同,每一張圖像對(duì)應(yīng)5個(gè)參考語(yǔ)句,參考語(yǔ)句均由人工注釋。由于Flickr30K數(shù)據(jù)集圖像數(shù)量較少,常常在驗(yàn)證模型時(shí)使用,和在MS COCO數(shù)據(jù)集上驗(yàn)證相比,這節(jié)省了大量的訓(xùn)練時(shí)間。
2.1.3 Conceptual Captions數(shù)據(jù)集
Conceptual Captions數(shù)據(jù)集是谷歌2018年發(fā)布的大規(guī)模圖像描述數(shù)據(jù)集,擁有超過(guò)300萬(wàn)張圖像。包含330萬(wàn)張測(cè)試圖像、2.8萬(wàn)張驗(yàn)證圖像和2.2萬(wàn)張測(cè)試圖像,每一張圖像對(duì)應(yīng)一個(gè)參考語(yǔ)句。這些圖像和參考語(yǔ)句均來(lái)自于網(wǎng)絡(luò),因此代表了更廣泛的風(fēng)格。正是因?yàn)閿?shù)據(jù)集中圖片的廣泛性,Conceptual Captions數(shù)據(jù)集對(duì)大量的圖像類型有著更強(qiáng)的適應(yīng)性。此外,為了保證參考語(yǔ)句的簡(jiǎn)潔性、信息量、流暢性和學(xué)習(xí)性之間的平衡,谷歌開發(fā)出了用于提取、過(guò)濾和轉(zhuǎn)換候選圖像-描述對(duì)的自動(dòng)管道。
驗(yàn)證機(jī)器學(xué)習(xí)模型的結(jié)果是檢驗(yàn)?zāi)P陀行缘闹匾侄?使用人工評(píng)估模型的結(jié)果成本過(guò)于昂貴,所以對(duì)模型結(jié)果進(jìn)行自動(dòng)評(píng)估尤為重要,本小節(jié)將會(huì)介紹圖像描述領(lǐng)域的評(píng)價(jià)指標(biāo)。目前圖像描述領(lǐng)域常用的評(píng)價(jià)指標(biāo)有BLEU[37]、METEOR[38]和CIDEr[39]。
2.2.1 BLEU
IBM公司在2002年提出BLEU(Bilingual Evaluation Understudy,BLEU),提出初期主要用于機(jī)器翻譯任務(wù)的結(jié)果評(píng)估。這是一種基于準(zhǔn)確率的評(píng)價(jià)標(biāo)準(zhǔn),通過(guò)比較待評(píng)價(jià)語(yǔ)句的n-grams和參考語(yǔ)句的n-grams,并且計(jì)算二者匹配的數(shù)量從而得出評(píng)價(jià)結(jié)果。參考語(yǔ)句和待評(píng)價(jià)語(yǔ)句n-grams的匹配項(xiàng)是位置獨(dú)立的,匹配的數(shù)量越多,表明待評(píng)價(jià)語(yǔ)句的翻譯質(zhì)量越高。公式可以表示為:
(1)
其中,Candidates代表所有待評(píng)價(jià)語(yǔ)句,評(píng)估時(shí)可能有多個(gè)語(yǔ)句,所以ΣC∈{Candidates}代表所有待評(píng)價(jià)語(yǔ)句;Σn-gram∈C表示統(tǒng)計(jì)每個(gè)待評(píng)價(jià)語(yǔ)句的n-gram;Countclip(n-gram)代表隨機(jī)的一個(gè)n-gram在待評(píng)價(jià)語(yǔ)句中出現(xiàn)的次數(shù);Count(n-gram')代表參考語(yǔ)句中n-gram的總數(shù)。另外,BLEU中引入了懲罰因子BP,確保待評(píng)價(jià)語(yǔ)句必須在語(yǔ)句長(zhǎng)度、單詞選擇和單詞順序上均與參考語(yǔ)句相匹配,有效減少短句的精度過(guò)高的問(wèn)題。
2.2.2 CIDEr
CIDEr(Consensus-based Image Description Evaluation)是圖像描述領(lǐng)域的專用評(píng)價(jià)標(biāo)準(zhǔn),用來(lái)衡量圖像生成的文本描述和人類描述的相似性。CIDEr通過(guò)計(jì)算每個(gè)n-gram的TF-IDF權(quán)重,得到的權(quán)重就是待評(píng)價(jià)語(yǔ)句和參考語(yǔ)句之間的相似度,根據(jù)相似度的高低判斷生成的圖像描述質(zhì)量的效果。計(jì)算權(quán)重的公式表示為:
(2)
其中,gk(sij)代表n元組ωk的TF-IDF加權(quán);hk(sij)代表一個(gè)n元組ωk出現(xiàn)在人工標(biāo)注語(yǔ)句sij中的次數(shù)。Ω代表包含所有n-gram的詞匯表;I代表數(shù)據(jù)集中所有圖像的集合。簡(jiǎn)單地說(shuō),TF對(duì)參考語(yǔ)句中經(jīng)常出現(xiàn)的n-gram具有更高的權(quán)重,而IDF減少了數(shù)據(jù)集中所有圖像中經(jīng)常出現(xiàn)的n-gram的權(quán)重。
CIDEr考慮了自然語(yǔ)句的準(zhǔn)確率與召回率,通過(guò)計(jì)算待評(píng)價(jià)語(yǔ)句和參考語(yǔ)句的平均余弦相似度, 得到n元組的CIDEr評(píng)分,計(jì)算公式如下:
(3)
其中,gn(ci)是gk(ci)生成的向量,表示長(zhǎng)度為n的所有元組,gn(Sij)則是n元組ωk的TF-IDF權(quán)重gk(Sij)生成的向量?!琯n(ci)‖和‖gn(Sij)‖代表相對(duì)應(yīng)的向量的模。與BLEU相比,CIDEr在評(píng)估方面的效果更好,因?yàn)锽LEU認(rèn)為相匹配的單詞重要性相同,但實(shí)際情況是個(gè)別單詞有更高的重要性。
2.2.3 METEOR
METEOR(Metric for Evaluation of Translation with Explicit Ordering)是在BLEU提出后推出的評(píng)價(jià)標(biāo)準(zhǔn),最初也是在機(jī)器翻譯領(lǐng)域中使用,該方法通過(guò)計(jì)算單個(gè)單詞的準(zhǔn)確率與召回率的加權(quán)調(diào)和平均數(shù),從而得到最終得分。和BLEU相比,METEOR通過(guò)調(diào)整相關(guān)參數(shù),實(shí)現(xiàn)了對(duì)訓(xùn)練數(shù)據(jù)的優(yōu)化,實(shí)驗(yàn)表明,這種優(yōu)化改善了評(píng)估結(jié)果與人類判斷之間的相關(guān)性。METEOR評(píng)估得到的分?jǐn)?shù)越高,表明生成的圖像描述效果越好。得分公式可以表示為:
score=(1-Pen)·Fmean
(4)
其中,Pen代表懲罰系數(shù),表示兩個(gè)字符串中匹配的單個(gè)語(yǔ)句中單詞順序的相同程度,懲罰系數(shù)的公式表示為:
(5)
其中,γ(0≤γ≤1)決定最大懲罰值,ch代表最小的詞片段,m代表詞庫(kù)提供的校準(zhǔn)值。
圖像描述經(jīng)過(guò)這些年的發(fā)展,在技術(shù)上取得了巨大的進(jìn)步,在未來(lái)的人工智能領(lǐng)域,圖像描述也會(huì)逐漸占據(jù)十分重要的技術(shù)地位。然而目前圖像描述技術(shù)還面臨著幾個(gè)挑戰(zhàn),本章基于現(xiàn)有的圖像描述研究方法,對(duì)圖像描述工作做出如下展望。
目前基于預(yù)訓(xùn)練模型的圖像描述方法受到廣大研究者的青睞,近幾年在CV領(lǐng)域、NLP領(lǐng)域、多模態(tài)領(lǐng)域等出現(xiàn)了效果極好的預(yù)訓(xùn)練模型,該方法不需要調(diào)整模型結(jié)構(gòu),只需要在圖像描述任務(wù)中使用就能獲得極高的正確率。然而預(yù)訓(xùn)練模型的遷移能力有限,對(duì)于數(shù)據(jù)集規(guī)模較小的下游任務(wù),使用預(yù)訓(xùn)練模型可能導(dǎo)致高估或低估的問(wèn)題。并且對(duì)于有中間任務(wù)的目標(biāo)任務(wù)來(lái)說(shuō),可能出現(xiàn)遺忘預(yù)訓(xùn)練知識(shí)的現(xiàn)象,所以更好的預(yù)訓(xùn)練模型可以提高圖像描述的準(zhǔn)確性。
圖像描述的解碼端用于生成最終的文本輸出,高效的生成模型可以大大提高圖像描述的準(zhǔn)確率,目前許多工作都在解碼端對(duì)生成模型展開創(chuàng)新,取得優(yōu)異的效果。良好的生成模型可以提高輸入特征的使用效率,在高維空間完成圖像與文本特征的匹配。因此,在圖像描述任務(wù)中,創(chuàng)新生成模型具有很高的研究?jī)r(jià)值。
近些年圖像描述發(fā)展迅速,生成的圖像描述不僅有正確率的要求,而且也在慢慢向多樣化靠攏。然而現(xiàn)有的評(píng)價(jià)指標(biāo)已經(jīng)無(wú)法對(duì)這些要求做出準(zhǔn)確的評(píng)估,甚至隱約已經(jīng)開始制約圖像描述技術(shù)發(fā)展。當(dāng)前圖像描述領(lǐng)域的許多評(píng)價(jià)指標(biāo)都是從機(jī)器翻譯領(lǐng)域借鑒而來(lái),缺乏專門適用于圖像描述領(lǐng)域的評(píng)價(jià)指標(biāo),構(gòu)建圖像描述的評(píng)價(jià)指標(biāo)是未來(lái)的重點(diǎn)任務(wù)。
從概述圖像描述的發(fā)展歷程出發(fā),逐一介紹了圖像描述的相關(guān)數(shù)據(jù)集、評(píng)價(jià)標(biāo)準(zhǔn)以及相關(guān)方法,并對(duì)使用深度學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果進(jìn)行分析比對(duì)。從早期的模板填充、檢索,到如今廣泛使用的深度學(xué)習(xí),方法的創(chuàng)新帶來(lái)了圖像描述效果的顯著提高,使用深度學(xué)習(xí)方法的準(zhǔn)確率居高不下。然而即使在深度學(xué)習(xí)的方法下,圖像描述仍然存在著一些問(wèn)題,在小型數(shù)據(jù)集上預(yù)訓(xùn)練模型的遷移能力受限、圖像描述應(yīng)用領(lǐng)域的狹窄、生成圖像描述風(fēng)格的單一、評(píng)價(jià)指標(biāo)的落后等都是亟待解決的問(wèn)題。在社會(huì)生活中,圖像描述也有非常重要的社會(huì)意義,輔助視障人士、自動(dòng)生成影像報(bào)告、智能家居等技術(shù)都為提高社會(huì)舒適度做出了重要貢獻(xiàn),在未來(lái),圖像描述任務(wù)仍然是一個(gè)極為重要的研究方向。