張姣 楊振宇
摘 要:隨著人工智能技術(shù)的興起,圖像特征提取技術(shù)和文本自動生成技術(shù)都得到了長足的進步,將兩者結(jié)合的圖像描述生成技術(shù)也越來越受到學(xué)術(shù)界和工業(yè)界的重視。圖像到文本生成是一個綜合性問題,涉及自然語言處理和計算機視覺等領(lǐng)域。本文介紹了圖像描述生成技術(shù)的研究背景及國內(nèi)外研究現(xiàn)狀,概述了目前研究者評估生成圖像描述質(zhì)量的圖像數(shù)據(jù)集,對現(xiàn)有模型進行了詳細(xì)的分類概括:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法、基于深度學(xué)習(xí)的圖像描述生成方法。與此同時一并總結(jié)闡述了該領(lǐng)域面臨的問題和挑戰(zhàn)。
關(guān)鍵詞: 圖像描述;文本生成;特征提取;計算機視覺
【Abstract】 Image caption generation technology is used in many fields such as news communication, smart transportation, smart home and smart medical. Therefore, this technology has important academic and practical value. Image-to-text generation is a comprehensive problem involving areas such as natural language processing and computer vision. This paper introduces the research background of image caption generation technology and the research status at home and abroad, and summarizes the current image datasets that researchers evaluate to generate quality of the image caption. The existing models are classified and summarized in detail: template-based image caption generation method, retrieval-based image caption generation method and deep-learning-based image caption generation method. It also summarizes the problems and challenges which the field is facing.
【Key words】 ?image caption; text generation; feature extraction; computer vision
0 引 言
0.1 研究背景
大數(shù)據(jù)時代的到來使人工智能產(chǎn)品不斷進入人們的視野。圖像描述生成技術(shù)的產(chǎn)生為計算機從圖像中快速獲取信息帶來了新的發(fā)展和應(yīng)用前景。
圖像描述生成技術(shù)與圖像語義分析、圖像標(biāo)注和圖像高級語義提取等技術(shù)緊密相關(guān)。圖像描述生成技術(shù)是計算機自動為圖像生成一個完整、通順的描述語句。大數(shù)據(jù)背景下的圖像描述生成技術(shù)在商業(yè)領(lǐng)域有著廣泛的應(yīng)用。如購物軟件中用戶輸入關(guān)鍵字快速地搜索出符合要求的商品;用戶在搜索引擎中進行的圖片搜索;視頻中多事物目標(biāo)的識別、醫(yī)學(xué)圖像專業(yè)的自動語義標(biāo)注以及自動駕駛中目標(biāo)物體的識別等。如何在計算機中更有效、準(zhǔn)確、快速地實現(xiàn)這一過程即是本文的研發(fā)課題。
從圖像描述生成的發(fā)展過程[1]來看,可以分為3個主要發(fā)展階段:基于模板的圖像描述生成方法;基于檢索的圖像描述生成方法;基于深度學(xué)習(xí)的圖像描述生成方法。
0.2 國內(nèi)外研究現(xiàn)狀
結(jié)合國內(nèi)外研究人員對圖像描述生成方法的研究以及各個階段所采用的不同關(guān)鍵技術(shù),可將圖像描述的方法分為3類。對此可做分析闡述如下。
(1)基于模板的圖像描述生成方法。該方法[2]利用圖像標(biāo)注技術(shù)為物體、物體場景以及組成部分進行標(biāo)注[3]。選擇與圖像內(nèi)容描述場景相關(guān)的句子作為表達模板,將提取的圖像特征填入模板,繼而得到圖像的描述句子。概率圖模型方法[4]對文本信息和圖像信息建立模型,可從文本數(shù)據(jù)集中挑選合適的關(guān)鍵詞,將其作為體現(xiàn)圖像描述內(nèi)容的關(guān)鍵詞,利用語言模型技術(shù)[5-7]將選取的內(nèi)容關(guān)鍵詞組合為合乎語法規(guī)則習(xí)慣的英文句子。該方法的研究雖然能夠描述圖像內(nèi)容,但是在一定程度上限制了描述語句的多樣性,使生成的描述不夠靈活、新穎。
(2)基于檢索的圖像描述生成方法。該方法探尋文本與圖像之間的關(guān)聯(lián)[8-9],把文本和圖像映射到一個共同語義空間。結(jié)合相似度[10-11]的計算方法,對圖像內(nèi)容和文本意義的關(guān)系程度進行排名,檢索出和測試圖像關(guān)系最接近的文本作為測試圖像的最終文本描述。該方法把生成圖像描述看作是一種檢索任務(wù),但檢索前都需要調(diào)整和泛化過程,這無疑給描述任務(wù)又增加了處理過程和復(fù)雜度。
(3)基于深度學(xué)習(xí)的圖像描述生成方法。目前主流的深度學(xué)習(xí)模型是端到端的訓(xùn)練方法。一方面采用多層深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對圖像中的物體特征概念建立模型;另一方面采用循環(huán)神經(jīng)網(wǎng)絡(luò)對文本建立模型。運用循環(huán)神經(jīng)網(wǎng)絡(luò)[12-15]進行建模,將文本信息與圖像信息映射在同一個循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用圖像信息指導(dǎo)文本句子的生成。隨著深度學(xué)習(xí)的研究進展,基于注意力機制和強化學(xué)習(xí)改進的研究方法[16-20]相繼涌現(xiàn),并不斷推動圖像描述生成模型的發(fā)展。該方法沒有任何模板、規(guī)則的約束,能自動推斷出測試圖像和其相應(yīng)的文本,自動地從大量的訓(xùn)練集中去學(xué)習(xí)圖像和文本信息,生成更靈活、更新穎的文本描述,還能描述從未見過的圖像內(nèi)容特征。
1 數(shù)據(jù)集
大量免費公開的數(shù)據(jù)集用于圖像描述研究,這些數(shù)據(jù)集中的圖像與文本描述相關(guān)聯(lián),某些方面彼此不同,例如大小、描述的格式和描述詞的長短。多種數(shù)據(jù)集信息匯總見表1。
表1中,F(xiàn)lickr8K數(shù)據(jù)集及其擴展版本Flickr30K數(shù)據(jù)集包含來自Flickr的圖像,分別包含約8 000和30 000幅圖像。這2個數(shù)據(jù)集中的圖像是針對特定對象和動作的。這些數(shù)據(jù)集包含5個描述句子,每個圖像是工作人員采用類似于Pascal1K數(shù)據(jù)集的策略收集的。
MSCOCO數(shù)據(jù)集包括123 287幅圖像,每幅圖像均可給出5個不同的描述。此數(shù)據(jù)集中的圖像包括80個對象類別,所有圖像都可以使用這些類別中的所有實例。該數(shù)據(jù)集已被廣泛用于圖像描述,目前有研究者正在開發(fā)MSCOCO的擴展,包括增加問題和答案。
Flickr30K和MSCOCO數(shù)據(jù)集舉例如圖1所示。
基于強化學(xué)習(xí)的研究方法是近期智能控制領(lǐng)域應(yīng)用最廣的方法。Liu等人提出的基于強化學(xué)習(xí)的策略梯度的圖像描述方法,根據(jù)值函數(shù)對策略進行改進,選取最優(yōu)策略。經(jīng)過實驗證明該方法生成的描述質(zhì)量優(yōu)于傳統(tǒng)方法。深度強化學(xué)習(xí)[24-26]的融合極大地推動了圖像描述生成的效果。將強化學(xué)習(xí)的獎懲機制[27]引入圖像字幕任務(wù)中,可以通過抽取字幕來優(yōu)化句子級評價標(biāo)準(zhǔn),利用“策略網(wǎng)絡(luò)”和“價值網(wǎng)絡(luò)”[28]來共同預(yù)測每個時間步中的下一個單詞。
基于深度學(xué)習(xí)的圖像描述生成的主流是端到端的訓(xùn)練方法,生成的描述語句具有多樣性,不依賴于單一的語言模板。不僅結(jié)構(gòu)清晰明確、容易理解,而且訓(xùn)練速度和生成效果相當(dāng)突出。
3 圖像描述的挑戰(zhàn)與難點
圖像描述生成技術(shù)的研究經(jīng)歷了多個發(fā)展階段并漸趨成熟,而且也已取得突破性的進步。深度學(xué)習(xí)技術(shù)的發(fā)展為圖像描述領(lǐng)域打開一個新的局面。雖然圖像描述生成技術(shù)表現(xiàn)出了強大的研發(fā)能力,但仍存在一定問題亟待解決,對此可做分述如下。
(1)描述文本信息的不完整。視覺特征的提取是生成圖像文本描述的重要基礎(chǔ),包括圖像類別、場景、對象及對象關(guān)系等。這些都依賴于目前還不成熟的計算機視覺技術(shù)。所以圖像的視覺特征提取關(guān)鍵技術(shù)的提高是有待解決的關(guān)鍵問題和難點。
(2)復(fù)雜圖像關(guān)注點的選取。圖像中常存在多義和不確定的事物、隱式和顯式的信息,如何充分利用圖像特征和文本信息的融合特征,有效進行圖像關(guān)注點的選取是圖像描述中仍待解決的關(guān)鍵問題和難點。
(3)圖像描述的泛化能力較低。從以往的研究中可以看出,對于同一個圖像數(shù)據(jù)集中的圖片進行測試時,效果往往是令人滿意的。但是當(dāng)采用隨機的圖片進行測試時,效果并不盡如人意。所以圖像描述的泛化能力的提高是尚待解決的難題。
4 結(jié)束語
圖像描述生成技術(shù)已廣泛應(yīng)用于新聞傳播、智慧交通、智能家居、智能醫(yī)療等眾多領(lǐng)域,現(xiàn)已成為各大頂尖科研機構(gòu)綜合研究實力的較量方式之一。
本文簡述了圖像描述生成任務(wù)的研究背景以及國內(nèi)外研究現(xiàn)狀;討論了基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法和基于深度學(xué)習(xí)的圖像描述生成方法。綜前論述可以發(fā)現(xiàn),圖像描述生成技術(shù)正在向著更復(fù)雜、更靈活、更智能的方向發(fā)展。
針對圖像描述面臨的挑戰(zhàn)與問題,未來可考慮結(jié)合更復(fù)雜的多任務(wù)或注意力機制,充分融合圖像特征和語言特征向量。在圖像描述文本信息不完整的問題上可考慮3D建模的方式對原2D數(shù)據(jù)進行映射處理,圖像描述技術(shù)還可融入深度強化學(xué)習(xí),使用無監(jiān)督自主學(xué)習(xí)模型,在減少耗費資源的情況下,提升圖像描述的性能。
參考文獻
[1]HELMUT H. Building natural language generation systems[J]. Artificial Intelligence in Medicine,2001,22(3):277-280.
[2]YAO B Z, YANG Xiong, LIN Liang, et al. Image2text: Image parsing to text description[J]. Proceedings of the IEEE,2010,98(8): 1485-1508.
[3]郭喬進,丁軼,李寧. 基于關(guān)鍵詞的圖像標(biāo)注綜述[J].計算機工程與應(yīng)用,2011,47(30):155-158.
[4]FENG Yansong, LAPATA M. How many words is a picture worth? Automatic caption generation for news images [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden:ACL, 2010: 1239-1249.
[5]康瑩瑩.新聞圖像內(nèi)容與字幕文本協(xié)同識別與檢索方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[6]LIT L, PELICAN E. A low-rank tensor-based algorithm for face recognition[J]. Applied Mathematical Modelling, 2015, 39(3):1266-1274.
[7]KULKARNI G, PREMRAJ V, DHAR S, et al. Babytalk: Understanding and generating simple image descriptions[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Colorado Springs, Co, USA:IEEE,2011,35(12):1601-1608.
[8]MITCHELL M, HAN Xufeng, DODGE J, et al. Midge: Generating image descriptions from computer vision detections [C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon,F(xiàn)rance:ACL, 2012:747-756.
[9]ELLIOTT D, KELLER F. Image description using visual dependency representations [C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA:ACL, 2013:1292-1302.
[10]HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013,47(1): 853-899.
[11]KARPATHY A, LI Feifei.Deep visual-semantic alignments for generating image descriptions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA:IEEE,2015:3128-3137.
[12]SOCHER R, KARPATHY A, LE Q V,et al. Grounded compositional semantics for finding and describing images with sentences[J]. Transactions of the Association for Computational Linguistics (TACL) , 2014,2:207-218.
[13]CHEN X, ZITNICK C L. Minds eye: A recurrent visual representation for image caption generation [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA, USA:IEEE, 2015:2422-2431.
[14]MAO Junhua, XU Wei, YANG Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[J]. arXiv preprint arXiv:1412.6632, 2014.
[15]XU Hongteng, WANG Wenlin, LIU Wei, et al. Distilled Wasserstein learning for word embedding and topic modeling [C]// 32nd Conference on Neural Information Processing Systems (NIPS) 31. Montréal, Canada:[s.n.], 2018:1-10.
[16]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//32nd International Conference on Machine Learning. Lille, France:dblp,2015:2048-2057.
[17]陳強普.面向圖像描述的深度神經(jīng)網(wǎng)絡(luò)模型研究[D].重慶:重慶大學(xué),2017.
[18]申永飛. 圖像描述文本自動生成方法研究[D].重慶:重慶大學(xué),2017.
[19]陳龍杰,張鈺,張玉梅,等.基于多注意力多尺度特征融合的圖像描述生成算法[J].計算機應(yīng)用,2017,39(2):354-359.
[20]陳晨.基于深度學(xué)習(xí)及知識挖掘的零樣本圖像分類[D].北京:中國礦業(yè)大學(xué),2016.
[21]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.
[22]XU K, BA J, COURVILLE R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. arXiv preprint arXiv:1502.03044v1,2015.
[23]VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: A neural image caption generator[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Boston, MA, USA:IEEE,2015,1: 3156-3164.
[24]LEIBFRIED F, TUTUNOV R, VRANCX P, et al. Model-based stabilisation of deep reinforcement learning[J]. arXiv preprint arXiv:1809.01906v1,2018.
[25]WANG Pin, CHAN C Y, LI Hanhan. Maneuver control based on reinforcement learning for automated vehicles in an interactive environment[J].arXiv preprint arXiv:1803.09200,2018.
[26]WANG Jing, FU Jianlong, TANG Jinhui, et al. Show, reward and tell: Automatic generation of narrative paragraph from photo stream by adversarial training[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans,Louisiana,USA:AAAI,2018:7396-7403.
[27]LIU Xihui, LI Hongsheng, SHAO Jing, et al. Show, tell and discriminate: Image captioning by self-retrieval with partially Labeled data[M]//FERRARI V, HEBERT M, SMININCHISESCU C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham:Springer, 2018,11219:353-369.
[28]REN Zhou, WANG Xiaoyu, ZHANG Ning, et al. Deep reinforcement learning-based image captioning with embedding reward[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI, USA:IEEE,2017:1151-1159.