葛夢(mèng)穎 孫寶山
摘? 要:隨著互聯(lián)網(wǎng)的發(fā)展,人類(lèi)可以獲得的信息量呈指數(shù)型增長(zhǎng),我們能夠從數(shù)據(jù)中獲得的知識(shí)也大大增多,之前被擱置的人工智能再一次煥發(fā)活力。隨著人工智能的不斷發(fā)展,近年來(lái),產(chǎn)生了視覺(jué)問(wèn)答(VQA)這一課題,并發(fā)展成為人工智能的一大熱門(mén)問(wèn)題。視覺(jué)問(wèn)答(VQA)系統(tǒng)需要將圖片和問(wèn)題作為輸入,結(jié)合圖片及問(wèn)題中的信息,產(chǎn)生一條人類(lèi)語(yǔ)言作為輸出。視覺(jué)問(wèn)答(VQA)的關(guān)鍵解決方案在于如何融合從輸入圖像和問(wèn)題中提取的視覺(jué)和語(yǔ)言特征。本文圍繞視覺(jué)問(wèn)答問(wèn)題,從概念、模型等方面對(duì)近年來(lái)的研究進(jìn)展進(jìn)行綜述,同時(shí)探討現(xiàn)有工作存在的不足;最后對(duì)視覺(jué)問(wèn)答未來(lái)的研究方向進(jìn)行了展望。
關(guān)鍵詞:深度學(xué)習(xí);人工智能;視覺(jué)問(wèn)答;自然語(yǔ)言處理
Abstract:With the development of the internet,the amount of information available to human beings increases exponentially,and the amount of knowledge we can get from the data also increases greatly. Artificial intelligence,which had been put on hold,is radiate vitality. With the continuous development of artificial intelligence, in recent years,visual question answer (VQA) has emerged as a hot topic in the field of artificial intelligence. Visual question answer (VQA) system needs to take pictures and questions as input and combine these two parts of information to produce a human language as output. The key solution for VQA is how to fuse visual and linguistic features extracted from input images and questions. This paper focuses on the visual question and answer,summarizes the research progress in recent years from the aspects of concept and model,and discusses the existing deficiencies. Finally,the future research direction of VQA are prospected.
Keywords:deep learning;artificial intelligence;visual question answer;natural language processing
0? 引? 言
隨著互聯(lián)網(wǎng)科技的光速發(fā)展,網(wǎng)絡(luò)信息變得越來(lái)越包羅萬(wàn)象、數(shù)量龐大。面對(duì)龐大的數(shù)據(jù),如何篩選有用信息成為互聯(lián)網(wǎng)發(fā)展的一項(xiàng)重要任務(wù)。視覺(jué)問(wèn)答(VQA)是最近幾年出現(xiàn)的一個(gè)新任務(wù),視覺(jué)問(wèn)答(VQA)系統(tǒng)能夠參考輸入的圖片內(nèi)容回答用戶(hù)提出的問(wèn)題,它運(yùn)用了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的知識(shí)。在視覺(jué)問(wèn)答中,計(jì)算機(jī)視覺(jué)技術(shù)用來(lái)理解圖像,NLP技術(shù)用來(lái)理解問(wèn)題,兩者必須結(jié)合起來(lái)才能有效地回答圖像情境中的問(wèn)題。這相當(dāng)具有挑戰(zhàn)性,因?yàn)閭鹘y(tǒng)上這兩個(gè)領(lǐng)域是使用不同的方法和模型來(lái)解決各自任務(wù)的。給定一張圖片,如果想要機(jī)器以自然語(yǔ)言來(lái)回答關(guān)于這張圖片的某一個(gè)問(wèn)題,那么,機(jī)器對(duì)圖片的內(nèi)容、問(wèn)題的含義和意圖以及相關(guān)的常識(shí)都需要有一定的理解。在實(shí)際應(yīng)用中,針對(duì)信息中大量的圖片,采用視覺(jué)問(wèn)答系統(tǒng)就可以使用機(jī)器來(lái)采集相應(yīng)有用的信息,減少了人的工作量。
本文的貢獻(xiàn)有3個(gè)方面:
(1)闡述了視覺(jué)問(wèn)答近年來(lái)的相關(guān)研究現(xiàn)狀;
(2)探討現(xiàn)有視覺(jué)問(wèn)答工作的不足;
(3)提出視覺(jué)問(wèn)答技術(shù)的未來(lái)需要解決的科學(xué)問(wèn)題及應(yīng)用方向。
1? 視覺(jué)問(wèn)答研究現(xiàn)狀及方法
視覺(jué)問(wèn)答(VQA)是計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和人工智能交叉的新興交叉學(xué)科研究課題。給定一個(gè)開(kāi)放式問(wèn)題和一個(gè)參考圖像,視覺(jué)問(wèn)答(VQA)的任務(wù)是預(yù)測(cè)與圖像一致的問(wèn)題的答案。VQA需要對(duì)圖像有很深的理解,但是評(píng)估起來(lái)要容易得多。它也更加關(guān)注人工智能,即產(chǎn)生視覺(jué)問(wèn)題答案所需的推理過(guò)程。
在本節(jié)中,我們回顧了近年來(lái)的VQA研究的發(fā)展情況。
(1)傳統(tǒng)分類(lèi)方法。根據(jù)數(shù)據(jù)集中訓(xùn)練集答案出現(xiàn)的次數(shù)設(shè)定一個(gè)閾值,保留出現(xiàn)過(guò)一定次數(shù)的答案,作為答案的候選選項(xiàng)形成一個(gè)答案候選集。然后把每一個(gè)候選答案設(shè)置為不同的標(biāo)簽,將VQA問(wèn)題作為一個(gè)分類(lèi)問(wèn)題來(lái)解決。該模型回答的答案大多都與圖像無(wú)關(guān)并且隨著數(shù)據(jù)集的不同會(huì)回答差別很大的答案。例如SWQA模型[1]:
(2)聯(lián)合嵌入?,F(xiàn)有的方法主要是將VQA作為一個(gè)多標(biāo)簽分類(lèi)問(wèn)題。最近的許多方法探索了在深層神經(jīng)網(wǎng)絡(luò)中添加一個(gè)聯(lián)合嵌入來(lái)表示圖像和問(wèn)題對(duì)。通常,圖像特征是在對(duì)象識(shí)別數(shù)據(jù)集預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的最后一個(gè)全連通層的輸出。文本問(wèn)題分為序貫詞,它被輸入到一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)中,以產(chǎn)生一個(gè)固定長(zhǎng)度的特征向量作為問(wèn)題表示。圖像和問(wèn)題的特征是共同嵌入作為一個(gè)矢量來(lái)訓(xùn)練多標(biāo)簽分類(lèi)器預(yù)測(cè)答案。如圖1所示。
聯(lián)合嵌入能夠?qū)⑾鄬?duì)獨(dú)立的圖片特征和問(wèn)題文本表示結(jié)合起來(lái),更能夠根據(jù)圖片來(lái)回答問(wèn)題。但聯(lián)合嵌入中大多都采用連接向量或矩陣相乘或點(diǎn)乘來(lái)直接連接圖片和問(wèn)題表示,雖然這產(chǎn)生了一種聯(lián)合表示,但它可能沒(méi)有足夠的表達(dá)能力來(lái)充分捕捉兩種不同方式之間的復(fù)雜聯(lián)系。
(3)注意機(jī)制。與直接使用深度CNN全連接層的實(shí)體圖像相比,注意力模型已經(jīng)被廣泛用于為VQA選擇最相關(guān)的圖像區(qū)域。早期的研究主要考慮了對(duì)圖像區(qū)域的問(wèn)題引導(dǎo)關(guān)注。在后來(lái)的研究中,另外考慮了注意力的相反方向,即對(duì)問(wèn)題詞的圖像引導(dǎo)注意力。Lu等人[2]引入了共同關(guān)注機(jī)制,該機(jī)制產(chǎn)生并使用對(duì)圖像區(qū)域和問(wèn)題詞的關(guān)注。為了縮小圖像和問(wèn)題特征的差距,Yu等人[3]利用注意力不僅提取空間信息,而且提取圖像的語(yǔ)言概念。Z.Yu等人[4]將注意機(jī)制與圖像與問(wèn)題的新型多模態(tài)特征融合相結(jié)合。
例如AkiraFukui等人的基于MCB的改進(jìn)算法[5],如圖2所示。
首先,使用基于ImageNet數(shù)據(jù)預(yù)訓(xùn)練的152層ResNet[6]提取圖像特征[7]。輸入問(wèn)題首先被標(biāo)記為單詞,單詞是一個(gè)one-hot編碼,并通過(guò)一個(gè)學(xué)習(xí)的嵌入層傳遞。然后,再使用MCB將圖像特征與輸入問(wèn)題表示進(jìn)行合并。如圖2所示,最后,經(jīng)過(guò)全連接以及softmax預(yù)測(cè)得到問(wèn)題答案。
MCB模型結(jié)構(gòu)就是對(duì)圖像進(jìn)行關(guān)注的方法?;贛CB的聯(lián)合嵌入方法有效地減少了參數(shù)的數(shù)量,并且該方法將文本表示作為注意機(jī)制來(lái)影響圖像特征的權(quán)重,從而得到與問(wèn)題相關(guān)的圖像特征。
除了圖像上的關(guān)注之外,最近的很多文章也提出了協(xié)同關(guān)注的機(jī)制。協(xié)同注意也考慮對(duì)問(wèn)題單詞的關(guān)注,但它是從整個(gè)圖像創(chuàng)建的。應(yīng)用多個(gè)共同關(guān)注機(jī)制來(lái)關(guān)注圖像區(qū)域和文本中的問(wèn)題。例如Duy-Kien等人的密集共同關(guān)注機(jī)制[8],如圖3所示。
這其中,使用了多個(gè)協(xié)同注意機(jī)制來(lái)捕獲問(wèn)題和圖像中的細(xì)粒度信息。應(yīng)用現(xiàn)有的區(qū)域方案算法生成目標(biāo)區(qū)域,并根據(jù)問(wèn)題選擇與問(wèn)題最相關(guān)的區(qū)域來(lái)生成特征;應(yīng)用雙向LSTM網(wǎng)絡(luò)來(lái)處理問(wèn)題,根據(jù)圖像區(qū)域生成與圖像區(qū)域最相關(guān)的問(wèn)題特征。所提出的機(jī)制可以處理任何圖像區(qū)域和任何問(wèn)題單詞之間的每個(gè)交互,這可能使得能夠模擬正確回答問(wèn)題所必需的未知的復(fù)雜圖像-問(wèn)題關(guān)系。
其構(gòu)建方法為:使用雙向LSTM來(lái)提取問(wèn)題特征Ql,使用與訓(xùn)練的CNN(在ImageNet上與訓(xùn)練的152層的Res-Net[6])來(lái)提取多個(gè)圖像區(qū)域的視覺(jué)特征Vl。
創(chuàng)建兩個(gè)注意圖,如圖3所示。
2? 存在的問(wèn)題
總結(jié)來(lái)說(shuō),雖然目前的VQA研究取得了一些成就,但是就目前的模型達(dá)到的效果來(lái)看,如表1的數(shù)據(jù)顯示,有以下幾個(gè)問(wèn)題:
(1)整體準(zhǔn)確率并不高,除了在回答單一答案的簡(jiǎn)單問(wèn)題(例如:Yes/No問(wèn)題)上有較高的準(zhǔn)確率外,其他方面模型(例如:Number問(wèn)題)的準(zhǔn)確率普遍偏低;
(2)當(dāng)前的VQA模型結(jié)構(gòu)還相對(duì)簡(jiǎn)單,答案的內(nèi)容和形式比較單一,對(duì)于開(kāi)放式的問(wèn)題和稍復(fù)雜的需要更多先驗(yàn)知識(shí)進(jìn)行簡(jiǎn)單推理的問(wèn)題還無(wú)法做出正確的回答;
(3)在許多模型中發(fā)現(xiàn)當(dāng)對(duì)圖片背景的常識(shí)性推理錯(cuò)誤、問(wèn)題聚焦的物體太小、需要高層次的邏輯推理等問(wèn)題出現(xiàn)時(shí),模型往往無(wú)法給出正確的預(yù)測(cè);
(4)許多用于VQA的模型往往直接使用ImageNet訓(xùn)練好的CNN模型,但由于用戶(hù)的問(wèn)題是開(kāi)放式的,要正確回答開(kāi)放式問(wèn)題,這樣一來(lái)就顯得模型使用的特征過(guò)于單一,因此不能夠很好的回答問(wèn)題;
(5)還有一個(gè)問(wèn)題是深度學(xué)習(xí)的共有問(wèn)題,即缺乏可解釋性,我們大多數(shù)都是根據(jù)實(shí)驗(yàn)結(jié)果來(lái)推測(cè)模型有效,但是找不到具體有效的地方及缺乏能夠證明的原理。
3? 未來(lái)發(fā)展方向
作為需要視覺(jué)理解與推理能力的,融合計(jì)算機(jī)視覺(jué)以及自然語(yǔ)言處理的視覺(jué)問(wèn)答VQA,它的進(jìn)步在計(jì)算機(jī)視覺(jué)的發(fā)展和自然語(yǔ)言處理的能力提高的基礎(chǔ)上還有著更高的要求,即,對(duì)圖像的理解——在圖像處理的基礎(chǔ)能力,如識(shí)別,檢測(cè)等的基礎(chǔ)上還要學(xué)習(xí)知識(shí)與推理的能力。需要提高模型的精度,提高回答問(wèn)題的粒度。然而,這條路還有很長(zhǎng)的距離要走,一個(gè)能夠真正理解圖像、學(xué)習(xí)到知識(shí)和推理能力的VQA模型才是最終目標(biāo)。
參考文獻(xiàn):
[1] Malinowski M,F(xiàn)ritz M . A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input [J].OALib Journal,2014.
[2] Lu J,Yang J,Batra D,et al. Hierarchical Question-Image Co-Attention for Visual Question Answering [C].30th Conference on Neural Information Processing Systems(NIPS) in 2016,Barcelona,Spain,2016.
[3] Yu D,F(xiàn)u J,Mei T,et al. Multi-level Attention Networks for Visual Question Answering [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2017.
[4] Yu Z,Yu J,F(xiàn)an J,et al. Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering [J].2017 IEEE International Conference on Computer Vision,2017(1):1839-1848.
[5] Fukui A,Park D H,Yang D,et al. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding [J].ScienceOpen,2016:457-468.
[6] He K,Zhang X,Ren S,et al. Deep Residual Learning for Image Recognition [J].2016 IEEE Conference on Computer Vision and Pattern Recognition,2016(1):770-778.
[7] Deng J,Dong W,Socher R,et al. ImageNet:a Large-Scale Hierarchical Image Database [C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009),20-25 June 2009,Miami,F(xiàn)lorida,USA. IEEE,2009.
[8] Nguyen D K,Okatani T. Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering [J/OL].https://arxiv.org/pdf/1804.00775.pdf,2018.
[9] Antol S,Agrawal A,Lu J,et al. VQA:Visual Question Answering [J].International Journal of Computer Vision,2017,123(1):4-31.
[10] Zhou B,Tian Y,Sukhbaatar S,et al. Simple Baseline for Visual Question Answering [J].Computer Science,2015.
作者簡(jiǎn)介:葛夢(mèng)穎(1996.12-),女,漢族,安徽宿州人,碩士研究生,研究方向:自然語(yǔ)言處理、深度學(xué)習(xí)等;孫寶山(1978.10-),男,漢族,天津人,副教授,碩士生導(dǎo)師,工學(xué)博士,研究方向:機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等。