国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)的圖像碎片化信息問答算法

2018-12-20 01:12王一蕾卓一帆吳英杰陳銘欽
計(jì)算機(jī)研究與發(fā)展 2018年12期
關(guān)鍵詞:特征提取準(zhǔn)確率向量

王一蕾 卓一帆 吳英杰 陳銘欽

(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 福州 350108)

近年來,隨著智能設(shè)備的飛速發(fā)展和大數(shù)據(jù)時(shí)代的到來,信息傳播的媒介已經(jīng)從過去的文字拓展到了圖像、視頻、音頻等形式,與此同時(shí),人們所能獲取到的信息量呈爆炸式增長,信息的內(nèi)容也逐步趨向分散,知識(shí)的體系越來越碎片化,以文本、圖像、視頻、網(wǎng)頁等不同模態(tài)高度分散在多個(gè)數(shù)據(jù)源中.碎片化知識(shí)對(duì)人類社會(huì)的發(fā)展存在著兩面性,一方面有助于人們快速了解相關(guān)領(lǐng)域知識(shí)的概貌;另一方面碎片化知識(shí)往往存在著片面性與非完整性,會(huì)對(duì)接受信息者的思考與判斷產(chǎn)生一定影響,并且潛移默化地影響他們的知識(shí)體系結(jié)構(gòu).若能有效地將大量碎片化的知識(shí)去粗取精,提取出關(guān)鍵有效的信息,并構(gòu)建出完備的知識(shí)體系結(jié)構(gòu),將有助于提升人們的學(xué)習(xí)效率.這已成為人工智能中知識(shí)密集型應(yīng)用的新興問題.

隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域取得不斷的突破,如何利用計(jì)算機(jī)視覺和自然語言處理領(lǐng)域相關(guān)知識(shí)實(shí)現(xiàn)對(duì)不同模態(tài)的碎片化信息的融合與理解成為了一個(gè)重要的研究趨勢(shì).因此,近年來許多研究通過構(gòu)建視覺問答系統(tǒng)(visual question answering, VQA),以實(shí)現(xiàn)對(duì)多模態(tài)碎片化信息的提取、表達(dá)和理解.視覺問答任務(wù)以一張圖片和一個(gè)與圖片相關(guān)的問題作為輸入,以推理相應(yīng)的答案作為輸出.該任務(wù)針對(duì)給定圖像的內(nèi)容回答與圖像相關(guān)的問題,不僅涉及更多的知識(shí)和推理技巧,還需要對(duì)人工智能不同領(lǐng)域的知識(shí)進(jìn)行融合,因此成為當(dāng)前人工智能領(lǐng)域一個(gè)十分熱門的研究課題.

本文擬在現(xiàn)有關(guān)于視覺問答任務(wù)的前沿研究背景下,進(jìn)一步研究結(jié)合變分推斷方法與注意力機(jī)制的視覺問答算法并實(shí)現(xiàn)完整的視覺問答系統(tǒng)框架.重點(diǎn)深入研究視覺問答任務(wù)中,圖像與問題的特征提取、多模態(tài)的特征融合和答案推理4個(gè)子流程的模型與算法,以期實(shí)現(xiàn)對(duì)圖像和文本中碎片化信息的提取、表示,并提升視覺問答系統(tǒng)答案推理的準(zhǔn)確率.

1 相關(guān)工作

近年來,國內(nèi)外的眾多研究人員對(duì)視覺問答進(jìn)行了深入的研究,提出了基于神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)視覺問答模型[1-3].這類模型的基本思路是使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[4]提取圖像特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[5]提取問題文本特征,并融合2種不同模態(tài)的特征用以推理產(chǎn)生答案.該模型的整體框架主要分為圖像特征提取、問題文本特征提取、多模態(tài)特征融合等模塊,并成為之后視覺問答研究的主流框架.

現(xiàn)有的視覺問答模型使用各種不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征.早期的視覺問答模型采用預(yù)訓(xùn)練的VGGNet[6]提取圖像特征.VGGNet是一個(gè)自底向上的19層CNN,該網(wǎng)絡(luò)中不同隱層的神經(jīng)元能夠提取到圖像中不同層次的特征信息,越深層次的網(wǎng)絡(luò)能夠提取到越豐富的圖像特征.2016年文獻(xiàn)[7]提出了使用ResNet提取圖像特征,設(shè)計(jì)殘差塊結(jié)構(gòu)并加入到卷積神經(jīng)網(wǎng)絡(luò)中,有效解決了隨著神經(jīng)網(wǎng)絡(luò)層數(shù)增加所導(dǎo)致的梯度彌散問題,在視覺問答任務(wù)中取得了更高的準(zhǔn)確率,因此成為當(dāng)年視覺問答模型的基準(zhǔn)方法.目標(biāo)檢測(cè)任務(wù)中的R-CNN[8]模型,將傳統(tǒng)的單目標(biāo)圖像特征進(jìn)一步擴(kuò)展到多目標(biāo)圖像特征,為視覺問答任務(wù)的圖像特征提取模型提供了新的思路.

針對(duì)問題文本特征的提取,早期的視覺問答模型主要利用詞袋模型提取問題文本特征.詞袋模型假定句子中每個(gè)單詞相互獨(dú)立,無法提取到問題文本的上下文關(guān)聯(lián)信息.為解決該問題,現(xiàn)有的視覺問答模型主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN來提取包含上下文信息的問題文本特征.原始的RNN結(jié)構(gòu)隨著序列長度增長易導(dǎo)致梯度彌散,為了突破該局限性,RNN出現(xiàn)了許多變種模型,主要包括門控循環(huán)單元(gated recurrent unit, GRU)[9]和長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[10].LSTM相比GRU網(wǎng)絡(luò)參數(shù)更多,更適用于數(shù)據(jù)量較大的視覺問答任務(wù),因此被廣泛應(yīng)用在目前的視覺問答模型中.RNN結(jié)構(gòu)對(duì)于句子各個(gè)級(jí)別的語義信息缺乏較好的理解方式,文獻(xiàn)[11]提出了Hierarchical Co-Attention模型使用了分層結(jié)構(gòu)對(duì)語義信息進(jìn)行提取,提升了文本不同層次信息之間的關(guān)聯(lián)性.目前視覺問答任務(wù)中對(duì)于語義信息分析的研究較為缺乏,仍存在很大的研究空間.

視覺問答任務(wù)的關(guān)鍵流程是將提取到的圖像與問題文本2種不同模態(tài)的特征,融合為包含圖像與問題關(guān)聯(lián)信息的特征.基礎(chǔ)的視覺問答模型對(duì)圖像與問題特征的融合只使用簡單的拼接方法,這種方法得到的融合特征會(huì)丟失掉圖像與問題的關(guān)聯(lián)性.隨著研究的深入,已有若干研究工作在視覺問答模型的多模態(tài)特征融合過程中引入注意力機(jī)制,使視覺問答模型的答案更關(guān)注與其相關(guān)性強(qiáng)的信息,從而避免被相關(guān)性弱的信息干擾.文獻(xiàn)[11]提出了一種圖像和問題協(xié)同注意的分層架構(gòu),該方法可以使圖像特征和問題文本特征產(chǎn)生彼此的注意力權(quán)重,并利用該權(quán)重對(duì)相應(yīng)的原始特征進(jìn)行加權(quán),有效提高了視覺問答準(zhǔn)確率;文獻(xiàn)[12]提出以問題為導(dǎo)向的空間注意力機(jī)制,該方法根據(jù)問題文本的特征為圖像特征分配注意力權(quán)重;文獻(xiàn)[13]提出了SAN模型,該模型通過不斷迭代修正注意力權(quán)重,實(shí)現(xiàn)圖像區(qū)域的注意力權(quán)重分配;文獻(xiàn)[14]提出了基于多目標(biāo)圖像特征建立的注意力機(jī)制模型,這種注意力機(jī)制更具有針對(duì)性,因此該方法取得了顯著的效果,為視覺問答模型中多模態(tài)特征融合提供了新的思路.

在答案推理流程中,現(xiàn)有的視覺問答模型[1-2]將數(shù)據(jù)集出現(xiàn)頻率較高的答案提取出來構(gòu)造答案集合,并在該集合上進(jìn)行分類,將分類結(jié)果作為推理的答案.該方法可以簡化視覺問答的模型結(jié)構(gòu),并確切地計(jì)算出視覺問答模型的準(zhǔn)確率用于模型評(píng)估,因此成為目前答案推理的通用方法.

Fig. 2 Basic model structure for object detection tasks圖2 目標(biāo)檢測(cè)任務(wù)基礎(chǔ)模型結(jié)構(gòu)

2 基礎(chǔ)知識(shí)與模型

完整的視覺問答任務(wù)可分解為圖像特征提取、問題文本特征提取、多模態(tài)特征融合和答案推理4個(gè)流程.本節(jié)將對(duì)用于提取圖像和問題文本特征的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò),以及用于多模態(tài)特征融合和答案推理的注意力機(jī)制與變分推斷方法的相關(guān)基礎(chǔ)知識(shí)進(jìn)行介紹.

2.1 卷積神經(jīng)網(wǎng)絡(luò)CNN

CNN概念由Lecun[4]提出,在圖像處理方面得到了廣泛的運(yùn)用.CNN的特征提取器由卷積層與子采樣層組成:卷積層包含了若干個(gè)維數(shù)較小的二維卷積核,每個(gè)卷積核在二維的特征平面上進(jìn)行平移并通過卷積運(yùn)算,將計(jì)算出的數(shù)值組合成新的特征平面并進(jìn)行疊加組合,形成新的圖像特征.對(duì)圖像特征進(jìn)行子采樣,降低特征的維度.采樣操作通常使用最大值子采樣和均值子采樣.

完整的卷積神經(jīng)網(wǎng)絡(luò)由多個(gè)特征提取器疊加而成,將最末端的特征提取器輸出的特征平面通過全連接網(wǎng)絡(luò)生成最終的圖像特征.CNN有多種不同的網(wǎng)絡(luò)結(jié)構(gòu),用于視覺問答任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)主要包含VGGNet,ResNet以及Faster-R-CNN.

2.1.1 VGGNet

VGGNet由多個(gè)卷積塊與子采樣層堆疊而成,每個(gè)卷積塊中包含若干個(gè)卷積核尺寸為3×3的卷積層,每個(gè)卷積塊的輸出特征輸入到尺寸為2×2的子采樣層.設(shè)置不同卷積塊與卷積層數(shù)量,得到不同深度的模型,用以提取不同層次的特征信息.

2.1.2 ResNet

ResNet的基本思想是引入了帶有“跳躍鏈接”的殘差塊,如圖1所示.部分梯度在卷積神經(jīng)網(wǎng)絡(luò)中跳躍傳遞,將原始輸入向量x直接累加到之后的權(quán)重層上,一定程度上避免了梯度彌散的問題.

Fig. 1 Residual block圖1 殘差塊

2.1.3 Faster-R-CNN

計(jì)算機(jī)視覺中目標(biāo)檢測(cè)任務(wù)在對(duì)圖像中的對(duì)象進(jìn)行正確分類的基礎(chǔ)上,還需要找出目標(biāo)在圖像中的位置.通過在傳統(tǒng)圖像分類的模型中加入回歸器可有效解決該問題,總體模型結(jié)構(gòu)如圖2所示:

早期的目標(biāo)檢測(cè)方法使用窮舉法選取目標(biāo)對(duì)象的候選邊框.2014年文獻(xiàn)[8]提出了R-CNN模型,該模型使用選擇性搜索極大降低了選取邊框的數(shù)量;文獻(xiàn)[15]提出的Fast-R-CNN模型在R-CNN模型基礎(chǔ)上優(yōu)化了特征提取結(jié)構(gòu),進(jìn)一步提升了效率;文獻(xiàn)[16]提出Faster-R-CNN模型,將選取候選框的過程合并到神經(jīng)網(wǎng)絡(luò)中,利用圖像特征信息計(jì)算候選框信息,在目標(biāo)檢測(cè)領(lǐng)域中建立了完整的端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型.

2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN

RNN將當(dāng)前信息xi和前綴序列特征值hi-1輸入到單元模塊Uniti,計(jì)算出當(dāng)前序列特征值hi,i的取值范圍為1到t.因此每個(gè)單元模塊輸出的特征信息包含前綴所有位置的信息,RNN展開的模型結(jié)構(gòu)如圖3所示:

Fig. 3 Recurrent neural network圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)

為解決傳統(tǒng)RNN梯度彌散的問題,模型出現(xiàn)了許多變種,主要有門控循環(huán)單元(gated recurrent unit, GRU)[9]和長短期記憶網(wǎng)絡(luò)LSTM[10].通過在循環(huán)神經(jīng)網(wǎng)絡(luò)單元中加入門控單元模塊,以控制梯度的傳播,一定程度上避免了梯度彌散的問題,圖4展示了門控單元模塊結(jié)構(gòu),S為sigmod激活函數(shù),tanh為tanh激活函數(shù),每個(gè)單元輸入原始向量x,輸出特征向量h.

Fig. 4 Gated unit module圖4 門控單元模塊

2.3 注意力機(jī)制

注意力機(jī)制是通過對(duì)每個(gè)時(shí)刻的特征進(jìn)行加權(quán),表示每個(gè)特征對(duì)當(dāng)前時(shí)刻的重要程度,提取出更為關(guān)鍵的特征信息,從而提升模型效果.

注意力機(jī)制在機(jī)器翻譯領(lǐng)域中主要通過自編碼框架實(shí)現(xiàn).輸入特征向量x進(jìn)行編碼,用每一時(shí)刻編碼結(jié)果和前一時(shí)刻解碼結(jié)果計(jì)算注意力權(quán)重矩陣并進(jìn)行特征加權(quán),得到解碼的特征向量y.具體的模型結(jié)構(gòu)如圖5所示:

Fig. 5 Attention mechanism on machine translation圖5 機(jī)器翻譯中的注意力機(jī)制

注意力機(jī)制在機(jī)器翻譯中取得了顯著的效果,成為該領(lǐng)域的基準(zhǔn)方法之一.在視覺問答任務(wù)中,圖像的多目標(biāo)特征與問題文本特征均可轉(zhuǎn)化為序列特征,因此該注意力機(jī)制同樣適用于視覺問答任務(wù).

Fig. 6 Variational auto-encoder圖6 變分自編碼器

2.4 變分推斷

假設(shè)z是符合概率分布p(z|x)的高維向量,帶有高維隨機(jī)變量z的概率分布積分難以計(jì)算.變分推斷是一種求解近似概率分布的方法,它的核心思想是利用簡單概率分布q(z)來近似表示復(fù)雜概率分布p(z|x).文獻(xiàn)[17]提出變分自編碼器 (variational auto-encoder, VAE),通過使用多層神經(jīng)網(wǎng)絡(luò)擬合高斯分布的均值與方差,用以表示近似復(fù)雜的后驗(yàn)概率分布.VAE模型能夠表示數(shù)據(jù)分布的隱向量編碼的概率分布,在該分布上進(jìn)行采樣即可得到隱向量編碼,模型結(jié)構(gòu)如圖6所示:

3 基于深度神經(jīng)網(wǎng)絡(luò)的視覺問答模型

本文提出一種基于深度神經(jīng)網(wǎng)絡(luò)的視覺問答模型,模型包括基于LSTM的圖像特征提取方法、基于RNN+CNN的問題文本特征提取方法、結(jié)合注意力機(jī)制與變分推斷的多模態(tài)特征融合方法,以及使用分布距離作為神經(jīng)網(wǎng)絡(luò)損失值的答案推理方法.

3.1 基于LSTM的圖像特征提取

本文所提出的圖像特征提取方法流程如下:使用Faster-R-CNN提取多目標(biāo)圖像特征,并基于LSTM對(duì)多目標(biāo)圖像特征進(jìn)行融合,同時(shí)設(shè)計(jì)權(quán)重調(diào)整調(diào)整方法平衡各個(gè)目標(biāo)的特征權(quán)重.

3.1.1 Faster-R-CNN提取多目標(biāo)圖像特征

將圖像輸入到訓(xùn)練好的Faster-R-CNN模型,計(jì)算出k個(gè)用以表示目標(biāo)位置的邊框信息.根據(jù)每個(gè)邊框位置得到k張局部圖像,并利用CNN進(jìn)行圖像特征提取,最終得到k個(gè)的圖像特征.

3.1.2 基于LSTM的多目標(biāo)圖像特征融合

圖像中不同的目標(biāo)之間存在關(guān)聯(lián)信息,為了保留這些信息,將圖像特征作為長度為k的序列(V1,V2,…,Vk),利用LSTM從該序列中提取多目標(biāo)組合的圖像特征.

3.1.3 權(quán)重調(diào)整

利用LSTM提取出的特征可以有效保留多目標(biāo)特征之間的關(guān)聯(lián)性,將每個(gè)目標(biāo)特征當(dāng)成LSTM單元輸入,輸入靠后的圖像特征將會(huì)獲得更大的權(quán)重,對(duì)輸出結(jié)果產(chǎn)生更大的影響.而所有的目標(biāo)特征應(yīng)具有相同的權(quán)重,因此需要對(duì)模型中每個(gè)時(shí)刻輸入的圖像特征進(jìn)行權(quán)重調(diào)整,使其能夠均衡處理每個(gè)目標(biāo)特征.本文使用拓展時(shí)序與BiLSTM兩種方法:

1) 拓展時(shí)序

模型如圖7所示,將圖像特征序列(V1,V2,…,Vk),進(jìn)行反轉(zhuǎn)得到(Vk,Vk-1,…,V1),與原特征序列拼接得到新的圖像特征序列(V1,V2,…,Vk-1,Vk,Vk-1,…,V2,V1),作為LSTM的輸入.這種模型結(jié)構(gòu)令每個(gè)目標(biāo)的圖像特征在序列首尾均出現(xiàn)一次,起到了均衡每個(gè)目標(biāo)特征權(quán)重的效果.

Fig. 7 Weight adjustment by extended sequence圖7 擴(kuò)展時(shí)序調(diào)整權(quán)重

2) BiLSTM

BiLSTM是雙向的LSTM模型,序列分別從兩端輸入到2個(gè)不同的LSTM中.將前向傳遞的輸出與反向傳遞的輸出進(jìn)行拼接,作為當(dāng)前時(shí)刻的輸出.本文使用BiLSTM來進(jìn)行多目標(biāo)圖像特征融合,使用k/2位置的LSTM單元輸出作為融合的圖像特征,整體的模型如圖8所示.通過減少每個(gè)目標(biāo)特征到達(dá)輸出時(shí)刻的距離,起到均衡權(quán)重的效果.LSTM的單元輸出為output,使用k/2位置的LSTM單元輸出outputk/2作為融合的圖像特征.

Fig. 8 Weight adjustment by BiLSTM圖8 BiLSTM調(diào)整權(quán)重

3.2 基于RNN+CNN的問題文本特征提取

本文所提出的問題文本特征提取方法流程如下:首先將問題的單詞轉(zhuǎn)換為詞向量,并將詞向量序列輸出到RNN中提取初步的文本特征,最終使用CNN進(jìn)行文本特征的組合.

3.2.1 提取詞向量

問題是由多個(gè)單詞組成的序列,使用word2vec[18]將問題單詞序列轉(zhuǎn)換為詞向量序列,將該序列作為RNN的輸入.

3.2.2 RNN提取初步文本特征

RNN的輸入輸出都是一個(gè)序列,把輸入序列標(biāo)記為(x1,x2,…,xt-1,xt,xt+1,…,xT),輸出標(biāo)記為(o1,o2,…,ot-1,ot,ot+1,…,oT),RNN中的隱層狀態(tài)集合標(biāo)記為(s1,s2,…,st-1,st,st+1,…,sT),其中xt表示時(shí)刻t的輸入,ot表示時(shí)刻t的輸出,st表示時(shí)刻t的隱層狀態(tài),T為序列的最大時(shí)間索引.

st=f(Uxt+Wst-1),

(1)

ot=softmax(Vst).

(2)

如式(1)所示,在時(shí)刻t隱層節(jié)點(diǎn)的輸入包括輸入層的xt和時(shí)刻t-1的隱藏層狀態(tài)值st-1,U為輸入層和隱層之間連接的參數(shù)矩陣,W為隱層單元之間連接的參數(shù)矩陣.如式(2)所示,時(shí)刻t的輸出ot與st和V有關(guān),其中V為隱層與輸出層之間連接的參數(shù)矩陣.通過編碼可得到(o1,o2,…,ot-1,ot,ot+1,…,oT)作為初始文本特征,其中softmax函數(shù)為非線性激活函數(shù),計(jì)算為

(3)

3.2.3 CNN組合文本特征

利用3個(gè)CNN對(duì)初始文本特征進(jìn)一步提取,其中時(shí)刻t大小為c的卷積核的輸出為

hc,t=tanh(WcOt:t+c-1+bc).

(4)

窗口大小為c的卷積核的所有時(shí)刻輸出為

hc=(hc,1,hc.2,…,hc,T-c+1).

(5)

將最大池化應(yīng)用于的時(shí)間維度上輸出為

(6)

將不同窗口大小的CNN輸出進(jìn)行拼接得到最終的問題文本特征:

(7)

整體流程如圖9所示.

Fig. 9 Problem text feature extracting process圖9 問題文本特征提取流程

3.3 多模態(tài)特征融合

本文所提出的多模態(tài)特征融合方法主要有:結(jié)合問題文本信息,使用注意力機(jī)制對(duì)圖像特征進(jìn)行加權(quán).基于變分自編碼器計(jì)算圖像與問題的隱向量概率分布,在隱向量上進(jìn)行特征融合.

3.3.1 基于注意力機(jī)制的圖像特征加權(quán)

通過前2個(gè)步驟提取圖像中的k個(gè)目標(biāo)特征和問題文本特征,將每個(gè)目標(biāo)特征分別輸入到全連接層,轉(zhuǎn)換為與問題特征相同的維度n并將特征相乘,得到圖像與問題初步融合的特征Vk n.

3.3.2 基于變分自編碼器的特征融合

假設(shè)經(jīng)過注意力機(jī)制加權(quán)的圖像特征向量為I,問題文本特征為Q,隱向量編碼z是表示問題特征與問題文本特征關(guān)聯(lián)性的隱含向量.它的概率分布表示為p(z|I,Q),該概率分布過于復(fù)雜無法計(jì)算,因此基于變分推斷方法,利用簡單概率分布q(z)近似表示該概率分布.

變分推斷的基本思想是利用Kullback-Leibler(KL)散度值描述2個(gè)概率分布之間的相似度:

KL(p(z|I,Q)‖q(z)).

(8)

KL散度值越小則表示2個(gè)概率分布越相似,式(8)經(jīng)過推導(dǎo)可得:

(9)

進(jìn)一步化簡得到:

KL(p(z|I,Q)‖q(z))=KL(q(z)‖p(z)).

(10)

最終將問題特征與問題文本特征聯(lián)合概率分布的計(jì)算轉(zhuǎn)換為優(yōu)化KL(p(z|I,Q)‖q(z))的最小值.

為獲取圖像特征與問題文本特征的維數(shù)為d的融合編碼z,需要近似出可供采樣的概率分布q(z).假設(shè)p(z)是正態(tài)分布,q(z)是標(biāo)準(zhǔn)正態(tài)分布N(0,I),則可對(duì)式(10)進(jìn)一步推導(dǎo)得到:

(11)

通過最小化KL散度值,計(jì)算參數(shù)σ與參數(shù)μ,得到圖像特征與問題文本特征聯(lián)合表示的隱含向量編碼z的近似概率分布.

計(jì)算隱向量編碼z可視為對(duì)特征編碼的過程,為了構(gòu)建完整的自編碼器的模型還需要構(gòu)造解碼器用于解碼隱向量編碼,模型結(jié)構(gòu)如圖10所示:

Fig. 10 Encoder-Decoder structure圖10 自編碼結(jié)構(gòu)

在解碼的過程中,直接對(duì)融合特征隱向量編碼的概率分布進(jìn)行采樣解碼,將無法計(jì)算梯度,從而導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法正常訓(xùn)練.為解決該問題,本文借鑒文獻(xiàn)[17]的思想對(duì)采樣過程進(jìn)行重參數(shù)化,分為2個(gè)過程:

1) 在標(biāo)準(zhǔn)正態(tài)分布N(0,I)上采樣,獲得一定數(shù)量隱含向量編碼z.

2) 對(duì)隱含向量編碼z重參數(shù)化:z′=μ+σz,將z′作為新的隱含向量編碼.

通過神經(jīng)網(wǎng)絡(luò)對(duì)隱向量編碼進(jìn)行解碼,使用反卷積解碼為新的圖像特征,使用多層神經(jīng)網(wǎng)絡(luò)解碼為新的問題特征,并對(duì)2種特征分別計(jì)算它們與原始特征的平方差距離并作為整個(gè)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練損失值的一部分.

將提取到的低維的圖像與問題文本特征的隱含向量編碼進(jìn)行外積相乘,輸入到全連接層,全連接層中的參數(shù)可以表示圖像特征與問題文本特征每個(gè)位置之間的關(guān)聯(lián)性.最后將二維特征向量水平轉(zhuǎn)換為一維特征向量,作為圖像特征與問題特征的融合特征向量,這個(gè)階段完整模型如圖11所示:

Fig. 11 Model structure of multi-model feature fusion圖11 多模態(tài)特征融合模型結(jié)構(gòu)

3.4 答案推理

統(tǒng)計(jì)數(shù)據(jù)集中的答案,將出現(xiàn)頻率最高的3 000個(gè)答案作為答案集,答案推理轉(zhuǎn)換為多分類問題.

4 實(shí)驗(yàn)與結(jié)果分析

對(duì)于視覺問答的4個(gè)階段,本節(jié)通過實(shí)驗(yàn)的方式分別將文中所提出的模型與算法跟基準(zhǔn)模型進(jìn)行實(shí)驗(yàn)對(duì)比,以驗(yàn)證模型與算法的有效性.最終將這些模型與算法整合到完整的視覺問答模型中,與現(xiàn)有的視覺問答模型進(jìn)行實(shí)驗(yàn)對(duì)比分析.

4.1 數(shù)據(jù)集

實(shí)驗(yàn)采用COCO -VQA-V2數(shù)據(jù)集[2],該數(shù)據(jù)集中的圖像來自于MS-COCO數(shù)據(jù)集,主要包括123 287張圖像,其中72 738張用于訓(xùn)練、38 948張用于測(cè)試.數(shù)據(jù)中圖像數(shù)量龐大、內(nèi)容繁雜,包含大量碎片化信息.每張圖像都有一個(gè)對(duì)應(yīng)的問題與答案.該數(shù)據(jù)集的子數(shù)據(jù)集test-standard和test-dev,在EvalAI上提供了可以提交答案的評(píng)估系統(tǒng).本文實(shí)驗(yàn)均使用該系統(tǒng)進(jìn)行評(píng)估,將測(cè)試數(shù)據(jù)集作為已訓(xùn)練好的模型輸入,輸出對(duì)應(yīng)的答案文件,并提交到系統(tǒng)評(píng)估模型準(zhǔn)確率,從而驗(yàn)證模型的有效性.

答案的評(píng)估分為3種類型:Yes/No,Number,Other,分別對(duì)應(yīng)判斷問題、計(jì)數(shù)問題、開放式問題.對(duì)于每一類問題分別統(tǒng)計(jì)準(zhǔn)確率,并統(tǒng)計(jì)出該模型在所有問題(All)上的準(zhǔn)確率,根據(jù)準(zhǔn)確率評(píng)估模型效果.

4.2 圖像特征提取

為驗(yàn)證基于LSTM的圖像特征提取模型的有效性,使用基礎(chǔ)的RNN模型進(jìn)行問題文本特征提取,基礎(chǔ)的拼接方法進(jìn)行圖像問題特征融合.將LSTM圖像特征融合方法結(jié)合設(shè)計(jì)的2種權(quán)重調(diào)整方法:基于正反序列的權(quán)重調(diào)整(Reverse),基于雙向LSTM的權(quán)重調(diào)整方法(BiLSTM)與求和(Sum)、拼接(Concat)這些基礎(chǔ)方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.

表1的實(shí)驗(yàn)結(jié)果表明:基于LSTM的圖像特征提取方法相比原始的拼接與求和方法有著顯著的提升,使用權(quán)重調(diào)整方法進(jìn)一步提升了準(zhǔn)確率,并且使用BiLSTM進(jìn)行權(quán)重調(diào)整取得了最高的準(zhǔn)確率58.49%.

Table 1 Accuracy on the Method of Feature Extractby LSTM

4.3 問題文本特征提取

為驗(yàn)證基于RNN+CNN的問題文本特征提取模型的有效性,我們使用基礎(chǔ)的ResNet進(jìn)行圖像特征提取、基礎(chǔ)的拼接方法進(jìn)行圖像問題特征融合.文本特征提取所使用的RNN模型為LSTM,并將RNN+CNN方法與原始LSTM進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示:

Table 2 Accuracy on RNN+CNN Model表2 RNN+CNN模型準(zhǔn)確率 %

表2的實(shí)驗(yàn)結(jié)果表明:將RNN與CNN結(jié)合的模型對(duì)問題文本特征的提取效果優(yōu)于原始的LSTM,并且進(jìn)一步提升視覺問答算法的準(zhǔn)確率.其中,BiLSTM和CNN結(jié)合的文本特征提取方法使得視覺問答準(zhǔn)確率達(dá)到57.31%,相比于基礎(chǔ)方法有所提升,因此該方法將用于后續(xù)視覺問答實(shí)驗(yàn)中文本特征提取.

4.4 特征融合

本文使用Faster-R-CNN作為圖像特征提取的基礎(chǔ)模型,并針對(duì)這種圖像特征設(shè)計(jì)的注意力機(jī)制得到新的圖像特征,使用基礎(chǔ)的RNN模型進(jìn)行問題文本特征提取,并使用變分編碼器分別對(duì)圖像與問題文本對(duì)隱向量特征信息進(jìn)行提取與融合.

模型針對(duì)是否使用注意力機(jī)制(ATT)、是否使用變分自編碼器(VAE)對(duì)圖像特征(I)與問題文本特征(Q)進(jìn)行隱向量編碼的提取進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示:

Table 3 Accuracy on Multi-Model Features Fusion Method表3 多模態(tài)特征融合方法準(zhǔn)確率 %

表3的實(shí)驗(yàn)結(jié)果表明:注意力機(jī)制顯著地提升了視覺問答的準(zhǔn)確率,在此基礎(chǔ)上對(duì)圖像特征提取隱向量編碼的融合方法,取得了最優(yōu)效果.

將實(shí)驗(yàn)效果最好的Att+I_VAE模型,在隱向量的抽樣過程,考慮隱向量維數(shù)大小與隱向量編碼抽樣次數(shù)2個(gè)參數(shù),進(jìn)行對(duì)比實(shí)驗(yàn).

對(duì)模型設(shè)置不同的隱向量維度,并以模型在視覺問答任務(wù)中的準(zhǔn)確率作為指標(biāo)進(jìn)行實(shí)驗(yàn)對(duì)比,圖12給出了不同隱向量編碼維度實(shí)驗(yàn)結(jié)果:

Fig. 12 Results on differently hidden vector dimension圖12 不同隱向量編碼維度實(shí)驗(yàn)結(jié)果

圖12的實(shí)驗(yàn)結(jié)果表明:隨著隱向量編碼的維數(shù)上升,模型的準(zhǔn)確率呈現(xiàn)上升趨勢(shì),一開始上升的趨勢(shì)變化較大,隨后便逐步衰減.由于2種特征的隱向量編碼需要外積計(jì)算,因此隱向量編碼維數(shù)不宜過大.將隱向量編碼的維數(shù)設(shè)置在100左右,保證模型的準(zhǔn)確率的同時(shí),避免模型的空間復(fù)雜度過大.

對(duì)模型設(shè)置不同的隱向量抽樣次數(shù),并以模型在視覺問答任務(wù)中的準(zhǔn)確率作為指標(biāo)進(jìn)行實(shí)驗(yàn)對(duì)比,圖13給出了不同抽樣次數(shù)實(shí)驗(yàn)結(jié)果.

Fig. 13 Results on differently sample time圖13 不同抽樣次數(shù)實(shí)驗(yàn)結(jié)果

圖13的實(shí)驗(yàn)結(jié)果表明:隱向量編碼的抽樣次數(shù)對(duì)模型準(zhǔn)確率本身沒有太大影響.這是由于數(shù)據(jù)規(guī)模足夠大,多次對(duì)隱向量編碼進(jìn)行抽樣實(shí)際上起到的是一個(gè)增強(qiáng)數(shù)據(jù)的作用,對(duì)擬合數(shù)據(jù)的分布并沒有太大的影響.抽樣的次數(shù)與模型的訓(xùn)練時(shí)間是成正比的,進(jìn)行多次抽樣將會(huì)降低模型的訓(xùn)練效率,將模型采樣次數(shù)設(shè)置為1次,模型在準(zhǔn)確率基本不變的前提下時(shí)間效率達(dá)到最優(yōu).

4.5 答案推理

針對(duì)答案推理過程,本文主要針對(duì)使用衡量概率分布距離的Kullback-Leibler散度值與傳統(tǒng)多分類任務(wù)所使用的交叉熵Cross Entropy兩種損失值對(duì)模型效果的影響.在視覺問答其他流程中用相同的基礎(chǔ)方法,對(duì)比了模型使用2種不同損失值的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表4所示:

Table 4 Accuracy on Reasoning Answer表4 答案推理準(zhǔn)確率 %

表4的實(shí)驗(yàn)結(jié)果表明:使用Kullback-Leibler散度能夠更準(zhǔn)確地衡量模型預(yù)測(cè)答案與真實(shí)答案的偏差值,將此作為損失值反饋給神經(jīng)網(wǎng),進(jìn)一步提升了答案推理的準(zhǔn)確率.

4.6 整體模型

將以上4個(gè)流程中的模型算法整合成完整的VQA模型:使用BiLSTM進(jìn)行權(quán)重調(diào)整并融合多目標(biāo)圖像特征;使用LSTM+CNN提取問題文本特征;在多模態(tài)特征融合階段,結(jié)合注意力機(jī)制與變分推斷方法,使用上述方法中最優(yōu)的ATT+I_VAE模型進(jìn)行特征融合;在答案推理階段利用KL散度值衡量2個(gè)答案分布的差異并作為損失值反饋回神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.

該模型的核心方法是特征融合過程中所使用的VAE,將該模型命名為V-VQA并與其他現(xiàn)有的基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示.

表5的實(shí)驗(yàn)結(jié)果表明:本文所提的模型V-VQA在COCO-QA-V2數(shù)據(jù)集上的整體準(zhǔn)確率為64.86%,優(yōu)于現(xiàn)有的大部分視覺問答模型,通過實(shí)驗(yàn)表明該模型是有效的視覺問答模型.

Table 5 Accuracy on V-VQA Model表5 V-VQA準(zhǔn)確率 %

4.7 結(jié)果展示

抽取COCO-QA-V2中的若干條圖像與問題數(shù)據(jù),通過訓(xùn)練好的模型進(jìn)行答案推理,圖14給出了單一形式問題的展示結(jié)果.

Fig. 14 Example 1 of VQA圖14 視覺問答示例1

圖14的結(jié)果表明:本文所提出的視覺問答模型對(duì)于涉及到物體識(shí)別、位置判定以及簡單邏輯處理等基礎(chǔ)問題能夠推理出準(zhǔn)確的答案.但是對(duì)于圖像信息存在一定程度遮擋,或需要結(jié)合更多先驗(yàn)知識(shí)類型的答案推理,該模型容易出現(xiàn)錯(cuò)誤.如圖14(d)問答所示,摩托車數(shù)量正確答案是4,由于其中一輛摩托車存在較多遮擋,模型給出的答案是3.因此該模型仍有進(jìn)一步提升的空間.

針對(duì)一張圖像,根據(jù)提問的方式可以得到多種答案,圖15展示了針對(duì)同一張圖片多種形式問題的視覺問答任務(wù).

Fig. 15 Example 2 of VQA圖15 視覺問答示例2

從圖15可以看出:本文所提出的模型對(duì)各種形式的問題均能給出較為準(zhǔn)確的答案,有助于提取出圖像中所蘊(yùn)含的碎片化信息.

5 總 結(jié)

本文針對(duì)目前互聯(lián)網(wǎng)中存在的不同模態(tài)、高度分散、結(jié)構(gòu)無序、內(nèi)容片面的圖像與問題文本數(shù)據(jù),提出構(gòu)建視覺問答系統(tǒng)用以實(shí)現(xiàn)對(duì)多模態(tài)碎片化信息的提取、表達(dá)和理解.針對(duì)視覺問答任務(wù)流程的圖像特征提取、問題文本特征提取、多模態(tài)特征融合、答案推理等步驟,基于深度神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)用以提取圖像與問題文本特征的模型,結(jié)合注意力機(jī)制與變分推斷方法,設(shè)計(jì)多模態(tài)特征融合方法,并使用分布距離作為神經(jīng)網(wǎng)絡(luò)損失值,設(shè)計(jì)答案推理方法.仿真實(shí)驗(yàn)結(jié)果表明各個(gè)過程中所使用的模型及算法是有效可行的,利用這些模型與算法整合得到的完整視覺問答模型也有效提升了該模型針對(duì)視覺問答任務(wù)的準(zhǔn)確率.

猜你喜歡
特征提取準(zhǔn)確率向量
向量的分解
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
聚焦“向量與三角”創(chuàng)新題
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
基于Daubechies(dbN)的飛行器音頻特征提取