国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積網(wǎng)絡(luò)的視覺問答研究*

2022-02-16 08:32姚鑫杰
關(guān)鍵詞:卷積節(jié)點(diǎn)圖像

龔 安 丁 磊 姚鑫杰

(中國石油大學(xué)(華東) 青島 266580)

1 引言

視覺問答任務(wù)是人工智能領(lǐng)域的新興課題[1]。給定圖像和相關(guān)的文本問題,視覺問答的任務(wù)是結(jié)合輸入的圖像和文本,生成一條人類可讀的自然語言作為輸出答案。該任務(wù)融合了計(jì)算機(jī)視覺、自然語言處理等計(jì)算機(jī)領(lǐng)域的知識,可視為對通用人工智能技術(shù)的探索。視覺與語言是人類最重要的交流方式,讓計(jì)算機(jī)能同時(shí)理解視覺和語言并正確做出反饋,能極大地改善人類與計(jì)算機(jī)間的交互方式。由于視覺問答任務(wù)的多技術(shù)交叉性質(zhì)以及潛在的實(shí)用價(jià)值,因此對于視覺問答任務(wù)的研究很有價(jià)值。

視覺問答任務(wù)的難點(diǎn)在于需要計(jì)算機(jī)同時(shí)理解圖像和文本。近年來,視覺問答技術(shù)得到了迅猛的發(fā)展。主流方法為將圖像和文本聯(lián)合嵌入到相同的特征空間的聯(lián)合嵌入模型。Malinowski[2]等提出了Neural Image QA 模型,該模型以CNN 和LSTM為基礎(chǔ),使模型可處理可變大小的問題輸入和答案輸出。Yu[3]等提出了一種多層次注意力網(wǎng)絡(luò)模型,通過圖像語義層級的注意力來減少與問題語義間的差異。Peter[4]等提出了Bottom-up 模型,以基于殘差神經(jīng)網(wǎng)絡(luò)的Faster R-cnn 提取圖像目標(biāo)等級的特征,使模型脫離使用圖像的全域特征而關(guān)注于特定的目標(biāo)區(qū)域。但這些方法并不能很好地關(guān)聯(lián)圖像中的目標(biāo)和文本的聯(lián)系。

近年來,由于圖形的強(qiáng)大表現(xiàn)力,用機(jī)器學(xué)習(xí)分析圖形的研究越來越受到關(guān)注,圖神經(jīng)網(wǎng)絡(luò)[5](GNN)是基于深度學(xué)習(xí)的方法,在圖域上運(yùn)行卷積神經(jīng)網(wǎng)絡(luò)。由于其令人信服的性能和高可解釋性,GNN 最近已成為一種廣泛應(yīng)用的圖形分析方法,其側(cè)重于分類、鏈路預(yù)測和聚類。在視覺問答中,圖像中的目標(biāo)可視為圖的節(jié)點(diǎn),節(jié)點(diǎn)間基于問題的聯(lián)系可視為邊。綜上,本文在聯(lián)合嵌入模型的基礎(chǔ)上結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)(GCN),加強(qiáng)圖像目標(biāo)和問題間的聯(lián)系,通過圖網(wǎng)絡(luò)強(qiáng)大的分類能力,以提高視覺問答的準(zhǔn)確率。

2 相關(guān)工作

2.1 圖卷積網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展促進(jìn)了圖卷積網(wǎng)絡(luò)的研究。應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)的歐幾里德域數(shù)據(jù)例如圖像和文本可以看成圖的實(shí)例。近年來,卷積運(yùn)算被推廣到圖域。圖卷積通常被分類為譜圖域卷積[6]和空間域卷積[7]。譜圖域GCN 利用圖的信號處理過程,通過計(jì)算圖的拉普拉斯算子的特征值矩陣,在傅里葉變換中定義卷積運(yùn)算??臻g域GCN 直接在圖上定義卷積,學(xué)習(xí)鄰近空間的信息。Kipf[8]提出了將CNN 擴(kuò)展為GCN 以連接任意的無向圖。GCN學(xué)習(xí)圖中每個(gè)節(jié)點(diǎn)的局部特征,該特征編碼了圖中節(jié)點(diǎn)與其鄰接節(jié)點(diǎn)關(guān)系。在圖卷積層,通過聚合節(jié)點(diǎn)本身和其鄰域節(jié)點(diǎn)的特征以產(chǎn)生新的輸出特征。通過堆疊多個(gè)層,GCN能從更遠(yuǎn)的節(jié)點(diǎn)接受信息。

2.2 視覺問答

Antol[8]等率先提出了視覺問答任務(wù),用于視覺問答研究的大型數(shù)據(jù)集VQA[9]、GQA[10]的推出也大大促進(jìn)了該領(lǐng)域的研究。視覺問答是根據(jù)輸入圖像回答給定問題的任務(wù),問題通常處理為詞向量,再用LSTM或GRU編碼,而圖像常由ResNet提取的固定大小網(wǎng)格的特征表示,圖像和問題的融合常用concatenated 和hadaman product。Damien[11]中提出了基于圖形的方法,將問題和圖像抽象為圖形表示,提升了抽象圖像理解的能力。有時(shí),僅靠圖像不足以推斷出正確答案,Narasimhan[12]通過檢索外部知識庫建立了圖像和事實(shí)的關(guān)系子圖,用視覺概念和屬性作為圖的節(jié)點(diǎn)。

3 方法

對于給定的問題和圖像對,為了預(yù)測準(zhǔn)確的答案,本文提出了一種基于圖卷積網(wǎng)絡(luò)的方法。算法流程圖可見于圖2,先提取圖像的目標(biāo)特征和計(jì)算問題的詞向量,再將圖像和問題特征處理為圖結(jié)構(gòu),模擬圖的鄰接矩陣,其受限與圖像基于問題的關(guān)系。鄰接矩陣可用于圖卷積層的運(yùn)算,卷積后的特征不僅關(guān)注圖像目標(biāo),也表示了圖像目標(biāo)和問題的相關(guān)性。

圖1 算法流程

圖2 topMax和Gcn層數(shù)的對比實(shí)驗(yàn)

3.1 數(shù)據(jù)預(yù)處理

模型的輸入質(zhì)量直接影響模型的訓(xùn)練質(zhì)量,本模型需要分別處理圖像和問題。

圖像特征提取采用bottom-up的圖像特征提取方法,該方法在視覺問答領(lǐng)域取得了廣泛的應(yīng)用,其用了基于殘差神經(jīng)網(wǎng)絡(luò)的Faster R-CNN 的目標(biāo)檢測方法,專注于識別圖像中的特定元素,輸出為圖像中Top-K 個(gè)目標(biāo)區(qū)域的resnet 特征。圖像轉(zhuǎn)化為目標(biāo)特征V=(v1,…,vn),vi∈RD,n 為檢測到的目標(biāo)數(shù),D 為特征向量的維度。大多數(shù)問題只涉及圖像中的部分區(qū)域,在本實(shí)驗(yàn)中,參考demain[13]等的實(shí)驗(yàn),K設(shè)置為36。

輸入問題首先用分詞工具去除標(biāo)點(diǎn)符號和空格。因?yàn)閿?shù)據(jù)集中僅有0.25%的問題超過14 個(gè)單詞,為了提高計(jì)算效率,所有問題都被裁切為最大14 個(gè)單詞,多余的單詞將被丟棄。每一個(gè)問題都編 碼 為Glove[14]詞 向 量(Global Vectors for Word Representation),Glove 使用基于維基百科語料庫預(yù)訓(xùn)練的公開版本。問題長度小于14 的用零向量擴(kuò)充。詞嵌入后的序列用GRU[15](Recurrent Gated Unit)編碼,在處理過14 個(gè)單詞嵌入后生成問題嵌入Q。

3.2 基于圖像和問題的圖形表示

模型需要融合圖像和文本的特征,本文使用concatenated 連接圖像和問題的向量表示,對于圖像中的目標(biāo)區(qū)域i=1…K,圖像特征vi用concatenated連接問題嵌入Q,記為[vi,Q],再計(jì)算聯(lián)合嵌入ji=F[vi,Q],F(xiàn) 為非線性函數(shù)。由kipf 歸納的圖卷積網(wǎng)絡(luò)的公式可知,使用圖卷積網(wǎng)絡(luò),需要輸入特征的圖形表示。在圖像處理為K 個(gè)目標(biāo)特征后,每個(gè)目標(biāo)區(qū)域可構(gòu)成圖的節(jié)點(diǎn)。本文定義一無向圖G={V,E,A},V 為節(jié)點(diǎn),即為圖像的K 個(gè)目標(biāo)檢測區(qū)域的特征向量的集合,每一個(gè)特征向量vi∈V,A為鄰接矩陣,邊的關(guān)系可用鄰接矩陣表示,其代表圖像和問題的聯(lián)系。將每張圖像和問題聯(lián)合嵌入的K 個(gè)ji組成矩陣M,該矩陣融合了圖像和問題特征。由于鄰接矩陣為方陣,令a=MMT。鄰接矩陣定義節(jié)點(diǎn)間的相關(guān)性,所以再用歐式距離處理,得到鄰接矩陣A,Aij越大,節(jié)點(diǎn)i和節(jié)點(diǎn)j間的相關(guān)性越強(qiáng)。

以上定義未對圖的稀疏度施加約束,因此可能產(chǎn)生完全連接的鄰接矩陣。如輸入?yún)?shù)中很多參數(shù)對輸出無影響一樣,視覺問答任務(wù)中的大多數(shù)問題亦只需關(guān)注圖像中的小部分區(qū)域。融合后的圖結(jié)構(gòu)是接下來圖卷積網(wǎng)絡(luò)的核心,其作用是得到圖像目標(biāo)和問題聯(lián)系的最相關(guān)區(qū)域。為得到圖的稀疏系統(tǒng),本文采用Ai=topMax(Ai)的過濾策略,Ai為鄰接矩陣A 的第i 行,topMax 為向量Ai的最大top-Max 個(gè)參數(shù),其余參數(shù)置0。這將得到節(jié)點(diǎn)最強(qiáng)連接的領(lǐng)域系統(tǒng)。

3.3 基于GCN的預(yù)測模型

給定特定問題的圖結(jié)構(gòu),本節(jié)使用圖卷積網(wǎng)絡(luò)(Graph Convolution Net)來學(xué)習(xí)新的對象的表示形式。圖像和問題聯(lián)合嵌入ji視為圖的節(jié)點(diǎn),將多個(gè)ji組成的矩陣M 作為GCN 的輸入。GCN 的層間傳播公式為

GCN 的輸入為H(0),=A+I(I 為單位矩陣),D為A~ 的節(jié)點(diǎn)度矩陣,W(l)為GCN 第L 層的可訓(xùn)練權(quán)重矩陣,σ(·)為非線性激活函數(shù)。最終輸出的H 和問題Q 通過Hadamard 乘積融合生成h,h 將被輸入后續(xù)模塊進(jìn)行答案預(yù)測。

圖像問答任務(wù)可視為多標(biāo)簽分類任務(wù),其中每個(gè)類對應(yīng)于訓(xùn)練集中最常見的答案之一。首先將訓(xùn)練集中所對應(yīng)的正確答案中所有出現(xiàn)大于等于8 次的答案構(gòu)建為答案候選集,這將形成總數(shù)T=3129 的詞表。在VQA2.0 數(shù)據(jù)集中每一個(gè)訓(xùn)練問題都對應(yīng)10 個(gè)答案。當(dāng)問題語義不明確或有多個(gè)語義相近的答案時(shí),因注釋者間的分歧,答案并不相同。使用軟精度可以減少注釋者答案間的分歧,軟精度比二進(jìn)制目標(biāo)提供了更豐富的訓(xùn)練信號,可以捕獲ground truth 注釋中偶爾出現(xiàn)的不確定性。Antol[9]給出的VQA 數(shù)據(jù)集的每個(gè)答案準(zhǔn)確率計(jì)算為

為預(yù)測答案,將聯(lián)合嵌入h 先用非線性函數(shù)處理,然后通過線性映射計(jì)算每個(gè)候選答案的分?jǐn)?shù)S~ ,sigmoid可將分?jǐn)?shù)映射為(0,1),以此作為候選答案的概率。

Sigmoid 函數(shù)的輸出允許針對每個(gè)問題優(yōu)化多個(gè)正確答案,損失函數(shù)和二元交叉熵?fù)p失類似,此步驟可視為預(yù)測每個(gè)正確候選答案的回歸層:

式(5)中的i 屬于訓(xùn)練問題M,j 屬于候選答案N,Sij為式(3)計(jì)算的值。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)集

模型的評估在VQA2.0數(shù)據(jù)集上進(jìn)行。該數(shù)據(jù)集包含約20 萬張圖片和110 萬個(gè)由人類標(biāo)注的問題和每個(gè)問題對應(yīng)的答案。數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集、測試集的比例分別為0.4、0.2、0.4。VQA2.0數(shù)據(jù)集的評價(jià)指標(biāo)即為式(3)。

4.2 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)的問題處理使用了預(yù)訓(xùn)練的300 維度的glove詞嵌入向量,再用GRU編碼詞向量,輸出維度為1024。圖像的特征提取使用BottomUp,維度為2048,目標(biāo)提取數(shù)量為36。接下來用兩層的圖卷積層學(xué)習(xí),所有的全連接層和卷積層使用ReLU激活函數(shù)。初始學(xué)習(xí)率為0.001,圖像特征和全連接 層 的dropout 為0.5,優(yōu)化器使用Adamax,Batch-size設(shè)為128,epoch為60。

4.3 實(shí)驗(yàn)結(jié)果

對于影響實(shí)驗(yàn)的主要參數(shù),本實(shí)驗(yàn)主要探究GCN 的層數(shù)N 和構(gòu)建鄰接矩陣中的topMax 的數(shù)量,在實(shí)驗(yàn)中,N 的數(shù)量分別設(shè)為{1,2,3,4,5},top-Max 的取值為{8,12,16,20,24,28,32}。在數(shù)據(jù)集中是/否、全部、其它和數(shù)字類型問題的準(zhǔn)確率如下圖所示。左圖topMax 數(shù)量保持16,右圖GCN 層數(shù)為2。

GCN 層數(shù)為2 和topMax 為16 是最優(yōu)選擇。在圖網(wǎng)絡(luò)中,堆疊多層的深度網(wǎng)絡(luò)依然是個(gè)挑戰(zhàn),圖網(wǎng)絡(luò)深度一邊在2、3 層時(shí)表現(xiàn)出最佳性能。為了驗(yàn)證詞嵌入對實(shí)驗(yàn)的影響,本節(jié)用Glove 做了多組對比實(shí)驗(yàn)。

表1 不同文本處理方式間的比較

表2 在VQA2.0標(biāo)準(zhǔn)測試集上的結(jié)果和經(jīng)典方法對比

實(shí)驗(yàn)證明低維度的glove向量(100或200)性能明顯低于glove300,單層GRU 性能優(yōu)于雙層的GRU。所以問題的詞嵌入使用glove300 和單層GRU。

基于圖卷積網(wǎng)絡(luò)的圖像問題方法可以提升預(yù)測準(zhǔn)確率,與同樣使用Bottom-up attention 提取圖像特征的bottom-up 方法相比平均提升約0.7%,在計(jì)數(shù)的問題上獲得了約3.5%的提升。相比LSTM Q+I 和ReasonNet,GCN 僅以兩層網(wǎng)絡(luò)便優(yōu)于其復(fù)雜的深層網(wǎng)絡(luò)模型。

5 結(jié)語

本文提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的視覺問答方法,將視覺問答任務(wù)視為多標(biāo)簽分類問題,用GCN 強(qiáng)大的分類能力提升答案預(yù)測的準(zhǔn)確性。該方法考慮了圖像和問題的相關(guān)性,通過圖形結(jié)構(gòu)處理將圖像和問題特征轉(zhuǎn)化為易于處理的可學(xué)習(xí)的圖結(jié)構(gòu)表示,再使用圖卷積網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)的鄰接節(jié)點(diǎn)信息?;诋?dāng)前的工作,后續(xù)可從以下方面繼續(xù)研究:尋找更有效的圖像和文本特征提取和融合方式,更復(fù)雜的圖形結(jié)構(gòu)和圖網(wǎng)絡(luò)。

猜你喜歡
卷積節(jié)點(diǎn)圖像
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
分區(qū)域的樹型多鏈的無線傳感器網(wǎng)絡(luò)路由算法
基于移動(dòng)匯聚節(jié)點(diǎn)和分簇的改進(jìn)節(jié)能路由算法
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
基于點(diǎn)權(quán)的混合K-shell關(guān)鍵節(jié)點(diǎn)識別方法
A、B兩點(diǎn)漂流記
卷積神經(jīng)網(wǎng)絡(luò)概述
名人語錄的極簡圖像表達(dá)
一次函數(shù)圖像與性質(zhì)的重難點(diǎn)講析