国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)系感知雙重注意力融合的視覺問答技術(shù)

2021-10-30 07:00:02
關(guān)鍵詞:分類器注意力形式

張 偉

(常州開放大學(xué)理工學(xué)院, 江蘇 常州 213001)

深度學(xué)習(xí)在圖像和文本研究中已取得突破性進(jìn)展,對圖像完成識別、分割、檢測等任務(wù),對文本中完成情感分類、多輪會話、摘要提取等任務(wù).但在生活場景中無法僅由單獨(dú)領(lǐng)域模型完成視頻生成對應(yīng)字幕、視覺和問題研究、零樣本分類等任務(wù).如今,圖像和文本跨模態(tài)的研究受到越來越多的關(guān)注.視覺問答技術(shù)(visual question answering,VQA)可對輸入圖像和自然語言形式問題進(jìn)行理解,回答對應(yīng)的問題.例如,輸入香蕉圖像和香蕉顏色、形狀等自然語言表達(dá)形式的問題,模型將輸出與圖像和問題相對應(yīng)的答案[1].

現(xiàn)在大部分VQA將圖像和文本形式問題聯(lián)合并以矩陣形式表達(dá),進(jìn)行融合[2-3].在模型中以目標(biāo)檢測算法(YOLO)為基礎(chǔ)框架識別圖像中的相關(guān)目標(biāo);用循環(huán)神經(jīng)網(wǎng)絡(luò)對文本形式問題進(jìn)行矩陣化;將得到的不同模態(tài)結(jié)果進(jìn)行一致性融合,使目標(biāo)區(qū)域和文本形式問題一致;將兩種模態(tài)融合的結(jié)果輸入到模型中預(yù)測對應(yīng)答案[4].

采用傳統(tǒng)方法完成VQA的任務(wù)效果不錯,但是無法解決圖像和文本相同語義之間的距離問題.例如,傳統(tǒng)YOLO網(wǎng)絡(luò)識別圖像中黑色和白色像素,但是很難識別出物體之間關(guān)系;熊貓和竹子之間吃的動作在現(xiàn)有網(wǎng)絡(luò)中無法辨識[5].

傳統(tǒng)VQA框架、傳統(tǒng)目標(biāo)檢測框架已經(jīng)無法滿足從圖像全面信息中獲得不同對象之間相關(guān)關(guān)系的需求.需要獲取的關(guān)系包括從空間角度中獲取不同對象之間依賴關(guān)系和從語義角度中獲取不同對象的補(bǔ)充關(guān)系.

本文提出一種關(guān)系感知雙重注意力機(jī)制(relationship aware dual attention mechanism,RADA)來解決VQA問題,該框架中用位置注意力來得到不同對象的顯式關(guān)系;另一組注意力專注于語義注意力,獲取不同對象的隱式關(guān)系,這種關(guān)系不能實(shí)現(xiàn)對圖像內(nèi)容解釋,但有助于對文本內(nèi)容的處理.

1 視覺問答技術(shù)

視覺問答技術(shù)框架通常包含圖像表征、文本向量化、不同模態(tài)之間融合、答案預(yù)測四個部分[6].注意力作為解決此類問題重要方式已經(jīng)成為主流工具之一.文獻(xiàn)[7]以注意力對圖像進(jìn)行多次注意獲取,將多次獲取的結(jié)果形成并集,再以注意力的結(jié)果推斷出問題的答案;文獻(xiàn)[8]借助殘差網(wǎng)絡(luò)形式實(shí)現(xiàn)注意力跳躍、不同圖像區(qū)域記憶、捕獲圖像細(xì)粒度區(qū)域,再結(jié)合問題預(yù)測圖像;文獻(xiàn)[9]將注意力和圖神經(jīng)網(wǎng)絡(luò)相結(jié)合,形成不同層次注意力,將空間注意力和物體注意力相結(jié)合,建立圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以此圖模型來預(yù)測問題對應(yīng)的答案;文獻(xiàn)[10]在預(yù)訓(xùn)練模型中對顯著特征區(qū)域以注意力自底向上的方式來學(xué)習(xí)有用信息,注意力多次學(xué)習(xí)后再結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行融合;文獻(xiàn)[11]將注意力以MASK形式表現(xiàn)出來,以先驗(yàn)方式和原來的模型相結(jié)合,根據(jù)問題推測出答案.

視覺問答問題除了借助圖像和文本問題外,還可以借助外在輔助信息.圖像是感知形式出現(xiàn),缺乏對應(yīng)文本形式的認(rèn)識和理解,對圖像中輔助內(nèi)容的描述有助于解決現(xiàn)有的問題.文獻(xiàn)[12]認(rèn)為對圖像的理解缺乏相應(yīng)的文本形式內(nèi)容,將其相關(guān)的對象和關(guān)系與知識庫的形式關(guān)聯(lián),可以拓寬問題的泛化性,同時(shí)保持原有問題回答準(zhǔn)確性;文獻(xiàn)[13]利用目標(biāo)檢測方法處理圖像中的對象,標(biāo)注相關(guān)對象的關(guān)系,引入到第三方知識庫,增強(qiáng)對圖像和問題的理解,但模型訓(xùn)練時(shí)間過長,對復(fù)雜問題的推理準(zhǔn)確性不高.

上述文獻(xiàn)的注意力只是以位置方式顯式地表現(xiàn)出來,在實(shí)際應(yīng)用過程中VQA的隱式更為重要.如何從注意力學(xué)習(xí)到語義成為重要的研究方向,可以解決傳統(tǒng)VQA框架中的不足.

2 關(guān)系感知雙重注意力模型

本文提出一種關(guān)系感知雙重注意力模型來解決傳統(tǒng)VQA中存在的語義問題.利用注意力機(jī)制提取圖像候選區(qū)域?qū)ο蟮玫轿恢眯畔?根據(jù)圖像描述得到對應(yīng)語義注意力,再經(jīng)過外積方式進(jìn)行融合;對文本和圖像中注意力進(jìn)行融合,推理出答案.

2.1 圖像關(guān)系感知雙重注意力

視覺問答中注意力主要集中在位置空間.在圖1中通過YOLO網(wǎng)絡(luò)檢測到人、馬、草地等目標(biāo),目標(biāo)檢測以多頭注意力形式進(jìn)行表現(xiàn).多頭注意力是注意力的一種擴(kuò)展,本文將多種注意力以拼接形式連接起來,計(jì)算公式為:

創(chuàng)業(yè)工作坊模式的前提是成立創(chuàng)業(yè)團(tuán)隊(duì),然后以工作坊的形式完成課內(nèi)課外的學(xué)習(xí)。在每個項(xiàng)目的教學(xué)中,教師會根據(jù)工作過程、崗位技能需求,將理論與實(shí)踐技能融合到每一個任務(wù)中。下面以“市場調(diào)研”模塊為例,表述完整項(xiàng)目教學(xué)流程。

圖1 圖像感知雙重注意力機(jī)制實(shí)現(xiàn)過程模型

MultiHead(Q,K,V)=Concat(head1,…,headn)

(1)

式(1)將YOLO得到的前景和背景拼接起來,得到矩陣C.注意力實(shí)現(xiàn)公式為:

(2)

圖1中模型除取得多頭注意力實(shí)體對象外,還將該圖像對象的文本描述用BERT向量化,將向量化值代入式(1)和式(2),獲得對應(yīng)的注意力矩陣C′.將矩陣C、C′以外積形式進(jìn)行融合,得到雙重注意力語義,函數(shù)公式為:

Fuse(C,C′)=C?C′

(3)

以外積形式將圖1中包含的注意力賦予到圖像中,得到所需注意力的值.從模型中可見,第一層圖像網(wǎng)絡(luò)多頭注意力獲取的是顯式的位置關(guān)系,第二層文本網(wǎng)絡(luò)多頭注意力獲取的是隱式關(guān)系.

2.2 文本關(guān)系感知雙重注意力

VQA中問題以自然語言形成呈現(xiàn).文本中將問題進(jìn)行Embedding后,再用LSTM進(jìn)行上下文的融合,在融合基礎(chǔ)上以多頭注意力去獲取不同詞的權(quán)重信息.文本感知雙重注意力結(jié)構(gòu)如圖2所示.

圖2 文本感知雙重注意力機(jī)制實(shí)現(xiàn)過程模型

Out=LSTM(w1,…,wn)

(4)

將式(4)中輸出的序列引入詞注意力計(jì)算式.將文本處理注意力劃分為實(shí)體性質(zhì)注意力和關(guān)系型注意力,這兩種注意力的融合方式與圖像的類似.

2.3 注意力融合

圖像注意力融合后的結(jié)果為A, 文本注意力融合后的結(jié)果為A′.為了文本和圖像維度的一致性,將圖像輸入到全連接層F,文本輸入到全連接層F′.兩者之間以串聯(lián)方式來連接,計(jì)算公式為:

U=L(A;A′)

(5)

式(5)中L函數(shù)將經(jīng)過全連接方式映射,得到的結(jié)果以串行方式連接起來.該操作的目標(biāo)是將結(jié)果送入到分類器中,以便實(shí)現(xiàn)最后的答案預(yù)測.

2.4 多標(biāo)簽分類器

傳統(tǒng)VQA分類器只是以是和否兩種二分類的形式來實(shí)現(xiàn).本文使用多標(biāo)簽分類器作為最終分類器,與二分類相比,多標(biāo)簽分類器答案更豐富.多標(biāo)簽分類器最終輸出是多個概率值,表示形式為:

Y=σ(Wf0(U))

(6)

式中:Y為輸出的標(biāo)簽對應(yīng)值;f0為對圖像和文本聯(lián)合輸入數(shù)值進(jìn)行非線性處理函數(shù);W為激活矩陣;σ為對得到的數(shù)值進(jìn)行非線性激活函數(shù),以Sigmoid方式來實(shí)現(xiàn).

3 模型試驗(yàn)

3.1 數(shù)據(jù)集信息

本文選擇三種公開數(shù)據(jù)集VQA 2.0、VQ-CP V2和Visual Genome驗(yàn)證VQA模型的準(zhǔn)確程度.

VQA 2.0公開數(shù)據(jù)集中除了日?,F(xiàn)實(shí)環(huán)境真實(shí)圖像外,還包含卡通圖像.該數(shù)據(jù)集中真實(shí)圖像的來源是COCO數(shù)據(jù)集.從COCO數(shù)據(jù)中選擇12萬多張作為訓(xùn)練集,其余的8萬多張作為測試集.在該數(shù)據(jù)集的基礎(chǔ)上以自然語言形式加入61個問題,并且給予對應(yīng)的多個答案.VQA 2.0的答案包含傳統(tǒng)二分類答案和多分類答案.

VQ-CP V2數(shù)據(jù)集從內(nèi)容來看是VQA 2.0派生版本,改進(jìn)了VQA 2.0中存在的答案引導(dǎo)和偏見問題.該數(shù)據(jù)集改變了數(shù)據(jù)分布,使模型測試更加公平.

Visual Genome數(shù)據(jù)集包含10萬多張圖像,針對數(shù)據(jù)集設(shè)置了170萬個相關(guān)的問題.該數(shù)據(jù)集標(biāo)注了多個實(shí)體標(biāo)簽以及對象之間的關(guān)系.以數(shù)據(jù)集中1萬張圖像用于測試,其余9萬多張圖像用于訓(xùn)練.

3.2 試驗(yàn)相關(guān)設(shè)置

設(shè)置相關(guān)參數(shù),包含GTX2080Ti、運(yùn)行框架tensorflow等,設(shè)置YOLO中候選區(qū)域?yàn)?2,優(yōu)化算法為ADAM,其中學(xué)習(xí)率alpha為0.006,beta為0.07,epsilon為10-8,batch_size為64,在LOSS中引入dropout和正則化,樣本訓(xùn)練過程中需要對訓(xùn)練樣本進(jìn)行隨機(jī)打亂.

3.2 試驗(yàn)結(jié)果

VQA模型在VQA 2.0、VQ-CP V2和Visual Genome三種公開數(shù)據(jù)上進(jìn)行二分類(是/否)、目標(biāo)對象計(jì)算、多分類,結(jié)果如圖3和表1所示.由圖3可見,訓(xùn)練集在epoch達(dá)到60時(shí)準(zhǔn)確率穩(wěn)定;測試集在epoch達(dá)到75時(shí)準(zhǔn)確率穩(wěn)定.

圖3 訓(xùn)練集和測試集準(zhǔn)確率變化曲線

表1 VQA模型在不同數(shù)據(jù)集測試準(zhǔn)確率比較 %

將本文的模型在VQ-CP V2上同BUTD、MFH、BAN、Counter進(jìn)行對比,結(jié)果如表2所示.在二分類中本文模型比最好的BAN算法高2.2%,在目標(biāo)計(jì)算中本文模型比MFH算法提高了2.1%,在多分類中本文模型比BAN算法提高了的3.0%.本文模型達(dá)到最佳水平.

表2 在VQ-CP V2數(shù)據(jù)集上各算法準(zhǔn)確率比較 %

將本文模型在Visual Genome上同BUTD、MFH、BAN、Counter進(jìn)行對比,結(jié)果如表3所示.在二分類中本文模型比最好的BUTD算法高3.4%,在目標(biāo)計(jì)算中本文模型比BAN算法提高了1.9%,在多分類中本文模型比BUTD算法提高了1.2%.本文模型達(dá)到最佳水平.

表3 在Visual Genome數(shù)據(jù)集上各算法準(zhǔn)確率比較 %

4 結(jié)語

本文提出一種關(guān)系感知雙重注意力模型.模型對圖像以顯式注意力機(jī)制獲取圖像中包含的位置信息,再根據(jù)圖像對應(yīng)文本描述獲取其對應(yīng)隱式注意力信息;將兩者信息以外積形式進(jìn)行融合;對自然語言描述文本進(jìn)行Embedding后以LSTM進(jìn)行融合,通過不同注意力分別獲取實(shí)體和關(guān)系,同樣以外積形式進(jìn)行融合;以串聯(lián)方式實(shí)現(xiàn)對答案的推理.將文本算法在公開數(shù)據(jù)集VQA 2.0、VQ-CP V2和Visual Genome上與現(xiàn)有方法進(jìn)行比較,本文模型準(zhǔn)確率達(dá)到最優(yōu).

猜你喜歡
分類器注意力形式
讓注意力“飛”回來
小議過去進(jìn)行時(shí)
微型演講:一種德育的新形式
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
搞定語法填空中的V—ing形式
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
A Beautiful Way Of Looking At Things
發(fā)現(xiàn)“形式” 踐行“形式”
沭阳县| 城市| 右玉县| 襄垣县| 神木县| 永城市| 吉木乃县| 崇信县| 永登县| 金山区| 惠东县| 白城市| 莱芜市| 万宁市| 永登县| 新闻| 张北县| 黔西| 若羌县| 临汾市| 廊坊市| 临潭县| 崇州市| 沭阳县| 叶城县| 淮滨县| 杭州市| 滦南县| 合山市| 辽中县| 黔东| 建始县| 宕昌县| 廊坊市| 大余县| 湾仔区| 土默特右旗| 丰顺县| 县级市| 神农架林区| 巴中市|