国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)知識主動學習的視頻問答方案

2024-04-29 05:35劉明陽王若梅
計算機研究與發(fā)展 2024年4期
關鍵詞:特征提取語義模態(tài)

劉明陽 王若梅 周 凡 林 格

(中山大學計算機學院國家數字家庭工程技術研究中心 廣州 510006)

(liumy77@mail2.sysu.edu.cn)

視頻問答任務旨在通過問答的形式來幫助人們快速檢索、解析和總結視頻內容.相較于基于靜態(tài)圖像的問答任務[1],視頻問答需要處理的信息從圖像變成由連續(xù)圖像序列、音頻等多模態(tài)信息組成的視頻,復雜的人物關系和上下文關聯分散在這些多模態(tài)信息序列中,蘊含著一個完整的故事情節(jié).這使得視頻問答面臨著更為復雜的多模態(tài)特征提取、數據融合以及跨模態(tài)邏輯推理[2-3]等人工智能關鍵問題的挑戰(zhàn),成為比圖像問答更高層次的人工智能任務.

為了實現視頻問答的任務,研究人員使用了一系列的深度神經網絡[4-6]來進行視頻內豐富的外觀信息、空間位置信息、動作信息、字幕、語音和問題文本等多模態(tài)信息的特征編碼,為數據融合與推理提供必要的上下文語義線索.為了理解分散在連續(xù)視頻圖像序列內的完整故事情節(jié)和獲取準確的答案預測,研究人員提出了跨模態(tài)注意力機制[7],動作-外觀記憶網絡[8]和圖神經網絡[9]等一系列數據融合與推理模型,嘗試通過跨模態(tài)語義的計算與推理,從繁雜的多模態(tài)特征編碼中識別和整合出那些可能在時間上相鄰或不相鄰的有效特征序列,過濾掉不相關甚至不利于解答問題的多模態(tài)信息,為給定問題預測準確的答案.

文獻[7-9]在多模態(tài)特征提取和數據融合與推理方面取得了許多有意義的研究成果.但是由于視頻問答任務的多元性和復雜性,視頻問答任務中多模態(tài)特征提取以及數據融合和推理的研究仍然是具有挑戰(zhàn)性的難點問題.通過對中外文獻的研究與分析,我們發(fā)現在視頻問答的研究中仍存在2 點不足:

1)特征提取方法對于視頻的細節(jié)表示不足.目前的多模態(tài)特征提取方法更注重關于視頻圖像和視頻片段粗粒度的特征提取[10-11],粗粒度的外觀信息或動作信息缺乏對圖像序列內視覺目標等細粒度信息的關注,致使在數據融合與推理過程中,視頻中重要的視覺目標及其動作細節(jié)可能被遺漏,影響了正確的空間位置和時序關系的建立,導致數據融合與推理過程可能建立錯誤的因果關系.

2)數據融合與推理的主動學習能力不足.現階段的數據融合與推理模型主要是針對視覺線索的單向篩選處理[12-13],缺少主動使用已經掌握的內容來完善多模態(tài)信息的能力.更確切地說,現階段數據融合與推理模型無法使用已經掌握的知識去主動學習或猜測那些還沒有掌握的內容,導致在數據融合與推理過程中只能對特征提取階段所獲取的多模態(tài)特征編碼進行計算與推理,很難在數據融合與推理階段獲取特征提取之外的多模態(tài)先驗知識,影響了模型對多模態(tài)內容的深度理解,加劇了語義鴻溝對跨模態(tài)數據融合與推理的影響.

針對這2 點不足,本文提出了基于多模態(tài)知識主動學習的視頻問答方案,如圖1 所示.該方案由3 個部分組成:顯性多模態(tài)特征提取模塊、知識自增強多模態(tài)數據融合與推理模型、答案解碼模塊.首先,為了解決特征提取方法對于視頻的細節(jié)表示不足的問題,我們設計了一種顯性多模態(tài)特征提取模塊.該模塊通過計算帶有語義約束、空間約束和動態(tài)約束的顯式軌跡,得到每個視覺目標的運動軌跡,從而抑制可能存在的目標位置偏移、重疊或變形所引起的語義偏移,實現了對視覺目標的精準動態(tài)特征提取.接著,該模塊借助動態(tài)特征對靜態(tài)內容的補充,有效避免錯誤時序關聯的建立和錯誤因果關系的推斷,為數據融合與推理提供了更加精準的視頻特征表達.

Fig.1 The overview of our proposed video question answering scheme圖1 本文提出的視頻問答方案概述

為了解決邏輯推理的主動學習能力不足的問題,我們設計了一種知識自增強多模態(tài)數據融合與推理(knowledge auto-enhancement multimodal data fusion and reasoning,KAFR)模型.該模型以顯性多模態(tài)特征提取模塊的外觀信息、動作信息和包含了視覺目標、復雜運動軌跡和多維時空交互的視頻細節(jié)信息作為輸入,通過時序表達與推理、多模態(tài)表示再學習、聚焦表示學習和匯總表示學習4 種模塊組成的數據融合與推理網絡,賦予了視頻問答模型從初次審題與推理,到信息的重學習,再到思維聚焦,最后歸納總結的完整邏輯思維能力.

在數據融合與推理過程中,該模型能夠利用已經掌握的多模態(tài)信息來完善視頻問答系統(tǒng)的先驗知識,同時通過邏輯思維的聚焦能力,減少視頻中需要理解的多模態(tài)信息,改善對先驗知識的依賴.

為了獲取分散在視頻片段和圖像中的視覺語義線索,我們將KAFR 按照視頻的層次結構如圖像、視頻片段等進行排列,使得視頻問答模型能夠自底向上地收集視頻所提供的視覺語義線索.然后通過答案解碼模塊對分散在不同模態(tài)下的答案線索進行匯總,為特定問題提供準確的答案預測.

本文的主要貢獻包括3 個方面:

1)提出了一種顯性的視頻細節(jié)描述方法.該方法能夠將視頻的靜態(tài)細節(jié)描述推廣到動態(tài)細節(jié)描述,為數據融合與推理提供更精準的視頻描述表達.

2)設計了一種KAFR 模型.該模塊能夠在數據融合與推理計算過程中主動完善多模態(tài)信息的深度理解,還能通過思維的聚焦學習,減少視頻中需要理解的多模態(tài)信息,降低數據融合與推理對于先驗知識的依賴,改善特征提取不足所帶來的挑戰(zhàn).

3)基于對1)和2)的改進,提出了一種新穎的基于多模態(tài)知識主動學習的視頻問答解決方案,該方案能夠自底向上地收集視頻所提供的視覺語義線索,有效地完成視頻問答任務.在TG?F-QA[14],MSVDQA[15],MSRVTT-QA[16]視頻問答標準數據集的實驗表明,本文提出的解決方案的性能優(yōu)于現有最先進的視頻問答算法.

1 相關工作

視頻問答任務需要通過視覺和語言之間的跨模態(tài)數據推理來實現對復雜視頻場景的理解,這需要視頻問答模型能夠對視頻內容進行精準編碼,并通過數據融合與推理計算將分散在空間和時間內的多模態(tài)語義線索聯系起來.這使得視頻特征提取和數據融合與推理成為現階段視頻問答2 個關鍵的研究點.本節(jié)將對這2 個關鍵研究問題的國內外研究現狀進行分析和總結.

1.1 視頻特征提取

視頻特征提取旨在獲取視頻中包含的目標、動作、復雜的動態(tài)位置關系和上下文關聯等豐富的視覺語義,組成能夠反映整個故事情節(jié)的特征表達,為后續(xù)的跨模態(tài)數據融合與推理提供完整的視覺語義線索.視頻問答的早期方法主要通過VGG[17],ResNet[4],ResNeXt[5]等一系列深度網絡從原始視頻中提取和整合視覺語義特征[10,12,18].然而,文獻[4-5,10,12,17-18]僅僅利用了圖像級或視頻片段等粗粒度視覺特征來描述故事情節(jié),缺乏對視頻細節(jié)信息的關注.最近,針對對象級信息進行視頻特征提取展現出卓越的性能[19-20],為視頻問答模型提供了故事情節(jié)的細節(jié)描述,增強了視覺關系推理的能力.Huang 等人[19]通過建立圖像幀間與幀內的位置編碼來豐富對象特征的時空關系.Seo 等人[20]將對象級特征提取推廣到運動特征的提取,增強了對象特征的動態(tài)表達.

文獻[4-5,10,12,17-20]方法通過對視頻的細節(jié)特征提取,有效地提升了視頻問答的性能.但是這些方法只關注到圖像所提供的靜態(tài)細節(jié)特征和時空進行關聯,沒有顯式地捕獲視覺目標的動態(tài)細節(jié)特征,這樣可能會導致錯誤的關系理解,如擁抱和打架,也可能無法捕獲視覺目標的動作細節(jié),如揮手和親吻.為了解決上述問題,本文顯式地計算出每一個視覺目標的運動軌跡,對每一個視覺目標進行精準的細節(jié)特征提取,同時通過動態(tài)信息對靜態(tài)內容的補充,有效地避免了錯誤時序關聯的建立,糾正了錯誤的因果關系.

1.2 數據融合與推理

數據融合與推理的目的是從復雜的視頻故事情節(jié)中獲取能夠指引出正確答案的視覺線索.在視頻問答的早期發(fā)展中,研究人員專注于將視頻圖像或視頻片段作為數據融合與推理的對象,提出了跨模態(tài)注意力機制、動作外觀記憶網絡和圖神經網絡等一系列數據融合與推理技術,試圖通過單個問答模型來獲取整個視頻的內容[21-22].近年來,為了獲取對視頻細節(jié)內容的理解,避免問答模型忽略掉那些影響視頻故事走向的重要線索,基于模塊化的視頻問答模型成為了主流[9,12],它們將數據融合與推理過程滲透到視頻的各個層次,通過多步推理的方式,完成對視頻從對象級、圖像級到片段級的語義線索整合.Le 等人[12]設計了一種能夠重復使用的條件關系模塊,并且將這些模塊按照視頻的時序結構進行排列,以捕獲存在于視頻幀之間和視頻片段之間的時序關系.為了進一步完善對視頻層次行的利用,Dang 等人[9]利用圖神經網絡對視頻內的對象及其軌跡進行關系推理,使得數據融合與推理能夠深入到場景目標的時空關系中,獲取更精準的視覺語義線索.

文獻[9,12,21-22]方法通過對數據融合與推理模塊的結構創(chuàng)新,使視頻問答任務的性能方面得到了改進.進一步分析這些方法的數據融合與推理原理,我們發(fā)現這些研究都建立在有限的視頻特征提取之上,只能獲取基于?magenet[23],Kinetics[24]等數據集的視頻先驗知識.然而相較于復雜的視頻內容,這些從數據集中獲取的有限先驗知識很難對視頻內容進行準確的描述,無法為后續(xù)的數據融合與推理提供充足的視覺知識,使得文獻[9,12,21-22]方法不得不在缺失信息的情況下進行答案預測,嚴重限制了這些方法的問答性能.為了應對這種先驗知識不足的問題,Zeng 等人[25]提出了一種先驗知識檢索模塊,旨在從外部知識獲取先驗知識,并將其整合到問題特征中,以豐富多模態(tài)信息的特征表達.同時,研究人員也使用開放域視覺-文本數據[26]進行網絡預訓練[27-28],以改善視頻問答模型先驗知識不足的問題.雖然文獻[25-28]方式獲取了不錯的性能提升,但是不論是數據的獲取和標注,還是信息的檢索,都是一種費時費力的方法.因此在本文中,我們設計了一種KAFR 模型,使得視頻問答模型不僅能夠在跨模態(tài)數據融合與推理過程中,增強對多模態(tài)內容的理解,彌補先驗知識不足的缺陷,還能夠通過邏輯思維的聚焦能力,將邏輯推理聚焦于與問題相關聯的多模態(tài)信息,進一步減少對先驗知識的依賴.

2 基于多模態(tài)知識主動學習的視頻問答方案

2.1 問題描述

對于任意視頻V以及對應的任意自然語言問題q,視頻問答需要設計出一個算法 F,從候選答案空間 A中推導出正確答案a*.該過程可以定義為:

為了實現視頻問答任務,本文提出的視頻問答方案 F被分為3 個部分進行闡述:1)顯式多模態(tài)特征提取模塊(見2.2 節(jié));2)KAFR 模型(見2.3 節(jié)和2.4 節(jié));3)答案預測模塊(見2.5 節(jié)).

2.2 顯性多模態(tài)特征提取模塊

為了能夠更好地獲取視覺目標在靜態(tài)圖像內的語義關系和視覺目標與周圍環(huán)境的動態(tài)關系,我們建立了一種顯性的多模態(tài)特征提取模塊.該模塊主要包括了粗粒度視覺特征提取和顯性視頻細節(jié)描述.粗粒度視覺特征提取能夠獲取蘊含在視頻圖像或片段內的全局靜態(tài)特征和動態(tài)特征,顯性視頻細節(jié)描述能夠通過顯式軌跡計算得到每一個視覺目標的運動軌跡,從而實現關于視覺目標的精準動態(tài)特征提取.

2.2.1 粗粒度視覺特征提取方法

粗粒度視覺特征提取模塊的目的是為了獲取視頻圖像和圖像序列內蘊含的粗粒度動態(tài)特征和靜態(tài)表觀特征,我們首先將視頻V分割為等長的片段C=C1,C2,…,CN,并從每一個片段Ci均勻采樣出T幀表示視頻內容.接著應用ResNet[4]和線性投影矩陣Wapp∈R2048×d來獲取每一段視頻Ci內的靜態(tài)表觀特征序列最后應用ResNeXt-101[5]以及線性投影矩陣Wmot∈R2048×d來獲取每一段視頻Ci內的運動特征

2.2.2 顯性視頻細節(jié)描述方法

粗粒度的視覺特征能夠為后續(xù)的數據融合和推理提供視頻內豐富的全局信息,但是高度耦合的信息表達不利于視頻細節(jié)的獲取.為了補充視頻內的細節(jié)信息,更好地獲取視覺目標在靜態(tài)圖像內的語義關系和與周圍環(huán)境的動態(tài)關系,我們設計了一種顯性視頻的細節(jié)描述方法,方法流程如圖2 所示.

Fig.2 Detail description method of explicit video圖2 顯性視頻的細節(jié)描述方法

具體來說,我們首先利用目標檢測器[6]從視頻片段Ci的每一幀圖像Ii,j中提取K個視覺目標特征和相應的空間位置信息由于目標檢測結果可能存在由于目標位置偏移、重疊或變形所引起的語義偏移,使得目標檢測的結果順序無法被預測,這就需要我們對這些檢測目標重新排序,以避免獲取錯誤的上下文關系和動態(tài)信息.為了對齊每一個視覺目標的特征序列,我們定義了一種相似度得分score來衡量相鄰幀之間的視覺目標相似度:

其中cos()表示余弦相似度,用于評估相鄰幀的視覺目標之間的語義相似度,以區(qū)分不同視覺目標,避免由于錯誤的時序關聯而造成的語義偏移;IoU()表示交并比,用于計算視覺目標之間的空間位置關聯,以區(qū)分在相同位置或大小不同的視覺目標之間的語義相似性,避免由于錯誤的空間關聯而造成的語義偏移;z表示視覺目標位置的中心位置,tanh()表示激活函數,用于限制每個視覺目標的運動范圍,評估視覺目標的運動趨勢,以避免目標重疊時產生的語義偏移,j∈{1,2,…,T-1},k1∈{1,2,…,K},k2∈{1,2,…,K}.借助于這些度量方法,我們可以以每一個視頻片段Ci的第1 幀檢測到的K個視覺目標作為基準目標,逐幀計算相鄰幀之間的score得分,接著應用貪心算法獲取最大化的score得分,將相似視覺目標連接起來,從而捕獲視覺目標在視頻片段中的運動軌跡,實現視覺目標的對齊.上述方式有效地避免錯誤的時序關聯,為視頻問答模型提供了對齊后的視覺目標特征序列 和空間位置序列

2.3 KAFR 模型

現階段的數據融合與推理模型主要是針對視覺線索的單向篩選處理[12-13],缺少主動獲取特征提取之外先驗知識的手段,影響了模型對多模態(tài)內容的深度理解和跨模態(tài)數據融合與推理的能力.為此,本文提出了KAFR模型.該模塊的輸入是長度為X的視頻特征序列和問題特征qor,通過4個跨模態(tài)數據融合與推理過程:時序表示學習與推理、多模態(tài)表示再學習、聚焦表示學習和匯總表示學習賦予視頻問答模型從初次審題與推理,到信息的重學習,再到思維聚焦,最后歸納總結的完整邏輯思維能力.使得數據融合與推理過程中不僅能夠利用所收集的視覺線索填補對多模態(tài)信息的理解,還能通過邏輯思維的聚焦能力,改善邏輯推理對于先驗知識的依賴.

2.3.1 時序表示學習與推理

時序表示學習與推理旨在建立視覺特征的上下文關系,以理解視頻內容并整理與問題相關聯的視覺語義線索,例如從視覺目標中獲取與問題所關注的視覺對象及其動態(tài)軌跡.為了實現這樣的目的,我們首先使用多頭注意力模型[30]來捕獲視頻特征序列F中各個特征向量之間的語義關系,使得F中每個特征向量能夠在多個維度上共享其特征,賦予模型理解視頻的能力.該過程如式(3)(4)所示:

2.3.2 多模態(tài)表示再學習

多模態(tài)表示再學習的目的是利用已經獲取的視覺語義線索,增強對多模態(tài)信息的深度理解,并彌補先驗知識的不足.例如,該模塊可以利用已經明確的視覺目標及其軌跡信息,來強化或補充那些在特征提取階段無法獲取的視覺目標先驗知識.為此,我們首先使用式(6)獲取視覺語義特征和文本特征之間的復雜語義關系A,以便指導后續(xù)的多模態(tài)信息之間的語義補充理解.

其中Wr1∈R2d×d和Wr2∈R2d×d是線性投影矩陣,qor] 將視覺特征h與問題原始特征qor組合到同一向量中.接著在關系網絡A的引導下,利用已經掌握的多模態(tài)語義補充每一個視覺信息和問題詞匯的深度理解

其中Wr3∈R2d×d是線性投影矩陣,Ni表示除第i個特征節(jié)點外的節(jié)點特征集合,表示特征之間的關聯程度,ReLU表示修正線性單元激活函數.經過上述的迭代操作,重復地對多模態(tài)語義進行補充與被補充,最終獲取到充分理解后的視頻和問題序列接著應用BiLSTM()進行針對問題的重新審閱,獲取理解更為準確的問題表達通過對多模態(tài)信息的再學習,實現了模型對多模態(tài)特征的深度理解,填補了多模態(tài)先驗知識的不足.

2.3.3 聚焦表示學習

為了進一步實現對多模態(tài)內容關鍵點的聚焦,減少與問題弱相關或無關的視覺信息對數據融合與推理的干擾,從復雜的視頻場景中找出與問題強相關視覺語義線索,例如蘊含著答案的潛在視覺目標以及其運動軌跡更有利于問題的解答.為此,一種聚焦表示學習模塊被提出,旨在實現邏輯思維的聚焦能力.該模塊的目的是利用問題的關鍵詞,使視頻問答模型能夠聚焦多模態(tài)內容中的關鍵內容,減少推理過程中可能造成混淆的無關或弱相關的內容.在該模塊的設計中,我們首先使用關鍵詞檢測技術①https://github.com/maartengr/keybert從問題中獲取每個關鍵詞的語義表達其中n表示關鍵詞的個數.視頻問答模型借助關鍵詞qk從隱藏的語義線索中準確地識別出與關鍵信息相關的視覺信息,以總結出與問題強相關的視覺語義線索.

2.3.4 匯總表示學習

上述特征表達不僅涵蓋了充足且準確的多模態(tài)先驗知識,還包含了對多模態(tài)信息的深層次理解,為答案解碼提供了豐富的視覺語義線索.高度濃縮的視覺語義限線索也為視頻問答模型獲取更高層次的視覺語義線索提供了便利.

2.4 基于多模態(tài)知識主動學習的多層次視頻問答網絡

2.3 節(jié)提出的KAFR 模型能夠在數據融合與推理過程中主動完善多模態(tài)信息的深度理解,還能通過思維的聚焦學習,減少視頻中需要理解的多模態(tài)信息,降低數據融合與推理過程對于先驗知識的依賴,改善特征提取不足所帶來的挑戰(zhàn).接著我們將KAFR按照視頻的層次結構,如圖像、視頻片段等進行排列,搭建了靜態(tài)外觀與語言、動態(tài)信息與語言和視覺目標與語言等多層次視頻問答網絡,進一步從視頻中理解完整的故事情節(jié),獲取視頻層級所提供的多層次視覺語義線索,為視頻問答提供更加準確的答案預測.

我們在后續(xù)的實驗中對于所提出方案中的網絡結構的合理性以及多層次設計方案進行了嚴格的消融實驗(見3.4.1 節(jié)),實驗結果表明,多層次網絡設計的問答性能優(yōu)于單層次的網絡設計,證實了多層次結構網絡結構的優(yōu)越性.

2.5 答案解碼

本節(jié)針對多項選擇任務、開放性任務和重復計數任務等不同類型的視頻問題設計了不同的解碼器,使視頻問答模型能夠應對不同類型任務的挑戰(zhàn).

在這類視頻問答中,交叉熵損失函數被用于網絡模型的優(yōu)化.

針對開放性任務,特征Hob,Happ,Hmot,作為輸入,式(16)被用于得到每個候選答案的最終得分δopen∈

其中Wopen∈Rd×Nopen,Wopen′∈R4d×d是不同的線性投影矩陣,Nopen表示答案空間 |A|的長度.最后我們選擇得分最高的答案作為預測答案.

在這類視頻問答任務中,交叉熵損失函數被用于優(yōu)化網絡模型.

針對重復計數任務,線性回歸函數被用來預測整數值的答案 δcount∈R1:

其中Wcount∈Rd×1,Wc∈R4d×d是不同的線性投影矩陣.在這類視頻問答任務中,均方誤差損失被用于優(yōu)化網絡模型.

3 實驗結果及分析

為了能夠客觀公正地評估本文的方法,我們選取了3 個現階段廣泛使用且極具挑戰(zhàn)性的視頻問答數據集進行了實驗測試.

3.1 數據集介紹

1)TG?F-QA[14].該數據集包含有16.5 萬個問題對,按照問題的獨特屬性將數據集劃分為4 類子任務:Repeating Action,Transition,Repeating counting,Frame QA.

2)MSVD-QA[15].該數據在1 970 個視頻片段中標注了5 萬個開放性視頻問題對,其中訓練集、驗證集、測試集中分別有3.09 萬、0.64 萬、1.3 萬個問題對,答案空間的長度為1 852.

3)MSRVTT-QA[16].該數據在10 萬個視頻片段中標注了24.3 萬個問題對,其中訓練集、驗證集、測試集中分別有15.8 萬、1.22 萬、7.28 萬個問題對,答案空間的長度為4 000.相較于前2 種視頻問答數據集,該數據集擁有10~30 s 的視頻序列,這使得視頻內的場景更加復雜,對數據融合與推理能力提出了更高的挑戰(zhàn).

3.2 實施細節(jié)

本文方法是基于Pytorch 深度學習框架實現.在實驗設置中,視頻片段數N=8,并在每個片段中采樣,T=16 幀表示該片段的內容,在每一幀圖像中提取K=10 個視覺目標特征.針對每一個問題,關鍵字數n=3.對于外觀特征、運動特征和目標特征,我們分別使 用了L=2,L=2,L=1 層 的KAFR 模 型.設置在每一個模塊內的多頭注意力網絡的頭數均為H=8,設置特征維度d=512.在訓練過程中,模型被訓練25 輪.Adam 優(yōu)化器被用來優(yōu)化模型參數,數據的批大小設置為32,學習率設置為0.5E-4.

3.3 評價標準

為了便于與現有方法進行比較,我們使用均方誤差(mean square error,MSE)對TG?F-QA 數據集中的Repeating counting 任務進行評估.MSE 值越小,性能越好.對于數據集的其他任務,采用準確率來評估模型的性能.準確率越高,性能越好.

3.4 消融實驗

為了驗證本文所做出的貢獻,我們在所提出的基于多模態(tài)知識主動學習的視頻問答方案上進行了廣泛的消融實驗,以驗證網絡結構及其模塊的合理性、顯性細節(jié)特征提取的有效性和超參數的合理性.

3.4.1 網絡結構及其模塊的合理性

在本文中,KAFR 模型按照視頻的層次結構如圖像、視頻片段等構建了不同層次的數據融合與推理計算網絡,以獲取分散在視頻內不同層次的濃縮視覺語義線索.為了驗證這種網絡結構的合理性,我們在MSRVTT-QA 和MSVD-QA 中比較了網絡結構對于性能的影響.從表1 可以看出,當使用單個KAFR模型時,算法的性能有明顯的下降.而多層次的網絡設計展現了優(yōu)異的問答性能,這展示了多層次結構網絡結構的優(yōu)越性.

Table 1 Verify the Rationality of the Network Structures and Their Modules表1 驗證網絡結構及其模塊的合理性 %

除此之外,本節(jié)還在每一個KAFR 模型中,嘗試引入主動學習和思維聚焦來幫助視頻問答模型應對先驗知識不足的問題,進一步深化模型對多模態(tài)信息的理解,并收集歸納與問題強相關的視覺語義線索.為了驗證該模型的有效性,我們在表1 進行了詳細的消融實驗.可以看出,KAFR 的所有模塊都很重要,刪除其中任何一個都會降低相應的性能.值得注意的是,傳統(tǒng)的數據融合與推理過程缺乏思維聚焦和主動學習,其性能明顯低于KAFR,這有力證明了KAFR 的優(yōu)越性,并支持了本文對于視頻問答存在先驗知識不足的猜想.同時,這也進一步表明在數據融合與推理過程中,增加主動學習能力和思維聚焦能力是提升問答性能和增強視頻理解能力的有效策略.此外,通過對邏輯思維過程順序的消融實驗結果分析可以發(fā)現,主動學習能夠為聚焦學習提供正確的多模態(tài)語義理解,指導思維聚焦過程,這進一步證實了本文所設計的數據融合與推理模型的合理性.

3.4.2 顯性細節(jié)特征提取有效性驗證

在本節(jié)中,顯性細節(jié)特征提取模塊提取了視覺目標、靜態(tài)和動作等多模態(tài)特征信息,以期望為視頻問答提供完整的視覺語義線索.為了驗證不同模態(tài)特征對性能的影響,本文比較了在MSRVTT-QA 和MSVDQA 中以不同模態(tài)信息作為輸入對性能的影響.從表2 可以看出,所提出的模型都能夠有效地對每一種模態(tài)信息進行數據融合和推理計算,證明了本文提出的顯性細節(jié)特征提取方法的有效性.同時,通過進一步比較可以發(fā)現,去掉視覺目標的對齊會導致性能下降,這也證明了本文提出的顯性視頻細節(jié)特征提取方法能夠有效地減少視覺目標混亂所造成的性能損失,完善視頻的特征表達,提高問答性能.

Table 2 Verify the Effectiveness of Explicit Detail Feature Extraction表2 驗證顯性細節(jié)特征提取的有效性 %

3.4.3 超參數合理性驗證

本節(jié)使用了K=10 個的視覺目標特征來描述視頻的細節(jié)信息.為了驗證這種設置的合理性,我們在MSVD-QA 數據集上比較了不同K值對性能和模型參數的影響.從圖3 中可以看出,性能與K值不存在正相關關系,并且在K=10 處獲取了最優(yōu)的問答性能.這是因為過多的目標采樣導致視頻細節(jié)冗余,影響了正常的數據融合與推理計算,從而降低了性能.同時,KAFR 與現階段流行的模型HCRN 的比較結果可以看出,KAFR 雖然參數增加了2×106,但性能提升明顯,這證明了KAFR 設計的合理性.

Fig.3 Verify the rationality of K value圖3 驗證K 值的合理性

除此之外,為了實現跨模態(tài)的語義融合,本文使用了大量的映射矩陣.為了驗證投影矩陣維度d=512的合理性,我們在MSVD-QA 比較了不同d值對性能和網絡參數的影響.結果如圖4 所示,d=512 時的問答性能優(yōu)于d=256 或(d=1 024)時的問答性能.這是由于高維度的特征投影(d=1 024)雖然有助于建立跨模態(tài)語義的穩(wěn)定映射關系,但是也帶來冗余的網絡參數,從而導致網絡難以收斂,影響了問答的性能.而低維度的特征映射(d=256)無法提供穩(wěn)定的語義的穩(wěn)定映射關系,影響了問答的性能.因此,我們所選取的投影矩陣參數設置是合理的.

Fig.4 Verify the rationality of d value圖4 驗證d 值的合理性

3.5 性能比較

為了更好地評估本文的工作,我們將本文提出的KAFR 與近幾年的算法進行比較.

1)L-GCN[19].該模型通過位置感知圖來構建視頻問答任務中檢測到的對象之間的關系,將對象的位置特征融入列圖和構建中.

2)HGA[21].該模型設計了一個深度異構圖對齊網絡,從表示、融合、對齊和推理4 個步驟來推斷答案.

3)HCRN[12].該模型是一種條件關系網絡,作為構建塊來構建更復雜的視頻表示和推理結構.

4)HOSTR[9].該模型是一種面向視頻內對象的視頻問答方法,利用位置信息對視頻內實體關系進行建模,獲取細粒度的時空表達和邏輯推理能力.

5)MASN[20].該模型是一種運動外觀協(xié)同網絡,以融合和創(chuàng)建運動外觀特征與靜態(tài)外觀特征之間的協(xié)同融合.

6)HRNAT[31].該模型是一個帶有輔助任務的分層表示網絡,用于學習多層次表示并獲得句法感知的視頻字幕.

7)DualVGR[11].該模型是一種用于視頻問答的雙視覺圖推理單元,該單元通過迭代堆疊來模擬視頻片段之間與問題相關的豐富時空交互.

8)PKOL[25].該模型是一種面向視頻問答的先驗知識探索和目標敏感學習方法,探索了先驗知識對數據融合與推理性能的影響.

9)ClipBERT[27].該模型是一種用于端到端的視頻問答框架,在訓練過程中使用圖像-文本的預訓練.

10)CoMVT[28].該模型是一種基于雙流多模態(tài)視頻transformer 的數據融合與推理框架,它能有效地聯合處理文本中的單詞和視覺對象,利用網絡中的在線教學視頻數據集進了預訓練.

KAFR 與多個視頻問答數據集上最先進的方法進行比較,結果如表3 所示.KAFA 在所有任務中都優(yōu)于現有未經預訓練的方法.具體來說,在Action,Transition,FrameQA,Count,MSVD-QA,MSRVTT-QA 測試中,相較于未經預訓練的模型,KAFR 分別提高了0.8%,2.7%,1.3%,0.04%,2.0%,1.8%.而相較于那些預訓練模型,KAFA 也能獲取與之相匹配的性能,甚至除MSRVTT-QA 測試之外,都有性能的提升.這說明KAFA 能夠獲取更為準確的視頻表達,而數據融合與推理模型能夠通過邏輯推理計算過程中的思維聚焦與主動學習,有效地完善了視頻問答系統(tǒng)的先驗知識,降低了對先驗知識的依賴,獲取了更為合理、充分的視覺語義線索和高性能的視頻問答能力.

Table 3 Comparison of Our Method with the Most Advanced Methods on Multiple Video Question Answering Datasets表3 本文方法與多個視頻問答數據集上最先進的方法的比較 %

3.6 結果可視化

為了更好地理解我們在數據融合與推理方面所做出的貢獻,本節(jié)在圖5 中給出了一些特征分布的可視化結果.從圖5(a)中可以看出,視覺特征與問題特征序列非均勻地分布在原始特征空間內,存在著明顯的語義鴻溝問題.而在圖5(b)中,視覺特征和問題特征通過時序表示學習與推理計算后,特征空間縮小了近50%,視覺特征與問題特征在空間中相互接近,但語義鴻溝依舊存在,多模態(tài)特征依舊分布在不同的子空間,阻礙了數據融合與推理的進行.在圖5(c)中,視覺特征與問題特征通過多模態(tài)表示再學習的自主學習過程后,補充后的子問題與填充后的視覺信息能夠彼此糾纏,分布于相同的語義空間內,有效克服了語義鴻溝的問題,為接下來的數據融合與推理計算提供了有利的條件.上述結果表明,KAFR能夠很好地利用已經掌握的視覺內容填補對多模態(tài)特征的深度理解,減小了語義鴻溝對跨模態(tài)數據融合與推理計算的影響,提升了模型的問答性能.

Fig.5 Visual t-SNE graph for multimodal embedding distribution圖5 用于多模態(tài)嵌入分布的可視化t-SNE 圖

接著,我們還給出了一些視頻問答預測結果的演示,如圖6 所示,包括3 個視頻問答問題.在圖6(a)中,KAFR 通過對視覺細節(jié)的特征提取與視覺目標的對齊,深入理解了視頻場景內所發(fā)生的故事情節(jié)“競爭(race)”,而缺少視覺目標對齊的結果只能淺顯地理解每個所做的動作“跑步(run)”.在圖6(b)中,缺少視覺目標對齊的結果缺少對視頻景深的理解,只能片面地理解2 維平面的“behind”,而將“l(fā)ady”也考慮在答案中.而通過視覺目標運動信息對靜態(tài)信息的糾正,修正了模型對于“l(fā)ady”位置的理解,使得KAFR 能夠準確預測出了答案“two”.在圖6(c)中,KAFR 只理解了由人、馬、植被和草地所組成的復雜場景,未能準確地識別出沙地和山峰等復雜要素,致使模型將深層次的復合場景語義“desert”被錯誤認定為了“yard”.

Fig.6 Video question answering result demonstration圖6 視頻問答結果演示

最后,還展示了思維聚焦的可視化演示結果,以2 個視頻問答問題為例,結果如圖7 所示.在圖7(a)中,缺少思維聚焦功能的注意力熱圖缺少焦點.但經過對關鍵信息“tears,piece,paper”的定位后,邏輯推理聚焦到與問題密切相關的橙色虛線標注視頻片段,準確地找出了包含正確答案的視覺線索,正確預測了答案“man”.而在圖7(b)中,KAFR 通過定位關鍵信息“woman,scoop,ice cream”,準確找出了與問題緊密相關的2 個紫色虛線標注視頻片段,正確預測了答案“two”.以上結果表明,KAFR 通過思維聚焦能夠縮小特征空間,減少需要理解的多模態(tài)信息,改善了對先驗知識的依賴,從而提高了算法的性能.

Fig.7 Visualization of the thinking focus process圖7 思維聚焦過程的可視化

4 總結

本文針對視頻問答任務中視頻細節(jié)提取不足和模型主動學習能力不足的問題,提出了一種基于多模態(tài)知識主動學習的視頻問答方案KAFR.在該方案中,顯性細節(jié)表達提取模塊首先通過將視頻的靜態(tài)細節(jié)表達推廣到動態(tài)細節(jié)描述,以防止由于視頻細節(jié)內容的缺失導致的錯誤因果關系,建立了更為準確的視頻模型.接著,KAFR 模型通過多模態(tài)信息深度理解的自我完善以及思維的聚焦,為數據融合與推理計算提供更準確和精煉的多模態(tài)特征表達.在多個公開視頻問答數據集上的實驗結果表明:顯性細節(jié)表達提取模塊能夠有效獲取視頻的細節(jié)表達和更為完整的視頻多模態(tài)表達.同時,帶有自主學習和思維聚焦能力的KAFR 模型能夠有效緩解特征提取階段先驗知識不足的問題,從而提高了模型的性能.

結合人工智能技術的視頻問答研究不僅具有重要的理論研究意義,更重要的是具有廣泛的應用價值.通過視頻問答技術與機器人技術的結合,未來機器人將能夠更好地理解人類的語言和意圖,并通過觀察和分析視頻內容來獲取更多的環(huán)境信息,在我們的日常生活中發(fā)揮更加重要的作用.特別是在未來的數字家庭和智慧社區(qū)中,這些配備視頻問答技術的機器人將成為我們生活中的智能伙伴,提供個性化、便捷和智能化的服務和支持.

作者貢獻聲明:劉明陽提出算法思路,完成實驗并撰寫論文;王若梅提出指導意見;周凡參與論文校對和實驗方案指導;林格提出指導意見和審核論文.

猜你喜歡
特征提取語義模態(tài)
語言與語義
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
“上”與“下”語義的不對稱性及其認知闡釋
國內多模態(tài)教學研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
認知范疇模糊與語義模糊
基于MED和循環(huán)域解調的多故障特征提取
由單個模態(tài)構造對稱簡支梁的抗彎剛度
語義分析與漢俄副名組合