段毛毛,連培榆,史海濤
(中國石油大學(xué)(北京)克拉瑪依校區(qū) 石油學(xué)院,新疆 克拉瑪依 834000)
日常生活中,人類無時(shí)無刻處于視音場所中。但在復(fù)雜的視音場景下,跨視音視圖關(guān)聯(lián)對(duì)象或聲音事件,其中大多數(shù)仍然僅具有有限的跨模態(tài)推理能力。因此,整合多模態(tài)信息以獲得類人的客觀場景感知和理解能力是一個(gè)有趣而有價(jià)值的研究課題。
近年來,深度學(xué)習(xí)的逐步發(fā)展使其被應(yīng)用于多模態(tài)特征融合。深度學(xué)習(xí)模型可以處理高維復(fù)雜的多模態(tài)信息,而多模態(tài)深度學(xué)習(xí)具有在人類層面處理多模態(tài)數(shù)據(jù)的潛力。
早期的問答任務(wù)主要以自然語言的形式進(jìn)行提問和回答,后來隨著人工智能、深度學(xué)習(xí)、多模態(tài)等技術(shù)發(fā)展逐漸演變?yōu)槲淖?、圖片、音頻、視頻等多種模態(tài)間信息查詢的廣義問答系統(tǒng)。
Heeseung Yun等人[1]提出了一種新的基于360度空間和視音問答的基準(zhǔn)任務(wù),結(jié)果表明球形空間嵌入和多模態(tài)訓(xùn)練目標(biāo)有助于更好地理解數(shù)據(jù)集上的全景環(huán)境,正確率達(dá)到68.93%。Jing L等人提出的自監(jiān)督[2]學(xué)習(xí)方法為多模態(tài)視音場景分析模型的建立提供了新的思路,通過將視頻信號(hào)中的視音信息進(jìn)行融合,成功地解決了視音信息能否在同一時(shí)間上[3]的問題。Hori等人[4]提出了一種對(duì)話問答系統(tǒng),使用注意力機(jī)制對(duì)視音場景進(jìn)行感知。Li Guangyao等人[5]提出了基于動(dòng)態(tài)視音場景下的問答模型,正確率達(dá)到了71.5%。
視音問答模型仍存在以下問題:(1)一些與問題無關(guān)的視覺物體或聲源均參與單模態(tài)編碼,需尋找更適合后續(xù)融合的特征提取方式。(2)在融合學(xué)習(xí)的過程中,需尋找其他多模態(tài)融合方式,以提高模態(tài)間的互補(bǔ)性,進(jìn)而提高問答模型的正確率。
為解決上述問題,該文通過分析現(xiàn)有視音問答模型得知文本所含信息量最大,因此先對(duì)視頻和音頻信息進(jìn)行融合獲得更多信息以支撐文本特征信息。首先,分別使用Resnet_18,VGGish和Bi-LST對(duì)音頻、視頻和文字進(jìn)行單模態(tài)特征提取;然后,通過空間融合模塊對(duì)視頻和音頻特征進(jìn)行融合,將復(fù)雜的場景分解為具體的視音關(guān)聯(lián);最后,通過聯(lián)合注意力機(jī)制對(duì)文字、視頻和音頻進(jìn)行混合學(xué)習(xí),實(shí)現(xiàn)視頻特征、音頻特征和文字特征的融合,增強(qiáng)三種模態(tài)之間的關(guān)聯(lián)關(guān)系?;诼?lián)合注意力建立空間時(shí)序模型,進(jìn)一步提高了動(dòng)態(tài)視音場景下問答的準(zhǔn)確率,提升了模型場景感知和時(shí)空推理能力。
對(duì)多模態(tài)問題進(jìn)行深入研究,充分利用多種模態(tài)之間的互補(bǔ)性和冗余性,是推動(dòng)人工智能更好地了解和認(rèn)知周圍世界的關(guān)鍵。多模態(tài)學(xué)習(xí)中的兩個(gè)重點(diǎn)問題是多模態(tài)數(shù)據(jù)的異質(zhì)性差距[6]和模態(tài)間的信息融合[7]。在研究多模態(tài)問題時(shí),如何充分挖掘模態(tài)之間的信息和消除數(shù)據(jù)異構(gòu),一直是多模態(tài)任務(wù)的主要挑戰(zhàn)[8]。
在多模態(tài)問答任務(wù)中主要以視頻問答(Video Question Answer)[9]和視覺問答(Visual Question Answer)[10]為主,視頻問答早于視覺問答。視頻問答根據(jù)序列的圖像信息和時(shí)間線索,針對(duì)不同問題提取不同數(shù)量的幀求取答案,多采用融入注意力機(jī)制[11-12]和融入記憶網(wǎng)絡(luò)的思路構(gòu)建問答模型[13-14]。視覺問答基本分為聯(lián)合嵌入、注意力機(jī)制、神經(jīng)網(wǎng)絡(luò)架構(gòu)和知識(shí)庫增強(qiáng)[15],以一幅圖像和一個(gè)問題作為輸入,通過對(duì)多模態(tài)信息進(jìn)行融合與推理,以自然語言的形式給出問題的答案[16]。
在視音場景的研究中,合適的多模態(tài)融合方式尤為重要。曲志等人[17]提出了一項(xiàng)裂紋檢測方法,使用多尺度卷積特征融合模塊進(jìn)行裂紋信息提取實(shí)現(xiàn)特征的全面融合。李釗[18]提出一項(xiàng)基于深度學(xué)習(xí)的跨模態(tài)檢索方法,實(shí)現(xiàn)更好的跨模態(tài)相似度度量。Fu等人[19]提出了一種基于雙注意網(wǎng)絡(luò)場景分割結(jié)果,該方法將局部特征與其全局依賴性相結(jié)合,并且可以捕獲豐富的上下文信息。Peng等人[20]提出了一種基于注意力引導(dǎo)的多視圖融合網(wǎng)絡(luò)來解決三維物體識(shí)別問題,可以在更為復(fù)雜的場景下取得更好的效果。
注意力機(jī)制在多模態(tài)融合任務(wù)中也展現(xiàn)出了其重要性。Schwartz等人[21]提出的高階注意力模型是一種將文本、圖像和文本答案三種不同的模態(tài)信息進(jìn)行多模態(tài)融合的模型,得到更準(zhǔn)確的答案。Chen等人[22]提出了一種條件注意力融合策略在連續(xù)維度情緒預(yù)測中的應(yīng)用,提高預(yù)測的準(zhǔn)確性和可靠性。Li等人[23]提出了一種針對(duì)多模型多標(biāo)簽分類任務(wù)的通用策略,通過選擇更好的特征組合來實(shí)現(xiàn)更精確的分類。楊清溪等人[24]提出了一種基于注意力機(jī)制的場景識(shí)別模型,大大提高了場景識(shí)別的準(zhǔn)確度。該文亦將采用注意力機(jī)制實(shí)現(xiàn)各模態(tài)特征的提取與融合。
模型使用補(bǔ)充約束的特征來應(yīng)對(duì)單模態(tài)數(shù)據(jù)不足,同時(shí)采用多模態(tài)聯(lián)合表示的思想,使得不同模態(tài)信息相互補(bǔ)充、相互學(xué)習(xí)、相互制約。通過拼接和矩陣點(diǎn)乘法將三個(gè)模態(tài)特征混合為一個(gè)特征,建立視音字空間時(shí)序模型。
注意力機(jī)制能夠?qū)斎霐?shù)據(jù)的每個(gè)部分提供不同的權(quán)重信息,從而抽取出重要關(guān)鍵的特征信息,使得模型獲得更加準(zhǔn)確的捕捉判斷。該文所提出的基于聯(lián)合注意力機(jī)制的視音場景下的問答模型結(jié)構(gòu)如圖1所示。模型主要包括三個(gè)組成部分:
圖1 整體結(jié)構(gòu)
(1)視音字單模塊:含視頻模塊、音頻模塊、和文字模塊,分別采用適合各個(gè)模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)視頻、音頻、文字三種模態(tài)數(shù)據(jù)進(jìn)行特征提取,以便后續(xù)進(jìn)行融合學(xué)習(xí)。
(2)空間融合模塊:采用多模態(tài)聯(lián)合表示的思想,使用矩陣叉乘法對(duì)視頻特征和音頻特征進(jìn)行融合學(xué)習(xí)得到混合特征,完成視音融合,建立空間模型。
(3)空間時(shí)序融合模塊:采用一種新的多模態(tài)協(xié)同表示方法,通過聯(lián)合注意力機(jī)制對(duì)文字、視頻和音頻進(jìn)行混合學(xué)習(xí),實(shí)現(xiàn)視頻特征、音頻特征和文字特征的融合。
視頻模塊、音頻模塊和文字模塊分別選用視頻、音頻和文字嵌入向量作為各自模塊分支的輸出數(shù)據(jù),并將其作為空間融合模塊中視頻分支的輸入數(shù)據(jù)。
視頻模塊使用Resnet_18進(jìn)行視頻特征提取。為了保持所有視頻的信息完整,對(duì)所有視頻片段采樣固定數(shù)量的幀。
Resnet_18的具體結(jié)構(gòu)如圖2所示,包含17個(gè)卷積層和1個(gè)全連接層,使用兩種不同大小的卷積核(7×7和3×3)提取視頻圖像特征。在卷積層中,采用了非線性的Relu激活函數(shù),最終輸出的數(shù)據(jù)維度設(shè)置為320,512,14,14。視頻特征提取的具體步驟如下:
圖2 Resnet_18結(jié)構(gòu)
(1)提取全局特征:使用7×7卷積核提取特征后,采用最大池化層降維。
(2)提取細(xì)節(jié)特征:使用3×3卷積核提取特征后,為獲得更完整的圖像信息加入平均池化層。
音頻模塊使用VGGish進(jìn)行音頻特征提取,對(duì)每個(gè)音頻片段進(jìn)行編碼,為音頻信息賦予語義信息。VGGish的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 VGGish結(jié)構(gòu)
VGGish由四個(gè)卷積層、四個(gè)池化層和一個(gè)全連接層組成,卷積核大小為3×3,池化層選擇最大池化法,卷積層采用了非線性激活函數(shù)Relu,方便進(jìn)行卷積處理,最終輸出的數(shù)據(jù)維度為64,10,512。音頻特征提取的具體步驟如下:
(1)將數(shù)據(jù)重塑為4維,便于進(jìn)行卷積運(yùn)算。
(2)使用3×3卷積核和最大池化層得到音頻特征。
文字模塊使用Bi-LSTM進(jìn)行文字特征提取,對(duì)文字特征進(jìn)行更細(xì)粒度的分類。該文對(duì)每個(gè)問答對(duì)進(jìn)行詞嵌入,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 Bi-LSTM結(jié)構(gòu)
該模塊中Bi-LSTM模型由兩層雙向LSTM和一個(gè)全連接層組成,詞嵌入后先選用非線性激活函數(shù)Tanh激活函數(shù),再通過含有一個(gè)隱藏層的Bi-LSTM提取文字特征,最終輸出數(shù)據(jù)維度為64,512。
聲音及其視源的位置能夠反映視音模態(tài)之間的空間關(guān)聯(lián),因此引入基于聲源定位的空間融合模型,將復(fù)雜的場景分解為具體的視音關(guān)聯(lián)[5]。具體模型結(jié)構(gòu)如圖5所示。
圖5 空間融合網(wǎng)絡(luò)結(jié)構(gòu)
該模塊具體處理步驟如下:
(1)為了方便后續(xù)的聯(lián)合表示,先使用線性變換將之前得到的配對(duì)視頻音頻特征轉(zhuǎn)換為512,512。
(2)為了防止視頻信息丟失,先對(duì)視頻特征進(jìn)行平均池化,得到全局視頻特征。
(3)將視頻特征和音頻特征進(jìn)行歸一化處理后進(jìn)行矩陣叉乘,使用softmax激活函數(shù)再與音頻特征進(jìn)行矩陣叉乘,得到混合視頻特征維度為512,512。
(4)拼接兩個(gè)視頻特征,得到最終混合的視頻特征1,建立空間模型。
為了突出與問題密切相關(guān)的關(guān)鍵時(shí)間戳,使用聯(lián)合注意力機(jī)制進(jìn)行視聽特征與文字特征的協(xié)同表示。首先加入relu激活函數(shù)和dropout層,得到關(guān)鍵時(shí)間戳下的視聽特征;然后拼接視聽特征,將其聯(lián)合表示為一個(gè)混合特征,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 空間時(shí)序融合結(jié)構(gòu)
空間時(shí)序融合模塊數(shù)據(jù)處理步驟如下:
(1)以文字特征為查詢增強(qiáng)關(guān)鍵時(shí)間戳下的視頻特征1,得到視頻特征2。
(2)以文字特征為查詢增強(qiáng)關(guān)鍵時(shí)間戳下的音頻特征,得到音頻特征1。
(3)以文字特征為查詢,以音頻特征1為鍵值,增強(qiáng)關(guān)鍵時(shí)間戳下視頻特征2中與音頻相關(guān)的信息,得到視頻特征3。
(4)以文字特征為查詢,以視頻特征3為鍵值,增強(qiáng)關(guān)鍵時(shí)間戳下音頻特征1中與視頻相關(guān)的信息,得到音頻特征2。
(5)將協(xié)同表示后的視頻特征3和音頻特征2進(jìn)行歸一化處理,再與空間融合后的視頻特征1和音頻特征相加,以防止信息丟失。
(6)將視頻特征3和音頻特征2進(jìn)行拼接,再與文字特征點(diǎn)乘得到聯(lián)合表示的混合特征1。
(7)以文字特征為查詢增強(qiáng)混合特征中的文字信息,得到混合特征2。
該文采用兩階段訓(xùn)練策略,先建立空間模型,損失函數(shù)使用交叉熵?fù)p失函數(shù)Ls,公式如下:
(1)
其中,pi為真實(shí)值,qi為預(yù)測值。
第二階段建立空間時(shí)序模型,損失函數(shù)L的計(jì)算公式如下:
L=Lqa+0.5Ls
(2)
其中,Ls為第一階段的交叉熵?fù)p失,Lqa為第二階段的交叉熵?fù)p失。
實(shí)驗(yàn)采用了Pytorch框架,具體實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境
MUSIC-AVQA(Spatial-Temporal Music AVQA)大規(guī)模視聽數(shù)據(jù)集總計(jì)包含9 288個(gè)演奏視頻,真實(shí)視頻和合成視頻分別占79.9%和20.1%。其中,真實(shí)視頻由14.8%的單人視頻、71.7%的二重唱視頻和13.5%的其他合奏視頻組成。數(shù)據(jù)集涵蓋22種不同樂器(如吉他、鋼琴、二胡、嗩吶等),總時(shí)長超過150小時(shí)。
此外,MUSIC-AVQA具有45 867個(gè)問答對(duì),平均每個(gè)視頻約5個(gè)問答對(duì),這些問答對(duì)涵蓋了3種不同場景(聲音(Audio)、視覺(Visual)和視音(Audio-Visual))下的9類問題類型(以存在Existential、計(jì)數(shù)Counting、位置Location、比較Comparative和事件Temporal為主)以及33個(gè)不同的問題模板。3種場景及對(duì)應(yīng)的問題類型如表2所示。
表2 MUSIC-AVQA數(shù)據(jù)集問答對(duì)類型劃分
將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集,分別包含32 087,4 595和9 185對(duì)問答對(duì)。在特征提取前,對(duì)每段視頻中的聲音和視頻幀進(jìn)行采樣,采樣率分別為16 kHz和1 fps,將其分為長度相等、互不重疊的1幀視頻段。此外,使用6 s取1 s的方式對(duì)視頻進(jìn)行采樣,使用normalize函數(shù)對(duì)圖像進(jìn)行標(biāo)準(zhǔn)化。
(1)音頻特征提?。簩⒁纛l文件載入VGGish網(wǎng)絡(luò),得到64,10,512維音頻特征,完成音頻嵌入。
(2)視頻特征提?。簩⒁曨l文件載入Resnet_18網(wǎng)絡(luò),先得到16,20,3,244,244維特征,后重組維度為320,512,14,14,以便后續(xù)統(tǒng)一為512-特征。
(3)文字特征提?。簩柎饘?duì)文件載入Bi-LSTM網(wǎng)絡(luò),先得到64,512維特征,完成詞嵌入,后通過詞特征組成問答對(duì)特征,完成問答嵌入。
(4)建立空間融合模型:構(gòu)建空間融合模型網(wǎng)絡(luò)結(jié)構(gòu),將視頻特征和音頻特征調(diào)整為相同維度,訓(xùn)練得到維度512,512混合特征。
(5)建立空間時(shí)序模型:構(gòu)建空間時(shí)序模型網(wǎng)絡(luò)結(jié)構(gòu),設(shè)置批大小和輪次分別為64和30。學(xué)習(xí)率初始為e-4,每訓(xùn)練十輪乘0.1,學(xué)習(xí)率下降,使用Adam優(yōu)化器,得到最終的混合特征,完成模型建立。
使用答案預(yù)測精度作為度量標(biāo)準(zhǔn),評(píng)估模型在回答不同類型問題時(shí)的表現(xiàn)。答案詞匯表由42個(gè)可能的答案(22個(gè)對(duì)象,12個(gè)計(jì)數(shù)選擇,6個(gè)未知類型,是/否)組成,用于回答數(shù)據(jù)集中不同類型的問題。
評(píng)估測試步驟具體如下:
(1)在每輪訓(xùn)練完畢進(jìn)行模型評(píng)估,對(duì)評(píng)估集中的問題進(jìn)行預(yù)測,得到評(píng)估結(jié)果。
(2)在完成所有訓(xùn)練后進(jìn)行模型測試,對(duì)測試集中的問題進(jìn)行預(yù)測,得到測試結(jié)果。
(3)設(shè)置基線。在相同環(huán)境下訓(xùn)練MUSIC-AVQA的網(wǎng)絡(luò)結(jié)構(gòu)并評(píng)估測試,以便與文中模型進(jìn)行比對(duì)。
如表3所示,實(shí)驗(yàn)結(jié)果表明V+Q比A+Q效果更好,表明視頻特征是問答模型中的強(qiáng)信號(hào)。加入視音字空間時(shí)序融合模塊(CTG)后,雖然獨(dú)立的音頻問答和視頻問答準(zhǔn)確率稍差,但是視音問答的準(zhǔn)確率最佳,證明了視音字空間時(shí)序融合模塊的有效性。
表3 不同模態(tài)與不同模塊消融研究
(Q:問答文字,A:音頻模態(tài),V:視頻模態(tài),AV:視音模態(tài),TG:時(shí)序融合模塊,SG:空間融合模塊,CTG:視音字空間時(shí)序融合模塊)
為了驗(yàn)證模型的有效性,分別從聲音問答、視覺問答和視音問答出發(fā),對(duì)比了各種方法在計(jì)數(shù)、比較或空間等類型問題回答的準(zhǔn)確率,結(jié)果如表4所示。其中文獻(xiàn)[5]為MUSIC-AVQA數(shù)據(jù)集官方空間時(shí)序問答模型。進(jìn)一步優(yōu)化官方模型,該文在文本特征融入后,加入關(guān)鍵時(shí)間戳下的視頻和音頻特征的輔助學(xué)習(xí),從而提高三種模態(tài)之間的關(guān)聯(lián)程度。
表4 問答方法對(duì)比
實(shí)驗(yàn)結(jié)果表明,文中方法的性能在音頻問答和視頻問答上相比文獻(xiàn)[5]的略次,但在視音問答上,除存在類問題準(zhǔn)確率較差,其余類型問題的準(zhǔn)確率均高,視音問答的平均準(zhǔn)確率達(dá)73.67%,為最佳。
該文建立的空間時(shí)序模型更有效地互補(bǔ)了單個(gè)模態(tài)的信息缺失,加強(qiáng)了通過問題查找關(guān)鍵圖像和聲音能力,從而增強(qiáng)了模型的時(shí)空推理的能力,提升了視音問答的準(zhǔn)確率。然而由于模型過于關(guān)注三種模態(tài)的關(guān)聯(lián)關(guān)系,對(duì)于不需要三種模態(tài)的問答增加了干擾信息,導(dǎo)致單模態(tài)音頻問答和視頻問答準(zhǔn)確率降低,仍需進(jìn)一步完善。
該文主要使用聯(lián)合注意力機(jī)制對(duì)多模態(tài)信息進(jìn)行融合,建立動(dòng)態(tài)視音場景下的空間時(shí)序問答模型。實(shí)驗(yàn)結(jié)果表明該模型性能較好,有助于視音問答的準(zhǔn)確率。文中工作存在以下缺陷和改進(jìn)空間:
(1)實(shí)驗(yàn)僅使用MUSIC-AVQA數(shù)據(jù)集,在其它數(shù)據(jù)集和場景上的應(yīng)用效果不得而知,需增加數(shù)據(jù)集測試以驗(yàn)證模型的性能。
(2)單模態(tài)特征提取方式有待改進(jìn),后期可以選取更匹配的特征提取方式來進(jìn)行特征提取,以提高后續(xù)多模態(tài)特征融合的效率。
(3)使用聯(lián)合注意力機(jī)制進(jìn)行多模態(tài)特征融合,后續(xù)可以改進(jìn)多模態(tài)融合方式,進(jìn)一步提高多模態(tài)視頻問答任務(wù)的性能。另外,選用集成模型策略也可作為該模型的一個(gè)發(fā)展方向,以進(jìn)一步提高性能并拓展應(yīng)用范圍。