梁麗麗 劉昕雨 孫廣路 朱素霞
摘要:視頻問(wèn)答(VideoQA)任務(wù)需要理解視頻和問(wèn)題中的語(yǔ)義信息生成答案。目前,基于注意力模型的VideoQA方法很難完全理解和準(zhǔn)確定位與問(wèn)題相關(guān)的視頻信息。為解決上述問(wèn)題,提出一種基于注意力機(jī)制的多階段注意力模型網(wǎng)絡(luò)(MSAMN)。該網(wǎng)絡(luò)將視頻、音頻以及文本等多模態(tài)特征輸入到多階段注意力模型(MSAM)中,通過(guò)逐階段的定位方式精準(zhǔn)找到與回答問(wèn)題相關(guān)的視頻信息,用于答案生成。為了提高特征融合的有效性,提出一種三模態(tài)壓縮級(jí)聯(lián)雙線性(TCCB)算法計(jì)算不同模態(tài)特征之間的相關(guān)性。MASMN在ZJL數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),平均準(zhǔn)確率均為54.3%,比傳統(tǒng)方法提高了近15%,比現(xiàn)有方法提高了近7%。
關(guān)鍵詞:視頻問(wèn)答;多階段注意力模型;多模態(tài)特征融合
DOI:10.15938/j.jhust.2022.04.014
中圖分類(lèi)號(hào): TP391.3
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2022)04-0107-11
MSAM:Video Question Answering Based
on Multi-Stage Attention Model
LIANG Li-li,LIU Xin-yu,SUN Guang-lu,ZHU Su-xia
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)
Abstract:The video question answering (VideoQA) task requires understanding of semantic information of both the video and question to generate the answer.?At present, it is difficult for VideoQA methods that are based on attention model to fully understand and accurately locate video information related to the question.?To solve this problem, a multi-stage attention model network (MSAMN) is proposed.?This network extracts multi-modal features such as video, audio and text and feeds these features into the multi-stage attention model (MSAM), which is able to accurately locate the video information through a stage-by-stage localization method.?In order to improve the effectiveness of feature fusion, a triple-modal compact concat bilinear (TCCB) algorithm is proposed to calculate the correlation between different modal features.?This network is tested on the ZJL dataset.?The average accuracy rate is 54.3%, which is nearly 15% higher than the traditional method and nearly 7% higher than the exist method.
Keywords:video question answering; multi-stage attention model; multi-modal feature fusion
0引言
近年來(lái),由于視頻問(wèn)答任務(wù)具有較強(qiáng)的應(yīng)用價(jià)值,現(xiàn)已成為計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域的研究熱點(diǎn),該任務(wù)是對(duì)視頻內(nèi)容和問(wèn)題進(jìn)行理解,生成一個(gè)符合邏輯的答案[1]?,F(xiàn)有視頻問(wèn)答方法分為以下4個(gè)類(lèi)別[2]:編碼器-解碼器、注意力模型、記憶網(wǎng)絡(luò)模型和其他方法。
現(xiàn)階段大多數(shù)方法利用注意力機(jī)制思想來(lái)解決視頻問(wèn)答任務(wù)。注意力模型計(jì)算問(wèn)題與視頻之間的語(yǔ)義相似性,為與問(wèn)題相關(guān)的視頻分配更高的權(quán)重得分。但現(xiàn)有的基于注意力模型的視頻問(wèn)答方法存在兩個(gè)方面的不足:①難以有效地理解復(fù)雜的視頻信息?,F(xiàn)有方法未能充分利用視頻中豐富的模態(tài)信息,且未能選擇有代表性的模態(tài)信息作進(jìn)一步的分析和推理;②難以準(zhǔn)確地定位與問(wèn)題相關(guān)的視頻信息?,F(xiàn)有方法未能動(dòng)態(tài)地理解問(wèn)題和視頻的語(yǔ)義信息,且未能精準(zhǔn)定位到與問(wèn)題相關(guān)的視頻信息。
針對(duì)上述問(wèn)題,本文提出了一種多階段注意力模型(multi-stage attention model, MSAM)用來(lái)精準(zhǔn)定位與問(wèn)題相關(guān)的視頻特征。MSAM共分為3個(gè)階段且每個(gè)階段所關(guān)注的對(duì)象有所側(cè)重:第1階段注意力模型是在視頻序列中找到與問(wèn)題相關(guān)的關(guān)鍵通道。第2階段注意力模型是在第1個(gè)階段的基礎(chǔ)上,從關(guān)鍵通道中找到與問(wèn)題相關(guān)的關(guān)鍵區(qū)域,實(shí)現(xiàn)進(jìn)一步的精準(zhǔn)定位。第3階段注意力模型在第1階段的基礎(chǔ)上對(duì)融合的視頻表示進(jìn)行關(guān)注,通過(guò)多個(gè)特征協(xié)同合作來(lái)理解問(wèn)題,從而得到與問(wèn)題相關(guān)的視頻表示?;贛SAM的提出,因此構(gòu)建了多階段注意力模型網(wǎng)絡(luò)(multi-stage attention model network,MSAMN)來(lái)解決視頻問(wèn)答任務(wù)。實(shí)驗(yàn)表明本文提出的方法在視頻問(wèn)答任務(wù)中的分類(lèi)準(zhǔn)確率有明顯提高,同時(shí)提出的MSAMN具有較好的泛化性能。
本文的主要貢獻(xiàn)如下:①提出了一種多階段注意力模型,該模型以逐階段的定位方式精準(zhǔn)地找到與問(wèn)題相關(guān)的視頻信息;
②提出了一種三模態(tài)壓縮級(jí)聯(lián)雙線性模型,該模型充分利用多種模態(tài)特征之間的相關(guān)性來(lái)實(shí)現(xiàn)更有效的多模態(tài)特征融合;
③提出了一種基于高復(fù)用性的問(wèn)題特征提取模型,該模型既考慮了細(xì)粒度的過(guò)濾停用詞后的單詞特征,又考慮了粗粒度的問(wèn)題特征。
本文內(nèi)容安排如下:第二章介紹了與MSAMN方法相關(guān)的研究工作;第三章描述了MSAMN的整體框架圖;第四章詳細(xì)介紹了視頻的幀特征、剪輯特征和音頻特征,以及問(wèn)題的文本特征的特征提取方法,然后詳細(xì)地闡述了多階段注意力模型和三模態(tài)壓縮級(jí)聯(lián)雙線性算法;第五章進(jìn)行了大量的實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了整理和分析。
1相關(guān)工作
目前國(guó)內(nèi)外學(xué)者對(duì)視頻問(wèn)答任務(wù)已經(jīng)進(jìn)行了大量的研究,實(shí)驗(yàn)表明將注意力模型應(yīng)用到視頻問(wèn)答任務(wù)中可以顯著提高模型的準(zhǔn)確率。文[3]提出了一種基于屬性增強(qiáng)的注意力網(wǎng)絡(luò)模型,該模型通過(guò)屬性增強(qiáng)表示獲得視頻每一幀在時(shí)間維度上的權(quán)重得分,進(jìn)而計(jì)算屬性和視頻之間的相似性。但這種模型只關(guān)注視頻的靜態(tài)特性,而忽略了視頻的動(dòng)態(tài)特性,隨后研究學(xué)者意識(shí)到視頻與圖像的不同之處在于視頻特征具有時(shí)序性以及大量的動(dòng)態(tài)特性。因此文[4]提出了一種空間-時(shí)間推理模型,該模型利用3D 卷積網(wǎng)絡(luò)提取視頻的剪輯特征,再利用空間注意力模型和時(shí)間注意力模型分別關(guān)注視頻區(qū)域和視頻幀。文[5]提出了一種基于雙層注意力模型(DLAN)的網(wǎng)絡(luò),它利用問(wèn)題中的單詞來(lái)對(duì)視頻中的幀和片段進(jìn)行關(guān)注以找出關(guān)鍵區(qū)域,根據(jù)生成問(wèn)題-導(dǎo)向視頻表示來(lái)生成答案。文[6]提出了一種基于運(yùn)動(dòng)外觀的協(xié)同記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)利用運(yùn)動(dòng)線索產(chǎn)生外觀注意力并利用外觀線索產(chǎn)生運(yùn)動(dòng)注意力,結(jié)合運(yùn)動(dòng)-外觀協(xié)同記憶注意力用于生成答案。上述研究均利用C3D[7]來(lái)提取視頻中的時(shí)序特征,但由于C3D對(duì)視頻上下文剪輯片段的訪問(wèn)受限,只能對(duì)單個(gè)剪輯片段進(jìn)行特征提取,因此對(duì)于行為、狀態(tài)轉(zhuǎn)換、計(jì)數(shù)等問(wèn)題,模型生成的答案準(zhǔn)確率不高。
此外,一些研究學(xué)者認(rèn)為模型生成答案準(zhǔn)確率不高的原因在于視頻問(wèn)答任務(wù)是多模態(tài)的深度學(xué)習(xí)任務(wù)[8],其中各個(gè)模態(tài)之間的表示、傳譯、對(duì)齊和融合的過(guò)程中可能會(huì)出現(xiàn)問(wèn)題。因此文[9]提出了一種基于聯(lián)合序列的融合模型(JSFusion),該模型能夠測(cè)量多模態(tài)序列數(shù)據(jù)對(duì)之間的語(yǔ)義相似性,并通過(guò)引入注意力模型,采用一種自下而上的方法來(lái)遞歸地匹配序列數(shù)據(jù)。文[1]提出了一種多粒度關(guān)注網(wǎng)絡(luò)(MGTA-Net),該網(wǎng)絡(luò)利用時(shí)間協(xié)同關(guān)注模型可以得到多級(jí)視頻表示,并將多級(jí)視頻表示與問(wèn)題特征相結(jié)合形成多粒度表示,用于答案生成。文[10]提出了一種基于樹(shù)-結(jié)構(gòu)的記憶網(wǎng)絡(luò)(HTreeMN),該網(wǎng)絡(luò)根據(jù)問(wèn)題的詞匯構(gòu)建語(yǔ)義樹(shù),其中語(yǔ)義樹(shù)具有層次結(jié)構(gòu),并且可以自然而然地將分層的注意力機(jī)制添加到樹(shù)中,然后對(duì)葉子結(jié)點(diǎn),非葉子結(jié)點(diǎn)和根結(jié)點(diǎn)分別進(jìn)行注意力關(guān)注。但是上述方法仍存在對(duì)視頻理解能力較差、與問(wèn)題相關(guān)的視頻信息定位不準(zhǔn)確等問(wèn)題,因此,本文提出一種基于多階段注意力模型網(wǎng)絡(luò)方法用于解決視頻問(wèn)答任務(wù)。
2模型整體框架
MSAMN框架圖由多模態(tài)特征提取、MSAM和答案生成3個(gè)模塊組成,MSAMN的具體流程如圖1所示。多模態(tài)特征提取模塊主要是從視頻中提取幀特征、剪輯特征和音頻特征,從問(wèn)題中提取文本特征。在視頻特征提取方面,本文利用殘差神經(jīng)網(wǎng)絡(luò)ResNet[12]提取幀特征和音頻特征,利用時(shí)域分段網(wǎng)絡(luò)TSN[13]提取剪輯特征。在問(wèn)題特征提取方面,首先利用NLTK對(duì)問(wèn)題執(zhí)行停用詞的過(guò)濾操作,然后采用LSTM[14]對(duì)其進(jìn)行編碼,得到問(wèn)題特征。MSAM模塊主要分為以下3個(gè)階段:第1階段是對(duì)視頻序列進(jìn)行注意力關(guān)注,該階段選擇與問(wèn)題匹配得分最高的關(guān)鍵通道(關(guān)鍵幀/關(guān)鍵剪輯/關(guān)鍵音頻)來(lái)進(jìn)行第2階段關(guān)注。第2階段是對(duì)第1階段得到的關(guān)鍵通道進(jìn)行多步迭代關(guān)注,以逐步精準(zhǔn)定位與問(wèn)題相關(guān)的關(guān)鍵區(qū)域。第3階段在第1階段的基礎(chǔ)上對(duì)融合的視頻表示進(jìn)行關(guān)注,通過(guò)多個(gè)特征協(xié)同合作來(lái)理解問(wèn)題,從而得到與問(wèn)題相關(guān)的視頻表示。答案生成模塊融合多個(gè)階段的有效信息,用于生成答案。
3方法
針對(duì)視頻問(wèn)答任務(wù)而言,理解視頻內(nèi)容的主要困難在于視頻中包含大量視頻且某些事件持續(xù)時(shí)間較長(zhǎng),比如計(jì)數(shù)問(wèn)題:整段視頻中總計(jì)出現(xiàn)的人數(shù)?那么視頻問(wèn)答模型回答此類(lèi)問(wèn)題時(shí),首先需要在大量冗余信息中查找與問(wèn)題相關(guān)的視頻信息,然后再根據(jù)問(wèn)題在相關(guān)視頻信息中逐步精確地定位視頻信息來(lái)回答問(wèn)題,從而保證模型生成答案的準(zhǔn)確性。
3.1多模態(tài)特征提取
3.2多階段注意力模型
3.2.1第1階段注意力模型
3.2.2第2階段注意力模型
3.2.3第3階段注意力模型
3.3答案生成
4實(shí)驗(yàn)與分析
4.1數(shù)據(jù)集介紹
4.2數(shù)據(jù)準(zhǔn)備
4.3實(shí)驗(yàn)設(shè)置
4.4評(píng)價(jià)標(biāo)準(zhǔn)
4.5實(shí)驗(yàn)對(duì)比與實(shí)驗(yàn)結(jié)果分析
4.6消融研究
4.6.1評(píng)估各模態(tài)通道組合的有效性
4.6.2評(píng)估各階段注意力模型的有效性
4.6.3評(píng)估TCCB融合模型的有效性
5結(jié)語(yǔ)
針對(duì)視頻問(wèn)答任務(wù),本文提出一種多階段注意力模型以逐階段的定位方式精準(zhǔn)找到與問(wèn)題相關(guān)的視頻信息,并且依據(jù)多模態(tài)壓縮雙線性模型的思想,本文提出一種三模態(tài)壓縮級(jí)聯(lián)雙線性模型TCCB,充分利用多種模態(tài)特征之間的相關(guān)性來(lái)實(shí)現(xiàn)更有效的多模態(tài)特征融合。實(shí)驗(yàn)表明,利用逐階段的定位方法可以使模型定位到更有效的視頻信息,利用TCCB融合方法可以更好地實(shí)現(xiàn)不同模態(tài)特征融合,以進(jìn)一步提高模型回答問(wèn)題的準(zhǔn)確率。
參 考 文 獻(xiàn):
[1]XIAO S, LI Y, YE Y, et al. Hierarchical Temporal Fusion of Multi-grained Attention Features for Video Question Answering[J]. Neural Processing Letters, 2020, 52(2): 993.
[2]SUN G, LIANG L, LI T, et al. Video Question Answering:A Survey of Models and Datasets[J]. Mobile Networks and Applications, 2021:1904.
[3]YE Y, ZHAO Z, LI Y, et al. Video Question Answering Via Attribute-augmented Attention Network Learning[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2017: 829.
[4]JANG Y, SONG Y, YU Y, et al. Tgif-qa: Toward Spatio-temporal Reasoning in Visual Question Answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2758.
[5]ZHAO Z, LIN J, JIANG X, et al. Video Question Answering Via Hierarchical Dual-level Attention Network Learning[C]//Proceedings of the 25th ACM International Conference on Multimedia, 2017: 1050.
[6]GAO J, GE R, CHEN K, et al. Motion-appearance Co-memory Networks for Video Question Answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6576.
[7]TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3d Convolutional Networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 4489.
[8]劉建偉, 丁熙浩, 羅雄麟. 多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(6):1601.
LIU Jianwei,DING Xihao,LUO Xionglin.Suvery of Multimodal Deep Learning[J].Application Research of Computers,2020,37(6):1601.
[9]YU Y, KIM J, KIM G. A Joint Sequence Fusion Model for Video Question Answering and Retrieval[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 471.
[10]XUE H, CHU W, ZHAO Z, et al. A Better Way to Attend: Attention with Trees for Video Question Answering[J]. IEEE Transactions on Image Processing, 2018, 27(11): 5563.
[11]BIRD S, KLEIN E, LOPER E. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit[M]. O′Reilly Media, Inc., 2009: 179.
[12]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770.
[13]WANG L, XIONG Y,WANG Z, et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[C]//European Conference on Computer Vision. Springer, Cham, 2016: 20.
[14]HOCHREITER S, SCHMIDHUBER J. Long Short-term Memory[J]. Neural Computation, 1997, 9(8): 1735.
[15]DAVIS S, MERMELSTEIN P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(4): 357.
[16]PENNINGTON J, SOCHER R, MANNING C D. Glove: Global Vectors for Word Representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP), 2014: 1532.
[17]FUKUI A, PARK D H, YANG D, et al. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016: 457.
[18]ANTOL S, AGRAWAL A,LU J, et al. Vqa: Visual Question Answering[C]//Proceedings of the IEEE International Vonference on Computer Vision, 2015: 2425.
[19]YAO L, TORABI A, CHO K, et al. Describing Videos by Exploiting Temporal Structure[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 4507.
[20]SUKHBAATAR S, SZLAM A, WESTON J, et al. End-to-end Memory Networks[C]//Advances in Neural Information Processing Systems, 2015: 2440.
[21]LI X, SONG J, GAO L, et al. Beyondrnns: Positional Self-attention with Co-attention for Video Question Answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(1): 8658.
[22]LE T M, LE V, VENKATESH S, et al. Learning to Reason with Relational Video Representation for Question Answering[J]. arXiv Preprint arXiv:1907.04553, 2019, 2.
(編輯:溫澤宇)