国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CLIP的視頻時(shí)刻檢索預(yù)訓(xùn)練模型

2024-12-30 00:00:00繆翌張衛(wèi)鋒徐領(lǐng)
計(jì)算機(jī)應(yīng)用研究 2024年12期
關(guān)鍵詞:多模態(tài)圖像

摘 要:視頻時(shí)刻檢索作為下游任務(wù),依賴預(yù)訓(xùn)練模型提取特征的能力。近年的研究表明,以CLIP為代表的圖像-語(yǔ)言預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集下能學(xué)習(xí)到有效且通用的語(yǔ)義知識(shí),從而在圖像分類等任務(wù)上表現(xiàn)出強(qiáng)大的遷移能力和零樣本能力。然而其遷移到視頻時(shí)刻檢索任務(wù)仍效果不佳。為解決上述難題,提出了視頻時(shí)刻檢索網(wǎng)絡(luò)VMRNet,該網(wǎng)絡(luò)以CLIP預(yù)訓(xùn)練模型為骨干,并設(shè)計(jì)了用于增強(qiáng)CLIP模型時(shí)序建模能力和跨模態(tài)交互能力的視頻時(shí)序增強(qiáng)模塊VTEMo。該模塊采用旁路層級(jí)結(jié)構(gòu),引入查詢文本引導(dǎo)的視覺(jué)提示,引導(dǎo)視覺(jué)編碼器學(xué)習(xí)當(dāng)前查詢?nèi)蝿?wù)關(guān)注的視覺(jué)信息和時(shí)序信息。在QVHighlights、Charades-STA等常用數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),VMRNet的R1@0.5指標(biāo)在兩個(gè)數(shù)據(jù)集上分別提高0.83和1.27,模型總體性能優(yōu)于其他代表性的模型。實(shí)驗(yàn)結(jié)果充分表明,提出的VTEMo可在查詢文本引導(dǎo)下有效學(xué)習(xí)視頻視覺(jué)特征和時(shí)序特征,VMRNet結(jié)合VTEMo可在視頻時(shí)刻檢索任務(wù)上獲得更為優(yōu)秀的表現(xiàn)。

關(guān)鍵詞:多模態(tài);視頻時(shí)刻檢索;圖像-語(yǔ)言預(yù)訓(xùn)練模型;參數(shù)微調(diào)

中圖分類號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2024)12-046-3866-07

doi: 10.19734/j.issn.1001-3695.2024.01.0065

Pre-training model for video moment retrieval based on CLIP

Miao Yi1, Zhang Weifeng1,2, Xu Ling1

(1.School of Computer Science amp; Technology (School of Artificial Intelligence)," Zhejiang Sci-Tech University," Hangzhou 310000, China; 2. School of Information Science amp; Engineering, Jiaxing University, Jiaxing Zhejiang 314000, China)

Abstract:Video moment retrieval as a downstream task relies on the ability of pre trained models to extract features. Recent studies have shown that image-language pre-training models represented by CLIP (comparative language-image pre-training) have learned effective and universal semantic knowledge on large-scale datasets, thus demonstrating strong transfer and zero-shot capabilities in tasks such as image classification. However, its transfer to video retrieval tasks still yields poor results. This paper proposed a video moment retrieval network (VMRNet) to solve the above problem’s. It was based on CLIP pre-trained models with a video temporal enhancement module (VTEMo) to enhance the CLIP model’s temporal modeling ability and cross-modal interaction ability. VTEMo adopted a bypass hierarchical structure and introduced visual prompts guided by query text to guide the visual encoder to learn the current query task concerned visual and temporal information. Conducting validation experiments on commonly used datasets such as QVHighlights and Charades STA, VMRNet’s R1@0.5 metric increased by 0.83 and 1.27 on the two datasets respectively, demonstrating its overall performance superiority over other representative models. The experimental results fully demonstrate that the proposed VTEMo can effectively learn video visual and temporal features under the guidance of query text and VMRNet combined with VTEMo can achieve better performance in video temporal retrieval tasks.

Key words:multimodal; video moment retrieval; image-language pre-training model; efficient parameter fine-tuning

0 引言

視頻時(shí)刻檢索任務(wù)為視頻領(lǐng)域下的多模態(tài)任務(wù),對(duì)其任務(wù)的研究不僅有巨大的學(xué)術(shù)價(jià)值,同樣具有巨大的應(yīng)用價(jià)值,如視頻推薦、人機(jī)交互、監(jiān)控安防[1]。視頻時(shí)刻檢索旨在根據(jù)用戶給定的查詢信息,在大規(guī)模的視頻集合中準(zhǔn)確地定位和檢索出與查詢相關(guān)的視頻片段,其實(shí)現(xiàn)過(guò)程可分為特征提取和特征融合兩個(gè)階段。其中特征提取通過(guò)預(yù)訓(xùn)練模型提取多模態(tài)特征,特征融合階段實(shí)現(xiàn)跨模態(tài)特征交互和融合。目前主流的多模態(tài)方法[2~4]注重特征融合階段,通過(guò)對(duì)不同模態(tài)的特征建模增強(qiáng)跨模態(tài)交互能力與特征融合能力。然而,這種兩階段訓(xùn)練方式僅在下游進(jìn)行建模,相對(duì)端到端訓(xùn)練方式較弱,且依賴預(yù)訓(xùn)練模型提取特征的能力。特征提取階段,主流的預(yù)訓(xùn)練模型側(cè)重圖像-語(yǔ)言特征提取,針對(duì)視頻-語(yǔ)言建模能力較弱。相對(duì)圖像-語(yǔ)言特征提取,視頻-語(yǔ)言特征提取核心挑戰(zhàn)在于賦予模型對(duì)視頻幀之間時(shí)序關(guān)系建模的能力,從而提取與查詢文本匹配的關(guān)鍵視覺(jué)信息和時(shí)序信息。

圖像-語(yǔ)言預(yù)訓(xùn)練模型是目前跨模態(tài)智能領(lǐng)域的研究熱點(diǎn)和主流方案,得到了廣泛關(guān)注。其中,以CLIP[5]為代表的模型基于大規(guī)模的圖像和文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,可以有效學(xué)習(xí)到視覺(jué)和語(yǔ)言之間復(fù)雜的交互關(guān)系,且可廣泛適用于其他多模態(tài)任務(wù)。視頻的信息表達(dá)方式與視覺(jué)相似,同樣需要一種類似的預(yù)訓(xùn)練模型解決下游視頻任務(wù)。然而,受限于海量的視頻-語(yǔ)言對(duì)數(shù)據(jù)收集困難、視頻處理所需計(jì)算資源巨大等原因,訓(xùn)練一個(gè)類似CLIP的視頻-語(yǔ)言預(yù)訓(xùn)練模型非常困難。因此,近年來(lái)多項(xiàng)工作[6~8]嘗試將CLIP中的圖像視覺(jué)知識(shí)遷移到視頻領(lǐng)域,并構(gòu)建一個(gè)新的基礎(chǔ)模型以適應(yīng)CLIP的視頻輸出特征。然而,圖像-語(yǔ)言預(yù)訓(xùn)練模型關(guān)注圖像內(nèi)部的語(yǔ)義信息,生成高層次的空間特征無(wú)法直接作為視頻特征的輸入。而直接運(yùn)用預(yù)訓(xùn)練模型的方式受限于預(yù)訓(xùn)練模型原本的特征輸出,難以挖掘視頻的時(shí)序特征。

CLIP不同層之間的特征差異可用于獲取視頻層級(jí)之間的特征表示,在進(jìn)行下游任務(wù)適應(yīng)時(shí),一種早期的方法[9,10]是通過(guò)全量訓(xùn)練CLIP模型來(lái)實(shí)現(xiàn),如圖1(a)所示。然而,這種方法存在兩個(gè)主要問(wèn)題:a)全量訓(xùn)練CLIP模型的代價(jià)非常巨大,需要大量的計(jì)算資源和時(shí)間;b)對(duì)CLIP模型內(nèi)部層進(jìn)行修改可能會(huì)破壞模型所具有的先驗(yàn)知識(shí)。因此,在選擇適應(yīng)下游任務(wù)的方法時(shí),需要考慮這些問(wèn)題以及可能的解決方案。已經(jīng)有研究將 CLIP成功遷移到視頻領(lǐng)域并取得了顯著成果,但這些研究?jī)H僅基于單模態(tài)結(jié)構(gòu)進(jìn)行了調(diào)整,如圖1(b)所示?;诜种У慕Y(jié)構(gòu)[11],在CLIP視覺(jué)層之外引入一個(gè)多層分支網(wǎng)絡(luò),在不影響CLIP本身前向傳播的情況下,利用高層和低層知識(shí)增強(qiáng)視頻幀的特征。然而這種單模態(tài)方式學(xué)習(xí)的特征有限,無(wú)法在其他模態(tài)引導(dǎo)下有效學(xué)習(xí)當(dāng)前任務(wù)所需的視頻特征。

視頻時(shí)刻檢索任務(wù)除視頻模態(tài)外,還存在文本模態(tài)作為查詢方式,將CLIP文本層知識(shí)與分支網(wǎng)絡(luò)結(jié)合是更為優(yōu)先且合理的選擇。ALBEF(align before fuse)[12]證明文本只需較小的網(wǎng)絡(luò)結(jié)構(gòu)就能挖掘到有效的特征,而視覺(jué)與多模態(tài)的交互需要更復(fù)雜的網(wǎng)絡(luò)挖掘和融合特征?;诖耍疚倪w移預(yù)訓(xùn)練模型于視頻時(shí)刻檢索任務(wù)并增強(qiáng)多模態(tài)交互能力,提出視頻時(shí)序增強(qiáng)模塊(video temporal enhancement module,VTEMo),如圖1(c)所示。VTEMo采用旁路層級(jí)結(jié)構(gòu),通過(guò)提取CLIP不同層的視頻特征,實(shí)現(xiàn)對(duì)不同層級(jí)的視頻時(shí)序特征的獲取,而無(wú)須增加網(wǎng)絡(luò)的深度,有效地提升模塊提取時(shí)序語(yǔ)義特征的能力。VTEMo與ALBEF的交互方式不同,其側(cè)重于提取視頻分支并將文本作為提示進(jìn)行引導(dǎo),以提高模塊在視頻特征提取方面的能力。同時(shí),VTEMo凍結(jié)已有的預(yù)訓(xùn)練模型參數(shù),能夠保留CLIP層原有的空間語(yǔ)義特征,只需關(guān)注視頻的時(shí)序建模能力,保留模塊性能的同時(shí),其本身結(jié)構(gòu)也相對(duì)簡(jiǎn)潔。最后, VTEMo模態(tài)間的交互方式通用于其他模態(tài),使其可以遷移到其他多模態(tài)任務(wù)中。

本文主要有以下三點(diǎn)貢獻(xiàn):a)審視圖像-語(yǔ)言預(yù)訓(xùn)練模型與視頻時(shí)刻檢索任務(wù)的內(nèi)在聯(lián)系,發(fā)現(xiàn)核心挑戰(zhàn)在于引入多模態(tài)特征賦予模型對(duì)視頻幀之間的時(shí)序關(guān)系建模與多模態(tài)特征匹配的能力;b)提出VTEMo,以有限的計(jì)算量為代價(jià),有效提高模型的性能,其通用的架構(gòu)使得預(yù)訓(xùn)練模型可以遷移到其他多模態(tài)任務(wù)中;c)與基線方法相比,所提方法在視頻時(shí)刻檢索任務(wù)上取得了具有競(jìng)爭(zhēng)力的結(jié)果。

1 相關(guān)工作

1.1 多模態(tài)預(yù)訓(xùn)練

主流的多模態(tài)方法[13~16]都可歸類為雙塔模型,通過(guò)兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)處理不同的輸入模態(tài),并通過(guò)融合這兩個(gè)模態(tài)的表示來(lái)完成任務(wù)。過(guò)去工作以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)[17,18]提取視覺(jué)特征,這使得模塊復(fù)雜且效果不好。ViT(vision Transformer)[19]將Transformer[20]遷移到視覺(jué)領(lǐng)域,簡(jiǎn)化模型架構(gòu)的同時(shí)增強(qiáng)了視覺(jué)特征提取能力。最近工作旨在用大規(guī)模圖像-語(yǔ)言數(shù)據(jù)集參與訓(xùn)練的方式提取特征。CLIP[5]是一項(xiàng)卓越的研究成果,展示了令人驚嘆的零樣本識(shí)別和泛化能力,相應(yīng)地推動(dòng)了預(yù)訓(xùn)練模型遷移圖像領(lǐng)域任務(wù)的發(fā)展。Lseg(language-driven semantic segmentation)[21]、ViLD(vision and language knowledge distillation)[22]和CLIPasso[23]等模型在圖像分割、檢測(cè)和生成等領(lǐng)域都取得了顯著的進(jìn)展。然而,上述模型都屬于圖像-語(yǔ)言模型,視頻-語(yǔ)言模型的研究進(jìn)展相對(duì)較為緩慢。對(duì)于視頻和文本之間的關(guān)聯(lián)性建模,仍然存在挑戰(zhàn)和待解決的問(wèn)題。

早期遷移CLIP到視頻領(lǐng)域的方法[10,24]是將視頻的每一幀分割成相同大小的小塊,以時(shí)間或空間維度串聯(lián)各幀的所有小塊,以實(shí)現(xiàn)視頻與圖像輸入維度的一致,但重新預(yù)訓(xùn)練的方式?jīng)]有有效利用圖像-語(yǔ)言預(yù)訓(xùn)練模型的知識(shí),且視頻數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)圖像數(shù)據(jù),這極大地增加了預(yù)訓(xùn)練模型的計(jì)算負(fù)荷,無(wú)法適用于其他任務(wù)。CLIP4CLIP[8]以序列化的方式進(jìn)行大規(guī)模視頻-語(yǔ)言數(shù)據(jù)集的后預(yù)訓(xùn)練,并采用均值池化機(jī)制壓縮視頻特征,這種方式?jīng)]有學(xué)習(xí)到視頻幀之間的低層次特征表征,且依賴于圖像-語(yǔ)言預(yù)訓(xùn)練模型原本的知識(shí)。參數(shù)高效微調(diào)(parameter-efficient fine-tuning,PEFT)的方法開始被引入到多模態(tài)預(yù)訓(xùn)練模型,時(shí)空輔助網(wǎng)絡(luò)(spatial-temporal auxiliary network,STAN)[11]將其作為調(diào)諧適配器(adapter tuning),用于在不干擾主干網(wǎng)絡(luò)的情況下提取時(shí)空特征。然而,該模型只關(guān)注視頻特征,將文本作為多模態(tài)特征可以更有效地挖掘視頻的時(shí)空特征。本文策略保持了主干網(wǎng)絡(luò)的空間特征,使Adapter專注時(shí)序特征的提取,同時(shí)引入文本作為調(diào)諧提示(prompt tu-ning),通過(guò)多模態(tài)特征提升模型時(shí)序特征提取的能力。

1.2 視頻時(shí)刻檢索

視頻時(shí)刻檢索任務(wù)是多模態(tài)領(lǐng)域下的分支課題,為了提高系統(tǒng)的檢索性能,主流方法是先提取多模態(tài)預(yù)訓(xùn)練特征,然后在下游任務(wù)中對(duì)這些特征進(jìn)行建模,以增強(qiáng)多模態(tài)交互的能力。從現(xiàn)有研究中觀察到主要有傳統(tǒng)預(yù)訓(xùn)練和大模型預(yù)訓(xùn)練兩種預(yù)訓(xùn)練方式實(shí)現(xiàn)視頻時(shí)刻檢索任務(wù)。早期采用傳統(tǒng)預(yù)訓(xùn)練[25~28]的方式,以CNN[17]或RNN[18]為基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)提取特征,訓(xùn)練效果不好。目前流行的方法采用以C3D(convolutional 3D)[29]、I3D(inflated 3D)[30]、SlowFast[31]、Transformer[20]等為基礎(chǔ)架構(gòu)的模型預(yù)訓(xùn)練特征[2~4,32~34],基于已有預(yù)訓(xùn)練知識(shí)設(shè)計(jì)模型進(jìn)行多模態(tài)特征融合。由于沒(méi)有成熟的視頻-語(yǔ)言預(yù)訓(xùn)練模型,圖像-語(yǔ)言預(yù)訓(xùn)練模型成為通用的替代方式。這種方式存在以下兩個(gè)問(wèn)題:a)視頻模態(tài)的建模相比圖像應(yīng)該更加復(fù)雜,圖像-語(yǔ)言預(yù)訓(xùn)練模型難以提取視頻時(shí)序特征;b)采用兩階段訓(xùn)練方式僅在下游模型進(jìn)行調(diào)整,其效果相對(duì)于端到端的訓(xùn)練方式而言較弱。基于圖像-語(yǔ)言多模態(tài)建模的工作[14,16,35]證明圖像模態(tài)需要更復(fù)雜的網(wǎng)絡(luò)才能獲取與文本對(duì)齊的特征,便于后續(xù)的模態(tài)融合。本文將該理念引入視頻領(lǐng)域,提出方法注重視頻模態(tài)的建模,在模態(tài)交互前融入其他模態(tài)的特征,增強(qiáng)了視頻模態(tài)提取特征的能力。同時(shí),與前述方法不同,本文關(guān)注點(diǎn)在于預(yù)訓(xùn)練過(guò)程,并將傳統(tǒng)的兩階段訓(xùn)練方式轉(zhuǎn)變?yōu)槎说蕉擞?xùn)練方式。

2 方法

本文提出的VMRNet主要包括視頻-語(yǔ)言特征提取部分與視頻時(shí)刻檢索兩個(gè)部分,總體框架如圖2(a)所示。其中,視頻-語(yǔ)言特征提取部分包括CLIP[5]基礎(chǔ)架構(gòu)和所提VTEMo。VTRMo為一種基于Transformer[20]的層級(jí)架構(gòu),作為CLIP視覺(jué)編碼器的旁路,賦予模塊時(shí)序建模的能力,通過(guò)文本提示引導(dǎo)模塊提取關(guān)鍵視頻特征。視頻時(shí)刻檢索部分以編碼器-解碼器為基礎(chǔ)架構(gòu),時(shí)空特征融合模塊融合分離的時(shí)空特征,并在視頻-語(yǔ)言特征編碼器對(duì)文本進(jìn)行編碼,編碼后的特征在視頻文本特征編碼器對(duì)融合的時(shí)空特征進(jìn)行解碼,得到與文本匹配的視頻幀信息。

2.1 概述

視頻時(shí)刻檢索任務(wù)根據(jù)用戶輸入的由Nq個(gè)詞構(gòu)成的查詢文本Q,從給定的視頻V(該視頻包含Nv個(gè)不重疊的視頻片段,每個(gè)視頻片段時(shí)長(zhǎng)為等長(zhǎng)的t秒)中自動(dòng)定位與查詢文本語(yǔ)義匹配的視頻片段。目前主流的方法[2~4,32~34]將該任務(wù)分成特征提取與特征融合兩個(gè)階段,其中特征提取對(duì)視頻和文本等不同模態(tài)的特征通過(guò)編碼器編碼,特征融合對(duì)跨模態(tài)的特征進(jìn)行交互,獲得融合模態(tài)的特征,將其作為后續(xù)預(yù)測(cè)的輸入定位視頻片段的開始和結(jié)束時(shí)刻。該任務(wù)的核心和難點(diǎn)在于算法模型需要抽取和融合視頻中每一幀的語(yǔ)義信息和視頻幀序列之間的時(shí)序信息,并與查詢文本進(jìn)行跨模態(tài)對(duì)齊。目前主流工作廣泛使用預(yù)訓(xùn)練的CLIP圖像編碼器提取視頻特征,在視頻特征抽取階段往往缺乏查詢文本的引導(dǎo),缺乏跨模態(tài)交互能力,無(wú)法準(zhǔn)確捕獲當(dāng)前任務(wù)所需的視頻特征。

為了緩解上述問(wèn)題,本文提出了一種新的視頻時(shí)刻檢索模型VMRNet。如圖2(a)所示,該模型主要包括以下兩個(gè)階段:

a)特征提取階段。本文引入CLIP視覺(jué)和文本編碼器,其中文本編碼器輸出特征可直接作為文本模態(tài)特征,視覺(jué)編碼器輸出作為視頻空間特征,與VTEMo輸出的視頻時(shí)序特征拼接,得到視頻模態(tài)特征。

b)特征融合與解碼預(yù)測(cè)階段。本文參考Transformer編碼器-解碼器架構(gòu),將跨模態(tài)特征作為不同的查詢鍵值對(duì)。其中時(shí)空特征融合模塊為編碼器,通過(guò)自注意力計(jì)算融合分離的時(shí)空特征,得到完整的視頻模態(tài)特征。后續(xù)的編碼器-解碼器架構(gòu)通過(guò)視頻特征對(duì)文本特征編碼,使得文本特征獲取視頻特征的相關(guān)表示,將獲取的關(guān)聯(lián)性特征對(duì)原視頻特征解碼,得到最終預(yù)測(cè)特征向量,具體公式如下:

P=softmax(Z′WQ(AWK)T/D)(AWV)+Z′(1)

其中:Z′為融合的視頻時(shí)空特征向量;A為文本特征向量;D為兩者相同的特征維度;WQ、WK、WV分別為查詢、鍵和值的權(quán)重參數(shù);P為最終的預(yù)測(cè)特征向量。

2.2 視頻-語(yǔ)言特征提取

2.2.1 CLIP

CLIP使用兩個(gè)編碼器構(gòu)建,一個(gè)用于圖像,另一個(gè)用于文本。圖像編碼器由12層ViT[19]堆疊組成,用于將圖像轉(zhuǎn)換為圖像特征向量。文本編碼器由12層標(biāo)準(zhǔn)的Transformer堆疊組成,用于將詞嵌入特征轉(zhuǎn)換為文本特征向量。訓(xùn)練過(guò)程中采用對(duì)比損失學(xué)習(xí)的方式,計(jì)算圖像特征向量與文本特征向量的余弦相似度。最大化圖像與匹配文本的余弦相似度,同時(shí)最小化圖像與其他不匹配文本的余弦相似度。本文僅提取CLIP編碼器部分,將視覺(jué)編碼器與文本編碼器獲得特征作為VTEMo輸入,得到視頻編碼特征。

2.3 視頻時(shí)刻檢索

2.3.1 時(shí)空特征融合模塊

時(shí)序特征{vn}Nvn=1與空間特征{in}Nvn=1拼接后得到融合特征{zn}Nvn=1。拼接后的融合特征時(shí)空權(quán)重分布分散,只關(guān)注局部的時(shí)空相關(guān)性,而沒(méi)有關(guān)注到全局的時(shí)空信息,需要融合時(shí)空信息以得到更自然的時(shí)空特征表示。時(shí)空特征融合模塊采用線性映射壓縮時(shí)空特征信息,通過(guò)單層Transformer編碼器進(jìn)行特征提取,使每個(gè)視頻幀融合時(shí)空特征的同時(shí)獲取到全局的幀間信息,得到更合理的時(shí)空特征融合表示{z′n}Nvn=1,具體公式如下:

z′=FFN(MSA(z))+z(16)

2.3.2 視頻-語(yǔ)言特征編碼器

視頻時(shí)刻檢索任務(wù)需要交互視頻-語(yǔ)言特征,與視頻定長(zhǎng)的特征維度不同,文本由于其序列長(zhǎng)度不定,難以直接與視頻交互計(jì)算。視頻-語(yǔ)言特征編碼器通過(guò)更改自注意力的輸入,增加序列掩碼將不同序列長(zhǎng)度的文本映射到同一維度的特征空間中。通過(guò)單層Transformer編碼器,將文本作為鍵和值以對(duì)查詢視頻進(jìn)行編碼,使其關(guān)聯(lián)文本和視頻特征,得到各視頻幀與文本的關(guān)聯(lián)關(guān)系{an}Nvn=1,為后續(xù)的解碼器提供特征,具體公式如下:

a=FFN(MSA(z′,q))+z′(17)

2.3.3 視頻-語(yǔ)言特征解碼器

視頻-語(yǔ)言特征解碼器遵循編碼器-解碼器的結(jié)構(gòu),通過(guò)視頻與文本關(guān)聯(lián)特征對(duì)原視頻時(shí)空特征進(jìn)行解碼。解碼器采用多層Transformer編碼器堆疊的方式,各層解碼器輸出序列與編碼器輸入序列相同,使其得到與編碼器對(duì)齊的視頻特征。通過(guò)堆疊的方式,增強(qiáng)解碼器的解碼能力,得到視頻幀信息的解碼特征{pn}Nvn=1,單層解碼器公式如下:

p=FFN(MSA(a,z′))+a(18)

2.3.4 預(yù)測(cè)頭與損失函數(shù)

由于所需視頻時(shí)刻存在起止點(diǎn)、長(zhǎng)度等不同維度的特征,可將其拆分成不同屬性的特征聯(lián)合表示。解碼特征經(jīng)過(guò)不同的線性映射得到3份不同維度的特征序列,分別為窗口中心{cn}Nvn=1、中心偏移{on}Nvn=1和窗口大小{wn}Nvn=1。窗口中心為各幀作為窗口中心的置信度,訓(xùn)練過(guò)程中,采用局部高斯損失[36],給定每個(gè)窗口一個(gè)可接受的誤差區(qū)間,使得模型在預(yù)測(cè)上具有一定的彈性,同時(shí)加速誤差區(qū)間范圍外的窗口中心的收斂速度。給定的高斯損失如下:

Euclid Math OneLApw=-1Nv∑n(1-c^n)αln c^n+(1-cn)γc^nln(1-c^n)(19)

在時(shí)刻n下,cn為0或1的標(biāo)簽,表示該時(shí)刻是否為真實(shí)中心,c^n為預(yù)測(cè)中心置信度,α、γ分別為預(yù)測(cè)中心和真實(shí)值的不同權(quán)重指數(shù)。對(duì)于已存在的誤差,結(jié)合下采樣帶來(lái)的間隔誤差,提出中心偏移以微調(diào)窗口中心的位置,中心偏移、窗口大小與窗口中心對(duì)應(yīng),分別表示對(duì)應(yīng)時(shí)刻窗口中心的偏移量與窗口大小。兩者均使用L1損失優(yōu)化:

在時(shí)刻n下,on、o^n為該時(shí)刻的真實(shí)偏移和預(yù)測(cè)偏移,wn、w^n為該時(shí)刻的真實(shí)窗口大小與預(yù)測(cè)窗口大小。由預(yù)測(cè)參數(shù)得到預(yù)測(cè)視頻時(shí)刻真實(shí)范圍為[c~+o~-w~/2,c~+o~+w~/2]。c~、o~、w~分別為最大中心置信度所在時(shí)刻與對(duì)應(yīng)的中心偏移和窗口大小。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 前置工作

3.1.1 數(shù)據(jù)集

本文在QVHighlights[32]和Charades-STA[37]兩個(gè)熱門的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)視頻時(shí)刻檢索任務(wù)的實(shí)驗(yàn)。本文遵循原始的QVHighlights和Charades-STA數(shù)據(jù)分割方式進(jìn)行實(shí)驗(yàn)。

QVHighlights是最近提出的一個(gè)數(shù)據(jù)集,其范圍涵蓋了廣泛的主題,包括日常活動(dòng)和旅行的生活方式視頻,以及社會(huì)和政治活動(dòng)的新聞視頻。該數(shù)據(jù)集由10 148個(gè)裁剪后的視頻組成,每個(gè)視頻的長(zhǎng)度為128~150 s,并被分割成多個(gè)不重疊的2 s時(shí)刻片段。每個(gè)視頻都標(biāo)注了至少一個(gè)描述與其相關(guān)的時(shí)刻的文本。每個(gè)文本描述對(duì)應(yīng)著若干個(gè)不相交的時(shí)刻片段。整個(gè)數(shù)據(jù)集共包含10 310個(gè)查詢和18 367個(gè)被標(biāo)記的時(shí)刻片段。

Charades-STA是一個(gè)旨在研究日常人類活動(dòng)的非結(jié)構(gòu)化視頻活動(dòng)識(shí)別和常識(shí)推理的數(shù)據(jù)集。該數(shù)據(jù)集包含9 848個(gè)室內(nèi)活動(dòng)的視頻樣本,針對(duì)267個(gè)不同的用戶進(jìn)行展示。每個(gè)樣本都以句子的形式呈現(xiàn)給用戶,句子中包括了來(lái)自固定詞匯表的對(duì)象和動(dòng)作。用戶根據(jù)句子所描述的內(nèi)容,通過(guò)演繹相關(guān)視頻內(nèi)容來(lái)完成任務(wù)。該數(shù)據(jù)集包含了66 500個(gè)時(shí)間注釋,涵蓋了157個(gè)動(dòng)作類別,以及41 104個(gè)標(biāo)簽,涵蓋了46個(gè)物體類別。此外,數(shù)據(jù)集還提供了27 847個(gè)視頻的文本描述。

3.1.2 評(píng)價(jià)指標(biāo)

本文沿用現(xiàn)有工作使用的評(píng)價(jià)指標(biāo)。對(duì)于QVHighlights數(shù)據(jù)集,使用交并比(IoU)閾值為0.5和0.7的第一個(gè)結(jié)果的召回率(recall@1),IoU閾值為0.5和0.75的平均精度(mean average precision, mAP)和以[0.50.050.95],序列作為IoU閾值所得mAP的平均值(mAP@0.50.95),用于評(píng)估實(shí)驗(yàn)結(jié)果。對(duì)于Charades-STA數(shù)據(jù)集,以IoU閾值0.5和0.7為界,使用第一個(gè)結(jié)果和前五個(gè)結(jié)果的召回率(recall@5)。相關(guān)計(jì)算公式如下:

其中:TP、FP、FN分別為預(yù)測(cè)正確的正類數(shù)、預(yù)測(cè)錯(cuò)誤的正類數(shù)、預(yù)測(cè)錯(cuò)誤的負(fù)類數(shù);P、R分別為精確率和召回率;i為mAP閾值索引;N為IoU閾值到1之間的采樣數(shù);Δi為平均采樣間隔。

3.1.3 實(shí)驗(yàn)參數(shù)

CLIP[5]使用ViT-B/32模型,該模型和預(yù)訓(xùn)練參數(shù)來(lái)自于Hugging Face官網(wǎng)。在文本方面,設(shè)置了截?cái)嚅L(zhǎng)度為32。VTEMo內(nèi)部MSA層隱藏維度為512,融合模塊和編碼器-解碼器MSA層隱藏維度為256,其中解碼器設(shè)置3層。在訓(xùn)練過(guò)程中,采用了學(xué)習(xí)率為1E-3、權(quán)重衰減為1E-4的Adam優(yōu)化器。對(duì)于QVHighlights數(shù)據(jù)集,采用2 s一幀的下采樣,設(shè)置32的batch size的和150迭代次數(shù)。對(duì)于Charades-STA數(shù)據(jù)集,采用0.2 s一幀的下采樣,設(shè)置8的batch size和100的迭代次數(shù)。

3.2 實(shí)驗(yàn)結(jié)果

將本文VMRNet與基線方法結(jié)合,首先在QVHighlights上評(píng)估模型,并與現(xiàn)有工作對(duì)比,結(jié)果如表1所示,最優(yōu)的識(shí)別結(jié)果以粗體標(biāo)記,其中w/PT表示引入ASR字幕后預(yù)訓(xùn)練結(jié)果。CAL、XML使用傳統(tǒng)預(yù)訓(xùn)練模型提取特征,Moment-DERT、UMT、UniVTG、QD-DETR使用CLIP提取特征。VMRNet大多數(shù)條件下優(yōu)于現(xiàn)有基線模型,在使用ASR字幕預(yù)訓(xùn)練的結(jié)果下,VMRNet在IoU閾值為0.5和0.7的條件下達(dá)到了63.23%和46.19%的召回率,IoU閾值為0.75的mAP達(dá)到了38.93%。IoU閾值為0.5的mAP表現(xiàn)不佳,可能由于損失函數(shù)更加強(qiáng)調(diào)提高預(yù)測(cè)時(shí)間與真實(shí)時(shí)間的重疊程度,而略微忽略時(shí)間重疊的覆蓋率。圖3給出了本文方法與UMT在QVHighlights上的對(duì)比結(jié)果。相比直接使用CLIP提取特征的模型,VMRNet有較好的時(shí)序建模能力,可以過(guò)濾視頻幀時(shí)序性噪聲,實(shí)現(xiàn)更精準(zhǔn)的預(yù)測(cè)。Charades-STA上與現(xiàn)有工作的對(duì)比評(píng)估結(jié)果如表2所示,最優(yōu)的識(shí)別結(jié)果以粗體標(biāo)記,其中w/PT表示引入ASR字幕后的預(yù)訓(xùn)練結(jié)果。VTEMo在大多數(shù)情況下優(yōu)于基線模型,對(duì)于在IoU閾值為0.5的條件下,VMRNet的第一項(xiàng)結(jié)果達(dá)到50.11%的召回率,第五項(xiàng)結(jié)果達(dá)到89.46%的召回率,優(yōu)于之前的基線模型。現(xiàn)有方法直接使用預(yù)訓(xùn)練模型提取特征,無(wú)法得到視頻的時(shí)序特征,僅使用空間特征難以對(duì)齊文本。相比之下,VMRNet通過(guò)文本引導(dǎo)模型,可以提取視頻中關(guān)鍵的時(shí)序特征,同時(shí)得到與文本對(duì)齊的特征向量。

3.3 消融實(shí)驗(yàn)

為驗(yàn)證不同組件的有效性,以ASR字幕預(yù)訓(xùn)練為前提進(jìn)行消融實(shí)驗(yàn),測(cè)試各組件的有效程度。

3.3.1 VTEMo初始化層數(shù)消融實(shí)驗(yàn)

VTEMo為CLIP骨干網(wǎng)絡(luò)旁的分支網(wǎng)絡(luò),它將CLIP視覺(jué)層不同層的視覺(jué)表示作為輸入。為驗(yàn)證不同層級(jí)的視覺(jué)特征對(duì)時(shí)序建模能力的影響,增加文本提示,對(duì)VTEMo層數(shù)進(jìn)行了不同的初始化設(shè)置,并測(cè)試其效果,實(shí)驗(yàn)結(jié)果如表3所示。其中a為最原始的模型,不使用VTEMo模塊,b、c、d分別為VTEMo初始化1層、2層、3層的模型。與直觀的結(jié)果不同,模型在1層的時(shí)候性能達(dá)到峰值,隨著VTEMo初始化層數(shù)增加,模型性能緩慢下降。CLIP高層次的視覺(jué)語(yǔ)義特征足夠優(yōu)秀,可以直接遷移到其他下游任務(wù)進(jìn)行訓(xùn)練,而低層次的視覺(jué)特征可能并沒(méi)有學(xué)到足夠的視覺(jué)知識(shí),將低層次的特征作為VTEMo的輸入可能會(huì)干擾模型提取時(shí)序特征的能力,但對(duì)該任務(wù)而言,增加VTEMo模塊的性能要優(yōu)于原模型。

3.3.2 文本提示組件消融實(shí)驗(yàn)

為驗(yàn)證文本提示的有效性,將VTEMo內(nèi)部層數(shù)設(shè)置為1層,進(jìn)行了增加文本提示與取消文本提示兩組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。其中e為不使用文本提示的模塊,f為使用文本提示的模塊。實(shí)驗(yàn)結(jié)果可知,將文本引入VTEMo并將其作為提示,能有效對(duì)齊視頻時(shí)序特征與文本特征,增強(qiáng)模塊根據(jù)文本查詢相關(guān)視頻幀的能力,從而獲取與文本關(guān)聯(lián)性更高的視頻幀信息。文本提示的方式能有效增強(qiáng)模塊提取視頻時(shí)序特征表示,相比單模態(tài),多模態(tài)的學(xué)習(xí)可以使模塊捕獲更多有用的信息。

4 結(jié)束語(yǔ)

本文研究了CLIP預(yù)訓(xùn)練模型遷移到視頻時(shí)刻的檢索任務(wù)。首先,發(fā)現(xiàn)目前的單模態(tài)方法不能有效提取視頻的時(shí)序性特征,提出了視頻時(shí)序增強(qiáng)模塊(VTEMo),將文本提示的理念引入到預(yù)訓(xùn)練模型中,并以此為基礎(chǔ)構(gòu)建視頻時(shí)刻檢索網(wǎng)絡(luò)(VMRNet),設(shè)計(jì)的網(wǎng)絡(luò)有效融合了多模態(tài)的特征,并提升模型獲取時(shí)序特征的能力。其次,將預(yù)訓(xùn)練模型遷移到了視頻時(shí)刻檢索任務(wù),將兩階段的訓(xùn)練方式轉(zhuǎn)變?yōu)槎说蕉说挠?xùn)練方式,融合了時(shí)空特征的視頻片段,使得模型在視頻時(shí)刻檢索任務(wù)上有顯著的提升。最后,提出的網(wǎng)絡(luò)足夠靈活,可以遷移到其他的多模態(tài)任務(wù)中。本文實(shí)驗(yàn)成果如圖3所示,VMRNet可通過(guò)原視頻與視頻片段相關(guān)問(wèn)句,檢索到與真實(shí)結(jié)果相近的視頻片段,可促進(jìn)智能推薦、監(jiān)控安防等相關(guān)產(chǎn)業(yè)發(fā)展。本文就目前方法所得的實(shí)驗(yàn)結(jié)果,觀察到模型對(duì)較長(zhǎng)的視頻時(shí)刻(gt;30 s)預(yù)測(cè)能力較強(qiáng),而對(duì)較短的視頻時(shí)刻(lt;10 s)預(yù)測(cè)能力較弱,得到該模型對(duì)短視頻時(shí)刻能力的預(yù)測(cè)依舊具有一定局限性,后續(xù)將研究如何更改長(zhǎng)短視頻時(shí)刻的注意力權(quán)重,均值化長(zhǎng)短視頻時(shí)刻特征,以此提升模型預(yù)測(cè)短視頻時(shí)刻的能力。

參考文獻(xiàn):

[1]Zhang Hao, Sun Aixin, Jing Wei, et al.Temporal sentence grounding in videos: a survey and future directions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10443-10465.

[2]Chen Tongbao, Wang Wenmin, Jiang Zhe, et al.Cross-modality knowledge calibration network for video corpus moment retrieval[J]. IEEE Trans on Multimedia, 2023, 26(9): 3799-3813.

[3]Panta L, Shrestha P, Sapkota B,et al.Cross-modal contrastive lear-ning with asymmetric co-attention network for video moment retrieval[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2024: 607-614.

[4]Shen Xingyu, Zhang Xiang, Yang Xun, et al.Semantics-enriched cross-modal alignment for complex-query video moment retrieval[C]// Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 4109-4118.

[5]Radford A, Kim J W, Hallacy C,et al.Learning transferable visual models from natural language supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8748-8763.

[6]Fang Han, Xiong Pengfei, XuLuhui, et al.CLIP2Video: mastering video-text retrieval via image clip[EB/OL]. (2021-06-21). https://arxiv.org/abs/2106.11097.

[7]Gao Zijian, Liu Jingyu, Chen Sheng, et al.CLIP2TV: an empirical study on transformer-based methods for video-text retrieval[EB/OL]. (2022-07-21). https://arxiv.org/abs/2111.05610.

[8]Luo Huaishao, Ji Lei, Zhong Ming, et al.CLIP4Clip: an empirical study of clip for end to end video clip retrieval[J]. Neurocompu-ting, 2022, 508: 293-304.

[9]Lei Jie, Li Linjie, Zhou Luowei, et al.Less is more: CLIPBERT for video-and-language learning via sparse sampling[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 7327-7337.

[10]Xu Hu, Ghosh G, Huang P Y,et al.VideoCLIP: contrastive pre-training for zero-shot video-text understanding[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 6787-6800.

[11]Liu Ruyang, Huang Jingjia, Li Ge, et al.Revisiting temporal mode-ling for clip-based image-to-video knowledge transferring [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 6555-6564.

[12]Li Junnan, Selvaraju R R, Gotmare A, et al.Align before fuse: vision and language representation learning with momentum distillation[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 9694-9705.

[13]Gabeur V, Sun C, Alahari K, et al.Multi-modal Transformer for video retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 214-229.

[14]Lu Jiasen, Batra D, Parikh D, et al.ViLBERT: pretraining task-agnostic visio linguistic representations for vision-and-language tasks[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 13-23.

[15]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.

[16]Su Weijie, Zhu Xizhou, Cao Yue, et al.VL-BERT: pre-training of generic visual-linguistic representations [EB/OL]. (2020-02-18). https://arxiv.org/abs/1908.08530.

[17]Kim Y. Convolutional neural networks for sentence classification [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746-1751.

[18]Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.

[19]Dosovitskiy A, Beyer L, Kolesnikov A, et al.An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

[20]Vaswani A,Shazeer N, Parmar N, et al.Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[21]Li Boyi, Weinberger K Q, Belongie S, et al. Language-driven semantic segmentation[EB/OL]. (2022-04-03). https://arxiv.org/abs/2201.03546.

[22]Gu Xiuye, Lin T Y, Kuo Weicheng, et al.Open-vocabulary object detection via vision and language knowledge distillation[EB/OL]. (2022-05-12). https://arxiv.org/abs/2104.13921.

[23]Vinker Y, Pajouheshgar E, Bo J Y, et al.CLIPasso: semantically-aware object sketching[J]. ACM Trans on Graphics, 2022, 41(4): 1-11.

[24]Arnab A, Dehghani M,Heigold G, et al.ViViT: a video vision transformer[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 6816-6826.

[25]Escorcia V, Soldan M, Sivic J,et al.Temporal localization of moments in video collections with natural language[EB/OL]. (2019-07-30). https://arxiv.org/abs/1907.12763.

[26]Lei Jie, Yu Licheng, Berg T L, et al.TVR: a large-scale dataset for video-subtitle moment retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 447-463.

[27]Hendricks L A, Wang O, Shechtman E, et al.Localizing moments in video with natural language[C]// Proc of IEEE International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5804-5813.

[28]Liu Wu, Mei Tao, Zhang Yongdong, et al.Multi-task deep visual-semantic embedding for video thumbnail selection[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3707-3715.

[29]Tran D,Bourdev L, Fergus R, et al.Learning spatiotemporal features with 3D convolutional networks[C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4489-4497.

[30]Carreira J, Zisserman A. Quovadis, action recognition? A new model and the kinetics dataset[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4724-4733.

[31]Feichtenhofer C, Fan Haoqi, Malik J, et al.SlowFast networks for video recognition[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 6201-6210.

[32]Lei Jie, Berg T L, Bansal M.QVHighlights: detecting moments and highlights in videos via natural language queries[C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 11846-11858.

[33]Liu Ye, Li Siyuan, Wu Yang, et al.UMT: unified multi-modal transformers for joint video moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 3032-3041.

[34]Lin K Q, Zhang Pengchuan, Chen J, et al.UniVTG: towards unified video-language temporal grounding[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 2782-2792.

[35]Kim W, Son B, Kim I. ViLT: vision-and-language transformer without convolution or region supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 5583-5594.

[36]Wang Jian, Li Fan, Bi Haixia. Gaussian focal loss: learning distribution polarized angle prediction for rotated object detection in aerial images[J]. IEEE Trans on Geoscience and Remote Sensing, 2022, 60: 1-13.

[37]Sigurdsson G A, Varol G, Wang Xiaolong, et al.Hollywood in homes: crowdsourcing data collection for activity understanding[C]// Proc of Computer Vision Conference. Cham: Springer, 2016: 510-526.

[38]Moon W, Hyun S, Park S, et al. Query-dependent video representation for moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 23023-23033.

[39]Zhang Da, Dai Xiyang, Wang Xin, et al.MAN: moment alignment network for natural language moment retrieval via iterative graph adjustment[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1247-1257.

[40]Zhang Songyang, Peng Houwen, Fu Jianlong, et al.Learning 2D temporal adjacent networks for moment localization with natural language[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12870-12877.

[41]Gao Junyu, Xu Changsheng. Fast video moment retrieval[C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 1503-1512.

[42]Ma Yue, Yang Tianyu, Shan Yin, et al.SimVTP: simple video text pre-training with masked autoencoders[EB/OL]. (2022-12-07). https://arxiv. org/abs/2212.03490.

猜你喜歡
多模態(tài)圖像
改進(jìn)的LapSRN遙感圖像超分辨重建
基于FPGA的實(shí)時(shí)圖像去霧系統(tǒng)
如何由圖像確定y=Asin(ωx+φ)+B的解析式
淺析p-V圖像中的兩個(gè)疑難問(wèn)題
有趣的圖像詩(shī)
多模態(tài)話語(yǔ)中的詹姆斯·卡梅隆電影
英語(yǔ)閱讀教學(xué)中多模態(tài)識(shí)讀能力的培養(yǎng)
網(wǎng)絡(luò)環(huán)境下大學(xué)英語(yǔ)多模態(tài)交互式閱讀教學(xué)模式研究
戲劇之家(2016年22期)2016-11-30 18:20:43
多模態(tài)理論視角下大學(xué)英語(yǔ)課堂的構(gòu)建
新媒體環(huán)境下多模態(tài)商務(wù)英語(yǔ)課堂教師角色定位
通化县| 囊谦县| 龙口市| 乌苏市| 清涧县| 潞西市| 清原| 晴隆县| 陆良县| 罗田县| 达日县| 桂东县| 图木舒克市| 海伦市| 万山特区| 永川市| 将乐县| 东莞市| 湖南省| 天台县| 丹江口市| 勐海县| 蒙山县| 石渠县| 保康县| 和平县| 洛阳市| 天长市| 宝应县| 临夏县| 岗巴县| 宾阳县| 银川市| 项城市| 绥德县| 遂溪县| 满城县| 茶陵县| 惠水县| 海南省| 防城港市|