国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)融合的視頻自動(dòng)剪輯算法的設(shè)計(jì)與研究

2024-10-23 00:00:00王煥祥
電腦知識(shí)與技術(shù) 2024年25期

關(guān)鍵詞:視頻自動(dòng)剪輯;多模態(tài)特征融合;Transformer;自注意力機(jī)制

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2024)25-0040-04

0 引言

視頻作為生活中交互信息的載體,人們已經(jīng)通過(guò)一系列設(shè)備錄制眾多視頻,但是對(duì)視頻的瀏覽與剪輯仍需要耗費(fèi)一定時(shí)間。能從一段長(zhǎng)視頻自動(dòng)剪輯出它最重的部分或者自動(dòng)生成視頻摘要將是一件省時(shí)省力的工作。這不僅是對(duì)視頻剪輯者是一件更有效率的工作,對(duì)于視頻閱讀者亦然如此。因此筆者采用了多模態(tài)(視覺(jué)、聲音、文字)的方式對(duì)視頻的信息盡可能地提取,從而精準(zhǔn)地生成原視頻的摘要視頻[1]。

如今,已經(jīng)提出一些基于深度學(xué)習(xí)模型多模態(tài)自動(dòng)視頻摘要的生成方法[2]。其中利用RNNs模型[3],但RNN模型難以捕捉長(zhǎng)時(shí)間的依賴(lài)關(guān)系和難并行化,這對(duì)長(zhǎng)視頻依賴(lài)關(guān)系的捕捉產(chǎn)生負(fù)面影響,從而影響準(zhǔn)確性。本文舍棄傳統(tǒng)的RNNs模型,采用了基于自注意力機(jī)制的Transformer基準(zhǔn)模型(base-line model) [4],并在此基礎(chǔ)上進(jìn)行改進(jìn)。

自注意力機(jī)制和多模態(tài)已經(jīng)被廣泛地應(yīng)用于視頻摘要任務(wù)中。如文獻(xiàn)[5]通過(guò)位置編碼將局部自注意力和全局自注意力相結(jié)合,有效地將局部特征和全局特征相結(jié)合。文獻(xiàn)[6]中,通過(guò)分層次的自注意力機(jī)制,充分地將多個(gè)模態(tài)進(jìn)行特征級(jí)融合。

本文針對(duì)多頭自注意力機(jī)制特征融合程度不夠深的問(wèn)題,提出了一種基于跨模態(tài)特征交互和編碼器-解碼器結(jié)構(gòu)框架的視頻摘要模型。本文算法提取原始視頻幀的特征,利用注意力模塊將多個(gè)模態(tài)進(jìn)行融合,最后通過(guò)預(yù)測(cè)頭對(duì)各個(gè)片段進(jìn)行評(píng)分,得到一組連續(xù)鏡頭作為視頻的摘要。

1 研究方法

1.1 模型總體結(jié)構(gòu)

圖1展示了本文提出的基于多模態(tài)的自動(dòng)剪輯算法設(shè)計(jì)框架流程圖。文中的模型由單模態(tài)編碼模塊,跨模態(tài)編碼模塊,查詢(xún)器生成模塊,解碼模塊和預(yù)測(cè)頭模塊。各個(gè)模態(tài)會(huì)通過(guò)不同的預(yù)訓(xùn)練模型提出特征,然后視頻和音頻會(huì)先通過(guò)跨模態(tài)交互得到兩者的編碼,再基于音頻特征生成查詢(xún)序列,最后通過(guò)解碼并且預(yù)測(cè)頭生成視頻摘要。

1.3 跨模態(tài)特征融合編碼器

此模塊的跨模態(tài)是基于跨自注意力的基礎(chǔ)上實(shí)現(xiàn)跨模態(tài)。此前文獻(xiàn)[7]已經(jīng)證明跨模態(tài)和跨自注意力有助于特征融合。因此,在單模態(tài)編碼之后,還需要使用一個(gè)額外的跨模態(tài)編碼器來(lái)捕捉跨模態(tài)的全局相關(guān)性。在跨模態(tài)編碼器中,將兩個(gè)視覺(jué)模態(tài)和音頻模態(tài)的信息進(jìn)行交互并融合,能夠形成視覺(jué)語(yǔ)言共同注意力??缒B(tài)編碼器的計(jì)算流程和單模態(tài)編碼器的計(jì)算流程一樣,但兩種模態(tài)計(jì)算注意力塊時(shí)的query相互交換。在處理視覺(jué)模態(tài)以聲音條件進(jìn)行多頭自注意力計(jì)算,在處理聲音模態(tài)以視覺(jué)為條件進(jìn)行多頭自注意力計(jì)算。最后再將兩個(gè)混合后的特征進(jìn)行拼接操作(concatenation) 如圖2。

1.4 查詢(xún)生成器

由于Transformer最初是為語(yǔ)言翻譯任務(wù)而引入的,因此輸入和輸出序列的長(zhǎng)度可能不盡相同。輸出序列的長(zhǎng)度由輸入Transformer的查詢(xún)嵌入決定。輸出序列的長(zhǎng)度由輸入解碼器的查詢(xún)嵌入決定。當(dāng)Transformer延展到視覺(jué)任務(wù)時(shí),查詢(xún)嵌入會(huì)在訓(xùn)練過(guò)程中隨機(jī)初始化和學(xué)習(xí)。查詢(xún)嵌入應(yīng)自然而然地指導(dǎo)表示解碼過(guò)程。因此,該模型引入了一個(gè)查詢(xún)生成器,以根據(jù)自然語(yǔ)言輸入自適應(yīng)地生成時(shí)間對(duì)齊的時(shí)刻查詢(xún)。該模塊也是由多頭注意力層構(gòu)建的,其中視覺(jué)和聽(tīng)覺(jué)混合特征充當(dāng)query,文本特征是key 和value。我們的假設(shè)是,通過(guò)計(jì)算視頻片段和文本查詢(xún)之間的注意力權(quán)重,每個(gè)片段可以了解它是否包含文本中描述的哪些概念,并預(yù)測(cè)一個(gè)查詢(xún)嵌入,該查詢(xún)嵌入可用于對(duì)所學(xué)信息進(jìn)行解碼,以滿(mǎn)足不同需求。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

該實(shí)驗(yàn)的訓(xùn)練集使用QVHightlights[10]數(shù)據(jù)集進(jìn)行訓(xùn)練并使用TVSum[11]數(shù)據(jù)集驗(yàn)證。QVHightlights數(shù)據(jù)集包含裁剪成10 148個(gè)短片段(150個(gè)長(zhǎng)片段)的視頻,每個(gè)片段至少有一個(gè)描述其相關(guān)時(shí)刻的文本查詢(xún)注釋。每個(gè)查詢(xún)平均約有1.8個(gè)不相關(guān)時(shí)刻,注釋在不重疊的2秒長(zhǎng)片段上。TVSum包括10個(gè)領(lǐng)域,每個(gè)領(lǐng)域有5個(gè)視頻。我們按照傳統(tǒng)隨機(jī)0.8/0.2的比例進(jìn)行訓(xùn)練和測(cè)試。

2.2 評(píng)定方法

該實(shí)驗(yàn)使用了IoU閾值為0.5和0.7的Recall@1、IoU閾值為0.5和0.75 的平均精度(mAP)以及一系列IoU 閾值[0.5:0.05:0.95]的平均mAP來(lái)進(jìn)行檢索。這些方法衡量摘要效果都是分?jǐn)?shù)越高該方法摘要效果越好。

2.3 對(duì)比實(shí)驗(yàn)

2.4 消融實(shí)驗(yàn)

從表4得知,通過(guò)預(yù)訓(xùn)練得到的文本模態(tài),確實(shí)有更好的表現(xiàn)。

3 結(jié)束語(yǔ)

本文提出一種基于多模態(tài)特征融合的自動(dòng)剪輯算法。該模型分別通過(guò)單模態(tài)特征提取、跨模態(tài)特征融合、中心點(diǎn)和窗口的片段選取進(jìn)一步提高準(zhǔn)確度。在QVHighlight 和TvSum數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果證明,本文提出的MFFAC視頻自動(dòng)剪輯算法優(yōu)于其他同類(lèi)型的算法。

革吉县| 安福县| 麻城市| 尼玛县| 义马市| 裕民县| 阿坝县| 东宁县| 潞西市| 壶关县| 谷城县| 行唐县| 淅川县| 盈江县| 丹巴县| 三穗县| 兴海县| 平泉县| 阳原县| 康保县| 长治市| 抚顺市| 绥棱县| 漠河县| 锦州市| 遵化市| 水城县| 通州市| 奎屯市| 大冶市| 南开区| 高州市| 东光县| 吴川市| 策勒县| 莆田市| 乌鲁木齐县| 历史| 大宁县| 土默特右旗| 诏安县|