基于多模態(tài)數(shù)據(jù)融合的短視頻分類研究

2023-11-06 09:38:48陳小娥陳德濤

電腦知識(shí)與技術(shù) 2023年25期

陳小娥，陳德濤

（福建船政交通職業(yè)學(xué)院信息與智慧交通學(xué)院，福建福州 350001)

0 引言

近年來，短視頻廣泛出現(xiàn)在各種社交平臺(tái)上，其熱度呈爆炸式增長。短視頻具有時(shí)間短、表現(xiàn)形式多樣、信息承載量高等特點(diǎn)，用戶可以輕松地利用碎片時(shí)間進(jìn)行獲取和分享，深受用戶歡迎。通過對(duì)短視頻進(jìn)行分類，識(shí)別用戶特征，了解用戶興趣和需求，從而進(jìn)行定向推薦或營銷具有巨大的商業(yè)價(jià)值。

常見的短視頻通常具有文本、語音、視頻三種模態(tài)的信息，在不同語義分類體系中發(fā)揮著相互促進(jìn)、相互補(bǔ)充的作用，合理利用好多模態(tài)的信息進(jìn)行多角度的理解才能準(zhǔn)確地對(duì)短視頻進(jìn)行分類。

本文通過對(duì)短視頻標(biāo)題、音頻轉(zhuǎn)文本識(shí)別結(jié)果以及視頻OCR識(shí)別結(jié)果進(jìn)行模態(tài)融合。同時(shí)，由于考慮到真實(shí)場(chǎng)景數(shù)據(jù)集中模態(tài)缺失的問題，考慮采用jieba分詞填充空缺進(jìn)行實(shí)驗(yàn)，并對(duì)無關(guān)信息進(jìn)行清洗，降低臟數(shù)據(jù)對(duì)模型訓(xùn)練效果的影響。通過對(duì)基線模型進(jìn)行改進(jìn)，包括在權(quán)重共享的Embedding 和非權(quán)重共享的Embedding 上使用Early-Fusion 等方式，同時(shí)結(jié)合文本特征和視頻特征進(jìn)行提升，并進(jìn)行驗(yàn)證試驗(yàn)來驗(yàn)證改進(jìn)的有效性。

1 相關(guān)研究與工作基礎(chǔ)

1.1 語言序列模型

2018 年，Devlin 等人[1]提出了BERT 模型，并在11個(gè)自然語言處理任務(wù)中獲得了顯著的提升。BERT模型的目標(biāo)是利用大規(guī)模無標(biāo)注語料訓(xùn)練獲得文本的語義表示，然后再將文本的語義表示在特定NLP任務(wù)中作微調(diào)，最終應(yīng)用于該NLP任務(wù)。

Devlin提出的BERT模型原文是在英文數(shù)據(jù)集上訓(xùn)練的，2019 年，哈工大訊飛聯(lián)合研究院采用WWM(Whole Word Masking) 技術(shù)針對(duì)中文環(huán)境進(jìn)行優(yōu)化，實(shí)現(xiàn)了中文的全詞Mask[2]，更符合中文語境；并于2020年提出MacBERT[3]，使用糾錯(cuò)型掩碼MLM as correction(Mac)的方法對(duì)中文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，緩解了預(yù)訓(xùn)練與下游任務(wù)不一致的問題。

1.2 SE模塊

SE 模塊來自SENet(Squeeze-and-Excitation Networks)[4]，SE模塊是一個(gè)簡單的網(wǎng)絡(luò)子結(jié)構(gòu)，可以方便地插入其他網(wǎng)絡(luò)增強(qiáng)網(wǎng)絡(luò)表達(dá)能力。文中將SE block加入ResNext 中，在ILSVRC 2017 獲得top-1，SE 模塊結(jié)構(gòu)如圖1所示。

圖1 SE模塊結(jié)構(gòu)

將輸入特征使用線性函數(shù)壓縮成channel/SE_ratio 大小的特征，經(jīng)過ReLU 激活函數(shù)后再將特征傳入用于特征激發(fā)的線性層，將特征擴(kuò)張成channel大小，最后經(jīng)過Sigmoid 函數(shù)后與原始輸入相乘，得到模塊輸出結(jié)果。

1.3 微觀F1分?jǐn)?shù)

精確率指的是被認(rèn)為正的樣本中，實(shí)際上有多少是正樣本，用于衡量模型正確預(yù)測(cè)的概率，精確率的公式如下：

召回率指的是有多少正樣本被找出來，召回率的公式如下：

所有類別的精確率和召回率可以表示為：

微觀F1分?jǐn)?shù)可以表示為：

微觀F1 分?jǐn)?shù)考慮了各種類別，適用于數(shù)據(jù)分布不平衡的情況，類別數(shù)量較多對(duì)F1的影響會(huì)較大。

1.4 宏觀F1分?jǐn)?shù)

第i類的精確率和召回率公式可以表示為：

各個(gè)類別的精確度和召回率均值為：

宏觀F1分?jǐn)?shù)可以表示為：

宏觀F1 分?jǐn)?shù)對(duì)各類別的Precision和Recall求平均，Precision和Recall較高的類別對(duì)F1的影響會(huì)較大。

2 基于多模態(tài)融合的短視頻分類算法

2.1 基線模型

基線模型對(duì)兩個(gè)特征分別做處理，將視頻標(biāo)題傳入BERT模塊得到文本特征bert_embedding，將視頻幀特征傳入NextVLAD[5]模塊融合視頻幀特征，然后將融合的視頻幀特征傳入SENet模塊以增強(qiáng)融合的視頻幀特征，得到vision_embedding，將bert_embedding 和vision_embedding 一起傳入ConcatDenseSE 模塊融合兩種模態(tài)的特征，最后將融合的特征通過一個(gè)線性層作為分類頭得到多模態(tài)的分類結(jié)果，模型結(jié)構(gòu)如圖2所示。

2.2 改進(jìn)的多模態(tài)融合網(wǎng)絡(luò)結(jié)構(gòu)

本文將視頻標(biāo)題、視頻幀OCR、語音轉(zhuǎn)文本數(shù)據(jù)進(jìn)行拼接，構(gòu)成文本模態(tài)信息，然后對(duì)文本模態(tài)信息進(jìn)行Mask，將經(jīng)過Mask 的文本模態(tài)信息和視頻幀模態(tài)信息在BERT Embedding 進(jìn)行Early Fusion，和合并的文本mask 和視頻mask 一起傳入BERT 網(wǎng)絡(luò)。由于視頻幀特征和文本特征存在空間異質(zhì)化問題，在視頻幀特征和Embedding層之間添加一個(gè)線性層來緩解空間異質(zhì)化問題。將BERT Encoder 的最后一個(gè)隱藏層參數(shù)分別傳給MLM Head和Mean Pooling，得到預(yù)測(cè)結(jié)果和MLM損失。模型結(jié)構(gòu)如圖3所示。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集采用2022中國高校計(jì)算機(jī)大賽的數(shù)據(jù)集，該數(shù)據(jù)集采集來自微信視頻號(hào)的短視頻數(shù)據(jù)，包含了十萬量級(jí)的標(biāo)注數(shù)據(jù)。具體數(shù)據(jù)格式描述如表1所示。

表1 多模態(tài)數(shù)據(jù)集描述

其中，frames_feature 是包含float list 類型的視頻幀特征，如：[[0.89,1.86,-4.67,-4.38,…],[0.13,1.11,-2.12,-3.24,…],]，視頻幀特征是使用預(yù)訓(xùn)練模型每秒抽取一幀提取，每個(gè)視頻最多提供前32幀的特征，超出的部分直接舍棄。ocr是包含dict list類型的視頻OCR 識(shí)別，如：[“{time”:0,“text”:“蘇炳添創(chuàng)造新紀(jì)錄榮獲小組第一”},…]，該字段為一個(gè)列表，記錄了不同時(shí)刻的OCR 識(shí)別結(jié)果，相鄰幀的重復(fù)識(shí)別已被去除，最多提供前32秒的OCR結(jié)果，可能存在空值。

3.2 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集預(yù)處理

實(shí)驗(yàn)基于PyTorch1.11 實(shí)現(xiàn)，所有實(shí)現(xiàn)均采用CPU：Intel(R)Xeon(R)Gold 5118 CPU@2.30GHz(4核）和一塊GPU：Tesla V100-32G Specs 進(jìn)行計(jì)算加速，在移動(dòng)云上進(jìn)行實(shí)驗(yàn)。

本文通過對(duì)短視頻標(biāo)題、音頻轉(zhuǎn)文本識(shí)別結(jié)果以及視頻OCR識(shí)別結(jié)果進(jìn)行模態(tài)融合，采用了多種拼接和截?cái)喾绞竭M(jìn)行多次實(shí)驗(yàn)，取最優(yōu)的截?cái)喾绞阶鳛槠唇臃桨浮?/p>

3.3 評(píng)價(jià)指標(biāo)

本文使用F1macro和F1micro作為評(píng)價(jià)指標(biāo)，由于涉及兩級(jí)分類，最終評(píng)價(jià)指標(biāo)取一級(jí)分類的F1macrol1分?jǐn)?shù)和F1microl1分?jǐn)?shù)以及二級(jí)分類的F1macrol2分?jǐn)?shù)和F1microl2分?jǐn)?shù)的平均值[7]。具體公式如下:

3.4 不同特征截取方案的實(shí)驗(yàn)對(duì)比

在ernie-1.0[6]預(yù)訓(xùn)練權(quán)重下，單獨(dú)對(duì)文本部分進(jìn)行訓(xùn)練，實(shí)驗(yàn)結(jié)果如表2 所示。表2 中，title 表示短視頻標(biāo)題，asr 表示音頻轉(zhuǎn)文本識(shí)別結(jié)果，ocr 表示視頻OCR 識(shí)別結(jié)果，表2 中列出了僅title、title 與asr 拼接、title與ocr拼接，以及title、asr與ocr拼接四種方式訓(xùn)練后得到的評(píng)分結(jié)果。

3.5 數(shù)據(jù)清洗前后的實(shí)驗(yàn)對(duì)比

原始數(shù)據(jù)存在一些臟數(shù)據(jù)，比如無意義文本、裝飾性字符等，因此設(shè)計(jì)了一個(gè)刪除特殊符號(hào)的模塊，在傳入網(wǎng)絡(luò)前進(jìn)行數(shù)據(jù)清洗。具體實(shí)現(xiàn)如下：

實(shí)驗(yàn)結(jié)果如表3 所示。實(shí)驗(yàn)表明，該數(shù)據(jù)清洗模塊對(duì)網(wǎng)絡(luò)評(píng)估結(jié)果有一定提升。

3.6 改進(jìn)模型結(jié)構(gòu)的有效性

對(duì)基線模型和本文提出改進(jìn)的模型結(jié)構(gòu)分別采用相同的預(yù)訓(xùn)練權(quán)重進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)得到基線模型的評(píng)分結(jié)果為0.581，改進(jìn)的模型結(jié)構(gòu)的評(píng)分為0.656。實(shí)驗(yàn)表明，采用改進(jìn)的模型結(jié)構(gòu)對(duì)評(píng)估結(jié)果有顯著提升。

4 結(jié)束語

本文通過在真實(shí)場(chǎng)景的大數(shù)據(jù)集上對(duì)改進(jìn)網(wǎng)絡(luò)的多個(gè)方案進(jìn)行消融實(shí)驗(yàn)，發(fā)現(xiàn)在采用ERNIE預(yù)訓(xùn)練權(quán)重的改進(jìn)網(wǎng)絡(luò)上采用MLM和指數(shù)平均移動(dòng)技術(shù)并加以對(duì)抗訓(xùn)練，通過共享Embedding 層的權(quán)重并加以參數(shù)微調(diào)，使得網(wǎng)絡(luò)評(píng)估結(jié)果達(dá)到最優(yōu)分?jǐn)?shù)，獲得了接近SOTA的效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡