国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)數(shù)據(jù)融合的短視頻分類研究

2023-11-06 09:38:48陳小娥陳德濤
電腦知識(shí)與技術(shù) 2023年25期
關(guān)鍵詞:模態(tài)分?jǐn)?shù)特征

陳小娥,陳德濤

(福建船政交通職業(yè)學(xué)院信息與智慧交通學(xué)院,福建福州 350001)

0 引言

近年來,短視頻廣泛出現(xiàn)在各種社交平臺(tái)上,其熱度呈爆炸式增長。短視頻具有時(shí)間短、表現(xiàn)形式多樣、信息承載量高等特點(diǎn),用戶可以輕松地利用碎片時(shí)間進(jìn)行獲取和分享,深受用戶歡迎。通過對(duì)短視頻進(jìn)行分類,識(shí)別用戶特征,了解用戶興趣和需求,從而進(jìn)行定向推薦或營銷具有巨大的商業(yè)價(jià)值。

常見的短視頻通常具有文本、語音、視頻三種模態(tài)的信息,在不同語義分類體系中發(fā)揮著相互促進(jìn)、相互補(bǔ)充的作用,合理利用好多模態(tài)的信息進(jìn)行多角度的理解才能準(zhǔn)確地對(duì)短視頻進(jìn)行分類。

本文通過對(duì)短視頻標(biāo)題、音頻轉(zhuǎn)文本識(shí)別結(jié)果以及視頻OCR識(shí)別結(jié)果進(jìn)行模態(tài)融合。同時(shí),由于考慮到真實(shí)場(chǎng)景數(shù)據(jù)集中模態(tài)缺失的問題,考慮采用jieba分詞填充空缺進(jìn)行實(shí)驗(yàn),并對(duì)無關(guān)信息進(jìn)行清洗,降低臟數(shù)據(jù)對(duì)模型訓(xùn)練效果的影響。通過對(duì)基線模型進(jìn)行改進(jìn),包括在權(quán)重共享的Embedding 和非權(quán)重共享的Embedding 上使用Early-Fusion 等方式,同時(shí)結(jié)合文本特征和視頻特征進(jìn)行提升,并進(jìn)行驗(yàn)證試驗(yàn)來驗(yàn)證改進(jìn)的有效性。

1 相關(guān)研究與工作基礎(chǔ)

1.1 語言序列模型

2018 年,Devlin 等人[1]提出了BERT 模型,并在11個(gè)自然語言處理任務(wù)中獲得了顯著的提升。BERT模型的目標(biāo)是利用大規(guī)模無標(biāo)注語料訓(xùn)練獲得文本的語義表示,然后再將文本的語義表示在特定NLP任務(wù)中作微調(diào),最終應(yīng)用于該NLP任務(wù)。

Devlin提出的BERT模型原文是在英文數(shù)據(jù)集上訓(xùn)練的,2019 年,哈工大訊飛聯(lián)合研究院采用WWM(Whole Word Masking) 技術(shù)針對(duì)中文環(huán)境進(jìn)行優(yōu)化,實(shí)現(xiàn)了中文的全詞Mask[2],更符合中文語境;并于2020年提出MacBERT[3],使用糾錯(cuò)型掩碼MLM as correction(Mac)的方法對(duì)中文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,緩解了預(yù)訓(xùn)練與下游任務(wù)不一致的問題。

1.2 SE模塊

SE 模塊來自SENet(Squeeze-and-Excitation Networks)[4],SE模塊是一個(gè)簡單的網(wǎng)絡(luò)子結(jié)構(gòu),可以方便地插入其他網(wǎng)絡(luò)增強(qiáng)網(wǎng)絡(luò)表達(dá)能力。文中將SE block加入ResNext 中,在ILSVRC 2017 獲得top-1,SE 模塊結(jié)構(gòu)如圖1所示。

圖1 SE模塊結(jié)構(gòu)

將輸入特征使用線性函數(shù)壓縮成channel/SE_ratio 大小的特征,經(jīng)過ReLU 激活函數(shù)后再將特征傳入用于特征激發(fā)的線性層,將特征擴(kuò)張成channel大小,最后經(jīng)過Sigmoid 函數(shù)后與原始輸入相乘,得到模塊輸出結(jié)果。

1.3 微觀F1分?jǐn)?shù)

精確率指的是被認(rèn)為正的樣本中,實(shí)際上有多少是正樣本,用于衡量模型正確預(yù)測(cè)的概率,精確率的公式如下:

召回率指的是有多少正樣本被找出來,召回率的公式如下:

所有類別的精確率和召回率可以表示為:

微觀F1分?jǐn)?shù)可以表示為:

微觀F1 分?jǐn)?shù)考慮了各種類別,適用于數(shù)據(jù)分布不平衡的情況,類別數(shù)量較多對(duì)F1的影響會(huì)較大。

1.4 宏觀F1分?jǐn)?shù)

第i類的精確率和召回率公式可以表示為:

各個(gè)類別的精確度和召回率均值為:

宏觀F1分?jǐn)?shù)可以表示為:

宏觀F1 分?jǐn)?shù)對(duì)各類別的Precision和Recall求平均,Precision和Recall較高的類別對(duì)F1的影響會(huì)較大。

2 基于多模態(tài)融合的短視頻分類算法

2.1 基線模型

基線模型對(duì)兩個(gè)特征分別做處理,將視頻標(biāo)題傳入BERT模塊得到文本特征bert_embedding,將視頻幀特征傳入NextVLAD[5]模塊融合視頻幀特征,然后將融合的視頻幀特征傳入SENet模塊以增強(qiáng)融合的視頻幀特征,得到vision_embedding,將bert_embedding 和vision_embedding 一起傳入ConcatDenseSE 模塊融合兩種模態(tài)的特征,最后將融合的特征通過一個(gè)線性層作為分類頭得到多模態(tài)的分類結(jié)果,模型結(jié)構(gòu)如圖2所示。

2.2 改進(jìn)的多模態(tài)融合網(wǎng)絡(luò)結(jié)構(gòu)

本文將視頻標(biāo)題、視頻幀OCR、語音轉(zhuǎn)文本數(shù)據(jù)進(jìn)行拼接,構(gòu)成文本模態(tài)信息,然后對(duì)文本模態(tài)信息進(jìn)行Mask,將經(jīng)過Mask 的文本模態(tài)信息和視頻幀模態(tài)信息在BERT Embedding 進(jìn)行Early Fusion,和合并的文本mask 和視頻mask 一起傳入BERT 網(wǎng)絡(luò)。由于視頻幀特征和文本特征存在空間異質(zhì)化問題,在視頻幀特征和Embedding層之間添加一個(gè)線性層來緩解空間異質(zhì)化問題。將BERT Encoder 的最后一個(gè)隱藏層參數(shù)分別傳給MLM Head和Mean Pooling,得到預(yù)測(cè)結(jié)果和MLM損失。模型結(jié)構(gòu)如圖3所示。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集采用2022中國高校計(jì)算機(jī)大賽的數(shù)據(jù)集,該數(shù)據(jù)集采集來自微信視頻號(hào)的短視頻數(shù)據(jù),包含了十萬量級(jí)的標(biāo)注數(shù)據(jù)。具體數(shù)據(jù)格式描述如表1所示。

表1 多模態(tài)數(shù)據(jù)集描述

其中,frames_feature 是包含float list 類型的視頻幀特征,如:[[0.89,1.86,-4.67,-4.38,…],[0.13,1.11,-2.12,-3.24,…],],視頻幀特征是使用預(yù)訓(xùn)練模型每秒抽取一幀提取,每個(gè)視頻最多提供前32幀的特征,超出的部分直接舍棄。ocr是包含dict list類型的視頻OCR 識(shí)別,如:[“{time”:0,“text”:“蘇炳添創(chuàng)造新紀(jì)錄榮獲小組第一”},…],該字段為一個(gè)列表,記錄了不同時(shí)刻的OCR 識(shí)別結(jié)果,相鄰幀的重復(fù)識(shí)別已被去除,最多提供前32秒的OCR結(jié)果,可能存在空值。

3.2 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集預(yù)處理

實(shí)驗(yàn)基于PyTorch1.11 實(shí)現(xiàn),所有實(shí)現(xiàn)均采用CPU:Intel(R)Xeon(R)Gold 5118 CPU@2.30GHz(4核)和一塊GPU:Tesla V100-32G Specs 進(jìn)行計(jì)算加速,在移動(dòng)云上進(jìn)行實(shí)驗(yàn)。

本文通過對(duì)短視頻標(biāo)題、音頻轉(zhuǎn)文本識(shí)別結(jié)果以及視頻OCR識(shí)別結(jié)果進(jìn)行模態(tài)融合,采用了多種拼接和截?cái)喾绞竭M(jìn)行多次實(shí)驗(yàn),取最優(yōu)的截?cái)喾绞阶鳛槠唇臃桨浮?/p>

3.3 評(píng)價(jià)指標(biāo)

本文使用F1macro和F1micro作為評(píng)價(jià)指標(biāo),由于涉及兩級(jí)分類,最終評(píng)價(jià)指標(biāo)取一級(jí)分類的F1macrol1分?jǐn)?shù)和F1microl1分?jǐn)?shù)以及二級(jí)分類的F1macrol2分?jǐn)?shù)和F1microl2分?jǐn)?shù)的平均值[7]。具體公式如下:

3.4 不同特征截取方案的實(shí)驗(yàn)對(duì)比

在ernie-1.0[6]預(yù)訓(xùn)練權(quán)重下,單獨(dú)對(duì)文本部分進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表2 所示。表2 中,title 表示短視頻標(biāo)題,asr 表示音頻轉(zhuǎn)文本識(shí)別結(jié)果,ocr 表示視頻OCR 識(shí)別結(jié)果,表2 中列出了僅title、title 與asr 拼接、title與ocr拼接,以及title、asr與ocr拼接四種方式訓(xùn)練后得到的評(píng)分結(jié)果。

3.5 數(shù)據(jù)清洗前后的實(shí)驗(yàn)對(duì)比

原始數(shù)據(jù)存在一些臟數(shù)據(jù),比如無意義文本、裝飾性字符等,因此設(shè)計(jì)了一個(gè)刪除特殊符號(hào)的模塊,在傳入網(wǎng)絡(luò)前進(jìn)行數(shù)據(jù)清洗。具體實(shí)現(xiàn)如下:

實(shí)驗(yàn)結(jié)果如表3 所示。實(shí)驗(yàn)表明,該數(shù)據(jù)清洗模塊對(duì)網(wǎng)絡(luò)評(píng)估結(jié)果有一定提升。

3.6 改進(jìn)模型結(jié)構(gòu)的有效性

對(duì)基線模型和本文提出改進(jìn)的模型結(jié)構(gòu)分別采用相同的預(yù)訓(xùn)練權(quán)重進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)得到基線模型的評(píng)分結(jié)果為0.581,改進(jìn)的模型結(jié)構(gòu)的評(píng)分為0.656。實(shí)驗(yàn)表明,采用改進(jìn)的模型結(jié)構(gòu)對(duì)評(píng)估結(jié)果有顯著提升。

4 結(jié)束語

本文通過在真實(shí)場(chǎng)景的大數(shù)據(jù)集上對(duì)改進(jìn)網(wǎng)絡(luò)的多個(gè)方案進(jìn)行消融實(shí)驗(yàn),發(fā)現(xiàn)在采用ERNIE預(yù)訓(xùn)練權(quán)重的改進(jìn)網(wǎng)絡(luò)上采用MLM和指數(shù)平均移動(dòng)技術(shù)并加以對(duì)抗訓(xùn)練,通過共享Embedding 層的權(quán)重并加以參數(shù)微調(diào),使得網(wǎng)絡(luò)評(píng)估結(jié)果達(dá)到最優(yōu)分?jǐn)?shù),獲得了接近SOTA的效果。

猜你喜歡
模態(tài)分?jǐn)?shù)特征
分?jǐn)?shù)的由來
無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
如何表達(dá)“特征”
不忠誠的四個(gè)特征
可怕的分?jǐn)?shù)
抓住特征巧觀察
算分?jǐn)?shù)
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡支梁的抗彎剛度
堆龙德庆县| 柳州市| 报价| 会东县| 泽州县| 云安县| 安阳县| 金川县| 浦江县| 洮南市| 凤翔县| 黄骅市| 建德市| 淄博市| 尤溪县| 兰考县| 东阿县| 六安市| 洪洞县| 建昌县| 台东市| 大丰市| 宝应县| 博野县| 吴堡县| 罗甸县| 黄石市| 镇坪县| 溧阳市| 浏阳市| 海晏县| 原平市| 来安县| 信宜市| 措美县| 汾阳市| 长沙市| 高唐县| 桦南县| 沽源县| 都匀市|