陳小娥,陳德濤
(福建船政交通職業(yè)學(xué)院信息與智慧交通學(xué)院,福建福州 350001)
近年來,短視頻廣泛出現(xiàn)在各種社交平臺(tái)上,其熱度呈爆炸式增長。短視頻具有時(shí)間短、表現(xiàn)形式多樣、信息承載量高等特點(diǎn),用戶可以輕松地利用碎片時(shí)間進(jìn)行獲取和分享,深受用戶歡迎。通過對(duì)短視頻進(jìn)行分類,識(shí)別用戶特征,了解用戶興趣和需求,從而進(jìn)行定向推薦或營銷具有巨大的商業(yè)價(jià)值。
常見的短視頻通常具有文本、語音、視頻三種模態(tài)的信息,在不同語義分類體系中發(fā)揮著相互促進(jìn)、相互補(bǔ)充的作用,合理利用好多模態(tài)的信息進(jìn)行多角度的理解才能準(zhǔn)確地對(duì)短視頻進(jìn)行分類。
本文通過對(duì)短視頻標(biāo)題、音頻轉(zhuǎn)文本識(shí)別結(jié)果以及視頻OCR識(shí)別結(jié)果進(jìn)行模態(tài)融合。同時(shí),由于考慮到真實(shí)場(chǎng)景數(shù)據(jù)集中模態(tài)缺失的問題,考慮采用jieba分詞填充空缺進(jìn)行實(shí)驗(yàn),并對(duì)無關(guān)信息進(jìn)行清洗,降低臟數(shù)據(jù)對(duì)模型訓(xùn)練效果的影響。通過對(duì)基線模型進(jìn)行改進(jìn),包括在權(quán)重共享的Embedding 和非權(quán)重共享的Embedding 上使用Early-Fusion 等方式,同時(shí)結(jié)合文本特征和視頻特征進(jìn)行提升,并進(jìn)行驗(yàn)證試驗(yàn)來驗(yàn)證改進(jìn)的有效性。
2018 年,Devlin 等人[1]提出了BERT 模型,并在11個(gè)自然語言處理任務(wù)中獲得了顯著的提升。BERT模型的目標(biāo)是利用大規(guī)模無標(biāo)注語料訓(xùn)練獲得文本的語義表示,然后再將文本的語義表示在特定NLP任務(wù)中作微調(diào),最終應(yīng)用于該NLP任務(wù)。
Devlin提出的BERT模型原文是在英文數(shù)據(jù)集上訓(xùn)練的,2019 年,哈工大訊飛聯(lián)合研究院采用WWM(Whole Word Masking) 技術(shù)針對(duì)中文環(huán)境進(jìn)行優(yōu)化,實(shí)現(xiàn)了中文的全詞Mask[2],更符合中文語境;并于2020年提出MacBERT[3],使用糾錯(cuò)型掩碼MLM as correction(Mac)的方法對(duì)中文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,緩解了預(yù)訓(xùn)練與下游任務(wù)不一致的問題。
SE 模塊來自SENet(Squeeze-and-Excitation Networks)[4],SE模塊是一個(gè)簡單的網(wǎng)絡(luò)子結(jié)構(gòu),可以方便地插入其他網(wǎng)絡(luò)增強(qiáng)網(wǎng)絡(luò)表達(dá)能力。文中將SE block加入ResNext 中,在ILSVRC 2017 獲得top-1,SE 模塊結(jié)構(gòu)如圖1所示。
圖1 SE模塊結(jié)構(gòu)
將輸入特征使用線性函數(shù)壓縮成channel/SE_ratio 大小的特征,經(jīng)過ReLU 激活函數(shù)后再將特征傳入用于特征激發(fā)的線性層,將特征擴(kuò)張成channel大小,最后經(jīng)過Sigmoid 函數(shù)后與原始輸入相乘,得到模塊輸出結(jié)果。
精確率指的是被認(rèn)為正的樣本中,實(shí)際上有多少是正樣本,用于衡量模型正確預(yù)測(cè)的概率,精確率的公式如下:
召回率指的是有多少正樣本被找出來,召回率的公式如下:
所有類別的精確率和召回率可以表示為:
微觀F1分?jǐn)?shù)可以表示為:
微觀F1 分?jǐn)?shù)考慮了各種類別,適用于數(shù)據(jù)分布不平衡的情況,類別數(shù)量較多對(duì)F1的影響會(huì)較大。
第i類的精確率和召回率公式可以表示為:
各個(gè)類別的精確度和召回率均值為:
宏觀F1分?jǐn)?shù)可以表示為:
宏觀F1 分?jǐn)?shù)對(duì)各類別的Precision和Recall求平均,Precision和Recall較高的類別對(duì)F1的影響會(huì)較大。
基線模型對(duì)兩個(gè)特征分別做處理,將視頻標(biāo)題傳入BERT模塊得到文本特征bert_embedding,將視頻幀特征傳入NextVLAD[5]模塊融合視頻幀特征,然后將融合的視頻幀特征傳入SENet模塊以增強(qiáng)融合的視頻幀特征,得到vision_embedding,將bert_embedding 和vision_embedding 一起傳入ConcatDenseSE 模塊融合兩種模態(tài)的特征,最后將融合的特征通過一個(gè)線性層作為分類頭得到多模態(tài)的分類結(jié)果,模型結(jié)構(gòu)如圖2所示。
本文將視頻標(biāo)題、視頻幀OCR、語音轉(zhuǎn)文本數(shù)據(jù)進(jìn)行拼接,構(gòu)成文本模態(tài)信息,然后對(duì)文本模態(tài)信息進(jìn)行Mask,將經(jīng)過Mask 的文本模態(tài)信息和視頻幀模態(tài)信息在BERT Embedding 進(jìn)行Early Fusion,和合并的文本mask 和視頻mask 一起傳入BERT 網(wǎng)絡(luò)。由于視頻幀特征和文本特征存在空間異質(zhì)化問題,在視頻幀特征和Embedding層之間添加一個(gè)線性層來緩解空間異質(zhì)化問題。將BERT Encoder 的最后一個(gè)隱藏層參數(shù)分別傳給MLM Head和Mean Pooling,得到預(yù)測(cè)結(jié)果和MLM損失。模型結(jié)構(gòu)如圖3所示。
數(shù)據(jù)集采用2022中國高校計(jì)算機(jī)大賽的數(shù)據(jù)集,該數(shù)據(jù)集采集來自微信視頻號(hào)的短視頻數(shù)據(jù),包含了十萬量級(jí)的標(biāo)注數(shù)據(jù)。具體數(shù)據(jù)格式描述如表1所示。
表1 多模態(tài)數(shù)據(jù)集描述
其中,frames_feature 是包含float list 類型的視頻幀特征,如:[[0.89,1.86,-4.67,-4.38,…],[0.13,1.11,-2.12,-3.24,…],],視頻幀特征是使用預(yù)訓(xùn)練模型每秒抽取一幀提取,每個(gè)視頻最多提供前32幀的特征,超出的部分直接舍棄。ocr是包含dict list類型的視頻OCR 識(shí)別,如:[“{time”:0,“text”:“蘇炳添創(chuàng)造新紀(jì)錄榮獲小組第一”},…],該字段為一個(gè)列表,記錄了不同時(shí)刻的OCR 識(shí)別結(jié)果,相鄰幀的重復(fù)識(shí)別已被去除,最多提供前32秒的OCR結(jié)果,可能存在空值。
實(shí)驗(yàn)基于PyTorch1.11 實(shí)現(xiàn),所有實(shí)現(xiàn)均采用CPU:Intel(R)Xeon(R)Gold 5118 CPU@2.30GHz(4核)和一塊GPU:Tesla V100-32G Specs 進(jìn)行計(jì)算加速,在移動(dòng)云上進(jìn)行實(shí)驗(yàn)。
本文通過對(duì)短視頻標(biāo)題、音頻轉(zhuǎn)文本識(shí)別結(jié)果以及視頻OCR識(shí)別結(jié)果進(jìn)行模態(tài)融合,采用了多種拼接和截?cái)喾绞竭M(jìn)行多次實(shí)驗(yàn),取最優(yōu)的截?cái)喾绞阶鳛槠唇臃桨浮?/p>
本文使用F1macro和F1micro作為評(píng)價(jià)指標(biāo),由于涉及兩級(jí)分類,最終評(píng)價(jià)指標(biāo)取一級(jí)分類的F1macrol1分?jǐn)?shù)和F1microl1分?jǐn)?shù)以及二級(jí)分類的F1macrol2分?jǐn)?shù)和F1microl2分?jǐn)?shù)的平均值[7]。具體公式如下:
在ernie-1.0[6]預(yù)訓(xùn)練權(quán)重下,單獨(dú)對(duì)文本部分進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表2 所示。表2 中,title 表示短視頻標(biāo)題,asr 表示音頻轉(zhuǎn)文本識(shí)別結(jié)果,ocr 表示視頻OCR 識(shí)別結(jié)果,表2 中列出了僅title、title 與asr 拼接、title與ocr拼接,以及title、asr與ocr拼接四種方式訓(xùn)練后得到的評(píng)分結(jié)果。
原始數(shù)據(jù)存在一些臟數(shù)據(jù),比如無意義文本、裝飾性字符等,因此設(shè)計(jì)了一個(gè)刪除特殊符號(hào)的模塊,在傳入網(wǎng)絡(luò)前進(jìn)行數(shù)據(jù)清洗。具體實(shí)現(xiàn)如下:
實(shí)驗(yàn)結(jié)果如表3 所示。實(shí)驗(yàn)表明,該數(shù)據(jù)清洗模塊對(duì)網(wǎng)絡(luò)評(píng)估結(jié)果有一定提升。
對(duì)基線模型和本文提出改進(jìn)的模型結(jié)構(gòu)分別采用相同的預(yù)訓(xùn)練權(quán)重進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)得到基線模型的評(píng)分結(jié)果為0.581,改進(jìn)的模型結(jié)構(gòu)的評(píng)分為0.656。實(shí)驗(yàn)表明,采用改進(jìn)的模型結(jié)構(gòu)對(duì)評(píng)估結(jié)果有顯著提升。
本文通過在真實(shí)場(chǎng)景的大數(shù)據(jù)集上對(duì)改進(jìn)網(wǎng)絡(luò)的多個(gè)方案進(jìn)行消融實(shí)驗(yàn),發(fā)現(xiàn)在采用ERNIE預(yù)訓(xùn)練權(quán)重的改進(jìn)網(wǎng)絡(luò)上采用MLM和指數(shù)平均移動(dòng)技術(shù)并加以對(duì)抗訓(xùn)練,通過共享Embedding 層的權(quán)重并加以參數(shù)微調(diào),使得網(wǎng)絡(luò)評(píng)估結(jié)果達(dá)到最優(yōu)分?jǐn)?shù),獲得了接近SOTA的效果。