袁華 張逸帆 陳安皓
摘要:隨著互聯(lián)網(wǎng)的興盛和信息技術(shù)的飛速發(fā)展,大眾媒體開(kāi)始從以文字和圖像為主的形式逐漸向以視頻為主的形態(tài)演變,大量視頻數(shù)據(jù)不斷涌出。因此,能夠高效、及時(shí)地進(jìn)行視頻分類(lèi)和管理的視頻標(biāo)注成為時(shí)下一大熱門(mén)。視頻標(biāo)注本質(zhì)是序列到序列的轉(zhuǎn)換[1],特點(diǎn)在于視頻的內(nèi)容信息并不能用割裂的一幀幀的圖像數(shù)據(jù)來(lái)表征,而需要強(qiáng)調(diào)視頻前后的連續(xù)性和關(guān)聯(lián)性。此外,對(duì)于普通觀眾而言,視頻中附加的聲音信息同樣是接收和理解視頻內(nèi)容的關(guān)鍵要素。然而,現(xiàn)有的用于視頻標(biāo)注的神經(jīng)網(wǎng)絡(luò)大多沒(méi)有利用聲音信息來(lái)進(jìn)行標(biāo)注輸出。對(duì)此,該文提出一種基于S2VT模型的、融合聲音和圖像信息的神經(jīng)網(wǎng)絡(luò),運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)算法以及編碼解碼結(jié)構(gòu),對(duì)輸入的視頻進(jìn)行時(shí)序性學(xué)習(xí),并最終輸出一段有意義、便于理解的文字。在數(shù)據(jù)預(yù)處理方面,該文選擇從圖像信息中提取3D特征[2],使用業(yè)內(nèi)流行的MFCC算法將輸入的聲音部分轉(zhuǎn)化為聲音特征,最后將保存這兩個(gè)特征的矩陣有序拼接輸入神經(jīng)網(wǎng)絡(luò)中。該文針對(duì)最終模型輸出效果進(jìn)行了對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)在訓(xùn)練條件一致的情況下,添加了聲音特征的模型在處理含有聲音信息的視頻時(shí),能夠取得比不添加聲音特征時(shí)更好、更自然的語(yǔ)句輸出。
關(guān)鍵詞:視頻標(biāo)注;MFCC算法;聲音特征;3D特征
中圖分類(lèi)號(hào):TP37 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)33-0195-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 引言
視頻標(biāo)注是指機(jī)器自動(dòng)地用自然語(yǔ)言概括視頻內(nèi)容,是信息檢索和模式識(shí)別的熱點(diǎn)問(wèn)題。在信息化的今天,人手工識(shí)別大批量視頻的效率非常低下,視頻標(biāo)注提供了一條有效的途徑,可以幫助人們快速了解視頻的內(nèi)容,也可以用于視頻分類(lèi),用途十分廣泛。
由于深度學(xué)習(xí)很早就涉足機(jī)器翻譯,而機(jī)器翻譯原理上與視頻標(biāo)注有共通之處,因此研究人員一開(kāi)始就基于機(jī)器翻譯領(lǐng)域已經(jīng)成熟的編碼器一解碼器方案進(jìn)行設(shè)計(jì)。其中,編碼器一般使用卷積神經(jīng)網(wǎng)絡(luò),而解碼器則選用循環(huán)神經(jīng)網(wǎng)絡(luò),整個(gè)模型從輸入的圖像特征進(jìn)行學(xué)習(xí),以輸出視頻描述。
Venugopalan S在2015年提出了S2VT(Sequence to se-quence-Video to text)的序列到序列視頻標(biāo)注模型[3],并獲得了視頻標(biāo)注的第一名,在2015年到2019年的視頻標(biāo)注比賽中前三名基本是采用了該模型的變種。該模型就采用了目前最為主流的編碼一解碼框架,用CNN和LSTM組成編碼器,采用LSTM作為解碼器,可以用來(lái)處理變長(zhǎng)的輸入輸出。在此基礎(chǔ)上加入了注意力機(jī)制[4],在第一層的LSTM中加入了權(quán)重可以提升關(guān)鍵信息的注意力,在基于3D CNN-LSTM結(jié)構(gòu)的視頻標(biāo)注模型中[5],使用3D CNN網(wǎng)絡(luò)學(xué)習(xí)視頻的時(shí)序特征。
本文在融合圖像的基礎(chǔ)上,加入了視頻的聲音特征,旨在進(jìn)一步提高標(biāo)注的準(zhǔn)確率。其中聲音特征采用的是主流的MFCC方法提取,作為輸入的一部分。另一方面,我們研究了不同特征的兩種結(jié)合方式對(duì)結(jié)果的影響。
2 加入聲音特征的原因
聲音是視頻的一部分。圖像信息并不能完全等同于整個(gè)視頻的信息,而加入聲音特征可以更加完整地保存視頻的信息,這也與人們收看視頻時(shí)一般也會(huì)收聽(tīng)其聲音的方式一致。一方面,有些視頻只看圖像無(wú)法確定視頻的具體主題,更多的內(nèi)容由聲音提供。另一方面,當(dāng)圖像所提供的信息無(wú)法覆蓋細(xì)節(jié)時(shí),聲音可以提供視頻的細(xì)節(jié)信息,能讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多視頻的特征。綜上,加入聲音特征可以提高視頻標(biāo)注的準(zhǔn)確率、可以更好地理解視頻的內(nèi)容。
當(dāng)然,有些視頻的聲音與圖像關(guān)聯(lián)性較弱,要確定一個(gè)折中的文字描述比較困難。如果模型學(xué)習(xí)的視頻中大部分都是這樣的聲音與圖像弱相關(guān)的視頻的話(huà),會(huì)使得預(yù)測(cè)的效果不夠理想。這是選擇數(shù)據(jù)集時(shí)需要注意的地方。
3 MFCC方法[6]
為了實(shí)現(xiàn)對(duì)視頻中聲音信息的利用,我們需要將模擬信號(hào)形式的聲音信息轉(zhuǎn)化為能夠被神經(jīng)網(wǎng)絡(luò)讀取的矩陣。這其中涉及多個(gè)環(huán)節(jié),包括模數(shù)轉(zhuǎn)換、預(yù)加重和提取MFCC向量等。
模數(shù)轉(zhuǎn)換操作是后續(xù)對(duì)聲音信息進(jìn)行進(jìn)一步處理的基礎(chǔ)和前提,包括采樣和量化兩部分。采樣時(shí)按照一定的采樣頻率讀取聲音信息,以記錄采樣點(diǎn)幅值。量化時(shí)則將上述各采樣點(diǎn)的幅值化歸為特定幅值,以便于以數(shù)字形式存儲(chǔ)信號(hào)。
獲取了數(shù)字形式的聲音信息后,就可以對(duì)其進(jìn)行特征提取操作。但是由于低頻部分的能量往往高于高頻部分,而兩者包含的信息量卻并非如此,甚至對(duì)于視頻中的聲音信息來(lái)說(shuō),高頻部分往往還包含更多有效信息,諸如語(yǔ)音、音樂(lè)等。因此在將聲音轉(zhuǎn)為向量前需要加強(qiáng)高頻信息能量,以提高信息學(xué)習(xí)效率。同時(shí),由于頻率信息是主要關(guān)注對(duì)象,故我們選用離傅立葉變換來(lái)獲取頻譜。
特征提取方面,我們選用了當(dāng)前的主流方法:MFCC (MelFrequency Cepstral Coefficients,梅爾頻率倒譜系數(shù))。該方法主要參考了人耳對(duì)不同頻率的敏感度不同的特點(diǎn),在低頻部分mel系數(shù)與頻率呈線性關(guān)系,在高頻時(shí)則呈對(duì)數(shù)關(guān)系。通過(guò)這一步轉(zhuǎn)換,就能夠?qū)FT得到的頻譜轉(zhuǎn)換為mel頻譜,取對(duì)數(shù)后作逆變換即可得到MFCC系數(shù)。不過(guò),在獲取到MFCC系數(shù)后,我們還需對(duì)其進(jìn)行差分操作,以使得最終輸出的向量能夠反映時(shí)域連續(xù)性。
相對(duì)于其他常見(jiàn)的聲音特征提取方法,MFCC由于擁有對(duì)不同頻率的裁剪,可以獲得更好的性能和更精簡(jiǎn)的數(shù)據(jù)量。同時(shí),參考了人耳頻率響應(yīng)的MFCC也能夠幫助數(shù)據(jù)更好地反映實(shí)際包含的信息。
4 特征結(jié)合
在提取了視頻的2D特征、3D特征和聲音特征后,要將3個(gè)特征結(jié)合在一起作為網(wǎng)絡(luò)模型的輸入[7],但結(jié)合方式并不唯一。實(shí)踐中我們嘗試了將特征橫向拼接和縱向拼接兩種結(jié)合方式(見(jiàn)圖1),發(fā)現(xiàn)拼接方式對(duì)視頻標(biāo)注的準(zhǔn)確率有顯著的影響。
5 S2VT模型
S2VT模型是由兩個(gè)LSTM網(wǎng)絡(luò)疊加而成,其過(guò)程見(jiàn)圖2。
第一個(gè)LSTM將通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取到的幀特征向量作為輸入進(jìn)行逐個(gè)編碼。一旦讀取完所有的幀,第二個(gè)LSTM會(huì)逐個(gè)單詞地生成一個(gè)句子。幀和單詞表示的編碼和解碼工作將由其他網(wǎng)絡(luò)預(yù)處理完成。
其中代表了由編碼部分生成的中間語(yǔ)義向量,同時(shí)我們加入了Attention機(jī)制,即讓神經(jīng)網(wǎng)絡(luò)更加專(zhuān)注于某些特征。也就是說(shuō),編碼向量是經(jīng)過(guò)加權(quán)得到的,這樣也就能夠突出重點(diǎn)表達(dá)的內(nèi)容。另一方面解碼部分把作為輸入,最后得到最后的語(yǔ)義向量,再通過(guò)詞典得到最終的完整的句子即可。
6 實(shí)驗(yàn)研究
6.1 實(shí)驗(yàn)方案
本實(shí)驗(yàn)希望對(duì)以下兩個(gè)方面進(jìn)行探尋:
(1)如何拼接除圖像信息之外的其他信息,可以使得視頻標(biāo)注的準(zhǔn)確率最高;
(2)將有聲音的視頻中包含的聲音信息加入模型進(jìn)行訓(xùn)練后,視頻標(biāo)注的準(zhǔn)確率是否能夠提高。
以下是我們?cè)O(shè)計(jì)的三次實(shí)驗(yàn),以及據(jù)此做出的兩組對(duì)比:
實(shí)驗(yàn)方案1:
使用圖像信息、加入注意力機(jī)制、加入視頻的3D特征,除圖像信息之外的其他因素的特征與圖像信息橫向結(jié)合。
實(shí)驗(yàn)方案2:
使用圖像信息、加入注意力機(jī)制、加入視頻的3D特征,除圖像信息之外的其他因素的特征與圖像信息豎向結(jié)合。
實(shí)驗(yàn)方案3:
既使用圖像信息也使用聲音信息、加入注意力機(jī)制、加入視頻的3D特征,除圖像信息之外的其他因素的特征與圖像信息橫向結(jié)合。此外,如果一個(gè)視頻的聲音很小甚至沒(méi)有聲音,此視頻的聲音信息不加入模型訓(xùn)練。
6.2 實(shí)驗(yàn)數(shù)據(jù)記錄
我們用不同的評(píng)測(cè)方法(BLEU、METEOR> ROUGE_L、CI-DEr)去評(píng)價(jià)不同的實(shí)驗(yàn)方案[8],得到準(zhǔn)確率見(jiàn)表1~表3。
6.3實(shí)驗(yàn)數(shù)據(jù)處理
根據(jù)表1~表3中的數(shù)據(jù),做出圖像,見(jiàn)圖3和圖4。
6.3.1對(duì)比:橫向拼接與豎向拼接
6.3.2對(duì)比:不加入聲音和加入聲音
6.4 實(shí)驗(yàn)結(jié)論
根據(jù)對(duì)比1,我們可以得知,橫向拼接相較于豎向拼接可以獲得更好的輸出效果和準(zhǔn)確率。這與我們根據(jù)數(shù)據(jù)結(jié)構(gòu)模型分析所得出的推論相符;
根據(jù)對(duì)比2,我們注意到盡管加入聲音后的整體數(shù)據(jù)大體與加入前持平,但是對(duì)于輸出語(yǔ)句流暢性和連貫性要求較高的BLEU-4的準(zhǔn)確率卻得到了提升,這表明加入聲音訓(xùn)練的嘗試初有成效。此外,在對(duì)單一視頻進(jìn)行測(cè)試時(shí),我們發(fā)現(xiàn)加入聲音所得的模型對(duì)于有聲音的視頻的輸出有了大幅的改善。
7 總結(jié)
本文中提出了一種融合視頻圖像和聲音信息的標(biāo)注方法,采用了S2VTAtt模型,最大的創(chuàng)新在于加入了聲音特征以及考慮了不同特征拼接方式帶來(lái)的影響。其中,加入聲音特征并沒(méi)有大幅度提高標(biāo)識(shí)的準(zhǔn)確度:在1-gram匹配規(guī)則下準(zhǔn)確率有所下降,在4-gram匹配規(guī)則準(zhǔn)確率有所上升。一方面這是由于聲音特征相對(duì)于圖像特征非常小;另一方面聲音只是背景音樂(lè),很多場(chǎng)景中只能體現(xiàn)一定的氛圍,無(wú)法凸顯出部分細(xì)節(jié)的信息。
實(shí)驗(yàn)反映了聲音特征的特點(diǎn):一方面S2VTAtt模型無(wú)法從整體上理解蘆音的內(nèi)容,將重心放在了無(wú)關(guān)的細(xì)節(jié)上,所以生成句子含有不相關(guān)的詞匯導(dǎo)致1-gram匹配準(zhǔn)確率下降,另一方面當(dāng)模型抓住了聲音所反映的細(xì)節(jié)信息可以提高整個(gè)句子的理解,所以4-gram匹配準(zhǔn)確率反而會(huì)上升。
文中采用MFCC方法提取音頻特征,體現(xiàn)了聲音的頻率和能量在時(shí)間軸上的分布,由于MSR-VTT數(shù)據(jù)集的種類(lèi)太多,所以很難有效地抓住局部的主要細(xì)節(jié),導(dǎo)致混入了很多不相關(guān)的成分。
參考文獻(xiàn):
[1] Venugopalan S,Rohrbach M,Don-ahue J,et al.Sequenceto Sequence -Video to Text[J].2015.
[2] Hara K,Kataoka H,Satoh Y.Learn-ing Spatio-TemporalFeatures with 3DResidual Net works for Action Recogni-tion[J].2017.
[3] Venugopalan S, Rohrbach M,Donahue J, et aI.Sequence to se-quence - video to text[C]//2015 lEEE Intemational Confer-ence on Computer Vision (ICCV).December 7-13,2015,Santia-go,Chile.lEEE,2015:45 34-4542.
[4] Laokulrat N,Plian S,Nishida N,etal. Generating video de-scription using sequence-to-sequence model withtemporal at-tention[C]//Proceedings ofCOLING 2016, the 26th Internation-al Con- ference on Computational Lin-guistics: Technical Pa-pers。2016: 44-52.
[5] Yao Li, Toi'abi A,Cho K,et al.De-scribing videos by exploit-ing tempo-ral structure[C]//Pro-ceedings of thelEEE interna-tional conference on com-puter vision, 2015: 4507-4515.
[6] Gupta, Shikha and .Jaafar, Jafreeza-1 and F at imah, et c.FE ATU RE EX-TRACTlON USING MFCC[Jl.Signal& ImageProcessing: An InternationaIJournal,2013,4(4): 101-108.
[7]張曉宇,張?jiān)迫A.基于融合特征的視頻關(guān)鍵幀提取方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(11):176-181.
[8]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].2版.北京:清華大學(xué)出版社,2013.
【通聯(lián)編輯:代影】
作者簡(jiǎn)介:袁華(1999-),男,江蘇昆山人,東南大學(xué)吳健雄學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),本科生;張逸帆(1999-),男,江蘇昆山人,東南大學(xué)信息科學(xué)與工程學(xué)院信息工程專(zhuān)業(yè),本科生;陳安皓(1998-),男,江蘇鹽城人,東南大學(xué)吳健雄學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),本科生。