梁 銳,朱清新,廖淑嬌,牛新征
1.電子科技大學(xué) 信息與軟件工程學(xué)院, 成都 610054; 2.電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 成都 610054)(*通信作者電子郵箱qxzhu@uestc.edu.cn)
基于多特征融合的深度視頻自然語言描述方法
梁 銳1,朱清新1*,廖淑嬌1,牛新征2
1.電子科技大學(xué) 信息與軟件工程學(xué)院, 成都 610054; 2.電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 成都 610054)(*通信作者電子郵箱qxzhu@uestc.edu.cn)
針對(duì)計(jì)算機(jī)對(duì)視頻進(jìn)行自動(dòng)標(biāo)注和描述準(zhǔn)確率不高的問題,提出一種基于多特征融合的深度視頻自然語言描述的方法。該方法提取視頻幀序列的空間特征、運(yùn)動(dòng)特征、視頻特征,進(jìn)行特征的融合,使用融合的特征訓(xùn)練基于長(zhǎng)短期記憶(LSTM)的自然語言描述模型。通過不同的特征組合訓(xùn)練多個(gè)自然語言描述模型,在測(cè)試時(shí)再進(jìn)行后期融合,即先選擇一個(gè)模型獲取當(dāng)前輸入的多個(gè)可能的輸出,再使用其他模型計(jì)算當(dāng)前輸出的概率,對(duì)這些輸出的概率進(jìn)行加權(quán)求和,取概率最高的作為輸出。此方法中的特征融合的方法包括前期融合:特征的拼接、不同特征對(duì)齊加權(quán)求和;后期融合:不同特征模型輸出的概率的加權(quán)融合,使用前期融合的特征對(duì)已生成的LSTM模型進(jìn)行微調(diào)。在標(biāo)準(zhǔn)測(cè)試集MSVD上進(jìn)行實(shí)驗(yàn),結(jié)果表明:融合不同類型的特征方法能夠獲得更高評(píng)測(cè)分值的提升;相同類型的特征融合的評(píng)測(cè)結(jié)果不會(huì)高于單個(gè)特征的分值;使用特征對(duì)預(yù)訓(xùn)練好的模型進(jìn)行微調(diào)的方法效果較差。其中使用前期融合與后期融合相結(jié)合的方法生成的視頻自然語言描述得到的METEOR評(píng)測(cè)分值為0.302,比目前查到的最高值高1.34%,表明該方法可以提升視頻自動(dòng)描述的準(zhǔn)確性。
深度學(xué)習(xí);特征融合;視頻語義分析;視頻描述;遞歸神經(jīng)網(wǎng)絡(luò);長(zhǎng)短時(shí)記憶
在移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)的時(shí)代背景下,智能終端的普及與社交網(wǎng)絡(luò)的發(fā)展,使得互聯(lián)網(wǎng)多媒體數(shù)據(jù)(圖片、視頻)呈現(xiàn)爆發(fā)式增長(zhǎng),計(jì)算機(jī)視覺已成為一個(gè)熱點(diǎn)研究領(lǐng)域,以往完全依賴人工對(duì)多媒體數(shù)據(jù)進(jìn)行標(biāo)注和描述已成為一項(xiàng)不可能的任務(wù)。本文重點(diǎn)關(guān)注視頻語義的自然語言自動(dòng)描述研究,該方向的研究具有較高的應(yīng)用價(jià)值和現(xiàn)實(shí)意義,可廣泛應(yīng)用于智能安防、視頻檢索、人機(jī)交互、虛擬現(xiàn)實(shí)以及幫助盲人理解電影視頻等。用自然語言對(duì)視頻進(jìn)行描述這一項(xiàng)任務(wù)對(duì)于正常的人來說非常簡(jiǎn)單,但是對(duì)于計(jì)算機(jī)來說卻是一項(xiàng)很難的任務(wù),它要求提出的方法能夠跨越低層的像素特征到高層語義的語義鴻溝,語義鴻溝的存在導(dǎo)致了計(jì)算機(jī)自動(dòng)描述視頻準(zhǔn)確率低的問題。針對(duì)這一現(xiàn)狀問題,在閱讀大量文獻(xiàn)與實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)下,本文提出一種端到端的、基于長(zhǎng)短期記憶(Long-Short Term Memory, LSTM)的自然語言描述的方法。方法首先提取視頻幀序列的各類特征,包括:通過預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型(如:VGG16(Visual Geometry Group)[1]、AlexNet[2]、GoogleNet[3]、ResNet[4]等)提取視頻中幀序列圖片的特征,并提取運(yùn)動(dòng)特征如光流(Optical Flow, OP),以及視頻特征如密集跟蹤軌跡(Dense Trajectory, DT)等;采用前期融合的方法融合提取到的多種特征,使用這些特征及融合后的特征的組合與視頻的自然語言描述文本訓(xùn)練基于LSTM的視頻自然語言描述模型;在生成視頻自然語言描述時(shí)使用不同特征訓(xùn)練的模型進(jìn)行后期融合,獲得最終的自然語言描述,實(shí)現(xiàn)低層特征與自然語言的直接映射。此過程即輸入視頻,直接生成包含高層語義對(duì)象、符合自然語言語義規(guī)則的自然語言描述。本文使用深度學(xué)習(xí)框架Caffe[5]來完成文中描述的所有視頻幀序列的CNN特征提取和LSTM視頻自然語言描述模型的訓(xùn)練,為了提高特征的提取與模型的訓(xùn)練速度,采用了圖形處理器(Graphics Processing Unit,GPU)進(jìn)行并行計(jì)算,以提升運(yùn)算速度。在微軟視頻描述(Microsoft Video Description, MSVD)[6]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文方法在主流自然語言評(píng)測(cè)標(biāo)準(zhǔn)中取得了較好的評(píng)測(cè)結(jié)果(詳見第3章),表明了本文方法在提升視頻自然語言描述準(zhǔn)確性上的有效性。
近年來,對(duì)于圖片和視頻進(jìn)行自然語言描述受到了廣泛的關(guān)注,尤其是2015年ImageNet大規(guī)模視覺識(shí)別的挑戰(zhàn)(ImageNet Large Scale Visual Recognition Competition, ILSVRC) 和COCO(Common Object in COntext)說明大賽,2015年大規(guī)模電影描述挑戰(zhàn)賽(Large Scale Movie Description Challenge, LSMDC),吸引了許多研究人員對(duì)該領(lǐng)域的關(guān)注,并在圖像和視頻文本描述方面發(fā)表了一系列的研究成果。
1.1 圖片文本描述
由圖片直接生成文本描述的方法主要分為兩類。一類為管道方法,首先通過建立模型學(xué)習(xí)到圖片中視覺對(duì)象對(duì)應(yīng)的單詞;再通過基于一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)或LSTM的自然語言模型,將視覺對(duì)象對(duì)應(yīng)的單詞組合成一個(gè)句子來描述圖片;最后通過相關(guān)性模型對(duì)句子進(jìn)行打分排名,這種方法的兩個(gè)部分可以單獨(dú)進(jìn)行調(diào)試,比較靈活。另一類為端對(duì)端的方法,即通過一個(gè)模型直接將圖片轉(zhuǎn)換到文本的描述。Google基于CNN和RNN開發(fā)了一個(gè)圖像標(biāo)題生成器[7]。這個(gè)工作主要受到了基于RNN機(jī)器翻譯[8-9]的啟發(fā)。在機(jī)器翻譯中,分為編碼階段與解碼階段,編碼階段RNN讀取源語言的句子,將其變換到一個(gè)固定長(zhǎng)度的向量表示;然后解碼階段RNN將向量表示作為隱層初始值,產(chǎn)生目標(biāo)語言的句子。Li-Feifei團(tuán)隊(duì)在文獻(xiàn)[10]也提到一種圖片生成文本描述的方法,與Google的做法類似,用圖片的CNN特征作為RNN的輸入,使用這種方法的圖片自然語言描述方法都取得了比較好的結(jié)果。
1.2 視頻文本描述
視頻生成自然語言的描述的方法,也大致分為兩類:
一類為包含兩個(gè)階段的管道方法[11-12]。第一階段先從視頻中定位出語義內(nèi)容(如:主語、動(dòng)詞、對(duì)象、場(chǎng)景),第二階段基于固定的模板(如:SVO(Subject、Verb、Object)、SOV(Subject、Object、Verb)、VSO(Verb、Subject、Object)等,不同語言類型,語法結(jié)構(gòu)不同,因此語義內(nèi)容的順序也不同)生成文本描述,這種基于模板的文本描述生成方法具有一定的局限性,它僅能對(duì)視頻進(jìn)行簡(jiǎn)單的陳述,而無法描述視頻中的其他豐富信息。
另一類為端到端的方法[13-16]。該方法將視頻內(nèi)容與視頻自然語言描述的原始語料結(jié)合在一起作為模型的輸入,而不是像第一種方式那樣分開,該方法通過兩個(gè)步驟來生成視頻的自然語言描述:第一步以提取的視頻的CNN或視頻特征和人為提供的自然語言描述文本作為模型的輸入數(shù)據(jù)來訓(xùn)練模型;第二步該模型用一個(gè)固定長(zhǎng)度的向量來表示視頻,并將該向量和前一個(gè)單詞作為輸入,解碼得到下一個(gè)單詞,最終得到視頻向量的一組單詞表示,將這些單詞按序輸出為一個(gè)句子即得到視頻的自然語言描述。
本文提出一種基于多特征融合的深度視頻自然語言描述方法,基于主流的前期融合與后期融合方法,進(jìn)行多種特征的融合方法研究,提取訓(xùn)練視頻數(shù)據(jù)集的各類特征,進(jìn)行前期特征融合得到融合特征向量,并將訓(xùn)練樣本的自然語言描述轉(zhuǎn)為向量方式與融合的特征作為模型的輸入,基于不同的特征訓(xùn)練多個(gè)視頻自然語言描述模型,在進(jìn)行自然語言描述時(shí)再通過權(quán)值向量對(duì)不同特征訓(xùn)練的模型進(jìn)行后期融合,以獲取最好的結(jié)果。最后通過實(shí)驗(yàn)評(píng)價(jià)本文方法的效果,并分析特征融合對(duì)于視頻的自然語言描述結(jié)果評(píng)價(jià)的影響。
本文研究的技術(shù)路線如圖1所示,主要分為四個(gè)研究階段:基礎(chǔ)理論、實(shí)證研究、數(shù)據(jù)分析、結(jié)論。各個(gè)階段的研究?jī)?nèi)容根據(jù)箭頭的方向先后進(jìn)行,各階段具體研究?jī)?nèi)容與技術(shù)途徑詳見圖1中各步驟詳解。
2.1 視頻描述模型
本文提出的生成自然語言描述的模型結(jié)構(gòu)如圖2,輸入視頻幀序列(x1,x2,…,xn),最終得到的輸出自然語言的單詞序列(y1,y2,…,ym),正常情況下輸入幀的數(shù)量與輸出的單詞序列的單詞數(shù)都是可變的。在本文的模型中,給出一個(gè)輸入(x1,x2,…,xn),估計(jì)自然語言輸出序列(y1,y2,…,ym)的條件概率,可用式(1)表示:
p(y1,y2,…,ym|x1,x2,…,xn)
(1)
本文方法首先通過輸入的視頻幀序列提取視頻的3類特征,包括空間特征(基于VGG16、AlexNet的fc7層特征)、運(yùn)動(dòng)特征(提取視頻的光流并生成可視化光流圖并提取光流圖CNN特征)、視頻特征(DT特征);然后對(duì)于可進(jìn)行融合的特征進(jìn)行前期融合;再通過一個(gè)特征選擇器,該特征選擇器的作用為選擇提取到的及前期融合后得到的特征的組合作為L(zhǎng)STM描述模型的輸入;訓(xùn)練一個(gè)基于LSTM的視頻自然語言描述模型;使用訓(xùn)練得到的LSTM描述模型進(jìn)行生成視頻自然語言描述實(shí)驗(yàn);最后如果實(shí)驗(yàn)需要進(jìn)行后期融合,在得到最終的視頻自然語言描述前,先使用2.3節(jié)中描述的方法確定后期融合時(shí)使用的各模型的權(quán)值,再依據(jù)權(quán)值得到概率最大的輸出結(jié)果。
圖1 本文研究技術(shù)路線
圖2 LSTM自然語言描述模型結(jié)構(gòu)示意圖
2.2 特征提取
本文使用的特征均通過預(yù)訓(xùn)練的模型或公開的方法的實(shí)現(xiàn)來提取。使用預(yù)訓(xùn)練好的被公認(rèn)比較優(yōu)秀的模型提取的特征可以很好地表達(dá)視頻或者視頻幀。本文主要提取了如下幾類特征:
空間特征:本文使用預(yù)訓(xùn)練的模型提取視頻幀序列圖像的空間特征,因?yàn)榻陙鞢NN在圖像分類、目標(biāo)檢測(cè)、圖像語義分割等領(lǐng)域取得了一系列突破性的研究成果[17],通過CNN提取的特征能夠很好地表達(dá)圖像。因此本文選擇在ImageNet分類任務(wù)數(shù)據(jù)集中取得很好數(shù)據(jù)的CNN模型VGG16[1]和AlexNet[2],提取預(yù)處理好的視頻幀序列中所有圖片的fc7層的特征,并計(jì)算幀序列特征的均值,最終得到一個(gè)4 096維特征向量來表示整個(gè)視頻。
運(yùn)動(dòng)特征:視頻的一個(gè)特點(diǎn)是其由許多連續(xù)的視頻幀組成,幀與幀之間存在運(yùn)動(dòng)的變化,因此在進(jìn)行視頻分析時(shí)極有必要分析視頻的運(yùn)動(dòng)特征。本文使用文獻(xiàn)[18]中描述的方法提取相鄰幀的光流,并將提取到的光流數(shù)據(jù)歸一化到0~255,存儲(chǔ)為圖片文件,視頻幀數(shù)量為N時(shí),光流圖像的數(shù)量為N-1。使用預(yù)訓(xùn)練的模型[19]提取光流圖像的fc7層特征作為運(yùn)動(dòng)特征,并計(jì)算光流序列特征的均值,最終得到一個(gè)4 096維特征向量表示整個(gè)視頻的運(yùn)動(dòng)特征。
視頻特征:與單獨(dú)的圖片描述問題不同的是,視頻幀之間具有時(shí)間上的關(guān)聯(lián)性,因此在對(duì)視頻進(jìn)行分析和研究時(shí)很有必要進(jìn)行視頻的時(shí)間上的特征提取。本文使用文獻(xiàn)[20]方法提取DT特征,在提取DT特征時(shí)采用不重疊的長(zhǎng)方形塊覆蓋圖像上的區(qū)域,最后拼接獲取到的各區(qū)域的DT特征作為整個(gè)視頻的特征。
2.3 特征融合
前期融合:需要在進(jìn)行模型訓(xùn)練前融合特征,以融合后的特征作為模型的輸入。本文驗(yàn)證了兩種前期融合方式:
1)特征拼接。在特征提取階段,為了拼接多種模型提取的特征,各個(gè)模型均使用一個(gè)向量Fi表達(dá)整個(gè)視頻,其中i表示第i種特征。選取這些特征的組合直接拼接得Ffusion,自然語言描述模型的視頻特征輸入,可用式(2)表示:
Ffusion=(F1,F2,…,Fm)
(2)
其中:m表示融合的特征數(shù)量。
2)加權(quán)求和。將不同模型提取到的特征進(jìn)行長(zhǎng)度對(duì)齊,設(shè)置權(quán)值向量W=(w1,w2,…,wm),對(duì)特征進(jìn)行加權(quán)求和,融合后的特征作為視頻自然語言描述生成模型的視頻特征輸入,可用式(3)表示:
Ffusion=WFT=(w1F1+w2F2+…+wmFm)
(3)
后期融合:在自然語言描述模型生成后進(jìn)行融合,本文驗(yàn)證了兩種后期融合的方式。
1)微調(diào)模式。用一種特征作為輸入訓(xùn)練視頻自然語言描述模型M1,完成訓(xùn)練后再使用另外一種特征作為輸入,以先前訓(xùn)練的模型作為權(quán)重初始值,使用相同的視頻文本生成模型網(wǎng)絡(luò)進(jìn)行微調(diào),最后得到可用于生成視頻自然語言描述模型M2。
2)加權(quán)求和。在估計(jì)輸出時(shí),使用一種模型M1與前一個(gè)詞作為輸入,估計(jì)下一個(gè)詞的可能輸出,獲得當(dāng)前輸入條件下概率最高的10個(gè)備選詞,這些詞的概率分別為p1=p1k(y′) (k=1,2,…,10),使用其他模型Mi,分別計(jì)算這些備選詞的概率,通過權(quán)值向量重新計(jì)算輸出的概率,如式(4)所示:
p(y′)=WPT=(w1p1+w2p2+…+wnpn)
(4)
2.4 視頻自然語言描述模型
本文的自然語言描述模型受文獻(xiàn)[7]的啟發(fā),采用兩層LSTM網(wǎng)絡(luò)模型:一層用于編碼,將輸入的視頻特征轉(zhuǎn)為向量表示;一層用于解碼,將視頻特征向量轉(zhuǎn)為單詞序列。選擇LSTM模型的原因在于其滿足本研究?jī)?nèi)容的三個(gè)基本條件:模型需要能夠處理不同長(zhǎng)度的視頻,并能夠生成不同長(zhǎng)度的自然語言描述;同時(shí)模型要能夠?qū)W習(xí)到視頻前后幀在時(shí)間上的依賴關(guān)系;在訓(xùn)練過程中使用梯度下降法,誤差信號(hào)和梯度需要能夠長(zhǎng)時(shí)間范圍內(nèi)向底層回傳。
1)在訓(xùn)練階段,此網(wǎng)絡(luò)底層輸入數(shù)據(jù)包含直接提取的特征F或融合后的視頻特征向量Ffusion,以及自然語言描述視頻的句子轉(zhuǎn)為與特征向量相同長(zhǎng)度并通過嵌入層轉(zhuǎn)化為向量。將視頻特征向量與視頻自然語言描述的向量進(jìn)行鏈接,形成視頻特征與自然語言描述的嵌入特征。
2)在1)中的視頻特征與自然語言描述的嵌入特征通過兩層LSTM網(wǎng)絡(luò)訓(xùn)練整個(gè)網(wǎng)絡(luò)。
3)在驗(yàn)證階段,第一層將視頻進(jìn)行編碼得到特征向量Ffusion,第二層用于解碼,接收隱含層表示(ht),并將其解碼為單詞序列,在解碼階段,模型采用最大化對(duì)數(shù)似然函數(shù)來估計(jì)ht及前一個(gè)單詞能夠預(yù)測(cè)的下一個(gè)單詞。設(shè)θ為參數(shù),輸出單詞序列為Y=(y1,y2,…,ym),模型可由式(5)表示:
(5)
圖3描述的是本文LSTM模型中的一個(gè)LSTM單元,一個(gè)LSTM單元包含一個(gè)記憶細(xì)胞m,該記憶細(xì)胞的輸出值受當(dāng)前時(shí)間t、輸入x、前一個(gè)輸出y和前一個(gè)記憶細(xì)胞mt-1的影響。一個(gè)LSTM單元有4個(gè)門:輸入門(i)、輸入調(diào)制門(g)和忘記門(f)控制m更新,輸出門(o)控制輸出。忘記門允許LSTM單元忘掉前一個(gè)記憶細(xì)胞mt-1,輸出門決定多少記憶傳入隱含層(mt),這一過程的公式如式(6)~(11)所示:
it=σ(Wxixt+Whiht-1)
(6)
ft=σ(Wxfxt+Whfht-1)
(7)
ot=σ(Wxoxt+Whoht-1)
(8)
gt=φ(Wxmxt+Whmht-1)
(9)
mt=ft⊙mt-1+it⊙gt
(10)
ht=ot⊙φ(mt)
(11)
圖3 LSTM細(xì)胞單元
4)測(cè)試階段,使用訓(xùn)練好的模型進(jìn)行預(yù)測(cè)時(shí),采用后期融合中的加權(quán)求和方法時(shí),需要確定權(quán)值向量W的具體值,本文通過在驗(yàn)證子集上進(jìn)行微調(diào)得到。微調(diào)的過程為依次固定一個(gè)權(quán)值wi,然后將1-wi分配到n-1個(gè)權(quán)值,權(quán)值的最小值設(shè)定為0.01,每次變化的幅度為0.01,滿足式(12)所示的條件下依次計(jì)算每一組權(quán)值下,驗(yàn)證子集生成的自然語言描述的評(píng)估分?jǐn)?shù),并選擇取得最大值時(shí)的W。
(12)
其中:n為模型數(shù)量,當(dāng)n取1時(shí)即測(cè)試一個(gè)單獨(dú)的模型。
3.1 數(shù)據(jù)集
MSVD[6]數(shù)據(jù)集是一個(gè)專門用于視頻描述實(shí)驗(yàn)的標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集總共包含2 089個(gè)視頻,但由于部分鏈接失效,最終保存下來的可用視頻共有1 970個(gè),通過土耳其機(jī)器人獲取多種語言的描述,本文使用其英文描述,該數(shù)據(jù)集總共包含80 827條可用英文描述,總共包含567 874個(gè)字符,不相同的單詞和符號(hào)數(shù)量12 594個(gè),每個(gè)視頻平均長(zhǎng)度10.2s,且每個(gè)視頻平均擁有41條英文文本描述。按照文獻(xiàn)[13]方案進(jìn)行數(shù)據(jù)集劃分,將數(shù)據(jù)集中劃分為3個(gè)子集,其中訓(xùn)練集包含1 200個(gè)視頻,驗(yàn)證集包含100個(gè)視頻,測(cè)試集包含670個(gè)視頻。
3.2 評(píng)價(jià)指標(biāo)
本文采用LSMDC指定的四種標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)CIDEr(Consensus-basedImageDescriptionEvaluation)[21]、BLEU(BiLingualEvaluationUnderstudy)[22]、ROUGE_L(Recall-OrientedUnderstudyforGistingEvaluation,Longestcommonsubsequence)[23]和METEOR[24]。這四種指標(biāo)計(jì)算出的值為百分比,值越高表示描述越接近給定的原始描述。在本文中用來衡量使用特征融合方法生成的自然語言描述與人工描述的相似程度,以此來評(píng)價(jià)本文提出的視頻自然語言描述方法的優(yōu)劣。
3.3 實(shí)驗(yàn)步驟
本文方法的實(shí)驗(yàn)基本流程如下:
1)視頻預(yù)處理:通過ffmpeg提取視頻中每一幀的圖片,并將提取到的視頻幀圖片尺寸縮放為固定大小256×256,按先后順序?qū)⒁曨l幀從1開始編號(hào)命名。
2)特征提取:基于視頻和幀序列提取包含2.2節(jié)描述的空間特征、運(yùn)動(dòng)特征、視頻特征。
3)前期特征融合:通過2.3節(jié)描述的特征融合方法,選擇不同的空間特征、運(yùn)動(dòng)特征、視頻特征進(jìn)行融合。
4)選擇第3)步描述的前期特征融合后得到新特征,并結(jié)合訓(xùn)練數(shù)據(jù)集的自然語言描述作為模型的輸入數(shù)據(jù),訓(xùn)練多個(gè)基于LSTM的自然語言描述模型。該過程基于深度學(xué)習(xí)框架Caffe實(shí)現(xiàn),其中訓(xùn)練此自然語言模型的部分參數(shù)如表1所示。
5)在生成視頻的自然語言描述時(shí),選擇多個(gè)已訓(xùn)練的模型進(jìn)行后期融合,按照2.3節(jié)特征融合中所描述的后期融合方法中的加權(quán)法得到權(quán)值向量W。
6)使用選擇的已訓(xùn)練的模型及上一步得到的權(quán)值向量W,生成測(cè)試集的自然語言描述。
7)使用CocoCaption[25]工具,結(jié)合本文方法生成的自然語言描述與測(cè)試集中給出的人工對(duì)視頻的描述,評(píng)估相似度分值。
表1 LSTM自然語言描述模型部分參數(shù)
3.4 實(shí)驗(yàn)結(jié)果與分析
表2 自然語言描述方法評(píng)估結(jié)果
表2中列舉了本文描述的自然語言描述方法在測(cè)試集上生成自然語言描述的評(píng)估分?jǐn)?shù)。其中:Spa表示空間特征,Mot表示運(yùn)動(dòng)特征,DT代表視頻特征,[EC]表示前期融合的特征拼接,[EW]表示前期融合的特征加權(quán)和,[LT]表示后期融合微調(diào)方式,[LW]表示后期融合加權(quán)方式。第1~4行的數(shù)據(jù)為不進(jìn)行特征融合使用單一特征進(jìn)行實(shí)驗(yàn)的評(píng)估分?jǐn)?shù);第5~8行的數(shù)據(jù)為僅進(jìn)行前期特征融合得到的評(píng)估分?jǐn)?shù);第9~12行的數(shù)據(jù)為前期融合與后期融合相結(jié)合得到的評(píng)估分?jǐn)?shù)。通過表2中的測(cè)評(píng)結(jié)果可看出:在METEOR評(píng)測(cè)指標(biāo)方面,本文提出的3種特征融合組合的結(jié)果評(píng)分超過了文獻(xiàn)[12]的最佳值0.298;但是CIDEr和BLEU指標(biāo)方面,本文的特征融合組合的結(jié)果評(píng)分均低于文獻(xiàn)[16]中的最佳值0.516 7和0.419 2。通過數(shù)據(jù)的對(duì)比分析可以得出如下的結(jié)論:1)融合不同類型的特征方法能夠獲得評(píng)測(cè)分值的提升,如表2中的第6、8、11、12行都比融合前的單特征模型獲得了更高的評(píng)測(cè)分值。2)相同類型的特征融合的結(jié)果不會(huì)高于單特征的分值,如表2中第5和7行結(jié)果比其中某一個(gè)單獨(dú)的特征生成的模型評(píng)測(cè)分值都低。3)使用不同特征對(duì)現(xiàn)有模型進(jìn)行微調(diào)的方法效果較差,如表2中的第9、10行,分值比融合前單特征模型的評(píng)測(cè)分值都要低很多。
圖4中的三個(gè)子圖為視頻1中的部分幀,數(shù)據(jù)集中給出的該視頻的部分參考文本描述為:1)apersonisridingamotorcycleonthebeach; 2)amanridesamotorcyclethroughtheocean。本文方法生成的描述為Apersonisridingamotorcycleonthesnow。圖5中的三個(gè)子圖為視頻2中的部分幀,數(shù)據(jù)集中給出的該視頻的部分參考文本描述為:1)amanisplayingaguitar; 2)amanisplayingtheguitarwhilesittingonaparkbench。本文方法生成的描述為Amanisplayingaguitar。圖6中三個(gè)子圖為視頻3中的部分幀,數(shù)據(jù)集中給出的該視頻的部分參考文本描述為:1)apersoniscuttingafishwithknife; 2)amanisslicingopenafishandcutsoffitshead。本文方法生成的描述為Awomaniscuttingacookedfishonacuttingboard。通過這些示例可以看出本文方法能夠比較準(zhǔn)確地生成部分視頻的自然語言描述。
圖4 視頻1中部分幀
圖5 視頻2中部分幀
圖6 視頻3中部分幀
本文提出一種多特征的視頻自然語言描述的框架方法,此方法在兩個(gè)階段進(jìn)行特征的融合,以提升生成自然語言描述的準(zhǔn)確性。本文使用的特征包括空間特征(如VGG16、AlexNet提取的視頻幀序列特征)、運(yùn)動(dòng)特征(光流圖像的CNN特征)、視頻特征(DT特征)等。在MSVD數(shù)據(jù)集上進(jìn)行了多種特征的融合組合實(shí)驗(yàn),通過實(shí)驗(yàn)驗(yàn)證了本文方法的可行性與有效性,并得出結(jié)論:使用多特征融合能夠提升視頻自然語言描述的準(zhǔn)確性,相同類型的特征融合無法提升準(zhǔn)確率,不同類型的特征之間的融合對(duì)于準(zhǔn)確性的提升幅度更大?;诒疚奶岢龅奶卣魅诤戏椒蚣?選擇適當(dāng)?shù)牟煌愋吞卣?還可以進(jìn)一步提升視頻自然語言描述的準(zhǔn)確性。
)
[1]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[EB/OL]. [2016- 09- 14].https://arxiv.org/pdf/1409.1556v6.pdf.
[2]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[EB/OL]. [2016- 09- 14].https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.
[3]SZEGEDYC,LIUW,JIAY,etal.Goingdeeperwithconvolutions[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2015:1-9.
[4]HEK,ZHANGX,RENS,etal.Deepresiduallearningforimagerecognition[EB/OL]. [2016- 09- 14].https://www.researchgate.net/publication/286512696_Deep_Residual_Learning_for_Image_Recognition.
[5]JIAY,SHELHAMERE,DONAHUEJ,etal.Caffe:convolutionalarchitectureforfastfeatureembedding[EB/OL]. [2016- 03- 10].https://arxiv.org/pdf/1408.5093v1.pdf.
[6]CHENDL,DOLANWB.Collectinghighlyparalleldataforparaphraseevaluation[C]//HLT2011:Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2011, 1:190-200.
[7]VINYALSO,TOSHEVA,BENGIOS,etal.Showandtell:aneuralimagecaptiongenerator[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2015:3156-3164.
[8]SUTSKEVERI,VINYALSO,LEQV.Sequencetosequencelearningwithneuralnetworks[C]//NIPS2014:Proceedingsofthe27thInternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2014.
[9]CHOK,MERRIENBOERBV,GULCEHREC,etal.LearningphraserepresentationsusingRNNencoder-decoderforstatisticalmachinetranslation[EB/OL]. [2016- 09- 10].https://arxiv.org/pdf/1406.1078v3.pdf.
[10]KARPATHYA,LIFF.Deepvisual-semanticalignmentsforgeneratingimagedescriptions[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2015:3128-3137.
[11]KRISHNAMOORTHYN,MALKARNENKARG,MOONEYRJ,etal.Generatingnatural-languagevideodescriptionsusingtext-minedknowledge[C]//AAAI2013:ProceedingsoftheTwenty-SeventhAAAIConferenceonArtificialIntelligence.MenloPark,CA:AAAIPress, 2013:541-547.
[12]THOMASONJ,VENUGOPALANS,GUADARRAMAS,etal.Integratinglanguageandvisiontogeneratenaturallanguagedescriptionsofvideosinthewild[EB/OL]. [2016- 03- 10].http://www.cs.utexas.edu/users/ml/papers/thomason.coling14.pdf.
[13]VENUGOPALANS,ROHRBACHM,DONAHUEJ,etal.Sequencetosequence—videototext[EB/OL]. [2016- 03- 10].https://arxiv.org/pdf/1505.00487v3.pdf.
[14]VENUGOPALANS,XUH,DONAHUEJ,etal.Translatingvideostonaturallanguageusingdeeprecurrentneuralnetworks[EB/OL]. [2016- 03- 10].https://arxiv.org/pdf/1412.4729v3.pdf.
[15]SHETTYR,LAAKSONENJ.Videocaptioningwithrecurrentnetworksbasedonframe-andvideo-levelfeaturesandvisualcontentclassification[EB/OL]. [2016- 03- 10].https://arxiv.org/pdf/1512.02949v1.pdf.
[16]YAOL,TORABIA,CHOK,etal.Describingvideosbyexploitingtemporalstructure[C]//Proceedingsofthe2015IEEEInternationalConferenceonComputerVision.Piscataway,NJ:IEEE, 2015: 4507-4515.
[17] 李彥冬, 郝宗波, 雷航. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(9): 2508-2515.(LIYD,HAOZB,LEIH.Surveyofconvolutionalneuralnetwork[J].JournalofComputerApplications, 2016, 36(9): 2508-2515.)
[18]FARNEBACKG.Two-framemotionestimationbasedonpolynomialexpansion[C]//SCIA2003:Proceedingsofthe13thScandinavianConferenceonImageAnalysis,LNCS2749.Berlin:Springer, 2003:363-370.
[19]GKIOXARIG,MALIKJ.Findingactiontubes[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2015:759-768.
[20]WANGH,KLASERA,SCHMIDC,etal.Actionrecognitionbydensetrajectories[C]//CVPR2011:Proceedingsofthe2011IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2011:3169-3176.
[21]VEDANTAMR,ZITNICKCL,PARIKHD.CIDEr:consensus-basedimagedescriptionevaluation[EB/OL]. [2016- 03- 10].https://arxiv.org/pdf/1411.5726v2.pdf.
[22]PAPINENIK.BLEU:amethodforautomaticevaluationofmachinetranslation[J].WirelessNetworks, 2015, 4(4):307-318.
[23]FLICKC.ROUGE:apackageforautomaticevaluationofsummaries[EB/OL]. [2016- 03- 10].http://anthology.aclweb.org/W/W04/W04-1013.pdf.
[24]DENKOWSKIM,LAVIEA.Meteoruniversal:languagespecifictranslationevaluationforanytargetlanguage[EB/OL]. [2016- 03- 10].https://www.cs.cmu.edu/~alavie/METEOR/pdf/meteor-1.5.pdf.
[25]CHENX,FANGH,LINT,etal.MicrosoftCOCOcaptions:datacollectionandevaluationserver[EB/OL]. [2016- 09- 14].https://arxiv.org/pdf/1504.00325v2.pdf.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61300192),theFundamentalResearchFundsfortheCentralUniversities(ZYGX2014J052).
LIANG Rui, born in 1985, Ph. D. candidate. His research interests include computer vision, video semantic analysis.
ZHU Qingxin, born in 1954, Ph. D., professor. His research interests include software engineering, graphics and vision, computational operations research, bioinformatics.
LIAO Shujiao, born in 1981, Ph. D. candidate. Her research interests include machine learning, granular computing.
NIU Xinzheng, born in 1978, Ph. D., associate professor. His research interests include machine learning, big data, mobile computing.
Deep natural language description method for video based on multi-feature fusion
LIANG Rui1, ZHU Qingxin1*, LIAO Shujiao1, NIU Xinzheng2
(1. School of Information and Software Engineering,University of Electronic Science and Technology of China, Chengdu Sichuan 610054, China;2. School of Computer Science and Engineering,University of Electronic Science and Technology of China, Chengdu Sichuan 610054, China)
Concerning the low accuracy of automatically labelling or describing videos by computers, a deep natural language description method for video based on multi-feature fusion was proposed. The spatial features, motion features and video features of video frame sequence were extracted and fused to train a Long-Short Term Memory (LSTM) based natural language description model. Several natural language description models were trained through the combination of different features from early fusion, then did a late fusion when testing. One of the models was selected to predict possible outputs under current inputs, and the probabilities of these outputs were recomputed with other models, then a weighted sum of these outputs was computed and the output with the highest probability was used as the next output. The feature fusion methods of the proposed method include early fusion such as feature concatenating, weighted summing of different features after alignment, and late fusion such as weighted fusion of outputs’ probabilities of different models based on different features, finetuning generated LSTM model by early fused features. Comparison experimental results on Microsoft Video Description (MSVD) dataset indicate that the fusion of different kinds of features can promote the evaluation score, while the fusion of the same kind of features cannot get higher evaluation score than that of the best feature; however, finetuning pre-trained model with other features has poor effect. Among different combination of different features tested, the description generated by the method of combining early fusion and later fusion gets 0.302 of METEOR, which is 1.34% higher than the highest score that can be found, it means that the method is able to improve the accuracy of video automatic description.
deep learning; feature fusion; video semantic analysis; video description; recurrent neural network; Long-Short Term Memory (LSTM)
2016- 09- 14;
2016- 12- 25。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61300192);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(ZYGX2014J052)。
梁銳(1985—),男,四川遂寧人,博士研究生,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺、視頻語義分析; 朱清新(1954—),男,四川成都人,教授,博士,CCF會(huì)員,主要研究方向:軟件工程、圖形與視覺、計(jì)算運(yùn)籌學(xué)、生物信息學(xué); 廖淑嬌(1981—),女,福建漳州人,博士研究生,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、粒計(jì)算; 牛新征(1978—),男,四川成都人,副教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、大數(shù)據(jù)、移動(dòng)計(jì)算。
1001- 9081(2017)04- 1179- 06
10.11772/j.issn.1001- 9081.2017.04.1179
TP37;TP181
A