楊曙光
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
一種改進(jìn)的深度學(xué)習(xí)視頻分類方法
楊曙光
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
目前在深度學(xué)習(xí)領(lǐng)域最典型的視頻分類方法是3D卷積深度網(wǎng)絡(luò)。但是3D卷積網(wǎng)絡(luò)對(duì)于較長(zhǎng)的視頻只能把視頻截成小段,分別提取特征向量,求均值,最后在特征均值基礎(chǔ)上進(jìn)行分類。均值操作會(huì)造成分類精度下降,針對(duì)此問題,提出一種改進(jìn)的方法,對(duì)3D卷積方法提取的短視頻特征放入LSTM進(jìn)行序列識(shí)別,并通過實(shí)驗(yàn)來驗(yàn)證改進(jìn)的有效性。
視頻分類;3D卷積深度網(wǎng)絡(luò);LSTM;深度學(xué)習(xí)
視頻分類在視頻分析中具有重要意義,目前在深度學(xué)習(xí)中經(jīng)典的視頻分類方法是3D卷積深度網(wǎng)絡(luò)。3D卷積深度網(wǎng)絡(luò)巧妙地利用了2D卷積深度網(wǎng)絡(luò)在圖像分類中的優(yōu)勢(shì),通過在時(shí)間維度增加一維卷積來達(dá)到對(duì)視頻數(shù)據(jù)的分類。相比于傳統(tǒng)算法,不用人工提取復(fù)雜的圖像特征,可以實(shí)現(xiàn)端到端的訓(xùn)練。3D卷積深度網(wǎng)絡(luò)是一種空間網(wǎng)絡(luò),由于受深度網(wǎng)絡(luò)后端全連解層的影響,在設(shè)計(jì)3D卷積深度網(wǎng)絡(luò)的時(shí)候,我們必須首先確定網(wǎng)絡(luò)輸入視頻的寬、高和幀數(shù)。由于限制了固有的幀數(shù),當(dāng)模型要對(duì)很長(zhǎng)的視頻進(jìn)行分類時(shí),就必須把長(zhǎng)視頻分成一段段長(zhǎng)度相等的短視頻,對(duì)這些短視頻進(jìn)行3D卷積運(yùn)算會(huì)提取一段段特征向量,對(duì)得到的特征向量求均值得到一個(gè)均值特征向量,然后把均值特征向量放入最后的Softmax層進(jìn)行分類。
視頻本質(zhì)上是一個(gè)時(shí)序數(shù)據(jù),視頻幀之間如果發(fā)生錯(cuò)亂就會(huì)破壞這個(gè)視頻數(shù)據(jù)的規(guī)律性。而上述3D卷積深度網(wǎng)絡(luò)對(duì)提取的短視頻特征向量加和求均值的做法就會(huì)破壞時(shí)序特性。反過來思考,對(duì)于特定的一堆數(shù)字,無論怎么打亂它們的次序,加和求均值后的結(jié)果總是不變的。所以加和求均值不會(huì)反映原來數(shù)據(jù)的次序性。
針對(duì)這個(gè)問題,本文提出用LSTM融合3D卷積網(wǎng)絡(luò)來分類視頻。LSTM是一種時(shí)序識(shí)別網(wǎng)絡(luò),加入LSTM可以克服3D卷積深度網(wǎng)絡(luò)中對(duì)提取的特征加和求均值所帶來的時(shí)序丟失問題。
典型的3D卷積深度網(wǎng)絡(luò)視頻分類的流程如圖1所示,可以看到原始長(zhǎng)視頻片段被分成一個(gè)個(gè)短視頻片段,每個(gè)短視頻片段通過3D卷積深度網(wǎng)絡(luò)后都會(huì)提取到一個(gè)特征,所有的提取特征加和求均值后的值放入最后的分類層進(jìn)行分類。
改進(jìn)的3Dcnn-LSTM融合模型的視頻分類流程如圖2所示,可以看出,3D卷積網(wǎng)絡(luò)已經(jīng)成為了LSTM的特征提取層,長(zhǎng)視頻被分成一個(gè)個(gè)短視頻,每個(gè)短視頻通過3D卷積網(wǎng)絡(luò)時(shí)候被提取成一個(gè)特征向量,特征向量又被送如LSTM,不斷重復(fù)這一過程,直至所有短視頻片段識(shí)別完成。這一過程對(duì)比傳統(tǒng)的3D卷積方法能夠更加合理地處理視頻分類的問題,對(duì)于一個(gè)超長(zhǎng)視頻識(shí)別問題來說,通過3D卷積來識(shí)別視頻短跨度的規(guī)律,通過全局的LSTM來識(shí)別視頻的長(zhǎng)跨度的規(guī)律。
就像2D卷積網(wǎng)絡(luò)比較擅長(zhǎng)圖像分類一樣,3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)一定幀長(zhǎng)的視頻分類比較優(yōu)秀。LSTM是在RNN(Recurrent Neural Networks)基礎(chǔ)上發(fā)展起來的一種優(yōu)秀的序列識(shí)別網(wǎng)絡(luò),通過加入輸入門、輸出門以及遺忘門等結(jié)構(gòu),再加上誤差流截?cái)嗟燃夹g(shù),很大程度上克服了RNN梯度消失和爆炸等問題,特別適合序列問題的識(shí)別。所以LSTM和3D卷積神經(jīng)網(wǎng)絡(luò)來識(shí)別視頻是符合視頻數(shù)據(jù)的特征原理的。
本次實(shí)驗(yàn)對(duì)比在UCF101上進(jìn)行。為了分析兩種算法的有效性,分別在UCF101上進(jìn)行了5類、30類、101類的試驗(yàn)對(duì)比。
(1)數(shù)據(jù)集介紹
UCF101[3]是從YouTube上收集的一個(gè)行為識(shí)別數(shù)據(jù)集,它包含了101類行為,共13320個(gè)短視頻。UCF101通過拍攝相機(jī)的運(yùn)動(dòng),拍攝對(duì)象的外觀姿勢(shì)變化,目標(biāo)尺度變化,背景光照的變化,視角的變化來保證數(shù)據(jù)的多樣性。每一類的視頻分為25組,每組有4到7個(gè)短視頻,每一組里的視頻有許多共有特征,例如:相似的背景、相似的視角等。
視頻總體上可分為五大類:人與物互動(dòng),人與人互動(dòng),肢體運(yùn)動(dòng),演奏樂器,體育運(yùn)動(dòng)。在詳細(xì)的類別上有小孩爬行,射箭,籃球運(yùn)動(dòng),刷牙,跳高,騎自行車,遛狗等,類別如圖3所示。
圖3 UCF101數(shù)據(jù)的代表類別圖
圖2 3Dcnn-LSTM視頻分類流程圖
(2)數(shù)據(jù)預(yù)處理
原始視頻是三通道的320×240彩色圖像,在實(shí)驗(yàn)過程中綜合考慮了運(yùn)行的時(shí)間成本和試驗(yàn)精度,把視頻放縮為54×40。在時(shí)間維度上,原始視頻是每秒24幀,由于相鄰視頻幀之間的動(dòng)作差異性很小,數(shù)據(jù)的冗余性很大,冗余的數(shù)據(jù)一方面會(huì)降低運(yùn)算速度,另一方面也會(huì)增加分類識(shí)別難度,所以本文對(duì)視頻進(jìn)行了丟幀處理,具體做法就是每三幀丟掉兩幀,總的視頻識(shí)別長(zhǎng)度是240幀,丟幀后,輸入網(wǎng)絡(luò)的數(shù)據(jù)是80幀,分成16個(gè)幀序列,每個(gè)幀序列有5幀。UCF101雖說是當(dāng)前比較全,也是比較大的視頻數(shù)據(jù)集之一,但是一萬多的樣本對(duì)于深度神經(jīng)網(wǎng)絡(luò)來說還是太少了,所以為了克服過擬合的問題,本文采用了圖像增強(qiáng)技術(shù),對(duì)每個(gè)視頻就行了視頻的水平反轉(zhuǎn),抖動(dòng)生成3個(gè)視頻。
(3)網(wǎng)絡(luò)設(shè)計(jì)
考慮到視頻樣本的不足又沒有一個(gè)訓(xùn)好的3D卷積網(wǎng)絡(luò)來做遷移學(xué)習(xí),本文設(shè)計(jì)了一個(gè)比較小的8層神經(jīng)網(wǎng)絡(luò)功能層,3個(gè)3D卷積層,2個(gè)池化層,一個(gè)LSTM層,一個(gè)全連接層,一個(gè)Softmax分類層。各層都采用ReLU作為激活函數(shù),為了克服過擬合問題,在最后一個(gè)3D卷積層之后加入了BN(Batch Normalization)層。在實(shí)驗(yàn)中發(fā)現(xiàn)這樣的網(wǎng)絡(luò)配置還是容易過擬合,為了解決這個(gè)問題,被迫采用了遷移學(xué)習(xí)的技術(shù),但是在做遷移學(xué)習(xí)遇到困難,因?yàn)闆]有現(xiàn)成的訓(xùn)好的3D卷積網(wǎng)絡(luò),也沒有數(shù)量龐大,質(zhì)量很好的視頻樣本來供自己預(yù)訓(xùn)練網(wǎng)絡(luò),最后采取了一個(gè)折中的方法,首先用Cifar100數(shù)據(jù)集來預(yù)先訓(xùn)練一個(gè)2D卷積神經(jīng)網(wǎng)絡(luò),然后把這個(gè)2D卷積網(wǎng)絡(luò)擴(kuò)充成3D卷積網(wǎng)絡(luò),用這個(gè)擴(kuò)充的3D卷積神經(jīng)網(wǎng)絡(luò)來初始化網(wǎng)絡(luò)參數(shù)。具體網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 深度分類網(wǎng)絡(luò)
本次實(shí)驗(yàn)是在Theano框架上進(jìn)行,在圖像分類中我們已經(jīng)有了預(yù)訓(xùn)練好的模型來做遷移學(xué)習(xí),這些模型是指百萬級(jí)別甚至千萬級(jí)別的優(yōu)質(zhì)數(shù)據(jù)上訓(xùn)練的,所以做遷移學(xué)習(xí)時(shí)能夠很好的避免過擬合,遺憾的是,截至到目前,視頻領(lǐng)域的優(yōu)質(zhì)數(shù)據(jù)集還遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)規(guī)模,所以也沒有一個(gè)成熟的預(yù)訓(xùn)練模型來初始化3D卷積模型的參數(shù),本文在這方面做了很多嘗試,發(fā)現(xiàn)即使用成熟的大型的2D卷積網(wǎng)絡(luò)擴(kuò)展成3D卷積網(wǎng)絡(luò)來初始化參數(shù),做UCF101數(shù)據(jù)集的分類,仍會(huì)出現(xiàn)過擬合現(xiàn)象,所以本文采用了一個(gè)小型的2D卷積網(wǎng)絡(luò)在cifar100上做預(yù)先訓(xùn)練,訓(xùn)練出的參數(shù)擴(kuò)展成3D卷積網(wǎng)絡(luò),然后用擴(kuò)展成的網(wǎng)絡(luò)做參數(shù)初始化,用初始化的3D卷積網(wǎng)絡(luò)來訓(xùn)練視頻分類器。
本文為了對(duì)比改進(jìn)算法的有效性,分別進(jìn)行了5類,30類,101類的視頻分類試驗(yàn)。5類,30類是從UCF101數(shù)據(jù)集中隨機(jī)抽取的,101類是全部的UCF101數(shù)據(jù)集。基本網(wǎng)絡(luò)采用表1的網(wǎng)絡(luò),不同類別只是把最后的分類層的輸出個(gè)數(shù)進(jìn)行更改,對(duì)比的3D卷積網(wǎng)絡(luò)只是把表1的LSTM層去掉,優(yōu)化算法采用自適應(yīng)adadelta優(yōu)化方法。結(jié)果發(fā)現(xiàn)在5類視頻分類任務(wù)上,3D卷積網(wǎng)絡(luò)能夠達(dá)到75%的準(zhǔn)確率,改進(jìn)的3Dcnn-LSTM算法可以達(dá)到80%的準(zhǔn)確率;在30類的分類任務(wù)上,3D卷積網(wǎng)絡(luò)可以達(dá)到57%的準(zhǔn)確率,而改進(jìn)的3D-LSTM算法可以達(dá)到63%的準(zhǔn)確率;在101類的識(shí)別任務(wù)上,3D卷積網(wǎng)絡(luò)能夠達(dá)到39%的準(zhǔn)確率,而改進(jìn)的3Dcnn-LSTM可以達(dá)到43%的準(zhǔn)確率。
從試驗(yàn)結(jié)果上看,我們的改進(jìn)算法在各種條件下都是優(yōu)于經(jīng)典的3D卷積網(wǎng)絡(luò)的,證明了改進(jìn)算法的有效性。
本文把序列識(shí)別網(wǎng)絡(luò)LSTM和3D卷積網(wǎng)絡(luò)融合在一起來做視頻的分類,彌補(bǔ)了經(jīng)典3D卷積網(wǎng)絡(luò)的時(shí)序丟失問題,使得分類精度更高。由于視頻相對(duì)于圖像數(shù)據(jù)量要大很多,訓(xùn)練普通圖像模型很快的機(jī)器來訓(xùn)練視頻分類任務(wù)就特別慢,所以本實(shí)驗(yàn)不得把視頻的分辨率調(diào)到很低,這些因素顯然會(huì)影響分類的精度。另外目前優(yōu)質(zhì)的大規(guī)模的視頻數(shù)據(jù)集的缺少使得訓(xùn)練大規(guī)模的3D卷積模型比較困難,3D卷積模型要從2D模型的基礎(chǔ)上進(jìn)行擴(kuò)展來進(jìn)行遷移學(xué)習(xí),這也在很大程度上影響了分類的精度。本實(shí)驗(yàn)只是這些不利情況下進(jìn)行的試驗(yàn)對(duì)比,相信兩種模型都沒發(fā)揮出它們的最大潛力,未來隨著計(jì)算速度的提升和公共大型優(yōu)質(zhì)的視頻數(shù)據(jù)集的完善,兩種模型尤其是改進(jìn)的3Dcnn-LSTM模型會(huì)有很大的精度提升。
參考文獻(xiàn):
[1]Shui-wang Ji,Wei Xu,Ming Yang,Kai Yu,D Convolutional Neural Networks for Human Action Recognition,Pattern Analysis and Machine Intelligence,IEEE Transactions on(Volume:35,Issue:1),2013
[2]S.Hochreiter,J.Schmidhuber.Long Shortterm Memory.Neural Computation,9(8):1735-1780,1997.
[3]K.Soomro,A.R.Zamir,M.Shah.UCF101:A Dataset of 101 Human Action Classes from Videos in the Wild.CRCVTR-12-01, November,2012.
An Improved Video Classification Method of Deep Learning
YANG Shu-guang
(College of Computer Science,Sichuan University,Chengdu610065)
3D Convolutional Neural Networks is the most typical video classification method in deep learning at present.But the 3D convolution network can only segment the long video into many short videos,extract the feature vectors of those short videos,solve the mean value of those feature vectors and then classify the long video based on the mean value.The above average operation will result in decreased precision.To solve this problem,proposes an improved method which puts the feature extracted by 3D Convolutional Neural Networks into the LSTM method for sequence recognition.The effectiveness of the improvement is verified by experiments.
Video Classification;3D Convolutional Neural Network;LSTM;Deep Learning
1007-1423(2017)08-0066-04
10.3969/j.issn.1007-1423.2017.08.014
楊曙光(1987-),男,河南周口人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)
2016-12-22
2017-02-25