文孟飛 劉偉榮 胡 超
1(中南大學(xué)信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410083)2(中南大學(xué)信息與網(wǎng)絡(luò)中心 長(zhǎng)沙 410083)3(醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)) 長(zhǎng)沙 410083)4 (湖南省教育科學(xué)研究院 長(zhǎng)沙 410005)(wmfdcf@126.com)
網(wǎng)絡(luò)媒體大數(shù)據(jù)流異構(gòu)多模態(tài)目標(biāo)識(shí)別策略
文孟飛1,4劉偉榮1胡 超2,3
1(中南大學(xué)信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410083)2(中南大學(xué)信息與網(wǎng)絡(luò)中心 長(zhǎng)沙 410083)3(醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)) 長(zhǎng)沙 410083)4(湖南省教育科學(xué)研究院 長(zhǎng)沙 410005)(wmfdcf@126.com)
如何對(duì)海量的網(wǎng)絡(luò)媒體大數(shù)據(jù)進(jìn)行準(zhǔn)確地目標(biāo)識(shí)別,是當(dāng)前的一個(gè)研究熱點(diǎn)和難點(diǎn).針對(duì)此問(wèn)題提出一種利用媒體流時(shí)間相關(guān)特性的異構(gòu)多模態(tài)目標(biāo)識(shí)別策略.首先基于媒體流中同時(shí)存在音頻和視頻信息的特征,建立一種異構(gòu)多模態(tài)深度學(xué)習(xí)結(jié)構(gòu);結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和限制波爾茲曼機(jī)(restricted Boltzmann machine, RBM)的算法優(yōu)點(diǎn),對(duì)音頻信息和視頻信息分別并行處理,這種異構(gòu)模式可以充分利用不同深度神經(jīng)網(wǎng)絡(luò)的特點(diǎn);然后生成基于典型關(guān)聯(lián)分析的共享特征表示,并進(jìn)一步利用時(shí)間相關(guān)特性進(jìn)行參數(shù)的優(yōu)化.3種對(duì)比實(shí)驗(yàn)用來(lái)驗(yàn)證所提策略的效果,首先將策略與單一模態(tài)算法進(jìn)行對(duì)比;然后再在復(fù)合的數(shù)據(jù)庫(kù)上建立對(duì)比實(shí)驗(yàn);最后在網(wǎng)絡(luò)視頻庫(kù)上建立對(duì)比實(shí)驗(yàn),這些對(duì)比實(shí)驗(yàn)驗(yàn)證了策略的有效性.
目標(biāo)識(shí)別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);限制玻爾茲曼機(jī);典型關(guān)聯(lián)分析
網(wǎng)絡(luò)技術(shù)的發(fā)展使互聯(lián)網(wǎng)上各種結(jié)構(gòu)化、非結(jié)構(gòu)化的海量大數(shù)據(jù)應(yīng)運(yùn)而生[1].如何建立起一種高效、準(zhǔn)確的網(wǎng)絡(luò)大數(shù)據(jù)目標(biāo)識(shí)別策略已成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)[2].現(xiàn)今互聯(lián)網(wǎng)上85%以上已捕獲的都是非結(jié)構(gòu)化的文件、圖像、視頻、點(diǎn)擊流和地理空間數(shù)據(jù)[3].迫切需要找尋網(wǎng)絡(luò)大數(shù)據(jù)的共性規(guī)律,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)的特征提取和目標(biāo)識(shí)別[4].機(jī)器學(xué)習(xí)是目標(biāo)識(shí)別的主要方法,目前已經(jīng)從淺層學(xué)習(xí)發(fā)展到深度學(xué)習(xí).
淺層結(jié)構(gòu)模型通常包含單層或雙層的非線性特征變換[5],如高斯混合模型(Gaussian mixture model, GMM)[6]、條件隨機(jī)場(chǎng)(conditional random fields, CRF)[7]模型、支持向量機(jī)(support vector machine, SVM[8])模型以及含有單隱層的多層感知機(jī)(multi-layer perceptron, MLP)[9]模型等.淺層結(jié)構(gòu)能有效地解決許多簡(jiǎn)單的或具有明確約束的問(wèn)題,但需要依靠人工來(lái)抽取樣本的特征,難以將其擴(kuò)展到視頻的特征提取[10],而且淺層模型的自糾錯(cuò)能力比較有限[11].
針對(duì)上述問(wèn)題,Hinton等人[12]于2006年提出深度置信網(wǎng)絡(luò)(deep belief network, DBN)結(jié)構(gòu)和非監(jiān)督貪心逐層訓(xùn)練算法,可表征復(fù)雜高維函數(shù),提取多重水平的特征,獲得更多的有用信息[13].
深度學(xué)習(xí)的2種典型結(jié)構(gòu)為限制波爾茲曼機(jī)(restricted Boltzmann machine, RBM)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN).RBM在語(yǔ)音識(shí)別體現(xiàn)了較好的優(yōu)勢(shì)[14],而LeCun等研究者[15]使用CNN在處理識(shí)別圖像信息取得了比其他學(xué)習(xí)方法更好的結(jié)果.
目前,隨著互聯(lián)網(wǎng)的發(fā)展以及視頻編解碼技術(shù)的成熟,視頻數(shù)據(jù)呈現(xiàn)出爆炸式的增長(zhǎng)[16].出現(xiàn)了如優(yōu)酷、土豆、Youtube等資源豐富且訪問(wèn)量巨大的視頻網(wǎng)站,為視頻數(shù)據(jù)的目標(biāo)識(shí)別提出了新的需求.目前已經(jīng)有將深度學(xué)習(xí)方法應(yīng)用到視頻數(shù)據(jù)目標(biāo)識(shí)別的若干研究成果[17-19].
上述的研究成果往往針對(duì)視頻的視覺(jué)信號(hào)進(jìn)行單一模態(tài)的處理.但對(duì)于一段視頻來(lái)說(shuō),視覺(jué)和聽(tīng)覺(jué)信號(hào)都能夠?yàn)槟繕?biāo)識(shí)別提供重要的信息.因此出現(xiàn)了結(jié)合各種不同的模態(tài)之間的有效信息的多模態(tài)學(xué)習(xí)方法.如Leonardi等人在文獻(xiàn)[20]中使用了底層的視覺(jué)和音頻特征來(lái)檢測(cè)足球視頻中的進(jìn)球鏡頭.文獻(xiàn)[21]使用多模態(tài)方法并行處理人物口型和所發(fā)出的音節(jié).
目前這2種多模態(tài)學(xué)習(xí)方法都采用同一種深層結(jié)構(gòu)處理音頻和視頻信號(hào).但在多模態(tài)方法中使用不同深層結(jié)構(gòu)將會(huì)取得更好的效果.如RBM對(duì)聲音的識(shí)別具有較好的識(shí)別效果,而CNN對(duì)時(shí)間相關(guān)的動(dòng)態(tài)視覺(jué)信號(hào)有較強(qiáng)的魯棒性[22].
基于以上討論,本文提出一種針對(duì)媒體大數(shù)據(jù)流的異構(gòu)多模態(tài)目標(biāo)識(shí)別策略,綜合RBM的語(yǔ)音識(shí)別能力和CNN的圖像處理能力,并建立RBM和CNN的共享關(guān)聯(lián)表示,以更有效地識(shí)別視頻中的目標(biāo).在對(duì)視覺(jué)信號(hào)進(jìn)行處理時(shí),進(jìn)一步利用視頻中相鄰2幀的時(shí)間相關(guān)性,優(yōu)化神經(jīng)網(wǎng)絡(luò)多層結(jié)構(gòu)的參數(shù),提高目標(biāo)識(shí)別的準(zhǔn)確度.
多媒體數(shù)據(jù)中目標(biāo)識(shí)別的關(guān)鍵是能夠獲取數(shù)據(jù)的主要特征.網(wǎng)絡(luò)資源中的多媒體視頻數(shù)據(jù)具有較大的復(fù)雜性與多樣性.僅僅利用視頻數(shù)據(jù)中單一模態(tài)進(jìn)行處理往往難以得到較好的效果.使用多模態(tài)結(jié)合的方法提取數(shù)據(jù)特征能夠更有效應(yīng)用于媒體數(shù)據(jù)流的特征提?。簩⒁曈X(jué)圖像和音頻數(shù)據(jù)分別作為2種模態(tài)輸入,并行進(jìn)行處理,同時(shí)得到2種模態(tài)的高層特征,進(jìn)而通過(guò)最大化2種模態(tài)之間的關(guān)聯(lián)性建立模態(tài)間的共享表示,可得到更好的識(shí)別效果.
由于視頻信息中視覺(jué)信息和聽(tīng)覺(jué)信息的特點(diǎn)不同,本文建立了多模態(tài)的異構(gòu)深度學(xué)習(xí)框架,該框架結(jié)合了不同類別的深度網(wǎng)絡(luò)分別對(duì)視覺(jué)信息和聽(tīng)覺(jué)信息進(jìn)行處理,而不同類別的深度網(wǎng)絡(luò)會(huì)對(duì)視覺(jué)信息和聽(tīng)覺(jué)信息分別具有各自的優(yōu)勢(shì).這種處理將會(huì)增加結(jié)構(gòu)的復(fù)雜程度,但是可針對(duì)不同模態(tài)的數(shù)據(jù)提取出更有效的特征,從而增加目標(biāo)識(shí)別的精度.本文分別利用RBM和CNN處理視頻數(shù)據(jù)流的音頻信號(hào)和視頻圖像信號(hào).
RBM是一種特殊形式的玻爾茲曼機(jī),可通過(guò)輸入數(shù)據(jù)集學(xué)習(xí)概率分布隨機(jī)生成神經(jīng)網(wǎng)絡(luò),具有較好的泛化能力.而由多個(gè)RBM結(jié)構(gòu)堆疊而成的深度信念網(wǎng)絡(luò)能提取出多層抽象的特征,從而用于分類和目標(biāo)識(shí)別.
本文我們采用RBM模型進(jìn)行音頻處理,RBM的結(jié)構(gòu)如圖1所示,整體是一個(gè)二分圖的結(jié)構(gòu),分為2層,一層為可見(jiàn)層(visible units),一層為隱層(hidden units),可見(jiàn)層也稱為輸入層.
Fig. 1 Structure of RBM圖1 RBM的結(jié)構(gòu)圖
Fig. 2 Multiple convolution operation and sample process of the convolutional neural network圖2 卷積神經(jīng)網(wǎng)絡(luò)多層卷積運(yùn)算和采樣過(guò)程圖
RBM的隱藏向量h和可見(jiàn)向量v之間存在對(duì)稱性的連接Wi,j,但是隱藏向量之間或者可見(jiàn)向量之間沒(méi)有連接.該模型通過(guò)模擬熱力學(xué)能量定義了基于h,v的聯(lián)合概率分布,如式(1)所示.由于同層變量之間沒(méi)有連接,因此根據(jù)聯(lián)合概率分布可方便計(jì)算出每一個(gè)單元的激發(fā)概率.
-lgP(v,h)∝E(v,h)=
(1)
其中,c,b為偏置參數(shù)向量,W為RBM連接權(quán)值矩陣,E(·)為RBM能量函數(shù).
根據(jù)式(1),可定義隱層和可見(jiàn)層的概率分布:
(2)
(3)
(4)
每一個(gè)單元的激發(fā)概率為
(5)
(6)
CNN是多層感知機(jī)(MLP)的一個(gè)變種模型,是近幾年來(lái)快速發(fā)展并引起廣泛重視的一種高效識(shí)別方法,它是從生物學(xué)概念中演化而來(lái)的.20世紀(jì)60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而LeCun等人以此為基礎(chǔ)提出了CNN[15].
一般來(lái)說(shuō),CNN的基本結(jié)構(gòu)包括2層:1)特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征.一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來(lái).2)特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等.特征映射結(jié)構(gòu)采用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性.此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù).卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來(lái)求局部平均與2次提取的計(jì)算層,這種特有的2次特征提取結(jié)構(gòu)減小了特征分辨率.其具體結(jié)構(gòu)圖如圖2所示:
(7)
子抽樣層Sl在每個(gè)出入位面上使用Kl×Kl平滑濾波:
(8)
首先將視頻模型描述為視聽(tīng)雙模態(tài),其中該模型的信號(hào)是視頻幀和與視頻幀同步的連續(xù)聲譜.本文采用了基于稀疏理論深度自動(dòng)編碼器的異構(gòu)多模態(tài)深度學(xué)習(xí)策略.
深度自動(dòng)編碼器是一種利用無(wú)監(jiān)督逐層貪心預(yù)訓(xùn)練和系統(tǒng)性參數(shù)優(yōu)化的多層非線性網(wǎng)絡(luò),能夠從無(wú)標(biāo)簽數(shù)據(jù)中提取高維復(fù)雜輸入數(shù)據(jù)的分層特征,并得到原始數(shù)據(jù)的分布式特征表示的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其由編碼器、解碼器和隱含層組成.
基于稀疏理論的深度自動(dòng)編碼器[10]對(duì)原始自動(dòng)編碼器的隱含層添加了約束條件并增加了隱含層數(shù)量,能提取高維數(shù)據(jù)向量的稀疏解釋性因子,保留原始輸入的非零特征,增加表示算法的魯棒性,增強(qiáng)數(shù)據(jù)的線性可分性,使物體邊界變得更加清晰.
該識(shí)別模型分為輸入層、共享表示層以及輸出層.
1) 輸入層.為視頻資源的2個(gè)模態(tài),即聲譜和視頻幀,其中聲譜采用RBM訓(xùn)練,視頻幀采用CNN訓(xùn)練.
2) 共享表示層.這一層的關(guān)鍵是找到特征模態(tài)的轉(zhuǎn)換表示從而最大化模態(tài)之間的關(guān)聯(lián)性.本文采用典型關(guān)聯(lián)分析(canonical correlation analysis, CCA)的方法尋找聲譜波和視頻幀數(shù)據(jù)的線性轉(zhuǎn)換從而形成性能優(yōu)良的共享表示.
其中,CCA是一種先將較多變量轉(zhuǎn)化為少數(shù)幾個(gè)典型變量,再通過(guò)其間的典型相關(guān)系數(shù)來(lái)描述2組多元隨機(jī)變量之間關(guān)系的統(tǒng)計(jì)方法.有助于綜合地描述2組變量之間的典型相關(guān)關(guān)系.基本過(guò)程是從2組變量各自的線性函數(shù)中各抽取一個(gè)組成一對(duì),它們應(yīng)是相關(guān)系數(shù)達(dá)到最大值的一對(duì),稱為第1對(duì)典型變量,類似地就可以求出第2對(duì)、第3對(duì),……,這些成對(duì)變量之間互不相關(guān),各對(duì)典型變量的相關(guān)系數(shù)稱為典型相關(guān)系數(shù).所得到的典型相關(guān)系數(shù)的數(shù)目不超過(guò)原2組變量中任何一組變量的數(shù)目.
3) 輸出層.這一層為聲譜和視頻的重構(gòu).還原視頻信息的同時(shí),識(shí)別視頻中的物體.
2.1 視頻相關(guān)性描述
視頻是由一系列圖像所組成,圖像中目標(biāo)識(shí)別的方法可以用來(lái)對(duì)視頻進(jìn)行識(shí)別,一段視頻可以分解成很多幀,同一視頻中連續(xù)的2個(gè)視頻幀很有可能表示同樣的內(nèi)容,視頻的這種特性我們稱之為相關(guān)特性.將這視頻的這種特性用于視頻的目標(biāo)識(shí)別,可以使識(shí)別效果得到很大程度的提高[22].
利用視頻的時(shí)間相關(guān)性來(lái)提高識(shí)別準(zhǔn)確性已成功用于視頻的動(dòng)作識(shí)別[23].實(shí)驗(yàn)表明具有時(shí)間相關(guān)性視頻卷積網(wǎng)絡(luò)的識(shí)別效果明顯比采用視頻單幀進(jìn)行訓(xùn)練的卷積網(wǎng)絡(luò)效果優(yōu)越.
2.2 利用視頻相關(guān)特性的優(yōu)化
CNN中在每個(gè)卷積層和子采樣層之后都運(yùn)用了一個(gè)非線性函數(shù)tanh(·),最后使用經(jīng)典的全連接層輸出識(shí)別標(biāo)簽向量,我們引入了softmax層,向量的概率計(jì)算為
(9)
在普通CNN對(duì)視頻的處理過(guò)程中,我們從視頻的全部圖像幀中抽取一部分作為訓(xùn)練樣本,{(xn,yn)}n=1,2,…,N,xn代表二維的輸入圖像,yn為分類或識(shí)別的標(biāo)簽.對(duì)CNN網(wǎng)絡(luò)中的相鄰幀參數(shù)θ,以最小化似然函數(shù)L(θ)為目標(biāo),優(yōu)化參數(shù)θ.似然函數(shù)L(θ)的表達(dá)式如下:
(10)
為達(dá)到這個(gè)目的,采用隨機(jī)梯度下降算法對(duì)式(10)中的參數(shù)θ進(jìn)行訓(xùn)練,從訓(xùn)練樣本中取一個(gè)隨機(jī)樣本(x,y),計(jì)算出梯度?L(θ)?θ后,按照式(11)更新參數(shù)θ.
(11)
得到的新參數(shù)θ能使CNN對(duì)視頻中目標(biāo)識(shí)別的性能更準(zhǔn)確.其中λ是根據(jù)實(shí)驗(yàn)選擇的學(xué)習(xí)率.
為了使CNN更好地訓(xùn)練θ,以達(dá)到更好的識(shí)別正確率,我們利用視頻中存在的時(shí)間相關(guān)性進(jìn)一步對(duì)似然函數(shù)L(θ)進(jìn)行優(yōu)化.
Lcoh(θ,x1,x2)=
(12)
其中,δ為邊緣尺寸,是一個(gè)提前選取好的參數(shù),例如δ=1.
Fig. 3 Parameter optimization by utilizing the coherence圖3 利用相關(guān)特性優(yōu)化學(xué)習(xí)參數(shù)示意圖
上述的CNN自身對(duì)目標(biāo)識(shí)別的任務(wù)和使用視頻時(shí)間相關(guān)性對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化是同時(shí)進(jìn)行的,最后我們得到一個(gè)優(yōu)化后的參數(shù):
(13)式(13)最小的參數(shù)θ即是我們要訓(xùn)練的θ值.在式(13)中,為了限制參數(shù)的數(shù)量,為相關(guān)似然函數(shù)Lcoh(θ,x1,x2)設(shè)置了相同的γ,如可令γ=1.
2.3 基于時(shí)間相關(guān)的異構(gòu)多模態(tài)深度學(xué)習(xí)算法
基于時(shí)間相關(guān)性的異構(gòu)多模態(tài)的結(jié)構(gòu)如圖4所示,我們將視頻中的2個(gè)模態(tài)視頻和音頻分別采用CCN和RBM進(jìn)行處理得到相應(yīng)的識(shí)別標(biāo)簽向量.
RBM網(wǎng)絡(luò)的輸入為與視頻幀相對(duì)應(yīng)的同步連續(xù)聲譜,我們采用深度自動(dòng)編碼器的學(xué)習(xí)模型對(duì)音頻進(jìn)行處理,該學(xué)習(xí)模型仍然與第1節(jié)類似,分為輸入層、共享表示層以及輸出層.
1) 輸入層.為視頻資源的2個(gè)模態(tài),即聲譜波和視頻幀,其中聲譜采用RBM訓(xùn)練,視頻幀采用CNN訓(xùn)練.
2) 共享表示層.這一層的關(guān)鍵是找到特征模態(tài)的轉(zhuǎn)換表示從而最大化模態(tài)之間的關(guān)聯(lián)性.與第1節(jié)不同的是,該共享層的視頻部分的特征由并行CNN產(chǎn)生.本文采用CCA的方法尋找聲譜數(shù)據(jù)的線性轉(zhuǎn)換從而形成性能優(yōu)良的共享表示.
3) 輸出層.為該深度學(xué)習(xí)模型的識(shí)別標(biāo)簽向量.
RBM的目標(biāo)是最大化訓(xùn)練樣本集V中的概率之積:
(14)
CNN的優(yōu)化目標(biāo)則是最大化式(9)中的概率,基于時(shí)間相關(guān)的異構(gòu)多模態(tài)深度學(xué)習(xí)算法的目的就是對(duì)參數(shù)w,θ優(yōu)化RBM和CNN的聯(lián)合概率:
(15)
具體的算法如算法1所示.
算法1. 利用時(shí)間相關(guān)性的學(xué)習(xí)參數(shù)優(yōu)化算法.
輸入:標(biāo)簽數(shù)據(jù)(an,xn,yn),n=1,2,…,N,非標(biāo)簽視頻數(shù)據(jù)an,xn,n=N+1,N+2,…,N+U;
輸出:神經(jīng)網(wǎng)絡(luò)的參數(shù)w,θ和識(shí)別標(biāo)簽label.
Repeat:
Step1. 取一個(gè)隨機(jī)標(biāo)簽樣本(an,xn,yn);
Step2. 針對(duì)音頻輸入an,執(zhí)行一次梯度下降迭代優(yōu)化RBM的連接參數(shù)w;
Step3. 對(duì)視頻輸入幀中連續(xù)的xn,yn和似然函數(shù)L(θ,xn,yn),執(zhí)行1次梯度下降迭代;
Step4. 對(duì)視頻輸入幀中不連續(xù)的xm,xn和相關(guān)似然函數(shù)Lcoh(θ,xm,xn),執(zhí)行1次梯度下降迭代;
Fig. 4 Structure of heterogeneous multimodal deep learning based on temporal coherence圖4 基于時(shí)間相關(guān)的異構(gòu)多模態(tài)深度學(xué)習(xí)結(jié)構(gòu)圖
Step5. 針對(duì)音頻輸入an,再執(zhí)行1次梯度下降迭代優(yōu)化RBM的連接參數(shù)w,選擇參數(shù)w,θ最大化式(15)中的聯(lián)合概率.
Until迭代誤差小于設(shè)置的閾值.
上述算法就是通過(guò)交替更新目標(biāo)識(shí)別任務(wù)的聲譜識(shí)別和視頻圖像幀識(shí)別的參數(shù)來(lái)實(shí)現(xiàn)優(yōu)化,在視頻圖像幀中同時(shí)利用了連續(xù)幀和非連續(xù)幀的特征進(jìn)行優(yōu)化,以達(dá)到提高識(shí)別效率的目的.
為了驗(yàn)證本文提出的異構(gòu)多模態(tài)深度學(xué)習(xí)的目標(biāo)識(shí)別方法的性能,構(gòu)造了3組對(duì)比實(shí)驗(yàn):組1的測(cè)試數(shù)據(jù)來(lái)自于單一的數(shù)據(jù)庫(kù),主要說(shuō)明異構(gòu)架構(gòu)結(jié)合多種神經(jīng)網(wǎng)絡(luò)的有效性;組2的測(cè)試數(shù)據(jù)來(lái)自不同的數(shù)據(jù)庫(kù),主要說(shuō)明算法的適應(yīng)性;組3的測(cè)試數(shù)據(jù)來(lái)自視頻網(wǎng)站的電影視頻,說(shuō)明算法的實(shí)際應(yīng)用性.
對(duì)比實(shí)驗(yàn)采用了高性能雙CPU服務(wù)器硬件配置,帶有128 GB內(nèi)存,并配備一塊雙GPU加速卡.基于caffe開(kāi)源平臺(tái)進(jìn)行深度學(xué)習(xí)異構(gòu)平臺(tái)的搭建,使用了其中的CNN工具,并加入了多層RBM神經(jīng)網(wǎng)絡(luò)和共享的關(guān)聯(lián)分析.
3.1 對(duì)比實(shí)驗(yàn)1
為說(shuō)明異構(gòu)深度學(xué)習(xí)架構(gòu)的有效性,將本文提出的異構(gòu)多模態(tài)策略與分別基于單一神經(jīng)網(wǎng)絡(luò)CNN和RBM的算法進(jìn)行對(duì)比.選用BANCA[24]數(shù)據(jù)庫(kù)中的視頻作為測(cè)試數(shù)據(jù)來(lái)源,該數(shù)據(jù)庫(kù)由26個(gè)被測(cè)對(duì)象(13個(gè)男性和13個(gè)女性)的發(fā)音視頻組成.每個(gè)被測(cè)對(duì)象記錄24段視頻,每段視頻大致延續(xù)15 s.在這段視頻中被測(cè)對(duì)象要么讀數(shù)字,要么讀他們自己或別人的名字與地址.某些片段會(huì)加入噪聲.
對(duì)每個(gè)被測(cè)對(duì)象的24段視頻,其中8段作為訓(xùn)練組,16段作為測(cè)試組,對(duì)比的結(jié)果如表1所示.由表1可以看出,基于異構(gòu)多模態(tài)的神經(jīng)網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)目標(biāo)識(shí)別結(jié)果比基于單一網(wǎng)絡(luò)的深度學(xué)習(xí)的目標(biāo)識(shí)別結(jié)果有了顯著提高.
Table 1 Comparison of Neural Network Algorithms withDifferent Structures Based on BANCA
3.2 對(duì)比實(shí)驗(yàn)2
為了說(shuō)明算法的適應(yīng)性,在這組實(shí)驗(yàn)中分別采用來(lái)自不同的數(shù)據(jù)庫(kù)作為測(cè)試視頻的聲音和圖像幀信息,使用的數(shù)據(jù)庫(kù)如下:
1) Stanford Dataset.該數(shù)據(jù)庫(kù)是來(lái)自于斯坦福大學(xué)的一個(gè)網(wǎng)絡(luò)數(shù)據(jù)庫(kù).我們選用其中的語(yǔ)音數(shù)據(jù)部分,使用庫(kù)中23名志愿者朗讀從0~9的數(shù)字、從A~Z的字母和從TIMIT標(biāo)準(zhǔn)語(yǔ)音庫(kù)里挑選的語(yǔ)句,以作為聲音訓(xùn)練和測(cè)試數(shù)據(jù).
2) Olivetti Faces.該數(shù)據(jù)庫(kù)是紐約大學(xué)的一個(gè)人臉數(shù)據(jù)庫(kù),由40個(gè)人的400張圖片構(gòu)成,即每個(gè)人的人臉圖片為10張.每張圖片的灰度級(jí)為8 b,每個(gè)像素的灰度大小位于0~255之間,每張圖片大小為64×64.使用圖片構(gòu)造被測(cè)視頻的圖像幀,采用人工設(shè)定視頻中的人臉視頻與語(yǔ)音數(shù)據(jù)的對(duì)應(yīng)關(guān)系.視頻幀中的幀1,4,5作為標(biāo)簽數(shù)據(jù),其余的圖像作為非標(biāo)簽數(shù)據(jù).
此外,為了驗(yàn)證算法的有效性,我們將所提出異構(gòu)多模態(tài)深度學(xué)習(xí)方法同已有的近鄰取樣、支持向量機(jī)和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和玻爾茲曼機(jī)等目標(biāo)識(shí)別方法進(jìn)行比較.我們將所用圖像和語(yǔ)音數(shù)據(jù)平均分成6組,分為訓(xùn)練組L和測(cè)試組T,進(jìn)行如下操作:1)L=1,T=5; 2)L=2,T=4; 3)L=5,T=1,測(cè)試結(jié)果如表2所示:
Table 2 Comparison of Algorithms Based on StanfordDataset and Olivetti Faces
由實(shí)驗(yàn)結(jié)果可以看出隨著訓(xùn)練集的規(guī)模增大,所有目標(biāo)識(shí)別方法的測(cè)試精度都得到了顯著提高.跟傳統(tǒng)的4種目標(biāo)識(shí)別方法相比,由于本文提出的異構(gòu)多模態(tài)深度學(xué)習(xí)方法能夠抽象學(xué)習(xí)目標(biāo)與時(shí)間相關(guān)的特性信息,能不依賴大量對(duì)象集進(jìn)行目標(biāo)識(shí)別訓(xùn)練,所以異構(gòu)多模態(tài)深度學(xué)習(xí)方法能始終獲得最高的訓(xùn)練精度.在訓(xùn)練組較小L=1,T=5時(shí),異構(gòu)多模態(tài)深度學(xué)習(xí)方法的測(cè)試精度是90.35%;在訓(xùn)練組較多L=5,T=1時(shí),測(cè)試精度提升了8.51%,誤差率只有1.14%.
3.3 對(duì)比實(shí)驗(yàn)3
此外,我們利用以下3種具有復(fù)雜場(chǎng)景和多種表情動(dòng)作的視頻數(shù)據(jù)集以驗(yàn)證本算法的有效性:UCF sport actions, Hollywood2和YouTube action.這些數(shù)據(jù)集提取自實(shí)際場(chǎng)景,具有場(chǎng)景復(fù)雜、待識(shí)別目標(biāo)具有移動(dòng)性、目標(biāo)捕捉困難、面對(duì)干擾較大等特性.
由于使用了帶有GPU的高性能服務(wù)器,所有的算法在訓(xùn)練后都可以在連續(xù)播放5~10幀的時(shí)間內(nèi)完成目標(biāo)識(shí)別.而本文所提出異構(gòu)算法所需要的時(shí)間略高,較所有算法的平均時(shí)間大約高出7%,但仍然對(duì)所測(cè)試的視頻基本上可以滿足實(shí)時(shí)性的要求.
在本次實(shí)驗(yàn)中我們利用較多訓(xùn)練組L=5,T=1來(lái)驗(yàn)證目標(biāo)識(shí)別精度.比較結(jié)果如表3所示.由仿真結(jié)果可以看出在更復(fù)雜的場(chǎng)景下,所有4種方法的目標(biāo)識(shí)別都更加困難.特別是針對(duì)高度復(fù)雜的好萊塢電影場(chǎng)景,目標(biāo)識(shí)別精度最高只有63.86%.
Table 3 Comparison of Algorithms Based on UCF, Hollywood2and YouTube Action
由于4種數(shù)據(jù)集場(chǎng)景具有較大的干擾,所以具有濾波作用的玻爾茲曼機(jī)方法和異構(gòu)多模態(tài)深度學(xué)習(xí)方法具有更高的識(shí)別精度.此外本文提出的異構(gòu)多模態(tài)深度學(xué)習(xí)方法能夠抽象的學(xué)習(xí)目標(biāo)與時(shí)間相關(guān)的特性信息,特別適用于移動(dòng)場(chǎng)景目標(biāo)的識(shí)別,能始終獲得最高的目標(biāo)識(shí)別精度.
本文針對(duì)網(wǎng)絡(luò)媒體數(shù)據(jù)中同時(shí)包含音頻信號(hào)和時(shí)間相關(guān)的視頻圖像信號(hào)的特點(diǎn),提出一種異構(gòu)多模態(tài)目標(biāo)識(shí)別的策略,結(jié)合RBM和CNN分別處理媒體數(shù)據(jù)的音頻和視頻信息,并進(jìn)一步根據(jù)視頻幀之間的時(shí)間相關(guān)性優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù),所提出的策略將2種模態(tài)特征進(jìn)行共享學(xué)習(xí)表示.通過(guò)結(jié)合2種模態(tài)之間的特征,對(duì)視頻數(shù)據(jù)進(jìn)行更為準(zhǔn)確的目標(biāo)識(shí)別.本文給出的算法實(shí)驗(yàn)和比較結(jié)果,顯示了本文算法的有效性與優(yōu)越性.在下一步的研究中,將會(huì)考慮更為復(fù)雜的視頻場(chǎng)景和充分的噪聲干擾,并考慮不同分辨率視頻信息的融合,以增加算法在實(shí)際應(yīng)用場(chǎng)景的識(shí)別能力和適應(yīng)性能.
[1]Yu Wei, Li Shijun, Yang Sha, et al. Automatically discovering of inconsistency among cross-source data based on Web big data[J]. Journal of Computer Research and Development, 2015, 52(2): 295-308 (in Chinese)(余偉, 李石君, 楊莎, 等. Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(2): 295-308)
[2]Chen X W, Lin X. Big data deep learning: Challenges and perspectives[J]. IEEE Access, 2014, 2: 514-525
[3]Li Guojie. The scientific value in the study of the big data[J]. Communications of CCF, 2012, 8(9): 8-15 (in Chinese)(李國(guó)杰. 大數(shù)據(jù)研究的科學(xué)價(jià)值[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 8-15)
[4]Lowe D G. Object recognition from local scale-invariant features[C]Proc of the 7th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 1150-1157
[5]Deng L, Yu D. Deep learning: Methods and applications[J]. Foundations and Trends in Signal Processing, 2014, 7(34): 197-387
[6]Zivkovic Z. Improved adaptive Gaussian mixture model for background subtraction[C]Proc of the 17th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2004: 28-31
[7]Quattoni A, Collins M, Darrell T. Conditional random fields for object recognition[C]Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2004: 1097-1104
[8]Suykens J A K, Vandewalle J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300
[9]Morgan N, Bourlard H. Continuous speech recognition using multilayer perceptrons with hidden Markov models[C]Proc of Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1990: 413-416
[10]Le Q V, Zou W Y, Yeung S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 3361-3368
[11]Arel I, Rose D C, Karnowski T P. Deep machine learning-a new frontier in artificial intelligence research[J]. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18
[12]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507
[13]Liu Jianwei, Liu Yuan, Luo Xionglin. The research and progress of deep learning[J]. Application Research of Computers, 2014, 31(7): 1921-1930 (in Chinese)(劉建偉, 劉媛, 羅雄麟. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(7): 1921-1930)
[14]Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97
[15]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[16]Cheng Dongyang. Multimedia content analysis based on unsupervised feature learning[D]. Shanghai: Shanghai Jiao Tong University, 2014: 1-93 (in Chinese)(程?hào)|陽(yáng). 基于無(wú)監(jiān)督特征學(xué)習(xí)的多媒體內(nèi)容算法研究[D]. 上海: 上海交通大學(xué), 2014: 1-93)
[17]You Qingzhen. The radio face recognition method based on the deep learning[D]. Harbin: Harbin Institute of Technology, 2012: 3-20 (in Chinese)(由清圳. 基于深度學(xué)習(xí)的視頻人臉識(shí)別[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2012: 3-20)
[18]Wang Y S, Fu H, Sorkine O, et al. Motion-aware temporal coherence for video resizing[J]. ACM Trans on Graphics, 2009, 28(5): 127-127
[19]Zou W, Zhu S, Yu K, et al. Deep learning of invariant features via simulated fixations in video[C]Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 3212-3220
[20]Leonardi R, Migliorati P, Prandini M. Semantic indexing of soccer audio-visual sequences: A multimodal approach based on controlled Markov chains[J]. IEEE Trans on Circuits and Systems for Video Technology, 2004, 14(5): 634-643
[21]Ngiam J, Khosla A, Kim M, et al. Multimodal deep learning[C]Proc of the 28th Int Conf on Machine Learning. New York: ACM, 2011: 689-696
[22]Mobahi H, Collobert R, Weston J. Deep learning from temporal coherence in video[C]Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 737-744
[23]Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 568-576
[24]Bailly-Baillie`re E, Bengio S, Bimbot F, et al. The BANCA database and evaluation protocol[G]LNCS 2688: Proc of the 4th Int Conf on Audio-and Video-Based Biometric Person Authentication. Berlin: Springer, 2003: 625-638
Wen Mengfei, born in 1975. Associate professor. PhD from Central South University, postdoctor of Hunan Provincial Research Institute of Education. His main research interests include automation control, computer science and multi-agent system.
Liu Weirong, born in 1976. PhD. Associate professor of Central South University. Member of CCF. His main research interests include computer science, machine learning, big data, cooperative communication and cooperative control.
Hu Chao, born in 1980. PhD from Central South University. Associate dean of Information and Network Center of Central South University. His main research interests include computer science, network management and regional medical informationization (huchao@csu.edu.cn).
A Heterogeneous Multimodal Object Recognition Strategy of the Massive Network Data Flow
Wen Mengfei1,4, Liu Weirong1, and Hu Chao2,3
1(SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083)2(InformationandNetworkCenter,CentralSouthUniversity,Changsha410083)3(KeyLaboratoryofMedicalInformationResearch(CentralSouthUniversity),CollegeofHunanProvince,Changsha4100834(HunanProvincialResearchInstituteofEducation,Changsha410005)
It is a research hot to achieve the object recognition of the massive network media data nowadays. To address the problem, an object recognition strategy is proposed to handle the massive network media data flow which adopts heterogeneous multimodal structure while utilizing the temporal coherence. Firstly, based on the video and audio co-existing feature of media network data, a heterogeneous multimodal structure is constructed to incorporate the convolutional neural network(CNN) and the restricted Boltzmann machine(RBM). The audio information is processed by restricted Boltzmann machine and the video information is processed by convolutional neural network respectively. The heterogeneous multimodal structure can exploit the merits of different deep learning neural networks. After that, the share characteristic representation are generated by using the canonical correlation analysis(CCA). Then the temporal coherence of video frame is utilized to improve the recognizing accuracy further. There kinds of experiments are adopted to validate the effectiveness of the proposed strategy. The first type of experiment compares the proposed strategy with single-mode algorithm. The second type of experiment illustrates the result based on composite database. Finally the videos coming from real websites are extracted to compare the proposed strategy with other algorithms. These experiments prove the effectiveness of the proposed heterogeneous multimodal strategy.
object recognition; deep learning; convolutional neural network (CNN); restricted Boltzmann machine (RBM); canonical correlation analysis (CCA)
2015-08-03;
2015-12-16
湖南省教育科學(xué)“十二五”規(guī)劃重點(diǎn)資助項(xiàng)目(XJK014AJC001);國(guó)家自然科學(xué)基金項(xiàng)目(61379111,61672539,61202342) This work was supported by the Key Project of Educational and Scientific Foundation of Hunan Province During the 12th Five-Year Plan Period(XJK014AJC001) and the National Natural Science Foundation of China (61379111,61672539,61202342).
劉偉榮(frat@csu.edu.cn)
TP391