程曉陽 詹永照 毛啟容 詹智財(cái)
(江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 江蘇鎮(zhèn)江 212013)
近年來,隨著互聯(lián)網(wǎng)、多媒體設(shè)備的發(fā)展,網(wǎng)絡(luò)多媒體視頻數(shù)據(jù)呈幾何級(jí)數(shù)增長,對(duì)無場(chǎng)景限制視頻進(jìn)行高層語義概念提取和識(shí)別技術(shù)具有愈加廣闊的應(yīng)用前景.同時(shí),傳統(tǒng)視頻分類方法如基于標(biāo)簽文本的關(guān)鍵字匹配[1],在應(yīng)對(duì)互聯(lián)網(wǎng)海量視頻數(shù)據(jù)及視頻內(nèi)容復(fù)雜度區(qū)分方面表現(xiàn)有待提升,而基于原始視頻圖像幀的全局特征(顏色、邊緣檢測(cè)、Gabor等)或先獲取局部特征(Sift,MoSift等)[2-3],緊接著應(yīng)用BoW等方法[4]將局部特征轉(zhuǎn)換成全局特征描述,最后載入分類器的方法都不可避免手動(dòng)設(shè)計(jì)特征提取方法的問題.當(dāng)前,深度學(xué)習(xí)方法通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新的特征空間[5],從而更加方便分類與預(yù)測(cè),在計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等方面取得成功應(yīng)用[6].在基于深度學(xué)習(xí)的視頻語義分析研究領(lǐng)域,Wu等人[7]提出基于多線性主成分分析的深度學(xué)習(xí)模型(multilinear principal component analysis network, MPCANet)進(jìn)行視頻高層語義特征的學(xué)習(xí)和目標(biāo)分類.Liu等人[8]提出基于堆疊過完備獨(dú)立成分分析的模型(overcomplete independent component analysis, OICA)學(xué)習(xí)視頻時(shí)空特征進(jìn)行視頻動(dòng)作識(shí)別.Gammulle等人[9]提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural network, CNN)和長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)結(jié)合的人體動(dòng)作識(shí)別方法.研究表明:深度學(xué)習(xí)方法在提高視頻語義分析準(zhǔn)確性方面有重要作用.
對(duì)比手寫體等圖像目標(biāo)識(shí)別任務(wù),視頻圖像內(nèi)容更復(fù)雜,表現(xiàn)出目標(biāo)的旋轉(zhuǎn)、縮放、平移等現(xiàn)象,所以需要在視頻語義檢測(cè)中使用的特征提取器在應(yīng)對(duì)復(fù)雜現(xiàn)象時(shí)表現(xiàn)出魯棒性,獲取更多不變性的表征.Andrew等人[10]指出視網(wǎng)膜上視神經(jīng)元具有相鄰相似性,即當(dāng)前神經(jīng)元的激活會(huì)影響到周邊神經(jīng)元的激活程度,這樣的近鄰關(guān)聯(lián)能夠幫助特征學(xué)習(xí)中形成具有秩序性特征.Hyv?rinen等人[11]在獨(dú)立成分分析(independent component analysis, ICA)模型加入拓?fù)浼s束得到能夠保證近鄰成分具有強(qiáng)相關(guān)性的拓?fù)洫?dú)立成分分析(topographic independent com-ponent analysis, TICA)并驗(yàn)證該拓?fù)涮匦詫?duì)研究圖像識(shí)別問題的益處,相似的實(shí)驗(yàn)[12-13]表明這種拓?fù)潢P(guān)聯(lián)性具有較好的物體旋轉(zhuǎn)、縮放、平移的不變性.考慮以往研究用于視頻圖像特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)[14-17]主要關(guān)注于網(wǎng)絡(luò)結(jié)構(gòu)模型的設(shè)計(jì),未考慮利用相鄰神經(jīng)元節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)相關(guān)性信息,同層卷積核缺乏相關(guān)性的缺陷.本文引入與TICA相似的拓?fù)浼s束,并且考慮到隱層神經(jīng)元特征空間排布的特性,結(jié)合結(jié)構(gòu)化稀疏關(guān)聯(lián)關(guān)系分析[18],提出考慮以平面神經(jīng)元節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)關(guān)系作為拓?fù)浣Y(jié)構(gòu)約束項(xiàng),形成新的拓?fù)湎∈杈幋a器用作神經(jīng)網(wǎng)絡(luò)模型預(yù)訓(xùn)練[19],用以增加參數(shù)學(xué)習(xí)過程中的正則化,學(xué)習(xí)符合視頻圖像拓?fù)浣Y(jié)構(gòu)信息的視頻圖像特征表達(dá).本文方法實(shí)現(xiàn)包括:1)對(duì)稀疏自動(dòng)編碼器(sparse auto encoder, SAE)[20]引入拓?fù)浼s束得到拓?fù)湎∈枳詣?dòng)編碼器(topographic sparse auto encoder, TSAE);2)在視頻圖像數(shù)據(jù)上基于TSAE構(gòu)建無監(jiān)督學(xué)習(xí)模型,作為神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型[21],同時(shí)在其全連接層以有視頻概念標(biāo)簽的視頻圖像進(jìn)行邏輯回歸微調(diào)網(wǎng)絡(luò)參數(shù),得到基于視頻序列幀圖像的特征提取器;3)構(gòu)建視頻全連接層特征映射,對(duì)全連接層也以有視頻概念標(biāo)簽類別的視頻進(jìn)行網(wǎng)絡(luò)參數(shù)的微調(diào),學(xué)習(xí)得到基于視頻段的特征表達(dá);4)將此特征表達(dá)送入SVM中做建模和語義概念分類分析.為了驗(yàn)證本文特征提取方法的有效性,在TRECVID 2012,UCF11這2類視頻數(shù)據(jù)集上與多種算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明:引入拓?fù)浼s束的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取的特征分類效果更好.
本文的貢獻(xiàn)主要有2個(gè)方面:
1) 考慮圖像邊緣性和神經(jīng)元的近鄰結(jié)構(gòu)關(guān)聯(lián)性,考慮加入新的拓?fù)浣Y(jié)構(gòu)信息約束項(xiàng)形成拓?fù)湎∈杈幋a器,在視頻圖像特征的半監(jiān)督學(xué)習(xí)中,用于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)重因子,使深度網(wǎng)絡(luò)所學(xué)習(xí)的視頻圖像特征具有拓?fù)渲刃蛐畔ⅲ?/p>
2) 在視頻特征學(xué)習(xí)的全連接層,綜合有標(biāo)簽的視頻序列的關(guān)鍵幀特征,建立邏輯回歸約束,微調(diào)網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)了類別更具可鑒別的視頻序列特征的優(yōu)化.
SAE作為無監(jiān)督訓(xùn)練模型自動(dòng)學(xué)習(xí)一種非線性映射來提取輸入數(shù)據(jù)的特征,如圖像的邊和拐角等.SAE模型的代價(jià)函數(shù)為
(1)
(2)
(3)
稀疏編碼作為稀疏自編碼方法的變形,該模型學(xué)習(xí)目標(biāo)是通過迭代直接學(xué)習(xí)數(shù)據(jù)的特征矢量和基向量.Andrew等人[10]在稀疏編碼模型引入拓?fù)湫约s束形成拓?fù)湎∈杈幋a,學(xué)習(xí)到具有某種“秩序”的特征矢量.拓?fù)湎∈杈幋a的目標(biāo)函數(shù)為
(4)
其中,對(duì)輸入樣本x,s表示樣本數(shù)據(jù)的稀疏特征矢量,A表示將特征矢量從特征空間轉(zhuǎn)換到樣本數(shù)據(jù)空間的基向量.式(4)右邊第1項(xiàng)是基向量將特征矢量重構(gòu)為樣本數(shù)據(jù)所產(chǎn)生的誤差;式(4)右邊第2項(xiàng)為權(quán)重衰減項(xiàng),以保證基向量的每一項(xiàng)值足夠??;式(4)右邊第3項(xiàng)為拓?fù)湎∈钁土P項(xiàng),ε用作“平滑參數(shù)”,拓?fù)涮匦缘墨@得通過將用于圖像特征提取的特征矢量s按2D矩陣的行排布成網(wǎng)格形式的方陣,當(dāng)以某個(gè)特征節(jié)點(diǎn)為中心進(jìn)行考慮時(shí)希望以網(wǎng)格中該節(jié)點(diǎn)周邊相鄰接區(qū)域的特征節(jié)點(diǎn)具有相似性,對(duì)應(yīng)相鄰區(qū)域?yàn)榇笮?×3的窗口方陣構(gòu)成近鄰分組,該分組在網(wǎng)格方陣上有部分重疊的滑動(dòng),并且分組窗口可以跨越2D矩陣的邊界,以使每個(gè)特征節(jié)點(diǎn)都具有相同大小的近鄰區(qū)域,將網(wǎng)格中相鄰節(jié)點(diǎn)進(jìn)行分組并按平滑的L1范式懲罰實(shí)現(xiàn)拓?fù)湎∈钁土P.計(jì)算上進(jìn)一步將“分組”使用“分組矩陣”V實(shí)現(xiàn),對(duì)應(yīng)矩陣V的第r行標(biāo)識(shí)根據(jù)鄰接關(guān)系被分到第r組的特征節(jié)點(diǎn),即特征節(jié)點(diǎn)c分到第r組則Vr,c=1.Kavukcuoglu等人[23]通過加權(quán)分組實(shí)現(xiàn)相似的拓?fù)涮卣鬟^濾器映射,證實(shí)添加拓?fù)浼s束可以獲得對(duì)圖像旋轉(zhuǎn)、縮放、平移局部不變性的特征,學(xué)習(xí)特征表達(dá)能反映圖像的拓?fù)湫畔?以上方法在構(gòu)建拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)時(shí),對(duì)每個(gè)特征節(jié)點(diǎn)生成相同大小的近鄰分組.但是在用于視頻圖像特征學(xué)習(xí)時(shí),未考慮視頻圖像邊界非連續(xù)的特性.
本文針對(duì)視頻圖像目標(biāo)提出考慮以平面神經(jīng)元節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)關(guān)系構(gòu)建拓?fù)浣Y(jié)構(gòu)約束項(xiàng)的新的拓?fù)湎∈杈幋a器,用于學(xué)習(xí)更符合視頻圖像拓?fù)浣Y(jié)構(gòu)信息的特征表達(dá),進(jìn)而提高視頻語義分析的準(zhǔn)確率.
本文提出的基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN視頻特征學(xué)習(xí)如圖1所示.該模型學(xué)習(xí)分為2個(gè)階段:視頻圖像特征半監(jiān)督學(xué)習(xí)階段和視頻段特征有監(jiān)督優(yōu)化學(xué)習(xí)階段.對(duì)每一段視頻按視頻幀圖像輸入,經(jīng)過無監(jiān)督拓?fù)湎∈桀A(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻圖像拓?fù)渲刃蛐畔⑻卣?,同時(shí)在其全連接層(FC1)以有視頻概念標(biāo)簽的視頻圖像采用Softmax進(jìn)行網(wǎng)絡(luò)參數(shù)微調(diào),從而學(xué)習(xí)獲得視頻圖像特征;再將有概念標(biāo)簽的視頻關(guān)鍵幀的圖像特征通過經(jīng)Softmax優(yōu)化的全連接層(FC2)學(xué)習(xí)獲得視頻段特征;最后將視頻段特征送入SVM進(jìn)行視頻語義概念建模與檢測(cè),其中網(wǎng)絡(luò)的層次和其參數(shù)的設(shè)置是由實(shí)際實(shí)驗(yàn)的結(jié)果而確定.
Fig. 1 The overall framework of video image feature learning based on topographic sparse pre-training CNN圖1 基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN視頻圖像特征學(xué)習(xí)的整體框架
卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)包括卷積核、非線性激活函數(shù)設(shè)計(jì)和池化處理,卷積核的參數(shù)可通過無監(jiān)督的稀疏自動(dòng)編碼器預(yù)訓(xùn)練學(xué)習(xí)獲得.傳統(tǒng)SAE學(xué)習(xí)特征不考慮相鄰神經(jīng)元節(jié)點(diǎn)提取特征的關(guān)聯(lián)性.對(duì)于圖像數(shù)據(jù),某處像素點(diǎn)的值總是與周邊像素點(diǎn)值密切相關(guān),而在視覺神經(jīng)網(wǎng)絡(luò)中視神經(jīng)元具有相鄰相似性,故當(dāng)前位置的像素值在輸入神經(jīng)網(wǎng)絡(luò)中,如果當(dāng)前神經(jīng)元被激活,那么其附近神經(jīng)元也應(yīng)具有相似或相近的激活狀況,因此在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中可以充分考慮這種周邊結(jié)構(gòu)狀態(tài)相似性而形成拓?fù)浞纸M加以約束,有助于視頻圖像特征的學(xué)習(xí)能獲得某種“拓?fù)渲刃颉?為了使提取的圖像特征表現(xiàn)出特有的拓?fù)渲刃?,即相鄰神?jīng)元激活態(tài)相似,在稀疏編碼中再加入神經(jīng)元周圍相鄰的神經(jīng)元激活值特征形成矢量的模作為約束項(xiàng),從而建立拓?fù)湎∈杈幋a.如圖2所示,對(duì)于方形淺灰色(綠色)的神經(jīng)元,其拓?fù)潢P(guān)聯(lián)的神經(jīng)元為方形深灰色(紅色)神經(jīng)元.TSAE模型將隱層編碼神經(jīng)元節(jié)點(diǎn)依照二維矩陣按行排布,為實(shí)現(xiàn)上的方便性,我們將隱層神經(jīng)元節(jié)點(diǎn)基于相鄰關(guān)系進(jìn)行分組.每個(gè)隱層節(jié)點(diǎn)與其周邊鄰接的節(jié)點(diǎn)形成一個(gè)分組,即當(dāng)以某個(gè)神經(jīng)元為中心進(jìn)行考慮時(shí),希望在二維矩陣排布網(wǎng)格中該神經(jīng)元周邊相鄰接區(qū)域的神經(jīng)元具有相似性,以相鄰區(qū)域窗口方陣構(gòu)成近鄰分組,以第1行、第1列開始是一個(gè)分組,第1行、第2列是另一個(gè)分組,分組在網(wǎng)格方陣上有部分重疊的滑動(dòng),結(jié)合分組矩陣的分組關(guān)系,可在式(1)的稀疏編碼模型上加入分組的隱層狀態(tài)矩陣的L2約束懲罰,形成相鄰節(jié)點(diǎn)特征相似性的拓?fù)浼s束.
Fig. 2 The architecture of topographic sparse auto encoder圖2 拓?fù)湎∈枳詣?dòng)編碼器結(jié)構(gòu)圖
Fig. 3 Different neighborhoods for two kinds of TSAE圖3 2種不同拓?fù)湎∈杈幋a方法的近鄰分組
(5)
(6)
按行順序編號(hào)的第i個(gè)神經(jīng)元節(jié)點(diǎn)分在第r分組gr要滿足的條件是:
(7)
這里topoArea是鄰接域半徑,選擇為1,即鄰接域最大為3×3的矩形區(qū)域,分組間是有部分重疊的,各節(jié)點(diǎn)與鄰居節(jié)點(diǎn)形成分組,各分組內(nèi)部鄰接節(jié)點(diǎn)數(shù)是不同的,隱層角點(diǎn)鄰接域最小為2×2,邊上點(diǎn)鄰接域2×3,其他點(diǎn)最大鄰接域3×3,分組內(nèi)節(jié)點(diǎn)數(shù)倒數(shù)作為該分組節(jié)點(diǎn)拓?fù)浼s束權(quán)重因子,記為wg,這樣的分組結(jié)構(gòu)不同于old-TSAE中所有節(jié)點(diǎn)具有相同的鄰接節(jié)點(diǎn)數(shù),形成環(huán)狀拓?fù)浣Y(jié)構(gòu)的鄰接域.
本文通過拓?fù)湎∈杈幋a模型預(yù)訓(xùn)練CNN,進(jìn)而通過對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural networks, DCNN)進(jìn)行逐層[24]無監(jiān)督學(xué)習(xí)視頻圖像的特征,在全連接層也進(jìn)行拓?fù)湎∈杈幋a模型預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)并用視頻類別標(biāo)簽進(jìn)行視頻幀圖像的監(jiān)督優(yōu)化學(xué)習(xí).由于視頻是彩色視頻,將每一幅視頻圖像歸一化為64×64,相應(yīng)DCNN模型結(jié)構(gòu)為:輸入圖像尺寸為3×64×64,第1個(gè)卷積層由ker1個(gè)尺寸3×vh1×vw1的卷積核構(gòu)成,CNN處理得到特征圖使用尺寸2×2的均值池化;第2個(gè)卷積層使用ker2個(gè)尺寸ker1×vh2×vw2卷積核,該層CNN處理得到的特征圖使用尺寸2×2的均值池化,得到ker2×vh3×vw3特征,其中vh3=((64-vh1+1)2-vh2+1)2,vw3=((64-vw1+1)2-vw2+1)2;第3層為隱層節(jié)點(diǎn)數(shù)為H1的全連接層,對(duì)前一層輸出特征經(jīng)過全連接層映射得到H1×1的特征,即每幅輸入圖像經(jīng)過DCNN提取得到維度為H1的矢量.
基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練DCNN的視頻圖像特征學(xué)習(xí)步驟有4個(gè):
步驟1. 為第1個(gè)卷積層選擇ker1個(gè)神經(jīng)元節(jié)點(diǎn),根據(jù)卷積核大小3×vh1×vw1,將訓(xùn)練集視頻的全部RGB彩色視頻圖像幀分割成尺寸3×vh1×vw1的圖像塊,得到nBlock1圖像塊用于TSAE,經(jīng)矢量化轉(zhuǎn)換成nBlock1個(gè)具有col1=3×vh1×vw1個(gè)輸入特征的矢量,按式(5)的拓?fù)渚幋a經(jīng)梯度下降優(yōu)化求解預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)W1,be1和bd1.
步驟2. 將預(yù)訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)W1和be1作為第1個(gè)CNN層網(wǎng)絡(luò)參數(shù)初值,將訓(xùn)練集中所有視頻的每一幀圖像輸入到第1層CNN進(jìn)行無監(jiān)督特征學(xué)習(xí)和池化,得到的輸出作為第2層CNN預(yù)訓(xùn)練模型的輸入,即得到nFrames個(gè)ker1×(64-vh1+1)2×(64-vw1+1)2的特征圖.
步驟3. 類似于第1層CNN的預(yù)訓(xùn)練,進(jìn)行第2層CNN無監(jiān)督預(yù)訓(xùn)練.將nFrames個(gè)ker1×(64-vh1+1)2×(64-vw1+1)2的特征圖進(jìn)行圖像分塊,此時(shí)對(duì)于單個(gè)特征圖分割成尺寸大小為ker1×vh2×vw2的圖像塊,得到nBlock2圖像塊用于TSAE,經(jīng)矢量化轉(zhuǎn)換成nBlock2個(gè)具有col2=ker1×vh2×vw2個(gè)輸入特征的矢量,按式(5)的拓?fù)渚幋a優(yōu)化求解預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)W2和be2,將預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)W2和be2作為第2個(gè)CNN層網(wǎng)絡(luò)參數(shù)初值,進(jìn)行第2層CNN的無監(jiān)督特征學(xué)習(xí)和池化,得到nFrames個(gè)ker2×vh3×vw3的特征圖.
步驟4. 在全連接層(FC1),也類似于CNN的預(yù)訓(xùn)練方法,將nFrames個(gè)ker2×vh3×vw3的特征圖進(jìn)行TSAE優(yōu)化求解預(yù)訓(xùn)練具有隱層節(jié)點(diǎn)數(shù)為H1的全連接層的網(wǎng)絡(luò)參數(shù)初值,進(jìn)行無監(jiān)督特征學(xué)習(xí).同時(shí)用有視頻類別標(biāo)簽的視頻幀圖像進(jìn)行監(jiān)督優(yōu)化學(xué)習(xí).優(yōu)化時(shí),選擇使用基于回歸模型的Softmax對(duì)L個(gè)類別的分類最小化代價(jià),進(jìn)行全連接層網(wǎng)絡(luò)參數(shù)優(yōu)化微調(diào).
在優(yōu)化微調(diào)中,設(shè)第i幀的圖像特征為x(i),其中x(i)的特征維數(shù)為col3=ker2×vh3×vw3,視頻圖像類別為y(i),將所有有標(biāo)簽的視頻圖像特征x(i)(i=1,2,…,N)連接到H1×1大小的FC1得到視頻圖像特征F(i)=gwf1,bf1(x(i)),全連接層映射函數(shù)為
gwf1,bf1(x(i))=sigmoid(Wf1x(i)+bf1),
(8)
其中,Wf1,bf1為FC1層網(wǎng)絡(luò)因子權(quán)重和偏置參數(shù),則分類假設(shè)函數(shù)為
(9)
為了幫助優(yōu)化全連接層神經(jīng)網(wǎng)絡(luò)(FC1),分類目標(biāo)的最小化代價(jià)函數(shù)為
J(θ,Wf1,bf1)=
(10)
其中,θ為Softmax模型參數(shù);Wf1;bf1為全連接層參數(shù);1{y(i)=j}為示性函數(shù),條件真時(shí)取值1否則為0.
經(jīng)過Softmax模型對(duì)全連接層網(wǎng)絡(luò)(FC1)參數(shù)優(yōu)化微調(diào),F(xiàn)C1即可學(xué)習(xí)獲得視頻幀圖像特征.
對(duì)比圖像識(shí)別任務(wù),視頻語義概念的檢測(cè)是通過有序的視頻圖像信息完成語義概念檢測(cè)任務(wù),然而即使短的視頻序列也會(huì)包含很多的圖像幀,相似的圖像幀導(dǎo)致冗余數(shù)據(jù)和噪音存在[25-26].實(shí)驗(yàn)證實(shí)基于視頻關(guān)鍵幀也能有效實(shí)現(xiàn)視頻事件的檢測(cè)[27].本文視頻段特征學(xué)習(xí)是用有視頻概念標(biāo)簽的視頻序列關(guān)鍵幀圖像經(jīng)過深度CNN獲取視頻圖像特征,組成一個(gè)向量的視頻段特征后連入全連接層,并進(jìn)行優(yōu)化學(xué)習(xí).
對(duì)任意輸入視頻,對(duì)視頻序列提取m個(gè)關(guān)鍵幀,對(duì)圖像幀統(tǒng)一縮放到大小為64×64來表達(dá)視頻序列信息.關(guān)鍵幀圖像經(jīng)過拓?fù)湎∈桀A(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取得到視頻圖像特征,將關(guān)鍵幀的圖像特征構(gòu)建成視頻序列特征V(i),V(i)表達(dá)為
(11)
對(duì)視頻的序列化關(guān)鍵幀的全局特征構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)(FC2),將所有有標(biāo)簽的視頻序列特征V(i)(i=1,2,…,M)連接到H2×1大小的全連接層(FC2)得到視頻特征,對(duì)應(yīng)映射函數(shù)為
gwf2,bf2(V(i))=sigmoid(Wf2V(i)+bf2),
(12)
其中,Wf2,bf2分別為全連接層(FC2)的權(quán)重、偏置參數(shù).在該全連接層視頻特征學(xué)習(xí)中,選擇使用基于回歸模型的Softmax對(duì)L個(gè)類別的分類最小化代價(jià),進(jìn)行FC2網(wǎng)絡(luò)參數(shù)優(yōu)化微調(diào).
經(jīng)過Softmax模型對(duì)全連接層(FC2)優(yōu)化學(xué)習(xí)后得到基于深度卷積神經(jīng)網(wǎng)絡(luò)的視頻段全局特征提取器,分別用于提取視頻訓(xùn)練集和測(cè)試集的關(guān)鍵幀序列特征,將訓(xùn)練集特征和標(biāo)簽用于訓(xùn)練SVM,將測(cè)試集的特征作為SVM的輸入進(jìn)行視頻語義概念檢測(cè)分析.
本文采用視頻集Trecvid 2012和UCF11.其中Trecvid是由美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)主導(dǎo)的視頻數(shù)據(jù)集,該數(shù)據(jù)集中每個(gè)視頻幀速范圍為12~30 fps,分辨率范圍從320×640到1280×2 000.我們從中選取了10個(gè)類別:AirplaneFlying, Baby, Building,Car,Dog,F(xiàn)lower,Instrumental-Musician, Mountain,SceneText,Speech,并且為了數(shù)據(jù)的平衡,每個(gè)類別分別選擇30個(gè)視頻構(gòu)成整個(gè)數(shù)據(jù)集,總視頻圖像幀數(shù)為21 500;UCF11數(shù)據(jù)集中有11個(gè)動(dòng)作類別:Basketball,Biking,Diving,Golf swinging,Horse riding,Soccer juggling,Swinging,Tennis swinging,Trampoline jumping,Volleyball spiking,Walking,每個(gè)類別中分別有25個(gè)組,每組中有超過4個(gè)視頻,我們從中選取共1 590個(gè)視頻構(gòu)成第2個(gè)數(shù)據(jù)集.圖4為本實(shí)驗(yàn)數(shù)據(jù)集的部分關(guān)鍵幀圖像.在數(shù)據(jù)集的處理上,首先對(duì)每個(gè)視頻進(jìn)行了統(tǒng)一的格式轉(zhuǎn)換,然后將原視頻轉(zhuǎn)幀換成統(tǒng)一大小的彩色圖像.實(shí)驗(yàn)環(huán)境為i7處理器和GTX 780 ti顯卡,并基于python,CUDA6.5,theano 0.7基礎(chǔ)實(shí)現(xiàn).對(duì)于圖像特征學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的設(shè)置,我們經(jīng)過反復(fù)實(shí)驗(yàn)調(diào)試,最終選擇設(shè)置第1個(gè)卷積層的卷積核數(shù)ker1=225,核大小的vh1=vw1=7,第2個(gè)卷積層的卷積核數(shù)ker2=400,核大小的vh2=vw2=8,第1個(gè)全連接層隱層節(jié)點(diǎn)數(shù)H1=400.
Fig. 4 Part keyframes from datasets圖4 視頻數(shù)據(jù)集的部分視頻關(guān)鍵幀
在Trecvid數(shù)據(jù)集上,采用每次隨機(jī)抽取120個(gè)樣本為測(cè)試集,其他為訓(xùn)練集,視頻關(guān)鍵幀數(shù)為3.實(shí)驗(yàn)結(jié)合文獻(xiàn)[28]的超參數(shù)調(diào)整指導(dǎo)思想,經(jīng)過多次實(shí)驗(yàn),考慮網(wǎng)絡(luò)綜合性能最佳的情形,對(duì)參數(shù)進(jìn)行了的優(yōu)選設(shè)置,β=5,無監(jiān)督學(xué)習(xí)率為1E-3,無監(jiān)督學(xué)習(xí)批量為300,迭代次數(shù)為2 000;在監(jiān)督優(yōu)化學(xué)習(xí)時(shí),學(xué)習(xí)率為1E-3,批量大小為30,迭代次數(shù)為3 000.考慮稀疏性參數(shù)ρ、權(quán)重懲罰項(xiàng)系數(shù)λ、拓?fù)錂?quán)重懲罰項(xiàng)系數(shù)γ對(duì)模型分類精度的影響.本文對(duì)無拓?fù)湎∈杈幋a、邊界相連的拓?fù)湎∈杈幋a和邊界不相連的拓?fù)湎∈杈幋a均做了優(yōu)化選擇,以其預(yù)訓(xùn)練CNN學(xué)習(xí)視頻特征并用于視頻語義概念檢測(cè)的準(zhǔn)確率最高的情形,確定相關(guān)參數(shù)的選擇.
權(quán)重懲罰參數(shù)初始固定為0.001,稀疏性參數(shù)ρ的選擇影響到特征的學(xué)習(xí)和最終用學(xué)習(xí)特征進(jìn)行分類結(jié)果,如圖5(a)可見,稀疏性參數(shù)很小時(shí)準(zhǔn)確率很低,稀疏參數(shù)選擇0.25時(shí),獲得最佳識(shí)別效果,因此在Trecvid數(shù)據(jù)集稀疏參數(shù)選擇0.25最合適.對(duì)權(quán)重懲罰稀疏選擇如圖5(b),增加權(quán)重懲罰項(xiàng)系數(shù)可使過濾器權(quán)重參數(shù)下降加快,但可能導(dǎo)致權(quán)重懲罰過度,結(jié)合不同權(quán)重懲罰系數(shù)實(shí)驗(yàn)準(zhǔn)確率,權(quán)重罰項(xiàng)系數(shù)選擇0.003.在Trecvid數(shù)據(jù)上對(duì)拓?fù)漤?xiàng)權(quán)重參數(shù)的選擇進(jìn)行實(shí)驗(yàn),結(jié)果如圖6所示最終拓?fù)錂?quán)重參數(shù)選擇0.003.
Fig. 5 The sparse and weight lambed parameters selection on Trecvid dataset圖5 在Trecvid數(shù)據(jù)集稀疏參數(shù)、權(quán)重參數(shù)選擇
Fig. 7 Visualization of filters learned by different pre-train models圖7 不同預(yù)訓(xùn)練對(duì)應(yīng)過濾器的權(quán)重可視化圖
Fig. 6 Recognition rate of algorithms with different values of γ on Trecvid dataset圖6 在Trecvid數(shù)據(jù)集參數(shù)γ不同值時(shí)識(shí)別準(zhǔn)確率
結(jié)合以上實(shí)驗(yàn)參數(shù),本文將無拓?fù)湎∈杈幋a、邊界相連的拓?fù)湎∈杈幋a、邊界不相連的拓?fù)湎∈杈幋a模型應(yīng)用到視頻庫隨機(jī)切分的無標(biāo)簽圖像塊上進(jìn)行無監(jiān)督學(xué)習(xí).對(duì)比展示這3種預(yù)訓(xùn)練方法的過濾器權(quán)重值可視化效果如圖7所示.圖7是以第1層CNN學(xué)習(xí)視頻幀特征的7×7×3RGB圖像塊的神經(jīng)元所對(duì)應(yīng)過濾器權(quán)重值情況.從圖7中對(duì)400個(gè)神經(jīng)元所對(duì)應(yīng)過濾器權(quán)重可視化可以看出,在非拓?fù)湎∈杈幋a模型的神經(jīng)元只能對(duì)數(shù)據(jù)中稀疏的信息進(jìn)行響應(yīng),并且呈現(xiàn)出無序形式;而對(duì)于邊界相連的拓?fù)湎∈杈幋a的情況,通過添加拓?fù)浼s束,稀疏編碼器所學(xué)到的特征具有周邊相似性,權(quán)重可視化呈現(xiàn)出旋狀漸變趨勢(shì),即當(dāng)前的神經(jīng)元如果對(duì)某一方向的邊緣發(fā)生響應(yīng),則周邊的神經(jīng)元會(huì)對(duì)稍微偏離前者的方向進(jìn)行響應(yīng),使之能夠?qū)W習(xí)到更有序的特征.但對(duì)上下、左右邊界神經(jīng)元均具有相似的響應(yīng)權(quán)重.相比于邊界相連的拓?fù)湎∈杈幋a和本文提出的邊界不相連的拓?fù)湎∈杈幋a,它同樣具有所學(xué)到的特征具有周邊相似性,同時(shí)消除了對(duì)上下、左右神經(jīng)元均具有相似的響應(yīng)權(quán)重,即過濾器權(quán)重對(duì)特征空間上下邊緣、左右邊緣無需這種相似性約束.事實(shí)上,視頻圖像的上下、左右邊緣并非是連續(xù)的空間,因此,采用所提出的拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN用于學(xué)習(xí)視頻圖像的特征,更符合視頻圖像的表達(dá).
對(duì)全連接層(FC2)單元個(gè)數(shù)的選擇也進(jìn)行了實(shí)驗(yàn).從表1可以看出,對(duì)于全連接層神經(jīng)元為300時(shí),訓(xùn)練集和測(cè)試集的準(zhǔn)確值小于其他情況;而當(dāng)神經(jīng)元個(gè)數(shù)超過400時(shí),準(zhǔn)確值有所下降;隨著神經(jīng)元個(gè)數(shù)的增加,所需要訓(xùn)練的時(shí)間也不斷增大,在考慮準(zhǔn)確值和所需要的時(shí)間基礎(chǔ)上,本文選擇400作為全連接層的神經(jīng)元個(gè)數(shù).
Table 1 Accuracy and Train Time with Different Number ofUnit for Fully Connected Layer
實(shí)驗(yàn)同時(shí)在優(yōu)選參數(shù)的基礎(chǔ)上,對(duì)比檢驗(yàn)當(dāng)本文模型使用不同層數(shù)的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)效果,以及對(duì)比分別使用Softmax和SVM這2種不同語義概念檢測(cè)方法的實(shí)驗(yàn)結(jié)果,如表2所示,實(shí)驗(yàn)結(jié)果可見單層預(yù)訓(xùn)練卷積層實(shí)驗(yàn)結(jié)果最低,而預(yù)訓(xùn)練的卷積層為2層、3層時(shí),神經(jīng)網(wǎng)絡(luò)識(shí)別表現(xiàn)比較穩(wěn)定,綜合各方面考慮所以最佳的預(yù)訓(xùn)練卷積層次為2層卷積預(yù)訓(xùn)練.同時(shí)對(duì)比直接使用Softmax進(jìn)行語義概念檢測(cè)和經(jīng)過Softmax優(yōu)化后將特征送入SVM進(jìn)行語義概念檢測(cè),結(jié)果表明使用SVM建模預(yù)測(cè)效果較好,因此本文模型選擇使用2層卷積預(yù)訓(xùn)練,并經(jīng)過Softmax進(jìn)行視頻段特征優(yōu)化學(xué)習(xí),最終使用SVM建模進(jìn)行視頻語義概念的檢測(cè).
Table 2 Accuracy with Different Number of CNN Layerwith Unsupervised Pre-Train
Fig. 8 Category on 10 semantic concepts from Trecvid2012圖8 在Trecvid2012數(shù)據(jù)集10種語義上的識(shí)別準(zhǔn)確率
本文選取多種不同的特征提取和深度學(xué)習(xí)方法進(jìn)行了10倍交叉實(shí)驗(yàn).SIFT-BOW表示先對(duì)關(guān)鍵幀序列分別提取SIFT算子,然后采用BOW方式將其轉(zhuǎn)換成的全局特征[29];LBP-Hist表示先對(duì)關(guān)鍵幀進(jìn)行LBP的特征提取,然后采用直方圖的形式將其轉(zhuǎn)換成全局特征[30];SAE-CNN是采用SAE進(jìn)行CNN預(yù)訓(xùn),用CNN學(xué)習(xí)視頻特征;old-TSAE-CNN是使用邊界相連的拓?fù)湎∈杈幋a預(yù)訓(xùn)練的CNN,而new-TSAE-CNN是使用邊界不相連的拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN,用CNN學(xué)習(xí)視頻特征.所有視頻特征均采用SVM建模和語義概念分類分析.實(shí)驗(yàn)比較了SIFT-BOW,LBP-Hist,SAE-CNN,old-TSAE-CNN,new-TSAE-CNN方法在10種語義概念的識(shí)別結(jié)果,如圖8所示,本文提出的new-TSAE-CNN方法對(duì)絕大多數(shù)的語義概念檢測(cè)的準(zhǔn)確率均優(yōu)于其他方法.同時(shí)與MPCANet和OICA方法的結(jié)果進(jìn)行了對(duì)比,各方法平均語義概念識(shí)別的結(jié)果如表3所示.在Trecvid數(shù)據(jù)集上基于CNN的模型在語義概念檢測(cè),總體結(jié)果均優(yōu)于傳統(tǒng)的特征提取方式.驗(yàn)證了與傳統(tǒng)的SIFT和LBP特征提取模型相比,CNN模型本身具有較好的泛化能力,對(duì)CNN進(jìn)行預(yù)訓(xùn)練可以使CNN模型提取具有特定泛化特性的特征[31].old-TSAE與SAE這2種方法在預(yù)訓(xùn)練損失函數(shù)上相差拓?fù)浼s束項(xiàng),old-TSAE預(yù)訓(xùn)練得到的結(jié)果均值優(yōu)于采用無拓?fù)涞腟AE預(yù)訓(xùn)練的結(jié)果約1.5%,其原因是考慮了拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)約束,促使卷積神經(jīng)網(wǎng)絡(luò)能提取視頻圖像中具有周邊拓?fù)浣Y(jié)構(gòu)的信息,獲得對(duì)視頻圖像目標(biāo)旋轉(zhuǎn)縮放等變化的不變性,豐富了視頻圖像特征的信息表達(dá),有助于提高視頻語義概念檢測(cè)的準(zhǔn)確性.本文提出邊界不相連的拓?fù)湎∈杈幋a(new-TSAE)預(yù)訓(xùn)練方法,比old-TSAE進(jìn)一步獲得2.0%的識(shí)別率提升,其內(nèi)在原因是考慮了圖像邊緣非連續(xù)的拓?fù)浣Y(jié)構(gòu)約束,消除了視頻圖像上下邊緣、左右邊緣拓?fù)潢P(guān)聯(lián),新的拓?fù)浼s束既能保持學(xué)習(xí)到對(duì)視頻目標(biāo)旋轉(zhuǎn)縮放等變化的不變性的特征,又能夠消除原有拓?fù)浣Y(jié)構(gòu)中跨越視頻圖像區(qū)域邊界特征關(guān)聯(lián)的干擾,符合視頻圖像本身的沒有跨圖像邊界關(guān)聯(lián)的特性,促使卷積神經(jīng)網(wǎng)絡(luò)能提取更合理表達(dá)其拓?fù)浣Y(jié)構(gòu)信息的視頻圖像特征,更符合視頻圖像特征的表達(dá).同時(shí)結(jié)果也表明本文提出的學(xué)習(xí)方法檢測(cè)效果也優(yōu)于MPCANet和OICA的特征深度學(xué)習(xí)方法效果.
Table 3 Accuracy with Different Approaches onTrecvid Dataset
在UCF11數(shù)據(jù)集每次抽取318個(gè)樣本為測(cè)試集,其他作為訓(xùn)練集,視頻關(guān)鍵幀數(shù)為3,經(jīng)過多次實(shí)驗(yàn),β=5,無監(jiān)督學(xué)習(xí)率為1E-3,無監(jiān)督學(xué)習(xí)的批量為300,迭代次數(shù)為1 000;監(jiān)督優(yōu)化學(xué)習(xí)的學(xué)習(xí)率為1E-3,批量為100,迭代次數(shù)為3 000,其網(wǎng)絡(luò)綜合性能最佳.對(duì)稀疏性參數(shù)ρ、權(quán)重懲罰項(xiàng)系數(shù)λ、拓?fù)錂?quán)重懲罰項(xiàng)系數(shù)γ和第2個(gè)全連接層神經(jīng)元節(jié)點(diǎn)數(shù)的選擇進(jìn)行了實(shí)驗(yàn),稀疏參數(shù)選擇0.3,權(quán)重衰減參數(shù)選擇0.003,拓?fù)錂?quán)重參數(shù)選擇0.003,第2個(gè)全連接層神經(jīng)元節(jié)點(diǎn)數(shù)為400,可得到最佳結(jié)果.
在數(shù)據(jù)集UCF11上,采用10倍交叉實(shí)驗(yàn),取平均值得到結(jié)果.實(shí)驗(yàn)比較了SIFT-BOW,LBP-Hist, SAE-CNN,old-TSAE-CNN,new-TSAE-CNN特征提取方法在11種語義概念的識(shí)別結(jié)果,如圖9所示,本文提出的new-TSAE-CNN方法對(duì)絕大多數(shù)的語義概念檢測(cè)的準(zhǔn)確率均優(yōu)于其他方法.同時(shí)與MPCANet和OICA方法的結(jié)果進(jìn)行了比較,各方法平均語義概念識(shí)別的結(jié)果如表4所示.基于預(yù)訓(xùn)練CNN的方法在整體上表現(xiàn)優(yōu)于傳統(tǒng)特征提取方法,由于UCF11的樣本量比Trecvid多,SIFT-BOW方法能夠提取更有效的特征,故性能比LBP-Hist方法好.old-TSAE-CNN比SAE-CNN方法的視頻語義概念檢測(cè)準(zhǔn)確率提高了約1.54%,其原因也是因?yàn)榭紤]了拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)約束,促使卷積神經(jīng)網(wǎng)絡(luò)能提取視頻圖像中具有周邊拓?fù)浣Y(jié)構(gòu)的信息,有助于提高視頻語義概念檢測(cè)的準(zhǔn)確性.new-TSAE-CNN比old-TSAE-CNN方法的視頻語義概念檢測(cè)準(zhǔn)確率又進(jìn)一步提升了1.31%,其內(nèi)在原因也是因?yàn)榭紤]視頻圖像邊緣非連續(xù)的拓?fù)浣Y(jié)構(gòu)性質(zhì),消除了跨越視頻圖像區(qū)域邊界特征關(guān)聯(lián)的干擾,使卷積神經(jīng)網(wǎng)絡(luò)提取更符合視頻圖像拓?fù)浣Y(jié)構(gòu)的特征.同時(shí)從結(jié)果可以看出,對(duì)比相關(guān)深度學(xué)習(xí)方法MPCANet 和OICA,本文提出的方法用于視頻語義分析具有一定的優(yōu)勢(shì).
Fig. 9 Category on 11 semantic concepts from UCF11圖9 在UCF11數(shù)據(jù)集11種語義上的識(shí)別準(zhǔn)確率
Table 4 Accuracy with Different Approaches onUCF11 Dataset
視頻圖像的拓?fù)湫畔⒛茇S富視頻圖像特征的表達(dá).本文針對(duì)傳統(tǒng)的CNN模型未考慮利用隱層節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)相關(guān)性信息,提出了引入分組的邊界不相連拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN、半監(jiān)督學(xué)習(xí)視頻圖像特征,使卷積神經(jīng)網(wǎng)絡(luò)提取視頻圖像特征能更合理表達(dá)其拓?fù)浣Y(jié)構(gòu)信息,進(jìn)而將視頻段關(guān)鍵幀特征再構(gòu)建全連接層,進(jìn)行有監(jiān)督的邏輯回歸優(yōu)化學(xué)習(xí)視頻特征,從而得到具有反映時(shí)空特性的視頻段特征表達(dá).在數(shù)據(jù)集Trecvid 2012和UCF11上與多種相關(guān)方法進(jìn)行了比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:本文所提出的方法能使卷積神經(jīng)網(wǎng)絡(luò)提取視頻圖像特征更合理表達(dá)其拓?fù)浣Y(jié)構(gòu)信息,更符合視頻特征的表達(dá),更有助于提高視頻語義概念檢測(cè)的準(zhǔn)確性.目前,部分研究將CNN 與LSTM結(jié)合學(xué)習(xí)視頻特征,獲得了優(yōu)越的視頻語義分析性能,其原因是在視頻序列級(jí)上LSTM的語義模式表達(dá)更合理.下一步的工作,應(yīng)在本模型上結(jié)合LSTM等深度學(xué)習(xí)方法進(jìn)一步學(xué)習(xí)復(fù)雜的視頻序列特征表達(dá),進(jìn)一步提高視頻語義概念檢測(cè)效果.