基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN的視頻語義分析

2018-12-20 01:23程曉陽詹永照毛啟容詹智財(cái)

計(jì)算機(jī)研究與發(fā)展 2018年12期

程曉陽詹永照毛啟容詹智財(cái)

(江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院江蘇鎮(zhèn)江 212013)

近年來，隨著互聯(lián)網(wǎng)、多媒體設(shè)備的發(fā)展，網(wǎng)絡(luò)多媒體視頻數(shù)據(jù)呈幾何級(jí)數(shù)增長，對(duì)無場(chǎng)景限制視頻進(jìn)行高層語義概念提取和識(shí)別技術(shù)具有愈加廣闊的應(yīng)用前景.同時(shí)，傳統(tǒng)視頻分類方法如基于標(biāo)簽文本的關(guān)鍵字匹配[1]，在應(yīng)對(duì)互聯(lián)網(wǎng)海量視頻數(shù)據(jù)及視頻內(nèi)容復(fù)雜度區(qū)分方面表現(xiàn)有待提升，而基于原始視頻圖像幀的全局特征(顏色、邊緣檢測(cè)、Gabor等)或先獲取局部特征(Sift，MoSift等)[2-3],緊接著應(yīng)用BoW等方法[4]將局部特征轉(zhuǎn)換成全局特征描述，最后載入分類器的方法都不可避免手動(dòng)設(shè)計(jì)特征提取方法的問題.當(dāng)前，深度學(xué)習(xí)方法通過逐層特征變換，將樣本在原空間的特征表示變換到一個(gè)新的特征空間[5]，從而更加方便分類與預(yù)測(cè)，在計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等方面取得成功應(yīng)用[6].在基于深度學(xué)習(xí)的視頻語義分析研究領(lǐng)域，Wu等人[7]提出基于多線性主成分分析的深度學(xué)習(xí)模型(multilinear principal component analysis network, MPCANet)進(jìn)行視頻高層語義特征的學(xué)習(xí)和目標(biāo)分類.Liu等人[8]提出基于堆疊過完備獨(dú)立成分分析的模型(overcomplete independent component analysis, OICA)學(xué)習(xí)視頻時(shí)空特征進(jìn)行視頻動(dòng)作識(shí)別.Gammulle等人[9]提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural network, CNN)和長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)結(jié)合的人體動(dòng)作識(shí)別方法.研究表明:深度學(xué)習(xí)方法在提高視頻語義分析準(zhǔn)確性方面有重要作用.

對(duì)比手寫體等圖像目標(biāo)識(shí)別任務(wù)，視頻圖像內(nèi)容更復(fù)雜，表現(xiàn)出目標(biāo)的旋轉(zhuǎn)、縮放、平移等現(xiàn)象，所以需要在視頻語義檢測(cè)中使用的特征提取器在應(yīng)對(duì)復(fù)雜現(xiàn)象時(shí)表現(xiàn)出魯棒性，獲取更多不變性的表征.Andrew等人[10]指出視網(wǎng)膜上視神經(jīng)元具有相鄰相似性，即當(dāng)前神經(jīng)元的激活會(huì)影響到周邊神經(jīng)元的激活程度，這樣的近鄰關(guān)聯(lián)能夠幫助特征學(xué)習(xí)中形成具有秩序性特征.Hyv?rinen等人[11]在獨(dú)立成分分析(independent component analysis， ICA)模型加入拓?fù)浼s束得到能夠保證近鄰成分具有強(qiáng)相關(guān)性的拓?fù)洫?dú)立成分分析(topographic independent com-ponent analysis， TICA)并驗(yàn)證該拓?fù)涮匦詫?duì)研究圖像識(shí)別問題的益處，相似的實(shí)驗(yàn)[12-13]表明這種拓?fù)潢P(guān)聯(lián)性具有較好的物體旋轉(zhuǎn)、縮放、平移的不變性.考慮以往研究用于視頻圖像特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)[14-17]主要關(guān)注于網(wǎng)絡(luò)結(jié)構(gòu)模型的設(shè)計(jì)，未考慮利用相鄰神經(jīng)元節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)相關(guān)性信息，同層卷積核缺乏相關(guān)性的缺陷.本文引入與TICA相似的拓?fù)浼s束，并且考慮到隱層神經(jīng)元特征空間排布的特性，結(jié)合結(jié)構(gòu)化稀疏關(guān)聯(lián)關(guān)系分析[18]，提出考慮以平面神經(jīng)元節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)關(guān)系作為拓?fù)浣Y(jié)構(gòu)約束項(xiàng)，形成新的拓?fù)湎∈杈幋a器用作神經(jīng)網(wǎng)絡(luò)模型預(yù)訓(xùn)練[19]，用以增加參數(shù)學(xué)習(xí)過程中的正則化，學(xué)習(xí)符合視頻圖像拓?fù)浣Y(jié)構(gòu)信息的視頻圖像特征表達(dá).本文方法實(shí)現(xiàn)包括：1)對(duì)稀疏自動(dòng)編碼器(sparse auto encoder， SAE)[20]引入拓?fù)浼s束得到拓?fù)湎∈枳詣?dòng)編碼器(topographic sparse auto encoder， TSAE)；2)在視頻圖像數(shù)據(jù)上基于TSAE構(gòu)建無監(jiān)督學(xué)習(xí)模型，作為神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型[21]，同時(shí)在其全連接層以有視頻概念標(biāo)簽的視頻圖像進(jìn)行邏輯回歸微調(diào)網(wǎng)絡(luò)參數(shù)，得到基于視頻序列幀圖像的特征提取器；3)構(gòu)建視頻全連接層特征映射，對(duì)全連接層也以有視頻概念標(biāo)簽類別的視頻進(jìn)行網(wǎng)絡(luò)參數(shù)的微調(diào)，學(xué)習(xí)得到基于視頻段的特征表達(dá)；4)將此特征表達(dá)送入SVM中做建模和語義概念分類分析.為了驗(yàn)證本文特征提取方法的有效性，在TRECVID 2012，UCF11這2類視頻數(shù)據(jù)集上與多種算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明:引入拓?fù)浼s束的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取的特征分類效果更好.

本文的貢獻(xiàn)主要有2個(gè)方面：

1) 考慮圖像邊緣性和神經(jīng)元的近鄰結(jié)構(gòu)關(guān)聯(lián)性，考慮加入新的拓?fù)浣Y(jié)構(gòu)信息約束項(xiàng)形成拓?fù)湎∈杈幋a器，在視頻圖像特征的半監(jiān)督學(xué)習(xí)中，用于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)重因子，使深度網(wǎng)絡(luò)所學(xué)習(xí)的視頻圖像特征具有拓?fù)渲刃蛐畔ⅲ?/p>

2) 在視頻特征學(xué)習(xí)的全連接層，綜合有標(biāo)簽的視頻序列的關(guān)鍵幀特征，建立邏輯回歸約束，微調(diào)網(wǎng)絡(luò)參數(shù)，實(shí)現(xiàn)了類別更具可鑒別的視頻序列特征的優(yōu)化.

1 相關(guān)工作

1.1 稀疏自動(dòng)編碼

SAE作為無監(jiān)督訓(xùn)練模型自動(dòng)學(xué)習(xí)一種非線性映射來提取輸入數(shù)據(jù)的特征，如圖像的邊和拐角等.SAE模型的代價(jià)函數(shù)為

(1)

(2)

(3)

1.2 拓?fù)湎∈杈幋a

稀疏編碼作為稀疏自編碼方法的變形，該模型學(xué)習(xí)目標(biāo)是通過迭代直接學(xué)習(xí)數(shù)據(jù)的特征矢量和基向量.Andrew等人[10]在稀疏編碼模型引入拓?fù)湫约s束形成拓?fù)湎∈杈幋a，學(xué)習(xí)到具有某種“秩序”的特征矢量.拓?fù)湎∈杈幋a的目標(biāo)函數(shù)為

(4)

其中，對(duì)輸入樣本x，s表示樣本數(shù)據(jù)的稀疏特征矢量,A表示將特征矢量從特征空間轉(zhuǎn)換到樣本數(shù)據(jù)空間的基向量.式(4)右邊第1項(xiàng)是基向量將特征矢量重構(gòu)為樣本數(shù)據(jù)所產(chǎn)生的誤差；式(4)右邊第2項(xiàng)為權(quán)重衰減項(xiàng)，以保證基向量的每一項(xiàng)值足夠??；式(4)右邊第3項(xiàng)為拓?fù)湎∈钁土P項(xiàng)，ε用作“平滑參數(shù)”，拓?fù)涮匦缘墨@得通過將用于圖像特征提取的特征矢量s按2D矩陣的行排布成網(wǎng)格形式的方陣，當(dāng)以某個(gè)特征節(jié)點(diǎn)為中心進(jìn)行考慮時(shí)希望以網(wǎng)格中該節(jié)點(diǎn)周邊相鄰接區(qū)域的特征節(jié)點(diǎn)具有相似性，對(duì)應(yīng)相鄰區(qū)域?yàn)榇笮?×3的窗口方陣構(gòu)成近鄰分組，該分組在網(wǎng)格方陣上有部分重疊的滑動(dòng)，并且分組窗口可以跨越2D矩陣的邊界，以使每個(gè)特征節(jié)點(diǎn)都具有相同大小的近鄰區(qū)域，將網(wǎng)格中相鄰節(jié)點(diǎn)進(jìn)行分組并按平滑的L1范式懲罰實(shí)現(xiàn)拓?fù)湎∈钁土P.計(jì)算上進(jìn)一步將“分組”使用“分組矩陣”V實(shí)現(xiàn)，對(duì)應(yīng)矩陣V的第r行標(biāo)識(shí)根據(jù)鄰接關(guān)系被分到第r組的特征節(jié)點(diǎn)，即特征節(jié)點(diǎn)c分到第r組則Vr,c=1.Kavukcuoglu等人[23]通過加權(quán)分組實(shí)現(xiàn)相似的拓?fù)涮卣鬟^濾器映射，證實(shí)添加拓?fù)浼s束可以獲得對(duì)圖像旋轉(zhuǎn)、縮放、平移局部不變性的特征，學(xué)習(xí)特征表達(dá)能反映圖像的拓?fù)湫畔?以上方法在構(gòu)建拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)時(shí)，對(duì)每個(gè)特征節(jié)點(diǎn)生成相同大小的近鄰分組.但是在用于視頻圖像特征學(xué)習(xí)時(shí)，未考慮視頻圖像邊界非連續(xù)的特性.

本文針對(duì)視頻圖像目標(biāo)提出考慮以平面神經(jīng)元節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)關(guān)系構(gòu)建拓?fù)浣Y(jié)構(gòu)約束項(xiàng)的新的拓?fù)湎∈杈幋a器，用于學(xué)習(xí)更符合視頻圖像拓?fù)浣Y(jié)構(gòu)信息的特征表達(dá)，進(jìn)而提高視頻語義分析的準(zhǔn)確率.

2 基于TSAE預(yù)訓(xùn)練CNN的視頻特征學(xué)習(xí)

本文提出的基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN視頻特征學(xué)習(xí)如圖1所示.該模型學(xué)習(xí)分為2個(gè)階段：視頻圖像特征半監(jiān)督學(xué)習(xí)階段和視頻段特征有監(jiān)督優(yōu)化學(xué)習(xí)階段.對(duì)每一段視頻按視頻幀圖像輸入，經(jīng)過無監(jiān)督拓?fù)湎∈桀A(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻圖像拓?fù)渲刃蛐畔⑻卣?，同時(shí)在其全連接層(FC1)以有視頻概念標(biāo)簽的視頻圖像采用Softmax進(jìn)行網(wǎng)絡(luò)參數(shù)微調(diào)，從而學(xué)習(xí)獲得視頻圖像特征;再將有概念標(biāo)簽的視頻關(guān)鍵幀的圖像特征通過經(jīng)Softmax優(yōu)化的全連接層(FC2)學(xué)習(xí)獲得視頻段特征;最后將視頻段特征送入SVM進(jìn)行視頻語義概念建模與檢測(cè)，其中網(wǎng)絡(luò)的層次和其參數(shù)的設(shè)置是由實(shí)際實(shí)驗(yàn)的結(jié)果而確定.

Fig. 1 The overall framework of video image feature learning based on topographic sparse pre-training CNN圖1 基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN視頻圖像特征學(xué)習(xí)的整體框架

2.1 基于新的TSAE預(yù)訓(xùn)練CNN圖像特征學(xué)習(xí)

卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)包括卷積核、非線性激活函數(shù)設(shè)計(jì)和池化處理，卷積核的參數(shù)可通過無監(jiān)督的稀疏自動(dòng)編碼器預(yù)訓(xùn)練學(xué)習(xí)獲得.傳統(tǒng)SAE學(xué)習(xí)特征不考慮相鄰神經(jīng)元節(jié)點(diǎn)提取特征的關(guān)聯(lián)性.對(duì)于圖像數(shù)據(jù)，某處像素點(diǎn)的值總是與周邊像素點(diǎn)值密切相關(guān)，而在視覺神經(jīng)網(wǎng)絡(luò)中視神經(jīng)元具有相鄰相似性，故當(dāng)前位置的像素值在輸入神經(jīng)網(wǎng)絡(luò)中，如果當(dāng)前神經(jīng)元被激活，那么其附近神經(jīng)元也應(yīng)具有相似或相近的激活狀況，因此在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中可以充分考慮這種周邊結(jié)構(gòu)狀態(tài)相似性而形成拓?fù)浞纸M加以約束，有助于視頻圖像特征的學(xué)習(xí)能獲得某種“拓?fù)渲刃颉?為了使提取的圖像特征表現(xiàn)出特有的拓?fù)渲刃?，即相鄰神?jīng)元激活態(tài)相似，在稀疏編碼中再加入神經(jīng)元周圍相鄰的神經(jīng)元激活值特征形成矢量的模作為約束項(xiàng)，從而建立拓?fù)湎∈杈幋a.如圖2所示，對(duì)于方形淺灰色(綠色)的神經(jīng)元，其拓?fù)潢P(guān)聯(lián)的神經(jīng)元為方形深灰色(紅色)神經(jīng)元.TSAE模型將隱層編碼神經(jīng)元節(jié)點(diǎn)依照二維矩陣按行排布，為實(shí)現(xiàn)上的方便性，我們將隱層神經(jīng)元節(jié)點(diǎn)基于相鄰關(guān)系進(jìn)行分組.每個(gè)隱層節(jié)點(diǎn)與其周邊鄰接的節(jié)點(diǎn)形成一個(gè)分組，即當(dāng)以某個(gè)神經(jīng)元為中心進(jìn)行考慮時(shí)，希望在二維矩陣排布網(wǎng)格中該神經(jīng)元周邊相鄰接區(qū)域的神經(jīng)元具有相似性，以相鄰區(qū)域窗口方陣構(gòu)成近鄰分組，以第1行、第1列開始是一個(gè)分組，第1行、第2列是另一個(gè)分組，分組在網(wǎng)格方陣上有部分重疊的滑動(dòng)，結(jié)合分組矩陣的分組關(guān)系，可在式(1)的稀疏編碼模型上加入分組的隱層狀態(tài)矩陣的L2約束懲罰，形成相鄰節(jié)點(diǎn)特征相似性的拓?fù)浼s束.

Fig. 2 The architecture of topographic sparse auto encoder圖2 拓?fù)湎∈枳詣?dòng)編碼器結(jié)構(gòu)圖

Fig. 3 Different neighborhoods for two kinds of TSAE圖3 2種不同拓?fù)湎∈杈幋a方法的近鄰分組

(5)

(6)

按行順序編號(hào)的第i個(gè)神經(jīng)元節(jié)點(diǎn)分在第r分組gr要滿足的條件是：

(7)

這里topoArea是鄰接域半徑，選擇為1，即鄰接域最大為3×3的矩形區(qū)域，分組間是有部分重疊的，各節(jié)點(diǎn)與鄰居節(jié)點(diǎn)形成分組，各分組內(nèi)部鄰接節(jié)點(diǎn)數(shù)是不同的，隱層角點(diǎn)鄰接域最小為2×2，邊上點(diǎn)鄰接域2×3，其他點(diǎn)最大鄰接域3×3，分組內(nèi)節(jié)點(diǎn)數(shù)倒數(shù)作為該分組節(jié)點(diǎn)拓?fù)浼s束權(quán)重因子，記為wg，這樣的分組結(jié)構(gòu)不同于old-TSAE中所有節(jié)點(diǎn)具有相同的鄰接節(jié)點(diǎn)數(shù)，形成環(huán)狀拓?fù)浣Y(jié)構(gòu)的鄰接域.

本文通過拓?fù)湎∈杈幋a模型預(yù)訓(xùn)練CNN，進(jìn)而通過對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural networks, DCNN)進(jìn)行逐層[24]無監(jiān)督學(xué)習(xí)視頻圖像的特征，在全連接層也進(jìn)行拓?fù)湎∈杈幋a模型預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)并用視頻類別標(biāo)簽進(jìn)行視頻幀圖像的監(jiān)督優(yōu)化學(xué)習(xí).由于視頻是彩色視頻，將每一幅視頻圖像歸一化為64×64，相應(yīng)DCNN模型結(jié)構(gòu)為：輸入圖像尺寸為3×64×64，第1個(gè)卷積層由ker1個(gè)尺寸3×vh1×vw1的卷積核構(gòu)成，CNN處理得到特征圖使用尺寸2×2的均值池化；第2個(gè)卷積層使用ker2個(gè)尺寸ker1×vh2×vw2卷積核，該層CNN處理得到的特征圖使用尺寸2×2的均值池化，得到ker2×vh3×vw3特征，其中vh3=((64-vh1+1)2-vh2+1)2，vw3=((64-vw1+1)2-vw2+1)2；第3層為隱層節(jié)點(diǎn)數(shù)為H1的全連接層，對(duì)前一層輸出特征經(jīng)過全連接層映射得到H1×1的特征，即每幅輸入圖像經(jīng)過DCNN提取得到維度為H1的矢量.

基于拓?fù)湎∈杈幋a預(yù)訓(xùn)練DCNN的視頻圖像特征學(xué)習(xí)步驟有4個(gè)：

步驟1. 為第1個(gè)卷積層選擇ker1個(gè)神經(jīng)元節(jié)點(diǎn)，根據(jù)卷積核大小3×vh1×vw1，將訓(xùn)練集視頻的全部RGB彩色視頻圖像幀分割成尺寸3×vh1×vw1的圖像塊，得到nBlock1圖像塊用于TSAE，經(jīng)矢量化轉(zhuǎn)換成nBlock1個(gè)具有col1=3×vh1×vw1個(gè)輸入特征的矢量，按式(5)的拓?fù)渚幋a經(jīng)梯度下降優(yōu)化求解預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)W1，be1和bd1.

步驟2. 將預(yù)訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)W1和be1作為第1個(gè)CNN層網(wǎng)絡(luò)參數(shù)初值，將訓(xùn)練集中所有視頻的每一幀圖像輸入到第1層CNN進(jìn)行無監(jiān)督特征學(xué)習(xí)和池化，得到的輸出作為第2層CNN預(yù)訓(xùn)練模型的輸入，即得到nFrames個(gè)ker1×(64-vh1+1)2×(64-vw1+1)2的特征圖.

步驟3. 類似于第1層CNN的預(yù)訓(xùn)練，進(jìn)行第2層CNN無監(jiān)督預(yù)訓(xùn)練.將nFrames個(gè)ker1×(64-vh1+1)2×(64-vw1+1)2的特征圖進(jìn)行圖像分塊，此時(shí)對(duì)于單個(gè)特征圖分割成尺寸大小為ker1×vh2×vw2的圖像塊，得到nBlock2圖像塊用于TSAE，經(jīng)矢量化轉(zhuǎn)換成nBlock2個(gè)具有col2=ker1×vh2×vw2個(gè)輸入特征的矢量，按式(5)的拓?fù)渚幋a優(yōu)化求解預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)W2和be2，將預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)W2和be2作為第2個(gè)CNN層網(wǎng)絡(luò)參數(shù)初值，進(jìn)行第2層CNN的無監(jiān)督特征學(xué)習(xí)和池化，得到nFrames個(gè)ker2×vh3×vw3的特征圖.

步驟4. 在全連接層(FC1)，也類似于CNN的預(yù)訓(xùn)練方法，將nFrames個(gè)ker2×vh3×vw3的特征圖進(jìn)行TSAE優(yōu)化求解預(yù)訓(xùn)練具有隱層節(jié)點(diǎn)數(shù)為H1的全連接層的網(wǎng)絡(luò)參數(shù)初值，進(jìn)行無監(jiān)督特征學(xué)習(xí).同時(shí)用有視頻類別標(biāo)簽的視頻幀圖像進(jìn)行監(jiān)督優(yōu)化學(xué)習(xí).優(yōu)化時(shí)，選擇使用基于回歸模型的Softmax對(duì)L個(gè)類別的分類最小化代價(jià)，進(jìn)行全連接層網(wǎng)絡(luò)參數(shù)優(yōu)化微調(diào).

在優(yōu)化微調(diào)中，設(shè)第i幀的圖像特征為x(i)，其中x(i)的特征維數(shù)為col3=ker2×vh3×vw3，視頻圖像類別為y(i)，將所有有標(biāo)簽的視頻圖像特征x(i)(i=1,2,…,N)連接到H1×1大小的FC1得到視頻圖像特征F(i)=gwf1,bf1(x(i))，全連接層映射函數(shù)為

gwf1,bf1(x(i))=sigmoid(Wf1x(i)+bf1),

(8)

其中，Wf1，bf1為FC1層網(wǎng)絡(luò)因子權(quán)重和偏置參數(shù)，則分類假設(shè)函數(shù)為

(9)

為了幫助優(yōu)化全連接層神經(jīng)網(wǎng)絡(luò)(FC1)，分類目標(biāo)的最小化代價(jià)函數(shù)為

J(θ,Wf1,bf1)=

(10)

其中，θ為Softmax模型參數(shù);Wf1;bf1為全連接層參數(shù);1{y(i)=j}為示性函數(shù)，條件真時(shí)取值1否則為0.

經(jīng)過Softmax模型對(duì)全連接層網(wǎng)絡(luò)(FC1)參數(shù)優(yōu)化微調(diào)，F(xiàn)C1即可學(xué)習(xí)獲得視頻幀圖像特征.

2.2 視頻特征優(yōu)化學(xué)習(xí)

對(duì)比圖像識(shí)別任務(wù)，視頻語義概念的檢測(cè)是通過有序的視頻圖像信息完成語義概念檢測(cè)任務(wù)，然而即使短的視頻序列也會(huì)包含很多的圖像幀，相似的圖像幀導(dǎo)致冗余數(shù)據(jù)和噪音存在[25-26].實(shí)驗(yàn)證實(shí)基于視頻關(guān)鍵幀也能有效實(shí)現(xiàn)視頻事件的檢測(cè)[27].本文視頻段特征學(xué)習(xí)是用有視頻概念標(biāo)簽的視頻序列關(guān)鍵幀圖像經(jīng)過深度CNN獲取視頻圖像特征，組成一個(gè)向量的視頻段特征后連入全連接層，并進(jìn)行優(yōu)化學(xué)習(xí).

對(duì)任意輸入視頻，對(duì)視頻序列提取m個(gè)關(guān)鍵幀，對(duì)圖像幀統(tǒng)一縮放到大小為64×64來表達(dá)視頻序列信息.關(guān)鍵幀圖像經(jīng)過拓?fù)湎∈桀A(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取得到視頻圖像特征，將關(guān)鍵幀的圖像特征構(gòu)建成視頻序列特征V(i)，V(i)表達(dá)為

(11)

對(duì)視頻的序列化關(guān)鍵幀的全局特征構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)(FC2)，將所有有標(biāo)簽的視頻序列特征V(i)(i=1,2,…,M)連接到H2×1大小的全連接層(FC2)得到視頻特征，對(duì)應(yīng)映射函數(shù)為

gwf2,bf2(V(i))=sigmoid(Wf2V(i)+bf2)，

(12)

其中，Wf2，bf2分別為全連接層(FC2)的權(quán)重、偏置參數(shù).在該全連接層視頻特征學(xué)習(xí)中，選擇使用基于回歸模型的Softmax對(duì)L個(gè)類別的分類最小化代價(jià)，進(jìn)行FC2網(wǎng)絡(luò)參數(shù)優(yōu)化微調(diào).

經(jīng)過Softmax模型對(duì)全連接層(FC2)優(yōu)化學(xué)習(xí)后得到基于深度卷積神經(jīng)網(wǎng)絡(luò)的視頻段全局特征提取器，分別用于提取視頻訓(xùn)練集和測(cè)試集的關(guān)鍵幀序列特征，將訓(xùn)練集特征和標(biāo)簽用于訓(xùn)練SVM，將測(cè)試集的特征作為SVM的輸入進(jìn)行視頻語義概念檢測(cè)分析.

3 實(shí)驗(yàn)結(jié)果與分析

本文采用視頻集Trecvid 2012和UCF11.其中Trecvid是由美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)主導(dǎo)的視頻數(shù)據(jù)集，該數(shù)據(jù)集中每個(gè)視頻幀速范圍為12～30 fps，分辨率范圍從320×640到1280×2 000.我們從中選取了10個(gè)類別：AirplaneFlying， Baby， Building，Car，Dog，F(xiàn)lower，Instrumental-Musician， Mountain，SceneText，Speech，并且為了數(shù)據(jù)的平衡，每個(gè)類別分別選擇30個(gè)視頻構(gòu)成整個(gè)數(shù)據(jù)集，總視頻圖像幀數(shù)為21 500；UCF11數(shù)據(jù)集中有11個(gè)動(dòng)作類別：Basketball，Biking，Diving，Golf swinging，Horse riding，Soccer juggling，Swinging，Tennis swinging，Trampoline jumping，Volleyball spiking，Walking,每個(gè)類別中分別有25個(gè)組，每組中有超過4個(gè)視頻,我們從中選取共1 590個(gè)視頻構(gòu)成第2個(gè)數(shù)據(jù)集.圖4為本實(shí)驗(yàn)數(shù)據(jù)集的部分關(guān)鍵幀圖像.在數(shù)據(jù)集的處理上，首先對(duì)每個(gè)視頻進(jìn)行了統(tǒng)一的格式轉(zhuǎn)換，然后將原視頻轉(zhuǎn)幀換成統(tǒng)一大小的彩色圖像.實(shí)驗(yàn)環(huán)境為i7處理器和GTX 780 ti顯卡，并基于python，CUDA6.5，theano 0.7基礎(chǔ)實(shí)現(xiàn).對(duì)于圖像特征學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的設(shè)置，我們經(jīng)過反復(fù)實(shí)驗(yàn)調(diào)試，最終選擇設(shè)置第1個(gè)卷積層的卷積核數(shù)ker1=225，核大小的vh1=vw1=7，第2個(gè)卷積層的卷積核數(shù)ker2=400，核大小的vh2=vw2=8，第1個(gè)全連接層隱層節(jié)點(diǎn)數(shù)H1=400.

Fig. 4 Part keyframes from datasets圖4 視頻數(shù)據(jù)集的部分視頻關(guān)鍵幀

3.1 在Trecvid數(shù)據(jù)集上模型參數(shù)的選擇與實(shí)驗(yàn)結(jié)果

在Trecvid數(shù)據(jù)集上，采用每次隨機(jī)抽取120個(gè)樣本為測(cè)試集，其他為訓(xùn)練集，視頻關(guān)鍵幀數(shù)為3.實(shí)驗(yàn)結(jié)合文獻(xiàn)[28]的超參數(shù)調(diào)整指導(dǎo)思想，經(jīng)過多次實(shí)驗(yàn)，考慮網(wǎng)絡(luò)綜合性能最佳的情形，對(duì)參數(shù)進(jìn)行了的優(yōu)選設(shè)置，β=5，無監(jiān)督學(xué)習(xí)率為1E-3，無監(jiān)督學(xué)習(xí)批量為300，迭代次數(shù)為2 000；在監(jiān)督優(yōu)化學(xué)習(xí)時(shí)，學(xué)習(xí)率為1E-3，批量大小為30，迭代次數(shù)為3 000.考慮稀疏性參數(shù)ρ、權(quán)重懲罰項(xiàng)系數(shù)λ、拓?fù)錂?quán)重懲罰項(xiàng)系數(shù)γ對(duì)模型分類精度的影響.本文對(duì)無拓?fù)湎∈杈幋a、邊界相連的拓?fù)湎∈杈幋a和邊界不相連的拓?fù)湎∈杈幋a均做了優(yōu)化選擇，以其預(yù)訓(xùn)練CNN學(xué)習(xí)視頻特征并用于視頻語義概念檢測(cè)的準(zhǔn)確率最高的情形，確定相關(guān)參數(shù)的選擇.

權(quán)重懲罰參數(shù)初始固定為0.001，稀疏性參數(shù)ρ的選擇影響到特征的學(xué)習(xí)和最終用學(xué)習(xí)特征進(jìn)行分類結(jié)果，如圖5(a)可見，稀疏性參數(shù)很小時(shí)準(zhǔn)確率很低，稀疏參數(shù)選擇0.25時(shí)，獲得最佳識(shí)別效果，因此在Trecvid數(shù)據(jù)集稀疏參數(shù)選擇0.25最合適.對(duì)權(quán)重懲罰稀疏選擇如圖5(b)，增加權(quán)重懲罰項(xiàng)系數(shù)可使過濾器權(quán)重參數(shù)下降加快，但可能導(dǎo)致權(quán)重懲罰過度，結(jié)合不同權(quán)重懲罰系數(shù)實(shí)驗(yàn)準(zhǔn)確率，權(quán)重罰項(xiàng)系數(shù)選擇0.003.在Trecvid數(shù)據(jù)上對(duì)拓?fù)漤?xiàng)權(quán)重參數(shù)的選擇進(jìn)行實(shí)驗(yàn)，結(jié)果如圖6所示最終拓?fù)錂?quán)重參數(shù)選擇0.003.

Fig. 5 The sparse and weight lambed parameters selection on Trecvid dataset圖5 在Trecvid數(shù)據(jù)集稀疏參數(shù)、權(quán)重參數(shù)選擇

Fig. 7 Visualization of filters learned by different pre-train models圖7 不同預(yù)訓(xùn)練對(duì)應(yīng)過濾器的權(quán)重可視化圖

Fig. 6 Recognition rate of algorithms with different values of γ on Trecvid dataset圖6 在Trecvid數(shù)據(jù)集參數(shù)γ不同值時(shí)識(shí)別準(zhǔn)確率

結(jié)合以上實(shí)驗(yàn)參數(shù)，本文將無拓?fù)湎∈杈幋a、邊界相連的拓?fù)湎∈杈幋a、邊界不相連的拓?fù)湎∈杈幋a模型應(yīng)用到視頻庫隨機(jī)切分的無標(biāo)簽圖像塊上進(jìn)行無監(jiān)督學(xué)習(xí).對(duì)比展示這3種預(yù)訓(xùn)練方法的過濾器權(quán)重值可視化效果如圖7所示.圖7是以第1層CNN學(xué)習(xí)視頻幀特征的7×7×3RGB圖像塊的神經(jīng)元所對(duì)應(yīng)過濾器權(quán)重值情況.從圖7中對(duì)400個(gè)神經(jīng)元所對(duì)應(yīng)過濾器權(quán)重可視化可以看出，在非拓?fù)湎∈杈幋a模型的神經(jīng)元只能對(duì)數(shù)據(jù)中稀疏的信息進(jìn)行響應(yīng)，并且呈現(xiàn)出無序形式；而對(duì)于邊界相連的拓?fù)湎∈杈幋a的情況，通過添加拓?fù)浼s束，稀疏編碼器所學(xué)到的特征具有周邊相似性，權(quán)重可視化呈現(xiàn)出旋狀漸變趨勢(shì)，即當(dāng)前的神經(jīng)元如果對(duì)某一方向的邊緣發(fā)生響應(yīng)，則周邊的神經(jīng)元會(huì)對(duì)稍微偏離前者的方向進(jìn)行響應(yīng)，使之能夠?qū)W習(xí)到更有序的特征.但對(duì)上下、左右邊界神經(jīng)元均具有相似的響應(yīng)權(quán)重.相比于邊界相連的拓?fù)湎∈杈幋a和本文提出的邊界不相連的拓?fù)湎∈杈幋a，它同樣具有所學(xué)到的特征具有周邊相似性，同時(shí)消除了對(duì)上下、左右神經(jīng)元均具有相似的響應(yīng)權(quán)重，即過濾器權(quán)重對(duì)特征空間上下邊緣、左右邊緣無需這種相似性約束.事實(shí)上，視頻圖像的上下、左右邊緣并非是連續(xù)的空間，因此，采用所提出的拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN用于學(xué)習(xí)視頻圖像的特征，更符合視頻圖像的表達(dá).

對(duì)全連接層(FC2)單元個(gè)數(shù)的選擇也進(jìn)行了實(shí)驗(yàn).從表1可以看出，對(duì)于全連接層神經(jīng)元為300時(shí)，訓(xùn)練集和測(cè)試集的準(zhǔn)確值小于其他情況;而當(dāng)神經(jīng)元個(gè)數(shù)超過400時(shí)，準(zhǔn)確值有所下降;隨著神經(jīng)元個(gè)數(shù)的增加，所需要訓(xùn)練的時(shí)間也不斷增大，在考慮準(zhǔn)確值和所需要的時(shí)間基礎(chǔ)上，本文選擇400作為全連接層的神經(jīng)元個(gè)數(shù).

Table 1 Accuracy and Train Time with Different Number ofUnit for Fully Connected Layer

實(shí)驗(yàn)同時(shí)在優(yōu)選參數(shù)的基礎(chǔ)上，對(duì)比檢驗(yàn)當(dāng)本文模型使用不同層數(shù)的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)效果，以及對(duì)比分別使用Softmax和SVM這2種不同語義概念檢測(cè)方法的實(shí)驗(yàn)結(jié)果，如表2所示，實(shí)驗(yàn)結(jié)果可見單層預(yù)訓(xùn)練卷積層實(shí)驗(yàn)結(jié)果最低，而預(yù)訓(xùn)練的卷積層為2層、3層時(shí)，神經(jīng)網(wǎng)絡(luò)識(shí)別表現(xiàn)比較穩(wěn)定，綜合各方面考慮所以最佳的預(yù)訓(xùn)練卷積層次為2層卷積預(yù)訓(xùn)練.同時(shí)對(duì)比直接使用Softmax進(jìn)行語義概念檢測(cè)和經(jīng)過Softmax優(yōu)化后將特征送入SVM進(jìn)行語義概念檢測(cè)，結(jié)果表明使用SVM建模預(yù)測(cè)效果較好，因此本文模型選擇使用2層卷積預(yù)訓(xùn)練，并經(jīng)過Softmax進(jìn)行視頻段特征優(yōu)化學(xué)習(xí)，最終使用SVM建模進(jìn)行視頻語義概念的檢測(cè).

Table 2 Accuracy with Different Number of CNN Layerwith Unsupervised Pre-Train

Fig. 8 Category on 10 semantic concepts from Trecvid2012圖8 在Trecvid2012數(shù)據(jù)集10種語義上的識(shí)別準(zhǔn)確率

本文選取多種不同的特征提取和深度學(xué)習(xí)方法進(jìn)行了10倍交叉實(shí)驗(yàn).SIFT-BOW表示先對(duì)關(guān)鍵幀序列分別提取SIFT算子，然后采用BOW方式將其轉(zhuǎn)換成的全局特征[29]；LBP-Hist表示先對(duì)關(guān)鍵幀進(jìn)行LBP的特征提取，然后采用直方圖的形式將其轉(zhuǎn)換成全局特征[30]；SAE-CNN是采用SAE進(jìn)行CNN預(yù)訓(xùn)，用CNN學(xué)習(xí)視頻特征；old-TSAE-CNN是使用邊界相連的拓?fù)湎∈杈幋a預(yù)訓(xùn)練的CNN，而new-TSAE-CNN是使用邊界不相連的拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN，用CNN學(xué)習(xí)視頻特征.所有視頻特征均采用SVM建模和語義概念分類分析.實(shí)驗(yàn)比較了SIFT-BOW，LBP-Hist，SAE-CNN，old-TSAE-CNN，new-TSAE-CNN方法在10種語義概念的識(shí)別結(jié)果，如圖8所示，本文提出的new-TSAE-CNN方法對(duì)絕大多數(shù)的語義概念檢測(cè)的準(zhǔn)確率均優(yōu)于其他方法.同時(shí)與MPCANet和OICA方法的結(jié)果進(jìn)行了對(duì)比，各方法平均語義概念識(shí)別的結(jié)果如表3所示.在Trecvid數(shù)據(jù)集上基于CNN的模型在語義概念檢測(cè)，總體結(jié)果均優(yōu)于傳統(tǒng)的特征提取方式.驗(yàn)證了與傳統(tǒng)的SIFT和LBP特征提取模型相比，CNN模型本身具有較好的泛化能力，對(duì)CNN進(jìn)行預(yù)訓(xùn)練可以使CNN模型提取具有特定泛化特性的特征[31].old-TSAE與SAE這2種方法在預(yù)訓(xùn)練損失函數(shù)上相差拓?fù)浼s束項(xiàng)，old-TSAE預(yù)訓(xùn)練得到的結(jié)果均值優(yōu)于采用無拓?fù)涞腟AE預(yù)訓(xùn)練的結(jié)果約1.5%，其原因是考慮了拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)約束，促使卷積神經(jīng)網(wǎng)絡(luò)能提取視頻圖像中具有周邊拓?fù)浣Y(jié)構(gòu)的信息，獲得對(duì)視頻圖像目標(biāo)旋轉(zhuǎn)縮放等變化的不變性，豐富了視頻圖像特征的信息表達(dá)，有助于提高視頻語義概念檢測(cè)的準(zhǔn)確性.本文提出邊界不相連的拓?fù)湎∈杈幋a(new-TSAE)預(yù)訓(xùn)練方法，比old-TSAE進(jìn)一步獲得2.0%的識(shí)別率提升，其內(nèi)在原因是考慮了圖像邊緣非連續(xù)的拓?fù)浣Y(jié)構(gòu)約束，消除了視頻圖像上下邊緣、左右邊緣拓?fù)潢P(guān)聯(lián)，新的拓?fù)浼s束既能保持學(xué)習(xí)到對(duì)視頻目標(biāo)旋轉(zhuǎn)縮放等變化的不變性的特征，又能夠消除原有拓?fù)浣Y(jié)構(gòu)中跨越視頻圖像區(qū)域邊界特征關(guān)聯(lián)的干擾，符合視頻圖像本身的沒有跨圖像邊界關(guān)聯(lián)的特性，促使卷積神經(jīng)網(wǎng)絡(luò)能提取更合理表達(dá)其拓?fù)浣Y(jié)構(gòu)信息的視頻圖像特征，更符合視頻圖像特征的表達(dá).同時(shí)結(jié)果也表明本文提出的學(xué)習(xí)方法檢測(cè)效果也優(yōu)于MPCANet和OICA的特征深度學(xué)習(xí)方法效果.

Table 3 Accuracy with Different Approaches onTrecvid Dataset

3.2 在UCF11數(shù)據(jù)集上模型參數(shù)的選擇與實(shí)驗(yàn)結(jié)果

在UCF11數(shù)據(jù)集每次抽取318個(gè)樣本為測(cè)試集，其他作為訓(xùn)練集，視頻關(guān)鍵幀數(shù)為3，經(jīng)過多次實(shí)驗(yàn)，β=5，無監(jiān)督學(xué)習(xí)率為1E-3，無監(jiān)督學(xué)習(xí)的批量為300，迭代次數(shù)為1 000；監(jiān)督優(yōu)化學(xué)習(xí)的學(xué)習(xí)率為1E-3，批量為100，迭代次數(shù)為3 000，其網(wǎng)絡(luò)綜合性能最佳.對(duì)稀疏性參數(shù)ρ、權(quán)重懲罰項(xiàng)系數(shù)λ、拓?fù)錂?quán)重懲罰項(xiàng)系數(shù)γ和第2個(gè)全連接層神經(jīng)元節(jié)點(diǎn)數(shù)的選擇進(jìn)行了實(shí)驗(yàn)，稀疏參數(shù)選擇0.3，權(quán)重衰減參數(shù)選擇0.003，拓?fù)錂?quán)重參數(shù)選擇0.003，第2個(gè)全連接層神經(jīng)元節(jié)點(diǎn)數(shù)為400，可得到最佳結(jié)果.

在數(shù)據(jù)集UCF11上，采用10倍交叉實(shí)驗(yàn)，取平均值得到結(jié)果.實(shí)驗(yàn)比較了SIFT-BOW，LBP-Hist， SAE-CNN，old-TSAE-CNN，new-TSAE-CNN特征提取方法在11種語義概念的識(shí)別結(jié)果，如圖9所示，本文提出的new-TSAE-CNN方法對(duì)絕大多數(shù)的語義概念檢測(cè)的準(zhǔn)確率均優(yōu)于其他方法.同時(shí)與MPCANet和OICA方法的結(jié)果進(jìn)行了比較，各方法平均語義概念識(shí)別的結(jié)果如表4所示.基于預(yù)訓(xùn)練CNN的方法在整體上表現(xiàn)優(yōu)于傳統(tǒng)特征提取方法，由于UCF11的樣本量比Trecvid多，SIFT-BOW方法能夠提取更有效的特征，故性能比LBP-Hist方法好.old-TSAE-CNN比SAE-CNN方法的視頻語義概念檢測(cè)準(zhǔn)確率提高了約1.54%，其原因也是因?yàn)榭紤]了拓?fù)浣Y(jié)構(gòu)關(guān)聯(lián)約束，促使卷積神經(jīng)網(wǎng)絡(luò)能提取視頻圖像中具有周邊拓?fù)浣Y(jié)構(gòu)的信息，有助于提高視頻語義概念檢測(cè)的準(zhǔn)確性.new-TSAE-CNN比old-TSAE-CNN方法的視頻語義概念檢測(cè)準(zhǔn)確率又進(jìn)一步提升了1.31%，其內(nèi)在原因也是因?yàn)榭紤]視頻圖像邊緣非連續(xù)的拓?fù)浣Y(jié)構(gòu)性質(zhì)，消除了跨越視頻圖像區(qū)域邊界特征關(guān)聯(lián)的干擾，使卷積神經(jīng)網(wǎng)絡(luò)提取更符合視頻圖像拓?fù)浣Y(jié)構(gòu)的特征.同時(shí)從結(jié)果可以看出，對(duì)比相關(guān)深度學(xué)習(xí)方法MPCANet 和OICA，本文提出的方法用于視頻語義分析具有一定的優(yōu)勢(shì).

Fig. 9 Category on 11 semantic concepts from UCF11圖9 在UCF11數(shù)據(jù)集11種語義上的識(shí)別準(zhǔn)確率

Table 4 Accuracy with Different Approaches onUCF11 Dataset

4 結(jié) 論

視頻圖像的拓?fù)湫畔⒛茇S富視頻圖像特征的表達(dá).本文針對(duì)傳統(tǒng)的CNN模型未考慮利用隱層節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)相關(guān)性信息，提出了引入分組的邊界不相連拓?fù)湎∈杈幋a預(yù)訓(xùn)練CNN、半監(jiān)督學(xué)習(xí)視頻圖像特征，使卷積神經(jīng)網(wǎng)絡(luò)提取視頻圖像特征能更合理表達(dá)其拓?fù)浣Y(jié)構(gòu)信息，進(jìn)而將視頻段關(guān)鍵幀特征再構(gòu)建全連接層，進(jìn)行有監(jiān)督的邏輯回歸優(yōu)化學(xué)習(xí)視頻特征，從而得到具有反映時(shí)空特性的視頻段特征表達(dá).在數(shù)據(jù)集Trecvid 2012和UCF11上與多種相關(guān)方法進(jìn)行了比較實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明：本文所提出的方法能使卷積神經(jīng)網(wǎng)絡(luò)提取視頻圖像特征更合理表達(dá)其拓?fù)浣Y(jié)構(gòu)信息，更符合視頻特征的表達(dá)，更有助于提高視頻語義概念檢測(cè)的準(zhǔn)確性.目前，部分研究將CNN 與LSTM結(jié)合學(xué)習(xí)視頻特征，獲得了優(yōu)越的視頻語義分析性能，其原因是在視頻序列級(jí)上LSTM的語義模式表達(dá)更合理.下一步的工作，應(yīng)在本模型上結(jié)合LSTM等深度學(xué)習(xí)方法進(jìn)一步學(xué)習(xí)復(fù)雜的視頻序列特征表達(dá)，進(jìn)一步提高視頻語義概念檢測(cè)效果.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡