江凱華,江小平,丁昊,石鴻凌,李成華
(中南民族大學(xué) 電子信息工程學(xué)院 & 智能無(wú)線通信湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430074)
近年來(lái),基于壓縮域的深度學(xué)習(xí)方法在視頻動(dòng)作識(shí)別任務(wù)中表現(xiàn)出優(yōu)異性能[1].這類(lèi)方法降低了原始視頻的冗雜信息且提高了動(dòng)作識(shí)別任務(wù)的識(shí)別效率,并在光流的監(jiān)督下獲得良好的效果.隨著壓縮視頻動(dòng)作識(shí)別算法的不斷改進(jìn),這類(lèi)方法已從直接使用粗糙的運(yùn)動(dòng)矢量和殘差,發(fā)展至以運(yùn)動(dòng)矢量模擬光流或以殘差逼近原始圖像.在基于壓縮域的視頻動(dòng)作識(shí)別算法研究中,文獻(xiàn)[1]率先提出基于壓縮域的視頻動(dòng)作識(shí)別方法并取得良好的實(shí)驗(yàn)結(jié)果.該方法以像素域動(dòng)作識(shí)別雙流模型為基礎(chǔ),主要思路是利用壓縮域特征替換像素域特征來(lái)完成模型的訓(xùn)練.該文以I幀、運(yùn)動(dòng)矢量和殘差為獨(dú)立特征的“三流”方法解釋運(yùn)動(dòng)的思路啟發(fā)了后續(xù)動(dòng)作識(shí)別算法研究.受生成對(duì)抗性網(wǎng)絡(luò)(GAN)和光流[2]的啟發(fā),文獻(xiàn)[3]設(shè)計(jì)了一個(gè)小型生成對(duì)抗性網(wǎng)絡(luò)來(lái)完成動(dòng)作識(shí)別任務(wù).該方法的主要思想是聯(lián)合運(yùn)動(dòng)矢量和像素殘差對(duì)光流進(jìn)行模擬,借此達(dá)到以假亂真的效果.該方法雖然增強(qiáng)了壓縮域視頻動(dòng)作識(shí)別網(wǎng)絡(luò)的穩(wěn)健性、差異性,但生成器和判別器的訓(xùn)練與光流的提取無(wú)意間增加了計(jì)算開(kāi)銷(xiāo),且未能大幅提升動(dòng)作的識(shí)別精度.盡管在外部光流的監(jiān)督學(xué)習(xí)下壓縮特征能提高動(dòng)作識(shí)別的精度,但大幅增加的計(jì)算開(kāi)銷(xiāo)也不容小覷.在近期的研究中,文獻(xiàn)[4]又提出了一種利用原始圖像精煉運(yùn)動(dòng)矢量的方法,意在通過(guò)原始圖像的監(jiān)督刪除不可靠的運(yùn)動(dòng)信息.實(shí)驗(yàn)結(jié)果顯示,該方法并未有效地處理運(yùn)動(dòng)矢量的噪聲,且其增大了網(wǎng)絡(luò)的計(jì)算開(kāi)銷(xiāo),對(duì)最終動(dòng)作識(shí)別結(jié)果的改善并不明顯.
為了更好地利用壓縮域特征的基本特性——信息密度大、計(jì)算開(kāi)銷(xiāo)小,基于壓縮域新時(shí)空特征的視頻動(dòng)作識(shí)別提出了一種融合運(yùn)動(dòng)特征(運(yùn)動(dòng)矢量)和顏色特征(殘差)的新時(shí)空特征視頻動(dòng)作識(shí)別新方法.該方法首先過(guò)濾運(yùn)動(dòng)矢量與殘差的干擾噪聲(如背景、孤立值等)并充分提取其時(shí)間和空間信息;其次利用這兩種高信息密度特征,生成壓縮域背景下的新特征;最后分別將相關(guān)特征輸入到2D卷積神經(jīng)網(wǎng)絡(luò)中完成視頻中人物動(dòng)作的識(shí)別.壓縮域新時(shí)空特征去除了運(yùn)動(dòng)矢量和殘差的噪聲干擾,提高了運(yùn)動(dòng)目標(biāo)的精度,使網(wǎng)絡(luò)更專注于運(yùn)動(dòng)本身,因而對(duì)運(yùn)動(dòng)的對(duì)象表征更加明確.對(duì)比主流像素域視頻動(dòng)作識(shí)別方法,壓縮域新時(shí)空特征方法在動(dòng)作識(shí)別精度相當(dāng)甚至略好的情況下,計(jì)算開(kāi)銷(xiāo)卻遠(yuǎn)低于對(duì)方;對(duì)比其他基于深度學(xué)習(xí)的壓縮域視頻動(dòng)作識(shí)別方法,壓縮域新時(shí)空特征算法的動(dòng)作識(shí)別精度有較為可觀的提升,其網(wǎng)絡(luò)訓(xùn)練卻并不復(fù)雜.其優(yōu)勢(shì)在于:其一、將運(yùn)動(dòng)矢量和殘差聯(lián)合建模,更有效地利用編碼后的運(yùn)動(dòng)和顏色信息[2];運(yùn)動(dòng)矢量具有信息密度大、運(yùn)動(dòng)目的表征明確等特點(diǎn);其二、而殘差通常與運(yùn)動(dòng)物體的邊界很好地對(duì)齊,這比其他位置的運(yùn)動(dòng)更重要;其三、對(duì)運(yùn)動(dòng)矢量和殘差進(jìn)行傳統(tǒng)的壓縮域預(yù)處理,去除無(wú)關(guān)背景噪聲、偶然時(shí)間噪聲,進(jìn)一步增加其信息密度;其四、運(yùn)動(dòng)特征從時(shí)間維度上解釋運(yùn)動(dòng),顏色特征從空間維度上解釋運(yùn)動(dòng).具體細(xì)節(jié)將在下文詳細(xì)展開(kāi).基于新時(shí)空特征的壓縮域視頻動(dòng)作識(shí)別創(chuàng)新之處在于:在基于壓縮視頻的動(dòng)作識(shí)別背景下,提出利用壓縮域運(yùn)動(dòng)矢量和殘差生成新時(shí)空特征的方法.該特征融合運(yùn)動(dòng)矢量和像素殘差的特點(diǎn),有利于完成動(dòng)作識(shí)別任務(wù),并抵抗外部環(huán)境的干擾攻擊.該特征辨識(shí)度高、噪聲低,既包含了運(yùn)動(dòng)矢量表征運(yùn)動(dòng)明確和殘差目標(biāo)輪廓清晰的優(yōu)勢(shì),又減少了兩者的不利之處.
在視頻編碼中,當(dāng)前圖像的每個(gè)像素塊在之前已編碼圖像中尋找一個(gè)最佳匹配塊的過(guò)程稱為運(yùn)動(dòng)估計(jì),它是減少視頻序列冗余信息的有效方法[5].其中用于預(yù)測(cè)的圖像稱之為參考圖像,參考?jí)K到當(dāng)前像素塊的位移稱為運(yùn)動(dòng)矢量(motion vector, MV),其表示當(dāng)前編碼塊與其參考圖像中的最佳匹配塊之間的相對(duì)位移,當(dāng)前像素塊與參考?jí)K的差值稱為殘差(Residual).在壓縮視頻的過(guò)程中, 運(yùn)動(dòng)矢量是以一個(gè)16×16像素的區(qū)域宏塊為單位,是MPEG-4編解碼的基本單位.大多數(shù)現(xiàn)代編解碼器將視頻分為I幀(參考幀)、P幀(預(yù)測(cè)幀).I幀是常規(guī)RGB圖像,P幀是殘差幀且僅對(duì)運(yùn)動(dòng)矢量和殘差進(jìn)行編碼.
在以往的視頻動(dòng)作識(shí)別任務(wù)中,絕大多數(shù)基于RGB圖像方法既有優(yōu)勢(shì)也有其劣勢(shì).首先,視頻的信息密度非常低.一個(gè)分辨率為720p、時(shí)長(zhǎng)為1 h的視頻可以從222 GB壓縮到1 GB.這些冗余信息使得CNNs很難提取有意義的信息,從而使其訓(xùn)練速度降低.其次,僅針對(duì)RGB圖像的學(xué)習(xí)時(shí)間結(jié)構(gòu)比較困難[1].在文獻(xiàn)[1]中,作者提出一種減少使用原始幀的動(dòng)作識(shí)別辦法,其主要思路是使用壓縮視頻中I幀、運(yùn)動(dòng)矢量和殘差將識(shí)別網(wǎng)絡(luò)單獨(dú)訓(xùn)練.但是該方法無(wú)法達(dá)到與雙流方法接近的識(shí)別精度,主要原因在于運(yùn)動(dòng)矢量的分辨率較低;其次,運(yùn)動(dòng)矢量和殘差雖然高度相關(guān),但都是由獨(dú)立的網(wǎng)絡(luò)來(lái)處理的.文獻(xiàn)[3]提出一種模擬光流的方法,雖然提高了識(shí)別精度,但是也增加了獨(dú)立網(wǎng)絡(luò)的分支數(shù)(從文獻(xiàn)[1]的3-stream到4-stream).
基于新時(shí)空特征的壓縮域視頻動(dòng)作識(shí)別框架如圖1所示.該框架主要包括3個(gè)模塊: 基于2D卷積神經(jīng)網(wǎng)絡(luò)的新時(shí)空特征視頻人物動(dòng)作識(shí)別、基于2D卷積神經(jīng)網(wǎng)絡(luò)的I幀視頻人物動(dòng)作識(shí)別和基于2D卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)矢量視頻人物動(dòng)作識(shí)別.首先,提取壓縮視頻特征——I幀信息、P幀信息;其次,利用P幀信息提取出運(yùn)動(dòng)矢量和殘差且生成新時(shí)空特征;最后,通過(guò)2D卷積神經(jīng)網(wǎng)絡(luò)模型完成視頻人物動(dòng)作的識(shí)別.
圖1 主體流程圖
生成新時(shí)空特征的過(guò)程如圖2所示.首先提取P幀中的運(yùn)動(dòng)矢量和殘差信息,參考文獻(xiàn)[1]分別對(duì)其進(jìn)行累積操作;再對(duì)運(yùn)動(dòng)矢量進(jìn)行時(shí)間和空間濾波處理,進(jìn)一步提取其時(shí)間和空間信息;同時(shí)對(duì)殘差進(jìn)行灰度化處理,以減少無(wú)關(guān)噪聲并提高其空間信息密度.
圖2 新時(shí)空特征生成流程圖
關(guān)于生成的更多細(xì)節(jié)參考下文2.5節(jié).由于壓縮域新時(shí)空特征具有高動(dòng)作辨識(shí)度的運(yùn)動(dòng)表征,本方法合理地利用了壓縮視頻的特征,從而使得其更容易被捕獲.
對(duì)于傳入的P幀流,首先利用FFmpeg分離運(yùn)動(dòng)矢量和殘差,再對(duì)二者進(jìn)行預(yù)處理,然后將處理后的運(yùn)動(dòng)矢量和灰度殘差以通道組合的方式合并成新時(shí)空特征.其中預(yù)處理過(guò)程包含有對(duì)運(yùn)動(dòng)矢量的累積、空間和時(shí)間濾波等步驟,殘差的預(yù)處理過(guò)程包含有殘差累積、灰度化等步驟.其中運(yùn)動(dòng)矢量和殘差累積的過(guò)程參考于文獻(xiàn)[1].對(duì)運(yùn)動(dòng)矢量和殘差進(jìn)行預(yù)處理可以降低其不可靠部分[6],使動(dòng)作部分的特征更具辨識(shí)度,進(jìn)一步增加其信息密度.
運(yùn)動(dòng)矢量流充滿噪聲和干擾,如孤立干擾塊、背景干擾塊等[7],利用運(yùn)動(dòng)矢量的空間一致性可以減少這些干擾噪聲.對(duì)于運(yùn)動(dòng)目標(biāo),通常有一塊連接的非零運(yùn)動(dòng)矢量區(qū)域和一個(gè)相對(duì)較大的運(yùn)動(dòng)矢量數(shù)值,因此:
(1)如果運(yùn)動(dòng)矢量具有孤立的非零塊或者小型運(yùn)動(dòng)矢量塊,則將其定義為噪聲塊;
(2)當(dāng)前運(yùn)動(dòng)矢量等于(0,0)或(1,1)等微小模值時(shí),則將其定義為背景塊;
(3)當(dāng)前運(yùn)動(dòng)矢量的空間相鄰運(yùn)動(dòng)矢量超過(guò)半數(shù)等于(0,0)或(1,1)等微小模值時(shí),也將當(dāng)前運(yùn)動(dòng)矢量定義為孤立塊;
(4)最后,將這一步驟所產(chǎn)生的噪聲塊、背景塊和孤立塊所相關(guān)的運(yùn)動(dòng)矢量都設(shè)定為干擾噪聲.
對(duì)于噪聲塊、背景塊和孤立塊,將其對(duì)應(yīng)的運(yùn)動(dòng)矢量清零;對(duì)于其他的運(yùn)動(dòng)矢量,先給予保留.
在壓縮域中前后幀中的運(yùn)動(dòng)物體相對(duì)于當(dāng)前幀具有位移,因而相鄰幀的相同位置塊可能導(dǎo)致與運(yùn)動(dòng)物體邊界相鄰的少量運(yùn)動(dòng)矢量噪聲殘留[8],使原始的運(yùn)動(dòng)矢量變得嘈雜.如果原始運(yùn)動(dòng)矢量和其大部分相鄰塊的運(yùn)動(dòng)矢量模值為零,那么當(dāng)前運(yùn)動(dòng)矢量是空間背景的概率極高.基于運(yùn)動(dòng)矢量的空間緊湊性和時(shí)間連續(xù)性,則有:
(1)如果NumNonMV(NumNonMV表示為當(dāng)前運(yùn)動(dòng)矢量的空間鄰域內(nèi)非零運(yùn)動(dòng)矢量的數(shù)量)小于閾值ε,估計(jì)該運(yùn)動(dòng)矢量的空間緊湊性狀態(tài)難以滿足并將其標(biāo)記為噪聲塊;
(2)檢查在前兩幀中對(duì)應(yīng)位置中的運(yùn)動(dòng)矢量是否為零矢量;如果其中一個(gè)運(yùn)動(dòng)矢量是零矢量,假設(shè)時(shí)間連續(xù)性條件不滿足.一旦運(yùn)動(dòng)矢量不滿足空間緊湊型條件或時(shí)間連續(xù)性條件,則這些運(yùn)動(dòng)矢量將被標(biāo)記為噪聲塊.
對(duì)于噪聲塊,將其對(duì)應(yīng)的運(yùn)動(dòng)矢量清零;對(duì)于非噪聲塊,先給予保留.
將壓縮域運(yùn)動(dòng)矢量預(yù)處理加入到深度學(xué)習(xí)網(wǎng)絡(luò)模型中的目的,在于增加運(yùn)動(dòng)矢量的時(shí)間一致性、空間緊湊性,減少運(yùn)動(dòng)矢量無(wú)關(guān)噪聲,使運(yùn)動(dòng)矢量更能有序地表征運(yùn)動(dòng)目標(biāo).毋庸置疑,這些預(yù)處理方法的有效性已經(jīng)在實(shí)際應(yīng)用中得到充分地證明.
像素殘差的信息量并不完全低于I幀圖像,且相對(duì)于處理復(fù)雜的RGB圖像,網(wǎng)絡(luò)處理灰度圖更加簡(jiǎn)潔.因此圖像的灰度化處理有利于減少網(wǎng)絡(luò)的計(jì)算量.灰度化后的圖像將由三通道信息變?yōu)閱瓮ǖ佬畔?殘差累積的過(guò)程去除了部分干擾噪聲,但是保留了運(yùn)動(dòng)目標(biāo)的邊緣輪廓信息,如圖3所示,殘差圖像被最大值灰度化后有利于模型對(duì)于該“Hammer Throw”(單目標(biāo)運(yùn)動(dòng))動(dòng)作的判斷.
圖3 單目標(biāo)運(yùn)動(dòng)“Hammer Throw”對(duì)比圖
類(lèi)似于人體骨骼處理方法[9-10]可應(yīng)用于運(yùn)動(dòng)捕獲以及動(dòng)作識(shí)別與分析等領(lǐng)域,灰度化圖像因?yàn)檫\(yùn)動(dòng)目標(biāo)的本質(zhì)特征沒(méi)有發(fā)生變化,其輪廓信息沒(méi)有改變,也可用于視頻動(dòng)作識(shí)別且不會(huì)增加其難度.正如電視機(jī)產(chǎn)業(yè)發(fā)展初期,人們只能通過(guò)黑白電視機(jī)獲取感興趣的信息,雖然灰度圖像沒(méi)有色彩,卻并沒(méi)有阻礙電視媒體信息的傳播,且其傳遞的信息也并非不準(zhǔn)確.
殘差灰度化的目的在于降低殘差的維度,即盡可能地保存殘差的有效信息且去除對(duì)于動(dòng)作本身影響不是特別大的顏色信息.但對(duì)于計(jì)算視覺(jué)任務(wù)而言,灰度化圖像只能適用于物體與背景有較強(qiáng)對(duì)比的情況,或者說(shuō)背景或物體的灰度比較單一.對(duì)于復(fù)雜的前景目標(biāo),單純的灰度圖像則不能完全駕馭,這也是灰度圖像沒(méi)有完全應(yīng)用于視頻動(dòng)作識(shí)別任務(wù)的原因之一.
從時(shí)間關(guān)系上來(lái)看,殘差由于在累積的過(guò)程中層層疊加,導(dǎo)致殘差原本微弱表示的動(dòng)作輪廓逐漸明朗、運(yùn)動(dòng)特征愈發(fā)突出.在運(yùn)動(dòng)矢量時(shí)間濾波中,既強(qiáng)調(diào)了它的時(shí)間連續(xù)一致性,又根據(jù)前兩幀中運(yùn)動(dòng)矢量有效地去除了當(dāng)前幀中的部分時(shí)間干擾噪聲.
從空間關(guān)系上來(lái)看,運(yùn)動(dòng)矢量空間濾波則是減去了運(yùn)動(dòng)矢量的大量空間干擾噪聲,突出了運(yùn)動(dòng)前景,弱化了背景,使得運(yùn)動(dòng)矢量更有效地表述了運(yùn)動(dòng)目標(biāo)的本體.
盡管有一些文章闡明圖像灰度化后可以進(jìn)行計(jì)算機(jī)視覺(jué)任務(wù)[11],但在動(dòng)作識(shí)別方向上,并沒(méi)有找到直接融合灰度殘差和運(yùn)動(dòng)矢量?jī)煞N特征的方法.于是提出新時(shí)空特征融合方法,將單通道的灰度殘差圖與雙通道的運(yùn)動(dòng)矢量圖融合疊加成新的三通道時(shí)空特征圖像,如公式(1)所示:
NewF∈RH×W×3=MV∈RH×W×2⊕GR∈RH×W×1.
(1)
在公式(1)中,NewF表示為新時(shí)空特征,其大小為H×W×3;MV表示為處理后的運(yùn)動(dòng)矢量流,其大小為H×W×2;GR表示為灰度化后的累積殘差流,其大小為H×W×1;其中H表示高度,W表示寬度,1表示其為單通道,2表示其為雙通道,3表示其為三通道.
新時(shí)空特征圖像既融合運(yùn)動(dòng)矢量的時(shí)間關(guān)系,又兼顧殘差和運(yùn)動(dòng)矢量的空間關(guān)系,滿足動(dòng)作識(shí)別所需要的時(shí)空性要求,且其具有原始像素?zé)o法表達(dá)的效果.這是因?yàn)槭紫阮A(yù)處理減少了大量的無(wú)關(guān)背景噪聲,保護(hù)了網(wǎng)絡(luò)對(duì)于新時(shí)空特征的有效識(shí)別;其次,新時(shí)空特征減少了顏色信息的干擾,回歸了動(dòng)作發(fā)生的本質(zhì)——矢量位移;最后,在沒(méi)有花費(fèi)較大計(jì)算代價(jià)的情況下,新時(shí)空特征獲得壓縮域特征的良好時(shí)空關(guān)系,如圖4所示.
圖4 多目標(biāo)運(yùn)動(dòng)“Horse Race”對(duì)比圖
在上述圖中,運(yùn)動(dòng)矢量特征圖表示運(yùn)動(dòng)的大概區(qū)域和劇烈程度,灰度殘差圖清晰地表示出運(yùn)動(dòng)邊緣輪廓,而結(jié)合兩者優(yōu)勢(shì)的新時(shí)空特征則充分表達(dá)運(yùn)動(dòng)的顯著性區(qū)域和動(dòng)作的清晰輪廓,極大地有利于網(wǎng)絡(luò)對(duì)動(dòng)作的識(shí)別和判斷.
實(shí)驗(yàn)使用的數(shù)據(jù)集來(lái)源于經(jīng)典視頻動(dòng)作識(shí)別數(shù)據(jù)集:UCF-101與 HMDB51.UCF-101包含來(lái)自101個(gè)動(dòng)作類(lèi)別的13320個(gè)視頻;HMDB-51包含來(lái)自51個(gè)動(dòng)作類(lèi)別的6766個(gè)視頻.這兩個(gè)數(shù)據(jù)集都被分成3個(gè)split(每個(gè)split有其對(duì)應(yīng)的訓(xùn)練集、測(cè)試集)進(jìn)行實(shí)驗(yàn),本實(shí)驗(yàn)通過(guò)計(jì)算同一數(shù)據(jù)集 3 次實(shí)驗(yàn)準(zhǔn)確率的平均值作為最終的實(shí)驗(yàn)結(jié)果.
使用MPEG-4視頻編解碼標(biāo)準(zhǔn),每一個(gè)視頻被分為若干個(gè)GOP(Group of Picture),每一組GOP中包含有1個(gè)I-frame和11個(gè)P-frames,且所有的視頻都被重新定義為340×256大小.網(wǎng)絡(luò)模型運(yùn)行在基于Ubuntu16.04 desktop的普通機(jī)柜式服務(wù)器,其包含的顯卡為英偉達(dá)RTX 2080Ti.在訓(xùn)練的過(guò)程中,參考了CoViAR1的模型,對(duì)I-frame使用Resnet152網(wǎng)絡(luò),對(duì)新時(shí)空特征和運(yùn)動(dòng)矢量使用Resnet18網(wǎng)絡(luò).首先,預(yù)處理過(guò)程的加入對(duì)運(yùn)動(dòng)矢量在時(shí)間和空間關(guān)系上進(jìn)行改善——弱化背景、突出前景;其次運(yùn)動(dòng)矢量和殘差累積操作——去除孤立、邊緣噪聲;在預(yù)處理結(jié)束后,生成新時(shí)空特征;最后將處理后的運(yùn)動(dòng)矢量和新時(shí)空特征送入2D卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練.其中,壓縮視頻及其數(shù)據(jù)的處理基于FFmpeg平臺(tái).根據(jù)文獻(xiàn)[1]中的結(jié)論,將丟失率設(shè)置為0.85,初始的學(xué)習(xí)率設(shè)置為0.01,batch-size設(shè)置為40,在迭代510次后停止訓(xùn)練.
大部分視頻動(dòng)作識(shí)別文獻(xiàn)[1,2,4,12]均將視頻級(jí)預(yù)測(cè)作為25幀圖像預(yù)測(cè)的平均值(在視頻中均勻采樣25幀).每一測(cè)試幀圖像中均有5次裁剪和1次翻轉(zhuǎn),即在網(wǎng)絡(luò)模型一測(cè)試幀圖像都有10種預(yù)測(cè)結(jié)果,這是底層網(wǎng)絡(luò)[13,14]設(shè)計(jì)的結(jié)果.最后使用后端融合方法得出最終預(yù)測(cè)結(jié)果.
在融合新時(shí)空特征、運(yùn)動(dòng)矢量和I幀的結(jié)果后與文獻(xiàn)[1]提出的CoViAR(Compressed Video Action Recognition)方法、文獻(xiàn)[3]提出的DMC-Net(Discriminative Motion Cues Net)、文獻(xiàn)[4]提出的Refined MV(Refined Motion Vector)、文獻(xiàn)[8]提出的TSN(Two-stream + Flow)、文獻(xiàn)[15]提出的C3D(3D convolutional neural networks)、文獻(xiàn)[16]提出的Res3D等多種方法進(jìn)行對(duì)比.表1給出了不同方法計(jì)算的復(fù)雜度和數(shù)據(jù)集HMDB-51精度對(duì)比,其中GFLOPs越大則網(wǎng)絡(luò)的計(jì)算復(fù)雜度越大,Our則是指融合I-frame、MV和New Spatiotemporal Feature的結(jié)果.因?yàn)镈MC-Net用到了光流和GAN網(wǎng)絡(luò),所以其在實(shí)際訓(xùn)練網(wǎng)絡(luò)過(guò)程中的GFLOPs將會(huì)遠(yuǎn)遠(yuǎn)大于其他方法.表2給出了不同方法在數(shù)據(jù)集HMDB-51和UCF-101精度對(duì)比.從表1和表2看出在網(wǎng)絡(luò)模型相同的情況下,本方法的精度高于CoViAR的精度;雖然精度略低于DMC generator,但其模型的計(jì)算復(fù)雜度僅是DMC generator的0.1362倍.與主流的3D卷積神經(jīng)網(wǎng)絡(luò)算法模型C3D[15]、R3D[16]相比,本文的算法模型計(jì)算開(kāi)銷(xiāo)遠(yuǎn)遠(yuǎn)小于它們,更有效,如圖5所示.
圖5 部分視頻中動(dòng)作識(shí)別正確案例
表1 不同方法計(jì)算的復(fù)雜度和HMDB-51的精度對(duì)比
表2 數(shù)據(jù)集UCF-101和HMDB-51的精度對(duì)比
表3和表4為不同的特征方法在數(shù)據(jù)集HMDB-51和UCF-101上的識(shí)別效果.在表3和表4中,COVIAR MV 和COVIAR Residual 是文獻(xiàn)[1]的特征在Resnet18網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果,Refined MV 是文獻(xiàn)[4]在Resnet152網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果,Our MV指的是預(yù)處理后的運(yùn)動(dòng)矢量在Resnet18網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果,Our Feature指的是新時(shí)空特征的測(cè)試結(jié)果.如表3、4所示本方法比其他方法更優(yōu).
表3 數(shù)據(jù)集HMDB-51的精度
表4 數(shù)據(jù)集UCF-101的精度
文中提出了一種基于新時(shí)空特征的壓縮域視頻動(dòng)作識(shí)別方法來(lái)完成動(dòng)作識(shí)別任務(wù).該方法利用預(yù)處理好的壓縮域特征來(lái)生成更有效的新時(shí)空特征,并利用2D卷積神經(jīng)網(wǎng)絡(luò)完成視頻人物動(dòng)作的識(shí)別.實(shí)驗(yàn)表明新時(shí)空特征能夠有效繼承運(yùn)動(dòng)矢量和殘差的時(shí)間與空間相關(guān)性,更有利于識(shí)別視頻中人物的動(dòng)作.本文的方法也存在不足之處,如使用MPEG4并非是最先進(jìn)的新一代編解碼標(biāo)準(zhǔn);在后端融合時(shí),依舊采用絕大多數(shù)同類(lèi)文章的方法——固定比例值融合,這對(duì)于所有的測(cè)試視頻來(lái)說(shuō)不一定是完美比例.接下來(lái)的改進(jìn)中,筆者將采用新一代視頻編解碼標(biāo)準(zhǔn)并考慮更妥善地后端融合方法.
中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年2期