国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)特征融合與多任務(wù)學(xué)習(xí)的特種視頻分類(lèi)

2020-05-12 08:35:10吳曉雨顧超男王生進(jìn)
光學(xué)精密工程 2020年5期
關(guān)鍵詞:音視頻音頻暴力

吳曉雨,顧超男,王生進(jìn)

(1.中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院,北京 100024; 2.清華大學(xué) 電子工程系,北京 100084)

1 引 言

隨著移動(dòng)智能手機(jī)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上的視頻數(shù)據(jù)量也急劇增加,網(wǎng)絡(luò)內(nèi)容安全日漸成為一個(gè)重要問(wèn)題[1]。單靠人工已無(wú)法實(shí)現(xiàn)對(duì)如此龐大的視頻數(shù)據(jù)量進(jìn)行審查,這使得色情、暴力等不良視頻可能會(huì)直接暴露于用戶面前,給用戶帶來(lái)視覺(jué)和心靈上的負(fù)面沖擊。本文中的特種視頻是指暴力視頻。如何有效識(shí)別暴力視頻以減少暴力內(nèi)容等有害信息傳播是一個(gè)亟需解決的問(wèn)題。因此,本文以暴力視頻檢測(cè)為研究任務(wù),深入探索了其中的關(guān)鍵技術(shù)和解決方案,旨在提升暴力視頻的智能化檢測(cè)性能,以凈化網(wǎng)絡(luò)環(huán)境。

“暴力”是一個(gè)具有高級(jí)語(yǔ)義的抽象概念,包括身體和心理暴力,本文只關(guān)注身體暴力視頻識(shí)別,沿用文獻(xiàn)[2]對(duì)暴力視頻的定義如下:“不允許8歲以下的小孩觀看的包含身體暴力的視頻”?;ヂ?lián)網(wǎng)的暴力場(chǎng)景視頻畫(huà)面上常伴有流血、打斗,聲音上常伴有驚叫、爆炸和槍聲等信息,故目前的暴力視頻識(shí)別方法往往利用音視頻信息?;谝粢曨l信息融合的暴力視頻識(shí)別技術(shù)主要涉及暴力音視頻各模態(tài)特征提取和模態(tài)間信息有效融合的兩方面問(wèn)題[3-4]。

在暴力音視頻特征提取方面:卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network ,CNN)常被用來(lái)提取靜態(tài)的圖像特征,如文獻(xiàn)[5]采用RGB幀作為輸入,利用ImagNet數(shù)據(jù)集預(yù)訓(xùn)練的CNN初始化暴力視頻分類(lèi)的前5層網(wǎng)絡(luò),并對(duì)最后3個(gè)全連接層重新訓(xùn)練得到深度特征,實(shí)驗(yàn)結(jié)果證明與傳統(tǒng)特征的分類(lèi)效果相比,深度特征能幫助提升暴力視頻系統(tǒng)識(shí)別性能。文獻(xiàn)[6]采用深度學(xué)習(xí)特征和手工設(shè)計(jì)特征相結(jié)合的方法進(jìn)一步提高暴力視頻識(shí)別能力,并在分析比較了靜態(tài)特征、運(yùn)動(dòng)特征、基于梅爾頻率的倒譜系數(shù)MFCC(Mel-Frequency Cepstral Coefficients)音頻特征和基于深度學(xué)習(xí)的高級(jí)語(yǔ)義特征后發(fā)現(xiàn),運(yùn)動(dòng)特征對(duì)暴力視頻識(shí)別有較重要的影響。文獻(xiàn)[7]借鑒了雙流CNN網(wǎng)絡(luò)結(jié)構(gòu)[8],以靜態(tài)視頻幀和光流圖作為兩路CNN的輸入提取暴力視頻的特征,并將CNN網(wǎng)絡(luò)輸出作為長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM) 網(wǎng)絡(luò)[9]的輸入以分析長(zhǎng)時(shí)間視頻序列,同時(shí)提取并編碼了多種手工設(shè)計(jì)特征,而后將手工設(shè)計(jì)的特征和深度學(xué)習(xí)得到的多種特征進(jìn)行拼接,并訓(xùn)練了幾個(gè)不同的SVM分類(lèi)器,最后融合不同分類(lèi)器的分?jǐn)?shù)得到最終的決策結(jié)果。文獻(xiàn)[10]將相鄰視頻幀的差分圖作為神經(jīng)網(wǎng)絡(luò)的輸入,利用了卷積LSTM網(wǎng)絡(luò)提取暴力視頻的幀間變化信息和場(chǎng)景語(yǔ)義信息。目前暴力視頻特征提取方法多是粗暴地將經(jīng)典特征描述算子和深度神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征描述子進(jìn)行簡(jiǎn)單地組合拼接,這無(wú)疑會(huì)制約暴力視頻檢測(cè)算法的計(jì)算效率,我們更應(yīng)該從暴力場(chǎng)景的特點(diǎn)出發(fā)(如暴力場(chǎng)景有的以血腥場(chǎng)面為主,有的以打架場(chǎng)面為主,有的以爆炸著火場(chǎng)面為主),采用有效的音視頻特征提取方法來(lái)獲得暴力場(chǎng)景的語(yǔ)義表征。

如何對(duì)提出的靜態(tài)幀、運(yùn)動(dòng)和音頻等多種特征進(jìn)行有效地信息融合是暴力視頻識(shí)別研究中的另一重要內(nèi)容。在暴力音視頻模態(tài)間信息融合方面:目前多路信息融合的技術(shù)方法主要有基于決策分?jǐn)?shù)的后融合方法和基于特征層的前融合方法[11]。決策層的融合指將各模態(tài)的決策結(jié)果(如各模態(tài)的分類(lèi)器給出的分?jǐn)?shù)) 進(jìn)行融合[12]。主要的融合方法有基于規(guī)則的方法,如線性權(quán)重融合、平均融合、投票決策等。基于分類(lèi)器學(xué)習(xí)的融合方法即將各模態(tài)分?jǐn)?shù)作為特征通過(guò)訓(xùn)練學(xué)習(xí)得到一個(gè)判別函數(shù),如基于 SVM(Support Vector Machine)、貝葉斯決策、logistic 回歸和神經(jīng)網(wǎng)絡(luò)等方法。特征層的前融合是指將提取的各視角特征按照某種方法進(jìn)行的融合,常見(jiàn)的特征融合方法有:(1)直接將特征拼接為一個(gè)長(zhǎng)的特征向量,一般隨后采用特征編碼方法,如詞包模型(Bag of Word,BOW)、 Fisher向量編碼 (Fisher Vector,F(xiàn)V)方法或者 主成分分析(Principle Component Analysis,PCA)等方法,進(jìn)行特征降維,最后利用 SVM 或者Softmax分類(lèi)器得到分類(lèi)的結(jié)果,這種特征融合方法雖實(shí)現(xiàn)簡(jiǎn)單,但是多模態(tài)數(shù)據(jù)間存在“語(yǔ)義鴻溝”的問(wèn)題,故將不同含義異質(zhì)的多種特征直接進(jìn)行拼接后效果不穩(wěn)定。(2)將多模態(tài)特征經(jīng)過(guò)某些變換投影以得到潛在的、 共享的特征子空間[13-14],該方法在融合過(guò)程中往往會(huì)考慮模態(tài)間的關(guān)聯(lián)性,故更為科學(xué)。目前已有的暴力音視頻信息融合常采用決策層的融合技術(shù),這主要是因?yàn)闆Q策層的信息融合相當(dāng)于對(duì)語(yǔ)義相近的、 處在同一個(gè)特征空間的特征(即決策分?jǐn)?shù))進(jìn)行融合,融合風(fēng)險(xiǎn)較小且實(shí)現(xiàn)也相對(duì)容易。但是,決策層融合方法對(duì)暴力視頻識(shí)別性能的改善作用也是比較有限的,原因在于在進(jìn)行決策層融合時(shí)可利用的只是各模態(tài)決策后的分?jǐn)?shù),融合信息很有限。較決策層融合相比,特征層的融合方法優(yōu)勢(shì)在于同時(shí)“看到”了更多的模態(tài)信息, 能更好捕捉各模態(tài)的聯(lián)系,好的特征融合方法能顯著提高視頻分類(lèi)性能。但該方法難點(diǎn)也在于各特征含義不同、建立具有統(tǒng)一語(yǔ)義表示的特征子空間較難??偟膩?lái)說(shuō),無(wú)論是決策層融合還是特征層融合方法,在融合音視頻信息時(shí)均沒(méi)有考慮音視頻特征語(yǔ)義一致性的問(wèn)題。多模態(tài)特征之間有時(shí)具有語(yǔ)義一致性(以暴力視頻為例,語(yǔ)義一致性可以理解為暴力音視頻特征同時(shí)具有暴力場(chǎng)面描述的特點(diǎn),或同時(shí)不具有暴力場(chǎng)景描述的特點(diǎn)) 和信息互補(bǔ),但有時(shí)多模態(tài)間信息是互相干擾的(如著名的“麥格克效應(yīng)”-McGurk effect),融合它們甚至?xí)邢喾吹男Ч?。因此要顯式地思考什么時(shí)候進(jìn)行哪些信息的融合,不加任何度量直接地進(jìn)行模態(tài)間的特征融合有時(shí)不僅無(wú)法實(shí)現(xiàn)模態(tài)間信息互補(bǔ), 而且還會(huì)導(dǎo)致算法性能的下降[15]。

本文針對(duì)現(xiàn)有暴力音視頻特征對(duì)暴力場(chǎng)景語(yǔ)義描述能力不足、融合音視頻特征時(shí)未考慮語(yǔ)義一致性等問(wèn)題,提出了一種基于音視頻特征多任務(wù)學(xué)習(xí)的端到端暴力視頻識(shí)別方法:提取具有時(shí)空相關(guān)性的音視頻特征方法, 構(gòu)建具有語(yǔ)義保持的共享的特征子空間,提出了基于暴力音視頻特征語(yǔ)義一致性度量和視頻分類(lèi)相結(jié)合多任務(wù)學(xué)習(xí)的暴力視頻分類(lèi)模型,實(shí)現(xiàn)了暴力音視頻信息的有效融合與互補(bǔ)。在兩個(gè)暴力視頻公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文提出方法的有效性。同時(shí)該方法也將為類(lèi)似任務(wù)的音視頻特征融合提供了一定的理論參考。

2 基于語(yǔ)義一致性的暴力視頻識(shí)別方法

本文整體技術(shù)路線如圖1所示:首先,以2~4 s短視頻數(shù)據(jù)為處理對(duì)象,以分析暴力場(chǎng)景視頻的特點(diǎn)為出發(fā)點(diǎn),基于P3D+LSTM網(wǎng)絡(luò)提取適合暴力場(chǎng)景描述的、具有時(shí)空相關(guān)特性的視覺(jué)語(yǔ)義特征,基于VGGish網(wǎng)絡(luò)提取暴力音頻的語(yǔ)義特征;而后在多特征融合過(guò)程中,以暴力視頻分類(lèi)標(biāo)簽和音視頻語(yǔ)義一致性信息為監(jiān)督信號(hào),自動(dòng)學(xué)習(xí)并求取具有語(yǔ)義保持的特征映射的變換矩陣,實(shí)現(xiàn)基于暴力音視頻特征語(yǔ)義一致性度量和視頻分類(lèi)相結(jié)合多任務(wù)學(xué)習(xí)的暴力視頻分類(lèi)。

圖1 暴力視頻分類(lèi)算法框架圖Fig.1 Framework of violent video classification

2.1 暴力音視頻特征提取

暴力類(lèi)視頻從視覺(jué)信息上來(lái)講,畫(huà)面通常包括物體(槍支、刀、劍等)、場(chǎng)景(血液、死亡等場(chǎng)景)、動(dòng)作或行為(如打斗、追逐、射擊等)。在音頻信息方面,暴力視頻中經(jīng)常會(huì)伴有尖叫、爆炸、槍聲等,故本文利用深度學(xué)習(xí)算法提取表觀特性和運(yùn)動(dòng)信息隨時(shí)空變化的視頻語(yǔ)義特征及音頻語(yǔ)義特征,來(lái)表征血腥、打架和爆炸等暴力場(chǎng)景。

2.1.1 基于P3D+LSTM的暴力視頻視覺(jué)語(yǔ)義特征提取

對(duì)于暴力視頻,利用視頻當(dāng)前幀的前后多幀上下文的信息可以減少基于單幀信息引起的誤判,有助于提高血腥場(chǎng)景檢測(cè)的準(zhǔn)確度。同時(shí)為充分考慮暴力視頻在表觀和運(yùn)動(dòng)上的特點(diǎn),本文參考雙流的框架,分別以原始視頻RGB幀和光流作為輸入,以偽3D(Pseudo-3D,P3D)[16]和長(zhǎng)短時(shí)記憶LSTM 網(wǎng)絡(luò)[9]為網(wǎng)絡(luò)結(jié)構(gòu),提取暴力視頻中表觀特性和運(yùn)動(dòng)信息隨時(shí)空變化的視覺(jué)語(yǔ)義特征。

(1)基于P3D+LSTM網(wǎng)絡(luò)提取表觀信息隨時(shí)空變化的視頻語(yǔ)義特征

對(duì)于血腥的暴力視頻,提取基于原始RGB幀的表觀語(yǔ)義特征是很有必要的。P3D網(wǎng)絡(luò)使用了“偽”3D卷積的概念降低網(wǎng)絡(luò)參數(shù),即利用拆分的思想把原本3×3×3的卷積拆分成了3×1×1卷積與1×3×3卷積的結(jié)合,以16幀的連續(xù)圖像作為網(wǎng)絡(luò)輸入單元,提取短時(shí)的視頻時(shí)空連續(xù)性特征,顯然P3D對(duì)于長(zhǎng)視頻的處理還存在一些不足,實(shí)際中往往將P3D最后一個(gè)平均池化層特征作為L(zhǎng)STM的輸入以提取長(zhǎng)序列視頻的時(shí)空特征。因此,本文以視頻暴力/非暴力標(biāo)簽信息作為監(jiān)督信號(hào),以暴力視頻原始幀RGB信息作為輸入,基于P3D+LSTM網(wǎng)絡(luò)學(xué)習(xí)并提取表觀信息隨時(shí)空變化的512維視頻語(yǔ)義特征fVa。

(2)基于P3D+LSTM網(wǎng)絡(luò)提取運(yùn)動(dòng)信息隨時(shí)空變化的視頻語(yǔ)義特征

對(duì)于打斗暴力場(chǎng)景,運(yùn)動(dòng)特征對(duì)此具有較強(qiáng)的描述能力。目前運(yùn)動(dòng)特征的提取主要借助光流Optical flow、改進(jìn)稠密軌跡iDT(improved Dense Trajectory)算子和幀間差分等方法, iDT計(jì)算復(fù)雜度較高,幀間差分法雖然計(jì)算簡(jiǎn)單但是當(dāng)目標(biāo)運(yùn)動(dòng)較快時(shí)無(wú)法獲取完整的運(yùn)動(dòng)目標(biāo)。因此,本文選用光流法來(lái)表征視頻的運(yùn)動(dòng)信息,以光流圖像作為網(wǎng)絡(luò)的輸入,基于P3D+LSTM網(wǎng)絡(luò)學(xué)習(xí)并提取運(yùn)動(dòng)信息隨時(shí)空變化的512維視頻語(yǔ)義特征fVm。

在視覺(jué)通道模型訓(xùn)練階段,表觀流和光流這兩路3D網(wǎng)絡(luò)模型的初始化參數(shù)來(lái)自于Kinetics 400數(shù)據(jù)集[17]的預(yù)訓(xùn)練模型。參數(shù)的設(shè)置如下:P3D訓(xùn)練模型初始學(xué)習(xí)率設(shè)為0.000 01,且以gamma=0.1的幅度每5 000次對(duì)學(xué)習(xí)率進(jìn)行一次調(diào)整;訓(xùn)練時(shí)batch_size設(shè)置為4;最大迭代次數(shù)max_iter=30 000;梯度影響因子momentum設(shè)置為0.9;當(dāng)P3D網(wǎng)絡(luò)提取的最后一個(gè)平均池化層特征被發(fā)送到LSTM時(shí),batch_size被設(shè)置為64,最大epoch設(shè)置為55,初始學(xué)習(xí)率設(shè)置為0.000 1。

2.1.2 基于VGGish網(wǎng)絡(luò)的暴力視頻音頻語(yǔ)義特征提取

暴力視頻在音頻信息中經(jīng)常會(huì)伴有尖叫、爆炸、槍聲等,因此暴力視頻智能化識(shí)別的研究不能僅考慮視覺(jué)方面的信息,音頻信息同樣也對(duì)暴力視頻的識(shí)別提供指示性幫助。這里假定處理的視頻存在音頻流信息。本文首先提取音頻log-Mels梅爾譜圖,而后將梅爾譜圖送入VGGish網(wǎng)絡(luò)[18],通過(guò)學(xué)習(xí)尖叫、爆炸、槍聲的暴力音頻數(shù)據(jù)使得網(wǎng)絡(luò)學(xué)習(xí)到暴力音頻的音效特征,獲得128維暴力音頻語(yǔ)義特征fA,以此輔助暴力視頻的檢測(cè)。這里不選擇P3D網(wǎng)絡(luò)進(jìn)行暴力音頻語(yǔ)義特征提取的原因在于,輸入圖像log-mel譜圖雖然是一幅圖,但是和自然圖像空間位置信息的含義截然不同,因此并不適合提取音頻語(yǔ)義特征。

訓(xùn)練采用的音頻數(shù)據(jù)均是從原始暴力視頻中利用ffmpeg工具分離出來(lái)的,而后將音頻數(shù)據(jù)經(jīng)過(guò)如下預(yù)處理:所有音頻數(shù)據(jù)被重新采樣到16KHz的單聲道形式,對(duì)音頻的分幀采用了窗口大小為25 ms、窗口跳距為10 ms以及周期Hann窗口的短時(shí)傅里葉變換的幅度,而后映射得到穩(wěn)定的log-Mels譜。然后這些特征被以0.96 s的時(shí)長(zhǎng)組幀,且不會(huì)出現(xiàn)幀的重疊,其中每一幀都包含64個(gè)Mel頻帶,時(shí)長(zhǎng)為10 ms,即總共96 frame。將提取96×64×1的音頻數(shù)據(jù)送入VGGish網(wǎng)絡(luò)提取暴力音頻語(yǔ)義特征。

在音頻特征提取模型訓(xùn)練過(guò)程中,網(wǎng)絡(luò)是基于VGGish網(wǎng)絡(luò)在Audioset數(shù)據(jù)集上預(yù)訓(xùn)練模型進(jìn)行微調(diào)訓(xùn)練的。此外,在訓(xùn)練過(guò)程中對(duì)訓(xùn)練音頻數(shù)據(jù)進(jìn)行擴(kuò)充處理,每段音頻再按照1 s的時(shí)間間隔截?cái)鄶U(kuò)充成10個(gè),batch_size設(shè)置為16,epoch設(shè)置為60,初始學(xué)習(xí)率0.000 01。

2.2 基于語(yǔ)義一致性的多特征融合與暴力視頻識(shí)別

合理的特征融合方法相比決策層融合往往可以獲得更高的性能提升。特征層融合常將多種特征投影變換到一個(gè)共享的特征子空間上,但是如何求取變換矩陣以構(gòu)建合理的特征子空間是該方法的核心。在對(duì)多種特征進(jìn)行融合時(shí),只有將具有相同語(yǔ)義的特征進(jìn)行融合處理才能充分利用各類(lèi)特征之間的信息互補(bǔ)性。但現(xiàn)有的研究方法只是單純地基于視頻標(biāo)簽來(lái)對(duì)特征融合層進(jìn)行訓(xùn)練[19],沒(méi)有考慮到各種特征之間可能存在語(yǔ)義不一致的情況,這導(dǎo)致在多特征融合過(guò)程中可能會(huì)出現(xiàn)特征信息相互“敵對(duì)”的問(wèn)題,使得該類(lèi)方法在本就數(shù)量有限的暴力視頻訓(xùn)練數(shù)據(jù)集上會(huì)更容易出現(xiàn)過(guò)擬合現(xiàn)象,影響了暴力視頻分類(lèi)系統(tǒng)的泛化能力。

圖2 基于多任務(wù)學(xué)習(xí)的暴力音視頻特征融合Fig.2 Violent audio-visual features fusion based on multitask learning

因此,本文提出了結(jié)合暴力音視頻特征語(yǔ)義一致性度量的多模態(tài)融合方法,技術(shù)路線圖如圖2所示,實(shí)現(xiàn)了基于音視頻特征多任務(wù)學(xué)習(xí)的暴力視頻分類(lèi)方法。在視覺(jué)通道上,我們通過(guò)構(gòu)建并訓(xùn)練基于全連接的特征融合層的網(wǎng)絡(luò)結(jié)構(gòu),將隨時(shí)空變化的512維的表觀語(yǔ)義特征fVa和512維運(yùn)動(dòng)語(yǔ)義特征fVm特征投影到512維的視覺(jué)特征融合空間,使得視覺(jué)特征從1 024維降為512維,這樣不僅實(shí)現(xiàn)了表觀和運(yùn)動(dòng)特征的融合,更為重要的是減少了視覺(jué)特征的維度,降低后續(xù)建立音視頻共享特征子空間的技術(shù)難度。在音視頻特征融合方面,構(gòu)建2個(gè)全連接特征融合層,相當(dāng)于分別求取視覺(jué)特征變換矩陣WV和音頻特征變換矩陣WA,將視覺(jué)通道512維特征φV和音頻通道128維特征φA,經(jīng)過(guò)公式(1)各自矩陣變換得到音視頻共享特征子空間,從而得到的融合后512維音視頻特征φ′=(φV′,φA′)。其中融合后的特征維度通過(guò)反復(fù)實(shí)驗(yàn)選取,公式(1)中參數(shù)(WV,bV,WA,bA)由模型訓(xùn)練得到。

φV′=WVφV+bV

φA′=WAφA+bA.

(1)

本文提出的多模態(tài)特征融合方法創(chuàng)新在于:在學(xué)習(xí)特征融合層參數(shù)的模型訓(xùn)練階段,不僅考慮了暴力視頻的分類(lèi)任務(wù),還引入了音視頻語(yǔ)義一致性任務(wù)進(jìn)行協(xié)調(diào)反饋,兩個(gè)任務(wù)并行學(xué)習(xí)訓(xùn)練且共享已學(xué)到的特征參數(shù)。因此暴力視頻分類(lèi)網(wǎng)絡(luò)的損失函數(shù)由兩部分組成:一是暴力分類(lèi)的二值交叉熵?fù)p失函數(shù),二是增添語(yǔ)義一致性分類(lèi)的損失函數(shù)。具體的損失函數(shù)公式如(2):

Loss=Lclassification+λLcorrespondence

(2)

這里,增加語(yǔ)義一致性度量的交叉熵?fù)p失函數(shù)作用是在音視頻特征映射到共享的特征子空間過(guò)程中,增加了一致性的約束條件,更好地保持音視頻模態(tài)間及各模態(tài)內(nèi)部特征數(shù)據(jù)的語(yǔ)義信息,引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)到具有語(yǔ)義保持的音視頻融合特征。相比于直接計(jì)算融合音視頻特征的相似性距離,語(yǔ)義一致性任務(wù)的損失函數(shù)從語(yǔ)義保持為目標(biāo),較大程度實(shí)現(xiàn)了模態(tài)間“求同存異”,而相似性距離過(guò)多強(qiáng)調(diào)了多模態(tài)特征相似性,弱化了其差異互補(bǔ)性,但過(guò)于相似的多特征則失去了互補(bǔ)性。從另一個(gè)角度來(lái)看,語(yǔ)義一致性度量損失函數(shù)相當(dāng)于對(duì)暴力分類(lèi)損失函數(shù)增加了正則項(xiàng),在暴力視頻數(shù)據(jù)集由于內(nèi)容的敏感性構(gòu)建過(guò)程比較困難的情況下,一定程度上降低了算法對(duì)暴力視頻訓(xùn)練數(shù)據(jù)的要求,提升了暴力視頻算法的泛化能力。

需要說(shuō)明的是,本文僅在網(wǎng)絡(luò)模型訓(xùn)練階段,增加語(yǔ)義一致性度量的任務(wù),采用基于音視頻特征多任務(wù)學(xué)習(xí)方法方法訓(xùn)練得到更為有效的特征融合層參數(shù)。當(dāng)訓(xùn)練結(jié)束暴力視頻分類(lèi)的整個(gè)網(wǎng)絡(luò)模型參數(shù)固定后,在測(cè)試階段,對(duì)測(cè)試的視頻僅進(jìn)行任務(wù)1即視頻是否為暴力的判別。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 Violent Flow數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

3.1.1 數(shù)據(jù)集描述及評(píng)價(jià)指標(biāo)

公開(kāi)的暴力視頻數(shù)據(jù)集The Violent Flow數(shù)據(jù)集[20]是一個(gè)群體暴力數(shù)據(jù)集,參與暴力事件的人數(shù)非常多。這個(gè)數(shù)據(jù)集中的大部分視頻都是從足球比賽中發(fā)生的暴力事件中收集的。這個(gè)數(shù)據(jù)集中共有246個(gè)視頻,其中暴力視頻和非暴力視頻各123個(gè)。

Violent Flow庫(kù)上的評(píng)測(cè)指標(biāo)采用的準(zhǔn)確率(Accuary)即:

(3)

其中:TP(True Positive-被正確分類(lèi)的正例)TN(True Negative-被正確分類(lèi)的負(fù)例),F(xiàn)P(False positive -假正例)和FN(False Negative-假負(fù)例)。

3.1.2 實(shí)驗(yàn)結(jié)果

The Violent Flow數(shù)據(jù)集中視頻的音頻信息非原始音頻信息,而多是后配上的沒(méi)有意義的背景音樂(lè)。因此,本文只驗(yàn)證了以視頻RGB幀和光流為網(wǎng)絡(luò)輸入,基于P3D+LSTM的視覺(jué)特征提取的有效性。從表1的實(shí)驗(yàn)結(jié)果可以看到基于P3D+LSTM提取表觀和運(yùn)動(dòng)隨時(shí)空變化的語(yǔ)義特征較其他方法更好地表述了暴力視頻的特征,相比于已有方法取得了較好的實(shí)驗(yàn)結(jié)果。

表1 在Violent Flow數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比較

Tab.1 Result comparison between other algorithms and our algorithm on Violent Flow dataset

方法準(zhǔn)確率Bilinski et al.[21]96.4%MoIWLD [22](93.19±0.12)%Swathikiran [10](94.57±2.34)%本文僅利用RGB幀的P3D+LSTM網(wǎng)絡(luò)模型96.33%本文僅利用光流的P3D+LSTM網(wǎng)絡(luò)模型90.63%本文(視頻RGB幀和光流P3D+LSTM網(wǎng)絡(luò)模型)97.97%

3.2 MediaEval VSD 2015數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

3.2.1 數(shù)據(jù)集描述及評(píng)價(jià)指標(biāo)

MediaEval VSD(Violent Scenes Detection) 2015[23]暴力視頻公開(kāi)數(shù)據(jù)集,是由歐洲MediaEval 2015 暴力視頻檢測(cè)競(jìng)賽組織方提供的。該數(shù)據(jù)集來(lái)自于199部電影,由10 900個(gè)短視頻組成,其中訓(xùn)練集6 144個(gè)短視頻(暴力272個(gè),非暴力5 872個(gè)),測(cè)試集4 756個(gè)短視頻(暴力230個(gè),非暴力4 526個(gè))。本文在此基礎(chǔ)上對(duì)訓(xùn)練數(shù)據(jù)增加了語(yǔ)義一致性標(biāo)簽。

雖然MediaEval VSD 2015數(shù)據(jù)集由上萬(wàn)個(gè)視頻數(shù)據(jù),但是暴力視頻所占的比例不足5%。在暴力視頻和非暴力視頻樣例比例嚴(yán)重不均衡的情況下,使用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)將無(wú)法充分衡量暴力視頻分類(lèi)性能,因此Media VSD 2015官方采用了平均正確率AP(Average Precision),并提供了AP的計(jì)算工具。

3.2.2 實(shí)驗(yàn)結(jié)果

本文首先在MediaEval VSD 2015數(shù)據(jù)集上開(kāi)展了基于單模態(tài)、雙模態(tài)及多模態(tài)的對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果見(jiàn)表2。由這些實(shí)驗(yàn)數(shù)據(jù)可以看出,本文提出的基于構(gòu)建共享特征空間的前融合多特征融合方法分類(lèi)準(zhǔn)確率優(yōu)于單特征通道和雙通道融合的分類(lèi)結(jié)果。

表2 不同模態(tài)在MediaEval VSD 2015數(shù)據(jù)集結(jié)果比較Tab.2 Comparison based on different modalities on MediaEval VSD 2015 dataset

具體來(lái)說(shuō),(1)在基于單模態(tài)的暴力視頻分類(lèi)中:僅基于視覺(jué)通道特征(視頻RGB幀)的暴力視頻分類(lèi)方法的AP值最高為28.32%,而僅基于提取的音頻特征的暴力視頻分類(lèi)方法的AP值最低為14.16%。這說(shuō)明在MediaEval VSD 2015暴力視頻公開(kāi)庫(kù)中,對(duì)于暴力視頻分類(lèi)的任務(wù)來(lái)說(shuō),特征貢獻(xiàn)率最大的是視覺(jué)通道的表觀語(yǔ)義特征,其次是運(yùn)動(dòng)語(yǔ)義特征,最小貢獻(xiàn)的是音頻特征。這也是可以理解的,僅利用音頻信息有時(shí)不足以做出是否暴力的判別,比如含有爆炸聲和尖叫聲的音頻也可能是節(jié)日的歡慶,這時(shí)必須結(jié)合視覺(jué)信息或者附以情感分析才可能做出更準(zhǔn)確的判斷。(2)在基于雙模態(tài)前融合的暴力視頻分類(lèi)方法中,基于RGB幀和運(yùn)動(dòng)光流兩路特征前融合方法的AP值達(dá)到了36.93%,基于光流和音頻兩路特征前融合方法的AP值達(dá)到了31.41%,基于RGB和音頻兩路特征前融合方法的AP值達(dá)到了29.46%。任何兩路的融合結(jié)果都比單一特征分類(lèi)結(jié)果要好,即使音頻對(duì)暴力視頻分類(lèi)貢獻(xiàn)最小,但加入音頻特征仍然有助于提升暴力視頻分類(lèi)性能,這充分表明了表觀、運(yùn)動(dòng)和音頻三種特征,在暴力視頻分類(lèi)中具有彼此互補(bǔ)性。(3)在RGB、光流和音頻三種特征的多模態(tài)融合中,我們首先比較了決策層后融合和特征層前融合的實(shí)驗(yàn)結(jié)果:后融合的暴力視頻分類(lèi)方法是將RGB這路的P3D + LSTM網(wǎng)絡(luò)輸出的分類(lèi)分?jǐn)?shù)、光流這路P3D + LSTM網(wǎng)絡(luò)輸出的分類(lèi)分?jǐn)?shù)和音頻這路VGGish網(wǎng)絡(luò)輸出的分類(lèi)分?jǐn)?shù)作為特征,送入高斯核SVM分類(lèi)器學(xué)習(xí)分類(lèi)器參數(shù),該方法的AP值是38.12%;而在未加入語(yǔ)義一致性下基于特征層的前融合方法分類(lèi)準(zhǔn)確率為38.65%,這進(jìn)一步說(shuō)明了后融合方法丟失了各特征之間的關(guān)系,結(jié)果不如特征層的前融合方法;最后,加入語(yǔ)義一致性度量的前融合的暴力視頻分類(lèi)AP值提升至39.76%,這說(shuō)明了增加音視頻語(yǔ)義一致性度量約束的多任務(wù)特征前融合方法構(gòu)建了較好的特征子空間,使得融合后的特征更為有效地實(shí)現(xiàn)暴力音視頻信息互補(bǔ)性。

表3 在MediaEval VSD 2015數(shù)據(jù)集不同方法實(shí)驗(yàn)結(jié)果比較

Tab.3 Comparison based on different methods on MediaEval VSD 2015 dataset

方法AP/%Fudan-Huawei [7]29.59Esra et al. [24] 29.47MIC-TJU [5]28.48本文方法39.76

表3給出了在MediaEval VSD 2015暴力視頻公開(kāi)庫(kù)上,已有公開(kāi)方法和本文提出的方法的對(duì)比實(shí)驗(yàn)結(jié)果。從表3可以看出本文方法比其他方法AP值高了10.17%,充分說(shuō)明了本方法的有效性。本文算法性能提升的原因主要得益于選取適合的深度學(xué)習(xí)方法構(gòu)建了暴力視頻多模態(tài)特征提取網(wǎng)絡(luò)模型,更有效地提取了具有時(shí)空連續(xù)性的暴力視頻的表觀、運(yùn)動(dòng)和音頻語(yǔ)義特征,獲得了對(duì)暴力視頻的有效表征。同時(shí),本文提出了基于語(yǔ)義一致性度量和視頻分類(lèi)的多任務(wù)學(xué)習(xí)損失函數(shù),構(gòu)建了語(yǔ)義保持的多特征融合的特征共享子空間,進(jìn)一步提升了暴力視頻分類(lèi)性能。

3.2.3 可視化實(shí)驗(yàn)結(jié)果

圖3給出了MediaEval VSD 2015公開(kāi)數(shù)據(jù)集中部分視頻的序列幀。圖3(a)顯示了真實(shí)標(biāo)簽為暴力的ACCEDE02119視頻的32,64,96,128和160 frame。該視頻視覺(jué)通道上有明顯打斗動(dòng)作,音頻通道含有痛苦的叫喊聲,音視頻均具有明顯的暴力特征,算法經(jīng)過(guò)多種特征提取和融合正確預(yù)測(cè)了該視頻為暴力視頻。圖3(b)顯示了真實(shí)標(biāo)簽為暴力的MEDIAEVAL00397視頻的32,64,96,128和160 frame,該視頻僅有流血場(chǎng)面較少,音頻中有槍聲信息。若利用未考慮語(yǔ)義一致性的前融合方法,該視頻將被誤判為非暴力,而采用提出的語(yǔ)義一致性度量的前融合方法可正確分類(lèi)為暴力視頻。圖3(c)顯示了真實(shí)標(biāo)簽為非暴力的ACCEDE09670視頻的32,64,96,128和160 frame,該視頻畫(huà)面較昏暗,昏暗的燈光和流血有一定相似性,蒙面丟瓶的動(dòng)作和打架出拳的動(dòng)作有一定相似性,音頻信息比較舒緩正常具有明顯非暴力的特點(diǎn)。若利用未考慮語(yǔ)義一致性的前融合方法,該視頻將被誤判為暴力視頻,而采用提出的語(yǔ)義一致性度量的前融合方法,可正確分類(lèi)為非暴力視頻。圖3(d)顯示了真實(shí)標(biāo)簽為非暴力的ACCEDE00591視頻的32,64,96,128和160 frame,音視頻均沒(méi)有明顯的暴力特征,算法經(jīng)過(guò)多種特征提取和融合正確判別了該視頻為非暴力視頻。

圖3 MediaEval VSD 2015公開(kāi)數(shù)據(jù)集中部分視頻的序列幀F(xiàn)ig.3 Video sequences from MediaEval VSD 2015 dataset

4 結(jié) 論

針對(duì)暴力音視頻特征融合時(shí)未考慮語(yǔ)義一致性的問(wèn)題,本文提出了一種基于音視頻特征多任務(wù)學(xué)習(xí)的端到端暴力視頻分類(lèi)方法。首先提取暴力視頻在單幀圖像、運(yùn)動(dòng)信息及音頻方面的多種特征,即采用P3D+LSTM網(wǎng)絡(luò)提取具有時(shí)空特征的表觀和運(yùn)動(dòng)的語(yǔ)義特征,基于VGGish網(wǎng)絡(luò)獲得暴力視頻音頻語(yǔ)義特征,而后在融合暴力音視頻特征中,以構(gòu)建具有語(yǔ)義保持的共享特征子空間為出發(fā)點(diǎn),提出了基于語(yǔ)義一致性度量及多任務(wù)學(xué)習(xí)的特征融合方法,形成了以判斷暴力視頻分類(lèi)和音視頻語(yǔ)義一致性兩種任務(wù)共同學(xué)習(xí)的暴力視頻分類(lèi)框架。最后,提出的算法在兩個(gè)公開(kāi)暴力視頻數(shù)據(jù)集進(jìn)行了測(cè)試,均取得較好的實(shí)驗(yàn)結(jié)果,其中在MediaEval VSD 2015數(shù)據(jù)集上平均正確率達(dá)到了39.76%,優(yōu)于已有暴力視頻判別算法。實(shí)驗(yàn)結(jié)果充分證明了本文提出的暴力視頻多特征融合及分類(lèi)算法的有效性。

目前的暴力視頻分類(lèi)主要依靠從有限的標(biāo)注訓(xùn)練數(shù)據(jù)中獲得的暴力視頻特征,但是該方法學(xué)習(xí)到的特征和知識(shí)受限于訓(xùn)練數(shù)據(jù)規(guī)模和分布,下一步將考慮構(gòu)建暴力視頻的知識(shí)圖譜,將知識(shí)圖譜的外部先驗(yàn)信息嵌入到深度模型的網(wǎng)絡(luò)結(jié)構(gòu)中,探索外部知識(shí)和標(biāo)注數(shù)據(jù)信息的有效融合,進(jìn)一步提升暴力視頻分類(lèi)性能。

猜你喜歡
音視頻音頻暴力
反性別暴力
“暴力”女
3KB深圳市一禾音視頻科技有限公司
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門(mén)攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問(wèn)題探究
電子制作(2018年12期)2018-08-01 00:48:06
高速公路整合移動(dòng)音視頻系統(tǒng)應(yīng)用
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
暴力云與送子鸛
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
南京市| 泰宁县| 通榆县| 北票市| 墨竹工卡县| 九寨沟县| 定南县| 灵寿县| 西平县| 江孜县| 义乌市| 东莞市| 和林格尔县| 黄陵县| 淅川县| 常德市| 徐闻县| 治县。| 保康县| 清流县| 冀州市| 读书| 马边| 工布江达县| 夹江县| 东乌珠穆沁旗| 和顺县| 城口县| 克什克腾旗| 孝义市| 贵港市| 且末县| 出国| 清水河县| 江门市| 甘德县| 阿巴嘎旗| 阿拉善右旗| 厦门市| 徐汇区| 梅河口市|