黃 超,易 平,2
(1.上海交通大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,上海 200240;2.上海市信息安全綜合管理技術(shù)研究重點實驗室,上海 200240)
隨著網(wǎng)絡(luò)的普及和音視頻技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上的音視頻數(shù)量呈現(xiàn)爆炸性增長。在海量的音視頻中,混雜著一定數(shù)量的不健康音視頻,如含暴力﹑恐怖內(nèi)容的音視頻,對社會和諧﹑網(wǎng)絡(luò)環(huán)境的健康有著不容忽視的損害。
由于網(wǎng)絡(luò)音視頻的數(shù)目極為龐大且每天都會產(chǎn)生大量新數(shù)據(jù),若僅依靠人工審核的方式進(jìn)行檢測,效率和時效上是無法應(yīng)對的。因此,需要建立面向暴恐音視頻的內(nèi)容檢測系統(tǒng),不僅能對待檢測音視頻給出暴恐/非暴恐的分類標(biāo)簽,還能給出暴恐程度的評估;既要保持高準(zhǔn)確率,也要
具有高時效性[1]。
當(dāng)前,對于暴恐音視頻的檢測方法,主要可以分為聲音﹑圖像和時空三方面特征的方法。
聲音特征。對于一段音視頻來說,其音頻處理所花的時間通常要比其視頻處理所花時間的1/10還要少。因此,聲音特征是音視頻檢測中時效性最高也最廣泛應(yīng)用的。Cheng[2]等人提出了一種基于分層模型的音頻片段檢測方法,最典型的是槍聲和飆車聲,以判定相應(yīng)的場景。Smeaton[3]等人也通過選擇音頻特征來分類動作電影中的暴力鏡頭。典型的聲音特征包括爆炸聲﹑槍擊聲﹑尖叫聲等。
圖像特征對于暴恐音視頻來說,有典型的火焰﹑血液﹑爆炸等,這些圖像特征取自每一個幀。Lam[4]采用以拍攝為基礎(chǔ)的方法,同時考慮一些全局特征(如顏色矩﹑邊緣方向直方圖和局部二進(jìn)制模式等)。Nam等人[5]則提出了利用火焰﹑血液等圖像特征來識別暴恐視頻。然而,研究如何降低誤檢的概率,不能僅僅因為含有火焰的鏡頭多就認(rèn)為是暴恐視頻。
時空特征對于暴恐音視頻來說,往往有人的動作。通過動作識別典型的暴力動作如揮拳﹑踢腿等,可以作為檢測的依據(jù)。Datta等人[6]提出了一種基于加速運動矢量的暴力視頻檢測,主要用于檢測打斗﹑拳擊等場景。Ali等人[7]利用光流法提取人的運動信息,但計算量大,魯棒性不足。Nievas等人[8]評價了利用現(xiàn)有的動作識別的辦法去檢測視頻中的打斗畫面的效率和性能,其中應(yīng)用了STIP和Motion SIFT去檢測。
本文的面向暴恐音視頻的內(nèi)容檢測系統(tǒng),選擇音頻特征MFCC,采用詞袋模型建模,利用支持向量機分類。雖然只采用了聽覺的MFCC特征做檢測,但本文致力于在單個特征的利用上得到最佳的檢測效果,以供后續(xù)研究中融合其他的聽覺或視覺特征進(jìn)行多模態(tài)檢測。
MFCC(全稱“Mel Frequency Cepstrum Coefficient”)即為Mel頻率倒譜系數(shù)(梅爾頻率倒譜系數(shù))。Mel標(biāo)度是一種非線性的頻率單位,表征了人體耳朵對頻率的感知。因為人耳就像濾波器,只對某些特定的頻率分量進(jìn)行感知。人的耳朵對于真實頻率的感知是非線性的,在低頻率段可以近似為線性,而在高頻率的1000 Hz以上時則近似為對數(shù)增長關(guān)系。因此,Mel頻域的濾波器可以用來模擬人體耳朵的臨界頻率和非線性特征。MFCC現(xiàn)在已經(jīng)成為語音識別領(lǐng)域效果應(yīng)用最好的特征[9],主要應(yīng)用于語音識別和對說話者的識別上。
詞袋模型,“Bag of Words”[10],即用詞匯(可以類比于“基底”的概念)來表征不同詞匯的集合模型。這里的詞匯可以是文字﹑圖像或者音頻等。在分析文字時,僅僅考慮每個單詞詞匯出現(xiàn)的頻次,而不考慮他們的出現(xiàn)順序和相互之間的聯(lián)系(即組合方式),這樣雖然帶來一定程度上的信息損失,但提高了分析文字的效率,可以高效地構(gòu)建模型并進(jìn)行模型應(yīng)用,且關(guān)鍵詞出現(xiàn)的頻次在某些應(yīng)用場景下更具實用性。詞袋模型在文字建模和分析上取得成功后,繼而被用于圖像識別領(lǐng)域。文字中有一個個單詞可以作為詞匯,圖像中也有類似的“基底”,但圖像的“基底”不是小區(qū)域的圖像特征,而是局部區(qū)域匹配特征,如SIFT(Scale-invariant Feature Transform,尺度不變特征轉(zhuǎn)換)[11]在圖像識別領(lǐng)域的應(yīng)用愈加廣泛。
音頻詞袋模型和圖像詞袋模型類似,它們的詞匯不像文字詞匯可以很容易地完全匹配,而是采用局部特征,需要應(yīng)用聚類算法對特征相似距離進(jìn)行計算和分類。音頻中常用的有MPEG-7(多媒體內(nèi)容描述接口)中的一些特征如音頻簽名﹑MFCC特征等。
支持向量機(Support Vector Machine)是Vapnik等人[12]于1995年首次提出的基于統(tǒng)計學(xué)理論的新型機器學(xué)習(xí)算法,是一種有監(jiān)督學(xué)習(xí)模型。它的學(xué)習(xí)機制是全新的,有著堅實的理論基礎(chǔ)和統(tǒng)計學(xué)算法,能夠從訓(xùn)練數(shù)據(jù)中尋找并發(fā)現(xiàn)內(nèi)在的規(guī)律,通過“學(xué)習(xí)”后能夠?qū)Υ龣z測樣本進(jìn)行預(yù)測。支持向量機致力于得到的最優(yōu)分離超平面,不僅要能夠?qū)⒋龣z測樣本無差錯地分為兩類,還要使得這兩類樣本之間的距離最大化。
本文設(shè)計的面向暴恐音視頻檢測的內(nèi)容過濾系統(tǒng),整體框架如圖1所示。
檢測模型基于音頻詞袋模型,采用語音識別中最常用到的MFCC特征。對MFCC特征聚類可以得到詞袋模型的詞匯,再通過對詞頻的計算分別表征訓(xùn)練集和測試集的詞袋模型表示。對于訓(xùn)練集的詞袋模型表示,用支持向量機SVM去訓(xùn)練。得到訓(xùn)練模型后,用此訓(xùn)練模型對測試集進(jìn)行分類測試。
MFCC是當(dāng)前語音識別領(lǐng)域最常用的檢測特征。在本文實驗數(shù)據(jù)集中,由于電影鏡頭中暴恐和非暴恐鏡頭的音頻能量特征差異較大,因此本文考慮MFCC中能量很大的C0,即取13維的MFCC作為識別特征??紤]到暴恐鏡頭的音頻識別檢測效率,提取的MFCC特征為較低維數(shù),舍棄了其一階導(dǎo)數(shù)(總共26維)和二階導(dǎo)數(shù)(總共39維)。因此,對每一幀的MFCC向量聚類得到的音頻詞袋的詞匯也是13維,聚類﹑匹配效率高。
采用k-means算法對數(shù)據(jù)集的全部幀的MFCC特征進(jìn)行聚類,聚類得到的k個聚類的中心——聚類質(zhì)心作為詞袋模型的“詞匯”。
在聚類過程中,相似度高的向量容易被聚類到一個聚類中。聚類完成后,同一個聚類中的各幀的MFCC特征是相對接近的,很可能同屬于一類聲音。將聚類的質(zhì)心作為詞匯,通過計算詞頻去表征不同的鏡頭特征,即為詞袋模型的核心。
對于每一幀的MFCC向量來說,它們之間的相似程度用歐幾里德距離來衡量最合適。歐幾里德距離越小,代表相似程度越大。例如,對于13維的
待檢測短鏡頭的幀數(shù)長度變化很大,從最短的3幀到最多的4 846幀。因此,本文實驗中聚類了不同個數(shù)(參數(shù)設(shè)為k)的質(zhì)心,分別為8個﹑16個﹑32個﹑64個﹑128個﹑256個﹑512個﹑1 024個,然后再通過實驗來選取最佳的聚類個數(shù)。聚類得到k個13維的MFCC向量,則為音頻詞袋的k個詞匯。
訓(xùn)練時,要用音頻詞袋模型的詞匯去表征一段單位鏡頭的音頻特征,這里的特征定義為每個音頻詞匯出現(xiàn)的詞頻。這里定義的單位鏡頭不是數(shù)據(jù)集定義的短鏡頭或長鏡頭,而是擬定的100幀長度(時間長度4 s)的單位鏡頭。三部用于分類測試的電影的短鏡頭共有6 564個,總的幀數(shù)為606 302幀,平均每一個短鏡頭有92幀,因此取100幀作為一個單位鏡頭是合理的。
每一個單位鏡頭中,每一幀的MFCC向量去和聚類得到的k個音頻詞匯的MFCC向量求歐幾里德距離,認(rèn)為每一幀的MFCC向量可以用離它最近(歐幾里德距離)的那個MFCC詞匯去表征,即該詞匯的出現(xiàn)頻次加1。這樣每100幀的單位鏡頭都能表示為一個k維的詞匯頻次向量,其k維的頻次總和為100。
同理,需要先對分類測試集做同樣的詞袋模型詞匯表示后,才能對其進(jìn)行支持向量機的分類。不過,分類測試的對象不是100幀的單位鏡頭,而是給定好的幀數(shù)長短不一的短鏡頭。這里需要用到“歸一化”的方法。假設(shè)一個待檢測短鏡頭的幀數(shù)為x幀,對每一幀的MFCC特征求得最近的音頻詞匯后,得到k維詞匯頻次向量,其k維的頻次總和為x,歸一化將k維向量每一維的元素值除以x再乘以100,則歸一化后k維的頻次總和為100,才可以使用先前通過支持向量機訓(xùn)練得到的模型進(jìn)行分類。
本文實驗采用的是臺灣大學(xué)林智仁等人開發(fā)的LIBSVM系統(tǒng)的MATLAB版本[13]。支持向量機有2個重要參數(shù)——損失函數(shù)和gamma參數(shù),對分類結(jié)果影響較大。為了便于求出最佳的損失函數(shù)和gamma參數(shù),這里使用一種網(wǎng)格搜索(grid search)方法。與LIBSVM自帶的grid.py思想相同,即遍歷每一組損失函數(shù)和gamma參數(shù),用交叉驗證的辦法求出交叉驗證準(zhǔn)確度最高的組合。由于過高的損失函數(shù)有可能造成過擬合而影響分類的準(zhǔn)確性,所以相同準(zhǔn)確度下將損失函數(shù)最小的那一組認(rèn)為是最佳的參數(shù)設(shè)定。
本文實驗中,將支持向量機svmtrain中參數(shù)b設(shè)置為1,這樣能夠輸出支持向量機分類的概率值結(jié)果,是一個二元值。顯然,屬于暴恐的概率加上屬于非暴恐的概率相加為1;且哪一個概率值越大,則該條向量便歸屬為哪一類。
本文實驗基于多媒體benchmark評估組織MediaEval中的一個競賽項目——“暴力場景檢測任務(wù)VSD(Violent Scenes Detection)”[14],致力于研究對暴力音視頻片段的自動檢測。它的官方數(shù)據(jù)集由Technicolor提供,有14部電影作為訓(xùn)練集,3部作為測試集。每一部電影的時長都在2 h左右。數(shù)據(jù)集提供了40 ms/幀(即25幀/s)的音視頻特征,則14部電影共有2 411 714幀。
數(shù)據(jù)集的每部電影都提供了官方的短鏡頭分割結(jié)果,由Technicolor的鏡頭分割軟件產(chǎn)生,下文中的“短鏡頭”都指這個定義。
數(shù)據(jù)集由官方劃分為諸多長鏡頭,有著唯一的暴恐或非暴恐標(biāo)注;下文中的“長鏡頭”都指這個定義。每一個暴恐/非暴恐的長鏡頭中都包含了若干個短鏡頭。
當(dāng)短鏡頭落在帶有暴恐標(biāo)注的長鏡頭中時,則認(rèn)為該短鏡頭為暴恐短鏡頭;反之,亦然。3部測試集的暴恐短鏡頭比例分別為1.771%﹑12.773%和10.481%。
3.1.1 無用鏡頭的過濾
對于電影來說,需要過濾掉一些非常規(guī)的鏡頭,以提升后續(xù)詞袋模型構(gòu)建的準(zhǔn)確度。因為電影的片頭和片尾有一些非常規(guī)鏡頭(非自然生活)如片頭的廠家logo和片尾的字幕??紤]到非常規(guī)鏡頭不可能為暴恐鏡頭,因此每部電影從第一段暴恐長鏡頭起始幀開始到最后一段暴恐長鏡頭結(jié)尾幀結(jié)束。過濾之前14部電影總幀數(shù)2 411 714幀,過濾后為2 029 984幀。待聚類的樣本無用干擾項被清除,降低訓(xùn)練復(fù)雜度,且暴恐鏡頭沒有被過濾,最終的1 920 507幀的非暴恐鏡頭仍然大于109 477幀的暴恐鏡頭??梢姡@樣的過濾對最后分類精確度提升很有意義。
3.1.2 欠采樣的樣本平衡
14部訓(xùn)練集電影中的暴恐長鏡頭數(shù)目為962個,共109 477幀。在分類測試集中的短鏡頭共有6 564個,總幀數(shù)為606 302幀,每一個短鏡頭平均幀數(shù)為92幀。因此,在訓(xùn)練集中取100幀為單位長度鏡頭最合適。下文實驗也驗證了50幀和150幀的結(jié)果明顯不如100幀好。
從每個暴恐長鏡頭中取100幀為單位長度的鏡頭,共取出662個單位長度鏡頭(部分長鏡頭的尾部不滿100幀的被舍棄)。訓(xùn)練電影中的非暴恐鏡頭總幀數(shù)約為暴恐鏡頭總幀數(shù)的17倍,因此提取的100幀的單位鏡頭的數(shù)目也相差了17倍左右。正負(fù)樣本的不平衡問題,導(dǎo)致支持向量機分類得到的超平面靠近數(shù)量多的負(fù)樣本。由這樣的模型進(jìn)行分類,結(jié)果是傾向于把全部結(jié)果都分類到負(fù)樣本。
為了解決正負(fù)樣本不平衡問題,本文實驗采用文獻(xiàn)[15]提出的欠采樣(Undersampling)方法。欠采樣和增采樣可以用來解決正負(fù)樣本不平衡的問題,相比之下欠采樣在訓(xùn)練過程中的復(fù)雜度更低,訓(xùn)練效率也更高,更適用于樣本數(shù)目較多的情況。本文采用的欠采樣方法是均勻間隔取樣的方式,使得取得的負(fù)樣本(非暴恐)數(shù)目和正樣本(暴恐)數(shù)目一樣。這是考慮到電影劇情較為連貫,相同鏡頭里相鄰的幾個100幀之間的MFCC特征差距較小。因此,均勻間隔取樣方法不僅可以平衡正負(fù)樣本數(shù)目,而且減少了相似累贅的訓(xùn)練樣本,縮小了訓(xùn)練復(fù)雜度。
3.2.1 客觀評估方法
VSD規(guī)定要使用同一訓(xùn)練集,以提取任意多個模態(tài)特征,經(jīng)過算法模型給出待檢測樣本的暴恐/非暴恐標(biāo)簽,并給出相應(yīng)的概率,然后使用VSD官方認(rèn)定的平均準(zhǔn)確率Average Precision@100評估分類測試的結(jié)果。Average Precision@n是按檢測概率從大到小,統(tǒng)計前n個被檢測到的樣本,計算其統(tǒng)計準(zhǔn)確率,計算公式如下:
當(dāng)@n不指定時,則默認(rèn)為對全部被檢測到的樣本進(jìn)行統(tǒng)計,計算統(tǒng)計準(zhǔn)確率。
在本文實驗得到的支持向量機分類結(jié)果中,首先對每一個結(jié)果屬于暴恐類別的概率做排序,再取排序前n=100個結(jié)果做統(tǒng)計。
3.2.2 初步驗證實驗結(jié)果
本文構(gòu)建的詞袋模型維數(shù)為8維﹑16維﹑32維﹑64維﹑128維﹑256維﹑512維﹑1 024維共8種維數(shù)。本文選定的單位長度鏡頭為100幀。為了對比,同時選取50幀和150幀做實驗。圖2是分別取3種單位長度鏡頭下的檢查結(jié)果。
圖2 初步實驗結(jié)果AP@100
由圖2的折線圖可以看到如下規(guī)律:
(1)在8維﹑16維﹑32維時,因為維數(shù)還過小,AP@100都很低;
(2)100幀和50幀的單位長度鏡頭下,在512維時的AP@100最高,150幀的512維結(jié)果也不錯,在后續(xù)改進(jìn)實驗中也是512維的結(jié)果最好;
(3)3種詞袋模型最高的AP@100都有超過0.2;(4)100幀的結(jié)果明顯優(yōu)于50幀和150幀。當(dāng)前,最佳的結(jié)果在維數(shù)為100幀單位長度鏡頭﹑512維詞袋模型的參數(shù)情況下,為AP@100=0.532 792。
3.2.3 實驗結(jié)果對比
本文應(yīng)用的數(shù)據(jù)集和采用的運行水平﹑評估指標(biāo)等都按照VSD官方指定。將初步實驗的結(jié)果按官方評估指標(biāo)即最佳AP@100放入其他隊伍中進(jìn)行對比[16],畫出柱狀圖將更為直觀,如圖3所示。
圖3 AP@100結(jié)果對比
由對比實驗結(jié)果可以看到,本文實驗中最佳參數(shù)下的AP@100屬于較高水平,排名第四。AP@100的和通常意義的準(zhǔn)確率不同,是統(tǒng)計意義上的準(zhǔn)確率,很難達(dá)到80%的水平,另一個原因是測試電影中的暴恐鏡頭比例很低,在1.7%~12.7%。
其他隊伍都選取了多模態(tài)或者視頻特征,訓(xùn)練復(fù)雜度高,而本實驗僅僅選取了音頻的一種特征就達(dá)到了理想結(jié)果,因此本方法具有較好的應(yīng)用前景和可拓展性。
3.3.1 詞頻加權(quán)參數(shù)的改進(jìn)算法
通常情況下,對于詞袋模型的表示方法,是對每一幀的MFCC向量計算和它距離最近的詞匯向量,將這個詞匯的詞頻加1。當(dāng)詞袋模型的維數(shù)即詞匯個數(shù)較多時,如k維有512個詞匯,每一個MFCC向量可能和周圍的幾個詞匯向量距離都相近,如果僅僅將距離最近的詞匯詞頻加1,那么對于僅比其最短距離多了微小距離的詞匯來說是“不公平”的,也會損失部分有效信息。因此,在改進(jìn)的詞頻加權(quán)中,對于距離最近的詞匯的詞頻加1,對于距離第二近的詞匯的詞頻加1/2,對于距離第三近的詞匯的詞頻加1/4。以此類推,直到距離第c近的詞匯的詞頻加上1/2c-1。
對于詞袋模型維數(shù)k分別為8維﹑16維﹑32維﹑64維﹑128維﹑256維﹑512維﹑1 024維共8種維數(shù),每一種模型的實驗中都設(shè)置了6種詞頻加權(quán)方式進(jìn)行檢測,都是為距離最近的c個詞匯進(jìn)行詞頻加權(quán)。下文中的“詞頻加權(quán)參數(shù)c”都指的是這個定義。6種方式的區(qū)別在于c的取值,分別為1﹑2﹑3﹑5﹑k/2﹑k/4。在取k/2和k/4時,由于過大的c對應(yīng)的加權(quán)數(shù)值1/2c-1過于小,為減少沒有意義的計算加權(quán)帶來的系統(tǒng)檢測復(fù)雜度的大幅提升,本文規(guī)定當(dāng)k/2和k/4的數(shù)值超過8時,也將該值取為8。
本文實驗選取8種詞袋模型的維數(shù),每種維數(shù)有6種詞頻加權(quán)方式。進(jìn)行組合實驗,對最高結(jié)果中對應(yīng)的詞頻加權(quán)參數(shù)c的出現(xiàn)比例總計做出餅狀圖,如圖4所示。
從統(tǒng)計結(jié)果來看,最高結(jié)果對應(yīng)的詞頻加權(quán)參數(shù)c中,c=1只占據(jù)了13.33%,c>1的情況占據(jù)了86.67%。因此,可以證明詞頻加權(quán)考慮最近的幾個詞匯的加權(quán)方法在普遍情況下是可以使詞袋模型的表示更為準(zhǔn)確,從而使得后續(xù)的支持向量機的訓(xùn)練和分類更加準(zhǔn)確。
圖4 最高結(jié)果中對應(yīng)的詞頻加權(quán)參數(shù)c比例
3.3.2 基于距離倍數(shù)的詞頻加權(quán)改進(jìn)算法
在上文的詞頻加權(quán)中,統(tǒng)計了最近c個詞匯進(jìn)行加權(quán),是考慮到可能有幾個詞匯都和某MFCC向量的距離接近。進(jìn)一步來看,在計算復(fù)雜度允許的情況下,距離也可以直接作為標(biāo)尺。因此,在改進(jìn)的詞頻加權(quán)方式中,考慮了距離的數(shù)值。首先選取最近的距離對該詞匯的詞頻加1,然后對后續(xù)的距離進(jìn)行區(qū)間分段。對于落于最近距離的1~2倍中的詞匯,詞匯詞頻加1/2;落于2~3倍中的詞匯,詞匯詞頻加1/4;以此類推,直到9~10倍距離中的詞匯,詞匯詞頻加1/29。這里需要進(jìn)行歸一化,使得詞匯頻次總和仍為之前設(shè)定的100。
改進(jìn)后的詞頻加權(quán)方式為對最短距離的1~10倍的詞匯進(jìn)行詞頻加權(quán),與詞頻加權(quán)最近c個詞匯中的c=1﹑c=2﹑c=3﹑c=5做實驗對比,結(jié)果如圖5所示。
圖5 優(yōu)化算法AP@100對比
從圖5的折線圖可以看出,優(yōu)化后算法的AP@100基本上包絡(luò)著原有不同參數(shù)c的AP@100結(jié)果(即在它們的上面),即結(jié)果更優(yōu),具有普遍適用性。最重要的是,改進(jìn)算法使得最優(yōu)結(jié)果AP@100從原先的0.532 792提升到了0.658 726,略高于VSD中最高的0.650 5。
網(wǎng)絡(luò)上海量的音視頻中存在著數(shù)量不容忽視的暴恐音視頻,在人工檢測無法滿足現(xiàn)實要求的情況下,本文研究了面向暴恐音視頻的內(nèi)容檢測系統(tǒng),既保持高準(zhǔn)確率,也致力于提升檢測的時效性。本文選擇的檢測特征是音頻特征MFCC,采用詞袋模型建模,利用支持向量機分類。雖然只采用了音頻的MFCC特征做檢測,但本文致力于在MFCC單個特征的利用上做到精益求精,得到最佳的檢測效果,以供后續(xù)研究融合其他聽覺或視覺特征進(jìn)行多模態(tài)檢測。因此,本文優(yōu)化了多個全局參數(shù),選取了13維作為MFCC特征的維數(shù),過濾了無用鏡頭,選取100幀長度作為單位鏡頭并驗證了合理性。此外,采用欠采樣的方法來平衡正負(fù)樣本的數(shù)目差距,減少了樣本冗余和訓(xùn)練復(fù)雜度。最后,實現(xiàn)的檢測系統(tǒng)取得了理想結(jié)果,不僅能給出鏡頭為暴恐/非暴恐的檢測結(jié)果,還能給出暴恐的程度評估,具有高實用性。
本文的創(chuàng)新之處在于提出了詞頻加權(quán)參數(shù)c的改進(jìn)算法,又提出了基于距離倍數(shù)的詞頻加權(quán)改進(jìn)算法,改進(jìn)的詞頻加權(quán)能使詞袋模型的表示更精確,提高了檢測準(zhǔn)確率。
[1] 吳震.聯(lián)網(wǎng)報警與視頻監(jiān)控系統(tǒng)平臺實現(xiàn)技術(shù)[J].通信技術(shù),2010,43(05):195-197.
WU Zhen.Implementation of Social Networking Alarm and Video Surveillance Platform[J].Communication Technology,2010,43(05):195-197.
[2] Cheng W H,Chu W T,Wu J L.Semantic Context Detection based on Hierarchical Audio Models[C].ACM Sigmm International Workshop on Multimedia Information Retrieval ACM,2003:109-115.
[3] Smeaton A F,Lehane B,O'Connor N E,et al.Automatically Selecting Shots for Action Movie Trailers[C].ACM Sigmm International Workshop on Multimedia Information Retrieval,2006:231-238.
[4] Lam V,Le D D,Phan S,et al.NII-UIT at MediaEval 2014 Violent Scenes Detection Affect Task[C].Media Eval,2014.
[5] Nam J,Alghoniemy M,Tewfik A H.Audio-Visual Content-Based Violent Scene Characterization[J].IEEE International Conference on Image Processing,1998(01):353-357.
[6] Datta A,Shah M,da Vitoria Lobo N.Person-onperson Violence Detection in Video Data[C].Pattern Recognition,2002:433-438.
[7] Ali S,Shah M.Human Action Recognition in Videos Using Kinematic Features and Multiple Instance Learning[J].IEEE Transactions on Software Engineering,2010,32(02):288-303.
[8] Nievas E B,Suarez O D,Garc′ ?a G B,et al.Violence Detection in Video Using Computer Vision Techniques[C].Computer Analysis of Images and Patterns,2011:332-339.
[9] Ahmad J,Fiaz M,Kwon S,et al.Gender Identification Using MFCC for Telephone Applications-A Comparative Study[J].arXiv preprint arXiv:1601.01577,2016:351-355.
[10] Peng X,Wang L,Wang X,et al.Bag of Visual Words and Fusion Methods for Action Recognition:Comprehensive Study and Good Practice[J].Computer Vision & Image Understanding,2016,150(C):109-125.
[11] Yang Q,Peng J Y.Chinese Sign Language Recognition Research Using SIFT-BoW and Depth Image Information[J].Computer Science,2014(02):302-307.
[12] Vapnik V N.The Nature of Statistical Learning Theory[J].Neural Networks IEEE Transactions on,1995,10(05):988-999.
[13] Hsu C W,Chang C C,Lin C J.A Practical Guide to Support Vector Classication[D].Taibei:National Taiwan University,2010.
[14] Sj?berg M,Ionescu B,Jiang Y G,et al.The Media Eval 2014 Affect Task:Violent Scenes Detection[C].Media Eval.2014.
[15] Pozzolo A D,Caelen O,Bontempi G.When is Under sampling Effective in Unbalanced Classification Tasks?[C].Joint European Conference on Machine Learning and Knowledge Discovery in Databases,2015:200-215.
[16] Demarty C H,Penet C,Soleymani M,et al.VSD,A Public Dataset for the Detection of Violent Scenes in Movies:D esign,Annotation,Analysis and Evaluation[J].Multimedia Tools & Applications,2015,74(17):7379-7404.