張曉龍,王慶偉,李尚濱
1.東北林業(yè)大學(xué)體育部,黑龍江哈爾濱150040
2.哈爾濱華德學(xué)院體育教研部,黑龍江哈爾濱150025
3.哈爾濱工程大學(xué)體育部,黑龍江哈爾濱150001
社會公共安全突發(fā)事件的增加,成為當(dāng)前關(guān)注的熱點話題[1]。為了提高反恐行動、甄別危險信息等工作的效率,研究對人體危險行為進行精準而快速的識別方法是十分緊迫的。人體行為識別屬于計算機視覺領(lǐng)域里比較熱門的研究方向,伴隨著數(shù)碼相機與視頻攝像頭應(yīng)用成本的不斷降低,以及智能手機的大量使用,拍攝并獲得視頻圖像數(shù)據(jù)已不存在難度[2]。
研究視頻與圖像內(nèi)容屬于計算機視覺領(lǐng)域與多媒體領(lǐng)域的核心問題。在視頻與圖像里,人體行為屬于高精度研究視頻圖像內(nèi)容的核心[3]。因此,識別視頻與圖像里的人體行為屬于計算機視覺問題中十分有價值的課題,它的分析結(jié)果可以應(yīng)用于智能視頻監(jiān)控、人機交互等領(lǐng)域。已有的相關(guān)研究成果如下:文獻[4]提出了SPLDA降維和XGBoost分類器的行為識別方法,利用SPLDA算法在原有樣本協(xié)方差矩陣不變的情況下獲取最重要的主分量,將降維后的樣本數(shù)據(jù)集通過XGBoost分類器進行最終的行為識別。文獻[5]提出基于視頻分段的空時雙通道卷積神經(jīng)網(wǎng)絡(luò)的行為識別,先將視頻分成多個等長不重疊的分段,再將這兩種圖像分別輸入空域和時域卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,最后集成雙通道的預(yù)測特征得到視頻行為識別結(jié)果。文獻[6]提出基于復(fù)合特征及深度學(xué)習(xí)的人群行為識別方法,通過前景提取方法來提取人群靜態(tài)信息,利用人群運動的變化獲取人群動態(tài)信息,借助卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型學(xué)習(xí)這兩種不同的人群行為特征。深度學(xué)習(xí)技術(shù)的不斷優(yōu)化推動了強化學(xué)習(xí)的發(fā)展[7],因此本文提出一種基于強化學(xué)習(xí)的多模態(tài)場景人體危險行為識別方法,實現(xiàn)多模態(tài)場景人體危險行為的高精度識別。
基于強化學(xué)習(xí)的特征提取算法將Q-Learning學(xué)習(xí)用于多模態(tài)場景人體行為特征提取時,設(shè)置的多模態(tài)場景人體行為特征子集屬于空集,行為列表里包含加入與去除兩種模式,依次描述加入一種人體行為特征與去除一種人體行為特征[8]。融合Wrapper特征提取方法,將高斯貝葉斯分類器目前狀況(特征子集)的分類精度設(shè)成即時收益[9],此時可完成多模態(tài)場景下人體危險行為的特征提取。詳細方法流程如圖1所示。
圖1 多模態(tài)場景人體危險行為的特征提取Figure 1 Feature extraction of human dangerous behavior in multimodal scenes
基于強化學(xué)習(xí)的提取多模態(tài)場景人體危險行的步驟如下:
步驟1將多模態(tài)場景人體行為圖像數(shù)據(jù)進行歸一化與離散化預(yù)處理,獲取訓(xùn)練數(shù)據(jù)[6]。
步驟2計算各個人體行為特征的信息熵與信息熵均值,把人體行為特征信息熵大于信息熵均值的特征標(biāo)記在信息熵表中[10-11]。
步驟3生成各個人體行為特征Pearson相關(guān)系數(shù)和Pearson相關(guān)系數(shù)的均值[12],把大于Pearson相關(guān)系數(shù)均值的人體行為特征標(biāo)記在Pearson表里。
步驟4把人體行為特征訓(xùn)練數(shù)據(jù)與Pearson表、信息熵表導(dǎo)入Agent,再由Agent按照加入與去除特征的人體行為所存在的差異收益進行判斷[13]。
步驟5Agent訓(xùn)練學(xué)習(xí)停止后可以獲取Q表,分析Q表后根據(jù)R環(huán)形成序列(R-loops forming sequences,RLFS)算法提取人體行為特征子集[14]。
按照步驟1~5設(shè)計RLFS算法流程,設(shè)定多模態(tài)場景人體危險行為數(shù)據(jù)集
式中:Y表示人體危險行為數(shù)據(jù)集函數(shù);(Yji)M×E表示M個多模態(tài)場景人體行為和E個樣本特征,那么多模態(tài)場景人體行為樣本的種類參量為
式中:D表示多模態(tài)場景人體行為樣本數(shù)量,dj表示多模態(tài)場景下每個感官j的危險樣本。設(shè)多模態(tài)場景人體行為樣本數(shù)據(jù)集為(D1,D2,···,DM)T,那么多模態(tài)場景人體危險行為特征集可用(g1,g2,···,gE)表示,其中g(shù)∈M。
將現(xiàn)有多模態(tài)場景人體危險行為特征集輸入強化學(xué)習(xí)算法,直到輸出最佳人體危險行為特征子集結(jié)束為止,具體步驟如下:
步驟1初始化人體危險行為特征子集H=?,將備選特征集合T設(shè)為
步驟2計算各個特征的信息熵和信息熵均值,把大于信息熵均值的人體行為特征標(biāo)進記在Pearson表里。
步驟3計算各個特征間Pearson相關(guān)系數(shù)和Pearson相關(guān)系數(shù)的及其均值[15],把大于均值的人體行為特征標(biāo)進記在Pearson表里。
步驟4若H=?,任意加入一個人體行為特征W,W∈T。
步驟5在T中任意選取一個人體行為特征W,計算特征子集分類精度并設(shè)成SW。獲取目前人體危險行為特征子集H中特征間相關(guān)系數(shù)最大的特征,任意選取特征庫中的特征V,計算人體行為特征子集H/{V}的分類精度并設(shè)成SV,將SW與SV中值最大的人體危險行為設(shè)成決策,那么
式中:f為行為變換系數(shù)?;谏鲜鑫kU行為決策結(jié)果,計算Q值,刷新Q表。
步驟6分辨是否符合結(jié)束條件,如果符合便結(jié)束,在Q表中輸出Q值的最高值所對應(yīng)的人體危險行為特征子集;如果不符合那么跳轉(zhuǎn)至步驟4。經(jīng)過以上6個步驟就可以提取到多模態(tài)場景人體危險行為特征。
圍繞1.1節(jié)獲取的多模態(tài)場景危險行為特征,用模糊模式識別方法以最高隸屬準則先提取人體危險行為特征,再構(gòu)建人體危險行為識別模型[16]。
本文以圖像中人體危險行為作為識別對象,在識別危險行為前需要提取人體外形輪廓。將圖像中水平方向設(shè)為X軸,垂直方向設(shè)為Y軸,則人體外形輪廓坐標(biāo)如圖2所示。
圖2 人體外形輪廓坐標(biāo)Figure 2 Coordinate of human body contour
將人體的中心點坐標(biāo)設(shè)為(xb,yb),則外形輪廓上的某個點(xo,yo)的坐標(biāo)位置可以根據(jù)該點到中心點的距離進行計算[17],從而確定人體的基本輪廓,便于判斷人體姿態(tài)。具體計算公式為
式中:K(o)為人體形態(tài)變量。輪廓線上點(xo,yo)的曲率計算函數(shù)為
式中:ω(o)為輪廓的切向角度
根據(jù)輪廓線上點的切線角度,設(shè)定人體危險行為論域O中的模糊子集為B1、B2、B3、B4,建立一種多感官的危險行為模型庫。
設(shè)定多模態(tài)場景人體危險行為模型Bj相應(yīng)的第i個感官行為特征是Bji。設(shè)定各類感官危險行為數(shù)據(jù),計算對應(yīng)的行為特征。為了獲取Bji的分布屬性,刪除冗余特征,具體的計算公式為
式中:r表示Bji的樣本數(shù)目,xji、yji表示人體行為特征分布范圍。按照Bji的分布屬性,設(shè)定B1、B2、B3、B4的隸屬度函數(shù)屬于鐘形函數(shù)[18-20]。針對各個感官標(biāo)準危險行為模型,必須設(shè)定各個感官行為特征的權(quán)值?ji,同時符合?ji≥0且的條件。
以方差變量統(tǒng)一危險行為、差異行為的特征量并實施歸一化處理,獲取高精度差異行為[21-23]。可靠表達固定危險行為的行為特征,同時按照不同感官作用程度設(shè)置權(quán)值。
把多模態(tài)場景人體危險行為特征集合G={B1,B2,B2,B4}設(shè)成需要識別的目標(biāo),依次計算識別目標(biāo)G,對比標(biāo)準危險行為模型Bj的隸屬度,于是有
選取Bj(G)中的最高值
因為模糊子集B1、B2、B3、B4僅屬于論域O里的子集,所以為了增強識別結(jié)果的精度,按照實際人體危險行為感官值與多模態(tài)場景參考值進行檢驗,設(shè)置隸屬度閾值θ。如果Bj(G)大于閾值θ,那么多模態(tài)場景中人體存在第j類感官形式危險行為;如果Bj(G)小于閾值θ,那么多模態(tài)場景中人體不存在危險行為[15]。
本文利用強化學(xué)習(xí)算法提取多模態(tài)場景下人體危險行為,搭建行為模糊識別模型,實現(xiàn)人體危險行為的識別步驟如下:
步驟1設(shè)定多模態(tài)場景中人體危險行為數(shù)據(jù)集,并確定樣本數(shù)據(jù)的行為種類參量。
步驟2初始化行為特征子集,在集合中抽取人體行為特征。
步驟3計算特征子集的分類精度,設(shè)置最大危險行為決策,形成強化學(xué)習(xí)Q-Learning算法,提取行為特征。
步驟4設(shè)定圖像中危險行為人的輪廓目標(biāo),計算輪廓切向角度,建立多感官行為模型庫。
步驟5設(shè)定感官行為特征權(quán)值,以方差變量統(tǒng)一危險行為、差異行為的特征。
步驟6將特征集合G設(shè)成需要識別的目標(biāo),對比標(biāo)準危險行為模型的隸屬度,確定人體危險行為。
基于強化學(xué)習(xí)的多模態(tài)場景人體危險行為識別具體流程如圖3所示。
圖3 基于強化學(xué)習(xí)的多模態(tài)場景人體危險行為識別Figure 3 Human dangerous behavior recognition in multimodal scenes based on reinforcement learning
本實驗使用UCF Dataset人體行為識別數(shù)據(jù)集,其中包括握手、指向、擁抱、推、踢和拳打等人體行為,共計320段視頻、101個類別。排除40組異常樣本數(shù)據(jù)后,從數(shù)據(jù)集中選取80組數(shù)據(jù)作為訓(xùn)練樣本,數(shù)據(jù)大小為2 GB;將剩余的200組數(shù)據(jù)作為測試樣本,數(shù)據(jù)大小為4.2 GB。
實驗主機參數(shù)為Windows 8(64位)Vagrant 1.8.5,Intel?CoreTMi7 CPU M460@3.20 GHz處理器,8 GB內(nèi)存,512 GB硬盤,在MATLAB R2017b搭建的環(huán)境下進行仿真實驗。將本文研究的基于強化學(xué)習(xí)的多模態(tài)場景人體危險行為識別方法作為實驗組,將基于SPLDA降維和XGBoost分類器的行為識別方法[4]、基于視頻分段的空時雙通道卷積神經(jīng)網(wǎng)絡(luò)的行為識別方法[5]、基于復(fù)合特征及深度學(xué)習(xí)的人群行為識別算法[6]作為對照組,對比4種方法識別人體危險行為的有效性。
選擇危險行為判定依據(jù)、危險行為識別準確率、危險行為識別延遲時間作為實驗指標(biāo)。
2.2.1 危險行為判定依據(jù)
抽取數(shù)據(jù)集中兩個不同場景的握手動作和推搡動作的4幅圖像,分別用4種方法進行識別判斷。以不受環(huán)境影響且能準確判斷區(qū)分兩個動作作為準確判定的依據(jù)。
2.2.2 危險行為識別準確率
在200組測試樣本數(shù)據(jù)中,共有危險行為數(shù)據(jù)96組,安全行為數(shù)據(jù)104組。識別準確率越高,說明識別效果越好。危險行為識別準確率P的計算公式為
式中:W為識別到的危險行為數(shù)量,Q為識別樣本總數(shù)。
2.2.3 危險行為識別延遲時間
利用本文方法、文獻[4-6]方法分別識別60組數(shù)據(jù),在MATLAB平臺計算每種方法的識別延遲時間。識別延遲時間越短,說明識別效率越高。
根據(jù)3個實驗指標(biāo)來驗證本文方法。
2.3.1 危險行為判定依據(jù)比較
在上述實驗環(huán)境下,對不同場景下安全行為握手與危險行為推搡進行識別判斷,實驗結(jié)果如圖4所示。
圖4 不同方法的危險行為判定結(jié)果Figure 4 Dangerous behavior judgment results by different methods
由圖4中的識別結(jié)果可知:文獻[4]方法將場景2中的推搡行為錯誤地識別為握手;文獻[5]方法將場景1中的推搡行為錯誤地識別為擁抱;文獻[6]方法將場景1中的握手錯誤地識別為推搡,將場景2最后的握手推搡錯誤地識別為擁抱;本文方法則不受場景變換的影響,正確地識別了4個動作。
2.3.2 危險行為識別準確率比較
為進一步驗證本文方法對危險行為識別的有效性,對比對照組方法的識別準確率,實驗結(jié)果如圖5所示。
由圖5中不同方法的危險行為識別準確率可知:在識別過程中,本文方法的識別準確率在70%以上,最高識別率可達97%;而對照組3種方法的最高識別率則不超過80%。因為本文引用了強化學(xué)習(xí)方法,所以提高了危險行為的準確率。
圖5 不同方法的危險行為識別準確率Figure 5 Recognition accuracy for dangerous behaviors by different methods
2.3.3 危險行為識別延遲時間比較
對危險行為的識別還需考慮識別延遲的問題,因為快速準確地識別危險行為能在一定程度上避免一些事故的發(fā)生。在上述實驗環(huán)境下,得出了識別延遲實驗結(jié)果如圖6所示。
圖6 不同方法的識別延遲時間Figure 6 Identif ication delay time of different methods
由上述實驗結(jié)果可知:4種方法的識別延遲時間均隨著數(shù)據(jù)量的增加而增長,對照組3種方法的識別延遲時間波動幅度較大,穩(wěn)定性較差;而本文方法的延遲時間保持在相對穩(wěn)定的狀態(tài),識別延遲時間介于130~260 ms之間。
人們在平時生活里常常存在有意識、無意識的大量手勢等行為,在溝通過程中也會常常通過手勢等特征表達自己的思想。此外,在特殊的環(huán)境下也可以通過人體行為判斷是否存在危險。為此,本文提出一種基于強化學(xué)習(xí)的多模態(tài)人體危險行為識別方法,并與3種行為識別方法進行實驗對比,設(shè)定危險行為判定依據(jù)、危險行為識別準確率、危險行為識別延遲時間這3個實驗指標(biāo)。結(jié)果表明:本文方法對多模態(tài)人體危險行為的識別性能較好,準確率較高,且識別延遲時間低于300 ms。然而,本文只考慮了多模態(tài)場景中人體目標(biāo)較少的情況,在后續(xù)研究中將對此進行改進,進一步擴大識別目標(biāo)范圍,并解決人群中存在的遮擋問題。