田曉歐,姬曉飛,王 昱
(沈陽航空航天大學 自動化學院,沈陽 110136)
隨著計算機科學技術(shù)的發(fā)展,基于視頻的人體交互行為識別已經(jīng)成為研究熱點[1]。RGB視頻包含人體的紋理輪廓信息,關(guān)節(jié)點數(shù)據(jù)包含人體的三維骨架位置,二者既相互關(guān)聯(lián)又存在互補特性,這引起了智能監(jiān)控系統(tǒng)等領(lǐng)域研究者的關(guān)注,并將其引入雙人交互行為識別的研究中[2]。
基于RGB視頻的雙人交互行為識別多以提取興趣點或局部描述符的方法開展[3-4],也有一些研究者引入長短期記憶網(wǎng)絡(luò)對運動信息進行時序建模[5]?;赗GB視頻的雙人交互行為識別可以表達出雙人交互的外觀信息和運動信息,但是由于遮擋等問題,識別算法對于視角的適應(yīng)性較差。Kinect設(shè)備的推廣使基于關(guān)節(jié)點數(shù)據(jù)的雙人交互行為識別算法大量涌現(xiàn)[6]。關(guān)節(jié)點數(shù)據(jù)可以記錄每個人關(guān)節(jié)的運動信息和雙人關(guān)節(jié)之間的交互信息[7-9]。針對基于關(guān)節(jié)點數(shù)據(jù)的雙人交互行為識別的研究,有學者對關(guān)節(jié)點的時空信息進行圖像編碼化后再進行學習識別[10-11];也有學者利用長短記憶網(wǎng)絡(luò)對關(guān)節(jié)點數(shù)據(jù)的空間特征進行學習[12-13]。基于關(guān)節(jié)點數(shù)據(jù)的雙人交互行為識別,能夠較好地處理遮擋問題和交互問題,但是由于關(guān)節(jié)點數(shù)據(jù)無法表示外觀信息,也會導致部分運動信息的缺失?;赗GB和關(guān)節(jié)點數(shù)據(jù)融合的雙人交互行為識別算法大多針對不同數(shù)據(jù)源分別提取特征建立模型,再進行決策級融合給出識別結(jié)果[14-16]??偟膩碚f,目前基于關(guān)節(jié)點數(shù)據(jù)和RGB視頻融合的研究方法為提高復雜環(huán)境下的雙人交互行為識別的準確性提供了可行的解決方案[17-18],但是兩種數(shù)據(jù)源的異構(gòu)形式導致其融合框架十分單一,決策級的融合方式往往會丟失大量有用信息。
根據(jù)以上分析,本文提出一種新的基于關(guān)節(jié)點數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識別框架。該框架利用RGB視頻得到RGB運動特征,根據(jù)關(guān)節(jié)點數(shù)據(jù)得到關(guān)節(jié)點關(guān)注特征,將關(guān)節(jié)點關(guān)注特征與RGB運動特征給合,得到關(guān)節(jié)點關(guān)注運動特征圖。該框架設(shè)計的關(guān)節(jié)點關(guān)注運動特征圖充分利用RGB視頻的外觀輪廓信息和全局運動特征的表征能力,并利用關(guān)節(jié)點數(shù)據(jù)的三維位置信息求得局部運動屬性,以補充RGB視頻不易獲得的深度維度信息問題。兩種信息源數(shù)據(jù)實現(xiàn)了特征級的有效融合,提高了復雜環(huán)境下雙人交互行為識別的準確性。
基于關(guān)節(jié)點數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識別算法框架如圖1所示。
圖1 算法識別框架
本文利用RGB視頻和關(guān)節(jié)點數(shù)據(jù)兩種數(shù)據(jù)源的融合實現(xiàn)雙人交互行為識別,該數(shù)據(jù)源由微軟Kinect v2傳感器采集得到,其與普通相機相比的獨特之處在于其使用TOF(Time of Flying)技術(shù)獲得景深數(shù)據(jù)從而生成深度圖像,深度圖像的每個像素數(shù)值都代表Kinect 距離此像素實際對應(yīng)區(qū)域與相機的深度距離,因此 Kinect 能夠直接輸出三維空間信息,即關(guān)節(jié)點數(shù)據(jù)。本文算法具體實施步驟如下:首先通過RGB視頻獲取RGB運動特征,利用幀差法獲得人體外觀剪影,得到RGB運動特征圖;然后通過關(guān)節(jié)點數(shù)據(jù)計算關(guān)節(jié)點關(guān)注特征,根據(jù)關(guān)節(jié)點位置信息計算關(guān)節(jié)點運動速度方差,較大方差所對應(yīng)的關(guān)節(jié)定義為主要運動關(guān)節(jié);再對二者得到的特征融合,將主要運動關(guān)節(jié)在RGB運動特征圖上以顏色矩形框的形式關(guān)注,得到關(guān)節(jié)點關(guān)注運動特征圖,再根據(jù)時序關(guān)系拼接為基于RGB視頻的關(guān)節(jié)點關(guān)注運動特征圖,送入CNN網(wǎng)絡(luò)提取深層特征,并在全連接層得到最終識別結(jié)果。
關(guān)節(jié)點數(shù)據(jù)為三維位置信息,包含人體關(guān)節(jié)點的X、Y、Z坐標;RGB視頻為二維彩色圖像信息,包含每個像素點的X、Y坐標和對應(yīng)的顏色信息。本文通過RGB視頻獲得RGB運動特征,通過三維關(guān)節(jié)點數(shù)據(jù)獲取關(guān)節(jié)點關(guān)注特征,提取其主要運動關(guān)節(jié),根據(jù)主要運動關(guān)節(jié)對應(yīng)的X、Y坐標,在RGB運動特征上利用顏色矩形框進行標記,得到關(guān)節(jié)點關(guān)注運動特征圖。此矩形框標記的位置由關(guān)節(jié)點關(guān)注特征得到,所以將三維的關(guān)節(jié)點關(guān)注特征和二維的RGB運動特征結(jié)合,能夠有效改進關(guān)節(jié)點數(shù)據(jù)缺乏外觀特征和RGB視頻缺少三維特征的缺陷,恰好體現(xiàn)了二者特征的互補性。
(1)RGB運動特征獲?。和ㄟ^幀差法獲得動作執(zhí)行者的運動屬性,得到RGB運動特征圖。如圖1c所示,對RGB運動特征圖的背景部分進行了較大程度的弱化,前景部分也進行了相應(yīng)突出。同時,RGB運動特征較完整地保留了雙人交互的運動屬性,并以顏色深淺度的形式展現(xiàn)。
(2)關(guān)節(jié)點關(guān)注特征獲取:利用關(guān)節(jié)點所在位置計算關(guān)節(jié)點運動幅度,分析主要運動關(guān)節(jié)。首先計算關(guān)節(jié)點運動速度,關(guān)節(jié)點運動速度是幀間關(guān)節(jié)點三維位置信息變化的快慢。具體計算公式如式(1)所示
(1)
(2)
(3)
其中:vij為第i個動作執(zhí)行者的第j個關(guān)節(jié)的運動速度平均數(shù);sij為第i個動作執(zhí)行者的第j個關(guān)節(jié)的運動速度方差。最后,按關(guān)節(jié)點運動速度方差大小排列,將排在前k(1≤k≤J)個的關(guān)節(jié)定義為動作執(zhí)行者i的主要運動關(guān)節(jié),其余為非主要運動關(guān)節(jié),k為可調(diào)參數(shù)。
(3)關(guān)節(jié)點關(guān)注運動特征圖構(gòu)建:Kinect v2傳感器可以提供幾乎同步的RGB視頻和關(guān)節(jié)點數(shù)據(jù)。首先根據(jù)時間關(guān)系將關(guān)節(jié)點數(shù)據(jù)與RGB視頻對齊,得到人體運動的最大矩形框。然后在主要運動關(guān)節(jié)所在位置畫出顏色矩形框,突出主要運動部位。顏色矩形框勾畫方式為:依據(jù)關(guān)節(jié)點標記的位置,在其鄰域矩形內(nèi)利用顏色加權(quán)的方式對像素逐個進行標記。其中q=0為左右兩位動作執(zhí)行者顏色矩形框的顏色相同;q=1為顏色不同,矩形框邊長為l cm。關(guān)節(jié)點關(guān)注運動特征圖如圖1e所示。
(4)基于RGB視頻的關(guān)節(jié)點關(guān)注運動特征圖構(gòu)建:每個視頻平均提取9幀作為關(guān)鍵幀,拼接為包含9幀的基于視頻的關(guān)節(jié)點關(guān)注RGB特征圖,如圖1f所示。
圖2為不同動作的原始數(shù)據(jù)、RGB運動特征和關(guān)節(jié)點關(guān)注運動特征的對比圖。
圖2 不同動作的特征對比圖
把圖2的原始數(shù)據(jù)與RGB運動特征圖和關(guān)節(jié)點關(guān)注運動特征圖進行對比,RGB視頻的幀差計算有效表達雙人交互運動的全局運動趨勢,而主要運動關(guān)節(jié)的突出表達則由關(guān)節(jié)點數(shù)據(jù)關(guān)注求得。
由RGB視頻和關(guān)節(jié)點數(shù)據(jù)得到底層圖像特征,該特征反應(yīng)雙人交互行為的運動趨勢和主要運動部位。為提高識別的準確率,引入具有局部感知和參數(shù)共享特性的卷積神經(jīng)網(wǎng)絡(luò),提取雙人交互運動的深層特征,并在全連接層得到識別結(jié)果。基本結(jié)構(gòu)框圖如圖3所示。
圖3 CNN基本結(jié)構(gòu)框圖
本文選用具有局部感知和參數(shù)共享特性的VGG19網(wǎng)絡(luò),將基于RGB視頻的關(guān)節(jié)點關(guān)注運動特征圖送入VGG19網(wǎng)絡(luò)進行卷積池化操作得到深層特征,并在全連接層得到識別結(jié)果。VGG19網(wǎng)絡(luò)參數(shù)設(shè)定如下:激活函數(shù)為softmax;調(diào)整學習率為0.001;在全連接層加入值為0.3的dropout函數(shù)防止過擬合;利用回調(diào)函數(shù)監(jiān)測模型損失值,當監(jiān)測值不再改善時,該回調(diào)函數(shù)將終止訓練。
本文提出了一種基于關(guān)節(jié)點關(guān)注RGB視頻的雙人交互行為識別算法,為了充分證明算法的有效性和合理性,對實驗結(jié)果進行測試。實驗環(huán)境為windows系統(tǒng),顯卡版本為NVIDIA GeForce RTX 2070,并使用GPU處理器在Tensorflow平臺中的Keras框架下對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練和學習,軟件平臺為python3.7。實驗在NTU RGB+D數(shù)據(jù)庫下進行訓練與測試,由含有60個動作類別的56 000多個視頻樣本組成。本數(shù)據(jù)集有兩種評估模式,分別為改變受試者(Cross Subject,CS)模式和改變視角(Cross View,CV)模式。本文選用11種雙人交互動作的類別和CS評估模式來進行測試。訓練集和測試集按照8∶2的比例進行實驗,迭代100次得到識別結(jié)果。
對關(guān)節(jié)點關(guān)注運動特征圖的可調(diào)參數(shù)主要運動關(guān)節(jié)個數(shù)k、顏色矩形框的顏色q和顏色矩形框邊長l進行測定。實驗結(jié)果如表1所示。
表1 最優(yōu)參數(shù)測定表
根據(jù)實驗結(jié)果可知,實驗5取得了較高的識別率,此時關(guān)節(jié)點關(guān)注運動特征圖的參數(shù)設(shè)定為:每個動作執(zhí)行者的關(guān)節(jié)點關(guān)注個數(shù)為2個,雙人之間顏色矩形框的顏色為不同顏色,顏色矩形框邊長為8 cm。
為了進一步驗證該算法的有效性,將未利用關(guān)節(jié)點關(guān)注的基于RGB視頻的運動特征圖和利用關(guān)節(jié)點關(guān)注的基于RGB視頻的關(guān)節(jié)點關(guān)注運動特征圖在NTU RGB+D數(shù)據(jù)庫下做訓練測試,對比分析關(guān)節(jié)點關(guān)注對識別結(jié)果的影響。二者混淆矩陣如圖4所示。
圖4 混淆矩陣對比圖
分析以上動作可知,VGG19網(wǎng)絡(luò)下,偷竊、靠近和遠離動作達到了100%的準確率,對于未利用關(guān)節(jié)點數(shù)據(jù)關(guān)注時不能較好分辨的指和拍、傳遞和握手等相似動作,利用關(guān)節(jié)點關(guān)注都有了不同程度的提升。因此,合理利用關(guān)節(jié)點數(shù)據(jù)對RGB運動特征進行關(guān)注,可以加強運動特征的表達,從而提高雙人交互行為識別的準確率。
為了驗證本文提出模型的有效性,將本文實驗結(jié)果與其他方法在NTU RGB+D數(shù)據(jù)庫下進行實驗的結(jié)果對比,如表2所示。
表2 本文模型與其他模型算法結(jié)果對比
本文提出的算法優(yōu)于大多數(shù)文獻的識別方法,包括單獨使用關(guān)節(jié)點特征識別方法[11]、結(jié)合關(guān)節(jié)點數(shù)據(jù)和RGB視頻的雙流識別方法[16]及關(guān)節(jié)點數(shù)據(jù)引導RGB特征的SGM-Net識別方法[18]。本文提出算法不僅具有有效性,且框架簡單,實用性強。
本文結(jié)合RGB視頻和關(guān)節(jié)點數(shù)據(jù)的各自特點,利用三維關(guān)節(jié)點數(shù)據(jù)加強對RGB運動特征的關(guān)注,以突出主要運動部位,RGB視頻缺失的三維運動信息由關(guān)節(jié)點數(shù)據(jù)補充,關(guān)節(jié)點數(shù)據(jù)缺少的外觀輪廓信息由RGB視頻彌補,恰好形成互補作用。本文提出的基于關(guān)節(jié)點數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識別統(tǒng)一框架,在國際公認的NTU RGB+D數(shù)據(jù)庫進行訓練和測試,結(jié)果均表明本算法具有較好的遷移性和實時性。