陳皓 肖利雪 李廣 潘躍凱 夏雨
摘 要:針對人體攻擊性行為識別問題,提出一種基于人體關(guān)節(jié)點(diǎn)數(shù)據(jù)的攻擊性行為識別方法。首先,利用OpenPose獲得單幀圖像中的人體關(guān)節(jié)點(diǎn)數(shù)據(jù),并通過最近鄰幀特征加權(quán)法和分段多項(xiàng)式回歸完成由人體自遮擋和環(huán)境因素所導(dǎo)致缺失值的補(bǔ)全;然后,對每個(gè)人體定義動(dòng)態(tài)“安全距離”閾值,如果兩人真實(shí)距離小于閾值,則構(gòu)建行為特征矢量,其中包括幀間人體重心位移、人體關(guān)節(jié)旋轉(zhuǎn)角角速度和發(fā)生交互時(shí)的最小攻擊距離等;最后,提出改進(jìn)的LightGBM算法w-LightGBM,并對攻擊性行為進(jìn)行識別。采用公共數(shù)據(jù)集UT-interaction 對所提出的攻擊性行為分類識別方法進(jìn)行測試實(shí)驗(yàn),準(zhǔn)確率達(dá)到95.45%。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效識別各種角度的攻擊性行為。
關(guān)鍵詞:人體關(guān)節(jié)點(diǎn)數(shù)據(jù);攻擊性行為識別;缺失值補(bǔ)全;攻擊距離
中圖分類號:?TP18
文獻(xiàn)標(biāo)志碼:A
Aggressive behavior recognition based on human joint point data
CHEN Hao*, XIAO Lixue, LI Guang, PAN Yuekai, XIA Yu
School of Computer Science & Technology, Xian University of Posts & Telecommunications, Xian Shaanxi 710121, China
Abstract:?In order to solve the problem of human aggressive behavior recognition, an aggressive behavior recognition method based on human joint points was proposed. Firstly, OpenPose was used to obtain the human joint point data of a single frame image, and nearest neighbor frame feature weighting method and piecewise polynomial regression were used to realize the completion of missing values caused by body self-occlusion and environmental factors. Then, the dynamic “safe distance” threshold was defined for each human body. If the true distance between the two people was less than the threshold, the behavior feature vector was constructed, including the human barycenter displacement between frames, the angular velocity of human joint rotation and the minimum attack distance during interaction. Finally, the improved LightGBM (Light Gradient Boosting Machine) algorithm, namely w-LightGBM (weight LightGBM), was used to realize the classification and recognition of aggressive behaviors. The public dataset UT-interaction was used to verify the proposed method, and the accuracy reached 95.45%. The results show that this method can effectively identify the aggressive behaviors from various angles.
Key words:?human joint point data; aggressive behavior recognition; missing value completion; attack distance
0 引言
人體的交互行為識別已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域中的熱點(diǎn)問題。攻擊性行為作為異常交互式行為之一,在限制區(qū)域訪問檢測[1]、人員活動(dòng)監(jiān)視[2]、群體活動(dòng)檢測[3]、軌跡追蹤[4]、行為識別等領(lǐng)域有著廣泛的應(yīng)用。它可能是言語上的也可能是身體上的,拍、抓、掐、踢、吐、咬、威脅、侵略、羞辱、閑話、攻擊、辱罵、欺負(fù)、毀壞和破壞都是攻擊性行為的例子。每一種行為都會帶來傷害的結(jié)果,因此對攻擊性行為研究對公共安全具有重要意義。目前基于視頻流的攻擊性行為識別研究大致分為兩類:1)基于硬件傳感器的交互式行為識別,主要依賴于監(jiān)控裝置的傳感器進(jìn)行信息的捕獲,需要對監(jiān)控器進(jìn)行額外的設(shè)置。如微軟3D體感攝像機(jī)Kinect[5]通過紅外傳感器實(shí)現(xiàn)對周圍環(huán)境的感知,獲取空間三維人體關(guān)節(jié)點(diǎn)信息,實(shí)現(xiàn)了人體關(guān)節(jié)點(diǎn)的跟蹤,進(jìn)而能夠方便地進(jìn)行人體運(yùn)動(dòng)特征提取[6];但對硬件的依賴會導(dǎo)致應(yīng)用區(qū)域的局限性,并且提高了視頻監(jiān)控的成本,導(dǎo)致很多公共場合都沒有安裝Kinect監(jiān)控?cái)z像頭。
2)基于軟件的人體特征的交互式行為識別,主要采用軟件的方式實(shí)現(xiàn)對普通視頻圖像的行為分析,有廣泛的發(fā)展前景。軟件對視頻流進(jìn)行分析時(shí)通常采用外觀形狀、運(yùn)動(dòng)和時(shí)空等特征對人體行為進(jìn)行分析,將視頻流中的每一幀作為一個(gè)原子動(dòng)作,通過對個(gè)體攻擊性行為的原子動(dòng)作序列特征進(jìn)行識別與理解來識別攻擊行為。Ouanane等[7]提出對視頻圖像的每一幀進(jìn)行輪廓特征提取,通過輪廓特征分析構(gòu)建特征詞袋,利用K-means算法將特征詞袋與骨架特征相融合,然后根據(jù)融合后的特征對視頻流序列進(jìn)行特征編碼,根據(jù)視頻流的編碼序列實(shí)現(xiàn)人體攻擊性行為的識別。Serrano等[8]對人體部件構(gòu)建時(shí)空彈性長方體運(yùn)動(dòng)軌跡特征,并通過霍夫森林進(jìn)行有效的攻擊性識別。
隨著硬件條件的不斷提高,陸續(xù)產(chǎn)生了許多新的行為識別研究框架系統(tǒng)。2017年,卡耐基梅隆大學(xué)的研究人員公開了OpenPose[9]人體骨架識別系統(tǒng)的原代碼,實(shí)現(xiàn)對監(jiān)控視頻下的目標(biāo)人物的實(shí)時(shí)跟蹤,它可以在彩色視頻中捕捉到COCO(Common Objects in COntext)模型人體骨架信息,同時(shí)提供了場景中人體關(guān)節(jié)點(diǎn)(Joint)信息。OpenPose人體關(guān)節(jié)點(diǎn)識別系統(tǒng)可以實(shí)現(xiàn)實(shí)時(shí)的多人骨架信息檢測,其采用自下而上的人體姿態(tài)估計(jì)算法,檢測人體關(guān)鍵點(diǎn)的位置,然后對人體關(guān)鍵點(diǎn)的熱點(diǎn)圖采用特征向量親和參數(shù)進(jìn)行人體關(guān)節(jié)點(diǎn)的確定。然而,二維人體姿態(tài)估計(jì)面臨著一個(gè)無法解決的問題——遮擋[10],傳統(tǒng)預(yù)測算法不適合于直接對時(shí)間性連續(xù)數(shù)據(jù)的缺失值進(jìn)行預(yù)測分析[11]。另外,通過OpenPose獲取的視頻流骨架運(yùn)動(dòng)信息數(shù)據(jù)量較大,數(shù)據(jù)之間的相關(guān)性較強(qiáng),不同幀之間數(shù)據(jù)需要進(jìn)行深度處理。
本文的主要工作包括:
1)提出最近鄰幀特征加權(quán)和分段多項(xiàng)式回歸缺失數(shù)據(jù)預(yù)測方法;
2)提出人體攻擊性行為識別特征向量,將人體運(yùn)動(dòng)自身變化的特征與人體重心相結(jié)合,實(shí)現(xiàn)對攻擊行為的描述;
3)提出了LightGBM(Light Gradient Boosting Machine)算法的改進(jìn)算法——w-LightGBM(weight LightGBM),通過樣本類別數(shù)量加權(quán),提高多分類樣本數(shù)量不平衡的分類準(zhǔn)確率。
1 人體攻擊性行為識別流程
圖1為人體攻擊性行為識別的主要流程:首先,采用OpenPose獲取人體COCO人體關(guān)節(jié)點(diǎn)信息,并對人體關(guān)節(jié)點(diǎn)中的數(shù)據(jù)信息缺失進(jìn)行預(yù)處理。其次,進(jìn)行交互行為判斷。設(shè)手臂最大長度為T,以人體的手臂長度為閾值對是否會發(fā)生攻擊性行為進(jìn)行判別:對小于閾值的兩個(gè)人進(jìn)行攻擊性行為特征向量的構(gòu)建,對不發(fā)生攻擊性行為的視頻幀進(jìn)行下一幀數(shù)據(jù)處理。最后,對構(gòu)建的特征向量使用w-LightGBM進(jìn)行攻擊性行為識別。
1.1 缺失值預(yù)處理
1.1.1 人體關(guān)節(jié)點(diǎn)數(shù)據(jù)定義
在OpenPose骨架提取中,采用COCO模型對視頻流進(jìn)行二維關(guān)節(jié)點(diǎn)信息提取,骨架模型詳見文獻(xiàn)[9]。它由18個(gè)關(guān)節(jié)點(diǎn)和17個(gè)肢體向量構(gòu)成。通過OpenPose可以獲得18個(gè)關(guān)節(jié)點(diǎn)數(shù)據(jù),本文采用S=( V , E )表示一個(gè)人體骨架信息,其中 V ={v0,v1,…,v17}表示的是關(guān)節(jié)位置集合, E ={ e 0, e 1,…, e 12}表示關(guān)節(jié)向量的集合。
定義1? 關(guān)節(jié)位置(Joint positions, JP)。將第t幀視頻中第j個(gè)關(guān)節(jié)點(diǎn)的位置定義為vj(t)=(xtj,ytj),關(guān)節(jié)點(diǎn)i的位置定義為vi(t)=(xti,yti),其中i, j∈{0,1,…,17}。
定義2? 關(guān)節(jié)向量(Joint Vector, JV)。根據(jù)關(guān)節(jié)點(diǎn)位置信息對肢體的有效部分進(jìn)行關(guān)節(jié)向量提取,表示方式為 e ij(t)= =vj(t)-vi(t), 其中i, j∈{0,1,…,17}。
1.1.2 關(guān)節(jié)點(diǎn)數(shù)據(jù)缺失處理
通過OpenPose提取獲得的二維人體骨架信息中存在兩種數(shù)據(jù)缺失問題:第一種,攻擊者或被攻擊者的自身產(chǎn)生的遮擋導(dǎo)致人體的部分位置無法檢測到;第二種,由于OpenPose自身算法模型的限制,對具有歧義的關(guān)節(jié)點(diǎn)信息產(chǎn)生數(shù)據(jù)丟失。
在人體關(guān)節(jié)點(diǎn)數(shù)據(jù)的提取中,數(shù)據(jù)的缺失是隨機(jī)的甚至?xí)l(fā)生在相鄰的幾幀中,而且視頻流中相同位置的關(guān)節(jié)點(diǎn)數(shù)據(jù)具有連續(xù)性變化、波動(dòng)性大的特征。采用傳統(tǒng)的缺失值預(yù)測算法進(jìn)行數(shù)據(jù)填補(bǔ)會導(dǎo)致提取的特征精度大幅度下降,因此,本文引入了最近鄰幀特征加權(quán)法和分段多項(xiàng)式回歸進(jìn)行缺失值預(yù)測。具體步驟如下:
步驟1? 獲取視頻流人體骨架信息關(guān)節(jié)點(diǎn)數(shù)據(jù),及關(guān)節(jié)點(diǎn)對應(yīng)的視頻幀的序數(shù)。
步驟2? 對缺失值點(diǎn)進(jìn)行最近鄰幀特征加權(quán)預(yù)測得到值vave= t2-t t2-t1 vi(t1)+ t-t1 t2-t1 vi(t2)。給定缺失值vi(t)(表示第t幀的第i個(gè)關(guān)節(jié)點(diǎn)信息),則尋找與第t幀最鄰近的第i個(gè)關(guān)節(jié)點(diǎn)數(shù)據(jù)不發(fā)生缺失的兩幀分別為第t1幀、第t2幀,并且滿足t1 步驟3? 根據(jù)缺失值所在幀的位置對整個(gè)數(shù)據(jù)集進(jìn)行二分段,對每段數(shù)據(jù)集采用回歸多項(xiàng)式進(jìn)行缺失值預(yù)測得到缺失幀前后兩段視頻流的預(yù)測值: vbefor=yj; j=0,1,…,i-1 vafter=yj; j=i+1,i+2,…,n 其中yj表示回歸多項(xiàng)式預(yù)測的結(jié)果。 步驟4? 對兩種情況下預(yù)測的結(jié)果進(jìn)行加權(quán)得到最終的預(yù)測值vj(t)= 1 2 vave+ 1 4 vbefor+ 1 4 vafter。 1.2 骨架特征矢量的構(gòu)建 在交互式攻擊性行為視頻中,視頻流中的每幀圖像包含攻擊者和被攻擊者,這時(shí)每幀視頻圖像中人體關(guān)節(jié)節(jié)點(diǎn)數(shù)據(jù)包含36個(gè)關(guān)節(jié)點(diǎn)數(shù)據(jù)和34個(gè)肢體向量,由于面部向量對運(yùn)動(dòng)特征影響較小,因此忽略面部特征,而僅僅將頭抽象成一個(gè)點(diǎn),用v0表示。將每幀視頻中的人體關(guān)節(jié)點(diǎn)抽象成圖2中的骨架模型圖。 在構(gòu)建特征向量前需要對交互行為是否會發(fā)生進(jìn)行安全距離判斷。 1.2.1 安全距離 交往雙方的人際關(guān)系以及所處情境決定著相互間自我空間的范圍。美國人類學(xué)家愛德華·霍爾博士劃分了四種區(qū)域或距離,大體上可分為四種距離:公共距離、社交距離、個(gè)人距離(Personal Distance)和親密距離。其中個(gè)人距離為45~120cm,就像伸手碰到對方那樣,雖然認(rèn)識,但是沒有特別的關(guān)系[12]。因此,本文將安全距離定義為每個(gè)人的手臂最大長度(用T表示),這樣對于不同身高的人其安全距離閾值不同。通過兩個(gè)人頸部的距離來判斷兩個(gè)人是否會發(fā)生交互行為。計(jì)算安全距離閾值T原理如下: T=? ∑(v2(t)-v3(t))2 + ∑(v3(t)-v4(t))2 dinter= ∑(v0(t)-v18(t))2 dinter dinter≥T, 攻擊行為識別 其中:dinter表示視頻幀中任意兩個(gè)人之間的頸部關(guān)節(jié)點(diǎn)距離,v0(t)表示第t幀中左側(cè)人的頸部關(guān)節(jié)點(diǎn),v18(t)表示第t幀中右側(cè)人的頸部關(guān)節(jié)點(diǎn)。 1.2.2 骨架特征向量 關(guān)節(jié)點(diǎn)數(shù)據(jù)是由(x,y,t)構(gòu)成的三維數(shù)據(jù)集,對于這個(gè)三維數(shù)據(jù)直接采用傳統(tǒng)的分類算法對人體攻擊性行為進(jìn)行識別存在兩個(gè)問題:一是視頻流中關(guān)節(jié)點(diǎn)數(shù)據(jù)量較大且關(guān)節(jié)點(diǎn)之間的相關(guān)性較高,無法進(jìn)行直接降維,因此直接對人體關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行攻擊性行為的識別困難較大;二是身高不同的人關(guān)節(jié)點(diǎn)數(shù)據(jù)相差較大,需要根據(jù)不同的人對關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行歸一化。本文進(jìn)行特征向量構(gòu)建主要由三方面構(gòu)成:人體的重心位移差、人體運(yùn)動(dòng)角度變化速率和攻擊距離。 定義3?? 特征向量 P ={β0,β1,β2,…,β24}。下面的公式中,θ=cos-1 ??e j(t)· e k(t) ‖ e j(t)‖·‖ e k(t)‖? 表示人體運(yùn)動(dòng)時(shí)關(guān)節(jié)向量之間的夾角變化, e j∈ E 表示人體關(guān)節(jié)向量;x0= xt8+xt11 2 , y0= yt8+yt11 2 表示兩髖骨之間的中點(diǎn)位置;k= xt0-x0 yt0-y0 表示人體中心線所在直線的斜率;pi表示人體各個(gè)關(guān)節(jié)的重心占人體總重心的百分比;v1(t+1)-v1(t)>0表示以視頻幀的右側(cè)為正方向,而v1(t+1)-v1(t)<0表示以視頻幀的左側(cè)為正方向。β0、 β1表示左側(cè)人體重心位移變化。β2~β10表示人體運(yùn)動(dòng)時(shí)關(guān)節(jié)角度變化,Δt表示視頻幀差。β2、 β3分別表示左手/右手的大臂與小臂之間的夾角變化的角速度;β4、 β5分別表示左腿/右腿的大腿與小腿之間的夾角變化的角速度;β6表示人體中心線向量(髖骨中心到頭部)與豎直方向的夾角;β7、 β8分別表示以人體的頭部為極值點(diǎn),人的中心線與頭到左手腕/右手腕向量之間夾角的角速度變化;β9、 β10分別表示以人體的頭部為極值點(diǎn),人的中心線與頭到左腳踝/右腳踝向量之間夾角的角速度變化。β11表示視頻幀中左側(cè)人體左手到右側(cè)人體身體中心的距離和右手到右側(cè)人體的身體中心的距離中的最小值。β12視頻幀中左側(cè)人體左腳到右側(cè)人體身體中心的距離和右腳到右側(cè)人體的身體中心的距離中的最小值。β13~β24表示右側(cè)人體行為特征分量,與左側(cè)分向量相似。 β0=∑pixi β1=∑piyi β2~β10= θ/Δt,????? v1(t+1)-v1(t)>0(360-θ)/Δt, v1(t+1)-v1(t)<0 因?yàn)?0無法判斷正方向,只能作為靜止物體進(jìn)行處理,不做為方向判斷。 β11= min ??k·(xt0-xt4)+yt4-yt0? k2+1?? , ?k·(xt0-xt7)+yt7-yt0? k2+1 β12= min ??k·(xt0-xt10)+yt10-yt0? k2+1?? , ?k·(xt0-xt13)+yt13-yt0? k2+1 β13=∑pixi β14=∑piyi β15~β23= θ/Δt,????? v19(t+1)-v19(t)>0 (360-θ)/Δt, v19(t+1)-v19(t)<0 β24= min ??k·(xt0-xt4)+yt4-yt0? k2+1?? , ?k·(xt0-xt7)+yt7-yt0? k2+1 β25= min ??k·(xt0-xt10)+yt10-yt0? k2+1?? , ?k·(xt0-xt13)+yt13-yt0? k2+1 1.2.3 人體重心計(jì)算 在視頻流中將人體抽象成一個(gè)“質(zhì)點(diǎn)”,忽略人體自身的形態(tài)變化,通過計(jì)算這個(gè)“質(zhì)點(diǎn)”在視頻幀之間的位移變化表示人體的運(yùn)動(dòng)狀態(tài)信息。根據(jù)運(yùn)動(dòng)學(xué)原理,人體重心位置隨人體位移和姿態(tài)變化而發(fā)生改變。因此,采用人體重心表示這個(gè)“質(zhì)點(diǎn)”,將重心變化作為人體發(fā)生不同運(yùn)動(dòng)時(shí)的特征分量進(jìn)行分析。根據(jù)人體重心在視頻幀之間的變化幅度來區(qū)分人體是處于運(yùn)動(dòng)狀態(tài)還是靜止?fàn)顟B(tài),人體重心計(jì)算模型詳見文獻(xiàn)[13],原理如下: β0=∑pixi β1=∑piyi 1.2.4 人體運(yùn)動(dòng)角度變換 在視頻流中,每一幀中的人體姿態(tài)變化可以看作是發(fā)生攻擊行為時(shí)的原子動(dòng)作,而整體動(dòng)作可以由幾個(gè)典型的關(guān)鍵幀組成,而其他幀都可以看作是這幾個(gè)關(guān)鍵幀的過渡。根據(jù)數(shù)據(jù)統(tǒng)計(jì),發(fā)生一次完整的攻擊性行為約為5幀,為降低幀間數(shù)據(jù)的冗余性,增強(qiáng)特征差異,提高計(jì)算效率,本文以5幀為一組進(jìn)行特征提取。對當(dāng)前幀和其之前的第5幀進(jìn)行特征向量的構(gòu)建,其中關(guān)節(jié)旋轉(zhuǎn)角變化包括:人體大臂和小臂夾角的變化速率、人體大腿和小腿夾角的變化速率、人體髖骨中心到頭部的向量與豎直方向向量的夾角、身體與手腕呈現(xiàn)的角度變化速率、身體與腳腕呈現(xiàn)的角度的速率變化。計(jì)算公式為: θ=cos-1 ??e j(t)· e k(t) ‖ e j(t)‖·‖ e k(t)‖ β2~β10= θ/Δt,????? v1(t+1)-v1(t)>0 (360-θ)/Δt, v1(t+1)-v1(t)<0 2 w-LightGBM算法 LightGBM[14]算法是XGBoost[15]算法的改進(jìn),采用集成樹形結(jié)構(gòu)對攻擊性行為特征向量進(jìn)行分類。由于在構(gòu)建特征向量時(shí),視頻數(shù)據(jù)的長度很難保持一致,因此會產(chǎn)生特征向量的樣本數(shù)量不均衡,根據(jù)1.2節(jié)方法實(shí)現(xiàn)對不同行為視頻流中特征向量的構(gòu)建,進(jìn)而統(tǒng)計(jì)每種特征向量的數(shù)量形成直方圖,如圖3。由于對每種動(dòng)作監(jiān)控時(shí)視頻流長短不一,導(dǎo)致在訓(xùn)練攻擊性行為識別模型時(shí)會由于樣本數(shù)量的不平衡導(dǎo)致識別結(jié)果偏向大數(shù)量樣本類別。本文根據(jù)特征向量的樣本數(shù)量不均衡,提出了w-LightGBM算法對樣本種類進(jìn)行加權(quán)分類識別,該方法修正了樣本不均衡導(dǎo)致樣本識別結(jié)果偏向大數(shù)據(jù)類別的問題。 w-LightGBM算法: 步驟1? 統(tǒng)計(jì)每種交互行為產(chǎn)生的攻擊性行為特征向量 的數(shù)量,N表示所有行為特征向量的總數(shù),nkind表示第kind 類的特征向量的數(shù)量; 步驟2? 計(jì)算特征向量數(shù)量的平均值 = 1 N? ∑ kind=1 nkind,作為樣本波動(dòng)的基準(zhǔn)值; 步驟3? 根據(jù)特征向量的平均值 計(jì)算特征向量標(biāo)準(zhǔn)差var=? 1 N ∑ N kind=1 (nkind- )2 計(jì)算樣本波動(dòng)幅度; 步驟4? 根據(jù)特征向量的標(biāo)準(zhǔn)差計(jì)算特征向量的波動(dòng)幅度vkind= | nkind-? | ?/ var,采用Sigomd函數(shù)對波動(dòng)幅度進(jìn)行平滑處理; 步驟5? 根據(jù)經(jīng)驗(yàn)值對平滑后的特征向量波動(dòng)值進(jìn)行權(quán)值計(jì)算wkind= 1 2 +α 1 1+exp(-vkind)? ,其中α為經(jīng)驗(yàn)值,一般為1.5。 3 實(shí)驗(yàn)與分析 本文采用的實(shí)驗(yàn)環(huán)境為Intel Core i7-6700HQ CPU@2.60GHz 2.59GHz,8GB內(nèi)存,Windows 10操作系統(tǒng),Visual Studio 2015。在公共基準(zhǔn)數(shù)據(jù)集UT-interaction上完成攻擊性行為識別分析的測試實(shí)驗(yàn),該數(shù)據(jù)集是以視頻數(shù)據(jù)形式存儲的交互行為動(dòng)作數(shù)據(jù)集,包括20個(gè)視頻序列、6類交互行為動(dòng)作,視頻格式為720×480,30fps,視頻中人像大小為200像素。本文實(shí)驗(yàn)采用數(shù)據(jù)集中的5種交互行為(握手、擁抱、擊拳、推、踢)進(jìn)行攻擊性行為特征向量的構(gòu)建,采用w-LightGBM算法對攻擊性行識別分類。 3.1 實(shí)驗(yàn)結(jié)果分析 3.1.1 評價(jià)指標(biāo) 實(shí)驗(yàn)中,同時(shí)采用精確度(precision)、召回率(recall)、綜合評價(jià)指標(biāo)F值(F-measure)和樣本支持?jǐn)?shù)量(support)作為評價(jià)手段來衡量算法的效果: precision= TP TP+FP recall= TP TP+FN F-measure= (ε2+1)*precision*recall ε2precision+recall 對二分類問題來說,TP(true positives)對應(yīng)于被分類模型正確預(yù)測的正樣本數(shù);FP(false positives)對應(yīng)于被分類模型錯(cuò)誤預(yù)測為正類的負(fù)樣本;FN(false negatives)為對應(yīng)于被分類模型錯(cuò)誤預(yù)測為負(fù)類的正樣本數(shù);ε為precision和recall的調(diào)和度。 2.accuracy是在這個(gè)數(shù)據(jù)集中通過十字交叉驗(yàn)證得到的識別率的,而precision是在進(jìn)行密性訓(xùn)練時(shí)模型在支持?jǐn)?shù)據(jù)集上的識別準(zhǔn)確率。將accuracy改成小數(shù)顯示 3.與之前的θ不同,這里是preciSion和recall的調(diào)和度,換成ε表示。 3.1.2 實(shí)驗(yàn)結(jié)果對比 表1為采用本文構(gòu)建的特征向量在經(jīng)典算法中的識別效果比較,該結(jié)果主要針對的是UT-interaction數(shù)據(jù)集5種交互行為,且各算法的support值均為2508。其中: accuracy是在數(shù)據(jù)集中通過十字交叉驗(yàn)證得到的識別率,precision是在進(jìn)行模型訓(xùn)練時(shí)模型在支持?jǐn)?shù)據(jù)集上的識別準(zhǔn)確率。 由表1可知,在本文提取的特征向量下,與其他常用算法相比,采用本文算法w-LightGBM的準(zhǔn)確率達(dá)到了9545%,模型得分為1.00。與算法LightGBM相比,本文算法識別率提高了1.47%??梢钥闯?,本文算法w-LightGBM的識別效果要優(yōu)于目前主流識別算法,因此本文采用改進(jìn)后的w-LightGBM算法對攻擊性行為進(jìn)行分類。 表2為UT-interaction數(shù)據(jù)集上主流算法的行為識別率。從表2可以看出 本文算法的準(zhǔn)確率較高 ,文獻(xiàn)[16]采用嵌入空間多示例學(xué)習(xí)(Spatial Multiple Instance Learning, SMIL)方法獲取多種視覺特征描述交互雙方之間的交互信息,并用支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行識別。該方法取得了除本文算法外最好的識別率,但它的實(shí)現(xiàn)比較復(fù)雜。 文獻(xiàn)[17]基于相關(guān)濾波(Coherent Filtering, CF)算法將軌跡分組,提取大位移光流特征(Histogram of Large-Displacement Optical Flow, HO-LDOF)作為運(yùn)動(dòng)特征,從而得到局部運(yùn)動(dòng)模式(Local Motion Patterns, LMP),并用最近鄰分類器進(jìn)行識別,但識別效果不太理想;而 本文提出的攻擊性行為識別方法識別效果最好。實(shí)驗(yàn)結(jié)果表明,本文提出的方法有效性可行,具有較高的適應(yīng)性,可達(dá)到實(shí)時(shí)應(yīng)用。 3.2 特征向量效果分析 圖4為OpenPose獲取人體關(guān)節(jié)點(diǎn)數(shù)據(jù)相關(guān)關(guān)系圖,可以看出人體關(guān)節(jié)點(diǎn)之間的特征相似度。通過關(guān)節(jié)點(diǎn)的特征相似程度來反映多個(gè)關(guān)節(jié)點(diǎn)之間的相似性和差異性。 根據(jù)圖中數(shù)據(jù)可知,人體關(guān)節(jié)點(diǎn)數(shù)據(jù)之間相似度較高,特征差異性較小,所表示的運(yùn)動(dòng)特征向量單一,直接進(jìn)行攻擊性行為分析效果較差。因此,在關(guān)節(jié)點(diǎn)數(shù)據(jù)的基礎(chǔ)上構(gòu)建攻擊性行為特征向量,提高交互行為之間的特征差異性,圖5為本文構(gòu)建的特征分量的相關(guān)關(guān)系圖。由圖5可知,特征分量之間的相似性較小,特征差異性較大,特征分量β0~β12相關(guān)性較高的原因是其計(jì)算公式都與人體的中心線有關(guān)。 由圖4可知,人體關(guān)節(jié)點(diǎn)數(shù)據(jù)之間的相似度較高,特征差異性較小,直接進(jìn)行攻擊性行為分析效果較差。 由圖5可知,特征分量之間的相似性較小,特征差異性較大,特征分量β0~β12相關(guān)性較高的原因是其計(jì)算公式都與人體的中心線有關(guān)。 3.3 w-LightGBM算法參數(shù)分析 本文測試實(shí)驗(yàn)采用數(shù)據(jù)集UT-interaction中的每種交互行為視頻提取到的交互行為特征向量。由于構(gòu)建的特征向量數(shù)量不平衡,直接采用LightGBM算法進(jìn)行分類,識別率為93.98%;本文對樣本數(shù)量加權(quán)平衡后,識別率提高了147%。 圖6是樣本平衡權(quán)值wkind中α因子值為1.0、1.5和2.0時(shí)的評價(jià)指標(biāo)結(jié)果。 其中,參數(shù)α控制wkind∈[0.5, 0.5+α]。 這些權(quán)重的范圍從0.5到0.5+α之間。 采用sigmoid函數(shù)進(jìn)行平滑處理時(shí)輸出范圍在0到1之間,加上0.5是為了保證權(quán)重的有效性。當(dāng)一些樣本類的數(shù)量很大時(shí),產(chǎn)生權(quán)重很小,但權(quán)重不會小于0.5;而當(dāng)一些樣本類的數(shù)量很小時(shí),權(quán)重會很大,但不會超過0.5+α。 圖7是α值分別為1.0、1.5和2.0時(shí)特征向量的分類結(jié)果混淆矩陣。由圖7可知,將α設(shè)為1.5。圖6(b)為α=1.5時(shí)w-LightGBM算法在UT-interaction數(shù)據(jù)庫上攻擊性行為識別的混淆矩陣,從圖中可以看出,錯(cuò)誤主要集中在推和擁抱這兩個(gè)交互動(dòng)作的識別上,推被看作擁抱或者擁抱被看作推的識別錯(cuò)誤率較高,這是由于兩者在特征向量構(gòu)建時(shí)除在關(guān)鍵幀附近會發(fā)生較大的區(qū)別外,其前期的靠近行為相似度極高,只是手的位置和兩個(gè)人之間交互動(dòng)作發(fā)生時(shí)距離的變化,發(fā)生推時(shí)兩個(gè)人之間的距離會大于擁抱時(shí)兩個(gè)人之間的距離。本文以5幀為一個(gè)特征向量,前期特征向量的相似度導(dǎo)致了識別錯(cuò)誤的發(fā)生。 4 結(jié)語 本文提出了一種基于人體關(guān)節(jié)點(diǎn)數(shù)據(jù)的攻擊性行為識別算法。主要工作包括處理缺失數(shù)據(jù)并進(jìn)行預(yù)測填充,對關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行特征向量的構(gòu)建,使用改進(jìn)的w-LightGBM算法對交互行為進(jìn)行分類識別。在人體交互數(shù)據(jù)集UT-interaction上取得了良好的識別效果,一定程度上提高了基于人體關(guān)節(jié)數(shù)據(jù)的攻擊性行為識別算法中行為特征表達(dá)的有效性和全面性。 參考文獻(xiàn) [1]?SCHWAPPACH D, SENDLHOFER G, HSLER L, et al. Speaking up behaviors and safety climate in an Austrian university hospital [J]. International Journal for Quality in Health Care, 2018, 30(9): 701-707. [2]?YU S, CHEN H, BROWN R A. Hidden Markov model-based fall detection with motion sensor orientation calibration: a case for real-life home monitoring [J]. IEEE Journal of Biomedical and Health Informatics, 2018, 22(6): 1847-1853. [3]?RABIEE H, MOUSAVI H, NABI M, et al. Detection and localization of crowd behavior using a novel tracklet-based model [J]. International Journal of Machine Learning and Cybernetics, 2017, 9(12), 1999-2010. [4]?LU X D, KOGA T. Real-time motion detection for high-assurance aircraft tracking system using downlink aircraft parameters [J]. Simulation Modelling Practice and Theory, 2016, 65:81-92. [5]?STONE E E, SKUBIC M. Fall detection in homes of older adults using the Microsoft Kinect [J]. IEEE Journal of Biomedical and Health Informatics, 2015, 19(1): 290-301. [6]?CHANG X, MA Z, LIN M, et al. Feature interaction augmented sparse learning for fast Kinect motion detection [J]. IEEE Transactions on Image Processing, 2017, 26(8):3911-3920. [7]?OUANANE A, SERIR A. New paradigm for recognition of aggressive human behavior based on bag-of-features and skeleton graph [C]// Proceedings of the 8th International Workshop on Systems, Signal Processing and Their Applications. Piscataway, NJ: IEEE, 2013:133-138. [8]?SERRANO I, DENIZ O, BUENO G, et al. Spatio-temporal elastic cuboid trajectories for efficient fight recognition using Hough forests [J]. Machine Vision & Applications, 2018, 29(2): 207-217. [9]?CAO Z, SIMON T, WEI S. et al. Realtime multi-person 2D pose estimation using part affinity fields [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 1302-1310. [10]?MERAD D, AZIZ K, IGUERNAISSI R, et al. Tracking multiple persons under partial and global occlusions: application to customers behavior analysis [J]. Pattern Recognition Letters, 2016, 81: 11-20. [11]?RAZARI-FAR R, CHAKRABARTI S, SAIF M, et al. An integrated imputation-prediction scheme for prognostics of battery data with missing observations [J]. Expert Systems with Applications, 2016, 115: 709-723. [12]?史慧.談?wù)勅穗H交往中的空間距離[J].河南水利與南水北調(diào),2007(7):73-74. (SHI H, Talking about the spatial distance in interpersonal communication [J]. Henan Water Resources and South-to-North Water Diversion, 2007(7): 73-74.) [13]?費(fèi)章惠.中國大百科全書:力學(xué)[M].北京:中國大百科全書出版社,1987:133. (FEI Z H. Encyclopedia of China: Mechanics [M]. Beijing: Encyclopedia of China Publishing House, 1987: 133.) [14]?MA X, SHA J, WANG D, et al. Study on a prediction of P2P network loan default based on the machine learning LightGBM and XGboost algorithms according to different high dimensional data cleaning [J]. Electronic Commerce Research and Applications, 2018, 31: 24-39. [15]?CHEN W, FU K, ZUO J, et al. Radar emitter classification for large data set based on weighted-XGboost [J]. IET Radar, Sonar & Navigation, 2017, 11(8):1203-1207. [16]?SENER F, IKIZLER-CINBIS N. Two-person interaction recognition via spatial multiple instance embedding [J]. Journal of Visual Communication & Image Representation, 2015, 32:63-73. [17]?ZHANG B, ROTA P, CONCI N, et al. Human interaction recognition in the wild: analyzing trajectory clustering from multiple-instance-learning perspective [C]// Proceedings of the 2015 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2015: 1-6. [18]?KONG Y, LIANG W, DONG Z, et al. Recognising human interaction from videos by a discriminative model [J]. IET Computer Vision, 2014, 8(4):277-286. [19]?KONG Y, FU Y. Modeling supporting regions for close human interaction recognition [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8926. Berlin: Springer, 2014:29-44. [20]???NGUYEN N, YOSHITAKA A. Human interaction recognition using independent subspace analysis algorithm [C]// Proceedings of the 2014 IEEE International Symposium on Multimedia.Piscataway, NJ: IEEE, 2014: 40-46. [21]?el houda SLIMANI K N, BENEZETH Y, SOUAMI F. Human interaction recognition based on the co-occurrence of visual words [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2014: 461-466. [22]?王佩瑤,曹江濤,姬曉飛.基于改進(jìn)時(shí)空興趣點(diǎn)特征的雙人交互行為識別[J].計(jì)算機(jī)應(yīng)用,2016, 36(10):2875-2879. (WANG P Y, CAO J T, JI X F. Two-person interactive behavior recognition based on improved spatio-temporal interest points [J]. Journal of Computer Applications, 2016, 36(10): 2875-2879.) [23]?姬曉飛,左鑫孟.基于分階段視覺共生矩陣序列的雙人交互識別[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(9).2498-2503. (JI X F, ZUO X M. Human interaction recognition based on multi-stag framework and co-occurring visual matrix sequence [J]. Computer Engineering and Design, 2017, 38(9): 2498-2503.)