盧 穎,呂希凡,郭良杰,仇 樂,路越茗
(1.武漢科技大學(xué) 資源與環(huán)境學(xué)院,湖北 武漢 430081;2.中國地質(zhì)大學(xué)(武漢) 工程學(xué)院,湖北 武漢 430074)
當(dāng)前地鐵視頻監(jiān)控系統(tǒng)多為“只記錄不判斷”模式,需要工作人員輪流值守監(jiān)督站內(nèi)乘客活動,發(fā)生事故后通過回看視頻進(jìn)行取證,無法實(shí)時(shí)判斷[1]。為加強(qiáng)地鐵乘客行為管理,可在地鐵口、閘機(jī)、扶梯等人員密集部位加設(shè)視頻監(jiān)控裝置,但傳統(tǒng)檢測識別主要依靠單目視覺[2],存在識別精度低、穩(wěn)定性差等問題。因此,基于新一代深度傳感器開展地鐵乘客不安全行為的智能識別研究具有重要理論意義和實(shí)際應(yīng)用價(jià)值。
深度傳感器解決了傳統(tǒng)監(jiān)控設(shè)備存在的問題,以紅外結(jié)構(gòu)光檢測為核心,可實(shí)時(shí)捕捉人體動作骨骼信息[3]?;趯?shí)時(shí)骨骼信息,結(jié)合機(jī)器學(xué)習(xí)[4]或深度學(xué)習(xí)[5]算法實(shí)現(xiàn)行為的智能識別。當(dāng)前行為識別算法主要分為2類,一類是以隱馬爾科夫模型[6]、貝葉斯網(wǎng)絡(luò)[7]以及BP神經(jīng)網(wǎng)絡(luò)[8]等為代表的狀態(tài)空間法。該類方法數(shù)據(jù)獲取簡單,只需獲得傳統(tǒng)的視頻信息、圖片信息等即可進(jìn)行后續(xù)行為識別。但這類方法往往需要大量訓(xùn)練數(shù)據(jù),對于小型數(shù)據(jù)集處理效果差,且尋找模型最優(yōu)參數(shù)過程復(fù)雜,難度較大,復(fù)現(xiàn)率較低。另一類是運(yùn)用幀與幀匹配[9]、幀融合匹配[10]和關(guān)鍵幀匹配[11]的模板匹配法,其中以動態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法最為典型。該方法通過提取樣本中行為特征序列與對應(yīng)標(biāo)準(zhǔn)行為進(jìn)行匹配,再判斷序列間的距離大小從而得到動作相似度,其優(yōu)勢在于無需大量樣本作為識別基礎(chǔ),且算法過程簡單、易操作實(shí)現(xiàn)。但提取動作特征方式的合理性對最終識別結(jié)果影響很大。目前,骨骼信息的動作特征大多以相鄰關(guān)節(jié)點(diǎn)之間形成的向量作為提取的動作特征向量,如Yu等[9]、于瑞云等[12]、陸中秋等[13]等選取全身主要部位的關(guān)節(jié)坐標(biāo),再計(jì)算相鄰骨骼關(guān)節(jié)點(diǎn)向量從而得到識別標(biāo)準(zhǔn)動作與測試動作的相似度。然而這種關(guān)節(jié)選取方法存在冗余關(guān)節(jié)的影響,同時(shí)也受識別對象的身高、身材以及識別過程中的身體偏移等因素干擾,進(jìn)而導(dǎo)致識別結(jié)果的魯棒性較低。
綜上,本文擬基于Kinect獲得骨骼信息,提出1種以 Pelvis為矢量起點(diǎn)、行為活動高頻關(guān)節(jié)點(diǎn)為矢量終點(diǎn)的動作特征向量選取方法,利用余弦定理獲得動作之間的關(guān)節(jié)角度差,以最大角度差為動作特征量建立相似度計(jì)算模型,運(yùn)用DTW算法得到動作之間的最優(yōu)路徑并轉(zhuǎn)化為動作相似度。通過地鐵乘客不安全行為識別的對比實(shí)驗(yàn),驗(yàn)證方法的可行性和準(zhǔn)確性,為地鐵乘客不安全行為管控提供1種新型技術(shù)手段。
目前不安全行為識別技術(shù)是一個(gè)包含了計(jì)算機(jī)視覺、圖像處理以及機(jī)器學(xué)習(xí)等相關(guān)技術(shù)的有機(jī)整體。從識別的數(shù)據(jù)類型看,可分為:基于視頻信息、圖像信息以及骨骼信息的識別系統(tǒng)。不同的識別系統(tǒng)常用的特征參數(shù)有:大小、顏色、骨骼等靜態(tài)特征參數(shù);光流、速度、軌跡等動態(tài)特征參數(shù);場景、屬性等描述性特征參數(shù)。對比分析典型不安全行為識別系統(tǒng)及其特征參數(shù),如表1所示。
表1 不安全行為識別技術(shù)對比Table 1 Comparison on recognition technologies of unsafe behavior
基于視頻信息和圖像信息的行為識別技術(shù)易受光線、物體遮擋等外界環(huán)境因素干擾,需對原始數(shù)據(jù)預(yù)處理,增加了整體識別難度,實(shí)現(xiàn)過程復(fù)雜,復(fù)現(xiàn)率低。而基于紅外結(jié)構(gòu)光檢測的Kinect骨骼信息識別,可有效避免環(huán)境因素干擾。鑒于研究背景為地鐵復(fù)雜環(huán)境,存在大量人員相互遮擋現(xiàn)象以及地鐵噪聲干擾等因素,因此采用Kinect提取地鐵乘客不安全行為骨骼信息進(jìn)行后續(xù)行為識別。
在導(dǎo)致地鐵運(yùn)行事故的原因中,乘客行為最為復(fù)雜多變[18],但對其慣常狀態(tài)不安全行為研究相對較少,因此本文根據(jù)現(xiàn)有文獻(xiàn)、地鐵事故案例以及相關(guān)行為監(jiān)控系統(tǒng)選取識別對象。劉艷等[19]將乘客不安全行為分為3類:站內(nèi)抽煙、侵入限界以及攜帶違禁物品。通過對91例地鐵乘客行為引發(fā)的事故案例分析,其中打架斗毆行為占23.7%。 此外,在《人工智能在公安視頻大數(shù)據(jù)分析領(lǐng)域的前沿應(yīng)用》專題報(bào)告[20]中指出,呼救行為是公安視頻監(jiān)控行為之一。雖然呼救不屬于不安全行為,但其預(yù)示可能有不安全行為或突發(fā)事件發(fā)生,因此,將其作為表征可能發(fā)生不安全行為的異常行為,納入智能識別的范疇,使地鐵監(jiān)控對象多元化、規(guī)范化。為便于表述,本文仍以不安全行為作為識別對象的總稱,其特指地鐵乘客不安全行為或異常行為。
結(jié)合Kinect設(shè)備特點(diǎn),根據(jù)上述調(diào)查結(jié)果,選取抽煙、打架斗毆、單/雙臂揮手呼救作為動作識別對象。
本文使用2019年發(fā)布的最新一代Azure Kinect,通過Kinect Body tracking SDK (software development kit)開發(fā)包提供的應(yīng)用程序編程接口以及Kinect SDK以30 f/s的頻率采集32個(gè)關(guān)節(jié)點(diǎn),提供每個(gè)關(guān)節(jié)的三維坐標(biāo)、方位角、置信水平等信息,利用骨骼追蹤技術(shù)可分別得到標(biāo)準(zhǔn)動作與測試動作的關(guān)節(jié)點(diǎn)位置。該設(shè)備相比Kinect V2,可多檢測鼻子、左眼、右眼、左耳、右耳、左鎖骨和右鎖骨7個(gè)關(guān)節(jié)點(diǎn),Azure Kinect捕獲的32個(gè)關(guān)節(jié)見圖1。
圖1 Azure Kinect獲得的關(guān)節(jié)信息Fig.1 Joint information obtained by Azure Kinect
Kinect傳感器捕獲的基礎(chǔ)運(yùn)動數(shù)據(jù)是一系列以幀為單位的人體骨骼關(guān)節(jié)位置3D坐標(biāo)。為將3D坐標(biāo)數(shù)據(jù)轉(zhuǎn)化為骨骼向量,學(xué)者們[9-11]多采用“相連關(guān)節(jié)法”以2個(gè)相連關(guān)節(jié)作為在空間中的1個(gè)三維向量進(jìn)行轉(zhuǎn)化,選取方式見圖2。該方法存在冗余關(guān)節(jié)影響,受識別對象身材以及識別過程中的身體偏移等因素干擾而導(dǎo)致識別結(jié)果的魯棒性較低。為解決此問題,提出1種“Pelvis發(fā)散法”,所選向量皆以Pelvis為起點(diǎn)、動作活動高頻關(guān)節(jié)為終點(diǎn),以此構(gòu)成動作特征向量,選取方式見圖2。
圖2 特征向量選取方式Fig.2 Selection method of characteristic vector
在不影響動作特征完整性表達(dá)的基礎(chǔ)上,舍去一些動作姿勢表達(dá)中作用不明顯的骨骼關(guān)節(jié)點(diǎn),即冗余關(guān)節(jié),有利于后期數(shù)據(jù)的結(jié)果處理[21]。據(jù)此,分別分析抽煙、揮拳、單/雙臂揮手呼救4種動作行為特征,選擇不同行為所對應(yīng)的活動頻率較高關(guān)節(jié)點(diǎn)并將其編碼如圖2,選取的特征關(guān)節(jié)向量見表2。
表2 地鐵乘客4種行為對應(yīng)的關(guān)節(jié)向量選取Table 2 Joint vector selection corresponding to four kinds of behavior of subway passengers
(1)
圖3 標(biāo)準(zhǔn)動作與測試動作角度差提取Fig.3 Extraction of angle difference between standard motion and test motion
通過得到的標(biāo)準(zhǔn)數(shù)據(jù)S與測試數(shù)據(jù)T這2個(gè)動作序列,應(yīng)用DTW算法尋找標(biāo)準(zhǔn)動作與測試動作的最佳匹配路徑,同時(shí)最大程度減少時(shí)間上的偏移和變形影響[23]。根據(jù)表2選取的動作關(guān)節(jié)向量,每個(gè)動作關(guān)節(jié)向量的運(yùn)動都構(gòu)成1維時(shí)間序列數(shù)據(jù)。以抽煙動作為例,標(biāo)準(zhǔn)動作和測試動作的數(shù)據(jù)具有3個(gè)維度,每個(gè)數(shù)據(jù)集的矩陣的維數(shù)為n×3,其中n是運(yùn)動數(shù)據(jù)的總幀數(shù)。
(2)
式中:i為元素橫坐標(biāo),1
由式(2)可得到1條具有最小累積距離動態(tài)規(guī)整路徑P,據(jù)此獲得關(guān)節(jié)向量的角度差之和cp(S,T),如式(3)所示:
(3)
式中:cp(S,T)是代價(jià)矩陣中最優(yōu)動態(tài)規(guī)整路徑的元素之和;S為標(biāo)準(zhǔn)動作序列;T為測試動作序列;l為路徑P的步長。
對于多維情況,si與tj不是單個(gè)骨骼矢量,而是代表整個(gè)身體運(yùn)動的多個(gè)關(guān)節(jié)矢量。多維DTW(S,T)的計(jì)算方式與一維情況類似[25],不同之處在于需要重新定義C(si,tj)。本文將C(si,tj)定義為:所選定動作多維關(guān)節(jié)向量中的最大角度差。DTW的輸出DTW(S,T)則為最短動態(tài)規(guī)整路徑的最大角度差累積之和。因此,累計(jì)之和越小,2個(gè)運(yùn)動序列的相似度越高。為了量化標(biāo)準(zhǔn)動作與測試動作的相似度,提出以最大角度差為特征量的相似度公式,以百分比結(jié)果進(jìn)行表征,如式(4)所示:
(4)
式中:l為最優(yōu)動態(tài)規(guī)整路徑長度;V為選擇用于運(yùn)動評估的關(guān)節(jié)矢量個(gè)數(shù)。
最大角度差的取值范圍為0~180°,在該范圍內(nèi)余弦函數(shù)單調(diào)遞減,每個(gè)角度值唯一對應(yīng)1個(gè)余弦值[12]。因此該最優(yōu)路徑的最大DTW(S,T)為180×V×l。
為檢驗(yàn)“Pelvis發(fā)散法”的實(shí)際識別效果,通過對地鐵乘客不安全行為的識別開展對比實(shí)驗(yàn)。以“相連關(guān)節(jié)法”為對照組A組,“Pelvis發(fā)散法”為實(shí)驗(yàn)組B組。
實(shí)驗(yàn)硬件系統(tǒng)如下:Azure Kinect傳感器1臺;主機(jī)電腦:Intel(R)Core(TM) i5-8300H,2.30GHz,8 GB 內(nèi)存,顯卡為NVIDIA GeForce GTX 1050 Ti。系統(tǒng)開發(fā)環(huán)境為:Windows 10操作系統(tǒng),Visual Studio 2019及Matlab R2018a。應(yīng)用WPF(Windows Presentation Foundation)平臺搭建實(shí)驗(yàn)數(shù)據(jù)采集界面,界面包含視頻圖像顯示區(qū)、實(shí)驗(yàn)人員信息記錄區(qū)以及控制設(shè)備區(qū)等模塊,詳見圖4。
圖4 實(shí)驗(yàn)數(shù)據(jù)采集界面Fig.4 Interface of experimental data collection
此次實(shí)驗(yàn)共有6名實(shí)驗(yàn)參與者,將其中1名參與者的全部動作數(shù)據(jù)作為標(biāo)準(zhǔn)數(shù)據(jù),其余5人的動作數(shù)據(jù)作為測試數(shù)據(jù)。將上述的抽煙、揮拳、單/雙臂揮手呼救進(jìn)行具體定義,抽煙、揮拳及單臂呼救動作以右臂為例,揮手呼救以雙臂揮手呼救為例,具體動作見圖5。
圖5 4種地鐵乘客不安全動作示例Fig.5 Examples of four unsafe motions of subway passengers
每位測試者正面站立距Kinect 2.5 m處,當(dāng)實(shí)驗(yàn)界面顯示設(shè)備連接成功時(shí),點(diǎn)擊“數(shù)據(jù)采集”,開始采集測試者動作數(shù)據(jù),采集時(shí)間為10 s,共采集到300幀數(shù)據(jù),采集完成后點(diǎn)擊“保存數(shù)據(jù)”,即可自動命名并保存至相應(yīng)的.xls文件。5名測試者分別做每種動作10次,即每種動作共有50組測試數(shù)據(jù)。
將采集的數(shù)據(jù)分別采用“相連關(guān)節(jié)法”和“Pelvis發(fā)散法”進(jìn)行動作特征向量選取,相對應(yīng)地將選取結(jié)果定義為A、B 2組。
通過Matlab對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理運(yùn)算,以B組抽煙動作為例,具體算法描述如下:
2)步驟2:根據(jù)式(1)得到3組關(guān)節(jié)角度差值序列。
3)步驟3:選取序列中3組關(guān)節(jié)角度差的最大值作為代價(jià)矩陣的元素。
4)步驟4:通過步驟3得到300×300代價(jià)矩陣,從(1,1)出發(fā),根據(jù)式(2)的限制條件,得到最優(yōu)動態(tài)規(guī)整路徑P。
5)步驟5:輸出得到DTW(S,T)與步長l。
6)步驟6:將步驟5得到的結(jié)果帶入式(4),最大關(guān)節(jié)角度差值由符合條件的1組對應(yīng)關(guān)節(jié)得到,即關(guān)節(jié)矢量個(gè)數(shù)V=1,因此:
以上步驟應(yīng)用Matlab語言編程實(shí)現(xiàn),將全部測試動作分別與對應(yīng)標(biāo)準(zhǔn)動作比較,得到每個(gè)測試動作的相似度。
A、B組抽煙、揮拳、單/雙臂揮手呼救4種地鐵乘客不安全行為各50組數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 2組動作相似度結(jié)果分布對比Fig.6 Comparison on distribution of motion similarity results of two groups
由圖6可知,B組相似度整體高于A組,尤其在揮拳、單臂呼救、雙臂呼救3種動作上的差異更顯著;A組在抽煙、揮拳、單臂呼救、雙臂呼救4種動作相似度上的分散程度高于B組,說明采用B組“Pelvis發(fā)散法”獲得的動作相似度結(jié)果比A組“相連關(guān)節(jié)法”集中程度更高,穩(wěn)定性更強(qiáng)。
對A、B組4種地鐵乘客不安全行為的各50組數(shù)據(jù)分別取平均值,獲得最終相似度如表3所示。
表3 不安全行為相似度結(jié)果Table 3 Similarity results of unsafe behavior
由表3可知,B組的最終動作相似度均高于A組,說明采用“Pelvis發(fā)散法”選取動作特征向量進(jìn)行動作識別優(yōu)于“相連關(guān)節(jié)法”。其中抽煙的動作相似度整體最高,A組達(dá)88.6%,B組達(dá)91.7%;雙臂揮手呼救的動作相似度整體最低,A組為67.9%,B組為85.5%。分析認(rèn)為,數(shù)據(jù)的傳輸及錄入本身存在一定的誤差延遲,屬于系統(tǒng)誤差,因此,相似度超過80%[3]即可認(rèn)為達(dá)到識別目的,可見,B組對4種動作的識別均達(dá)到良好效果。
同時(shí),雙臂揮手呼救動作的相似度整體偏低的原因主要有:運(yùn)動速度加快,如雙臂揮動速度過快會導(dǎo)致系統(tǒng)誤差進(jìn)一步增大;由于該動作存在雙臂交叉情況,導(dǎo)致選取的關(guān)節(jié)點(diǎn)在某一時(shí)間點(diǎn)重合,影響動作信息捕獲的穩(wěn)定性,產(chǎn)生關(guān)節(jié)位置信息偏差,即關(guān)節(jié)點(diǎn)重合也是導(dǎo)致該動作相似度較低的原因之一。后續(xù)可進(jìn)一步開發(fā)Kinect動作捕捉算法,提高關(guān)節(jié)點(diǎn)重合類動作的相似度。
1)基于Kinect獲取的骨骼信息,提出1種地鐵乘客不安全行為識別方法,方法以Pelvis為起點(diǎn)和動作活動高頻關(guān)節(jié)為終點(diǎn)構(gòu)建識別特征向量,基于動態(tài)時(shí)間規(guī)整算法(DTW)以最大角度差為動作特征量建立相似度計(jì)算模型,可解決冗余關(guān)節(jié)導(dǎo)致的動作識別魯棒性較低、DTW結(jié)果量化與實(shí)際應(yīng)用問題。
2)完成“相連關(guān)節(jié)法”(A組)和“Pelvis發(fā)散法”(B組)在抽煙、揮拳、單/雙臂揮手呼救4種地鐵乘客不安全行為識別的對比實(shí)驗(yàn)。結(jié)果表明:B組識別4種不安全行為的準(zhǔn)確度分別為91.7%、86.9%、89.2%、85.5%,平均比A組高4%以上,且識別結(jié)果集中程度更高、穩(wěn)定性更強(qiáng),顯著提高了地鐵乘客不安全行為的識別率。
3)研究重點(diǎn)在于,以小樣本數(shù)據(jù)量為基礎(chǔ),避免復(fù)雜訓(xùn)練算法,對動作進(jìn)行有效識別。但實(shí)驗(yàn)過程中發(fā)現(xiàn)雙臂揮手呼救動作的識別準(zhǔn)確度整體偏低(A組為67.9%,B組為85.5%),除系統(tǒng)誤差外,運(yùn)動速度加快、關(guān)節(jié)點(diǎn)重合是導(dǎo)致該問題的原因,在后續(xù)研究中可進(jìn)一步深入探討。