姬曉飛,謝 旋
(沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院,遼寧 沈陽(yáng) 110136)
基于視頻的雙人交互行為識(shí)別與理解是圖像處理與計(jì)算機(jī)視覺領(lǐng)域中備受關(guān)注的前沿方向,它利用視頻分析技術(shù)從包含人的圖像序列或視頻中檢測(cè)、跟蹤、識(shí)別人體及動(dòng)作對(duì)象,并對(duì)其行為進(jìn)行理解和描述[1-3]。目前大部分研究關(guān)注的都是對(duì)發(fā)生行為的事后檢測(cè),而在很多現(xiàn)實(shí)場(chǎng)景中,需要系統(tǒng)能夠?qū)φ趫?zhí)行的、未完成的行為進(jìn)行提早的預(yù)測(cè)。人類動(dòng)作預(yù)測(cè)與動(dòng)作分類不同,動(dòng)作預(yù)測(cè)系統(tǒng)需要在動(dòng)作執(zhí)行過程中做出“哪些動(dòng)作行為發(fā)生”的決定。雙人交互行為預(yù)測(cè)具有重大的現(xiàn)實(shí)意義,如:在兩個(gè)人的打架行為惡化之前對(duì)其進(jìn)行檢測(cè),將使視頻監(jiān)控系統(tǒng)具有阻止犯罪行為發(fā)生的能力,使視頻資源發(fā)揮更大的作用。
Ryoo[1]率先提出動(dòng)態(tài)BoW(bag of word)的概率統(tǒng)計(jì)方法解決雙人交互行為的預(yù)測(cè)問題,采用時(shí)空特征的整體直方圖形式對(duì)動(dòng)作進(jìn)行表示,而后有效的建模特征隨時(shí)間變化的分布情況實(shí)現(xiàn)動(dòng)作預(yù)測(cè)。該方法不僅簡(jiǎn)單易行,并且提供了雙人交互行為預(yù)測(cè)基本框架。在此基礎(chǔ)上,Yu等[4]提出了一種時(shí)空隱式形狀模型(spatial-temporal implicit shape model,STISM)表示局部時(shí)空特征的時(shí)空結(jié)構(gòu),并采用多類平衡的隨機(jī)森林方法匹配實(shí)現(xiàn)雙人交互行為預(yù)測(cè)。Li等[5]通過監(jiān)測(cè)運(yùn)動(dòng)速度,將長(zhǎng)時(shí)間活動(dòng)分解編碼成有意義的行動(dòng)單元序列,然后引入概率后綴樹(probabilistic suffix tree,PST)表示動(dòng)作單元之間的馬爾可夫依賴關(guān)系;最后利用預(yù)測(cè)累積函數(shù)(predictive accumulative function,PAF)描述各種活動(dòng)的可預(yù)測(cè)性。以上均是采用傳統(tǒng)的概率模型統(tǒng)計(jì)的方法,識(shí)別與預(yù)測(cè)的準(zhǔn)確率均不是很高。近些年,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法開始被應(yīng)用到雙人交互行為預(yù)測(cè)領(lǐng)域。Ke等[6]從部分序列的連續(xù)視頻幀計(jì)算光流圖像,以分別捕獲每個(gè)RGB幀和每個(gè)光流圖像對(duì)全局和局部上下文的依賴性,然后利用長(zhǎng)時(shí)短期記憶(long short term memory,LSTM)網(wǎng)絡(luò)學(xué)習(xí)包括空間和時(shí)間信息的結(jié)構(gòu)模型,最后引入排名分?jǐn)?shù)融合方法預(yù)測(cè)交互類別。但是最佳權(quán)重的選擇具有隨機(jī)性。Ke等[7]將CNN應(yīng)用于視頻流編碼圖像以學(xué)習(xí)人類交互預(yù)測(cè)的時(shí)間信息,利用幾個(gè)連續(xù)的光流圖像的特征來(lái)學(xué)習(xí)隨時(shí)間變化的規(guī)律。但是這種方法只利用了時(shí)間特征,缺乏人體姿態(tài)的空間特征信息描述,并且需要學(xué)習(xí)大量的樣本,計(jì)算復(fù)雜度相對(duì)較高。
基于以上分析,文獻(xiàn)[1]提出的方法簡(jiǎn)單有效,且可實(shí)現(xiàn)性強(qiáng),其不足之處是實(shí)現(xiàn)雙人交互行為預(yù)測(cè)與識(shí)別一體化效果不理想,預(yù)測(cè)與識(shí)別準(zhǔn)確率較低。文中在文獻(xiàn)[1]的基礎(chǔ)上,提出了詞袋模型與多時(shí)間比例動(dòng)作模型概率融合的方法,以實(shí)現(xiàn)雙人交互行為預(yù)測(cè)與識(shí)別一體化。文中算法的具體流程見圖1。
圖1 算法流程
首先,訓(xùn)練集視頻進(jìn)行興趣點(diǎn)提取和3D-SIFT特征描述[8];然后將訓(xùn)練數(shù)據(jù)分割成不同時(shí)間比例數(shù)據(jù),并用詞袋方法得到在不同時(shí)間比例下的視頻直方圖表示;最后,利用高斯模型建立各不同時(shí)間比例數(shù)據(jù)下的動(dòng)作模型。當(dāng)給定未知長(zhǎng)度測(cè)試視頻,進(jìn)行特征描述后形成一個(gè)詞袋直方圖表示,計(jì)算其與訓(xùn)練好的不同時(shí)間比例下各高斯模型的相似概率,判別測(cè)試視頻所屬動(dòng)作類別。通過大量實(shí)驗(yàn)驗(yàn)證,該方法在保證一定預(yù)測(cè)準(zhǔn)確率的同時(shí),也得到了較好的識(shí)別效果。
局部特征具有可以描述具有顯著變化運(yùn)動(dòng)信息的優(yōu)點(diǎn)[9],興趣點(diǎn)是目前比較常用的一種局部特征[10],因此文中采用其作為基礎(chǔ)特征。通過對(duì)興趣點(diǎn)的鄰域進(jìn)行有效描述,能夠得到代表此圖像序列的局部信息特征[11]。3D-SIFT描述算子是一種三維時(shí)空梯度方向直方圖,能準(zhǔn)確地捕捉到視頻數(shù)據(jù)的時(shí)空特性的本質(zhì)[12]。為了充分利用上下文的運(yùn)動(dòng)信息,文中對(duì)整個(gè)視頻采集興趣點(diǎn),然后進(jìn)行3D-SIFT特征描述,即:在興趣點(diǎn)鄰域內(nèi)建立3D球形體積塊,在每個(gè)體積塊里進(jìn)行梯度累積。
興趣點(diǎn)特征與詞袋模型[13]相結(jié)合可以方便地得到動(dòng)作視頻的詞袋直方圖表示。通常采用k-means方法對(duì)訓(xùn)練數(shù)據(jù)的所有局部特征表示進(jìn)行聚類形成詞典,然后將一個(gè)動(dòng)作視頻的所有局部特征向詞典投影,最終統(tǒng)計(jì)詞典中視覺單詞在視頻中出現(xiàn)的頻率,形成動(dòng)作視頻的統(tǒng)計(jì)直方圖表示。該方法已廣泛用于人體動(dòng)作識(shí)別。為了將此框架運(yùn)用于雙人交互行為預(yù)測(cè),將訓(xùn)練視頻按照一定比例分割成不同時(shí)間長(zhǎng)度的子訓(xùn)練集,即將興趣點(diǎn)3D-SIFT描述的訓(xùn)練數(shù)據(jù),按照不同時(shí)間比例分割成不同時(shí)間長(zhǎng)度的子訓(xùn)練數(shù)據(jù),每個(gè)子訓(xùn)練數(shù)據(jù)用一個(gè)詞袋直方圖表示。令Ol表示動(dòng)作視頻,di表示其時(shí)間比例,hdi(Ol)表示di時(shí)間比例下Ol的子訓(xùn)練數(shù)據(jù)直方圖。vw表示第w個(gè)視覺單詞,則每一個(gè)特征直方圖hdi(Ol)的第w個(gè)詞袋的值為:
hdi(Ol)[w]=|{f|f∈vw∧tf (1) 其中,f表示視頻Ol提取的特征;tf表示其時(shí)間位置。 每一個(gè)hdi(Ol)描述了時(shí)間比例為di的時(shí)空特征直方圖隨時(shí)間變化的分布情況,示例如圖2所示。 圖2 握手動(dòng)作整體直方圖變化趨勢(shì) 經(jīng)大量實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),同類別動(dòng)作視頻在相同時(shí)間比例下的詞袋直方圖符合一定參數(shù)下的高斯分布。因此可以采用高斯模型建立不同時(shí)間比例下同類別動(dòng)作模型,該模型可以較好地反映某種動(dòng)作執(zhí)行到某個(gè)時(shí)間節(jié)點(diǎn)時(shí),其詞袋直方圖的表現(xiàn)形式。 文中將訓(xùn)練視頻按不同時(shí)間比例d1,d2,…,d6分割,并對(duì)分割后的訓(xùn)練視頻分別建立高斯模型。記h(1,d),h(2,d),…,h(A,d)分別為當(dāng)前時(shí)間比例為d的第A類動(dòng)作的高斯模型,當(dāng)給定一未知?jiǎng)幼饕曨lOtest時(shí),計(jì)算Otest與當(dāng)前時(shí)間比例d下各個(gè)動(dòng)作高斯模型的似然概率,即:p(Otest|h(1,d)),p(Otest|h(2,d)),…,p(Otest|h(A,d))。 (2) 其中,d為訓(xùn)練視頻的當(dāng)前時(shí)間比例;A為d時(shí)間比例下動(dòng)作模型類別數(shù);h(a,d)為動(dòng)作a的直方圖對(duì)應(yīng)的高斯模型;h(Otest)為未知?jiǎng)幼饕曨lOtest的直方圖高斯模型;σ2描述的是動(dòng)作a在時(shí)間比例d下高斯模型的相同變量。 給定一時(shí)間長(zhǎng)度為t的測(cè)試視頻Otest(t未知),計(jì)算Otest與各類動(dòng)作在不同時(shí)間比例下高斯模型的相似概率,依據(jù)概率值大小判別測(cè)試視頻與訓(xùn)練集中各類動(dòng)作的相似程度。最終將未知?jiǎng)幼髋袆e為與其相似度最高的動(dòng)作模型所屬類別。即: (3) 其中,d為當(dāng)前視頻的時(shí)間比例;a為d時(shí)間比例下當(dāng)前動(dòng)作模型類別。 文中采用詞袋模型與多時(shí)間比例高斯模型相結(jié)合的預(yù)測(cè)方法,原理上,這種方法可以對(duì)未知雙人交互行為動(dòng)作進(jìn)行基本的預(yù)測(cè)。本次實(shí)驗(yàn)采用的數(shù)據(jù)庫(kù)來(lái)自于UT-interaction數(shù)據(jù)庫(kù)[14],該數(shù)據(jù)庫(kù)廣泛用于雙人交互行為識(shí)別與預(yù)測(cè)算法研究中。實(shí)驗(yàn)在主頻為2.40 GHz,內(nèi)存2 GB,32位win7操作系統(tǒng)下Matlab 2014a軟件平臺(tái)上完成。實(shí)驗(yàn)中采用留一交叉驗(yàn)證對(duì)數(shù)據(jù)庫(kù)進(jìn)行測(cè)試,聚類覺單詞k=800,d1,d2,…,d6分別為50%,60%,70%,80%,90%,100%。由于雙人交互行為預(yù)測(cè)需要豐富的行為信息,所以數(shù)據(jù)庫(kù)中除去“指”動(dòng)作,如圖3所示。 圖3 UT-interaction數(shù)據(jù)庫(kù)圖例 在本次實(shí)驗(yàn)中,利用UT-interaction數(shù)據(jù)庫(kù)對(duì)詞袋結(jié)合多時(shí)間比例高斯模型的方法進(jìn)行了測(cè)試。以handshake測(cè)試視頻為例,示例如圖4所示。 由圖4的實(shí)驗(yàn)結(jié)果可以看出,隨著測(cè)試視頻時(shí)間比例的逐漸增大,同類別動(dòng)作相似概率值逐漸增大,進(jìn)一步驗(yàn)證提出的方法可以實(shí)現(xiàn)雙人交互行為預(yù)測(cè)與識(shí)別一體化。通過對(duì)大量不同時(shí)間比例的測(cè)試視頻實(shí)驗(yàn),得到的實(shí)驗(yàn)預(yù)測(cè)結(jié)果如表1所示。 圖4 handshake測(cè)試視頻在不同時(shí)間比例下相似概率混淆矩陣 表1 不同時(shí)間比例測(cè)試視頻最終預(yù)測(cè)結(jié)果 表2給出了近年來(lái)在公開數(shù)據(jù)庫(kù)中進(jìn)行雙人交互行為預(yù)測(cè)與識(shí)別結(jié)果,將文中提出的方法與其他作比較。結(jié)果表明,采用的方法預(yù)測(cè)與識(shí)別率均高于文獻(xiàn)[1]和文獻(xiàn)[5],雖然文獻(xiàn)[4]和文獻(xiàn)[7]預(yù)測(cè)與識(shí)別率較高,但是算法復(fù)雜度很高并且需要大量學(xué)習(xí)樣本。而提出的詞袋與多時(shí)間比例模型結(jié)合的方法并不需要建立復(fù)雜的預(yù)測(cè)模型,處理速度可達(dá)到15 fps,且預(yù)測(cè)與識(shí)別準(zhǔn)確率較高。 表2 不同方法的識(shí)別結(jié)果 % 提出的基于興趣點(diǎn)統(tǒng)計(jì)特征的方法,實(shí)現(xiàn)了對(duì)不同交互行為動(dòng)作的預(yù)測(cè)。從特征描述與多時(shí)間比例模型概率預(yù)測(cè)的角度出發(fā),采用詞袋與高斯模型相結(jié)合的方法,很好地處理了對(duì)于未知時(shí)間長(zhǎng)度的未知?jiǎng)幼鞯念A(yù)測(cè)和識(shí)別問題。該方法實(shí)現(xiàn)簡(jiǎn)單,滿足實(shí)時(shí)性要求,具有較好的應(yīng)用背景。但是,對(duì)于具有相似動(dòng)作區(qū)間的動(dòng)作預(yù)測(cè)存在一定的誤差。因此,下一步的研究重點(diǎn)將放在預(yù)測(cè)模型優(yōu)化上,以提高雙人交互行為的預(yù)測(cè)率。4 概率預(yù)測(cè)策略
5 實(shí)驗(yàn)結(jié)果與分析
5.1 數(shù)據(jù)庫(kù)
5.2 概率預(yù)測(cè)結(jié)果
5.3 不同預(yù)測(cè)方法比較
6 結(jié)束語(yǔ)