戎 煒,蔣哲遠,謝 昭,吳克偉
(合肥工業(yè)大學計算機與信息學院,合肥 230601)
群組行為不同于個體行為,指的是由多個個體共同參與,并且個體與個體間存在交互的行為。群組行為識別的目的是識別場景中不同人群的群組行為。在角色理解和事件識別等現(xiàn)實應用中,對群組行為的分析能提供十分有用的信息幫助應用完成工作。
群組行為識別領(lǐng)域的主要挑戰(zhàn)是人與人之間的交互語境信息的建模。這是因為通常在一次交互中,參與一次互動的人數(shù)是會變化的,而且在多數(shù)情況下,一個群組行為的發(fā)生與若干個組的子交互行為相聯(lián)系,使得對組與組間交互的建模越發(fā)具有挑戰(zhàn)性。同時,在實際問題中,由于環(huán)境中人物會出現(xiàn)相互遮擋與進出畫面等不可抗力因素存在,不僅在子交互層面上提高了識別動作的難度,也對個體與個體間、組與組間的交互語義信息的提取有更高的要求。
針對該問題,本文提出了基于近鄰傳播(Affinity Propagation,AP)算法的層次關(guān)聯(lián)模塊的深度神經(jīng)網(wǎng)絡(luò)模型。主要貢獻在于:
1)提出了基于近鄰傳播算法的方法,提取場景中的群組關(guān)聯(lián)信息而非分別提取每個成員的個體信息。結(jié)合層次關(guān)聯(lián)網(wǎng)絡(luò),使群體行為識別任務(wù)能充分利用群組關(guān)聯(lián)信息,降低了對個體行為信息的依賴,提高了識別準確率,。
2)提出一種端到端的基于聚類層次關(guān)聯(lián)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型。利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取場景中個體行為特征,利用聚類提取關(guān)聯(lián)信息,利用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)融合個體特征與關(guān)聯(lián)特征,綜合利用多層次、多模態(tài)等策略實現(xiàn)群組行為識別,在如圖1 所示的Volleyball 和Collective Activity 數(shù)據(jù)集上提高了準確率。
圖1 Volleyball和Collective Activity 數(shù)據(jù)集上的群組行為示例Fig.1 Group behavior examples in Volleyball dataset and Collective Activity dataset
早期的群體行為識別主要基于手工標識的視覺特征,代表模型為與或語法模型與概率圖模型。近來,隨著卷積神經(jīng)網(wǎng)絡(luò)等深度學習方法在目標檢測[1-2]、圖像分類[3-4]和行為識別[5]等領(lǐng)域的廣泛應用,群組行為識別領(lǐng)域的研究也獲得了強勁的推動力。Ibrahim 等[6]設(shè)計了雙層深度時序模型,運用兩層長短期記憶網(wǎng)絡(luò)中一層的結(jié)構(gòu)表示個人動作運動信息,另一層則將個人層級的信息聚合。Bagautdinov 等[7]展示了一個用于多人的聯(lián)合檢測與行為識別的通用框架。Ramanathan等[8]引入注意力機制,以區(qū)分不同成員的重要程度,在融合個體特征的過程中給予關(guān)鍵的個體更高的權(quán)重。研究者們在探索場景語境建模方面也做出了努力,這些努力以結(jié)構(gòu)化的循環(huán)神經(jīng)網(wǎng)絡(luò)或生成說明文字來表現(xiàn)。Amer等[9]探測出視頻中群組行為發(fā)生的部分并將這些局部視覺線索用于群組行為識別。Lan 等[10]提出了一個自適應潛在結(jié)構(gòu)學習方法,用來表示從低層次個體信息到高層次群體交互信息的層級關(guān)系。Mori 等[11]與Ramanathan 等[12]提出了社會角色的想法,即在群組語境中個人的目標行為,可以分別被全監(jiān)督和半監(jiān)督框架利用。Choi 等[13]已經(jīng)在一個聯(lián)合框架中統(tǒng)一了多人追蹤、個體動作識別、交互和群組行為識別。Choi 等[14]還提出了一個隨機森林架構(gòu)來對從輸入視頻域到3D 馬爾可夫隨機場的判別時空區(qū)域進行采樣,以此定位場景中的群組行為。并且,Deng 等[15]介紹了一個基于分層圖模型的神經(jīng)網(wǎng)絡(luò),能同時預測群組行為。Azar等[16]提出了多模態(tài)融合的卷積神經(jīng)網(wǎng)絡(luò)模型,充分利用RGB等三種不同的模態(tài)信息進行互補。
上述的大多數(shù)方法都是利用群組行為中個體的運動軌跡描述運動信息,利用個體行為的融合形成群組特征,由于群組行為場景中頻繁出現(xiàn)的遮擋等情況,依賴目標追蹤和目標檢測的軌跡本身并不可靠。因此,Shu 等[17]提出了聯(lián)合目標定位和群組行為識別的聯(lián)合框架,框架不再依賴軌跡信息。而He等[18]則提出了基于語義的方法,引入圖片標注[19]方法描述群組行為。
上述方法在融合個體特征時,忽略或并未充分利用群組中的關(guān)聯(lián)特征信息。本文利用改進的層次關(guān)聯(lián)網(wǎng)絡(luò),結(jié)合近鄰傳播算法規(guī)則,以有效地挖掘群組關(guān)聯(lián)信息,能夠更準確地對群組行為進行識別。
為了有效地利用關(guān)聯(lián)信息識別多人場景中的群組行為,提出了基于AP 聚類層次關(guān)聯(lián)網(wǎng)絡(luò)的群組性為識別框架。這個框架在提取關(guān)聯(lián)信息表示和關(guān)系推理方面表現(xiàn)出色,并以此提高群組行為識別的準確率。
聚類關(guān)聯(lián)網(wǎng)絡(luò)原理圖如圖2 所示。首先,將單幀場景圖經(jīng) 由CNN(InceptionV3)層[20]提 取 特 征,再 由RoIAlign(Regions of Interest Align)層[21]檢測出場景中人物的特征部分,同時保留場景圖特征。對于人數(shù)不固定的情況,RoIAlign層也能基于場景中人數(shù)提取每個個體的特征。由于部分人物存在遮擋重疊情況,提取出的人物特征會相對受到影響。全連接(Full Connection,F(xiàn)C)層負責將提取的特征變換維度,每個人物的特征矩陣維度為1×1024。標記了人物特征位置信息的場景圖特征經(jīng)過FC 層后,經(jīng)過MaxPooling 層的輸入特征連接并通過LSTM 層[22]得到群組行為特征,最后經(jīng)由softmax層輸出群組行為識別結(jié)果。
圖2 聚類關(guān)聯(lián)網(wǎng)絡(luò)原理Fig.2 Principle of clustering relational network
近鄰傳播算法[23]即AP 聚類,適合高維的、多類數(shù)據(jù)快速聚類,相比傳統(tǒng)算法,在聚類性能與執(zhí)行效率上都有大幅提升。
該算法的基本思想是將所有樣本視作網(wǎng)絡(luò)中的節(jié)點,通過網(wǎng)絡(luò)中每條邊的消息傳遞計算出每個樣本的聚類中心。聚類過程中,在節(jié)點與節(jié)點間共傳遞兩種消息,它們分別被稱作吸引度(Responsibility)以及歸屬度(Availability)。AP 聚類算法通過不斷迭代,更新網(wǎng)絡(luò)中每個節(jié)點的吸引度和歸屬度值,直到產(chǎn)生m個高質(zhì)量的Exemplar(類似于質(zhì)心),同時其余數(shù)據(jù)節(jié)點將會被分配到相應的聚類中。
數(shù)據(jù)點i與數(shù)據(jù)點j的相似度記為s(i,j),表示點j作為點i的聚類中心的相似度。通常使用歐氏距離計算,點與點的相似度值一般全為負,所以,相似度值越大,則點與點的距離越近。吸引度r(i,k)描述點k適合作為數(shù)據(jù)點i的聚類中心的程度。歸屬度a(i,k)描述點i選擇點k作為其聚類中心的適合程度。
算法流程如下:
步驟1 算法初始,將吸引度矩陣R和歸屬度矩陣A初始化為0矩陣;
步驟2 更新吸引度矩陣
步驟3 更新歸屬度矩陣
步驟4 根據(jù)衰減系數(shù)λ對兩個公式進行衰減
重復步驟2~4至矩陣穩(wěn)定或者達到最大迭代次數(shù),算法結(jié)束。最終取r(i,k)+a(i,k)中最大的k作為聚類中心。如圖3 所示,AP聚類將處于同一個群組行為的人分為同組。
圖3 AP聚類層次關(guān)聯(lián)模塊結(jié)構(gòu)Fig.3 Structure of AP clustering hierarchical relational module
正文內(nèi)容本文提出的AP聚類-層次關(guān)聯(lián)模塊在層次關(guān)聯(lián)網(wǎng)絡(luò)[24]上做出了改進,增加了AP聚類層。該層的輸出作為層次關(guān)聯(lián)網(wǎng)絡(luò)的輸入,以實現(xiàn)關(guān)聯(lián)信息的融合。AP 聚類-層次關(guān)聯(lián)模塊的基本思想是在層次關(guān)聯(lián)網(wǎng)絡(luò)的基礎(chǔ)上,以AP聚類代替原有的空間距離線索,對單幀中的K個單人特征建立潛在關(guān)系圖。相較于原空間線索,AP聚類產(chǎn)生的場景圖特征更能挖掘場景中的關(guān)聯(lián)信息,從而獲得更準確的特征表達。
如圖3所示,AP聚類-層次關(guān)聯(lián)模塊由3個或更多個AP聚類層與關(guān)聯(lián)層的組合單元構(gòu)成。這3 個單元中關(guān)于場景中人物集團的數(shù)量Cl各不相同,第1層Cl1為4個集團,第2層Cl2為2個,第3層Cl3為1個。為了與關(guān)聯(lián)層數(shù)量匹配,模塊中共有3個聚類層。對第i個單元,先由一個AP聚類層對場景圖中進行聚類,形成Cli個聚類中心,AP 聚類生成的是包含各個人物特征以及其關(guān)聯(lián)信息的新的場景圖特征,并作為關(guān)聯(lián)層的輸入。一個關(guān)聯(lián)層由場景圖特征中K個人物對應的特征與一個關(guān)聯(lián)圖組成,并且輸出K個新的關(guān)聯(lián)特征表達,替換中的對應特征,形成新的場景圖特征。該模塊的核心是關(guān)聯(lián)單元,通過聚合關(guān)聯(lián)圖中鄰近人物的信息,生成新的特征表達。在單個關(guān)聯(lián)層中,場景中的每個人都經(jīng)過關(guān)聯(lián)模塊處理,輸出的是該人物的信息與其他鄰近人物信息的融合特征。
在AP 聚類-層次關(guān)聯(lián)模塊的關(guān)聯(lián)層部分中,每一層的關(guān)聯(lián)圖和關(guān)聯(lián)單元參數(shù)相互獨立。每一層對群組進行不同粒度的訓練,并在最后一層進行池化操作。具體流程見圖4。輸入場景圖特征中的K個人對應的特征Pi,這些特征進入3 個關(guān)聯(lián)層。每個關(guān)聯(lián)層有一個關(guān)聯(lián)圖,這些圖會隨著層的不同而變化。每層中共用一個多層感知機(MultiLayer Perceptron,MLP)Fl,負責計算兩個相鄰人物的特征。最后K個特征輸出的池化輸入LSTM 模塊中用于群組行為識別,并輸出群組融合特征。
對于一幀視頻場景,其中的ith個人的特征表達在關(guān)聯(lián)層lth中按照式(7)、(8)計算:
之后將場景表達S與經(jīng)過MaxPooling 層的輸入特征相融合,經(jīng)過LSTM 層得到1×1 024 的輸出特征,最后通過softmax層得到群體識別結(jié)果。
Volleyball 數(shù)據(jù)集從55 場排球比賽中擷取4 830 個片段所構(gòu)成,其中包括3 494 個訓練片段和1 337 個測試片段。每一個片段都有一個群組行為標簽,總共有8 個不同種類的群組行為標簽,該標簽定義了在場景中的哪個部分正在發(fā)生的群組類別。其中每個群組中的每個運動員都有一個邊界框坐標組和一個個體動作標簽注釋描述其位置和個體動作,總共有9個不同種類的個體標簽。本文將3 494個訓練片段作為訓練集,1 337個測試片段作為測試集。本文使用以注釋幀為中心的前5 幀和后4 幀,共10 幀圖像進行實驗分析。未被注釋的幀的邊界框坐標信息由數(shù)據(jù)集中的軌跡信息數(shù)據(jù)提供。
Collective Activity 數(shù)據(jù)集包含44 個短視頻序列,總共約2 500幀,每10幀有一個標簽,由一個群組行為標簽,場景中個體位置的邊界框坐標組與每個個體的姿態(tài)標簽組成??偣灿?個群組行為與6個個體動作,單幀場景中的群組行為標簽由最多個體參與的群組的行為決定。本文將該數(shù)據(jù)集的2/3 作為訓練集,1/3 作為測試集。同樣,本文使用以注釋幀為中心的前5幀和后4幀共10幀圖像進行實驗分析。
文中選擇準確率(Accuracy)指標來評價方法和模型的性能。準確率是群組行為識別任務(wù)廣泛采用的指標,準確率計算方法如下:
其中nij指真實標簽是i,分類預測結(jié)果標簽是j的樣本數(shù)量。njj是nij的特殊情況,代表真實標簽和分類結(jié)果標簽均為j。N代表參與測試和評價的樣本總數(shù)量,Acc代表準確率。準確率越高代表方法和模型的效果越好。
本文在64 位系統(tǒng)Ubuntu16.04 上安裝了pytorch 深度學習框架,該計算機GPU 由兩塊NVIDIA GeForce GTX 1080 與一塊NVIDIA GeForce TITAN xp 組成,共有四塊GPU。CPU 采用Intel Core i7-8700k 型號。內(nèi)存大小為48 GB,編程環(huán)境選擇python3.6環(huán)境。
為了驗證本文設(shè)計的網(wǎng)絡(luò)模型的有效性,在兩個公開數(shù)據(jù)集上對模型進行了驗證,并與當前先進的實驗方法進行對比。最后對實驗結(jié)果進行可視化輸出。
實驗選取的是Volleyball 數(shù)據(jù)集與Collective Activity 數(shù)據(jù)集。這是兩個被廣泛應用的群組行為識別數(shù)據(jù)集。
實驗首先使用時序分割網(wǎng)絡(luò)對10 幀圖像隨機抽樣,抽取的圖像生成的特征圖輸入RoIAlign 網(wǎng)絡(luò)模塊。RoIAlign 截取特征圖中個體位置邊界框內(nèi)的特征,得到個體動作特征圖。實驗使用預訓練的基于AP 聚類的層次關(guān)聯(lián)網(wǎng)絡(luò)模塊進行訓練,該網(wǎng)絡(luò)模塊可以識別個體動作與群組行為,最后經(jīng)過全連接層得出識別結(jié)果。
實驗中使用的卷積神經(jīng)網(wǎng)絡(luò)是InceptionV3,該網(wǎng)絡(luò)首先將圖片統(tǒng)一調(diào)整成224×224作為輸入,提取隨機抽樣得到的視頻幀的外觀特征。本文使用預訓練的InceptionV3 網(wǎng)絡(luò),網(wǎng)絡(luò)輸出的特征為1 056 維,之后在全連接層降為1 024 維。實驗使用ADAM(ADAptive Moment)優(yōu)化器學習網(wǎng)絡(luò)權(quán)重。
針對VolleyBall與Collective Activity 數(shù)據(jù)集訓練樣本不足的問題,采用數(shù)據(jù)擴充(Data Augmentation)方法,具體擴充方法分為兩種:角裁剪(Corner Cropping)與尺度抖動(Scale Jittering)。角裁剪僅從圖片的中心與邊角位置提取區(qū)域;尺度抖動則固定輸入圖像的大小為256×340,裁剪區(qū)域的寬與高在{256,224,192,168}中隨機選擇。實驗使用的角裁剪和尺度抖動結(jié)合的數(shù)據(jù)擴充方法是從輸入圖像的4個邊、4個角以及中心隨機尺度抖動,裁切9 張原圖的一部分圖像,拉伸至224×224 大小,加上原圖一共10 張圖一組。這組圖像代替原輸入圖像進行特征提取。經(jīng)過數(shù)據(jù)擴充的數(shù)據(jù)集的訓練樣本數(shù)增加,防止了嚴重的過擬合,同時提升了識別的準確度。
對于Volleyball 數(shù)據(jù)集,超參數(shù)設(shè)置如下所示:網(wǎng)絡(luò)訓練300 個周期,批數(shù)據(jù)大小為24,學習率開始為2E-4,在第41 個周期衰減為1E-4,第81 個周期衰減為5E-5,第121 個周期衰減為1E-5,Dropout 參數(shù)為0.5。損失函數(shù)為群組行為損失函數(shù)與個體動作損失函數(shù)的加權(quán)和,個體動作損失權(quán)重為1。
對于Collective Activity 數(shù)據(jù)集,超參數(shù)設(shè)置如下所示:網(wǎng)絡(luò)訓練300 個周期,批數(shù)據(jù)大小為16,學習率為1E-5,學習率衰減為1E-2,Dropout 參數(shù)為0.5。損失函數(shù)為群組行為損失函數(shù)與個體動作損失函數(shù)的加權(quán)和,個體動作損失權(quán)重為1。
為了研究本文提出的區(qū)域特征融合、多層次特征、多模態(tài)特征融合對群組行為識別任務(wù)的提升效果,本文在未經(jīng)過數(shù)據(jù)擴充的數(shù)據(jù)集上進行了消融實驗。各數(shù)據(jù)集消融實驗結(jié)果如表1、2 所示,Base Model 代表不采用AP 聚類的層次關(guān)聯(lián)網(wǎng)絡(luò);Base+LSTM 在Base Model 基礎(chǔ)上增加了一層LSTM 層;Base+2LSTM+Attention 代表在Base Model 基礎(chǔ)上增加2 層LSTM 層和注意力機制(Attention)模塊;Base+HOI(Histogram of Intensity)代表在Base Model 基礎(chǔ)上增加了HOI 模塊;Base+AP+LSTM代表本文完整的模型。
3.5.1 消融實驗結(jié)果與分析
由表1 可知,本文提出的方法對模型準確率的提升效果最為明顯,為1.79 個百分點,單獨的LSTM 模塊、Attention 方法和HOI 方法也能提升模型準確率,分別為0.87 個百分點、0.79個百分點和0.87個百分點。
Collective 消融實驗結(jié)果如表2 所示。本文提出的方法對模型準確率的提升效果最為明顯,為2.51 百分點。單獨的LSTM 模塊、Attention 方法和HOI 對模型準確率的提升分別為0.55百分點、0.42百分點和1.1百分點。
圖4為各方法的準確率收斂曲線圖。由圖4可知,各方法的改進不僅會帶來準確率的提升,同時也會提高收斂的速度。其中本文提出的方法具有最快的收斂速度,且曲線較為平緩,震蕩情況較少,同時最終識別準確率也高于其他方法。表明本文提出的方法能夠有效地提取并融合群組關(guān)聯(lián)信息。
表1 Volleyball數(shù)據(jù)集上的消融實驗結(jié)果 單位:%Tab.1 Ablation results on Volleyball dataset unit:%
表2 Collective Activity 數(shù)據(jù)集上的消融實驗結(jié)果 單位:%Tab.2 Ablation results on Collective Activity dataset unit:%
圖4 不同方法的準確率的收斂曲線Fig.4 Convergence curves of accuracy of different methods
3.5.2 與其他方法的對比分析
為了說明本文方法和模型的有效性,本文還將模型在Volleyball 數(shù)據(jù)集上的準確率和其他先進方法結(jié)果進行對比,其中包括HDTM(Hierarchical Deep Temporal Model)、SSU(Social Scene Understanding)、MSCNN (Multi-Stream Convolutional Neural Network)、SBGAR(Semantics Based Group Activity Recognition)、CERN(Confidence-Energy Recurrent Network)等方法。結(jié)果如表3 所示,本文方法(Original)代表未經(jīng)過數(shù)據(jù)擴充的結(jié)果,本文方法(Data Augmentation,DA)代表經(jīng)過數(shù)據(jù)擴充后的結(jié)果。由表可知,本文方法在Volleyball 數(shù)據(jù)集上的結(jié)果優(yōu)于其他方法,但數(shù)據(jù)擴充對于準確度的提升在Volleyball數(shù)據(jù)集上體現(xiàn)不明顯。
表3 不同方法在Volleyball數(shù)據(jù)集上的準確率 單位:%Tab.3 Accuracies of different methods on Volleyball dataset unit:%
與其他先進方法在Collective Activity 數(shù)據(jù)集上的對比結(jié)果如表4所示,其中除了表3出現(xiàn)過的方法,還列舉了MTCAR(Multi-target Tracking and Collective Activity Recognition)、MCPK(Multi-instance Cardinality Potential Kernel)與DLM(Discriminative Latent Model)等方法。本文方法(Original)代表未經(jīng)過數(shù)據(jù)擴充的結(jié)果,本文方法(DA)代表經(jīng)過數(shù)據(jù)擴充后的結(jié)果。由表可知本文方法優(yōu)于其他方法,經(jīng)過數(shù)據(jù)擴充后的識別準確度獲得了明顯的提升。
表4 不同方法在Collective Activity 數(shù)據(jù)集上的準確率 單位:%Tab.4 Accuracies of different methods on Collective Activity dataset unit:%
3.5.3 實驗混淆矩陣
由圖5混淆矩陣分析可知,扣球行為識別率最高,為98.5%。而傳球(set)和墊球(pass)動作較為相似,識別準確率不如扣球(spike)高。由于比賽中經(jīng)常同時出現(xiàn)網(wǎng)前扣球和網(wǎng)前防守等人員聚攏情況,可能使得模型將一方的扣球行為誤判為另一方的行為,導致左右兩組扣球準確率呈現(xiàn)兩極分化趨勢。
圖5 Volleyball數(shù)據(jù)集的混淆矩陣Fig.5 Confusion matrix of Volleyball dataset
由圖6混淆矩陣分析可知,排隊行為(queueing)識別率最高,這是因為人群聚攏時維持站立動作,即會被識別為排隊,同時導致等待行為(waiting)的識別率較低。穿行行為(crossing)識別最低,是因為模型需要識別背景斑馬線信息,很容易與行走行為(walking)混淆。
圖6 Collective Activity 數(shù)據(jù)集的混淆矩陣Fig.6 Confusion matrix of Collective Activity dataset
從圖7 兩個數(shù)據(jù)集返回的識別結(jié)果來看,盡管實驗過程中出現(xiàn)了預測個體動作時將多數(shù)動作都判斷為站立動作的情況,但本文方法所預測群體行為的返回結(jié)果仍是正確的,說明該方法群體識別的準確率較高。
圖7 群體行為識別結(jié)果示例Fig.7 Examples of group behavior recognition
本文針對其他群組行為識別方法沒有充分利用群組關(guān)聯(lián)信息的問題,提出了基于近鄰傳播算法的改進型層次關(guān)聯(lián)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)首先利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用近鄰傳播算法提取群組關(guān)聯(lián)信息,與層次關(guān)聯(lián)網(wǎng)絡(luò)提取的群組行為特征融合,再利用LSTM 進行序列建模獲得群組行為識別結(jié)果。本文方法在Volleyball 和Collective Activity 兩大公共數(shù)據(jù)集上取得了優(yōu)于其他最新方法的結(jié)果,表明基于近鄰傳播算法的方法和層次關(guān)聯(lián)網(wǎng)絡(luò)能充分利用群組的關(guān)聯(lián)信息,有效結(jié)合群組行為特征,提高群組行為識別的效率和準確率。由于僅采用了RGB 圖像作為輸入而未采用光流圖作為輸入,準確率仍有提升的空間。考慮到光流在行為識別中可以提供重要的運動信息,使用RGB 和光流圖混合輸入的多模態(tài)策略將作為該方法可能的提升方向。