人群密集場景中運動模式識別

2019-07-31 05:05康永欣袁麗英

哈爾濱理工大學(xué)學(xué)報 2019年3期

康永欣　袁麗英

摘要：針對從人群密集場景中識別運動模式的問題，提出了距離依賴中餐館連鎖店過程混合模型。該模型是一種引入依賴關(guān)系的層次化非參貝葉斯模型，能夠通過引進(jìn)獨立于數(shù)據(jù)觀測值的距離依賴信息，準(zhǔn)確建模自然分組的數(shù)據(jù)，從中挖掘共享的數(shù)據(jù)模式。給出了模型的建立過程，并通過吉布斯采樣的方法對模型進(jìn)行求解，同時展示了相關(guān)的實驗結(jié)果。通過對紐約廣場火車站監(jiān)控場景數(shù)據(jù)集中47 866條片段軌跡的建模分析，證明了模型可以自動確定場景中運動模式的個數(shù)，從不完整的軌跡中以98%的正確度學(xué)習(xí)并表達(dá)運動模式，并且能夠在不同的運動模式之間共享公共的子模式。

關(guān)鍵詞：運動模式識別;人群密集場景;非參貝葉斯模型;吉布斯采樣。

DOI：10.15938/j.jhust.2019.03.012

中圖分類號： TP391.4

文獻(xiàn)標(biāo)志碼： A

文章編號： 1007-2683（2019）03-0074-08

Abstract：To address the motion patterns learning task in crowded scenes， we propose a novel Distance Dependent Chinese Restaurant Franchise （DDCRF） mixture model， which is a hierarchical nonparametric Bayesian model based on dependencies. DDCRF can learn the latent patterns accurately by introducing the distance information which is dependent of the observations of data points. We detail the generative process and Gibbs sampling process of DDCRF， and then the results of experiments are shown. An extensive evaluation is performed on the dataset including 47，866 tracklets collected from the crowded New York Grand Central station，? indicating that our algorithm has the following advantages： deducing the number of latent motion patterns automatically， learning motion patterns precisely from these tracklets， and sharing constituent parts and subpatterns among different motion patterns.

Keywords：Motion pattern learning; Crowded scenes; Nonparametric Bayesian model; Gibbs sampling

0 引言

隨著智慧城市的理念深入人心，監(jiān)控攝像頭遍及城市的每一個角落，對監(jiān)控視頻內(nèi)容中的行為分析受到越來越多的關(guān)注[1-2]。在眾多的場景中，公共區(qū)域人群密集場景的行為分析顯得尤為重要，不僅可以提供實時的異常行為監(jiān)測信息，而且可以為公共場所的規(guī)劃和實時疏導(dǎo)提供有效的反饋和指導(dǎo)。對于像車站、機場、商場等監(jiān)控視頻的行為分析中，軌跡學(xué)習(xí)取得了顯著效果[3-5]，在這些場景中，通常很難得到目標(biāo)物的完整軌跡，所以，軌跡片段經(jīng)常被用作目標(biāo)物的原始特征進(jìn)行分析和處理。從監(jiān)控視頻中提取的軌跡片段，軌跡片段雖然較短，并不能描述一個目標(biāo)在場景中所有的活動，但它包含了豐富的時空信息，并具有一定的語義表達(dá)能力。本文的目標(biāo)是從這些軌跡片段中學(xué)習(xí)得到運動模式。這里所說的運動模式是指該場景中行人所經(jīng)過的某些共同區(qū)域，如運動模式可以表述為：從入口a進(jìn)入場景，經(jīng)過場景中的某區(qū)域，從出口b離開場景。其中區(qū)域的大小和位置都與具體的場景以及具體的時間有關(guān)，無法人為指定，需要算法自動發(fā)掘。這些運動模式對監(jiān)控視頻的理解會有很大的幫助。

該任務(wù)有以下難點.

1）運動模式不固定。由于此類場景中行人較多，主觀性較大，且處于遠(yuǎn)景監(jiān)控狀態(tài)，運動模式多樣，依賴于人工觀察很難給出有效的運動模式先驗。

2）軌跡不完整。在行人密集場景下，運動物體之間的距離很近，相互遮擋情況頻繁發(fā)生，大部分跟蹤器容易丟失跟蹤目標(biāo)，跟蹤時間不長，只能得到片段軌跡;

3）運動模式交互現(xiàn)象嚴(yán)重。由于場景復(fù)雜，眾多的運動模式存在交叉重疊部分，普通的以軌跡點速度位置為度量的聚類學(xué)習(xí)方法很難有效區(qū)分交互的運動模式。

針對以上困難，現(xiàn)有算法只能解決某個單一方面的問題。比如，很多算法在學(xué)習(xí)人群密集場景中運動模式的時候，都假設(shè)目標(biāo)物的軌跡在整個場景中是完全已知且連續(xù)的[6-8]，然后取得了一定效果。這個假設(shè)只在簡單場景中成立，在人群密集場景中，由于行人較多，又是遠(yuǎn)景監(jiān)控，所以遮擋現(xiàn)象明顯，跟蹤器很難跟蹤到目標(biāo)的全軌跡。另外一些學(xué)者則看到了片段軌跡的應(yīng)用價值，如參考文[9-11]，Zhou B等在[12]中提到了隨機場主題模型（RFT）建模的方法，這種方法將馬爾科夫隨機場作為先驗約束LDA[13]模型，加強了軌跡片段之間的時空依賴關(guān)系。盡管Zhou B[12]等在人群密集場景的片段軌跡學(xué)習(xí)中取得了一定的進(jìn)展，但是，RFT中的主題個數(shù)是要人工給定的，正如上文中所提到的，在多數(shù)的行人密集場景中，通過預(yù)先觀察是很難給出一個有效的運動模式個數(shù)的。

受到以上算法的啟發(fā)，本文提出了距離依賴中餐館連鎖店過程混合模型（DDCRF）來解決人群密集場景中運動模式學(xué)習(xí)的問題。首先，DDCRF是以狄里克雷過程作為先驗，可以自動發(fā)掘場景運動模式的個數(shù)，不需要人工設(shè)定;其次，引入片段軌跡間的時空依賴關(guān)系作為中餐館模型的距離依賴，能夠從不完整的片段軌跡中準(zhǔn)確的學(xué)習(xí)運動模式;同時，對模型進(jìn)行了層次化擴展，使得不同的運動模式能過共享一些子模式，合理地解決了其它算法中由于運動模式交互而導(dǎo)致的運動模式無法區(qū)分的現(xiàn)象。

1 理論模型

為了學(xué)者能夠更好的理解本文所提出的模型，在本章中先簡要介紹模型的設(shè)計來源，然后重點介紹模型的生成過程和求解方法。

1.1 距離依賴中餐館模型（DDCRP）

距離依賴中餐館模型是由Blei D M[14]提出，是中餐館模型（CRP）[15]的擴展，定義如下：

在距離依賴中餐館過程中，每個顧客i進(jìn)入餐館之后根據(jù)某種距離關(guān)系D選擇一名顧客j作為鄰座，記作ci=j，并坐在他身旁。把每個顧客看作一個節(jié)點，如果兩個顧客比鄰而坐，即相當(dāng)于他們對應(yīng)的節(jié)點之間有一條有向邊把他們連接起來，多個連通的節(jié)點可以形成團簇，這種就坐方式形成了聚類效果。為了描述方便，引入餐桌的概念，把相互聯(lián)通的顧客看作是坐在一張餐桌旁的顧客。如圖1所示

將上述四種情況的似然值變化量Δp與對應(yīng)的先驗概率相乘得到后驗分布，再從后驗分布中采樣得到j(luò)i點的新連接c（1）ji_new，若新的采樣值為上述的情況3）或4），只要在第二層餐館中對相應(yīng)的顧客連接做采樣即可。

至此，完成了DDCRF混合模型的學(xué)習(xí)算法的推導(dǎo)。

2 實驗及結(jié)果

本章將DDCRF混合模型應(yīng)用到行人密集場景下運動模式的學(xué)習(xí)中，該算法利用了軌跡片段之間的時空依賴關(guān)系，并且在不指定運動模式數(shù)目的情況下準(zhǔn)確地發(fā)現(xiàn)場景中的運動模式，本章將描述實驗步驟并給出實驗結(jié)果分析。

2.1 任務(wù)描述

本實驗的基本目的是：從監(jiān)控視頻中提取的軌跡片段如圖 3所示，設(shè)計算法中學(xué)習(xí)得到如圖 4所示的運動模式。這里所說的運動模式是指該場景中行人所經(jīng)過的某些共同區(qū)域，如，其中的一種（圖 4第2幅）運動模式可以表述為：從入口7進(jìn)入場景，經(jīng)過圖中所示區(qū)域，從出口3離開場景。

行人密集場景軌跡數(shù)據(jù)集由[12]提供。該數(shù)據(jù)集包含一段場景為紐約火車站的視頻，長度30分鐘，分辨率760*480 。數(shù)據(jù)集中包括了使用簡單的軌跡跟蹤算法得到的47866條軌跡及部分出入口標(biāo)注信息，其中有3%是有完整軌跡（即包含了整個場景下的完整軌跡和出入口信息），其余均為不完整軌跡，有23%是只有入口被標(biāo)記到，有17%是只有出口信息被標(biāo)注到，有57%出現(xiàn)在場景中的軌跡是無出入口標(biāo)注的。

本文在以下實驗中將為整個場景構(gòu)建視覺字典，然后將每條軌跡編碼成由視覺單詞組成的視覺文檔，用文檔之間的距離來表示各個軌跡之間的時空依賴關(guān)系，從文檔主題分析的角度理解軌跡的運動模式學(xué)習(xí)，場景中常見的運動模式通過本文的算法聚類得到的視覺主題來表示。

2.4 實驗結(jié)果

本節(jié)中從兩部分展示實驗的結(jié)果，一部分是本文的算法從行人密集場景的片段軌跡中學(xué)習(xí)得到的運動模式的可視化效果定性分析，另一部分是通過以人工標(biāo)記數(shù)據(jù)作為參考對聚類結(jié)果的準(zhǔn)確度和完整度進(jìn)行定量評價。

2.4.1 實驗結(jié)果的定性分析

為了方便與相關(guān)文章結(jié)果的比較，采用與文[12]、[17]、[18]、[20]相同的可視化策略，在以上這些文章中字典是按照如下方式進(jìn)行構(gòu)建：整個場景被劃分為多個網(wǎng)格，每個網(wǎng)格的大小是10*10，每個網(wǎng)格上存在4個單詞，每個單詞對應(yīng)上下左右四個方向中的一個，根據(jù)本文所處理的場景，字典大小為76*48*4，將前面通過子軌跡構(gòu)造的長度為1000的字典通過投影矩陣投影到該字典上，將學(xué)習(xí)到的主題也同樣投影到這個字典上。通過這個處理，本文的方法得到的效果可以等價的可視化出來，方便與其他算法進(jìn)行橫向?qū)Ρ取?/p>

圖5展示了本文算法得到的主題的可視化結(jié)果（左側(cè)）與RFT[12]（右側(cè)）的對比，圖5（a）為DDCRF自動求解得到的場景中的48個運動模式，其中白色框出的模式是文[12]沒有發(fā)現(xiàn)的模式;圖5（b）為RFT[12]算法給出的結(jié)果，運動模式個數(shù)為人工指定的30個。這里需要強調(diào)的是，本文算法是自動確定主題的個數(shù)的（48個主題），而對比與文[12]中得到的結(jié)果，本文的方法能夠得到的模式中涵蓋了所有文[13]得到的模式，并且能夠自動發(fā)現(xiàn)一些RFT[13]中沒有發(fā)現(xiàn)的模式，如圖中黃框所示，甚至能夠發(fā)現(xiàn)一些人工監(jiān)控也很難發(fā)現(xiàn)的但是場景中確實存在的運動模式。

2.4.2 實驗結(jié)果的定量評估

在定量評估部分，為了與同類算法進(jìn)行比較，本文采用文[12]、[21]中提到的兩個衡量標(biāo)準(zhǔn)：正確度和完整度。正確度是指在所有由兩個不同類別的樣本組成的樣本對中，兩個樣本被算法聚入不同類別的情況占的比重;完整度是指所有由兩個相同類別的樣本組成的樣本對中，兩個樣本被算法聚入相同團簇的情況所占的比重。為了在一定程度上消除手工標(biāo)記的主觀性，這里標(biāo)記了三組數(shù)據(jù)，每組有2000對人工標(biāo)注的軌跡對，并分別計算算法聚類結(jié)果的正確度和完整度，平均之后再與相關(guān)算法進(jìn)行比較，如表1所示。相比于THDP[22]，本文的算法能夠得到更高的正確度和完整度;相比于RFT[12]，本文的算法不僅能自動確定主題個數(shù)還能得到相對較高的完整度。

綜上，實驗結(jié)果表明在引入相同形式的時空依賴關(guān)系時，本文的算法能自動發(fā)現(xiàn)主題數(shù)目，同時能夠得到相對較高的正確度和準(zhǔn)確度。

3 結(jié) 論

為了解決人群密集場景中的運動模式學(xué)習(xí)問題，本文提出了一種新的基于距離依賴的層次化非參貝葉斯模型，距離依賴中餐館連鎖店過程混合模型。本文給出的求解方法能夠自動地從有依賴關(guān)系的成組數(shù)據(jù)中學(xué)習(xí)其中共享的隱含模式。實驗結(jié)果證明，本文的算法能夠有效解決遠(yuǎn)景監(jiān)控下人群密集場景的運動模式學(xué)習(xí)問題。本文的模型具有很強的擴展性，可以應(yīng)用在文本分析、手寫識別及視頻分割等其他類似的序列數(shù)據(jù)的模式識別中。

參考文獻(xiàn)：

[1] 朱麗英，梁辰，張鴻洲. 基于運動目標(biāo)的監(jiān)控視頻檢索方法[J]. 計算機應(yīng)用與軟件，2011（12）：96.

[2] 呂英麗，顧勇，張曉峰. 基于HMM監(jiān)控視頻的異常事件檢測[J].數(shù)據(jù)采集與處理，2014（6）：1030.

[3] KWON Y， KANG K， JIN J，et al. Hierarchically Linked Infinite Hiddenmarkov Model Based Trajectory Analysis and Semantic Region Retrieval in a Trajectory Dataset. Expert Systems with Applications， 2017（78）：386.

[4] SHAO Z， LI Y. Integral Invariants for Space Motion Trajectory Matching and Recognition. Pattern Recognition， 2015，48（8）：2418.

[5] MORRIS B T， TRIVEDI M M. A Survey of Visionbased Trajectory Learning and Analysis for Surveillance. IEEE transactions on circuits and systems for video technology， 2008，18（8）：1114.

[6] WANG X， MA X， GRIMSON W E L. Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models. IEEE Transactions on pattern analysis and machine intelligence， 2009，31（3）：539.

[7] HU W， XIAO X， FU Z， et al. A System for Learning Statistical Motion Patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2006，28（9）：1450.

[8] ERGEZER H， LEBLEBICIOGLU K. Anomaly Detection and Activity Perception Using Covariance Descriptor for Trajectories. In European Conference on Computer Vision， pages 2016：728.

[9] CHONGJING W， XU Z， YI Z， et al. Analyzing Motion Patterns in Crowded Scenes Via Automatic Tracklets Clustering[J]. china communications， 2013， 10（4）： 144.

[10]SHAO J， CHANGE Loy C， WANG X. Sceneindependent Group Profiling in Crowd[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014： 2219.

[11]ZHAO W， ZHANG Z， HUANG K. Joint Crowd Detection and Semantic Scene Modeling Using a Gestalt Lawsbased Similarity[C]//Image Processing （ICIP）， 2016 IEEE International Conference on. IEEE， 2016： 1220.

[12]ZHOU B， WANG X， TANG X.Random Field Topic Model for Semantic Region Analysis in Crowded Scenes from Tracklets[C]//Computer Vision and Pattern Recognition （CVPR）， 2011 IEEE Conference on. IEEE， 2011： 3441.

[13]BLEI D M， NG A Y， JORDAN M I. Latent Dirichlet Allocation[J]. Journal of machine Learning research， 2003， 3（Jan）： 993.

[14]BLEI D M， FRAZIER P I. Distance Dependent Chinese Restaurant Processes[J]. Journal of Machine Learning Research， 2011， 12（Aug）： 2461.

[15]FERGUSON T S. A Bayesian Analysis of Some Nonparametric Problems[J]. The annals of statistics， 1973： 209.

[16]TEH Y W， JORDAN M I， BEAL M J， et al. Sharing Clusters Among Related Groups： Hierarchical Dirichlet Processes[C]//Advances in neural information processing systems. 2005： 1385.

[17]EMONET R， VARADARAJAN J， ODOBEZ J M. Extracting and Locating Temporal Motifs in Video Scenes Using a Hierarchical Non Parametric Bayesian Model[C]//Computer Vision and Pattern Recognition （CVPR）， 2011 IEEE Conference on. IEEE， 2011： 3233.

[18]KUETTEL D， BREITENSTEIN M D， VAN Gool L， et al. What′s Going on Discovering Spatiotemporal Dependencies in Dynamic Scenes[C]//Computer Vision and Pattern

[19]Recognition （CVPR）， 2010 IEEE Conference on. IEEE， 2010： 1951.

[20]WANG X， MA X，GRIMSON W E L. Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models[J]. IEEE Transactions on pattern analysis and machine intelligence， 2009， 31（3）： 539.

[21]MOBERTS B， VILANOVA A， VAN Wijk J J. Evaluation of Fiber Clustering Methods for Diffusion Tensor Imaging[C]//Visualization， 2005. VIS 05. IEEE. IEEE， 2005： 65.

[22]WANG X， MA K T， NG G W， et al. Trajectory Analysis and Semantic Region Modeling Using a Nonparametricbayesian Model[C]//Computer Vision and Pattern Recognition， 2008. CVPR 2008. IEEE Conference on. IEEE， 2008： 1.

[23]ATEV S， MASOUD O， PAPANIKOLOPOULOS N. Learning Traffic Patterns at Intersections by Spectral Clustering of Motion Trajectories. In Intelligent Robots and Systems[C]// 2006 IEEE/RSJ International Conference on， IEEE， 2006：4851.

（編輯：關(guān) 毅）

哈爾濱理工大學(xué)學(xué)報2019年3期

哈爾濱理工大學(xué)學(xué)報的其它文章: 基于深度神經(jīng)網(wǎng)絡(luò)的切削刀具剩余壽命預(yù)測; 面向大規(guī)模并發(fā)制造服務(wù)請求的資源優(yōu)化配置; 基于Broyden族校正的電容層析成像圖像重建算法; 復(fù)雜背景下的宮頸細(xì)胞核分割方法; 障礙空間中不確定對象的組k最近鄰查詢方法; 非對稱雙圓錐展開輪的五軸虛擬加工

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人群密集場景中運動模式識別