国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

群體行為識別深度學(xué)習(xí)方法研究綜述

2022-04-13 02:40裴利沈趙雪專
計(jì)算機(jī)與生活 2022年4期
關(guān)鍵詞:時序卷積架構(gòu)

裴利沈,趙雪專

1.河南財經(jīng)政法大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,鄭州450046

2.鄭州航空工業(yè)管理學(xué)院 智能工程學(xué)院,鄭州450046

群體行為的識別與理解是計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)問題,它是一個多學(xué)科交叉融合的研究方向,涉及了模式識別、人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等眾多學(xué)科的研究技術(shù)。該方向是國家自然科學(xué)基金委員會設(shè)立的重大研究計(jì)劃“視聽覺信息的認(rèn)知計(jì)算”的重要研究內(nèi)容,是“國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要”中前沿技術(shù)類智能感知技術(shù)方向的重點(diǎn)研究對象。

群體行為識別的研究不僅具有重要的理論價值及科學(xué)意義,在公共安全保障方面,亦具有非常重要的應(yīng)用價值。隨著城市化建設(shè)的大舉推進(jìn),城市人口急劇增加,國際恐怖主義日益猖獗,社會公共場所中因群體行為異常引發(fā)的擁堵及踩踏事件頻頻發(fā)生,造成了社會財產(chǎn)的巨大損失,對公共安全產(chǎn)生了巨大損害。對人群行為實(shí)時分析,及時發(fā)現(xiàn)異常行為能夠有效地阻止事態(tài)的惡化,甚至避免安全事故的發(fā)生。中國工業(yè)和信息化部在“中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十三個五年規(guī)劃綱要”中亦提出健全公共安全體系,為實(shí)現(xiàn)應(yīng)對重大公共風(fēng)險從被動應(yīng)付型向主動防范型的重大轉(zhuǎn)變、從傳統(tǒng)經(jīng)驗(yàn)型向現(xiàn)代高科技型的戰(zhàn)略轉(zhuǎn)變提供了支撐。

目前,群體行為識別技術(shù)廣泛應(yīng)用于智能監(jiān)控、基于內(nèi)容的視頻檢索、視頻自動分析與標(biāo)注、運(yùn)動分析等應(yīng)用領(lǐng)域,對交通、公安刑偵等眾多行業(yè)也都有積極的推動作用。對視頻中的群體行為進(jìn)行分析識別是一項(xiàng)非常重要且意義重大的科學(xué)任務(wù)。

長期以來,科研人員對群體行為識別進(jìn)行了各種各樣的探索。群體行為是人與人、人與物及人與環(huán)境交互的集合,具有多元性、動態(tài)性和集體性等多重特征。鑒于這些特征,群體行為的分析識別涉及到了場景分割、目標(biāo)檢測、目標(biāo)跟蹤、個體行為識別等眾多視覺處理技術(shù)。此外,由于群體行為識別對圖像序列進(jìn)行分析,該問題從時間域與空間域?qū)π畔⑦M(jìn)行處理。這導(dǎo)致了群體行為識別存在算法復(fù)雜度高、處理的數(shù)據(jù)規(guī)模大等問題。這為科研工作者嘗試新思路、研究新技術(shù)解決時序問題提供了更為開闊的空間。

隨著技術(shù)的發(fā)展及對該問題認(rèn)識的不斷深入,群體行為識別算法層出不窮。根據(jù)群體行為識別算法的建模模型,現(xiàn)有方法大致可以分為兩大類,即基于傳統(tǒng)的概率統(tǒng)計(jì)模型的方法和基于深度網(wǎng)絡(luò)模型的方法。傳統(tǒng)的概率統(tǒng)計(jì)模型主要有概率圖模型(graphical models)和語法模型(grammar models)等。深度網(wǎng)絡(luò)模型則主要包括了卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural network,CNN)、雙流網(wǎng)絡(luò)模型(two stream network)、長短時記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)模型等。這些模型涵蓋了視覺處理技術(shù)從傳統(tǒng)機(jī)器學(xué)習(xí)向深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)演化的過程中各種主流的群體行為識別方法。這些模型各有其特色,亦衍生出了這些模型之間的交叉融合。下面主要對基于深度學(xué)習(xí)的群體行為識別方法進(jìn)行分析介紹。

目前,大部分群體行為識別的研究都采用了深度神經(jīng)網(wǎng)絡(luò)模型,亦或在深度網(wǎng)絡(luò)架構(gòu)下結(jié)合語法模型或圖模型的方法。鑒于群體行為識別的這種研究現(xiàn)狀,首先給出了群體行為識別問題的定義描述,介紹了群體行為識別通用的識別流程;然后,概括總結(jié)了群體行為識別所面臨的主要挑戰(zhàn);繼而,重點(diǎn)歸類梳理了在深度學(xué)習(xí)架構(gòu)下,群體行為識別常用的主流的深度網(wǎng)絡(luò)模型,對其進(jìn)行了對比和討論;最后,對常用的公共的群體行為數(shù)據(jù)庫進(jìn)行了介紹和對比之后,總結(jié)展望了未來可以探索的研究方向和研究思路。

1 群體行為識別問題定義

Moeslund 等人和Poppe將人體行為分為了3個層次,即基本動作Action Primitive、行為Action 與活動Activity。Turaga 等人指出,行為Action 是由一個人執(zhí)行的持續(xù)一段時間的簡單的運(yùn)動模式,活動Activity 是由多人在某種環(huán)境或條件限制下執(zhí)行的可以交互的復(fù)雜的行為Action 序列。新華字典定義群體行為是團(tuán)體行為的一種特殊形式,由兩個或更多的個體為了實(shí)現(xiàn)某個特定的目標(biāo),而形成的相互影響、相互作用、相互依賴的人群集合體。后續(xù)介紹中,活動Activity 特指群體行為。

隨著目標(biāo)檢測、跟蹤等計(jì)算機(jī)視覺相關(guān)技術(shù)的發(fā)展,群體行為識別得到了進(jìn)一步的深化。大量的群體行為識別方法,除了對群體行為類別的識別,還涵蓋了一些對群體行為識別有輔助作用的相關(guān)任務(wù)去識別群體行為,如人體檢測、跟蹤等。目前,對群體行為的識別與理解包含了對參與個體的檢測、個體級別的行為識別與場景級別的行為識別。該類群體行為的識別可以定義為,對于給定的視頻序列={,,…,x,…,x},經(jīng)過一系列的檢測分類等技術(shù)的處理,獲得了參與群體行為的各人體所在位置的矩形區(qū)域[,;,],及主要的參與人體的個體行為類別a∈和群體行為類別A∈。其中指群體行為中涉及到的個體行為類別的集合,是群體行為類別的集合。

調(diào)研發(fā)現(xiàn),目前基于深度學(xué)習(xí)的群體行為識別算法大都經(jīng)歷了3 個階段的處理分析。如圖1 所示,首先通過各種網(wǎng)絡(luò)架構(gòu)進(jìn)行特征學(xué)習(xí)和提取,對群體行為場景中的人體進(jìn)行檢測;然后,基于檢測到的人體,采用多目標(biāo)跟蹤技術(shù)對人體進(jìn)行跟蹤處理,并利用獲得的人體跟蹤序列,對其進(jìn)行個體行為表征,并識別其行為;在識別了各群體行為的參與者的個體行為類別以后,結(jié)合群體行為所處的場景信息及人體與人體、人體與場景的交互信息對群體行為進(jìn)行識別。在該通用群體行為識別流程框架中,人體檢測與跟蹤在群體行為識別中屬于低級的信息處理,個體行為識別屬于中級的信息處理,群體行為識別屬于高級的信息處理。

圖1 群體行為深度識別流程Fig.1 Workflow of deep recognition of collective activity

2 挑戰(zhàn)

群體行為識別,作為計(jì)算機(jī)視覺領(lǐng)域一個比較高層級的語義分析問題,它除了要面對人體檢測、多人體跟蹤、個體行為識別等所面臨的挑戰(zhàn),還要解決該問題本身所涉及的眾多挑戰(zhàn)。群體行為涉及到了稀疏至高密度場景等各種情景下的人與人、人與活動場景的交互,群體活動場景相對來說比較復(fù)雜,比較容易受到群體行為活動以外事物的影響,例如經(jīng)過的汽車的遮擋、建筑物上動態(tài)廣告屏的干擾等。本文總結(jié)了群體行為識別所面臨的一些主要挑戰(zhàn)。

(1)群體行為所處環(huán)境異?;靵y,或存在較為嚴(yán)重的遮擋問題。

(2)群體行為視頻為手持設(shè)備所拍攝,且存在較為嚴(yán)重的抖動及頻繁的畫面切換。

(3)群體行為由于個體行為習(xí)慣問題存在較大的類內(nèi)差異及類間相似性。

(4)群體行為的精確定位識別任務(wù),涉及到人體檢測、人體跟蹤、個體行為識別等眾多視覺問題,由于對象為三維視頻數(shù)據(jù),識別任務(wù)復(fù)雜度高、計(jì)算工作量大。

(5)現(xiàn)有的群體行為識別數(shù)據(jù)庫還沒有形成體系規(guī)模,行為種類紛繁雜亂,行為類別定義及標(biāo)簽信息的標(biāo)注沒有統(tǒng)一的規(guī)范,限制了相關(guān)研究工作的開展。

3 基于深度架構(gòu)的群體行為識別模型

近年來,深度網(wǎng)絡(luò)模型在圖像處理領(lǐng)域快速發(fā)展,科研工作者基于深度架構(gòu)模型對群體行為識別進(jìn)行了大量的探索,并獲得了顯著的識別效果。按照使用的深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)的不同,現(xiàn)有的群體行為識別方法大致可以分為四類,即基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的識別模型、基于雙流網(wǎng)絡(luò)的算法模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)從時序角度對群體行為進(jìn)行處理的識別模型和基于Transformer從時序角度對群體行為識別的算法模型。各模型的大部分算法直接從RGB 視頻序列中學(xué)習(xí)行為特征,亦有部分算法基于骨架序列信息對行為進(jìn)行表征。下面從網(wǎng)絡(luò)架構(gòu)、算法模型的優(yōu)缺點(diǎn)、實(shí)驗(yàn)效果等方面對這些算法模型展開論述。

3.1 基于CNN/3DCNN 的群體行為識別模型

卷積神經(jīng)網(wǎng)絡(luò)由于其在空間域優(yōu)越的特征表征能力,在圖像的分類、檢測與分割等任務(wù)中取得了顯著的效果。Ji等人克服了其不能利用時序特征的缺陷,將其從2D 卷積擴(kuò)展為3D 卷積,讓其能夠從時空兩個維度對三維的行為視頻數(shù)據(jù)進(jìn)行處理。如圖2所示,展示了2D 卷積模型與3D 模型的對比,圖2(b)中卷積核的時間維度為3,共享權(quán)重采用了相同顏色的連接線標(biāo)示。從該圖中可以發(fā)現(xiàn),3D 卷積模型不僅能夠提取空間域的信息,亦能夠捕捉到連續(xù)的視頻幀中的時序運(yùn)動信息,它更適用于行為識別等時序問題?;贑NN/3DCNN 網(wǎng)絡(luò),產(chǎn)生了一系列群體行為識別網(wǎng)絡(luò)架構(gòu),如C3D(convolutional three dimensional)模 型、GCN(graph convolutional network)模型、HRN(hierarchical relational networks)模型、CRM(convolutional relational machine)模型等。

圖2 2D 卷積與3D 卷積的對比Fig.2 Comparison of 2D and 3D convolutions

繼3D 卷積模型之后,Tran 等人提出了C3D 模型,他們通過實(shí)驗(yàn)驗(yàn)證了3D 卷積深度網(wǎng)絡(luò)模型學(xué)習(xí)提取的時空特征具有非常好的識別效果;并通過在一系列網(wǎng)絡(luò)架構(gòu)上的實(shí)驗(yàn),經(jīng)驗(yàn)性地發(fā)現(xiàn)利用3×3×3的卷積核提取的特征識別效果最好;此外,C3D 架構(gòu)僅僅使用簡單的線性模型就能在眾多公用數(shù)據(jù)庫上取得優(yōu)越的識別效果;最終得出了3D 卷積神經(jīng)網(wǎng)絡(luò)具有通用、緊湊、易于實(shí)現(xiàn)和高效等特點(diǎn)的結(jié)論。3D卷積網(wǎng)絡(luò)利用三維卷積核提取時空特征,在一定程度上降低了混亂環(huán)境中遮擋問題對行為識別的影響。此后,3DCNN 以其優(yōu)異的時空特征提取性能被廣泛應(yīng)用于行為識別中。

目前許多群體行為識別算法涉及了對個體行為的識別和對群體行為的識別,許多深度模型會先用CNN 對行為人體進(jìn)行特征表征,然后利用圖模型或時序處理網(wǎng)絡(luò)對人體行為或群體行為進(jìn)行推理識別。早期,用于群體行為識別的3DCNN 架構(gòu)大多采用類似于圖3 所示架構(gòu)僅對群體行為進(jìn)行分類識別。隨著深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的發(fā)展及對群體行為分析識別的深入,后續(xù)產(chǎn)生了許多基于CNN 網(wǎng)絡(luò)結(jié)合其他網(wǎng)絡(luò)架構(gòu)對群體行為進(jìn)行深度分析的算法。

圖3 行為識別的3DCNN 架構(gòu)Fig.3 3DCNN architecture for activity recognition

Ibrahim 等人利用CNN 對視頻幀中的行為人體進(jìn)行特征表征,然后基于人體序列的特征向量采用兩層LSTM 網(wǎng)絡(luò)對群體行為中的個體行為和群體行為進(jìn)行識別。Bagautdinov 等人利用全卷積網(wǎng)絡(luò)FCN 對視頻序列進(jìn)行表征,并對群體行為中的多個人體目標(biāo)同時進(jìn)行檢測,繼而使用RNN 進(jìn)行時序處理,對個體行為和群體行為進(jìn)行識別。

Wu 等人提出了圖卷積網(wǎng)絡(luò)(GCN)模型,該方法利用CNN 對邊界框標(biāo)定的actor 進(jìn)行特征表征,然后利用多個Actor Relation Graphs 來捕捉actor 之間的關(guān)系信息,繼而通過GCN 對個體行為和群體行為進(jìn)行識別。受該工作啟發(fā),Gavrilyuk 等人亦利用2D 姿態(tài)網(wǎng)絡(luò)和3DCNN 對群體行為中的個體進(jìn)行actor 層級的特征表征,然后基于自注意力機(jī)制選擇性地突出actor 和群體行為之間的關(guān)系,對群體行為進(jìn)行識別。

Ibrahim 等人提出了HRN(hierarchical relational networks)群體行為識別模型,該方法利用CNN 對群體行為中的個體進(jìn)行初始表征,然后通過多個關(guān)系層網(wǎng)絡(luò)來學(xué)習(xí)個體行為的關(guān)系圖,以識別群體行為。受其啟發(fā),Azar等人提出了CRM模型,利用2DCNN或3DCNN 從視頻幀序列中計(jì)算的特征圖來學(xué)習(xí)人體活動圖和群體活動圖,用其表示人體行為的空間關(guān)系,然后整合卷積特征圖和優(yōu)化的活動圖對群體行為的類別進(jìn)行識別預(yù)測,其網(wǎng)絡(luò)架構(gòu)如圖4 所示。該方法通過實(shí)驗(yàn)證實(shí),利用卷積網(wǎng)絡(luò)去學(xué)習(xí)高層的關(guān)系特征非常困難,提出了利用活動圖來表征群體中各行為個體之間關(guān)系的方法,并在Vollyball 和Collective Activity 數(shù)據(jù)庫上獲得了93.04%和85.75%的平均識別率。

圖4 群體行為識別的CRM 架構(gòu)Fig.4 CRM architecture for group activity recognition

3.2 基于雙流網(wǎng)絡(luò)的群體行為識別模型

基于雙流網(wǎng)絡(luò)Two-Stream Network 的行為識別網(wǎng)絡(luò)模型一般都采用如圖5 所示的網(wǎng)絡(luò)結(jié)構(gòu),分別利用空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)對行為視頻空間域的靜態(tài)信息與時間域的動態(tài)信息進(jìn)行提取,并利用信息融合的方法進(jìn)行特征表征,然后利用分類識別網(wǎng)絡(luò)對行為的這些特征表征進(jìn)行分類識別。時間流網(wǎng)絡(luò)一般對視頻的光流數(shù)據(jù)進(jìn)行處理,在一定程度上降低了手持設(shè)備拍攝數(shù)據(jù)的抖動問題對行為識別的影響。伴隨著群體行為分析識別的深化及識別粒度的細(xì)化,群體行為的分析識別在該架構(gòu)的基礎(chǔ)上結(jié)合了個體級別、群體級別或場景級別的分析。有些算法則直接利用雙流網(wǎng)絡(luò)或多流網(wǎng)絡(luò)對群體行為或群體中的個體行為進(jìn)行特征表征,然后對提取的特征進(jìn)行分析識別。

圖5 雙流網(wǎng)絡(luò)架構(gòu)Fig.5 Two-stream network architecture

Li等人利用雙流網(wǎng)絡(luò)架構(gòu)提取的特征,提出了基于特征融合的時序分割網(wǎng)絡(luò)模型。該模型針對主流網(wǎng)絡(luò)輸入數(shù)據(jù)為RGB 圖像和光流圖像的局限,結(jié)合了低層細(xì)節(jié)信息和深度網(wǎng)絡(luò)學(xué)習(xí)的高層語義信息對行為進(jìn)行識別,該方法可用于對群體行為進(jìn)行分類識別。時序分割網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。

圖6 時序分割網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Temporal segment network

Wang 等人基于雙流網(wǎng)絡(luò)進(jìn)行特征提取,提出了一種基于交互上下文編碼的層級性的群體行為識別方法。該方法基于跟蹤獲取的群體行為中的個體跟蹤序列,利用AlexNet網(wǎng)絡(luò)從對應(yīng)的RGB 視頻幀中提取空間特征,利用GoogleNet從相應(yīng)的光流圖像序列中提取運(yùn)動特征,然后利用二者對人體上下文信息進(jìn)行編碼,進(jìn)行個體級別的行為識別,最后結(jié)合提取的空間域特征、時間域特征和人體上下文特征編碼對群體行為進(jìn)行識別。該模型的網(wǎng)絡(luò)架構(gòu)如圖7 所示。該方法利用對雙流網(wǎng)絡(luò)提取的特征以再編碼的方式,對群體行為進(jìn)行了多級分析,在The Collective Activity Dataset上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,獲得了89.4%的平均識別率。

圖7 基于交互上下文編碼的層級性的循環(huán)網(wǎng)絡(luò)架構(gòu)Fig.7 Hierarchical recurrent interactional context encoding framework

Zalluhoglu 等人考慮到群體行為中涉及到眾多行為個體及其行為,且人體活動區(qū)域內(nèi)的場景信息對群體行為識別具有重要意義,擴(kuò)展了雙流網(wǎng)絡(luò),引入了空間區(qū)域流網(wǎng)絡(luò)sRCNN 和時間區(qū)域流網(wǎng)絡(luò)tRCNN。該群體行為識別模型被稱為基于區(qū)域的多流網(wǎng)絡(luò)架構(gòu)。該方法不僅對群體行為進(jìn)行了分類識別,還對群體行為中活動個體所在的區(qū)域進(jìn)行了檢測,在The Volleyball Dataset 和The Collective Activity Dataset上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,分別獲得了72.4%和88.9%的識別率。

3.3 基于RNN/LSTM 的群體行為識別模型

RNN和LSTM首先在自然語言處理、語音識別等時序數(shù)據(jù)處理方面獲得了巨大的成功?;谄鋬?yōu)秀的信息學(xué)習(xí)表征能力和對數(shù)據(jù)時序關(guān)系的強(qiáng)大建模能力,二者在圖像標(biāo)題生成方面和行為識別方面取得了巨大進(jìn)展,尤其在對變長的行為視頻的處理方面體現(xiàn)了其優(yōu)越的性能。大部分基于RNN 或LSTM 的群體行為識別算法,大都采用如圖8所示的流程。

圖8 行為識別循環(huán)網(wǎng)絡(luò)架構(gòu)Fig.8 Recurrent neural network architecture of action recognition

Ramanathan 等人基于注意力機(jī)制利用RNN 來學(xué)習(xí)隨時間變化的注意力權(quán)重,對行為個體的運(yùn)動信息以跟蹤特征的方式進(jìn)行表征,實(shí)現(xiàn)了對群體行為的檢測和識別。Shu 等人擴(kuò)展了該工作,在循環(huán)網(wǎng)絡(luò)的基礎(chǔ)上增加了能量層來獲取更可靠的區(qū)域來實(shí)現(xiàn)群體行為識別。Qi 等人為了利用群體行為場景中的各行為個體間的空間關(guān)系,提出了注意力語義RNN 來識別群體行為。

Deng 等人利用RNN 來學(xué)習(xí)群體行為中眾多活動個體和環(huán)境之間的豐富的語義關(guān)系信息,結(jié)合圖模型推理對群體行為進(jìn)行識別,該方法利用環(huán)境信息識別群體行為,一定程度上降低了個體行為習(xí)慣對行為識別的影響。Bagautdinov 等人則利用RNN來實(shí)現(xiàn)群體行為中多行為個體的時序一致性匹配問題,然后基于匹配的結(jié)果利用深度網(wǎng)絡(luò)提取的特征對個體行為和群體行為進(jìn)行分類識別,其網(wǎng)絡(luò)架構(gòu)如圖9 所示。

圖9 基于時序一致性檢測的群體行為識別框架Fig.9 Collective activity recognition framework based on temporal consistency detection

相比于RNN,由于LSTM 更易于處理需要深度表征的時序問題,LSTM 在群體行為識別領(lǐng)域得到了更為廣泛的應(yīng)用。Ibrahim 等人認(rèn)為,群體行為時序動態(tài)特征可以從群體中個體行為的動態(tài)特征中推理出來,他們利用LSTM 模型的堆疊提出了包含兩個層次的深度時序模型。第一層LSTM 用來學(xué)習(xí)表征各個體行為的動態(tài)時序特征,第二層LSTM 整合這些特征對群體行為進(jìn)行表征,最后利用Softmax 分類層對群體行為進(jìn)行識別。

Wang 等人利用LSTM 建模了高階的交互上下文信息,該模型框架如圖10 所示。該模型利用多級LSTM 分別對行為個體的動態(tài)信息、行為群體內(nèi)部的交互信息和行為群體之間的交互信息進(jìn)行建模表征,產(chǎn)生了對群體行為識別更有區(qū)分性的高階交互特征。該模型可以靈活地解決場景中有不同數(shù)目的行為群體,和群體中有不同數(shù)目的行為個體的群體行為的識別問題。而且,該模型對高階上下文建模問題極易進(jìn)行線性擴(kuò)展。該算法利用高階特征對行為進(jìn)行識別,能夠有效降低環(huán)境嘈雜、遮擋等因素對行為效果的影響。

圖10 交互上下文的層級性循環(huán)建模模型架構(gòu)Fig.10 Hierarchical recurrent interactional context modeling framework

3.4 基于Transformer 的群體行為識別模型

在Transformer 架構(gòu)出現(xiàn)以前,對時序數(shù)據(jù)的處理主要依賴于以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的網(wǎng)絡(luò)模型。自2017 年谷歌提出Transformer以后,它迅速成為自然語言處理領(lǐng)域的主流模型,并應(yīng)用于其他領(lǐng)域。Transformer 模型的網(wǎng)絡(luò)架構(gòu)如圖11 所示,該模型利用自注意力機(jī)制和位置編碼對序列信息進(jìn)行處理。2020 年谷歌提出了Vision Transformer,該模型可以不需要卷積,直接利用Transformer 對圖像塊序列進(jìn)行分類,且取得了與當(dāng)前最優(yōu)的卷積網(wǎng)絡(luò)相媲美的結(jié)果,但其訓(xùn)練所需的計(jì)算資源大大減少,一定程度上解決了群體行為識別任務(wù)復(fù)雜度高、計(jì)算工作量大的挑戰(zhàn)。

圖11 Transformer 模型架構(gòu)Fig.11 Architecture of Transformer model

近來出現(xiàn)了大量將Transformer 應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的研究。有部分工作將Transformer 用于行為識別。相比于以串行方式按時間順序?qū)?shù)據(jù)進(jìn)行處理的RNN、LSTM 等循環(huán)神經(jīng)網(wǎng)絡(luò),Transformer 架構(gòu)的最大特點(diǎn)在于它依賴于自注意力機(jī)制的并行化處理能力。Transformer 模型可以在同一時間對所有的特征進(jìn)行分析,而無須考慮特征序列的先后次序。這種并行處理機(jī)制大大加快了其訓(xùn)練速度,從而使其能夠在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。

基于迅速發(fā)展的Vision Transformer模型,Neimark等人提出了Video Transformer 網(wǎng)絡(luò)模型,該模型擯棄了一般的行為識別所依賴的3D 卷積網(wǎng)絡(luò),介紹了一種基于注意力機(jī)制編碼和位置編碼,對視頻行為進(jìn)行端對端的識別方法。該工作通過實(shí)驗(yàn)統(tǒng)計(jì)發(fā)現(xiàn),在保證獲得與現(xiàn)有最先進(jìn)的算法同等的識別效果的情況下,該模型的訓(xùn)練速度要快16.1 倍,其推理識別速度快5.1 倍,其時間性能明顯優(yōu)于其他算法。

Girdhar 等人提出了Action Transformer 網(wǎng)絡(luò)模型,該模型利用Transformer 類的架構(gòu)從行為主體的時空上下文中去整合學(xué)習(xí)特征對行為進(jìn)行識別。該模型的行為識別流程如圖12 所示。該模型能夠同時對行為個體進(jìn)行跟蹤,從場景中其他人的行為中提取語義上下文信息。其實(shí)驗(yàn)證明,該方法獲得了明顯優(yōu)于其他主流方法的識別效果。

圖12 行為識別的Action Transformer 模型Fig.12 Action Transformer in action recognition

近來,Gavrilyuk 等人提出了用于群體行為識別的Actor Transformers 模型,該模型能夠?qū)W習(xí)并選擇性地提取與群體行為識別相關(guān)的有效信息,對群體活動中的個體行為和群體行為進(jìn)行識別。該模型架構(gòu)如圖13 所示,從圖中可以看出,該模型采用了與基于卷積神經(jīng)網(wǎng)絡(luò)的I3D 相結(jié)合的方法進(jìn)行群體行為識別,沒有發(fā)揮Transformer 模型不必借助卷積即可進(jìn)行分類識別的特性,Transformer 在群體行為識別中的應(yīng)用有待進(jìn)一步發(fā)展。該算法在The Volleyball Dataset 和The Collective Activity Dataset 上分別獲得了94.4%和92.8%的平均識別率,實(shí)驗(yàn)證明Actor Transformer 相比其他方法獲得了比較好的識別效果。

圖13 群體行為識別中的Actor Transformers網(wǎng)絡(luò)架構(gòu)Fig.13 Actor Transformers architecture in group activity recognition

3.5 算法對比分析

通過前面對深度學(xué)習(xí)架構(gòu)在群體行為識別中的應(yīng)用模型的介紹發(fā)現(xiàn),群體行為識別算法大多融合了多個網(wǎng)絡(luò)架構(gòu),去解決涉及到的活動個體檢測、個體行為識別、群體行為識別等多項(xiàng)任務(wù)的群體行為識別。所列舉算法都適用于現(xiàn)實(shí)中非密集的群體行為識別場景。通過對上述四類神經(jīng)網(wǎng)絡(luò)架構(gòu)模型涉及到的群體行為識別算法的分析,總結(jié)了各網(wǎng)絡(luò)架構(gòu)的優(yōu)缺點(diǎn),如表1 所示。

如表1 所示,CNN/3DCNN 和Two-Stream Network網(wǎng)絡(luò)架構(gòu)擅長對低級底層特征進(jìn)行表征。相對而言,CNN/3DCNN 網(wǎng)絡(luò)架構(gòu)更為通用、緊湊、易于實(shí)現(xiàn),而雙流網(wǎng)絡(luò)從時間域與空間域?qū)π畔⑦M(jìn)行全面表征,其特征的識別效果更好一些。3DCNN 和雙流網(wǎng)絡(luò)都能夠?qū)?shù)據(jù)進(jìn)行時空特征的表征,相比于CNN,3DCNN 用于視頻數(shù)據(jù)的處理,其計(jì)算開銷比較大,而雙流網(wǎng)絡(luò)要分別對RGB 視頻序列和光流數(shù)據(jù)分別進(jìn)行處理,并分別訓(xùn)練兩個網(wǎng)絡(luò),計(jì)算開銷則更大。

如表1 所示,RNN/LSTM 和Transformer 網(wǎng)絡(luò)架構(gòu)擅長對時序數(shù)據(jù)的識別處理。RNN/LSTM 對時序數(shù)據(jù)采用串行的處理方式,網(wǎng)絡(luò)架構(gòu)訓(xùn)練較為困難,對訓(xùn)練數(shù)據(jù)的需求量比較大,對硬件要求也比較高。Transformer 采用并行計(jì)算的方式,能有效降低計(jì)算時間,然而該架構(gòu)不能利用序列數(shù)據(jù)中的順序信息,需要引入位置編碼信息。目前,Transformer 在群體行為識別領(lǐng)域的應(yīng)用較少,技術(shù)尚不成熟,有較大的發(fā)展空間。

表1 深度學(xué)習(xí)架構(gòu)比較Table 1 Comparison of deep learning architectures

卷積網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)的特征表征能力比較強(qiáng)大,然而其計(jì)算復(fù)雜度限制了其在視頻處理領(lǐng)域的發(fā)展,而Transformer 可以在不進(jìn)行卷積處理的情況下,直接對時序數(shù)據(jù)進(jìn)行分析識別,該特性將促進(jìn)Transformer在群體行為識別領(lǐng)域的發(fā)展。

為了對深度網(wǎng)絡(luò)架構(gòu)下典型的群體行為識別算法進(jìn)行比較,將各算法所依賴的神經(jīng)網(wǎng)絡(luò)架構(gòu)及其在兩公共數(shù)據(jù)集上的平均識別率展示于表2 中。從表中可以發(fā)現(xiàn),幾乎現(xiàn)有的算法都依賴于卷積神經(jīng)網(wǎng)絡(luò)類的網(wǎng)絡(luò)架構(gòu)對群體行為進(jìn)行特征表征,大部分算法都采用了時序處理網(wǎng)絡(luò)RNN、LSTM 等架構(gòu)進(jìn)行后續(xù)處理。雖然這些算法都采用卷積網(wǎng)絡(luò)進(jìn)行特征表征,但卷積網(wǎng)絡(luò)架構(gòu)的差異以及對特征進(jìn)行處理分類的網(wǎng)絡(luò)模型的不同,造成了這些算法在識別效果上具有很大的差異。

大部分經(jīng)典的群體行為識別算法都在公共數(shù)據(jù)集The Volleyball Dataset 和The Collective Activity Dataset 上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。為了客觀地對各算法的識別效果進(jìn)行對比,在表2 中展示了各算法在兩個公共數(shù)據(jù)庫The Volleyball Dataset 和The Collective Activity Dataset 上的平均識別率。通過對比可以發(fā)現(xiàn),識別率比較高的算法都采用了卷積的方式進(jìn)行特征表征,LSTM 也展現(xiàn)了其對時序數(shù)據(jù)進(jìn)行處理的優(yōu)越性。識別效果比較突出的是Gavrilyuk 等人提出的Actor Transformers網(wǎng)絡(luò)模型。目前,采用Transformer 進(jìn)行群體行為識別的算法比較少,作為一個擅長對時序數(shù)據(jù)進(jìn)行處理的網(wǎng)絡(luò)架構(gòu),Transformer 模型在群體行為識別中具有較大的潛力。

表2 各算法平均識別率的比較Table 2 Average recognition accuracy comparison of algorithms

4 常用公共數(shù)據(jù)集

對群體行為的深度分析識別涉及到了多級標(biāo)簽,群體行為數(shù)據(jù)庫的建立需要消耗大量的人力、物力。目前最常用的群體行為數(shù)據(jù)庫為The Volleyball Dataset和The Collective Activity Dataset。下面對這兩個最常用的數(shù)據(jù)庫和The Collective Activity Extended Dataset、The Choi's New Dataset、The Nursing Home Dataset、UCLA Courtyard Dataset及Broadcast Field Hockey Dataset進(jìn)行了介紹,并簡要地進(jìn)行了對比說明。

The Volleyball Dataset是一個大規(guī)模的群體行為識別數(shù)據(jù)集,該數(shù)據(jù)集包含了多層次的樣本標(biāo)簽。該數(shù)據(jù)庫包含了55 個排球視頻,其中有4 830 個標(biāo)注好的視頻幀。標(biāo)注信息包含3 種類型的標(biāo)簽。對每一個足球運(yùn)動員,該數(shù)據(jù)庫通過一個矩形框標(biāo)注了其位置標(biāo)簽信息,并給其分配了一個個體行為類別標(biāo)簽,該數(shù)據(jù)庫共涉及到9 種個體行為類別,分別為spiking、blocking、setting、jumping、digging、standing、falling、waiting 和moving。對每個視頻中的整個排球活動場景,亦給其分配了群體活動類別標(biāo)簽,共涉及到8 種群體活動類別,分別為left pass、right pass、left set、right set、left spike、right spike、left winpoint、right winpoint。

The Collective Activity Dataset是一個被廣泛應(yīng)用的群體行為識別數(shù)據(jù)庫。該數(shù)據(jù)庫共包含44 個視頻序列,其中有些視頻是通過手持?jǐn)?shù)字信息采集設(shè)備在動態(tài)視角下拍攝的。該數(shù)據(jù)庫共包含5 種集體行為類別,并標(biāo)定了8 種個體級別的人體姿態(tài)標(biāo)簽。5 種集體行為是crossing、waiting、queuing、walking 和talking。8種姿態(tài)標(biāo)簽為Right、Front-right、Front、Frontleft、Left、Back-left、Back 和Back-right。每個視頻每隔10 幀標(biāo)注了集體行為類別、人體姿態(tài)類別和人體邊界框信息。

The Collective Activity Extended Dataset包含了75 個行為視頻,它擴(kuò)展了The Collective Activity Dataset,在原數(shù)據(jù)庫的基礎(chǔ)上增加了dancing 和jogging 兩個群體行為類別,并將原來的群體行為類別walking改為了個體行為。該數(shù)據(jù)庫共包含6 類群體行為和8類個體行為。

The Choi's New Dataset由32 個視頻序列組成,共包含6 種集體行為、9 種交互行為、3 種基本動作和8 種人體姿態(tài)。6 種集體行為類別分別為gathering、talking、dismissal、walking together、chasing 和queueing。3 種基本動作類別為walking、standing still 和running。

The Nursing Home Dataset拍攝于養(yǎng)老院,由80個視頻序列組成,包含了兩大類具有極大類內(nèi)差異的群體行為fall與non-fall和6 種基本行為。6 種基本行為是walking、standing、sitting、bending、squatting 和falling。

UCLA Courtyard Dataset以鳥瞰的角度拍攝于加州大學(xué)洛杉磯分校的校園里,包含了106 min 的高分辨率的視頻,共涉及到6 種群體行為和10 類個體行為。群體行為分別為Walking-together、Standingin-line、Discussing-in-group、Sitting-together、Waitingin-group、Guided-tour。

Broadcast Field Hockey Dataset包含了58個視頻序列,涉及到了3 類場景級別的行為attack play、free hit 和penalty corner和11種個體行為類別,即pass、dribble、shot、receive、tackle、prepare、stand、jog、run、walk 和save。為了探索社會角色對群體行為的影響,該數(shù)據(jù)還定義了5 種社會角色。

通過對各數(shù)據(jù)庫的介紹可以發(fā)現(xiàn),這些公用數(shù)據(jù)庫都包含了多層級的樣本標(biāo)簽,除了群體行為的類別標(biāo)簽以外,還標(biāo)注了個體行為的類別,甚至于人體所在的位置信息,各數(shù)據(jù)庫的視頻數(shù)目、各級行為類別的數(shù)目如表3 所示。The Volleyball Dataset 創(chuàng)建的時間比較晚,標(biāo)注信息比較全面,涉及了排球運(yùn)動的8 種群體行為,識別難度較大,目前應(yīng)用最為廣泛。該數(shù)據(jù)庫和The Collective Activity Dataset 不僅包含了群體、個體行為類別的標(biāo)注,還標(biāo)注了人體的邊界框信息,大量算法在該群體運(yùn)動行為庫和日常行為庫上進(jìn)行了測試。

表3 公共數(shù)據(jù)集描述Table 3 Public dataset description

The Collective Activity Extended Dataset 對The Collective Activity Dataset 進(jìn)行了擴(kuò)展,The Choi's New Dataset 為Choi所在團(tuán)隊(duì)繼上述兩個數(shù)據(jù)庫之后提出的新的日常行為數(shù)據(jù)庫。這些數(shù)據(jù)庫拍攝于真實(shí)場景,存在各種干擾,在行為識別處理具有一定的難度,應(yīng)用的廣泛程度略遜于The Volleyball Dataset 和The Collective Activity Dataset。The Nursing Home Dataset 只涉及了兩類群體行為的鑒別,它與UCLA Courtyard、Broadcast Field Hockey 數(shù)據(jù)庫標(biāo)注信息相對較少,分別是養(yǎng)老院、校園和運(yùn)動場景,其應(yīng)用比較少。

表4 展示了各數(shù)據(jù)庫的發(fā)布時間及其獲得的最好的識別效果。由于The Volleyball Dataset 標(biāo)注的信息較為詳細(xì),The Collective Activity Dataset 發(fā)布的時間比較早,標(biāo)注信息也較為詳備,且二者在數(shù)據(jù)量方面都具有一定的規(guī)模,目前這兩個數(shù)據(jù)庫得到了廣泛的應(yīng)用,以驗(yàn)證群體行為識別算法的效果。

表4 群體行為分析識別數(shù)據(jù)集Table 4 Datasets of collective activity analysis and recognition

5 總結(jié)與展望

本文對目前主流的基于深度學(xué)習(xí)的群體行為分析識別算法進(jìn)行了歸類與梳理,將其分為了四種類型,通過對各類的對比分析,得出了如下結(jié)論。目前,大部分算法都基于卷積神經(jīng)網(wǎng)絡(luò)對群體行為或活動場景進(jìn)行描述;部分算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了光流神經(jīng)網(wǎng)絡(luò)對群體行為中的運(yùn)動信息進(jìn)行學(xué)習(xí)。這些方法在特征刻畫方面都取得了非常好的效果。群體行為識別是一個可變長度的時序數(shù)據(jù)分析問題,大部分算法都采用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 和長短時記憶神經(jīng)網(wǎng)絡(luò)LSTM 群體行為進(jìn)行分析識別。

近來,科研人員對群體行為多層級的分析識別問題的研究取得了一定的進(jìn)展。結(jié)合現(xiàn)存問題及新技術(shù)的不斷涌現(xiàn),未來群體行為分析識別問題可能會在以下幾方面獲得進(jìn)一步的發(fā)展:

(1)大規(guī)模通用數(shù)據(jù)庫

目前,存在大量的群體行為識別數(shù)據(jù)庫,但這些數(shù)據(jù)庫大都屬于某一類特定場景,群體行為的組成比較簡單,僅限于幾類相關(guān)的行為。行為識別領(lǐng)域缺乏大規(guī)模的、具有統(tǒng)一規(guī)范標(biāo)準(zhǔn)的、多實(shí)際應(yīng)用場景的、行為類別及組成標(biāo)注更為詳細(xì)豐富的通用數(shù)據(jù)庫。鑒于群體行為視頻數(shù)據(jù)量比較大,信息比較豐富,群體行為本身亦涉及到目標(biāo)檢測、目標(biāo)跟蹤、場景識別、個體行為識別等多個計(jì)算機(jī)視覺問題,信息標(biāo)注涉及大量的人力、物力資源,大規(guī)模通用數(shù)據(jù)庫的創(chuàng)建將需要眾多科研團(tuán)隊(duì)的協(xié)作。

(2)多模態(tài)特征的提取問題

大部分群體行為識別算法僅通過RGB 或光流序列數(shù)據(jù)對行為進(jìn)行識別,這限制了行為識別精度的提升。伴隨著深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的大力發(fā)展,語音識別得到了長足發(fā)展。由于人工智能物聯(lián)網(wǎng)硬件的快速發(fā)展,深度視覺信息及其他傳感信息的采集變得更為低廉。此外,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,給多模態(tài)多特征信息的融合提供了有利的支撐。未來視頻、音頻及其他傳感信息等多模態(tài)特征的提取和融合將獲得一定的發(fā)展。

(3)Transformer模型的應(yīng)用

Transformer 模型是繼LSTM 以后出現(xiàn)的解決時序問題的網(wǎng)絡(luò)模型,該模型引入了Attention 和Positional Encoding 機(jī)制,在翻譯任務(wù)、語音識別等方面取得了比較好的效果。此外,該模型并行能力強(qiáng),相比于RNN、LSTM 等模型,計(jì)算速度快。行為識別作為時序問題,可以使用Transformer 模型來解決,目前已存在少量利用該模型識別行為的算法,但Transformer 在行為識別問題中的應(yīng)用,應(yīng)該得到進(jìn)一步的發(fā)展。

猜你喜歡
時序卷積架構(gòu)
顧及多種弛豫模型的GNSS坐標(biāo)時序分析軟件GTSA
清明
基于GEE平臺與Sentinel-NDVI時序數(shù)據(jù)江漢平原種植模式提取
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對稱空洞卷積模塊①
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
你不能把整個春天都搬到冬天來
基于B/S架構(gòu)的圖書管理系統(tǒng)探究
構(gòu)建富有活力和效率的社會治理架構(gòu)
從濾波器理解卷積