国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于交互關(guān)系分組建模融合的組群行為識(shí)別算法

2022-02-12 02:48:42王傳旭
關(guān)鍵詞:關(guān)鍵人物組群群組

王傳旭,劉 冉

(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)

0 引 言

近年來(lái),行為識(shí)別[1-3]在計(jì)算機(jī)視覺(jué)中取得重大進(jìn)展,其包括單人行為或多人合作的組群行為,在智能監(jiān)控、集體行為分析、大規(guī)模監(jiān)測(cè)和體育分析等領(lǐng)域具有重要的研究?jī)r(jià)值。與此同時(shí),隨著深度學(xué)習(xí)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,其逐漸成為行為識(shí)別研究的熱點(diǎn)。

由于組群行為是多人參加的集體活動(dòng),在研究過(guò)程中,不僅要考慮單人的行為,還需要分析人與人之間的交互關(guān)系,而這些交互關(guān)系承載了組群行為的核心信息,制約著識(shí)別精度。文獻(xiàn)[4]提出了一種基于LSTM(Long-Short Term Memory)網(wǎng)絡(luò)的循環(huán)交互上下文模型,利用LSTM的信息傳播和聚集屬性建立模型,達(dá)到識(shí)別群組行為的目的。文獻(xiàn)[5]構(gòu)建了一種層次關(guān)系網(wǎng)絡(luò),計(jì)算組群成員之間的個(gè)人表示和潛在關(guān)系并用于多人行為識(shí)別。文獻(xiàn)[6]設(shè)計(jì)出一種新的逐步細(xì)化群組行為低層次特征和高層次關(guān)系的方法,該方法構(gòu)造了一個(gè)語(yǔ)義關(guān)系圖(Semantic Relation Graph, SRG),用于建模人物之間的關(guān)系,然后根據(jù)2個(gè)馬爾可夫決策過(guò)程對(duì)SRG逐步細(xì)化,得到最終的組群行為標(biāo)簽。文獻(xiàn)[7]設(shè)計(jì)了一種基于層次長(zhǎng)短期并發(fā)記憶(H-LSTCM)的模型,通過(guò)模擬人群之間長(zhǎng)期相互關(guān)聯(lián)的動(dòng)態(tài)信息來(lái)識(shí)別人物之間的相互作用。文獻(xiàn)[8]通過(guò)社交互動(dòng)將人群劃分為不同的社交群體,預(yù)測(cè)個(gè)人行為和社交行為,從而得到群組行為。文獻(xiàn)[9]將圖卷積網(wǎng)絡(luò)擴(kuò)展應(yīng)用到組群行為識(shí)別中,提出了一種成員關(guān)系圖(Actor Relation Graphs, ARG),利用二維CNN和圖卷積網(wǎng)絡(luò)構(gòu)建了人物關(guān)系圖,以捕捉人物之間的外觀和位置關(guān)系,并推理他們的交互關(guān)系,使得群組行為識(shí)別的準(zhǔn)確性顯著提升。

以上這些基于深度學(xué)習(xí)網(wǎng)絡(luò)的組群行為識(shí)別方法雖然都取得了不錯(cuò)的結(jié)果,然而它們存在如下2個(gè)問(wèn)題:1)沒(méi)有充分考慮復(fù)雜場(chǎng)景中組群成員的角色多樣繁雜,導(dǎo)致交互關(guān)系推理復(fù)雜度高,它們實(shí)際上是不宜采用單一的交互關(guān)系架構(gòu)來(lái)刻畫(huà)整個(gè)組群的特征。2)沒(méi)有考慮成員之間對(duì)組群行為的貢獻(xiàn)大小不一,缺少對(duì)核心成員在組群行為的決定性作用分析,籠統(tǒng)地考慮所有成員的交互關(guān)系,則會(huì)導(dǎo)致信息冗余和引入無(wú)關(guān)成員因素的噪聲干擾問(wèn)題。因此,本文提出一種復(fù)雜組群場(chǎng)景下分組交互關(guān)系推理,并進(jìn)一步再融合的模型,將場(chǎng)景成員以分組和全局統(tǒng)籌2種信息互補(bǔ)方式分別進(jìn)行交互關(guān)系推理,逐步融合細(xì)化關(guān)系特征,再構(gòu)成互補(bǔ)雙路識(shí)別,旨在提升組群行為識(shí)別精度。

本文的工作主要有:

1)針對(duì)多角色復(fù)雜組群情況下的交互關(guān)系建模,根據(jù)視頻場(chǎng)景的初始化信息提出了分組建模方式,例如,根據(jù)組群成員之間的空間距離閾值(CAD數(shù)據(jù)集等)或空間坐標(biāo)(Volleyball數(shù)據(jù)集等)實(shí)施分組建模,則整個(gè)組群化整為零,不僅降低了交互關(guān)系推理的復(fù)雜度,還提升了交互關(guān)系建模的精細(xì)程度。

2)設(shè)計(jì)同一場(chǎng)景下不同分組建模中關(guān)鍵人物匹配的反饋優(yōu)化策略。在全局場(chǎng)景下,將利用GCN網(wǎng)絡(luò)得到的全局關(guān)系特征作為真實(shí)值,而各分組的局部關(guān)系特征合并組成的全局關(guān)系特征為預(yù)測(cè)值,構(gòu)建兩者之間的交叉熵?fù)p失函數(shù)反饋優(yōu)化上一級(jí)分組交互關(guān)系GCN網(wǎng)絡(luò),旨在提升2個(gè)分組中的關(guān)鍵人物與全局中關(guān)鍵人物的匹配成功率。

3)構(gòu)建雙路互補(bǔ)的決策融合架構(gòu),本文利用全局信息作為信息互補(bǔ)策略,結(jié)合初始特征構(gòu)成一路組群行為識(shí)別支路;同時(shí),利用組間關(guān)系特征與初始特征構(gòu)成另一路組群行為識(shí)別支路,最后采用決策融合策略整合2個(gè)支路的識(shí)別結(jié)果,得到最終群組行為識(shí)別標(biāo)簽。

1 相關(guān)工作

1.1 常規(guī)無(wú)交互關(guān)系的群組行為識(shí)別方法

早期的群組行為識(shí)別方法關(guān)注于對(duì)整體組群場(chǎng)景的描述和建模,缺少對(duì)組群成員之間交互關(guān)系的刻畫(huà)。文獻(xiàn)[10]提出了一種Coherence Constrained Graph LSTM(CCG-LSTM)框架,抑制無(wú)關(guān)運(yùn)動(dòng),提取相關(guān)運(yùn)動(dòng)以及其對(duì)群組行為的貢獻(xiàn)來(lái)實(shí)現(xiàn)行為識(shí)別。文獻(xiàn)[11]提出了一種基于多流架構(gòu)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的模型,融合局部和全局的外觀和運(yùn)動(dòng)信息得到組群行為類別。文獻(xiàn)[12]提出了一種用于群體行為識(shí)別的半監(jiān)督、多級(jí)序列生成對(duì)抗網(wǎng)絡(luò)(MLS-GAN)結(jié)構(gòu),該結(jié)構(gòu)以鑒別器和生成器對(duì)抗性的真假進(jìn)行半監(jiān)督學(xué)習(xí),實(shí)現(xiàn)對(duì)群組行為的判斷。文獻(xiàn)[13]通過(guò)基于LSTM的層次關(guān)注和上下文建??蚣芡瑫r(shí)處理對(duì)行為有重大貢獻(xiàn)的人和團(tuán)體中的背景結(jié)構(gòu)問(wèn)題,進(jìn)行群組行為的識(shí)別。文獻(xiàn)[14]設(shè)計(jì)了一個(gè)弱監(jiān)督群體行為識(shí)別,在只有視頻級(jí)標(biāo)簽可用的情況下進(jìn)行訓(xùn)練和測(cè)試。上述方法雖然注意到了對(duì)全局組群場(chǎng)景的描述和利用,但是由于缺少對(duì)組群內(nèi)部成員交互關(guān)系的體現(xiàn)而顯得整體組群特征比較粗糙,使得它們的識(shí)別精度受限。

1.2 基于交互關(guān)系建模組群行為識(shí)別方法

隨著研究方法的深入,認(rèn)識(shí)到組群成員內(nèi)部的交互關(guān)系才是描述組群行為的核心信息載體[15],近年提出了不少交互關(guān)系建模的深度學(xué)習(xí)方法。文獻(xiàn)[16]構(gòu)造了一種分層圖型模型,考慮個(gè)人行為標(biāo)簽之間的依賴性來(lái)優(yōu)化每個(gè)行為的預(yù)測(cè)標(biāo)簽,然后捕捉單人行為類別,達(dá)到識(shí)別群組行為的目的。文獻(xiàn)[17]提出了基于注意力和圖架構(gòu)的群體行為識(shí)別模型,通過(guò)捕獲多個(gè)人交互關(guān)系,構(gòu)建關(guān)聯(lián)圖,進(jìn)行關(guān)系推理,實(shí)現(xiàn)群組行為標(biāo)簽的預(yù)測(cè)。文獻(xiàn)[18]提出了一種結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(SRNN),利用一系列相互連接的RNN網(wǎng)絡(luò)來(lái)共同捕捉個(gè)人行為、人與人之間的交互關(guān)系及群組行為。文獻(xiàn)[19]提出了嵌入圖關(guān)注塊(GAB)的圖注意力交互模型(GAIM),以在架構(gòu)中顯式和自適應(yīng)地推斷個(gè)人和組群級(jí)別的不平衡交互關(guān)系,并進(jìn)一步學(xué)習(xí)和時(shí)空演化這些互動(dòng)中的集體行為預(yù)測(cè)標(biāo)簽。以上方法均重視了利用交互關(guān)系構(gòu)建組群特征,并通過(guò)對(duì)應(yīng)的消融測(cè)試(ablation tests)證實(shí)了交互關(guān)系模塊可以有效提升識(shí)別精度。

1.3 基于關(guān)鍵人物的交互關(guān)系建模的組群行為識(shí)別方法

交互關(guān)系描述可以細(xì)致刻畫(huà)組群內(nèi)部的成員之間的互動(dòng),從組群內(nèi)部反映群體行為的本質(zhì),近期的文獻(xiàn)在此基礎(chǔ)上提出以關(guān)鍵人物為核心的交互關(guān)系建模方法,不僅約簡(jiǎn)了交互關(guān)系模型,重點(diǎn)突出了核心成員對(duì)組群行為的影響,還抑制了無(wú)關(guān)人員的冗余信息干擾。

文獻(xiàn)[20]提出了一個(gè)基于注意力機(jī)制和遞歸神經(jīng)網(wǎng)絡(luò)RNN的模型,該文通過(guò)他們提出的大規(guī)模僅有運(yùn)動(dòng)時(shí)間標(biāo)注的籃球數(shù)據(jù)集上,測(cè)試該模型證明了關(guān)鍵人物在多人行為識(shí)別中的決定性作用。文獻(xiàn)[21]提出了一種參與貢獻(xiàn)時(shí)間動(dòng)態(tài)模型(PC-TDM)以便排除無(wú)關(guān)次要人員的干擾,得到群組行為標(biāo)簽。文獻(xiàn)[22]結(jié)合時(shí)空注意力的語(yǔ)義圖提出了一種注意力語(yǔ)義遞歸神經(jīng)網(wǎng)絡(luò)(stagNet),利用時(shí)空注意力模型來(lái)關(guān)注關(guān)鍵人物,以提高識(shí)別性能。文獻(xiàn)[23]開(kāi)發(fā)了一種語(yǔ)義保存師生(SPTS)網(wǎng)絡(luò)體系結(jié)構(gòu),證明利用注意力機(jī)制確定關(guān)鍵人物能提升3%的準(zhǔn)確率。文獻(xiàn)[24]構(gòu)建了一種使用門(mén)控融合單元(Gated Fusion Unit, GFU)進(jìn)行特征融合的組群行為識(shí)別框架,其重點(diǎn)關(guān)注關(guān)鍵人物特征信息,忽略無(wú)關(guān)人員對(duì)群組行為的影響,最后送入softmax分類器進(jìn)行組群行為類別分類。

1.4 基于多支路決策融合的組群行為識(shí)別方法

交互關(guān)系是組群行為的核心但不是全部信息載體,本文基于信息互補(bǔ)思想,除了分組交互關(guān)系信息支路實(shí)現(xiàn)行為識(shí)別外,還設(shè)計(jì)包含底層時(shí)空信息和全局信息的另一路識(shí)別網(wǎng)絡(luò),希望通過(guò)決策融合的方法,獲得更佳識(shí)別效果。

總的說(shuō)來(lái),決策水平可以融合模型中不同的分類結(jié)果,同時(shí)不同分類器的錯(cuò)誤互不相關(guān)、互不影響,不會(huì)造成錯(cuò)誤的進(jìn)一步累加,常見(jiàn)的融合方式包括最大值融合(max-fusion)、投票法[25]、加權(quán)平均法(averaged-fusion)[11]和基于貝葉斯規(guī)則的融合(Bayes’rule based)[26]等??紤]到分類器存在拒識(shí)別問(wèn)題,經(jīng)過(guò)對(duì)上述方法分析對(duì)比后,本文采用權(quán)重自適應(yīng)方法進(jìn)行2支路的決策融合,即對(duì)于2個(gè)支路得到的結(jié)果進(jìn)行歸一化處理,計(jì)算本路準(zhǔn)確度在結(jié)果集合中所占比例作為支路的權(quán)重劃分依據(jù)(權(quán)重之和為1),以期能有效提高最終的識(shí)別結(jié)果。

綜合考慮以上4種方法的優(yōu)點(diǎn),本文擬將復(fù)雜群組劃分為交互相對(duì)簡(jiǎn)單鮮明的幾個(gè)小組,通過(guò)關(guān)系推理選取它們中的關(guān)鍵人物(交互關(guān)系最強(qiáng)的人員)來(lái)進(jìn)行整個(gè)群組行為的預(yù)測(cè)。重點(diǎn)解決如何充分利用關(guān)鍵人物和交互關(guān)系信息,以及為了進(jìn)一步降低交互關(guān)系推理的復(fù)雜度提出分組建模,來(lái)提高群組行為識(shí)別精度。

2 算法描述

算法模型如圖1所示,概述如下。

圖1 本文整體算法架構(gòu)

首先,將組群成員按照位置信息分為2組?;跀?shù)據(jù)集提供的bounding boxes標(biāo)注信息,本文進(jìn)一步通過(guò)Inception-v3[27]和RoIAlign[28]這2個(gè)網(wǎng)絡(luò)提取視頻外觀特征,并將此稱為初始特征。利用個(gè)人空間坐標(biāo)X排序大小先后建立組群成員序號(hào){ID=(0,1,…,n)},n表示組群成員人數(shù),并對(duì)組群進(jìn)行二分組(以6個(gè)人為一組從左到右分為2組)。這樣可得分組a、分組b和全局3個(gè)組群場(chǎng)景。

最后,構(gòu)建信息互補(bǔ)的雙路識(shí)別網(wǎng)絡(luò),通過(guò)決策融合獲得組群行為類別。將初始特征信息分別與上述得到的全局特征Gg和精簡(jiǎn)全局關(guān)系特征L組成2支路識(shí)別網(wǎng)絡(luò),并通過(guò)決策融合得到組群行為標(biāo)簽。

3 初始特征提取

本文主要針對(duì)Volleyball數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理得到組群成員的外觀特征信息。

首先,借用文獻(xiàn)[29]提供的針對(duì)該數(shù)據(jù)集的軌跡數(shù)據(jù),得到組群成員的邊界框,如圖2所示,利用該標(biāo)注信息形成每個(gè)成員的邊界框序列。然后,采用Inception-v3和RoIAlign網(wǎng)絡(luò)提取每幀邊界框成員的精準(zhǔn)外觀特征。最后,經(jīng)過(guò)全連接層獲得每個(gè)成員的d維外觀特征向量,即每個(gè)人的初始特征。

圖2 Volleyball數(shù)據(jù)集中個(gè)人和組群行為的邊界框標(biāo)定樣例

4 交互關(guān)系分組建模

由于復(fù)雜群組情況下,參與人數(shù)較多和角色復(fù)雜會(huì)導(dǎo)致交互關(guān)系推理難度提升,本文采用分組建模方法。針對(duì)Volleyball數(shù)據(jù)集,利用每個(gè)人的bounding box的X坐標(biāo)和序號(hào)ID將整個(gè)組群分為2組,如圖3所示的小組a和小組b。然后,針對(duì)每組群體采用GCN網(wǎng)絡(luò)進(jìn)行交互關(guān)系建模,詳細(xì)過(guò)程如下。

圖3 Volleyball數(shù)據(jù)集中整體組群分為2組展示

4.1 組內(nèi)交互關(guān)系建模

利用GCN進(jìn)行組群交互關(guān)系建模時(shí),需要先初始化交互關(guān)系。受到文獻(xiàn)[9]的啟發(fā),本文利用組群成員間的外觀特征、位置信息,構(gòu)建有向關(guān)系圖作為GCN的初始輸入。

4.1.1 組內(nèi)交互關(guān)系的初始化

針對(duì)群內(nèi)成員關(guān)系圖的初始化,本文隨機(jī)輪流選取多個(gè)成員作為目標(biāo)節(jié)點(diǎn),分別將成員間的外觀特征相似度、相對(duì)位置遠(yuǎn)近和關(guān)系值大小作為度量,構(gòu)建多個(gè)關(guān)系圖。如圖4所示的3個(gè)有向關(guān)系圖實(shí)例,它們是同時(shí)選取成員0和5作為目標(biāo)節(jié)點(diǎn)產(chǎn)生的,規(guī)定箭頭方向指向目標(biāo)節(jié)點(diǎn)。下面針對(duì)上述3個(gè)度量進(jìn)行闡述。

圖4 分組a關(guān)系圖展示

針對(duì)外觀信息相似度的計(jì)算,本文采用嵌入向量卷積方法,公式如下:

(1)

針對(duì)空間位置遠(yuǎn)近的計(jì)算,本文采用距離編碼的方式,公式如下:

(2)

其中,φt使用不同波長(zhǎng)的正弦和余弦函數(shù)將2個(gè)人物的相對(duì)距離嵌入到高維表示中,Wt,p和bt,p是嵌入特征轉(zhuǎn)換為標(biāo)量的權(quán)重向量,最后進(jìn)行ReLU激活。

基于上述信息,則成員i和j的關(guān)系值度量,本文采用如下公式:

(3)

針對(duì)關(guān)系圖初始化的最佳數(shù)量問(wèn)題,為了避免初始化關(guān)系圖的偏頗,本文針對(duì)一個(gè)分組場(chǎng)景生成了多個(gè)初始化關(guān)系圖,以表征其交互關(guān)系的多樣性和可能性,將在實(shí)驗(yàn)部分通過(guò)統(tǒng)計(jì)分析的方法,確定初始化關(guān)系圖的最優(yōu)數(shù)量范圍。

4.1.2 交互關(guān)系分組推理

初始化后的關(guān)系圖送入GCN進(jìn)行組內(nèi)交互關(guān)系推理。如圖5所示,以分組a中目標(biāo)節(jié)點(diǎn)0、5為例,針對(duì)每個(gè)初始化輸入關(guān)系圖,令Ga∈RKa×Ka表示該圖中各個(gè)節(jié)點(diǎn)之間的相關(guān)性矩陣,Ka代表分組a的人物總數(shù);Ha(l)∈RKa×d代表GCN第l層的節(jié)點(diǎn)特征集合,Wa(l)∈Rd×d代表l層的學(xué)習(xí)權(quán)重矩陣,則GCN對(duì)該圖的目標(biāo)節(jié)點(diǎn)利用公式(4)與其關(guān)系節(jié)點(diǎn)進(jìn)行信息聚合,圖中用節(jié)點(diǎn)體積變大代表聚合信息的增加,如圖5右側(cè)關(guān)系圖中目標(biāo)節(jié)點(diǎn)0和5。

圖5 分組a推理關(guān)系圖展示

GCN推理單張關(guān)系圖的簡(jiǎn)化公式為:

Ha(l+1)=ReLU(GtHa(l)Wa(l))

(4)

(5)

4.2 交互關(guān)系推理可視化

下面以組群行為“L-spike”為例,闡述上述交互關(guān)系推理的可視化過(guò)程,旨在進(jìn)一步論述組群中每個(gè)成員的交互關(guān)系融合機(jī)理和關(guān)鍵人物的確認(rèn)。

圖6中,橫坐標(biāo)表示目標(biāo)成員,縱坐標(biāo)代表與之交互的關(guān)系成員,用灰色的暗淡代表交互關(guān)系的強(qiáng)弱。其中,圖6(a)展示了全局場(chǎng)景下群組交互關(guān)系推理出的成員之間相關(guān)性矩陣圖,通過(guò)計(jì)算每個(gè)目標(biāo)成員所在列之和作為其對(duì)外的關(guān)系強(qiáng)度,進(jìn)而經(jīng)過(guò)排序定位出關(guān)鍵人物;以目標(biāo)成員2和5為例,經(jīng)過(guò)排序后,目標(biāo)節(jié)點(diǎn)2的交互關(guān)系強(qiáng)度最弱,其融合關(guān)系節(jié)點(diǎn)的特征最少,優(yōu)先排除作為關(guān)鍵人物的可能性;目標(biāo)節(jié)點(diǎn)5與其他成員的交互關(guān)系強(qiáng)度最強(qiáng),交互關(guān)系強(qiáng)度排在第一位,所以定位“5”為全局關(guān)鍵人物,如圖所示關(guān)鍵人物用星號(hào)標(biāo)注,又由于其行為屬性為“spike”,進(jìn)而為下一步組群行為預(yù)測(cè)為“L-spike”提供重要信息。圖6(b)和圖6(c)展示的是分組場(chǎng)景下群組交互關(guān)系推理的相關(guān)性矩陣圖,根據(jù)同樣規(guī)則進(jìn)行關(guān)系強(qiáng)度排序,定位關(guān)鍵人物分別為“5-spike”和“6-block”。

(a) 全局:“L-spike”

(b) 分組a:“Spike”

(c) 分組b:“Block”圖6 “L-spike”組群行為下的各組交互關(guān)系可視化

5 全局與子組內(nèi)關(guān)鍵人物匹配和再優(yōu)化

圖7 關(guān)鍵人物再優(yōu)化和匹配結(jié)構(gòu)圖

(6)

(7)

其中,⊕表示連接,C=cI+cg,cI和cg分別代表個(gè)人和群組行為的類別數(shù)量。

6 基于信息互補(bǔ)構(gòu)建雙路識(shí)別

針對(duì)全局關(guān)系特征Gg比較寬泛,而組間關(guān)系特征L相對(duì)精簡(jiǎn),為了達(dá)到信息互補(bǔ)的目的,本文將初始特征分別與兩者相結(jié)合,構(gòu)建雙路識(shí)別網(wǎng)絡(luò)。

(8)

(9)

其中,yG和yL代表全局和分組的組群行為分?jǐn)?shù),λ1、λ2是自適應(yīng)權(quán)重。

圖8以“L-spike”組群行為識(shí)別為例,展示整個(gè)群組行為雙路識(shí)別架構(gòu)。2個(gè)分組作為支路,經(jīng)GCN關(guān)系推理和關(guān)鍵人物匹配再優(yōu)化得到精簡(jiǎn)組間關(guān)系特征L與初始特征聚合,送入分類器進(jìn)行群組行為識(shí)別;初始特征和全局關(guān)系特征Gg聚合,送入分類器實(shí)現(xiàn)另一路群組行為識(shí)別,兩者經(jīng)過(guò)決策融合得到最終的行為識(shí)別標(biāo)簽“L-spike”。

圖8 “L-spike”推理過(guò)程樣例圖

為了低成本保留時(shí)間信息,在時(shí)間和計(jì)算資源的合理預(yù)算下實(shí)現(xiàn)端到端學(xué)習(xí)。本文模型采用稀疏時(shí)間采樣策略提取時(shí)間域中的信息。在訓(xùn)練期間,從數(shù)據(jù)集中隨機(jī)采樣一組N=3幀,并在這些幀中的人物上構(gòu)建時(shí)間圖。在測(cè)試時(shí),使用滑動(dòng)窗口方法,對(duì)所有窗口的活動(dòng)分?jǐn)?shù)求平均以形成全局活動(dòng)預(yù)測(cè)。

7 算法驗(yàn)證

本文采用公開(kāi)數(shù)據(jù)集Volleyball和NBA進(jìn)行算法的驗(yàn)證。

7.1 數(shù)據(jù)集

Volleyball數(shù)據(jù)集[5]包含55個(gè)排球比賽視頻,每個(gè)比賽視頻又劃分出了多個(gè)組群行為片段,共計(jì)4830個(gè)視頻片段;其中每個(gè)片段包含1個(gè)組活動(dòng)標(biāo)簽,包括Right set、Right spike、Right pass、Right winpoint、Left set、Left spike、Left pass、Left winpoint這8種類別。此外,每個(gè)片段都標(biāo)有個(gè)人動(dòng)作標(biāo)簽,這些個(gè)人行為共包括9種類型:waiting、setting、digging、falling、spiking、blocking、jumping、standing、moving。本文選用其中的3493個(gè)片段作為訓(xùn)練,1337個(gè)測(cè)試片段用來(lái)測(cè)試。

NBA數(shù)據(jù)集[14]包含181個(gè)籃球比賽視頻,每個(gè)比賽視頻又劃分出了多個(gè)組群行為片段,共計(jì)9172個(gè)視頻片段;其中每個(gè)片段包含1個(gè)組活動(dòng)標(biāo)簽,包括2p-succ、2p-fail.-offff、2p-fail.-def、2p-layup-succ、2p-layup-fail.-offff、2p-layup-fail.-def、3p-succ、3p-fail.-offff、3p-fail.-def這9種類別,本文選用其中的7624個(gè)片段作為訓(xùn)練,1548個(gè)測(cè)試片段用來(lái)測(cè)試。

7.2 實(shí)驗(yàn)配置和網(wǎng)絡(luò)參數(shù)初始化

本實(shí)驗(yàn)在Pytorch框架下進(jìn)行,Ubuntu版本為18.04,CUDA版本為8.0,CUDNN版本為6.0,顯卡型號(hào)為NVIDIA GTX1080Ti。為了計(jì)算高效、所需內(nèi)存少,本文使用Adam的隨機(jī)梯度下降來(lái)學(xué)習(xí)具有固定超參數(shù)的網(wǎng)絡(luò)參數(shù)(θ1=0.9,θ2=0.999,ε=10-8),對(duì)于Volleyball數(shù)據(jù)集:最小批次為32幀,學(xué)習(xí)率為0.00005,Epochs為100;對(duì)于NBA數(shù)據(jù)集,使最小批次為64幀,學(xué)習(xí)率為0.0001,Epochs為200;對(duì)于關(guān)系推理來(lái)說(shuō),GCN的參數(shù)設(shè)置為dk=256、ds=32對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一化,防止網(wǎng)絡(luò)不收斂。

本文使用第3章提到的方法,為每個(gè)人物提取1024維特征向量。通過(guò)第4章的方法,把每個(gè)人看成一個(gè)節(jié)點(diǎn),構(gòu)建關(guān)系圖作為GCN網(wǎng)絡(luò)的輸入。融合GCN輸出關(guān)系圖的數(shù)據(jù)生成每個(gè)人的交互關(guān)系特征向量,并用來(lái)進(jìn)行關(guān)鍵人物的提取和群組行為的識(shí)別。實(shí)驗(yàn)期間,經(jīng)過(guò)對(duì)VGG16[29]網(wǎng)絡(luò)和Inception v3進(jìn)行比較,決定采用第2個(gè)網(wǎng)絡(luò)為骨干網(wǎng)絡(luò),并與現(xiàn)有算法進(jìn)行比較。

7.3 初始化交互關(guān)系圖最佳數(shù)量的確定

為了確定初始化關(guān)系圖數(shù)量的最佳范圍,本文通過(guò)實(shí)驗(yàn)并以組群行為識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo)來(lái)進(jìn)行驗(yàn)證和統(tǒng)計(jì)。全局和分組的初始化關(guān)系圖測(cè)試結(jié)果如表1所示。

從表1(a)與表1(b)對(duì)比中發(fā)現(xiàn),全局和分組人物初始關(guān)系圖得到最佳結(jié)果的數(shù)量要求不同,在全局交互關(guān)系推理中16張圖最佳,在分組交互關(guān)系推理中8張圖最有效,這是因?yàn)殡S著群組成員的數(shù)量變化,不同類型的交互關(guān)系數(shù)量也會(huì)發(fā)生改變,初始關(guān)系圖的數(shù)量要求也有所不同。在以下實(shí)驗(yàn)中采用全局關(guān)系圖的數(shù)量為16,分組關(guān)系圖的數(shù)量為8。

表1 基于排球數(shù)據(jù)集的群組行為識(shí)別準(zhǔn)確率表(a) 全局關(guān)系:不同數(shù)量初始化關(guān)系圖時(shí)的識(shí)別精度比較

表(b) 分組關(guān)系:不同數(shù)量初始化關(guān)系圖時(shí)的識(shí)別精度比較

7.4 消融測(cè)試

為了測(cè)試分組交互關(guān)系對(duì)組群行為分類的重要性,本文設(shè)計(jì)3種基線方法與本文模型進(jìn)行比較。

Baseline1為全局場(chǎng)景下,群組成員經(jīng)過(guò)關(guān)系圖建模和GCN關(guān)系推理,得到最終的識(shí)別結(jié)果,簡(jiǎn)稱B1。

Baseline2為場(chǎng)景分組,對(duì)各分組成員分別進(jìn)行關(guān)系圖建模和GCN關(guān)系推理得到各自的關(guān)鍵人物,然后再次進(jìn)行GCN推理,最后將獲得的精簡(jiǎn)組間關(guān)系特征送入分類器進(jìn)行識(shí)別,簡(jiǎn)稱B2。

Baseline3為沒(méi)有交叉熵?fù)p失函數(shù)優(yōu)化的情況下,全局交互關(guān)系指導(dǎo)組間交互關(guān)系的推進(jìn),各分組通過(guò)關(guān)系推理得到組關(guān)鍵人物,對(duì)組間關(guān)鍵人物再次進(jìn)行關(guān)系推理,后期采用決策融合的方式得到最終行為標(biāo)簽,簡(jiǎn)稱B3。

Baseline4即本文算法,在交叉熵?fù)p失函數(shù)對(duì)分組關(guān)系推理再優(yōu)化的情況下,全局交互關(guān)系指導(dǎo)組間交互關(guān)系推理,各分組通過(guò)關(guān)系推理得到組內(nèi)關(guān)鍵人物,對(duì)組間關(guān)鍵人物再次進(jìn)行關(guān)系推理,后期采用決策融合的方式得到最終行為標(biāo)簽,簡(jiǎn)稱B4。

表2展示了本文模型在Volleyball數(shù)據(jù)集上各基線方法的實(shí)驗(yàn)結(jié)果。

表2 模型在Volleyball數(shù)據(jù)集上各種基線方法的比較

經(jīng)過(guò)表2實(shí)驗(yàn)結(jié)果對(duì)比,分析得到:1)B2比B1準(zhǔn)確率提升了0.6個(gè)百分點(diǎn),這是因?yàn)榕c全局關(guān)系推理不同,分組交互關(guān)系推理簡(jiǎn)化了復(fù)雜群組的關(guān)系建模,降低了信息冗余,因此能夠提高組群行為識(shí)別率。2)B3比B2準(zhǔn)確率提升了0.4個(gè)百分點(diǎn),因?yàn)橥ㄟ^(guò)分組交互關(guān)系的推理結(jié)合全局關(guān)系推理,確定了各分組關(guān)鍵人物的重要程度,有利于精簡(jiǎn)全局關(guān)系圖的構(gòu)建,后期經(jīng)過(guò)信息互補(bǔ)的雙路決策融合,能讓群組行為識(shí)別更為準(zhǔn)確。3)B4比B3準(zhǔn)確率提升了0.8個(gè)百分點(diǎn),最大原因是,在進(jìn)行B4模型推理前期,通過(guò)交叉熵?fù)p失函數(shù)確保全局和分組關(guān)鍵人物能夠匹配成功,在一定程度上防止了信息不收斂,能顯著提升群組行為的識(shí)別效果。B4準(zhǔn)確率高于其他基線模型,這表明,按照?qǐng)鼍靶畔⒎纸M,精簡(jiǎn)全局交互關(guān)系推理和信息互補(bǔ)雙路識(shí)別,對(duì)提高群組行為的識(shí)別精度有著重要作用。因此,本文模型即B4的實(shí)驗(yàn)效果最佳。

7.5 本文模型與其他方法的比較

為了證明本文算法的有效性和先進(jìn)性,本文通過(guò)以準(zhǔn)確率為基準(zhǔn)與其他先進(jìn)算法進(jìn)行比較。

7.5.1 Volleyball數(shù)據(jù)集

表3為本文算法和近兩年CVPR算法在Volleyball數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從表中數(shù)據(jù)分析,本文融合了前4種方法中的特征提取、外觀和位置信息和關(guān)系推理的方法,取得了較為優(yōu)越的識(shí)別效果,識(shí)別精度分別提高了2.5個(gè)百分點(diǎn)、3.6個(gè)百分點(diǎn)、1.3個(gè)百分點(diǎn)和0.5個(gè)百分點(diǎn)。

表3 Volleyball數(shù)據(jù)集流行方法的比較

表3中,本文使用與文獻(xiàn)[30]相同的Inception-v3模型進(jìn)行特征提取,但該文獻(xiàn)模型側(cè)重通過(guò)全連接層(FCN)對(duì)特征提取層進(jìn)行微調(diào),以使其能夠捕獲上下文和交互信息,而本文模型主要通過(guò)捕獲和利用群組成員之間的交互關(guān)系進(jìn)行建模,定位了關(guān)鍵人物,并進(jìn)一步構(gòu)建組間交互關(guān)系模型,并與全局交互關(guān)系模型構(gòu)成雙路互補(bǔ)識(shí)別網(wǎng)路,然后,雙路網(wǎng)絡(luò)再進(jìn)行決策融合實(shí)現(xiàn)最終的組群行為識(shí)別,因此在識(shí)別準(zhǔn)確性方面提高了2.5個(gè)百分點(diǎn)。文獻(xiàn)[5]在關(guān)系建模時(shí)缺少對(duì)空間位置信息的考量,因此提取的交互關(guān)系特征不充分,無(wú)法證明交互關(guān)系的完整性,本文方法優(yōu)點(diǎn)在于構(gòu)建了基于位置和外觀信息的關(guān)系圖,并通過(guò)GCN網(wǎng)絡(luò)進(jìn)行交互關(guān)系推理,從而實(shí)現(xiàn)整個(gè)群組行為的分析。文獻(xiàn)[6]的語(yǔ)義關(guān)系圖主要是采用底層時(shí)空特征和原始交互特征作為群組成員節(jié)點(diǎn)的屬性,而本文使用了更為具體的外觀和位置信息構(gòu)建出的關(guān)系圖和采用了更為有效的關(guān)系圖時(shí)間建模方法,因此,組群行為準(zhǔn)確率從91.8%提升到93.1%。最后,本文模型準(zhǔn)確率高于文獻(xiàn)[9],主要是因?yàn)楸疚脑谄淙株P(guān)系推理的基礎(chǔ)上,又采用了分組關(guān)系推理的方法,利用代表各分組信息的組關(guān)鍵人物進(jìn)行精簡(jiǎn)交互關(guān)系推理,并與全局關(guān)系推理進(jìn)行決策融合達(dá)到信息互補(bǔ)的目的,來(lái)提高識(shí)別結(jié)果的準(zhǔn)確性。

7.5.2 NBA數(shù)據(jù)集

本實(shí)驗(yàn)借用文獻(xiàn)[14]中目標(biāo)檢測(cè)模塊提供的成員真實(shí)邊界框和行為標(biāo)簽信息來(lái)驗(yàn)證本文算法的有效性,并在NBA數(shù)據(jù)集上與近幾年視頻分類算法的測(cè)試結(jié)果進(jìn)行了比較,包括:TSN[31]、TRN[32]、I3D[33]、I3D+NLN[1]、SAM[14],從表4中數(shù)據(jù)分析,識(shí)別精度分別提高了10.3個(gè)百分點(diǎn)、7.8個(gè)百分點(diǎn)、15.4個(gè)百分點(diǎn)、15.8個(gè)百分點(diǎn)和0.6個(gè)百分點(diǎn)。

表4中,本文算法準(zhǔn)確率高于文獻(xiàn)[31-32],是因?yàn)椤癟SN”和“TRN”的方法僅使用幀級(jí)信息,而本文在使用幀級(jí)信息的基礎(chǔ)上,再利用視頻幀內(nèi)成員的外觀、位置和交互信息構(gòu)建關(guān)系圖,通過(guò)提煉幀內(nèi)信息的方式,達(dá)到提高群組行為識(shí)別準(zhǔn)確度的目的。本文算法準(zhǔn)確率高于文獻(xiàn)[1,33],主要是因?yàn)椤癐3D”和“I3D+NLN”模型過(guò)度依賴于密集視頻幀,信息冗余,無(wú)法精煉信息,所以在測(cè)試中表現(xiàn)不佳。本文算法準(zhǔn)確率高于文獻(xiàn)[14],是因?yàn)?,首先本文算法是在文獻(xiàn)[14]目標(biāo)檢測(cè)模塊獲取的人物候選框的基礎(chǔ)上,再通過(guò)Incvption-v3和RoIAlign網(wǎng)絡(luò)獲得更為精確的外觀信息;然后本文算法與文獻(xiàn)[14]在視頻幀內(nèi)建立關(guān)系圖的方式不同,文獻(xiàn)[14]對(duì)所有成員使用全連接的方式,會(huì)導(dǎo)致信息冗余、計(jì)算量大的問(wèn)題,降低識(shí)別效果,而本文模型在全局和分組場(chǎng)景下建立交互關(guān)系模型,再利用代表各分組信息的組關(guān)鍵人物進(jìn)行精簡(jiǎn)交互關(guān)系推理,大幅度降低了計(jì)算量,提升了識(shí)別精度,最終在通過(guò)全局和組間關(guān)系推理進(jìn)行決策融合的方式進(jìn)行信息互補(bǔ),提高了識(shí)別結(jié)果的準(zhǔn)確性。

表4 NBA數(shù)據(jù)集流行方法的比較

8 結(jié)束語(yǔ)

本文針對(duì)組群行為中個(gè)體成員運(yùn)動(dòng)屬性較多,交互關(guān)系復(fù)雜以及常規(guī)全連接交互關(guān)系模型中的信息冗余等問(wèn)題,構(gòu)建一種復(fù)雜組群分組交互關(guān)系建模的框架。通過(guò)分別對(duì)場(chǎng)景分組和全局群組的交互關(guān)系建模,提取到了各分組和全局關(guān)鍵人物,并對(duì)兩者進(jìn)行匹配和再優(yōu)化操作;然后,對(duì)匹配成功后的組間關(guān)鍵人物再次進(jìn)行交互關(guān)系建模,得到精簡(jiǎn)全局關(guān)系特征;最后,全局和精簡(jiǎn)全局關(guān)系特征分別結(jié)合初始特征,構(gòu)建了雙路組群行為識(shí)別架構(gòu),并利用決策融合實(shí)現(xiàn)群組行為的識(shí)別。在Volleyball數(shù)據(jù)集和CAD數(shù)據(jù)集上對(duì)本文模型進(jìn)行訓(xùn)練和測(cè)試,并對(duì)比多種方法,驗(yàn)證了分組關(guān)系推理在組群行為識(shí)別的有效性。

猜你喜歡
關(guān)鍵人物組群群組
面向未來(lái)教育范式的智慧教育研究
73個(gè)傳統(tǒng)建筑組群組團(tuán)出道!帶你活進(jìn)從前的慢時(shí)光
“組群”“妙比”“知人”:小學(xué)語(yǔ)文古詩(shī)群文閱讀的三個(gè)途徑
關(guān)系圖特征在敏感群組挖掘中的應(yīng)用研究
淺談班級(jí)文化建設(shè)
讀天下(2018年18期)2018-09-25 10:34:32
磁盤(pán)組群組及iSCSI Target設(shè)置
伊拉克戰(zhàn)爭(zhēng)關(guān)鍵人物今何在
海外星云(2016年15期)2016-12-01 04:18:24
基于統(tǒng)計(jì)模型的空間群組目標(biāo)空間位置計(jì)算研究
兩個(gè)關(guān)鍵人物對(duì)奈保爾創(chuàng)作的影響
群組聊天業(yè)務(wù)在IMS客戶端的設(shè)計(jì)與實(shí)現(xiàn)
迁安市| 岐山县| 龙井市| 义马市| 太仓市| 屏东县| 龙江县| 临沂市| 巫溪县| 牡丹江市| 兴文县| 方山县| 文水县| 南京市| 瑞昌市| 宾阳县| 越西县| 六枝特区| 新疆| 中山市| 江永县| 吉安县| 西乌珠穆沁旗| 延寿县| 唐山市| 浏阳市| 铁岭县| 县级市| 莒南县| 柞水县| 海安县| 南阳市| 玛曲县| 菏泽市| 南部县| 锦州市| 上高县| 沭阳县| 扶余县| 修文县| 西充县|