張潤秀,許志偉,云 靜
(1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院;2.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010080;3.中國科學(xué)院計(jì)算技術(shù)研究所 北京 100190)
在邊緣環(huán)境中,高效的視頻理解是實(shí)際環(huán)境部署的重要基礎(chǔ)。邊緣視頻識別技術(shù)在自動駕駛、智慧醫(yī)療、智慧交通、智慧城市等方面都發(fā)揮著關(guān)鍵支撐作用。隨著科學(xué)技術(shù)的發(fā)展,邊緣設(shè)備收集數(shù)據(jù)的技術(shù)水平得以逐步提升,在實(shí)際環(huán)境中部署邊緣設(shè)備的成本也逐步下降。在此基礎(chǔ)上,人們考慮到可以利用邊緣節(jié)點(diǎn)收集到同一對象不同視角的視頻,這引發(fā)了學(xué)者們對于多視角數(shù)據(jù)的研究,其中多視角人類行為識別也是熱點(diǎn)研究方向之一。邊緣多視角數(shù)據(jù)行為識別圖例如圖1 所示(彩圖掃OSID 碼可見)。通過較好地融合多視角數(shù)據(jù)獲得的豐富視角信息,可以學(xué)習(xí)到泛化性更好的模型,并且從多個視角觀察到動作變化之間的相關(guān)性是一項(xiàng)具有挑戰(zhàn)性的工作。從多視角學(xué)習(xí)到視角無關(guān)動作表示的行為識別是當(dāng)前比較熱門的問題之一,它試圖突破成像角度對于行為識別的限制,使得攝像機(jī)從任意角度獲取的運(yùn)動都可以被準(zhǔn)確識別與理解[1]。視角無關(guān)在智能人機(jī)互動、異常行為監(jiān)控等場景的應(yīng)用中十分重要,研究行為識別多視角無關(guān)特征的提取有助于推動現(xiàn)實(shí)應(yīng)用的發(fā)展。
Fig.1 Example of multi-view data action recognition model圖1 多視角數(shù)據(jù)行為識別模型示例
多視角數(shù)據(jù)行為識別研究大多基于RGB 圖像、深度圖像和骨骼點(diǎn)等多種數(shù)據(jù)融合的方式以學(xué)習(xí)視角無關(guān)的特征。Ren 等[2]提出一種雙向秩池化方法以構(gòu)建RGB 視覺動態(tài)圖像(VDI)和深度動態(tài)圖像(DDI),并且設(shè)計(jì)了一種基于多模態(tài)分層融合策略的有效分割卷積網(wǎng)絡(luò)架構(gòu),用于人體動作識別。Wang 等[3]提出一個生成框架,以探索RGB 和深度模式中的特征分布。Cai 等[4]和Li 等[5]分別提出兩種雙流網(wǎng)絡(luò)結(jié)構(gòu),有效地融合了RGB 和骨架特征。對于深度圖和骨骼點(diǎn)的融合方法,Xu 等[6]提出一種基于雙線性池和注意力網(wǎng)絡(luò)(BPAN)的多模態(tài)動作識別模型,可以有效地融合多模態(tài)進(jìn)行動作識別。盡管這些方法都顯示出較好的效果,但在邊緣資源受限情況下,這些方法由于融合了多種數(shù)據(jù),時(shí)序上動作運(yùn)動的計(jì)算代價(jià)過高,不適合部署在實(shí)際場景中。邊緣視頻識別需在無監(jiān)督情況下更新模型,確保在無需連接數(shù)據(jù)中心服務(wù)器的情況下更新模型。邊緣視頻識別具有能夠正確刻畫瞬息萬變的實(shí)際生產(chǎn)生活環(huán)境特點(diǎn),能夠支撐相關(guān)識別和預(yù)測工作。上述多視角行為識別方法無法在實(shí)際應(yīng)用中有效地學(xué)習(xí)到視角無關(guān)的動作表示,如何在邊緣設(shè)備有限的資源支撐下高效更新模型,以及如何學(xué)習(xí)視角無關(guān)的特征,特別是高效利用邊緣節(jié)點(diǎn)收集同一對象不同視角的視頻,獲取更多有效特征以支持動作識別,是邊緣視頻識別的關(guān)鍵問題。因此,亟需研究一種自監(jiān)督的視角無關(guān)行為識別技術(shù),提高面向?qū)嶋H環(huán)境解決多角度普適問題的能力,同時(shí)保證行為識別結(jié)果的高準(zhǔn)確率。
對比學(xué)習(xí)是適用于多視角行為識別的一種自監(jiān)督方法,其最早作為一種降維方法被提出:只需要訓(xùn)練樣本空間的相對關(guān)系(對比平衡關(guān)系)即可在空間內(nèi)表示向量并將原始數(shù)據(jù)映射到一個特征空間[7]。在該特征空間中,正樣本的相似性被最大化,而負(fù)樣本的相似性被最小化,對比學(xué)習(xí)通過最大化正樣本對之間的一致性進(jìn)行學(xué)習(xí)表示[8]。本文使用對比學(xué)習(xí)實(shí)現(xiàn)最大化同一動作不同視角之間的一致性以獲得多視角的視角無關(guān)特征。
本文提出一種基于對比學(xué)習(xí)的端到端多視角人體行為自監(jiān)督識別網(wǎng)絡(luò),從多視角數(shù)據(jù)中學(xué)習(xí)和辨別視角無關(guān)的特征。模型將同一動作下不同視角的視頻作為網(wǎng)絡(luò)輸入,基于對比學(xué)習(xí)的思想,對比各類多視角下人體的動作變化,學(xué)習(xí)到多個視角觀察下不同動作中的空間不變性特征,從而獲取視角無關(guān)的各類動作信息。本文模型采用多數(shù)據(jù)流輸入方式,將來自不同視角和時(shí)間的多個短視頻剪輯作為輸入,并使用所提出的多視角人體行為識別網(wǎng)絡(luò)學(xué)習(xí)多視角間的視角無關(guān)特征。學(xué)習(xí)到的動作表示用于在下游任務(wù)中使用分類網(wǎng)絡(luò)的動作識別任務(wù)。本文主要貢獻(xiàn)有3 個方面:①提出了一種邊緣環(huán)境下自監(jiān)督的多視角人體行為識別網(wǎng)絡(luò)模型,可以進(jìn)行端到端的訓(xùn)練,適用于實(shí)時(shí)視頻監(jiān)控、智能人機(jī)互動等實(shí)際應(yīng)用場景,提供高精度在線行為識別;②模型基于對比學(xué)習(xí)理論,高效利用多視角數(shù)據(jù),來自不同視角的視頻被映射到嵌入空間中,在該嵌入空間中,通過拉近同一動作不同視角特征間的距離提取具有空間不變性的特征,從而學(xué)習(xí)到視角無關(guān)的動作表示,在多視角數(shù)據(jù)研究中保留了視角的信息,增強(qiáng)了模型泛化能力;③本文方法在NTU RGB+D 數(shù)據(jù)集上優(yōu)于現(xiàn)有一些算法,在基于單一RGB 模態(tài)的自監(jiān)督方法中表現(xiàn)出良好的識別效果,使用多個評價(jià)指標(biāo)進(jìn)行比較,證明了本文提出模型所學(xué)的動作表示在多視角動作識別任務(wù)中的有效性。
早期行為識別大多采用手工特征提取的方式,利用動作的運(yùn)動軌跡進(jìn)行動作分類,其中效果最好的方法為Klaser 等[9]提出的密集軌跡算法。Wang 等[10]在密集軌跡算法基礎(chǔ)上引入背景光流消除方法,使得特征更集中于對人的運(yùn)動描述。然而,這些基于特征工程的方法十分耗時(shí)費(fèi)力。
深度學(xué)習(xí)方法的出現(xiàn)取代了傳統(tǒng)行為識別方法。如基于3D 卷積網(wǎng)絡(luò)的方法[11-13],基于雙流卷積網(wǎng)絡(luò)的方法[14],特征工程與深度學(xué)習(xí)相結(jié)合的方法[15]和基于圖卷積網(wǎng)絡(luò)的方法[16-17]等。文獻(xiàn)[18]提出一種新的視角無關(guān)特征,將骨架關(guān)節(jié)點(diǎn)序列的時(shí)空信息編碼為視角不變骨架圖(VISM),并采用3D 卷積神經(jīng)網(wǎng)絡(luò),利用VISM 的特征進(jìn)行3D 動作識別。文獻(xiàn)[19]提出一種基于骨架的動作識別方法改進(jìn)卷積注意力模塊(CBAM),并將改進(jìn)的模塊應(yīng)用于自適應(yīng)網(wǎng)絡(luò)捕獲通道域和空間域的隱式加權(quán)信息。文獻(xiàn)[20]提出一種新的圖卷積網(wǎng)絡(luò)(CTR-GC)以動態(tài)學(xué)習(xí)不同的拓?fù)浣Y(jié)構(gòu)并有效地聚合不同通道中的聯(lián)合特征,以進(jìn)行基于骨架的動作識別。提出的CTR-GC 通過學(xué)習(xí)共享拓?fù)洌⒆鳛樗型ǖ赖耐ㄓ孟闰?yàn),使用特定于每個通道的相關(guān)性對其加以細(xì)化,從而對通道拓?fù)溥M(jìn)行建模。這些模型準(zhǔn)確率較好,但結(jié)構(gòu)復(fù)雜,動作表示計(jì)算代價(jià)高,不適合部署在邊緣設(shè)備上。
近年來,使用雙流和多流的行為識別方法取得了不錯進(jìn)展。Li 等[5]提出一種雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)由3 個主要組件組成,即提取骨架特征的ST-GCN 網(wǎng)絡(luò)、提取RGB 特征的R(2+1)D 網(wǎng)絡(luò),以及利用這些特征增強(qiáng)RGB 視頻中動作相關(guān)信息的引導(dǎo)塊,并利用分?jǐn)?shù)融合方法進(jìn)行分類。Zhao等[21]使用兩個3DCNN 流(以原始深度數(shù)據(jù)和深度運(yùn)動圖像為輸入)和一個以3D 骨骼為輸入的表示流(以深度和骨骼序列為輸入)進(jìn)行特征提取。這3 個網(wǎng)絡(luò)的分類分?jǐn)?shù)通過加權(quán)法進(jìn)行融合。這些基于多種數(shù)據(jù)模式輸入的方法需要人工標(biāo)注的可靠2D/3D 姿勢信息,在邊緣資源受限情況下,基于RGB 視頻模式的自監(jiān)督行為識別方法更為高效。
行為識別過程中,監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域占有主導(dǎo)地位,但監(jiān)督學(xué)習(xí)需要大量人類標(biāo)注的數(shù)據(jù),實(shí)際場景下大量的數(shù)據(jù)沒法進(jìn)行人工標(biāo)記,導(dǎo)致監(jiān)督學(xué)習(xí)存在不具有實(shí)時(shí)收集數(shù)據(jù)訓(xùn)練的局限性。自監(jiān)督學(xué)習(xí)能夠解決這一難點(diǎn),已有一些研究利用3D 運(yùn)動預(yù)測作為自監(jiān)督學(xué)習(xí)的一種方式[22-24],但需對光流方式和3D 卷積方法進(jìn)行計(jì)算且成本很高,數(shù)據(jù)擴(kuò)增的方法包括對邊緣設(shè)備存儲空間的要求[25],這些方法都無法在資源有限的邊緣設(shè)備上進(jìn)行部署。因此,本文采用RGB 數(shù)據(jù)輸入,2D 卷積作為模型骨干網(wǎng)絡(luò)的自監(jiān)督方案。
本文提出端到端多視角人體行為自監(jiān)督識別網(wǎng)絡(luò)。使用多視角數(shù)據(jù)視角豐富的特點(diǎn),將對比學(xué)習(xí)的思想引入人體行為識別,通過孿生神經(jīng)網(wǎng)絡(luò)模型(Siamese Network)搭建基于多視角的人體行為對比識別框架,提出的自監(jiān)督網(wǎng)絡(luò)模型可以在實(shí)際場景中提供人體行為在線識別。本文所用到的符號描述如表1所示。
Table 1 Description of symbols表1 符號描述
在多個角度下觀察人的行為,每個觀察視角下行為的運(yùn)動軌跡都不同。大多數(shù)行為識別方法在使用數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)沒能考慮到這一問題,從而導(dǎo)致行為識別準(zhǔn)確度不高,不能很好地適應(yīng)行為隨角度變化而運(yùn)動軌跡不同的情況。因此,本文在構(gòu)建模型時(shí)采用多視角數(shù)據(jù)輸入,利用視角豐富的多視角人體行為數(shù)據(jù)讓模型學(xué)習(xí)到適應(yīng)觀察角度不同的行為特征,得到泛化性能更好的模型。
數(shù)據(jù)輸入以兩個視角為例,從同一行為類別的兩個不同視角數(shù)據(jù)中將視頻幀對(x1和x2)作為輸入,i?{1,2,…,n}表示視頻序列長度為n的時(shí)刻數(shù),x1和x2分別表示同一行為類別中兩個不同視角的視頻幀。模型具體輸入如下:
從同一動作兩個不同視角的視頻序列中采集視頻幀對x1和x2。x1和x2被認(rèn)為是一對相似的視頻幀并作為對比數(shù)據(jù)輸入,并且同一動作的每個視頻采樣都從同一時(shí)刻開始到同一時(shí)刻結(jié)束。樣本選擇如下:從數(shù)據(jù)集的其中一個視角V1數(shù)據(jù)中隨機(jī)抽樣N個樣本,然后從另一視角V2中找到對應(yīng)的樣本,總樣本批次大小為2N。將樣本中同一動作V1和V2兩個視角對應(yīng)時(shí)間得到的視頻幀對x1和x2作為輸入。
在實(shí)驗(yàn)中,根據(jù)下文介紹的數(shù)據(jù)集劃分,從同一時(shí)刻同一動作的兩個不同視角進(jìn)行幀采樣作為輸入。同時(shí),按照數(shù)據(jù)集驗(yàn)證協(xié)議,實(shí)驗(yàn)將數(shù)據(jù)集中同一動作區(qū)別于前兩個視角的第三視角作為測試集對訓(xùn)練結(jié)果進(jìn)行測試。
人體行為識別中動作表示的學(xué)習(xí)尤為重要,動作由人完成,人體姿態(tài)的變化在行為識別中是關(guān)鍵。實(shí)際場景中人體行為數(shù)據(jù)記錄的人體姿態(tài)常常隨著觀測相機(jī)的視角變化而變化。但行為的本質(zhì)特征是不隨視角而改變的,動作特征作為行為的表示也應(yīng)當(dāng)不隨視角而變化,因此學(xué)習(xí)視角不變的特征十分重要。
為了使用多視角數(shù)據(jù)學(xué)習(xí)視角不變的特征,模型采用Siamese Network 結(jié)構(gòu)作為特征提取網(wǎng)絡(luò)的整體框架。在模型中使用多視角數(shù)據(jù)進(jìn)行對比學(xué)習(xí)得到利于行為識別的視角不變特征,在兩條神經(jīng)網(wǎng)絡(luò)中共享網(wǎng)絡(luò)參數(shù),這是學(xué)習(xí)的關(guān)鍵。簡單而言,通過共享參數(shù)實(shí)現(xiàn)了讓同一個網(wǎng)絡(luò)同時(shí)從不同視角觀測某一動作,并理解不同視角下哪些是行為表示的一致性特征從而進(jìn)一步拉近距離。如圖2所示(彩圖掃OSID 碼可見),兩個獨(dú)立的數(shù)據(jù)從同一時(shí)刻同一動作的兩個不同視角視頻中采樣;一個基本編碼器網(wǎng)絡(luò)f(·)和一個預(yù)測MLPg(·)被訓(xùn)練成用于計(jì)算對比損失,最大化同類別動作的一致性;訓(xùn)練完成后,使用預(yù)測MLPg(·)得到特征z,對下游任務(wù)進(jìn)行處理。該網(wǎng)絡(luò)框架包括以下主要組件:
Fig.2 Simple example of a visual feature contrast learning framework圖2 視覺特征對比學(xué)習(xí)框架的簡單示例
(1)一種神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器f(·)。神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器的主干網(wǎng)絡(luò)可以由不同的卷積神經(jīng)網(wǎng)絡(luò)模型替換,用于提取視頻特征。實(shí)驗(yàn)中所用的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器由經(jīng)典網(wǎng)絡(luò)VGG16 和一個多層感知器組成,多層感知器包括輸入層、隱藏層和輸出層?;A(chǔ)編碼器輸入為視頻幀對x1和x2,經(jīng)過主干網(wǎng)絡(luò)提取視頻特征,隱藏層將視頻特征映射到高維度空間后輸出的特征用h表示,h=f(x)為輸出層輸出的二維向量。
(2)一個小型神經(jīng)網(wǎng)絡(luò)預(yù)測MLPg(·)。參考Simclr[8]和SimSiam[26],模型使用具有一個隱藏層的多層感知器獲取特征z=g(h)。
(3)對比任務(wù)定義的對比損失函數(shù)。損失函數(shù)使用編碼器f(·)和預(yù)測MLPg(·)提取的特征計(jì)算其空間距離,使同類動作的相似視頻幀對實(shí)現(xiàn)最大化一致性。
現(xiàn)有的行為識別模型大多為有監(jiān)督的方法,而有監(jiān)督學(xué)習(xí)需要大量人工標(biāo)簽標(biāo)注,這很難實(shí)現(xiàn)。大多行為識別方法無法提供在線識別,不能在實(shí)際場景中應(yīng)用。MARNET 是自監(jiān)督的網(wǎng)絡(luò)模型,在對比學(xué)習(xí)的啟發(fā)下,通過計(jì)算潛在空間中的對比損失,最大化同一動作不同視角之間的一致性來學(xué)習(xí)表示,可以部署在實(shí)際場景中實(shí)時(shí)學(xué)習(xí)和識別。
MAR-NET 經(jīng)過Siamese Network 中的隱藏層將視頻幀映射到高維度空間,然后通過對比損失比較其嵌入高維度空間特征的相似程度。具體過程如下:
一對相似視頻幀x1和x2由神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器f(·)處理,即h=f(x),由此得到特征對h1和h2,隨后經(jīng)過小型神經(jīng)網(wǎng)絡(luò)預(yù)測MLPg(·)處理,即z=g(h),由此得到特征對z1和z2,編碼器f(·)和預(yù)測MLPg(·)在兩個視頻幀之間共享權(quán)重。處理得到的特征對h1和h2以及特征對z1和z2為一對相似視頻幀處理得到的特征表示對,具有一定的相似度。對于處理得到的特征表示對,通過使用余弦相似度計(jì)算兩個向量的夾角余弦值以評估向量間的相似度,適用于同一動作不同視角間的相似度度量,因此,分別最小化z1和h1以及z1和h2的負(fù)余弦相似性如下:
其中,‖ · ‖2是L2 范數(shù),這兩個公式用來計(jì)算向量間的相似程度。因此,兩個視角的損失函數(shù)定義為:
參考Simsiam 網(wǎng)絡(luò)框架[28],為了防止模型崩塌,兩個視角的損失函數(shù)最終定義為:
其中,stopgrad(·)是梯度停止操作,x1的編碼器在第一項(xiàng)中沒有接收到來自h1的梯度,但是在第二項(xiàng)中接收到來自z1的梯度(對于x2反之亦然)。
當(dāng)輸入角度多于2 個時(shí),例如有x1、x2、……、xv共v個角度,對輸入角度進(jìn)行排列組合,以兩個不同角度組成一組正樣本。一組正樣本的損失為(以x1、x2為例):
則v個角度的總體損失為:
Lv計(jì)算v個角度向量間的空間距離總和,在模型迭代過程中,Lv不斷優(yōu)化并最終得到最優(yōu)解。在這一過程中,不同視角的同一動作表示在嵌入空間中的距離最大限度地被拉近。同時(shí),在拉近同一動作不同視角的空間距離時(shí),相同類別的動作也在嵌入空間中被拉近,不同類別的動作被拉遠(yuǎn)。不同類別的對比損失定義如下:
其中,y是判斷兩個樣本是否匹配的標(biāo)簽,當(dāng)兩個樣本的類別標(biāo)簽一致時(shí)y=1,當(dāng)兩個樣本的類別標(biāo)簽不一致時(shí)y=0;d=‖z1-z2‖2代表兩個樣本特征的歐氏距離;margin為設(shè)定的閾值。
La損失能夠用于在嵌入空間中有效區(qū)分不同動作類別,當(dāng)兩個樣本標(biāo)簽相同,損失計(jì)算為d2,即樣本為同一動作類別時(shí),如果在嵌入空間的歐式距離較小,則損失函數(shù)越小,說明當(dāng)前模型拉近同一類別動作的效果越好;當(dāng)兩個樣本標(biāo)簽不同時(shí),損失計(jì)算為max(margin-d,0)2,即樣本為不同的動作類別時(shí),其嵌入空間的歐式距離較大,損失函數(shù)減小,說明當(dāng)前模型區(qū)別不同類別動作的效果越好。
因此,模型總體的損失定義為Lall:
其中,λ為損失權(quán)重,用于平衡動作的視角和類別的損失計(jì)算。
最后,在模型訓(xùn)練過程中,相同類別動作的多個視角在嵌入空間中被拉進(jìn),學(xué)習(xí)到視角無關(guān)的動作表示,不同類別的動作在空間中被區(qū)分開,利于下游進(jìn)行行為識別。
本文所有實(shí)驗(yàn)都在Ubuntu 16.04 環(huán)境的Caffe 深度學(xué)習(xí)框架下進(jìn)行,使用一塊NVIDIA GeForce RTX 2060 顯卡和16 GB 內(nèi)存。由兩個樹莓派收集不同視角下的視頻并傳輸?shù)竭吘売?jì)算服務(wù)器,邊緣計(jì)算服務(wù)器完成模型訓(xùn)練和動作識別。邊緣計(jì)算服務(wù)器和樹莓派配置如表2、表3所示。
Table 2 Configuration information of edge server hardware表2 邊緣服務(wù)器硬件配置信息
Table 3 Configuration information of Raspberry Pi 4B hardware表3 樹莓派(Raspberry Pi 4B)硬件配置信息
實(shí)驗(yàn)過程中,預(yù)處理后的視頻幀輸入深度學(xué)習(xí)模型,并經(jīng)過主干網(wǎng)絡(luò)VGG16 和多層感知機(jī)的學(xué)習(xí);對不同視角的動作提取視角無關(guān)的各類行為表示,訓(xùn)練完成后保存預(yù)訓(xùn)練網(wǎng)絡(luò)模型;對預(yù)訓(xùn)練網(wǎng)絡(luò)模型微調(diào)進(jìn)行下游動作分類任務(wù)。微調(diào)時(shí)使用初始模型架構(gòu),將損失換為SoftMax損失并用于動作的多分類。采用SGD 優(yōu)化器,初始學(xué)習(xí)率為0.000 1,學(xué)習(xí)率衰減采用Step 機(jī)制,每1 000 輪學(xué)習(xí)率進(jìn)行衰減,學(xué)習(xí)率調(diào)整倍數(shù)為0.1。損失中Margin 值為1,超參數(shù)λ設(shè)定為0.5。
NTU-RGB+D 數(shù)據(jù)集[27]由南洋理工大學(xué)提供,包括60種動作,約56 000 個視頻片段。分為三大類:40 個日常動作(飲酒、進(jìn)食、閱讀等)、9 個與健康相關(guān)的動作(打噴嚏、蹣跚、摔倒等)和11個互動動作(拳打腳踢、擁抱等)。RGB視頻的分辨率為1 920×1 080,深度圖和紅外視頻均為512x424,3D 骨骼數(shù)據(jù)包含每幀25 個身體關(guān)節(jié)的三維坐標(biāo)。數(shù)據(jù)集采用兩種不同的評估協(xié)議,分別是交叉主體和交叉視圖。NTU-RGB+D 120 數(shù)據(jù)集[28]通過添加另外60類,約57 600 個視頻樣本以擴(kuò)展NTU-RGB+D 數(shù)據(jù)集,即NTU-RGB+D 120數(shù)據(jù)集總共有120類和114 480個樣本。
基于RGB 模式的人體行為識別方法通常對背景雜波敏感??紤]到該問題,對數(shù)據(jù)進(jìn)行預(yù)處理:對提取的視頻幀作進(jìn)一步去背景處理,即估計(jì)出目標(biāo)人體的大致范圍后進(jìn)行人體框的提取和圖片裁剪。對數(shù)據(jù)集原始采樣的視頻幀和數(shù)據(jù)作進(jìn)一步處理后的采樣視頻幀如圖3所示。
Fig.3 Example of the original sampled picture frame of the data set and the sampled picture frame after further processing of the data圖3 數(shù)據(jù)集原始采樣視頻幀和數(shù)據(jù)進(jìn)一步處理后的采樣視頻幀示例
圖3(a)為數(shù)據(jù)集原始采樣的視頻幀,圖3(b)為數(shù)據(jù)進(jìn)一步處理后的采樣視頻幀。將進(jìn)一步處理后的數(shù)據(jù)放入MAR-NET 模型進(jìn)行學(xué)習(xí)。模型設(shè)置與之前相同,不同的是采樣視頻幀有進(jìn)一步處理,得到的結(jié)果與處理前的結(jié)果比較如表4 所示。通過對比可以證實(shí)采樣的視頻幀進(jìn)行處理后對分類準(zhǔn)確度有顯著提高。
Table 4 Accuracy comparison of sampled frames after further processing表4 采樣視頻幀進(jìn)一步處理后準(zhǔn)確度對比(%)
本文所有實(shí)驗(yàn)使用的數(shù)據(jù)集均為NTU-RGB+D 數(shù)據(jù)集[28]的RGB 視頻,且采用交叉視角的評估協(xié)議。同時(shí),參考文獻(xiàn)[29]對數(shù)據(jù)進(jìn)行預(yù)處理:①將視頻的分辨率從1 920×1 080×D(其中D是幀數(shù))降低到512×384×50,在每個視頻中,這50 幀的起始點(diǎn)相同;②估計(jì)出目標(biāo)人體的大致范圍后進(jìn)行人體框的提取和圖片裁剪;③對輸入視頻幀進(jìn)行[0,1]區(qū)間內(nèi)的歸一化。
為了評估MAR-NET 模型性能,本文將其與目前主流的深度學(xué)習(xí)算法進(jìn)行比較。表5 給出了本文模型與使用RGB 的空間卷積網(wǎng)絡(luò)(2D 卷積)、時(shí)空卷積網(wǎng)絡(luò)(CNN-BiLSTM)和使用骨骼的李群網(wǎng)絡(luò)(Lie group)、時(shí)空卷積網(wǎng)絡(luò)(Skelemotion)、時(shí)空交叉注意力網(wǎng)絡(luò)(STAR-Transformer)的行為識別效果。可以看出,MAR-NET 同基于2D 的空間卷積相比表現(xiàn)出更好的性能,且與文獻(xiàn)[31]提出的僅使用RGB 的自監(jiān)督行為識別方法相比準(zhǔn)確度提升18.7%。
Table 5 Comparison with other action recognition methods表5 與其他行為識別方法比較
MAR-NET 與使用骨骼數(shù)據(jù)的方法相比具有更好的識別準(zhǔn)確度。但是,通過與文獻(xiàn)[33]、文獻(xiàn)[34]提出的方法相比可以看出,由于骨骼模態(tài)能夠清晰地體現(xiàn)動作變化,基于骨骼的時(shí)空卷積方法為識別準(zhǔn)確性帶來較大提升。然而,在實(shí)際場景中使用骨骼存在模態(tài)缺失及提取骨骼質(zhì)量劣質(zhì)的問題,導(dǎo)致識別效果不佳。本文方法針對邊緣環(huán)境中資源受限情況下的行為識別,考慮到更多現(xiàn)實(shí)環(huán)境因素,提高了行為識別算法實(shí)際應(yīng)用時(shí)的在線識別精度。
為了驗(yàn)證本文使用對比學(xué)習(xí)提出對比損失對模型性能的影響,在NTU-RGB+D 數(shù)據(jù)集上進(jìn)行了3組消融實(shí)驗(yàn)。
(1)模型損失計(jì)算僅采用式(6)。模型設(shè)置使用與之前相同的設(shè)置,損失計(jì)算不使用不同類別間的對比損失計(jì)算,僅使用計(jì)算視角間的對比損失。得到的結(jié)果與未修改的對比損失的結(jié)果比較如表6 所示。通過對比可以證實(shí),采用本文方法計(jì)算不同類別間的對比損失能夠形成類間區(qū)別性,在特征空間中更好地約束不同行為類別的特征分布,從而得到更加準(zhǔn)確的行為分類結(jié)果。
Table 6 Accuracy comparison of loss calculation used only by equation(6)表6 僅使用式(6)進(jìn)行損失計(jì)算后的準(zhǔn)確度比較(%)
(2)模型損失計(jì)算僅采用式(7)。模型設(shè)置使用與之前相同的設(shè)置,損失計(jì)算不使用視角間的對比損失計(jì)算,僅使用計(jì)算不同類別的對比損失。得到的結(jié)果與未修改的對比損失結(jié)果比較如表7 所示。通過對比可以證實(shí),采用本文提出的視角間對比損失能夠更加有效地學(xué)習(xí)行為的本質(zhì)特征,從而獲取更為優(yōu)秀的人體行為表示。
Table 6 Accuracy comparison of loss calculation used only by equation(7)表7 僅使用式(7)進(jìn)行損失計(jì)算后的準(zhǔn)確度比較(%)
(3)主干網(wǎng)絡(luò)不變,自監(jiān)督損失改為簡單分類損失。為了驗(yàn)證使用對比學(xué)習(xí)思想學(xué)習(xí)視角無關(guān)特征的效果,MAR-NET 的主干網(wǎng)絡(luò)結(jié)構(gòu)不變,不使用共享參數(shù)的多個視角的視頻數(shù)據(jù)輸入,人工將視頻數(shù)據(jù)打上類別標(biāo)簽,僅使用分類損失對視頻幀進(jìn)行訓(xùn)練。空間上簡單分類的深度學(xué)習(xí)網(wǎng)絡(luò)(Supervised-net)最后分類結(jié)果與MAR-NET的結(jié)果比較如表8 所示。對于多個視角的數(shù)據(jù),簡單分類方法未考慮視角間動作不一致的問題,無法分辨同一個目標(biāo)人體做出的不同動作而得到較差的識別結(jié)果。通過對比可以證明,本文提出的多視角自監(jiān)督行為識別方法相比簡單的分類學(xué)習(xí)可以學(xué)習(xí)到更有效的動作表示,提高了動作分類效果。
本文提出了一種基于對比學(xué)習(xí)的端到端多視角人體行為自監(jiān)督識別模型,主要解決了實(shí)際場景中資源受限,并且因人體角度不同或遮蔽所帶來的人體行為識別難題。本文提出的模型基于對比學(xué)習(xí)的思想,學(xué)習(xí)不同動作多個視角之間潛在的空間關(guān)系,將不同視角學(xué)習(xí)到的特征映射到同一特征空間,利用遷移學(xué)習(xí)在下游任務(wù)中對視頻中的行為類別進(jìn)行識別。多視角特征學(xué)習(xí)模型是端到端訓(xùn)練,使得該模型能夠更好地學(xué)習(xí)到多個視角之間的視角不變特征且適用于實(shí)際場景中,為行為識別的高準(zhǔn)確度和實(shí)用性提供了保障。在NTU-RGB+D 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明了該方法對于多視角動作識別的有效性,同時(shí)與其他多視角行為識別方法對比,證明了本文方法的優(yōu)越性。