国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別

2024-04-22 00:46:48尤凱軍侯振杰梁久禎鐘卓錕施海勇
中國圖象圖形學(xué)報 2024年4期
關(guān)鍵詞:空間結(jié)構(gòu)集上特征向量

尤凱軍,侯振杰,梁久禎,鐘卓錕,施海勇

常州大學(xué)計算機(jī)與人工智能學(xué)院,常州 213000

0 引言

隨著計算機(jī)視覺的不斷發(fā)展,行為識別在視頻監(jiān)控和人機(jī)交互等諸多領(lǐng)域中展現(xiàn)出廣泛的應(yīng)用前景和研究價值。利用深度圖序列(許艷 等,2018;李興 等,2019;施海勇 等,2023)進(jìn)行人體行為識別是機(jī)器視覺和人工智能中的一個重要研究領(lǐng)域,廣泛使用的深度圖序列盡管可以提供深度信息,但易受其他因素影響,行為數(shù)據(jù)的時空結(jié)構(gòu)信息大量喪失。點云(Guo等,2021b;陶帥兵 等,2021)的出現(xiàn)彌補(bǔ)了深度圖數(shù)據(jù)的劣勢。點云就是分布在三維空間中的離散點集,它對復(fù)雜場景以及物體的外形表達(dá)具有獨特的優(yōu)勢,但由于點云分布不規(guī)則且無序的性質(zhì),在點云上應(yīng)用深度學(xué)習(xí)是不容易的。點云學(xué)習(xí)可分為基于多視圖的、基于體積的和基于點的方法?;诙嘁晥D的方法首先將一個三維形狀投影到多個視圖中,并提取視圖特征,然后融合這些特征進(jìn)行精確的形狀分類;基于體積的方法通常是將點云體素化為三維網(wǎng)格,然后應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對其進(jìn)行形狀分類;基于點的方法根據(jù)每個點的特征學(xué)習(xí)所使用的網(wǎng)絡(luò)架構(gòu),獨立地對每個點建模,然后使用對稱聚合函數(shù)聚合全局特征。PointNet(Qi 等,2017a)是點云深度學(xué)習(xí)的開山之作。PointNet 的核心思想是利用一組多層感知機(jī)(multilayer perceptron,MLP)抽象每個點來學(xué)習(xí)其對應(yīng)的空間編碼,然后通過一個對稱函數(shù)將所有單獨的點特征集合起來得到一個全局的點云特征。但是PointNet 缺乏對局部特征的提取及處理,而且現(xiàn)實場景中的點云往往是疏密不同的,而PointNet 是基于均勻采樣的點云進(jìn)行訓(xùn)練的,導(dǎo)致了其在實際場景中準(zhǔn)確率的下降。因此提出了一個分層網(wǎng)絡(luò)PointNet++(Qi 等,2017b),PointNet++的特征提取由3 部分組成,分別為采樣層、分組層和PointNet 層,這3個層構(gòu)成一個抽象層,PointNet++由幾個抽象操作集合組成,PointNet++通過幾個抽象層的層級結(jié)構(gòu)逐步利用局部區(qū)域信息學(xué)習(xí)特征,網(wǎng)絡(luò)結(jié)構(gòu)更具有魯棒性,但隨機(jī)的最遠(yuǎn)距離點采樣(farthest point sample,F(xiàn)PS)不可避免地會損失點云數(shù)據(jù)的時空信息。

為了解決上述問題,本文提出了一種結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò),該網(wǎng)絡(luò)將深度圖序列進(jìn)行了信息轉(zhuǎn)換,生成點云序列,并對其進(jìn)行時空建模。網(wǎng)絡(luò)由兩個模塊組成,即特征提取模塊和時空信息注入模塊。特征提取模塊將每個點云框架抽象為一個外觀輪廓的特征向量,以此來捕捉復(fù)雜的時空結(jié)構(gòu)。在時空信息注入模塊中,為點云的外觀輪廓特征向量注入時空信息,其中借助可學(xué)習(xí)的正態(tài)分布隨機(jī)張量的方法尋找空間結(jié)構(gòu)信息上的特征變化,不僅能更好地表示數(shù)據(jù)的空間結(jié)構(gòu)信息,也能加快網(wǎng)絡(luò)的運行速度。在進(jìn)行三維動作識別之前,將網(wǎng)絡(luò)中的不同尺度特征串聯(lián)起來。在結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)中,不同的點云框架在最終的分類網(wǎng)絡(luò)層之前共享相同的網(wǎng)絡(luò)架構(gòu)和網(wǎng)絡(luò)權(quán)重。

本文的主要貢獻(xiàn)如下:1)提出一種結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò),通過點云特征提取模塊和時空信息注入模塊,解決了深度圖序列時空結(jié)構(gòu)信息的利用率不足的問題;2)通過構(gòu)造時空信息注入模塊,為靜態(tài)點云序列注入動態(tài)信息(點云序列間的時序信息和運動幀的空間結(jié)構(gòu)信息),彌補(bǔ)了點云抽象操作下采樣時部分信息丟失的不足;3)設(shè)計了點間注意力機(jī)制模塊,通過可學(xué)習(xí)的正態(tài)分布隨機(jī)張量將數(shù)據(jù)映射到相應(yīng)的空間中,不斷尋找最優(yōu)的投影空間,得到最佳的空間結(jié)構(gòu)信息權(quán)重矩陣,以此表征運動幀的空間結(jié)構(gòu)特征。用運動幀的空間結(jié)構(gòu)特征替代點云幀的點特征。

1 相關(guān)工作

由于點云分布不規(guī)則且無序的性質(zhì),在點云上應(yīng)用深度學(xué)習(xí)是不容易的,基于點云序列的三維人體動作識別是一項具有挑戰(zhàn)性的新任務(wù)。PointNet是點云深度學(xué)習(xí)的開創(chuàng)之舉。PointNet 利用多層感知機(jī)、最大池化和剛性變化來保證置換和旋轉(zhuǎn)下的不變性。PointNet++在此基礎(chǔ)上通過幾個抽象層的層級結(jié)構(gòu)逐步學(xué)習(xí)局部特征,網(wǎng)絡(luò)結(jié)構(gòu)更具有魯棒性。點云數(shù)據(jù)在時空維度上展現(xiàn)了不規(guī)則性和無序性,不同幀中點的出現(xiàn)也無法保證一致性。為此Fan 等人(2022)提出了PST 卷積(point spatiotemporal convolution)來編碼點云序列的時空局部結(jié)構(gòu)。PST 卷積首先解開點云序列的時空糾纏。此外,將PST 卷積用分層的方式合并到一個深網(wǎng)絡(luò)PSTNet 中模擬點云序列。為了避免點跟蹤,F(xiàn)an 等人(2021)提出了P4Transformer(point 4D Transformer)網(wǎng)絡(luò)建模點云視頻。P4Transformer包括一個點4D 卷積和一個Transformer。Xu 等人(2021)介紹了一種用于三維點云處理的通用卷積運算PAConv(position adaptive convolution),通過動態(tài)組裝存儲在權(quán)重庫中的基本權(quán)重矩陣來構(gòu)造卷積核,使得PAConv 比2D 卷積具有更大的靈活性,可以更好地處理不規(guī)則且無序的點云數(shù)據(jù)。Li等人(2023)對稱構(gòu)造了兩個點云特征圖,從點云序列中識別人類行為,即點云外觀圖(point cloud appearance map,PCAM)和點云運動圖(point cloud motion map,PCMM)。為了構(gòu)建PCAM,Li 等人(2023)設(shè)計了一種類似MLP 的網(wǎng)絡(luò)架構(gòu),用于在虛擬動作序列中捕獲人類動作的時空外觀特征;使用類似MLP 的網(wǎng)絡(luò)架構(gòu)在虛擬動作差分序列中捕獲人體動作的運動特征來構(gòu)建PCMM,最后,將兩個點云特征圖描述符連接起來并發(fā)送到一個全連接的分類器,以進(jìn)行人類行為識別。

此外,Transformer 也逐漸應(yīng)用于圖像視覺任務(wù),且效果優(yōu)于流行的卷積網(wǎng)絡(luò)。其中,Guo 等人(2021a)提出了一種新的點云學(xué)習(xí)框架PCT(point cloud Transformer),PCT 的核心思想是利用Transformer 固有的順序不變性,避免定義點云數(shù)據(jù)的順序,并通過注意力機(jī)制進(jìn)行特征學(xué)習(xí),注意力權(quán)重的分布與部分語義高度相關(guān),并且不會隨空間距離而嚴(yán)重衰減。Song 等人(2022b)提出了一種用于三維點云分析的新型增強(qiáng)型局部語義學(xué)習(xí)Transformer,其中局部語義學(xué)習(xí)點云互感器(local semantic learning point cloud Transformer,LSLPCT)不僅可以學(xué)習(xí)3D 點云的全局信息,還可以端到端地增強(qiáng)對局部語義信息的感知,局部語義學(xué)習(xí)自我注意機(jī)制(local semantic learning self-attention,LSL-SA)可以并行感知全局上下文信息并捕獲更細(xì)粒度的局部語義特征。Liu 等人(2022)提出了一個新的端到端優(yōu)化雙流框架,稱為幾何Transformer(geometrymotion-Transformer,GMT),GMT 使用特征提取模塊(feature extraction module,F(xiàn)EM)在不使用體素化過程的情況下在幀之間生成一對一的對應(yīng)關(guān)系,從原始點云中顯式提取幾何和多尺度運動表示,并提出了一種改進(jìn)的基于Transformer 的特征融合模塊(feature fusion module,F(xiàn)FM),以有效地融合雙流特征。

結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)根據(jù)將點云的時間和空間維度進(jìn)行解耦,處理每個點云框架的空間結(jié)構(gòu)和時間變化,從而進(jìn)行時空特征提取。使用位置編碼為點云抽象特征加入時序信息,通過可學(xué)習(xí)的隨機(jī)張量對空間結(jié)構(gòu)進(jìn)行投影,尋找最佳的空間結(jié)構(gòu)信息權(quán)重。最后將網(wǎng)絡(luò)中不同層次的特征聚合后進(jìn)行行為識別。

2 網(wǎng)絡(luò)結(jié)構(gòu)介紹

本文提出的結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)由特征提取模塊和時空信息注入模塊組成,在特征提取模塊中,輸入每一幀的點云集,輸出對應(yīng)幀外觀輪廓的時空特征向量,以此表征時空信息。通過時空信息注入模塊給所有幀加入時序信息和空間尺度信息。之后將多尺度的人體運動特征數(shù)據(jù)和時空特征數(shù)據(jù)有效融合,并利用全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行動作分類識別。

圖1 結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)模塊圖Fig.1 Module diagram of human behavior recognition network in point cloud based on coordinate transformation and spatiotemporal information injection

2.1 深度坐標(biāo)系到點云坐標(biāo)系的轉(zhuǎn)換

人體行為識別的研究大量采用了深度圖像序列。與RGB 圖像相比,深度圖像基本不受自然光線影響,并提供了三維信息數(shù)據(jù),但該數(shù)據(jù)只代表在可視范圍內(nèi)目標(biāo)與深度攝像機(jī)的距離,數(shù)據(jù)冗余量大,對時空結(jié)構(gòu)信息的表達(dá)也不充分。點云是在同一空間參考系下表達(dá)目標(biāo)空間分布和目標(biāo)表面特性的海量的點集合。點云的獲取方式有多種,如通過各種類型的3D 掃描儀、激光雷達(dá)和RGB-D 相機(jī)。點云數(shù)據(jù)可以提供豐富的幾何、形狀和尺度信息,這是深度圖所不能比擬的。通過坐標(biāo)轉(zhuǎn)換將深度圖序列轉(zhuǎn)換為點云序列,可以很容易地找到相鄰點信息,彌補(bǔ)了深度圖數(shù)據(jù)的不足。

深度圖到點云數(shù)據(jù)的轉(zhuǎn)換通常采用坐標(biāo)系變換的方法,通過將圖像坐標(biāo)系轉(zhuǎn)換為世界坐標(biāo)系,深度圖轉(zhuǎn)換為點云數(shù)據(jù)。其中,圖像坐標(biāo)系轉(zhuǎn)換為世界坐標(biāo)系計算為

式中,x,y,z為點云坐標(biāo)系,D為深度值,fx,fy分別為鏡頭x,y方向的焦距,x′和y′是圖像坐標(biāo)系。得到圖像點到世界坐標(biāo)點的變換關(guān)系,具體為

式中,cx,cy分別是光心在圖像坐標(biāo)系下的坐標(biāo)。

通過上述公式的變化,深度圖序列中的每一幀深度圖像轉(zhuǎn)換成對應(yīng)的點云幀,組成點云序列,相應(yīng)深度數(shù)據(jù)集轉(zhuǎn)換為點云數(shù)據(jù)集后作為網(wǎng)絡(luò)的輸入,如圖2所示。

圖2 深度序列轉(zhuǎn)換為點云序列Fig.2 Graph of depth sequence to point cloud sequence

2.2 特征提取模塊

受PointNet++的啟發(fā),本文構(gòu)建了特征提取模塊。該模塊由兩個抽象操作層、一組多層感知機(jī)和最大池化層組成。

抽象操作層由采樣層、分組層、通道,空間注意力層(convolutional block attention module,CBAM)和PointNet層組成。

1)在采樣層,使用最遠(yuǎn)距離點采樣(FPS)從N個點的點集中選擇n個點,降低數(shù)據(jù)集規(guī)模。FPS算法的流程為:首先隨機(jī)選取一個點作為初始點加入初始點集,計算剩余點到初始點的歐氏距離,選距離最遠(yuǎn)的點加入到初始點集中,然后計算其余點到初始點集的距離,其余點中某個點到初始點集中所有點的歐氏距離中最小的值作為這個點到初始點集的距離,選取其余點中到初始點集距離最大的點加入初始點集,以此類推,直到初始點集長度為n。尋找初始點集及FPS算法的過程描述為

式中,P代表初始點集,‖x-P‖代表點到初始點集的歐氏距離,xi代表初始點集中以及即將加入初始點集的點,范圍是1 到n。xj代表初始點集外的其余點,范圍為1 到N-i+1。定義Pt={x1,x2,…,xn}為第t幀的點云集,PT=為T幀的點云序列。

2)在分組層,通過質(zhì)心點與周圍相同半徑內(nèi)的局部點組成局部鄰域,便于網(wǎng)絡(luò)學(xué)習(xí)點與點之間的空間結(jié)構(gòu)關(guān)系。球半徑查詢方法可以查找在質(zhì)心點半徑范圍內(nèi)所有點。第1 個分組層的輸入是一組大小為n×(d+c)(具有d維坐標(biāo)和c維點特征的n個點)的點集和一組大小為n′×d的質(zhì)心的坐標(biāo),輸出是一組大小為n1×k×(d+c1)的點集,其中每組對應(yīng)一個局部區(qū)域,k是質(zhì)心點鄰域中的點數(shù)。

3)在通道注意力和空間注意力層,使用通道注意力和空間注意力沿著通道和空間兩個維度進(jìn)行注意力權(quán)重學(xué)習(xí),對點云特征進(jìn)行自適應(yīng)調(diào)整,獲取重要特征,壓縮不重要特征,表征每一幀人體行為靜態(tài)外觀的時間信息和空間結(jié)構(gòu),如圖3 所示。為了有效計算通道注意力,需要對輸入特征圖的空間維度進(jìn)行壓縮,對于空間信息的聚合,常用的方法是平均池化。另外,最大池化可以收集到難區(qū)分物體之間更重要的線索,以獲得更詳細(xì)的通道注意力,所以平均池化和最大池化的特征是同時使用的。因此,通道注意力模塊同時使用平均池化和最大池化后的點云特征,然后將它們依次送入一個共享權(quán)重的多層感知機(jī)中,最后將輸出的特征向量進(jìn)行合并??臻g注意力主要聚焦于哪部分的有效信息較豐富,這是對通道注意力的補(bǔ)充。通過最大池化和平均池化各獲得一張?zhí)卣鲌D,而后將它們拼接成一張2D 特征圖,再送入標(biāo)準(zhǔn)7×7 卷積進(jìn)行參數(shù)學(xué)習(xí),最終得到一幅1D 的權(quán)重特征圖,該圖編碼了需要關(guān)注的位置。從空間的角度來看,通道注意力是全局的,而空間注意力是局部的。本文CBAM 模塊的結(jié)構(gòu)表達(dá)為

圖3 通道注意力和空間注意力Fig.3 Channel attention and spatial attention

式中,A()表示通道注意力和空間注意力操作,in表示模塊的輸入,MLP表示多層感知機(jī)操作,m和n表示平均池化和最大池化操作,σ表示激活函數(shù)。

4)在PointNet 層,由一組MLP 和一個最大池化操作組成,通過MLP 和最大池化操作來表征局部區(qū)域特征。在這一層中,輸入的是數(shù)據(jù)為n1×k×(d+c1+1)的n1個局部區(qū)域,輸出數(shù)據(jù)為n1×(d+c1),由n1個具有d維坐標(biāo)的子采樣點和總結(jié)本地上下文的新c1維特征向量組成。輸出中的每個局部區(qū)域都是其質(zhì)心和質(zhì)心鄰域的局部抽象特征的連接。

抽象操作2 與抽象操作1 類似,輸入的數(shù)據(jù)為n1×(d+c1),輸出為n2×(d+c2),將輸出記為fab。

最后,通過一組多層感知機(jī)和最大池化層表征整個點云框架的時空信息,計算為

式中,f為一幀點云幀通過多層感知機(jī)和最大池化操作后的特征向量,MAX表示最大池化操作,所有點云幀通過特征提取模塊的輸出為F=,T為一個行為動作的總幀數(shù),f的大小為1×do,F(xiàn)的大小為T×do,do為輸出通道的大小。

2.3 時空信息注入模塊

通過點云對深度圖像進(jìn)行信息表征彌補(bǔ)了深度圖數(shù)據(jù)時空信息不足的缺點,但點云序列的轉(zhuǎn)換以及隨機(jī)最遠(yuǎn)點采樣會使原本的時空結(jié)構(gòu)信息損失完整性,在一定程度上損失一部分時空結(jié)構(gòu)信息,所以有必要對點云序列進(jìn)行額外時空結(jié)構(gòu)信息注入。

2.3.1 時序信息注入

由圖1 所示,經(jīng)過特征提取模塊形成的外觀輪廓的時空特征向量序列F=在進(jìn)入時空信息注入模塊后首先進(jìn)行時序信息注入。為了對人體動作的時間信息進(jìn)行編碼,使用位置編碼、共享MLP層和滑動塊最大池化層。位置編碼層為特征向量序列注入時間位置信息。共享的MLP 層對每個獨立的特征向量執(zhí)行一組MLP,以提取每個點云框架的時空信息。采用滑動塊最大池化層在多個時間尺度上提取序列空間信息。

1)位置編碼層。給定輸入特征向量序列F=,通過加入位置編碼注入順序信息。因為正弦和余弦函數(shù)在無序方向中,每個向量的位置具有唯一性和很好的魯棒性,所以使用不同頻率的正弦和余弦函數(shù)作為時間位置編碼。

式中,PE表示二維矩陣,大小和ft相同,p表示時間位置。l表示特征向量的位置,dm表示特征向量的維度。偶數(shù)位置使用正弦函數(shù),奇數(shù)位置使用余弦函數(shù)。將位置編碼函數(shù)與ft聚合以此加入時間位置信息生成特征向量是經(jīng)過位置編碼后的新的特征向量。

2)共享的MLP 層。經(jīng)過時間位置嵌入層后,將順序信息簡單地嵌入到空間信息序列中。為了進(jìn)一步提取時空信息,對每個特征向量應(yīng)用一組MLP,即

3)滑動塊最大池化層。在這一層中,使用最大池化操作對多個特征向量進(jìn)行聚合。為了捕獲點云序列內(nèi)的子動作和更有鑒別性的運動信息,提出滑動塊最大池化策略,將向量序列分成與點云幀等量的塊,其中前e個塊組成滑動塊,然后對滑動塊進(jìn)行最大池化操作,生成相應(yīng)的子特征。之后將滑動塊向后滑動m個點云幀距離,再進(jìn)行最大池化操作并生成子特征,直到滑動塊到達(dá)序列末為止。最后,所有的子特征被簡單地連接起來,形成人類行為的時間子特征FTi。

為了獲得更充足的人體運動時空信息,從位置編碼前的不同階段整合人體動作特征(如圖1 中階段特征),以此豐富時間特征序列。整合方法為

2.3.2 空間信息注入

Li等人(2022)指出了強(qiáng)空間結(jié)構(gòu)和弱時間變化的人類行為特性,即當(dāng)人們觀察多幀的人體動作時,即使時間順序雜亂,也可以通過靜態(tài)外觀表象進(jìn)行大致有效的動作識別,說明空間結(jié)構(gòu)信息表征在動作識別時的重要性,意味著點云序列動作識別中強(qiáng)空間結(jié)構(gòu)信息的學(xué)習(xí)和表征對網(wǎng)絡(luò)性能有著不可或缺的作用,而原始PointNet++中的抽象操作使用FPS采樣,在加大感受野的同時,也不可避免地?fù)p失其余的空間信息。在經(jīng)過滑動池化層后,將帶有時序信息的特征向量稱為三維向量關(guān)系序列(即FTi)。如圖4 所示,三維向量關(guān)系序列同一組可學(xué)習(xí)的kaiming正態(tài)分布的隨機(jī)張量進(jìn)行乘積,將三維向量關(guān)系序列投影到相應(yīng)的維度空間中,再通過網(wǎng)絡(luò)學(xué)習(xí)隨機(jī)張量的系數(shù),尋找更能關(guān)注點云間結(jié)構(gòu)關(guān)系的最優(yōu)投影空間。

圖4 點間注意力機(jī)制(空間信息注入)Fig.4 Inter-point attention mechanism(spatial information injection)

聚類之后進(jìn)入點間注意力機(jī)制模塊,通過點間注意力機(jī)制進(jìn)一步學(xué)習(xí)點云數(shù)據(jù)點與點之間的結(jié)構(gòu)關(guān)系,并生成可以表征點云數(shù)據(jù)空間結(jié)構(gòu)關(guān)系的權(quán)重系數(shù)矩陣。

1)隨機(jī)張量。為了更好地進(jìn)行點云深度學(xué)習(xí),讓網(wǎng)絡(luò)自主地學(xué)習(xí)到更適合表征數(shù)據(jù)空間結(jié)構(gòu)的關(guān)系矩陣,采用一組設(shè)定好大小但數(shù)據(jù)隨機(jī)的張量集,通過迭代不斷學(xué)習(xí)更優(yōu)的數(shù)據(jù)參數(shù),尋找最優(yōu)投影空間。張量是一種強(qiáng)大的表示方向和空間的方法,通過張量不僅能更好地表示數(shù)據(jù)的空間結(jié)構(gòu)信息,也能加快網(wǎng)絡(luò)的運行速度。

2)點間注意力機(jī)制。點間注意力機(jī)制由一組多層感知機(jī)和softmax 函數(shù)等組成,多層感知機(jī)可以很好地學(xué)習(xí)到點云數(shù)據(jù)中更關(guān)鍵點的時空信息,再經(jīng)過softmax 函數(shù)層轉(zhuǎn)換成權(quán)重系數(shù),即生成了可以表征點云數(shù)據(jù)空間結(jié)構(gòu)關(guān)系的權(quán)重系數(shù)矩陣,其表現(xiàn)形式為

式中,F(xiàn)s表示生成的可以表征點云數(shù)據(jù)空間結(jié)構(gòu)關(guān)系的權(quán)重系數(shù)矩陣(時空特征1),R表示隨機(jī)張量,C表示聚類操作,Φ表示特征映射操作,即為softmax后的卷積和批正則化等操作。

為了將點間關(guān)系與點云序列數(shù)據(jù)各點相結(jié)合,使用的方法為

式中,F(xiàn)Ti為經(jīng)過時序信息注入后生成的三維向量關(guān)系序列,將其抽象(時空特征2)并與時空特征1 結(jié)合,生成空間結(jié)構(gòu)信息特征向量序列Fo。

最后,將時間特征向量序列TTime和空間結(jié)構(gòu)特征向量序列Fo進(jìn)行簡單的拼接,然后發(fā)送到一組全連接層中進(jìn)行人類動作識別。

3 實驗

3.1 數(shù)據(jù)集

在兩個大型公共動作識別數(shù)據(jù)集NTU RGB+d60(Shahroudy 等,2016)和NTU RGB+d120(Liu 等,2020a)以及一個小型公共數(shù)據(jù)集MSR Action3D(Li等,2010)上評估了所提出的方法。

NTU RGB+d60 數(shù)據(jù)集由60 個動作的56 880 個深度視頻序列組成,是最大的人類動作數(shù)據(jù)集之一。

NTU RGB+d120 數(shù)據(jù)集是目前最大的三維動作識別數(shù)據(jù)集,是NTU RGBD 60 數(shù)據(jù)集的擴(kuò)展。NTU RGB+d120 數(shù)據(jù)集由120 個動作的114 480 個深度視頻序列組成。

MSR Action3D 數(shù)據(jù)集包含來自10 個受試者的20 個動作的557 個深度視頻樣本,每個動作由每個受試者執(zhí)行2或3次。

3.2 實現(xiàn)細(xì)節(jié)

首先,從點云集合中隨機(jī)抽取2 048 個點。然后,利用PFS 算法從2 048 個點中選取512 個點。在特征提取模塊中,對每個點云框架進(jìn)行兩次集合抽象操作,采用SequentialPointNet 中獲取的最佳參數(shù)設(shè)置。在第1組抽象操作中,選擇128個質(zhì)心來確定點組,組半徑設(shè)置為0.06。每個點組中的點數(shù)設(shè)置為48。在第2 組抽象操作中,選擇32 個質(zhì)心來確定點組,組半徑設(shè)置為0.1。每個點組的點數(shù)設(shè)置為16,如表1 所示。在進(jìn)行提取空間結(jié)構(gòu)信息前,首先使用聚類生成三維向量關(guān)系序列,聚類半徑設(shè)置為20。在進(jìn)行提取空間結(jié)構(gòu)信息時,隨機(jī)張量大小設(shè)置為(8,64,64),dropout 設(shè)置為0.5。用Adam 作為優(yōu)化器。學(xué)習(xí)速率從0.001 開始,每10 個epoch 以0.5的速率衰減,使用交叉熵?fù)p失函數(shù)。

表1 特征提取實驗設(shè)置Table 1 Feature extraction experiment set

3.3 實驗過程

為了探索哪種數(shù)據(jù)更有利于空間信息的提取,以及不同數(shù)據(jù)庫對于不同數(shù)據(jù)提取方式的效果,本文進(jìn)行了不同的對比實驗,尋找最適合的實驗方法。

使用MSR Action3D 小數(shù)據(jù)集進(jìn)行實驗,首先使用兩種不同的數(shù)據(jù)作為時空信息注入模塊的輸入,其中之一為原始三維點云數(shù)據(jù),即為抽象操作之前的三維點云數(shù)據(jù);另外一種數(shù)據(jù)為經(jīng)過位置編碼,已經(jīng)進(jìn)行特征提取后,通過聚類生成的三維向量關(guān)系序列(以下分別稱為原始數(shù)據(jù)和關(guān)系數(shù)據(jù))。之后進(jìn)行多次實驗并記錄最后的實驗結(jié)果,如表2所示。

表2 MSR Action3D數(shù)據(jù)集上的實驗過程Table 2 The experimental process on MSR Action3D dataset

由表2 實驗1—實驗4 可以看出,當(dāng)批次大小相同都設(shè)置為8、迭代次數(shù)為100 時,使用原始數(shù)據(jù)作為輸入且注入時空特征的準(zhǔn)確率為89.71%,使用關(guān)系數(shù)據(jù)作為輸入且注入時空特征的準(zhǔn)確率為91.91%,而當(dāng)批次大小設(shè)置為150 時,使用原始數(shù)據(jù)的準(zhǔn)確率為92.65%,使用關(guān)系數(shù)據(jù)的準(zhǔn)確率達(dá)到了93.01%。由此可見,使用關(guān)系數(shù)據(jù)作為輸入比使用原始數(shù)據(jù)作為輸入效果更優(yōu)。再結(jié)合實驗6 和7可得出結(jié)論,當(dāng)?shù)螖?shù)為150 時,準(zhǔn)確率趨于平穩(wěn)且最優(yōu)。

由表2 實驗4—實驗9 可以看出,當(dāng)批次大小都設(shè)置為8、迭代次數(shù)為150 時,使用關(guān)系數(shù)據(jù)作為輸入的前提下,只注入時空特征1或時空特征2的準(zhǔn)確率分別為86.76%和91.18%,均低于未注入時空特征的準(zhǔn)確率,其中只注入時空特征1的準(zhǔn)確率比原來低5.18%,而將時空特征1與時空特征2融合后注入,準(zhǔn)確率達(dá)到93.01%。由此可見注入完整時空特征的重要性。再由表2 中實驗4 和5 可知,MSR Action3D小數(shù)據(jù)集上的批次大小設(shè)置為8最為合適。

使用MSR Action3D 小數(shù)據(jù)集得出結(jié)果后,將參數(shù)遷移,開始對NTU RGB+d120 和NTU RGB+d60 大數(shù)據(jù)集進(jìn)行實驗,使用關(guān)系數(shù)據(jù)作為時空信息注入模塊的輸入,并記錄結(jié)果,如表3所示。

表3 NTU RGB+d60/120數(shù)據(jù)集上的實驗過程Table 3 The experimental procedure on NTU RGB+d60/120 dataset

通過實驗對比尋找NTU RGB+d60/120 數(shù)據(jù)集最適合的批次大小。由表3 實驗1—實驗3 結(jié)果可知,準(zhǔn)確率的大小與批次大小不是正相關(guān)關(guān)系,當(dāng)批次大小設(shè)置為32時,結(jié)果為97.82%且最優(yōu),當(dāng)批次大小為16 和64 時,準(zhǔn)確率有所下降。在NTU RGB+d120 大數(shù)據(jù)集上,準(zhǔn)確率的大小與批次大小也不是正相關(guān)的關(guān)系,當(dāng)批次大小設(shè)置為48 時,結(jié)果為95.34%且最優(yōu),這也直接證明了時空信息注入的合理性和可行性。由NTU 數(shù)據(jù)集的實驗可得出結(jié)論,該網(wǎng)絡(luò)模型結(jié)構(gòu)對于人體行為識別的分類具有較好的優(yōu)越性。

3.4 與最先進(jìn)的方法比較

為了驗證網(wǎng)絡(luò)的性能,在NTU RGB+d60 數(shù)據(jù)集、NTU RGB+d120 數(shù)據(jù)集和MSR Action3D 數(shù)據(jù)集上實現(xiàn)了與其他先進(jìn)方法的對比實驗。

1)NTU RGB+d60 數(shù)據(jù)集。首先比較結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)和NTU RGB+d60 數(shù)據(jù)集上的最先進(jìn)的方法。NTU RGB+d60 數(shù)據(jù)集是一種大規(guī)模的室內(nèi)人類活動數(shù)據(jù)集。如表4 所示,結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到了97.8%。本文方法表現(xiàn)出與其他方法相當(dāng)甚至更好的性能,達(dá)到了最先進(jìn)的性能。

表4 NTU RGB+d60數(shù)據(jù)集上的行為識別準(zhǔn)確率Table 4 Behavior recognition accuracy on NTU RGB+d60 dataset

2)NTU RGB+d120 數(shù)據(jù)集。將結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)與NTURGB+d120 數(shù)據(jù)集上的最先進(jìn)的方法進(jìn)行比較。NTU RGB+d120 數(shù)據(jù)集是用于3D 動作識別的最大數(shù)據(jù)集。與NTU RGB+d60 數(shù)據(jù)集相比,在NTU RGB+d120 數(shù)據(jù)集上進(jìn)行三維人體動作識別更具挑戰(zhàn)性。如表5 所示,結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到了95.3%,僅低于SequentialPointNet,并且展現(xiàn)出比其他網(wǎng)絡(luò)更優(yōu)秀的性能。

表5 NTU RGB+d120數(shù)據(jù)集上的行為識別準(zhǔn)確率Table 5 Behavior recognition accuracy on NTU RGB+d120 dataset

3)MSR Action3D 數(shù)據(jù)集。為了綜合評價本文方法,在小型MSR Action3D 數(shù)據(jù)集上進(jìn)行了對比實驗。為了緩解小尺度數(shù)據(jù)集上的過擬合問題,將批量大小設(shè)置為8,其他參數(shù)設(shè)置與兩個大規(guī)模數(shù)據(jù)集上的設(shè)置相同。表6 展示了不同方法的識別精度,結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)在MSR Action3D 數(shù)據(jù)集上取得了最先進(jìn)的性能。

表6 MSR Action3D數(shù)據(jù)集上的行為識別準(zhǔn)確率Table 6 Behavior recognition accuracy on MSR Action3D dataset

根據(jù)表4—表6的對比結(jié)果可知,在NTU兩個數(shù)據(jù)集上,本文方法領(lǐng)先于絕大部分網(wǎng)絡(luò),展現(xiàn)出較好的準(zhǔn)確率優(yōu)勢,而在MSR Action3D 小數(shù)據(jù)集上,本文方法以明顯的優(yōu)勢領(lǐng)先于其他網(wǎng)絡(luò),其中準(zhǔn)確率比SequentialPointNet 提升了1.07%。由此可見,本文方法在大數(shù)據(jù)集和小數(shù)據(jù)集上都表現(xiàn)良好,尤其更有利于小數(shù)據(jù)集的識別。

本文提出的結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)為了提高時空結(jié)構(gòu)信息的利用率,提出特征提取模塊和時空信息注入模塊,為靜態(tài)點云序列注入動態(tài)信息,彌補(bǔ)了點云的不足。其中點間注意力機(jī)制可以尋找最優(yōu)的投影空間,得到了最佳的空間結(jié)構(gòu)表征,這也導(dǎo)致了本文方法良好的性能。

為了進(jìn)一步證明結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)的性能,在原來識別率指標(biāo)的基礎(chǔ)上引入NTU RGB+d60 數(shù)據(jù)集和NTU RGB+d120 數(shù)據(jù)集的另外3 個指標(biāo)cross-subject、cross-view 和cross-setwp。不同指標(biāo)的區(qū)別為訓(xùn)練集和測試集劃分方式的不同。NTU RGB+d60 和NTU RGB+d120 的cross-subject 根據(jù)受試者ID 劃分;NTU RGB+d60 的cross-view 根據(jù)相機(jī)ID 劃分;NTU RGB+d120 的cross-steup 指定id 為偶數(shù)的樣本進(jìn)行訓(xùn)練,id 為奇數(shù)的樣本進(jìn)行測試。實驗結(jié)果如表7 和表8所示。本文方法在8 個結(jié)果中僅NTU RGB+d120 上的cross-setup 低于SequentialPointNet 0.1%。其中,在NTU RGB+d60 上的cross-subject 和cross-setup 識別率分別高于SequentialPointNet 0.3%和0.2%,在NTU RGB+d120 上的cross-subject 識別率高于SequentialPointNet 0.5%,這也進(jìn)一步表明了本文方法的優(yōu)越性。

表7 SequentialPointNet與本文方法在NTU RGB+d60數(shù)據(jù)集上的對比實驗Table 7 Comparison of SequentialPointNet and the method of ours on NTU RGB+d60 dataset

表8 SequentialPointNet與本文方法在NTU RGB+d120數(shù)據(jù)集上的對比實驗Table 8 Comparison of SequentialPointNet and the method of ours on NTU RGB+d120 dataset

在SequentialPointNet 的時空結(jié)構(gòu)中,空間結(jié)構(gòu)和時間變化是獨立建模的,SequentialPointNet 提出的強(qiáng)空間結(jié)構(gòu)和弱時間變化的觀念,SequentialPoint-Net 著重強(qiáng)調(diào)對空間結(jié)構(gòu)特征的提取。Sequential-PointNet 認(rèn)為將空間信息和時間信息同等對待是不合理的,因為人的行為在空間維度上是復(fù)雜的,而在時間維度上是簡單的。本文方法同等對待時間和空間特征的地位,在最終特征聚合階段,時間特征和空間特征以同等維度大小融合。在某些動作,例如NTU RGB+d120 中的嗅聞(A117)或耳語(A79)等微小動作(這類動作id 大多為奇數(shù))中,空間結(jié)構(gòu)的重要性大于時序信息,這導(dǎo)致本文方法在NTU RGB+d120 上的cross-setup 識別率相比于SequentialPoint-Net較低。

4 結(jié)論

本文提出了一個結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)。該網(wǎng)絡(luò)采取坐標(biāo)轉(zhuǎn)換的方式,將深度圖序列轉(zhuǎn)換為三維點云序列進(jìn)行人體行為信息的表征,彌補(bǔ)了深度信息空間信息與幾何特征不足的缺點,提高了時空結(jié)構(gòu)信息的利用率。網(wǎng)絡(luò)由兩個模塊組成,即特征提取模塊和時空信息注入模塊。特征提取模塊提取點云序列的空間結(jié)構(gòu)特征和時間變化特征。為了捕獲時空結(jié)構(gòu),使用兩個抽象操作將每個點云框架抽象為一個外觀輪廓的特征向量。在時空信息注入模塊中,采用時間位置編碼和滑動池化策略對特征向量序列進(jìn)行時序信息注入。此外,通過一組可學(xué)習(xí)的正態(tài)分布隨機(jī)張量尋找最優(yōu)的投影空間,在最優(yōu)投影空間中,通過點間注意力機(jī)制輸出最佳的空間結(jié)構(gòu)信息權(quán)重系數(shù)矩陣,為了保留原有的空間結(jié)構(gòu),系數(shù)矩陣與三維向量關(guān)系序列進(jìn)行特征聚合,從而注入空間結(jié)構(gòu)信息。最后對人體動作的多層次特征進(jìn)行了融合與分類。在本文方法中,不同的點云框架共享相同的網(wǎng)絡(luò)架構(gòu)和權(quán)重。

在3 個公共數(shù)據(jù)集上進(jìn)行的大量實驗表明,結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)展現(xiàn)了其優(yōu)異的性能,其中,在MSR Action 3D 數(shù)據(jù)集上,本文方法以明顯的優(yōu)勢領(lǐng)先于其他網(wǎng)絡(luò),準(zhǔn)確率比SequentialPointNet 提升了1.07%;本文方法在NTU RGB+d120 數(shù)據(jù)集上的準(zhǔn)確率僅次于SequentialPointNet。原因在于SequentialPointNet 與本文方法在時空特征權(quán)重的處理上不同。SequentialPointNet 更加側(cè)重于對空間結(jié)構(gòu)特征的提取,對于微小動作的分類更加準(zhǔn)確,因此,在cross-setup 指標(biāo)下本文方法的準(zhǔn)確率比SequentialPointNet 低0.1%。但在cross-subject 和cross-view 指標(biāo)下,本文方法均比SequentialPointNet準(zhǔn)確率高0.2%以上。

由于NTU 數(shù)據(jù)集的規(guī)模較大,將訓(xùn)練小數(shù)據(jù)集的網(wǎng)絡(luò)參數(shù)遷移,從而進(jìn)行訓(xùn)練大數(shù)據(jù)集并不能完全展現(xiàn)網(wǎng)絡(luò)的性能,下一步研究應(yīng)探究不同的網(wǎng)絡(luò)參數(shù)對于大數(shù)據(jù)集行為識別的影響,并增強(qiáng)網(wǎng)絡(luò)的輕便性。未來工作將聚焦在研究點云人體行為識別的輕量性和實用性方面。在探究降低參數(shù)量實現(xiàn)網(wǎng)絡(luò)輕量化的同時,設(shè)計適用于不同動作的時空特征融合方式,從而加強(qiáng)網(wǎng)絡(luò)對不同動作,特別是微小動作的識別能力,提高網(wǎng)絡(luò)的泛化性,并將結(jié)合坐標(biāo)轉(zhuǎn)換和時空信息注入的點云人體行為識別網(wǎng)絡(luò)進(jìn)一步應(yīng)用于智能駕駛等領(lǐng)域中。

猜你喜歡
空間結(jié)構(gòu)集上特征向量
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
格絨追美小說敘事的空間結(jié)構(gòu)
阿來研究(2020年1期)2020-10-28 08:10:22
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
一類特殊矩陣特征向量的求法
復(fù)扇形指標(biāo)集上的分布混沌
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
徐州安美固建筑空間結(jié)構(gòu)有限公司
基于社會空間結(jié)構(gòu)流變的統(tǒng)戰(zhàn)工作組織策略研究
乾安县| 城固县| 襄汾县| 左权县| 龙州县| 门头沟区| 江安县| 奉化市| 宣威市| 垣曲县| 茌平县| 崇信县| 连城县| 临洮县| 河南省| 天全县| 根河市| 新建县| 铁力市| 全椒县| 上饶市| 阳西县| 长葛市| 延津县| 临湘市| 昆山市| 阿克陶县| 都江堰市| 逊克县| 巫山县| 原平市| 奉节县| 隆化县| 东乡族自治县| 色达县| 长岭县| 清新县| 施甸县| 西昌市| 垫江县| 惠州市|