蘇 航 湯武驚
(中山大學深圳研究院,廣東 深圳 518057)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,物聯(lián)網(wǎng)技術(shù)的應(yīng)用及發(fā)展成為當前不可阻擋的潮流,行為識別作為底層部分,在網(wǎng)域步態(tài)分析流程中起著關(guān)鍵作用。在行為識別過程中,要求計算機能夠協(xié)助用戶執(zhí)行多種類型的識別操作,以提高用戶的處理效率,即在進行特征數(shù)據(jù)采集的同時可以對目標對象進行行為識別。當前,人工智能領(lǐng)域的行為識別技術(shù)主要使用光流信息來確定目標對象在圖像幀中的時間信息以及空間信息,從而解析目標對象的行為狀態(tài),因此計算量較大且過程較復雜,該處理流程大大提高了運算設(shè)備的計算成本且還會降低識別效率?;谝陨媳锥?,該文提出了一種基于步態(tài)的行為識別方法,并在此基礎(chǔ)上提供了相關(guān)的終端設(shè)備及儲存介質(zhì),以解決現(xiàn)有行為識別研究中存在的成本高且效率低的問題,該方法將目標幀特征數(shù)據(jù)導入池化融合網(wǎng)絡(luò)中,并通過神經(jīng)網(wǎng)絡(luò)等算法輸出目標圖像數(shù)據(jù)對應(yīng)的特征數(shù)據(jù),再確定所述目標視頻數(shù)據(jù)中目標對象與環(huán)境對象之間的相互位置關(guān)系,進而確定特征的步態(tài)行為數(shù)據(jù)[1]。
該文的步態(tài)識別數(shù)據(jù)分析流程如圖1所示,由于采用以上方法需要確定步態(tài)數(shù)據(jù)的時間信息和空間信息,因此需要使用預設(shè)的幀間動作提取網(wǎng)絡(luò),以確定相鄰圖像間的動作特征信息;需要使用池化融合網(wǎng)絡(luò),以確定目標特征對應(yīng)的融合特征數(shù)據(jù),這就使得到的數(shù)據(jù)為混有其他無關(guān)信息的初始數(shù)據(jù),要精確識別目標對象的步態(tài)特征信息,就需要從中找出較穩(wěn)定且能夠表征步態(tài)的特征信息,在提取特征前,需要對初始數(shù)據(jù)進行篩選,先從中去除可能造成影響的干擾信號, 例如噪聲、雜波以及光暈等影響識別精度的無關(guān)信息,在進行識別前,對其進行預處理,再開始提取目標特征。因此需要通過特征組合,并使用神經(jīng)網(wǎng)絡(luò)算法,最后通過模式分類識別特征。
圖1 動作特征提取流程圖
目前,絕大多數(shù)基于步態(tài)的行為識別方法均需要進行特征分類,該文的幀間動作特征數(shù)據(jù)提取單元可以將所述目標視頻數(shù)據(jù)導入預設(shè)的幀間動作提取網(wǎng)絡(luò),從而得到幀間動作特征數(shù)據(jù)。所述幀間動作特征數(shù)據(jù)用于確定所述目標圖像數(shù)據(jù)中相鄰的目標對象圖像幀之間的動作特征信息。在確定目標對象的動作特征后,需要確定特征點坐標對應(yīng)的空間信息,即位移數(shù)據(jù),該文使用的行為識別方法如下:根據(jù)所述位移相關(guān)矩陣確定各個所述特征點坐標在所述2個連續(xù)的圖像幀間的最大位移距離,并根據(jù)所得到的最大位移距離確定目標對象的位移矩陣,該方法的原理是利用所描述特征點的最大位移量建立目標物體在2D平面上的位移場,并通過激活Softmax對所述位移場進行池化降維,得到一維置信度張量,最后對得到的一維置信度張量進行融合,構(gòu)建用于表達三維空間的位移矩陣,而融合特征數(shù)據(jù)單元將所述幀間動作特征數(shù)據(jù)導入池化融合網(wǎng)絡(luò),輸出所述目標視頻數(shù)據(jù)對應(yīng)的融合特征數(shù)據(jù)。該文使用的特征組合流程如圖1所示。
該動作特征提取流程主要分為4個步驟:1) 設(shè)定原始特征空間。在初始狀態(tài)下,對特征原始數(shù)據(jù)設(shè)定對應(yīng)空間(X={x|t,t+1}),該空間內(nèi)包括動作提取網(wǎng)絡(luò)的輸入數(shù)據(jù)為2個單獨的視頻圖像幀,即圖像t以及圖像t+1。2) 特征向量轉(zhuǎn)換。X空間中包括的2個視頻圖像幀是幀序號相鄰的2個視頻圖像幀,電子設(shè)備可以通過向量轉(zhuǎn)換模塊對上述2個視頻圖像幀進行向量轉(zhuǎn)換,將其轉(zhuǎn)換為用圖像幀向量模式表示的信息。3) 池化降維處理。通過池化層對轉(zhuǎn)換后的向量模式信息進行降維處理,并采用激活層和位移計算模塊確定2個視頻圖像幀對應(yīng)的向量標識之間的位移信息,從而通過動作識別單元確定2個視頻圖像幀間的動作信息。4) 步態(tài)特征識別。提取降維后得到位移和動作信息,即2個二維坐標點,采用4層卷積核過濾雜波等干擾信息,從而進行二維步態(tài)識別。其中,動作識別單元具體可以由多個卷積層構(gòu)成(圖2),可以包括基于1*7*7的卷積核構(gòu)成的第一卷積層、基于1*3*3的卷積核構(gòu)成的第二卷積層、基于1*3*3的卷積核構(gòu)成的第三卷積層以及基于1*3*3的卷積核構(gòu)成的第四卷積層。
圖2 模式分類流程圖
由于上述幀間動作識別流程由各提取模塊間各迭代求解輸出,因此獲得的各個動作特征信息是離散的,為了在后面流程中便于動作特征識別,需要在此基礎(chǔ)上對特征數(shù)據(jù)進行特征融合,該文提供的終端設(shè)備可以將幀間動作特征數(shù)據(jù)導入上述池化融合網(wǎng)絡(luò)中,以進行池化降維處理和特征融合操作,從而輸出對應(yīng)的融合特征數(shù)據(jù)。其中,特征融合的數(shù)據(jù)計算方式如公式(1)所示[2]。式中:Maxpool為融合特征數(shù)據(jù);Avtioni為第i個圖像幀對應(yīng)的動作數(shù)據(jù)信息;N為所述目標視頻數(shù)據(jù)中的總幀數(shù)。
現(xiàn)有研究特征識別流程中的模式分類大多數(shù)使用神經(jīng)網(wǎng)絡(luò)算法和貝葉斯網(wǎng)絡(luò)[3],該文在此基礎(chǔ)上,采用同源雙線性池化網(wǎng)絡(luò),其具體計算流程如下:通過計算不同空間位置特征的外積,從而生成1個對稱矩陣,然后再對該矩陣做平均池化,以獲得雙線性特征,它可以提供比線性模型更強的特征表示,并且可以以端到端的方式進行優(yōu)化。傳統(tǒng)的全局平均池化(GAP)只捕獲一階統(tǒng)計信息,而忽略了對行為識別有用的更精細的細節(jié)特征,針對這個問題,擬借鑒細粒度分類中所使用的雙線性池化方法并與GAP方法融合[4],使對相似度較高的行為可以提取更精細的特征,從而得到更好的識別結(jié)果,進而得到所述目標對象的行為類別。模式分類流程如圖2所示。
該文采用雙向端與端間的訓練過程并結(jié)合神經(jīng)網(wǎng)絡(luò)算法,可以在一定程度上降低模式分類過程中的訓練難度,其最終的計算結(jié)果可以通過激活函數(shù)(Activation Function)輸出。
該文根據(jù)所提方法并結(jié)合當前時常需求提供了一種終端設(shè)備,其包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)數(shù)據(jù)采集、特征融合以及數(shù)據(jù)庫訓練的功能(即最終的步態(tài)識別系列過程)。
該文基于識別方法提供的程序系統(tǒng)可以應(yīng)用于智能手機、服務(wù)器、平板電腦、筆記本電腦、超級移動個人計算機(Ultra-Mobile Personal Computer,UMPC)以及上網(wǎng)本等能夠?qū)σ曨l數(shù)據(jù)進行行為識別的終端設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特點是當處理器運行該電腦程序時,能夠滿足各種權(quán)利需求,其核心組件如圖3所示。
圖3 硬件設(shè)備結(jié)構(gòu)圖
通過該硬件系統(tǒng)采集的數(shù)據(jù)會經(jīng)過其核心的算法進行特征、模式分類計算并擬合,終端設(shè)備在得到擬合后的特征數(shù)據(jù)后,會將其導入鏈接層,確定擬合數(shù)據(jù)與行為類別訓練數(shù)據(jù)庫間的置信度,最后選取置信度最高的特征數(shù)據(jù)作為該目標對象的行為識別結(jié)果,由于該過程存在的行為識別數(shù)據(jù)長度足夠長,因此該識別數(shù)據(jù)中包括多個類型的動作特征,會導致計算時效增長,從而導致識別結(jié)果嚴重滯后,而該文提供的終端設(shè)備可以根據(jù)各個行為特征出現(xiàn)的先后次序,按時間信息輸出1個行為序列,該序列包括多個元素,而其中的每一個元素都會對應(yīng)一個行為類別[5],以此類推,可以高效識別目標對象的步態(tài)行為信息,其系統(tǒng)結(jié)構(gòu)如圖4所示。
圖4 系統(tǒng)結(jié)構(gòu)示意圖
現(xiàn)有研究中存在的 3D 卷積神經(jīng)網(wǎng)絡(luò)的末尾使用的全局平均池化層在一定程度上影響時間信息的豐富性。針對該問題,該文選擇深度雙向轉(zhuǎn)換器(Transformer)來替代全局平均池化。從輸入視頻中采樣的K幀通過 3D 卷積編碼器編碼,得到的特征圖(Feature Map)在網(wǎng)絡(luò)的最后不使用全局平均池化,而是將特征向量分割成固定長度的 tokens 序列[6],再將學習的位置編碼添加到提取的特征中,以保證特征位置信息得以保存。融合位置編碼后利用深度雙向轉(zhuǎn)換器中的 Transformer 塊對時間信息進行建模,通過深度雙向轉(zhuǎn)換器的多頭注意力機制得出的特征向量融合了時間信息,然后將這些向量進行連接,通過多層感知機進行特征維度變換,再通過計算對比損失完成端到端的訓練[7]。最終得到一個泛化性能良好的預訓練模型。
該文的數(shù)據(jù)采集試驗選取人的3種行為步態(tài)信息(漫步、原地踏步以及跑步)進行識別,并征集60名志愿者參與試驗,分別為適齡兒童10名、中青年10名以及老年人10名(男女各30人),保障人數(shù)均衡且覆蓋面足夠廣泛,為了保證識別結(jié)果的準確性,分別選擇試驗場地的白天(光線足夠)、晚上(光線暗淡)2個時間點進行數(shù)據(jù)采集,如圖5所示。
圖5(a)為步態(tài)特征映像圖,利用機器識別采用卷積神經(jīng)網(wǎng)絡(luò)、sobel算子進行邊緣檢測識別計算,并針對平面卷積進行差分近似計算;圖5(b)展示了整個計算過程的耗時,即經(jīng)過池化層降維處理后的特征識別計算效率提高。試驗設(shè)計了3種步態(tài)模式,共設(shè)置2組,每組各30人,每種模式重復采集10次,形成1 800組數(shù)據(jù)樣本,且每次步態(tài)模式轉(zhuǎn)換時需要志愿者停頓2 s~3 s,以便設(shè)備切換并提取不同步態(tài)的模式信號,將所有的數(shù)據(jù)整理好,建立一個目標對象的步態(tài)數(shù)據(jù)庫,數(shù)據(jù)采集如圖6所示。
圖5 步態(tài)數(shù)據(jù)采集處理
圖6 步態(tài)采集數(shù)據(jù)解析示意圖
通過以上試驗對形成的數(shù)據(jù)樣本進行檢索識別,從識別結(jié)果上可以看出,該識別裝置對3種步態(tài)識別精度為(適齡兒童女/男)97%/98.1%、(中青年女/男)98%/98.6%以及(老年人女/男)98.8%/98.5%,比現(xiàn)有的采用貝葉斯算法BayesNet識別方式高,詳細分析結(jié)果見表1。
表1 數(shù)據(jù)采集結(jié)果分析表
在表1中,組別1為適齡兒童,組別2為中青年,組別3為老年人群體。由于試驗分為3種年紀的6組試驗,因此為了讓結(jié)果更具通用性,使用同一組男女識別數(shù)據(jù)的平均值,且取其中10組的值進行計算。
根據(jù)試驗結(jié)果可知,該方法具有可行性,且使用該方法集成的數(shù)據(jù)采集系統(tǒng)簡潔、靈活,識別精度提高至98.7%,機器學習性能度量低至1.96%,在提高識別精度的同時有效提高了計算效率。
該文基于現(xiàn)有研究存在的問題提供了一套檢測識別方法,并基于該方法提供了1套終端設(shè)備,通過試驗證明了該方法及試驗設(shè)備的可行性和靈活性,在一定程度上為該領(lǐng)域的后續(xù)研究提供借鑒,但是該文局限于試驗數(shù)據(jù)樣本較少,存在訓練結(jié)果與識別結(jié)果有較小偏差的情況,因此需要在后續(xù)研究中基于多種場景、各類群體以及多種氣象條件進行數(shù)據(jù)采集及樣本訓練,以提高設(shè)備識別精度,擴大方法的實際應(yīng)用前景。