劉曉陽,劉金強,鄭昊琳
中國礦業(yè)大學(北京)機電與信息工程學院,北京 100083
步態(tài)識別是一種新的生物特征識別技術(shù),可以根據(jù)走路姿勢實現(xiàn)人員身份的識別[1]。步態(tài)識別在遠距離或低視頻質(zhì)量情況下的識別潛力很大,且步態(tài)難以隱藏或偽裝,不需要人員進行特意地配合,尤其在黑夜使用紅外步態(tài)識別技術(shù)更能發(fā)揮其作用[2]。目前,煤礦井下通常采用人臉和指紋進行人員身份識別,盡管基于人臉和指紋的身份識別在正常環(huán)境下識別率很高,但煤礦井下空間受限、光線昏暗、潮濕、巷道中存在煤塵等,使得人臉和指紋比較模糊,嚴重影響了基于人臉和指紋等身份識別方法的識別率[3]。步態(tài)識別方法受照度影響小,對視頻質(zhì)量要求低,也不受距離限制,非常適合礦井下的環(huán)境特征。通過對人員步態(tài)圖像進行識別監(jiān)測,可以第一時間準確地識別出井下作業(yè)人員身份信息[4-6]。這對實現(xiàn)礦井安全監(jiān)測、人員身份定位和實現(xiàn)智能礦井具有非常重要的意義。
近年來,步態(tài)識別迅速發(fā)展。趙喜玲等[7]提出了基于靜態(tài)能量圖和動態(tài)群體隱馬爾可夫模型的步態(tài)識別方法,該方法受噪聲影響小且對角度變化具有魯棒性。Liu等[8]提出了一種基于Hough變換和主成分分析(PCA)的步態(tài)識別方法,首先在Hough的參數(shù)空間中建立步態(tài)模板,然后利用PCA進行維數(shù)簡約實現(xiàn)步態(tài)識別。近年來,深度學習也成為了解決步態(tài)識別的熱門方法之一。Wu等[9]提出的基于深度卷積神經(jīng)網(wǎng)絡(luò)的跨視角步態(tài)識別方法,可以進行多視角識別,提高了識別精度。Yu等[10]基于GAN提出了GaitGAN步態(tài)識別方法,利用GAN將任意視角、任意狀態(tài)的步態(tài)圖像轉(zhuǎn)化為90°視角正常行走狀態(tài)的步態(tài)圖像,解決了視角轉(zhuǎn)換的問題。Chao等[11]提出了一種基于步態(tài)輪廓圖的GaitSet算法,將步態(tài)輪廓視為無時間序列關(guān)系的圖像集,不刻意對步態(tài)輪廓的時間序列進行建模,而是讓深度神經(jīng)網(wǎng)絡(luò)自身優(yōu)化去提取并利用這種關(guān)系,精度提升明顯,但是模型空間復雜度較高。
針對現(xiàn)有的步態(tài)識別方法準確率不高的問題,本文采用提取人行走過程中的動態(tài)特征和靜態(tài)特征的方法,提出了基于殘差神經(jīng)網(wǎng)絡(luò)[12]和棧式卷積自動編碼器[13]的雙流神經(jīng)網(wǎng)絡(luò)(TS-GAIT)步態(tài)識別模型[14],提高了識別準確率。
靜態(tài)特征(生理特征)包括體型(高矮、胖瘦)、頭型、肩寬等;動態(tài)特征(時空特征)包括邁步的幅度、步子的頻率、身體重心、雙腿的協(xié)調(diào)關(guān)系、手臂的擺動幅度等。如果將身體分為4部分,對于步態(tài)識別而言,識別的關(guān)鍵區(qū)域如圖1所示。身體各個部分對于識別的貢獻度為:4>1>3>2。
圖1 步態(tài)識別關(guān)鍵區(qū)域
本文將步態(tài)能量圖(GEI)[15]作為模型的輸入,GEI同時包含人的體態(tài)等靜態(tài)信息和行走過程的時空信息,操作簡單。將步態(tài)圖像序列求和取平均融合為一張步態(tài)圖片,減小了模型的空間復雜度,如圖2所示。
圖2 步態(tài)能量圖(GEI)
雙流神經(jīng)網(wǎng)絡(luò)模型由多尺度特征提取、特征融合和識別3部分組成,如圖3所示。
多尺度特征提取由兩個并行的網(wǎng)絡(luò)組成:分別是基于殘差神經(jīng)網(wǎng)絡(luò)的主流網(wǎng)絡(luò)和基于棧式卷積自動編碼器的輔助流網(wǎng)絡(luò)。在主流網(wǎng)絡(luò)中,從步態(tài)圖像樣本中提取動態(tài)特征,代表步態(tài)圖像更宏觀、更抽象的時空信息。在輔助流網(wǎng)絡(luò)中,從步態(tài)圖像樣本中提取靜態(tài)特征,代表步態(tài)圖像低維的人的體型、頭型等生理信息。
多尺度特征提取過程中,將輔助流網(wǎng)絡(luò)提取的步態(tài)特征融合到主流網(wǎng)絡(luò)中,實現(xiàn)動態(tài)特征和靜態(tài)特征的融合表征,從而提取得到最終的步態(tài)特征。最后,將探測視圖和圖庫視圖通過雙流神經(jīng)網(wǎng)絡(luò)提取得到特征向量輸入到歐式距離的最近鄰分類器中,實現(xiàn)步態(tài)識別。
圖3 雙流神經(jīng)網(wǎng)絡(luò)模型框架
步態(tài)圖像是高維、復雜多變的非線性數(shù)據(jù),要提取到步態(tài)圖像中具有辨別力的時空信息,需要構(gòu)建更加深層的網(wǎng)絡(luò)。研究表明,增加網(wǎng)絡(luò)層數(shù)可以幫助提取更多的層次特征,且網(wǎng)絡(luò)越深表達能力越好。但在實際應(yīng)用中,隨著層數(shù)的增加會導致梯度消失和梯度爆炸等問題[16],雖然可以利用批處理規(guī)范化(BN)等方法緩解[17],但網(wǎng)絡(luò)的整體性能會下降,這一退化不是過擬合問題所導致的,而是網(wǎng)絡(luò)過深導致難以訓練。因此,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型無法構(gòu)建足夠深的網(wǎng)絡(luò)。
殘差神經(jīng)網(wǎng)絡(luò)可以構(gòu)建更加深層的網(wǎng)絡(luò),相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),殘差神經(jīng)網(wǎng)絡(luò)引入一種全新的殘差結(jié)構(gòu)單元[18],如圖4所示。其基本思想是通過加入捷徑連接(Shortcut Connections)支路構(gòu)成基本殘差學習單元來擬合一個殘差映射[19]。假設(shè)輸入為x,期望的輸出為H(x),最優(yōu)的輸出就是輸入x。對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),需要將映射函數(shù)優(yōu)化為H(x)=x;而加入捷徑連接的殘差神經(jīng)網(wǎng)絡(luò)H(x)=F(x)+x,只需將映射函數(shù)F(x)=H(x)-x優(yōu)化為0即可,F(xiàn)(x)即為殘差。顯然,后者的優(yōu)化要比前者容易得多[20]。這就是殘差神經(jīng)網(wǎng)絡(luò)可以構(gòu)建更深層網(wǎng)絡(luò)的原因。
圖4 殘差單元
在圖4中,F(xiàn)(x)表示第二次Relu激活函數(shù)前的輸出,H(x)表示殘差單元最終的輸出,被定義為
H(x)=σ[F(x)+x]
(1)
F(x)=W2σ(W1x)
(2)
式中,x為輸入;W1和W2為第一層和第二層網(wǎng)絡(luò)的權(quán)重;σ為Relu激活函數(shù)。
主流網(wǎng)絡(luò)主要提取步態(tài)圖像中的動態(tài)特征,即學習人在行走過程中步幅、膝蓋彎曲角度、手臂擺動幅度、身體重心等變化規(guī)律。主流網(wǎng)絡(luò)基于殘差神經(jīng)網(wǎng)絡(luò)而設(shè)計,實驗過程中整體框架如圖5所示。
網(wǎng)絡(luò)的輸入是128像素×128像素(長×寬)的步態(tài)圖像。為更好地適應(yīng)網(wǎng)絡(luò),須將原始圖片240像素×240像素重新改為128像素×128像素。輸入層包含一個步長為1的7×7卷積層和步長為2的3×3最大池化層。輸入層的目的是提取多尺度基本視覺特征和減小圖片大小,從而減少網(wǎng)絡(luò)參數(shù)。每一個殘差單元包含兩個步長為1的3×3卷積層,即BN-Conv(3×3)-Relu-BN-Conv(3×3)-Relu。壓縮層應(yīng)用一個步長為2的3×3卷積層將圖像縮小1/2。壓縮層的目的是進行維度調(diào)整,進一步提高模型的緊湊性,減小輔助流網(wǎng)絡(luò)輸入到主流網(wǎng)絡(luò)的特征圖尺寸,并且減少輸入到下一個殘差單元的特征圖數(shù)量。輸出層利用62維的全接層和滑動窗口為8×8的平均池化層,得到最終的步態(tài)圖像特征。
在步態(tài)識別的訓練任務(wù)中,將得到的特征向量用Softmax實現(xiàn)人員分類。因此,網(wǎng)絡(luò)采用交叉熵損失函數(shù)計算損失,即
(3)
y(i)∈{0,1,…,k}θ1,θ2,…,θi∈Rn+1
輔助流網(wǎng)絡(luò)用來提取步態(tài)圖像的靜態(tài)特征,包括體型、頭型、肩寬等。輔助流網(wǎng)絡(luò)基于棧式卷積自動編碼器(SCAE),整體框架如圖6所示。
圖6 輔助流網(wǎng)絡(luò)框架
SCAE是由多個卷積自動編碼器(CAE)組成,CAE旨在將輸入復制到輸出的神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)分為編碼器和解碼器兩部分[21]。CAE的目的是抽取最重要、最具代表性的信息表示原圖像,即圖像壓縮和降維的過程。相比于傳統(tǒng)的降維方法更具代表性,復原效果好。編碼器網(wǎng)絡(luò)可以用激活函數(shù)傳遞的神經(jīng)網(wǎng)絡(luò)函數(shù)表示,即
z=σ(Wx+b)
式中,z編碼器潛在維度;σ為非線性激活函數(shù);W為編碼器網(wǎng)絡(luò)的權(quán)重;b為編碼器偏置。
相似地,解碼器網(wǎng)絡(luò)可以用相同的方式表示,但需要使用不同的權(quán)重、偏置和潛在的激活函數(shù),即
x′=σ′(W′z+b′)
式中,x′解碼器潛在維度;σ′為非線性激活函數(shù);W′為解碼器網(wǎng)絡(luò)的權(quán)重;b′為解碼器偏置。
輸入和輸出數(shù)據(jù)相似度越大,提取的數(shù)據(jù)就越具有代表性,可通過減少輸入和輸出數(shù)據(jù)的差異更新網(wǎng)絡(luò)。因此,輔助流網(wǎng)絡(luò)采用均方誤差損失函數(shù)計算原始步態(tài)圖像和重構(gòu)步態(tài)圖像的損失,即
式中,xij和yij分別為原始步態(tài)圖像和重構(gòu)步態(tài)圖像第i行和第j列所對應(yīng)的像素值;u和v分別為輸入數(shù)據(jù)的行和列的總數(shù)。
本文輔助流網(wǎng)絡(luò)由3個隱藏層為一層的CAE組成。在訓練過程中,每一個CAE都單獨訓練,上一個CAE的輸出作為下一個CAE的輸入,達到“全部迭代,跟新單層”的目的。這樣,下一個CAE的訓練收益會非常高,因其輸入是上一個CAE訓練的全部映射特征。
輔助流網(wǎng)絡(luò)從輸入的步態(tài)圖像樣本中提取分層特征。隨著層數(shù)的增加,提取特征圖的分辨率由大到小。雖然特征圖的模糊性有所增加,但抽象的特征卻越來越明顯。原始圖像與恢復圖像對比表明,提取的特征保留了最重要的信息。重構(gòu)的可視化過程如圖7所示。
圖7 輔助流網(wǎng)絡(luò)重構(gòu)可視化過程
采用一種新穎的特征融合方法將輔助流網(wǎng)絡(luò)提取的多尺度靜態(tài)特征分別饋送到主流網(wǎng)絡(luò)的壓縮層,主流網(wǎng)絡(luò)將自身提取的特征和從輔助流網(wǎng)絡(luò)得到的特征進行融合,得到最終的步態(tài)特征。該特征同時包含人在行走過程中的動態(tài)特征和靜態(tài)特征,并且將輔助流網(wǎng)絡(luò)每一層提取的不同分辨率的特征都饋送到主流網(wǎng)絡(luò)中,達到特征重用的目的。實驗表明,這種特征融合方法有效可行。
生成多尺度特征向量后,使用歐式距離的最近鄰分類器識別步態(tài)圖像。 換句話說,使用歐式距離度量特征向量X1和X2之間的距離。 給定兩個特征向量X1,X2∈Rd,歐式距離的定義為
式中,X1i和X2i分別是特征向量X1和X2的第i個元素。
如果d(X1,X2)越小,那么X1和X2之間的相似度就越高,這兩張步態(tài)圖像屬于同一人的可能性就越大。
3.1.1 CASIA-B數(shù)據(jù)集
使用中科院自動化所2005年創(chuàng)建的公開步態(tài)數(shù)據(jù)集之——CASIA-B數(shù)據(jù)集[22]測試本文提出的雙流神經(jīng)網(wǎng)絡(luò)模型的識別表現(xiàn)。該數(shù)據(jù)庫包含124名受試者(93名男性和31名女性)。受試者視角以18°為間隔,將0°~180°分為11個不同的視角。每一名受試者分為3種行走狀態(tài),包括6個正常狀態(tài)行走序列(NM)、2個帶包行走序列(BG)和2個穿著外套行走序列(CL),如圖8所示。
圖8 CASIA-B數(shù)據(jù)集
3.1.2 CM-GAIT數(shù)據(jù)集
由于目前沒有公開的煤礦井下人員步態(tài)數(shù)據(jù)集,為進一步驗證模型針對煤礦工人步態(tài)識別的可行性,在位于內(nèi)蒙古鄂爾多斯市的罐子溝煤礦采集了30位煤礦工人(均為男性)的步態(tài)數(shù)據(jù),構(gòu)建CM-GAIT數(shù)據(jù)集(本實驗首次使用,為非公開數(shù)據(jù)集),如圖9所示。煤礦井下工作的步態(tài)行為與工作內(nèi)容、環(huán)境、著裝有關(guān),數(shù)據(jù)集中包含3個工種各10名,分別為采煤工、液壓支架工和采煤機司機。每位受試者包含3個拍攝角度(18°、54°、90°)和2個行走序列。1個行走序列是煤礦檢身房內(nèi)(光照充足,空間廣闊)拍攝,該序列用作圖庫視圖;另1個行走序列是煤礦井下(光照昏暗,空間受限,潮濕,存在煤塵)拍攝,該序列用作探測視圖。因此,CM-GAIT數(shù)據(jù)集一共包含180張GEI(步態(tài)能量圖),每張GEI由100張步態(tài)序列圖片構(gòu)成。
圖9 CM-GAIT數(shù)據(jù)集視角步態(tài)能量
在實驗中,CASIA-B數(shù)據(jù)集中的3種行走狀態(tài)包括“NM”“BG”和“CL”。將數(shù)據(jù)集中前62個受試者(001—062)的6個“NM”序列、2個“BG”序列和2個“CL”序列作為訓練集,剩下的62個受試者(063-124)作為測試集。在測試集中,每名受試者的前4個“NM”序列作為圖庫視圖,剩下的2個“NM”序列、2個“BG”序列和2個“CL”序列作為探測視圖,用來測試在不同行走狀態(tài)的下的模型表現(xiàn)。
在CM-GAIT數(shù)據(jù)集中,30名煤礦工人全部用來測試模型,其中煤礦檢身房內(nèi)拍攝的步態(tài)序列作為圖庫視圖,礦井下拍攝的序列作為探測視圖。
設(shè)置批量大小為64、使用均值為0、標準差為0.01的高斯分布,初始化每一層網(wǎng)絡(luò)的權(quán)重,所有偏差項都初始化為0。為了讓網(wǎng)絡(luò)更好地收斂,設(shè)置學習率為0.002。根據(jù)驗證集的識別結(jié)果決定迭代次數(shù),具體參數(shù)見表1。
表1 訓練參數(shù)
3.3.1 主流網(wǎng)絡(luò)參數(shù)
網(wǎng)絡(luò)深度太深、特征圖數(shù)量太多,會導致模型過于復雜,識別消耗時間長;網(wǎng)絡(luò)深度太淺、特征圖數(shù)量太少,會導致模型無法很好地學習步態(tài)圖像中有辨別力的特征,識別效果不佳。通過多次實驗得到最佳參數(shù)設(shè)置見表2。表2中每一個“Conv”在實驗中對應(yīng)的是BN-Conv的模式。
3.3.2 輔助流網(wǎng)絡(luò)參數(shù)
輔助流網(wǎng)絡(luò)參數(shù)分為編碼器和解碼器兩部分。編碼器和解碼均為3層。具體參數(shù)見表3。
表2 主流網(wǎng)絡(luò)參數(shù)
表3 輔助流網(wǎng)絡(luò)參數(shù)
為測試模型的性能,在CASIA-B測試集(共62名受試者)中進行實驗。
(1) 測試模型的整體識別性能。即每一張?zhí)綔y視圖的特征向量與所有圖庫視圖的特征向量進行比較距離,得到Rank-1人員步態(tài)識別率(表4)。
表4 CASIA-B測試集Rank-1步態(tài)識別率
(2) 測試模型的多角度識別性能。圖庫視圖和探測視圖分別有11個視角,共121對組合,即每一張?zhí)綔y視圖的特征向量分別與不同角度的圖庫視圖的特征向量比較距離(Rank-1),實驗結(jié)果見表5、表6和表7。表中的每一行對應(yīng)圖庫視圖的角度,每一列對應(yīng)探測視圖的角度。
(3) 在CM-GAIT數(shù)據(jù)集上進行了實驗,身份識別率見表8。步態(tài)識別對光照和距離等環(huán)境因素影響較小,相比CASIA-B中的受試者,不同點是煤礦井下人員頭部佩戴礦工帽、身體攜帶工具包、腳部穿著防水鞋等特征,如圖10所示。但本文模型依然具有較高的識別率,說明提出的步態(tài)識別方法對煤礦工人所具有的特征有較好的魯棒性。實踐證明,利用該模型進行煤礦井下人員步態(tài)識別是有效可行的。
表5 正常行走狀態(tài)的多視角識別率(NM05,NM06)
表6 帶包行走狀態(tài)下的多視角識別率(BG01,BG02)
表7 穿著大衣行走狀態(tài)下的多視角識別率(CL01,CL02)
表8 CM-GAIT測試集Rank-1步態(tài)識別率
圖10 井下煤礦工人步態(tài)
在CASIA-B數(shù)據(jù)集上將所提出的TS-GAIT模型與最新的步態(tài)識別方法進行比較,包括卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、主成分分析(GEI+PCA)和生成對抗網(wǎng)絡(luò)(GaitGAN)。同時,為更全面地比較TS-GAIT模型的性能,將ResNet(只使用殘差卷積神經(jīng)網(wǎng)絡(luò)的主流網(wǎng)絡(luò)模型)和SCAE(只使用棧式卷積自動編碼器的輔助流網(wǎng)絡(luò)模型)與本文提出的方法(使用ResNet和SCAE)在相同的參數(shù)設(shè)置下進行比較實驗。
(1) 比較無視角變化的識別率,即探測視圖的視角和圖庫視圖的視角相同的情況。通過取表5、表6和表7對角線上的識別率求得平均識別率,同樣方式獲得CNNs、GaitGAN、GEI+PCA、ResNet和SCAE的平均識別率。比較結(jié)果見表9。由表9可見,本文提出的方法具有較高的識別率。在BG、CL情況下識別率分別為85.85%和52.12%,比GaitGAN分別高出13.12%和10.62%。TS-GAIT模型在無視角變化的情況下,明顯優(yōu)于其他方法。
表9 同視角識別率
(2) 比較跨視角的識別率,即探測視圖的視角和圖庫視圖的視角不同的情況。選取探測視圖為0°、54°、180°、162°時3種行走狀態(tài),比較結(jié)果如圖11所示。由圖11可以看出,本文所提出的方法在跨視角情況下優(yōu)于GEI+PCA和CNNs;無論視角是否變化,也都明顯優(yōu)于單獨使用ResNet和SCAE。
本文提出的雙流神經(jīng)網(wǎng)絡(luò)模型的性能無論是同視角,還是跨視角,都優(yōu)于其他步態(tài)識別方法,這是因為采用了高效的多尺度特征提取和新穎的特征融合技術(shù)。同時基于ResNet和SCAE的雙流神經(jīng)網(wǎng)絡(luò)模型比ResNet方法或SCAE方法在相同的參數(shù)設(shè)置下有更好的性能,表明融合靜態(tài)特征和動態(tài)特征的多尺度特征比單一靜態(tài)特征或動態(tài)特征更具區(qū)分性。
圖11 跨視角識別率
(1) 主流網(wǎng)絡(luò)使用殘差神經(jīng)網(wǎng)絡(luò)學習動態(tài)特征,用于表示步態(tài)圖像的宏觀時空特性;輔助流網(wǎng)絡(luò)使用棧式卷積自動編碼器來學習靜態(tài)特征,用于提供步態(tài)圖像低維的生理信息。將像素級動態(tài)特征與層次化靜態(tài)特征融合實現(xiàn)步態(tài)識別的方法是非常有效的。
(2) 提出的雙流神經(jīng)網(wǎng)絡(luò)模型對人員角度變化、攜帶條件、衣著等有較好的魯棒性,其識別準確率明顯優(yōu)于現(xiàn)有的步態(tài)識別方法,并且用于煤礦井下人員步態(tài)識別是有效可行的。
(3) 在煤礦井下,不受復雜環(huán)境和距離限制,步態(tài)識別將在煤礦井下人員識別起到至關(guān)重要的作用。煤礦井下人員步態(tài)識別要實時地識別礦井下人員身份,模型要快速高效,簡化模型復雜度,提高識別速度是未來研究工作的重點。