基于雙流神經(jīng)網(wǎng)絡(luò)的煤礦井下人員步態(tài)識別方法

2021-03-22 06:32劉曉陽劉金強鄭昊琳

礦業(yè)科學學報 2021年2期

劉曉陽，劉金強，鄭昊琳

中國礦業(yè)大學(北京)機電與信息工程學院，北京 100083

步態(tài)識別是一種新的生物特征識別技術(shù)，可以根據(jù)走路姿勢實現(xiàn)人員身份的識別[1]。步態(tài)識別在遠距離或低視頻質(zhì)量情況下的識別潛力很大，且步態(tài)難以隱藏或偽裝，不需要人員進行特意地配合，尤其在黑夜使用紅外步態(tài)識別技術(shù)更能發(fā)揮其作用[2]。目前，煤礦井下通常采用人臉和指紋進行人員身份識別，盡管基于人臉和指紋的身份識別在正常環(huán)境下識別率很高，但煤礦井下空間受限、光線昏暗、潮濕、巷道中存在煤塵等，使得人臉和指紋比較模糊，嚴重影響了基于人臉和指紋等身份識別方法的識別率[3]。步態(tài)識別方法受照度影響小，對視頻質(zhì)量要求低，也不受距離限制，非常適合礦井下的環(huán)境特征。通過對人員步態(tài)圖像進行識別監(jiān)測，可以第一時間準確地識別出井下作業(yè)人員身份信息[4-6]。這對實現(xiàn)礦井安全監(jiān)測、人員身份定位和實現(xiàn)智能礦井具有非常重要的意義。

近年來，步態(tài)識別迅速發(fā)展。趙喜玲等[7]提出了基于靜態(tài)能量圖和動態(tài)群體隱馬爾可夫模型的步態(tài)識別方法，該方法受噪聲影響小且對角度變化具有魯棒性。Liu等[8]提出了一種基于Hough變換和主成分分析(PCA)的步態(tài)識別方法，首先在Hough的參數(shù)空間中建立步態(tài)模板，然后利用PCA進行維數(shù)簡約實現(xiàn)步態(tài)識別。近年來，深度學習也成為了解決步態(tài)識別的熱門方法之一。Wu等[9]提出的基于深度卷積神經(jīng)網(wǎng)絡(luò)的跨視角步態(tài)識別方法，可以進行多視角識別，提高了識別精度。Yu等[10]基于GAN提出了GaitGAN步態(tài)識別方法，利用GAN將任意視角、任意狀態(tài)的步態(tài)圖像轉(zhuǎn)化為90°視角正常行走狀態(tài)的步態(tài)圖像，解決了視角轉(zhuǎn)換的問題。Chao等[11]提出了一種基于步態(tài)輪廓圖的GaitSet算法，將步態(tài)輪廓視為無時間序列關(guān)系的圖像集，不刻意對步態(tài)輪廓的時間序列進行建模，而是讓深度神經(jīng)網(wǎng)絡(luò)自身優(yōu)化去提取并利用這種關(guān)系，精度提升明顯，但是模型空間復雜度較高。

針對現(xiàn)有的步態(tài)識別方法準確率不高的問題，本文采用提取人行走過程中的動態(tài)特征和靜態(tài)特征的方法，提出了基于殘差神經(jīng)網(wǎng)絡(luò)[12]和棧式卷積自動編碼器[13]的雙流神經(jīng)網(wǎng)絡(luò)(TS-GAIT)步態(tài)識別模型[14]，提高了識別準確率。

1 雙流神經(jīng)網(wǎng)絡(luò)模型

靜態(tài)特征(生理特征)包括體型(高矮、胖瘦)、頭型、肩寬等；動態(tài)特征(時空特征)包括邁步的幅度、步子的頻率、身體重心、雙腿的協(xié)調(diào)關(guān)系、手臂的擺動幅度等。如果將身體分為4部分，對于步態(tài)識別而言，識別的關(guān)鍵區(qū)域如圖1所示。身體各個部分對于識別的貢獻度為：4>1>3>2。

圖1 步態(tài)識別關(guān)鍵區(qū)域

本文將步態(tài)能量圖(GEI)[15]作為模型的輸入，GEI同時包含人的體態(tài)等靜態(tài)信息和行走過程的時空信息，操作簡單。將步態(tài)圖像序列求和取平均融合為一張步態(tài)圖片，減小了模型的空間復雜度，如圖2所示。

圖2 步態(tài)能量圖(GEI)

雙流神經(jīng)網(wǎng)絡(luò)模型由多尺度特征提取、特征融合和識別3部分組成，如圖3所示。

多尺度特征提取由兩個并行的網(wǎng)絡(luò)組成：分別是基于殘差神經(jīng)網(wǎng)絡(luò)的主流網(wǎng)絡(luò)和基于棧式卷積自動編碼器的輔助流網(wǎng)絡(luò)。在主流網(wǎng)絡(luò)中，從步態(tài)圖像樣本中提取動態(tài)特征，代表步態(tài)圖像更宏觀、更抽象的時空信息。在輔助流網(wǎng)絡(luò)中，從步態(tài)圖像樣本中提取靜態(tài)特征，代表步態(tài)圖像低維的人的體型、頭型等生理信息。

多尺度特征提取過程中，將輔助流網(wǎng)絡(luò)提取的步態(tài)特征融合到主流網(wǎng)絡(luò)中，實現(xiàn)動態(tài)特征和靜態(tài)特征的融合表征，從而提取得到最終的步態(tài)特征。最后，將探測視圖和圖庫視圖通過雙流神經(jīng)網(wǎng)絡(luò)提取得到特征向量輸入到歐式距離的最近鄰分類器中，實現(xiàn)步態(tài)識別。

圖3 雙流神經(jīng)網(wǎng)絡(luò)模型框架

2 多尺度特征提取、特征融合和識別

2.1 主流網(wǎng)絡(luò)

步態(tài)圖像是高維、復雜多變的非線性數(shù)據(jù)，要提取到步態(tài)圖像中具有辨別力的時空信息，需要構(gòu)建更加深層的網(wǎng)絡(luò)。研究表明，增加網(wǎng)絡(luò)層數(shù)可以幫助提取更多的層次特征，且網(wǎng)絡(luò)越深表達能力越好。但在實際應(yīng)用中，隨著層數(shù)的增加會導致梯度消失和梯度爆炸等問題[16]，雖然可以利用批處理規(guī)范化(BN)等方法緩解[17]，但網(wǎng)絡(luò)的整體性能會下降，這一退化不是過擬合問題所導致的，而是網(wǎng)絡(luò)過深導致難以訓練。因此，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型無法構(gòu)建足夠深的網(wǎng)絡(luò)。

殘差神經(jīng)網(wǎng)絡(luò)可以構(gòu)建更加深層的網(wǎng)絡(luò)，相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，殘差神經(jīng)網(wǎng)絡(luò)引入一種全新的殘差結(jié)構(gòu)單元[18]，如圖4所示。其基本思想是通過加入捷徑連接(Shortcut Connections)支路構(gòu)成基本殘差學習單元來擬合一個殘差映射[19]。假設(shè)輸入為x，期望的輸出為H(x)，最優(yōu)的輸出就是輸入x。對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，需要將映射函數(shù)優(yōu)化為H(x)=x；而加入捷徑連接的殘差神經(jīng)網(wǎng)絡(luò)H(x)=F(x)+x，只需將映射函數(shù)F(x)=H(x)-x優(yōu)化為0即可，F(xiàn)(x)即為殘差。顯然，后者的優(yōu)化要比前者容易得多[20]。這就是殘差神經(jīng)網(wǎng)絡(luò)可以構(gòu)建更深層網(wǎng)絡(luò)的原因。

圖4 殘差單元

在圖4中，F(xiàn)(x)表示第二次Relu激活函數(shù)前的輸出，H(x)表示殘差單元最終的輸出，被定義為

H(x)=σ[F(x)+x]

(1)

F(x)=W2σ(W1x)

(2)

式中，x為輸入；W1和W2為第一層和第二層網(wǎng)絡(luò)的權(quán)重；σ為Relu激活函數(shù)。

主流網(wǎng)絡(luò)主要提取步態(tài)圖像中的動態(tài)特征，即學習人在行走過程中步幅、膝蓋彎曲角度、手臂擺動幅度、身體重心等變化規(guī)律。主流網(wǎng)絡(luò)基于殘差神經(jīng)網(wǎng)絡(luò)而設(shè)計，實驗過程中整體框架如圖5所示。

網(wǎng)絡(luò)的輸入是128像素×128像素(長×寬)的步態(tài)圖像。為更好地適應(yīng)網(wǎng)絡(luò)，須將原始圖片240像素×240像素重新改為128像素×128像素。輸入層包含一個步長為1的7×7卷積層和步長為2的3×3最大池化層。輸入層的目的是提取多尺度基本視覺特征和減小圖片大小，從而減少網(wǎng)絡(luò)參數(shù)。每一個殘差單元包含兩個步長為1的3×3卷積層，即BN-Conv(3×3)-Relu-BN-Conv(3×3)-Relu。壓縮層應(yīng)用一個步長為2的3×3卷積層將圖像縮小1/2。壓縮層的目的是進行維度調(diào)整，進一步提高模型的緊湊性，減小輔助流網(wǎng)絡(luò)輸入到主流網(wǎng)絡(luò)的特征圖尺寸，并且減少輸入到下一個殘差單元的特征圖數(shù)量。輸出層利用62維的全接層和滑動窗口為8×8的平均池化層，得到最終的步態(tài)圖像特征。

在步態(tài)識別的訓練任務(wù)中，將得到的特征向量用Softmax實現(xiàn)人員分類。因此，網(wǎng)絡(luò)采用交叉熵損失函數(shù)計算損失，即

(3)

y(i)∈{0，1，…，k}θ1，θ2，…，θi∈Rn+1

2.2 輔助流網(wǎng)絡(luò)

輔助流網(wǎng)絡(luò)用來提取步態(tài)圖像的靜態(tài)特征，包括體型、頭型、肩寬等。輔助流網(wǎng)絡(luò)基于棧式卷積自動編碼器(SCAE)，整體框架如圖6所示。

圖6 輔助流網(wǎng)絡(luò)框架

SCAE是由多個卷積自動編碼器(CAE)組成，CAE旨在將輸入復制到輸出的神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)分為編碼器和解碼器兩部分[21]。CAE的目的是抽取最重要、最具代表性的信息表示原圖像，即圖像壓縮和降維的過程。相比于傳統(tǒng)的降維方法更具代表性，復原效果好。編碼器網(wǎng)絡(luò)可以用激活函數(shù)傳遞的神經(jīng)網(wǎng)絡(luò)函數(shù)表示，即

z=σ(Wx+b)

式中，z編碼器潛在維度；σ為非線性激活函數(shù)；W為編碼器網(wǎng)絡(luò)的權(quán)重；b為編碼器偏置。

相似地，解碼器網(wǎng)絡(luò)可以用相同的方式表示，但需要使用不同的權(quán)重、偏置和潛在的激活函數(shù)，即

x′=σ′(W′z+b′)

式中，x′解碼器潛在維度；σ′為非線性激活函數(shù)；W′為解碼器網(wǎng)絡(luò)的權(quán)重；b′為解碼器偏置。

輸入和輸出數(shù)據(jù)相似度越大，提取的數(shù)據(jù)就越具有代表性，可通過減少輸入和輸出數(shù)據(jù)的差異更新網(wǎng)絡(luò)。因此，輔助流網(wǎng)絡(luò)采用均方誤差損失函數(shù)計算原始步態(tài)圖像和重構(gòu)步態(tài)圖像的損失，即

式中，xij和yij分別為原始步態(tài)圖像和重構(gòu)步態(tài)圖像第i行和第j列所對應(yīng)的像素值；u和v分別為輸入數(shù)據(jù)的行和列的總數(shù)。

本文輔助流網(wǎng)絡(luò)由3個隱藏層為一層的CAE組成。在訓練過程中，每一個CAE都單獨訓練，上一個CAE的輸出作為下一個CAE的輸入，達到“全部迭代，跟新單層”的目的。這樣，下一個CAE的訓練收益會非常高，因其輸入是上一個CAE訓練的全部映射特征。

輔助流網(wǎng)絡(luò)從輸入的步態(tài)圖像樣本中提取分層特征。隨著層數(shù)的增加，提取特征圖的分辨率由大到小。雖然特征圖的模糊性有所增加，但抽象的特征卻越來越明顯。原始圖像與恢復圖像對比表明，提取的特征保留了最重要的信息。重構(gòu)的可視化過程如圖7所示。

圖7 輔助流網(wǎng)絡(luò)重構(gòu)可視化過程

2.3 特征融合和識別

采用一種新穎的特征融合方法將輔助流網(wǎng)絡(luò)提取的多尺度靜態(tài)特征分別饋送到主流網(wǎng)絡(luò)的壓縮層，主流網(wǎng)絡(luò)將自身提取的特征和從輔助流網(wǎng)絡(luò)得到的特征進行融合，得到最終的步態(tài)特征。該特征同時包含人在行走過程中的動態(tài)特征和靜態(tài)特征，并且將輔助流網(wǎng)絡(luò)每一層提取的不同分辨率的特征都饋送到主流網(wǎng)絡(luò)中，達到特征重用的目的。實驗表明，這種特征融合方法有效可行。

生成多尺度特征向量后，使用歐式距離的最近鄰分類器識別步態(tài)圖像。換句話說，使用歐式距離度量特征向量X1和X2之間的距離。給定兩個特征向量X1，X2∈Rd，歐式距離的定義為

式中，X1i和X2i分別是特征向量X1和X2的第i個元素。

如果d(X1，X2)越小，那么X1和X2之間的相似度就越高，這兩張步態(tài)圖像屬于同一人的可能性就越大。

3 實驗結(jié)果

3.1 數(shù)據(jù)集

3.1.1 CASIA-B數(shù)據(jù)集

使用中科院自動化所2005年創(chuàng)建的公開步態(tài)數(shù)據(jù)集之——CASIA-B數(shù)據(jù)集[22]測試本文提出的雙流神經(jīng)網(wǎng)絡(luò)模型的識別表現(xiàn)。該數(shù)據(jù)庫包含124名受試者(93名男性和31名女性)。受試者視角以18°為間隔，將0°～180°分為11個不同的視角。每一名受試者分為3種行走狀態(tài)，包括6個正常狀態(tài)行走序列(NM)、2個帶包行走序列(BG)和2個穿著外套行走序列(CL)，如圖8所示。

圖8 CASIA-B數(shù)據(jù)集

3.1.2 CM-GAIT數(shù)據(jù)集

由于目前沒有公開的煤礦井下人員步態(tài)數(shù)據(jù)集，為進一步驗證模型針對煤礦工人步態(tài)識別的可行性，在位于內(nèi)蒙古鄂爾多斯市的罐子溝煤礦采集了30位煤礦工人(均為男性)的步態(tài)數(shù)據(jù)，構(gòu)建CM-GAIT數(shù)據(jù)集(本實驗首次使用，為非公開數(shù)據(jù)集)，如圖9所示。煤礦井下工作的步態(tài)行為與工作內(nèi)容、環(huán)境、著裝有關(guān)，數(shù)據(jù)集中包含3個工種各10名，分別為采煤工、液壓支架工和采煤機司機。每位受試者包含3個拍攝角度(18°、54°、90°)和2個行走序列。1個行走序列是煤礦檢身房內(nèi)(光照充足，空間廣闊)拍攝，該序列用作圖庫視圖；另1個行走序列是煤礦井下(光照昏暗，空間受限，潮濕，存在煤塵)拍攝，該序列用作探測視圖。因此，CM-GAIT數(shù)據(jù)集一共包含180張GEI(步態(tài)能量圖)，每張GEI由100張步態(tài)序列圖片構(gòu)成。

圖9 CM-GAIT數(shù)據(jù)集視角步態(tài)能量

3.2 實驗設(shè)計

在實驗中，CASIA-B數(shù)據(jù)集中的3種行走狀態(tài)包括“NM”“BG”和“CL”。將數(shù)據(jù)集中前62個受試者(001—062)的6個“NM”序列、2個“BG”序列和2個“CL”序列作為訓練集，剩下的62個受試者(063-124)作為測試集。在測試集中，每名受試者的前4個“NM”序列作為圖庫視圖，剩下的2個“NM”序列、2個“BG”序列和2個“CL”序列作為探測視圖，用來測試在不同行走狀態(tài)的下的模型表現(xiàn)。

在CM-GAIT數(shù)據(jù)集中，30名煤礦工人全部用來測試模型，其中煤礦檢身房內(nèi)拍攝的步態(tài)序列作為圖庫視圖，礦井下拍攝的序列作為探測視圖。

3.3 模型參數(shù)

設(shè)置批量大小為64、使用均值為0、標準差為0.01的高斯分布，初始化每一層網(wǎng)絡(luò)的權(quán)重，所有偏差項都初始化為0。為了讓網(wǎng)絡(luò)更好地收斂，設(shè)置學習率為0.002。根據(jù)驗證集的識別結(jié)果決定迭代次數(shù)，具體參數(shù)見表1。

表1 訓練參數(shù)

3.3.1 主流網(wǎng)絡(luò)參數(shù)

網(wǎng)絡(luò)深度太深、特征圖數(shù)量太多，會導致模型過于復雜，識別消耗時間長；網(wǎng)絡(luò)深度太淺、特征圖數(shù)量太少，會導致模型無法很好地學習步態(tài)圖像中有辨別力的特征，識別效果不佳。通過多次實驗得到最佳參數(shù)設(shè)置見表2。表2中每一個“Conv”在實驗中對應(yīng)的是BN-Conv的模式。

3.3.2 輔助流網(wǎng)絡(luò)參數(shù)

輔助流網(wǎng)絡(luò)參數(shù)分為編碼器和解碼器兩部分。編碼器和解碼均為3層。具體參數(shù)見表3。

表2 主流網(wǎng)絡(luò)參數(shù)

表3 輔助流網(wǎng)絡(luò)參數(shù)

3.4 實驗結(jié)果

為測試模型的性能，在CASIA-B測試集(共62名受試者)中進行實驗。

(1) 測試模型的整體識別性能。即每一張?zhí)綔y視圖的特征向量與所有圖庫視圖的特征向量進行比較距離，得到Rank-1人員步態(tài)識別率(表4)。

表4 CASIA-B測試集Rank-1步態(tài)識別率

(2) 測試模型的多角度識別性能。圖庫視圖和探測視圖分別有11個視角，共121對組合，即每一張?zhí)綔y視圖的特征向量分別與不同角度的圖庫視圖的特征向量比較距離(Rank-1)，實驗結(jié)果見表5、表6和表7。表中的每一行對應(yīng)圖庫視圖的角度，每一列對應(yīng)探測視圖的角度。

(3) 在CM-GAIT數(shù)據(jù)集上進行了實驗，身份識別率見表8。步態(tài)識別對光照和距離等環(huán)境因素影響較小，相比CASIA-B中的受試者，不同點是煤礦井下人員頭部佩戴礦工帽、身體攜帶工具包、腳部穿著防水鞋等特征，如圖10所示。但本文模型依然具有較高的識別率，說明提出的步態(tài)識別方法對煤礦工人所具有的特征有較好的魯棒性。實踐證明，利用該模型進行煤礦井下人員步態(tài)識別是有效可行的。

表5 正常行走狀態(tài)的多視角識別率(NM05，NM06)

表6 帶包行走狀態(tài)下的多視角識別率(BG01，BG02)

表7 穿著大衣行走狀態(tài)下的多視角識別率(CL01，CL02)

表8 CM-GAIT測試集Rank-1步態(tài)識別率

圖10 井下煤礦工人步態(tài)

4 方法比較

在CASIA-B數(shù)據(jù)集上將所提出的TS-GAIT模型與最新的步態(tài)識別方法進行比較，包括卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、主成分分析(GEI+PCA)和生成對抗網(wǎng)絡(luò)(GaitGAN)。同時，為更全面地比較TS-GAIT模型的性能，將ResNet(只使用殘差卷積神經(jīng)網(wǎng)絡(luò)的主流網(wǎng)絡(luò)模型)和SCAE(只使用棧式卷積自動編碼器的輔助流網(wǎng)絡(luò)模型)與本文提出的方法(使用ResNet和SCAE)在相同的參數(shù)設(shè)置下進行比較實驗。

(1) 比較無視角變化的識別率，即探測視圖的視角和圖庫視圖的視角相同的情況。通過取表5、表6和表7對角線上的識別率求得平均識別率，同樣方式獲得CNNs、GaitGAN、GEI+PCA、ResNet和SCAE的平均識別率。比較結(jié)果見表9。由表9可見，本文提出的方法具有較高的識別率。在BG、CL情況下識別率分別為85.85%和52.12%，比GaitGAN分別高出13.12%和10.62%。TS-GAIT模型在無視角變化的情況下，明顯優(yōu)于其他方法。

表9 同視角識別率

(2) 比較跨視角的識別率，即探測視圖的視角和圖庫視圖的視角不同的情況。選取探測視圖為0°、54°、180°、162°時3種行走狀態(tài)，比較結(jié)果如圖11所示。由圖11可以看出，本文所提出的方法在跨視角情況下優(yōu)于GEI+PCA和CNNs；無論視角是否變化，也都明顯優(yōu)于單獨使用ResNet和SCAE。

本文提出的雙流神經(jīng)網(wǎng)絡(luò)模型的性能無論是同視角，還是跨視角，都優(yōu)于其他步態(tài)識別方法，這是因為采用了高效的多尺度特征提取和新穎的特征融合技術(shù)。同時基于ResNet和SCAE的雙流神經(jīng)網(wǎng)絡(luò)模型比ResNet方法或SCAE方法在相同的參數(shù)設(shè)置下有更好的性能，表明融合靜態(tài)特征和動態(tài)特征的多尺度特征比單一靜態(tài)特征或動態(tài)特征更具區(qū)分性。

圖11 跨視角識別率

5 結(jié) 論

(1) 主流網(wǎng)絡(luò)使用殘差神經(jīng)網(wǎng)絡(luò)學習動態(tài)特征，用于表示步態(tài)圖像的宏觀時空特性；輔助流網(wǎng)絡(luò)使用棧式卷積自動編碼器來學習靜態(tài)特征，用于提供步態(tài)圖像低維的生理信息。將像素級動態(tài)特征與層次化靜態(tài)特征融合實現(xiàn)步態(tài)識別的方法是非常有效的。

(2) 提出的雙流神經(jīng)網(wǎng)絡(luò)模型對人員角度變化、攜帶條件、衣著等有較好的魯棒性，其識別準確率明顯優(yōu)于現(xiàn)有的步態(tài)識別方法，并且用于煤礦井下人員步態(tài)識別是有效可行的。

(3) 在煤礦井下，不受復雜環(huán)境和距離限制，步態(tài)識別將在煤礦井下人員識別起到至關(guān)重要的作用。煤礦井下人員步態(tài)識別要實時地識別礦井下人員身份，模型要快速高效，簡化模型復雜度，提高識別速度是未來研究工作的重點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡