梁玉杰 崔博
摘? 要:在室內(nèi)空間進行準確的行人模式識別/場景感知,特別是與位置關(guān)聯(lián)的識別/感知,對于行人的聚集或追蹤具有重要意義.針對傳統(tǒng)機器學習方法特征提取困難、分類精度低,非正常性行為造成較大識別誤差等問題,提出一種基于注意力機制和雙向長短記憶(bidirectional long short-term memory,Bi-LSTM)網(wǎng)絡的室內(nèi)實時行人模式識別的模型.建立Bi-LSTM網(wǎng)絡提取滑動窗口內(nèi)行人模式時序特征,評估模型網(wǎng)絡結(jié)構(gòu)的性能與時效性,優(yōu)化所提網(wǎng)絡的Bi-LSTM層數(shù)和隱藏層節(jié)點數(shù),并確定最優(yōu)的網(wǎng)絡結(jié)構(gòu);為了削減噪聲數(shù)據(jù)對模型的影響,提高網(wǎng)絡篩選信息特征的能力,引入注意力機制對所提取的時序特征進行權(quán)重參數(shù)優(yōu)化.實驗結(jié)果表明,相比傳統(tǒng)機器學習算法,優(yōu)化參數(shù)后的Bi-LSTM網(wǎng)絡,行人模式識別準確度平均提高6.37%,進一步引入注意力機制后,識別準確度平均提高9.21%,最終準確度可達99.32%.所提模型可以有效對行人模式/場景感知進行分類,為室內(nèi)精準定位追蹤提供方法支持.
關(guān)鍵詞:行人模式識別;滑動窗口;時序特征;Bi-LSTM;注意力機制
中圖分類號:TP391????? 文獻標志碼:A文章編號:1000-2367(2024)03-0088-10
隨著社會的發(fā)展,對精準定位、準確智能感知的要求越來越高.在室外,可以通過衛(wèi)星定位技術(shù)以及通訊信號進行定位,獲取行程軌跡;在室內(nèi),行人模式識別/場景感知是實現(xiàn)行人聚類與追蹤的重要環(huán)節(jié)和前提,實現(xiàn)準確、可靠的室內(nèi)行人時空聚類問題亟須解決.近年來很多學者與科研團隊投入行人模式識別算法的研究中,極大地推進室內(nèi)行人追蹤的研究與發(fā)展.
實現(xiàn)行人模式識別的方法主要有以下兩種途徑:1)視覺識別:基于圖片或視頻的行人模式識別[1-5],具有精度高的優(yōu)點,但其對環(huán)境要求較高,對攝像頭的位置比較敏感,無法進行個體的長時間行人追蹤,且存在人們隱私保護問題的爭議.2)基于傳感器的行人模式識別[6-14],隨著慣性傳感器在人們生活中的應用與發(fā)展,在室內(nèi)環(huán)境中,不難通過慣性傳感器檢測行人的行為模式及定位信息.本文基于慣性傳感器以及氣壓計相關(guān)時序數(shù)據(jù)對室內(nèi)行人模式進行識別,達到對室內(nèi)行人聚類與追蹤的目的.
運用慣性傳感器進行行為模式識別的研究眾多.劉宇等[6]提出基于加速度時域特征的人體行為模式識別算法,運用前饋型BP神經(jīng)網(wǎng)絡分類器對行走、上樓、下樓、跑、跳5種行為模式進行分類,綜合識別精度達85%以上.衡霞等[7]利用手機內(nèi)置三軸加速度采集人體日常行為,對數(shù)據(jù)進行提取多種統(tǒng)計特征,利用支持向量機(support vector machine,SVM)分類器進行分類識別.段小虎等[8]提取三軸加速度數(shù)據(jù)的方差、均值和
收稿日期:2023-03-01;修回日期:2023-03-22.
基金項目:2021年度教育部產(chǎn)學合作協(xié)同育人項目(202101138019);2021年度教育部高等學校電子信息類專業(yè)教學指導委員會項目(2021-JG-04).
作者簡介(通信作者):崔博(1979-),男,河北唐山人,華北理工大學副教授,研究方向為信號與信息智能處理、仿真方法與算法及應用,E-mail:mikecui@ncst.edu.cn.
引用本文:梁玉杰,崔博.基于雙向長短期記憶網(wǎng)絡及注意力機制的室內(nèi)行人模式識別[J].河南師范大學學報(自然科學版),2024,52(3):88-97.(Liang Yujie,Cui Bo.Indoor pedestrian pattern recognition based on bidirectional long short-term memory network and attention mechanism[J].Journal of Henan Normal University(Natural Science Edition),2024,52(3):88-97.DOI:10.16366/j.cnki.1000-2367.2023.03.01.0002.)
協(xié)方差作為特征,采用SVM、K最近鄰和隨機森林算法等傳統(tǒng)的機器學習方法進行模式識別.張烈平等[9]運用BP神經(jīng)網(wǎng)絡分析行為數(shù)據(jù),建立人體活動行為分類模型,得到了較高的準確率.劉旭等[10]利用SVM和自適應力增強(Adaboost)分類算法對站立、側(cè)躺、仰臥、走路和跑步等姿態(tài)進行識別,但在人體運動其他模式上缺乏研究.王玉坤等[11]采用SVM多類分類器對走、跑、上下樓等人體姿態(tài)進行識別,整體識別率達到87.00%以上,在準確率以及識別的實時性上有待提高.以上研究大部分運用機器學習面臨特征提取困難、分類精度低、實時性較差等突出問題.
近年來,利用深度學習解決模式識別與室內(nèi)定位的實踐層出不窮.深度學習方法用樣本數(shù)據(jù)訓練模型,具有無需提取樣本特征的優(yōu)勢,主動提取數(shù)據(jù)內(nèi)在規(guī)律與層次結(jié)構(gòu).楊韞韜等[3]提出一種解決監(jiān)控視頻中行人相互遮擋問題的人體姿態(tài)補全法,運用了循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)和注意力機制對人體姿態(tài)序列進行雙向補全,估測監(jiān)控視頻中行人被遮擋時的狀況.閆昊雷等[4]將深度學習運用于行人重識別領域,通過雙向長短期記憶網(wǎng)絡尋求圖像的上下文信息從而進行圖像遮擋部分的補全.歐群雍等[5]結(jié)合卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)和Bi-LSTM的模型減少圖像中長期遮擋導致的行人模式誤識別的問題,提升了多行人目標的檢測跟蹤性能.高麗麗等[14]提出一種基于智能手機的長短期記憶(long short-term memory,LSTM)室內(nèi)定位方法,運用卡爾曼濾波算法剔除數(shù)據(jù)中的噪聲,建立LSTM深度學習網(wǎng)絡抑制陀螺儀數(shù)據(jù)中的漂移現(xiàn)象,有效提高了室內(nèi)定位的精度,但其未考慮室內(nèi)行人存在多種行為模式的問題.文獻[3-5]中均將深度學習的算法運用在行人模式識別當中.文獻[13]中盡管對深度學習網(wǎng)絡在室內(nèi)定位追蹤中進行了充分研究,但仍然面臨持續(xù)追蹤導致功耗高的問題.
綜上所述,傳統(tǒng)機器學習模型識別精度較低,無法滿足現(xiàn)在需求;室內(nèi)連續(xù)定位追蹤可能導致數(shù)據(jù)堆積造成定位不準確,且存在功耗較大以及私密性差等問題.為實現(xiàn)一種基于模式識別/場景感知的室內(nèi)空間行人聚集與追蹤方法,本文重點考慮能夠反映室內(nèi)行人位置特征的4種典型行人模式/場景,基于慣性傳感器和氣壓計進行數(shù)據(jù)采集,提出一種注意力機制與Bi-LSTM相結(jié)合的網(wǎng)絡結(jié)構(gòu)模型.該模型利用Bi-LSTM雙向結(jié)構(gòu),同時引入注意力機制使模型加強提取與行人模式相關(guān)性大的特征,實現(xiàn)低功耗、高精度、實時識別室內(nèi)行人模式.
1? 相關(guān)工作
1.1? 數(shù)據(jù)預處理
數(shù)據(jù)預處理主要包括數(shù)據(jù)標準化處理和數(shù)據(jù)集構(gòu)造.本文采用標準差(Z-score)標準化法[15],基于原始數(shù)據(jù)的均值和標準差將數(shù)據(jù)標準化,轉(zhuǎn)換函數(shù)如式(1)所示:x′=x-μσ,(1)
式中μ表示樣本數(shù)據(jù)的均值,σ表示樣本數(shù)據(jù)標準差,x表示原始數(shù)據(jù),x′表示標準化后的數(shù)據(jù).
單一的傳感器觀測點不足以挖掘動態(tài)特征,過小的窗口很難提取充足的特征,過大的窗口會導致訓練參數(shù)快速增長,從而增加網(wǎng)絡的訓練時長.本文對采集到的時序數(shù)據(jù)進行滑動窗口切片處理.實施過程中,每一個樣本窗口包含300個采樣點,即窗口的大小設置為3 s,按照50%的采樣重疊率進行樣本的連續(xù)獲取.
1.2? 傳統(tǒng)機器學習方法
1.2.1? 算法介紹
1)決策樹分類器主要用于分類問題的研究,模型呈現(xiàn)樹形結(jié)構(gòu),是一種以樣本實例為基礎的歸納學習分類算法[16-17].根據(jù)損失函數(shù)最小化原則建立決策樹模型,即決策樹的生成[18].利用已經(jīng)建立的決策樹以同樣的方式進行屬性判斷,從而預測所屬類別.本文采用基尼指數(shù)(Gini)作為節(jié)點分裂評價準則進行分類,其計算如式(2)所示:Gini(P)=∑nm-1Pn(1-Pn),(2)
式中n表示所有樣本的類別數(shù)目,Pn表示第n類樣本被選中的概率.決策樹分類器具備易于解釋和理解的優(yōu)點,但同時存在處理連續(xù)數(shù)據(jù)較難預測的不足.
2)隨機森林[19]分類器是以決策樹為基本模型,綜合了裝袋(Bagging)規(guī)則與隨機特征子空間的算法[20].該分類器彌補了決策樹中可能存在過擬合情況的缺點,分類精度更高,具有很好的抗噪能力.本文用隨機森林算法建立多棵CART算法決策樹,最終通過投票決定行人模式的類別.
3)SVM算法是通過最大化類間間隔構(gòu)造最優(yōu)超平面的方法來進行分類,是一種監(jiān)督機器學習算法,已經(jīng)被廣泛應用于模式識別、文本分類等領域[21].該算法可以解決高維及非線性問題,提高了分類器的泛化能力和模型的魯棒性,但其存在對于大規(guī)模的訓練樣本難以實施的缺陷[22].
1.2.2? 特征提取
本文選取合加速度的幅值、合加速度標準差、氣壓計的標準差具體計算如下.
1)加速度at為三軸加速度各方向加速度的矢量模,即合加速度的大小,如式(3)所示:at=a2tx+a2ty+a2tz,(3)
式中atx,aty,atz分別表示加速度在x,y,z軸t時刻的加速度,at表示t時刻的合加速度.
2)標準差σ為數(shù)據(jù)樣本方差的算術(shù)平方根,該特征可反映數(shù)據(jù)樣本的離散程度,本文對合加速度以及氣壓數(shù)據(jù)進行標準差特征的提取,如式(4-5)所示:σ1=∑nt=1(at-μ)2n-1,(4)
σ2=∑ni=1(xi-μ)2n-1,(5)
式(4)、(5)中:at為合加速度數(shù)據(jù),t=1,2,3,…,n,n為數(shù)據(jù)樣本個數(shù),σ1為n個樣本合加速度的標準差.xi為大氣壓數(shù)據(jù),i=1,2,3,…,n,n為數(shù)據(jù)樣本個數(shù),σ2為n個樣本大氣壓的標準差.
上述特征可以有效區(qū)分行人在室內(nèi)走路、爬樓、電梯、扶梯4種行人模式/場景.其特征分布如圖1~3所示.
圖1表明,爬樓模式的合加速度標準差在1.2~1.4之間、行走模式的合加速度標準差在1.1~1.2之間,運動較為劇烈,且劇烈程度不同,較易區(qū)分;但是直梯、扶梯這兩種模式的合加速度標準差均在0.8~0.9之間,雖有區(qū)分但仍有交叉,基于合加速度標準差特征進行區(qū)分容易混淆.
圖2表明,爬樓、行走模式與其他模式的交叉較少,易于區(qū)分,扶梯與直梯這兩種模式交叉較多,基于合加速度幅值特征很難區(qū)分.為了進一步區(qū)分直梯與扶梯這兩種行人模式,本文進一步引入氣壓標準差特征.
圖3表明,直梯模式在一個滑動窗口時間內(nèi)氣壓變化大,數(shù)據(jù)較為離散,標準差在0.10~0.12之間,行走模式在一個滑動窗口時間內(nèi)的氣壓變換非常小,樣本數(shù)據(jù)非常集中,標準差較小,易于區(qū)分;爬樓與扶梯在一個滑動窗口時間內(nèi)氣壓變化的大小相似,標準差均位于0.03~0.06之間;直梯與扶梯模式的氣壓標準差相差較大,易于區(qū)分.
2? 模型構(gòu)建
2.1? 系統(tǒng)整體設計
本文設計的室內(nèi)時空聚類總體系統(tǒng)結(jié)構(gòu)如圖4所示.基于智能手機或手環(huán)采集慣性傳感器以及大氣壓的時序數(shù)據(jù),構(gòu)建一種結(jié)合注意力機制和Bi-LSTM網(wǎng)絡的行人模式識別/場景感知模型,對室內(nèi)行人模式進行實時精準識別.在行人模式識別模型的基礎上,通過大氣壓數(shù)據(jù)進行樓層識別,同時提取數(shù)據(jù)的時間標簽,將相同時間的行人模式以及所處樓層進行聚類分析,最終得到行人在室內(nèi)的時空位置,以實現(xiàn)室內(nèi)高精度、低功耗的行人聚集分析,達到精準定位的目標.
2.2? 結(jié)合注意力機制和Bi-LSTM的網(wǎng)絡架構(gòu)
LSTM網(wǎng)絡是一種特殊的循環(huán)神經(jīng)網(wǎng)絡,通過引入遺忘門、輸入門和輸出門的機制,有效改善了RNN梯度爆炸和梯度消失的問題[23],特別適用于序列數(shù)據(jù)處理[23].Bi-LSTM通過使用兩個獨立的隱藏層,一個LSTM正向處理序列,一個LSTM反向處理序列,這種結(jié)構(gòu)充分利用序列中前后兩個方向的信息,可以有效提取數(shù)據(jù)前后的時序特征[24].
對于室內(nèi)行人模式識別/場景感知,本文研究提出結(jié)合注意力機制和Bi-LSTM網(wǎng)絡結(jié)構(gòu)的模型,模型結(jié)構(gòu)如圖5所示,模型結(jié)構(gòu)由Bi-LSTM層、注意力機制層和全連接層組成.該模型基于固定大小的滑動窗口,獲取4種典型室內(nèi)行人模式的時序數(shù)據(jù)進行分類識別,其主要步驟為:第一步,將輸入的行人模式數(shù)據(jù)序列經(jīng)過Bi-LSTM層,結(jié)合整個窗口數(shù)據(jù)進行正向與反向的特征提取,并輸出特征值;第二步,將Bi-LSTM層的輸出作為注意力機制層的輸入,由于Bi-LSTM層各時刻輸出的隱藏狀態(tài)對結(jié)果的影響度不同,運用注意力機制讓模型關(guān)注影響度較大的隱藏狀態(tài),實時分配行人模式數(shù)據(jù)中提取的權(quán)重,增加有效特征的權(quán)重,提高準確度;第三步,將注意力輸出向量輸入全連接層,經(jīng)過兩層全連接層之后降低維度至分類維度,最終輸出分類結(jié)果.
1)輸入層:室內(nèi)行人模式的時序數(shù)據(jù)經(jīng)過滑動窗口提取之后,每一個窗口有n個采樣點,每一個采樣數(shù)據(jù)中包含m個數(shù)據(jù),從而得到樣本輸入矩陣Rn×m,n為每個樣本輸入的序列長度,m為輸入數(shù)據(jù)維度.
2)Bi-LSTM層:室內(nèi)行人模式需要通過整個滑動窗口的時序數(shù)據(jù)的信息才能更加精準地判斷,因此本文運用Bi-LSTM網(wǎng)絡提取數(shù)據(jù)特征,然后前饋到同一個輸出層.該層生成了一系列的隱藏狀態(tài)hi∈R2n×m,2n表示數(shù)據(jù)序列中采樣點個數(shù)的2倍,m表示隱藏狀態(tài)的向量維度.
3)參數(shù)舍棄(Dropout)[25]:在Bi-LSTM層中加入Dropout,大規(guī)模的神經(jīng)網(wǎng)絡存在費時和容易過擬合的缺點,加入Dropout之后每一次訓練都會隨機剔除神經(jīng)網(wǎng)絡中的部分神經(jīng)元,解決模型過擬合的問題,提高模型的泛化能力.
4)注意力機制層:深度學習的注意力機制[26-28]主要體現(xiàn)為在信息處理的過程中,對于不同的內(nèi)容分配不同的注意力權(quán)重,在一定程度上提升神經(jīng)網(wǎng)絡處理長序列問題的能力.
先使用注意力機制層再使用Bi-LSTM層可以提高模型的性能和效率,尤其是在長序列數(shù)據(jù)集.先使用Bi-LSTM層再使用注意力機制層也可以提高深度學習模型的性能,同時也可以提高模型在復雜序列數(shù)據(jù)上的魯棒性.本文考慮到在室內(nèi)行人模式識別中選取滑動窗口較小,滑動窗口內(nèi)代表行人模式的慣性傳感器數(shù)據(jù)較為復雜,將該數(shù)據(jù)先通過Bi-LSTM層提取當前時刻之前之后的特征信息,再將這些信息作為注意力機制層的輸入,更好地捕捉特征信息中的關(guān)鍵信息,加強與行人模式相關(guān)性大的輸入特征,進一步提升神經(jīng)網(wǎng)絡對特征的挖掘能力,從而提高模型的學習性能以及魯棒性.
因此本文在Bi-LSTM層后引入注意力層,將得到Bi-LSTM層的輸出H={h1,h2,h3,…,hn}作為注意力層的輸入,其中n是輸入樣本時序數(shù)據(jù)的長度,然后通過打分函數(shù)s(h,q)計算查詢向量q和每個輸入hi之間的相關(guān)性,得出分數(shù),最后使用softmax函數(shù)對分數(shù)進行歸一化,歸一化后的結(jié)果便是注意力權(quán)重a={a1,a2,a3,…,an},以ai為例,具體公式如下:ai=softmax(s(h,q))=exp(s(hi,q))∑nj=1exps(s(hj,q)).(6)
將當前時刻得到的注意力權(quán)重與對應特征相乘得到加權(quán)后注意力輸出向量si.
5)全連接層:全連接層連接注意力機制輸出的,通過兩層全連接層,綜合之前神經(jīng)網(wǎng)絡的所有信息,降低維度至4維,便于輸出分類,得到輸出特征向量.
6)輸出層:將特征向量si輸入softmax分類器,輸出對室內(nèi)行人模式分類的預測概率,最終取最大的預測概率對應的類別作為分類結(jié)果.
2.3? 樓層識別
實現(xiàn)高精度的室內(nèi)行人聚類或追蹤不僅要求對行人進行水平位置的模式識別,同樣需要對行人進行準確的三維空間的定位,因此能夠?qū)崟r提供行人當前所在的樓層位置是必要的.基于差分氣壓的樓層切換識別技術(shù)成本較低,精度較高,本文使用以差分氣壓測高、通過室內(nèi)行人模式修正的樓層識別方法,在較低成本的前提下保證提升樓層識別率[29-30].
根據(jù)氣象學中兩個不同海拔高度的大氣壓強差可表述為:h-h0=RdTgln P0P,(7)
式(7)中h為測量氣壓值對應的高度,m;h0為基準氣壓值對應的高度,m;g為重力加速度(g=9.806 7 m/s2);Rd為干燥空氣氣體常數(shù)(Rd=287.052 9 m2/(s2K));T為空氣的熱力學溫度,K;P為測量氣壓值;P0為基準氣壓值.
記Δh=h-h0,則Δh表示測量氣壓的蓋度與水平面的相對高度,將熱力學溫度T轉(zhuǎn)換為攝氏度t,帶入相關(guān)參數(shù)的數(shù)值得到以下表達式:Δh=67.399 5(273.15+t)lg P0P.(8)
根據(jù)式(8)即可求得測量位置的高度信息、每層樓的高度及初始樓層信息確定行人的樓層號.當檢測到行人處于行走模式時,通過求得的高度信息,確定行人所在樓層;當檢測到行人處于爬樓、扶梯、直梯模式時,通過對窗口內(nèi)氣壓數(shù)據(jù)的改變結(jié)合求得的層高數(shù)據(jù),確定行人所在的具體位置,如式(9):
F=F0+round(1h067.399 5(273.15+t)lg P0P),(9)
式中,F(xiàn)為行人所在的樓層號,F(xiàn)0為行人的初始樓層號,h0為建筑每層樓的高度,round函數(shù)實現(xiàn)對求得高度的取整運算.
3? 實驗驗證
3.1? 實驗設置
實驗平臺操作系統(tǒng)為64位Windows 10系統(tǒng),CPU為AMD Ryzen 9 5950X 16-Core Processor,GPU為NVIDIA GeForce RTX 3090 24 G獨立顯卡,使用pytorch1.12.1構(gòu)建深度學習模型.
本文數(shù)據(jù)基于智能手機傳感器采集,實驗選擇8名志愿者在自然環(huán)境中采集數(shù)據(jù),其中男生5人,女生3人.在采集過程中,數(shù)據(jù)采樣頻率是100 Hz,每名志愿者每種狀態(tài)的測量時間約為5 min,共采集了室內(nèi)典型的4種行人模式步行、爬樓、扶梯、直梯數(shù)據(jù),采集的數(shù)據(jù)均包含4種行人模式,且在采集時不受任何約束,不規(guī)定出腳順序,完全按照自己的行為習慣執(zhí)行相應的動作.
為了驗證本文提出的結(jié)合注意力機制和Bi-LSTM網(wǎng)絡的室內(nèi)行人模式識別模型的實際效果,在實驗前,對數(shù)據(jù)集進行滑動窗口化采樣、標準化等預處理,最終得到45 391個數(shù)據(jù)樣本,為了評估深度學習模型的穩(wěn)定性與魯棒性,將數(shù)據(jù)樣本以8∶1∶1的比例隨機分為訓練集、驗證集和測試集對模型進行訓練和測試.
3.2? 模型試驗結(jié)果及分析
3.2.1? 分類實驗評估
本文采用決策樹、隨機森林和SVM 3種較為典型的機器學習算法利用準確度指標,使用 Scikit-learn 作為算法構(gòu)建工具.通過對傳統(tǒng)機器學習及深度學習的方法與本文提出的結(jié)合注意力機制和Bi-LSTM網(wǎng)絡的模型形成對比實驗,進行討論.結(jié)果如表1所示.
表1? 分類實驗評估
Tab. 1? Comparative Experiments on Traditional Machine Learning
名稱精準度/%召回率/%準確度%
決策樹91.7087.5088.34
隨機森林90.2490.5289.83
SVM90.7092.8690.17名稱精準度/%召回率/%準確度%
LSTM93.4394.6490.75
本文模型98.7597.7999.32
分析對比實驗結(jié)果可知,結(jié)合注意力機制和Bi-LSTM網(wǎng)絡結(jié)構(gòu)的模型在行人模式識別的準確度為99.32%,且精準度平均提高了7.23%,召回率平均提高了6.41%,均優(yōu)于其他機器學習算法.
3.2.2? 超參數(shù)選擇及性能評價
在深度學習的神經(jīng)網(wǎng)絡中,超參數(shù)是通過人為提前設定好網(wǎng)絡的相關(guān)參數(shù)用于訓練模型.為了更加客觀全面地證明本文所提方法的準確性與高效性,運用控制變量的方法通過調(diào)整Bi-LSTM網(wǎng)絡的層數(shù)、隱藏層節(jié)點數(shù)尋求最優(yōu)參數(shù)組合.
(1)Bi-LSTM網(wǎng)絡層數(shù).Bi-LSTM的層數(shù)對模型的準確度、實時性與計算復雜程度有很大的影響.如果層數(shù)設置得過小,模型訓練速度變快,但是精準度會有所下降,收斂速度也會變得很慢;而如果層數(shù)設置得過大,由于Bi-LSTM為時序模型,層數(shù)的增加會造成訓練時間的增加以及占用內(nèi)存指數(shù)級增長.因此設置實驗的不變量:學習率為0.000 1,隱藏層節(jié)點數(shù)為128,全連接層層數(shù)為2層,全連接層神經(jīng)元分別為128和32(未加激活函數(shù)),訓練次數(shù)(epoch)為150,對Bi-LSTM網(wǎng)絡層數(shù)改變進行對比實驗討論,具體如表2.
通過上述對比實驗分析可知:Bi-LSTM網(wǎng)絡層數(shù)由1層增加到5層模型準確度上升了11.01%,由第5層增加到第7層模型準確度下降了1.56%.可以看出,改變Bi-LSTM網(wǎng)絡層數(shù)模型的準確度會隨著層數(shù)的增加而增加,從第2層開始模型隨著層數(shù)增加準確度增長緩慢,增加到第5層時開始呈現(xiàn)下降趨勢,但不明顯;直到層數(shù)為第8層時,準確度下降了5.30%,下降幅度較大.網(wǎng)絡層數(shù)的增加導致神經(jīng)元個數(shù)增多,極大增加了模型的訓練時間和占用內(nèi)存.
(2)隱藏層節(jié)點數(shù).一般來講,隱藏層節(jié)點數(shù)是導致模型過擬合的直接原因,節(jié)點數(shù)過小,模型不具有泛化能力[31];節(jié)點過多,模型容易陷入局部最優(yōu),甚至導致過擬合的情況[32].因此設置實驗的不變量:學習率為0.000 1,Bi-LSTM網(wǎng)絡層數(shù)為2層,全連接層層數(shù)為2層,全連接層神經(jīng)元個數(shù)分別為128和32(未加激活函數(shù)),epoch為150,對隱藏節(jié)點數(shù)改變進行對比試驗討論,具體如表3.
表3? 不同隱藏層節(jié)點數(shù)模型對比
Tab. 3? Comparison of node number models of different hiding layers
隱藏層節(jié)點數(shù)3264128256
準確度/%86.3492.4794.8295.03
模型大小/kB562067943 122
訓練時間/s15.1216.4618.8825.74
通過上述對比實驗分析可知,隱藏層節(jié)點數(shù)由32增加到256,模型準確度上升了8.69%,模型大小增加了3 066 kB,訓練一個epoch耗費的時間增加10.62 s,可以看出,改變隱藏層節(jié)點數(shù)模型的準確度隨著隱藏層節(jié)點數(shù)的增加而增加,但增加速率呈下降趨勢;模型所占儲存空間的大小、訓練一個epoch耗費的時間與節(jié)點個數(shù)呈正相關(guān).
移動端模型需滿足模型尺寸小、模型計算復雜程度低、耗電量低等條件.為了滿足室內(nèi)行人模式識別/場景感知的實時性、高效性和準確性,模型最終確定相關(guān)超參數(shù)如表4.
表4? 最優(yōu)模型超參數(shù)設置
Tab. 4? Optimal model hyperparameter settings
超參數(shù)訓練次數(shù)學習率Bi-LSTM層數(shù)隱藏層節(jié)點數(shù)Dropout
數(shù)值1500.000 121280.5
3.2.3? 模型結(jié)構(gòu)改進及必要性討論
(1)全連接層改進.全連接層層數(shù)以及是否增加激活函數(shù).本文中將注意力機制層輸出結(jié)果作為全連接層的輸入,全連接層具有局部特征整合,實現(xiàn)最終預測分類的作用,會對數(shù)據(jù)特征的選取以及模型的準確度造成影響.因此設置實驗不變量:學習率為0.000 1,Bi-LSTM網(wǎng)絡層數(shù)為2層,隱藏層節(jié)點數(shù)為128,epoch為150,設置A1、B1、C1、D1組別,對全連接層的層數(shù)和是否增加激活函數(shù)進行對比試驗討論,具體如表5.
對比實驗結(jié)果顯示,神經(jīng)元個數(shù)越增加,模型越復雜,模型大小與訓練時間均增加;全連接層數(shù)增加,模型非線性表達能力提高,提高了模型的學習能力.雖然D1組模型在模型大小以及訓練時間上不是最優(yōu)選擇,但其行人模式識別的準確度為96.48%,較其他組別模型有較大提升.
(2)消融實驗.為了進一步驗證結(jié)合注意力機制和Bi-LSTM模型在室內(nèi)行人模式識別上的優(yōu)勢,探究模型架構(gòu)中各部分所起的作用,在上文確定的超參數(shù)的基礎上,加入多組消融實驗分析模型各個模塊對整體模型性能的影響程度.消融實驗步驟如下:1)A2組設置網(wǎng)絡結(jié)構(gòu)為單向,不引入注意力機制,模型其余超參數(shù)不變;2)B2組設置網(wǎng)絡結(jié)構(gòu)為雙向,不引入注意力機制,模型其余超參數(shù)不變;3)C2組設置網(wǎng)絡結(jié)構(gòu)為單向,引入注意力機制,模型其余超參數(shù)不變;4)D2組為本文網(wǎng)絡結(jié)構(gòu),將注意力機制與Bi-LSTM相結(jié)合.消融實驗分組及實驗結(jié)果如表6.
由表6可知,B2組相較于A2組將LSTM網(wǎng)絡結(jié)構(gòu)變?yōu)殡p向,準確度上升了5.73%,模型大小增加了321 kB,每個epoch訓練時間增加了1.53 s;C2組相較于A2組引入注意力機制,準確度上升了4.73%,模型大小增加了286 kB,每個epoch訓練時間增加了1.06 s;本文所提出的完整模型D2組相較于A2組,雖然模型大小與訓練時間不是最優(yōu),但每個epoch訓練時間僅增加了2.45 s,在實際應用中細分到每個滑動窗口增加的預測時間可忽略不計,其準確度上升了8.57%,得到大幅增加.通過將D2組與B2 、C2組對比可得,使用Bi-LSTM網(wǎng)絡結(jié)構(gòu)和引入注意力機制均可增加行人模式識別準確度,這在一定程度上反映了在室內(nèi)行人模式識別中Bi-LSTM通過雙向處理時序數(shù)據(jù)的特性,更能充分挖掘數(shù)據(jù)深層次的特征,提高數(shù)據(jù)的利用率;引入注意力機制后將樣本數(shù)據(jù)的關(guān)鍵信息突出,使得網(wǎng)絡能夠更有效地學習數(shù)據(jù)的相互關(guān)系,提升了模型的準確度與魯棒性.綜上所述,本文充分發(fā)揮了注意力機制與Bi-LSTM網(wǎng)絡結(jié)構(gòu)的優(yōu)勢,使模型在室內(nèi)行人模式識別/場景感知中有效運用.
(3)模型性能驗證.在測試集上對所提模型進行了5次評估,表7給出了分類的混淆矩陣.結(jié)果表明,在行走、爬樓、直梯和扶梯分類中,本文算法對各種行人模式識別的準確度平均為99.32%.
4? 結(jié)? 論
本文以實現(xiàn)室內(nèi)行人聚類與追蹤中的行為模式識別/場景感知為出發(fā)點,提出了一種結(jié)合注意力機制和Bi-LSTM網(wǎng)絡的行人模式識別模型,對室內(nèi)典型的行人模式進行準確識別.通過進行多組對比實驗與消融實驗,對模型參數(shù)進行了最優(yōu)化的組合,實驗結(jié)果表明,與傳統(tǒng)機器學習的方法相比,所提模型準確度提高了7.49%~10.98%,與不同網(wǎng)絡結(jié)構(gòu)的深度學習模型相比準確度平均提高7.36%.并且在構(gòu)建優(yōu)化模型結(jié)構(gòu)時綜合考慮了模型大小與訓練時間,本文提出的模式識別方法能夠?qū)崟r、高效、準確地識別出室內(nèi)行人與位置強關(guān)聯(lián)的典型行為模式,能夠滿足室內(nèi)行人模式識別的需求,為室內(nèi)精準定位追蹤奠定基礎.在未來的工作中,計劃將引入更復雜的手機攜帶模式,使其更加多元化,提高模型的泛化能力與室內(nèi)行人模式識別/場景感知的性能,提供一種應用更廣泛的模型.
參? 考? 文? 獻
[1] ??王竣,王修暉.特征融合的多視角步態(tài)識別研究[J].中國計量大學學報,2017,28(2):234-240.
WANG J,WANG X H.Research on multi-perspective gait recognition using feature fusion[J].Journal of China University of Metrology,2017,28(2):234-240.
[2]楊凱文,李雙群,胡星.顯著性時空特征融合的多視角步態(tài)識別算法[J].現(xiàn)代計算機,2022,28(17):9-15.
YANG K W,LI S Q,HU X.Fusion of salient spatio-temporal features based multi-view gait recognition[J].Modern Computer,2022,28(17):9-15.
[3]楊韞韜,聶勇偉,張青,等.基于RNN和注意力機制的雙向人體姿態(tài)補全方法[J].計算機輔助設計與圖形學學報,2022,34(11):1772-1783.
YANG Y T,NIE Y W,ZHANG Q,et al.Bi-directional human pose completion based on RNN and attention mechanism[J].Journal of Computer-Aided Design & Computer Graphics,2022,34(11):1772-1783.
[4]閆昊雷,李小春,張仁飛,等.融合多尺度注意力和雙向LSTM的行人重識別[J].空軍工程大學學報,2022,23(5):71-76.
YAN H L,LI X C,ZHANG R F,et al.A pedestrian re-ID with multi-scale attention and bidirectional LSTM[J].Journal of Air Force Engineering University,2022,23(5):71-76.
[5]歐群雍,譚同德,袁紅斌.結(jié)合CNN和Bi-LSTM的多行人目標檢測跟蹤方法[J].無線電工程,2022,52(9):1633-1641.
OU Q Y,TAN T D,YUAN H B.Research of detection and tracking method for multiple pedestrians based on CNN and Bi-LSTM[J].Radio Engineering,2022,52(9):1633-1641.
[6]劉宇,江宏毅,王仕亮,等.基于加速度時域特征的實時人體行為模式識別[J].上海交通大學學報,2015,49(2):169-172.
LIU Y,JIANG H Y,WANG S L,et al.Real-time human activity pattern recognition based on time domain features of acceleration[J].Journal of Shanghai Jiao Tong University,2015,49(2):169-172.
[7]衡霞,王忠民.基于手機加速度傳感器的人體行為識別[J].西安郵電大學學報,2014,19(6):76-79.
HENG X,WANG Z M.Human activity recognition based on accelerometer data from a mobile phone[J].Journal of Xian University of Posts and Telecommunications,2014,19(6):76-79.
[8]段小虎,蔣剛,留滄海.基于手機加速度傳感器的人體步態(tài)識別研究[J].傳感器與微系統(tǒng),2021,40(1):30-33.
DUAN X H,JIANG G,LIU C H.Study on human gait recognition based on cell phone acceleration sensor[J].Transducer and Microsystem Technologies,2021,40(1):30-33.
[9]張烈平,匡貞伍,李昆鍵,等.基于加速度傳感器和神經(jīng)網(wǎng)絡的人體活動行為識別[J].現(xiàn)代電子技術(shù),2019,42(16):71-74.
ZHANG L P,KUANG Z W,LI K J,et al.Human activity behavior recognition based on acceleration sensor and neural network[J].Modern Electronics Technique,2019,42(16):71-74.
[10]劉旭,徐正蓺,朱金鑫,等.輔助室內(nèi)定位的關(guān)鍵人體姿態(tài)識別[J].科學技術(shù)與工程,2017,17(12):211-217.
LIU X,XU Z Y,ZHU J X,et al.Key human gesture recognition for assisting indoor positioning[J].Science Technology and Engineering,2017,17(12):211-217.
[11]王玉坤,高煒欣,王征,等.基于加速度傳感器的人體姿態(tài)實時識別[J].計算機工程與設計,2016,37(11):3092-3096.
WANG Y K,GAO W X,WANG Z,et al.Real-time human activity pattern recognition based on acceleration[J].Computer Engineering and Design,2016,37(11):3092-3096.
[12]鄧平,吳明輝.基于機器學習的人體運動姿態(tài)識別方法[J].中國慣性技術(shù)學報,2022,30(1):37-43.
DENG P,WU M H.Human motion attitude recognition method based on machine learning[J].Journal of Chinese Inertial Technology,2022,30(1):37-43.
[13]ZHANG Y S,YANG A R,XIONG C,et al.Feature selection using data envelopment analysis[J].Knowledge-Based Systems,2014,64:70-80.
[14]高麗麗,趙怡焯.基于智能手機的LSTM室內(nèi)定位算法研究[J].計算機仿真,2022,39(9):525-531.
GAO L L,ZHAO Y Z.Research on indoor location algorithm of LSTM based on smart phone[J].Computer Simulation,2022,39(9):525-531.
[15]HAN J W,KAMBER M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰譯.北京:機械工業(yè)出版社,2012.
[16]BHARATI M,RAMAGERI B.Data mining techniques and applications[J].Indian Journal of Computer Science and Engineering,2010,1(4):25-47.
[17]JIANG L X,LI C Q.Scaling up the accuracy of decision-tree classifiers:a naive-bayes combination[J].Journal of Computers,2011,6(7):1325-1331.
[18]QUINLAN J R.Induction of decision trees[J].Machine Learning,1986,1(1):81-106.
[19]BREIMAN L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.
[20]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[21]GAO L Y,YE M Q,LU X J,et al.Hybrid method based on information gain and support vector machine for gene selection in cancer classification[J].Genomics,Proteomics & Bioinformatics,2017,15(6):389-395.
[22]NGUYEN T H,PHAM T P,NGO C Q,et al.A SVM algorithm for investigation of tri-accelerometer based falling data[J].Am J Signal Process,2016,6:56-65.
[23]SCHUSTER M,PALIWAL K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[24]金宸,李維華,姬晨,等.基于雙向LSTM神經(jīng)網(wǎng)絡模型的中文分詞[J].中文信息學報,2018,32(2):29-37.
JIN C,LI W H,JI C,et al.Bi-directional long short-term memory neural networks for Chinese word segmentation[J].Journal of Chinese Information Processing,2018,32(2):29-37.
[25]LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot MultiBox detector[C]//European Conference on Computer Vision.Cham:Springer,2016:21-37.
[26]ZHANG H Y,HUANG H M,HAN H.Attention-based convolution skip bidirectional long short-term memory network for speech emotion recognition[J].IEEE Access,2020,9:5332-5342.
[27]陳海涵,吳國棟,李景霞,等.基于注意力機制的深度學習推薦研究進展[J].計算機工程與科學,2021,43(2):370-380.
CHEN H H,WU G D,LI J X,et al.Research advances on deep learning recommendation based on attention mechanism[J].Computer Engineering & Science,2021,43(2):370-380.
[28]任歡,王旭光.注意力機制綜述[J].計算機應用,2021,41(S1):1-6.
REN H,WANG X G.Review of attention mechanism[J].Journal of Computer Applications,2021,41(S1):1-6.
[29]滕帆.基于氣壓測高的樓層判別方法研究[D].徐州:中國礦業(yè)大學,2019.
[30]王瑋.基于差分氣壓測高的樓層切換和衛(wèi)星定位關(guān)鍵技術(shù)研究[D].北京:北京郵電大學,2018.
[31]魯南,歐陽權(quán),黃俍卉,等.基于注意力機制和多任務LSTM的鋰電池容量預測方法[J].電氣工程學報,2022,17(4):41-50.
LU N,OUYANG Q,HUANG L H,et al.Capacity prediction of lithium-ion batteries based on multi-task LSTM with attention mechanism[J].Journal of Electrical Engineering,2022,17(4):41-50.
[32]馬曉偉.基于雙向LSTM模型的英語語法錯誤檢測[J].信息技術(shù),2022,46(9):56-60.
MA X W.English grammar error detection based on bidirectional LSTM model[J].Information Technology,2022,46(9):56-60.
Indoor pedestrian pattern recognition based on bidirectional long short-term memory network and attention mechanism
Liang Yujiea, Cui Boa,b
(a. Artificial Intelligence; b. Hebei Key Laboratory of Industrial Intelligent Perception North China University of Science and Technology, Tangshan 063210, China)
Abstract: In indoor space, accurate pedestrian pattern recognition/scene perception, especially the recognition/perception associated with location, is of great significance for pedestrian gathering or tracking. Aiming at the problems of traditional machine learning methods such as difficulty in feature extraction, low classification accuracy, and large recognition errors caused by abnormal behaviors, this paper proposes an indoor real-time pedestrian pattern recognition model based on attention mechanism and bidirectional long short-term memory(Bi-LSTM) network. The Bi-LSTM network was established to extract the temporal characteristics of the pedestrian mode in the sliding window, evaluate the performance and timeliness of the model network structure, optimize the number of Bi-LSTM layers and the number of hidden layer nodes, and determine the optimal network structure. In order to reduce the influence of noise data on the model and improve the ability of the network over screen information features, the attention mechanism is introduced to optimize the weight parameters of the extracted temporal features. The experimental results show that compared with the traditional machine learning algorithm, the accuracy of pedestrian pattern recognition in the optimized Bi-LSTM network is improved by 6.37% on average. After further introducing the attention mechanism, the accuracy of pedestrian pattern recognition is improved by 9.21% on average, and the final accuracy can reach 99.32%. The proposed model can effectively classify the pedestrian mode/scene perception, and provide method support for accurate indoor positioning and tracking.
Keywords: pedestrian pattern recognition; sliding window; temporal feature; Bi-LSTM; mechanism of attention
[責任編校? 陳留院? 趙曉華]