李智敏 劉一鵬 鄭海峰 馮心欣
?
LSTM遞歸神經(jīng)網(wǎng)絡(luò)人體活動(dòng)行為識(shí)別算法研究
李智敏 劉一鵬 鄭海峰 馮心欣
(福州大學(xué)物理與信息工程學(xué)院,福州 350116)
為克服支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)算法在人工提取數(shù)據(jù)特征時(shí)特征提取不充分和信息丟失的問題,本文提出基于長(zhǎng)短期記憶(LSTM)的遞歸神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對(duì)人體活動(dòng)行為模式的識(shí)別。本文提出的算法不僅能充分提取所收集到的人體活動(dòng)行為數(shù)據(jù)的時(shí)間特性,還可有效避免傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的梯度消失問題,從而提高了人體活動(dòng)行為識(shí)別的準(zhǔn)確性。本文使用WISDM數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,并采用交叉驗(yàn)證的方法對(duì)所提出的模型進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在識(shí)別人體活動(dòng)行為時(shí)相比較于SVM等機(jī)器學(xué)習(xí)算法提升了識(shí)別的精確度。
遞歸神經(jīng)網(wǎng)絡(luò);LSTM;活動(dòng)行為識(shí)別;移動(dòng)感知
近年來,手機(jī)、平板電腦、智能手環(huán)等可移動(dòng)設(shè)備成為人們生活中越來越重要的一部分,可移動(dòng)設(shè)備具有隨身攜帶的特性,利用可移動(dòng)設(shè)備上的傳感器可以收集許多用戶的個(gè)人數(shù)據(jù)。利用這些收集的數(shù)據(jù)可以分析人們的日常生活行為[1]。本文使用可移動(dòng)設(shè)備上傳感器收集的加速度數(shù)據(jù)對(duì)人體日?;顒?dòng)行為進(jìn)行識(shí)別(行走,慢跑,上下樓梯等)。分析的結(jié)果可以用于眾多應(yīng)用,包括根據(jù)用戶現(xiàn)在的狀態(tài)或者用戶的習(xí)慣,手機(jī)設(shè)備智能定制服務(wù)。比如,若用戶經(jīng)常慢跑,則可為其推薦慢跑鞋等運(yùn)動(dòng)裝備,或者根據(jù)一周的運(yùn)動(dòng)量,提醒用戶是否運(yùn)動(dòng)太少。目前行為識(shí)別算法主要包括隨機(jī)森林(random forests)[2-3],支持向量機(jī)(support vector machine, SVM)[4-5],K近鄰法(K-NN)[6-7]等機(jī)器學(xué)習(xí)方法,以及基于BP(back propagation)神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法[8]。
在對(duì)手機(jī)加速度序列數(shù)據(jù)進(jìn)行處理時(shí),上述方法在人體活動(dòng)行為識(shí)別時(shí)都存在著一些缺點(diǎn)。例如,隨機(jī)森林方法在噪聲較大的分類問題上很容易出現(xiàn)過擬合現(xiàn)象;K近鄰法需要大量的歷史數(shù)據(jù),而過多的歷史數(shù)據(jù)造成計(jì)算量大;SVM算法在識(shí)別活動(dòng)行為時(shí)不能直接對(duì)加速度數(shù)據(jù)進(jìn)行處理,需人工提取數(shù)據(jù)特征;BP神經(jīng)網(wǎng)絡(luò)輸入僅取決于當(dāng)前時(shí)刻輸入,沒有充分利用加速度時(shí)間序列,造成識(shí)別結(jié)果準(zhǔn)確率不高。相比較于BP神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)中包括遞歸結(jié)構(gòu)使得神經(jīng)元的狀態(tài)不只取決于當(dāng)前時(shí)刻輸入,還取決于之前時(shí)刻的輸入,神經(jīng)元將輸入的數(shù)據(jù)信息部分保存下來,在處理下一時(shí)刻數(shù)據(jù)時(shí),前一時(shí)刻保存的數(shù)據(jù)仍起作用,形成前后文之間的聯(lián)系。這樣的結(jié)構(gòu)使得RNN十分適合處理時(shí)間序列數(shù)據(jù)[9]。
遞歸神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)算法,其內(nèi)部包含循環(huán)結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元不只與上下層的神經(jīng)元相連接,還與本層神經(jīng)元相連接。神經(jīng)元的計(jì)算結(jié)果輸出不僅取決于當(dāng)前時(shí)刻的輸入和歷史輸入,而且這樣結(jié)構(gòu)使得遞歸神經(jīng)網(wǎng)絡(luò)可以利用其時(shí)間特性進(jìn)而有效地分析時(shí)間序列數(shù)據(jù)。如圖1所示,圖1中為展開的RNN神經(jīng)網(wǎng)絡(luò),之前時(shí)刻的輸入012X-1都會(huì)對(duì)X時(shí)刻的神經(jīng)元狀態(tài)造成 影響。
圖1 遞歸神經(jīng)網(wǎng)絡(luò)展開圖
在實(shí)際問題中傳統(tǒng)RNN也存在一些缺點(diǎn),傳統(tǒng)模型會(huì)在模型訓(xùn)練的時(shí)候遇到較為嚴(yán)重的梯度消失問題,造成在時(shí)間序列較長(zhǎng)時(shí)神經(jīng)網(wǎng)絡(luò)無法訓(xùn)練的問題。為了解決這個(gè)問題,最早由Hochreiter等人提出了LSTM(long short term memory)基礎(chǔ)結(jié)構(gòu)的理論[10],以改進(jìn)傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的神經(jīng)元結(jié)構(gòu),實(shí)現(xiàn)對(duì)之前輸入信息的記憶。
LSTM通過增加一種稱為“門”的結(jié)構(gòu)來管理LSTM模塊信息的輸入和輸出,這是一種讓信息選擇式通過的方法,如圖2所示。其中Cell部分負(fù)責(zé)記錄神經(jīng)元狀態(tài),而輸入門(input gate)和輸出門(output gate)在參數(shù)輸入和輸出時(shí)起到選擇通過的信息量。遺忘門(forget gate)負(fù)責(zé)選擇性遺忘時(shí)間窗之前的信息量。這種特殊的結(jié)構(gòu)使得Cell值更新較慢,方便累計(jì)之前的輸入信息不被替換,而輸出值變化較快,可以對(duì)新輸入的值做出反應(yīng)。
圖2 LSTM結(jié)構(gòu)圖
本文提出一個(gè)端對(duì)端的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)可移動(dòng)設(shè)備所收集到的加速度數(shù)據(jù)進(jìn)行分析,使用LSTM對(duì)所收集到的加速度數(shù)據(jù)進(jìn)行特征提取,之后利用全連接層進(jìn)行回歸分類。本文所提出的基于LSTM的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括5層結(jié)構(gòu),其中包括兩層LSTM層,兩層全連接層和輸出層,如圖3所示。
圖3 基于LSTM的行為識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)示意圖
本文所提出的深度學(xué)習(xí)結(jié)構(gòu)主要包括兩部分:①特征提取部分;②映射回歸部分。第①部分包括兩層LSTM層,其中第一層LSTM層有200個(gè)神經(jīng)元實(shí)現(xiàn)對(duì)加速度數(shù)據(jù)的特征進(jìn)行提取。輸入數(shù)據(jù)為加速度序列數(shù)據(jù),本文在處理數(shù)據(jù)時(shí)選用時(shí)間步長(zhǎng)為200。本文將收集到的加速度時(shí)間序列數(shù)據(jù)切割成局部時(shí)間序列,并對(duì)數(shù)據(jù)進(jìn)行歸一化處理,將其映射到(0, 1)區(qū)間。
本文將加速度序列數(shù)據(jù)表示為=(0,1,2,3,, I-1),并提取的時(shí)間維特征表示為=(0,1,2,3,, T-1)。第一層中LSTM神經(jīng)元首先執(zhí)行Forget Gate決定從上一時(shí)刻單元狀態(tài)中丟棄哪一部分信息。其次神經(jīng)元需要決定在所輸入的加速度時(shí)間序列數(shù)據(jù)中保存哪些信息,先由Input Gate決定LSTM模塊中哪些值被更新,接著用一個(gè)tanh激活函數(shù)根據(jù)這一時(shí)刻的加速度數(shù)據(jù)和上一時(shí)刻的LSTM模塊輸出創(chuàng)建一個(gè)中間狀態(tài)向量S。再對(duì)Cell 值進(jìn)行更新,F(xiàn)orget Gate值與-1時(shí)刻的Cell值相乘得到上一時(shí)刻所保存下來的值,Input Gate值與tanh函數(shù)所生成的狀態(tài)向量相乘得到Cell新增加的值,這兩個(gè)值相加為更新后的Cell值。最后計(jì)算輸出T。這一過程需先計(jì)算Output Gate的值,然后與Cell值通過激活函數(shù)tanh函數(shù)所得出的結(jié)果相乘得到最后的LSTM輸出。輸出只與當(dāng)前Cell值有關(guān),與之前Cell值無關(guān),而當(dāng)前Cell值取決于之前的Cell值。
LSTM在處理序列數(shù)據(jù)時(shí),每個(gè)時(shí)間點(diǎn)都會(huì)有相應(yīng)的輸出。時(shí)間步長(zhǎng)為200的時(shí)間序列輸入到第一層LSTM之中,每個(gè)點(diǎn)都會(huì)輸出時(shí)間步長(zhǎng)為200的序列,所以第一層輸出為數(shù)據(jù)特征值矩陣。其中第一維為時(shí)間步長(zhǎng),第二維表示第一層中總共的神經(jīng)元個(gè)數(shù),輸出矩陣為
與第一層LSTM結(jié)構(gòu)所不同的是第二層只返回LSTM最后輸出值。第二層所返回的值為所提取的時(shí)間特征值,所提取的特征向量具有150個(gè)元素,表示第二層150個(gè)神經(jīng)元對(duì)時(shí)間窗內(nèi)信息分析所提取的特征數(shù)據(jù),作為第一部分的輸出。輸出向量為
每一層LSTM結(jié)構(gòu)后都有一個(gè)Dropout結(jié)構(gòu),Dropout可隨機(jī)刪除神經(jīng)網(wǎng)絡(luò)中的某些隱藏層節(jié)點(diǎn),但保留節(jié)點(diǎn)的權(quán)重,方便下次樣本輸入時(shí)再工作,利用Dropout可有效避免過擬合現(xiàn)象,本文將Dropout比重設(shè)置為0.2。
第②部分中包括兩層全連接層和輸出層。全連接層將第①部分所學(xué)習(xí)到的數(shù)據(jù)特征映射到樣本標(biāo)記空間。第①部分輸出的數(shù)據(jù)特征信息輸入到全連接層之中,經(jīng)過全連接層降維映射最后到達(dá)輸出層。全連接層選用Relu(rectified linear units)激活函數(shù),上一層輸出通過線性組合后進(jìn)入激活函數(shù)之中,Relu的單側(cè)抑制性,可以將一部分神經(jīng)元設(shè)置為零,增加稀疏激活性,減少了參數(shù)之間的依存關(guān)系,緩解了過擬合問題。全連接層中每個(gè)神經(jīng)元都與上一層所有輸出神經(jīng)元相連接,最后由輸出層進(jìn)行Softmax回歸。本文有6類行為用于識(shí)別,最后由輸出層輸出分類結(jié)果。其中激活函數(shù)Relu如下公式所示:
模型采用有監(jiān)督訓(xùn)練,如圖3所示,框架是一個(gè)串行結(jié)構(gòu),上一層輸出為下一層輸入,按批次將時(shí)間序列數(shù)據(jù)輸入到模型之中,經(jīng)過模型處理后得出相應(yīng)的回歸結(jié)果。并與實(shí)際值作比較,利用損失函數(shù)計(jì)算分析結(jié)果與實(shí)際之間的差距。本文采用均方誤差函數(shù)(MSE, mean square error)作為損失函數(shù)。具體公式如下:
訓(xùn)練過程中,先計(jì)算數(shù)據(jù)的損失函數(shù)梯度,然后使用優(yōu)化算法對(duì)損失函數(shù)進(jìn)行優(yōu)化,以便找到最佳的神經(jīng)元權(quán)重參數(shù)。本文使用RNN網(wǎng)絡(luò)常用的RMSprop優(yōu)化算法,可以進(jìn)行學(xué)習(xí)率自適應(yīng)調(diào)整。RMSprop可以在聯(lián)系之前每一次梯度變化的情況下不斷更新學(xué)習(xí)率,RMSprop算法使用變量MeanSquare(,)來保存第次更新學(xué)習(xí)率時(shí)每個(gè)權(quán)值前一段時(shí)間的梯度平方的平均值,根據(jù)其采用自適應(yīng)學(xué)習(xí)率,不斷優(yōu)化參數(shù),使結(jié)構(gòu)達(dá)到最優(yōu)解。RMSprop具體公式為
本文的活動(dòng)行為識(shí)別算法使用TensorFlow深度學(xué)習(xí)系統(tǒng)進(jìn)行開發(fā)。本文所使用的數(shù)據(jù)集為WISDM(wireless sensor data mining)[11]。數(shù)據(jù)是使用手機(jī)收集的加速度數(shù)據(jù),數(shù)據(jù)集中包括6種傳統(tǒng)活動(dòng)行為的加速度數(shù)據(jù)(行走、慢跑、坐、站立、上樓梯、下樓梯),數(shù)據(jù)的采樣頻率為20Hz,數(shù)據(jù)集中包括2980000個(gè)已標(biāo)記樣本。加速度數(shù)據(jù)包括、、三軸的加速度數(shù)據(jù)。具體加速度數(shù)據(jù)折線圖如圖4至圖9所示,各圖依次為行走、慢跑、坐、站立、上樓梯、下樓梯。其中站立和坐的加速度數(shù)據(jù)較為平穩(wěn),數(shù)據(jù)相差較大,識(shí)別難度較??;上下樓梯行為比較接近,加速度數(shù)據(jù)變化十分相似,這兩類比較容易混淆;慢跑加速度波動(dòng)劇烈,頻率快;走路的加速度變化趨勢(shì)比慢跑平緩。
本文將不同算法在相同數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn),測(cè)試環(huán)境為Ubuntu 16.04,CPU為i7-4790。由于上下樓梯的行為相近,加速度變化也比較類似,因此在實(shí)驗(yàn)中將上樓梯和下樓梯合并為同一類。本文通過與隨機(jī)森林、SVM、K-NN、BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比,證實(shí)所提出基于LSTM的深度神經(jīng)網(wǎng)絡(luò)算法在準(zhǔn)確率上有一定的提升。
圖4 行走時(shí)加速度折線圖
圖5 慢跑時(shí)加速度折線圖
圖6 坐時(shí)加速度折線圖
圖7 站立時(shí)加速度折線圖
圖8 上樓梯時(shí)加速度折線圖
圖9 下樓梯時(shí)加速度折線圖
隨機(jī)森林是隨機(jī)建立一個(gè)由無關(guān)聯(lián)的決策樹組成的森林,隨后將加速度樣本數(shù)據(jù)輸入到隨機(jī)森林之中,每一個(gè)決策樹分別進(jìn)行判斷,輸出人體活動(dòng)行為識(shí)別結(jié)果,最后統(tǒng)計(jì)出現(xiàn)次數(shù)最多的結(jié)果為識(shí)別結(jié)果。隨機(jī)森林方法在利用加速度數(shù)據(jù)對(duì)人體行為識(shí)別中的平均識(shí)別率只有76.6%,雖然準(zhǔn)確率略低,但是算法識(shí)別的時(shí)長(zhǎng)最短(156ms)。K-NN在對(duì)加速度數(shù)據(jù)進(jìn)行分類時(shí),尋找加速度歷史數(shù)據(jù)中與被識(shí)別加速度最相似的個(gè)加速度數(shù)據(jù)樣本,將所挑選的個(gè)加速度樣本數(shù)據(jù)中類別標(biāo)記出現(xiàn)次數(shù)最多的類別作為人體活動(dòng)行為識(shí)別的分類結(jié)果。K-NN算法計(jì)算復(fù)雜度高且識(shí)別準(zhǔn)確率過于依賴歷史數(shù)據(jù)的相似性,平均識(shí)別率最低(72.5%),算法識(shí)別的時(shí)長(zhǎng)為2280ms。
BP神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),利用隱含層的多維函數(shù)映射能力將所采集到的加速度數(shù)據(jù)映射到分類結(jié)果。本文設(shè)置3層的隱含層,每層中的神經(jīng)元個(gè)數(shù)為200,將加速度數(shù)據(jù)輸入到BP神經(jīng)網(wǎng)絡(luò)之中進(jìn)行分類回歸,最終的準(zhǔn)確率為88.7%。神經(jīng)網(wǎng)絡(luò)算法相比較于機(jī)器學(xué)習(xí)算法計(jì)算量略大,算法識(shí)別時(shí)長(zhǎng)為191ms。本文所提出的基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)在保留BP神經(jīng)網(wǎng)絡(luò)多維函數(shù)映射能力的基礎(chǔ)上增加了遞歸結(jié)構(gòu)及長(zhǎng)短時(shí)記憶特性,增強(qiáng)了對(duì)加速度數(shù)據(jù)序列的處理能力,充分提取加速度時(shí)間序列的時(shí)間特征。本文所提出的算法識(shí)別時(shí)間為206ms,獲得的平均識(shí)別率最高。算法識(shí)別準(zhǔn)確率見表1。
表1 識(shí)別準(zhǔn)確率對(duì)比
本文使用可移,引入遞歸神經(jīng)網(wǎng)絡(luò)對(duì)用戶活動(dòng)行為進(jìn)行識(shí)別,避免了傳統(tǒng)機(jī)器學(xué)習(xí)方法在人工提取特征時(shí)可能導(dǎo)致的數(shù)據(jù)特征提取不充分和信息量丟失等問題,在處理數(shù)據(jù)時(shí)更好地保存了原始數(shù)據(jù)在時(shí)間上的關(guān)聯(lián)性。利用了遞歸神經(jīng)網(wǎng)絡(luò)在序列數(shù)據(jù)處理中的優(yōu)點(diǎn),可直接對(duì)原始序列數(shù)據(jù)進(jìn)行處理;利用LSTM充分提取數(shù)據(jù)的時(shí)間特征,對(duì)數(shù)據(jù)進(jìn)行分析和處理。本文通過實(shí)驗(yàn)驗(yàn)證了遞歸神經(jīng)網(wǎng)絡(luò)在行為識(shí)別中具有較高的精確度,為了拓展系統(tǒng),下一步會(huì)對(duì)更多的手機(jī)傳感器數(shù)據(jù)進(jìn)行分析和處理,以獲取更多的信息。
[1] Jayita S, Sanjoy C, Nauman A, et al. Designing device independent two-phase activity recognition framework for smartphones[C]//Wireless and Mobile Computing, Networking and Communications, 2017: 41-45.
[2] Nunes U M, Faria D R, Peixoto P. A human activity recognition framework using max-min features and key poses with differential evolution random forests classifier[J]. Pattern Recognition Letters, 2017, 99(SI): 21-31.
[3] Jan J, Petr G, Pavel D, et al. Fast Human Activity Recognition Based on a Massively Parallel Implemen- tation of Random Forest[M]. Intelligent Information and Database Systems. Los Angeles: Springer Berlin Heidelberg, 2016.
[4] Abidine B M, Fergani L, Fergani B A. The joint use of sequence features combination and modified weighted SVM for improving daily activity recognition[J]. Pattern Analysis and Applications, 2018, 21(1): 119- 138.
[5] Chen Zhenghua, Zhu Qingchang, Soh Y C, et al. Robust human activity recognition using smartphone sensors via CT-PCA and online SVM[J]. IEEE Transactions on Industrial Informatics, 2017, 13(6): 3070-3080.
[6] Uslu G, Baydere S. On the activity detection with incomplete acceleration data using iterative KNN classifier[C]//IEEE International Conference on Systems, Man, and Cybernetics, Hungary: IEEE, 2017: 3528-3533.
[7] Sani S, Wiratunga N, Massie S, et al. KNN Sampling for Personalised Human Activity Recognition[M]. Scotland: Springer-Verlag, 2017: 330-344.
[8] Abu Alsheikh M, Niyato D, Lin Shaowei, et al. Mobile big data analytics using deep learning and apache spark[J]. IEEE Network, 2016, 30(3): 22-29.
[9] Vo Q, Nguyen H, Le B, et al. Multi-channel LSTM- CNN model for Vietnamese sentiment analysis[C]// 2017 9th International Conference on Knowledge and Systems Engineering, Vietnam: IEEE, 2017: 1-6.
[10] Greff K, Srivastava R K, Koutnik J, et al. LSTM: A Search Space Odyssey[J]. IEEE Transactions on Neural Networks & Learning Systems, 2017, 28(10): 2222-2232.
[11] Kwapisz J R, Weiss G M, Moore S A, et al. Activity recognition using cell phone accelerometers[J]. Acm Sigkdd Explorations Newsletter, 2011, 12(2): 74-82.
Research on an LSTM recurrent neural network algorithm for human activity recognition
Li Zhimin Liu Yipeng Zheng Haifeng Feng Xinxin
(College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116)
In order to overcome the problem of insufficient feature extraction and lost information incurred by the traditional machine learning based methods such as support vector machine (SVM), we propose a long short-term memory (LSTM) based neural network algorithm to recognize human activity in this paper. The proposed algorithm can not only fully extract time characteristics of human activity data but also effectively avoid the problem of gradient disappearance in traditional recurrent neural network, thus improving the accuracy of human activity recognition. In this paper, the proposed approach is trained and tested by using a WISDM dataset and ievaluated by the cross validation method. Experimental results show that the proposed method can improve the accuracy of recognition when comparing with the other machine learning algorithms such as SVM.
recurrent neural network; LSTM; activity recognition; mobile sensing
2018-06-13
李智敏(1994-),男,福建省莆田市人,碩士研究生,研究方向?yàn)槿褐歉兄W(wǎng)絡(luò)中的數(shù)據(jù)分析。
國(guó)家自然科學(xué)基金項(xiàng)目(61571129)