張 琳,易卿武,黃 璐,于乃文
(1.河北科技大學 信息科學與工程學院,河北 石家莊 050018;2.衛(wèi)星導航系統(tǒng)與裝備技術國家重點實驗室,河北 石家莊 050081)
人類活動識別(Human Activity Recognition,HAR)是指利用不同設備收集的數(shù)據(jù),自動對人類運動的類型進行分類,獲取人體需要傳達的信息,從而為物聯(lián)網、智慧城市和人機交互等其他智能應用提供基礎,在人們的日常生活中發(fā)揮著重要的作用。迄今為止,HAR技術已廣泛應用于人類生活的眾多領域,例如:醫(yī)療健康中的跌倒檢測系統(tǒng)[1]、老年人監(jiān)測[2]和疾病預防[3]等;智慧城市中,用于識別和監(jiān)控家庭活動[4]和電力節(jié)能[5]等;道路交通運輸中,用于交通調控[6]和人員限流[7]等。除此之外,HAR技術可以更好地應用在遙感與導航定位領域。文獻[8]提出了一種自適應人類活動識別輔助行人航跡推算(HAA-PDR)定位系統(tǒng),使用基于自編碼器的深度神經網絡識別人類活動,并通過減少PDR的累積誤差進行導航定位的研究。文獻[9]提出了一種基于智能手機的卷積神經網絡(Convolutional Neural Networks,CNN)模型用于人類活動識別的研究,該網絡可以識別9種活動并將其作為室內定位的地標研究行人導航與定位。
傳統(tǒng)的模式識別方法采用統(tǒng)計機器學習模型和人工特征提取,這種方法十分依賴于啟發(fā)式的人工特征提取,不僅會受到領域知識的限制,而且往往只能捕捉到原始輸入信號的淺層特征[10]。鑒于深度學習模型在圖像分類、語音識別、自然語言處理等領域的成功應用,將其轉移到人類活動識別領域是模式識別的一個新的研究方向。文獻[11]采用了一種基于堆棧降噪自編碼器的深度學習方法,利用智能設備上的多個傳感器的數(shù)據(jù)進行人類活動識別。該方法雖然具有較高的精度,但使用的數(shù)據(jù)集活動數(shù)目較少,并不能證明該模型具有良好的泛化能力。文獻[12]提出了一種基于初始神經網絡和遞歸神經網絡相結合的深度學習模型(InnoHAR),使用分離卷積代替?zhèn)鹘y(tǒng)卷積,達到了減少模型參數(shù)的目的。結果表明,效果良好,但模型收斂困難,導致訓練階段浪費大量時間。文獻[13]提出了一種使用LSTM和TCN結合的深度學習的方法進行人類活動識別,但該方法在均衡的數(shù)據(jù)集上會出現(xiàn)過擬合現(xiàn)象,無法進行推廣應用。
針對這些問題,本文提出了基于小波變換和CNN相結合的人類活動識別方法,該方法可以通過小波變換對原始傳感器數(shù)據(jù)分解并重組,在訓練階段使用CNN自動提取適當?shù)奶卣?,并用高級抽象序列呈現(xiàn)低級原始時間特征。實驗結果表明,該模型體系結構簡潔且參數(shù)量較少,模型收斂速度較快,具有良好的泛化能力。
OPPORTUNITY數(shù)據(jù)集[14]是在傳感器豐富的環(huán)境中收集的,它包含了4名受試者在日常生活場景中進行晨間活動的記錄,其中包括17種復雜的手勢和運動模式。不同形式的傳感器已被整合到環(huán)境、物體和身體上,本文僅使用了人體上的傳感器數(shù)據(jù):定制運動夾克中的5個RS485聯(lián)網XSense慣性測量單元,位于每只腳上的2個InertiaCube3慣性傳感器和四肢上的12個藍牙三軸加速度傳感器,每個慣性測量單元由3D加速度計、3D陀螺儀和3D磁傳感器組成,提供多模態(tài)傳感器信息。人體傳感器位置如圖1所示,紫色圓形表示慣性測量單元,紅色正方形表示三軸加速度傳感器,其中“R-SHOE”和“L-SHOE”是2個InertiaCube3慣性傳感器。
(a)慣性測量單元
在記錄過程中,每個受試者進行了5次日?;顒雍?次訓練。每個傳感器軸都被視為一個獨立的通道,因此產生具有113個通道的輸入空間。傳感器的采樣頻率為30 Hz。本文僅關注特定姿態(tài)的識別,因此這是一個18類(包括Null類)的分類問題。OPPORTUNITY數(shù)據(jù)集中包含的活動和數(shù)目如表1所示。
表1 OPPORTUNITY數(shù)據(jù)集中包含的活動和數(shù)目
OPPORTUNITY數(shù)據(jù)集收集佩戴在受試者身上的無線傳感器實測數(shù)據(jù),在數(shù)據(jù)采集過程中可能會丟失一些數(shù)據(jù),丟失的數(shù)據(jù)通常用NaN/0表示,本文采用線性插值算法來填補缺失值。
為了在保持原始數(shù)據(jù)不變的情況下實現(xiàn)端到端的人類活動識別模型,并最大限度地減少前期的預處理工作,實驗使用了來自OPPORTUNITY數(shù)據(jù)集有關人體運動傳感器收集的113個傳感器數(shù)據(jù)通道。模型的輸入由原始傳感器數(shù)據(jù)中提取的短時間序列數(shù)據(jù)組成,在數(shù)據(jù)采集過程中,數(shù)據(jù)是連續(xù)記錄的。為了保持活動中數(shù)據(jù)點之間的時間關系,使用重疊率為50%的滑動窗口對運動傳感器收集的數(shù)據(jù)進行分割,獲取更多的樣本數(shù)據(jù),如圖2所示。本文實驗使用固定長度為24,重疊率為50%的滑動窗口,即步長設置為12,對運動傳感器收集的數(shù)據(jù)進行分段,共獲得9 984條測試數(shù)據(jù)。
圖2 使用滑動窗口預處理傳感器波形數(shù)據(jù)
使用深度學習方法進行人類活動識別流程如圖3所示。本文提出的Wavelet-CNN 模型的整體網絡架構共8層。首先,使用小波變換將預處理后的數(shù)據(jù)分解為低頻和高頻分量用于提取時間特征,并將二者重新組合輸入到訓練模型中。然后依次通過4個卷積層(Convolutional Layer)提取空間特征,并加入2個最大池化層(Max-pooling Layer)以幫助網絡更好地消除噪聲的干擾。在Wavelet-CNN模型的最后,經過2個全連接層(Fully Connected Layer)獲得模型的輸出,實現(xiàn)人類活動識別。
圖3 深度學習方法實現(xiàn)人類活動識別流程
小波(Wavelet)信號是一類衰減較快的波動信號,其能量有限,且相對集中在局部區(qū)域。使用有限長的會衰減的小波基不僅能夠獲取頻率,還可以定位到時間位置,因而能有效地從信號數(shù)據(jù)中提取小波變換空間(時間)和頻率的局部變換信息。通過伸縮和平移等運算功能可對本實驗中傳感器的波形數(shù)據(jù)進行多尺度的細化分析。小波變換可以由粗到細地逐步觀察波形數(shù)據(jù),具有更好的視頻窗口特性,且參數(shù)較少,并不參與到深度學習的模型訓練過程中,故對模型精度的提高有較好的效果。本實驗將預處理后經過滑動窗口分割的波形數(shù)據(jù)使用Haar小波[13]變換分解為低頻和高頻成分,然后將低頻和高頻成分組合作為網絡模型的輸入數(shù)據(jù)。
CNN能夠從圖像或者語音中學習獨特的表示,提取具有空間關系的特征,受到廣泛的關注[15]。通過卷積層對輸入數(shù)據(jù)進行多次卷積運算,結合式(1)所示的非線性激活函數(shù)激活實現(xiàn)多層矩陣運算,得到想要的代表性特征:
(1)
池化層則負責對卷積層生成的特征圖進行下采樣操作[16],本文使用了最大池化層從每個輸入塊中輸出最大值:
川系火鍋是我們最常見的火鍋類型,我想,提起火鍋一半人想到的是麻辣,另一半人想到的就是川渝。川系火鍋一般認為分為四川火鍋、重慶火鍋、魚頭火鍋以及串串香。
(2)
在經過卷積和最大池化操作之后,最后一個卷積和最大池化層生成的特征映射被展平為一個一維向量fl=[f1,f2,…,fl],其中l(wèi)為最后一個池化層中的節(jié)點數(shù)。然后將其作為輸入送到全連接層中,其中池化層的輸出為:
(3)
本文中,對于每個CNN層和全連接層應用ReLU計算特征映射,其非線性函數(shù)定義為:
ReLU=f(x)=max(0,x)。
(4)
為防止深度神經網絡中權值過大導致的過擬合問題,在Wavelet-CNN網絡模型中加入Dropout層。Dropout會為了防止模型過擬合,在輸入和輸出時隨機丟棄一些節(jié)點。此外,本文還應用了權重衰減:
(5)
一般來說,使用的卷積核越多,就越能挖掘出輸入樣本中的隱藏特征。在Wavelet-CNN中有4個卷積層,在第1個卷積層中使用128個卷積核進行特征提取,在第2個卷積層中使用256個卷積核對上層輸出的特征進行更深層次的特征提取,第3個和第4個卷積層分別使用的卷積核個數(shù)為128和64。4個卷積層中的卷積核大小均為1×3,步長均為1。在第2個和第3個卷積層后面均有一個最大池化層,用于執(zhí)行下采樣操作。最大池化層使用2×2的過濾器,步長為2。使用最大池化層的目的主要有2個:一是在保持主要特征的同時減少參數(shù),二是對人體無意識抖動引起的干擾噪聲進行濾波操作。最后,經過2個神經元個數(shù)為512和18的全連接層獲得模型的輸出,實現(xiàn)Wavelet-CNN網絡的分類,如圖4所示。
圖4 Wavelet-CNN網絡
基于人類活動識別技術研究中廣泛使用的公共數(shù)據(jù)集OPPORTUNITY開展3部分試驗。首先,通過改變模型結構驗證所提出的Wavelet-CNN模型的合理性,采用F1-Score進行統(tǒng)一評價,以確保后續(xù)比較結果的一致性;然后,采取均方誤差(MES)和交叉熵損失函數(shù)(Loss)等評價方法驗證Wavelet-CNN的模型性能;最后,為了驗證Wavelet-CNN模型分類性能的競爭力,將其與相關學者提出的最新的識別模型進行了比較,并討論實驗結果。
本文用Keras來建立Wavelet-CNN網絡模型。Keras是一個由Python編寫的開源人工神經網絡庫,可以作為Tensorflow,Microsoft-CNTK和Theano的高階應用程序接口,進行深度學習模型的設計、調試、評估、應用和可視化。模型訓練和分類使用的電腦處理器配置為i7-5500U,CPU2.40 GHz,RAM12 GB,并安裝了64位的Ubuntu操作系統(tǒng)。采用Loss來測量預測值與真實值之間的誤差。為了提高效率,在訓練階段,Batch size設置為256,迭代次數(shù)設置為80,Dropout設置為0.5。此外,采用0.001的學習率來提高擬合能力,并設置策略為每間隔5次迭代,學習率衰減為原來的0.75倍。本文對訓練集的順序進行了隨機打亂,以此來提高模型的魯棒性。所選超參數(shù)如表2所示。
表2 Wavelet-CNN模型超參數(shù)設置
(6)
式中,wi=ni/N為第i類樣本的比例;ni為第i類樣本的數(shù)量;N為樣本總數(shù)。
首先,本文分別構建了4種模型架構(A,B,C和Wavelet-CNN)進行對比,討論了幾種網絡結構對模型性能的影響,如表3所示。實驗基于OPPORTUNITY數(shù)據(jù)集,在模型訓練過程中通過多次迭代測試調整參數(shù)取值范圍得到最優(yōu)參數(shù),并通過模型參數(shù)的個數(shù)和測試集上的F1分數(shù)來評價分類結果。
表3 幾種網絡模型對性能的影響
模型A為經典的CNN架構,在最后一層卷積之后緊接著一個全連接層,用來綜合上層提取的特征。隨著迭代次數(shù)的增加,訓練模型精度和召回率趨于平穩(wěn),此時模型A的F1分數(shù)為78.72%,模型參數(shù)有75 218個。在模型B中增加了2個卷積層,參數(shù)數(shù)量顯著增加,F(xiàn)1分數(shù)提高了3.54%,證明增加卷積層可以提高F1分數(shù)。模型C中繼續(xù)增加2個卷積層,此時一共有6個卷積層,可以看出參數(shù)數(shù)量明顯增加,但F1分數(shù)卻降低了,這是由于參數(shù)數(shù)量過大導致模型過擬合,驗證了使用4個卷積層的可行性。模型Wavelet-CNN在模型B的基礎上增加了小波變換,原始數(shù)據(jù)經過預處理后,使用Haar小波變換分解為低頻和高頻成分,然后將低頻和高頻成分組合作為輸入數(shù)據(jù),并在結構上調整網絡模型,增加到2個最大池化層,并增加了2個全連接層,減少過擬合問題,提高了模型的精度。最后,Wavelet-CNN的F1分數(shù)達到了91.65%。由此可以看出,增加小波分析后的Wavelet-CNN能夠有效提高模型的分類能力。
MSE表示真實值yt與預測值y′t差值平方的期望,MSE值越小,證明模型預測效果越好:
(7)
Loss用來判定真實值與預測值的接近程度,數(shù)值越小表示越相近,模型的預測效果越好。
(8)
式中,M為類別的數(shù)量;yic為變量(0或1),如果樣本i的預測類別和真實類別相同(等于c)就是1,否則是0;pic為對于觀測樣本i屬于類別c的預測概率。然后,在衡量標準上,分別采用了MSE,Loss和F1分數(shù)評價Wavelet-CNN模型的性能,如圖5所示。
(a)Wavelet-CNN模型隨迭代次數(shù)的F1分數(shù)變化圖
從圖5(a)中可以看出,隨著迭代次數(shù)的增加,識別的準確率也持續(xù)增加。Wavelet-CNN增長較快且最終達到90%左右。由圖5(b)和圖5(c)可以得知,Wavelet-CNN模型隨著迭代次數(shù)的增加,Loss逐漸穩(wěn)定在0.2左右,MSE穩(wěn)定在11.5左右,模型取得了良好的預測效果。
最后,為了進一步比較Wavelet-CNN的分類性能,本文將Wavelet-CNN模型與文獻[10]提出的CNN模型、文獻[18]提出的baseline CNN模型和DeepConvLSTM模型以及文獻[19]提出的DNN模型和LSTM-F模型在OPPORTUNITY數(shù)據(jù)集下對人類活動的識別能力進行深入比較,所有結果均采用F1分數(shù)進行驗證,以確保后續(xù)比較結果的公平性和一致性。不同模型性能的比較結果如圖6所示。
圖6 不同模型的性能對比
從圖6可以看出,Wavelet-CNN模型與文獻[10]提出的CNN模型相比,在OPPORTUNITY數(shù)據(jù)集上的F1分數(shù)提高了約6.5%,且明顯優(yōu)于文獻[18]提出的baseline CNN以及DeepConvLSTM模型。與文獻[19]提出的模型相比,Wavelet-CNN模型對人類活動的識別能力有較大優(yōu)勢,證明了Wavelet-CNN方法在OPPORTUNITY數(shù)據(jù)集上具有較好的性能表現(xiàn)。
總體來講,本文提出的Wavelet-CNN模型不僅優(yōu)化了原始數(shù)據(jù)的輸入方式,而且簡化了模型的結構。在人類活動識別技術中,能夠實現(xiàn)高達91.65%的識別精度,具有較好的分類性能和泛化能力。
本文提出了一種將小波變換和CNN相結合的網絡結構,在人類活動識別技術中實現(xiàn)了較高的分類精度。其中,利用小波變換的方式,在空間(時間)和頻率上對數(shù)據(jù)集進行了局部變換,有效地從信號數(shù)據(jù)中提取細粒度的代表性信息,并通過CNN提取深層次特征,加入最大池化層對人體無意識抖動引起的干擾噪聲進行濾波操作,大大提高了模型的分類性能。最后,為了比較提出模型的分類性能和泛化能力,在OPPORTUNITY公共數(shù)據(jù)集上,與最新文獻提出的模型進行了對比分析,本文提出的模型實現(xiàn)了91.65%的F1分數(shù),驗證了模型的有效性,證明了提出的小波變化卷積網絡Wavelet-CNN模型在人類活動識別上有較高的識別能力。然而,本文所使用的OPPORTUNITY公共數(shù)據(jù)集中未包含上下樓梯等復雜類活動,且現(xiàn)實生活中的數(shù)據(jù)總是在不斷生成的,如何增強模型對復雜活動的識別能力,提高模型的在線能力和增量學習功能,將是下一步研究工作的重點。