王金甲 楊中玉
(燕山大學(xué)信息科學(xué)與工程學(xué)院 秦皇島 066004)
?
基于特征融合進(jìn)行活動識別的DCNN方法①
王金甲②楊中玉
(燕山大學(xué)信息科學(xué)與工程學(xué)院 秦皇島 066004)
研究了輸入是可穿戴傳感器獲得的多通道時間序列信號,輸出是預(yù)定義的活動的活動識別模型,指出活動中的有效特征的提取目前多依賴于手工和淺層特征學(xué)習(xí)結(jié)構(gòu),不僅復(fù)雜而且會導(dǎo)致識別準(zhǔn)確率下降;基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)不是對時間序列信號進(jìn)行手工特征提取,而是自動學(xué)習(xí)最優(yōu)特征;目前使用卷積神經(jīng)網(wǎng)絡(luò)處理有限標(biāo)簽數(shù)據(jù)仍存在過擬合問題。因此提出了一種基于融合特征的系統(tǒng)性的特征學(xué)習(xí)方法用于活動識別,用ImageNet16對原始數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,將得到的數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行融合,并將融合數(shù)據(jù)和對應(yīng)的標(biāo)簽送入有監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)中,訓(xùn)練新的系統(tǒng)。在該系統(tǒng)中,特征學(xué)習(xí)和分類是相互加強的,它不僅能處理端到端的有限數(shù)據(jù)問題,也能使學(xué)習(xí)到的特征有更強的辨別力。與其他方法相比,該方法整體精度從87.0%提高到87.4%。
融合特征, 多通道時間序列, 深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN), 活動識別
活動識別在各個領(lǐng)域已經(jīng)有了廣泛應(yīng)用,如機器人學(xué)習(xí)、健康監(jiān)控、智能醫(yī)院、隨境游戲、智能家居等[1]?;顒幼R別主要分為基于視覺的方法、基于無線電的方法和基于傳感器的方法三種類型。基于視覺的方法利用圖像和視頻處理技術(shù)對相機獲得的數(shù)據(jù)進(jìn)行處理,進(jìn)而進(jìn)行活動識別?;跓o線電的方法使用信號的衰減和傳播特性檢測活動系統(tǒng)的覆蓋范圍?;趥鞲衅鞯姆椒?,如加速度計,在活動時對時間序列采樣。相比于其他方式,基于傳感器的方法有三點優(yōu)勢:(1)不必在有限的覆蓋區(qū)域內(nèi)活動。(2)可以使用可穿戴傳感器或者智能手機,這兩種方式廉價并且可廣泛應(yīng)用;(3)與無線電方法不同,不用擔(dān)心因發(fā)送信號對人體健康產(chǎn)生影響。這些優(yōu)點使得基于傳感器的活動識別算法發(fā)展迅速,影響廣泛。
采用可穿戴傳感器的活動識別依賴于傳感器的組合,如加速度計、重力傳感器、磁力傳感器。在國外,可穿戴設(shè)備的活動識別研究已有初步成果。Roggen和Ordonez使用滑動窗對原始數(shù)據(jù)進(jìn)行處理后,分別用模板匹配方法[2]和隱馬爾科夫模型[3]進(jìn)行分類。Cao使用簡單的預(yù)分類策略[4],即通過過采樣方法校正類的不均衡,然后利用數(shù)據(jù)間的順序性對預(yù)測的標(biāo)簽序列進(jìn)行平滑處理來提高其性能,他將所提的方法與支持向量機(support vector machine,SVM)和k近鄰分類器(k-nearest neighbor, KNN)分類進(jìn)行對比,表明了其優(yōu)越性。此外,Bulling使用了均值和協(xié)方差(means and variance, MV)[5],Platz使用了深度置信網(wǎng)絡(luò)(deep belief network,DBN)[6], Yang使用了深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)[7]。在國內(nèi),一般用傳統(tǒng)方法進(jìn)行可穿戴設(shè)備的活動識別。如吳淵使用絕對值和簡單移動平均線處理的方法[8],劉斌選擇四種典型的統(tǒng)計學(xué)習(xí)方法(分別是k-近鄰算法、支持向量機、樸素貝葉斯網(wǎng)絡(luò)以及基于樸素貝葉斯網(wǎng)絡(luò)的AdaBoost算法)分別創(chuàng)建活動識別模型,最后通過模型決策得到最優(yōu)的活動識別模型[9]。在多通道時間序列信號中手工提取特征通常會忽略不同信號之間的相關(guān)性,而深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)方法可以彌補這個不足,但是使用DCNN方法處理有限標(biāo)簽數(shù)據(jù)會出現(xiàn)過擬合問題。受文獻(xiàn)[10]的啟發(fā),本文提出了一種基于融合特征的系統(tǒng)性的特征學(xué)習(xí)方法用于活動識別,該方法采用滑動窗策略將信號轉(zhuǎn)換成新的活動圖像,用ImageNet16對原始數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,將得到的數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行融合,并將融合數(shù)據(jù)和對應(yīng)的標(biāo)簽送入有監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練新的系統(tǒng)。該系統(tǒng)可以自動學(xué)習(xí)最優(yōu)的特征,使學(xué)習(xí)到的特征有更強的辨別力。與獨立時間序列信號或者統(tǒng)計學(xué)特征相比,融合特征可以取得更好的分類結(jié)果。
1.1 ImageNet數(shù)據(jù)集
ImageNet數(shù)據(jù)集是與視覺相關(guān)的分類任務(wù),它包含約1500萬張帶標(biāo)記的高分辨率圖像,近22000類。數(shù)據(jù)集中的圖像是通過搜索引擎檢索到的,是常見的多媒體數(shù)據(jù)。每年都舉行ImageNet分類比賽,即“ImageNet大規(guī)模視覺識別競賽”,與會者選擇這個數(shù)據(jù)集的子集訓(xùn)練分類算法。2014年,Simonyan和 Zisserman訓(xùn)練得到imageNet16模型[11]。
1.2 無監(jiān)督的預(yù)訓(xùn)練
文獻(xiàn)[12]表明在圖像多分類任務(wù)中,封裝表示通常比標(biāo)準(zhǔn)的分類方法好,這和深層網(wǎng)絡(luò)表示相通,在有限標(biāo)記數(shù)據(jù)情況下可以進(jìn)行遷移學(xué)習(xí)。對數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練時,取ImageNet16模型的第36層作為輸出,將得到的數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行融合,再將該數(shù)據(jù)和對應(yīng)的標(biāo)簽送入有監(jiān)督的DCNN分類器,訓(xùn)練新的系統(tǒng)。這樣做的原因如下:第一,深層可以得到豐富的信息。在預(yù)訓(xùn)練模型中,淺層對實驗結(jié)果影響較小,而深層對分類準(zhǔn)確率的影響較大。因此,利用ImageNet16模型中的深層網(wǎng)絡(luò)得到預(yù)訓(xùn)練數(shù)據(jù)而丟棄淺層的特征。第二,融合特征可得到更高的準(zhǔn)確率,如由文獻(xiàn)[13]提出從卷積神經(jīng)網(wǎng)絡(luò)的不同層提取組合信息,網(wǎng)絡(luò)中的不同尺度信息可以共存,稱為多尺度特征提取。深度學(xué)習(xí)中這種方法很常見,它可以跳過層之間的連接,將嚴(yán)格的時序網(wǎng)絡(luò)轉(zhuǎn)換成一個有向無環(huán)圖并對分類結(jié)果產(chǎn)生積極的影響。文獻(xiàn)[14]中有另外一種策略,用卷積神經(jīng)網(wǎng)絡(luò)(CNN)分別對RGB圖像和深度圖像進(jìn)行深度特征提取,轉(zhuǎn)換成單一向量后,將它送入最終的分類器。
本文研究方法流程圖如圖1所示?;谌诤咸卣鞯南到y(tǒng)性的特征學(xué)習(xí)方法用ImageNet16對原始數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,將得到的數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行融合,再將該數(shù)據(jù)和對應(yīng)的標(biāo)簽送入有監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練新的系統(tǒng)。最后用該模型對測試樣本進(jìn)行分類。
圖1 本文方法整體流程圖
(1)
“@”符號前的數(shù)字表示該層特征圖的數(shù)量,“@”后的數(shù)字表示該層一個特征圖的維數(shù);圖中的“F”、“C”、“S”、“U”、“O”分別表示融合操作、卷積操作、池化操作、合并操作和輸出操作。
圖3 合并層示例
為了防止過擬合,得到更準(zhǔn)確的實驗結(jié)果,每次都將卷積操作的結(jié)果送入整流線性單元,即上一層的輸出通過函數(shù)relu(v)=max(v,0),每次進(jìn)行池化后都對數(shù)據(jù)進(jìn)行歸一化。第4層進(jìn)行卷積操作后,也對數(shù)據(jù)進(jìn)行歸一化。論文中的池化層采用最大池化,在一個局部時空鄰域的范圍內(nèi)尋找最大特征圖(通常涉及池化操作)。為了圖文簡潔,圖2和圖3中沒有畫出整流線性單元和歸一化層。
3.1 機會數(shù)據(jù)集
本文在機會數(shù)據(jù)集(opportunity activity recognition dataset)上進(jìn)行實驗, 采集環(huán)境如圖4所示。該數(shù)據(jù)集的活動涉及全身動作,與早餐情景有關(guān),共18類,即空類、開門1、開門2、關(guān)門1、關(guān)門2、開冰箱、關(guān)冰箱、開洗碗機、關(guān)洗碗機、開抽屜1、關(guān)抽屜1、開抽屜2、關(guān)抽屜2、開抽屜3、關(guān)抽屜3、擦桌子、喝水、切換開關(guān)。訓(xùn)練集樣本個數(shù)為136869,測試集樣本個數(shù)為32466??疹愔阜窍嚓P(guān)活動或非活動。取第一名受試者數(shù)據(jù),前兩組活動和演練數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),第三組作為測試數(shù)據(jù)。
圖4 機會數(shù)據(jù)集采集環(huán)境俯視圖
3.2 實驗設(shè)置
在機會數(shù)據(jù)集上進(jìn)行實驗時,CNN的一般操作中參數(shù)依照文獻(xiàn)[15]進(jìn)行選擇,如何選擇最優(yōu)的參數(shù)是一個開放性的問題。我們將所提方法與傳統(tǒng)支持向量機、k近鄰(KNN)分類、深度置信網(wǎng)絡(luò)、深度卷積神經(jīng)網(wǎng)絡(luò)、均值和協(xié)方差比較。支持向量機(SVM)和卷積神經(jīng)網(wǎng)絡(luò)(KNN)在該數(shù)據(jù)集上得到的準(zhǔn)確率較好,深度置信網(wǎng)絡(luò)(deep belief network, DBN)和CNN是新的可用于活動識別的深度學(xué)習(xí)算法。
SVM:基于徑向基函數(shù)(RBF)核的支持向量機作為分類器,支持向量機的輸入是原始時間序列。交叉驗證程序用于調(diào)整支持向量機的參數(shù)。
KNN:對時間序列分類問題進(jìn)行了全面的評價。在基于歐氏距離的簡單KNN算法中,1NN分類效果最好,因此我們將1NN作為分類器。同SVM一樣,1NN算法的輸入是原始時間序列。
MV:均值和方差。與所提出的DCNN方法相似,首先采用滑動窗策略生成新的樣本。然后,提取每個樣本的平均值和方差,構(gòu)成分類器的輸入。采用的分類器是k=1的KNN。
DBN:類似于方法DCNN和MV,首先采用滑動窗策略生成新的樣本。然后,提取每一個樣本的平均值作為DBN的輸入。在該方法中使用的分類器是k=1的KNN或多層感知器神經(jīng)網(wǎng)絡(luò)。
3.3 實驗結(jié)果
本文所提方法和其他方法在機會數(shù)據(jù)集上進(jìn)行實驗,得到的均值F-測度(AF)、歸一化F-測度(NF)和準(zhǔn)確率(AC)如表1所示?;谌诤咸卣鞯纳疃染矸e神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)得到的實驗結(jié)果與SVM、KNN、MV、DBN相比,得到的實驗結(jié)果更好。與CNN方法相比,結(jié)果相當(dāng),得到的準(zhǔn)確率略有提高。實驗證明將深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于人類活動識別行之有效,基于融合的方法可以讓網(wǎng)絡(luò)自動提取更有識別力的特征,提高識別率。
表1 不同方法的實驗結(jié)果
本文所提方法在機會數(shù)據(jù)集上實驗,得到的實驗結(jié)果的混淆矩陣如圖5所示。從結(jié)果可以看出,空閑、開門2、關(guān)門2、切換開關(guān)的識別率較高。實驗者做無關(guān)動作或空閑會對實驗結(jié)果產(chǎn)生很大影響,還不能準(zhǔn)確區(qū)分空類和特定的類,這會導(dǎo)致一些特定的類可能錯分為空類。此問題至今還沒有特別行之有效的方法,有待進(jìn)一步研究。
圖5 機會數(shù)據(jù)集的混淆矩陣
實驗是在一臺普通的裝有Matlab 2014的電腦上運行,電腦的CPU是3.1GHZ,內(nèi)存是4GB。用imageNet16模型預(yù)訓(xùn)練單個樣本所用的時間為7.0s,訓(xùn)練模型所用的時間約為2.0h,測試所有樣本所用的時間為5.7s。文中提到的其他算法所用時間在其文獻(xiàn)中沒有給出,所以沒有進(jìn)行實時性對比。
本文提出了一種基于融合特征的系統(tǒng)性的特征學(xué)習(xí)方法,它可以自動進(jìn)行特征提取,進(jìn)行活動識別,將預(yù)訓(xùn)練得到的數(shù)據(jù)與原始數(shù)據(jù)融合,并建立新的DCNN深度架構(gòu)來研究多通道時間序列數(shù)據(jù)。這種架構(gòu)主要采用卷積和池化操作捕捉傳感器信號在不同時間尺度的顯著模式。系統(tǒng)將所有識別的顯著模式在多個通道進(jìn)行統(tǒng)一,最終映射到不同的活動。所提出的方法的主要優(yōu)點是:(1)用非手工方式提取特征,自動選擇最優(yōu)的特征;(2)提取的特征更具識別力;(3)對過擬合問題有所改善;(4)特征提取和分類都統(tǒng)一在一個模型,其性能是相互增強的。實驗表明,基于融合特征的深度卷積神經(jīng)網(wǎng)絡(luò)方法優(yōu)于其他方法,該方法在人類活動識別問題中可以有效地進(jìn)行特征學(xué)習(xí)和分類。
[1] Alsheikh M A, Selim A, Niyato D, et al. Deep activity recognition models with triaxial accelerometers.ComputerScience, 2015, arxiv: 1511.04664
[2] Roggen D, Cuspinera L P, Pombo G, et al. Limited-memory warping LCSS for real-time low-power pattern recognition in wireless nodes. In: Proceedings of the 12th European Conference Wireless Sensor Networks (EWSN), Porto, Portugal, 2015. 151-167
[3] Ordonez F J, Englebienne G, De Toledo P, et al. In-home activity recognition: Bayesian inference for hidden Markov models.IEEEPervasiveComputing, 2014, 13(3):67-75
[4] Cao H, Nguyen M N, Phua C, et al. An integrated framework for human activity classification.Ubicomp, 2012:331-340
[5] Bulling A, Blanke U, Schiele B. A tutorial on human activity recognition using body-worn inertial sensors.AcmComputingSurveys, 2014, 46(3):57-76
[6] Pl?tz T, Hammerla N Y, Olivier P. Feature learning for activity recognition in ubiquitous computing. In: Proceedings of the International Joint Conference on Artificial Intelligence, Barcelona, Spain, 2011. 1729-1734
[7] Yang J B, Nguyen M N, San P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition. In: Proceedings of the 24th International Joint Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015. 3995-4001
[8] 吳淵, 史殿習(xí), 楊若松等. 手機位置和朝向無關(guān)的活動識別技術(shù)研究. 計算機技術(shù)與發(fā)展, 2016(4):
[9] 劉斌, 劉宏建, 金笑天等. 基于智能手機傳感器的人體活動識別. 計算機工程與應(yīng)用, 2016, 52(4):188-193
[10] Marmanis D, Datcu M, Esch T, et al. Deep learning earth observation classification using imageNet pretrained networks.IEEEGeoscience&RemoteSensingLetters, 2016, 13(1):105-109
[11] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition.arxivpreprint, arxiv: 1409.1556, 2014
[12] Donahue J, Jia Y, Vinyals O, et al. DeCAF: A deep convolutional activation feature for generic visual recognition.ComputerScience, 2013, 50(1): 815-830
[13] Sermanet P, Lecun Y. Traffic sign recognition with multi-scale.ConvolutionalNetworks, 2011, 42(4):2809-2813
[14] Socher R, Huval B, Bhat B, et al. Convolutional-recursive deep learning for 3D object classification.AdvancesinNeuralInformationProcessingSystem, 2012: 665-673
[15] Lecun Y, Bottou L, Orr G B, et al. Efficient BackProp. Neural Networks: Tricks of the Trade. Berlin Heidelberg: Springer, 1998. 9-50
A DCNN method for human activity recognition based on feature fusion
Wang Jinjia, Yang Zhongyu
(School of Information Science and Engineering, Yanshan University, Qinhuangdao 066004)
An activity recognition model, with its input being the multi-channel time series signals obtained by wearable sensors and output being a predefined activity, was studied. It was pointed that extracting effective features from activity is a key in activity recognition. Most of the existing work relies on manual extraction of the features and the shallow learning structure, which makes the work complex and the recognition unaccurate. However, the convolutional neural network (CNN) based on deep learning does not manually extract the time series signals, but automatically learns the best feature. At present, using convolutional neural network to process limited labeled data still has the overfitting problem. Therefore, a systematic feature learning method based on fusion characteristics was presented for activity recognition. The method uses the ImageNet16 to pre-train the original data set to fuse the obtained data with the original data, and puts the fused data and the corresponding tag into a supervised depth convolutional neural network (DCNN) to train the new system. In this system, the characteristics of learning and classification are mutually reinforcing, which can not only deal with the problem of limited data from end to end, but also make the learning more discriminative. Compared with other methods, the overall accuracy of the proposed method is increased from 87% to 87.4%.
fusion feature, multichannel time sequence, deep convolutional neural network (DCNN), activity recognition
10.3772/j.issn.1002-0470.2016.04.007
①國家自然科學(xué)基金(61273019,61473339),河北省自然科學(xué)基金(F2013203368),河北省青年撥尖人才支持項目([2013]17),河北省博士后專項資助(B2014010005)和中國博士后科學(xué)基金(2014M561202)資助項目。
2016-01-07)
②男,1978年生,博士,教授;研究方向:信號處理,模式識別及其應(yīng)用;聯(lián)系人,E-mail: wjj@ysu.edu.cn(