張 鑫,馮秀芳
(太原理工大學(xué)信息與計算機學(xué)院,山西 晉中 030600)
作為人機交互的核心技術(shù)之一,隨著虛擬現(xiàn)實技術(shù)的發(fā)展,手勢識別已經(jīng)成為當(dāng)前研究的熱點,是智能家居、安全監(jiān)控和虛擬現(xiàn)實等應(yīng)用的核心推動者。其中,無線手勢識別蘊含著巨大的應(yīng)用市場,吸引了大量的研究者進行研究[1]。目前大多數(shù)用來進行手勢識別的系統(tǒng),都需要額外的設(shè)備,通常,需要配備攝像頭(如Leap Motion和Kinect)[2]、傳感器(如Wiimote和Leap Motion)或更昂貴的設(shè)備(如通用軟件無線電外設(shè)USRP(Universal Software Radio Peripheral))等。這些系統(tǒng)能達到較高的估計精度,但都存在各自的缺點,包括隱私泄露、對于傳感器的要求等限制,所以難以進一步推廣。與上述系統(tǒng)相比,無線手勢識別系統(tǒng)無需額外設(shè)備即可工作,同時保護了用戶的隱私,且不受視距LOS(Line Of Sight)、光照條件等限制。這些系統(tǒng)主要基于接收信號強度RSS(Received Signal Strength)和信道狀態(tài)信息CSI(Channel State Information)[3 - 5]完成工作。相比RSS,來自多個子載波的CSI包含更多的細粒度信息,更適合用于手勢識別。WiGeR(WiFi-based Gesture Recognition)系統(tǒng)[4]利用手勢所引起的CSI振幅的波動來完成識別,其識別準(zhǔn)確度在6個場景中的7個手勢中達到了92%。另一種基于CSI的系統(tǒng)WiG(WiFi-based Gesture)[5],在視距內(nèi)(LOS)和非視線內(nèi)(NLOS)的識別準(zhǔn)確度分別為92%和88%。
目前基于無線信號的手勢識別的特征提取,一般是提取其統(tǒng)計特征或者物理特征,然后把它們映射為離散的活動。提取統(tǒng)計特征方法是把無線信號作為時間序列數(shù)據(jù),提取其時域和頻域的波形和分布作為下一步分析的輸入。E-eyes[6]是利用商用WiFi信號強度分布,使用K鄰近KNN(K-Nearest Neighbor) 算法識別人類活動的先鋒之作。Niu等人[7]使用信號波形進行細粒度手勢識別。相對于統(tǒng)計特征,物理特征具有更加明確的物理意義。CARM(CSI-based human Activity Recognition and Monitoring)系統(tǒng)[8]將多普勒頻移DFS(Doppler Frequency Shift)組件的功率分布作為隱馬爾可夫模型HMM (Hidden Markov Model)的學(xué)習(xí)特征。WIMU(WiFi based Multi-User gesture recognition)系統(tǒng)[9]進一步將獲取到的信息細分多普勒頻移DFS功率配置文件作為模型的輸入來進行多人活動的識別。由于WiFi設(shè)備缺乏同步、有限的頻率帶寬和多徑效應(yīng)會產(chǎn)生未知的相位偏移問題,DFS組件需要從USRP等專業(yè)設(shè)備中獲取。WiDance[10]從商用WiFi收集到的CSI中提取DFS組件,用于識別用戶的移動方向。
本文提出一種結(jié)合頻域特征提取和時序建模的CGRU-ELM (Convolutional neural networks & Gated Recurrent Unit-Extreme Learning Machine)混合模型。該模型以CSI中提取出的DFS組件作為輸入,對輸入數(shù)據(jù)進行時頻域的特征提取,最終使用極限學(xué)習(xí)機ELM(Extreme Learning Machine)進行分類,對2種場景下的6種常用人機交互手勢進行識別。
相對于原始CSI的最大值、方差等統(tǒng)計特征,DFS作為能夠反映物體運動相對速度的物理特征,對于動作的映射更加明確。本文通過天線對選擇、數(shù)據(jù)清洗和時頻分析對收集到的原始CSI數(shù)據(jù)進行預(yù)處理,提取出所需要的DFS組件。
CSI是通信鏈路的信道屬性,對環(huán)境的變化十分敏感[11]。CSI包含了時間戳、幀計數(shù)器、接收和發(fā)射天線數(shù)量等信息。每個天線的信號強度指示器RSSI(Received Signal Strength Indicator)、噪聲、自動增益控制、子載波的幅值和相位信息以復(fù)雜矩陣的形式表示。式(1)表示接收到的信號,由發(fā)送方的信號信息和帶噪聲的信道頻響CFR(Channel Frequency Response)組成:
R(f,t)=H(f,t)×T(f,t)
(1)
其中,t表示時間,f表示載波頻率,T(f,t)和R(f,t)分別表示t時刻測得的載波頻率f的發(fā)射信號強度和接收信號強度,H(f,t)為無線信道的CFR。
CSI實際上是CFR在每個子載波上的采樣,它可以表示W(wǎng)iFi通道的變化??紤]多路徑傳播,CFR的表示如式(2)所示:
(2)
其中,n為傳播路徑數(shù),e-j2πΔft為頻率偏移Δf引起的相位差,ai(f,t)和τi(t)分別為第i條路徑中的復(fù)雜衰減因子和傳播延遲。e-j2πfτi(t)表示第i條路徑由τi(t)的傳播延遲產(chǎn)生的相位差。因此,當(dāng)人做手勢運動時,信號的CFR會發(fā)生變化。
多普勒效應(yīng)(Doppler Effect)是觀察者觀察到的波的頻率變化,是由發(fā)射源、接收器和反射器的相對位置變化引起的。一般在非接觸式傳感環(huán)境中,發(fā)射器(源)和接收器都是靜態(tài)部署的,而目標(biāo)物體(反射器)則是移動的。當(dāng)目標(biāo)物體向發(fā)射器和接收器移動時,反射信號的波峰和波谷以更快的速度到達接收器,產(chǎn)生的DFS為正。相反,當(dāng)一個物體遠離接收器時,波峰和波谷到達的速度較慢,DFS為負。因此,可以通過多普勒效應(yīng)來實現(xiàn)對運動行為的識別,本文采用DFS來對手勢行為進行識別。一般情況下,對于接收器來講,被目標(biāo)反射的信號的DFS如式(3)所示:
(3)
其中,λ是信號的波長,s是反射路徑的長度,t為反射時間。
在現(xiàn)實中,信號從發(fā)射器傳播到接收器有多條路徑,這種現(xiàn)象被稱為多徑現(xiàn)象。因此,無線信道在頻率f和時間t處的響應(yīng)是每條單獨路徑的響應(yīng)的疊加,如式(4)所示:
(4)
其中,L為路徑總條數(shù),al(t)和τl(t)分別為第l條路徑的復(fù)合衰減因子和飛行時間。
在第l條路徑上,飛行時間τl(t)是光在路徑長度dl(t)上傳播的時間,即dl(t)=cτl(t),c是光速。因此,根據(jù)式(3),CFR可以用每條路徑上的DFS來表示,并進一步分為靜態(tài)響應(yīng)和動態(tài)響應(yīng)2類,如式(5)所示:
(5)
其中,HS(f)為所有靜態(tài)路徑響應(yīng)的和(fD=0),pd為動態(tài)路徑的集合(fD≠0)。
通過計算2個天線在同一WiFi網(wǎng)卡上的CSI共軛相乘,濾除帶外噪聲和準(zhǔn)靜態(tài)偏移量,可以去除隨機偏移量,僅保留具有非零DFS的突出多徑分量[12]。之后進一步應(yīng)用連續(xù)小波變換,可以得到能量在時間和多普勒頻域上的分布。
Figure 1 Framework of CGRU-ELM model 圖1 CGRU-ELM模型框架
本文提出的CGRU-ELM模型如圖1所示,該模型使用經(jīng)過數(shù)據(jù)預(yù)處理后的DFS組件作為輸入。卷積層對每個時間戳上的頻域信息(即DFS剖面)進行特征提取,提取出的特征向量和時間樣本數(shù)作為門控循環(huán)單元GRU(Gated Recurrent Unit)層的輸入進行時序列建模,最后通過極限學(xué)習(xí)機對其輸出的特征向量進行分類。
卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)是一種具有卷積計算和深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),在提取空間特征和壓縮數(shù)據(jù)上有著顯著的優(yōu)勢,是深度學(xué)習(xí)的典型算法,它在圖像分類、人臉識別和音頻檢索上有著廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層和輸出層組成。卷積層的主要作用是從輸入中提取較為明顯的特征。卷積運算增強了原始信號,降低了噪聲,假設(shè)第K層是卷積層,第j個特征映射向量如式(6)所示:
(6)
池化層繼續(xù)從卷積層輸出的特征圖譜中提取特征,在降低了網(wǎng)絡(luò)維數(shù)的同時保留了局部最優(yōu)特征,其一般形式如式(7)所示:
(7)
本文使用CNN對DFS剖面進行特征提取,一個DFS剖面是維數(shù)為F×M的矩陣,其中,F(xiàn)為頻域采樣點數(shù),M為收發(fā)鏈路數(shù)。CGRU-ELM共設(shè)計2層卷積層和2層池化層,卷積層C1所用的卷積核大小為1×5,對應(yīng)的卷積核層數(shù)為3層,步長為1;C2所用卷積核大小為3×3,對應(yīng)的卷積核層數(shù)為9層,步長為1。池化層P1的池化尺寸為1×4,步長為4;池化層P2的池化尺寸為2×2,步長為2,采用的池化操作均為MAX pooling,激活函數(shù)為ReLU。再通過flatten層將多維輸入一維化,作為后續(xù)全連接層的輸入。之后使用2層全連接層得到多維向量,2層全連接層之間加一層dropout層來防止過度擬合。最后輸出的序列作為后續(xù)GRU層的輸入序列進行時序建模。
除了DFS剖面包含的頻域信息,DFS組件包含手勢動作的時間動態(tài)。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)可以模擬復(fù)雜的時序動態(tài),被廣泛應(yīng)用在與時間相關(guān)的任務(wù)[18]中。與原始的RNN相比,長短時記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)和GRU在學(xué)習(xí)長期依賴關(guān)系的能力上表現(xiàn)更優(yōu),GRU在序列建模方面的性能與LSTM相當(dāng),但涉及的參數(shù)更少,訓(xùn)練更簡單,更有利于構(gòu)建長時序列。
GRU引入了重置門和更新門的概念,對于給定時間步的輸入,重置門用于控制忽略前一時刻的狀態(tài)信息的程度;更新門用于控制前一時刻的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度。接著,GRU計算候選隱藏狀態(tài),以輔助稍后的隱藏狀態(tài)的計算。將當(dāng)前時間步重置門的輸出與上一時間步的隱藏狀態(tài)按元素相乘,然后將按元素相乘的結(jié)果與當(dāng)前時間步的輸入連接,再通過含有激活函數(shù)的全連接層計算出候選隱藏狀態(tài)。最后,隱藏狀態(tài)通過使用當(dāng)前時間步的更新門來對上一時間步的隱藏狀態(tài)和當(dāng)前時間步的隱藏狀態(tài)進行組合得到。
這個設(shè)計可以應(yīng)對RNN由于時間步較大或較小時出現(xiàn)的梯度爆炸或者梯度衰減的問題,并更好地捕捉時間序列中步距較大的依賴關(guān)系。本文采用GRU進行時序建模,以卷積層得到的多維向量作為GRU的輸入,將最后一個單元的輸出使用正則化的dropout層傳入一個全連接層中,得到最終用于分類的向量。
本文使用極限學(xué)習(xí)機ELM來對手勢進行識別和分類。ELM是由學(xué)者Huang等[13]提出來的求解單隱層神經(jīng)網(wǎng)絡(luò)的算法,其結(jié)構(gòu)如圖2所示。對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),尤其是單隱層前饋神經(jīng)網(wǎng)絡(luò)SLFNs(Single-hidden Layer Feedforward Neural Network),ELM具有實現(xiàn)簡單、人為干預(yù)少和學(xué)習(xí)速度快的特點,近年來被廣泛應(yīng)用于疾病診斷、圖像識別和質(zhì)量評估等多個領(lǐng)域。
Figure 2 Structure of ELM 圖2 ELM結(jié)構(gòu)
ELM是一種新型的快速學(xué)習(xí)算法,對于單隱層神經(jīng)網(wǎng)絡(luò),與SLFNs不同的是,其隱藏層和輸出層的輸出權(quán)重不是迭代產(chǎn)生,而是通過求解矩陣得到的。ELM可以隨機初始化輸入權(quán)重和偏置,并得到相應(yīng)的輸出權(quán)重。對于Q個樣本(xq,sq),xq=[xq1,xq2,…,xqN]T∈RN,sq=[sq1,sq2,…,sqM]T∈RM,sq表示期望的輸出向量。對于一個有h個隱藏層節(jié)點的單隱層神經(jīng)網(wǎng)絡(luò)可以表示為:
(8)
Hβ=S
(9)
其中,H為隱藏層節(jié)點的輸出,β為輸出權(quán)重,S為期望輸出。
當(dāng)激活函數(shù)g(·)無限可微時,對于隨機選擇的輸入權(quán)值和隱藏層偏置,訓(xùn)練ELM網(wǎng)絡(luò)相當(dāng)于求解Hβ=S的最小二乘解,相當(dāng)于最小化損失函數(shù),如式(10)所示:
(10)
因此,在極限學(xué)習(xí)的訓(xùn)練中,需要確定的參數(shù)只有隱藏層節(jié)點的個數(shù),本文將提取到的特征作為ELM輸入,分別設(shè)置不同節(jié)點數(shù)進行觀察分析,最終選擇隱藏節(jié)點個數(shù)為60,激活函數(shù)g(·)是Sigmoid函數(shù)。
本文對使用商業(yè)WiFi設(shè)備收集到的原始CSI數(shù)據(jù)集進行天線對選擇、數(shù)據(jù)清洗和時頻分析等預(yù)處理,提取出DFS組件作為分類輸入,采用CGRU-ELM模型對其進行特征提取和分類,最后輸出包含6種手勢的分類結(jié)果。具體的識別過程如圖3所示。
Figure 3 Identification process 圖3 識別過程
本文采用的數(shù)據(jù)集是清華大學(xué)楊崢教授團隊[13]發(fā)布的Widar 3.0,該數(shù)據(jù)集是首個公開的CSI數(shù)據(jù)集。本文選用推拉等6種常見手勢,整理了6 000個手勢樣本(2種環(huán)境*6種手勢*5個方位*5個方向*20個示例),這些樣本從2種不同的室內(nèi)環(huán)境(一個配有桌椅的空教室和一個有沙發(fā)、家具的辦公室)中獲取。所有的收發(fā)器都是放置在架子上的迷你臺式電腦,配有英特爾5300無線網(wǎng)卡,工作在165頻道5.825 GHz頻率段。發(fā)射器激活一個天線,以每秒1 000個數(shù)據(jù)包的速率廣播數(shù)據(jù)包。圖4繪制了6種手勢的動作示意圖。
Figure 4 Six kinds of actions圖4 6種動作示意
由于不同WiFi設(shè)備網(wǎng)卡之間的不同步問題,接收到的CSI會產(chǎn)生未知的相位偏差,而同樣的網(wǎng)卡上的不同天線對有著相同的相位偏移,因此對同一個網(wǎng)卡上的2個天線CSI可以通過共軛相乘來去除未知相位偏差。通過分析數(shù)據(jù)發(fā)現(xiàn),具有較高振幅的子載波具有較大的靜態(tài)響應(yīng),具有較大方差的子載波具有動態(tài)響應(yīng),因此本文選取3號天線和2號天線來進行共軛相乘,如圖5所示。
Figure 5 Comparison of different antennas on the same network card圖5 同一網(wǎng)卡上不同天線的對比圖
為了消除原始CSI包含的靜態(tài)成分、低頻干擾和突發(fā)噪聲,本文采用巴特沃斯帶通濾波器對每個子載波進行濾除。對工作在5.825 GHz頻段的WiFi路由器設(shè)備,巴特沃斯濾波器的下限截止頻率和上限截止頻率分別設(shè)定為0.2 Hz和6 Hz。圖6顯示了濾波前后的波形變化。
Figure 6 Signal waveform before and after filtering圖6 濾波前后信號波形
為了進一步去噪壓縮,本文對濾波后的數(shù)據(jù)進行時頻分析。通過對CSI子載波進行主成分分析選擇了引起能量變化的第一個主成分,然后將連續(xù)小波變換應(yīng)用在第一主成分上,得到了DFS的譜圖。最后,將所有CSI片段的非重疊譜拼接在一起生成整幅光譜圖。圖7所示為單條鏈路上推拉手勢的DFS譜圖,顯示了能量在頻率和時間域上的分布情況。
Figure 7 DFS of push-pull gesture of single link圖7 單條鏈路推拉手勢的多普勒光譜圖
本文以準(zhǔn)確度(Accuracy)、召回率(Recall)和macroF1score作為評估指標(biāo)對提出的CGRU-ELM模型進行驗證。
準(zhǔn)確度(Accuracy)反映模型對整體樣本的判定能力,計算公式如式(11)所示:
(11)
其中,TP為預(yù)測為真且實際也為真的樣本數(shù);FP為預(yù)測為真但實際為假的樣本數(shù);TN為預(yù)測為假且實際也為假的樣本數(shù);FN為預(yù)測為假但實際為真的樣本數(shù)。
召回率(Recall)反映了正確預(yù)測為真的樣本數(shù)占全部實際為真的樣本數(shù)的比重,如式(12)所示:
(12)
macroF1score是在樣本均衡的多分類問題中同時考慮到精確率與召回率后取得的平衡點,是綜合衡量模型的一個指標(biāo),如式(13)所示:
(13)
(14)
(15)
(16)
其中,gn表示分類手勢的類別數(shù);Precision為精確率,反映了預(yù)測為真的樣本中真正為真的樣本數(shù)的比重。Precisionma和Recallma分別表示平均精確率和平均召回率。
圖8和圖9為6種手勢動作識別結(jié)果的混淆矩陣,其中x軸為預(yù)測手勢類型,y軸為實際的手勢類型,對角線為每種手勢的識別準(zhǔn)確度。從實驗結(jié)果可以看出,本文提出的CGRU-ELM模型的手勢識別的準(zhǔn)確度在辦公室環(huán)境內(nèi)和教室環(huán)境內(nèi)分別達到了93.9%和92.9%,平均準(zhǔn)確度達到了93.4%,取得了較高的準(zhǔn)確度。對于拍手手勢的識別度最高,對于推拉手勢的識別度較低。
Figure 8 Recognition accuracy in office Environment圖8 辦公室環(huán)境手勢識別準(zhǔn)確度
Figure 9 Recognition accuracy in classroom environment圖9 教室環(huán)境手勢識別準(zhǔn)確度
表1表示在辦公室環(huán)境和教室環(huán)境中本文模型對6種手勢識別情況的對比。從實驗結(jié)果來看,精確率和召回率平均達到90%以上。macroF1score均達到0.92以上,表明本文提出的CGRU-ELM模型在識別6種人機交互手勢上有較高的性能。
Table 1 Contrast of six gestures in two environments
將本文提出的CGRU-ELM方法分別與未經(jīng)過CNN進行頻域特征提取,直接將DFS組件作為輸入的單層GRU方法、基于CNN的FreeGesture[14]方法以及以DFS配置文件作為學(xué)習(xí)特征,采用HMM模型的CRAM[8]方法進行對比實驗,結(jié)果如圖10所示。結(jié)果表明,相較于單層GRU深度學(xué)習(xí)方法、FreeGesture方法和CRAM方法,CGRU-ELM方法在辦公室環(huán)境和教室環(huán)境中手勢識別的平均準(zhǔn)確度均有所提升。
Figure 10 Comparison of recognition accuracy of four methods in different environments圖10 4種識別方法在不同環(huán)境下的識別準(zhǔn)確度對比
前文的實驗中使用了6條鏈路的信息。為了探索鏈路數(shù)量對準(zhǔn)確度的影響,本文選取不同數(shù)量鏈路信息作為模型的輸入?yún)?shù)進行實驗,結(jié)果如圖11所示。當(dāng)鏈路數(shù)量從6減少到2時,準(zhǔn)確度會逐漸下降,這是由于獲取到的信息完整度有所下降。模型總體的準(zhǔn)確度能達到88.7%以上,總體性能較高。
Figure 11 Impact of links number 圖11 鏈路數(shù)量的影響
為了探索不同的輸入?yún)?shù)對識別準(zhǔn)確度的影響,將清洗后的CSI數(shù)據(jù)和提取的DFS組件作為模型的輸入,對相同環(huán)境和不同環(huán)境中的識別準(zhǔn)確度進行對比,結(jié)果如圖12和圖13所示。
Figure 12 Accuracy comparison in the same environment圖12 同一環(huán)境中準(zhǔn)確度對比
Figure 13 Accuracy comparison in different environments圖13 不同環(huán)境中準(zhǔn)確度對比
將在辦公室環(huán)境中訓(xùn)練生成的模型分別在辦公室環(huán)境和教室環(huán)境中進行測試,結(jié)果如表2所示。結(jié)果表明,在同一環(huán)境中,使用DFS組件作為模型輸入獲得的準(zhǔn)確度高于CSI數(shù)據(jù)作為模型輸入獲得的精確度;在不同環(huán)境中,使用DFS組件作為輸入,分類的準(zhǔn)確度有著顯著的提升,這是由于相對于原始的CSI數(shù)據(jù),DFS組件對于動作的映射關(guān)系更為直觀。而在不同環(huán)境中,不論輸入CSI數(shù)據(jù)還是DFS組件,獲得的準(zhǔn)確度都不是很高,其原因在于信號信息的獲取對于配置環(huán)境的高度依賴性。
Table 2 Accuracy of two input parameters identified in the same environment and different environments
為了更加明確提取特征與動作的映射關(guān)系,提高WiFi環(huán)境下手勢識別的準(zhǔn)確度,本文提出了一種CGRU-ELM混合模型,通過對從原始CSI數(shù)據(jù)中提取的DFS組件進行特征提取,有效識別出了常用的6種人機交互手勢。實驗表明,在辦公室和教室2種不同環(huán)境中,對于6種手勢的識別準(zhǔn)確度,相比于FreeGesture方法、CRAM方法和單層GRU深度學(xué)習(xí)方法,本文提出的方法有著更高的識別準(zhǔn)確度。在跨域性能上,抽取出的DFS物理特征相比于CSI統(tǒng)計特征有著更優(yōu)異的表現(xiàn),但由于信號對于配置環(huán)境的依賴性,跨域能力仍是以后研究中需要解決的問題。