常津津,羅兵,楊銳,郝葉林
?
基于深度學(xué)習(xí)的交警指揮手勢識別
常津津,羅兵,楊銳,郝葉林
(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)
為解決無人駕駛汽車快速準確地識別交警指揮手勢的問題,本文提出一種基于深度學(xué)習(xí)的三通道輸入交警指揮手勢識別方法. 仿真實驗表明,利用深度學(xué)習(xí)優(yōu)化模型參數(shù)后,采集的8種交警指揮手勢數(shù)據(jù)集的平均識別準確率可達97.87%,識別率較高,具有一定的應(yīng)用價值.
Kinect設(shè)備;C3D;ConvLSTM;交警指揮手勢
無人駕駛汽車能有效減少交通擁堵,提高道路安全性,是未來汽車發(fā)展的重要方向,也是目前的研究熱點. 當(dāng)遇到惡劣天氣、交通事故等特殊情況時,單靠固定式交通信號進行調(diào)度已經(jīng)難以滿足要求,需要經(jīng)驗豐富的交警對現(xiàn)場狀況進行靈活判斷和疏導(dǎo). 因此,需要無人駕駛汽車不僅能夠識別交通信號,還要對靈活多變的交警手勢做出相應(yīng)反應(yīng).
基于視覺的交警指揮手勢識別通常是基于視頻序列或者骨架序列進行手勢識別. 如GUO等人提出了一種方法來識別中國交警使用最大覆蓋方案做出的手勢[1-3],該方案身體部分最大限度地覆蓋前景區(qū)域,提取出前景區(qū)域,然后構(gòu)建交警身體五部分模型. 對于文獻[1-3],只有RGB攝像機被用來捕獲測試圖像和視頻,捕獲到的圖像和視頻中的交警幾乎覆蓋整個前景區(qū)域,與實際場景不太符合. 隨著3D測量設(shè)備Kinect[4]在手勢識別中的廣泛應(yīng)用[5-6],越來越多的研究者開始利用Kinect設(shè)備來獲取數(shù)據(jù),然后進行手勢識別. 文獻[5-6]通過Kinect獲取的骨架信息來進行交警手勢識別,但由于骨架信息在獲取的過程中容易丟失,導(dǎo)致準確率比較低. 上述方法都是通過單種模態(tài)進行交警手勢識別的,由于單模態(tài)RGB數(shù)據(jù)易受光照、視角等因素的影響,導(dǎo)致識別率較低,因此就出現(xiàn)了多模態(tài)交警手勢識別方法[7].
為解決識別準確率低的問題,受文獻[8]啟發(fā),且交警手勢識別是手勢識別中的一種特例,本文利用文獻[8]的多模態(tài)算法在樣本集上進行實驗,提出一種基于C3D[9]和ConvLSTM[10]的三通道交警指揮手勢識別方法,并對深度網(wǎng)絡(luò)結(jié)構(gòu)的部分進行改進.
表1 各類樣本數(shù)
部分樣本如圖1所示,其中圖1-a為RGB數(shù)據(jù),圖1-b為骨架數(shù)據(jù).
圖1 部分樣本數(shù)據(jù)
基于時間抖動策略的數(shù)據(jù)增強操作在不打亂每個手勢的原有采樣幀的基礎(chǔ)上來增加數(shù)據(jù),采樣結(jié)果如式(2)所描述:
由于單一的視頻輸入或骨架輸入識別準確率低,骨架一般分辨率低,視頻中背景變化大,根據(jù)經(jīng)驗可知,骨架數(shù)據(jù)可很好地表征位置信息,而光流數(shù)據(jù)可很好地表征運動信息,因此本文采用了利用RGB數(shù)據(jù)、骨架和光流數(shù)據(jù)輸入的深層網(wǎng)絡(luò)結(jié)構(gòu)識別方法. 識別系統(tǒng)的結(jié)構(gòu)如圖2所示,結(jié)構(gòu)框架主要由4部分組成:輸入數(shù)據(jù)、C3D、ConvLSTM和多模態(tài)融合.
基于深度學(xué)習(xí)三通道輸入的交警手勢識別系統(tǒng)的基本框架如圖2所示,輸入數(shù)據(jù)由3種模態(tài)的數(shù)據(jù)組成,其中多幀RGB數(shù)據(jù)和多幀骨架數(shù)據(jù)來自本文采集的樣本庫(見1.1),多幀光流數(shù)據(jù)采用Brox光流算法[11]從RGB視頻數(shù)據(jù)提取得到. 利用骨架數(shù)據(jù)的優(yōu)點,通過增加額外的光流數(shù)據(jù)提高識別率. Brox光流算法是根據(jù)光流約束方程,假定亮度恒定和圖像梯度恒定,且假設(shè)光流場平滑來計算每個像素點的狀態(tài)矢量,從而捕捉其運動信息. 光流基本約束方程為
式(3)是基于短時間目標圖像亮度不變的條件,在位移比較大的情況下容易失效,因此采用原始的非線性灰度值恒定假設(shè)
灰度值恒定假設(shè)易受亮度影響,因此為保證灰度值發(fā)生一些小的變化,引入圖像灰度值梯度恒定假設(shè)
將上述約束條件用能量表示為
光流場平滑的能量為
數(shù)據(jù)項與平滑項之間的加權(quán)和為總能量,表示為式(8).
C3D是用于人體動作識別的代表性三維卷積神經(jīng)網(wǎng)絡(luò),批量正則化[12]用來加快訓(xùn)練深度網(wǎng)絡(luò). 它對初始化不敏感,能夠使用較大一點的學(xué)習(xí)率(文中使用的初始化學(xué)習(xí)率為0.01). 與文獻[8]不同的是,本文增加了網(wǎng)絡(luò)深度,采用了8個卷積層,4個池化層,每一個卷積層的卷積核尺寸都是3×3×3,步長和補充的像素是1×1×1,濾波器的個數(shù)依次是64,128,256,256,512,512,除了conv3a,conv4a,conv5a層之外,每一個卷積層后面都跟著一個批量正則化層、一個ReLU層和一個池化層,除了第一個池化層的核尺寸是1×2×2,步長是1×2×2之外,其余各池化層的核尺寸和步長都是2×2×2,也就是說空間池化只在第1個卷積層中起作用,空時池化在第2個、第4個和第6個卷積層起作用,這些池化層使每個卷積層的輸出尺寸在空間上和時域上分別以1/4和1/2的比例縮小. 因此C3D只能夠?qū)W習(xí)短期的空時特征.
傳統(tǒng)的全連接LSTM可以很好地處理時序數(shù)據(jù),但對于空間數(shù)據(jù),將會帶來冗余性,主要是由于FC-LSTM內(nèi)部門之間是依賴與類似前饋式神經(jīng)網(wǎng)絡(luò)計算的,無法刻畫空間數(shù)據(jù)的局部特征. 而卷積LSTM將輸入到狀態(tài)和狀態(tài)到狀態(tài)的轉(zhuǎn)移過程中將前饋式計算替換成了卷積運算,因而可以很好地建模時空關(guān)系[10]. 新的ConvLSTM的工作原理由式(9~13)表示:
本文使用2層的ConvLSTM,其最高層的輸出被當(dāng)作每個手勢的長時間空時特征,因此ConvLSTM的最終目的是實現(xiàn)空時特征的時間長度為1. 此處卷積核的尺寸是3×3,步長是1×1,濾波器的個數(shù)分別是512、640,同時在進行卷積操作時使用Same-Padding,因此在經(jīng)過兩層ConvLSTM后,其輸出和C3D具有相同的空間尺寸,只是改變了時間長度.
綜上所述,骨架數(shù)據(jù)可以很好地去除背景,但有時候會丟失部分信息,而光流能夠捕捉手勢的運動特征,故上述三通道輸入數(shù)據(jù)分別是RGB數(shù)據(jù)、骨架數(shù)據(jù)和光流數(shù)據(jù),通過增加光流通道,利用其各自的優(yōu)點來提高識別率. 考慮到文獻[8]的結(jié)構(gòu)不能很好地表征手勢特征,因此本文將原始的4層卷積層改成8層,每層的卷積核大小為3×3×3,步長為1×1×1,且在卷積層之后加上批量正則化層來加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練,通過增加網(wǎng)絡(luò)深度,使網(wǎng)絡(luò)學(xué)習(xí)到更好的特征,從而提高識別準確率.
本文主要硬件平臺:Microsoft Kinect2.0傳感器一臺,英偉達顯卡GeForce GTX 1080;電腦配置為Linux操作系統(tǒng),Intel?Core i5-4460處理器,3.2GHz主頻,8G內(nèi)存;系統(tǒng)采用的軟件開發(fā)環(huán)境:PyCharm 2017,KinectSDK-v2.0_1409;實驗條件:python2.7,6,TensorFlow0.12.0,opencv3.1.0.
為驗證本方法的有效性,主要從3個方面來驗證:1)光流能否提高識別準確率;2)基于三通道數(shù)據(jù)的交警手勢識別是否更具有優(yōu)越性;3)本文提出的算法與文獻[8]算法相比,哪種算法的識別率更高.
首先驗證1)和2),分別在6種條件下比較識別準確率:①RGB數(shù)據(jù)②骨架數(shù)據(jù)③RGB+骨架④RGB+光流⑤骨架+光流⑥RGB+骨架+光流,交叉驗證集的實驗結(jié)果如圖3所示.
圖3 交警手勢識別在6種條件下分別在交叉驗證集上各類手勢中的平均識別率
由圖3可知:在加入額外光流通道之后,RGB+光流和骨架+光流兩種組合明顯比單通道RGB或單通道骨架的平均識別率高,RGB+光流與RGB+骨架在8類交警指揮手勢中的效果一樣,高于骨架+光流組合的平均識別率,這說明額外的光流通道可提高識別準確率,但效果一樣的雙通道RGB+骨架和雙通道RGB+光流都存在左轉(zhuǎn)彎與右轉(zhuǎn)彎誤判的情況,如表2~3. 為解決這個問題,加入額外光流通道之后,三通道在8類交警指揮手勢中的統(tǒng)計結(jié)果如表4.
表2 RGB+光流在8類交警指揮手勢的統(tǒng)計結(jié)果
表3 RGB+骨架在8類交警指揮手勢的統(tǒng)計結(jié)果
表4 三通道方法在8類交警指揮手勢的統(tǒng)計結(jié)果
表2、表3和表4中的未知手勢是指未識別出來的手勢. 由表4可知,三通道方法在停止、左轉(zhuǎn)彎、左轉(zhuǎn)彎待轉(zhuǎn)和變道上的識別準確率為100%,識別率最低的手勢是直行和減速慢行(93.6%),解決了左轉(zhuǎn)彎、右轉(zhuǎn)彎出現(xiàn)誤判的情況,只有車輛靠邊停車出現(xiàn)了誤判情況,造成這種情況的原因是車輛靠邊停車與右轉(zhuǎn)彎的這兩種手勢相似度很高. 實驗證明,本文提出的算法在一定程度上提高了交警指揮手勢識別率.
圖4 骨架效果圖
表5 各種算法的平均識別率比較
[1] CAI Zixing, Guo Fan. Max-covering scheme for gesture recognition of Chinese traffic police [J]. Springer- Verlag, 2015, 18(2): 403-418.
[2] GUO Fan, CAI Zixing, TANG Jin. Chinese traffic police gesture recognition in complex scene [C]// IEEE, International Conference on Trust, Security and Privacy in Computing and Communications. [s.l.]: IEEE, 2012: 1505-1511.
[3] GUO Fan, TANG Jin, CAI Zixing. Automatic recognition of Chinese traffic police gesture based on max-covering scheme [J]. Advances in Information Sciences & Service Sciences, 2013, 5(1): 428.
[4] 洪京一. 世界信息技術(shù)產(chǎn)業(yè)發(fā)展報告(2014-2015)[M]. 北京:社會科學(xué)文獻出版社,2015: 296-300.
[5] LE Q K, PHAM C H, LE T H. Road traffic control gesture recognition using depth images [J]. Ieie Transactions on Smart Processing & Computing, 2012(1): 1-7.
[6] SONG Wenjie, FU Mengyin, YANG Yi. Recognition method of traffic police and their command action based on kinect [C]// The 33th Chinese Control Conference, Nanjing: IEEE, 2014: 3361-3366.
[7] GUO Fan, TANG Jin, WANG Xile. Gesture recognition of traffic police based on static and dynamic descriptor fusion [J]. Multimedia Tools & Applications, 2016, 76(6): 1-22.
[8] ZHU Guangming, ZHANG Liang, SHEN Peiyi, et al. Multimodal gesture recognition using 3D convolution and convolutional LSTM [C]//IEEE Access, 2017(99): 1.
[9] TRAN D, BOURDEV L, FERGUS L, et al. Learning spatiotemporal features with 3D convolutional networks [C]// IEEE International Conference on Computer Vision, Washington, DC: IEEE. 2016: 4489-4497.
[10] SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems, Montreal: IEEE, 2015: 802-810.
[11] BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping [C]// Proceedings of European Conference on Computer Vision, [s.l.]: [s.n.], 2004: 25-36.
[12] LOFFE S, SZEGEDY C. Batch Normalization: Accelerating deep network training by reducing internal covariate shift [C]// International Conference on International Conference on Machine Learning. [s.l.]: JMLR. org, 2015: 448-456.
[責(zé)任編輯:韋 韜]
A Study of Traffic Police Command Gesture Recognition Based on Deep Learning
CHANGJin-jin, LUOBing, YANGRui, HAOYe-lin
(Information Engineering School of Wuyi University, Jiangmen 529020, China)
In order to achieve quick and accurate identification of the hand gesture of the traffic police, a three-channel-input traffic police command gesture recognition method based on depth learning is proposed in this paper. Simulation experiments show that the average recognition accuracy of the 8 traffic police command gestures in the data sets can reach 97.87%, and is therefore of application value.
Kinect equipment; C3D; ConvLSTM; traffic police command gestures
TP391
A
1006-7302(2018)02-0038-07
2018-03-10
常津津(1992—),女,河南南陽人,在讀碩士生,研究方向為數(shù)字圖像處理及應(yīng)用;羅兵,教授,博士,碩士生導(dǎo)師,通信作者,研究方向為機器視覺、智能信息處理、數(shù)字圖像處理及應(yīng)用.