常津津,羅兵,楊銳,郝葉林
?
基于深度學(xué)習(xí)的交警指揮手勢(shì)識(shí)別
常津津,羅兵,楊銳,郝葉林
(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)
為解決無人駕駛汽車快速準(zhǔn)確地識(shí)別交警指揮手勢(shì)的問題,本文提出一種基于深度學(xué)習(xí)的三通道輸入交警指揮手勢(shì)識(shí)別方法. 仿真實(shí)驗(yàn)表明,利用深度學(xué)習(xí)優(yōu)化模型參數(shù)后,采集的8種交警指揮手勢(shì)數(shù)據(jù)集的平均識(shí)別準(zhǔn)確率可達(dá)97.87%,識(shí)別率較高,具有一定的應(yīng)用價(jià)值.
Kinect設(shè)備;C3D;ConvLSTM;交警指揮手勢(shì)
無人駕駛汽車能有效減少交通擁堵,提高道路安全性,是未來汽車發(fā)展的重要方向,也是目前的研究熱點(diǎn). 當(dāng)遇到惡劣天氣、交通事故等特殊情況時(shí),單靠固定式交通信號(hào)進(jìn)行調(diào)度已經(jīng)難以滿足要求,需要經(jīng)驗(yàn)豐富的交警對(duì)現(xiàn)場(chǎng)狀況進(jìn)行靈活判斷和疏導(dǎo). 因此,需要無人駕駛汽車不僅能夠識(shí)別交通信號(hào),還要對(duì)靈活多變的交警手勢(shì)做出相應(yīng)反應(yīng).
基于視覺的交警指揮手勢(shì)識(shí)別通常是基于視頻序列或者骨架序列進(jìn)行手勢(shì)識(shí)別. 如GUO等人提出了一種方法來識(shí)別中國(guó)交警使用最大覆蓋方案做出的手勢(shì)[1-3],該方案身體部分最大限度地覆蓋前景區(qū)域,提取出前景區(qū)域,然后構(gòu)建交警身體五部分模型. 對(duì)于文獻(xiàn)[1-3],只有RGB攝像機(jī)被用來捕獲測(cè)試圖像和視頻,捕獲到的圖像和視頻中的交警幾乎覆蓋整個(gè)前景區(qū)域,與實(shí)際場(chǎng)景不太符合. 隨著3D測(cè)量設(shè)備Kinect[4]在手勢(shì)識(shí)別中的廣泛應(yīng)用[5-6],越來越多的研究者開始利用Kinect設(shè)備來獲取數(shù)據(jù),然后進(jìn)行手勢(shì)識(shí)別. 文獻(xiàn)[5-6]通過Kinect獲取的骨架信息來進(jìn)行交警手勢(shì)識(shí)別,但由于骨架信息在獲取的過程中容易丟失,導(dǎo)致準(zhǔn)確率比較低. 上述方法都是通過單種模態(tài)進(jìn)行交警手勢(shì)識(shí)別的,由于單模態(tài)RGB數(shù)據(jù)易受光照、視角等因素的影響,導(dǎo)致識(shí)別率較低,因此就出現(xiàn)了多模態(tài)交警手勢(shì)識(shí)別方法[7].
為解決識(shí)別準(zhǔn)確率低的問題,受文獻(xiàn)[8]啟發(fā),且交警手勢(shì)識(shí)別是手勢(shì)識(shí)別中的一種特例,本文利用文獻(xiàn)[8]的多模態(tài)算法在樣本集上進(jìn)行實(shí)驗(yàn),提出一種基于C3D[9]和ConvLSTM[10]的三通道交警指揮手勢(shì)識(shí)別方法,并對(duì)深度網(wǎng)絡(luò)結(jié)構(gòu)的部分進(jìn)行改進(jìn).
表1 各類樣本數(shù)
部分樣本如圖1所示,其中圖1-a為RGB數(shù)據(jù),圖1-b為骨架數(shù)據(jù).
圖1 部分樣本數(shù)據(jù)
基于時(shí)間抖動(dòng)策略的數(shù)據(jù)增強(qiáng)操作在不打亂每個(gè)手勢(shì)的原有采樣幀的基礎(chǔ)上來增加數(shù)據(jù),采樣結(jié)果如式(2)所描述:
由于單一的視頻輸入或骨架輸入識(shí)別準(zhǔn)確率低,骨架一般分辨率低,視頻中背景變化大,根據(jù)經(jīng)驗(yàn)可知,骨架數(shù)據(jù)可很好地表征位置信息,而光流數(shù)據(jù)可很好地表征運(yùn)動(dòng)信息,因此本文采用了利用RGB數(shù)據(jù)、骨架和光流數(shù)據(jù)輸入的深層網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別方法. 識(shí)別系統(tǒng)的結(jié)構(gòu)如圖2所示,結(jié)構(gòu)框架主要由4部分組成:輸入數(shù)據(jù)、C3D、ConvLSTM和多模態(tài)融合.
圖2 交警指揮手勢(shì)識(shí)別系統(tǒng)的基本框架
基于深度學(xué)習(xí)三通道輸入的交警手勢(shì)識(shí)別系統(tǒng)的基本框架如圖2所示,輸入數(shù)據(jù)由3種模態(tài)的數(shù)據(jù)組成,其中多幀RGB數(shù)據(jù)和多幀骨架數(shù)據(jù)來自本文采集的樣本庫(見1.1),多幀光流數(shù)據(jù)采用Brox光流算法[11]從RGB視頻數(shù)據(jù)提取得到. 利用骨架數(shù)據(jù)的優(yōu)點(diǎn),通過增加額外的光流數(shù)據(jù)提高識(shí)別率. Brox光流算法是根據(jù)光流約束方程,假定亮度恒定和圖像梯度恒定,且假設(shè)光流場(chǎng)平滑來計(jì)算每個(gè)像素點(diǎn)的狀態(tài)矢量,從而捕捉其運(yùn)動(dòng)信息. 光流基本約束方程為
式(3)是基于短時(shí)間目標(biāo)圖像亮度不變的條件,在位移比較大的情況下容易失效,因此采用原始的非線性灰度值恒定假設(shè)
灰度值恒定假設(shè)易受亮度影響,因此為保證灰度值發(fā)生一些小的變化,引入圖像灰度值梯度恒定假設(shè)
將上述約束條件用能量表示為
光流場(chǎng)平滑的能量為
數(shù)據(jù)項(xiàng)與平滑項(xiàng)之間的加權(quán)和為總能量,表示為式(8).
C3D是用于人體動(dòng)作識(shí)別的代表性三維卷積神經(jīng)網(wǎng)絡(luò),批量正則化[12]用來加快訓(xùn)練深度網(wǎng)絡(luò). 它對(duì)初始化不敏感,能夠使用較大一點(diǎn)的學(xué)習(xí)率(文中使用的初始化學(xué)習(xí)率為0.01). 與文獻(xiàn)[8]不同的是,本文增加了網(wǎng)絡(luò)深度,采用了8個(gè)卷積層,4個(gè)池化層,每一個(gè)卷積層的卷積核尺寸都是3×3×3,步長(zhǎng)和補(bǔ)充的像素是1×1×1,濾波器的個(gè)數(shù)依次是64,128,256,256,512,512,除了conv3a,conv4a,conv5a層之外,每一個(gè)卷積層后面都跟著一個(gè)批量正則化層、一個(gè)ReLU層和一個(gè)池化層,除了第一個(gè)池化層的核尺寸是1×2×2,步長(zhǎng)是1×2×2之外,其余各池化層的核尺寸和步長(zhǎng)都是2×2×2,也就是說空間池化只在第1個(gè)卷積層中起作用,空時(shí)池化在第2個(gè)、第4個(gè)和第6個(gè)卷積層起作用,這些池化層使每個(gè)卷積層的輸出尺寸在空間上和時(shí)域上分別以1/4和1/2的比例縮小. 因此C3D只能夠?qū)W習(xí)短期的空時(shí)特征.
傳統(tǒng)的全連接LSTM可以很好地處理時(shí)序數(shù)據(jù),但對(duì)于空間數(shù)據(jù),將會(huì)帶來冗余性,主要是由于FC-LSTM內(nèi)部門之間是依賴與類似前饋式神經(jīng)網(wǎng)絡(luò)計(jì)算的,無法刻畫空間數(shù)據(jù)的局部特征. 而卷積LSTM將輸入到狀態(tài)和狀態(tài)到狀態(tài)的轉(zhuǎn)移過程中將前饋式計(jì)算替換成了卷積運(yùn)算,因而可以很好地建模時(shí)空關(guān)系[10]. 新的ConvLSTM的工作原理由式(9~13)表示:
本文使用2層的ConvLSTM,其最高層的輸出被當(dāng)作每個(gè)手勢(shì)的長(zhǎng)時(shí)間空時(shí)特征,因此ConvLSTM的最終目的是實(shí)現(xiàn)空時(shí)特征的時(shí)間長(zhǎng)度為1. 此處卷積核的尺寸是3×3,步長(zhǎng)是1×1,濾波器的個(gè)數(shù)分別是512、640,同時(shí)在進(jìn)行卷積操作時(shí)使用Same-Padding,因此在經(jīng)過兩層ConvLSTM后,其輸出和C3D具有相同的空間尺寸,只是改變了時(shí)間長(zhǎng)度.
綜上所述,骨架數(shù)據(jù)可以很好地去除背景,但有時(shí)候會(huì)丟失部分信息,而光流能夠捕捉手勢(shì)的運(yùn)動(dòng)特征,故上述三通道輸入數(shù)據(jù)分別是RGB數(shù)據(jù)、骨架數(shù)據(jù)和光流數(shù)據(jù),通過增加光流通道,利用其各自的優(yōu)點(diǎn)來提高識(shí)別率. 考慮到文獻(xiàn)[8]的結(jié)構(gòu)不能很好地表征手勢(shì)特征,因此本文將原始的4層卷積層改成8層,每層的卷積核大小為3×3×3,步長(zhǎng)為1×1×1,且在卷積層之后加上批量正則化層來加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練,通過增加網(wǎng)絡(luò)深度,使網(wǎng)絡(luò)學(xué)習(xí)到更好的特征,從而提高識(shí)別準(zhǔn)確率.
本文主要硬件平臺(tái):Microsoft Kinect2.0傳感器一臺(tái),英偉達(dá)顯卡GeForce GTX 1080;電腦配置為L(zhǎng)inux操作系統(tǒng),Intel?Core?i5-4460處理器,3.2GHz主頻,8G內(nèi)存;系統(tǒng)采用的軟件開發(fā)環(huán)境:PyCharm 2017,KinectSDK-v2.0_1409;實(shí)驗(yàn)條件:python2.7,6,TensorFlow0.12.0,opencv3.1.0.
為驗(yàn)證本方法的有效性,主要從3個(gè)方面來驗(yàn)證:1)光流能否提高識(shí)別準(zhǔn)確率;2)基于三通道數(shù)據(jù)的交警手勢(shì)識(shí)別是否更具有優(yōu)越性;3)本文提出的算法與文獻(xiàn)[8]算法相比,哪種算法識(shí)別率更高.
首先驗(yàn)證1)和2),分別在6種條件下比較識(shí)別準(zhǔn)確率:①RGB數(shù)據(jù)②骨架數(shù)據(jù)③RGB+骨架④RGB+光流⑤骨架+光流⑥RGB+骨架+光流,交叉驗(yàn)證集的實(shí)驗(yàn)結(jié)果如圖3所示.
圖3 交警手勢(shì)識(shí)別在五種條件下分別在交叉驗(yàn)證集上各類手勢(shì)中的平均識(shí)別率
由圖3可知:在加入額外光流通道之后,RGB+光流和骨架+光流兩種組合明顯比單通道RGB或單通道骨架的平均識(shí)別率高,RGB+光流與RGB+骨架在8類交警指揮手勢(shì)中的效果一樣,高于骨架+光流組合的平均識(shí)別率,這說明額外的光流通道可提高識(shí)別準(zhǔn)確率,但效果一樣的雙通道RGB+骨架和雙通道RGB+光流都存在左轉(zhuǎn)彎與右轉(zhuǎn)彎誤判的情況,如表2,表3. 為解決這個(gè)問題,加入額外光流通道之后,三通道在8類交警指揮手勢(shì)中的統(tǒng)計(jì)結(jié)果如表4.
表2 RGB+光流在8類交警指揮手勢(shì)的統(tǒng)計(jì)結(jié)果
表3 RGB+骨架在8類交警指揮手勢(shì)的統(tǒng)計(jì)結(jié)果
表4 三通道方法在8類交警指揮手勢(shì)的統(tǒng)計(jì)結(jié)果
表2、表3和表4中的未知手勢(shì)是指未識(shí)別出來的手勢(shì). 由表4可知,三通道方法在停止、左轉(zhuǎn)彎、左轉(zhuǎn)彎待轉(zhuǎn)和變道上的識(shí)別準(zhǔn)確率為100%,識(shí)別率最低的手勢(shì)是直行和減速慢行(93.6%),解決了左轉(zhuǎn)彎、右轉(zhuǎn)彎出現(xiàn)誤判的情況,只有車輛靠邊停車出現(xiàn)了誤判情況,造成這種情況的原因是車輛靠邊停車與右轉(zhuǎn)彎的這兩種手勢(shì)相似度很高. 實(shí)驗(yàn)證明,本文提出的算法在一定程度上提高了交警指揮手勢(shì)識(shí)別率.
圖4 骨架效果圖
表5 各種算法的平均識(shí)別率比較
[1] CAI Zixing, Guo Fan. Max-covering scheme for gesture recognition of Chinese traffic police [J]. Springer- Verlag, 2015, 18(2): 403-418.
[2] GUO Fan, CAI Zixing, TANG Jin. Chinese traffic police gesture recognition in complex scene [C]// IEEE, International Conference on Trust, Security and Privacy in Computing and Communications. [s.l.]: IEEE, 2012: 1505-1511.
[3] GUO FAN, TANG Jin, CAI Zixing. Automatic recognition of Chinese traffic police gesture based on max-covering scheme [J]. Advances in Information Sciences & Service Sciences, 2013, 5(1): 428.
[4] 洪京一. 世界信息技術(shù)產(chǎn)業(yè)發(fā)展報(bào)告(2014-2015)[M]. 北京:社會(huì)科學(xué)文獻(xiàn)出版社,2015: 296-300.
[5] LE Q K, PHAM C H, LE T H. Road traffic control gesture recognition using depth images [J]. Ieie Transactions on Smart Processing & Computing, 2012(1): 1-7.
[6] SONG Wenjie, FU Mengyin, YANG Yi. Recognition method of traffic police and their command action based on kinect [C]// The 33th Chinese Control Conference, Nanjing: IEEE, 2014: 3361-3366.
[7] GUO Fan, TANG Jin, WANG Xile. Gesture recognition of traffic police based on static and dynamic descriptor fusion [J]. Multimedia Tools & Applications, 2016, 76(6): 1-22.
[8] ZHU Guangming, ZHANG Liang, SHEN Peiyi, et al. Multimodal gesture recognition using 3D convolution and convolutional LSTM [C]//IEEE Access, 2017(99): 1.
[9] TRAN D, BOURDEV L, FERGUS L, et al. Learning spatiotemporal features with 3D convolutional networks [C]// IEEE International Conference on Computer Vision, Washington, DC: IEEE. 2016: 4489-4497.
[10] SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems, Montreal: IEEE, 2015: 802-810.
[11] BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping [C]// Proceedings of European Conference on Computer Vision, [s.l.]: [s.n.], 2004: 25-36.
[12] LOFFE S, SZEGEDY C. Batch Normalization: Accelerating deep network training by reducing internal covariate shift [C]// International Conference on International Conference on Machine Learning. [s.l.]: JMLR. org, 2015: 448-456.
[責(zé)任編輯:韋 韜]
A Study of Traffic Police Command Gesture Recognition Based on Deep Learning
CHANGJin-jin, LUOBing, YANGRui, HAOYe-lin
(Information Engineering School of Wuyi University, Jiangmen, 529020, China)
In order to achieve quick and accurate identification of the hand gesture of the traffic police, a three-channel-input traffic police command gesture recognition method based on depth learning is proposed in this paper. Simulation experiments show that the average recognition accuracy of the 8 traffic police command gestures in the data sets can reach 97.87%, and is therefore of application value.
Kinect equipment; C3D; ConvLSTM; traffic police command gestures
1006-7302(2018)02-0038-07
TP391
A
2018-03-10
常津津(1992—),女,河南南陽人,在讀碩士生,研究方向?yàn)閿?shù)字圖像處理及應(yīng)用;羅兵,教授,博士,碩士生導(dǎo)師,通信作者,研究方向?yàn)闄C(jī)器視覺、智能信息處理、數(shù)字圖像處理及應(yīng)用.