王健,孫榮春,王瑩
(長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022)
隨著人工智能的不斷進(jìn)步,使得人機(jī)關(guān)系變得更加密切,因此,人機(jī)交互的工具也變得尤為重要,常見(jiàn)人機(jī)交互工具主要有鍵盤和鼠標(biāo),但是它們卻需要人類學(xué)習(xí)和適應(yīng),而且在操作與速度上均受到限制,不夠自然。于是人們開(kāi)始探索更加自然便捷的人機(jī)交互方式。而手作為人體結(jié)構(gòu)中最為靈活的部分,同文字和語(yǔ)音語(yǔ)言一樣,是一種比較直觀的交互方式。然而在人機(jī)交互過(guò)程中,能夠讓計(jì)算機(jī)準(zhǔn)確的識(shí)別出手勢(shì)的含義,就顯得尤為重要。
目前,手勢(shì)識(shí)別主要可分為基于數(shù)據(jù)手套的手勢(shì)識(shí)別和基于視覺(jué)的手勢(shì)識(shí)別兩種。前者最早起源于Grimes教授領(lǐng)導(dǎo)創(chuàng)造的數(shù)據(jù)手套,該數(shù)據(jù)手套通過(guò)多個(gè)傳感器追蹤人的手勢(shì)信息進(jìn)行手勢(shì)識(shí)別。至今基于數(shù)據(jù)手套的手勢(shì)識(shí)別不斷得到發(fā)展,如呂蕾[1]采用數(shù)據(jù)手套采集手部的運(yùn)動(dòng)數(shù)據(jù),運(yùn)用特征點(diǎn)模板匹配的方法進(jìn)行手勢(shì)識(shí)別,該方法在25類手勢(shì)中取得98.9%的準(zhǔn)確率;而王賦攀[2]通過(guò)數(shù)據(jù)手套與視覺(jué)數(shù)據(jù)相結(jié)合。采集3指彎曲度數(shù)據(jù)并結(jié)合視覺(jué)模型的方法,有效地簡(jiǎn)化了手勢(shì)建模與匹配之間的關(guān)系,實(shí)現(xiàn)了手勢(shì)的快速識(shí)別。然而,基于數(shù)據(jù)手套的手勢(shì)識(shí)別率雖然比較高,但是穿戴設(shè)備比較繁瑣且價(jià)格高昂。
基于視覺(jué)的手勢(shì)識(shí)別相較于數(shù)據(jù)手套更受人們的歡迎,它能給人更多的活動(dòng)自由,應(yīng)用范圍也得到了擴(kuò)大,如Feng Bin等人[3]提出從深度圖中提取手勢(shì)輪廓和形狀的方式進(jìn)行手勢(shì)識(shí)別;朱越[4]提出了一種根據(jù)手勢(shì)輪廓像素變化的手勢(shì)識(shí)別方法。通過(guò)結(jié)合RGB和HSV雙顏色空間,在四種常用的手勢(shì)中取得了90%的準(zhǔn)確率。但是傳統(tǒng)視覺(jué)上的手勢(shì)識(shí)別在手勢(shì)采集過(guò)程中不可避免的會(huì)存在各種復(fù)雜信息,比如遮擋、強(qiáng)光等。導(dǎo)致手勢(shì)在分割階段比較困難,從而影響手勢(shì)的準(zhǔn)確率。但是,隨著Kinect相機(jī)的出現(xiàn),基于深度信息的手勢(shì)識(shí)別逐漸步入人們的眼簾,深度相機(jī)很大程度上解決了手勢(shì)復(fù)雜,以及光照變化的影響,如譚臺(tái)哲[5]提出了基于形狀的手勢(shì)識(shí)別方法,利用膚色和視差信息從圖像中將目標(biāo)區(qū)域分割出來(lái),然后再進(jìn)行手勢(shì)識(shí)別,取得了相對(duì)不錯(cuò)的效果,但是這種傳統(tǒng)的手勢(shì)分割方式在實(shí)時(shí)性上卻有些不足。
隨著深度學(xué)習(xí)的不斷發(fā)展,深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)上的識(shí)別率不斷增加,其中YOLO[6]、SSD[7]等網(wǎng)絡(luò)不斷被人們優(yōu)化,由于神經(jīng)網(wǎng)絡(luò)是通過(guò)訓(xùn)練數(shù)據(jù)來(lái)獲取目標(biāo)的特征,避免了傳統(tǒng)方法中復(fù)雜的特征提取過(guò)程。在網(wǎng)絡(luò)結(jié)構(gòu)及實(shí)時(shí)性上得到了很大的改善,因此本文針對(duì)上述問(wèn)題,提出了采用深度圖與RGB圖結(jié)合的方式作為輸入,基于雙通道的Mask RCNN網(wǎng)絡(luò)的手勢(shì)檢測(cè)方法,在檢測(cè)手勢(shì)的同時(shí)實(shí)現(xiàn)對(duì)手勢(shì)與背景的分割。本文的主要?jiǎng)?chuàng)新點(diǎn)如下:
(1)首先采用形態(tài)學(xué)的方法消除深度圖中的間隙、隨機(jī)噪聲,達(dá)到對(duì)深度圖中空洞的優(yōu)化,再使用雙邊濾波的方法使深度圖中的邊界變得平滑,輪廓更加明顯,減少了訓(xùn)練過(guò)程中提取冗余信息。
(2)在圖像輸入階段,增加一個(gè)深度圖的特征提取通道,采用RGB圖像和深度圖像的雙通道輸入網(wǎng)絡(luò),豐富了手勢(shì)的空間信息,優(yōu)化了遮擋以及強(qiáng)光帶來(lái)的影響。
(3)針對(duì)訓(xùn)練集數(shù)據(jù)較少,提出采用擾動(dòng)交疊率算法,通過(guò)正負(fù)樣本變換,產(chǎn)生擾動(dòng)標(biāo)簽來(lái)避免過(guò)擬合現(xiàn)象。
隨著深度相機(jī)的技術(shù)的成熟,深度相機(jī)種類也不斷增加,但是無(wú)論哪種相機(jī)拍攝得到的深度圖都會(huì)存在各種噪點(diǎn)和空洞的現(xiàn)象。因此,在融合前需要對(duì)深度圖作降噪處理,針對(duì)此問(wèn)題,本文提出采用形態(tài)學(xué)和雙邊濾波結(jié)合的方法對(duì)深度圖做預(yù)處理。
目前,常見(jiàn)的圖像濾波算法主要有高斯濾波、均值濾波等方法。這些濾波的方法對(duì)普通RGB圖中的隨機(jī)噪聲有較好的效果,但是對(duì)于深度圖中的像素值,會(huì)出現(xiàn)邊緣信息丟失等現(xiàn)象,破壞深度信息。而形態(tài)學(xué)濾波對(duì)深度圖中隨機(jī)噪聲和間隙具有較好的效果,再結(jié)合雙邊濾波的方法,能夠使處理后的圖像效果更好,更便于提取深度信息。
形態(tài)學(xué)濾波[8]主要是基于數(shù)學(xué)形態(tài)學(xué)思想,通過(guò)固定形態(tài)的結(jié)構(gòu)元對(duì)圖像進(jìn)行濾波處理,其中膨脹、腐蝕運(yùn)算是最基本的運(yùn)算。
形態(tài)學(xué)操作中,f被B膨脹定義為:
f被B腐蝕定義為:
其中,f表示原圖像;是B表示結(jié)構(gòu)元素;S和F表示的分別是B和f的定義域。開(kāi)運(yùn)算是指先腐蝕后膨脹的運(yùn)算過(guò)程,而閉運(yùn)算與開(kāi)運(yùn)算相反。
開(kāi)運(yùn)算過(guò)程主要是對(duì)去除孤立毛刺有不錯(cuò)的效果,閉運(yùn)算主要是對(duì)空洞填充,并且能夠修復(fù)細(xì)小裂縫。然而無(wú)論哪一種運(yùn)算幅度偏大或者偏小效果都會(huì)不佳,所以需要開(kāi)閉運(yùn)算組合使用,因此,采用的是將這兩種運(yùn)算進(jìn)行平均后使用。
開(kāi)閉濾波公式為:
閉開(kāi)濾波公式為:
采用的組合濾波公式為:
然而結(jié)構(gòu)元的尺寸以及形狀的選取對(duì)形態(tài)學(xué)濾波也起著至關(guān)重要的作用,本文經(jīng)過(guò)實(shí)驗(yàn)分析得知,當(dāng)空洞區(qū)域較大時(shí),采取矩形結(jié)構(gòu)元素較為合適。
高斯濾波在消除噪聲的同時(shí),也容易對(duì)圖像的輪廓等信息造成破壞,針對(duì)此問(wèn)題,在高斯濾波的基礎(chǔ)上提出了雙邊濾波[9]的方法,它是一種非線性濾波的方法,通過(guò)結(jié)合圖像的空間鄰近度和相似度的一種處理方式,不僅考慮了像素的歐式距離,還考慮了像素范圍域中的輻射差異,既不破壞邊緣信息又達(dá)到了去噪的目的。
高斯函數(shù)如下:
其中,(i,j)表示當(dāng)前點(diǎn)的位置;(x,y)表示中心點(diǎn)的位置。雙邊濾波是在高斯函數(shù)的基礎(chǔ)上增加了一個(gè)來(lái)約束圖像灰度值變化的函數(shù)。
其中,I(i,j)表示圖像在點(diǎn)(i,j)的像素值;I(x,y)表示中心點(diǎn)(x,y)的像素值;σr是值域標(biāo)準(zhǔn)差;雙邊濾波的權(quán)系數(shù)H=HsHr。
隨著目標(biāo)檢測(cè)的發(fā)展進(jìn)步,基于深度學(xué)習(xí)的手勢(shì)識(shí)別技術(shù)不斷成熟,能夠從大量的數(shù)據(jù)中學(xué)習(xí)到深層特征,避免了傳統(tǒng)方法中復(fù)雜的特征提取過(guò)程,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu)。本文采用的是基于 Kaiming He等人[10]提出的 Mask RCNN 神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)與Faster RCNN[11]相比如圖1所示。
圖1 改進(jìn)Mask RCNN網(wǎng)絡(luò)結(jié)構(gòu)圖
Mask RCNN是在Faster RCNN的基礎(chǔ)上修改的,主要是將Faster RCNN中原有的RoI Pooling層替換了RoIAlign,將原來(lái)的最鄰近插值換成了雙線性內(nèi)插的方法,取消了兩次量化操作,使用浮點(diǎn)數(shù)作為像素點(diǎn)的坐標(biāo)。以及添加了并列的FCN層(mask層),實(shí)現(xiàn)了目標(biāo)與背景的像素級(jí)的實(shí)例分割。
本文算法是基于Mask RCNN改進(jìn)的,為了能夠有效地利用不同的視覺(jué)信息,避免遮擋、光照強(qiáng)度等影響因素對(duì)識(shí)別準(zhǔn)確率的影響,提出在原有主干網(wǎng)絡(luò)的基礎(chǔ)上增加了一個(gè)深度圖的特征提取通道,用來(lái)提取深度圖像的特征信息,本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)的Mask RCNN網(wǎng)絡(luò)結(jié)構(gòu)圖
改進(jìn)的Mask RCNN網(wǎng)絡(luò)主要分為4個(gè)部分。
(1)主干網(wǎng)絡(luò)
主干網(wǎng)絡(luò)是RGB圖像和深度圖像的特征提取網(wǎng)絡(luò),因?yàn)镽GB圖像更多描繪的是表觀信息,而深度圖像反映的是目標(biāo)的空間信息,更容易刻畫出目標(biāo)的形狀,所以提出采用RGB圖像和深度圖像結(jié)合的雙通道輸入結(jié)構(gòu),考慮到手勢(shì)的復(fù)雜度以及相似性,若要更加精細(xì)地提取特征,提高特征提取層的抽象能力,應(yīng)該增加網(wǎng)絡(luò)的層數(shù),而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)深度的增加,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中會(huì)出現(xiàn)梯度消失或者梯度爆炸,網(wǎng)絡(luò)無(wú)法收斂等現(xiàn)象,最終無(wú)法繼續(xù)訓(xùn)練。如圖3所示,ResNet網(wǎng)絡(luò)[12]提出了一種新方式,它將輸入以繞道的方式傳給輸出,保護(hù)了信息的完整性,解決了傳統(tǒng)網(wǎng)絡(luò)加深后梯度消失或者梯度爆炸的現(xiàn)象,所以本文中的兩個(gè)通道的特征提取網(wǎng)絡(luò)均采用以ResNet-50為基礎(chǔ)的主干網(wǎng)絡(luò),ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,它前面有一個(gè)7×7的卷積層(名為conv1),中間有四個(gè)塊(名為conv2_x到conv5_x),最后是平均池化層(Avg Pool)和全連接層(FC),因?yàn)椴捎玫氖请p通道結(jié)構(gòu),所以本文去除了ResNet-50最后的平均池化層和全連接層,在特征提取階段,雙通道進(jìn)行權(quán)值共享,權(quán)值共享的目的主要是為了增加兩個(gè)通道在特征學(xué)習(xí)時(shí)的聯(lián)系,它不僅能夠減少訓(xùn)練的參數(shù),而且還提高了網(wǎng)絡(luò)訓(xùn)練識(shí)別的效率。在特征融合的過(guò)程中,在通道維度上通過(guò)串聯(lián)的方式將深度特征圖與彩色特征圖進(jìn)行融合,構(gòu)成最終的RGB-D特征圖。也就是說(shuō),假設(shè)彩色特征圖和深度特征圖的大小均為W×H×C,其中W、H、C代表特征圖的寬、高以及通道數(shù),在通道維度上進(jìn)行融合,融合后的特征圖大小為W×H×(2C)。
圖3 殘差單元結(jié)構(gòu)
圖4 ResNet-50網(wǎng)絡(luò)
(2)RPN網(wǎng)絡(luò)
RPN(Region Proposal Network)即目標(biāo)建議網(wǎng)絡(luò),是用來(lái)生成可能存在的手勢(shì)區(qū)域,其本質(zhì)是通過(guò)比例不同的窗口在特征圖上進(jìn)行滑動(dòng),如圖5所示,然后生成候選區(qū)域(Anchors),圖中以16×16為基準(zhǔn)面積,包含三個(gè)窗口,他們的比例分別是 2∶1、1∶1、1∶2的窗口,另外兩個(gè)分別表示面積大小為8×8和32×32的窗口,同樣包含長(zhǎng)寬比為 2∶1、1∶1、1∶2的窗口,RPN 利用以上九種大小比例不同的窗口對(duì)特征圖進(jìn)行滑動(dòng)提取生成候選區(qū)域,文獻(xiàn)[13]中對(duì)不同的anchors進(jìn)行了分類,分類指標(biāo)為模型生成的候選框和任意一個(gè)標(biāo)記框的交疊率(intersection-over-union,IoU),正樣本的規(guī)定分為如下幾種:
圖5 RPN算法示意圖
①選取IoU值最大的那個(gè)作為正樣本。
②如果IoU>0.7,則作為正樣本。
對(duì)于第二種IoU的值也有選取IoU>0.5的,一般第二種情況下,足夠滿足正樣本的個(gè)數(shù),但對(duì)于少數(shù)極端情況,也會(huì)有IoU值全都不大于0.7的時(shí)候,此時(shí)可采用第一種。
負(fù)樣本的規(guī)定如下:
③如果IoU<0.3,則作為負(fù)樣本,剩下的舍棄不用。
IoU值的計(jì)算公式為:
其中,sa和sg分別表示網(wǎng)絡(luò)生成的候選框面積和正確的標(biāo)記框面積,分子表示兩個(gè)面積的交集,分母表示兩個(gè)面積的并集。
(3)ROI Align層
針對(duì)Faster RCNN中ROI Pooling在對(duì)比例大小不同尺度的特征圖池化為固定尺度特征圖的過(guò)程中,采用的是最鄰近插值的方法,該方法通過(guò)四舍五入的方式采取了兩次量化的操作,從而產(chǎn)生了兩次誤差,該操作對(duì)目標(biāo)分類沒(méi)有什么影響,但是對(duì)像素級(jí)的實(shí)例分割就產(chǎn)生了很大的影響,最終會(huì)導(dǎo)致分割出現(xiàn)偏差的問(wèn)題。
然而Mask RCNN中ROI Align層在生成候選區(qū)域ROI特征圖上取消了兩次粗糙的量化操作,它通過(guò)對(duì)x方向和y方向線性插值的方法,保留浮點(diǎn)型坐標(biāo),然后使原圖像像素與特征圖像素進(jìn)行精準(zhǔn)的匹配對(duì)齊,使得在面對(duì)小目標(biāo)的檢測(cè)以及實(shí)例分割的時(shí)候,能達(dá)到更加精確的特征點(diǎn)定位的要求。
(4)分類回歸及分割
根據(jù)ROIAlign層形成的固定尺寸的特征圖進(jìn)行全連接操作和分割操作,在全連接層分支做出目標(biāo)框的定位和分類,在分割分支通過(guò)卷積層的計(jì)算對(duì)手勢(shì)進(jìn)行像素級(jí)的實(shí)例分割。
本文的模型完成三個(gè)任務(wù),即手勢(shì)框的檢測(cè)、手勢(shì)與背景的分類以及手勢(shì)與背景的分割。所以損失函數(shù)采用的是多任務(wù)的損失函數(shù),定義為:
其中,Lcls表示分類損失函數(shù);Lbox表示邊界框的損失函數(shù);Lmask表示分割損失函數(shù)。其中分類誤差和邊界框誤差參考文獻(xiàn)[14]中的公式,分割誤差的公式為:
其中,yij是區(qū)域m×m坐標(biāo)點(diǎn)(i,j)的標(biāo)簽值,該點(diǎn)第K類的預(yù)測(cè)值為,mask分支對(duì)每一個(gè)ROI定義了一個(gè)Km×m維的矩陣,K和m×m表示的是K個(gè)分類對(duì)應(yīng)的分辨率區(qū)域,通過(guò)sigmod函數(shù)對(duì)每一個(gè)像素求相對(duì)熵,從而得到平均相對(duì)熵誤差Lmask。然后判斷不同的ROI屬于哪一個(gè)分類,最后采用該類分支的相對(duì)熵作為誤差值進(jìn)行計(jì)算。
CNN網(wǎng)絡(luò)在訓(xùn)練過(guò)程中往往需要大量的數(shù)據(jù),但是當(dāng)圖片較少,訓(xùn)練次數(shù)越高越容易發(fā)生過(guò)擬合現(xiàn)象,避免過(guò)擬合的方式主要有加強(qiáng)損失層的正則化、數(shù)據(jù)增廣以及Dropout等方法,但這些方法效果都不太明顯,所以本文針對(duì)此問(wèn)題,提出采用擾動(dòng)交疊率(DisturbIoU)算法,在訓(xùn)練過(guò)程中,給訓(xùn)練數(shù)據(jù)添加擾動(dòng)標(biāo)簽,以此來(lái)達(dá)到降低擬合程度的效果。因?yàn)檎?fù)樣本是在訓(xùn)練時(shí)根據(jù)IoU的值以及正確的標(biāo)記框的標(biāo)簽來(lái)決定的,所以本文在每1 000次迭代中按一定的噪聲率抽取一些迭代的IoU設(shè)為0.5,沒(méi)有被抽取到的設(shè)為0.7,IoU的變化主要影響的是類別標(biāo)記。也就是說(shuō),在將IoU值變化后,那些原本應(yīng)標(biāo)記為正標(biāo)簽或者負(fù)標(biāo)簽的數(shù)據(jù)可能變?yōu)榱素?fù)標(biāo)簽或者正標(biāo)簽,因此數(shù)據(jù)中就生成了擾動(dòng)的標(biāo)簽,而在RPN反向傳播的階段,會(huì)傳播該擾動(dòng)標(biāo)簽在損失層上產(chǎn)生的噪聲梯度。
DisturbIoU算法步驟:
IoU的變化會(huì)對(duì)候選區(qū)域的類別標(biāo)記產(chǎn)生影響。每個(gè)候選區(qū)域首先經(jīng)過(guò)擾動(dòng)交疊率算法,從而產(chǎn)生擾動(dòng)標(biāo)記表示為p=p[p0,p1],其中p0和p1分別表示候選框?yàn)楸尘昂湍繕?biāo)的概率,p是由IoU的大小決定的。
其中,N是每次迭代的次數(shù);N=1 000;I^服從伯努利分布。
DisturbIoU算法中的噪聲率是用來(lái)決定訓(xùn)練集中錯(cuò)誤標(biāo)簽的數(shù)量,錯(cuò)誤標(biāo)簽越高標(biāo)簽越不可信,在文獻(xiàn)[15]中可以看出噪聲率為10%的時(shí)候可以達(dá)到較高的準(zhǔn)確率,噪聲率偏高或者偏低都會(huì)造成準(zhǔn)確率和收斂速度降低,所以本文設(shè)定噪聲率為10%,在提高準(zhǔn)確率的同時(shí)也提高了收斂速度。
本節(jié)內(nèi)容首先介紹的是本次實(shí)驗(yàn)的軟硬件設(shè)備、所使用的數(shù)據(jù)集以及參數(shù)設(shè)置,然后是本文所提出的采用RGB圖像和深度圖像作為輸入結(jié)合雙通道Mask RCNN網(wǎng)絡(luò)和其他一些基本方法在相同數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)方法。最后詳細(xì)對(duì)比了不同方法之間的性能,驗(yàn)證了本文所提出的方法的有效性。
(1)實(shí)驗(yàn)環(huán)境
本次實(shí)驗(yàn)的環(huán)境使用的系統(tǒng)是windows10,并 配 置 py-mask-rcnn網(wǎng) 絡(luò) 算 法(https://github.com/matterport/Mask_RCNN),采用 tensotflow1.13.1-gpu,搭建的深度學(xué)習(xí)框架,選用Python 3.6作為主要的編程語(yǔ)言,在計(jì)算機(jī)硬件方面采用的顯卡是NVIDIA GeForce GTX 1080Ti,本文算法的所有訓(xùn)練和測(cè)試工作均是在GPU的環(huán)境下完成的。
(2)數(shù)據(jù)集
本文選的數(shù)據(jù)集是Microsoft Kinect and Leap Motion(下文簡(jiǎn)稱 MKLM)數(shù)據(jù)集[16]和 CUST-The NUS hand posture datasets II(下文簡(jiǎn)稱CUST-NUS)數(shù)據(jù)集。MKLM數(shù)據(jù)集包含RGB圖,Depth圖以及confidence圖。該數(shù)據(jù)集共有10類手勢(shì),由14個(gè)不同的人執(zhí)行的手勢(shì),每個(gè)手勢(shì)重復(fù)10次,總共有1 400個(gè)手勢(shì),本文只使用了RGB圖和Depth圖,該手勢(shì)是在室內(nèi)拍攝,有少量光照變化,無(wú)遮擋變化,屬于簡(jiǎn)單背景下的手勢(shì)圖片。CUSTNUS數(shù)據(jù)集是由實(shí)驗(yàn)室根據(jù)NUS數(shù)據(jù)集制作的數(shù)據(jù)集,該數(shù)據(jù)集共有10類手勢(shì),1至10類分別以字母a_HN到j(luò)_HN命名,由6個(gè)不同的人執(zhí)行,每個(gè)人重復(fù)40次,共包含2 400個(gè)彩色圖、深度圖對(duì)。該數(shù)據(jù)集背景復(fù)雜(含有人臉,其他相似的干擾手勢(shì),以及不同的光照等,屬于相對(duì)較難的手勢(shì)數(shù)據(jù)集。首先通過(guò)開(kāi)源軟件對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,未標(biāo)注的樣例以及標(biāo)注的手勢(shì)樣例如圖6和圖7所示,通過(guò)標(biāo)注工具使用連續(xù)的線段把整個(gè)手勢(shì)的輪廓邊緣準(zhǔn)確的標(biāo)注出來(lái),按照Pascal VOC數(shù)據(jù)的標(biāo)準(zhǔn)進(jìn)行標(biāo)注,包含了路徑、標(biāo)注的形式文件名、類別名以及連接點(diǎn)的坐標(biāo)。
圖6 未標(biāo)注手勢(shì)樣例
圖7 已標(biāo)注手勢(shì)示例
(3)參數(shù)設(shè)置
根據(jù)以上具體實(shí)現(xiàn)方法,進(jìn)行了模型的訓(xùn)練,其中隨機(jī)從1 400個(gè)樣本的MKLM數(shù)據(jù)集中選取1 000個(gè)樣本作為訓(xùn)練集,同理,從CUST-NUS數(shù)據(jù)集中選取1 900個(gè)樣本作為訓(xùn)練集進(jìn)行訓(xùn)練,其余作為測(cè)試集,參數(shù)設(shè)置依據(jù)參考文獻(xiàn)[17]并通過(guò)實(shí)驗(yàn)進(jìn)行微調(diào),設(shè)置迭代次數(shù)為8 000次,其中學(xué)習(xí)率設(shè)置為0.001和0.000 1的權(quán)重衰減率。
(1)設(shè)置不同的實(shí)驗(yàn)方法
為了驗(yàn)證本文算法的有效性,本文使用兩種數(shù)據(jù)集分別對(duì)輸入圖像情況和使用算法情況這兩個(gè)方面進(jìn)行了對(duì)比試驗(yàn),主要分為以下幾種方式:采用RGB圖像作為輸入的單通道網(wǎng)絡(luò)、采用RGB圖和未預(yù)處理過(guò)的深度圖作為輸入的雙通道網(wǎng)絡(luò)、采用RGB圖和預(yù)處理后的深度圖作為輸入的雙通道網(wǎng)絡(luò),但是不使用DisturbIoU算法、以及本文提出的采用RGB和深度圖像作為輸入結(jié)合雙通道Mask RCNN的網(wǎng)絡(luò)。以下簡(jiǎn)稱為單通道RGB網(wǎng)絡(luò)、雙通道RGB-D*網(wǎng)絡(luò)、雙通道RGB-D網(wǎng)絡(luò)、本文網(wǎng)絡(luò)。除了以上所講的輸入和使用算法情況上不同之外,其余各部分網(wǎng)絡(luò)均與本文所提的網(wǎng)絡(luò)框架以及參數(shù)的設(shè)置都相同,如學(xué)習(xí)率、迭代次數(shù)、權(quán)重衰減等。
(2)不同實(shí)驗(yàn)方法的性能分析
本文根據(jù)以上不同的實(shí)驗(yàn)方法,對(duì)已標(biāo)注的數(shù)據(jù)集進(jìn)行了模型的訓(xùn)練與測(cè)試,其中在CUSTNUS數(shù)據(jù)集下的部分檢測(cè)結(jié)果如圖8和圖9所示。在簡(jiǎn)單背景條件下得到的手勢(shì)都相對(duì)清晰,但是當(dāng)光照條件不均勻或者變化時(shí),采用單通道RGB網(wǎng)絡(luò)和雙通道RGB-D*網(wǎng)絡(luò)識(shí)別得到的結(jié)果中出現(xiàn)了少數(shù)如圖8(a)到圖8(d)所示的錯(cuò)識(shí)以及目標(biāo)框過(guò)大的現(xiàn)象,但是采用本文算法后,以上問(wèn)題得到了很好的解決,如圖9所示。
圖8 其他三種方法檢測(cè)結(jié)果示例
圖9 本文方法檢測(cè)結(jié)果示例
因?yàn)镽GB圖像更多描繪的是表觀信息,而處理后的深度圖像反映的是目標(biāo)的空間信息,更容易刻畫出目標(biāo)的形狀,無(wú)論是在簡(jiǎn)單背景條件下還是復(fù)雜背景條件下,本文算法都能夠較好的完成手勢(shì)分類與定位,同時(shí)也準(zhǔn)確實(shí)現(xiàn)了手勢(shì)與背景的精確分割。在測(cè)試識(shí)別的結(jié)果中,本文網(wǎng)絡(luò)相對(duì)于其他網(wǎng)絡(luò)結(jié)構(gòu)獲得了比較大的改善。
同時(shí),本文對(duì)兩個(gè)數(shù)據(jù)集的檢測(cè)結(jié)果進(jìn)行了統(tǒng)計(jì),檢測(cè)結(jié)果如表1、表2所示,在簡(jiǎn)單背景條件下的識(shí)別率沒(méi)有太大的差距,但是在復(fù)雜背景條件下與本文算法相比較,其他三種方法就有了明顯的差距,由表1和表2可以看出,由于添加深度特征提取通道,雙通道RGB-D*網(wǎng)絡(luò)相較于單通道RGB網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集的測(cè)試結(jié)果中識(shí)別率都得到了不錯(cuò)的提升,可知深度數(shù)據(jù)與彩色數(shù)據(jù)結(jié)合有益于網(wǎng)絡(luò)學(xué)習(xí)更強(qiáng)的特征信息,進(jìn)而提高手勢(shì)的識(shí)別率。而雙通道RGB-D*與雙通道RGB-D相比可以得出,經(jīng)過(guò)預(yù)處理后再輸入到網(wǎng)絡(luò)中的深度圖更容易獲得準(zhǔn)確的特征信息,避免了冗余信息對(duì)識(shí)別率的影響。因此,可以得出本文算法在識(shí)別率上相比其他網(wǎng)絡(luò)有著很好的效果。表3中可以看出,在MKLM和CUST-NUS數(shù)據(jù)集中的測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的識(shí)別率之差分別減少了1.27%和2.03%,可以看出DisturbIoU算法很好地避免了過(guò)擬合的問(wèn)題。
表1 MKLK數(shù)據(jù)集不同方法的比較
表2 CUST-NUS數(shù)據(jù)集不同方法的比較
表3 兩個(gè)數(shù)據(jù)集的手勢(shì)識(shí)別率比較/%
本文基于傳統(tǒng)Mask RCNN的網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,提出了雙通道的Mask RCNN的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)采用RGB圖像和降噪處理后的深度圖像作為輸入,并將兩種圖像結(jié)合ResNet-50網(wǎng)絡(luò)分別進(jìn)行特征提取,然后將兩種特征圖進(jìn)行融合用于手勢(shì)的檢測(cè)與分割。并提出采用DisturbIoU算法來(lái)避免訓(xùn)練過(guò)擬合的問(wèn)題,本文算法相比較于傳統(tǒng)算法在手勢(shì)的檢測(cè)性能以及分割的準(zhǔn)確度有不錯(cuò)的效果,目前,本文中只是較簡(jiǎn)單的特征融合,在今后的工作中,將會(huì)探索更加有效的特征融合方式,能夠充分利用彩色圖像的信息和深度圖像的信息。同時(shí)優(yōu)化算法結(jié)構(gòu),加快網(wǎng)絡(luò)訓(xùn)練問(wèn)題。