胡劍秋,邢向磊,蔣 攀,何佳洲
(1.江蘇自動化研究所,江蘇連云港 222061; 2.哈爾濱工程大學(xué)自動化學(xué)院,黑龍江哈爾濱 150001)
在安防、自動駕駛、軍事等領(lǐng)域,識別行人是一項重要任務(wù)。在行人面部情況遮擋嚴(yán)重或行人尺度較小等臉部特征不明顯的情況下,需要使用行人的其他生物特征來辨別,現(xiàn)階段使用較多的生物特征是步態(tài)特征,該特征具有難隱藏、采集距離遠(yuǎn)等優(yōu)勢[1]。在分析行人步態(tài)規(guī)律過程中,本文采用提取行人輪廓的方式,需要準(zhǔn)確地分割出行人腿部輪廓。為了更精確地分割行人的輪廓,本文基于Mask R-CNN模型對行人進(jìn)行實例分割,并針對行人目標(biāo)對模型進(jìn)行優(yōu)化,提取更高精度的行人輪廓信息,為后續(xù)尋找行人步態(tài)規(guī)律奠定基礎(chǔ)。
近年來,研究人員基于深度神經(jīng)網(wǎng)絡(luò)對目標(biāo)分割提出了一系列方法。文獻(xiàn)[2]提出的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks, FCN)創(chuàng)造性地使用反卷積進(jìn)行上采樣,引入跳躍連接改善上采樣粗糙的像素定位,是深度學(xué)習(xí)實例分割領(lǐng)域的開山之作。文獻(xiàn)[3]提出的Mask R-CNN模型,基于Faster R-CNN模型[4],借鑒FCN網(wǎng)絡(luò)擴(kuò)展了分割掩碼分支,同時完成了目標(biāo)檢測、目標(biāo)分類、實例分割,實現(xiàn)端到端的像素級分割,改善多次取整量化造成的像素偏差,是目前實例分割領(lǐng)域極具競爭力的算法。研究人員不斷提出基于Mask R-CNN改進(jìn)的優(yōu)秀算法,如MaskχR-CNN模型[5]利用檢測參數(shù)的遷移學(xué)習(xí)獲得mask值,還添加了多層感知器提高了檢測目標(biāo)的種類;同時Mask Scoring R-CNN模型[6]通過分析掩碼的完整性,解決對實例分割掩碼打分的問題,在實例分割的精度方面有所提高。
本文模型基于Mask R-CNN模型,根據(jù)文獻(xiàn)[7]統(tǒng)計行人平均寬高比例為0.41,調(diào)整RPN網(wǎng)絡(luò),剔除寬高比大于1∶1的部分,并擴(kuò)充行人分割Penn-fudan數(shù)據(jù)集[8]進(jìn)行遷移學(xué)習(xí),行人分割掩碼的交并比(IoU)值較預(yù)訓(xùn)練模型提高了9%,獲取了更高精度的行人分割效果。
2017年,何凱明等人提出Mask R-CNN模型,隨后該模型成為實例分割領(lǐng)域的主流算法之一,可對圖像和視頻實現(xiàn)像素級的實例分割,精度高,速度可達(dá)8 FPS。
Mask R-CNN模型是一個經(jīng)典的Two-stage算法,擴(kuò)展自Faster R-CNN模型。本文使用的Mask R-CNN預(yù)訓(xùn)練模型的主干網(wǎng)絡(luò)是ResNet-101殘差神經(jīng)網(wǎng)絡(luò)[9],是目前提取特征精度較高的主干網(wǎng)絡(luò)。同時主干網(wǎng)絡(luò)融合空間金字塔結(jié)構(gòu)(FPN),可將低層的目標(biāo)位置信息和高層的特征語義信息融合,更好地產(chǎn)生圖像特征圖(Feature map)。隨后的連接區(qū)域建議網(wǎng)絡(luò)(RPN),如圖1所示。網(wǎng)絡(luò)在特征圖上,基于錨框機(jī)制快速產(chǎn)生大量候選區(qū)域,具體操作是剔除越過邊界,置信度低、重疊率高的區(qū)域,之后采用非極大值抑制NMS的方式,選出置信度靠前的候選區(qū)域。卷積特征圖上每個點有k個錨框(本文模型中k=15)。每個錨點可區(qū)分前景與背景,即轉(zhuǎn)化為分類參數(shù)cls,同時每個錨點都有(x,y,w,h)相應(yīng)4個偏移量,即轉(zhuǎn)化為回歸參數(shù)reg。
頭部網(wǎng)絡(luò)使用ROIAlign方式進(jìn)行區(qū)域特征聚集,
圖1 區(qū)域建議RPN網(wǎng)絡(luò)示意圖
使用雙線性插值方法改善特征聚集中兩次量化導(dǎo)致的不匹配問題,提高小目標(biāo)的檢測精度以及分割的精度。多分類任務(wù)使用Softmax函數(shù),邊框回歸任務(wù)使用Multi-task損失函數(shù)。分割掩碼分支使用全卷積層,對待測目標(biāo)實現(xiàn)像素級的分割。
Mask R-CNN模型整體的結(jié)構(gòu),如圖2所示。
圖2 Mask R-CNN模型結(jié)構(gòu)圖
關(guān)于模型的損失函數(shù),每個采樣ROI上的多任務(wù)損失,定義L=Lcls+Lbox+Lmask,其中Lcls和Lbox與Faster R-CNN框架一樣,需要分RPN網(wǎng)絡(luò)的損失和目標(biāo)檢測網(wǎng)絡(luò)的損失。RPN的損失函數(shù)定義如式(1)所示:
(1)
目標(biāo)檢測網(wǎng)絡(luò)的損失函數(shù)定義如式(2)所示:
L(p,u,tu,υ)=Lcls(p,u)+λ[u≥1]Lbox(tu,υ)
(2)
其中,P代表預(yù)測目標(biāo)分類的分?jǐn)?shù);u代表真實分類的分?jǐn)?shù);tu代表真實回歸框的坐標(biāo);υ代表預(yù)測回歸框的坐標(biāo);Lcls代表對數(shù)函數(shù)損失;Lbox代表平滑L1損失函數(shù)。
分割損失Lmask求解流程如下:對于每個ROI區(qū)域,掩碼分支定義K×m×m的矩陣,即有K個不同的分類,對其中每一個m×m區(qū)域中的每一個像素,用Sigmod函數(shù)計算相對熵,再計算平均相對熵誤差Lmask。
實驗中若直接用Mask R-CNN預(yù)訓(xùn)練模型對行人進(jìn)行分割,會產(chǎn)生誤檢、漏檢等問題,如將盆景識別為人;將攝像頭支架識別為人;有遮擋情況下,將一個人識別為兩個人;將人的部分軀體識別成其他類等。分析原因:Mask R-CNN預(yù)訓(xùn)練模型是基于MS COCO數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集中的小尺度行人以及遮擋嚴(yán)重的行人占比較大,這樣的數(shù)據(jù)不利于行人完整的分割以及腿部輪廓的提取。
針對上述問題,根據(jù)統(tǒng)計學(xué)規(guī)律[7-10],行人的平均寬高比為0.41,采取以下兩種策略進(jìn)行優(yōu)化:
1)針對行人的實際長寬比例,剔除寬高比大于1∶1的部分,加速RPN網(wǎng)絡(luò)計算。
2)擴(kuò)充行人數(shù)據(jù)集,使用遷移學(xué)習(xí)微調(diào)參數(shù)。同時增加待檢測場景的訓(xùn)練數(shù)據(jù),如背景圖片等,提高系統(tǒng)檢測的遷移能力。
本文在預(yù)訓(xùn)練模型上,基于有限的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)。擴(kuò)充公開的Penn-fudan行人實例分割數(shù)據(jù)集,該數(shù)據(jù)集針對行人實例分割任務(wù),包含170張圖片,345個標(biāo)注的行人,從校園和城市街道采集戶外行人圖片,每張圖片都包含至少一個行人,并且所有的行人都是站立狀態(tài),圖像中標(biāo)注行人的高度在180像素到390像素。
本文對Penn-fudan數(shù)據(jù)集進(jìn)行篩選,剔除該數(shù)據(jù)集中漏檢嚴(yán)重的數(shù)據(jù),同時在大學(xué)校園周邊采集戶外行人數(shù)據(jù),利用開源工具Labelme進(jìn)行標(biāo)注,對數(shù)據(jù)集進(jìn)行擴(kuò)充,組成新的數(shù)據(jù)集命名為Penn-fudan-heu數(shù)據(jù)集,簡稱PFH數(shù)據(jù)集。數(shù)據(jù)集各部分樣例,如圖3和圖4所示。
圖3 校園周邊行人實例分割示意圖
圖4 Penn-fudan數(shù)據(jù)集示意圖
擴(kuò)充數(shù)據(jù)的標(biāo)注原則如下,參照Penn-fudan數(shù)據(jù)集的建立原則,同時針對待測顯著行人不能產(chǎn)生漏檢,忽略遮擋嚴(yán)重(遮擋達(dá)35%以上)、尺度小(高度小于20像素)、鏡像、雕塑、陰影中的行人,認(rèn)為這些行人數(shù)據(jù)對本實驗分割訓(xùn)練不利,最終得到的數(shù)據(jù)集組成如表1所示。
表1 PFH校園行人分割數(shù)據(jù)集
訓(xùn)練集train中有153個數(shù)據(jù),驗證集val文件夾中有41個數(shù)據(jù),測試集test文件夾有22個數(shù)據(jù)。
融合數(shù)據(jù)集需要統(tǒng)一格式,進(jìn)行解析。訓(xùn)練時,使用數(shù)據(jù)增強(qiáng)對數(shù)據(jù)樣本進(jìn)行擴(kuò)充,采用的方法有調(diào)整圖像的色彩或飽和度、隨機(jī)翻轉(zhuǎn)、旋轉(zhuǎn)等,提高模型對不同行人的識別分割效果。
本文實驗平臺搭建在Linux系統(tǒng)下,顯卡型號是RTX2080Ti。預(yù)訓(xùn)練模型的效果圖,如圖5所示。
圖5 Mask R-CNN預(yù)訓(xùn)練模型測試效果圖
由圖5可以看出,Mask R-CNN模型能基本滿足目標(biāo)分割的要求。但因存在1.2節(jié)所提及的問題,本文設(shè)計一種簡單可行的針對行人的優(yōu)化思路。調(diào)整RPN網(wǎng)絡(luò),并使用擴(kuò)充的PFH數(shù)據(jù)集,對預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),微調(diào)參數(shù)[11]。
修改RPN網(wǎng)絡(luò)參數(shù)如下,針對直立行人的實際長寬比例,將RPN網(wǎng)絡(luò)中Anchor機(jī)制的寬長比RPN_ANCHOR_RATIOS修改為[0.2,0.4,1.0],提高網(wǎng)絡(luò)選取候選框的效率。同時參考PFH數(shù)據(jù)集中的行人大小將錨機(jī)制中尺度修改為RPN_ANCHOR SCALES=(48,96,192,384,768)。模型中一些其他的參數(shù)也要進(jìn)行相應(yīng)的修改。
訓(xùn)練過程中,借鑒離散下降學(xué)習(xí)率設(shè)置方法。初始學(xué)習(xí)率為0.001訓(xùn)練網(wǎng)絡(luò)的head部分,訓(xùn)練40 epochs,然后再用較小的學(xué)習(xí)率0.0001微調(diào)整個網(wǎng)絡(luò),訓(xùn)練80 epochs。本模型使用隨機(jī)梯度下降的方式對損失進(jìn)行收斂。
將優(yōu)化好的模型在夜晚光線復(fù)雜,部分遮擋等惡劣情況下測試,取得較好的檢測分割效果,效果圖如圖6所示。
優(yōu)化后的Mask R-CNN模型還需要評估模型的性能。在擴(kuò)建的PFH數(shù)據(jù)集上,評估優(yōu)化前后Mask R-CNN模型的性能。在測試集上效果對比,如圖7所示。
圖7中白色箭頭處,展示了預(yù)訓(xùn)練模型與優(yōu)化后模型的主要差別,下面具體分析兩者的差別。
圖6 不同環(huán)境下優(yōu)化后模型的檢測示意圖
圖7 優(yōu)化前后模型測試對比圖
由第一列對比圖知,優(yōu)化后的模型沒有識別鏡像中的人。鏡像中的人屬于虛假人像,在PFH數(shù)據(jù)集中針對這種情況有類似標(biāo)注,所以優(yōu)化后的模型更貼近真實值。
由第二列對比圖知,優(yōu)化后的模型較好地分割出了顯著行人,尤其是腿部。而預(yù)訓(xùn)練模型雖然將被遮擋的人檢出,但其附近的人腿部分割較差??梢妰?yōu)化后的模型對顯著行人分割較好。
由第三列對比圖可知,預(yù)訓(xùn)練模型將被樹遮擋的一個行人檢測成了兩個人,優(yōu)化后模型并沒有出現(xiàn),接近真實值,分割效果較好。
由第四列對比圖可知,圖片左部優(yōu)化后模型對行人腿部分割較好,而右部遮擋行人因標(biāo)注以及遮擋的問題,檢測分割效果有待提高。
由上述測試集四列圖片可發(fā)現(xiàn),對于復(fù)雜的行人,優(yōu)化后的模型能夠較好地分割了顯著行人,更好地適應(yīng)步態(tài)識別任務(wù)。而針對簡單行人,優(yōu)化前后兩模型效果相近,具體的檢測效果還要進(jìn)行定量分析。
在PFH數(shù)據(jù)集的測試集上比較優(yōu)化前后兩模型分割掩碼的交并比IoU值,結(jié)果見表2。
表2 PFH測試集上優(yōu)化前后模型分割I(lǐng)oU表
由表2可以看出,優(yōu)化后的模型分割掩碼的IoU值較預(yù)訓(xùn)練模型提高了9%,原因在于模型優(yōu)化訓(xùn)練使模型分割遷移能力提高,對校園周邊行人的分割更為細(xì)膩,同時減少了誤檢的行人。
在行人檢測方面,優(yōu)化后的Mask R-CNN模型提高了顯著行人分割的精度,忽略了一些遮擋的行人,會導(dǎo)致檢測漏檢率上升,但基于ResNet101主干網(wǎng)絡(luò),行人檢測性能也極具競爭力。綜上可知,本文的模型具有良好的檢測與分割性能。
為了更好地提取行人步態(tài)規(guī)律,針對顯著性行人分割的任務(wù),本文優(yōu)化了Mask R-CNN模型,針對行人目標(biāo)調(diào)整了RPN網(wǎng)絡(luò),擴(kuò)建行人分割FPH數(shù)據(jù)集,在預(yù)訓(xùn)練模型上進(jìn)行遷移學(xué)習(xí),行人分割掩碼的IoU值較預(yù)訓(xùn)練模型提高了9%,實現(xiàn)了行人分割,以及腿部輪廓的提取,對后續(xù)步態(tài)規(guī)律的尋找具有很好的理論與實際意義。