郭永存, 童佳樂, 王爽
(1. 安徽理工大學(xué) 深部煤礦采動(dòng)響應(yīng)與災(zāi)害防控國家重點(diǎn)實(shí)驗(yàn)室,安徽 淮南 232001;2. 安徽理工大學(xué) 礦山智能裝備與技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 淮南 232001;3. 礦山智能技術(shù)與裝備省部共建協(xié)同創(chuàng)新中心,安徽 淮南 232001;4. 安徽理工大學(xué) 機(jī)械工程學(xué)院,安徽 淮南 232001)
煤炭作為能源的重要組成部分,是我國經(jīng)濟(jì)持續(xù)發(fā)展的重要基礎(chǔ)[1-2]。目前,我國正著力發(fā)展智能礦用機(jī)械,以提高煤礦智能化發(fā)展水平,為煤炭工業(yè)高質(zhì)量發(fā)展提供核心技術(shù)支撐[3-4]。煤礦井下有軌電機(jī)車是一種煤礦輔助運(yùn)輸設(shè)備,承擔(dān)著運(yùn)輸井下煤炭、矸石、設(shè)備和人員等任務(wù),具有運(yùn)行頻繁、運(yùn)輸量大、運(yùn)行距離長(zhǎng)等特點(diǎn)。現(xiàn)階段,我國煤礦井下有軌電機(jī)車均采用人工駕駛方式,由于井下巷道狹窄、光照不充分、司機(jī)疲勞駕駛和技術(shù)保障手段缺乏等原因,存在電機(jī)車超速、闖紅燈、追尾、碰撞行人等安全問題[5-6]。研究煤礦輔助運(yùn)輸電機(jī)車無人駕駛技術(shù),可減少井下作業(yè)人員數(shù)量,降低煤礦安全事故發(fā)生概率,對(duì)保障煤礦安全高效生產(chǎn)具有重要意義[7]。
近年來,快速發(fā)展的計(jì)算機(jī)技術(shù)為目標(biāo)智能檢測(cè)識(shí)別提供了堅(jiān)實(shí)的軟硬件基礎(chǔ),基于機(jī)器視覺的障礙物識(shí)別技術(shù)得到了廣泛關(guān)注和應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為基于深度學(xué)習(xí)的智能目標(biāo)檢測(cè)算法提供了技術(shù)支撐,已被應(yīng)用于自動(dòng)駕駛、行人檢測(cè)等諸多場(chǎng)景?;谏疃葘W(xué)習(xí)的智能目標(biāo)檢測(cè)方法分為單階段目標(biāo)檢測(cè)和雙階段目標(biāo)檢測(cè)2類:① 單階段目標(biāo)檢測(cè)方法以YOLO(You Only Look Once)[8]、單階段多框檢測(cè)器(Single Shot MultiBox Detector,SSD)[9]為代表,直接對(duì)輸入圖像進(jìn)行檢測(cè),輸出目標(biāo)類別及邊界框。該類方法檢測(cè)速度較快,但對(duì)小目標(biāo)物體的檢測(cè)精度較低,無法識(shí)別出軌道中的石塊及其他小型障礙物,且對(duì)于重疊目標(biāo),易造成漏檢,無法滿足電機(jī)車無人駕駛需求。② 雙階段目標(biāo)檢測(cè)方法以區(qū)域CNN(R-CNN)[10]、快速R-CNN(Fast R-CNN)[11]、更快速R-CNN(Faster R-CNN)[12]、掩碼R-CNN(Mask R-CNN)[13]為代表,通過感興趣區(qū)域(Region of Interest,RoI)提取候選框,針對(duì)每個(gè)候選框進(jìn)行獨(dú)立預(yù)測(cè)輸出。該類方法檢測(cè)精度高,但檢測(cè)速度較慢。
在軌道交通檢測(cè)領(lǐng)域,由于軌道目標(biāo)在圖像中所占比例較大且檢測(cè)出的軌道邊界框與軌道掩碼之間存在一定間隙,通過邊界框重疊與否不能準(zhǔn)確判定目標(biāo)是否為障礙物。因此,為獲取軌道掩碼,有效判定目標(biāo)是否為障礙物,可采用實(shí)例分割方法在目標(biāo)檢測(cè)的同時(shí)獲得目標(biāo)掩碼。Mask R-CNN模型在Faster R-CNN的基礎(chǔ)上增加掩碼預(yù)測(cè)并行分支,可在實(shí)現(xiàn)目標(biāo)識(shí)別分類的同時(shí),分割出同一類目標(biāo)的不同實(shí)例。此外,Mask R-CNN采用感興趣區(qū)域?qū)R網(wǎng)絡(luò)(RoI Align)層代替Faster R-CNN中的RoI Pooling(感興趣區(qū)域池化)層,利用雙線性插值代替量化操作,解決了區(qū)域像素不匹配的問題,具有更高的識(shí)別與分割精度[14]。但Mask R-CNN模型仍存在檢測(cè)速度較慢、小目標(biāo)檢測(cè)精度低等問題。針對(duì)該問題,本文提出一種基于Mask R-CNN的改進(jìn)模型-SE-HDC-Mask R-CNN,該模型通過壓縮-激勵(lì)(Squeezeand-Excitation,SE)模塊和混合空洞卷積(Hybrid Dilated Convolution,HDC)提升目標(biāo)檢測(cè)速度、小目標(biāo)檢測(cè)精度及掩碼分割精度,可在目標(biāo)檢測(cè)的同時(shí)進(jìn)行像素級(jí)分割,提取軌道及其他目標(biāo)掩碼,為后續(xù)確定目標(biāo)障礙物提供基礎(chǔ)。
Mask R-CNN模型架構(gòu)如圖1所示,主要由4個(gè)部分組成:① 骨干網(wǎng)絡(luò) (Backbone):包括主干特征提取網(wǎng)絡(luò)ResNet50/101和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN),結(jié)合2個(gè)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,生成特征圖(Feature Maps)。② 候選框區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN):通過滑動(dòng)窗口掃描特征圖,尋找目標(biāo)所在區(qū)域,經(jīng)前景、背景分類和邊框回歸生成候選區(qū)域(Proposals)。③ RoI Align:候選區(qū)域在RoI Align中進(jìn)行匹配,完成特征圖特征聚集并池化為固定大小。④ 三分支預(yù)測(cè)網(wǎng)絡(luò)(Three Branches):將目標(biāo)分類信息、邊界框回歸信息及語義信息相融合,得到目標(biāo)類別、定位邊界框和掩碼分割圖像。
圖1 Mask R-CNN模型架構(gòu)Fig. 1 Architecture of Mask R-CNN model
SE-HDC-Mask R-CNN模型對(duì)Mask R-CNN模型的主干特征提取網(wǎng)絡(luò)ResNet進(jìn)行2點(diǎn)改進(jìn):① 在ResNet網(wǎng)絡(luò)中嵌入SE模塊。② 將ResNet中的標(biāo)準(zhǔn)卷積替換成HDC。
ResNet采用殘差結(jié)構(gòu)使模型具備較好的特征提取能力,但在特征提取時(shí)未能充分利用圖像信息,尤其是圖像通道信息。SE模塊可增強(qiáng)模型對(duì)特征的選擇和捕獲能力,通過學(xué)習(xí)各個(gè)通道的重要程度和相互聯(lián)系,對(duì)重要特征信息賦予較大權(quán)重,對(duì)次要特征信息賦予較小權(quán)重,從而提高特征提取效果,加快網(wǎng)絡(luò)訓(xùn)練速度[15]。
SE模塊包括3個(gè)部分:① Squeeze操作:通過全局平均池化(Global Average Pooling)操作將電機(jī)車運(yùn)行特征圖維度H×W×C(高×寬×通道數(shù))壓縮成1×1× C。② Excitation操作:通過第1個(gè)全連接層(Fully Connected)將特征圖的通道數(shù)壓縮為C/S(S為縮放參數(shù),本文取S=16),并通過ReLU函數(shù)激活;再經(jīng)過1個(gè)全連接層后由Sigmoid函數(shù)激活,將通道數(shù)恢復(fù)到原大小,得到不同特征通道的權(quán)重。③ Reweight操作:將各通道權(quán)重與對(duì)應(yīng)的特征圖通過Scale尺度化操作相乘,在通道維度上實(shí)現(xiàn)對(duì)初始特征權(quán)重的重標(biāo)定,抑制對(duì)當(dāng)前任務(wù)作用不大的特征通道信息,突出有用的特征通道信息。
在圖像分割領(lǐng)域,圖像特征提取常采用池化層與上采樣層相結(jié)合的方式,先減小圖像尺寸,增大感受野,再通過上采樣恢復(fù)至原始圖像大小進(jìn)行預(yù)測(cè)。在圖像尺寸減小、增大過程中損失了許多細(xì)節(jié)信息,使得一些細(xì)節(jié)信息無法重建。空洞卷積可在一定程度上避免細(xì)節(jié)信息丟失現(xiàn)象[16]。但空洞卷積存在以下問題:① 疊加多個(gè)相同擴(kuò)張率的空洞卷積時(shí)會(huì)導(dǎo)致感受野中許多像素未利用,出現(xiàn)大量空洞,即網(wǎng)格效應(yīng)。② 空洞卷積的設(shè)計(jì)目的是獲得較大感受野,提升模型對(duì)大目標(biāo)物體的分割能力,但小目標(biāo)物體本身不需要較大的感受野,不適合采用具有較大擴(kuò)張率的空洞卷積。針對(duì)上述問題,本文提出能兼顧大目標(biāo)和小目標(biāo)檢測(cè)需求的HDC。
應(yīng)用HDC時(shí)應(yīng)滿足以下要求:① 疊加卷積的擴(kuò)張率不能有大于1的公約數(shù),否則仍會(huì)出現(xiàn)網(wǎng)格效應(yīng)。② 擴(kuò)張率應(yīng)設(shè)計(jì)成鋸齒狀結(jié)構(gòu),如[1,2,5,1,2,5],以便同時(shí)滿足小目標(biāo)和大目標(biāo)的檢測(cè)分割要求。③ 2個(gè)非零像素之間的最大距離Mi需滿足以下條件:
式中:ri為空洞卷積第i層的擴(kuò)張率;n為空洞卷積的總層數(shù)。
假設(shè)卷積核尺寸為K×K,則式(1)的設(shè)計(jì)目標(biāo)是M2≤K。
為提高模型對(duì)特征的利用率,提高對(duì)小目標(biāo)物體的檢測(cè)精度,擴(kuò)大特征圖感受野,增強(qiáng)信息關(guān)聯(lián)性,在ResNet內(nèi)的每個(gè)殘差塊Conv block和Identity block中嵌入1個(gè)SE模塊,并將其3×3的標(biāo)準(zhǔn)卷積替換成擴(kuò)張率為[1,2,5,1,2,5]的HDC。優(yōu)化后的Conv block結(jié)構(gòu)如圖2所示,Identity block與Conv block結(jié)構(gòu)類似,僅缺少Shortcut塊。
改進(jìn)ResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,包括5個(gè)階段(Stage1-Stage5),除Stage1外,其余4個(gè)階段均包含殘差塊。
圖3 改進(jìn)ResNet網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Structure of improved ResNet network
井下無人駕駛電機(jī)車多目標(biāo)檢測(cè)技術(shù)構(gòu)架如圖4所示。首先,通過電機(jī)車車載相機(jī)獲取前方巷道視頻信息,利用OpenCV將視頻分幀并輸入SEHDC-Mask R-CNN模型中。然后,模型輸出目標(biāo)掩碼及標(biāo)定目標(biāo)類別,通過掩碼是否重疊判斷目標(biāo)是否為障礙物,并計(jì)算障礙物距離。最后,對(duì)電機(jī)車發(fā)出鳴笛、減速和剎車等指令??紤]到井下電機(jī)車行駛速度較慢,且視頻中每幀圖像之間具有信息連續(xù)性[17],采用視頻分幀的方式提取圖像,該方法可在一定程度上滿足實(shí)時(shí)檢測(cè)需要,提高目標(biāo)檢測(cè)效率。
圖4 井下無人駕駛電機(jī)車多目標(biāo)檢測(cè)技術(shù)構(gòu)架Fig. 4 Multi-object detection technology framework for underground unmanned electric locomotive
井下無人駕駛電機(jī)車多目標(biāo)檢測(cè)實(shí)驗(yàn)硬件參數(shù)見表1。主要軟件環(huán)境為python3.6,tensorflowgpu1.10.1,keras=2.2.0,CUDA9.0 with cudnns,實(shí)驗(yàn)類別包含軌道、電機(jī)車、信號(hào)燈、行人、石塊及背景6類,設(shè)置學(xué)習(xí)率為0.001,權(quán)重衰減系數(shù)為0.000 1,動(dòng)量為0.9。
表1 井下無人駕駛電機(jī)車多目標(biāo)檢測(cè)實(shí)驗(yàn)硬件參數(shù)Table 1 Experimental hardware parameters of multi-object detection of underground unmanned electric locomotive
實(shí)驗(yàn)數(shù)據(jù)來源于安徽省某煤礦井下電機(jī)車運(yùn)行環(huán)境的實(shí)地拍攝,通過防爆相機(jī)等設(shè)備采集360張電機(jī)車多場(chǎng)景運(yùn)行圖像(不同光照條件、不同拍攝角度、不同目標(biāo)種類及數(shù)量),圖像像素大小為1 080×1 920。通過改變圖像的亮度、色度、銳度、對(duì)比度及旋轉(zhuǎn)、平移和拉伸等方法對(duì)數(shù)據(jù)樣本進(jìn)行擴(kuò)充。數(shù)據(jù)樣本擴(kuò)充后,共有1 600張電機(jī)車運(yùn)行圖像,按7∶2∶1比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,得到訓(xùn)練集圖像1 120張、驗(yàn)證集圖像320張、測(cè)試集圖像160張。使用圖像標(biāo)注工具VIA對(duì)數(shù)據(jù)集中的目標(biāo)進(jìn)行標(biāo)注并創(chuàng)建目標(biāo)區(qū)域,得到相應(yīng)json文件。
本文設(shè)置的檢測(cè)目標(biāo)包括軌道、電機(jī)車、信號(hào)燈、行人及石塊,為全面、客觀評(píng)價(jià)網(wǎng)絡(luò)模型對(duì)設(shè)定目標(biāo)的檢測(cè)性能和分割效果,選擇平均準(zhǔn)確率(Average Precision,AP)、平均準(zhǔn)確率均值(mean Average Precision,mAP)、交并比(Intersection over Union,IoU)作為評(píng)價(jià)指標(biāo),其中IoU包含邊界框交并比IoUbox和掩碼交并比IoUmask。
AP為預(yù)測(cè)單個(gè)目標(biāo)類別的平均準(zhǔn)確率,等于準(zhǔn)確率和召回率曲線(P-R曲線)與坐標(biāo)軸所圍面積,即P-R曲線的積分。準(zhǔn)確率是指模型分類為正樣本的集合中分類正確的比例。召回率是指分類正確的樣本數(shù)占所有正樣本數(shù)的比例。mAP等于所有類別AP的平均值。準(zhǔn)確率P和召回率R的計(jì)算公式分別為
式中:TP為被正確識(shí)別成目標(biāo)的正樣本個(gè)數(shù);FP為被錯(cuò)誤識(shí)別成目標(biāo)的負(fù)樣本個(gè)數(shù);FN為目標(biāo)未被正確識(shí)別的樣本個(gè)數(shù)。
計(jì)算AP時(shí)需設(shè)定IoU閾值,本文設(shè)IoU=0.5,當(dāng)IoU>0.5時(shí)設(shè)定測(cè)試樣本為正樣本。
采用IoUmask評(píng)價(jià)掩碼分割質(zhì)量,如圖5所示,左側(cè)真實(shí)區(qū)域A表示目標(biāo)真實(shí)掩碼,右側(cè)預(yù)測(cè)區(qū)域B表示目標(biāo)預(yù)測(cè)掩碼。將區(qū)域A與區(qū)域B之間的交集與并集的比值作為掩碼質(zhì)量高低的評(píng)價(jià)標(biāo)準(zhǔn),從而衡量目標(biāo)掩碼的定位精度。IoUmask計(jì)算公式為
圖5 掩碼分割質(zhì)量評(píng)價(jià)Fig. 5 Evaluation of mask segmentation quality
式中YA,YB分別為目標(biāo)真實(shí)掩碼和預(yù)測(cè)掩碼。
目前Mask R-CNN主流的主干特征提取網(wǎng)絡(luò)有ResNet50和ResNet101兩種,其主要區(qū)別體現(xiàn)在網(wǎng)絡(luò)深度不同。網(wǎng)絡(luò)深度越大,則網(wǎng)絡(luò)復(fù)雜程度越高,網(wǎng)絡(luò)計(jì)算量越大。因此,為平衡網(wǎng)絡(luò)模型的訓(xùn)練效果和訓(xùn)練時(shí)長(zhǎng),需要選擇合適的網(wǎng)絡(luò)深度。在訓(xùn)練集和驗(yàn)證集中對(duì)采用ResNet50和ResNet101的Mask R-CNN模型進(jìn)行訓(xùn)練,結(jié)果如圖6所示。定性分析結(jié)果見表2,其中mIoUmask和mIoUbox分別為平均掩碼交并比和平均邊界框交并比。
圖6 ResNet50/101網(wǎng)絡(luò)下的模型損失Fig. 6 Model loss under ResNet50/101 network
表2 ResNet50/101網(wǎng)絡(luò)下的定性分析Table 2 Qualitative analysis under ResNet50/101 network
由圖6可知,訓(xùn)練至140次左右時(shí)模型達(dá)到擬合狀態(tài),且2種主干特征提取網(wǎng)絡(luò)下模型的訓(xùn)練集損失和驗(yàn)證集損失最終相差不大,但ResNet101相較于ResNet50具有更低的損失值,故ResNet101作為主干特征提取網(wǎng)絡(luò)時(shí)模型的性能較好。由表2可知,ResNet101作為主干特征提取網(wǎng)絡(luò)時(shí)模型的mAP、mIoUmask和mIoUmask這3個(gè)指標(biāo)表現(xiàn)較好,但采用ResNet50時(shí)模型的性能指標(biāo)和其相近,且?guī)矢?,意味著其檢測(cè)速度更快。綜合考慮網(wǎng)絡(luò)模型的訓(xùn)練效果、模型復(fù)雜度及檢測(cè)速度,選擇ResNet50作為Mask R-CNN模型主干特征提取網(wǎng)絡(luò)。視頻分幀時(shí),每秒讀取6幀圖像輸入網(wǎng)絡(luò)模型。
為驗(yàn)證SE-HDC-Mask R-CNN模型的可行性及有效性,利用原始數(shù)據(jù)集對(duì)其進(jìn)行訓(xùn)練,模型參數(shù)與Mask R-CNN模型一致,對(duì)比分析結(jié)果見表3。由表3可知:與Mask R-CNN模型相比,SE-HDC-Mask R-CNN模型對(duì)軌道和行人(大目標(biāo))的檢測(cè)精度及掩碼分割精度略低,但也具有較高精度;對(duì)信號(hào)燈和石塊(小目標(biāo))的檢測(cè)精度分別提升了0.7%和4.1%,IoUbox分別提升了0.3%和2.4%,對(duì)石塊的掩碼分割精度提升了3.0%。
表3 SE-HDC-Mask R-CNN模型與Mask R-CNN50模型對(duì)比結(jié)果Table 3 Comparison results between SE-HDC-Mask R-CNN model and Mask R-CNN50 model %
SE-HDC-Mask R-CNN模 型 及 YOLOV2,YOLOV3-Tiny,SSD,F(xiàn)aster R-CNN,Mask R-CNN等模型在同一數(shù)據(jù)集下的目標(biāo)識(shí)別結(jié)果綜合評(píng)價(jià)見表4。由表4可知:相較于YOLOV2,YOLOV3-Tiny,SSD,F(xiàn)aster R-CNN等模型,SE-HDC-Mask R-CNN模型的mAP和mIoUbox均有較大提升;相較于Mask R-CNN模型,mAP,mIoUmask,mIoUbox均提升了0.5%。
表4 不同網(wǎng)絡(luò)模型的評(píng)價(jià)結(jié)果Table 4 Evaluation results of different network models %
采用不同網(wǎng)絡(luò)模型進(jìn)行目標(biāo)檢測(cè)及分割,結(jié)果如圖7所示。由圖7(a)-圖7(c)可明顯看出,SE-HDC-Mask R-CNN50模型可有效檢測(cè)出短軌道且目標(biāo)掩碼更接近于原始掩碼。由圖7(b)-圖7(e)、圖7(g)可看出,SE-HDC-Mask R-CNN模型對(duì)石塊和遠(yuǎn)處信號(hào)燈的檢測(cè)準(zhǔn)確度高于其他模型。由圖7(f)可知,YOLOV3-Tiny模型雖能識(shí)別石塊和信號(hào)燈等小目標(biāo),但檢測(cè)精度低于SE-HDC-Mask R-CNN模型。
結(jié)合表4及圖7可知,與其他模型相比,SE-HDCMask R-CNN模型能對(duì)井下軌道、石塊及其他小型障礙物進(jìn)行檢測(cè),有效解決小目標(biāo)漏檢問題,且提取的目標(biāo)掩碼更接近于原始掩碼。
圖7 井下電機(jī)車行駛場(chǎng)景中不同網(wǎng)絡(luò)模型的目標(biāo)檢測(cè)及分割結(jié)果Fig. 7 Object detection and segmentation results of different network models in underground electric locomotive driving scene
考慮到煤礦井下巷道環(huán)境惡劣,為驗(yàn)證模型能否適應(yīng)電機(jī)車行駛的不同場(chǎng)景,在煤巷直軌、彎軌、黑暗環(huán)境、多目標(biāo)重疊等不同場(chǎng)景下進(jìn)行模型測(cè)試,結(jié)果如圖8所示。由圖8可知,SE-HDC-Mask R-CNN模型在多種場(chǎng)景下均可有效實(shí)現(xiàn)目標(biāo)檢測(cè)。
圖8 SE-HDC-Mask R-CNN模型在不同場(chǎng)景下的目標(biāo)檢測(cè)結(jié)果Fig. 8 Object detection results of SE-HDC-Mask R-CNN model in different scenarios
綜上,雖然煤礦井下巷道環(huán)境惡劣,但SE-HDCMask R-CNN模型可有效檢測(cè)前方目標(biāo),可為后續(xù)目標(biāo)障礙物的識(shí)別奠定基礎(chǔ),該模型具有一定泛化能力及較高魯棒性,基本滿足電機(jī)車無人駕駛障礙物檢測(cè)需求。
(1) 嵌有SE模塊和HDC的主干特征提取網(wǎng)絡(luò)可提高M(jìn)ask R-CNN模型對(duì)特征的利用率,增強(qiáng)信息關(guān)聯(lián)性,提高對(duì)小目標(biāo)物體的檢測(cè)精度。視頻間隔分幀方式可在一定程度上滿足煤礦巷道中電機(jī)車的實(shí)時(shí)檢測(cè)需求。
(2) SE-HDC-Mask R-CNN模型可有效識(shí)別井下電機(jī)車行駛場(chǎng)景中的目標(biāo),降低目標(biāo)漏檢、誤檢概率,提高掩碼分割精度。改進(jìn)后的模型具有較高目標(biāo)識(shí)別精度,與Mask R-CNN模型相比,mAP,mIoUmask,mIoUbox均提升了0.5%,綜合性能優(yōu)于YOLOV2,YOLOV3-Tiny,SSD,F(xiàn)aster R-CNN等模型。
(3) 不同場(chǎng)景下的測(cè)試結(jié)果表明,SE-HDCMask R-CNN模型在煤巷直軌、彎軌、黑暗環(huán)境、多目標(biāo)重疊等場(chǎng)景下均可有效實(shí)現(xiàn)目標(biāo)檢測(cè),具有一定的泛化能力及較高的魯棒性,基本滿足電機(jī)車無人駕駛障礙物檢測(cè)需求。