邵小強(qiáng),李 鑫,楊 濤,楊永德,劉士博,原澤文
(西安科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安 710054)
為了扎實(shí)推進(jìn)智慧礦山的建設(shè),提升企業(yè)整體的信息化、數(shù)字化水平,對井下監(jiān)控系統(tǒng)與巡檢機(jī)器人的檢測及跟蹤能力進(jìn)行全面升級是十分必要的。國家煤礦安監(jiān)局最新出臺的《煤礦井下單班作業(yè)人數(shù)限員規(guī)定》將礦井按生產(chǎn)能力分為7 檔,對于各檔次礦井下單班作業(yè)人數(shù)及采掘工作面作業(yè)人數(shù)做出限制。于是對井下人員進(jìn)行實(shí)時跟蹤及統(tǒng)計是避免發(fā)生安全事故的有效手段。但井下工作環(huán)境存在著光照不均,煤塵干擾嚴(yán)重等問題,導(dǎo)致工作人員無法長時間有效對監(jiān)控視頻進(jìn)行多場景監(jiān)控[1],且定點(diǎn)監(jiān)控覆蓋面有限。因此,使用巡檢機(jī)器人取代工作人員進(jìn)行實(shí)時監(jiān)控對于減輕職工工作強(qiáng)度,降低崗位安全風(fēng)險,實(shí)現(xiàn)企業(yè)減人增效和建設(shè)智慧礦山有著積極的作用[2]。
當(dāng)今目標(biāo)檢測算法分為2 大類:傳統(tǒng)機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)機(jī)器學(xué)習(xí)算法分為三部分:滑動窗口、特征提取、分類器[3]。此類算法針對性低、時間復(fù)雜度高、存在窗口冗余[4];并且手工設(shè)計的特征魯棒性差、泛化能力弱[5],這導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)算法逐漸被深度學(xué)習(xí)算法所取代[6]。李若熙等[7]通過YOLOv4[8]算法進(jìn)行井下人員檢測,在尋找目標(biāo)中心點(diǎn)時引入聚類分析算法,提升了模型的特征提取能力。楊世超[9]通過Faster-RCNN[10]算法進(jìn)行井下人員檢測,將井下監(jiān)控采集的圖像輸入到檢測模型中提取特征,利用區(qū)域建議網(wǎng)絡(luò)和感興趣區(qū)域池化得到目標(biāo)的特征圖,最后通過全連接層得到目標(biāo)的精確位置。董昕宇等[11]通過SSD[12]算法構(gòu)建了一種井下人員檢測模型,采用深度可分離卷積模塊和倒置殘差模塊構(gòu)建輕量化模型,提升了模型的檢測速度。陳偉等[13]提出一種基于注意力機(jī)制的無監(jiān)督礦井人員跟蹤算法,結(jié)合相關(guān)濾波和孿生網(wǎng)絡(luò)在跟蹤任務(wù)的優(yōu)勢,構(gòu)建輕量化目標(biāo)跟蹤模型。以上文獻(xiàn)都是利用深度學(xué)習(xí)算法實(shí)現(xiàn)井下人員檢測與跟蹤,但是當(dāng)出現(xiàn)目標(biāo)遮擋時,檢測效果均不佳;同時缺少對井下人員編碼統(tǒng)計的能力;而且模型參數(shù)量較大,檢測速率也有待提高[14]。
針對上述問題,基于YOLOv5s[15]和DeepSORT[16]模型進(jìn)行改進(jìn),使用改進(jìn)輕量化網(wǎng)絡(luò)ShuffleNetV2[17]替代YOLOv5s 主干網(wǎng)絡(luò)CSP-Darknet53[18],使得模型在保持精度的同時降低了計算量。同時在改進(jìn)ShuffleNetV2 中添加Transformer[19]自注意力模塊來強(qiáng)化模型深淺特征的全局提取能力。接著使用Bi-FPN[20]結(jié)構(gòu)替換原Neck 結(jié)構(gòu),使多尺度特征能夠有效融合。最后使用更深層卷積強(qiáng)化DeepSORT 的外觀信息提取能力,有效的提取圖像的全局特征和深層信息,減少了目標(biāo)編碼切換的次數(shù)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型有效解決了人員遮擋時檢測效果不佳及編碼頻繁切換的問題。
YOLOv5 是當(dāng)前深度學(xué)習(xí)主流的One-Stage結(jié)構(gòu)目標(biāo)檢測網(wǎng)絡(luò),共有4 個版本:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。考慮到井下巡檢機(jī)器人的輕量化設(shè)計,本文采用深度最小,特征圖寬度最小的網(wǎng)絡(luò)Yolov5s。其分為輸入端Input、主干網(wǎng)絡(luò)Backbone、頸部網(wǎng)絡(luò)Neck、輸出端Head 四部分。輸入端通過Mosaic 數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計算、自適應(yīng)圖片縮放,使得模型適用于各種尺寸大小圖像的輸入的同時豐富了數(shù)據(jù)集,提升了網(wǎng)絡(luò)的泛化能力。主干網(wǎng)絡(luò)包含:焦點(diǎn)層(Focus),F(xiàn)ocus 結(jié)構(gòu)在之前的YOLO 系列[21-23,8]中沒有引入,它直接對輸入的圖像進(jìn)行切片操作,使得圖片下采樣操作時,在不發(fā)生信息丟失的情況下,讓特征提取更充分[24];跨階段局部網(wǎng)絡(luò)層(Cross Stage Partial Network,CSP),CSP[25]結(jié)構(gòu)是為了解決推理過程中計算量過大的問題;空間金字塔池化(Spatial Pyramid Pooling,SPP),SPP[26]結(jié)構(gòu)能將任意大小的特征圖轉(zhuǎn)換成固定大小的特征向量。Neck 中采用的是FPN+PAN 結(jié)構(gòu),負(fù)責(zé)對特征進(jìn)行多尺度融合。Head 輸出端負(fù)責(zé)最終的預(yù)測輸出,使用GIOU 損失函數(shù)作為位置回歸損失函數(shù),交叉熵?fù)p失函數(shù)作為類別損失函數(shù),其作用是在不同尺度的特征圖上預(yù)測不同大小的目標(biāo)。
提出的井下人員檢測框架如圖1 所示。首先將井下巡檢機(jī)器人所采集的圖像逐幀輸入到改進(jìn)YOLOv5s 中進(jìn)行訓(xùn)練,從而獲取到網(wǎng)絡(luò)的訓(xùn)練權(quán)重,最后利用測試集圖像對本文改進(jìn)的目標(biāo)檢測算法進(jìn)行驗(yàn)證。
圖1 本文目標(biāo)檢測算法框架Fig.1 Detection framework of the proposed algorithm
由于YOLOv5s 具有較大的參數(shù)量,對于硬件成本要求較高,難以部署在小型的嵌入式設(shè)備或者移動端設(shè)備。因此使用輕量化網(wǎng)絡(luò)ShuffleNetV2 代替原主干網(wǎng)絡(luò)CSP-Darknet53,通過深度可分離卷積來代替?zhèn)鹘y(tǒng)卷積減小參數(shù)量的同時高效利用了特征通道與網(wǎng)絡(luò)容量,使得網(wǎng)絡(luò)仍保持較高的精度[27]。表1 展示了改進(jìn)ShuffleNetV2 結(jié)構(gòu),本文將原結(jié)構(gòu)中最大池化卷積層采用深度可分離卷積進(jìn)行替換,實(shí)現(xiàn)了通道和區(qū)域的分離,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力同時也降低了參數(shù)量;使用全局池化層替換原結(jié)構(gòu)中的全連接層進(jìn)行特征融合,保留了前面卷積層提取到的空間信息,提升了網(wǎng)絡(luò)的泛化能力。
表1 改進(jìn)ShuffleNetV2 結(jié)構(gòu)Table 1 Improve the structural ShuffleNetV2
Transformer 整個網(wǎng)絡(luò)結(jié)構(gòu)由自注意力模塊和前饋神經(jīng)網(wǎng)絡(luò)組成。Transformer 采用自注意力機(jī)制,將序列中的任意兩個位置之間的距離縮小為一個定值,具有更好的并行性,符合現(xiàn)有的GPU 框架[28]。本文在改進(jìn)ShuffleNetV2 中引入Transformer 自注意力模塊,與原始網(wǎng)絡(luò)相比,添加Transformer 模塊可以提取到更加豐富的圖像全局信息與潛在的特征信息,提升了模型的泛化能力。
本文融入的Transformer 塊結(jié)構(gòu)圖如圖2 所示,其主要由以下3 部分構(gòu)成。
圖2 Transformer 塊結(jié)構(gòu)Fig.2 Transformer block structure
高效自注意力層(Efficient Self-Attention)可以通過圖像形狀重塑,縮短遠(yuǎn)距離特征依賴間距,使網(wǎng)絡(luò)更加全面地捕獲圖像特征信息[29]。自注意力公式如式(1)所示。
式中,(Wq,Wk,Wv)為權(quán)重矩陣,負(fù)責(zé)將X映射為語義更深的特征向量Q,K,V,而dk為特征向量長度。
高效自注意力層通過位置編碼來確定圖像的上下文信息,輸出圖像的分辨率是固定的,當(dāng)測試集圖像與訓(xùn)練集圖像的分辨率不同時,會采用插值處理來保證圖像尺度一致,但是這樣會影響模型的準(zhǔn)確率[30]。針對此問題,本文在高效自注意力層后連接混合前饋網(wǎng)絡(luò)(Mix Feedforward Network,Mix-FFN)來彌補(bǔ)插值處理對泄露位置信息的影響?;旌锨梆伨W(wǎng)絡(luò)計算公式如式(2)、式(3)所示:
式中,xin為上層輸出;Norm 為歸一化處理;MLP 為多層感知機(jī);GELU 代表激活函數(shù)。
重疊塊壓縮層(Overlapping Block Compression,OBC)用于壓縮圖像尺寸和改變圖像通道數(shù),保留尺度穩(wěn)定的特征,簡化模型復(fù)雜度和降低冗余信息。
原始YOLOv5s 的Neck 部分采用的是FPN+PAN 結(jié)構(gòu),F(xiàn)PN 是自頂向下,將高層的強(qiáng)語義特征向底層傳遞,增強(qiáng)了整個金字塔的語義信息,但是對定位信息沒有傳遞。PAN 就是在FPN 的后面添加一個自底向上的路徑,對FPN 進(jìn)行補(bǔ)充,將底層的強(qiáng)定位信息傳遞上去。但是該結(jié)構(gòu)的融合方式是將所有的結(jié)構(gòu)圖轉(zhuǎn)換為相同大小后進(jìn)行級聯(lián),沒有將不同尺度之間的特征充分利用,使得最終的目標(biāo)檢測精度未達(dá)到最優(yōu)。因此,本文采用一種更為高效的Bi-FPN 特征融合結(jié)構(gòu)進(jìn)行替代。其結(jié)構(gòu)如圖3 所示,相較于原始特征融合結(jié)構(gòu),BiFPN 能更有效的結(jié)合位于低層的定位信息與高層的語義信息,同時在通道疊加時將權(quán)重信息考慮進(jìn)去,實(shí)現(xiàn)雙向多尺度特征融合,通過不斷調(diào)參確定不同分辨率的特征重要性,如式(4)所示。
圖3 BiFPN 結(jié)構(gòu)Fig.3 BiFPN structure
式中,i為第i個權(quán)重;j為權(quán)重總個數(shù);ln 為輸入特征;Out 為輸出特征;ωi為權(quán)重。
將主干網(wǎng)絡(luò)中Transformer 模塊提取出大小不同的特征圖通過BiFPN 進(jìn)行融合,可以更加有效地融合全局深淺層的信息與關(guān)鍵的局部信息,將第一次下采樣得到的特征圖與后面的特征圖進(jìn)行跨層連接,使得定位信息能夠獲取充分,提升了模型小目標(biāo)的檢測性能;在特征融合時刪除對模型貢獻(xiàn)較低的節(jié)點(diǎn),在同尺度特征節(jié)點(diǎn)間增加跳躍連接,減少了計算量;最終在提高模型精度及泛化能力的同時降低了漏檢率且?guī)缀醪辉黾舆\(yùn)行成本。
使用本文提出的檢測模型與改進(jìn)DeepSORT 跟蹤算法搭配實(shí)現(xiàn)對井下人員的跟蹤,首先將監(jiān)測圖像輸入到改進(jìn)Yolov5s 目標(biāo)檢測網(wǎng)絡(luò),得到檢測結(jié)果,然后通過改進(jìn)DeepSORT 算法逐幀對人員進(jìn)行匹配,得到他們的軌跡信息,最后輸出跟蹤圖像。
DeepSORT 是針對多目標(biāo)的跟蹤算法,其核心是利用卡爾曼濾波和匈牙利匹配算法,將跟蹤結(jié)果和檢測結(jié)果之間的IOU (Intersection over Union,交并比)作為代價矩陣,實(shí)現(xiàn)對移動目標(biāo)的跟蹤。
為了跟蹤檢測模型找出的作業(yè)人員,DeepSORT使用8 維變量x 來描述作業(yè)人員的外觀信息和在圖像中的運(yùn)動信息,如式(5)所示。
式中:(u,v)為 井下人員的中心坐標(biāo);γ為人員檢測框的寬高比;q為 人員檢測框的高;為 (u,v,γ,q)相應(yīng)的速度信息。
DeepSORT 結(jié)合井下人員的運(yùn)動信息與外觀信息,使用匈牙利算法對預(yù)測框和跟蹤框進(jìn)行匹配,對于人員的運(yùn)動信息,采用馬氏距離描述卡爾曼濾波的預(yù)測結(jié)果和改進(jìn)YOLOv5s 檢測結(jié)果之間的關(guān)聯(lián)程度,如式(6)所示。
式中:dj為 第j個檢測框;yj為第i個檢測框的狀態(tài)向量;Si為i條軌跡之間的標(biāo)準(zhǔn)差矩陣。
當(dāng)井下行人被障礙物長時間遮擋時,外觀模型就會發(fā)揮作用,此時特征提取網(wǎng)絡(luò)會對每個檢測框計算出一個128維特征向量,限制條件為同時對檢測到的每個人員構(gòu)建一個確定軌跡的100 幀外觀特征向量。通過式(7)計算出這兩者間的最小余弦距離。
式中:rj為檢測框?qū)?yīng)的特征向量;rk為100 幀已成功關(guān)聯(lián)的特征向量。
馬氏距離在短時預(yù)測時提供可靠的目標(biāo)位置信息,使用外觀特征的最小余弦距離可使得遮擋目標(biāo)重新出現(xiàn)后恢復(fù)目標(biāo) ID,為了使兩種度量的優(yōu)勢互補(bǔ),最終將兩種距離進(jìn)行線性加權(quán)作為最終度量,公式如式(8)所示。
式中:λ為權(quán)重系數(shù),若ci,j落在指定閾值范圍內(nèi),則認(rèn)定實(shí)現(xiàn)正確關(guān)聯(lián)。
原始DeepSORT 的外觀特征提取采用一個小型的堆疊殘差塊完成,包含兩個卷積層和六個殘差網(wǎng)絡(luò)。該模型在大規(guī)模路面行人檢測數(shù)據(jù)集上訓(xùn)練后,可以取得很好的效果,但是井下環(huán)境光照不均勻,煙塵干擾嚴(yán)重,導(dǎo)致對井下人員跟蹤的效果不理想,于是本文采用高效特征提取架構(gòu)OSA(one shot aggregation)來替代原DeepSORT 外觀模型中的堆疊殘差塊以強(qiáng)化DeepSORT 的外觀特征提取能力,有效的提取圖像中的全局特征和深層信息,達(dá)到減少人員編碼切換次數(shù)的作用,OSA 結(jié)構(gòu)如圖4 所示。
圖4 OSA 結(jié)構(gòu)Fig.4 OSA structure
在外觀狀態(tài)更新時,采用指數(shù)平均移動的方式替代特征集合對第t幀的第i個運(yùn)動軌跡的外觀狀態(tài)進(jìn)行更新。如式(9)所示。
本文采用Caltech 行人數(shù)據(jù)集(Caltech Pedestrian Detection Benchmark)、INRIA 行人數(shù)據(jù)集(INRIA Person Dataset)及自建井下人員檢測及跟蹤數(shù)據(jù)集對所提檢測及跟蹤算法井下進(jìn)行驗(yàn)證。
1) Caltech 行人數(shù)據(jù)集:此數(shù)據(jù)集為目前規(guī)模較大的行人數(shù)據(jù)集,使用車載攝像頭錄制不同天氣狀況下10 h 街景,擁有人員遮擋、目標(biāo)尺度變化大、背景復(fù)雜等多種情形,標(biāo)注超過25 萬幀,35 萬個矩形框,2 300 個行人。同時注明了不同矩形框之間的時間關(guān)系及人員遮擋情況。
2) INRIA 行人數(shù)據(jù)集:此數(shù)據(jù)集為目前常見的靜態(tài)人員檢測數(shù)據(jù)集,數(shù)據(jù)集中人員身處不同光線條件及地點(diǎn)。訓(xùn)練集擁有正樣本1 000 張,負(fù)樣本1 500張,包含3 000 個行人;測試集包含正樣本350 張,負(fù)樣本500 張,包含1 200 個行人,該數(shù)據(jù)集人員以站姿為主且高度均超100 個像素,圖片主要來源于谷歌,故清晰度較高。
3)自建井下人員檢測及跟蹤數(shù)據(jù)集:采集井下巡檢機(jī)器人與監(jiān)控視頻拍攝的10 萬幀圖像,篩選其中8 000 幀相似程度較低的圖像構(gòu)建數(shù)據(jù)集。首先使用ffmpeg 工具將圖像按幀切為圖片,其中涵蓋井下各種環(huán)境:光照不均2 267 張、煤塵嚴(yán)重1 568 張、目標(biāo)遮擋3 891 張、其余環(huán)境1 200 張。其次采用Python 編寫的Labelimg 對圖片中人員進(jìn)行標(biāo)注,自動將人員位置及尺寸生成xml 文件,最終轉(zhuǎn)為適用于yolo 系列的txt 文件,包含每張圖片中人員的中心位置(x,y)、高(h)、寬(w)三項(xiàng)信息。如圖5 所示,該數(shù)據(jù)集包含上萬個人工標(biāo)記的檢測框。由于本文算法應(yīng)用于井下人員的檢測及追蹤,故數(shù)據(jù)集中僅含“person”一個類。將圖片數(shù)量按照7∶2∶1 分為訓(xùn)練集、驗(yàn)證集和測試集。
圖5 自建井下人員檢測及跟蹤數(shù)據(jù)集Fig.5 Self-built downhole personnel detection and tracking data sets
試驗(yàn)使用平臺參數(shù)如下:
檢測算法評價指標(biāo):使用模型參數(shù)量、檢測時間、召回率Mr、準(zhǔn)確率Mp、漏檢率Mm,誤檢率Mf及mAP@0.5 作為檢測算法的評價指標(biāo)。
式中:Tp為被正確檢測出的井下人員;FN為未被檢測到的井下人員;FP為被誤檢的井下人員;TN為未被誤檢的井下人員;mAP 為不同召回率上正確率的平均值。
跟蹤算法評價指標(biāo):
1)編碼變換次數(shù)(ID switch,IDS),跟蹤過程中人員編號變換及丟失的次數(shù),數(shù)值越小說明跟蹤效果越好。
2)多目標(biāo)跟蹤準(zhǔn)確率(Multiple Object Tracking Accuracy),用于確定目標(biāo)數(shù)及跟蹤過程中誤差累計情況,如式(15)所示。
式中:Mm為漏檢率;Mf為誤檢率;IDS為編碼轉(zhuǎn)換次數(shù);GTt為目標(biāo)數(shù)量;n為圖片數(shù)量;t為第t張圖片。
3)多目標(biāo)跟蹤精度(Multiple Object Tracking Precision,PMOT),用于衡量目標(biāo)位置的精確程度,如式(16)所示。
式中:dt,i為目標(biāo)i與標(biāo)注框間的平均度量距離;ct為t幀匹配成功的數(shù)目。
4)每秒檢測幀數(shù) (Frames Per Second,FPS)及模型參數(shù)量,體現(xiàn)模型運(yùn)行的速率及成本。
將本文算法通過自建井下人員檢測及跟蹤數(shù)據(jù)集進(jìn)行訓(xùn)練,輸入圖像大小為 608×608,迭代次數(shù)為300,批次大小為 16,初始學(xué)習(xí)率設(shè)置為 0.01,后 150輪的訓(xùn)練學(xué)習(xí)率降為 0.001。動量設(shè)置為0.937,衰減系數(shù)為0.005。訓(xùn)練損失變化如圖6 所示??梢钥闯瞿P腿悡p失函數(shù)收斂較快且都收斂于較低值,表明改進(jìn)算法具有良好的收斂能力與魯棒性。
圖6 損失函數(shù)曲線Fig.6 Loss function curve
為了驗(yàn)證本文改進(jìn)檢測算法的有效性以及輕量化主干網(wǎng)絡(luò)選擇的合理性,將本文算法與YOLOv5s模型和YOLOv5s-ShuffleNetV2 通過自建井下人員檢測及跟蹤數(shù)據(jù)集進(jìn)行對比。
從圖7 中可以看出,原始YOLOv5s 算法迭代到40 次時,準(zhǔn)確率上升到0.86 左右,最終收斂在0.87 左右;YOLOv5s-ShuffleNetV2 在迭代到40 次時,準(zhǔn)確率上升到0.84 左右,最終收斂在0.85 左右;而本文所提算法在迭代40 次時,準(zhǔn)確率上升到0.91 左右,最終收斂在0.92 左右,較原始YOLOv5s 模型提升了5.1%。
圖7 準(zhǔn)確率曲線Fig.7 Accuracy rate curve
從圖8 中可以看出,原始YOLOv5s 算法在迭代到40 次時,mAP上升到0.85 左右,最終收斂在0.86左 右;YOLOv5s-ShuffleNetV2 在迭代到40 次時,mAP上升到0.85 左右,最終收斂在0.85 左右;而本文算法的迭代到40 次時,mAP上升到0.89 左右,mAP最終收斂在0.90 左右,較原始YOLOv5s 模型提升了5.2%。綜上所述,本文選取的輕量化網(wǎng)絡(luò)ShuffleNetV2 可以使得檢測模型保持一定精度的同時降低計算量;輕量化主干的改進(jìn)、注意力機(jī)制的引入以及多尺度的融合對于目標(biāo)檢測性能有著明顯的提升,因此,本文檢測算法對于井下復(fù)雜環(huán)境中的人員檢測具有良好的精度。
圖8 mAP 曲線Fig.8 mAP curve
在YOLOv5s 算法的基礎(chǔ)上進(jìn)行了改進(jìn)輕量化主干網(wǎng)絡(luò)的替換ShuffleNetv2、Transformer 自注意力機(jī)制模塊的融入、Neck 部分進(jìn)行BiFPN 的替換。為了檢驗(yàn)本文對檢測階段各改進(jìn)點(diǎn)的有效性,以YOLOv5s 模型為基準(zhǔn),使用消融實(shí)驗(yàn)在相同環(huán)境下進(jìn)行進(jìn)行驗(yàn)證,各模型參數(shù)設(shè)置保持一致,具體消融試驗(yàn)結(jié)果見表2。
表2 消融試驗(yàn)結(jié)果Table 2 Ablation results
由表2 可以看出,原始YOLOv5s 的主干網(wǎng)絡(luò)替換后,準(zhǔn)確率下降了1.4%,速率提升了34%。在模型2 中添加Transformer 自注意力模塊后,準(zhǔn)確率提升了2.8%。在模型2 中使用BiFPN 替代原來的特征融合結(jié)構(gòu)后,準(zhǔn)確率提升了2.1%。在模型2 中同時添加Transformer 自注意力機(jī)制模塊和BiFPN 模塊,準(zhǔn)確率提升了7.4%,平均漏檢率下降了40%,召回率提升了8.4%,平均誤檢率下降了51%。綜上所述,單獨(dú)添加Transformer 自注意力模塊和BiFPN 模塊,井下人員檢測性能提升有限,而兩種模塊組合添加時,井下人員檢測性能獲得了很大的提升。相比于原始算法,準(zhǔn)確率提升了5.2%;參數(shù)量下降了41%;檢測速率提升了21%,達(dá)到0.014 8 s/幀;為部署于巡檢機(jī)器人奠定了基礎(chǔ)。
為了驗(yàn)證文中檢測算法具有良好的泛化能力,在2 個公開行人數(shù)據(jù)集Caltech 行人數(shù)據(jù)集、INRIA行人數(shù)據(jù)集上進(jìn)行進(jìn)一步驗(yàn)證,性能指標(biāo)對比見表3。通過比較3 個不同數(shù)據(jù)集中的性能指標(biāo),可以看出文中算法不僅適用于井下人員檢測,在目標(biāo)尺度變化大、背景復(fù)雜、光照劇烈等多數(shù)場景中人員檢測效果也均優(yōu)于原始YOLOv5s,因此,具有良好的泛化性與魯棒性。
表3 多數(shù)據(jù)集性能指標(biāo)對比Table 3 Comparison of performance indicators of multiple data sets
為了更加直觀地體現(xiàn)文中檢測算法的效果,選擇 Faster-RCNN、YOLOv3、YOLOv4、YOLOv5s 4 種主流算法在自建數(shù)據(jù)集中選取光照不均、煤塵干擾、多目標(biāo)移動、人員遮擋4 種場景進(jìn)行驗(yàn)證,檢測結(jié)果如圖9 所示。
圖9 主流目標(biāo)檢測結(jié)果對比Fig.9 Comparison of detection results of mainstream targets
從第一組試驗(yàn)中,可以觀察到光照不均嚴(yán)重,F(xiàn)aster-RCNN、YOLOv3、YOLOv4、YOLOv5s 均出現(xiàn)誤檢的情況,而本文算法使用了BiFPN 結(jié)構(gòu)使得多尺度特征能夠有效融合,對于遠(yuǎn)處小目標(biāo)檢測能夠起到了很好的識別作用。從第二組試驗(yàn)中,可以觀察到粉塵干擾嚴(yán)重,除文中算法外,其余算法出現(xiàn)漏檢、誤檢的情況,而文中算法由于融合了Transformer 自注意力模塊強(qiáng)化了模型深淺特征的全局提取能力,提升了目標(biāo)在復(fù)雜環(huán)境中的對比度,有效抑制了粉塵的干擾。從第三、四組試驗(yàn)得出,本文算法對于井下環(huán)境中多目標(biāo)移動對象及遮擋人員的檢測也具有良好的效果。綜上所述,文中檢測算法在井下各種復(fù)雜環(huán)境中檢測效果良好,與主流目標(biāo)檢測算法相比更適用于井下人員的檢測。
為了驗(yàn)證文中算法在井下人員多目標(biāo)跟蹤方面的表現(xiàn),本文通過自建井下人員檢測及跟蹤數(shù)據(jù)集上進(jìn)行驗(yàn)證,以YOLOv5s-DeepSort 為基準(zhǔn),使用原算法的參數(shù)設(shè)置,對檢測與跟蹤階段進(jìn)行消融試驗(yàn)來驗(yàn)證文中兩階段改進(jìn)各自的有效性,結(jié)果見表4。
表4 多目標(biāo)跟蹤結(jié)果對比Table 4 Comparison of multi-target tracking results
由表4 得出,文中目標(biāo)檢測階段的改進(jìn)在有效提升井下人員的檢測精度的同時提升了檢測速度,而跟蹤階段的改進(jìn)有效減少了人員編號的轉(zhuǎn)換,可以在出現(xiàn)人員遮擋的情況下有效提升檢測的精度。文中檢測及跟蹤算法最終達(dá)到89.17%的精度;速率達(dá)到67 幀;人員編碼改變次數(shù)僅4 次,目標(biāo)編號改變次數(shù)降低了66.7%;參數(shù)量縮減到原始跟蹤算法的23%??梢院芎玫臐M足井下人員實(shí)時檢測及跟蹤的需求。
為了更加直觀展示文中跟蹤算法的效果,文中選用戴德KJXX12C 型防爆礦用巡檢機(jī)器人進(jìn)行驗(yàn)證,如圖10a 所示,該裝置搭載本安型“雙光譜”攝像儀,最小照度達(dá)彩色0.002 lux,高粉塵環(huán)境下,可通過紅外攝像儀輔助采集井下圖像。采集與控制系統(tǒng)采用STM32ZET6 芯片,上位機(jī)檢測及跟蹤主控系統(tǒng)采用Windows 版工控機(jī)。圖像信息會通過千兆無線通訊傳輸在遠(yuǎn)端上位機(jī),將環(huán)境運(yùn)行代碼安裝于上位機(jī)。圖像信息經(jīng)過本文算法處理,結(jié)果將存儲并實(shí)時顯示于主控界面,如圖10b 所示,主控界面采用CS 架構(gòu),由C#語言編寫。監(jiān)測人員通過主控界面實(shí)時及歷史數(shù)據(jù)對工作面作業(yè)人數(shù)是否合格進(jìn)行判斷。
圖10 巡檢機(jī)器人多目標(biāo)跟蹤效果Fig.10 Inspection robot multi-target tracking effect
從圖10c,圖10d,圖10e 中可以觀察到,在井下光照不足的環(huán)境中,井下2 個作業(yè)人員相互遮擋并且持續(xù)行走一段距離后,巡檢機(jī)器人能夠進(jìn)行穩(wěn)定的檢測跟蹤并且其編號沒有發(fā)生改變,實(shí)現(xiàn)有效計數(shù),也能夠證明我們改進(jìn)的算法在復(fù)雜環(huán)境中出現(xiàn)井下人員遮擋時,也會在后續(xù)幀中匹配到被遮擋人員,對于遮擋情況具有良好的魯棒性。
1) 提出了一種改進(jìn)YOLOv5s 和DeepSORT 的井下人員檢測及跟蹤算法。在YOLOv5s 模型的基礎(chǔ)上,使用輕量化網(wǎng)絡(luò)ShuffleNetV2 替換了原主干網(wǎng)絡(luò)CSP-Darknet53,減少了模型的參數(shù)量。同時融入Transformer 自注意力模塊,可以提取到更多潛在的特征信息。使用多尺度特征融合網(wǎng)絡(luò)BiFPN 替換原Neck 結(jié)構(gòu),能更好的融合全局深淺層信息與關(guān)鍵的局部信息。跟蹤階段使用更深層卷積強(qiáng)化了DeepSORT 的外觀信息提取能力。
2) 利用自建井下人員檢測及跟蹤數(shù)據(jù)集對本文算法進(jìn)行驗(yàn)證。結(jié)果表明,本文井下人員檢測算法的準(zhǔn)確率達(dá)到了92%,檢測速率達(dá)到0.0148 s/幀。多目標(biāo)跟蹤算法準(zhǔn)確率提高到了89.17%,目標(biāo)編號改變次數(shù)降低了66.7%,并且擁有良好的實(shí)時性。
3) 構(gòu)建的改進(jìn)YOLOv5s 和DeepSORT 的井下人員檢測與跟蹤算法能夠?qū)崿F(xiàn)在井下復(fù)雜環(huán)境中對人員的實(shí)時檢測及跟蹤,其參數(shù)量也縮減到原來的23%,不僅可以部署于煤礦監(jiān)控系統(tǒng),也可以部署在井下巡檢機(jī)器人等小型嵌入式設(shè)備上,可以為井下人員的安全生產(chǎn)提供良好的保障。對于國家礦山安全監(jiān)察局出臺的《煤礦井下單班作業(yè)人數(shù)限員規(guī)定》早日實(shí)現(xiàn)智能化監(jiān)測具有重要意義。