郝帥 楊晨祿 趙秋林 馬旭 孫曦子 王?,? 孫浩博 吳瑛琦
摘 要:災(zāi)害環(huán)境中,利用計算機(jī)視覺可以有效協(xié)助消防員進(jìn)行救援,縮短搜救時間。針對受災(zāi)人體目標(biāo)受多尺度、部分遮擋以及環(huán)境干擾導(dǎo)致傳統(tǒng)算法難以準(zhǔn)確檢測的問題,提出一種基于雙分支頭部解耦和注意力模型的災(zāi)害環(huán)境人體檢測網(wǎng)絡(luò)。首先,為解決災(zāi)害環(huán)境下小尺度人體目標(biāo)造成的漏檢問題,在YOLOv5框架下,構(gòu)造淺層檢測層以增強(qiáng)網(wǎng)絡(luò)對小目標(biāo)識別能力;其次,針對災(zāi)害環(huán)境中人體目標(biāo)易淹沒在復(fù)雜背景中進(jìn)而導(dǎo)致目標(biāo)特征無法有效表達(dá)的問題,通過融合輕量化注意力模塊以增強(qiáng)人體目標(biāo)的顯著度,并在特征的原始輸入和輸出節(jié)點間添加連接以提高網(wǎng)絡(luò)多尺度特征融合能力;最后,為了減少人體檢測網(wǎng)絡(luò)中分類和回歸任務(wù)的差異性對檢測性能造成的影響,構(gòu)建雙分支頭部解耦檢測器分別用于人體目標(biāo)的識別和定位。為驗證所提算法的優(yōu)勢,在多種災(zāi)害救援場景下進(jìn)行測試驗證,并與5種經(jīng)典算法進(jìn)行比較。相較于對比算法,所提算法精度最高,平均精度和召回率分別可達(dá)92.2%和90.5%,不僅能夠準(zhǔn)確檢測出人體目標(biāo),而且具有良好的實時性和魯棒性。
關(guān)鍵詞:深度學(xué)習(xí);人體檢測;多尺度檢測;注意力機(jī)制;解耦檢測器
中圖分類號:TP 391
文獻(xiàn)標(biāo)志碼:A
文章編號:1672-9315(2023)04-0797-10
DOI:10.13800/j.cnki.xakjdxxb.2023.0417
Pedestrian detection method in disaster environment based on
double branch Decoupled Head and Attention Mechanism
HAO Shuai,YANG Chenlu,ZHAO Qiulin,MA Xu,SUN Xizi,
WANG Haiying,SUN Haobo,WU Yingqi
(College of Electrical and Control Engineering,Xian University of Science and Technology,Xian 710054,China)Abstract:
Computer vision can facilitate the resue of firefighters in a disaster with the searching time shortened.
To solve the problem that the traditional algorithm is difficult to accurately detect the human body target in a disaster environment due to multi-scale,partial occlusion and environmental interference,a human body detection network based on decoupled head and attention model is proposed.Firstly,for the missing detection caused by small-scale human body targets in disaster environment,YOLOv5 framework was used to construct a shallow detection layer to enhance the recognition ability of the network for small targets.Secondly,aiming at the problem that human targets are prone to submerge in a complex background in a disaster environment,which leads to the inability to effectively express the target features,the lightweight attention module was fused to enhance the saliency of human targets,and the links were added between the original input and output nodes of features to improve the multi-scale feature fusion capability of the network.Finally,in order to reduce the influence of the differences between classification and regression tasks on the detection performance in the human detection network,a decoupled head was constructed for human target recognition and localization respectively.And the advantages of the proposed algorithm have been verified in various disaster rescue scenarios over those with five classical algorithms.
Compared to the comparison algorithm,the proposed algorithm has the
highest accuracy,and the mean avearage precision and recall rate can reach 92.2% and 90.5% respectively.
It can not only accurately detect human targets,but also has good real-time and robustness.
Key words:deep learning;pedestrian detection;multi scale detection;attention mechanism;decoupling detector
0 引 言
人體檢測作為目標(biāo)檢測領(lǐng)域的一個重要研究方向分支,在智能監(jiān)控[1]、道路交通[2]、緊急救援[3]等領(lǐng)域被廣泛應(yīng)用。自然災(zāi)害環(huán)境中,如地震、山地滑坡、洪水等,利用計算機(jī)視覺對受災(zāi)人員進(jìn)行快速、準(zhǔn)確定位是應(yīng)急救援的重要輔助手段。然而,自然災(zāi)害的巨大破壞性往往使救援現(xiàn)場處于一個危險而又復(fù)雜的場景中,進(jìn)而導(dǎo)致受災(zāi)人員肢體可能被部分掩埋,給救援的準(zhǔn)確性和時效性造成一定影響。因此,面向復(fù)雜災(zāi)害環(huán)境下,探索一種快速、準(zhǔn)確的人體檢測方法可以協(xié)助救援人員迅速完成對受災(zāi)人員的搜救,對于智能化應(yīng)急救援的實現(xiàn)具有重要意義。
目前,人體檢測算法主要分為2大類:傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[4]。傳統(tǒng)機(jī)器學(xué)習(xí)主要是利用滑窗技術(shù)實現(xiàn)人工特征提取,并結(jié)合分類器實現(xiàn)人體目標(biāo)檢測,代表算法有HOG+SVM[5]、DPM[6]等。李闖等通過構(gòu)造相交檢測窗口對HOG特征進(jìn)行了優(yōu)化,并結(jié)合基于子單元插值法來提高人體目標(biāo)檢測精度[7]。戴植毅等使用DPM檢測算法對人體檢測,通過利用快速傅里葉變換和Soft Binning直方圖降維對算法進(jìn)行優(yōu)化,從而在保證檢測精度的同時提高人體目標(biāo)檢測速度[8]。楊鴿等提出一種基于HSV與RGB顏色空間的人體檢測與跟蹤算法,在RGB空間通過背景減除法實現(xiàn)人體目標(biāo)檢測,并在HSV空間對陰影進(jìn)行去除從而消除因光照和人體形變等因素造成的干擾[9]。傳統(tǒng)算法雖然能夠在一定條件下有效檢測人體,但人工設(shè)計的特征提取器在復(fù)雜的調(diào)參過程下,往往存在實時性欠缺、魯棒性差等問題,且只滿足特定場景下的檢測要求,從而導(dǎo)致其泛化能力有限。
近年來,基于深度學(xué)習(xí)的檢測算法已經(jīng)成為目標(biāo)檢測領(lǐng)域中的一種主流方法,其通過從海量數(shù)據(jù)中自動學(xué)習(xí)、提取目標(biāo)有用信息,從而實現(xiàn)目標(biāo)的準(zhǔn)確檢測?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法通過卷積神經(jīng)網(wǎng)絡(luò)可以有效完成特征提取、分類和回歸,從而實現(xiàn)端到端的學(xué)習(xí)。深度學(xué)習(xí)算法可以分為一階段檢測算法和二階段檢測算法。其中二階段算法包括R-CNN[10],F(xiàn)ast R-CNN[11],F(xiàn)aster R-CNN[12]等。賀藝斌等在Faster-RCNN算法框架下通過融合ResNet50網(wǎng)絡(luò)來提高對多尺度人體特征的提取能力,但其對于光線昏暗的場所檢測效果欠佳
[13-14]。陶祝等在Faster R-CNN網(wǎng)絡(luò)基礎(chǔ)上利用空間金字塔池化層替換原有池化層,并通過試驗證明該方法可以較好地解決大場景下人體部分遮擋問題[15]。雖然二階段檢測算法計算精度高但其檢測速度較慢,難以滿足復(fù)雜災(zāi)害環(huán)境下的實時檢測需求。
一階段檢測算法只需提取一次特征即可實現(xiàn)目標(biāo)檢測,能夠極大提高檢測速度,其中SSD[16],YOLO系列[17]算法表現(xiàn)較為出色。李國進(jìn)等為了增強(qiáng)卷積網(wǎng)絡(luò)提取特征能力,在SSD網(wǎng)絡(luò)中增加FPN結(jié)構(gòu)對人體進(jìn)行檢測,并通過試驗證明所提出的方法相比于原始網(wǎng)絡(luò)具有更高的檢測精度[18]。
YOLO系列算法能夠保證檢測精度的同時較好地兼顧算法的實時性[19]。李巖等在YOLOv3的基礎(chǔ)上采用一種基于歸一化層γ系數(shù)的模型剪枝方法,該方法能夠在保證人體目標(biāo)檢測精度的同時提高模型的檢測速度[20]。李挺等利用YOLOv4網(wǎng)絡(luò)對人體目標(biāo)進(jìn)行檢測,將原網(wǎng)絡(luò)中CSPDarknet53替換為Mobilenetv2以減少參數(shù)量,并在網(wǎng)絡(luò)中引入Bottom-up以連接減少淺層信息的丟失,最后加入CBAM注意力模塊增強(qiáng)人體目標(biāo)特征的表達(dá)能力[21],該方法能夠準(zhǔn)確檢測人體目標(biāo)的同時,具有良好的實時性。鄒有成等在YOLOv5框架下將激活函數(shù)替換為
SiLU激活函數(shù)來簡化網(wǎng)絡(luò)體系結(jié)構(gòu),從而提高重疊人體目標(biāo)的檢測精度[22]。
盡管YOLOv5目標(biāo)檢測算法具有模型體積小、檢測精度高、速度快等優(yōu)點,但是利用其進(jìn)行災(zāi)害環(huán)境下的人體目標(biāo)檢測時,仍然存在以下3個問題:
1)基于YOLOv5的主干特征提取網(wǎng)絡(luò)由于采用大量的卷積運算易造成部分小尺度目標(biāo)特征在進(jìn)行卷積提取特征時信息丟失,進(jìn)而導(dǎo)致災(zāi)害環(huán)境下人體小目標(biāo)檢測精度受限;
2)受復(fù)雜環(huán)境干擾,人體目標(biāo)可能受到部分遮擋造成目標(biāo)特征無法準(zhǔn)確表達(dá),進(jìn)而導(dǎo)致網(wǎng)絡(luò)檢測精度低;
3)人體在復(fù)雜場景中易被遮擋,進(jìn)而造成檢測網(wǎng)絡(luò)獲取的人體信息較少,最終導(dǎo)致預(yù)測框定位不準(zhǔn)確。
針對上述問題,在YOLOv5的框架下提出一種基于雙分支頭部解耦檢測器和注意力機(jī)制的多尺度人體檢測網(wǎng)絡(luò)。主要貢獻(xiàn)和創(chuàng)新點如下:
1)為解決受災(zāi)人體目標(biāo)受多尺度影響及小目標(biāo)特征提取困難的問題,將原有的三尺度特征層拓展為了四尺度特征層,并將同一特征原始輸入和輸出節(jié)點間建立連接以增強(qiáng)網(wǎng)絡(luò)多尺度特征融合能力;
2)為解決受災(zāi)人體目標(biāo)特征易淹沒于復(fù)雜背景中而導(dǎo)致檢測網(wǎng)絡(luò)精度下降問題,在C3模塊后引入注意力模塊以增強(qiáng)復(fù)雜災(zāi)害環(huán)境下人體特征顯著性,同時抑制復(fù)雜背景干擾;
3)為精準(zhǔn)定位目標(biāo)位置,構(gòu)建雙分支頭部解耦檢測器分別用于人體識別和定位,以使預(yù)測框坐標(biāo)更加精準(zhǔn);
4)為了進(jìn)一步提高密集人體目標(biāo)檢測精度,在網(wǎng)絡(luò)中引入Varifocal Loss優(yōu)化網(wǎng)絡(luò)參數(shù),提升檢測框定位精度。
1 YOLOv5算法理論
YOLOv5模型網(wǎng)絡(luò)主要由輸入層(Input)、主干層(Backbone)、頸部層(Neck)和輸出層(Output)4個部分組成,其結(jié)構(gòu)如圖1所示。
Input:將輸入圖像縮放到640×640,再經(jīng)過自適應(yīng)縮放、mosaic數(shù)據(jù)增強(qiáng),最后送入主干提取網(wǎng)絡(luò)中,并計算不同訓(xùn)練集中的最佳錨框值。
Backbone:主干網(wǎng)絡(luò)主要由CBS、C3以SPPF等組成,C3由3次卷積的CSPBottleneck模塊組成,CSPBottleneck模塊采用通道分離的思想,將輸入特征圖分為2個部分,分別進(jìn)行不同的處理。其中,一部分通過一個卷積層進(jìn)行降維處理,另一部分則直接進(jìn)行卷積操作,最后再將2個部分的結(jié)果進(jìn)行拼接。這種方式既能夠增加網(wǎng)絡(luò)的感受野和特征表示能力,又能夠降低計算量和參數(shù)數(shù)量,從而提高模型的性能和效率。SPPF模塊通過使用多個小尺寸池化核來取代SPP模塊中的單個大尺寸池化核,指定一個卷積核,每次池化后的輸出成為下一個池化的輸入,從而提高網(wǎng)絡(luò)運行速度。
Neck:使用FPN和PAN[23]相結(jié)合的方式從而加強(qiáng)網(wǎng)絡(luò)的特征融合能力。
Output:主體部分使用3個Detect檢測器對網(wǎng)絡(luò)進(jìn)行檢測。
2
構(gòu)建檢測網(wǎng)絡(luò)
所提出的基于雙分支頭部解耦檢測器和注意力機(jī)制的多尺度災(zāi)害環(huán)境下人體檢測網(wǎng)絡(luò)框架如圖2所示。所搭建網(wǎng)絡(luò)框架主要實現(xiàn)步驟如下。
Step1:選取災(zāi)害救援現(xiàn)場圖像和圖片數(shù)據(jù)制作數(shù)據(jù)集,其中2 624張作為訓(xùn)練樣本,其余656張作為測試樣本。
Step2:標(biāo)注訓(xùn)練數(shù)據(jù)集并設(shè)置訓(xùn)練初始參數(shù)進(jìn)行訓(xùn)練。
Step3:訓(xùn)練過程中構(gòu)建頸部網(wǎng)絡(luò),擴(kuò)充特征檢測尺度,在融合注意力機(jī)制同時將同一特征原始輸入和輸出節(jié)點間添加連接,以增強(qiáng)網(wǎng)絡(luò)對小目標(biāo)特征提取能力和多尺度特征融合能力。
Step4:在輸出層構(gòu)建雙分支頭部解耦檢測器分別用于人體識別和定位,使預(yù)測框坐標(biāo)更加精準(zhǔn)。
Step5:為了提升檢測框定位精度,引入Varifocal Loss優(yōu)化網(wǎng)絡(luò)參數(shù)。
Step6:訓(xùn)練結(jié)束得到預(yù)訓(xùn)練權(quán)重文件。
Step7:將預(yù)訓(xùn)練權(quán)重文件在測試數(shù)據(jù)集上進(jìn)行預(yù)測驗證。
2.1 頸部網(wǎng)絡(luò)重構(gòu)
災(zāi)害環(huán)境中,受災(zāi)人員可能被廢墟掩埋或被洪水淹沒造成人體目標(biāo)存在多尺度問題,從而造成傳統(tǒng)人體目標(biāo)檢測算法難以有效檢測。針對上述問題,在原YOLOv5的Neck部分添加淺層特征網(wǎng)絡(luò)作為檢測層以增強(qiáng)檢測網(wǎng)絡(luò)對小目標(biāo)人體識別能力;同時,在特征金字塔結(jié)構(gòu)中添加連接,提高網(wǎng)絡(luò)多尺度特征融合能力;最后,嵌入輕量注意模型(Efficient Channel Attention,ECA)以抑制復(fù)雜背景干擾。
2.1.1 小目標(biāo)檢測層
在YOLOv5的網(wǎng)絡(luò)中使用深度神經(jīng)網(wǎng)絡(luò)來提取目標(biāo)的特征表示,原始圖片的輸入尺寸為640×640,頸部網(wǎng)絡(luò)通過對原圖片的多次采樣操作,分別生成新特征圖尺度,大小為80×80、40×40、20×20。但在實際災(zāi)害環(huán)境中,受災(zāi)人員的隨機(jī)分布會造成人體目標(biāo)存在多尺度問題,尤其是一些尺寸較小的人體目標(biāo),經(jīng)過多次下采樣其大部分特征信息會消失,從而影響最終檢測效果。針對上述問題,在原YOLOv5網(wǎng)絡(luò)基礎(chǔ)上新增一層160×160的檢測層,將原有的特征融合部分改為四尺度特征融合,進(jìn)而能夠捕捉更多小尺寸的人體目標(biāo)信息。
2.1.2 特征金字塔重構(gòu)
YOLOv5采用FPN和PAN相結(jié)合的方式來提取特征,如圖3(a)所示。但PAN結(jié)構(gòu)無法提取網(wǎng)絡(luò)中的原始特征信息,會導(dǎo)致訓(xùn)練學(xué)習(xí)出現(xiàn)偏差,影響檢測準(zhǔn)確度。針對此問題,重構(gòu)原有的Neck結(jié)構(gòu),在PAN結(jié)構(gòu)的結(jié)點增加來自主干特征提取網(wǎng)絡(luò)中原始特征層的輸入,如圖2紅色箭頭線條所示。 在訓(xùn)練過程中獲得原始特征信息,避免訓(xùn)練學(xué)習(xí)過程偏離預(yù)期,從而提高模型的準(zhǔn)確性和可靠性,改進(jìn)后的結(jié)構(gòu)如圖3(b)所示。
2.1.3 ECA注意力模型
為了解決復(fù)雜背景干擾導(dǎo)致人體目標(biāo)顯著度較低的問題,引入ECA通道注意力模型,將其嵌入到特征金字塔的多個特征傳遞分支結(jié)構(gòu)中來提升人體特征提取的能力,進(jìn)而提高檢測網(wǎng)絡(luò)的檢測精度。ECA通道注意力模塊是對特征圖進(jìn)行特征通道自適應(yīng)篩選,強(qiáng)調(diào)學(xué)習(xí)突出信息,采用一種不降維局部跨信道交互策略和自適應(yīng)進(jìn)擇一維卷積核大小的方法,以極少參數(shù)量顯著提升特征提取質(zhì)量,其結(jié)構(gòu)如圖4所示。
從圖4可以看出,ECA通過全局平均池化,將輸入的特征圖從二維矩陣壓縮為具有全局信息的
1×1×C
數(shù)列(C為特征通道數(shù)),然后通過大小為k的快速一維卷積,在不降維的情況下生成通道權(quán)重,進(jìn)行局部跨通道交互,共享通道參數(shù),獲取各個通道之間的相關(guān)依賴關(guān)系,見式(1)
ω=σ(C1Dk(y))(1)
式中 ω為特征權(quán)重;C1D為一維卷積;
k為該區(qū)域跨通道交互的覆蓋范圍;y為聚合特征。
由于通道維數(shù)通常是2的指數(shù)倍,所以采用以2為底的指數(shù)函數(shù)來表示非線性關(guān)系,計算公式如下
C=r(k)=2(γ*k)-b (2)
因此,確定通道維數(shù)C,卷積核的大小k通過以下的公式計算得到
k=ψ(C)=|log2(C)/γ+b/γ| (3)
式中 γ,b分別為縮放因子和偏置項,分別取為2和1。然后把所得到各個通道的權(quán)重加權(quán)到原來的輸入特征圖上。
文中在C3模塊后引入ECA模型前后對比的結(jié)果如圖5所示,其中紅色部分表示顯著度較高的區(qū)域,并且顏色越深表示顯著度越高。
從圖5可以看出,通過引入ECA,可以提高復(fù)雜背景下待檢測人體目標(biāo)的顯著性,為后續(xù)進(jìn)一步準(zhǔn)確檢測人體目標(biāo)奠定了良好的基礎(chǔ)。
2.2 雙分支頭部解耦檢測器
受復(fù)雜災(zāi)害環(huán)境影響,受災(zāi)人員肢體可能被建筑、洪水等物體遮擋,進(jìn)而造成人體目標(biāo)檢測難度增大。被遮擋的人體目標(biāo)通常需要精確的定位信息來判斷位置,然而,在基于深度學(xué)習(xí)的目標(biāo)檢測的分類和定位任務(wù)中,兩者的關(guān)注點存在顯著差異:前者更加關(guān)注如何將特征圖與已知的類別進(jìn)行比較,以確定最佳的匹配結(jié)果;而后者則更加關(guān)注如何通過調(diào)整邊界框的參數(shù)來達(dá)到精確的定位。但通過同一個特征圖進(jìn)行分類和定位的效果不佳,會發(fā)生失調(diào)的問題[24]。
針對災(zāi)害環(huán)境中對被遮擋人體目標(biāo)定位不準(zhǔn)確的問題,文中將傳統(tǒng)的耦合檢測頭分離成2個具有獨立子任務(wù)的頭部分支,將輸入特征從空間維度進(jìn)行解耦,分別用于分類和定位,以此來提升圖像中人體目標(biāo)對分類和定位的敏感性和精確度,如圖6所示。
圖6中,H,W,C分別為著輸入特征圖的高度(Height),寬度(Width)以及通道數(shù)(Channel)。解耦檢測器首先對輸入特征圖通過1×1卷積降低通道維數(shù),以降低參數(shù)量的產(chǎn)生。特征圖輸出包括2條支路,一條支路負(fù)責(zé)分類,先使用2個3×3的卷積提取特征信息后,再通過1×1的卷積將特征圖的通道維數(shù)調(diào)整至預(yù)測目標(biāo)的類別數(shù)量,在該特征圖上完成分類;另一條支路負(fù)責(zé)定位,通過3×3卷積層提取特征后,將特征圖分為2個,一個根據(jù)獲取目標(biāo)的置信度分?jǐn)?shù)確定了該點真實目標(biāo)框與預(yù)測框的交并比,另一個則預(yù)測邊界框的中心坐標(biāo)以及框的寬度和高度{x,y,w,h}。相較于耦合頭部網(wǎng)絡(luò),解耦頭部結(jié)構(gòu)可以使網(wǎng)絡(luò)參數(shù)進(jìn)一步降低,同時減少了特征共用,從而提升模型對人體的定位和分類能力。
2.3 變焦損失
在YOLOv5中使用的Focal Loss可以有效解決樣本中類別不均衡問題,其中函數(shù)表達(dá)式如下
式中 p為經(jīng)過激活函數(shù)的輸出,即預(yù)測樣本屬于1的概率;y為真實標(biāo)簽值;α為平衡正負(fù)樣本的權(quán)重;(1-p)γ,pγ為調(diào)制每個樣本的權(quán)重,減少容易分類的樣本的權(quán)重,使得算法模型能夠更加精細(xì)地識別復(fù)雜的樣本,從而提升準(zhǔn)確度。
Varifocal Loss通過繼承Focal Loss的加權(quán)方法可以有效解決連續(xù)IACS(IoU-Aware Classification Score)中回歸時類別不平衡的問題,并且可以更好地優(yōu)化密集目標(biāo)訓(xùn)練中前景類和背景類之間極度不平衡的問題,從而更好地預(yù)測IACS,有效提升檢測目標(biāo)的定位精度存在置信度和定位精度,Varifocal loss定義為
式中 p為預(yù)測的IACS,代表目標(biāo)分?jǐn)?shù)。對于前景點時,將其ground truth類q設(shè)為生成的邊界框和它的ground truth(gt_IoU)之間的IoU,否則為0,在對于背景點時,所有類的目標(biāo)q為0。 引入Pγ縮放負(fù)樣本(q=0),同時將正樣本與訓(xùn)練目標(biāo)q加權(quán),對gt_IoU較高的正樣本,則它對損失的貢獻(xiàn)將會較高。最后,為了均衡正負(fù)樣本之間的比例,在損失函數(shù)中增加可調(diào)比例因子α,文中取為0.75。
3 試驗結(jié)果及數(shù)據(jù)分析
試驗環(huán)境配置參數(shù)見表1。
3.1 數(shù)據(jù)集采集
截取災(zāi)害救援場景如泥石流、洪災(zāi)等視頻中的3 280張圖片作為數(shù)據(jù)樣本。試驗中選取2 624張作為訓(xùn)練樣本,其余656張作為測試樣本。
3.2 網(wǎng)絡(luò)模型訓(xùn)練
在模型訓(xùn)練過程中,將學(xué)習(xí)率設(shè)置為0.01,迭代批量大小設(shè)置為16。當(dāng)訓(xùn)練達(dá)到100輪時,學(xué)習(xí)率降至0.001,損失函數(shù)和精度也趨于穩(wěn)定,最終經(jīng)過300輪模型迭代訓(xùn)練,得到模型的權(quán)重。
3.3 試驗結(jié)果及分析
為了全面評估文中算法的性能,采用
mAP@0.5、召回率Recall、準(zhǔn)確率Precision和平均檢測處理時間作為衡量標(biāo)準(zhǔn),其相關(guān)參數(shù)計算公式如下
式中 NTP,NFP和NFN分別為正確檢測數(shù)、誤檢數(shù)和漏檢數(shù);
AP為P-R曲線積分;N為檢測類別數(shù)量。
所設(shè)計的網(wǎng)絡(luò)模型與YOLOv5的平均精度值(mean Average Precision,mAP)、召回率(Recall)和準(zhǔn)確率(Precision)曲線對比結(jié)果如圖7、圖8和圖9所示。
從圖7可以看出,隨著迭代次數(shù)增加,文中算法和YOLOv5算法分別在迭代40輪和80輪時,mAP@0.5數(shù)值上升到0.85左右。算法通過重構(gòu)頸部網(wǎng)絡(luò)和引入解耦檢測器,使得mAP@0.5值最終穩(wěn)定在0.9以上,達(dá)到較高的檢測精度。從圖8和圖9可以看出,算法的準(zhǔn)確率和召回率也均高于YOLOv5算法。從圖10可以看出,優(yōu)化損失函數(shù)后,網(wǎng)絡(luò)的損失值降低,最終穩(wěn)定在0.044,文中所提出的檢測模型達(dá)到了較好的訓(xùn)練效果。在融合淺層網(wǎng)絡(luò)、ECA注意力模塊、解耦檢測器以及損失函數(shù)優(yōu)化4方面進(jìn)行改進(jìn),為了更好地評估各模塊的效果,設(shè)計消融試驗,其試驗結(jié)果見表2。
由表2可知,YOLOv5網(wǎng)絡(luò)檢測精度為89.4%,但在融合淺層網(wǎng)絡(luò)、引入注意力機(jī)制、解耦檢測器以及損失函數(shù)優(yōu)化4個方面的改進(jìn)后,文中算法的檢測精度得到了提升,最終達(dá)到92.2%。為了進(jìn)一步驗證所提算法的優(yōu)勢,選取具有代表性的4種場景對模型進(jìn)行驗證,分別為:災(zāi)害環(huán)境或救援環(huán)境中存在多尺度目標(biāo)、嚴(yán)重遮擋/小目標(biāo)、部分遮擋以及復(fù)雜背景情況。將試驗結(jié)果與其他常見檢測算法進(jìn)行比較,檢測結(jié)果如圖11所示。
圖11為人體被遮擋圖像,圖11(a)中為選取的4種災(zāi)害救援場景情況并標(biāo)注其中待檢測的人體,從左到右4組試驗結(jié)果及分析如下。
第1組試驗:待檢測人體出現(xiàn)多尺度情況,從第1組對比試驗可以看到,YOLOv3、YOLOv4、YOLOv5、SSD以及Faster RCNN對于多尺度目標(biāo)有漏檢情況發(fā)生,然而文中通過構(gòu)建解耦檢測器,有效提高了圖像中人體目標(biāo)對定位和分類的敏感性和精確度,能夠檢測出所有目標(biāo)。
第2組試驗:待檢測人體存在嚴(yán)重遮擋和小目標(biāo)情況,從第2組對比試驗可以看到,原始算法、YOLOv3、YOLOv4、SSD以及Faster RCNN對于被遮擋的目標(biāo)存在漏檢的情況,而文中算法通過增加淺特征檢測層,對微小人體目標(biāo)的特征提取能力更強(qiáng),能夠檢測出所有目標(biāo)。
第3組試驗:待檢測人體存在部分遮擋情況,從第3組對比試驗可以看到,原始算法、YOLOv3對于在復(fù)雜情況下的標(biāo)檢測能力有限,YOLOv4、YOLOv5、SSD以及Faster RCNN和文中算法可以檢測出所有目標(biāo),而文中算法通過對損失函數(shù)的優(yōu)化,相較于其他算法可獲得較高的置信度。
第4組試驗:待檢測人體存在復(fù)雜背景情況,從第4組對比試驗可以看到泥土顏色和人體膚色接近,使人體目標(biāo)受到復(fù)雜背景冗余信息干擾,導(dǎo)致原始算法、YOLOv3、YOLOv4、SSD以及Faster RCNN對于被嚴(yán)重遮擋的目標(biāo)存在漏檢的情況,而文中算法通過嵌入注意力機(jī)制,提高檢測模型對人體特征的特征表達(dá)能力,可以檢測出所有目標(biāo),并且相較于其他算法檢測框也更接近真實框大小。
為了更好地評估文中算法的性能,將其與SSD、Faster RCNN、YOLOv3、YOLOv4和YOLOv5檢測網(wǎng)絡(luò)進(jìn)行了對比試驗。在這些算法的訓(xùn)練過程中,采用相同的數(shù)據(jù)樣本和參數(shù),最終的檢測結(jié)果見表3。
由表3可知,文中算法的mAP@0.5%明顯高于其他算法,雖然檢測速度略低于YOLOv5,但是相比于其他算法實時性較好。
4 結(jié) 論
1)通過引入淺層檢測層并融合注意力機(jī)制可以使檢測網(wǎng)絡(luò)更好的學(xué)習(xí)小目標(biāo)人體特征,進(jìn)而提高樣本小目標(biāo)人體的檢測精度。
2)通過在檢測網(wǎng)絡(luò)中構(gòu)建解耦檢測器可以有效提升目標(biāo)在復(fù)雜背景下的特征表達(dá)能力,在一定程度上減少復(fù)雜背景所導(dǎo)致的漏檢和誤檢。
3)利用災(zāi)害救援場景的所得到的數(shù)據(jù)進(jìn)行測試驗證,算法在多種不同復(fù)雜測試環(huán)境下,對災(zāi)害人體的平均檢測精度可達(dá)92%以上,召回率可達(dá)90%以上,具有較好的實時性和魯棒性,對于分辨率為640×640的圖片檢測速度可達(dá)35 fps。
參考文獻(xiàn)(References):
[1] 羅南超,鄭伯川.視頻監(jiān)控領(lǐng)域深度特征編碼的行人檢測算法[J].西安科技大學(xué)學(xué)報,2019,39(4):701-707.LUO Nanchao,ZHENG Bochuan.Deep feature coding for pedestrian detection in video surveillance[J].Journal of Xian University of Science and Technology,2019,39(4):701-707.
[2]褚昭明,陳瑞祥,劉金廣.城市道路無信號控制路段行人過街風(fēng)險分級預(yù)警模型[J].交通信息與安全,2023,41(1):53-61.CHU Zhaoming,CHEN Ruixiang,LIU Jinguang.A mo-del of risk classification and forewarning for pedestrian crossing behavior at unsignalized urban roadways[J].Journal of Transport Information and Safety,2023,41(1):53-61.
[3]白云,侯媛彬.煤礦救援蛇形機(jī)器人的研制與控制[J].西安科技大學(xué)學(xué)報,2018,38(5):800-808.BAI Yun,Hou Yuanbin.Development and control of coal mine rescue snake robot[J].Journal of Xian University of Science and Technology,2018,38(5):800-808.
[4]羅艷,張重陽,田永鴻,等.深度學(xué)習(xí)行人檢測方法綜述[J].中國圖象圖形學(xué)報,2022,27(7):2094-2111.LUO Yan,ZHANG Chongyang,TIAN Yonghong,et al.An overview of deep learning based pedestrian detection algorithms[J].Journal of Image and Graphics,2022,27(7):2094-2111.
[5]XK A,ZM A,NN B,et al.A HOG-SVM based fall detection IoT system for elderly persons using deep sensor-science direct[J].Procedia Computer Science,2019,147:276-282.
[6]熊聰,王文武.基于DPM模型的行人檢測技術(shù)的研究[J].電子設(shè)計工程,2014,22(23):172-173.XIONG Cong,WANG Wenwu.Research on pedestrian detection based on DPM[J].Electronic Design Engineering,2014,22(23):172-173.
[7]李闖,陳張平,王堅,等.基于優(yōu)化HOG特征計算的非完整人體特征檢測[J].計算機(jī)測量與控制,2018,26(11):238-242.LI Chuang,CHEN Zhangping,Wang Jian,et al.Incomplete human feature detection based on optimized HOG feature computation[J].Computer Measurement & Control,2018,26(11):238-242.
[8]戴植毅,黃妙華.基于F-DPM 的行人實時檢測[J].數(shù)字制造科學(xué),2018(2):103-108.DAI Zhiyi,HUANG Miaohua.Research on real-time pedestrian detection based on F-DPM[J].Digital Manufacture Science,2018(2):103-108.
[9]楊鴿,鄭嘉龍,王瑩.基于HSV與RGB顏色空間的人體檢測與跟蹤算法[J].自動化技術(shù)與應(yīng)用,2022,41(9):17-20,28.YANG Ge,ZHENG Jialong,WANG Ying.Human detection and tracking algorithm based on HSV and RGB co-lor space[J].Techniques of Automation and Applications,2022,41(9):17-20,28.
[10]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[J].Computer Science,2013:580-587.
[11]CUI F,NING M,SHEN J,et al.Automatic recognition and tracking of highway layer-interface using Faster R-CNN[J].Journal of Applied Geophysics,2022,196:104477.
[12]REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[13]賀藝斌,田圣哲,蘭貴龍.基于改進(jìn)Faster-RCNN算法的行人檢測[J].汽車實用技術(shù),2022,47(5):34-37.HE Yibin,TIAN Shengzhe,LAN Guilong.Pedestrian detection based on improved Faster-RCNN algorithm[J].Automobile Applied Technology,2022,47(5):34-37.
[14]YANG P,LIU Q,WANG B,et al.An empirical study of fault diagnosis methods of a dissolved oxygen sensor based on ResNet-50[J].International Journal of Sensor Networks,2022,39(3):205-214.
[15]陶祝,劉正熙,熊運余,等.基于深度神經(jīng)網(wǎng)絡(luò)的行人頭部檢測[J].計算機(jī)工程與科學(xué),2018,40(8):1475-1481.TAO Zhu,LIU Zhengxi,XIONG Yunyu,et al.Pedestrian head detection based on deep neural networks[J].Computer Engineering & Science,2018,40(8):1475-1481.
[16]LI L,F(xiàn)U M,ZHANG T,et al.Research on workpiece location algorithm based on improved SSD[J].Industrial Robot,2022,49(1):108-119.
[17]耿創(chuàng),宋品德,曹立佳.YOLO算法在目標(biāo)檢測中的研究進(jìn)展[J].兵器裝備工程學(xué)報,2022,43(9):162-173.GENG Chuang,SONG Pinde,CAO Lijia.Research progress of YOLO algorithm in target detection[J].Journal of Ordnance Equipment Engineering,2022,43(9):162-173.
[18]李國進(jìn),韋慧鈴,艾矯燕,等.一種基于SSD的行人檢測改進(jìn)算法[J].廣西大學(xué)學(xué)報(自然科學(xué)版),2021,46(5):1327-1336.LI Guojin,WEI Huiling,AI Jiaoyan,et al.An improved pedestrian detection algorithm based on SSD[J].Journal of Guangxi University(Natural Science Edition),2021,46(5):1327-1336.
[19]HAO S,GAO S,MA X,et al.Anchor-free infrared pedestrian detection based on cross-scale feature fusion and hierarchical attention mechanism[J].Infrared Phy-sics & Technology,2023,131:104660.
[20]李巖,孟令軍.一種輕量型YOLOv3行人檢測方法[J].微型電腦應(yīng)用,2022,38(9):148-151,159.LI Yan,MENG Lingjun.A lightweight YOLOv3 pedestrian detection method[J].Microcomputer Applications,2022,38(9):148-151,159.
[21]李挺,伊力哈木·亞爾買買提.基于改進(jìn)YOLOv4的行人檢測算法[J].科學(xué)技術(shù)與工程,2022,22(8):3221-3227.LI Ting,YILIHAMU Yaermaimaiti.Pedestrian detection algorithm based on improved YOLOv4[J].Science Technology and Engineering,2022,22(8):3221-3227.
[22]鄒有成.基于YOLOv5網(wǎng)絡(luò)的徑賽人體目標(biāo)檢測[J].現(xiàn)代計算機(jī),2022,28(4):21-29.ZOU Youcheng.Human target detection in track events based on YOLOv5 network[J].Modern Computer,2022,28(4):21-29.
[23]李寶根.基于特征金字塔網(wǎng)絡(luò)的圖像關(guān)鍵點檢測算法研究[J].計算機(jī)應(yīng)用與軟件,2021,38(9):205-213.LI Baogen.Research on image keypoint detection based on feature pyramid network[J].Computer Applications and Software,2021,38(9):205-213.
[24]楊桂華,劉志毅,王曉文.基于機(jī)器視覺多目標(biāo)工件分類識別和定位研究[J].機(jī)床與液壓,2021,49(11):82-86,126.YANG Guihua,LIU Zhiyi,WANG Xiaowen.Research on classification,recognition and localization of multi-objective workpiece based on machine vision[J].Machine Tool & Hydraulics,2021,49(11):82-86,126.
(責(zé)任編輯:高佳)