摘 要:行人檢測技術(shù)結(jié)合行人跟蹤和行為分析等技術(shù),可廣泛應(yīng)用在交通、安防和機器交互等與人們生活息息相關(guān)的領(lǐng)域,但行人的多尺度變化一直是行人檢測的難點。針對傳統(tǒng)RetinaNet算法在多尺度行人檢測過程中存在的誤檢、漏檢和檢測精度低等缺陷,提出一種改進的RetinaNet算法來提升網(wǎng)絡(luò)模型的檢測能力。主要有以下兩方面創(chuàng)新:首先,為了獲取到更多的語義信息,采用多分支結(jié)構(gòu)來擴展網(wǎng)絡(luò),以提取不同深度下不同感受野的特征;其次,為了使模型更關(guān)注行人特征的重要信息,在模型預(yù)測頭部分嵌入雙池化注意力機制,增強通道間特征信息的相關(guān)性,抑制不重要的信息,以提高模型的檢測精度。在COCO等不同的數(shù)據(jù)集上進行實驗,結(jié)果表明,與傳統(tǒng)的RetinaNet模型相比,所提出的模型在各個評價指標(biāo)上均有所提升,具有良好的性能,可以滿足行人檢測的需要。
關(guān)鍵詞:行人檢測;RetinaNet;多分支結(jié)構(gòu);行人特征;雙池化注意力機制;行人跟蹤;行為分析
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:2095-1302(2025)01-00-06
0 引 言
行人檢測是一項能夠從圖像或視頻中準(zhǔn)確地檢測出行人以及行人位置的技術(shù),該技術(shù)可以應(yīng)用到生活中的各個領(lǐng)域,例如其在自動駕駛和智能安防等領(lǐng)域都起到了重要的作用[1]。隨著人工智能的發(fā)展,深度學(xué)習(xí)技術(shù)越來越成熟,對當(dāng)今社會的發(fā)展具有重要的價值和意義?;谏疃葘W(xué)習(xí)技術(shù)的行人檢測已經(jīng)成為了當(dāng)前研究的熱點[2-3],經(jīng)過不斷的創(chuàng)新和發(fā)展,已取得了較好的成果。按照不同的研究方法可以將行人檢測技術(shù)分為基于傳統(tǒng)特征提取的行人檢測和基于深度學(xué)習(xí)的行人檢測。
隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展和廣泛應(yīng)用,目標(biāo)檢測方法的性能得到了很大程度的提升。基于深度學(xué)習(xí)的目標(biāo)檢測算法可以分為2個階段:第一階段的SSD算法[4]、YOLO系列算法[5]、RetinaNet算法[6]等目標(biāo)檢測算法是基于邏輯回歸的檢測算法,檢測速度快,但精度較低;第二階段的R-CNN算法、Faster R-CNN算法[7]等是基于候選區(qū)域選擇的算法,檢測速度慢,但是精度高。因此,這兩類算法各有優(yōu)缺點。隨著各項技術(shù)的不斷提高,研究者們開始致力于突破行人檢測的難點。
行人的多尺度問題一直是行人檢測過程中的難點,因為在不同的距離和視角下,圖像或視頻中的行人呈現(xiàn)出的尺寸大小不一致,還伴隨著遮擋和圖像模糊的情況,不利于機器檢測。針對以上問題,本文將RetinaNet模型應(yīng)用于行人檢測中,并在此基礎(chǔ)上提出了基于多分支結(jié)構(gòu)和雙池化注意力機制的RetinaNet行人檢測。本文的主要貢獻總結(jié)如下:
(1)通過添加多分支結(jié)構(gòu)來增強主干網(wǎng)絡(luò)和特征金字塔之間的聯(lián)系,擴展網(wǎng)絡(luò)寬度,多方位提取不同深度下的多尺度行人特征信息,提升特征的表達(dá)能力。
(2)改進了注意力機制,提出使用雙池化注意力機制來增加關(guān)鍵特征信息的權(quán)重,使模型更注重關(guān)鍵特征信息。
1 多分支結(jié)構(gòu)和雙池化注意力機制的RetinaNet算法
1.1 整體結(jié)構(gòu)
針對行人的多尺度問題采用多尺度預(yù)測方法能解決部分困難。大尺度的行人特征明顯,經(jīng)過多次卷積后仍然能夠提取到語義信息;但小尺度的行人分辨率低,包含的特征信息少,存在著特征提取不充分或者經(jīng)過多次的卷積后語義信息丟失的問題,容易導(dǎo)致漏檢。因此要采用合適的方法充分地提取多尺度行人的信息,保證語義信息不丟失。本文設(shè)計了圖1所示的網(wǎng)絡(luò)結(jié)構(gòu),將多分支結(jié)構(gòu)應(yīng)用在RetinaNet模型中的主干網(wǎng)絡(luò)與特征金字塔之間,即在C3、C4、C5層的橫向連接處增加多分支結(jié)構(gòu),以此充分提取并高效利用特征信息,增加特征的多元化。在淺層網(wǎng)絡(luò),能夠捕獲細(xì)致的紋理信息;在中層網(wǎng)絡(luò),通過多尺寸的感受野和池化操作可以捕獲多樣化的特征信息;在深層網(wǎng)絡(luò),對抽象的特征進行提取,既能夠增強網(wǎng)絡(luò)對不同尺度目標(biāo)的分析能力,又能夠加深和加寬網(wǎng)絡(luò),進而有效提取到多層次的信息。在特征金字塔與預(yù)測分支之間添加雙池化注意力機制,對每個經(jīng)過特征融合后的分支進行信息篩選,使模型關(guān)注更有用的行人特征信息,增強網(wǎng)絡(luò)的檢測性能,使預(yù)測更加準(zhǔn)確。
1.2 多分支結(jié)構(gòu)
一般來說,在神經(jīng)網(wǎng)絡(luò)模型中,通過擴展模型深度和寬度能夠提高模型的表現(xiàn)能力,但也存在著副作用。由于隨著神經(jīng)網(wǎng)絡(luò)層次的加深,會產(chǎn)生許多參數(shù),甚至導(dǎo)致過度擬合,由此一來不僅訓(xùn)練成本高,而且效率低。使用Inception網(wǎng)絡(luò)結(jié)構(gòu)則可以很好地解決這一問題。不同于之前的大多數(shù)網(wǎng)絡(luò)直接將卷積層堆疊起來以得到深度的網(wǎng)絡(luò),文獻[8] 提出利用Inception模型通過稀疏連接,設(shè)置多個不同尺度的卷積核并行結(jié)構(gòu),再拼接特征,由此擴大網(wǎng)絡(luò)的寬度和深度,使模型擁有更好的性能。通常使用大的卷積核能夠提取到距離像素點較遠(yuǎn)的信息,使用小的卷積核可以提取到距離像素點較近的信息。傳統(tǒng)意義上較大的卷積核具有更好的感受野,但是在運算過程中容易丟失部分重要的信息。Inception網(wǎng)絡(luò)結(jié)構(gòu)通過分解卷積核將單個較大的卷積分解成對稱小卷積或者非對稱卷積,在增加網(wǎng)絡(luò)寬度和深度的同時減少參數(shù)量。采用分解卷積,在不改變感受野的同時,還能降低參數(shù)量,提升模型的非線性表征能力。使用3×1和1×3卷積連續(xù)滑動后組合,其感受野等效于3×3卷積的感受野。
本文采用的多分支結(jié)構(gòu)如圖2所示,將輸入分成4個分支并行,每個分支先運用1×1卷積獲取圖像的相關(guān)信息,減少特征通道數(shù),降低維度;通過減少通道數(shù)來聚合信息,使特征在深度上被疊加。
在網(wǎng)絡(luò)中通過較小的卷積尺寸能夠更好地捕獲圖像相鄰區(qū)域的細(xì)節(jié)信息,并且信息相關(guān)性較高;再運用多尺度卷積核在深度不一的網(wǎng)絡(luò)中進行卷積,獲取多尺度的感受野,將細(xì)節(jié)特征轉(zhuǎn)換為高級語義特征;然后將從不同支路得到的結(jié)果按照通道拼接,聚合了所有分支的特征信息后得到多通道特征圖,最后輸出結(jié)果。
本文采用的特征融合方式是拼接,由于使用了較多的卷積來提取圖像信息,因此在維度上進行疊加操作可以更有效地實現(xiàn)信息的完整融合。
多分支結(jié)構(gòu)表達(dá)式為:
(1)
式中:F表示卷積;X表示輸入圖像;Xi(i=1, 2, 3, 4)表示4個分支的結(jié)果;Xout表示輸出結(jié)果。多分支結(jié)構(gòu)的設(shè)計不是盲目地增加深度和寬度,而是通過Pooling操作來保持信息不變,起到防止信息丟失的作用;通過分解特征,充分利用信息,提高特征內(nèi)部的相關(guān)性;利用更小的卷積核進行降維,使網(wǎng)絡(luò)的深度和寬度達(dá)到平衡。
1.3 雙池化注意力機制
特征層在不同的通道所攜帶的信息不同,通道相關(guān)性也不一樣,由于單一的池化操作不能完整地反映整個圖像的特征信息,容易導(dǎo)致部分重要信息丟失。鑒于此,結(jié)合全局平均池化和最大池化的作用,選擇雙池化的注意力機制來獲取更全面的特征信息。雙池化注意力模塊如圖3所示。
雙池化注意力模塊由3個并行的部分組成:
(1)第一個分支X1完成特征映射。
(2)第二個分支X2先進行全局平均池化,全局平均池化讓卷積結(jié)構(gòu)更簡單,能夠壓縮輸入特征,減少參數(shù)量,達(dá)到優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、防止過擬合的目的,再依次經(jīng)過全連接層、激活函數(shù)、全連接層,如式(2)所示:
(2)
式中:FC表示卷積;X表示輸入圖像;α表示ReLU激活函數(shù)。
(3)第三個分支X3與第二個分支類似,不同的是該分支采用了最大池化來聚合特征信息,學(xué)習(xí)新的權(quán)重,如式(3)所示:
(3)
最后將第二分支X2和第三分支X3所提取的特征逐元素相加融合,經(jīng)過Sigmoid激活函數(shù),再將輸出與第一分支X1的原始特征結(jié)合進行元素相乘,得到加權(quán)后的特征并輸出結(jié)果,用式(4)表示:
(4)
式中:β表示Sigmoid激活函數(shù);Xout表示輸出結(jié)果。
雙池化注意力模塊的參數(shù)見表1。其中,H和W表示圖像的高和寬,C為通道,R為通道因子。
1.4 損失函數(shù)
模型的訓(xùn)練過程就是使誤差不斷減小的過程。本模型的訓(xùn)練采用的損失函數(shù)為定位損失和分?jǐn)?shù)損失函數(shù)。損失計算公式為:
(5)
定位損失函數(shù)Lreg采用的是smooth L1 Loss函數(shù),具體公式為:
(6)
式中:x為預(yù)測框與真實框的差值。
分類損失Lcls使用的是Focal Loss函數(shù),具體公式如下:
(7)
pt (8)
式中:pt表示正樣本的概率;y表示真實標(biāo)簽的值;αt為調(diào)節(jié)因子,當(dāng)負(fù)樣本數(shù)較多、正樣本數(shù)較少時,可以用來改善正負(fù)樣本的分布權(quán)重;γ為聚焦參數(shù),可有效降低較容易檢測樣本的權(quán)重,將訓(xùn)練過程集中于較難檢測的樣本。由此,通過Focal Loss函數(shù)解決了容易檢測和難檢測樣本的不平衡問題,從而提升了模型的精度。經(jīng)過實驗可知,αt=0.25、γ=2時,能提高正樣本的權(quán)重、減小負(fù)樣本的權(quán)重,達(dá)到較好的檢測效果。
2 實驗結(jié)果與分析
2.1 實驗環(huán)境
實驗環(huán)境配置為:操作系統(tǒng)采用Windows;CPU采用Intel i7-8700處理器;GPU采用GTX1080 10 GB;深度學(xué)習(xí)框架采用Pytorch。
2.2 實驗數(shù)據(jù)
為了豐富行人數(shù)據(jù)集,使結(jié)果更具有真實性,本實驗使用不同的數(shù)據(jù)集進行檢測。
數(shù)據(jù)集1是從COCO數(shù)據(jù)集和PASCAL VOC數(shù)據(jù)集中挑選出的帶有“person”標(biāo)簽圖片的混合數(shù)據(jù)集,共3 288張,包含了生活中各個場景和尺度的目標(biāo)圖像,并且按照8∶2劃分訓(xùn)練集2 630張,測試集658張。
數(shù)據(jù)集2是Caltech行人數(shù)據(jù)集,是由美國加州理工大學(xué)通過車載攝像頭拍攝的,圖片的分辨率為640×480,約含有25萬張圖片、35萬個行人框。將該數(shù)據(jù)集分為訓(xùn)練集和測試集。Caltech行人數(shù)據(jù)集的數(shù)據(jù)量較多,包含不同尺度的行人,本文選擇其中帶有標(biāo)簽“person”的圖片作為實驗數(shù)據(jù),其中4 310張圖片構(gòu)成訓(xùn)練集,4 225張圖片構(gòu)成測試集。根據(jù)文獻[9],按照行人在圖像中的高度,將測試數(shù)據(jù)集劃分為多個不同尺度等級的子集,劃分準(zhǔn)則見表2。
2.3 實驗參數(shù)
本文實驗使用的模型是改進的RetinaNet行人檢測算法模型。為了讓神經(jīng)網(wǎng)絡(luò)達(dá)到更好的預(yù)測效果,訓(xùn)練時的輸入圖像大小為512×51,batch為8,優(yōu)化器為Adam,初始學(xué)習(xí)率為1×10-4,學(xué)習(xí)率的下降方式使用余弦退火法,動量為0.9,權(quán)重衰減為0。通過觀察本文算法在150個epoch訓(xùn)練過程中損失的變化判斷訓(xùn)練的效果。結(jié)果表明,隨著訓(xùn)練epoch的增加,Loss曲線呈現(xiàn)出下降的趨勢并且越來越平滑,在0.05左右趨于穩(wěn)定,達(dá)到收斂狀態(tài),說明在訓(xùn)練過程中效果達(dá)到最優(yōu)。
2.4 評價指標(biāo)
為了更好地評估網(wǎng)絡(luò)模型的檢測性能,針對不同的數(shù)據(jù)集,采用了不同的算法與評價指標(biāo)來驗證模型。在混合數(shù)據(jù)集中,選擇以下指標(biāo)作為本模型的評價指標(biāo):
(1)準(zhǔn)確率(Precision):表示預(yù)測為行人的數(shù)量占原樣本行人的比例,其值越大說明誤檢的目標(biāo)越少。表達(dá)式為:
(9)
(2)召回率(Recall):表示行人數(shù)據(jù)集中行人被預(yù)測為正例的比例。表達(dá)式為:
(10)
式(9)和式(10)中:TP表示行人正樣本被正確檢測的數(shù)量;TN表示圖片中行人負(fù)樣本被正確檢測的數(shù)量;FN表示把真實行人樣本檢測為負(fù)樣本的數(shù)量;FP表示圖片中負(fù)樣本被檢測為正樣本的數(shù)量。
(3)F1分?jǐn)?shù):是精確率和召回率的一種加權(quán)平均,即精確率和召回率的調(diào)和平均數(shù)。表達(dá)式為:
(11)
(4)AP:是在IOU閾值下的平均精度,表示被Precision與Recall曲線包圍的區(qū)域。表達(dá)式為:
(12)
(5)mAP:是全部目標(biāo)種類的平均精度,此值越高,模型的識別精度越高。表達(dá)式為:
(13)
本文研究的檢測目標(biāo)僅有人,因此mAP等于AP。由式(13)可知,mAP結(jié)合了精確率和召回率,考慮到了假陽性和真陽性,因此大多數(shù)檢測模型使用該值作為合理的評價指標(biāo)。加入多分支結(jié)構(gòu)時,算法的mAP達(dá)到了78.87%,提高了0.19個百分點,增強了特征的表達(dá)能力,檢測性能得到小幅提升。加入注意力機制時,算法的mAP達(dá)到了79.42%,提高了0.74個百分點,召回率和準(zhǔn)確率提高了0.91個百分點和0.72個百分點,說明注意力機制進一步加強了重要特征權(quán)重。同時加入2個模塊時,整體mAP指標(biāo)達(dá)到了80.17%,提升了1.49個百分點,召回率提升了0.68個百分點,準(zhǔn)確率提升了2.1個百分點。 以上數(shù)據(jù)證明,各模塊都使模型性能有不同程度的提高,對于提升網(wǎng)絡(luò)性能方面有巨大幫助。
圖4所示的傳統(tǒng)RetinaNet與本文算法的可視化檢測結(jié)果更直觀地凸顯了本文算法在檢測性能上的優(yōu)勢。由圖4(a)可以看出,本文算法可以較好地檢測出遮擋的人和不同尺度的人。
2.5 在混合數(shù)據(jù)集上的實驗結(jié)果
2.5.1 消融實驗
為驗證本文所添加的多分支結(jié)構(gòu)和雙池化注意力模塊對模型的作用,進行消融實驗。實驗數(shù)據(jù)見表3。
2.5.2 對比實驗
為證明上文提到的雙池化注意力機制模塊的效果,選擇SE和CBAM模塊做對比實驗,實驗檢測結(jié)果見表4。
從表4可以看出,3種注意力機制都可以使基礎(chǔ)RetinaNet的網(wǎng)絡(luò)檢測性能有所提升,而本文提出的雙池化注意力機制的mAP高于SE和CBAM模塊,表明其對行人特征信息的專注力更勝一籌。
本文算法與SSD算法的可視化檢測效果對比如圖5所示。
從與SSD的對比圖中可以看到,SSD算法對中小尺度行人的檢測效果不理想,小尺度行人的漏檢情況嚴(yán)重,而本文算法可以準(zhǔn)確地檢測出小目標(biāo),在單階段的SSD算法中,本文提出的算法也有比較好的結(jié)果。同樣地,由圖6所示的本文算法與Faster R-CNN算法的可視化檢測效果對比情況可以看出,本文算法的檢測效果更好。
2.6 在Caltech數(shù)據(jù)集上的實驗結(jié)果
Caltech數(shù)據(jù)集明確地區(qū)分了行人的尺度范圍,可以更好地了解各個尺度上行人的檢測情況[10-11]。改進后的RetinaNet模型在各個尺度下的漏檢率都有不同程度的下降。在大尺度(Large)上的效果較好,漏檢率下降至0,在中尺度(Medium)上的漏檢率下降了0.72個百分點,在小尺度(Far)上的漏檢率下降了1.44個百分點,整體子集(All)下降了1.18個百分點。多分支結(jié)構(gòu)和注意力機制的加持讓RetinaNet模型的特征提取能力增強,能夠?qū)^為關(guān)注和感興趣的行人特征信息進行精準(zhǔn)捕捉。
本文采用不同的算法在Caltech數(shù)據(jù)集上進行實驗,其中包括采用傳統(tǒng)的手工特征的方法:ACF、LDCF等,以及深度學(xué)習(xí)的方法:RPN+BF、MS-CNN等。本文提出的多分支結(jié)構(gòu)和注意力機制的算法(Multi Branch Structure and Attention Mechanism, MBSAE)與上述方法的漏檢率對比結(jié)果見表5。
采用本文算法和RetinaNet算法在Caltech數(shù)據(jù)集上的圖片檢測結(jié)果如圖7所示。
由圖7可知,當(dāng)遠(yuǎn)處多個小尺度的行人并排出現(xiàn)時,RetinaNet算法出現(xiàn)了嚴(yán)重的漏檢和誤檢情況,而本文改進的算法能更好地檢測到遠(yuǎn)處與近處的行人,說明本文提出的改進方法具有更強的檢測能力。
經(jīng)過以上實驗證明,通過多分支結(jié)構(gòu)設(shè)計多尺寸的卷積核能夠檢測到更多不同尺度的目標(biāo),充分獲取圖像特征信息;注意力機制能夠抑制非相關(guān)的信息使模型對相關(guān)信息賦予更多的關(guān)注,增強模型的多尺度檢測能力。在數(shù)據(jù)集上的檢測結(jié)果充分證明,本算法能適應(yīng)多尺度的行人檢測,在檢測精度上有著明顯的效果,一定程度上證明了本文改進的模型在行人檢測方面的適用性。
3 結(jié) 語
本文針對傳統(tǒng)的RetinaNet算法在多尺度行人檢測上的不足進行改進和優(yōu)化,通過添加多分支結(jié)構(gòu)作為特征增強模塊,增加了網(wǎng)絡(luò)的寬度,提升了模型的非線性表征能力,使其能夠提取豐富的多尺度特征。為了使模型能夠更專注地檢測重要信息,添加雙池化注意力模塊,抑制了不重要的信息,使模型的檢測準(zhǔn)確率得到進一步提升。在公開的數(shù)據(jù)集中將本文算法與其他算法進行對比,本文算法的檢測精度達(dá)到了80.17%,充分證明了本模型擁有較好的檢測能力和較好的泛化能力。在今后的研究中,將繼續(xù)對模型進行優(yōu)化,考慮采用遷移學(xué)習(xí)和對抗網(wǎng)絡(luò)的方法豐富數(shù)據(jù)集,提升模型的檢測精度和速度,繼續(xù)解決模型應(yīng)用于雨、霧、雪天等惡劣環(huán)境時的檢測難題,使其能更好地完成行人檢測的任務(wù)。
注:本文通訊作者為王智文、白云。
參考文獻
[1] REN J, HAN J. A new multi-scale pedestrian detection algorithm in traffic environment [J]. Journal of electrical engineering amp; technology, 2021, 16(2): 1151-1161.
[2] NATAPRAWIRA J, GU Y, GONCHARENKO I, et al. Pedestrian detection using multispectral images and a deep neural network [J]. Sensors, 2021, 21(7): 2536.
[3] JI Q G, CHI R, LU Z M. Anomaly detection and localisation in the crowd scenes using a block‐based social force model [J]. IET image processing, 2018, 12(1): 133-137.
[4] ZHOU H, YU G. Research on pedestrian detection technology based on the SVM classifier trained by HOG and LTP features [J]. Future generation computer systems, 2021, 125: 604-615.
[5] HE L,WANG Y X, CHEN G Y. The hierarchical local binary patterns for pedestrian detection [C]//2021 5th CAA International Conference on Vehicular Control and Intelligence (CVCI)." Tianjin, China:IEEE, 2021: 1-8.
[6] KUMAR K, MISHRA R K. A heuristic SVM based pedestrian detection approach employing shape and texture descriptors [J]. Multimedia tools and applications, 2020, 79: 21389-21408.
[7] LI G, ZONG C, LIU G, et al. Application of Convolutional Neural Network (CNN)–adaboost algorithm in pedestrian detection [J]. Sensors and materials, 2020, 32: 1997-2006.
[8] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2016: 2818-2826.
[9] MIHCIO LU M E, ALKAR A Z. Improving pedestrian safety using combined HOG and Haar partial detection in mobile systems [J]. Traffic injury prevention, 2019, 20(6): 619-623.
[10]王子元,王國中.改進的輕量級YOLOv5算法在行人檢測的應(yīng)用[J].數(shù)據(jù)與計算發(fā)展前沿,2023,5(6):161-172.
[11]毛雨晴,趙奎.基于改進YOLOv5的多任務(wù)安全人頭檢測算法[J].計算機工程,2022,48(8):136-143.