張倫 譚光興
摘 要:針對目前主流的目標(biāo)檢測算法在檢測行人時無法兼顧精度與實時性的問題,提出一種改進(jìn)單次多框檢測器(single shot multibox detector,SSD)的行人檢測算法。首先,將高效通道注意力機(jī)制引入淺層網(wǎng)絡(luò)中并重新分配特征權(quán)重,引導(dǎo)網(wǎng)絡(luò)更加關(guān)注小尺度行人的特征信息;其次,構(gòu)造一種新的特征融合模塊以改善淺層特征語義信息不足的問題;最后,通過優(yōu)化原始先驗框的參數(shù)來生成適用于檢測行人的先驗框。實驗結(jié)果表明,改進(jìn)后的算法在PASCAL VOC2007行人測試集上的平均精度達(dá)到82.96%,較SSD提高了3.83%,在小尺度行人測試集上提高了5.48%,同時檢測速度達(dá)到了69.2FPS,滿足實時性的要求。
關(guān)鍵詞:單次多框檢測器(SSD);行人檢測;注意力機(jī)制;特征融合
中圖分類號:TP391.41 DOI:10.16375/j.cnki.cn45-1395/t.2023.03.013
0 引言
行人檢測作為計算機(jī)視覺領(lǐng)域中的研究熱點之一,是指判斷圖像或視頻幀中是否存在行人并標(biāo)記其具體位置,在視頻監(jiān)控、智能安防以及自動駕駛等領(lǐng)域應(yīng)用越來越廣泛[1]。雖然現(xiàn)有的方法在行人檢測任務(wù)中已取得一些研究進(jìn)展,但由于行人姿態(tài)多變、相互遮擋以及小尺度行人目標(biāo)特征信息較少等因素的影響,仍然存在被誤檢、漏檢的問題,因此對行人檢測方法還需進(jìn)一步研究。
近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,基于深度學(xué)習(xí)的行人檢測方法在行人檢測技術(shù)中占據(jù)了主導(dǎo)地位,該方法主要分為兩階段檢測算法和單階段檢測算法。兩階段檢測算法首先生成目標(biāo)的候選區(qū)域,然后將其送入分類器中進(jìn)行分類和回歸[2]。此類算法檢測精度較高,但由于模型復(fù)雜度高、計算量龐大,導(dǎo)致其檢測速度較慢。代表性算法有Faster R-CNN[3]、Mask R-CNN[4]等。單階段檢測算法無需生成候選區(qū)域,而是直接通過回歸來預(yù)測目標(biāo)框,將檢測轉(zhuǎn)化為回歸問題,雖然精度會有所損失,但是檢測速度比兩階段算法更快。代表性算法有YOLO(you only look once,YOLO)[5]、單次多框檢測器(single shot multibox detector,SSD)[6]、YOLOv2[7]以及YOLOv3[8]等。
YOLO是典型的單尺度目標(biāo)檢測算法,對于多尺度目標(biāo)檢測任務(wù)并不適用。SSD首次從多尺度特征圖中檢測不同尺度的目標(biāo),在提高精度的同時兼顧了速度,但該算法對小尺度目標(biāo)的檢測能力較弱。為了進(jìn)一步提高對小尺度目標(biāo)的檢測能力,研究者們在SSD的基礎(chǔ)上提出了多種改進(jìn)算法。DSSD[9]將主干網(wǎng)絡(luò)替換為殘差網(wǎng)絡(luò)ResNet101,并利用反卷積和跨連接融合上下文信息,改善了對小尺度目標(biāo)的檢測效果。DF-SSD[10]構(gòu)造了主干網(wǎng)絡(luò)DenseNet-s-32-1,并提出一種多尺度特征融合方法,使淺層位置特征與深層語義特征相結(jié)合,在一定程度上解決了小尺度目標(biāo)的檢測問題。然而,上述算法主要是通過使用更深的主干網(wǎng)絡(luò)來增強模型的特征提取能力,或者是利用反卷積將深層特征與淺層特征進(jìn)行有效融合等方法來提高對小尺度目標(biāo)的檢測能力,在提升檢測精度的同時卻犧牲了網(wǎng)絡(luò)的運算速度,無法滿足實時檢測場景的要求。
綜上所述,針對圖像背景復(fù)雜、行人目標(biāo)存在遮擋或重疊以及遠(yuǎn)距離下行人尺度過小等問題,同時考慮精度和實時性檢測的要求,本文在保留SSD主干網(wǎng)絡(luò)的基礎(chǔ)上,首先,通過引入一種輕量級注意力機(jī)制來增強小尺度行人的特征表達(dá)能力;然后,構(gòu)造一種新的特征融合模塊來增強淺層特征圖中的語義信息,提升對小尺度行人的檢測能力;最后,根據(jù)行人目標(biāo)的寬高比特性對原始先驗框進(jìn)行優(yōu)化,使其更加適用于檢測行人目標(biāo),提高檢測效率。
1 SSD算法
SSD算法是一種經(jīng)典的單階段多尺度目標(biāo)檢測算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,對原始圖像進(jìn)行預(yù)處理后作為網(wǎng)絡(luò)輸入;其次,使用VGG16網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)來提取淺層特征圖,并將VGG16末端的2個全連接層FC6、FC7替換為2個卷積層Conv6、Conv7;然后,在此基礎(chǔ)上額外增加4組卷積層來提取深層特征圖,從而一共提取出層次由淺到深的6個多尺度特征圖:Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2,其中,淺層特征圖感受野小,適合檢測小目標(biāo),深層特征圖感受野大,適合檢測大目標(biāo);最后,在不同尺度的特征圖上設(shè)置不同尺寸和數(shù)量的默認(rèn)先驗框,并通過2個大小為3*3的卷積核分別輸出先驗框的位置偏移量和類別置信度,使用非極大值抑制(non-maximum suppression,NMS)以及置信度過濾的后處理方法來獲取最終精準(zhǔn)的檢測結(jié)果。
為了適應(yīng)圖像中不同大小和形狀的目標(biāo),SSD算法引入了Faster R-CNN算法中所使用的先驗框機(jī)制。若使用[m]個特征圖進(jìn)行預(yù)測,則在第[k]個特征圖上的先驗框尺寸計算公式如下:
[Sk=Smin+Smax?Sminm?1k?1, k∈[1,m]]. (1)
式中:[Smin]=0.2,[Smax]=0.9,分別代表最淺層和最深層先驗框的尺度;k表示先驗框尺寸相對于原圖像的比例。然后對每個先驗框尺寸設(shè)置不同的寬高比,將其標(biāo)記為[a∈1,2,3,12,13],則每個先驗框的寬([wak])、高([?ak])計算公式為:
[wak=Ska,?ak=Sk/ ? ? ? .] (2)
當(dāng)[a ]=1時,會額外添加一個尺寸為[S'k=SkSk+1]的先驗框,于是特征圖上的每個網(wǎng)格均生成6個先驗框。但實際實現(xiàn)時,SSD在特征圖Conv4_3、Conv10_2和Conv11_2上并不使用[a]=3和[a]=[13]的先驗框,即只設(shè)置了4個先驗框。因此,SSD總共生成8 732(38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4=8 732)個先驗框來進(jìn)行目標(biāo)檢測。
2 本文算法
SSD算法利用淺層網(wǎng)絡(luò)檢測小目標(biāo),深層網(wǎng)絡(luò)檢測大目標(biāo),于是減少了整個模型的檢測負(fù)擔(dān)。但是淺層網(wǎng)絡(luò)存在特征提取不充分的問題,導(dǎo)致小尺度目標(biāo)的檢測效果較差。為了改善小尺度行人檢測困難的問題,提高行人檢測精度,本文在原始的網(wǎng)絡(luò)中引入了高效通道注意力機(jī)制(efficient channel attention,ECA)和特征融合模塊(feature fusion module,F(xiàn)FM)。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1 注意力機(jī)制模塊
圖像中背景信息干擾以及遮擋等情況的存在增加了檢測行人的難度。如今,將注意力機(jī)制應(yīng)用于目標(biāo)檢測模型上取得了顯著的效果。Hu等[11]最早在2017年提出了通道注意力機(jī)制(squeeze-and-excitation,SENet),能夠自適應(yīng)地對通道特征進(jìn)行加權(quán),有效放大特征的關(guān)鍵信息。Woo等[12]設(shè)計了混合域卷積注意力模塊(convolutional block attention module,CBAM),通過將通道注意力機(jī)制與空間注意力機(jī)制相結(jié)合,幫助網(wǎng)絡(luò)自適應(yīng)地在通道和空間維度上調(diào)節(jié)特征權(quán)重,能夠獲得比SENet更好的效果,但增加了網(wǎng)絡(luò)模型的復(fù)雜度與計算量。Wang等[13]在CVPR2020中提出了ECA,在引入極少的額外參數(shù)和可忽略的計算量的情況下,能使網(wǎng)絡(luò)具有更優(yōu)的性能。如圖3所示,在對輸入進(jìn)行全局平均池化(global average pooling,GAP)后,并未減少特征通道數(shù),而是直接使用大小為k的一維快速卷積進(jìn)行局部跨通道交互學(xué)習(xí),然后使用Sigmoid函數(shù)來獲取每個通道的權(quán)重,最后將權(quán)重與原輸入特征圖進(jìn)行逐通道相乘得到關(guān)鍵信息表達(dá)能力更強的特征圖。其中k的取值是由輸入通道數(shù)C自適應(yīng)確定,如式(3)所示,式中[todd]表示取最接近t的奇數(shù),[γ]和b表示常量,分別取值為2和1。
[k=ψC=|t|odd=log2Cγ+bγodd]. (3)
考慮到網(wǎng)絡(luò)參數(shù)量和計算量,選擇將輕量級ECA模塊引入SSD模型輸出的淺層網(wǎng)絡(luò)中,引導(dǎo)網(wǎng)絡(luò)關(guān)注小尺度行人特征,同時降低干擾信息的影響,從而提高檢測精度。本文在ECA模塊的基礎(chǔ)上添加了一條跨連接通路Shortcut,通過Shortcut可以實現(xiàn)網(wǎng)絡(luò)前后層的特征復(fù)用,使網(wǎng)絡(luò)學(xué)習(xí)到更多的特征信息,防止模型性能退化。
2.2 特征融合模塊
SSD利用多尺度特征圖進(jìn)行檢測,能夠同時檢測到不同大小的目標(biāo)。由于淺層特征圖Conv4_3所經(jīng)歷的卷積運算較少,提取到的特征缺乏語義信息,導(dǎo)致在檢測小目標(biāo)時會存在嚴(yán)重漏檢和誤檢的情況。因此,將深層豐富的語義信息傳遞回淺層,有利于提高小目標(biāo)的檢測性能??焖傩∧繕?biāo)檢測(feature-fused SSD,F(xiàn)FSSD)[14]利用反卷積的方式對不同深度的特征圖進(jìn)行了可視化,可以看出層次越深的特征圖雖然包含的語義信息越豐富,但也會引入更多的背景噪聲;并指出Conv5_3包含的小尺度目標(biāo)的細(xì)節(jié)信息比Conv4_3更豐富,同時相較于Conv6、Conv7,引入的背景噪聲更少,因而更加適合與Conv4_3進(jìn)行有效融合。
對此,本文提出一種新的特征融合模塊以進(jìn)一步提升模型對小尺度行人的檢測性能。如圖4所示,為了減少計算量,首先使用1*1卷積將特征圖Conv4_3、Conv5_3的通道數(shù)都減少為256個,然后對Conv5_3進(jìn)行2倍上采樣,使得特征圖尺寸與Conv4_3保持一致。這里使用雙線性插值上采樣的方式來代替反卷積,一方面是因為可以進(jìn)一步減少計算量,另一方面是因為反卷積需要訓(xùn)練參數(shù),但雙線性插值可以由已知臨近像素值進(jìn)行計算而無需參數(shù)。其次通過Concatenate的融合方式對待融合的2個特征圖在通道維度上進(jìn)行拼接,得到尺寸大小為38×38、通道數(shù)為512的融合特征圖。最后通過大小為3*3的卷積核進(jìn)行卷積來獲取語義信息增強的淺層特征圖。在該模塊中添加BatchNorm歸一化層有利于防止梯度消失,提高網(wǎng)絡(luò)的泛化能力;在BatchNorm層后加入ReLU激活函數(shù)有利于增加網(wǎng)絡(luò)的非線性能力。實驗結(jié)果表明,所提的特征融合模塊在不明顯影響模型的推理速度下,能顯著提高對小尺度行人目標(biāo)的檢測精度。
2.3 優(yōu)化先驗框
SSD算法中的先驗框是針對多類目標(biāo)而設(shè)置的,而實際場景下的行人目標(biāo)的真實框多數(shù)為“瘦高型”,因此原始的先驗框?qū)τ谛腥藱z測任務(wù)而言具有明顯缺陷。文獻(xiàn)[15]對PASCAL VOC數(shù)據(jù)集的所有行人樣本的寬高比進(jìn)行了統(tǒng)計,指出寬高比集中分布在0.2~0.5。對此,本文將原始先驗框的寬高比調(diào)整為[a∈1,12,13],舍棄了其中寬大于高的先驗框;然后對每一種寬高比均設(shè)置2個不同尺寸的先驗框,分別為[Sk]和[S'k,S'k=SkSk+1],所以特征圖上的每個網(wǎng)格均會生成3種不同的寬高比匹配2個不同尺寸的6個先驗框;最后與SSD保持一致,對特征圖Conv4_3、Conv10_2和Conv11_2不使用[a ]=[13]的先驗框,因此先驗框優(yōu)化后的數(shù)量不變。圖5為先驗框優(yōu)化前后的示意圖對比,可以看出優(yōu)化后的先驗框與行人目標(biāo)更為對齊,使得與行人目標(biāo)的交并比(IOU)更高,因此所匹配的正樣本數(shù)量會更多,從而加快模型收斂速度,提升檢測精度。
3 實驗
3.1 數(shù)據(jù)集與評價指標(biāo)
使用通用目標(biāo)檢測數(shù)據(jù)集PASCAL VOC評估改進(jìn)后的網(wǎng)絡(luò)性能。PASCAL VOC2007 trainval和PASCAL VOC2012 trainval共計16 551張圖像,包含常見的20類目標(biāo)。經(jīng)過數(shù)據(jù)處理,將其中具有行人標(biāo)簽的所有圖像作為訓(xùn)練集,共有6 095張圖像,包含13 256個行人樣本。PASCAL VOC2007 test有4 952張圖像,將其中具有行人標(biāo)簽的所有圖像作為測試集,共有2 007張圖像,包含4 528個行人樣本。再從測試集中隨機(jī)選取出138張行人高度小于60的圖像構(gòu)建成小尺度行人測試集。
分別使用平均精度(average precision,AP)、F1分?jǐn)?shù)和每秒傳輸幀數(shù)(frame per second,F(xiàn)PS)作為算法檢測精度與速度的評價指標(biāo),平均精度與F1分?jǐn)?shù)值越高則表示算法檢測行人目標(biāo)的精準(zhǔn)率和召回率越高,其相關(guān)衡量指標(biāo)的計算公式分別為:
[P=NTPNTP+NFP], (4)
[R=NTPNTP+NFN], (5)
[F1=2×P×RP+R]. (6)
式中:P表示精準(zhǔn)率,R表示召回率,NTP指正樣本被正確地預(yù)測為正樣本的數(shù)量,NFP指負(fù)樣本被錯誤地預(yù)測為正樣本的數(shù)量,NFN指正樣本被錯誤地預(yù)測為負(fù)樣本的數(shù)量。以召回率R為橫軸,精準(zhǔn)率P為縱軸,作出一條PR曲線,PR曲線與坐標(biāo)軸圍成的面積就是平均精度值。
3.2 實驗環(huán)境與參數(shù)設(shè)置
實驗環(huán)境配置如表1所示,程序運行在Python3.8以及深度學(xué)習(xí)框架Pytorch1.7的環(huán)境下。網(wǎng)絡(luò)訓(xùn)練階段,使用Adam優(yōu)化器對模型的權(quán)重進(jìn)行更新優(yōu)化,批量處理大小設(shè)為16,初始學(xué)習(xí)率設(shè)置為0.000 5,訓(xùn)練輪數(shù)epoch設(shè)置為120,在每5個epoch后學(xué)習(xí)率調(diào)整為原來的0.9倍。在訓(xùn)練過程中對圖像執(zhí)行平移縮放、顏色變換、水平翻轉(zhuǎn)等操作,以進(jìn)一步提高模型的泛化能力。
3.3 檢測性能對比實驗
表2為本文算法和Faster R-CNN、SSD、FFSSD、YOLOv2等目前主流的目標(biāo)檢測算法在VOC2007行人測試集上的檢測性能對比。
由表2可知,本文算法在測試集上的平均精度和F1分?jǐn)?shù)分別達(dá)到了82.96%和81.17%,相比于SSD算法分別提升了3.83%和5.81%,同時檢測速度可以達(dá)到69.2FPS,完全實現(xiàn)了實時檢測。Faster R-CNN在測試集上的檢測精度不僅低于本文算法,而且檢測速度只有10.6FPS,無法滿足實時性要求;與FFSSD相比,本文算法在速度上幾乎與之持平,但檢測精度明顯更高;YOLOv2雖然具有優(yōu)異的檢測速度,但檢測精度遠(yuǎn)低于本文算法;YOLOv3的平均精度與F1分?jǐn)?shù)只比本文分別高出1.72%和2.37%,但本文算法的檢測速度具有明顯優(yōu)勢。從上述分析可知,本文所提算法在提升檢測精度的同時具有良好的檢測速度,兼顧了行人檢測的精度與實時性。
3.4 消融實驗
通過消融實驗來分析引入新的模塊以及優(yōu)化先驗框(I-Anchor)后對模型檢測性能的影響,結(jié)果如表3所示。
對比SSD和模型A、B可知,引入注意力機(jī)制和特征融合模塊后在平均精度上分別提高了0.82%、2.85%;而從檢測速度來看,只比原來降低了3.6FPS和5.2FPS,這主要是由于注意力機(jī)制的輕量級和特征融合模塊結(jié)構(gòu)的簡單。對比SSD和模型C可知,優(yōu)化先驗框后,模型的平均精度提高了2.11%,證明了在提供相同數(shù)量的先驗框的情況下,優(yōu)化后的先驗框區(qū)域質(zhì)量更高;同時由于先驗框數(shù)量沒有增加,模型結(jié)構(gòu)也沒有改變,所以檢測速度并未受到影響。對比SSD和模型D、E、F可知,任意組合其中2種方法均能提升模型的檢測精度,而最終集合3種方法的本文算法模型則在平均精度上取得了最優(yōu)結(jié)果。
3.5 小尺度行人檢測實驗
為驗證本文算法在檢測小尺度行人時的有效性,將其與原SSD算法在構(gòu)建的小尺度行人測試集上進(jìn)行檢測對比,結(jié)果如表4所示。由表4可知,本文算法對小尺度行人的平均精度和F1分?jǐn)?shù)比SSD分別提高了5.48%和7.74%,這表明本文對于檢測小尺度行人的改進(jìn)是有效的,大幅度提升了對小尺度行人的檢測能力。圖6為檢測結(jié)果部分可視化對比。
從圖6中能夠看出,SSD對大尺度行人具有不錯的檢測效果,但很難檢測到距離較遠(yuǎn)的小尺度行人。而本文算法能夠精準(zhǔn)地檢測到更多數(shù)量的小尺度行人,也檢測到了部分被遮擋的行人,說明本文算法對遮擋行人也具有一定的有效性。此外,本文算法識別出行人的置信度更高,說明對目標(biāo)的辨識能力更強。綜上充分表明本文算法在保證實時性的前提下,可以減少小尺度行人漏檢的問題,提高行人檢測精度。
4 結(jié)論
為了更好地檢測行人目標(biāo),與目前大多數(shù)目標(biāo)檢測算法利用更深的主干網(wǎng)絡(luò)或采取較為復(fù)雜的特征融合方式以犧牲大量的檢測速度來提高檢測精度不同,本文在SSD網(wǎng)絡(luò)的基礎(chǔ)上,通過引入通道注意力機(jī)制來增強網(wǎng)絡(luò)對關(guān)鍵信息的表達(dá)能力,構(gòu)造一種新的特征融合模塊,使淺層特征圖充分利用上下文信息,提升對小尺度行人的檢測能力;最后根據(jù)實際場景下行人的寬高比特性,對原始先驗框進(jìn)行優(yōu)化,提高對行人的檢測效率。實驗結(jié)果表明,本文算法在PASCAL VOC2007行人測試集和構(gòu)建的小尺度行人測試集上的整體性能要優(yōu)于SSD和其他大多數(shù)目標(biāo)檢測算法,在保證實時檢測的同時顯著提升了對行人的檢測精度。下一步工作則是對模型體積進(jìn)行量化,使其便于部署到嵌入式設(shè)備上。
參考文獻(xiàn)
[1] 鄧杰,萬旺根.基于改進(jìn)YOLOv3的密集行人檢測[J].電子測量技術(shù),2021,44(11):90-95.
[2] 朱宗洪,李春貴,李煒,等.改進(jìn)Faster R-CNN模型的汽車噴油器閥座瑕疵檢測算法[J].廣西科技大學(xué)學(xué)報,2020,31(1):1-10.
[3] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]//29th Annual Conference on Neural Information Processing Systems (NIPS),2015:91-99.
[4] HE K M,GKIOXARI G,DOLLAR P,et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision,2017:2961-2969.
[5] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[6] LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[C]//European Conference on Computer Vision. Springer,Cham,2016:21-37.
[7] REDMON J,F(xiàn)ARHADI A.YOLO 9000:better,faster,stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,HI,USA,2017:6517-6525.
[8] REDMON J,F(xiàn)ARHADI A.Yolov3:an incremental improvement[J].ArXiv,2018.DOI:10.48550/arXiv.1804. 02767.
[9] FU C Y,LIU W,RANGA A,et al. DSSD:deconvolutional single shot detector[J].arXiv,2017.DOI:10.48550/arXiv.1701.06659.
[10] ZHAI S P,SHANG D R,WANG S H,et al.DF-SSD:an improved SSD object detection algorithm based on DenseNet and feature fusion[J].IEEE Access,2020,8:24344-24357.
[11] HU J,SHEN L,ALBANIE S,et al.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[12] WOO S,PARK J,LEE J Y,et al.Cbam:convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV),2018:3-19.
[13] WANG Q L,WU B G,ZHU P F,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:11531-11539.
[14] CAO G M,XIE X M,YANG W Z,et al.Feature-fused SSD:fast detection for small objects[C]//International Conference on Graphic and Image Processing,2017.
[15] 熊壽禹,陶青川,戴亞峰.一種輕量級的卷積神經(jīng)網(wǎng)絡(luò)的行人檢測方法[J].計算機(jī)應(yīng)用與軟件,2021,38(9):220-225,231.
Pedestrian detection algorithm based on improved SSD
ZHANG Lun,TAN Guangxing*
(School of Automation, Guangxi University of Science and Technology, Liuzhou 545616, China)
Abstract: Aimed at the problem that the current mainstream object detection algorithms cannot balance precision and real-time performance in pedestrian detection, a pedestrian detection algorithm based on improved single shot multibox detector (SSD) is proposed. Firstly, in order to guide the network to pay more attention to the feature information of small-scale pedestrians, the efficient channel attention mechanism is introduced into the shallow network to redistribute feature weights. Then, a new feature fusion module is designed to improve the insufficient semantic information of shallow feature. Finally, by optimizing the parameters of the original anchor to generate the anchor suitable for detecting pedestrians. Experimental results show that the proposed algorithm has an average accuracy of 82.96% on the PASCAL VOC2007 test set, which is 3.83% higher than that of the SSD, and 5.48% higher than that on the small-scale pedestrian test set respectively. At the same time, the detection speed reaches 69.2 frames per second, which meets the requirement of real-time performance.
Key words: single shof multibox detector (SSD); pedestrian detection; attention mechanism; feature fusion
(責(zé)任編輯:黎 婭)