汪慧蘭,戴 舒,劉 丹,王桂麗
安徽師范大學(xué) 物理與電子信息學(xué)院,安徽 蕪湖 241000
行人檢測(cè)技術(shù)能有效減少交通事故的發(fā)生,提高駕駛的安全性,是智能輔助駕駛系統(tǒng)中的關(guān)鍵技術(shù),其中小尺度行人檢測(cè)問題一直以來也是目標(biāo)檢測(cè)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)之一[1-2]。隨著深度學(xué)習(xí)的迅猛發(fā)展,國內(nèi)外研究學(xué)者先后提出了很多優(yōu)秀的目標(biāo)檢測(cè)算法[3-4]。其中基于兩階段的目標(biāo)檢測(cè)方法中典型的R-CNN系列(R-CNN[5]、DRI-RCNN[6]、Fast R-CNN[7]以及Faster RCNN[8]等)在行人檢測(cè)方面能取得非常好的精度,但由于其自身會(huì)產(chǎn)生很多的冗余邊界框,導(dǎo)致其檢測(cè)時(shí)間比較久,很難滿足檢測(cè)系統(tǒng)實(shí)時(shí)性的要求。區(qū)別于R-CNN系列為代表的兩步檢測(cè)算法,YOLO是典型的單步檢測(cè)算法之一,舍去了候選框提取分支(Proposal階段),通過將輸入圖像劃分網(wǎng)格,并分別在每個(gè)網(wǎng)格設(shè)置多個(gè)默認(rèn)候選框用于目標(biāo)的置信度分類和邊界框坐標(biāo)的回歸[9]。簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),大大提高了網(wǎng)絡(luò)的運(yùn)算速度,在保障目標(biāo)檢測(cè)精度的前提下能滿足實(shí)際應(yīng)用場(chǎng)景下實(shí)時(shí)性檢測(cè)需要。但是該算法對(duì)于小目標(biāo)的檢測(cè)仍然存在漏檢和誤檢的情況。
基于此,2016年底,Liu等提出了SSD算法——基于回歸的檢測(cè)過程中結(jié)合區(qū)域的思想[10],采用不同尺度和長寬比的默認(rèn)框,使得檢測(cè)效果較定制化邊界框的YOLO有比較好的提升。因此,SSD算法在提高M(jìn)AP的同時(shí)兼顧速度,成為了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)領(lǐng)域發(fā)展的一個(gè)方向和可能的研究趨勢(shì)。為了進(jìn)一步提高對(duì)小尺度行人目標(biāo)的檢測(cè),研究學(xué)者們以SSD為框架相繼提出了很多改進(jìn)的算法,如2017年,F(xiàn)u等提出的DSSD模型[11],Li等提出的FSSD模型[12];Jeong等提出的RSSD模型[13]等等。分析這些模型可知,它們主要是通過改進(jìn)基礎(chǔ)網(wǎng)絡(luò)的架構(gòu)來提高卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,或者是將高低層特征進(jìn)行有效的融合等方法來提高目標(biāo)檢測(cè)算法的檢測(cè)能力,所以往往在提高目標(biāo)檢測(cè)精度的時(shí)候犧牲了網(wǎng)絡(luò)的檢測(cè)速度,仍然無法滿足實(shí)時(shí)場(chǎng)景下的檢測(cè)要求。
綜上所述,針對(duì)道路交通場(chǎng)景中行人目標(biāo)存在姿態(tài)多變、行人所處的背景環(huán)境復(fù)雜以及行人目標(biāo)較小等情況,同時(shí)考慮精度和實(shí)時(shí)性檢測(cè)的需要,本文在保留SSD基礎(chǔ)網(wǎng)絡(luò)架構(gòu)VGG16的基礎(chǔ)上,一方面通過引入新的卷積結(jié)構(gòu)和檢測(cè)模塊來增強(qiáng)網(wǎng)絡(luò)的特征提取能力;另一方面采用Focal Loss函數(shù)[14]代替標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù),在保證檢測(cè)速度的同時(shí),提高算法對(duì)道路交通中小尺度行人檢測(cè)的能力。
根據(jù)輸入的檢測(cè)圖像大小不同,SSD主要有SSD300和SSD500兩種網(wǎng)絡(luò)結(jié)構(gòu)。如圖1是SSD300的總體網(wǎng)絡(luò)架構(gòu)圖[9]。
圖1 SSD300的總體網(wǎng)絡(luò)架構(gòu)圖Fig.1 Network architecture of SSD300
由圖1可知SSD300行人檢測(cè)過程的基本步驟:將大小為300×300×3圖像輸入主干網(wǎng)絡(luò),可從預(yù)訓(xùn)練好的基礎(chǔ)網(wǎng)絡(luò)中獲得大小不同的特征圖,同時(shí)將大小分別為38×38、19×19、10×10、5×5、3×3、1×1的Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2這6個(gè)卷積層的特征圖輸出。由這些特征圖的每個(gè)像素點(diǎn)分別構(gòu)造出6個(gè)不同長寬比例的默認(rèn)候選框,然后分別進(jìn)行檢測(cè)和分類,生成多個(gè)初步符合條件的默認(rèn)候選框,最后利用非極大值抑制方法篩選出符合要求的候選框,生成最終的檢測(cè)框集合,即行人檢測(cè)結(jié)果[15]。
較傳統(tǒng)的檢測(cè)算法使用頂層特征圖的方法,SSD使用了多尺度特征圖預(yù)測(cè)。如圖2(a)所示的多尺度行人目標(biāo),其8×8大小的特征圖如圖2(b)所示。淺層網(wǎng)絡(luò)輸出的特征圖較大,包含的像素點(diǎn)較多,每個(gè)像素點(diǎn)設(shè)置生成不同長寬比例的默認(rèn)候選框,候選框尺寸較小,適合用來識(shí)別小目標(biāo)(圖中藍(lán)色方框),對(duì)圖像中尺度較大的行人,占據(jù)圖像的比例要多,較小的默認(rèn)候選框面對(duì)較大的目標(biāo),尺寸相差較大,不能有效地檢測(cè)到。隨著網(wǎng)絡(luò)的加深,特征圖通過下采樣操作,深層卷積輸出的特征圖尺度較小,如圖2(c)所示為4×4大小的特征圖。每個(gè)像素點(diǎn)生成的默認(rèn)候選框尺寸較大,感受野變大,可以比較準(zhǔn)確地檢測(cè)到尺度較大的行人目標(biāo)?;谏鲜鲈颍W(wǎng)絡(luò)輸出多尺度的特征圖可以有效適應(yīng)交通場(chǎng)景中存在的不同大小的行人目標(biāo),從而提高算法檢測(cè)的準(zhǔn)確性。
圖2 多尺度行人目標(biāo)特征示意圖Fig.2 Multi-scale pedestrian target feature map
由以上分析可知,SSD網(wǎng)絡(luò)通過不同的卷積層輸出多尺度的特征圖對(duì)不同大小的目標(biāo)進(jìn)行置信度分類和邊界框的回歸。但卷積核對(duì)目標(biāo)提取的特征不夠充分,特征圖包含如邊緣或色塊等較多低級(jí)特征,目標(biāo)的語義信息不夠豐富,分類的信息量較少,導(dǎo)致對(duì)交通場(chǎng)景中小尺度的行人目標(biāo)檢測(cè)效果還是不夠理想?;诖?,針對(duì)道路交通中小尺度行人目標(biāo),本文在傳統(tǒng)SSD基礎(chǔ)網(wǎng)絡(luò)架構(gòu)VGG16的基礎(chǔ)上結(jié)合Inception模塊中稀疏連接,通過優(yōu)化主干網(wǎng)絡(luò)的卷積結(jié)構(gòu),將檢測(cè)模塊采用殘差塊結(jié)構(gòu),并引入Focal Loss函數(shù)作為分類損失。搭建的改進(jìn)SSD網(wǎng)絡(luò)模型如圖3所示。
圖3 改進(jìn)后的SSD網(wǎng)絡(luò)模型Fig.3 Improved SSD network model
由圖3可知,SSD網(wǎng)絡(luò)模型具體的改進(jìn)如下:
(1)將卷積層(Conv4-3)和卷積層(Conv7)采用優(yōu)化的卷積模塊,其他輸出卷積層保留原有的結(jié)構(gòu)。
(2)將負(fù)責(zé)預(yù)測(cè)的3×3的卷積核采用殘差模塊的網(wǎng)絡(luò)結(jié)構(gòu),用RB(res block)指代。
(3)引入Focal Loss函數(shù)作為分類損失。
由于交通場(chǎng)景圖像中行人目標(biāo)所占據(jù)的區(qū)域比例通常不同,用一種尺寸的卷積核進(jìn)行卷積會(huì)造成對(duì)小目標(biāo)行人有效特征的丟失。所以根據(jù)行人目標(biāo)位置信息的差異,借鑒Inception網(wǎng)絡(luò)模型中的稀疏連接[16]和卷積分解思想[17],在同一卷積層上并聯(lián)不同尺寸的卷積核,得到改進(jìn)的卷積模塊結(jié)構(gòu)圖如圖4所示。
圖4 改進(jìn)的卷積模塊結(jié)構(gòu)圖Fig.4 Improved convolution module
由圖4可知,如果輸入特征圖為19×19×512,可分成4個(gè)通道:(1)128個(gè)1×1的卷積核,輸出19×19×128;(2)128個(gè)1×1的卷積核,作為3×3卷積核之前的降維,變成19×19×128,再進(jìn)行256個(gè)3×3的卷積(padding為1),輸出19×19×256;(3)24個(gè)1×1的卷積核,作為5×5卷積核之前的降維,變成19×19×24,再進(jìn)行64個(gè)5×5的卷積(padding為2),輸出19×19×64;(4)pool層,使用3×3的核(padding為1),然后進(jìn)行64個(gè)1×1的卷積,輸出19×19×64;對(duì)這四部分輸出結(jié)果并聯(lián),即128+256+64+64=512。改進(jìn)的卷積模塊結(jié)最后依然是512層,但是參數(shù)個(gè)數(shù)明顯減少了,從19×19×512=184 832變成了1×1×128+(1×1×128+3×3×256)+(1×1×24+5×5×64)+(3×3×512+1×1×64)=8 856,減小了幾個(gè)數(shù)量級(jí)。
因此卷積模塊結(jié)構(gòu)中有4個(gè)通道,由1×1、3×3、5×5這3種尺度的卷積核構(gòu)成。卷積后得到不同大小的特征圖。在不同的特征圖上用0像素進(jìn)行填補(bǔ)(padding),就可以得到相同大小的特征圖,然后進(jìn)行特征融合(concat)。由于5×5的卷積核所需要的計(jì)算量很大,所以在網(wǎng)絡(luò)結(jié)構(gòu)中加入了1×1的卷積核進(jìn)行降維,這樣不僅降低了維度,減少了計(jì)算瓶頸,同時(shí)也增加了網(wǎng)絡(luò)層數(shù),提高了網(wǎng)絡(luò)的表達(dá)能力。
在一定程度上,網(wǎng)絡(luò)越深表達(dá)能力越強(qiáng),性能越好。但隨著網(wǎng)絡(luò)深度的增加,梯度消散和梯度爆炸的問題嚴(yán)重影響網(wǎng)絡(luò)的訓(xùn)練。所以,為了加快網(wǎng)絡(luò)的訓(xùn)練速度,將卷積模塊融合殘差連接的思想,增加一條輸入到輸出的映射支路,從而進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)[17]。
如圖5所示為本文所采用的優(yōu)化卷積模塊結(jié)構(gòu)圖。映射支路使用一個(gè)1×1的卷積核作為卷積層調(diào)整特征圖的維度,以便于更好地和主支路疊加融合。為了進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)的計(jì)算量,將大尺寸的卷積核分解為對(duì)稱的小的卷積核,將5×5的卷積核替換成2個(gè)3×3的卷積核,降低了參數(shù)數(shù)量,減小了計(jì)算量。由結(jié)構(gòu)圖可知,優(yōu)化后的卷積模塊不僅增加了網(wǎng)絡(luò)的寬度,也提高了網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的適應(yīng)性,能更有效地提取到小尺度行人目標(biāo)的特征信息。
圖5 優(yōu)化后的卷積模塊結(jié)構(gòu)圖Fig.5 Optimized convolution module
卷積神經(jīng)網(wǎng)絡(luò)中不同卷積層輸出的特征圖具有的特征梯度幅值大小不同,相比較于淺層輸出的特征圖,深層特征圖包含較多的語義抽象信息,特征梯度幅值要小[18]。為避免淺層特征圖在進(jìn)行預(yù)測(cè)候選框時(shí)產(chǎn)生較大的梯度幅值,影響網(wǎng)絡(luò)的訓(xùn)練的穩(wěn)定性,采用殘差模塊來代替3×3的卷積核,一方面可避免預(yù)測(cè)時(shí)產(chǎn)生較大的梯度幅值對(duì)網(wǎng)絡(luò)的訓(xùn)練產(chǎn)生影響,另一方面可增加檢測(cè)模塊的網(wǎng)絡(luò)深度,增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力,提高檢測(cè)的精度。殘差模塊中使用了1×1卷積模塊,能夠?qū)νǖ罃?shù)起到升維或者降維的作用,從而使3×3卷積以相對(duì)較低維度的輸入進(jìn)行卷積運(yùn)算,提高計(jì)算效率,改進(jìn)的檢測(cè)模塊結(jié)構(gòu)圖如圖6所示。
圖6 改進(jìn)的檢測(cè)模塊結(jié)構(gòu)圖Fig.6 Improved detection module
SSD算法在對(duì)6個(gè)不同尺度大小的特征圖生成的默認(rèn)候選框進(jìn)行分類和回歸時(shí),從很多個(gè)大小、位置以及寬高比不同的默認(rèn)框中,根據(jù)IOU重疊率生成正負(fù)樣本。根據(jù)默認(rèn)框的生成原則可知,SSD的密集采樣可產(chǎn)生104~105個(gè)候選樣本,其中絕大多數(shù)為容易區(qū)分的負(fù)樣本,通常負(fù)樣本數(shù)量遠(yuǎn)超正樣本的數(shù)量。正負(fù)樣本數(shù)的不平衡將導(dǎo)致?lián)p失函數(shù)在訓(xùn)練時(shí)難以收斂,而且大量的負(fù)樣本,在訓(xùn)練的過程中會(huì)主導(dǎo)損失函數(shù)和梯度的變化,影響模型的優(yōu)化,甚至?xí)斐删W(wǎng)絡(luò)的性能嚴(yán)重退化。文獻(xiàn)[14]提出一種Focal Loss損失函數(shù),如式(1)所示:
其中,pt為類別t的預(yù)測(cè)概率,(1-pt)γ是調(diào)制因子,γ為調(diào)制參數(shù)。若一個(gè)樣本被分錯(cuò),則pt會(huì)很小,則調(diào)制因子(1-pt)接近1,損失不被影響;當(dāng)pt→1,因子(1-pt)接近0,則分得比較好的樣本權(quán)值就被調(diào)低了。
SSD網(wǎng)絡(luò)模型采用多任務(wù)損失函數(shù),總體目標(biāo)損失函數(shù)是定位誤差損失(locatization loss,loc)和置信度誤差損失(confidence loss,conf)的加權(quán)和。其中的分類置信度損失使用的是交叉熵?fù)p失函數(shù)(Softmax Loss),如式(2)所示:
從式(2)中可以看出,置信度的誤差包含正樣本的誤差和負(fù)樣本的誤差兩個(gè)部分。為了平滑地調(diào)整不同樣本的權(quán)重,本文引入Focal Loss函數(shù)代替標(biāo)準(zhǔn)交叉熵得到新的置信度損失函數(shù),如式(3)所示:
其中,pi為第i個(gè)樣本被預(yù)測(cè)為正負(fù)樣本的概率,γ為可調(diào)制因子。當(dāng)γ=0的時(shí)候,F(xiàn)ocal Loss就是傳統(tǒng)的交叉熵?fù)p失,當(dāng)γ增加的時(shí)候,調(diào)制系數(shù)也會(huì)增加,參數(shù)γ能平滑地調(diào)節(jié)易分樣本調(diào)低權(quán)值的比例。
基于構(gòu)建的如圖3所示的改進(jìn)SSD網(wǎng)絡(luò)模型,實(shí)驗(yàn)選擇加州理工大學(xué)提供的Caltech Pedestrian Benchmark數(shù)據(jù)集[19],檢測(cè)對(duì)象是交通場(chǎng)景中不同尺度大小的行人目標(biāo),硬件顯卡為NVIDIA GeForce GTX 1080 GPU,系統(tǒng)的內(nèi)存為64 GB,CUDA的版本為9.0。
在訓(xùn)練的過程中,利用tensorboard可視化工具動(dòng)態(tài)監(jiān)測(cè)網(wǎng)絡(luò)運(yùn)行過程中損失值的變化情況。改進(jìn)前和改進(jìn)后的SSD算法損失變化曲線圖如圖7。圖中橫坐標(biāo)表示網(wǎng)絡(luò)的迭代次數(shù)??v坐標(biāo)表示的是整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練過程中的損失函數(shù)的變化情況,最后期望趨近于0。
圖7 損失變化曲線比較圖Fig.7 Comparison of loss change curves
由改進(jìn)前SSD算法損失變化曲線圖7(a)可知,紅色曲線為損失曲線,在前幾百次的迭代中損失函數(shù)值較大,之后驟然下降到15附近,當(dāng)訓(xùn)練迭代到30 000次時(shí),學(xué)習(xí)率衰減百分之十,損失值緩慢下降,到達(dá)90 000次迭代時(shí),學(xué)習(xí)率又會(huì)在前一個(gè)學(xué)習(xí)率的基礎(chǔ)上衰減百分之十,學(xué)習(xí)速率變慢,損失函數(shù)值小幅度減小。100 000次以后,損失函數(shù)的值基本不再減小,趨于穩(wěn)定值12左右。觀察改進(jìn)后的SSD網(wǎng)絡(luò)模型損失變化曲線圖7(b)可知,在接近幾百次的迭代后,損失從一開始25.8下降到10附近,之后損失值緩慢下降趨近于數(shù)值8,并且在8附近輕微震蕩,到達(dá)150 000次迭代的時(shí)候基本趨于穩(wěn)定。
基于以上將改進(jìn)前后的SSD目標(biāo)檢測(cè)算法在不同的迭代次數(shù)時(shí)損失變化曲線進(jìn)行客觀分析可知,由于Focal Loss損失函數(shù)可通過調(diào)制因子調(diào)整樣本的權(quán)重,對(duì)于預(yù)測(cè)概率高的簡(jiǎn)單易分樣本,通過將調(diào)制因子(1-pi)γ的大小設(shè)置為合適的數(shù)值,本文通過實(shí)驗(yàn)驗(yàn)證取γ=2。使其在整個(gè)損失中所占的權(quán)重大大減少,相反對(duì)于預(yù)測(cè)概率較低的難分樣本,增加其在整個(gè)損失中所占的比重,使得反向傳播的梯度也變得越大。這樣損失函數(shù)能夠更加關(guān)注于包含更多有用信息的困難樣本,解決訓(xùn)練過程中正負(fù)樣本不平衡的問題,使得改進(jìn)后的網(wǎng)絡(luò)在訓(xùn)練過程中,損失下降更加迅速,網(wǎng)絡(luò)收斂較快,且穩(wěn)定后的損失值更小。從而驗(yàn)證了改進(jìn)的SSD行人檢測(cè)方法訓(xùn)練過程更加穩(wěn)定、更有效、收斂更快。
為進(jìn)一步直觀評(píng)估改進(jìn)行人目標(biāo)檢測(cè)的性能,將改進(jìn)的SSD算法分別與當(dāng)前較為流行的YOLOv3、YOLOv4、SSD算法進(jìn)行比較。將測(cè)試集分別輸入到訓(xùn)練好的四種網(wǎng)絡(luò)模型中,為了保證數(shù)據(jù)的比較性,模型均以VGG16作為基礎(chǔ)網(wǎng)絡(luò),且按照迭代訓(xùn)練12萬次時(shí)或滿足收斂條件時(shí)訓(xùn)練停止,保存模型的最終權(quán)值,得到四種行人目標(biāo)檢測(cè)算法對(duì)測(cè)試集中對(duì)行人樣本的檢測(cè)結(jié)果,檢測(cè)部分結(jié)果分別如圖8~圖11所示。
圖8 YOLOv3行人目標(biāo)檢測(cè)結(jié)果Fig.8 Pedestrian detection results of YOLOv3
圖9 SSD300算法行人目標(biāo)檢測(cè)結(jié)果Fig.9 Pedestrian detection results of SSD300
圖11 改進(jìn)的SSD算法行人目標(biāo)檢測(cè)結(jié)果Fig.11 Pedestrian detection results of improved SSD
觀察以上行人檢測(cè)結(jié)果圖可知,總的來說,當(dāng)?shù)缆方煌▓?chǎng)景中行人目標(biāo)存在大量重疊、光線較暗和目標(biāo)行人像素較模糊、行人目標(biāo)尺度過小以及相似背景干擾等復(fù)雜多變的情況,以上四種檢測(cè)算法都能夠有效地檢測(cè)到交通場(chǎng)景中的目標(biāo)行人。但具體地分析,當(dāng)圖像中的行人目標(biāo)較小、大量重疊時(shí),或者光線較暗、行人目標(biāo)像素較模糊時(shí),從圖8~圖10檢測(cè)結(jié)果可知YOLOv3和SSD算法的檢測(cè)結(jié)果相當(dāng),但比YOLOv4效果要差,但三種模型對(duì)于小目標(biāo)都出現(xiàn)較嚴(yán)重漏檢和誤檢現(xiàn)象。
圖10 YOLOv4行人目標(biāo)檢測(cè)結(jié)果Fig.10 Pedestrian detection results of YOLOv4
從圖11可知,改進(jìn)后的SSD算法對(duì)小目標(biāo)和重疊目標(biāo)檢測(cè)精確度更高,原因在于將傳統(tǒng)SSD網(wǎng)絡(luò)中卷積層(Conv4-3和Conv7)采用優(yōu)化的卷積模塊,將負(fù)責(zé)預(yù)測(cè)的3×3的卷積核采用殘差模塊的網(wǎng)絡(luò)結(jié)構(gòu),使網(wǎng)絡(luò)模型的泛化能力更好,抗干擾能力更強(qiáng),從而可以有效應(yīng)對(duì)在實(shí)際場(chǎng)景下的運(yùn)動(dòng)模糊和光線較差等不良因素。即使在復(fù)雜的道路交通背景下,特別針對(duì)小尺度目標(biāo)行人的檢測(cè)效果可知,基于本文改進(jìn)的SSD目標(biāo)檢測(cè)模型,仍能順利地檢測(cè)出測(cè)試集中存在的行人目標(biāo),并且檢測(cè)到的目標(biāo)個(gè)數(shù)更為準(zhǔn)確,檢測(cè)框的位置更為精準(zhǔn),與真實(shí)目標(biāo)邊框的重疊率更高,證實(shí)了本文提出的改進(jìn)算法在真實(shí)目標(biāo)場(chǎng)景下,對(duì)小尺度目標(biāo)行人具有更好的魯棒性,從準(zhǔn)確率優(yōu)于其他幾種檢測(cè)算法。
基于Caltech行人數(shù)據(jù)集對(duì)2 000張行人樣本測(cè)試識(shí)別結(jié)果的準(zhǔn)確率、召回率、平均準(zhǔn)確度及速度進(jìn)行比較。設(shè)檢測(cè)結(jié)果取真陽性(TP)、真陰性(TN)、假陽性(FP)、假陰性(FN)四種結(jié)果中的一種。則準(zhǔn)確率AP表示正確預(yù)測(cè)的樣本占所有樣本的比重:
召回率R表示所有正樣本中被正確預(yù)測(cè)的比重:
平均準(zhǔn)確率MAP表示對(duì)行人檢測(cè)類別的AP的平均。
分析表1數(shù)據(jù)可知,YOLOv4相對(duì)于YOLOv3在準(zhǔn)確率上提升了近10個(gè)百分點(diǎn),然而速度并幾乎沒有下降。SSD300在速度上比YOLO系列慢,但檢測(cè)準(zhǔn)確率提高。YOLO系列和SSD300在準(zhǔn)確率和速度上各有優(yōu)勢(shì),但兩者不能兼顧。本文改進(jìn)的SSD檢測(cè)算法相比較于YOLOv4和SSD300行人檢測(cè)算法,可在速度上與SSD300相當(dāng)?shù)那闆r下,準(zhǔn)確率進(jìn)一步分別提升了2.1個(gè)百分點(diǎn)和2.8個(gè)百分點(diǎn),召回率分別提升了6.7個(gè)百分點(diǎn)和6.2個(gè)百分點(diǎn),平均準(zhǔn)確率分別提升了4.3個(gè)百分點(diǎn)和5.5個(gè)百分點(diǎn),說明卷積層結(jié)合稀疏連接來優(yōu)化卷積結(jié)構(gòu)對(duì)圖像特征的提取能取較好的效果,檢測(cè)精度得到了明顯提高。從檢測(cè)速度上分析,本文提出的基于改進(jìn)的SSD算法也能達(dá)到了58 frame/s,能滿足實(shí)時(shí)性要求,這得益于利用殘差結(jié)構(gòu)減少了卷積結(jié)構(gòu)的參數(shù)和Focal Loss函數(shù)的引入,因此在提高算法檢測(cè)精度的同時(shí)可以滿足道路交通場(chǎng)景下小尺度行人目標(biāo)的實(shí)時(shí)檢測(cè)需要。
表1 四種網(wǎng)絡(luò)模型的性能指標(biāo)對(duì)比Table 1 Performance index comparison of four network models
為滿足交通場(chǎng)景中行人目標(biāo)檢測(cè)算法對(duì)于檢測(cè)實(shí)時(shí)性和精確度的要求,本文在傳統(tǒng)的SSD網(wǎng)絡(luò)模型的基礎(chǔ)上提出了一些改進(jìn),首先在主干網(wǎng)絡(luò)的Conv4-3和Conv7兩個(gè)卷積層結(jié)合Inception模塊中的稀疏連接,提高卷積結(jié)構(gòu)對(duì)圖像的特征提取能力,增加特征圖中小目標(biāo)的語義信息;其次檢測(cè)模塊采用殘差結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的3×3大小的卷積核,對(duì)輸出的特征圖進(jìn)行分類和位置的回歸,來進(jìn)一步提高對(duì)小的行人目標(biāo)的檢測(cè)精度;最后采用Focal Loss函數(shù)來代替softmax標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù),解決訓(xùn)練過程中的正負(fù)樣本不平衡的問題,提高網(wǎng)絡(luò)的收斂速度。但行人檢測(cè)技術(shù)所涉及的研究課題具有一定的廣度和深度,本文算法所做的研究工作仍有待于進(jìn)一步地完善,還有一些問題值得深入學(xué)習(xí)和探究。
(1)本文基于以VGG16為主干網(wǎng)絡(luò)的傳統(tǒng)的SSD網(wǎng)絡(luò)模型為基礎(chǔ),做出相應(yīng)的改進(jìn),旨在提升算法的檢測(cè)性能,同時(shí)與其他優(yōu)秀的算法相比較,在公共數(shù)據(jù)集上通過大量實(shí)驗(yàn)驗(yàn)證了本文改進(jìn)算法的合理性和有效性。但是算法的檢測(cè)速度還有很大的提升空間,可以在網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方面進(jìn)一步做出努力。考慮到網(wǎng)絡(luò)模型的參數(shù)量巨大,可通過對(duì)網(wǎng)絡(luò)進(jìn)行輕量化,縮小模型,提高網(wǎng)絡(luò)的運(yùn)行速度,以取得更好的精度與效率。
(2)一個(gè)性能優(yōu)越的深度神經(jīng)網(wǎng)絡(luò)模型,離不開豐富的訓(xùn)練樣本圖像,所以,制作數(shù)據(jù)集時(shí)不僅要考慮到訓(xùn)練樣本集的質(zhì)量是否符合要求,提高樣本的數(shù)量也是至關(guān)重要的。在不改變圖像類別的情況下,增加數(shù)據(jù)量,能提高模型的泛化能力。