基于改進(jìn)SSD的視頻行人目標(biāo)檢測(cè)*

2022-01-21 00:34趙九霄李國(guó)燕

傳感器與微系統(tǒng) 2022年1期

趙九霄，劉毅，李國(guó)燕

(天津城建大學(xué) 計(jì)算機(jī)與信息工程學(xué)院，天津 300384)

0 引言

視頻監(jiān)控已經(jīng)成為生活中不可或缺的一部分，其重點(diǎn)應(yīng)用于駕駛輔助系統(tǒng)、安檢等方面。行人檢測(cè)作為視頻監(jiān)控中的關(guān)鍵組成部分，其研究目的是在復(fù)雜場(chǎng)景下準(zhǔn)確并且快速檢測(cè)出行人目標(biāo)?，F(xiàn)階段行人檢測(cè)特征提取方法主要分為傳統(tǒng)的基于人工設(shè)計(jì)的特征提取方法和基于神經(jīng)網(wǎng)絡(luò)的特征提取方法。

傳統(tǒng)目標(biāo)檢測(cè)方法[1,2]對(duì)淺層特征描述較好，對(duì)數(shù)據(jù)量較少的數(shù)據(jù)集具有良好的分辨能力，但對(duì)于數(shù)據(jù)量較多的數(shù)據(jù)集則顯示出計(jì)算能力的不足，且存在著不能體現(xiàn)深層次特征的問題?；谏窠?jīng)網(wǎng)絡(luò)方法[3]可以為視頻行人檢測(cè)提供較為深層次的特征，并且可以應(yīng)對(duì)數(shù)據(jù)集帶來的計(jì)算量過大的問題，但卻沒有解決幀與幀之間運(yùn)動(dòng)信息聯(lián)系的問題。

為了解決上述問題，Kang K等人[4]提出了一種基于靜止圖像的行人檢測(cè)框架，結(jié)合時(shí)間信息來規(guī)范檢測(cè)結(jié)果。隨著遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在視覺和序列學(xué)習(xí)[5]、目標(biāo)跟蹤[6]、目標(biāo)識(shí)別[7]方面的成功應(yīng)用，文獻(xiàn)[8]為了解決當(dāng)輸入圖像為長(zhǎng)序列時(shí)RNN體系結(jié)構(gòu)精度退化的問題，將可以產(chǎn)生高精度的長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)引入到模型中，該方法具有較高的精度。Liu M等人[9]創(chuàng)建了一個(gè)交織的遞歸卷積體系結(jié)構(gòu)，并提出了一個(gè)有效的瓶頸層，與常規(guī)LSTM相比，可以提高運(yùn)算效率。文獻(xiàn)[10]提出了一種ConvLSTM結(jié)構(gòu)，并利用它建立了端到端的可訓(xùn)練模型。Karpathy A等人[11]提出了一種用自然語言描述生成圖像的模型，構(gòu)建了一種多形態(tài)遞歸神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)?？梢娔壳暗难芯恐羞€存在著計(jì)算量較大、準(zhǔn)確率低且不能充分的解決跨幀的運(yùn)動(dòng)信息聯(lián)系問題。

本文提出了一種基于改進(jìn)SSD的視頻行人目標(biāo)檢測(cè)方法。首先，改進(jìn)經(jīng)典的SSD(single shot multibox detector)，將基礎(chǔ)網(wǎng)絡(luò)VGG—16(visual geometry group network—16)替換為改進(jìn)的MobileNet網(wǎng)絡(luò)，并使用區(qū)域化密集連接，可以在避免梯度消失的同時(shí)增加網(wǎng)絡(luò)的運(yùn)算效率。其次，將GRU(gate recurrent unit)與改進(jìn)的SSD框架結(jié)合。GRU單元的反饋連接和門控機(jī)制使模型能記憶空間依賴關(guān)系，并選擇性地傳播相關(guān)運(yùn)動(dòng)信息，將上下幀的運(yùn)動(dòng)信息反饋給檢測(cè)網(wǎng)絡(luò)以提升檢測(cè)準(zhǔn)確率，并減少運(yùn)算量。

1 圖像數(shù)據(jù)預(yù)處理

1.1 圖像增強(qiáng)

灰度世界算法[12]是基于灰度世界假設(shè)的，灰度世界算法在物理上假設(shè)自然界物體光的平均反射值通常是一個(gè)固定值，它近似于灰色。采用色彩平衡方法將該假設(shè)應(yīng)用于訓(xùn)練集中的圖像，可以從圖像中消除環(huán)境光的影響，從而達(dá)到增強(qiáng)圖像的效果。

1.2 樣本標(biāo)注

本文選用的數(shù)據(jù)集來源于道路流量視頻，一共切分為3 120 幀連續(xù)圖像。為更好地發(fā)揮檢測(cè)框架的性能優(yōu)勢(shì)，將訓(xùn)練集中的圖像轉(zhuǎn)換為VOC2012格式，訓(xùn)練集圖像的長(zhǎng)度被重新縮放到500個(gè)像素，并相應(yīng)地調(diào)整寬度，以保持原始的縱橫比，因?yàn)樾枰獧z測(cè)的對(duì)象只有行人，所以類別為1。

1.3 樣本擴(kuò)增

通過對(duì)訓(xùn)練樣本旋轉(zhuǎn)來實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增。旋轉(zhuǎn)包括水平旋轉(zhuǎn)、垂直旋轉(zhuǎn)、鏡像旋轉(zhuǎn)，旋轉(zhuǎn)的角度范圍為+30°～-30°，并對(duì)新增樣本進(jìn)行篩選，去除劣質(zhì)樣本。

1.4 數(shù)據(jù)集的制作

在經(jīng)過對(duì)圖像數(shù)據(jù)的預(yù)處理之后，得到的數(shù)據(jù)如表1所示，分為三類。第一類是原始圖像訓(xùn)練集，第二類是經(jīng)過圖像增強(qiáng)后的訓(xùn)練集，第三類是經(jīng)過樣本擴(kuò)增后的訓(xùn)練集。

表1 訓(xùn)練集數(shù)量

2 改進(jìn)的SSD行人目標(biāo)檢測(cè)框架

2.1 SSD模型

Liu W等人[13]提出SSD是一種快速高效的目標(biāo)檢測(cè)方法，這種檢測(cè)算法是在YOLO(you only look once)和Faster R-CNN的研究基礎(chǔ)上衍生而來。SSD框架分為兩部分，第一部分是由經(jīng)典模型VGG—16[14]組成的特征提取部分，第二部分是由四層卷積層構(gòu)成的多尺度特征檢測(cè)部分。

SSD框架結(jié)構(gòu)圖如圖1所示。在Conv4_3,Conv7,Conv8_2,Conv9_2,Conv10_2和Conv11_2特征層的每一個(gè)單元中按照不同長(zhǎng)寬比分別提取4～6個(gè)默認(rèn)框。

圖1 SSD框架結(jié)構(gòu)

SSD的損失函數(shù)包括兩部分，第一部分是對(duì)應(yīng)搜索框的位置(loc)損失，第二部分是類別置信度(Conf)損失

(1)

(2)

(3)

式中c為置信度，l為預(yù)測(cè)框，g為真框，loc為位置損失，Conf為置信度損失，a為分類和回歸的誤差權(quán)重，N為匹配到默認(rèn)框的數(shù)量。

2.2 基礎(chǔ)網(wǎng)絡(luò)及改進(jìn)

傳統(tǒng)的SSD使用VGG—16作為基礎(chǔ)特征提取網(wǎng)絡(luò)，但其存在著計(jì)算量較大的問題。通過將改進(jìn)的MobileNet作為SSD的基礎(chǔ)特征提取網(wǎng)絡(luò)來解決以上問題。

為了在有限性能的硬件條件下提高效率，開發(fā)了輕量網(wǎng)絡(luò)MobileNet[15]。MobileNet[15]可以通過減少參數(shù)，達(dá)到減少計(jì)算量的目的，并且不以犧牲精度為代價(jià)。圖2表明MobileNet是由可深度分離卷積構(gòu)成的，它包括深度層(Depthwise)和點(diǎn)向?qū)?Pointwise)。Depthwise是使用3×3卷積核的深卷積層，而Pointwise是使用1×1卷積核的卷積層，每個(gè)卷積結(jié)果均采用批量歸一化算法和線性整流函數(shù)(rectified linear unit,ReLU)進(jìn)行處理。

圖2 標(biāo)準(zhǔn)卷積與深度可分離卷積對(duì)比

在輸入輸出圖像尺寸不發(fā)生變化的情況下，傳統(tǒng)卷積核的計(jì)算量C1為

C1=Dk×Dk×M×N×DF×DF

(4)

式中DF為輸入與輸出特征圖的寬度與高度，M為輸入特征圖的通道數(shù)，N為輸出特征圖的通道數(shù)，Dk為卷積核的長(zhǎng)和寬。相比之下，深度可分離卷積的總計(jì)算量C2為

C2=Dk×Dk×M×DF×DF+M×N×DF×DF

(5)

(6)

針對(duì)MobileNet網(wǎng)絡(luò)特征傳遞較弱以及梯度消失的問題，將密集連接加入到MobileNet網(wǎng)絡(luò)中。原理是將網(wǎng)絡(luò)中的所有層連接，并將前面所有層的特征映射連接，一方面可以緩解梯度消失，另一方面可以把每一層的特征圖依次傳遞給下一層，該方式不僅可以增強(qiáng)特征的傳遞，也可以在一定程度上減少參數(shù)量，從而減少運(yùn)算量。

如圖3所示，將池化層之前的所有層分為三個(gè)區(qū)域，采用密集連接方式連接。通過該方法將所有層的特征映射連接起來，第一個(gè)區(qū)域的輸入為Input的輸出，第二個(gè)區(qū)域的輸入為第一個(gè)區(qū)域的輸出，第三個(gè)區(qū)域的輸入為第一、二個(gè)區(qū)域的輸出組合，該區(qū)域的卷積運(yùn)算結(jié)果為第一、二、三區(qū)域的輸出組合，圖4為改進(jìn)后SSD框架。

圖3 改進(jìn)后的區(qū)域密集連接結(jié)構(gòu)

圖4 改進(jìn)后SSD框架結(jié)構(gòu)

2.3 GRU輔助單元

人類的思想具有連貫性，但神經(jīng)網(wǎng)絡(luò)并不具備這種連貫性，更無法將幀與幀之間的運(yùn)動(dòng)信息逐層傳遞，因此，將GRU引入到檢測(cè)框架中。

2.3.1 輸入端

使用的GRU架構(gòu)可以從輸入幀獲取到空間結(jié)構(gòu)。選擇改進(jìn)的SSD作為前端檢測(cè)行人的框架，并將檢測(cè)的結(jié)果保留為c+4的位置類別得分向量。具體來說，向量是由c個(gè)對(duì)象類別分?jǐn)?shù)和4個(gè)位置參數(shù)組成。

除了位置—分?jǐn)?shù)向量外，因?yàn)樾枰獧z測(cè)一些遠(yuǎn)距離小目標(biāo)，因此,選用ROI Pooling為每個(gè)檢測(cè)到的對(duì)象提取了一個(gè)固定大小的描述符。選用Conv6,Conv7,Conv8層以及FC層的特征映射，利用這四個(gè)層產(chǎn)生的特征映射作為ROI Pooling層，并將輸出框集中到這些特征映射上，以計(jì)算固定大小的特征描述符。每個(gè)檢測(cè)到的盒子都是從幾個(gè)層中得到的，以產(chǎn)生一個(gè)固定長(zhǎng)度的s×s特征描述符。將輸出的參數(shù)設(shè)置為7，除了最后輸出的特征描述符的大小為7×7之外，還添加了一個(gè)歸一化過程，使不同尺度的特征位于同一個(gè)單位球上。

將不同對(duì)象的位置、類別分?jǐn)?shù)向量以及特征描述符向量分別連接成二維N×D的幀級(jí)張量，其中D=(c+4)+(s×s)，它是每個(gè)檢測(cè)對(duì)象的復(fù)合特征長(zhǎng)度，并取當(dāng)前幀N個(gè)對(duì)象來形成幀級(jí)向量。

為了利用過去的幀，使GRU能夠選擇性地記住什么是有用的預(yù)測(cè)，需要將當(dāng)前的幀級(jí)張量與T-1幀向后疊加，得到一個(gè)具有T×N×D大小的疊加張量輸入，得到的幀級(jí)向量將被輸入到GRU體系結(jié)構(gòu)中。

2.3.2 輸出端

給定幀T中,x∈Rπ×N×D，使用關(guān)聯(lián)GRU輸出具有相同大小的改進(jìn)預(yù)測(cè)x。其中,只考慮當(dāng)前幀Y的預(yù)測(cè)，當(dāng)前幀Y由n個(gè)對(duì)象預(yù)測(cè)組成，假設(shè)幀中的地面真實(shí)對(duì)象在數(shù)量上不超過n，可以用零向量進(jìn)行填充，以保持所有輸出對(duì)象預(yù)測(cè)數(shù)值的不變。每個(gè)對(duì)象預(yù)測(cè)包括三個(gè)項(xiàng)，分別為通過四維表示的對(duì)象位置、類別分?jǐn)?shù)c和s×s大小的關(guān)聯(lián)特征。SSD與GRU的結(jié)合如圖5所示。

圖5 改進(jìn)后SSD與GRU結(jié)合框架

改進(jìn)方法可以解決給定輸入張量的對(duì)象回歸和對(duì)象關(guān)聯(lián)問題。回歸類別分?jǐn)?shù)和對(duì)象位置是從GRU的每個(gè)時(shí)間步長(zhǎng)中得到的，并且這些時(shí)間步長(zhǎng)處于隱藏狀態(tài)。而關(guān)聯(lián)特征是在連續(xù)的兩個(gè)時(shí)間步長(zhǎng)之間計(jì)算的。每個(gè)幀中的隱藏狀態(tài)完全取決于網(wǎng)絡(luò)的當(dāng)前輸入情況及其在時(shí)間t-1中的隱藏狀態(tài)?？傮w算法流程如圖6所示。

圖6 檢測(cè)算法流程

3 模型的訓(xùn)練與測(cè)試

3.1 實(shí)驗(yàn)平臺(tái)

訓(xùn)練采用的CPU為Intel?CoreTMi7—7700HQ CPU(內(nèi)含GPU)，內(nèi)存為32G，操作系統(tǒng)為Microsoft Windows 10，訓(xùn)練需要安裝Tensorflow2.0,OpenCV,Python3.6.6等。

3.2 參數(shù)設(shè)置

為了優(yōu)化調(diào)參過程以及快速選取糾正誤差項(xiàng)的最佳值。實(shí)驗(yàn)使用非極大值抑制(non-maximum suppression,NMS)方法，如果超過某一閾值則被視為同一對(duì)象，分?jǐn)?shù)最低的一個(gè)將被刪除，用式(7)計(jì)算IOU(intersection over union)，B1和B2表示兩個(gè)包圍框

(7)

通常NMS中的閾值設(shè)置為0.3，但這里將閾值設(shè)置為0.1。使用較低值的原因是，當(dāng)創(chuàng)建可用作評(píng)估數(shù)據(jù)的集成數(shù)據(jù)時(shí)，會(huì)存在坐標(biāo)位移問題。因此,將正確的集合包圍框設(shè)置為公共包圍框的平均值，并將所有實(shí)驗(yàn)中經(jīng)過非極大值抑制留下的候選區(qū)域數(shù)量設(shè)置為100(默認(rèn)設(shè)置為300)，其他設(shè)置保持不變，后續(xù)所有測(cè)試和訓(xùn)練都在以上設(shè)置的基礎(chǔ)上進(jìn)行。對(duì)于GRU，模型學(xué)習(xí)率為0.003，最終的訓(xùn)練次數(shù)為1 500次。

3.3 視頻行人檢測(cè)網(wǎng)絡(luò)訓(xùn)練

采用基于Tensorflow2.0版本進(jìn)行訓(xùn)練。圖7改進(jìn)SSD框架對(duì)第132幀的檢測(cè)結(jié)果。

圖7 網(wǎng)絡(luò)訓(xùn)練檢測(cè)結(jié)果

由圖7可以看出，在類別為人的前提下，檢測(cè)的準(zhǔn)確度都達(dá)到了80 %以上，檢測(cè)結(jié)果充分說明了方法的可行性。

表2為與目前各種主流的四種檢測(cè)算法速度對(duì)比。可以看出，改進(jìn)SSD方法耗費(fèi)訓(xùn)練時(shí)間較少，所需硬件成本較低，使用普通電腦配置(酷睿i7，16 GB內(nèi)存，Tensorflow2.0)，使用的視頻行人目標(biāo)數(shù)據(jù)集，訓(xùn)練一步所需時(shí)間僅為5 s左右，總訓(xùn)練時(shí)長(zhǎng)為8h左右。相比之下，F(xiàn)aster—R—CNN，YOLO等傳統(tǒng)檢測(cè)方法的單步訓(xùn)練時(shí)長(zhǎng)較長(zhǎng)，因此，所用方法在低性能設(shè)備上也可以進(jìn)行訓(xùn)練。相比傳統(tǒng)檢測(cè)模型，改進(jìn)SSD方法可以減少訓(xùn)練時(shí)間，同時(shí)對(duì)設(shè)備的性能需求較低，非常適合于城市道路行人目標(biāo)識(shí)別。

表2 四種不同方法檢測(cè)速度比較

需要識(shí)別的種類只有行人，因此無需考慮其他類別，該方法使用的數(shù)據(jù)集標(biāo)準(zhǔn)均為VOC2012。由表3可以看出，改進(jìn)后的SSD方法的檢測(cè)準(zhǔn)確率高于經(jīng)典的YOLO,SSD等檢測(cè)算法。

表3 四種不同方法檢測(cè)精度比較

4 結(jié)束語

通過替換SSD基礎(chǔ)特征提取網(wǎng)絡(luò)VGG—16為改進(jìn)的MobileNet，以及將GRU與檢測(cè)框架相結(jié)合，使改進(jìn)后的模型更適合于檢測(cè)視頻行人目標(biāo)。同時(shí)，在建立幀與幀之間的關(guān)聯(lián)性的同時(shí)減少了訓(xùn)練參數(shù)。改進(jìn)后的SSD檢測(cè)框架在準(zhǔn)確率提升以及檢測(cè)速度提高方面優(yōu)于經(jīng)典的檢測(cè)算法，實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡