国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的監(jiān)控視頻車輛實時監(jiān)測

2019-10-11 11:24:36張文輝
軟件導(dǎo)刊 2019年7期
關(guān)鍵詞:深度學(xué)習(xí)

摘 要:針對傳統(tǒng)車輛檢測算法不能自適應(yīng)地完成復(fù)雜道路場景變化下提取車輛特征的問題,結(jié)合焦點損失、K-means聚類與mobilenet網(wǎng)絡(luò),提出改進(jìn)的RFB-VGG16與RFB-MobileNet模型進(jìn)行車輛檢測。從開源數(shù)據(jù)集UA-DETRAC的24個視頻中每隔一定幀數(shù)抽取8 209張已標(biāo)注的圖片構(gòu)成數(shù)據(jù)集,在相同的超參數(shù)與訓(xùn)練策略下,改進(jìn)后RFB-VGG16網(wǎng)絡(luò)的AP值比原模型提高了3.2%?;趍obilenet網(wǎng)絡(luò)重新設(shè)計RFB骨架網(wǎng)絡(luò),使RFB-MobileNet模型在犧牲一定性能的情況下,具有更快的檢測速度,能較好地滿足監(jiān)控視頻對車輛檢測實時性的要求。

關(guān)鍵詞:深度學(xué)習(xí);車輛檢測;焦點損失;RFBNet;K-means

DOI:10. 11907/rjdk. 182835 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

中圖分類號:TP306文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2019)007-0037-04

Real-time Vehicle Detection in Surveillance Video Based on Deep Learning

ZHANG Wen-hui

(School of Automation,Guangdong University of Technology, Guangzhou 510006, China)

Abstract: Aiming at the problem that the traditional vehicle detection algorithm can not adaptively extract the vehicle characteristics under the complex road scene change, this paper combines the focus loss, K-means clustering and mobilenet network, and proposes the improved RFB-VGG16 and RFB-MobileNet models for the vehicle detection. First, 8209 images of the labeled images are extracted from the 24 videos of the open source dataset UA-DETRAC. Second,Under the same hyperparameters and training strategies, the AP value of the improved RFB-VGG16 network is 3.2% higher than the original model. Redesigning the RFB's skeleton network based on the mobilenet network enables the RFB-MobileNet model to have a faster detection speed at the expense of a little performance, thus meeting the real-time requirements of vehicle detection in surveillance video.

Key Words:deep learning; vehicle detection; focus loss; RFBNet; K-means

作者簡介:張文輝(1992-),男,廣東工業(yè)大學(xué)自動化學(xué)院碩士研究生,研究方向為計算機(jī)視覺。

0 引言

隨著中國經(jīng)濟(jì)及城市化的快速發(fā)展,城市人口與車輛數(shù)量急劇增長,交管部門道路車輛監(jiān)管壓力也與日俱增。目前我國大部分路口已安裝了高清監(jiān)控攝像頭,每天會產(chǎn)生大量監(jiān)控視頻,使交管部門在進(jìn)行車輛違法行為判斷、不同時段車流量統(tǒng)計與跨攝像頭車輛追蹤等工作時面臨嚴(yán)峻挑戰(zhàn)。通過人工進(jìn)行視頻實時監(jiān)控處理不僅成本較高,而且費時費力,同時長時間工作容易使人產(chǎn)生疲勞,易出現(xiàn)監(jiān)控遺漏的情況,所以迫切需要一種自動化方法輔助人工進(jìn)行視頻監(jiān)控處理。

由于不同路段的交通監(jiān)控系統(tǒng)建設(shè)時間與監(jiān)控需求不同,導(dǎo)致攝像頭的拍攝角度、分辨率與方向具有很大差異,同時視頻質(zhì)量容易受到光照、下雨及霧霾等天氣因素的嚴(yán)重影響。傳統(tǒng)檢測方法對視頻質(zhì)量要求較高,因此在面對復(fù)雜道路場景時往往效果較差。隨著深度學(xué)習(xí)在檢測、識別等計算機(jī)視覺任務(wù)中取得重大突破,基于深度學(xué)習(xí)的目標(biāo)檢測算法憑借卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,替代傳統(tǒng)機(jī)器學(xué)習(xí)中的人工設(shè)計特征,能夠應(yīng)對復(fù)雜的道路場景,具有更高的檢測準(zhǔn)確率與更強(qiáng)的魯棒性,效果遠(yuǎn)優(yōu)于傳統(tǒng)檢測算法。

目前基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為以SSD[1]與YOLO系列[2-4]為代表的“一步法”模型,以及以RCNN系列[5-7]為代表的“兩步法”模型。在權(quán)衡實時性與性能后,本文引入基于SSD改進(jìn)的RFBNet(Receptive Field Block Net)[8]模型實現(xiàn)監(jiān)控視頻的車輛檢測,并對RFBNe模型結(jié)構(gòu)與參數(shù)進(jìn)行如下優(yōu)化:①在RFBNet訓(xùn)練階段引入焦點損失方法[9],以加大難訓(xùn)練樣本權(quán)重值;②采用K-means聚類查找anchor的最佳數(shù)量和大小;③基于MobileNet[10]設(shè)計出更輕量化的骨架網(wǎng)絡(luò)進(jìn)行特征提取。實驗結(jié)果顯示,經(jīng)過上述方法改進(jìn)的RFB-VGG16模型效果優(yōu)于基礎(chǔ)模型,且能保持原有處理速度,而RFB-MobileNet速度雖然快于RFB-VGG16,但準(zhǔn)確度有所降低。因此,對于在線監(jiān)控可以選擇速度更快的RFB-MobileNet模型,而離線處理可以選擇準(zhǔn)確度更高的RFB-VGG16模型。

1 RFBNet整體結(jié)構(gòu)

RFBNet整體結(jié)構(gòu)與SSD模型相似,主要由基礎(chǔ)網(wǎng)絡(luò)與多尺度預(yù)測層組成,并加入仿人類視覺系統(tǒng)的RF Block(Receptive Field Block)模塊,以增強(qiáng)CNN網(wǎng)絡(luò)的特征提取能力,可同時滿足對速度與精度的要求。在車輛檢測過程中,首先將圖片縮放為300×300大小,然后將其輸入到骨干網(wǎng)絡(luò)VGG16頭部的部分層中進(jìn)行特征提取,接著繼續(xù)通過卷積與池化形成6個特征圖。在不同尺度的特征圖上采用3×3卷積進(jìn)行框回歸和類別分類。其中框回歸是對包含前景的框位置進(jìn)行修正,而類別分類采用softmax,類別包括背景和前景的k個類別,共有(k+1)個類別,RFBNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 RFBNet網(wǎng)絡(luò)結(jié)構(gòu)

2 改進(jìn)方法

本文方法是在監(jiān)控視頻中抽取一幀幀圖像,再進(jìn)行車輛檢測。以RFB 模型框架為基礎(chǔ),結(jié)合K-means、焦點損失與MobileNet進(jìn)行改進(jìn),下面對每部分進(jìn)行介紹。

2.1 anchor大小優(yōu)化

在車輛檢測過程中,RFB網(wǎng)絡(luò)通過調(diào)整anchor大小匹配待檢測目標(biāo)的位置框,從而得到一個準(zhǔn)確的預(yù)測框。如果一開始設(shè)定一組合適的anchor,RFB網(wǎng)絡(luò)將更容易得到準(zhǔn)確的預(yù)測框。對于anchor大小設(shè)定有以下3種方式:①憑借以往經(jīng)驗人為設(shè)定anchor大小;②通過統(tǒng)計手段找到合適的anchor;③采用聚類算法發(fā)現(xiàn)合適的anchor。由于前兩種方式過度依賴人的調(diào)參經(jīng)驗,同時本文研究對象為車輛,該對象相對于其它目標(biāo)具有特定形狀,一般為扁長,因此本文采用K-means聚類算法尋找最佳a(bǔ)nchor大小。傳統(tǒng)K-means算法的度量函數(shù)采用歐幾里得距離,具體公式如下:

[d(x,y)=i=1n(xi-yi)] (1)

采用式(1)作為度量函數(shù)后,會出現(xiàn)大位置框比小位置框貢獻(xiàn)更多損失的情況,即訓(xùn)練過程中大框與小框地位不平等,最終會影響模型對小框的預(yù)測結(jié)果。為了避免以上情況發(fā)生,采用以下改良的度量函數(shù):

[d(box,centroid)=1-IOU(box,centroid)] (2)

[IOU=Area of OverlapArea of Union] (3)

其中式(3)IoU(Intersection over Union)是兩個框面積區(qū)域的交集除以兩個框面積區(qū)域的并集。本文采用改進(jìn)后的K-means對UA-DETRAC數(shù)據(jù)集中抽取的8 209張數(shù)據(jù)集進(jìn)行聚類,如圖3所示。

圖2 聚類中心與平均IOU分布

在圖2中橫軸是聚類中心個數(shù),縱軸是平均IOU值。聚類中心個數(shù)越多,平均IOU值也越大,但平均IOU值的增幅相應(yīng)減緩。在RFBNet模型中采用越多的anchor,其檢測性能將得到提升,但模型運(yùn)算時間也相應(yīng)增加。從圖2中可看出,當(dāng)聚類中心為6時,平均IOU值增幅已逐漸放緩,因此在權(quán)衡模型運(yùn)行時間與準(zhǔn)確率兩方面后,本文設(shè)定RFBnet模型的anchor個數(shù)為6。

2.2 anchor數(shù)量優(yōu)化

RFB網(wǎng)絡(luò)中采用6個不同尺度特征圖預(yù)測位置框,從而增強(qiáng)模型預(yù)測小位置框的能力,其中6個特征圖大小分別為38×38、19×19、10×10、5×5、3×3和1×1。從數(shù)據(jù)集中不放回地隨機(jī)抽樣1 000張照片放入RFB網(wǎng)絡(luò)中,同時從6個特征圖的預(yù)測結(jié)果中篩選出IOU大于0.5的預(yù)測框,接著將滿足以上條件的位置框畫在一個300*300的圖中,其中橫軸為位置框長度,縱軸為位置框高度,不同顏色代表其由不同特征圖預(yù)測得到,如圖3所示。

通過統(tǒng)計6個特征圖預(yù)測結(jié)果,得到以下結(jié)論:①小目標(biāo)數(shù)量遠(yuǎn)多于大目標(biāo)數(shù)量,如圖3所示,左下角是小目標(biāo)分布圖,右上角是大目標(biāo)分布圖;②車輛檢測貢獻(xiàn)程度排序如下:P38>P19>P10>P5>P3>P1。從圖3中可明顯看出,不同特征圖負(fù)責(zé)檢測不同大小的車輛,同時大特征圖能準(zhǔn)確預(yù)測出更多車輛位置框。因為anchor數(shù)量越多,會相應(yīng)增大模型復(fù)雜度,因此可以通過減少低貢獻(xiàn)度特征圖的anchor個數(shù)以降低模型復(fù)雜度,從而降低模型浮點數(shù)計算量,加快網(wǎng)絡(luò)運(yùn)行速度。本文模型采用的anchor類別個數(shù)如表1所示。

2.3 聚焦損失

以SSD為代表的“一步法”摒棄了候選框提取方式,而是直接預(yù)測類別與框坐標(biāo),以保證算法的實時性,但準(zhǔn)確率不如“二步法”?!耙徊椒ā睖?zhǔn)確率低是因類別數(shù)量失衡引起的,即負(fù)樣本個數(shù)遠(yuǎn)多于正樣本個數(shù)。在模型訓(xùn)練過程中,大量的簡單負(fù)樣本提供了無用信息,從而使模型訓(xùn)練無效。聚焦損失是在交叉熵?fù)p失基礎(chǔ)上引入α和β因子,以解決類別數(shù)量失衡的問題。

交叉熵?fù)p失是多分類中最常用的算法函數(shù)。假設(shè)數(shù)據(jù)集中有n個樣本,類別個數(shù)為C,同時背景作為一類,總類別個數(shù)為C+1,則交叉熵CE定義如下:

[CE=1ni=1nj=1C+1-y(i)jlog(p(x(i))j)] (4)

其中,y是真實類別概率值,[p(x)]是預(yù)測類別概率值。交叉熵?fù)p失中正負(fù)樣本地位平等,因此訓(xùn)練過程中容易使模型出現(xiàn)偏移,從而使模型訓(xùn)練無效。

對于類別不平衡問題,通過加入α以降低大數(shù)量類別的影響。

[CE=1ni=1nj=1C+1-?jy(i)jlog(p(x(i))j)] (5)

對于難檢測樣本,在原有基礎(chǔ)上加入[β]因子,公式如下:

[β(i)j=(1-p(x(i))j)γ] (6)

其中[γ]是一個可調(diào)節(jié)的超參數(shù),[β]因子的作用是減少簡單樣本的損失權(quán)重,從而使模型能專注于對難檢測樣本的訓(xùn)練,以避免大量簡單負(fù)樣本使模型訓(xùn)練失效的問題。焦點損失FL公式定義如下:

[CE=1ni=1nj=1C+1-?jβ(i)jy(i)jlog(p(x(i))j)] (7)

本文將焦點損失方法應(yīng)用于RFBnet中,并測試不同[α]與[γ]對模型的影響。

2.4 骨架網(wǎng)絡(luò)設(shè)計

深度學(xué)習(xí)在圖像分類、檢測等任務(wù)中顯示出巨大優(yōu)勢,但是隨著模型準(zhǔn)確率的提高,也導(dǎo)致計算量與存儲空間消耗大幅提升。對于卡口車輛檢測,要保證任務(wù)的實時性,需要降低模型計算量,以達(dá)到去除冗余計算與提高檢測模型速度的目標(biāo)。本文采用谷歌團(tuán)隊推出的mobileNet對RFB基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改良,從而使模型參數(shù)量大大下降。該網(wǎng)絡(luò)使用depthwise卷積與點卷積代替標(biāo)準(zhǔn)的3D卷積,以減少卷積操作的計算量。RFB-mobilenet骨架網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。

本文從骨架模型參數(shù)量、浮點數(shù)計算量與模型大小幾方面進(jìn)行對比,可看出RFB-Mobilenet比RFB-VGG16更節(jié)省空間,且計算量更少,如表3所示。

表3 兩種骨架網(wǎng)絡(luò)模型參數(shù)與計算量

3 實驗

3.1 數(shù)據(jù)集

本文采用的UA-DETRAC數(shù)據(jù)集由北京和天津不同地區(qū)的24個監(jiān)控視頻組成,總幀數(shù)超過14萬,圖片像素為960×540。由于每幀之間相似度較高,本文每隔一定幀數(shù)采集1張圖片,共采集圖片8 209張,其中70%用于模型訓(xùn)練,即訓(xùn)練集有5 747張,測試集有2 462張。

3.2 模型訓(xùn)練

所有模型采用Pytorch框架實現(xiàn),在Nvidia1060上訓(xùn)練200個周期,并采用相同的學(xué)習(xí)率和優(yōu)化器等訓(xùn)練策略。優(yōu)化器采用RMSProp,動量因子為0.9,同時初始學(xué)習(xí)率為0.001,每隔60個eopch乘以0.1。在訓(xùn)練過程中,每一次迭代過程先隨機(jī)采集32張圖片,統(tǒng)一縮放到300*300,然后經(jīng)過水平翻轉(zhuǎn)、隨機(jī)裁剪與色彩變化等操作進(jìn)行數(shù)據(jù)增強(qiáng)操作。

3.3 實驗結(jié)果與分析

本文采用AP(Average Precision)作為模型預(yù)測結(jié)果的評價指標(biāo),該評價指標(biāo)綜合考慮了召回率和準(zhǔn)確率,將預(yù)測框與位置框的IOU閾值設(shè)定為0.5。在模型訓(xùn)練過程中引入焦點損失方法,并測試不同α與[γ]對模型的影響,如表4所示。當(dāng)a=0.25,[γ]=1時,AP值最高。

表4 不同α和y測試結(jié)果

在模型測試時,每次只處理一張圖片,將測試集中所有圖片處理時間的平均值作為模型處理速度指標(biāo)。實驗結(jié)果表明,在不影響監(jiān)測速度的情況下,模型性能獲得了一定提升。采用焦點損失后REBNet的AP值相比原模型提高了0.47%,同時采用焦點損失與改進(jìn)框后RFBNet的AP值相比原模型提高了3.2%。采用改進(jìn)骨架網(wǎng)絡(luò)的RFB_mobileNet模型在犧牲部分性能的情況下,處理速度為RFB_VGG16的1.62倍,能更好地處理需要實時運(yùn)行的任務(wù)。

表5 各模型在UA-DETRAC數(shù)據(jù)集上測試結(jié)果

4 結(jié)語

本文將深度學(xué)習(xí)應(yīng)用于視頻監(jiān)控的車輛檢測中,在REBNet檢測模型基礎(chǔ)上通過聚類算法找到合適的anchor,引入焦點損失方法以減緩樣本失衡問題,并基于mobilenet改進(jìn)骨架網(wǎng)絡(luò),從而解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法無法實現(xiàn)復(fù)雜場景下車輛檢測的問題。實驗結(jié)果表明,改進(jìn)后的RFB_VGG16模型在不影響監(jiān)測速度的情況下,其性能得到了一定提升,而RFB_mobileNet在犧牲部分性能的情況下,處理速度得到了顯著提升。同時,本文研究也為后續(xù)車輛識別(品牌、顏色、類型等)、車輛跟蹤與車流分道統(tǒng)計等工作奠定了基礎(chǔ)。

參考文獻(xiàn):

[1] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]. European Conference on Computer Vision,2016:21-37.

[2] REDMON J,F(xiàn)ARHADI A. YOLO9000: better, faster, stronger[C]. Honolulu:2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016.

[3] REDMON J,F(xiàn)ARHADI A. YOLOv3: an incremental improvement[DB/OL]. https://arxiv.org/abs/1804.02767.

[4] REDMON J,DIVVALA S,GIRSHICK R, et al. You only look once: unified, real-time object detection[C]. Computer Vision and Pattern Recognition,2016:779-788.

[5] GIRSHICK R. Fast R-CNN[J]. Computer Science, 2015:1440-1448.

[6] REN S,HE K,GIRSHICK R,et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]. International Conference on Neural Information Processing Systems,2015:91-99.

[7] HE K,GKIOXARI G,DOLLáR P,et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,99:1.

[8] LIU S,HUANG D,WANG Y. Receptive field block net for accurate and fast object detection[C].Computer Vision-ECCV,2018:404-419.

[9] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017, 99: 2999-3007.

[10] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[DB/OL]. https://arxiv.org/abs/1704.04861.

[11] FU C Y,LIU W,RANGA A,et al. DSSD: deconvolutional single shot detector[DB/OL]. https://arxiv.org/abs/1701.06659.

[12] ZHANG S,WEN L,BIAN X,et al. Single-shot refinement neural network for object detection[DB/OL]. https://arxiv.org/abs/1711.06897.

[13] 劉操,鄭宏,黎曦,等. 基于多通道融合HOG特征的全天候運(yùn)動車輛檢測方法[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版,2015, 40(8): 1048-1053.

[14] 宋曉琳,鄔紫陽,張偉偉. 基于陰影和類Haar特征的動態(tài)車輛檢測[J]. 電子測量與儀器學(xué)報,2015,29(9): 1340-1347.

[15] LI Z,ZHOU F. FSSD: feature fusion single shot multibox detector[DB/OL]. https://arxiv.org/abs/1712.00960v1.

[16] IANDOLA F, MOSKEWICZ M, KARAYEV S, et al. DenseNet: implementing efficient ConvNet descriptor pyramids[J]. Eprint Arxiv,2014.

[17] SZEGEDY C,LIU W, JIA Y, et al. Going deeper with convolutions[DB/OL]. http://arxiv.org/abs/1409.4842.

[18] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[DB/OL]. https://arxiv.org/abs/1502.03167.

[19] SZEGEDY C,VANHOUCKE V,IOFFE S,et al. Rethinking the inception architecture for computer vision[C]. In:Computer Vision and Pattern Recognition,2016:2818-2826.

[20] SZEGEDY C,IOFFE S,VANHOUCKE V. Inception-v4, inception-ResNet and the impact of residual connections on learning[DB/OL]. https://arxiv.org/abs/1602.07261.

(責(zé)任編輯:黃 ?。?/p>

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
昭觉县| 阿勒泰市| 沅江市| 固始县| 曲阳县| 横山县| 醴陵市| 武清区| 岳池县| 博野县| 睢宁县| 金川县| 高陵县| 屏东市| 潮安县| 永仁县| 安龙县| 兴海县| 河北区| 历史| 巩留县| 循化| 轮台县| 庆城县| 南投市| 易门县| 东阳市| 丰台区| 孝昌县| 石柱| 拜泉县| 万安县| 乳源| 孟州市| 布拖县| 汉阴县| 怀安县| 教育| 六枝特区| 历史| 古浪县|