楊輝華 張?zhí)煊? 李靈巧 潘細(xì)朋
摘 要:針對(duì)目前大量安裝的固定監(jiān)控?cái)z像頭存在監(jiān)控死角,以及移動(dòng)設(shè)備硬件性能較低等問(wèn)題,提出一種可在較低性能的IOS移動(dòng)設(shè)備上運(yùn)行的城市管理案件目標(biāo)識(shí)別算法。首先,在MobileNet中增加新的超參數(shù),優(yōu)化輸入輸出圖像的通道數(shù)與每個(gè)通道所產(chǎn)生的特征圖數(shù)量;隨后,將改進(jìn)后的MobileNet與SSD目標(biāo)識(shí)別框架相結(jié)合構(gòu)成一種新的識(shí)別算法,并移植到IOS移動(dòng)端設(shè)備上;最后,該算法利用移動(dòng)端設(shè)備自帶的攝像頭拍攝案發(fā)現(xiàn)場(chǎng)視頻,實(shí)現(xiàn)對(duì)8種特定城管案件目標(biāo)的準(zhǔn)確檢測(cè)。該算法檢測(cè)結(jié)果的平均精度均值(mAP)與原型YOLO和原型SSD相比,分別提升了15.5個(gè)百分點(diǎn)和10.4個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,所提算法可以在低性能IOS移動(dòng)設(shè)備上流暢運(yùn)行,減少了監(jiān)控死角,為城管隊(duì)員加速案件分類與處理提供了技術(shù)支撐。
關(guān)鍵詞:智慧城管;目標(biāo)識(shí)別;MobileNet;移動(dòng)設(shè)備;視頻監(jiān)控
中圖分類號(hào):?TP391.41
文獻(xiàn)標(biāo)志碼:A
Target recognition algorithm for urban management cases by mobile devices based on MobileNet
YANG Huihua1,2, ZHANG Tianyu3*, LI Lingqiao1,2, PAN Xipeng2
1.School of Computer Science and Information Security, Guilin University of Electronic Technology, Guilin Guangxi 541004, China ;
2.School of Automation, Beijing University of Posts and Telecommunications, Beijing 100876, China ;
3.School of Electronic Engineering and Automation,Guilin University of Electronic Technology,Guilin Guangxi 541004, China
Abstract:?For the monitoring dead angles of fixed surveillance cameras installed in large quantities and low hardware performance of mobile devices, an urban management case target recognition algorithm that can run on IOS mobile devices with low performance was proposed. Firstly, the number of channels of input and output images and the number of feature maps generated by each channel were optimized by adding new hyperparameters to MobileNet. Secondly, a new recognition algorithm was formed by combining the improved MobileNet with the SSD recognition framework and was transplanted to the IOS mobile devices. Finally, the accurate detection of the common 8 specific urban management case targets was achieved by the proposed algorithm, in which the camera provided by the mobile device was used to capture the scene video. The mean Average Precision (mAP) of the proposed algorithm was 15.5 percentage points and 10.4 percentage points higher than that of the prototype YOLO and the prototype SSD, respectively. Experimental results show that the proposed algorithm can run smoothly on low-performance IOS mobile devices, reduce the dead angles of monitoring, and provide technical support for urban management team to speed up the classification and processing of cases.
Key words:?intelligent urban management; target recognition; MobileNet; mobile device; video surveillance
0 引言
隨著國(guó)內(nèi)城鎮(zhèn)化的進(jìn)程加快,城市面積的快速增大,城市管理的難度大大增加。視頻監(jiān)控是城市管理的重要手段之一,尤其隨著手機(jī)等移動(dòng)平臺(tái)的發(fā)展,視頻監(jiān)控技術(shù)有了新的應(yīng)用平臺(tái)。但基于人工進(jìn)行監(jiān)控來(lái)查看案件視頻,不僅耗時(shí),且效率低[1]。因此開(kāi)發(fā)一種能快速智能識(shí)別視頻中關(guān)鍵目標(biāo)的實(shí)用算法,對(duì)于案件的分類、審核十分必要。
傳統(tǒng)的城市監(jiān)控主要依賴固定監(jiān)控?cái)z像頭,可是安裝攝像頭要耗費(fèi)大量的人力、物力。并且城管案件中的常見(jiàn)目標(biāo)如被人遺棄的共享單車、垃圾桶等目標(biāo)常出現(xiàn)在道路邊緣,甚至背街小巷,處于監(jiān)控探頭的拍攝死角,因此,移動(dòng)設(shè)備可以很好地彌補(bǔ)固定攝像頭視角有限的缺點(diǎn)。目前常用的深度學(xué)習(xí)目標(biāo)識(shí)別方法主要有兩大類:一類是Girshick等[2-3]提出的R-CNN(Region-based Convolution Neural Network)、Fast R-CNN以及Ren等[4]提出的Faster R-CNN。此類方法檢測(cè)精度高,但運(yùn)行速度慢,并且對(duì)硬件設(shè)備要求較高,很難部署到移動(dòng)端設(shè)備上。第二類是Redmon等[5-7]提出的YOLO檢測(cè)框架及其后續(xù)改進(jìn)YOLO9000、YOLOv3,Liu等[8]提出的SSD(Single Shot MultiBox Detector)檢測(cè)框架等。此類方法檢測(cè)速度快、實(shí)時(shí)性好,但是檢測(cè)精度欠缺。針對(duì)上述方法的缺點(diǎn)和固定攝像頭的監(jiān)控視角缺陷,本文以IOS移動(dòng)端為平臺(tái),依靠移動(dòng)設(shè)備的攝像頭拍攝案件畫面,優(yōu)化了MobileNet(Efficient CNN for Mobile Vision Applications)[9],以SSD算法為基礎(chǔ),將內(nèi)部的VGG-16[10]基礎(chǔ)網(wǎng)絡(luò)換為可大幅降低計(jì)算量的網(wǎng)絡(luò)改進(jìn)型MobileNet(Improved MobileNet, ImMbnet),提出一種新的識(shí)別算法。該目標(biāo)識(shí)別算法能充分兼顧運(yùn)算量與性能,可以在手機(jī)等硬件性能較差的移動(dòng)設(shè)備上流暢運(yùn)行,主要針對(duì)共享單車、窨井蓋、小廣告、垃圾桶等經(jīng)常處于監(jiān)控死角的城管案件高發(fā)目標(biāo)。
1 移動(dòng)端目標(biāo)識(shí)別
圖1為手機(jī)移動(dòng)端在日常工作中識(shí)別特定城管目標(biāo)的流程,將訓(xùn)練好的模型載入手機(jī)后,城管隊(duì)員們使用智慧城市管理系統(tǒng)中的公務(wù)App(Appliciation),利用手機(jī)攝像頭實(shí)時(shí)拍攝案件畫面,手機(jī)端識(shí)別出特定目標(biāo)、輸出結(jié)果,并將畫面實(shí)時(shí)傳送回監(jiān)控中心。
2 改進(jìn)型MobileNet
2.1 基礎(chǔ)網(wǎng)絡(luò)MobileNet
MobileNet是google提出的新一代移動(dòng)端卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network,CNN)[11]模型。該模型結(jié)構(gòu)較簡(jiǎn)單,平衡了性能與流暢性,非常適合部署在手機(jī)等硬件配置不高、運(yùn)算能力相對(duì)較差的移動(dòng)平臺(tái)上。MobileNet的基本單元是深度可分離卷積(Depthwise Separable Convolution, DSC)[12],其改進(jìn)之處在于使用分步卷積替代了經(jīng)典3D卷積,減少了卷積核的冗余表達(dá),大幅度降低了計(jì)算量。
在輸入與輸出圖像尺寸一致的情況下,如果采用DK×DK尺寸的卷積核,則傳統(tǒng)卷積的計(jì)算量C1是:
C1=DK×DK×M×N×DF×DF
(1)
其中:DF表示輸入與輸出特征圖的寬度與高度, M表示輸入特征圖的通道數(shù),N表示輸出特征圖的通道數(shù),DK 表示卷積核的長(zhǎng)和寬。相比之下,深度可分離卷積的總計(jì)算量C2為:
C2=DK×DK×M×DF×DF+M×N×DF×DF
(2)
將兩者的乘法計(jì)算量相對(duì)比:
DK×DK×M×DF×DF+M×N×DF×DF DK×DK×M×N×DF×DF = 1 N + 1 D2K
(3)
從上式可得,深度可分離卷積與傳統(tǒng)卷積計(jì)算量的比值為 ?1 N + 1 D2K 。MobileNet作為基礎(chǔ)網(wǎng)絡(luò),提取圖片特征,可以在盡可能保證性能的情況下,極大地減少運(yùn)算量,因此該網(wǎng)絡(luò)非常適用于移動(dòng)設(shè)備。
2.2 網(wǎng)絡(luò)參數(shù)優(yōu)化
假定給定輸入圖像為3通道的224×224的圖像,VGG16網(wǎng)絡(luò)的第3個(gè)卷積層輸入的是尺寸為112的特征圖,通道數(shù)為64,卷積核尺寸為3,卷積核個(gè)數(shù)為128,將此傳統(tǒng)卷積層替換為深度可分離卷積后,由式(2)可知,深度可分離卷積的計(jì)算量為:
3×3×64×112×112+128×64×112×112=109985792
從以上結(jié)果可以看出,深度可分離卷積雖然相比傳統(tǒng)卷積計(jì)算量大幅減少,但其計(jì)算量對(duì)于性能較差的移動(dòng)設(shè)備依然巨大。為了讓MobilNet網(wǎng)絡(luò)能在手機(jī)上更加流暢地運(yùn)行,本文加入新的超參數(shù),對(duì)原網(wǎng)絡(luò)進(jìn)行優(yōu)化。
首先按比例減少輸入、輸出圖像的通道數(shù),假設(shè)輸入圖像為未經(jīng)處理的RGB(Red,Green,Blue)三通道自然圖像,將每一層的輸入、輸出的通道數(shù)減少為 M′、N′。
在M′/M和N′/N的比值范圍是(0 1]的情況下,深度可分離卷積的總計(jì)算量C2可減少為:
C2= DK×DK×M′×DF×DF+M′×N′×DF×DF
(4)
但是可以明顯看出,由于去掉了圖像的部分通道,減少了圖片的特征量,會(huì)在很大程度上影響識(shí)別效果。
為了解決減少通道后識(shí)別效果變差的問(wèn)題,本文在MobileNet網(wǎng)絡(luò)中新增加一個(gè)比例參數(shù)γ來(lái)增強(qiáng)識(shí)別效果。加入新參數(shù)γ 后,將每一個(gè)通道所產(chǎn)生的特征圖數(shù)量擴(kuò)充,與原先特征圖數(shù)量的比值為 γ。圖2表示γ =2時(shí),將每一個(gè)通道經(jīng)過(guò)深度卷積后產(chǎn)生的特征圖復(fù)制,每一個(gè)通道經(jīng)卷積生成的特征圖數(shù)量與原數(shù)量的比值為2。
此時(shí)深度可分離卷積的輸出通道數(shù)與原通道數(shù)之比為γ(γ為≥1的正整數(shù))。特征圖的增加可以增大特征量,加強(qiáng)識(shí)別效果,但也會(huì)增加參數(shù)量和運(yùn)算量,此時(shí)的深度卷積(depthwise Convolution, Conv dw)的計(jì)算量C3為:
C3=DK×DK×(M×γ)×DF×DF
(5)
同理逐點(diǎn)卷積(pointwise convolution)的計(jì)算量C4為:
C4=(M×γ)×N×DF×DF
(6)
本文采用減少圖像通道與比例參數(shù)相配合的方式,綜合運(yùn)算量與性能,此時(shí)深度卷積的計(jì)算量C3是:
C3=DK×DK×(M′×γ)×DF×DF
(7)
逐點(diǎn)卷積的計(jì)算量C4是:
C4=(M′×γ)×N′×DF×DF
(8)
可以看出減少圖像通道,并加入比例參數(shù)項(xiàng),可以在一定程度上減少計(jì)算量,并維持識(shí)別效果。令 M′ M = N′ N =α,對(duì)比原型MobileNet,運(yùn)算量的對(duì)比如下:
DK×DK×(M′×γ)×DF×DF+(M′×γ)×N′×DF×DF DK×DK×M×DF×DF+M×N×DF×DF =? (αD2K+α2N)×γ D2K+N ≈α2×γ
(9)
假設(shè)所用的數(shù)據(jù)為:DF=224, DK=3,M=3, N=32。在設(shè)定α=0.5,γ=2的情況下,根據(jù)式(9),可得運(yùn)算量與原型MobileNet之比為0.53。因此經(jīng)過(guò)參數(shù)調(diào)整的改進(jìn)型MobileNet在維持性能的同時(shí),更加適合在低性能的移動(dòng)設(shè)備上運(yùn)行。表1為改進(jìn)型MobileNet具體網(wǎng)絡(luò)結(jié)構(gòu),其中Conv表示普通卷積,Conv dw表示深度卷積,classnum表示類別數(shù),F(xiàn)C表示全連接層(Full Connected,F(xiàn)C),Avg Pool表示平均池化(Average Pooling),本文采用全局平均池化[13](Global average Pool),s1表示步長(zhǎng)為1,s2表示步長(zhǎng)為2。
3 改進(jìn)型MobileNet+SSD識(shí)別方法
3.1 原型SSD識(shí)別框架
SSD使用VGG-16網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),并在網(wǎng)絡(luò)后添加特征提取層。這些增加的卷積層逐層減小,可以提取不同尺寸的特征圖來(lái)作檢測(cè),尺寸較大的特征圖用于檢測(cè)物理體積比較小的目標(biāo)物,尺寸較小的特征圖用于檢測(cè)物理體積較大的目標(biāo)物。在每一張不同大小的特征圖上,都直接使用較小的卷積核直接卷積提取檢測(cè)結(jié)果。為了降低訓(xùn)練難度,減少運(yùn)算時(shí)間和所需硬件性能,SSD參考了Faster R-CNN的錨點(diǎn)(anchor)概念,在每個(gè)劃分好的單元,設(shè)置長(zhǎng)寬比不同的先驗(yàn)框(default bounding box)。當(dāng)卷積核通過(guò)這些劃分好的單元時(shí),預(yù)先設(shè)定的每個(gè)先驗(yàn)框都輸出一套檢測(cè)值。這套檢測(cè)值包含兩部分信息:每個(gè)類別的置信度和邊界框的位置信息。
3.2 SSD框架改進(jìn)
本文研究和用于訓(xùn)練模型的圖像數(shù)據(jù)來(lái)源于城管隊(duì)員們?cè)谌粘9ぷ髦杏檬謾C(jī)拍攝的真實(shí)案件圖片以及菜市場(chǎng)、街道口等城市管理案件高發(fā)區(qū)域的監(jiān)控視頻。由于案件發(fā)生地不同,案件類型多樣,使得圖像的背景較為復(fù)雜,待識(shí)別的目標(biāo)較多,如果使用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,不僅訓(xùn)練時(shí)間較長(zhǎng),而且需要性能較高的硬件設(shè)備。因此本文以SSD檢測(cè)框架為基礎(chǔ),將經(jīng)典的基礎(chǔ)網(wǎng)絡(luò)VGG-16換為本文的改進(jìn)型MobileNet。利用改進(jìn)型MobileNet模型小巧、運(yùn)行參數(shù)少、運(yùn)算量遠(yuǎn)小于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),減少識(shí)別模型的訓(xùn)練時(shí)長(zhǎng),降低硬件需求,使其能在手機(jī)等性能較弱的移動(dòng)端設(shè)備上部署。
輸入的視頻流圖像首先進(jìn)入改進(jìn)型MobileNet網(wǎng)絡(luò),而后進(jìn)入本文在基礎(chǔ)網(wǎng)絡(luò)后添加的輔助結(jié)構(gòu)。這些輔助卷積層也采用深度可分離卷積,其尺寸也是逐漸減小的。本文依然參考原本的SSD框架,除了在最終的特征圖上作檢測(cè)外,還在之前輔助層產(chǎn)生的特征圖上作目標(biāo)檢測(cè),同時(shí)為了確保小目標(biāo)的檢測(cè)效果,檢測(cè)過(guò)程也在改進(jìn)型MobileNet的第12層上作檢測(cè),能取得較好的識(shí)別準(zhǔn)確度。經(jīng)過(guò)改進(jìn)的結(jié)構(gòu)如圖3所示,將VGG-16換為改進(jìn)型MobileNet,后部的特征提取層換成深度可分離卷積,結(jié)構(gòu)與原型SSD類似,其中DSC表示深度可分離卷積,Conv表示普通卷積。
4 實(shí)驗(yàn)及結(jié)果分析
4.1 數(shù)據(jù)來(lái)源
本文用于訓(xùn)練和測(cè)試的所有圖片和視頻均取自日常城市管理案件。城管隊(duì)員們使用本實(shí)驗(yàn)室與南寧市青秀區(qū)合作研發(fā)的智慧城市管理系統(tǒng)(“城管通系統(tǒng)”)的手機(jī)客戶端拍攝案發(fā)現(xiàn)場(chǎng)圖片或視頻。實(shí)驗(yàn)訓(xùn)練采用的是英偉達(dá)DGX-1服務(wù)器,軟件系統(tǒng)為Ubantu14.04,移動(dòng)平臺(tái)為搭載IOS(IPhone OS)系統(tǒng)的設(shè)備(IOS9—IOS12),使用Tensorflow1.9深度學(xué)習(xí)框架輔助訓(xùn)練。本文針對(duì)不同的案件類型將待識(shí)別的目標(biāo)一共分為8類:共享單車(bike,Bi)、機(jī)動(dòng)車(car,Ca)、小廣告(lzt)、電動(dòng)車(motor scooter,Ms)、垃圾桶(ashcan,Ac)、道路柵欄(trafficbarrier,Tb)、窨井蓋(manhole,Mh)、泄水口(raingate,Rg),構(gòu)建了城市管理案件圖片數(shù)據(jù)集(City Management,citymg)。每類各取1000張圖片并標(biāo)注,部分樣例圖片如圖4所示。
4.2 評(píng)價(jià)指標(biāo)及結(jié)果
檢測(cè)效果的評(píng)價(jià)指標(biāo)參考原型SSD的平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)。
令TruePositives表示圖像中當(dāng)前類的正確檢測(cè)次數(shù),TotalObjectives表示圖像中當(dāng)前類的實(shí)際目標(biāo)數(shù)量,Classes表示需要識(shí)別目標(biāo)的總類別數(shù),則上述指標(biāo)的計(jì)算公式如下所示:
Precision=TruePositives/TotalObjectives
(10)
AP=∑Precision / TotalObjectives
(11)
mAP=∑AP / Classes
(12)
圖5為算法在IOS移動(dòng)端和PC端的識(shí)別效果,表2為本文改進(jìn)框架與原型SSD和YOLO對(duì)8種城管案件目標(biāo)的檢測(cè)效果??梢钥闯?,
本文方法耗費(fèi)訓(xùn)練時(shí)間較少,所需硬件成本較小,即使在使用普通電腦配置(酷睿 i7,8GB內(nèi)存,Tensorflow1.9),無(wú)GPU(Graphic Processing Unit)加速的情況下,使用本文的城管數(shù)據(jù)集,訓(xùn)練一步所需時(shí)間為5s左右,總訓(xùn)練時(shí)長(zhǎng)為8h左右,相比之下,F(xiàn)aster-RCNN等傳統(tǒng)網(wǎng)絡(luò)的單步訓(xùn)練時(shí)長(zhǎng)為22s左右,總訓(xùn)練時(shí)長(zhǎng)為36h左右。因此本文方法在低性能設(shè)備上也可以訓(xùn)練,相比Faster-RCNN等傳統(tǒng)模型,可以極大地減少訓(xùn)練時(shí)間,降低設(shè)備的性能需求,非常適合于本文所應(yīng)用的城市管理案件識(shí)別或其他中小型應(yīng)用場(chǎng)景。訓(xùn)練采用的損失函數(shù)與原型SSD一致,利用Tensorflow訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練的收斂曲線如圖6。
從表2可以看出,經(jīng)過(guò)本文改進(jìn)的識(shí)別框架,對(duì)城管案件中常出現(xiàn)的8類目標(biāo):共享單車(Bike, Bi)、機(jī)動(dòng)車(Car, Ca)、小廣告(lzt)、電動(dòng)車(Motor Scooter, Ms)、垃圾桶(Ashcan, Ac)、道路柵欄(Trafficbarrier, Tb)、窨井蓋(Manhole, Mh)、泄水口(Raingate, Rg)有較好的識(shí)別效果,mAp值均超過(guò)了原型YOLO與SSD。
如圖7所示,使用iPhone6s(內(nèi)存32GB,運(yùn)行內(nèi)存2GB,A9處理器)作為搭載平臺(tái),城管隊(duì)員們?cè)谑謾C(jī)端登錄城管系統(tǒng)后點(diǎn)擊交叉拍攝按鈕,隨后點(diǎn)下方的案發(fā)地點(diǎn)按鈕,在手機(jī)全球定位系統(tǒng)(Global Positioning System,GPS)模塊的幫助下確定案發(fā)位置后,可以點(diǎn)擊相機(jī)按鈕,利用手機(jī)攝像頭拍攝案件現(xiàn)場(chǎng)實(shí)時(shí)視頻,在點(diǎn)擊開(kāi)始拍攝的按鈕后,視頻畫面?zhèn)魅胱R(shí)別框架,識(shí)別框架識(shí)別出類別后,將識(shí)別結(jié)果實(shí)時(shí)地輸出在屏幕上。隊(duì)員們可以將識(shí)別結(jié)果保存到手機(jī)本地,并上傳到城管通系統(tǒng)中,作為日后案件處理的依據(jù),加速案件的分類與審核。
還在iPhone6s、iPhone X和低性能PC上對(duì)比了幾種識(shí)別模型的每秒傳輸幀數(shù)(Frames Per Second, FPS),結(jié)果如表3所示。可以看出,原型YOLO9000無(wú)法直接在手機(jī)設(shè)備上運(yùn)行,本文改進(jìn)的ImMbnet+SSD模型在運(yùn)算速度上明顯優(yōu)于Tiny-YOLO,并且在低性能設(shè)備如iPhone6s、低性能PC上優(yōu)勢(shì)明顯。由上述實(shí)驗(yàn)可以看出本文算法可以滿足實(shí)際應(yīng)用需求。
5 結(jié)語(yǔ)
本文改進(jìn)的識(shí)別算法在性能和運(yùn)行成本上作了較好的平衡,可以在手機(jī)等移動(dòng)端平臺(tái)或者其他硬件性能稍差的平臺(tái)上運(yùn)行。通過(guò)實(shí)驗(yàn)驗(yàn)證,該算法對(duì)城管案件中的高發(fā)目標(biāo),有較高的檢測(cè)精度,可以輔助城管隊(duì)員對(duì)案件進(jìn)行分類與處理,實(shí)現(xiàn)了城市管理的智能化。同時(shí)仍有大量的工作需要進(jìn)一步開(kāi)展來(lái)完善算法,例如:針對(duì)一些復(fù)雜的案件場(chǎng)景,如畫面中出現(xiàn)多個(gè)目標(biāo)且相互重疊,如何去除遮擋物、如何快速識(shí)別在畫面中短暫出現(xiàn)的目標(biāo)等。未來(lái)還可用手機(jī)為搭載平臺(tái),實(shí)現(xiàn)路面交通線破損檢測(cè)[14],定位視頻中特定目標(biāo)[15],以及對(duì)目標(biāo)進(jìn)行檢索[16]。
參考文獻(xiàn)
[1]?黃凱奇,陳曉棠,康運(yùn)鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015,38(6):1093-1118. (HUANG K Q, CHEN X T, KANG Y F,et al. Intelligent visual surveillance: a review [J]. Chinese Journal of Computers, 2015, 38(6): 1093-1118.)
[2]?GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2014:580-587.
[3]?GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.
[4]?REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [C]// Proceedings of 28th Annual Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99.
[5]??REDMON J, DIVVALA S, GIRSHICK R, et al. You only look? once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779-788.
[6]??REDMON J, FARHADI A. YOLO9000: better, faster, stronger? [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525.
[7]?REDMON J, FARHADI A. YOLOv3: an incremental improvement [J]. arXiv E-print, 2018: arXiv:1804.02767.
[EB/OL]. [2018-03-06]. https://arxiv.org/pdf/1804.02767.pdf.
[8]?LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 2016 European conference on computer vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[9]?HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [J]. arXiv E-print, 2017: arXiv:1704.04861.
[EB/OL]. [2017-04-17]. https://arxiv.org/pdf/1704.04861.pdf.
[10]?SERCU T, PUHRSCH C, KINGSBURY B, et al. Very deep multilingual convolutional neural networks for LVCSR [C]// Proceedings of the 2016 IEEE Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 4955-4959.
[11]?KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012:1097-1105.
[12]?CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 1800-1807.
[13]?SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.
[14]?陳新波,蔣崢.路面交通線破損圖像智能檢測(cè)優(yōu)化研究[J].計(jì)算機(jī)仿真,2016,33(5):161-165,234. (CHEN X B, JIANG Z. Intelligent detection of damaged image for road traffic line [J]. Computer Simulation, 2016, 33(5): 161-165,234.)
[15]?杜麗娟,路曉亞.視頻監(jiān)控中多視角目標(biāo)智能定位追蹤方法研究[J].科學(xué)技術(shù)與工程, 2017, 17(16):270-274. (DU L J, LU X Y. Multiple points of view in the goal of intelligent video monitoring location tracking method [J]. Science Technology and Engineering, 2017, 17(16):270-274.)
[16]?付偉,王金橋,滕可振.基于深度學(xué)習(xí)的監(jiān)控視頻目標(biāo)檢索[J].無(wú)線電工程,2015,45(12):16-20.(FU W, WANG J Q, TENG K Z. Deep learning for object retrieval in surveillance videos [J]. Radio Engineering, 2015, 45(12): 16-20.)