盛恒 黃銘 楊晶晶
摘 要:針對人員位置相對固定的場景中實(shí)時(shí)人數(shù)統(tǒng)計(jì)的管理需求,以普通高校實(shí)驗(yàn)室為例,設(shè)計(jì)并實(shí)現(xiàn)了一套基于更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)和交并比(IoU)優(yōu)化的實(shí)驗(yàn)室人數(shù)統(tǒng)計(jì)與管理系統(tǒng)。首先,使用Faster R-CNN模型對實(shí)驗(yàn)室內(nèi)人員頭部進(jìn)行檢測;然后,根據(jù)模型檢測的輸出結(jié)果,利用IoU算法濾去重復(fù)檢測的目標(biāo);最后,采用基于坐標(biāo)定位的方法確定實(shí)驗(yàn)室內(nèi)各個(gè)工作臺(tái)是否有人,并將相對應(yīng)的數(shù)據(jù)存入數(shù)據(jù)庫。該系統(tǒng)主要功能有:①實(shí)驗(yàn)室實(shí)時(shí)視頻監(jiān)控及遠(yuǎn)程管理;②定時(shí)自動(dòng)拍照檢測采集數(shù)據(jù),為實(shí)驗(yàn)室的量化管理提供數(shù)據(jù)支撐;③實(shí)驗(yàn)室人員變化數(shù)據(jù)查詢與可視化展示。實(shí)驗(yàn)結(jié)果表明,所提基于Faster R-CNN和IoU優(yōu)化的實(shí)驗(yàn)室人數(shù)統(tǒng)計(jì)與管理系統(tǒng)可用于辦公場景中實(shí)時(shí)人數(shù)統(tǒng)計(jì)和遠(yuǎn)程管理。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);目標(biāo)檢測;更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò);人數(shù)統(tǒng)計(jì);交并比
中圖分類號(hào): TP183
文獻(xiàn)標(biāo)志碼:A
Abstract: Aiming at the management requirement of real-time personnel statistics in office scenes with relatively fixed personnel positions, a laboratory personnel statistics and management system based on Faster Region-based Convolutional Neural Network (Faster R-CNN) and Intersection over Union (IoU) optimization was designed and implemented with an ordinary university laboratory as the example. Firstly, Faster R-CNN model was used to detect the heads of the people in the laboratory. Then, according to the output results of the model detection, the repeatedly detected targets were filtered by using IoU algorithm. Finally, a coordinate-based method was used to determine whether there were people at each workbench in the laboratory and store the corresponding data in the database. The main functions of the system are as follows: ① real-time video surveillance and remote management of the laboratory; ② timed automatic photo, detection and acquisition of data to provide data support for the quantitative management of the laboratory; ③ laboratory personnel change data query and visualization. The experimental results show that the proposed laboratory personnel statistics and management system based on Faster R-CNN and IoU optimization can be used for real-time personnel statistics and remote management in office scenes.
Key words: Convolutional Neural Network (CNN); object detection; Faster Region-based Convolutional Neural Network (Faster R-CNN); personnel statistics; Intersection over Union (IoU)
0 引言
較之傳統(tǒng)的室內(nèi)人數(shù)統(tǒng)計(jì)技術(shù),利用目標(biāo)檢測技術(shù)實(shí)現(xiàn)的室內(nèi)人數(shù)統(tǒng)計(jì)技術(shù)能夠?qū)崿F(xiàn)對目標(biāo)的實(shí)時(shí)檢測與統(tǒng)計(jì)。因此,該類室內(nèi)人數(shù)統(tǒng)計(jì)技術(shù)越來越廣泛地被運(yùn)用在智能監(jiān)控領(lǐng)域,該技術(shù)的運(yùn)用能夠有效地提升對室內(nèi)相關(guān)人員的監(jiān)督管理作用。如何利用目標(biāo)檢測技術(shù)改進(jìn)和提高室內(nèi)實(shí)時(shí)人數(shù)統(tǒng)計(jì)技術(shù)是許多研究工作者關(guān)注的熱點(diǎn)。
文獻(xiàn)[1]提出基于區(qū)域深度特征的人頭檢測方法;文獻(xiàn)[2]提出基于骨架特征的人數(shù)統(tǒng)計(jì);文獻(xiàn)[3]提出自適應(yīng)增強(qiáng)(Adaptive boosting, Adaboost)與背景差分級(jí)聯(lián)的室內(nèi)人數(shù)統(tǒng)計(jì)方法;文獻(xiàn)[4]提出基于多特征協(xié)同的人頭檢測方法。這些方法都是基于人工提取圖像特征的目標(biāo)檢測方法,無論是檢測準(zhǔn)確率,還是適用范圍,均有較大的局限性。近年來,隨著深度學(xué)習(xí)的發(fā)展,利用深層神經(jīng)網(wǎng)絡(luò)提取圖像特征越來越成為目標(biāo)檢測領(lǐng)域主流的研究方向。自Girshick等[5]提出了基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolutional Neural Network, R-CNN)的目標(biāo)檢測方法,F(xiàn)ast R-CNN[6]、Faster R-CNN[7]、YOLO(You Only Look Once)[8]、單發(fā)多盒檢測器(Single Shot multibox Detector, SSD)[9]等一系列具有較高準(zhǔn)確率的基于深度學(xué)習(xí)的目標(biāo)檢測算法被相繼提出。其中,F(xiàn)aster R-CNN在檢測速度較快的同時(shí)達(dá)到了較高的檢測準(zhǔn)確率,因此,在實(shí)際場景中運(yùn)用較多[10-13]。
針對室內(nèi)人員固定、工位固定這一常見辦公場景,本文以普通高校實(shí)驗(yàn)室為例,提出了一種基于Faster R-CNN和交并比(Intersection over Union, IoU)優(yōu)化的室內(nèi)人數(shù)統(tǒng)計(jì)方法。該方法利用深度神經(jīng)網(wǎng)絡(luò)提取圖像中的人頭特征,具有更高的檢測準(zhǔn)確率;此外,提出了基于坐標(biāo)定位的方法,能夠較為精確地確定實(shí)驗(yàn)室每個(gè)工作臺(tái)上是否有人。最后,利用訓(xùn)練好的檢測模型設(shè)計(jì)并開發(fā)了一套實(shí)驗(yàn)室人數(shù)統(tǒng)計(jì)與管理系統(tǒng),較好地實(shí)現(xiàn)了實(shí)驗(yàn)室遠(yuǎn)程化、自動(dòng)化、智能化管理。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)可應(yīng)用于常見的室內(nèi)辦公場景。
1 Faster R-CNN檢測原理
Fast R-CNN作為R-CNN模型的改進(jìn),雖然提升了檢測速度,但它和R-CNN一樣,采用選擇性搜索(Selective Search, SS)方法[14]提取圖像的候選目標(biāo)區(qū)域(Proposal),因此依然存在檢測步驟繁瑣、時(shí)間和內(nèi)存消耗較大等問題。而Faster R-CNN則在模型中引入?yún)^(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)提取候選目標(biāo)區(qū)域,實(shí)現(xiàn)了卷積層特征共享,極大地提升了候選目標(biāo)區(qū)域的生成速度。
Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要由RPN和Fast R-CNN檢測器構(gòu)成,其中RPN的輸入是經(jīng)過一系列卷積所提取的圖像特征。
諸如Alex神經(jīng)網(wǎng)絡(luò)(Alex Neural Network, AlexNet)[15]、極深卷積神經(jīng)網(wǎng)絡(luò)(Visual Geometry Group Neural Network, VGGNet)[16]、谷歌神經(jīng)網(wǎng)絡(luò) (GoogLe Neural Network, GoogLeNet)[17]等傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)可以通過增加網(wǎng)絡(luò)層數(shù)來增加提取到的圖像特征數(shù)量。但是在深層網(wǎng)絡(luò)能夠收斂的情況下,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)的檢測準(zhǔn)確率會(huì)出現(xiàn)飽和甚至下降的現(xiàn)象,即網(wǎng)絡(luò)的“退化”現(xiàn)象[8]。He等[18]提出的殘差網(wǎng)絡(luò)(Residual Neural Network, ResNet)能夠有效解決網(wǎng)絡(luò)“退化”現(xiàn)象,并且具有更為優(yōu)秀的圖像特征學(xué)習(xí)能力。因此本文選取殘差網(wǎng)絡(luò)作為Faster R-CNN的特征提取網(wǎng)絡(luò)。
殘差網(wǎng)絡(luò)的單元結(jié)構(gòu)如圖2所示,假設(shè)網(wǎng)絡(luò)單元的原始映射輸出為H(x),即H(x)=F(x)+x,則F(x)= H(x)-x。因此,深層網(wǎng)絡(luò)的每一層卷積輸出將變?yōu)閿M合殘差??梢院唵卫斫鉃椋瑲埐罹W(wǎng)絡(luò)在傳統(tǒng)的深層卷積網(wǎng)絡(luò)中增加了一些“跨層連接”(圖2中的x) [19],當(dāng)訓(xùn)練誤差隨著網(wǎng)絡(luò)的深入而增大時(shí),殘差網(wǎng)絡(luò)將會(huì)跳過某些卷積層,直接將原始數(shù)據(jù)輸入到之后的卷積層,既保證了數(shù)據(jù)傳遞的完整性,又相對降低了訓(xùn)練誤差,減少了深層網(wǎng)絡(luò)的訓(xùn)練難度。
1.2 區(qū)域建議網(wǎng)絡(luò)
傳統(tǒng)的候選目標(biāo)區(qū)域提取方法都存在著非常耗時(shí)的問題,如Adaboost[20]中使用的滑動(dòng)窗口和圖像金字塔、 R-CNN和Fast R-CNN中使用的SS。而Faster R-CNN所使用的RPN將候選目標(biāo)區(qū)域的提取嵌入到網(wǎng)絡(luò)內(nèi)部,并通過共享卷積層特征參數(shù)的方式提升了候選目標(biāo)區(qū)域的生成速度。
本文中,結(jié)合目標(biāo)區(qū)域的實(shí)際像素大小,為了獲得多尺度的檢測框, RPN使用一個(gè)3×3的卷積核,在特征提取網(wǎng)絡(luò)輸出的特征圖上滑動(dòng),并將卷積核中心對應(yīng)的區(qū)域映射回原始輸入圖像,生成4種尺度{160.5,16,161.5,162}和3種長寬比{0.5,1,2}共12個(gè)的錨點(diǎn)(anchor),如圖3所示。因此,在每一個(gè)滑動(dòng)窗口的卷積核中心對應(yīng)有12個(gè)建議區(qū)域。
RPN是一種全卷積網(wǎng)絡(luò),其輸入的是特征提取網(wǎng)絡(luò)輸出的原始圖像卷積特征圖,主要結(jié)構(gòu)如圖4所示。每個(gè)錨點(diǎn)所對應(yīng)的建議區(qū)域經(jīng)過中間層的卷積計(jì)算輸出512維的特征向量,然后分別被送入分類層和位置回歸層。其中,分類層輸出對應(yīng)錨點(diǎn)中目標(biāo)的分類信息,包括背景的置信度和目標(biāo)類別的置信度;位置回歸層輸出錨點(diǎn)中目標(biāo)的位置信息,包括目標(biāo)區(qū)域的中心點(diǎn)坐標(biāo)、長度和高度。最后,采用非極大值抑制(Non-Maximum Suppression, NMS)算法 [21],根據(jù)所有錨點(diǎn)的分類信息和位置信息,對候選目標(biāo)區(qū)域進(jìn)行篩選,從而得到2000個(gè)質(zhì)量較高的目標(biāo)候選區(qū)域。
1.3 Fast R-CNN檢測網(wǎng)絡(luò)
對于RPN中生成的目標(biāo)候選區(qū)域,需要送到Fast R-CNN檢測器中作進(jìn)一步的精確分類和坐標(biāo)回歸。由于這些目標(biāo)候選區(qū)域的尺寸大小不一,它們首先將被送入到感興趣區(qū)域(Region of Interest, RoI) 池化層進(jìn)行處理,從而得到統(tǒng)一大小的目標(biāo)候選區(qū)域。
從圖1中可以看出,RoI池化層結(jié)合特征圖和目標(biāo)候選區(qū)域進(jìn)行坐標(biāo)映射,輸出固定大小的目標(biāo)候選區(qū)域。接著,這些目標(biāo)候選區(qū)域被送到Fast R-CNN檢測器中進(jìn)行訓(xùn)練,得到包括分類信息和坐標(biāo)信息在內(nèi)的最終檢測結(jié)果。
2 實(shí)驗(yàn)過程與結(jié)果分析
2.1 數(shù)據(jù)產(chǎn)生與訓(xùn)練
本文的實(shí)驗(yàn)數(shù)據(jù)利用實(shí)驗(yàn)室內(nèi)頂部的單目攝像頭采集。頂部攝像頭所拍攝到的畫面,人體各部位存在著較多的遮擋,因此選定人體頭部作為檢測目標(biāo),進(jìn)而確定實(shí)驗(yàn)內(nèi)人員數(shù)量和位置分布。共采集到約6000張?jiān)紙D片,經(jīng)過翻轉(zhuǎn)、對稱,數(shù)據(jù)集擴(kuò)展到約24000張。圖片尺寸統(tǒng)一為1510×860像素,每張圖片中人數(shù)從1到10不等。按照10∶1的比例將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測試集。數(shù)據(jù)集圖像示例如圖5所示。
本文的實(shí)驗(yàn)環(huán)境為Windows10,GeForce GTX 1080Ti,并利用主流的深度學(xué)習(xí)框架TensorFlow[22]實(shí)現(xiàn)網(wǎng)絡(luò)模型,采用ResNet101[18]作為整個(gè)模型的特征提取網(wǎng)絡(luò)。批文件大小為4,初始學(xué)習(xí)率為0.0003,迭代到40000次后學(xué)習(xí)率降到0.00003,迭代到80000次后學(xué)習(xí)率降到0.000003,共迭代200000次。
2.2 結(jié)果分析
本文中,經(jīng)過訓(xùn)練,F(xiàn)aster R-CNN模型在測試集上的mAP(mean Average Precision)[23]達(dá)到了98.49%。訓(xùn)練過程中的損失值(loss)[7]曲線如圖6所示。
1)實(shí)驗(yàn)室內(nèi)場景背景單一,人員流動(dòng)性小,人員和背景變化都較少,圖像特征更為突出;
2)訓(xùn)練數(shù)據(jù)樣本較多,訓(xùn)練集包含有2萬多張圖片,共約7萬個(gè)標(biāo)記的人體頭部樣本;
3)針對不同尺度的目標(biāo),采用4種尺度、3種長寬比,共計(jì)12種的錨點(diǎn),能夠較好地檢測不同尺度的目標(biāo);
4)模型利用RPN生成高質(zhì)量的目標(biāo)候選區(qū)域,為后續(xù)Fast R-CNN網(wǎng)絡(luò)提供了質(zhì)量較高訓(xùn)練數(shù)據(jù)。
為了進(jìn)一步研究模型的泛化能力,即在實(shí)際場景中的檢測性能,從攝像頭拍攝的畫面中采集105張圖片作為增量測試集,測試不同置信度下模型的檢測性能。檢測模型最常用的評(píng)價(jià)指標(biāo)是精確率和召回率。調(diào)用模型進(jìn)行檢測時(shí)存在著以下四種情況:1)實(shí)際上是目標(biāo),檢測認(rèn)為是目標(biāo);2)實(shí)際上是目標(biāo),檢測認(rèn)為不是目標(biāo);3)實(shí)際上不是目標(biāo),檢測認(rèn)為是目標(biāo);4)實(shí)際上不是目標(biāo),檢測認(rèn)為不是目標(biāo)。
2.3 IoU優(yōu)化
本文實(shí)現(xiàn)的模型準(zhǔn)確率和泛化能力都比較突出,檢測結(jié)果較為良好,如圖8所示。但也會(huì)出現(xiàn)如圖9所示的誤檢情況,圖9中,檢測模型將圖中左下角的一個(gè)人體頭部檢測成了兩個(gè)。針對這種情況,本文利用IoU算法作進(jìn)一步的優(yōu)化。
2.4 人員定位
針對實(shí)驗(yàn)室內(nèi)人員流動(dòng)性小、環(huán)境單一,以及人員位置相對固定的特點(diǎn),本文提出基于坐標(biāo)定位的方法來確定每個(gè)工作臺(tái)上是否有人,并將相應(yīng)數(shù)據(jù)存入數(shù)據(jù)庫,為實(shí)驗(yàn)室的科學(xué)管理提供可靠的數(shù)據(jù)支撐。如圖12所示,預(yù)先將監(jiān)控區(qū)域劃分為12個(gè)矩形區(qū)域,分別代表其區(qū)域內(nèi)的工作臺(tái)。首先利用模型檢測輸出的人員目標(biāo)位置信息確定人體頭部的質(zhì)心,然后逐一進(jìn)行判別,質(zhì)心落在在哪個(gè)區(qū)域則認(rèn)為哪個(gè)區(qū)域的工作臺(tái)上有人。如圖12所示,可認(rèn)為2、3、4、6、8號(hào)區(qū)域的工作臺(tái)上有人。
3 系統(tǒng)實(shí)現(xiàn)與展示
系統(tǒng)利用開源Web開發(fā)框架Django[24]開發(fā)而成,系統(tǒng)主要有兩大功能模塊:系統(tǒng)歷史數(shù)據(jù)查詢與展示模塊和實(shí)時(shí)視頻監(jiān)控與檢測模塊。系統(tǒng)基于B/S模式開發(fā)而成,具備遠(yuǎn)程管理功能。授權(quán)用戶在校園網(wǎng)范圍內(nèi),通過PC端瀏覽器登錄系統(tǒng)均可進(jìn)行訪問。
在每天6:30—23:30,系統(tǒng)服務(wù)器每分鐘自動(dòng)拍攝一張實(shí)驗(yàn)室監(jiān)控畫面,并調(diào)用檢測模型對其進(jìn)行檢測;然后對檢測結(jié)果進(jìn)行人員定位,確定每個(gè)工作臺(tái)是否有人;最后將相應(yīng)數(shù)據(jù)存入數(shù)據(jù)庫,以便實(shí)驗(yàn)室管理員查詢。圖13為實(shí)驗(yàn)室內(nèi)單日人數(shù)變化與一段日期內(nèi)人數(shù)變化查詢頁面;圖14為實(shí)驗(yàn)室內(nèi)歷史監(jiān)控畫面查看頁面與查看結(jié)果;圖15為實(shí)驗(yàn)室各個(gè)工作臺(tái)的詳細(xì)使用情況查詢頁面(以6號(hào)工作臺(tái)為例)。本系統(tǒng)已在實(shí)驗(yàn)室穩(wěn)定運(yùn)行半年,其推廣應(yīng)用價(jià)值被驗(yàn)證。
4 結(jié)語
針對常見辦公場景中人員固定、工位固定的特點(diǎn),以普通高校實(shí)驗(yàn)室為例,提出了基于Faster R-CNN和IoU優(yōu)化的室內(nèi)人數(shù)統(tǒng)計(jì)方法。實(shí)驗(yàn)結(jié)果表明,所提方法具有良好的檢測準(zhǔn)確效果。然后,結(jié)合檢測結(jié)果,采用基于坐標(biāo)定位的方法確定室內(nèi)每個(gè)工作臺(tái)是否有人。最后,利用Django框架,開發(fā)了一套實(shí)驗(yàn)室人數(shù)統(tǒng)計(jì)與管理系統(tǒng),實(shí)現(xiàn)了實(shí)驗(yàn)室的遠(yuǎn)程管理、自動(dòng)管理和智能管理。但本文所研發(fā)的系統(tǒng)存在系統(tǒng)人員定位依賴于人員位置相對固定這一前提條件的問題,當(dāng)人員位置發(fā)生移動(dòng)時(shí)系統(tǒng)無法作出準(zhǔn)確的判斷。因此,接下來將在保證檢測精度的前提下進(jìn)一步開展視頻幀之間的目標(biāo)跟蹤算法研究,通過繪制人員的移動(dòng)軌跡進(jìn)而實(shí)現(xiàn)人員的動(dòng)態(tài)定位。
參考文獻(xiàn) (References)
[1] 何揚(yáng)名,杜建強(qiáng),肖賢波.基于區(qū)域深度特征的人頭檢測方法[J].微電子學(xué)與計(jì)算機(jī),2013,30(11):39-42.(HE Y M, DU J Q, XIAO X B. Detecting human head by depth characteristics of regions [J]. Microelectronics & Computer, 2013, 30(11): 39-42.)
[2] 夏菁菁,高琳,范勇,等.基于骨架特征的人數(shù)統(tǒng)計(jì)[J].計(jì)算機(jī)應(yīng)用,2014,34(2):585-588.(XIA J J, GAO L, FAN Y, et al. People counting based on skeleton feature [J]. Journal of Computer Applications, 2014, 34(2): 585-588.)
[3] 葉鋒,洪斯婷,鄭德城,等.基于Adaboost與背景差分級(jí)聯(lián)的室內(nèi)人數(shù)統(tǒng)計(jì)方法[J].福建師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,33(1):7-13.(YE F, HONG S T, ZHENG D C, et al. A people counting method based on Adaboost and background subtraction in indoor environment [J]. Journal of Fujian Normal University (Natural Science Edition), 2017, 33(1):7-13.)
[4] 張曉琪,宋鋼.基于多特征協(xié)同的人頭檢測新方法[J].西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,43(7):46-52.(ZHANG X Q, SONG G. A new head detection method oriented for vertical monocular camera way [J].Journal of Southwest China Normal University (Natural Science Edition), 2018, 43(7): 46-52.)
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.
[6] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1440-1448.
[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// NIPS 2015: Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99.
[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 779-788.
[9] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[10] 王黎,陸慧娟,葉敏超,等.Faster R-CNN的癌癥影像檢測方法[J].中國計(jì)量大學(xué)學(xué)報(bào),2018,29(2):136-141.(WANG L, LU H J, YE M C, et al. A cancer image detection method based on Faster R-CNN [J]. Journal of China University of Metrology, 2018, 29(2): 136-141.)
[11] HUANG W Q, HUANG M Z, ZHANG Y T. Detection of traffic signs based on combination of GAN and faster R-CNN [J].Journal of Physics: Conference Series, 2018, 1069(1): 012159.
[12] 戴陳卡,李毅.基于Faster R-CNN以及多部件結(jié)合的機(jī)場場面靜態(tài)飛機(jī)檢測[J].計(jì)算機(jī)應(yīng)用,2017,37(z2):85-88.(DAI C K, LI Y. Aeroplane detection in static aerodrome based on faster R-CNN and multi-part model [J]. Journal of Computer Applications, 2017, 37(z2): 85-88.)
[13] 胡炎,單子力,高峰.基于Faster R-CNN和多分辨率SAR的海上艦船目標(biāo)檢測[J].無線電工程,2018,48(2):96-100.(HU Y, SHAN Z L, GAO F. Ship detection based on Faster R-CNN and multiresolution SAR [J]. Radio Engineering, 2018, 48 (2): 96-100.)
[14] UIJLINGS J R R, van de SANDE K E A, GEVERS T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[15] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.
[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv Preprint, 2014, 2014: arXiv. 1409.1556.
[17] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2015: 1-9.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[19] 彭剛,楊詩琪,黃心漢,等.改進(jìn)的基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的微操作系統(tǒng)目標(biāo)檢測方法[J].模式識(shí)別與人工智能,2018,31(2):142-149.(PENG G, YANG S Q, HUANG X H, et al. Improved object detection method of micro-operating system based on region convolutional neural network [J]. Pattern Recognition and Artificial Intelligence, 2018, 31(2): 142-149.)
[20] LIENHART R, MAYDT J. An extended set of Haar-like features for rapid object detection [C]// Proceedings of the 2002 International Conference on Image Processing. Piscataway, NJ: IEEE, 2002: 900-903.
[21] NEUBECK A, van GOOL L. Efficient non-maximum suppression [C]// ICPR 2006: Proceedings of the 18th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 850-855.
[22] 李嘉璇.TensorFlow技術(shù)解析與實(shí)戰(zhàn)[M].北京:人民郵電出版社,2017:12-16.(LI J X. TensorFlow Technology Analysis and Practice [M]. Beijing: Posts and Telecom Press, 2017: 12-16.)
[23] EVERINGHAM M, van GOOL L, WILLIAMS C K I, et al. The pascal Visual Object Classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[24] 劉長龍.Python高效開發(fā)實(shí)戰(zhàn):Django、Tornado、Flask、Twisted [M].北京:電子工業(yè)出版社,2016:175-177.(LIU C L. Efficient Python Development Practices: Django, Tornado, Flask, Twisted [M]. Beijing: Publishing House of Electronics Industry, 2016: 175-177.)