宋樂(lè)陶,劉正熙,熊運(yùn)余
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
隨著城市現(xiàn)代化發(fā)展,越來(lái)越多的非法擺攤現(xiàn)象涌現(xiàn)出來(lái),對(duì)城市環(huán)境秩序、居民的日常生活造成嚴(yán)重干擾,因此有必要有一種智能非法攤位檢測(cè)算法,來(lái)對(duì)各類非法水果攤、小吃攤等進(jìn)行智能識(shí)別檢測(cè),減少城市管理人員負(fù)擔(dān)。非法攤位各式各樣,是不同運(yùn)輸工具,不同貨物的組合,因此采用傳統(tǒng)機(jī)器學(xué)習(xí)目標(biāo)檢測(cè)的方法,很難刻畫(huà)非法攤位的特征,效果很不理想。
相比于一些形態(tài)單一、剛性的物體,攤位則復(fù)雜許多:不同的攤位是不同載體,不同物體的組合體,更為復(fù)雜。傳統(tǒng)的機(jī)器學(xué)習(xí)目標(biāo)檢測(cè)算法使用滑動(dòng)窗口策略,一般包含三個(gè)步驟:設(shè)定不同大小的窗口,將窗口作為候選區(qū),并不斷在圖片上滑動(dòng);利用手工設(shè)置的特征如行人識(shí)別的HOG(Histogram Orientation of Gradi?ent)特征[1]、人臉識(shí)別的 Haar特征[2],對(duì)候選區(qū)進(jìn)行特征提取操作;利用特定的分類器如SVM(Support Vector Machine)[3]對(duì)特征進(jìn)行分類,判斷候選區(qū)是否包含目標(biāo)及目標(biāo)類別;最后將同一類別相交候選區(qū)合并,計(jì)算出每個(gè)類別的候選框,完成目標(biāo)檢測(cè)。
傳統(tǒng)目標(biāo)檢測(cè)方法使用的特征是人為設(shè)計(jì)的特征,這種特征是非常低維度的特征,表達(dá)能力差,分類效果差,而且往往具有單一性,對(duì)特定物體的效果或許尚可,如使用HOG特征進(jìn)行行人檢測(cè),對(duì)于復(fù)雜多樣的物體檢測(cè)效果則極差。
傳統(tǒng)目標(biāo)檢測(cè)方法中,多尺度形變部件模型DPM(Deformable PartModel)最為出色[4],連續(xù)獲得 VOC(Vi?sualObjectClass)2007到2009的檢測(cè)冠軍,DPM把一個(gè)物體看作不同部件所組成的,并通過(guò)部件之間的關(guān)系來(lái)描述一個(gè)物體,是HOG+SVM的升級(jí),但是檢測(cè)速度極慢,一度成為目標(biāo)檢測(cè)的瓶頸。為了自動(dòng)提取高維度、高魯棒性的特征,Hinton提出深度學(xué)習(xí)來(lái)自動(dòng)提取高維度特征[5],相比傳統(tǒng)手工設(shè)計(jì)的特征,這種特征有著更高的維度,更強(qiáng)的特征表達(dá)能力。隨著發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)多層卷積提取特征,在圖像分類方面取得卓越成果。之后基于深度學(xué)習(xí)的目標(biāo)檢測(cè)框架R-CNN(Region-based ConvolutionalNeuralNetworks)不管在速度還是精度上都超越了傳統(tǒng)方法[6],R-CNN是基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò),首先在一張圖片上提取約2000個(gè)建議框(Region Proposal),然后將這些建議框放入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練得到特征,將得到的特征放入SVM分類器分類,最后將得到目標(biāo)檢測(cè)結(jié)果,達(dá)到 58%的 mAP(mean Average Precision),47 秒/張的速度。
這種基于建議框的目標(biāo)檢測(cè)方法引領(lǐng)了深度學(xué)習(xí)目標(biāo)檢測(cè)的潮流,為了解決需要對(duì)2000個(gè)建議框進(jìn)行2000次卷積神經(jīng)網(wǎng)絡(luò)特征提取耗時(shí)的問(wèn)題,進(jìn)而出現(xiàn)SPP-NET[7]和 Fast R-CNN[8],相較于 R-CNN,F(xiàn)ast RCNN只對(duì)整張?zhí)卣鲌D進(jìn)行一次卷積操作,然后對(duì)得到的特征圖通過(guò)空間金字塔池化層映射為特征向量,最后通過(guò)全連接層進(jìn)行分類、預(yù)測(cè)邊框,以及邊框修正。但是這種方法同樣不能避免一開(kāi)始先提取2000個(gè)建議框耗時(shí)的問(wèn)題,F(xiàn)aster R-CNN[9]由FastR-CNN網(wǎng)絡(luò)和 RPN(Region Proposal Network)兩部分構(gòu)成,使用RPN網(wǎng)絡(luò)來(lái)提取高質(zhì)量建議框,從而大大縮短了時(shí)間;提取的建議框再交由FastR-CNN進(jìn)行目標(biāo)分類,對(duì)候選建議框的修正,實(shí)現(xiàn)端到端(end-to-end)的訓(xùn)練,使用VGG16網(wǎng)絡(luò)達(dá)到73%的mAP,5fps的檢測(cè)速度。
本文實(shí)驗(yàn)使用基于Caffe框架的Faster R-CNN算法,對(duì)非法攤位進(jìn)行智能檢測(cè)。
1962年,生物學(xué)家Hubel和Wiesel過(guò)對(duì)貓腦視覺(jué)皮層進(jìn)行研究,發(fā)現(xiàn)視覺(jué)皮層中一系列復(fù)雜的細(xì)胞,而不同的細(xì)胞對(duì)視覺(jué)輸入的不同局部敏感,所以被稱作感受野。并且這些視覺(jué)細(xì)胞有層次結(jié)構(gòu),由低級(jí)到高級(jí),逐步理解。CNN也由此受啟發(fā),由不同的卷積核作為感受野,提取局部信息,由池化核來(lái)適應(yīng)位移和形變,CNN在圖像識(shí)別任務(wù)中取得良好分類效果。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是對(duì)普通 BP(Back Propaga?tion)神經(jīng)網(wǎng)絡(luò)的改進(jìn),與BP神經(jīng)網(wǎng)絡(luò)相同的是:都使用前向傳播計(jì)算輸出值,再通過(guò)反向傳播調(diào)整模型中的權(quán)重和偏置;不同在于:卷積神經(jīng)網(wǎng)絡(luò)包含了由卷積層、池化層構(gòu)成的特征提取器,卷積層通過(guò)卷積核來(lái)提取特征圖,池化層則對(duì)提取到的特征圖進(jìn)行壓縮,降低模型參數(shù),提高訓(xùn)練速度以及模型的泛化能力,在圖像識(shí)別方面有良好效果[10-13]。
卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)層次結(jié)構(gòu),包含輸入層、卷積層、池化層、全連接層、輸出層,輸入圖像經(jīng)多個(gè)卷積、池化層進(jìn)行特征提取,逐漸提取出高維特征,最后提取到的高維特征經(jīng)全連接層、輸出層,輸出一個(gè)一維向量,向量中每個(gè)元素是一個(gè)得分值/概率值,也即是該圖像屬于各個(gè)類別的概率。
在工業(yè)界中常用的網(wǎng)絡(luò)有 LeNet-5、AlexNet、VGG16、ZFNET、ResNet等,本文所使用的網(wǎng)絡(luò)結(jié)構(gòu)基于小型網(wǎng)絡(luò)ZFNET[14]、大型網(wǎng)絡(luò)VGG16[15]。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)最核心的部分,作用是通過(guò)卷積操作提取特征,卷積核通過(guò)對(duì)輸入圖片或上層特征圖進(jìn)行滑動(dòng)窗口操作,逐一進(jìn)行卷積。
如圖1所示,卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)層次結(jié)構(gòu),包含輸入層、卷積層、池化層、全連接層和輸出層,卷積神經(jīng)網(wǎng)絡(luò)輸入是原始圖像,卷積層利用卷積操作提取特征,假設(shè)i代表第i層卷積層,Li-1是前一層的特征圖,Li是第i層卷積之后所得到的特征圖,該層過(guò)程為:
其中Wi為第i層的權(quán)重向量,?代表卷積操作,第i層的權(quán)重與i-1層的特征圖進(jìn)行卷積操作,然后與第i層的偏移向量相加,最后通過(guò)非線性激勵(lì)函數(shù) f(x)得到第i層的特征圖。通常第1層卷積層提取的是邊緣、線條等低級(jí)特征,越高層的卷積核逐步提取更高級(jí)的特征。
激勵(lì)函數(shù)的作用,是增加模型的非線性,目前CNN中常使用ReLU函數(shù)作為激勵(lì)函數(shù),相較于sigmoid、tanh函數(shù),能夠解決梯度爆炸、梯度消失等問(wèn)題,同時(shí)能夠加快收斂速度。ReLU函數(shù)如下:
圖1 卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)
池化層在卷積層和激活函數(shù)之后,主要作用是對(duì)特征圖降維,以使得訓(xùn)練加快,同時(shí)保證特征的尺度不變形,一定程度上避免過(guò)擬合,池化過(guò)程為:
常見(jiàn)的池化操作有最大池化、均值池化等,經(jīng)多個(gè)卷積層、池化層交替,卷積神經(jīng)網(wǎng)絡(luò)逐步提取高維度特征。
經(jīng)過(guò)多層卷積、池化處理后,會(huì)接一層或多層全連接層,全連接層中神經(jīng)元與前一層所有神經(jīng)元相連,旨在整合類別的局部信息,全連接層會(huì)根據(jù)輸出層任務(wù),有針對(duì)性的對(duì)高層特征進(jìn)行映射。最后一層全連接層的輸出值輸入到輸出層,輸出層面向具體任務(wù),例如用CNN來(lái)進(jìn)行分類,那么輸出層可以采用如Softmax層來(lái)進(jìn)行分類,輸出一個(gè)n維向量y=(y1,y2...yn)T,其中n為類別數(shù),每個(gè)值代表相應(yīng)類別的置信度。
在訓(xùn)練網(wǎng)絡(luò)前,有一個(gè)重要的任務(wù)是如何對(duì)網(wǎng)絡(luò)中權(quán)重參數(shù)進(jìn)行初始化,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練其實(shí)質(zhì)就是不斷調(diào)節(jié)權(quán)重參數(shù)和偏移參數(shù)的過(guò)程,有了這些參數(shù)就知道了每一層所代表的特征,如果一層中所有參數(shù)都相同,那么他們表征的特征就是相同的,即使在這層中有很多節(jié)點(diǎn),其實(shí)和只有一個(gè)節(jié)點(diǎn)沒(méi)有任何區(qū)別。如果每一層參數(shù)都是相同的,那么這個(gè)神經(jīng)網(wǎng)絡(luò)模型就退化為線性模型了。
最早有個(gè)貌似很合理的思想,是一開(kāi)始把所有權(quán)重參數(shù)初始化為0,但是權(quán)重參數(shù)的更新規(guī)則為:
其中i表示是第i層,α表示學(xué)習(xí)率。
將參數(shù)初始化為0,導(dǎo)致前向傳播時(shí)每一層的輸出是相同的,反向傳播時(shí)dW是相同的,進(jìn)而每一層都是一樣的,此時(shí)網(wǎng)絡(luò)是完全對(duì)稱的。
既然權(quán)重不能全部初始化為0,那么一種自然而然的思想就是把權(quán)重隨機(jī)初始化為一些小的數(shù),來(lái)打破對(duì)稱性,這個(gè)思想是神經(jīng)元一開(kāi)始是獨(dú)一無(wú)二的、隨機(jī)的,它們會(huì)計(jì)算出不同的更新來(lái)調(diào)整整個(gè)網(wǎng)絡(luò),例如高斯初始化,它的權(quán)重矩陣如同:
其中randn是從均值為0的單位標(biāo)準(zhǔn)高斯分布進(jìn)行取樣,通過(guò)這個(gè)函數(shù),使得權(quán)重參數(shù)初始化為一個(gè)從多維高斯分布取樣的隨機(jī)向量。
還有一些其他的參數(shù)初始化方法如均勻分布初始化、Xavier初始化、MSRA初始化。
神經(jīng)網(wǎng)絡(luò)需要通過(guò)訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練,從中獲得相應(yīng)信息并轉(zhuǎn)化為權(quán)重。在實(shí)際應(yīng)用中,通常沒(méi)有太多的數(shù)據(jù)集用于訓(xùn)練,因此從頭進(jìn)行初始化訓(xùn)練網(wǎng)絡(luò)并不好。在人類的文明中,上一代會(huì)將知識(shí)傳授給下一代,下一代只需要在此基礎(chǔ)上進(jìn)行學(xué)習(xí)即可,而不需要從頭開(kāi)始,神經(jīng)網(wǎng)絡(luò)也借鑒這一思想,可以對(duì)已有的模型進(jìn)行微調(diào)(fine-turn),來(lái)完成我們的自己任務(wù),可以從別的模型中提取權(quán)重,并遷移到自己的任務(wù)上。
ImageNet數(shù)據(jù)集是一個(gè)大型數(shù)據(jù)集,包含1400萬(wàn)張圖片,超過(guò)200萬(wàn)個(gè)類別,是目前深度學(xué)習(xí)領(lǐng)域應(yīng)用的非常多的公開(kāi)數(shù)據(jù)集。由于ImageNet數(shù)據(jù)集過(guò)大,所以有公開(kāi)的已經(jīng)在ImageNet數(shù)據(jù)集上訓(xùn)練得到的模型參數(shù),本文以此作為預(yù)訓(xùn)練模型(pre-trainedmodel)用來(lái)對(duì)網(wǎng)絡(luò)進(jìn)行初始化。接下來(lái)fine-turn整個(gè)神經(jīng)網(wǎng)絡(luò),替換掉輸入層(圖片數(shù)據(jù)),使用自己的實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行訓(xùn)練,可以對(duì)部分層進(jìn)行微調(diào),也可以對(duì)全部層進(jìn)行微調(diào),通常前面的層提取到的是圖像的通用特征(如邊緣特征、色彩特征),這些特征對(duì)許多任務(wù)都有用,因此只對(duì)后面的層進(jìn)行調(diào)整。
與重新訓(xùn)練整個(gè)網(wǎng)絡(luò)相比,使用遷移學(xué)習(xí)需要使用更小的學(xué)習(xí)率(本文實(shí)驗(yàn)使用的學(xué)習(xí)率learning rate為0.001,而訓(xùn)練ImageNet數(shù)據(jù)集使用的學(xué)習(xí)率為0.01),因?yàn)轭A(yù)訓(xùn)練模型的參數(shù)已經(jīng)很平滑,我們不希望太快去扭曲它們。
FastR-CNN解決了需要重復(fù)對(duì)建議區(qū)域進(jìn)行特征提取,耗費(fèi)大量時(shí)間的問(wèn)題,此時(shí)目標(biāo)檢測(cè)速度的瓶頸在于依然要預(yù)先通過(guò)Selective Search等方法提取建議區(qū)域。Faster R-CNN提出區(qū)域生成網(wǎng)絡(luò)RPN(Re?gion ProposalNetwork),把建議區(qū)域的生成糅合到卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)一步提高了速度。
Faster R-CNN框架由兩個(gè)模塊組成:
(1)RPN模塊用于生成建議區(qū)域
(2)FastR-CNN模塊用于對(duì)RPN提取的建議區(qū)域識(shí)別目標(biāo)
圖2 Faster R-CNN檢測(cè)架構(gòu)
從R-CNN到Faster R-CNN,目標(biāo)檢測(cè)的四個(gè)步驟:候選區(qū)域生成、特征提取、分類、位置精修被融入到一個(gè)網(wǎng)絡(luò)中,實(shí)現(xiàn)了端到端(end-to-end)訓(xùn)練。
通過(guò)反向傳播(BP,Back Propagation)和隨機(jī)梯度下降(SGD,Stochastic Gradient Descent)進(jìn)行端到端的訓(xùn)練。
(1)RPN網(wǎng)絡(luò)預(yù)訓(xùn)練:
以ImageNet訓(xùn)練好的網(wǎng)絡(luò)ZF/VGG-16來(lái)進(jìn)行參數(shù)初始化,以標(biāo)準(zhǔn)差0.01均值0的高斯分布對(duì)新層進(jìn)行隨機(jī)初始化。
(2)FastR-CNN網(wǎng)絡(luò)預(yù)訓(xùn)練:
以ImageNet訓(xùn)練好的網(wǎng)絡(luò)ZF/VGG-16來(lái)進(jìn)行參數(shù)初始化。
(3)RPN網(wǎng)絡(luò)微調(diào)訓(xùn)練:
以與Ground Truth相交IoU最大的anchor以及IoU>=0.7的anchor作為正樣本;以IoU<0.3的作為負(fù)樣本,同F(xiàn)astR-CNN網(wǎng)絡(luò),采取“image-centric”方式采樣,即層次采樣,先對(duì)圖像取樣,再對(duì)anchors取樣,同一圖像的anchors共享計(jì)算和內(nèi)存。每個(gè)mini-batch包含從一張圖中隨機(jī)提取的256個(gè)anchors,正負(fù)樣本比例為1:1,來(lái)計(jì)算一個(gè)mini-batch的損失函數(shù),如果一張圖中不夠128個(gè)正樣本,拿負(fù)樣本補(bǔ)湊齊。訓(xùn)練超參數(shù)選擇:在數(shù)據(jù)集上前60k次迭代學(xué)習(xí)率為0.001,后20k次迭代學(xué)習(xí)率為0.0001;動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.0005。
一張圖片多任務(wù)損失函數(shù)(分類損失+回歸損失)如下:
其中,i表示一個(gè)mini-batch中某個(gè)anchor的下標(biāo),pi表示anchor i預(yù)測(cè)為物體的概率;當(dāng)anchor為正樣本時(shí),,當(dāng)anchor為負(fù)樣本時(shí),由此可以看出回歸損失項(xiàng)僅在anchor為正樣本情況下才被激活;ti表示正樣本anchor到預(yù)測(cè)區(qū)域的4個(gè)平移縮放參數(shù)(以anchor為基準(zhǔn)的變換);t*i表示正樣本anchor到Ground Truth的4個(gè)平移縮放參數(shù)(以anchor為基準(zhǔn)的變換);
回歸損失函數(shù)Lcls表達(dá)式:
R函數(shù)定義:
RPN和FastR-CNN都是獨(dú)立訓(xùn)練的,要用不同方式修改它們的卷積層。因此需要開(kāi)發(fā)一種允許兩個(gè)網(wǎng)絡(luò)間共享卷積層的技術(shù),而不是分別學(xué)習(xí)兩個(gè)網(wǎng)絡(luò)。RPN在提取得到proposals后,使用Fast R-CNN實(shí)現(xiàn)最終目標(biāo)的檢測(cè)和識(shí)別。RPN和FastR-CNN共用了13個(gè)VGG的卷積層,將這兩個(gè)網(wǎng)絡(luò)完全孤立訓(xùn)練不是明智的選擇,所以采用交替訓(xùn)練(Alternating Training)階段卷積層特征共享:
(1)用ImageNet預(yù)訓(xùn)練的模型初始化,得到初試參數(shù)W0,并端到端微調(diào)用于區(qū)域建議任務(wù);
(2)從W0開(kāi)始訓(xùn)練RPN,得到訓(xùn)練集上的候選區(qū)域;
(3)從W0開(kāi)始,用候選區(qū)域訓(xùn)練Fast R-CNN,得到參數(shù)W1;
(4)從W1開(kāi)始訓(xùn)練RPN。
實(shí)驗(yàn)環(huán)境為:CPU:Intel i7 6700K,顯卡:GeForce GTX 1070,顯存 8GB。
實(shí)驗(yàn)所使用訓(xùn)練數(shù)據(jù)集,大多來(lái)自于真實(shí)攝像頭下截取的圖片,以及一些網(wǎng)絡(luò)上找的圖片以提高泛化能力,圖片的長(zhǎng)寬比(width/height)在 0.463-6.828之間,在最初的數(shù)據(jù)集基礎(chǔ)上,訓(xùn)練出模型進(jìn)行測(cè)試,并將漏檢、誤檢的圖片重新加入到訓(xùn)練集中進(jìn)行再次訓(xùn)練,不斷得到魯棒性更高、泛化性更強(qiáng)的模型,如表所示:
表2 訓(xùn)練集數(shù)量對(duì)訓(xùn)練結(jié)果的影響
目標(biāo)檢測(cè)中衡量識(shí)別精度的指標(biāo)是mAP,在多類別目標(biāo)檢測(cè)中,每個(gè)類別都根據(jù)recall和precision繪制一條曲線,AP就是該曲線下的面積。
由表2可知,不斷增加樣本,平均準(zhǔn)確度也不斷上升,尤其是初期樣本比較少時(shí),將難例增加到訓(xùn)練集中對(duì)整體效果提升非常明顯,提升了46.7個(gè)百分點(diǎn);當(dāng)然由于訓(xùn)練的數(shù)量加大,訓(xùn)練時(shí)間也隨之增加。最終訓(xùn)練集有1096張圖片,已經(jīng)能達(dá)到0.792的mAP。
雖然ZF網(wǎng)絡(luò)已經(jīng)能達(dá)到不錯(cuò)的效果,但是ZF網(wǎng)絡(luò)只有5層的卷積來(lái)提取特征,因而對(duì)復(fù)雜場(chǎng)景如陰影、光照、部分遮擋等效果并不好,很容易出現(xiàn)漏檢,如圖3。
圖3 ZF網(wǎng)絡(luò)下部分漏檢圖
針對(duì)ZF網(wǎng)絡(luò)深度較淺,提取出的特征維度不高,因而容易出現(xiàn)漏檢的問(wèn)題,在網(wǎng)絡(luò)結(jié)構(gòu)上加以改進(jìn),使用深度更高的VGG16網(wǎng)絡(luò),VGG16網(wǎng)絡(luò)共16層,有13層卷積、池化層來(lái)提取更高維度的特征,3個(gè)全連接層,如3表:
表3 ZF、VGG-16訓(xùn)練結(jié)果對(duì)比
使用更深的網(wǎng)絡(luò),會(huì)提取出更好的特征,提高模型的魯棒性;同時(shí)更深的網(wǎng)絡(luò)擁有更多的參數(shù),會(huì)計(jì)算更多的卷積操作,所以訓(xùn)練時(shí)間也會(huì)明顯提升。
圖4 損失函數(shù)變化圖
從圖4可以看到在訓(xùn)練RPN和FastR-CNN階段的損失函數(shù)變化,RPN階段損失函數(shù)在30000次迭代前變化起伏比較大,30000次之后逐漸收斂,40000次迭代已經(jīng)區(qū)域穩(wěn)定;FastR-CNN階段一開(kāi)始損失函數(shù)比較大,接下來(lái)逐漸收斂,到20000次迭代時(shí)趨于穩(wěn)定。由于使用了遷移學(xué)習(xí)策略,最終訓(xùn)練獲得了比較好的收斂效果。
在得到兩種網(wǎng)絡(luò)訓(xùn)練出的模型后,使用282張不同類別(如手推車(chē)攤位、三輪車(chē)攤位、小貨車(chē)攤位)的測(cè)試圖片對(duì)兩種模型分別進(jìn)行測(cè)試,使用的測(cè)試集區(qū)別于訓(xùn)練集中圖片,并且都來(lái)自真實(shí)場(chǎng)景。
表4 ZF、VGG-16模型測(cè)試結(jié)果
可見(jiàn),VGG16訓(xùn)練出的模型,相比于ZF模型,在漏檢問(wèn)題上有明顯提升,以下是兩種模型的實(shí)際檢測(cè)效果:
圖5 ZF(左)與VGG(右)效果對(duì)比
從實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),ZF模型由于提取特征層次較淺,在復(fù)雜環(huán)境(如光照、陰影、部分遮擋)下,很難有效對(duì)目標(biāo)進(jìn)行檢測(cè);VGG16訓(xùn)練的模型有強(qiáng)大的魯棒性,即便在復(fù)雜環(huán)境下同樣具有強(qiáng)大的目標(biāo)捕捉能力。
本文所使用的Faster R-CNN+VGG16網(wǎng)絡(luò)結(jié)構(gòu),在遷移學(xué)習(xí)和交替優(yōu)化策略下對(duì)非法攤位進(jìn)行檢測(cè),實(shí)驗(yàn)表明能達(dá)到80%的平均準(zhǔn)確度,5fps,可應(yīng)用到實(shí)際場(chǎng)景中,對(duì)不同類別非法攤位進(jìn)行智能檢測(cè)。但是對(duì)于小物體(目標(biāo)在整張圖片中占比過(guò)?。┮约皬?qiáng)光下檢測(cè)效果不理想;并且對(duì)一些車(chē)輛、人群有時(shí)會(huì)出現(xiàn)誤檢;同時(shí)能否進(jìn)一步提升fps以適應(yīng)實(shí)時(shí)要求,也是接下來(lái)要研究的工作。