国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)YOLO v2的裝甲車(chē)輛目標(biāo)識(shí)別

2018-09-17 07:52王曙光呂攀飛
關(guān)鍵詞:個(gè)數(shù)聚類(lèi)準(zhǔn)確率

王曙光,呂攀飛

(中國(guó)人民解放軍陸軍炮兵防空兵學(xué)院兵器工程系,安徽 合肥 230031)

0 引 言

基于圖像的目標(biāo)識(shí)別技術(shù)是指利用計(jì)算機(jī)視覺(jué)技術(shù)將目標(biāo)從圖像中自動(dòng)檢測(cè)出來(lái),并對(duì)目標(biāo)的類(lèi)別、大小和位置進(jìn)行判斷。目前該技術(shù)已經(jīng)在精確制導(dǎo)、目標(biāo)自動(dòng)跟蹤、視頻監(jiān)控等領(lǐng)域得到了廣泛應(yīng)用。由于坦克裝甲車(chē)輛仍是目前陸地的主要作戰(zhàn)力量,因此對(duì)敵方裝甲目標(biāo)進(jìn)行精確打擊和監(jiān)控對(duì)于戰(zhàn)爭(zhēng)結(jié)果具有不可忽視的影響。

近年來(lái)隨著卷積神經(jīng)網(wǎng)絡(luò)在提取圖像高層次特征方面的不斷進(jìn)步,各類(lèi)基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)識(shí)別算法取得了突破性進(jìn)展[1]。Girshick[2]和Ren等[3]分別提出的Fast R-CNN和Faster R-CNN大幅提高了目標(biāo)識(shí)別的準(zhǔn)確率,但由于識(shí)別過(guò)程中計(jì)算量較大,幀率只能達(dá)到5幀/秒,因此不能實(shí)現(xiàn)對(duì)目標(biāo)的實(shí)時(shí)識(shí)別。隨后Redmon等[4]提出的YOLO網(wǎng)絡(luò)雖然將識(shí)別速度提高到45幀/秒,但卻犧牲了部分準(zhǔn)確率,容易出現(xiàn)對(duì)目標(biāo)的遺漏和誤識(shí)別。Liu等[5]在YOLO的基礎(chǔ)上提出了單發(fā)射擊檢測(cè)器(SSD網(wǎng)絡(luò)),在識(shí)別速度上,SSD比之前的YOLO要快很多,在檢測(cè)精度上,也和Faster R-CNN相當(dāng)。為了提高檢測(cè)準(zhǔn)確率,SSD網(wǎng)絡(luò)在不同尺度的特征圖上進(jìn)行預(yù)測(cè),此外,還得到具有不同縱橫比的結(jié)果,即使圖像的分辨率比較低,也能保證檢測(cè)的精度。此后Redmon等通過(guò)使用批量規(guī)范化、維度聚類(lèi)、多尺度訓(xùn)練等多種改進(jìn)方法在2016年提出的YOLO v2網(wǎng)絡(luò),在大幅提高識(shí)別速度的同時(shí)也提高了識(shí)別精度,目前,YOLO v2在VOC2007數(shù)據(jù)集上的檢測(cè)速度已經(jīng)達(dá)到67幀/秒,同時(shí)平均準(zhǔn)確率mAP也達(dá)到了76.8%,在目標(biāo)識(shí)別領(lǐng)域取得了最佳識(shí)別效果。

為了保證圖像目標(biāo)識(shí)別的精度和實(shí)時(shí)性,滿(mǎn)足特定的識(shí)別任務(wù),本文以當(dāng)前具有最佳識(shí)別效果的YOLO v2為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),通過(guò)對(duì)自制的裝甲目標(biāo)數(shù)據(jù)集中手工標(biāo)記的目標(biāo)框進(jìn)行k-means維度聚類(lèi)分析,確定了最優(yōu)的anchor boxes的個(gè)數(shù)和寬高維度。

1 YOLO v2網(wǎng)絡(luò)結(jié)構(gòu)與原理

1.1 基礎(chǔ)網(wǎng)絡(luò)模型

YOLO v2借鑒了YOLO和SSD的網(wǎng)絡(luò)結(jié)構(gòu),但與SSD網(wǎng)絡(luò)不同的是YOLO v2以Googlenet[6]作為基礎(chǔ)網(wǎng)絡(luò),而SSD的基礎(chǔ)網(wǎng)絡(luò)為VGG-16。表1為Googlenet和VGG-16網(wǎng)絡(luò)的性能對(duì)比,由表1可以看出雖然在目標(biāo)識(shí)別精度上Googlenet網(wǎng)絡(luò)略低于VGG-16網(wǎng)絡(luò),但是Googlenet卻大大壓縮了網(wǎng)絡(luò)訓(xùn)練的計(jì)算量,加快了識(shí)別的速度,這對(duì)于實(shí)時(shí)性要求較高的裝甲目標(biāo)識(shí)別任務(wù)具有重要作用。

表1 Googlenet與VGG-16的性能對(duì)比

網(wǎng)絡(luò)一次前向傳播的計(jì)算量/億次檢測(cè)精度/%Googlenet85.288VGG-16306.990

YOLO v2網(wǎng)絡(luò)包含了19個(gè)卷積層和5個(gè)最大池化層,為了壓縮特征同時(shí)增加網(wǎng)絡(luò)深度,在3×3的卷積核之間加入1×1的卷積核,每次池化操作后將通道數(shù)翻倍。去掉了全連接層,使用全局平均池化進(jìn)行網(wǎng)絡(luò)預(yù)測(cè),這大大提高了網(wǎng)絡(luò)提取圖像深層次特征的能力,使得網(wǎng)絡(luò)對(duì)目標(biāo)的識(shí)別精度得到了大幅度提高。

1.2 YOLO v2相對(duì)于YOLO的改進(jìn)

YOLO v2借鑒了Faster R-CNN的anchor 機(jī)制并采用維度聚類(lèi)尋找到最佳的anchor個(gè)數(shù)與寬高維度對(duì)目標(biāo)框進(jìn)行回歸。

YOLO v2在卷積池化層與激活函數(shù)間加入Batch Normalization(批量規(guī)范化)對(duì)每一層的輸入數(shù)據(jù)進(jìn)行規(guī)范化,使每一層輸入數(shù)據(jù)的均值為 0,方差為 1。由于神經(jīng)網(wǎng)絡(luò)每層輸入的分布總是不斷發(fā)生變化,因此YOLO v2通過(guò)標(biāo)準(zhǔn)化上層輸出,均衡輸入數(shù)據(jù)分布,使訓(xùn)練速度明顯加快,同時(shí)降低了激活函數(shù)在特定輸入?yún)^(qū)間達(dá)到飽和狀態(tài)的概率,避免梯度消失問(wèn)題。輸入規(guī)范化也對(duì)樣本進(jìn)行了正則化,在一定程度上可以替代Dropout層。

訓(xùn)練過(guò)程一般分為2個(gè)步驟:1)通過(guò)ImageNet訓(xùn)練集對(duì)分類(lèi)網(wǎng)絡(luò)進(jìn)行高分辨率的預(yù)訓(xùn)練;2)在分類(lèi)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行微調(diào),目的是訓(xùn)練檢測(cè)網(wǎng)絡(luò)。YOLO v1以分辨率為224×224的圖片來(lái)訓(xùn)練分類(lèi)網(wǎng)絡(luò),而YOLO v2則將分類(lèi)網(wǎng)絡(luò)的分辨率提高到了448×448,高分辨率樣本將識(shí)別的mAP提高了約4%。

此外對(duì)目標(biāo)框使用直接位置預(yù)測(cè)避免了直接進(jìn)行anchor回歸導(dǎo)致的模型不穩(wěn)定,YOLO v2每經(jīng)過(guò)10個(gè)Batch就會(huì)隨機(jī)選擇新的圖片尺寸,為了最后一層得到特征圖尺度為13×13, YOLO v2輸入圖片尺寸為416×416(416=13×32),降采樣參數(shù)為32,通過(guò)不同尺度圖片的訓(xùn)練提高了網(wǎng)絡(luò)對(duì)不同環(huán)境的適應(yīng)性。

2 改進(jìn)的YOLO v2網(wǎng)絡(luò)

2.1 YOLO v2的anchor機(jī)制

YOLO v2再次證明了Faster R-CNN提出的anchor機(jī)制在邊界框回歸過(guò)程中發(fā)揮的重要作用,如圖1所示,YOLO v1采用7×7的網(wǎng)格對(duì)輸入圖像進(jìn)行分割,每個(gè)網(wǎng)格只能預(yù)測(cè)對(duì)應(yīng)2個(gè)anchor boxes,這2個(gè)box共用一個(gè)分類(lèi)結(jié)果。YOLO v2采用13×13的網(wǎng)格對(duì)輸入圖像進(jìn)行分割,增強(qiáng)了對(duì)小目標(biāo)的檢測(cè)能力,每個(gè)網(wǎng)格預(yù)測(cè)k個(gè)anchor boxes,對(duì)應(yīng)了k個(gè)不同的尺度,每個(gè)box具有獨(dú)立的分類(lèi)結(jié)果,大幅提升了網(wǎng)絡(luò)的平均準(zhǔn)確率。同時(shí),YOLO v2采用k-means[7]算法對(duì)手工標(biāo)定的目標(biāo)框進(jìn)行維度聚類(lèi),尋找到最優(yōu)的k值與anchor的寬高維度[8],使得生成的anchor boxes更具有代表性。

圖1 YOLO v1與YOLO v2的anchor box

2.2 裝甲目標(biāo)數(shù)據(jù)集的anchor參數(shù)確定

盡管YOLO v2[9]在VOC和COCO數(shù)據(jù)集上取得了令人滿(mǎn)意的效果,但其對(duì)于自制的裝甲目標(biāo)數(shù)據(jù)集并不完全適用。如果直接采用原有的網(wǎng)絡(luò)參數(shù)訓(xùn)練生成權(quán)重文件,測(cè)試時(shí)發(fā)現(xiàn)容易對(duì)目標(biāo)產(chǎn)生錯(cuò)誤識(shí)別,平均識(shí)別率較低。

在實(shí)際目標(biāo)識(shí)別的過(guò)程中發(fā)現(xiàn)anchor的個(gè)數(shù)和大小的選取對(duì)識(shí)別的精度和速度產(chǎn)生著重要影響。雖然訓(xùn)練過(guò)程中網(wǎng)絡(luò)會(huì)通過(guò)學(xué)習(xí)調(diào)整邊界框的寬高維度,最終得到bounding boxes,但是,如果訓(xùn)練階段就選擇了更好的、更有代表性的anchor box維度,那么網(wǎng)絡(luò)就更容易學(xué)到準(zhǔn)確的預(yù)測(cè)位置。YOLO v2通過(guò)在VOC數(shù)據(jù)集上進(jìn)行維度聚類(lèi)分析得到了適合自身數(shù)據(jù)集的anchor個(gè)數(shù)與寬高維度,其中扁長(zhǎng)的框較少,而瘦高的框較多,更利于檢測(cè)類(lèi)似于行人的目標(biāo),自制裝甲目標(biāo)數(shù)據(jù)集的邊界框中扁平的較多,瘦高的較少,因此對(duì)VOC數(shù)據(jù)集的維度聚類(lèi)結(jié)果不利于對(duì)裝甲目標(biāo)進(jìn)行識(shí)別。

為適應(yīng)自制裝甲目標(biāo)數(shù)據(jù)集中手工標(biāo)定的目標(biāo)框,達(dá)到最優(yōu)的識(shí)別效果[10],本文采用k-means算法對(duì)數(shù)據(jù)集中目標(biāo)框的統(tǒng)計(jì)規(guī)律進(jìn)行維度聚類(lèi)分析,得到適合自制數(shù)據(jù)集最優(yōu)的anchor個(gè)數(shù)和寬高維度[11]。

d(box,centroid)=1-IOU(box,centroid)

(1)

k-means采用的距離函數(shù)(度量標(biāo)準(zhǔn))如式(1)所示,實(shí)驗(yàn)中使用爬山法選取k值,當(dāng)k值增加到某一數(shù)值時(shí)目標(biāo)函數(shù)d的變化越來(lái)越小,然后將此處拐點(diǎn)的k值作為最優(yōu)的聚類(lèi)個(gè)數(shù)。使用k-means算法對(duì)目標(biāo)框的寬高進(jìn)行維度聚類(lèi)分析,直到相鄰2次聚類(lèi)的結(jié)果相同時(shí)停止迭代過(guò)程,取不同的k值時(shí)目標(biāo)函數(shù)d的變化如圖2所示,由圖可得當(dāng)k>4時(shí),目標(biāo)函數(shù)變化逐漸平穩(wěn),所以取聚類(lèi)個(gè)數(shù)k=4。當(dāng)k=4時(shí),采用k-means算法對(duì)目標(biāo)框進(jìn)行維度聚類(lèi)分析,產(chǎn)生的聚類(lèi)結(jié)果如圖3所示,圖中不同的灰度對(duì)應(yīng)著不同類(lèi)別的目標(biāo)框,將聚類(lèi)結(jié)果中的聚類(lèi)中心坐標(biāo)作為anchor的寬高維度,因此anchor的個(gè)數(shù)為4,anchor參數(shù)分別為 (1.12, 1.31)、 (2.00, 2.31)、 (3.42, 3.72)、 (5.29, 5.93),分別對(duì)應(yīng)Ⅰ、 Ⅱ、 Ⅲ、 Ⅳ區(qū)域的聚類(lèi)中心坐標(biāo)。

圖2 目標(biāo)函數(shù)變化曲線(xiàn)

圖3 目標(biāo)框聚類(lèi)分布圖

3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

實(shí)驗(yàn)設(shè)備配置如下:CPU采用Intel(R) Xeon(R) E5-2683 v3 主頻2.00 GHz;內(nèi)存為32 GB;顯卡采用英偉達(dá)Quadro K4200和英偉達(dá)Quadro M4000雙顯卡;操作系統(tǒng)為Windows 10;框架為T(mén)ensorFlow。

網(wǎng)絡(luò)參數(shù)配置為:learning_rate=0.0001; policy=steps; batch=64; steps=100, 25000, 35000; max_batches=45000; scales=10, 0.1, 0.1; momentum=0.9; decay=0.0005。

自制裝甲目標(biāo)數(shù)據(jù)集共有5000張裝甲車(chē)輛圖片,其中4000張圖片作為訓(xùn)練集,1000張作為驗(yàn)證數(shù)據(jù)集。另外,分別建立具有400張、600張和800張圖片共3個(gè)不同的測(cè)試數(shù)據(jù)集對(duì)訓(xùn)練效果進(jìn)行檢測(cè)。訓(xùn)練集和驗(yàn)證集采用VOC數(shù)據(jù)集格式進(jìn)行手工標(biāo)定,測(cè)試數(shù)據(jù)集用于測(cè)試訓(xùn)練效果。

預(yù)訓(xùn)練階段首先采用ImageNet數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后采用分辨率為224×224大小的裝甲目標(biāo)數(shù)據(jù)集對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),隨后修改分辨率大小為416×416像素,在自制裝甲目標(biāo)數(shù)據(jù)集上訓(xùn)練10 epoches,使網(wǎng)絡(luò)適應(yīng)高分辨率下的輸入,得到預(yù)訓(xùn)練的權(quán)重文件。

采用預(yù)先設(shè)置的網(wǎng)絡(luò)參數(shù)和預(yù)訓(xùn)練階段得到的權(quán)重對(duì)自制裝甲目標(biāo)數(shù)據(jù)集訓(xùn)練2000次,分別統(tǒng)計(jì)訓(xùn)練過(guò)程中第0次、第500次、第1500次、第2000次的類(lèi)別準(zhǔn)確率、召回率和損失值如表2所示。從表中可以看出訓(xùn)練過(guò)程中網(wǎng)絡(luò)能夠保持較高的召回率,網(wǎng)絡(luò)參數(shù)能夠按照預(yù)期收斂。

表2 準(zhǔn)確率、召回率、損失值變化過(guò)程

訓(xùn)練次數(shù)準(zhǔn)確率召回率損失值00.000.001.005000.750.800.3210000.830.800.2415000.851.000.2320000.861.000.21

可以看出通過(guò)維度聚類(lèi)的方法對(duì)自制裝甲目標(biāo)數(shù)據(jù)集中的目標(biāo)框進(jìn)行聚類(lèi)分析,得到了最優(yōu)anchor個(gè)數(shù)和寬高維度,優(yōu)化了YOLO v2網(wǎng)絡(luò)對(duì)特定目標(biāo)的識(shí)別效果。表3比較了Faster R-CNN、 YOLO v2和經(jīng)過(guò)本文方法優(yōu)化后的YOLO v2對(duì)裝甲目標(biāo)的識(shí)別效果,可以看出本文方法可以在候選框較少,占用較少資源的情況下保持較高的平均重疊率[16]。

表3 候選框生成方法性能對(duì)比

方法anchor數(shù)量平均重疊率Faster R-CNN70.77YOLO v250.79改進(jìn)的YOLO v240.84

表4~表6比較了在3種不同測(cè)試數(shù)據(jù)集中目前主流的目標(biāo)識(shí)別算法以及本文改進(jìn)的YOLO v2方法識(shí)別的查準(zhǔn)率、查全率和檢測(cè)速度。從表中數(shù)據(jù)可以看出Faster R-CNN的識(shí)別精度較高但識(shí)別速度只有5幀/秒,不能對(duì)裝甲目標(biāo)進(jìn)行實(shí)時(shí)識(shí)別。YOLO v2在各數(shù)據(jù)集中的準(zhǔn)確率和查全率均優(yōu)于此前的YOLO版本,但與本文方法相比,通過(guò)k-means維度聚類(lèi)算法改進(jìn)的YOLO v2網(wǎng)絡(luò)對(duì)裝甲目標(biāo)的識(shí)別精度均高于原來(lái)的YOLO v2,可以達(dá)到85%以上,識(shí)別速度可以達(dá)到69幀/秒,滿(mǎn)足了對(duì)裝甲目標(biāo)的高準(zhǔn)確率實(shí)時(shí)識(shí)別。

表4 各算法在測(cè)試集1上的實(shí)驗(yàn)結(jié)果

算法查準(zhǔn)率/%查全率/%檢測(cè)速度/(幀/秒)Faster R-CNN87.183.65YOLO78.572.445YOLO v282.380.167本文方法86.082.670

表5 各算法在測(cè)試集2上的實(shí)驗(yàn)結(jié)果

算法查準(zhǔn)率/%查全率/%檢測(cè)速度/(幀/秒)FasterR-CNN86.582.75YOLO75.170.045YOLO v281.478.668本文方法85.180.269

表6 各算法在測(cè)試集3上的實(shí)驗(yàn)結(jié)果

算法查準(zhǔn)率/%查全率/%檢測(cè)速度/(幀/秒)FasterR-CNN86.182.64YOLO74.669.446YOLO v280.277.567本文方法85.080.269

通過(guò)對(duì)測(cè)試數(shù)據(jù)集中的樣本進(jìn)行測(cè)試,未經(jīng)過(guò)維度聚類(lèi)分析的實(shí)驗(yàn)結(jié)果如圖4所示,經(jīng)過(guò)維度聚類(lèi)后改進(jìn)的YOLO v2實(shí)驗(yàn)結(jié)果如圖5所示,可以看出本文方法相比目標(biāo)框未經(jīng)維度聚類(lèi)分析的YOLO v2具有更精確的識(shí)別效果,大大降低了目標(biāo)的誤識(shí)別率。

圖4 YOLO v2識(shí)別結(jié)果

圖5 改進(jìn)的YOLO v2識(shí)別結(jié)果

4 結(jié)束語(yǔ)

通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集手工標(biāo)定的目標(biāo)框進(jìn)行維度聚類(lèi)分析,利用k-means算法找到了最優(yōu)的anchor個(gè)數(shù)和寬高維度對(duì)YOLO v2進(jìn)行改進(jìn),提高了訓(xùn)練速度和識(shí)別精度,使得網(wǎng)絡(luò)對(duì)裝甲目標(biāo)識(shí)別的平均準(zhǔn)確率達(dá)到了85%以上,并滿(mǎn)足了對(duì)特定目標(biāo)的實(shí)時(shí)性識(shí)別要求。但目前仍然存某些特殊環(huán)境下精確識(shí)別困難的問(wèn)題,下一步將采取新的措施對(duì)YOLO v2網(wǎng)絡(luò)進(jìn)行改進(jìn),進(jìn)一步提高網(wǎng)絡(luò)的魯棒性,增強(qiáng)在復(fù)雜環(huán)境下的識(shí)別效果。

猜你喜歡
個(gè)數(shù)聚類(lèi)準(zhǔn)確率
怎樣數(shù)出小正方體的個(gè)數(shù)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
等腰三角形個(gè)數(shù)探索
基于K-means聚類(lèi)的車(chē)-地?zé)o線(xiàn)通信場(chǎng)強(qiáng)研究
怎樣數(shù)出小木塊的個(gè)數(shù)
怎樣數(shù)出小正方體的個(gè)數(shù)
高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于高斯混合聚類(lèi)的陣列干涉SAR三維成像
清水河县| 武强县| 轮台县| 凉城县| 温泉县| 雅江县| 宁城县| 宽甸| 宜都市| 巴马| 平潭县| 兴仁县| 平山县| 休宁县| 梁山县| 晴隆县| 城固县| 柞水县| 勐海县| 水城县| 长寿区| 平果县| 花垣县| 和顺县| 大宁县| 湖州市| 台南县| 昌宁县| 西乌珠穆沁旗| 玉龙| 宣恩县| 唐山市| 禹州市| 鸡泽县| 长宁县| 牙克石市| 平乐县| 大荔县| 泾川县| 南木林县| 云阳县|