王思元,王俊杰
(中國(guó)海洋大學(xué)工程學(xué)院,山東 青島 266100 )
隨著我國(guó)城市化進(jìn)程的加快,越來(lái)越多的大型公共建筑應(yīng)運(yùn)而生,與此同時(shí)也出現(xiàn)了越來(lái)越多如車(chē)站、地鐵、商場(chǎng)等人員密集場(chǎng)所,當(dāng)發(fā)生災(zāi)害事故時(shí),需要盡快將大規(guī)模人群進(jìn)行疏散,而高密度人群疏散過(guò)程一旦出現(xiàn)問(wèn)題,可能會(huì)造成重大的人員傷亡事故。因此,實(shí)時(shí)、準(zhǔn)確的人群識(shí)別與檢測(cè)對(duì)保證人員密集場(chǎng)所的交通安全及規(guī)劃管理具有重要的應(yīng)用價(jià)值。
傳統(tǒng)的行人檢測(cè)方法主要采用人工設(shè)計(jì)特征進(jìn)行全局特征行人檢測(cè),通過(guò)Haar小波特征、HOG特征、Shapelet與Edgelte特征[1]、TED與輪廓版特征等訓(xùn)練分類(lèi)器進(jìn)行行人檢測(cè),并在現(xiàn)有的數(shù)據(jù)集上取得了許多令人矚目的效果。如Hoang等[2]提出了基于可變尺度梯度特征直方圖(Histogram of Oriented Gradient,HOG)的行人特征描述方法,并結(jié)合支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行圖像分類(lèi),使得分類(lèi)準(zhǔn)確率有較大的提升;Armanfard等[3]將紋理邊緣特征描述(Texture Edge Descriptor,TED)系統(tǒng)應(yīng)用于視頻中的行人檢測(cè),其特征包括紋理與邊緣信息,并且對(duì)光照明顯變化時(shí)的圖像有很好的魯棒性,可以較好地處理室內(nèi)與室外光照變化對(duì)圖像的影響;Dollar等[4]巧妙地將聚合通道特征(Aggregated Channel Features,ICF)與HOG特征相融合,用于背景復(fù)雜情況下的行人檢測(cè)。人工設(shè)計(jì)特征始終難以有效地表達(dá)復(fù)雜環(huán)境下行人特征問(wèn)題,且程序本身運(yùn)算量高,其高復(fù)雜度也限制了目標(biāo)檢測(cè)的實(shí)時(shí)性。近幾年,基于深度卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)的算法憑借其在特征提取上的優(yōu)勢(shì)被廣泛應(yīng)用于目標(biāo)檢測(cè)任務(wù)中,大幅提高了目標(biāo)檢測(cè)的準(zhǔn)確率。目前CNN算法較為廣泛使用的方法可以分為三類(lèi):第一類(lèi)方法是基于區(qū)域建議的目標(biāo)識(shí)別算法,如Fast R-CNN[5]、Mask R-CNN[6]、Faster R-CNN[7]等,這類(lèi)算法在目標(biāo)識(shí)別方面效果很好,但是檢測(cè)速度相對(duì)較慢,因而很難應(yīng)用于實(shí)際;第二類(lèi)方法是基于學(xué)習(xí)搜索的檢測(cè)算法,如深化強(qiáng)度網(wǎng)絡(luò)Q-Learning、AttentionNet模型[8]等,這類(lèi)算法將圖像識(shí)別提取任務(wù)轉(zhuǎn)換為一個(gè)動(dòng)態(tài)視覺(jué)搜索任務(wù),與其他方法相比,其檢測(cè)精度不甚理想;第三類(lèi)方法是基于回歸方式的目標(biāo)檢測(cè)算法,如SSD(Single Shot MultiBox Detector)算法[9]、YOLO(You Only Look Once)系列算法[10-11]等,此系列算法在保證目標(biāo)檢測(cè)準(zhǔn)確率同時(shí)也提高了檢測(cè)速度,基本可以滿(mǎn)足實(shí)時(shí)性的要求。目前YOLO算法已經(jīng)發(fā)展到第三個(gè)版本即YOLOv3[12],在目標(biāo)實(shí)時(shí)性檢測(cè)方面的表現(xiàn)尤為突出。
本文借鑒目標(biāo)檢測(cè)領(lǐng)域先進(jìn)的研究成果,提出將YOLOv3網(wǎng)絡(luò)應(yīng)用于高密度人群目標(biāo)檢測(cè)中,通過(guò)對(duì)其層級(jí)結(jié)構(gòu)及參數(shù)進(jìn)行調(diào)整,調(diào)整后的網(wǎng)絡(luò)(即YOLOv3-M網(wǎng)絡(luò))不僅能夠準(zhǔn)確識(shí)別目標(biāo)人群位置,而且對(duì)于存在局部遮擋、背景復(fù)雜、光線(xiàn)不足、視線(xiàn)模糊等情況下的人群也具有很好的識(shí)別效果。
YOLO算法在2016年由Redmon等提出后,到2018年已經(jīng)經(jīng)歷了YOLOv2、YOLOv3兩個(gè)版本的改進(jìn)。與前兩個(gè)版本相比,YOLOv3算法主要做了以下幾方面的改進(jìn):
(1) 借鑒ResNet殘差網(wǎng)絡(luò)思想。首先,殘差網(wǎng)絡(luò)保證了即使在很深的網(wǎng)絡(luò)結(jié)構(gòu)下,模型仍能正常收斂,網(wǎng)絡(luò)越深,特征表達(dá)越好,分類(lèi)與預(yù)測(cè)的效果皆有提升;此外,網(wǎng)絡(luò)中1×1的卷積,壓縮了卷積后的特征表示,減少了每次卷積中的通道,在減少參數(shù)量的同時(shí)也一定程度上減少了計(jì)算量。
(2) 采用多尺度融合預(yù)測(cè)方法。YOLOv3算法在3種不同尺度上進(jìn)行預(yù)測(cè),使用類(lèi)金字塔網(wǎng)絡(luò)[13]從這些尺度中提取特征,通過(guò)與上采樣特征合并,從中獲得了更好的細(xì)粒度特征及更有意義的語(yǔ)義信息,并且在訓(xùn)練過(guò)程中,隨機(jī)改變輸入圖像大小,做到從多尺度訓(xùn)練網(wǎng)絡(luò)模型,使得算法對(duì)小目標(biāo)的敏感度與檢測(cè)精度大幅度提升。
(3) 分類(lèi)損失函數(shù)替換。YOLOv3算法替換了softmax cross-entropy loss損失函數(shù)對(duì)每一個(gè)候選框進(jìn)行分類(lèi),考慮到當(dāng)預(yù)測(cè)的目標(biāo)類(lèi)別很復(fù)雜、重疊標(biāo)簽較多時(shí),該損失函數(shù)并不適用,而復(fù)合標(biāo)簽的方法能對(duì)數(shù)據(jù)進(jìn)行更好地預(yù)測(cè)與分類(lèi),損失函數(shù)采用binary cross-entropy loss,使得每個(gè)邊界框(Bounding Box)可以預(yù)測(cè)多個(gè)目標(biāo),同時(shí)也保證了每一個(gè)目標(biāo)的預(yù)測(cè)準(zhǔn)確率。
圖1 殘差網(wǎng)絡(luò)和Darknet-53跳層連接示意圖
YOLOv3算法采用Darknet-53作為特征提取的主要網(wǎng)絡(luò),Darknet-53網(wǎng)絡(luò)共有53個(gè)卷積層,網(wǎng)絡(luò)結(jié)構(gòu)更深。該結(jié)構(gòu)中采用一系列3×3和1×1等表現(xiàn)良好的卷積層,并使用LeakyReLu作為修正函數(shù),在保持高檢測(cè)速度前提下提升了目標(biāo)識(shí)別的準(zhǔn)確性;同時(shí),YOLOv3算法采用類(lèi)ResNet[14]跳層連接方式的快捷連接(Shotcut Connections),將原始數(shù)據(jù)跳過(guò)某些層而直接傳到之后的層,起到降低模型復(fù)雜性及減少參數(shù)數(shù)量的目的,很好地解決了準(zhǔn)確率隨著網(wǎng)絡(luò)結(jié)構(gòu)加深而下降的問(wèn)題。圖1為殘差網(wǎng)絡(luò)(左)和Darknet-53(右)跳層連接示意圖。表1為Darknet-53網(wǎng)絡(luò)性能對(duì)比表,在保證每個(gè)網(wǎng)絡(luò)具有相同設(shè)置情況下分別對(duì)其進(jìn)行訓(xùn)練與測(cè)試。
由表1可知,Darknet-53網(wǎng)絡(luò)在Top-1和Top-5識(shí)別的準(zhǔn)確率可與ResNet-101、ResNet-152網(wǎng)絡(luò)相媲美,浮點(diǎn)運(yùn)算次數(shù)可達(dá)到1 457次/s,使得網(wǎng)絡(luò)可以更好地利用GPU進(jìn)行圖像等的處理,且圖像檢測(cè)速度為78FPS,滿(mǎn)足實(shí)時(shí)檢測(cè)的要求。
表1 Darknet-53網(wǎng)絡(luò)性能對(duì)比表
YOLOv3算法延續(xù)了Faster R-CNN的anchor boxes[15]機(jī)制,即先驗(yàn)框思想,anchor的個(gè)數(shù)及寬高比將影響目標(biāo)識(shí)別的精度,在算法訓(xùn)練過(guò)程中,隨著迭代次數(shù)的增加,候選框參數(shù)也在不斷調(diào)整,使得其與真實(shí)框參數(shù)更接近。YOLOv3算法通過(guò)在COCO數(shù)據(jù)集上進(jìn)行K-means[16]維度聚類(lèi),得到最優(yōu)anchor的個(gè)數(shù)及寬高維度,與Faster R-CNN手工設(shè)置先驗(yàn)框相比,采用K-means聚類(lèi)方法得到的先驗(yàn)框主觀性較弱,更易于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)。本方法的目的在于增強(qiáng)對(duì)密集人群和小目標(biāo)的識(shí)別效果,因此需要深度卷積神經(jīng)網(wǎng)絡(luò)從大量樣本中學(xué)習(xí)行人特征。COCO數(shù)據(jù)集共有約80類(lèi)目標(biāo)數(shù)據(jù),包含人、車(chē)、草地等多類(lèi)數(shù)據(jù)[17],“扁長(zhǎng)型”框較多而符合人群目標(biāo)特征的“瘦高型”框相對(duì)較少。本文采集的實(shí)驗(yàn)用數(shù)據(jù)集候選框類(lèi)型與COCO數(shù)據(jù)集相反,多為“瘦高型”數(shù)據(jù),因此更具有代表性,所以通過(guò)對(duì)實(shí)驗(yàn)用數(shù)據(jù)集進(jìn)行K-means聚類(lèi)分析,可得到適合高密度人群數(shù)據(jù)集最優(yōu)anchor個(gè)數(shù)及寬高維度。
傳統(tǒng)K-means聚類(lèi)通過(guò)度量樣本間相似性進(jìn)行間接聚類(lèi),通常使用歐式距離或曼哈頓距離作為度量公式,但會(huì)產(chǎn)生“大框優(yōu)勢(shì)”,使得較大邊界框相對(duì)于較小邊界框產(chǎn)生更多的錯(cuò)誤。而YOLOv3算法采用重疊度交并比(Intersection Over Union,IOU)來(lái)反映候選框與真實(shí)框之間的誤差,其距離公式為
d(cos,centroid)=1-IOU(box,centroid)
(1)
式中:box為樣本聚類(lèi)結(jié)果;centroid為所有簇的中心;IOU(box,centroid)為所有簇中心與所有聚類(lèi)框的交并比。
通過(guò)對(duì)高密度人群目標(biāo)數(shù)據(jù)集進(jìn)行聚類(lèi)分析,目標(biāo)函數(shù)的變化曲線(xiàn)見(jiàn)圖2。
圖2 目標(biāo)函數(shù)的變化曲線(xiàn)
由圖2可見(jiàn),隨著聚類(lèi)個(gè)數(shù)K值(簇值)的不同,目標(biāo)函數(shù)曲線(xiàn)隨之改變;當(dāng)K值大于6時(shí),目標(biāo)函數(shù)曲線(xiàn)趨于平緩,因此選擇K值為6,即anchor個(gè)數(shù)為6。此外,隨著K值的不同,網(wǎng)絡(luò)訓(xùn)練候選框初始規(guī)格也隨之變化,具體見(jiàn)表2。
表2 實(shí)驗(yàn)數(shù)據(jù)集聚類(lèi)結(jié)果
深層卷積神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)及更深的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)識(shí)別目標(biāo)特征提取有很好的效果??紤]到高密度人群目標(biāo)相對(duì)較小,以及算法自身結(jié)構(gòu)深度,為了獲得更高的語(yǔ)義信息,本文對(duì)YOLOv3算法的特征提取Darknet-53網(wǎng)絡(luò)進(jìn)行了改進(jìn),即在主干網(wǎng)絡(luò)中額外增加2個(gè)1×1和3×3的卷積層。增加卷積層的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:①有利于降低卷積核通道維數(shù)與參數(shù),使卷積神經(jīng)網(wǎng)絡(luò)得以簡(jiǎn)化;②增加的1×1和3×3卷積核可以在不損失分辨率的前提下增加非線(xiàn)性特性的表達(dá),豐富信息的表現(xiàn)形式;③在獲得相同的感受野與捕捉更多的語(yǔ)義信息的同時(shí),較小的卷積核可以在加深網(wǎng)絡(luò)的同時(shí)提高網(wǎng)絡(luò)的表達(dá)能力[18];④使用較小卷積核的卷積層與較大卷積核的卷積層相比擁有更多層的非線(xiàn)性函數(shù),可以突出判決函數(shù)的判決行。改進(jìn)后的YOLOv3算法結(jié)構(gòu)見(jiàn)圖3。
圖3 YOLOv3-M算法結(jié)構(gòu)
此外,為了從多個(gè)角度對(duì)比改進(jìn)后算法的性能,將改進(jìn)的YOLOv3算法分別進(jìn)行命名,即:將只進(jìn)行維度聚類(lèi)后anchor個(gè)數(shù)改為6的算法稱(chēng)為YOLOv3-A,取YOLO與anchor的首字母進(jìn)行命名;將進(jìn)行維度聚類(lèi)且更改算法結(jié)構(gòu)后的算法稱(chēng)為YOLOv3-M,取YOLO與模型(Model)的首字母命名,以方便辨識(shí)。
實(shí)驗(yàn)平臺(tái)軟硬件配置情況見(jiàn)表3,所有訓(xùn)練均在該實(shí)驗(yàn)平臺(tái)上進(jìn)行。
表3 實(shí)驗(yàn)平臺(tái)軟硬件配置
初始模型參數(shù)設(shè)置如下:Learning_rate為0.001;Momentum為0.9;Decay為0.0005;Batch為16;Max_batches為50000;Policy為steps;Scales為0.1,0.1。
本文選取在工作中收集到的密集人群場(chǎng)景圖片4 000張作為實(shí)驗(yàn)數(shù)據(jù),并對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行人工標(biāo)注。行人數(shù)據(jù)集示例圖片見(jiàn)圖4。采集的數(shù)據(jù)集為日常生活中的場(chǎng)景,行人外貌姿態(tài)豐富、身處背景復(fù)雜、個(gè)體差異明顯,并伴隨不同程度的遮擋,符合實(shí)驗(yàn)用數(shù)據(jù)需求,其中包含訓(xùn)練集2 640張圖片,驗(yàn)證集1 360張圖片。此外,將500張圖片作為測(cè)試數(shù)據(jù)集以便對(duì)訓(xùn)練結(jié)果進(jìn)行測(cè)試。
圖4 行人數(shù)據(jù)集示例圖片
通過(guò)實(shí)驗(yàn)對(duì)本文提出的改進(jìn)后的算法YOLOv3-M進(jìn)行目標(biāo)檢測(cè)的訓(xùn)練與測(cè)試,并將實(shí)驗(yàn)結(jié)果與Faster R-CNN、YOLOv3、YOLOv3-A等算法進(jìn)行對(duì)比分析。Faster R-CNN算法是目標(biāo)檢測(cè)方法中檢測(cè)準(zhǔn)確率最高的算法之一,其區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN)直接訓(xùn)練生成候選區(qū)域,相比較傳統(tǒng)的區(qū)域搜索方法如Selective Search、Edge Boxes等[19],可簡(jiǎn)化目標(biāo)檢測(cè)流程,大幅提高識(shí)別的準(zhǔn)確率;YOLOv3是YOLO系列算法的最新改進(jìn)版本,不論在檢測(cè)速度與精度上都具有代表性,因此本文選擇這兩種具有代表性的算法作為實(shí)驗(yàn)對(duì)象進(jìn)行對(duì)比分析。本次實(shí)驗(yàn)共分為以下四組:
(1) 使用本文提出的YOLOv3-M和Faster R-CNN分別在實(shí)驗(yàn)用數(shù)據(jù)集上進(jìn)行20 000次、30 000次、50 000次迭代訓(xùn)練,觀察其準(zhǔn)確率,其訓(xùn)練結(jié)果見(jiàn)表4;同時(shí),使用這兩種算法對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行測(cè)試,其測(cè)試結(jié)果見(jiàn)圖5。
表4 YOLOv3-M和Faster R-CNN算法的訓(xùn)練結(jié)果
圖5 Faster R-CNN和YOLOv3-M算法的測(cè)試結(jié)果
其中,準(zhǔn)確率P的計(jì)算公式為
(2)
式中:TP表示預(yù)測(cè)結(jié)果為行人、真實(shí)結(jié)果也為行人的數(shù)量;FP表示預(yù)測(cè)結(jié)果為行人、真實(shí)結(jié)果為非行人的數(shù)量。
由表4可知:YOLOv3-M和Faster R-CNN算法在訓(xùn)練過(guò)程中隨著迭代次數(shù)的增加準(zhǔn)確率不斷提升,并且隨著迭代次數(shù)的增加,兩種算法的差距逐漸減小;在50 000次迭代后,YOLOv3-M算法的準(zhǔn)確率略低于Faster R-CNN算法,兩者的差值為0.03,說(shuō)明本文方法具有良好的目標(biāo)檢測(cè)能力。此外,由圖5可見(jiàn),YOLOv3-M算法在小目標(biāo)檢測(cè)方面稍遜于Faster R-CNN算法,這也是下一步需要進(jìn)一步研究的重點(diǎn)內(nèi)容之一。
(2) 分別使用YOLOv3、YOLOv3-A、YOLOv3-M算法在實(shí)驗(yàn)用測(cè)試集上進(jìn)行測(cè)試,以召回率(Recall)和平均準(zhǔn)確率(mAP)為檢測(cè)指標(biāo),其測(cè)試結(jié)果見(jiàn)表5。其中,召回率R的計(jì)算公式為
(3)
式中:FN表示預(yù)測(cè)結(jié)果為非行人、真實(shí)結(jié)果為行人的數(shù)量。
平均準(zhǔn)確率mAP的計(jì)算公式為
(4)
式中:∑AP表示單類(lèi)圖片平均準(zhǔn)確率之和;NC為類(lèi)別總數(shù)。
表5 不同算法在測(cè)試數(shù)據(jù)集上的測(cè)試結(jié)果
由表5可知,YOLOv3-M算法的召回率和平均準(zhǔn)確率均高于YOLOv3和YOLOv3-A算法,其中在召回率方面,YOLOv3-M算法高于YOLOv3算法4.73%,高于YOLOv3-A算法0.13%;在平均準(zhǔn)確率方面,YOLOv3-M算法高于YOLOv3算法6.4%,高于YOLOv3-A算法4.29%。測(cè)試結(jié)果表明:經(jīng)過(guò)維度聚類(lèi)后YOLOv3-M算法更好地囊括了不同尺度的行人,候選框?qū)捀弑雀厦芗巳耗繕?biāo),被正確預(yù)測(cè)的行人數(shù)逐漸增多;另一方面,結(jié)構(gòu)調(diào)整與重聚類(lèi)后的網(wǎng)絡(luò)整體性能指標(biāo)得到了優(yōu)化,增加的1×1和3×3卷積核使得網(wǎng)絡(luò)獲得更多語(yǔ)義信息,對(duì)小目標(biāo)識(shí)別的準(zhǔn)確率和定位的準(zhǔn)確率相較于YOLOv3算法有所提升。因此,改進(jìn)后算法的查全率、查準(zhǔn)率性能得以證實(shí)。
使用上述三種網(wǎng)絡(luò)模型對(duì)測(cè)試數(shù)據(jù)集中的樣本進(jìn)行測(cè)試,其測(cè)試結(jié)果見(jiàn)圖6。所用算法從左向右依次為YOLOv3、YOLOv3-A、YOLOv3-M。
由圖6可見(jiàn),YOLOv3算法對(duì)密集人群目標(biāo)的漏識(shí)狀況較其他兩種方法嚴(yán)重,對(duì)小目標(biāo)人群定位準(zhǔn)確性差,而YOLOv3-M算法的識(shí)別、定位結(jié)果相對(duì)更精準(zhǔn)。
(3) 在1 080p的mp4視頻上分別對(duì)YOLOv3、YOLOv3-A、YOLOv3-M算法進(jìn)行圖像檢測(cè)速度(FPS)測(cè)試,其測(cè)試結(jié)果見(jiàn)表6。
由表6可知,經(jīng)過(guò)維度聚類(lèi)后的算法YOLOv3-A算法的圖像識(shí)別速度略快,可達(dá)到22 FPS,其原因是YOLOv3-A算法維度聚類(lèi)后所用anchor數(shù)目少,且寬高維度更加符合密集人群特征,因此在占用相對(duì)少的資源的情況下,圖像識(shí)別速度快,且高于其他兩類(lèi)算法;而YOLOv3-M算法圖像識(shí)別速度與YOLOv3算法持平,基本滿(mǎn)足目標(biāo)實(shí)時(shí)性檢測(cè)的要求。
(4) 為了驗(yàn)證本文提出的改進(jìn)后的算法YOLOv3-M可以提高檢測(cè)器性能的有效性,以測(cè)試數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),在閾值相同的情況下,以漏檢率曲線(xiàn)(MR-FPPI曲線(xiàn))作為評(píng)價(jià)指標(biāo),比較三種算法YOLOv3、YOLOv3-A、YOLOv3-M所訓(xùn)練的檢測(cè)器的漏檢率曲線(xiàn),見(jiàn)圖7。其中,MR(Miss Rate)為丟失率,F(xiàn)PPI(False Positives Per Image)為每張圖片錯(cuò)誤正例,MR-FPPI曲線(xiàn)主要考察FP(False Positives)出現(xiàn)的頻率。
圖7 不同算法所訓(xùn)練的檢測(cè)器的漏檢率曲線(xiàn)
由圖7可見(jiàn),在閾值同為0.5的情況下,YOLOv3-M算法訓(xùn)練檢測(cè)器的漏檢率為11.32%,較YOLOv3算法訓(xùn)練檢測(cè)器的漏檢率降低了29.19%,較YOLOv3-A算法訓(xùn)練檢測(cè)器的漏檢率降低了24.92%,進(jìn)而改進(jìn)的YOLOv3-M算法訓(xùn)練檢測(cè)器的漏檢性能得以驗(yàn)證。
本文以YOLOv3算法為基礎(chǔ),通過(guò)對(duì)數(shù)據(jù)集進(jìn)行維度聚類(lèi)分析、算法結(jié)構(gòu)改進(jìn)與參數(shù)調(diào)整等,提出了一種基于改進(jìn)YOLOv3算法的密集人群目標(biāo)實(shí)時(shí)檢測(cè)方法即YOLOv3-M算法。實(shí)驗(yàn)結(jié)果表明:該方法具有較高的檢測(cè)準(zhǔn)確率與定位準(zhǔn)確率,平均準(zhǔn)確率從YOLOv3算法的84.8%提高到Y(jié)OLOv3-M算法的91.20%,召回率從85.04%提高到89.77%,且在行人檢測(cè)過(guò)程中漏檢率低于改進(jìn)優(yōu)化前的YOLOv3算法。但是,本文提出的檢測(cè)方法仍存在一些不足之處,如檢測(cè)速度稍遜色于YOLOv3算法、對(duì)微小目標(biāo)定位準(zhǔn)確率不高等,主要原因是由于算法改進(jìn)后,算法結(jié)構(gòu)加深所致。如何進(jìn)一步優(yōu)化算法結(jié)構(gòu),在保證檢測(cè)準(zhǔn)確率的情況下進(jìn)一步提高其檢測(cè)速度及對(duì)微小目標(biāo)的識(shí)別率,將是下一步研究的重點(diǎn)內(nèi)容。