余平平,林耀海,賴云鋒,程樹英,林培杰*
(1.福州大學(xué)物理與信息工程學(xué)院,福州 350108; 2.福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院,福州 350002)
我國(guó)在原木貿(mào)易和原木加工上以大批量原木為主,而在單次貿(mào)易和加工過程中,原木數(shù)量常常達(dá)到上百根甚至近千根。在國(guó)家標(biāo)準(zhǔn)GB/T 4814—2013《原木材積表》中,計(jì)算成堆的原木材積需要確定原木數(shù)量、木材長(zhǎng)度、端面直徑。同一批原木的長(zhǎng)度一般都是固定的,其端面直徑可以根據(jù)樹木的形狀用小頭直徑法、中徑法等確定。可見,準(zhǔn)確檢測(cè)原木數(shù)量和端面直徑是其中的兩個(gè)關(guān)鍵點(diǎn)。如果采取人工檢尺,會(huì)消耗大量人力資源,而且由于數(shù)量龐大,使得測(cè)量結(jié)果存在主觀性強(qiáng)且效率低等問題;若要實(shí)現(xiàn)自動(dòng)化原木檢尺,研究的難點(diǎn)在于實(shí)際生產(chǎn)中大量原木成捆堆放、卡車堆載,且堆放過程中原木的大小頭交錯(cuò)擺放造成原木的端面徑級(jí)不一,這使得原木端面圖像中經(jīng)常存在密集的多目標(biāo)、小目標(biāo)現(xiàn)象。密集的小目標(biāo)原木是自動(dòng)檢尺技術(shù)存在較多漏檢的一個(gè)關(guān)鍵難題,因此,為了準(zhǔn)確計(jì)算成堆原木材積,十分有必要開展針對(duì)密集原木端面準(zhǔn)確檢測(cè)的相關(guān)研究。
現(xiàn)階段對(duì)于原木的端面檢測(cè)主要采用傳統(tǒng)圖像處理和深度學(xué)習(xí)。在傳統(tǒng)圖像處理方面:Mei等[1]通過傅里葉變換連接低頻分量、反射分量和高頻分量,增強(qiáng)了圖像對(duì)比度,使原木邊緣變得更加清晰,再通過變換后的圖像進(jìn)行原木端面檢測(cè);林耀海等[2]通過原木端面輪廓存在圓弧的特征,然后通過計(jì)算邊緣重疊度對(duì)原木進(jìn)行檢測(cè);陳廣華等[3]采用雙目視覺實(shí)現(xiàn)對(duì)原木端面與背景的精確分割后對(duì)原木徑級(jí)進(jìn)行檢測(cè);郝泉齡等[4]采用Logistic建立了回歸模型,用心材缺陷面積和邊材缺陷面積來確定立木的腐朽等級(jí)。傳統(tǒng)算法依賴于提取原木端面的幾何特征,當(dāng)原木端面由于伐痕、污漬、發(fā)霉、原木目標(biāo)較小等導(dǎo)致幾何特征提取困難時(shí),檢測(cè)準(zhǔn)確率大大降低。在應(yīng)用深度學(xué)習(xí)方面,林耀海等[5]采用YOLOv3-Tiny結(jié)合Hough變換對(duì)端面完好、端面伐痕、端面霉變、環(huán)境復(fù)雜等情景進(jìn)行檢測(cè),并取得較好的檢測(cè)結(jié)果;劉嘉政等[6]利用不同樹齡條件下樹皮圖像存在差異的特點(diǎn)對(duì)樹種圖像進(jìn)行了分類。Tang等[7]通過SSD對(duì)不同尺度目標(biāo)特征的提取和利用來減少光照和拍攝角度引起的遮擋,以此來提高檢測(cè)精度;Lin等[8]通過改進(jìn)YOLOv4-Tiny使得檢測(cè)框與原木端面更加貼合,并通過軟閾值化結(jié)合SE模塊來提高模型識(shí)別率;余鴻暉等[9]采用Transformer和CBAM模塊改進(jìn)YOLOv5的特征提取網(wǎng)絡(luò),解決了原木被遮擋的問題,模型對(duì)整車原木場(chǎng)景有良好的檢測(cè)效果。
然而,上述研究均未針對(duì)密集型原木端面檢測(cè)深入研究,這要求所設(shè)計(jì)的網(wǎng)絡(luò)不僅對(duì)復(fù)雜情況下的原木端面檢測(cè)有良好的魯棒性,且對(duì)密集的小目標(biāo)有較強(qiáng)的檢測(cè)能力,從而降低密集原木端面的漏檢率。本研究針對(duì)成捆原木端面檢測(cè)存在由于目標(biāo)密集而形成的大量小目標(biāo)難以精確識(shí)別的問題,提出融合BiFPN(bidirectional weighted feature pyramid network,雙向加權(quán)特征金字塔網(wǎng)絡(luò))[10]和YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu),在特征提取網(wǎng)絡(luò)中加入小目標(biāo)檢測(cè)層,提取淺層的物理信息來加強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力,同時(shí)為了解決加入小目標(biāo)檢測(cè)層會(huì)存在深層語義信息丟失的問題,進(jìn)一步改進(jìn)特征融合網(wǎng)絡(luò),將簡(jiǎn)化版的BiFPN融合到網(wǎng)絡(luò)中,進(jìn)一步提高網(wǎng)絡(luò)的魯棒性;其次,為了更好地對(duì)比密集原木端面的檢測(cè)精度,該研究根據(jù)COCO數(shù)據(jù)集評(píng)價(jià)指標(biāo)[11],將原木分為大、中、小目標(biāo)分別對(duì)模型進(jìn)行詳細(xì)的性能分析。
該研究所采用的試驗(yàn)數(shù)據(jù)來源包括兩個(gè)部分,一部分是在福建省永安市某林場(chǎng)實(shí)地采集的成捆原木圖像數(shù)據(jù)集,另一部分是在互聯(lián)網(wǎng)尋找的一些接近真實(shí)原木貿(mào)易過程的圖像。為了保證數(shù)據(jù)集的多樣性,使得最終的模型在復(fù)雜場(chǎng)景能夠有良好表現(xiàn),并具有較強(qiáng)的魯棒性,在數(shù)據(jù)集的選取過程中,除了密集型原木端面圖像,還包括不同樹種,盡可能多地涵蓋各種復(fù)雜情況,如部分原木端面存在端裂、年輪、遮擋、霉變等。數(shù)據(jù)集共計(jì)181張圖像,每一張圖像中的木材數(shù)量在幾根到幾百根之間。
采用LabelImg工具對(duì)圖像進(jìn)行標(biāo)注,標(biāo)注統(tǒng)一采用Pascal VOC格式,使用log為樣本標(biāo)簽。訓(xùn)練集和測(cè)試集的圖片數(shù)量比為124∶57,其中,訓(xùn)練集124張圖片中包含5 112個(gè)原木端面,測(cè)試集57張圖片中包含4 603個(gè)原木端面。目標(biāo)檢測(cè)公共數(shù)據(jù)集COCO中的目標(biāo)分為大、中、小3種尺寸:當(dāng)目標(biāo)的標(biāo)注面積像素在9 216以上時(shí)認(rèn)定為大目標(biāo);當(dāng)目標(biāo)的標(biāo)注面積像素為1 024~9 216 時(shí)認(rèn)定為中目標(biāo);當(dāng)目標(biāo)的標(biāo)注面積像素在1 024以下時(shí)認(rèn)定為小目標(biāo)。而COCO能夠采用這樣的評(píng)價(jià)指標(biāo),是因?yàn)镃OCO官方已經(jīng)將圖片長(zhǎng)邊縮放到640,短邊則是按照?qǐng)D像比例縮放。為了能夠使用COCO數(shù)據(jù)集的評(píng)價(jià)指標(biāo),本研究將原木圖像長(zhǎng)邊縮放到640,短邊按照比例縮放。原木端面數(shù)據(jù)集數(shù)量分布如表1所示。
表1 原木端面數(shù)據(jù)集數(shù)量分布Table 1 Data distribution of log end face datasets
YOLOv5是目標(biāo)檢測(cè)模型YOLO系列[12-15]的最新研究成果,通過2個(gè)網(wǎng)絡(luò)深度、寬度比例調(diào)節(jié)因子進(jìn)一步地將YOLOv5分為YOLOv5-Small(YOLOv5s)、YOLOv5-Middle(YOLOv5m)、YOLOv5-Large(YOLOv5l)、YOLOv5-ExtraLarge(YOLOv5x)??紤]到網(wǎng)絡(luò)深度過深會(huì)導(dǎo)致得到的模型參數(shù)量過大,不利于后續(xù)模型在嵌入式設(shè)備上的部署和推理,本研究采用YOLOv5s作為基線網(wǎng)絡(luò)??蓪⒕W(wǎng)絡(luò)分為特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及檢測(cè)頭3個(gè)部分;640×640×3代表圖像的寬×高×通道數(shù);特征融合網(wǎng)絡(luò)標(biāo)記P3、P4、P5處為特征層融合的位置。特征提取網(wǎng)絡(luò)是在YOLOv4的CSPDarkNet53基礎(chǔ)上[16]進(jìn)行了改良,由Focus、Conv、C3、Bottleneck[17]、SPP[18]模塊組成。在特征提取階段,將整張圖像作為輸入,并通過特征提取網(wǎng)絡(luò)提取目標(biāo)不同特征層的特征,并將提取到的特征在特征融合網(wǎng)絡(luò)進(jìn)行融合。特征融合網(wǎng)絡(luò)和YOLOv4一樣,采用路徑聚合網(wǎng)絡(luò)(PANet)[19]。YOLOv5s的檢測(cè)頭和YOLOv3/v4的檢測(cè)頭一致,從特征提取層的第3、4、5層中分別提供大、中、小特征通道來進(jìn)行多尺度檢測(cè),其中3個(gè)尺度的檢測(cè)頭分別對(duì)應(yīng)預(yù)測(cè)小、中、大的目標(biāo)。輸出的通道數(shù)(cout)由分類的類別數(shù)決定:
cout=B×(5+C)
(1)
式中:B為每一個(gè)網(wǎng)格中預(yù)測(cè)框的數(shù)目;5代表Bbox的4個(gè)坐標(biāo)信息和1個(gè)預(yù)測(cè)得分信息;C代表類別數(shù)。
原始的YOLOv5s網(wǎng)絡(luò)從第3次下采樣開始進(jìn)行特征融合以及檢測(cè)層的輸出,因?yàn)闇\層的特征圖具有較多的輪廓、顏色等細(xì)節(jié)語義信息,當(dāng)檢測(cè)大目標(biāo)時(shí),淺層的語義信息對(duì)最后的模型權(quán)重貢獻(xiàn)不大,但是對(duì)于小原木而言,這些淺層語義信息在原木端面檢測(cè)時(shí)具有較大的作用。原木圖像輸入網(wǎng)絡(luò)后,特征提取網(wǎng)絡(luò)中第1次下采樣到第5次下采樣的通道特征圖見圖1。從圖1b、c可以看出在第1次和第2次下采樣時(shí),原木的輪廓信息還較為豐富,從第3次下采樣開始則是一些比較深層的語義信息,這些信息對(duì)于目標(biāo)的分類貢獻(xiàn)較大。因此,傳統(tǒng)的目標(biāo)檢測(cè)網(wǎng)絡(luò)在設(shè)計(jì)時(shí)一般不會(huì)將第1、2層特征層加入特征融合網(wǎng)絡(luò)。
圖1 特征圖可視化Fig.1 Visualization of feature map
2.2.1 小目標(biāo)檢測(cè)層
與傳統(tǒng)目標(biāo)檢測(cè)網(wǎng)絡(luò)類似,YOLOv5s原網(wǎng)絡(luò)也是從第3層特征層開始進(jìn)行特征融合的。小目標(biāo)檢測(cè)層則是將第2層特征層加入特征融合網(wǎng)絡(luò),從而提高網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)能力,本研究在原始YOLOv5s算法基礎(chǔ)上添加了一個(gè)小目標(biāo)檢測(cè)層以保留淺層語義信息。將特征提取網(wǎng)絡(luò)中原本沒有進(jìn)行融合的160×160的特征圖增加到檢測(cè)層,并在特征融合網(wǎng)絡(luò)中增加1次上采樣操作和下采樣操作,從而將最后輸出檢測(cè)層增加至4層。增加了檢測(cè)層后,輸出的預(yù)測(cè)框也從9個(gè)相應(yīng)地增加到12個(gè),所增加的3個(gè)預(yù)測(cè)框均為長(zhǎng)寬比不同且針對(duì)小目標(biāo)檢測(cè)的。
2.2.2 BiFPN及其簡(jiǎn)化
傳統(tǒng)的FPN結(jié)構(gòu)只有自上而下的單向信息流[20],PANet網(wǎng)絡(luò)在FPN的基礎(chǔ)上增加了一條額外的自底向上的路徑進(jìn)行信息增強(qiáng),有效保留更多的淺層特征。BiFPN是谷歌團(tuán)隊(duì)在PANet基礎(chǔ)上改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),BiFPN網(wǎng)絡(luò)示意圖如圖2c所示。BiFPN原網(wǎng)絡(luò)將7層特征層中的第3到第7層進(jìn)行特征融合,并且認(rèn)為如果一個(gè)節(jié)點(diǎn)只有一條輸入邊,其對(duì)于網(wǎng)絡(luò)的貢獻(xiàn)較小。因此,為了減少計(jì)算量,將第3層、第7層特征融合節(jié)點(diǎn)刪除;同時(shí),提出跨尺度連接的方法,增加一條額外的邊,將特征提取網(wǎng)絡(luò)中的特征直接與自底向上路徑中相對(duì)于大小的特征進(jìn)行融合,使網(wǎng)絡(luò)在保留更多淺層語義信息的同時(shí)也不丟失過多相對(duì)深層的語義信息。YOLOv5s的特征融合網(wǎng)絡(luò)為PANet,從圖2b可以看出,由于網(wǎng)絡(luò)添加了小目標(biāo)檢測(cè)層,將原本不參與特征融合的第2層特征層加入特征融合網(wǎng)絡(luò)中,過多保留淺層語義信息導(dǎo)致網(wǎng)絡(luò)的深層語義信息丟失嚴(yán)重,使得網(wǎng)絡(luò)對(duì)于特征相對(duì)復(fù)雜,因此,更多地保留這些相對(duì)深層的語義信息顯得尤為重要。基于此,本研究提出一種融合BiFPN和YOLOv5s的網(wǎng)絡(luò)模型,BiFPN的主要思想是添加了跨尺度連接,以便在不增加太多計(jì)算成本的前提下融合更多的特征。
圖2 特征融合網(wǎng)絡(luò)設(shè)計(jì)Fig.2 Feature fusion net design
此外,從圖2a可以看出,YOLOv5原網(wǎng)絡(luò)有5層特征層,其中只有第3到第5層特征層進(jìn)行特征融合,即使將第2層特征層加入也只有4層特征層可以進(jìn)行特征融合,而且第2層的淺層語義信息對(duì)于小目標(biāo)檢測(cè)有著十分重要的作用。因此,本研究選擇保留第2層和第5層的特征融合層,并且借鑒BiFPN的核心思想添加了2條跨尺度連接線。改進(jìn)后的網(wǎng)絡(luò)架構(gòu)如圖3所示,雖然會(huì)帶來少許的計(jì)算量增加,但改進(jìn)的網(wǎng)絡(luò)架構(gòu)在目標(biāo)密集、特征簡(jiǎn)單的數(shù)據(jù)集上能取得良好的效果。
圖3 改進(jìn)后的YOLOV5s網(wǎng)絡(luò)架構(gòu)Fig.3 Improved YOLOV5s network architecture
本試驗(yàn)硬件為1臺(tái)配備NVIDIA GeForce RTX 2080 Ti 12 GB(GPU)、Intel(R) Xeon(R)CPU-E5-2630 V4 2.20 GHz(CPU)的服務(wù)器,采用Pytorch1.7.1 搭建深度學(xué)習(xí)框架,并使用CUDA10.1工具包進(jìn)行GPU加速。由于YOLOv5采用的特征提取網(wǎng)絡(luò)進(jìn)行了5次下采樣,所以輸入圖像的長(zhǎng)和寬需為32的整數(shù)倍,但為了能夠采用COCO的評(píng)價(jià)標(biāo)準(zhǔn),本試驗(yàn)在數(shù)據(jù)預(yù)處理時(shí)已經(jīng)將圖片的長(zhǎng)邊縮放到640。同時(shí),為了最小程度地改變圖像特征,在盡量不改變輸入圖像原始比例的原則下,短邊先按照比例縮放。在模型訓(xùn)練以及測(cè)試時(shí),將整張?jiān)緢D片輸入后,由于短邊也需滿足32的整數(shù)倍條件,因此將短邊向上取最靠近32整數(shù)倍的值。以數(shù)據(jù)集圖片為例,圖像采集完后的圖片大小為450×300,預(yù)處理后的圖片大小為640×426,放入網(wǎng)絡(luò)時(shí)的圖片大小為640×448。訓(xùn)練參數(shù)為:初始學(xué)習(xí)率0.01、動(dòng)量0.937、批量32、權(quán)重衰減值0.000 5。為了提高模型魯棒性,本試驗(yàn)在訓(xùn)練過程中使用YOLOv5s自帶的圖像增強(qiáng)算法,對(duì)色調(diào)(Hue,H)、飽和度(Saturation,S)、亮度(Value,V)3個(gè)通道加入隨機(jī)干擾系數(shù),通過對(duì)色彩空間的變換以模擬光線不足的場(chǎng)景,并達(dá)到增強(qiáng)霉變、污漬等復(fù)雜情況與背景的對(duì)比,使用圖像平移、圖像翻轉(zhuǎn)的方法來模擬原木端面存在遮擋的場(chǎng)景。為了防止訓(xùn)練出現(xiàn)過擬合,采用熱身訓(xùn)練,輪次為3輪,訓(xùn)練迭代次數(shù)設(shè)置為800,每訓(xùn)練一輪保存損失最小的模型,最終得到的模型即為本研究的試驗(yàn)?zāi)P汀?/p>
本試驗(yàn)采用COCO目標(biāo)檢測(cè)數(shù)據(jù)集將原木分為大、中、小尺寸目標(biāo)后再進(jìn)行性能評(píng)價(jià)。衡量模型性能指標(biāo)的是在置信度閾值分?jǐn)?shù)為0.5時(shí)的查準(zhǔn)率(P)、查全率(R)、P-R調(diào)和均值F1及平均精度(AP)。P、R、F1及AP的計(jì)算公式為:
Ρ=TP/(TP+FP)×100%
(2)
R=TP/(TP+FN)×100%
(3)
F1=2PR/(P+R)
(4)
(5)
式中:TP為正確檢測(cè)出的原木數(shù)量;FP為原木出現(xiàn)誤檢的數(shù)量;FN為原木漏檢的數(shù)量;F1取值為0~1;r為積分變量,是對(duì)查準(zhǔn)率和查全率乘積的積分;AP為P-R曲線與坐標(biāo)軸包圍的面積。本研究中用的AP30是交并比(IOU)為0.3時(shí)不同查全率下的平均精度,mAP為不同類別的平均AP值,本試驗(yàn)數(shù)據(jù)集中只有一類目標(biāo),因此AP等價(jià)于mAP。采用IOU=0.3而不是COCO的IOU=0.5的原因?yàn)椋涸跀?shù)據(jù)集中存在大量的密集原木,而這些原木橫截面差異較大,這就導(dǎo)致了當(dāng)大的目標(biāo)框只要包圍較為不貼合時(shí),如果設(shè)置非極大值抑制(NMS)[21]的IOU值太大,將無法剔除多余的框。因此,通過試錯(cuò)法最終得到IOU=0.3為NMS的臨界值時(shí),模型誤檢率最低。
原始的YOLOv5s算法在檢測(cè)原木目標(biāo)時(shí),對(duì)于小目標(biāo)的檢測(cè)效果存在較高漏檢率的情況。針對(duì)成捆原木端面檢測(cè)存在由于目標(biāo)密集而形成的大量小目標(biāo)難以精確識(shí)別的問題,本研究在特征提取網(wǎng)絡(luò)加入小目標(biāo)檢測(cè)層,從而增強(qiáng)對(duì)小目標(biāo)原木的檢測(cè)。由于加入小目標(biāo)檢測(cè)層后特征融合網(wǎng)絡(luò)的通道長(zhǎng)度增加導(dǎo)致信息丟失,因此在此基礎(chǔ)上改進(jìn)了特征融合網(wǎng)絡(luò),即加入簡(jiǎn)化版的BiFPN。為測(cè)試加入簡(jiǎn)化版BiFPN網(wǎng)絡(luò)的性能,在相同測(cè)試集下采取消融試驗(yàn),試驗(yàn)結(jié)果如表2所示。
表2 不同改進(jìn)結(jié)構(gòu)在各個(gè)尺寸的檢測(cè)結(jié)果對(duì)比Table 2 Comparison of detection results of different improved structures in each size
YOLOv5s加入小目標(biāo)檢測(cè)層后相比于原YOLOv5s在所有目標(biāo)的查全率和平均精度上分別提高了10.82%和11.06%,其中:小目標(biāo)的查全率和平均精度分別提高了17.53%和17.10%;中目標(biāo)的查全率提高了0.62%,平均精度不變;大目標(biāo)的查全率降低了0.30%,平均精度提高了0.03%。F1值在所有目標(biāo)和小目標(biāo)中分別提高了0.054和0.096,在中目標(biāo)和大目標(biāo)中分別降低了0.001和0.009。總體來說,加入小目標(biāo)檢測(cè)層后的網(wǎng)絡(luò)在查全率、平均精度及F1值上均有明顯的提高。但是從表2的結(jié)果可以看出,雖然加入小目標(biāo)檢測(cè)層的網(wǎng)絡(luò)能夠提高小目標(biāo)的TP,但由于信息丟失增多導(dǎo)致網(wǎng)絡(luò)的魯棒性降低,使得各個(gè)尺寸的FP都有不同程度的增加,這使得加入小目標(biāo)檢測(cè)層的網(wǎng)絡(luò)在所有目標(biāo)和小目標(biāo)的查準(zhǔn)率分別降低了1.10% 和1.11%,在中目標(biāo)和大目標(biāo)的查準(zhǔn)率分別降低了0.98%和1.45%。
改進(jìn)的YOLOv5s網(wǎng)絡(luò)在加入小目標(biāo)檢測(cè)層的基礎(chǔ)上對(duì)特征融合網(wǎng)絡(luò)進(jìn)行了改進(jìn),比只加入小目標(biāo)檢測(cè)層的網(wǎng)絡(luò)各方面性能指標(biāo)都有所提高。對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查準(zhǔn)率分別提高了0.21%,0.13%,0.13%及0.87%;對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查全率分別提高了2.18%,3.43%,0.13%及0.30%,對(duì)大目標(biāo)的查全率依然是接近100%;對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的AP30分別提高了1.97%,4.03%,0.93%及0.09%;對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的F1值分別提高了0.012,0.018,0.001及0.006??傮w而言,改進(jìn)型YOLOv5s網(wǎng)絡(luò)相比于原YOLOv5s網(wǎng)絡(luò),在所有目標(biāo)和小目標(biāo)的檢測(cè)上,在查準(zhǔn)率僅降低了不到1%的情況下查全率分別提高了13.00%和20.96%。試驗(yàn)結(jié)果表明,本研究提出的融合BiFPN和YOLOv5s的密集原木端面檢測(cè)網(wǎng)絡(luò)可以在少量降低查準(zhǔn)率的情況下,明顯地提升密集原木檢測(cè)的查全率。
YOLOv5s以及加上不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于密集原木端面的檢測(cè)效果對(duì)比見圖4。從圖4a、b、c的綠色框可以看出,加入了小目標(biāo)檢測(cè)層后的算法模型,相比于原模型在密集原木端面的查全率都有較大提升。從圖4a、b的黃色框及藍(lán)色框可以看出,僅僅加入小目標(biāo)檢測(cè)層的算法會(huì)出現(xiàn)將十分靠近的2個(gè)原木識(shí)別成1個(gè)原木,而且會(huì)將圖片中輪廓、顏色比較相近的物體識(shí)別成原木,從而提高了誤檢率。從圖4b、c的黃色框以及藍(lán)色框可以看出,在小目標(biāo)檢測(cè)層的基礎(chǔ)上再加上簡(jiǎn)化的BiFPN后的算法對(duì)密集的原木端面以及輪廓、顏色相近的情況有較高的查準(zhǔn)率和更強(qiáng)的魯棒性。
注:紅色框?yàn)樗惴▽?duì)原木的檢測(cè)效果,其余顏色為人工標(biāo)注。圖4 不同改進(jìn)結(jié)構(gòu)檢測(cè)效果及局部放大Fig.4 Different improved structure detection effects and local magnification
為進(jìn)一步測(cè)試改進(jìn)的YOLOv5s模型效果,分別對(duì)改進(jìn)前后的YOLOv5s模型、無錨框檢測(cè)網(wǎng)絡(luò)YOLOX[22]、二階段網(wǎng)絡(luò)Faster-RCNN[23]4個(gè)網(wǎng)絡(luò)用相同的訓(xùn)練參數(shù)進(jìn)行訓(xùn)練,其中,F(xiàn)aster-RCNN的特征提取網(wǎng)絡(luò)分別采用ResNet50和ResNet101[17],并且均在訓(xùn)練收斂情況下進(jìn)行列表統(tǒng)計(jì)對(duì)比,各個(gè)模型的試驗(yàn)結(jié)果對(duì)比如表3所示。
表3 各個(gè)模型試驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results of the selected models
改進(jìn)的模型相比于原模型在查準(zhǔn)率降低了不到1%的前提下將查全率和平均精度分別提高了13.00%和13.03%,相比于YOLOXs在查準(zhǔn)率相當(dāng)?shù)那疤嵯拢槿屎推骄确謩e提高了14.28%和13.89%;Faster-RCNN的查全率和平均精度均不到45%,這主要是因?yàn)楦鶕?jù)COCO目標(biāo)檢測(cè)數(shù)據(jù)集的分類標(biāo)準(zhǔn),測(cè)試集中包含小目標(biāo)原木的圖片占比為30.36%,但小目標(biāo)原木數(shù)量占比為60.85%,這導(dǎo)致了當(dāng)模型對(duì)小目標(biāo)原木的檢測(cè)效果不好時(shí),模型的查全率和平均精度會(huì)大大降低,改進(jìn)后的模型漏檢數(shù)量比其他模型大大減少。
原YOLOv5s的網(wǎng)絡(luò)為283層,浮點(diǎn)運(yùn)算數(shù)(FLOPs)為16.4 G,平均每張圖片的檢測(cè)時(shí)間為10.10 ms,權(quán)重為13.7 MB。改進(jìn)的YOLOv5s的網(wǎng)絡(luò)為341層,浮點(diǎn)運(yùn)算數(shù)為19.5 G,平均每張圖片的檢測(cè)時(shí)間為11.89 ms,權(quán)重為14.4 MB,改進(jìn)的模型在網(wǎng)絡(luò)深度、權(quán)重和檢測(cè)時(shí)間上略有增加。Faster-RCNN-50和YOLOXs的權(quán)重分別為330.3和107.8 MB,改進(jìn)后的YOLOv5s分別為它們的4.4%和13.4%;同時(shí),改進(jìn)模型的檢測(cè)速度分別為Faster-RCNN-50和YOLOXs的4.04倍和1.78倍。因此,綜合模型的性能、權(quán)重和檢測(cè)速度,改進(jìn)的YOLOv5s模型更適用于原木端面檢測(cè)。
將目標(biāo)按照COCO數(shù)據(jù)集標(biāo)準(zhǔn)分成大、中、小3種尺寸進(jìn)行的對(duì)比試驗(yàn),結(jié)果如表4所示。在大目標(biāo)的檢測(cè)上,F(xiàn)aster-RCNN的查全率為100%,在所有模型中最高,但其查準(zhǔn)率最低;YOLOXs在所有模型中的查全率最低,只有98.21%;改進(jìn)的YOLOv5s查全率不變,查準(zhǔn)率相比于原YOLOv5s降低了0.58%,但仍高于Faster-RCNN;改進(jìn)前后的F1值均優(yōu)于其他模型。在中目標(biāo)的檢測(cè)上,改進(jìn)后的YOLOv5s查全率和平均精度最高,相比于原YOLOv5s分別提高了0.75%和0.93%,改進(jìn)前后的F1值相同且均優(yōu)于其他模型。在小目標(biāo)的檢測(cè)上,由于Faster-RCNN的特征融合網(wǎng)絡(luò)是單向信息流的FPN,導(dǎo)致Faster-RCNN對(duì)小目標(biāo)原木檢測(cè)效果較差,而原YOLOv5s和YOLOXs的特征融合網(wǎng)絡(luò)是具有雙向信息融合的路徑聚合網(wǎng)絡(luò),因此小目標(biāo)檢測(cè)效果比Faster-RCNN好。Faster-RCNN-50在小目標(biāo)的檢測(cè)上查全率和平均精度分別只有11.75% 和11.79%,即使將網(wǎng)絡(luò)的深度加深,F(xiàn)aster-RCNN-101對(duì)于小目標(biāo)的查全率和平均精度也僅有12.14%和12.74%。改進(jìn)后的模型由于添加了小目標(biāo)檢測(cè)層以及改進(jìn)了特征融合網(wǎng)絡(luò),對(duì)于小目標(biāo)原木的查全率和平均精度分別達(dá)到97.25%和96.86%,比原YOLOv5s分別提高了20.96%和21.13%;但是隨著目標(biāo)檢測(cè)數(shù)量的提高以及小目標(biāo)檢測(cè)層加入后導(dǎo)致信息丟失,模型的誤檢率也隨之提高,也使查準(zhǔn)率比原YOLOv5s降低了0.98%,改進(jìn)的模型F1值遠(yuǎn)遠(yuǎn)優(yōu)于其他模型。試驗(yàn)結(jié)果表明:改進(jìn)后的YOLOv5s在大、中目標(biāo)的檢測(cè)上,與原YOLOv5s總體上優(yōu)于其他網(wǎng)絡(luò);在小目標(biāo)的檢測(cè)上,改進(jìn)的模型在查準(zhǔn)率小幅下降的前提下,查全率、F1值和平均精度有大幅提高,且改進(jìn)后的平均精度在大、中、小目標(biāo)的檢測(cè)上基本均優(yōu)于其他模型,說明模型具有更強(qiáng)的魯棒性。
各個(gè)模型對(duì)密集原木的檢測(cè)效果見圖5。由圖5a、b可以看出,F(xiàn)aster-RCNN在密集的原木端面中僅能檢測(cè)出一些像素占比大、輪廓較為明顯的原木;由圖5d、e可以看出,YOLOXs和改進(jìn)前的YOLOv5s雖然相比于Faster-RCNN在檢測(cè)效果上有所提升,但是漏檢率依然較高,無法滿足實(shí)際生產(chǎn)需求;圖5f是改進(jìn)的YOLOv5s的檢測(cè)效果,相比于其他模型,能夠檢測(cè)出大量原木且查準(zhǔn)率較高,適合部署在實(shí)際應(yīng)用場(chǎng)景。
圖5 各個(gè)模型對(duì)密集原木的檢測(cè)效果Fig.5 The effect of each model on the detection of dense logs
1)本研究提出融合BiFPN和YOLOv5s的密集型原木端面檢測(cè)模型。通過對(duì)模型的特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)研究和改進(jìn),加入了小目標(biāo)檢測(cè)層,并將原模型的路徑聚合網(wǎng)絡(luò)替換為簡(jiǎn)化版的雙向加權(quán)特征金字塔網(wǎng)絡(luò),通過對(duì)比試驗(yàn),驗(yàn)證了改進(jìn)的模型更適用于實(shí)際加工、運(yùn)輸過程中的密集原木端面檢測(cè)。
2)為了驗(yàn)證簡(jiǎn)化版BiFPN的有效性,用改進(jìn)前后的模型以及只加入小目標(biāo)檢測(cè)層的網(wǎng)絡(luò)進(jìn)行消融試驗(yàn),按照COCO分類標(biāo)準(zhǔn)將原木端面測(cè)試集分成大、中、小3個(gè)尺度的目標(biāo)后,以調(diào)和均值F1、平均精度、查全率及查準(zhǔn)率為判斷依據(jù)。試驗(yàn)結(jié)果表明,融合BiFPN和YOLOv5s的網(wǎng)絡(luò)比只加入小目標(biāo)檢測(cè)層的網(wǎng)絡(luò)各方面性能指標(biāo)都有所提高。對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查準(zhǔn)率分別提高了0.21%,0.13%,0.13%及0.87%;對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查全率分別提高了2.18%,3.43%,0.13%及0.30%,對(duì)大目標(biāo)的查全率依然是接近100%;對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的AP30分別提高了1.97%,4.03%,0.93% 及0.09%;對(duì)所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的F1值分別提高了0.012,0.018,0.001及 0.006。試驗(yàn)證明了改進(jìn)后的網(wǎng)絡(luò)不僅對(duì)于密集型原木端面的檢測(cè)具有更強(qiáng)的魯棒性,在原木端面存在伐痕、污漬、發(fā)霉等復(fù)雜情況下也有良好的檢測(cè)結(jié)果。
3)用改進(jìn)前后的模型以及YOLOXs和Faster-RCNN進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)結(jié)果表明:改進(jìn)的YOLOv5s模型在所有目標(biāo)的查準(zhǔn)率、查全率、平均精度和調(diào)和均值分別為97.32%,97.68%,96.78%和0.975;相比于原模型在查準(zhǔn)率降低了不到1%的情況下,查全率和平均精度分別提高了13.00%和13.03%,調(diào)和均值提高了0.066,且性能遠(yuǎn)優(yōu)于其他對(duì)比模型。大目標(biāo)和中目標(biāo)檢測(cè)相比于原模型性能幾乎不變;小目標(biāo)的查全率和平均精度相比于原模型分別提高了20.96%和21.13%,調(diào)和均值提高了0.114。改進(jìn)的模型參數(shù)量為14.4 MB,雖略大于YOLOv5s網(wǎng)絡(luò),但相比Faster-RCNN-50的330.3 MB和YOLOXs的107.8 MB,權(quán)重也僅為4.4% 和13.4%;檢測(cè)速度分別為Faster-RCNN-50和YOLOX-s的4.04倍和1.78倍。因此,綜合模型的性能、權(quán)重和檢測(cè)速度,改進(jìn)的模型更適合應(yīng)用到原木端面檢測(cè)任務(wù)中。