基于改進(jìn)YOLOv5+DeepSort 的柑橘果實(shí)識(shí)別與計(jì)數(shù)研究*

2023-07-21 10:36莊昊龍周嘉灝林毓翰彭海深林宏宇

南方農(nóng)機(jī) 2023年15期

莊昊龍，周嘉灝，林毓翰，彭海深，林宏宇

（1.華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院、軟件學(xué)院，廣東廣州 510642；2.華南農(nóng)業(yè)大學(xué)電子工程學(xué)院（人工智能學(xué)院），廣東廣州 510642；3.華南農(nóng)業(yè)大學(xué)工程學(xué)院，廣東廣州 510642）

0 引言

社會(huì)的發(fā)展越來(lái)越趨向于智能化與自動(dòng)化，農(nóng)業(yè)機(jī)械化也成為當(dāng)前發(fā)展的主要趨勢(shì)，科學(xué)利用計(jì)算機(jī)視覺(jué)輔助技術(shù)來(lái)實(shí)現(xiàn)對(duì)農(nóng)作物的農(nóng)情檢測(cè)及精確識(shí)別，有助于更好地預(yù)測(cè)農(nóng)作物產(chǎn)量。柑橘作為我國(guó)南方的常見(jiàn)水果，年產(chǎn)量一直在穩(wěn)步上升。為實(shí)現(xiàn)對(duì)柑橘果實(shí)產(chǎn)量的精準(zhǔn)預(yù)測(cè)，研究柑橘果實(shí)的識(shí)別算法和計(jì)數(shù)算法就顯得尤為重要。

傳統(tǒng)的水果檢測(cè)識(shí)別技術(shù)通常是對(duì)水果的紋理、顏色、形狀等外表特征進(jìn)行提取和識(shí)別[1]，這些方法通常具有一定的環(huán)境適應(yīng)缺陷性和主觀性。而深度學(xué)習(xí)算法具有較好的適應(yīng)性及較高的識(shí)別率，正在不斷成為主要的檢測(cè)技術(shù)。許多研究者陸續(xù)研究出了如R-CNN算法[2]、Faster R-CNN算法[3]、SSD算法[4]、YOLO 系列算法[5]等。在計(jì)數(shù)方面，DeepSort 算法[6]是目前較為成熟的目標(biāo)計(jì)數(shù)算法，其相比于傳統(tǒng)的Sort 目標(biāo)計(jì)數(shù)算法[7]，具有提升目標(biāo)被環(huán)境等其他因素遮擋情況下的計(jì)數(shù)效果的優(yōu)點(diǎn)[8]。因此，項(xiàng)目組采用YOLO系列的YOLOv5算法作為檢測(cè)器，并在其中加入了SE 注意力機(jī)制對(duì)其進(jìn)行改進(jìn)，使其對(duì)柑橘果實(shí)具有更好的識(shí)別效果。同時(shí)，再結(jié)合DeepSort算法就可對(duì)柑橘果實(shí)進(jìn)行計(jì)數(shù)，結(jié)果顯示，其平均識(shí)別準(zhǔn)確率為93.712%、平均多目標(biāo)跟蹤準(zhǔn)確率為88.465%。

1 YOLOv5算法

1.1 YOLOv5算法原理

YOLOv5 是目前主流的一階段目標(biāo)檢測(cè)算法，按模型量級(jí)可分成YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。其中，YOLOv5x 模型的量級(jí)最大，所需要卷積的網(wǎng)絡(luò)深度最大，速度最慢?；趯?shí)際場(chǎng)景需求及配置，最終采用YOLOv5s 模型來(lái)對(duì)柑橘果實(shí)進(jìn)行識(shí)別。YOLOv5s 主要由輸入（Input）、主干（Backbone）、頸部（Neck）和輸出（Output）四個(gè)部分組成，其結(jié)構(gòu)框圖如圖1 所示。

圖1 YOLOv5s結(jié)構(gòu)框圖

1）對(duì)于輸入（Input）部分，其主要是將圖片統(tǒng)一調(diào)整為640×640 三通道格式，并將調(diào)整后的圖片送入主干（Backbone）部分中。

2）對(duì)于主干（Backbone）部分，其主要包括Focus結(jié)構(gòu)、Conv 結(jié)構(gòu)、CSP 結(jié)構(gòu)、SPP 結(jié)構(gòu)和Res 結(jié)構(gòu)。Focus 結(jié)構(gòu)主要對(duì)圖片進(jìn)行了切片操作，從而將通道數(shù)擴(kuò)展了4 倍，其可在保證圖片信息不丟失的同時(shí)提高后續(xù)的計(jì)算速度。Conv 結(jié)構(gòu)主要對(duì)圖片進(jìn)行卷積的操作，并結(jié)合非線性的激活函數(shù)將激活的特征信息引入到更深的網(wǎng)絡(luò)中，從而提高網(wǎng)絡(luò)的表達(dá)能力。CSP 結(jié)構(gòu)主要對(duì)圖片進(jìn)行殘差卷積的操作，其可以避免在網(wǎng)絡(luò)加深時(shí)出現(xiàn)梯度消失的現(xiàn)象，并且也可以更好地提取目標(biāo)的特征信息。SPP 結(jié)構(gòu)主要通過(guò)四個(gè)池化核來(lái)分別進(jìn)行池化處理，最后將池化結(jié)果進(jìn)行相加以實(shí)現(xiàn)多尺度融合，從而可得到更多尺度的特征信息。而Res 結(jié)構(gòu)主要包括Conv 結(jié)構(gòu)和CSP 結(jié)構(gòu)兩個(gè)部分，從而實(shí)現(xiàn)多次卷積操作。

3）對(duì)于頸部（Neck）部分，其主要包括Conv 結(jié)構(gòu)、Up_S 結(jié)構(gòu)、Down_S 結(jié)構(gòu)和Con_CSP 結(jié)構(gòu)。Up_S 結(jié)構(gòu)主要實(shí)現(xiàn)上采樣的操作，Down_S 結(jié)構(gòu)主要實(shí)現(xiàn)下采樣的操作，Con_CSP 結(jié)構(gòu)主要實(shí)現(xiàn)相加與殘差卷積相結(jié)合的操作。頸部（Neck）部分整體可看作是FPN+PAN 結(jié)構(gòu)，其可更為精準(zhǔn)地傳遞目標(biāo)的特征信息。在FPN 結(jié)構(gòu)中，其主要實(shí)現(xiàn)將特征信息從高維度向低維度傳遞；在PAN 結(jié)構(gòu)中，其主要實(shí)現(xiàn)將特征信息從低維度向高維度傳遞。所以結(jié)合FPN 結(jié)構(gòu)與PAN 結(jié)構(gòu)就可更清楚地定位大目標(biāo)與小目標(biāo)的相關(guān)特征[9]。

4）對(duì)于輸出（Output）部分，其主要分為3 個(gè)Head 結(jié)構(gòu)。Head 結(jié)構(gòu)主要通過(guò)損失函數(shù)與非極大抑制的計(jì)數(shù)，從而在圖片中輸出各目標(biāo)的類(lèi)別及其置信度得分，同時(shí)輸出各目標(biāo)預(yù)測(cè)邊框的對(duì)應(yīng)位置。

1.2 YOLOv5算法的改進(jìn)

1.2.1 SE注意力機(jī)制介紹

SE 注意力機(jī)制是一種輕量級(jí)的注意力檢測(cè)機(jī)制，其主要通過(guò)在原特征網(wǎng)絡(luò)中加入SE 模塊從而使模型更聚焦于重要的特征信息，即主要為提高模型的專(zhuān)注度，從而起到特征信息加強(qiáng)的作用[10]。

SE 注意力機(jī)制主要分為壓縮（Squeeze）、激勵(lì)（Excitation）和估算（Scale）三個(gè)步驟，如圖2 所示。壓縮（Squeeze）步驟主要通過(guò)全局平均池化對(duì)特征圖的高度信息和寬度信息進(jìn)行壓縮，從而使各通道數(shù)據(jù)凝集為一個(gè)數(shù)值；激勵(lì)（Excitation）步驟主要通過(guò)FC全連接層來(lái)判斷每個(gè)通道的重要程度，并給每個(gè)通道賦予其對(duì)應(yīng)的權(quán)重；估算（Scale）步驟則通過(guò)將通道的權(quán)重與原特征圖相乘，從而在不改變維度的情況下凸顯更多的特征信息。

圖2 SE注意力機(jī)制

1.2.2 YOLOv5主干部分改進(jìn)

在YOLOv5 算法中，為了捕獲到更多的特征信息，本研究通過(guò)將S E 注意力機(jī)制添加到主干（Backbone）部分最后的CSP 層與SPP 層的中間，如圖3 所示，從而在主干部分即可獲得更多重要的特征并傳入后續(xù)的網(wǎng)絡(luò)中進(jìn)行進(jìn)一步的處理。

圖3 主干部分改進(jìn)

2 DeepSort算法

2.1 DeepSort算法原理

D e e p S o r t 算法是主要用于進(jìn)行多目標(biāo)跟蹤（Multiple Object Tracking, MOT）的算法。DeepSort算法是Sort 算法的改進(jìn)版本，即在Sort 算法的基礎(chǔ)上增加了級(jí)聯(lián)匹配和狀態(tài)的確定，從而可以實(shí)現(xiàn)對(duì)目標(biāo)進(jìn)行比較穩(wěn)定的追蹤。DeepSort 算法核心部分為卡爾曼濾波、匈牙利算法[11]，卡爾曼濾波的主要作用是預(yù)測(cè)下一幀時(shí)目標(biāo)框所在的新位置，匈牙利算法的主要作用是實(shí)現(xiàn)將卡爾曼濾波得到的新目標(biāo)框與目標(biāo)檢測(cè)得到的新預(yù)測(cè)框進(jìn)行級(jí)聯(lián)匹配和IOU匹配，從而實(shí)現(xiàn)對(duì)每個(gè)目標(biāo)的追蹤，并且每個(gè)目標(biāo)都會(huì)有一個(gè)對(duì)應(yīng)的ID編號(hào)。

2.2 DeepSort算法結(jié)合改進(jìn)YOLOv5算法

本研究采用DeepSort 算法結(jié)合改進(jìn)YOLOv5 算法的方式，主要實(shí)現(xiàn)改進(jìn)YOLOv5 算法對(duì)目標(biāo)進(jìn)行檢測(cè)，而DeepSort 算法則對(duì)改進(jìn)YOLOv5 算法檢測(cè)到的結(jié)果進(jìn)行追蹤及計(jì)數(shù)，具體步驟如下。

1）把視頻按幀數(shù)進(jìn)行分解后，將每一幀的圖像送入YOLOv5 算法中對(duì)所需要檢測(cè)的目標(biāo)進(jìn)行識(shí)別并輸出其對(duì)應(yīng)預(yù)測(cè)框的信息。

2）將該預(yù)測(cè)框的信息送入DeepSort 算法中以實(shí)現(xiàn)在原圖像中將每個(gè)目標(biāo)裁剪出來(lái)，從而提取其表觀特征和運(yùn)動(dòng)特征。

3）將相鄰兩幀的目標(biāo)進(jìn)行匹配，從而給每個(gè)目標(biāo)一個(gè)單獨(dú)的ID編號(hào)。

3 數(shù)據(jù)集情況

本研究所采用的數(shù)據(jù)集是在柑橘種植園從多場(chǎng)景拍攝的圖片，共有7 272 張圖片，其可真實(shí)反映柑橘果實(shí)存在的大小不一致及部分被樹(shù)葉遮擋的情況，同時(shí)也有涉及在不同光線下對(duì)柑橘果實(shí)進(jìn)行拍攝的相關(guān)圖片。將該數(shù)據(jù)集進(jìn)行劃分，選取5 926 張圖片作為訓(xùn)練集，738 張圖片作為驗(yàn)證集，608 張圖片作為測(cè)試集。

同時(shí)，選用LabelImg 軟件對(duì)該數(shù)據(jù)集進(jìn)行標(biāo)注，設(shè)定柑橘果實(shí)的標(biāo)簽名字為“Orange”，設(shè)定標(biāo)簽的格式為YOLO 格式，從而在標(biāo)注后可直接生成后綴為.txt的標(biāo)注文件。

4 實(shí)驗(yàn)結(jié)果分析

4.1 實(shí)驗(yàn)相關(guān)環(huán)境

實(shí)驗(yàn)設(shè)備搭載了NVIDIA GeForce RTX 3060-6G顯卡以進(jìn)行GPU 加速，并主要利用Anaconda 創(chuàng)建Python 版本為3.7.13 的虛擬環(huán)境，在激活環(huán)境后安裝CUDA 11.1.1 版本、cuDNN v8.1.1 版本和torch 1.7.1版本，同時(shí)進(jìn)行相關(guān)依賴(lài)庫(kù)的安裝。

4.2 評(píng)價(jià)指標(biāo)

在實(shí)驗(yàn)中選用精確度（P r e c i s i o n）、召回率（Recall）和平均識(shí)別準(zhǔn)確率（Average Precision, AP）作為YOLOv5 的評(píng)價(jià)指標(biāo)。選用多目標(biāo)跟蹤準(zhǔn)確率（Multiple Object Tracking Accuracy, MOTA）作為DeepSort的評(píng)價(jià)指標(biāo)。

精確度（Precision）和召回率（Recall）的公式可表示為：

其中，TP表示被正確檢測(cè)出來(lái)的樣本數(shù)，F(xiàn)P表示被錯(cuò)誤檢測(cè)出來(lái)的樣本數(shù)，F(xiàn)N表示沒(méi)有被檢測(cè)出來(lái)的樣本數(shù)。同時(shí)結(jié)合只有柑橘果實(shí)一種類(lèi)別，所以平均識(shí)別準(zhǔn)確率（AP）和多目標(biāo)跟蹤準(zhǔn)確率（MOTA）的公式可表示為：

其中，IDSW表示已計(jì)數(shù)的目標(biāo)的ID 發(fā)生變化的個(gè)數(shù)，n表示總幀數(shù)，i表示當(dāng)前的幀數(shù)。

4.3 實(shí)驗(yàn)分析

本次實(shí)驗(yàn)中，統(tǒng)一將訓(xùn)練YOLOv5 模型時(shí)輸入的圖片大小設(shè)置為640×640，初始學(xué)習(xí)率設(shè)置為0.01，在通過(guò)300 次迭代后，選取平均識(shí)別準(zhǔn)確率最佳的權(quán)重文件作為最優(yōu)權(quán)重，最終得到柑橘果實(shí)的平均識(shí)別準(zhǔn)確率為93.712%。同時(shí)，通過(guò)測(cè)試集對(duì)比改進(jìn)前后YOLOv5 算法的檢測(cè)效果，可得到在加入SE 注意力機(jī)制后可以更好地檢測(cè)出較隱蔽或重疊率較高的柑橘果實(shí)，如圖4 和圖5 所示，說(shuō)明該改進(jìn)后的算法可較適應(yīng)在真實(shí)柑橘種植園中對(duì)柑橘果實(shí)進(jìn)行識(shí)別。

圖4 改進(jìn)前檢測(cè)效果圖

圖5 改進(jìn)后檢測(cè)效果圖

將改進(jìn)前后YOLOv5 算法訓(xùn)練后得到的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比，得到的結(jié)果如表1 所示。

表1 改進(jìn)前后YOLOv5評(píng)價(jià)指標(biāo)對(duì)比

由表1 可知，改進(jìn)后的YOLOv5 算法相比改進(jìn)前的平均識(shí)別準(zhǔn)確率提升了1.354 個(gè)百分點(diǎn)，并且精確度和召回率也有一定程度的提升，說(shuō)明改進(jìn)后的YOLOv5算法對(duì)柑橘果實(shí)的識(shí)別效果更好。

同時(shí)，將該改進(jìn)后的YOLOv5 算法與CenterNet算法、EfficientDet 算法、SSD 算法、YOLOv4 算法、YOLOX 算法進(jìn)行對(duì)比，得到其平均識(shí)別準(zhǔn)確率的對(duì)比結(jié)果，如圖6所示。

圖6 不同算法對(duì)柑橘果實(shí)的平均識(shí)別準(zhǔn)確率

從圖6 中可看出，改進(jìn)后的YOLOv5 算法相比其他幾種算法在對(duì)柑橘果實(shí)的平均識(shí)別準(zhǔn)確率上有較好的表現(xiàn)，可體現(xiàn)出該改進(jìn)后的YOLOv5 算法可較好地運(yùn)用于對(duì)柑橘果實(shí)的識(shí)別。

將該改進(jìn)后的YOLOv5 算法檢測(cè)出的柑橘果實(shí)信息送入DeepSort 算法中，即可實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù)，如圖7所示。

圖7 計(jì)數(shù)效果圖

從圖7 中可看出，DeepSort 算法可較好地實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù)，其可在圖像中顯示出當(dāng)前幀每個(gè)柑橘果實(shí)對(duì)應(yīng)的ID 號(hào)，從而最終可得出在整段視頻中柑橘的數(shù)量。為研究該算法的穩(wěn)定性，在10 段視頻中分別通過(guò)DeepSort 算法對(duì)柑橘果實(shí)進(jìn)行計(jì)數(shù)，并將得到的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比，結(jié)果如表2 所示。

表2 DeepSort評(píng)價(jià)指標(biāo)對(duì)比

從表2 中可計(jì)算得，在10 段視頻中的平均多目標(biāo)跟蹤準(zhǔn)確率為88.465%，說(shuō)明DeepSort 算法對(duì)柑橘果實(shí)的計(jì)數(shù)效果較好。

5 總結(jié)

通過(guò)采用改進(jìn)YOLOv5 算法和DeepSort 算法相結(jié)合的方式，實(shí)現(xiàn)了對(duì)柑橘果實(shí)的識(shí)別及計(jì)數(shù)。在柑橘果實(shí)識(shí)別部分，主要基于YOLOv5 算法，通過(guò)在主干部分加入SE 注意力機(jī)制以實(shí)現(xiàn)對(duì)算法的改進(jìn)，從而提高對(duì)柑橘果實(shí)的識(shí)別效果。在柑橘果實(shí)計(jì)數(shù)部分，主要采用DeepSort 算法給予每個(gè)柑橘果實(shí)單獨(dú)的ID 編號(hào)以實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù)。最終得到改進(jìn)后的YOLOv5 算法對(duì)柑橘果實(shí)的平均識(shí)別準(zhǔn)確率為93.712%，相比改進(jìn)前提升了1.354 個(gè)百分點(diǎn)，說(shuō)明改進(jìn)后的算法對(duì)柑橘果實(shí)的識(shí)別效果較好。同時(shí)，再結(jié)合DeepSort 算法即可得到對(duì)柑橘果實(shí)的平均多目標(biāo)跟蹤準(zhǔn)確率為88.465%，說(shuō)明其可較準(zhǔn)確地實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡