莊昊龍 ,周嘉灝 ,林毓翰 ,彭海深 ,林宏宇
(1.華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院、軟件學(xué)院,廣東 廣州 510642;2.華南農(nóng)業(yè)大學(xué)電子工程學(xué)院(人工智能學(xué)院),廣東 廣州 510642;3.華南農(nóng)業(yè)大學(xué)工程學(xué)院,廣東 廣州 510642)
社會(huì)的發(fā)展越來(lái)越趨向于智能化與自動(dòng)化,農(nóng)業(yè)機(jī)械化也成為當(dāng)前發(fā)展的主要趨勢(shì),科學(xué)利用計(jì)算機(jī)視覺(jué)輔助技術(shù)來(lái)實(shí)現(xiàn)對(duì)農(nóng)作物的農(nóng)情檢測(cè)及精確識(shí)別,有助于更好地預(yù)測(cè)農(nóng)作物產(chǎn)量。柑橘作為我國(guó)南方的常見(jiàn)水果,年產(chǎn)量一直在穩(wěn)步上升。為實(shí)現(xiàn)對(duì)柑橘果實(shí)產(chǎn)量的精準(zhǔn)預(yù)測(cè),研究柑橘果實(shí)的識(shí)別算法和計(jì)數(shù)算法就顯得尤為重要。
傳統(tǒng)的水果檢測(cè)識(shí)別技術(shù)通常是對(duì)水果的紋理、顏色、形狀等外表特征進(jìn)行提取和識(shí)別[1],這些方法通常具有一定的環(huán)境適應(yīng)缺陷性和主觀性。而深度學(xué)習(xí)算法具有較好的適應(yīng)性及較高的識(shí)別率,正在不斷成為主要的檢測(cè)技術(shù)。許多研究者陸續(xù)研究出了如R-CNN算法[2]、Faster R-CNN算法[3]、SSD算法[4]、YOLO 系列算法[5]等。在計(jì)數(shù)方面,DeepSort 算法[6]是目前較為成熟的目標(biāo)計(jì)數(shù)算法,其相比于傳統(tǒng)的Sort 目標(biāo)計(jì)數(shù)算法[7],具有提升目標(biāo)被環(huán)境等其他因素遮擋情況下的計(jì)數(shù)效果的優(yōu)點(diǎn)[8]。因此,項(xiàng)目組采用YOLO系列的YOLOv5算法作為檢測(cè)器,并在其中加入了SE 注意力機(jī)制對(duì)其進(jìn)行改進(jìn),使其對(duì)柑橘果實(shí)具有更好的識(shí)別效果。同時(shí),再結(jié)合DeepSort算法就可對(duì)柑橘果實(shí)進(jìn)行計(jì)數(shù),結(jié)果顯示,其平均識(shí)別準(zhǔn)確率為93.712%、平均多目標(biāo)跟蹤準(zhǔn)確率為88.465%。
YOLOv5 是目前主流的一階段目標(biāo)檢測(cè)算法,按模型量級(jí)可分成YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。其中,YOLOv5x 模型的量級(jí)最大,所需要卷積的網(wǎng)絡(luò)深度最大,速度最慢?;趯?shí)際場(chǎng)景需求及配置,最終采用YOLOv5s 模型來(lái)對(duì)柑橘果實(shí)進(jìn)行識(shí)別。YOLOv5s 主要由輸入(Input)、主干(Backbone)、頸部(Neck)和輸出(Output)四個(gè)部分組成,其結(jié)構(gòu)框圖如圖1 所示。
圖1 YOLOv5s結(jié)構(gòu)框圖
1)對(duì)于輸入(Input)部分,其主要是將圖片統(tǒng)一調(diào)整為640×640 三通道格式,并將調(diào)整后的圖片送入主干(Backbone)部分中。
2)對(duì)于主干(Backbone)部分,其主要包括Focus結(jié)構(gòu)、Conv 結(jié)構(gòu)、CSP 結(jié)構(gòu)、SPP 結(jié)構(gòu)和Res 結(jié)構(gòu)。Focus 結(jié)構(gòu)主要對(duì)圖片進(jìn)行了切片操作,從而將通道數(shù)擴(kuò)展了4 倍,其可在保證圖片信息不丟失的同時(shí)提高后續(xù)的計(jì)算速度。Conv 結(jié)構(gòu)主要對(duì)圖片進(jìn)行卷積的操作,并結(jié)合非線性的激活函數(shù)將激活的特征信息引入到更深的網(wǎng)絡(luò)中,從而提高網(wǎng)絡(luò)的表達(dá)能力。CSP 結(jié)構(gòu)主要對(duì)圖片進(jìn)行殘差卷積的操作,其可以避免在網(wǎng)絡(luò)加深時(shí)出現(xiàn)梯度消失的現(xiàn)象,并且也可以更好地提取目標(biāo)的特征信息。SPP 結(jié)構(gòu)主要通過(guò)四個(gè)池化核來(lái)分別進(jìn)行池化處理,最后將池化結(jié)果進(jìn)行相加以實(shí)現(xiàn)多尺度融合,從而可得到更多尺度的特征信息。而Res 結(jié)構(gòu)主要包括Conv 結(jié)構(gòu)和CSP 結(jié)構(gòu)兩個(gè)部分,從而實(shí)現(xiàn)多次卷積操作。
3)對(duì)于頸部(Neck)部分,其主要包括Conv 結(jié)構(gòu)、Up_S 結(jié)構(gòu)、Down_S 結(jié)構(gòu)和Con_CSP 結(jié)構(gòu)。Up_S 結(jié)構(gòu)主要實(shí)現(xiàn)上采樣的操作,Down_S 結(jié)構(gòu)主要實(shí)現(xiàn)下采樣的操作,Con_CSP 結(jié)構(gòu)主要實(shí)現(xiàn)相加與殘差卷積相結(jié)合的操作。頸部(Neck)部分整體可看作是FPN+PAN 結(jié)構(gòu),其可更為精準(zhǔn)地傳遞目標(biāo)的特征信息。在FPN 結(jié)構(gòu)中,其主要實(shí)現(xiàn)將特征信息從高維度向低維度傳遞;在PAN 結(jié)構(gòu)中,其主要實(shí)現(xiàn)將特征信息從低維度向高維度傳遞。所以結(jié)合FPN 結(jié)構(gòu)與PAN 結(jié)構(gòu)就可更清楚地定位大目標(biāo)與小目標(biāo)的相關(guān)特征[9]。
4)對(duì)于輸出(Output)部分,其主要分為3 個(gè)Head 結(jié)構(gòu)。Head 結(jié)構(gòu)主要通過(guò)損失函數(shù)與非極大抑制的計(jì)數(shù),從而在圖片中輸出各目標(biāo)的類(lèi)別及其置信度得分,同時(shí)輸出各目標(biāo)預(yù)測(cè)邊框的對(duì)應(yīng)位置。
1.2.1 SE注意力機(jī)制介紹
SE 注意力機(jī)制是一種輕量級(jí)的注意力檢測(cè)機(jī)制,其主要通過(guò)在原特征網(wǎng)絡(luò)中加入SE 模塊從而使模型更聚焦于重要的特征信息,即主要為提高模型的專(zhuān)注度,從而起到特征信息加強(qiáng)的作用[10]。
SE 注意力機(jī)制主要分為壓縮(Squeeze)、激勵(lì)(Excitation)和估算(Scale)三個(gè)步驟,如圖2 所示。壓縮(Squeeze)步驟主要通過(guò)全局平均池化對(duì)特征圖的高度信息和寬度信息進(jìn)行壓縮,從而使各通道數(shù)據(jù)凝集為一個(gè)數(shù)值;激勵(lì)(Excitation)步驟主要通過(guò)FC全連接層來(lái)判斷每個(gè)通道的重要程度,并給每個(gè)通道賦予其對(duì)應(yīng)的權(quán)重;估算(Scale)步驟則通過(guò)將通道的權(quán)重與原特征圖相乘,從而在不改變維度的情況下凸顯更多的特征信息。
圖2 SE注意力機(jī)制
1.2.2 YOLOv5主干部分改進(jìn)
在YOLOv5 算法中,為了捕獲到更多的特征信息,本研究通過(guò)將S E 注意力機(jī)制添加到主干(Backbone)部分最后的CSP 層與SPP 層的中間,如圖3 所示,從而在主干部分即可獲得更多重要的特征并傳入后續(xù)的網(wǎng)絡(luò)中進(jìn)行進(jìn)一步的處理。
圖3 主干部分改進(jìn)
D e e p S o r t 算法是主要用于進(jìn)行多目標(biāo)跟蹤(Multiple Object Tracking, MOT)的算法。DeepSort算法是Sort 算法的改進(jìn)版本,即在Sort 算法的基礎(chǔ)上增加了級(jí)聯(lián)匹配和狀態(tài)的確定,從而可以實(shí)現(xiàn)對(duì)目標(biāo)進(jìn)行比較穩(wěn)定的追蹤。DeepSort 算法核心部分為卡爾曼濾波、匈牙利算法[11],卡爾曼濾波的主要作用是預(yù)測(cè)下一幀時(shí)目標(biāo)框所在的新位置,匈牙利算法的主要作用是實(shí)現(xiàn)將卡爾曼濾波得到的新目標(biāo)框與目標(biāo)檢測(cè)得到的新預(yù)測(cè)框進(jìn)行級(jí)聯(lián)匹配和IOU匹配,從而實(shí)現(xiàn)對(duì)每個(gè)目標(biāo)的追蹤,并且每個(gè)目標(biāo)都會(huì)有一個(gè)對(duì)應(yīng)的ID編號(hào)。
本研究采用DeepSort 算法結(jié)合改進(jìn)YOLOv5 算法的方式,主要實(shí)現(xiàn)改進(jìn)YOLOv5 算法對(duì)目標(biāo)進(jìn)行檢測(cè),而DeepSort 算法則對(duì)改進(jìn)YOLOv5 算法檢測(cè)到的結(jié)果進(jìn)行追蹤及計(jì)數(shù),具體步驟如下。
1)把視頻按幀數(shù)進(jìn)行分解后,將每一幀的圖像送入YOLOv5 算法中對(duì)所需要檢測(cè)的目標(biāo)進(jìn)行識(shí)別并輸出其對(duì)應(yīng)預(yù)測(cè)框的信息。
2)將該預(yù)測(cè)框的信息送入DeepSort 算法中以實(shí)現(xiàn)在原圖像中將每個(gè)目標(biāo)裁剪出來(lái),從而提取其表觀特征和運(yùn)動(dòng)特征。
3)將相鄰兩幀的目標(biāo)進(jìn)行匹配,從而給每個(gè)目標(biāo)一個(gè)單獨(dú)的ID編號(hào)。
本研究所采用的數(shù)據(jù)集是在柑橘種植園從多場(chǎng)景拍攝的圖片,共有7 272 張圖片,其可真實(shí)反映柑橘果實(shí)存在的大小不一致及部分被樹(shù)葉遮擋的情況,同時(shí)也有涉及在不同光線下對(duì)柑橘果實(shí)進(jìn)行拍攝的相關(guān)圖片。將該數(shù)據(jù)集進(jìn)行劃分,選取5 926 張圖片作為訓(xùn)練集,738 張圖片作為驗(yàn)證集,608 張圖片作為測(cè)試集。
同時(shí),選用LabelImg 軟件對(duì)該數(shù)據(jù)集進(jìn)行標(biāo)注,設(shè)定柑橘果實(shí)的標(biāo)簽名字為“Orange”,設(shè)定標(biāo)簽的格式為YOLO 格式,從而在標(biāo)注后可直接生成后綴為.txt的標(biāo)注文件。
實(shí)驗(yàn)設(shè)備搭載了NVIDIA GeForce RTX 3060-6G顯卡以進(jìn)行GPU 加速,并主要利用Anaconda 創(chuàng)建Python 版本為3.7.13 的虛擬環(huán)境,在激活環(huán)境后安裝CUDA 11.1.1 版本、cuDNN v8.1.1 版本和torch 1.7.1版本,同時(shí)進(jìn)行相關(guān)依賴(lài)庫(kù)的安裝。
在實(shí)驗(yàn)中選用精確度(P r e c i s i o n)、召回率(Recall)和平均識(shí)別準(zhǔn)確率(Average Precision, AP)作為YOLOv5 的評(píng)價(jià)指標(biāo)。選用多目標(biāo)跟蹤準(zhǔn)確率(Multiple Object Tracking Accuracy, MOTA)作為DeepSort的評(píng)價(jià)指標(biāo)。
精確度(Precision)和召回率(Recall)的公式可表示為:
其中,TP表示被正確檢測(cè)出來(lái)的樣本數(shù),F(xiàn)P表示被錯(cuò)誤檢測(cè)出來(lái)的樣本數(shù),F(xiàn)N表示沒(méi)有被檢測(cè)出來(lái)的樣本數(shù)。同時(shí)結(jié)合只有柑橘果實(shí)一種類(lèi)別,所以平均識(shí)別準(zhǔn)確率(AP)和多目標(biāo)跟蹤準(zhǔn)確率(MOTA)的公式可表示為:
其中,IDSW表示已計(jì)數(shù)的目標(biāo)的ID 發(fā)生變化的個(gè)數(shù),n表示總幀數(shù),i表示當(dāng)前的幀數(shù)。
本次實(shí)驗(yàn)中,統(tǒng)一將訓(xùn)練YOLOv5 模型時(shí)輸入的圖片大小設(shè)置為640×640,初始學(xué)習(xí)率設(shè)置為0.01,在通過(guò)300 次迭代后,選取平均識(shí)別準(zhǔn)確率最佳的權(quán)重文件作為最優(yōu)權(quán)重,最終得到柑橘果實(shí)的平均識(shí)別準(zhǔn)確率為93.712%。同時(shí),通過(guò)測(cè)試集對(duì)比改進(jìn)前后YOLOv5 算法的檢測(cè)效果,可得到在加入SE 注意力機(jī)制后可以更好地檢測(cè)出較隱蔽或重疊率較高的柑橘果實(shí),如圖4 和圖5 所示,說(shuō)明該改進(jìn)后的算法可較適應(yīng)在真實(shí)柑橘種植園中對(duì)柑橘果實(shí)進(jìn)行識(shí)別。
圖4 改進(jìn)前檢測(cè)效果圖
圖5 改進(jìn)后檢測(cè)效果圖
將改進(jìn)前后YOLOv5 算法訓(xùn)練后得到的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,得到的結(jié)果如表1 所示。
表1 改進(jìn)前后YOLOv5評(píng)價(jià)指標(biāo)對(duì)比
由表1 可知,改進(jìn)后的YOLOv5 算法相比改進(jìn)前的平均識(shí)別準(zhǔn)確率提升了1.354 個(gè)百分點(diǎn),并且精確度和召回率也有一定程度的提升,說(shuō)明改進(jìn)后的YOLOv5算法對(duì)柑橘果實(shí)的識(shí)別效果更好。
同時(shí),將該改進(jìn)后的YOLOv5 算法與CenterNet算法、EfficientDet 算法、SSD 算法、YOLOv4 算法、YOLOX 算法進(jìn)行對(duì)比,得到其平均識(shí)別準(zhǔn)確率的對(duì)比結(jié)果,如圖6所示。
圖6 不同算法對(duì)柑橘果實(shí)的平均識(shí)別準(zhǔn)確率
從圖6 中可看出,改進(jìn)后的YOLOv5 算法相比其他幾種算法在對(duì)柑橘果實(shí)的平均識(shí)別準(zhǔn)確率上有較好的表現(xiàn),可體現(xiàn)出該改進(jìn)后的YOLOv5 算法可較好地運(yùn)用于對(duì)柑橘果實(shí)的識(shí)別。
將該改進(jìn)后的YOLOv5 算法檢測(cè)出的柑橘果實(shí)信息送入DeepSort 算法中,即可實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù),如圖7所示。
圖7 計(jì)數(shù)效果圖
從圖7 中可看出,DeepSort 算法可較好地實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù),其可在圖像中顯示出當(dāng)前幀每個(gè)柑橘果實(shí)對(duì)應(yīng)的ID 號(hào),從而最終可得出在整段視頻中柑橘的數(shù)量。為研究該算法的穩(wěn)定性,在10 段視頻中分別通過(guò)DeepSort 算法對(duì)柑橘果實(shí)進(jìn)行計(jì)數(shù),并將得到的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,結(jié)果如表2 所示。
表2 DeepSort評(píng)價(jià)指標(biāo)對(duì)比
從表2 中可計(jì)算得,在10 段視頻中的平均多目標(biāo)跟蹤準(zhǔn)確率為88.465%,說(shuō)明DeepSort 算法對(duì)柑橘果實(shí)的計(jì)數(shù)效果較好。
通過(guò)采用改進(jìn)YOLOv5 算法和DeepSort 算法相結(jié)合的方式,實(shí)現(xiàn)了對(duì)柑橘果實(shí)的識(shí)別及計(jì)數(shù)。在柑橘果實(shí)識(shí)別部分,主要基于YOLOv5 算法,通過(guò)在主干部分加入SE 注意力機(jī)制以實(shí)現(xiàn)對(duì)算法的改進(jìn),從而提高對(duì)柑橘果實(shí)的識(shí)別效果。在柑橘果實(shí)計(jì)數(shù)部分,主要采用DeepSort 算法給予每個(gè)柑橘果實(shí)單獨(dú)的ID 編號(hào)以實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù)。最終得到改進(jìn)后的YOLOv5 算法對(duì)柑橘果實(shí)的平均識(shí)別準(zhǔn)確率為93.712%,相比改進(jìn)前提升了1.354 個(gè)百分點(diǎn),說(shuō)明改進(jìn)后的算法對(duì)柑橘果實(shí)的識(shí)別效果較好。同時(shí),再結(jié)合DeepSort 算法即可得到對(duì)柑橘果實(shí)的平均多目標(biāo)跟蹤準(zhǔn)確率為88.465%,說(shuō)明其可較準(zhǔn)確地實(shí)現(xiàn)對(duì)柑橘果實(shí)的計(jì)數(shù)。