摘 要:針對玉米雄穗檢測中速度較慢的問題,提出一種基于YOLOv5s 改進的輕量化快速檢測算法———PSOS-YOLOv5s。所提算法在主干網(wǎng)絡中采用輕量級PP-LCNet 替換CSPDarknet53,采用2 種不同的深度可分離卷積與注意力機制的組合來構(gòu)成基本塊,降低模型復雜度并加快檢測速度;在預測部分采用SimOTA 標簽匹配策略替換YOLOv5s 中的標簽匹配策略,采用中心先驗思想獲得精準的先驗知識,提出動態(tài)k 策略過濾冗余標簽,提高模型對正樣本的快速選取能力;在預測部分采用SIOULoss 替換GIOU Loss,引入角度損失因子來降低回歸自由度、加快收斂速度、節(jié)省訓練時間,重新定義懲罰指標,提高檢測精度。實驗結(jié)果表明,在玉米雄穗數(shù)據(jù)集中,提出的改進算法相比于YOLOv5s,模型參數(shù)量降低52. 86% ,模型的檢測精度提升0. 6% ,模型的檢測速度提升65. 5% 。改進后的算法提升效果明顯,可以滿足大規(guī)模玉米雄穗快速檢測的要求。
關(guān)鍵詞:玉米雄穗檢測;輕量化網(wǎng)絡;標簽匹配策略;損失函數(shù);YOLOv5
中圖分類號:TP183 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)06-1446-08
0 引言
玉米是雌雄同株的作物,可以進行自花授粉,但是自花授粉不利于優(yōu)良種子的選育,因此,保證玉米的異花授粉,對育種以及產(chǎn)量提升有重要意義[1-3]。在異花授粉過程中,需要對雄穗進行去除,傳統(tǒng)方法主要依靠人工識別去除,費時費力。現(xiàn)代農(nóng)業(yè)對大規(guī)模、高通量分析的需求使得人工無法處理此類任務。計算機視覺技術(shù)在農(nóng)作物識別方面的應用,為準確識別玉米雄穗并高效科學地指導去雄作業(yè)提供了有效的技術(shù)手段。
目前,玉米雄穗的檢測主要分為基于機器視覺檢測方法和基于深度學習的目標檢測方法。Lu 等[3]開發(fā)了基于分割和支持向量機(SupportVector Machine,SVM)的名為mTASSEL 的系統(tǒng)來檢測玉米雄穗,并以90. 38% 的準確率識別出具有穗的潛在區(qū)域。Yu 等[4]在數(shù)據(jù)集MrMT 上提出了一種新穎的輕量級神經(jīng)網(wǎng)絡TasselLFANet,可以準確有效地檢測和計數(shù)高時空圖像序列中的玉米雄穗。
近年來,基于深度學習的圖像分類、目標檢測等技術(shù)開始興起。兩階段的區(qū)域卷積神經(jīng)網(wǎng)絡(R-CNN)系列模型[5]是目標檢測中的里程碑之一。RCNN 的后續(xù)改進包括Fast R-CNN[6]和FasterR-CNN[7],通過引入共享特征提取來提高檢測速度和準確性。此外,還有備受關(guān)注的一階段模型SSD[8]模型和YOLO 系列模型。YOLO 模型是一種實時目標檢測模型,YOLO[9] 的改進版本包括YOLOv2、YOLOv3、YOLOv4、YOLOv7[10]等,通過改進網(wǎng)絡結(jié)構(gòu)和使用更高分辨率的特征圖來提高檢測性能。Khaki 等[11]提出了一種基于YOLOv4 的計算機視覺方法來檢測麥穗。Buzzy 等[12]利用Tiny-YOLOv3 網(wǎng)絡準確地檢測葉子的實時定位。YOLOv5 是YOLO 系列中成熟的算法,然而,直接應用YOLOv5 進行玉米雄穗檢測存在一些挑戰(zhàn):由于玉米雄穗在生長過程中會產(chǎn)生遮擋和重疊現(xiàn)象,目標之間存在遮擋問題,導致檢測困難。玉米雄穗一般比較細長,在生長過程中可能會呈現(xiàn)不同的姿態(tài)和形狀,這些都會導致檢測不準確。
為此,本文針對上述問題提出了一種基于YOLOv5s 的玉米雄穗檢測模型———PSOS-YOLOv5s,能夠快速、準確地檢測出田中玉米雄穗的位置,而且參數(shù)量、每秒10 億次的浮點運算數(shù)(GFLOPs)和模型復雜度較低。
1 材料和方法
1. 1 數(shù)據(jù)集
本研究選用的數(shù)據(jù)集為公開數(shù)據(jù)集MrMT[13],開發(fā)的一種自動化地面觀測系統(tǒng)在中國山東省泰安市、河南省鄭州市和河北省衡水市的實驗田每天9:00—16:00 每小時拍攝一張,包含從抽雄階段到開花階段的12 個獨立圖像序列。該數(shù)據(jù)集包含不同場景下的玉米雄穗圖像,如抽雄階段到開花階段的多個時間序列的圖像,以及來自不同地點的示例圖像。根據(jù)標準注釋范例,使用開源標注工具labe-lImg 對每個玉米雄穗手動進行框級標記,共標注了96 434 個玉米雄穗。
1. 2 YOLOv5 目標檢測算法
YOLOv5 是Ultralytics 團隊于2020 年6 月提出的一種典型的單階段目標檢測算法,將檢測任務轉(zhuǎn)化為端到端的回歸問題。根據(jù)網(wǎng)絡結(jié)構(gòu)的深度和寬度,YOLOv5 分為5 個版本:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x(n<s<m<l<x),其中n 模型參數(shù)量最小,x 模型參數(shù)量最大。為了實時檢測和易于部署,本文選擇YOLOv5s 網(wǎng)絡作為基礎(chǔ)模型。YOLOv5 網(wǎng)絡結(jié)構(gòu)如圖1 所示。
YOLOv5 的輸入組件如圖2 所示,由3 個模塊組成:馬賽克數(shù)據(jù)增強、自適應錨框計算和自適應圖像縮放。主干部分主要負責提取圖像不同層次的圖像特征,由CBS、C3 和SPPF 等模塊組成。CBS 層由卷積、批量歸一化和激活函數(shù)組成。C3 模塊包括3 個標準卷積層和多個瓶頸。SPPF 使用5×5 和1×1兩個池化核,可以增加感受野并輸入任意圖像長寬比和尺寸。在YOLOv5 主干中使用CBS、SPPF 和C3 架構(gòu)時的潛在缺點包括計算復雜性和內(nèi)存使用量增加,導致檢測速度變慢和資源需求增加。因此,為了實現(xiàn)網(wǎng)絡模型的輕量化,本文采用PP-LCNet[14]作為主干網(wǎng)絡。
頸部特征融合網(wǎng)絡采用特征金字塔網(wǎng)絡(Feature Pyramid Network,FPN)[15]和路徑聚合網(wǎng)絡(Path Aggregation Network,PAN)[16]的結(jié)構(gòu)。使用GIOU 損失(Loss)函數(shù)作為邊界框損失函數(shù),解決邊界框不重疊的問題。對于GIOU Loss 函數(shù),當2 個邊界框相交時,水平和垂直方向的收斂速度都很慢。因此,本文選擇SIOU Loss 函數(shù)。
1. 3 PSOS-YOLOv5s
為了保證玉米雄穗檢測精度,同時盡量加快檢測速度,本文提出了一種輕量級網(wǎng)絡PSOS-YOLOv5s。
圖3 展示了PSOS-YOLOv5s 的整體結(jié)構(gòu),包括三部分:用于特征提取的主干網(wǎng)絡(backbone),用于特征融合的頸部(neck)以及用于位置和類別預測的預測頭(head)。為了減少模型參數(shù)量和GFLOPs,使用PP-LCNet 作為主干來提取特征。為了改善輕量級網(wǎng)絡PP-LCNet 帶來的精度損失,本研究將原來的標簽匹配策略換成了SimOTA 標簽匹配策略并且把GIOULoss 更換為SIOU Loss。SimOTA 可以將篩選樣本(anchor point)與真實框(gt)之間的匹配更加合理,SIOU Loss 考慮到了向量角度在回歸中的重要性。
1. 3. 1 基于PP-LCNet 的骨干網(wǎng)絡
PP-LCNet 是百度在2021 年提出的一種基于深度神經(jīng)網(wǎng)絡的數(shù)學內(nèi)核庫(MKLDNN)加速策略的輕量級中央處理器(CPU)網(wǎng)絡,提高了輕量級模型在多個任務上的性能。圖4 展示了PP-LCNet 的基本模塊,其中Hswish 是激活函數(shù),SE 是注意力機制。
該模型使用深度可分離卷積(DepthSepConv)作為基本塊,其中不包含直連(shortcut),這樣就沒有拼接(concat)或逐元素相加(elementwise-add)等操作,這些操作不僅會降低模型的推理速度,而且無法提高小模型的精度。該模型將這些塊(block)堆疊成一個基礎(chǔ)網(wǎng)絡,然后結(jié)合現(xiàn)有技術(shù)得到了PP-LC-Net。
本文的主干特征網(wǎng)絡不僅僅由PP-LCNet 網(wǎng)絡組成,將PP-LCNet 網(wǎng)絡全局平均池化層換為SPPF層,因此主干特征網(wǎng)絡由CBS、DepthSepConv 和SPPF 組成,激活函數(shù)的性能往往決定了網(wǎng)絡的性能,為了避免大量的指數(shù)操作,本文將DepthSepConv 基礎(chǔ)網(wǎng)絡中的激活函數(shù)由ReLU 換成H-Swish,性能得到了很大的提升,而推理時間幾乎沒有增加。SE 模塊自提出以來已被大量網(wǎng)絡使用,但在英特爾CPU上,SE 模塊會增加推理時間,因此不能在整個網(wǎng)絡中都使用。通過大量實驗發(fā)現(xiàn)將SE 模塊用于網(wǎng)絡的末端時,可以發(fā)揮更好的作用,因此本文只將SE模塊用在網(wǎng)絡尾端的block 中,獲得了更好的精度-速度的平衡。同時卷積核的大小也會影響網(wǎng)絡的性能。
M ixNet[17]中分析了不同大小的卷積核對網(wǎng)絡性能的影響,最終在網(wǎng)絡的同一層中使用不同大小的卷積核。但這種混合降低了網(wǎng)絡的推理速度,因此本文在同一層只使用一種大小的卷積核,并確保在低延遲和高精度的前提下才使用大卷積核。通過實驗發(fā)現(xiàn),與使用SE 模塊位置一樣,只在網(wǎng)絡的尾部用5×5 卷積替換3 ×3 卷積獲得了和整個網(wǎng)絡都使用5×5 卷積相近的性能,因此最終只在網(wǎng)絡尾部才使用5×5 卷積。此外,該方法顯著降低了計算復雜度和參數(shù)數(shù)量,使其適合在硬件有限的設備上部署。
1. 3. 2 SimOTA
本文采用YOLOX[18]提出的SimOTA 標簽匹配策略來替換YOLOv5s 中的標簽匹配策略。
SimOTA 中的中心先驗思想提供了更加精準的先驗知識,提高了標簽匹配的準確性。OTA[19]中通過Sinkhorn-Knopp 算法解決最優(yōu)傳輸(OptimalTransport,OT)問題,但會帶來25% 的額外訓練時間,所以將其簡化為動態(tài)k 策略,稱為SimOTA,以獲得近似解。與OTA 相比,SimOTA 運算速度快、訓練時間短,大大提高了模型的每秒傳輸幀數(shù)(FPS),而且避免了額外的參數(shù)優(yōu)化,并且提升了檢測精度。SimOTA 中心先驗圖如圖5 所示,gt 代表真實物體的標注框,限定區(qū)域也是中心先驗區(qū)域。
在SimOTA 中,gi 和pj 之間的成本(cost)計算如下,其中gi 是任意真實框,pj 是任意預測框:
cij = Lclsij + λLregij , (1)
式中:λ 為平衡系數(shù),本文?。?;Lclsij 和Lregij 為gi 和pj之間的分類損失和回歸損失。對于一張圖上的所有anchor point 來說,整個匹配策略的代價是所有特征點與每一個gt 所產(chǎn)生的分類損失與回歸損失之和。
SimOTA 會篩選出優(yōu)質(zhì)的正樣本來匹配gt,從而減少這個匹配過程所產(chǎn)生的cost,首先SimOTA 進行預篩選,gt 的中心區(qū)域更有可能篩選出優(yōu)質(zhì)的正樣本使得邊界回歸損失與分類損失較小,也就是匹配策略中的cost 較小。進行預篩選之后,cost 會有顯著的下降,從而可以在這個限定區(qū)域內(nèi)進行進一步的篩選,從而獲得最后的anchor point。分別對限定區(qū)域中每一個anchor point 計算其相對于每一個gt的分類損失(cls Loss)、邊界框損失(reg Loss)。從而根據(jù)分cls_Loss、reg_Loss 獲?。悖铮螅?矩陣以及交并比(Intersection Over Union,IOU)矩陣,每一個gt 匹配到的anchor point 數(shù)量記為s,將這個數(shù)與10 對比,取其中的最小值,然后根據(jù)IOU 來取前s 個或者10 個anchor point。將所有與當前gt 匹配的正樣本求IOU 后進行求和并向下取整,得到的數(shù)即為動態(tài)k。得到動態(tài)k 后,選擇cost 較小的前動態(tài)k 個樣本作為當前匹配。如果同一正樣本被分配到不同的gt真值,則選擇cost 值較小的gt 真值負責預測。
此時得到所有的正樣本以及正樣本對應的gt,那么剩下的anchor point 全部歸為負樣本。對篩選預測框進行Loss 計算,要注意這里的reg Loss 和clsLoss 只針對目標框和篩選出的正樣本預測框進行計算,而obj Loss 還是針對所有的anchor point(包含所有的正樣本與負樣本),損失函數(shù)如下:
式中:Lcls 表示分類損失,Lreg 表示邊界框損失,Lobj 表示置信度損失,β 表示定位損失的平衡系數(shù),本文設置為5. 0;Npos 表示被分為正樣本的anchor point 數(shù)。
采用SimOTA 來進行標簽匹配可以將限定區(qū)域內(nèi)每一個anchor point 匹配到最合適的gt,大大提高了檢測的速度和精度。
1. 3. 3 SIOU 損失函數(shù)
YOLOv5 中的損失函數(shù)包括三部分:分類損失、邊界框損失和置信度損失。分類損失用來計算錨框與對應的標定分類是否正確,邊界框損失用來計算預測框與標定框之間的誤差,置信度損失用來計算網(wǎng)絡的置信度。其中邊界框損失用GIOU Loss[20]來計算。
GIOU Loss 函數(shù)在IOU 的基礎(chǔ)上引入了預測框和真實框的最小外接矩形。假設bgt 為真實框,b 為預測的邊界框,C 為A 和B 的最小外接矩形,則GIOU Loss 計算公式如下:
GIOU = IOU -( C - (b ∪gt)/C ), (3)
LGIOU = 1 - GIOU。(4)
當預測框和真實框完全重合時(預測框在真實框的內(nèi)部),如圖6 所示,IOU 和GIOU 的損失值都一樣,此時GIOU 退化為IOU,GIOU = IOU,最終還是無法區(qū)分預測框和真實框的位置關(guān)系,導致此時的邊界框回歸收斂很慢,檢測結(jié)果失準。
為了解決上述問題,本文使用SIOU Loss[21]代替GIOU Loss。SIOU 函數(shù)引入了真實框和預測框之間的向量角度,重新定義了相關(guān)損失函數(shù),加快了網(wǎng)絡收斂的速度,提升了回歸精度。SIOU 損失函數(shù)具體包含四部分:角度損失(Angle cost)、距離損失(Distance cost)、形狀損失(Shape cost)和IOU 損失(IOU cost)。
角度損失定義為:
最后,SIOU Loss 函數(shù)定義為:
LSIOU = 1 - IOU +( Δ + Ω/2) 。(9)
SIOU Loss 考慮到了所需回歸之間的向量角度,引入角度損失因子來降低回歸自由度,加快了收斂速度,而且重新定義了懲罰指標,提高了訓練的速度和推理的準確性。
2 實驗和結(jié)果
2. 1 實施細節(jié)
主要實驗參數(shù)如下:本研究的訓練數(shù)據(jù)集由從公開的MrMT 數(shù)據(jù)集中隨機選擇的1 120 張圖像組成。驗證集和測試集分別為480 張和368 張。所有實驗均在使用PyTorch 1. 10 和CUDA 11. 3 實現(xiàn)的深度學習框架上進行,并在4 張具有40 GB 顯存的NVIDIA A100 GPU 上執(zhí)行。
為了反映模型的真實水平,本研究沒有選擇使用遷移學習。鑒于數(shù)據(jù)集中圖像的高分辨率,將大小調(diào)整為640 pixel×640 pixel。使用單周期學習率調(diào)度的方法從0. 01 開始調(diào)度學習率。訓練使用動量為0. 937 的隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器進行,batch size 設為128,持續(xù)300 個epoch。
2. 2 與其他目標檢測模型的對比
2. 2. 1 評價指標
在本研究中,改進的YOLOv5s 模型與其他模型相比的評價指標主要基于FPS、精度(Precision,P)、召回率(Recall,R)和平均精度均值(mean AveragePrecision,mAP)。TP、FP 和FN 分別是被模型預測為正類的正樣本數(shù)、被模型預測為正類的負樣本數(shù)和被模型預測為負類的正樣本數(shù)。此外,本研究還綜合考慮了模型參數(shù)、GFLOPs 以及權(quán)重大小。因為數(shù)據(jù)中只有一個類別(玉米雄穗),所以n 為1。mAP@ 0. 5 表示IOU 閾值為0. 5 時的平均mAP。mAP @ 0. 5:0. 95 表示不同IOU 閾值下mAP 的平均值(從0. 5 到0. 95,步長為0. 05)。各個評價指標的計算公式如下:
2. 2. 2 消融實驗
利用消融實驗來評估網(wǎng)絡結(jié)構(gòu)變化的影響。進行了4 組消融實驗,結(jié)果如表1 所示。在消融實驗中,本文將PP-LCNet 骨干網(wǎng)絡縮寫為PP,將SimOTA 縮寫為SO,將SIOU Loss 函數(shù)縮寫為S,其中△ 代表替換相應的模塊。從表1 可以看出,與YOLOv5s 相比,PP-YOLOv5s 的參數(shù)量、權(quán)重大小和GFLOPs 分別降低了52. 86% 、51. 64% 和61. 40% ,FPS 提高了40. 59% ,以上提升表明了以PP-LCNet為主干網(wǎng)絡提取特征實現(xiàn)了網(wǎng)絡的輕量化,提高了網(wǎng)絡檢測速度。與PP-YOLOv5s 相比而言,PPSO-YOLOv5s 的mAP 提高了0. 4% ,FPS 提升了18. 7,表明了本文采用的SimOTA 標簽分配策略不僅提升了模型的檢測精度,還提升了一定的檢測速度。與PPSO-YOLOv5s 比較,PPSOS-YOLOv5s 的mAP 提升了0. 9% ,FPS 也有一定的提升,這也證實了SIOULoss 函數(shù)可以有效地提高檢測精度和速度。綜上所述,與原始YOLOv5s 模型相比,PPSOS-YOLOv5s 的參數(shù)量、模型權(quán)重和GFLOPs 分別降低了52. 86% 、51. 57% 和61. 40% ,而mAP 提升了0. 6% ,FPS 提升了65. 5% 。上述分析表明本文提出的改進模型具有較理想的檢測精度和速度。
圖7 是IOU 閾值為0. 5 時的PR 曲線圖。藍色曲線與橫縱坐標之間的面積表示該類別的平均精度(Average Precision,AP),面積越大,檢測效果越好。可以看出,玉米雄穗的AP 值為97. 2% ,本文提出的模型能夠準確地檢測出玉米田中的雄穗。
2. 2. 3 實驗結(jié)果對比
為了與基于PP-LCNet 的主干進行比較,本研究在網(wǎng)絡其余部分保持不變的基礎(chǔ)上用一些輕量級網(wǎng)絡,例如MobileNetv3[22]、GhsotNet[23]和Efficient-Net[24]替換掉原來YOLOv5s 的主干。實驗結(jié)果如表2 所示,與其他的輕量網(wǎng)絡相比,在保證精度的基礎(chǔ)上,PP-LCNet 顯著地降低了參數(shù)量和模型的復雜程度。與此同時,模型的檢測速度提升較為理想。
為了驗證將SIOU Loss 函數(shù)替換掉GIOU Loss 的有效性,本文將SIOU Loss 函數(shù)應用于PSO-YOLOv5s模型中,并與CIOU、EIOU、WIOU 和GIOU 損失函數(shù)進行比較。如表3 所示,SIOU Loss 達到了最大的mAP 和最快的檢測速度,驗證了改進的有效性。
為了探究提出的PSOS-YOLOv5s 模型在玉米雄穗數(shù)據(jù)集上的檢測精度、參數(shù)量、FPS 以及權(quán)重大?。?個評價指標,本文將其與YOLOv3、YOLOv7-tiny、TasselLFANet 以及YOLOv5s 四種模型進行比較。通過表4 可以看出,除TasselLFANet 以外,本文提出的改進模型的評價指標表現(xiàn)最佳,雖然TasselLFANet 參數(shù)量和權(quán)重大小比本文提出的模型要小,但是本文改進模型在檢測精度和FPS 上表現(xiàn)更佳。本文提出的改進模型權(quán)重大小為6. 65 MB,參數(shù)數(shù)量僅為3. 3 M,但是mAP@ 0. 5 達到了97. 2% ,FPS 高達128. 5。
PSOS-YOLOv5s 與其他4 個模型的mAP @ 0. 5對比曲線如圖8 所示,可以看出本文改進網(wǎng)絡由于采用了SIOU Loss 損失函數(shù)和SimOTA 的標簽匹配策略,收斂速度大大加快,雖然用更輕量化的網(wǎng)絡替換了主干網(wǎng)絡,但mAP 值依然有提升。
圖9 展示了5 個模型的玉米穗檢測結(jié)果??梢钥闯觯疚奶岢龅模校樱希?YOLOv5s 模型,玉米雄穗檢測的置信度分別為0. 98 和0. 97,明顯高于其余4 個模型,充分展現(xiàn)了模型的優(yōu)異檢測性能。
3 結(jié)束語
本文提出了一種基于YOLOv5s 改進的輕量化網(wǎng)絡模型———PSOS-YOLOv5s,在保證檢測精度的基礎(chǔ)上,可以顯著提升檢測速度。該模型利用輕量級網(wǎng)絡PP-LCNet 結(jié)構(gòu)作為提取特征的骨干網(wǎng)絡,明顯降低了模型的參數(shù)量和復雜度。為了彌補輕量化主干造成的檢測精度下降,在檢測頭部分將標簽匹配策略換為SimOTA 標簽匹配策略,并且將邊界框回歸損失函數(shù)更換為更快、更準確的SIOU Loss。根據(jù)消融和對比實驗得出的結(jié)果,本文提出的模型在玉米雄穗數(shù)據(jù)集上實現(xiàn)了FPS 高達128. 5,提升了65. 5% 。參數(shù)量、模型權(quán)重和GFLOPs 分別降低了52. 86% 、51. 57% 和61. 40% ,而mAP 提升了0. 6% 。為以后大規(guī)模玉米雄穗快速檢測的實現(xiàn)提供了新的實用方法。
參考文獻
[1] GAGE J L,MILLER N D,SPALDING E P,et al. TIPS:ASystem for Automated Imagebased Phenotyping of MaizeTassels [J]. Plant Methods,2017,13:21.
[2] HUANG J X,G?MEZDANS J L,HUANG H,et al. Assimilation of Remote Sensing into Crop Growth Models:Current Status and Perspectives [J]. Agricultural andForest Meteorology,2019,276-277:107609.
[3] LU H,CAO Z G,XIAO Y,et al. Finegrained MaizeTassel Trait Characterization with Multiview Representations [J ]. Computers and Electronics in Agriculture,2015,118:143-158.
[4] YU Z H,YE J X,LI C N,et al. TasselLFANet:A NovelLightweight Multibranch Feature Aggregation Neural Network for Highthroughput Imagebased Maize Tassels Detection and Counting [J]. Frontiers in Plant Science,2023,14:1158940.
[5] GIRSHICK R,DONAHUE J,DARRELL T,et al. RichFeature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:580-587.
[6] GIRSHICK R. Fast RCNN [C ]∥ Proceedings of theIEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.
[7] REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks [J]. IEEE Transactions on Pattern Analysis &Machine Intelligence,2017,39(6):1137-1149.
[8] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot Multibox Detector [C]∥ European Conference onComputer Vision. Amsterdam:Springer,2016:21-37.
[9] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection[C]∥Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. Las Vegas:IEEE,2016:779-788.
[10] WANG C Y,BOCHKOVSKIY A,MARK H Y. YOLOv7:Trainable Bagoffreebies Sets New Stateoftheart forRealtime Object Detectors [C ]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Vancouver:IEEE,2023:7464-7475.
[11] KHAKI S,SAFAEI N,PHAM H,et al. WheatNet:ALightweight Convolutional Neural Network for Highthroughput Imagebased Wheat Head Detection andCounting [J]. Neurocomputing,2022,489:78-89.
[12] BUZZY M,THESMA V,DAVOODI M,et al. RealtimePlant Leaf Counting Using Deep Object DetectionNetworks[J]. Sensors,2020,20(23):6896.
[13] YU Z H,CAO Z G,WU X,et al. Automatic ImagebasedDetection Technology for Two Critical Growth Stages ofMaize:Emergence and Threeleaf Stage [J]. Agriculturaland Forest Meteorology,2013,174-175:65-84.
[14] CUI C,GAO T Q,WEI S Y,et al. PPLCNet:ALightweight CPU Convolutional Neural Network [EB /OL]. (2021 - 09 - 17)[2023 - 08 - 12]. https:∥ arxiv.org / abs / 2109. 15099.
[15] LIN T Y,DOLL?R P,GIRSHICK R,et al. FeaturePyramid Networks for Object Detection[C]∥Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Honolulu:IEEE,2017:936-944.
[16] LIU S,QI L,QIN H F,et al. Path Aggregation Network forInstance Segmentation [C]∥ Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.
[17] TAN M, LE Q V. MixConv: Mixed DepthwiseConvolutional Kernels [EB / OL]. (2019-07-22)[2023-08-12]. https:∥arxiv. org / abs / 1907. 09595.
[18] GE Z,LIU S T,WANG F,et al. YOLOX:ExceedingYOLO Series in 2021 [EB / OL]. (2021-07-18)[2023-08-12]. https:∥arxiv. org / abs / 2107. 08430.
[19] GE Z,LIU S T,LI Z M,et al. OTA:Optimal Transport Assignment for Object Detection [C]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Nashville:IEEE,2021:303-312.
[20] REZATOFIGHI H,TSOI N,GWAK J,et al. GeneralizedIntersection over Union:A Metric and a Loss for BoundingBox Regression[C]∥Proceedings of the IEEE / CVF Conference on Computer Vision and Pattern Recognition. LongBeach:IEEE,2019:658-666.
[21] GEVORGYAN Z. SIoU Loss:More Powerful Learning forBounding Box Regression [EB / OL]. (2022 - 08 - 25 )[2023-09-01]. https:∥arxiv. org / abs / 2205. 12740.
[22] HOWARD A,SANDLER M,CHEN B,et al. Searching forMobileNetV3[C]∥Proceedings of the IEEE / CVF International Conference on Computer Vision. Seoul:IEEE,2019:1314-1324.
[23] HAN K,WANG Y H,TIAN Q,et al. GhostNet:More Features from Cheap Operations [C]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Seattle:IEEE,2020:1577-1586.
[24] TAN M X,PANG R M,LE Q V. EfficientDet:Scalableand Efficient Object Detection[C]∥ Proceedings of theIEEE / CVF Conference on Computer Vision and PatternRecognition. Seattle:IEEE,2020:10778-10787.
作者簡介
胡 陣 男,(1999—),碩士研究生。主要研究方向:目標檢測、多源遙感數(shù)據(jù)融合。
馬宗軍 男,(1997—),碩士研究生。主要研究方向:控制工程。
黃傳寶 男,(1998—),碩士研究生。主要研究方向:計算機視覺、語音情感識別。
趙景波 男,(1971—),博士,教授。主要研究方向:機器人工程、計算機控制。
唐勇偉 男,(1991—),博士研究生,助理研究員。主要研究方向:工業(yè)物聯(lián)網(wǎng)、智能感知和控制等。
(*通信作者)郝鳳琦 男,(1979—),碩士,副研究員。主要研究方向:網(wǎng)絡協(xié)議、人工智能和嵌入式系統(tǒng)等。
基金項目:山東省科技型中小企業(yè)創(chuàng)新能力提升工程項目(2023TSGC0111,2023TSGC0587);青島市民生計劃(22-3-7-xdny-18-nsh);山東省重點研發(fā)計劃(軟科學項目)(2023RZA02017);山東省重大科技創(chuàng)新工程項目(2019JZZY020603)