王 玲 張 旗 馮天賜 王一博 李雨桐 陳 度
(1.中國農(nóng)業(yè)大學工學院, 北京 100083; 2.北大荒農(nóng)業(yè)服務(wù)集團黑龍江農(nóng)機服務(wù)有限公司, 哈爾濱 150090)
小麥是我國重要糧食作物之一,提高小麥產(chǎn)量和品質(zhì)對保障我國糧食安全具有重要意義??挤N作為選育高產(chǎn)高質(zhì)小麥品種的重要手段,其效率和精度直接影響育種結(jié)果。小麥考種涉及植株和籽粒的多種性狀參數(shù),如千粒質(zhì)量、粒型、產(chǎn)量等,而籽粒個數(shù)計算是千粒質(zhì)量測量、產(chǎn)量預估等的基礎(chǔ)數(shù)據(jù)。因此,快速準確的小麥高通量籽粒計數(shù)能加快考種效率,對提升小麥產(chǎn)量具有重要意義[1-3]。
然而,在復雜農(nóng)業(yè)生產(chǎn)環(huán)境下,小麥籽粒計數(shù)存在不同程度的重疊遮擋、密集粘連等問題,嚴重影響計數(shù)精度。近年來,機器視覺技術(shù)被廣泛應(yīng)用于農(nóng)作物品質(zhì)檢測、產(chǎn)量預估和籽粒計數(shù)的研究,基于此,研究人員提出了基于傳統(tǒng)數(shù)字圖像處理的籽粒計數(shù)方法[4-6]。VISEN等[7]使用分類和凹點檢測對遮擋籽粒進行分割,通過確定慣性等效橢圓的重疊程度,將谷物表征為孤立的內(nèi)核或一組粘連的內(nèi)核,再通過凹點檢測法和最近鄰準則繪制分割線。李立君等[8]提出基于凸殼理論的遮擋油茶果定位檢測算法,該算法通過顏色特征和凹點搜尋對重疊目標進行粗分割,再利用輪廓提取算法提取出了凸殼上的有效輪廓。相比于人工和傳感器的逐個檢測方法[9-11],數(shù)字圖像處理方法大大提高了檢測效率和計數(shù)精度,然而,該方法高度依賴圖像質(zhì)量和研究人員對目標特征的分析,不同場景的泛化能力及魯棒性較差。
深度學習方法因其對抽象特征的強大學習能力,在目標物遮擋、粘連情況下仍能夠通過關(guān)鍵特征有效識別目標[12-14]。SUN等[15]針對重疊水稻種子計數(shù)提出了一種基于輪廓分組預標記的深度學習目標檢測方法,該方法以歐幾里得距離和散度函數(shù)作為綜合標準預先標記水稻種子輪廓,并將預標記結(jié)果整合到其特征提取層,通過Faster R-CNN進行分類計數(shù),平均錯誤率1.06%。ZHAO等[16]開發(fā)了一種基于改進的YOLO v5的小麥麥穗檢測方法,通過添加微尺度檢測層,利用置信度系數(shù)對多層特征圖中的檢測框進行融合,以提高遮擋條件下的檢測精度,平均檢測準確率94.1%。XU等[17]針對自然環(huán)境下柑橘的重疊、遮擋問題,將通道注意力機制和預測框篩選算法Soft DIoU NMS引入YOLO v4中,有效地提高了檢測精度。龍燕等[18]提出了一種改進全卷積單階段無錨框網(wǎng)絡(luò)FCOS的蘋果目標檢測方法,該網(wǎng)絡(luò)引入聯(lián)合交并比損失函數(shù),能更好反映預測框和真實框重合度,使網(wǎng)絡(luò)能夠關(guān)注到被果實和樹葉遮擋的極難識別的目標,并針對不同密集度和不同遮擋程度進行對比試驗,結(jié)果表明改進的FCOS準確率可達96.0%。因此,深度學習方法應(yīng)用于多種農(nóng)作物重疊、遮擋檢測與識別的研究取得了一定效果[19-20],但相關(guān)研究多是針對目標與復雜背景之間的遮擋問題,當多個待檢測目標相互遮擋且遮擋程度較高,僅顯現(xiàn)極小的局部特征時,相關(guān)研究的算法模型不能準確從僅有的未被遮擋的局部特征中識別待檢測目標,從而將其與粘連的其他檢測目標識別為同一目標,造成漏檢。
此外,目前基于深度學習的重疊遮擋的研究場景多是針對少量目標的低通量檢測,然而,小麥室內(nèi)考種具有高通量計數(shù)需求,大量籽粒存在不同程度的遮擋、粘連等問題,同時小麥籽粒目標較小,遮擋目標的識別難度大幅提高,相關(guān)研究中的算法模型無法滿足高通量小目標快速準確的計數(shù)需求。因此,本文基于Swin Transformer提出改進YOLO v7-ST網(wǎng)絡(luò)模型,該模型利用移位窗口和多頭注意力機制可有效識別被遮擋籽粒與其粘連籽粒的關(guān)聯(lián)特征,并提高對遮擋目標局部特征的識別能力。以此為基礎(chǔ),基于電磁振動原理設(shè)計小麥籽粒振動分離裝置,并引入二階離散系數(shù)對籽粒離散均勻度進行試驗研究,從而對不同程度遮擋、粘連的小麥籽粒進行分級檢測,以期實現(xiàn)各級離散度下籽粒的準確快速計數(shù)。
小麥籽粒振動分離裝置如圖1所示,由工業(yè)相機、光源、電磁振動器、振動控制器、輸送平板、卸料斗、圖像采集處理單元和固定支架組成。相機采用華睿科技A7500CG20型彩色CMOS相機,分辨率為500萬像素,搭配16 mm焦距鏡頭,采樣視野范圍為350 mm×200 mm。光源采用亮度強、光損失少、成像清晰、亮度均勻的同軸光源,為圖像采集裝置提供穩(wěn)定的光照環(huán)境。
圖1 小麥籽粒振動分離裝置Fig.1 Wheat seed vibration separation device1.支架 2.工業(yè)相機 3.光源 4.輸送平板 5.電磁振動器 6.圖像處理單元 7.卸料斗 8.振動控制器
由于散落在輸送平板上的小麥籽粒呈堆積狀態(tài),難以直接進行圖像采集與處理,因此,基于電磁振動原理消除籽粒堆積現(xiàn)象,使籽粒離散分布于圖像采集范圍內(nèi),可提高考種測量精度。電磁振動器工作原理圖如圖2所示,電流在正半周期時,交流電流過電磁線圈產(chǎn)生電磁力吸附銜鐵,銜鐵帶動彈片產(chǎn)生形變存儲勢能;當位于負半周期時,線圈內(nèi)沒有電流流過,電磁力消失,彈片釋放彈性勢能產(chǎn)生激振力,輸送平板在激振力的作用下向前運動,其中β為振動方向角,取15°,α為輸送傾角。電流通過電磁線圈時所產(chǎn)生的激振力F[21-22]為
圖2 電磁振動器工作原理圖Fig.2 Diagram of working principle of electromagnetic vibrator1.小麥籽粒 2.輸送平板 3.彈簧片 4.銜鐵 5.電磁線圈
(1)
式中f0——振動頻率,Hz
H——振幅,mm
m——物料質(zhì)量,kg
ξ——激振頻率與固有頻率之比
隨電流的周期性變化,與輸送平板接觸的籽粒沿振動方向向前滑動一定距離,而堆積于表層的籽?;渲疗桨搴蟛拍芟蚯盎啤.斦駝悠饕砸欢l率和振幅連續(xù)振動時,籽料被連續(xù)輸送出去。適當?shù)募ふ窳τ欣谧蚜F椒€(wěn)前進,當激振力較大時,籽粒前進速度過快,表層和底層籽粒在激振力作用下同時快速前進,不能及時分離;而激振力過小時,籽粒分離所需時間過長。待籽粒堆積現(xiàn)象消除后進行圖像采集與處理,進而籽粒在電磁振動作用下從輸送平板末端滑出,完成卸料。
1.2.1籽粒離散度影響因素分析
小麥籽粒在電磁振動過程中主要受激振力F、重力G和摩擦力Ff(圖3),籽粒在電磁振動作用下隨輸送平板運動時,所受合力F′和運動加速度a為
圖3 籽粒受力分析圖Fig.3 Force analysis diagram of seed
(2)
式中g(shù)——重力加速度,m/s2
μ——摩擦因數(shù)
由式(2)可知,籽粒的運動加速度受振動頻率、振幅、輸送傾角和摩擦因數(shù)的影響,當電磁振動器振動參數(shù)與輸送平板表面粗糙度不同時,籽粒在激振力、重力和摩擦力的共同作用下向前運動,籽粒的分離效果即籽粒離散度不同。為探究小麥籽粒高通量計數(shù)需求中不同離散度下籽粒粘連和遮擋程度對籽粒計數(shù)準確度的影響,以小麥籽粒離散度為評價目標,選擇振動頻率A、振幅B、摩擦因數(shù)C及輸送傾角D為試驗因素,通過設(shè)計正交試驗采集不同離散度的試驗樣本。
電磁振動器振動過程中,當激振頻率等于固有頻率時將發(fā)生共振,此時振幅達到最大值,但振動裝置工作不平穩(wěn)。為達到高效、穩(wěn)定的工作狀態(tài),應(yīng)使振動電機工作在亞共振區(qū),即激振頻率與固有頻率之比ξ為0.85~0.98[23]。試驗中,采用SDVC31型數(shù)字調(diào)頻振動送料控制器進行振動頻率調(diào)節(jié),通過固定控制器輸出電壓并調(diào)整激振頻率,發(fā)現(xiàn)當激振頻率為73 Hz時,振幅最大,即振動器固有頻率為73 Hz,振動頻率f0為62.5~69.4 Hz。
引入機械指數(shù)K以計算籽粒振幅。
(3)
機械指數(shù)是用來衡量振動強弱的物理量,機械指數(shù)越大表明振動越劇烈,為使得物料穩(wěn)定輸送,并保證振動沖擊對槽體的損壞較小,通常K取2~5[23]。由式(3)計算可知,籽粒振幅為0.13~0.26 mm。
探究輸送平板摩擦因數(shù)對籽粒離散度的影響時,采用不同粗糙度的砂紙作為表面材料(所以摩擦因數(shù)以砂紙的粒度為度量,即單位為目),基于已有的研究分析和實際作業(yè)效果,砂紙分別選擇30、60、120、240目。此外,輸送平板傾角α為正值時,平板向下傾斜,籽粒運動加速度增大,反之,籽粒運動加速度減小;根據(jù)試驗效果,平板傾角α為-3°~6°。每個因素選擇4個水平進行試驗,試驗因素和水平如表1所示[24-25]。
表1 正交試驗因素水平Tab.1 Factors and levels of orthogonal test
將50 g小麥籽粒直接導入振動分離裝置,采用四因素四水平的L16正交試驗方案進行試驗,圖4為不同影響因素下小麥籽粒的離散分布情況,攝像頭采集的圖像尺寸為2 448像素×1 604像素。由圖4可知,受電磁振動作用高通量籽粒的堆積現(xiàn)象基本消除,籽粒平鋪于振動平板上。
圖4 基于正交試驗方案的籽粒樣本離散度分布圖Fig.4 Dispersion distribution of seed samples based on orthogonal test scheme
1.2.2籽粒離散度評價方法
由圖4可知,受振動頻率、振幅、輸送傾角和摩擦因數(shù)的影響,籽粒的離散分布情況差異明顯,進而產(chǎn)生不同程度的籽粒遮擋和粘連問題。評價數(shù)據(jù)離散度通常采用離散系數(shù),但在籽粒分布圖中,局部區(qū)域籽粒極度密集或極度稀疏,導致數(shù)據(jù)極差大,傳統(tǒng)離散系數(shù)無法反映籽粒分布的真實情況。二階離散系數(shù)對異常值的敏感度較低,受局部離散度的影響較小,因此,引入二階離散系數(shù)作為研究籽粒離散度的評價指標,計算式為[26]
(4)
式中cv——二階離散系數(shù)
σ——數(shù)據(jù)標準差
為計算原始圖像的二階離散系數(shù),需獲取二值圖中各局部區(qū)域目標像素占比作為基礎(chǔ)數(shù)據(jù),因此,將對原始圖像進行預處理。首先采用Laplace算子和銳化方法對原始圖像進行組合增強,增強后的圖像像素分布出現(xiàn)明顯分界線,如圖5所示,再通過自適應(yīng)閾值分割將圖像二值化。
圖5 圖像像素分布Fig.5 Image pixel distribution
由于光照強度、砂紙晶粒噪聲等因素影響,二值圖中存在較多尺寸不一的噪聲和孔洞,基于傳統(tǒng)十字形和矩形卷積操作的形態(tài)學處理方式難以同時消除噪聲和填充孔洞。因此,分別對灰度0像素和灰度255像素連通域面積進行統(tǒng)計分析,通過面積閾值篩選出目標噪聲和孔洞,采用四鄰域漫水填充算法分別對其進行反向填充。為衡量籽粒分布特征,將處理后的二值圖裁剪為24個408像素×401像素的局部區(qū)域,通過統(tǒng)計各區(qū)域籽粒像素百分比作為基礎(chǔ)數(shù)據(jù),再計算該組數(shù)據(jù)的總體平均值和標準差,即可由式(4)得到原始圖像籽粒分布的二階離散系數(shù),圖像處理過程如圖6所示。
圖6 籽粒原始圖像預處理效果圖Fig.6 Pre-processing effect of original image of seeds
1.2.3籽粒離散度分級
二階離散系數(shù)是衡量一組數(shù)據(jù)離散度的相對統(tǒng)計量,其值越小,則數(shù)據(jù)的離散度越低,籽粒分布越均勻;反之數(shù)據(jù)離散度高,籽粒分布不均勻,遮擋與粘連現(xiàn)象明顯?;谧蚜kx散度評價方法,對16組試驗樣本進行離散度系數(shù)計算,每組試驗重復3次,取平均二階離散系數(shù)為試驗結(jié)果,籽粒離散度評價如表2所示。結(jié)合圖4中各組試驗樣本的籽粒離散分布情況,將籽粒離散度分為3個等級,其中,當平均二階離散系數(shù)cv≤0.4時,離散度等級為“稀疏”,0.4 表2 正交試驗結(jié)果Tab.2 Results of orthogonal test 試驗所用小麥籽粒于2021年6月在北京市小湯山鎮(zhèn)國家精準農(nóng)業(yè)研究示范基地試驗田獲得,千粒質(zhì)量為36 g,每次試驗選取籽粒50 g,約1 400粒。基于籽粒振動分離裝置采集不同離散度圖像72幅,圖像分辨率為2 448像素×1 604像素,并使用LabelImg標注軟件手工標記小麥籽粒。為保證測試結(jié)果能夠真實反映模型泛化能力,均勻選取原始數(shù)據(jù)集中不同密度等級的32幅圖像作為測試集,剩下40幅作為訓練集和驗證集。由于原始圖像分辨率較高,難以滿足網(wǎng)絡(luò)輸入尺寸要求,因此,通常采用下采樣和裁剪兩種方式對原始圖像進行處理。由于強制下采樣會降低圖像分辨率,導致圖像特征嚴重丟失,造成部分籽粒無法識別。因此,本文采用步長為543的重疊滑窗策略將原始訓練集和驗證集中的高分辨率圖像裁剪為640像素×640像素的低分辨率圖像,滿足模型輸入限制,并對重疊部分的預測結(jié)果進行融合,以解決傳統(tǒng)裁剪方式因邊緣籽粒誤分割而引入的計數(shù)誤差。 為在原始圖像樣本量有限的情況下更好地提取圖像特征,本文采用光度失真和幾何失真對樣本量進行擴充,通過調(diào)整圖像色調(diào)及飽和度,添加隨機縮放、平移、剪切和旋轉(zhuǎn)等,將裁剪后小尺寸圖像擴充至1 224幅。為進一步提高模型的泛化能力,采用Mixup[27]和Mosaic[28]增強方法,通過從訓練圖像中隨機選取2個樣本及其標簽進行加權(quán)求和以及使用4幅圖像分別覆蓋不同區(qū)域等方法,豐富數(shù)據(jù)集中圖像背景,增加數(shù)據(jù)的多樣性,防止樣本擴充所產(chǎn)生的圖像特征相似度高而導致的模型過擬合,數(shù)據(jù)增強方法的實際效果如圖7所示。 圖7 不同數(shù)據(jù)增強方法實際效果圖Fig.7 Actual effect of different data enhancement methods YOLO v7[29]算法是基于深度神經(jīng)網(wǎng)絡(luò)進行對象的識別與定位,通過引入高效聚合網(wǎng)絡(luò)等多個學習策略提高模型學習能力,并大幅提高檢測速度。而小麥籽粒計數(shù)任務(wù)中,當籽粒粘連嚴重甚至形成遮擋時,會嚴重影響卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果,因此,為提高模型對不同離散度下籽粒計數(shù)任務(wù)的檢測精度,本文以YOLO v7作為基線,引入Swin Transformer[30]模塊,提出了YOLO v7-ST模型,模型網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。 圖8 YOLO v7-ST網(wǎng)絡(luò)結(jié)構(gòu)框圖Fig.8 YOLO v7-ST network structure YOLO v7在主干網(wǎng)絡(luò)中采用的多分支堆疊模塊E-ELAN可利用分組卷積來擴展計算模塊的通道和基數(shù),實現(xiàn)在不改變原有梯度路徑的情況下堆疊更多模塊,增強網(wǎng)絡(luò)學習能力。頸部沿用特征金字塔結(jié)構(gòu)對多特征進行融合,頭部網(wǎng)絡(luò)中使用重參數(shù)化卷積RepConv,在訓練過程中并聯(lián)3×3卷積、1×1卷積和恒等映射,為不同的特征映射提供了更多的梯度多樣性。同時添加輔助檢測頭,計算網(wǎng)絡(luò)中間層損失值以監(jiān)督梯度下降方向,最后將輔助頭和檢測頭的結(jié)果進行融合,可有效提高模型性能。 然而,在本文“密集”分布等級下,存在較多因重疊遮擋而產(chǎn)生的小目標籽粒。對于這種高度密集情況下的小目標檢測場景,經(jīng)過主干和頸部網(wǎng)絡(luò)提取到的特征信息中包含大量干擾信息,由傳統(tǒng)卷積模塊進行的權(quán)重分配會導致小目標特征被視為冗余信息而丟失,因此考慮在檢測頭中添加Swin Transformer模塊以更好地整合從特征融合網(wǎng)絡(luò)中輸出的特征信息。 Swin Transformer block首先通過Patch Embedding對輸入圖像進行切塊編碼,經(jīng)歸一化后送入帶移動窗口的多頭注意力機制層,再經(jīng)Concat、LayerNorm以及多層感知機MLP后輸出特征圖。根據(jù)本文檢測類別數(shù)使用1×1卷積對特征圖通道數(shù)進行調(diào)整,得到[20,20,18]、[40,40,18]和[80,80,18]3個輸出結(jié)果,其中18代表3個先驗框的6個參數(shù),分別包括每個特征點的回歸參數(shù)[x,y,w,h],用于調(diào)整獲得預測框位置,以及每個特征點是否包含目標和所包含的目標種類。 表3 各離散度等級計數(shù)結(jié)果評價Tab.3 Evaluation of counting results of each dispersion level 相較于傳統(tǒng)的自注意力機制在對當前位置信息進行編碼時過度關(guān)注自身位置的缺陷,Swin Transformer的多頭注意力機制不僅可以幫助模型獨立地關(guān)注不同的特征子空間,還可通過窗口的移位操作加強局部信息之間的聯(lián)系,捕獲豐富的上下文信息。在公開數(shù)據(jù)集VisDrone2021中,Swin Transformer模塊在高密度遮擋對象上的識別準確率提高了30%~50%[31],這也更加證實了其對遮擋對象的檢測能力。 本文模型訓練通過NVIDIA RTX3080 GPU加速,顯存10 GB,采用Python 3.8及PyTorch 1.7.0完成程序設(shè)計,梯度下降采用Adam優(yōu)化器。為加快模型擬合速度,通過遷移學習加載已在ImageNet數(shù)據(jù)集[32]中訓練完成的主干網(wǎng)絡(luò)權(quán)重參數(shù),且采用凍結(jié)訓練方式將主干網(wǎng)絡(luò)凍結(jié),只訓練頭部網(wǎng)絡(luò),初始學習率為0.001,經(jīng)過50次(Epoch)訓練后解凍,共訓練110次。凍結(jié)訓練時占用顯存較小,設(shè)置Batch Size為8,解凍后設(shè)置Batch Size為4。采用余弦退火策略[33]對學習進行動態(tài)調(diào)整,訓練損失值變化曲線如圖9所示,模型隨迭代次數(shù)增加逐步收斂,在80輪訓練后達到穩(wěn)定,將此時的訓練結(jié)果作為最終權(quán)重參數(shù)。 圖9 訓練損失變化曲線Fig.9 Training loss variation curves YOLO v7-ST網(wǎng)絡(luò)模型輸入圖像是經(jīng)過重疊滑窗裁剪過后的640像素×640像素的小尺寸圖像,需將小尺寸圖像的預測結(jié)果拼接成原始圖像尺寸。由于圖像拼接的重疊部分存在多個預測框,如圖10a所示,因此,采用非極大抑制算法(NMS)和Soft-NMS算法[34]對重疊預測框進行篩選。如圖10b所示,最右側(cè)籽粒與中間籽粒緊密貼合造成遮擋,兩者交并比較大,采用NMS算法導致置信度較低的右側(cè)籽粒預測框被“抑制”,僅留下置信度較高的中間籽粒預測框。而Soft-NMS算法基于交并比的高斯衰減函數(shù)降低重疊框的置信度,衰減函數(shù)公式為 圖10 后處理效果對比Fig.10 Post-processing effect comparisons (5) 式中i——樣本索引 Si——置信度分數(shù) bi——第i個預測框 S′i——衰減后的置信度分數(shù) M——置信度最大的預測框 IoU()——交并比,兩預測框重疊面積與兩預測框并集面積之比 由式(5)可知,與預測框M重疊度越高,即交并比越大的預測框,其置信度衰減越大。重復上述過程更新所有預測框置信度,并設(shè)定置信度閾值,刪除小于該閾值的預測框,其篩選結(jié)果如圖10c所示,Soft-NMS算法有效保留了置信度0.55的右側(cè)預測框。 為量化分析網(wǎng)絡(luò)模型性能,采用平均計數(shù)準確率(Mean counting accuracy,MCA)、精確率(Precisoin,P)、召回率(Recall,R)、F1值和平均計數(shù)時間(Mean counting time,MCT)作為評價指標。其中,平均計數(shù)準確率表示模型預測籽粒數(shù)與實際籽粒數(shù)的比值,用于表征計數(shù)結(jié)果的準確性;精確率反映模型的查準能力;召回率反映模型的查全能力;F1值是評價精確率和召回率的綜合指標;平均計數(shù)時間即單幅圖像的檢測時間。 采用本文構(gòu)建的YOLO v7-ST模型對不同離散度等級的32幅測試集圖像進行預測,單幅圖像籽粒個數(shù)約1 400粒,不同離散度等級下籽粒分布情況如圖11所示。采用預測框的紅色中心點對籽粒進行標記,由表3可知,YOLO v7-ST模型在各離散度等級下的平均計數(shù)準確率平均值為99.16%,F1值平均值為93%,平均計數(shù)時間的平均值為1.19 s,其中籽粒離散度等級處于“稀疏”時,計數(shù)準確率為99.93%;當籽粒處于“中等密集”等級時,籽粒粘連程度增加,計數(shù)準確率達99.80%,表明模型對嚴重粘連籽粒有較好的識別效果;當籽粒處于“密集”等級時,計數(shù)準確率下降2.06個百分點,且精確率普遍高于召回率,說明模型具有更強的查準能力,查全能力稍弱,因此模型計數(shù)準確率下降的主要原因在于遮擋程度增加造成的漏檢,但計數(shù)準確率仍可達到97.74%,模型綜合評價指標F1值均在90%以上。檢測速度方面,由于模型采用重疊滑窗將單幅圖像裁剪15次,即需檢測15次,當籽粒分布密集度高時,部分小尺寸圖像中不存在籽粒,即模型跳過該區(qū)域的檢測,因此單幅圖像檢測時間和籽粒離散度呈負相關(guān);單幅圖像模型平均計數(shù)時間為1.19 s,能夠滿足高通量快速準確檢測的需求。 圖11 各離散度等級計數(shù)效果Fig.11 Counting effects of each dispersion level 為驗證Soft-NMS對拼接后的預測框進行后處理的有效性,在表3中增加了YOLO v7-ST模型不進行后處理的對照組試驗結(jié)果。結(jié)果表明,不進行后處理時模型的計數(shù)準確率大幅下降,3個離散度等級下的平均MCA僅有38.74%,下降了60.42個百分點。精確率同樣下降明顯,但召回率有明顯提升,平均召回率95.37%,提升5.28個百分點,這是因為未進行后處理的模型保留了拼接后的所有預測框,因此模型查全能力更強,但其中包含大量裁剪處被誤分割的“破損籽?!睓z測出的低置信度預測框,導致模型查準能力較差,即精確率低,而添加Soft-NMS可以保留“破損籽?!蓖暾糠诸A測出的高置信度預測框,并剔除僅靠破損部分識別出的低置信度預測框。經(jīng)后處理的YOLO v7-ST模型計數(shù)準確率和F1值大幅提升,充分證明了Soft-NMS后處理的重要性。 為驗證本文網(wǎng)絡(luò)模型的檢測效果,在相同測試集下,分別與目標檢測領(lǐng)域的主流模型YOLO v7、YOLO v5、Faster R-CNN進行對比,結(jié)果如表4所示。 表4 不同模型檢測結(jié)果對比Tab.4 Comparison of detection results for different models 在檢測準確率方面,籽粒離散度等級為“稀疏”時,YOLO系列模型均有極高的識別準確率,準確率達到99.90%,Faster R-CNN準確率較低,僅有96.30%;當籽粒離散度等級為“中等密集”時,各模型平均計數(shù)準確率相較“稀疏”等級,YOLO v7-ST、YOLO v7、YOLO v5和Faster R-CNN分別下滑0.13、0.91、1.13、9.17個百分點,F1值分別下降1、2、3、7個百分點,由于YOLO v7、YOLO v5和Faster R-CNN模型缺少注意力機制對特征的高效提取,易將多個粘連籽粒識別為同一籽粒而造成漏檢,因此YOLO v7-ST模型對于粘連籽粒的檢測效果更優(yōu);當籽粒離散度等級為“密集”時,籽粒之間產(chǎn)生嚴重遮擋,各模型均存在不同程度的漏檢,平均計數(shù)準確率分別為97.74%、95.39%、91.80%和67.73%,F1值分別為90%、86%、82%和62%,相較于另外3種模型,YOLO v7-ST模型的檢測準確率分別提高2.35、5.94、30.01個百分點,F1值分別提高4、8、28個百分點,可見Swin Transformer檢測頭可有效提高遮擋目標的檢測效果。檢測時間方面,以YOLO v7為基線的模型檢測速度更快,由于YOLO v7-ST增加了模型復雜度,但Swin Transformer基于局部移位窗口方法有效降低了參數(shù)量,檢測時間與YOLO v7檢測時間相近。 為驗證本文網(wǎng)絡(luò)模型注意力機制的優(yōu)越性,在相同測試集下,比較了Swin Transformer與通道注意力機制SENet、雙重注意力機制CBAM、自注意力機制Self Attention的效果差異,結(jié)果如表5所示。 表5 不同注意力機制檢測結(jié)果對比Tab.5 Comparison of detection results for different attention algorithms 對比幾種注意力機制的檢測結(jié)果可知,基于自注意力機制的網(wǎng)絡(luò)模型在“密集”等級下的檢測精度更好,這是由于自注意力機制依賴于目標之間的相似度,盡管被遮擋的目標存在一定的特征丟失,但可以通過周圍的籽粒特征近似表達被遮擋籽粒,具有較強的可解釋性。而SENet和CBAM依賴于通道或空間上的特征重要性,通過卷積的權(quán)重學習調(diào)整特征的強弱,缺少相互之間的聯(lián)系。此外,對比Self Attention和Swin Transformer的多頭注意力機制,其本質(zhì)都是通過非線性變換將輸入映射在新的空間中,而本文的多頭注意力可以將輸入映射在6個子空間,再通過特征聚合捕捉所有空間特征信息,信息更豐富,效果更好。 圖12為“稀疏”、“中等密集”和“密集”3種籽粒離散度等級下模型檢測結(jié)果熱力圖,由圖12可知,Faster R-CNN模型識別效果最差,由于其僅關(guān)注籽粒中心局部特征,對大部分籽粒輪廓識別不完整,且在圖中黃色圓圈標注位置,存在大量密集堆積籽粒的漏檢情況。YOLO v5模型對籽粒識別注意力范圍較廣,對于密集籽粒注意力低,導致該模型在不同離散度等級下的識別泛化性能弱。YOLO v7模型對圖像背景和目標的區(qū)分度更高,識別效果明顯優(yōu)于YOLO v5;相較于YOLO v7,YOLO v7-ST的Swin Transformer檢測頭對全局特征以及被遮擋目標具有更強的檢測能力,如圖中紅色圓圈標注位置,該部分熱力圖顏色更深,表明YOLO v7-ST更能關(guān)注到邊緣籽粒和遮擋籽粒等檢測難點,在4種模型中有最高的識別準確率。 圖12 不同模型檢測結(jié)果熱力圖Fig.12 Heat map of test results for different models (1)基于電磁振動原理設(shè)計了小麥籽粒振動分離裝置,通過籽粒受力分析,研究了振動頻率、振幅、輸送傾角和摩擦因數(shù)對籽粒離散程度的影響,并基于多因素正交試驗方案建立了不同籽粒離散度的試驗樣本集。引入二階離散系數(shù)評價方法,結(jié)合圖像處理結(jié)果和籽粒分布特征將籽粒離散度劃分為“稀疏”、“中等密集”和“密集”等級。 (2)提出了一種YOLO v7-ST網(wǎng)絡(luò)模型的高通量小麥籽粒計數(shù)方法,并對不同離散度等級試驗樣本進行了測試,試驗結(jié)果表明,YOLO v7-ST模型對“稀疏”、“中等密集”和“密集”籽粒的平均計數(shù)準確率分別為99.93%、99.80%和97.74%,總平均值為99.16%;模型綜合評價指標F1值分別為95%、94%和90%,總平均值為93%;平均計數(shù)時間分別為1.23、1.19、1.15 s,總平均值為1.19 s,模型檢測精度和效率能滿足小麥室內(nèi)考種的檢測需求。 (3)為驗證本文模型的優(yōu)越性,與常用的目標檢測模型以及其他注意力機制算法進行了對比。籽?!跋∈琛钡燃墪r,本文模型的MCA與YOLO v7和YOLO v5結(jié)果相近,相比Faster R-CNN提高3.63個百分點;“中等密集”等級時,本文模型的MCA相較于YOLO v7、YOLO v5和Faster R-CNN分別提高0.76、1.03、12.67個百分點,隨籽粒離散度等級為“密集”時,MCA進一步提高2.35、5.94、30.01個百分點,此外,本文模型的F1值分別提高4、8、28個百分點。由此可見,隨離散度等級變化,YOLO v7-ST模型的檢測精度更高,針對不同離散度等級的泛化能力更強。YOLO v7結(jié)合不同的注意力機制時,Swin Transformer的多頭注意力機制也比其他通道注意力、空間注意力和自注意力的檢測準確率更高。本文模型的MCT與YOLO v7相近,比YOLO v5和Faster R-CNN模型快0.4 s左右。2 小麥籽粒計數(shù)算法設(shè)計
2.1 數(shù)據(jù)集構(gòu)建
2.2 YOLO v7-ST網(wǎng)絡(luò)模型
2.3 模型訓練及后處理
3 結(jié)果與分析
3.1 預測結(jié)果分析
3.2 不同網(wǎng)絡(luò)模型預測結(jié)果對比
3.3 不同注意力機制預測結(jié)果對比
4 結(jié)論