王瑩 李越 武婷婷 孫石 王敏娟
摘要:為快速準(zhǔn)確計(jì)數(shù)大豆籽粒,提高大豆考種速度和育種水平,本研究提出了一種基于密度估計(jì)和 VGG-Two (VGG-T)的大豆籽粒計(jì)數(shù)方法。首先針對(duì)大豆籽粒計(jì)數(shù)領(lǐng)域可用圖像數(shù)據(jù)集缺乏的問(wèn)題,提出了基于數(shù)字圖像處理技術(shù)的預(yù)標(biāo)注和人工修正標(biāo)注相結(jié)合的快速目標(biāo)點(diǎn)標(biāo)注方法,加快建立帶標(biāo)注的公開(kāi)可用大豆籽粒圖像數(shù)據(jù)集。其次構(gòu)建了適用于籽粒圖像數(shù)據(jù)集的VGG-T 網(wǎng)絡(luò)計(jì)數(shù)模型,該模型基于VGG16,結(jié)合密度估計(jì)方法,實(shí)現(xiàn)從單一視角大豆籽粒圖像中準(zhǔn)確計(jì)數(shù)籽粒。最后采用自制的大豆籽粒數(shù)據(jù)集對(duì) VGG-T 模型進(jìn)行測(cè)試,分別對(duì)有無(wú)數(shù)據(jù)增強(qiáng)的計(jì)數(shù)準(zhǔn)確性、不同網(wǎng)絡(luò)的計(jì)數(shù)性能以及不同測(cè)試集的計(jì)數(shù)準(zhǔn)確性進(jìn)行了對(duì)比試驗(yàn)。試驗(yàn)結(jié)果表明,快速目標(biāo)點(diǎn)標(biāo)注方法標(biāo)注37,563個(gè)大豆籽粒只需花費(fèi)197 min ,比普通人工標(biāo)注節(jié)約了1592 min ,減少約96%的人工工作量,大幅降低時(shí)間成本和人工成本;采用VGG-T 模型計(jì)數(shù),其評(píng)估指標(biāo)在原圖和補(bǔ)丁(patch)情況下的平均絕對(duì)誤差分別為0.6和0.2,均方誤差為0.6和0.3,準(zhǔn)確性高于傳統(tǒng)圖像形態(tài)學(xué)操作以及ResNet18、ResNet18-T 和VGG16網(wǎng)絡(luò)。在包含不同密度大豆籽粒的測(cè)試集中,誤差波動(dòng)較小,仍具有優(yōu)良的計(jì)數(shù)性能,同時(shí)與人工計(jì)數(shù)和數(shù)粒儀相比,計(jì)數(shù)11,350個(gè)大豆籽粒分別節(jié)省大約2.493h和0.203h ,實(shí)現(xiàn)大豆籽粒的快速計(jì)數(shù)任務(wù)。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);籽粒計(jì)數(shù);籽粒圖像;點(diǎn)標(biāo)注;密度圖; VGG-Two;育種
中圖分類(lèi)號(hào): TP391.4;TP183文獻(xiàn)標(biāo)志碼: A文章編號(hào):202101-SA002
引用格式:王瑩, 李越, 武婷婷, 孫石, 王敏娟. 基于密度估計(jì)和VGG-Two的大豆籽??焖儆?jì)數(shù)方法[J].智慧農(nóng)業(yè)(中英文), 2021, 3(4):111-122.
WANG Ying, LI Yue, WU Tingting, SUN Shi, WANG Minjuan. Fast counting method of soybean seeds based on density estimation and VGG-Two[J]. Smart Agriculture, 2021, 3(4):111-122.(in Chinese with English abstract)
1? 引言
據(jù)最新統(tǒng)計(jì)數(shù)據(jù)顯示,2019年中國(guó)大豆需求量 1.1億噸,而國(guó)內(nèi)大豆產(chǎn)量?jī)H1810萬(wàn)噸,約有9500萬(wàn)噸的產(chǎn)量缺口需通過(guò)國(guó)際市場(chǎng)彌補(bǔ)[1]。解決大豆產(chǎn)量不足問(wèn)題的主要方法是提升大豆育種水平。目前阻礙育種研究加速的原因之一是無(wú)法大規(guī)模高通量獲取大豆表型性狀[2,3]。百粒重是大豆重要的產(chǎn)量性狀,而測(cè)量百粒重的前提就是計(jì)算籽粒數(shù)量??焖倬_的大豆籽粒計(jì)數(shù)能加快考種速度,促進(jìn)大豆育種研究,進(jìn)而提升大豆育種水平,對(duì)提升大豆產(chǎn)量具有非常重要的意義。
在早期階段,常用的籽粒計(jì)數(shù)方法是人工籽粒計(jì)數(shù),但此操作耗時(shí)耗力。同時(shí),肉眼的判斷具有很大的偶然性和主觀性,長(zhǎng)時(shí)間計(jì)數(shù)后不可避免會(huì)產(chǎn)生誤差,導(dǎo)致計(jì)數(shù)不準(zhǔn)確[4]。相比人工計(jì)數(shù),光電種子數(shù)粒儀可輕松避免由于偶然性和主觀性產(chǎn)生的誤差,結(jié)構(gòu)簡(jiǎn)單、操作方便,對(duì)種子無(wú)破壞作用;還能起到“一機(jī)多用”的功能。隨著研究的深入,光電種子數(shù)粒計(jì)數(shù)誤差越來(lái)越小,但其普遍存在的不足之處在于價(jià)格昂貴,計(jì)數(shù)速度慢,不利于大規(guī)模農(nóng)業(yè)生產(chǎn)自動(dòng)化的發(fā)展[5]。隨著計(jì)算機(jī)技術(shù)的發(fā)展和圖像信息的普遍化,機(jī)器視覺(jué)逐漸被科研人員應(yīng)用到大豆籽粒計(jì)數(shù)領(lǐng)域,如利用腐蝕膨脹法、分水嶺算法[4,6]、特征點(diǎn)匹配[7]等基于數(shù)字圖像處理技術(shù)的方法實(shí)現(xiàn)籽粒識(shí)別和計(jì)數(shù)。榮斐[6]針對(duì)多種子相互粘連的情況,對(duì)圖像處理方法進(jìn)行研究,運(yùn)用腐蝕膨脹法、面積分配法和分水嶺算法,實(shí)現(xiàn)對(duì)黑豆的分割和快速計(jì)數(shù)。周洪壘[4]使用距離變換與分水嶺相結(jié)合的算法實(shí)現(xiàn)粘連區(qū)域的分割,提出劃線分割算法,并加入多線程以實(shí)現(xiàn)算法處理速度的提升。Liu等[8]確定了圖像特征點(diǎn)與谷粒數(shù)之間的關(guān)系,探索了圖像特征點(diǎn)的測(cè)量方法,并將其與現(xiàn)有的計(jì)數(shù)方法進(jìn)行了相似性和差異性的比較,誤差率均低于2%。Tan 等[9]提出了雜交水稻粘連籽粒的精確分割和計(jì)數(shù)算法,該算法根據(jù)分水嶺分割算法、改進(jìn)的角點(diǎn)算法和BP 神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)分類(lèi)算法分離和計(jì)算粘連谷粒數(shù),與人工計(jì)數(shù)結(jié)果相比,所提方法平均準(zhǔn)確率為94.63%?;趥鹘y(tǒng)數(shù)字圖像處理的籽粒計(jì)數(shù)方法與人工計(jì)數(shù)和光電種子數(shù)粒儀相比,其計(jì)數(shù)速度確實(shí)有所提升,計(jì)數(shù)精度也有一定提高,但該類(lèi)方法需要專(zhuān)業(yè)知識(shí)和手動(dòng)提取圖像特征,具有復(fù)雜的調(diào)參過(guò)程,同時(shí)每個(gè)方法都針對(duì)具體應(yīng)用,其泛化能力及魯棒性較差[10]。
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks ,CNN)模型[11]在諸多領(lǐng)域取得非常成功的應(yīng)用[12-14],深度學(xué)習(xí)技術(shù)[15]也得到農(nóng)業(yè)領(lǐng)域研究人員的認(rèn)可。與傳統(tǒng)數(shù)字圖像處理技術(shù)相比,CNN 模型的優(yōu)勢(shì)是自動(dòng)學(xué)習(xí)和提取有用特征,實(shí)現(xiàn)自動(dòng)化和智能化計(jì)數(shù)。雖然 CNN 在大豆籽粒計(jì)數(shù)領(lǐng)域研究和應(yīng)用相對(duì)較少,但在其他目標(biāo)計(jì)數(shù)[16]方面有相關(guān)研究,如 Pound 等[17]建立了一個(gè)名為 ACID (Annotated Crop ImageDataset)的新數(shù)據(jù)集,提出了一種可以準(zhǔn)確定位小麥尖峰和小穗同時(shí)準(zhǔn)確分類(lèi)和計(jì)數(shù)的多任務(wù)深度學(xué)習(xí)方法。Deng等[18]建立并測(cè)試了基于具有特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)的Faster R-CNN高精度谷物檢測(cè)模型,用于自動(dòng)檢測(cè)和計(jì)數(shù)每穗粒數(shù),與人工計(jì)數(shù)谷粒的結(jié)果相比,該模型的平均準(zhǔn)確率達(dá)到99.4%且檢測(cè)性能不受品種和水分條件的影響。Wu等[19]開(kāi)發(fā)了線性回歸模型和深度學(xué)習(xí)模型來(lái)計(jì)算每穗粒數(shù),其計(jì)數(shù)準(zhǔn)確率分別大于96%和 99%。Wu等[20]采用深度學(xué)習(xí)方法解決傳統(tǒng)圖像處理算法的局限性,通過(guò)構(gòu)建基于區(qū)域的Faster R-CNN模型并運(yùn)用遷移學(xué)習(xí)方法,優(yōu)化了小麥籽粒檢測(cè)和計(jì)數(shù)模型,其平均精度為0.91。翟強(qiáng)等[21]利用具有不同尺寸感受野的 CNN 和特征注意模塊自適應(yīng)提取多尺度人群特征,結(jié)合密度估計(jì)方法實(shí)現(xiàn)人群計(jì)數(shù)。
基于 CNN 的目標(biāo)計(jì)數(shù)的實(shí)現(xiàn)為大豆籽粒計(jì)數(shù)提供了新思路?;趫D像的目標(biāo)計(jì)數(shù)方法可歸納為兩大類(lèi)[22]:一是基于檢測(cè)的方法;二是基于回歸的方法,其中包括直接回歸和密度圖回歸。由于大豆籽粒圖像密度不一、籽粒小,基于小目標(biāo)檢測(cè)的方法需要訓(xùn)練檢測(cè)器來(lái)捕獲信息,通過(guò)檢測(cè)器檢測(cè)目標(biāo)并計(jì)算其數(shù)量,但是訓(xùn)練檢測(cè)器比較復(fù)雜,計(jì)算量較大[23]。與此同時(shí)在深度 CNN 架構(gòu)中經(jīng)過(guò)多次下采樣后,深層的特征圖將會(huì)丟失空間信息。而且基于直接回歸進(jìn)行計(jì)數(shù)的缺點(diǎn)是沒(méi)有精確的定位,但基于密度回歸的方法跳過(guò)了艱巨的識(shí)別和分類(lèi)任務(wù),直接生成密度圖,學(xué)習(xí)圖像的局部特征和其相應(yīng)的密度圖之間的映射,再根據(jù)密度圖積分得到目標(biāo)計(jì)數(shù)[24]。因此本研究將密度估計(jì)和 CNN 相結(jié)合,根據(jù)籽粒特征構(gòu)建 VGG-Two (VGG-T)模型,進(jìn)而實(shí)現(xiàn)從單一視覺(jué)大豆籽粒圖像中快速準(zhǔn)確識(shí)別大豆籽粒數(shù)。
2? 數(shù)據(jù)集構(gòu)建
大規(guī)模標(biāo)注數(shù)據(jù)的可用性是深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得成功的原因之一。比較成功的神經(jīng)網(wǎng)絡(luò)需要大量參數(shù),參數(shù)的正確工作需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,然而目前缺少公開(kāi)可用帶標(biāo)注的大豆籽粒數(shù)據(jù)集。因此本研究首先采集并建立了適用于CNN的大豆籽粒圖像數(shù)據(jù)集。
2.1 數(shù)據(jù)采集
選擇種植于中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所北京順義基地的大豆樣本?;卮笈锸疽鈭D如圖1所示,其中種植區(qū)種植各品種大豆。隨機(jī)選取5個(gè)種植區(qū)域內(nèi)的小部分區(qū)域(如圖1 深藍(lán)色區(qū)域)的大豆植株,品種為“中黃39”,接著進(jìn)行收割、摘莢、人工清除污垢等操作,后續(xù)在2號(hào)大棚的圖像采集區(qū)(如圖1黃色區(qū)域)進(jìn)行數(shù)字成像。
將脫粒大豆種子隨機(jī)平鋪在一塊黑色吸光背景布上,保證種子不重疊,盡量避免相互接觸。在白天、具有漫反射自然照明條件下的植物工廠中,使用相機(jī)(SONY ILCE-5000型號(hào),光圈 f/4,焦距16 mm ,曝光時(shí)間1/60 s ,閃光燈模式為強(qiáng)制無(wú)閃光)采集原始大豆種子圖像。采集時(shí),將相機(jī)放置于平鋪種子的正上方,距離種子30~50 cm 。圖2為大豆籽粒圖像的采集裝置和經(jīng)過(guò)調(diào)節(jié)圖像對(duì)比度、亮度和尺寸大小等預(yù)處理步驟后的原始圖像。
2.2 數(shù)據(jù)標(biāo)注
2.2.1?? 大豆籽粒預(yù)標(biāo)注
圖3是大豆籽粒預(yù)標(biāo)注流程圖。為方便后續(xù)環(huán)節(jié)的處理,運(yùn)用圖像預(yù)處理來(lái)調(diào)節(jié)采集的籽粒圖像的對(duì)比度、亮度、尺寸。針對(duì)籽粒圖像特點(diǎn),利用轉(zhuǎn)灰度、求閾值等一系列圖像分析算法進(jìn)行目標(biāo)區(qū)域提取。為避免錯(cuò)誤標(biāo)注和減少后期人工修正標(biāo)注的工作量,補(bǔ)充設(shè)計(jì)了刪除大面積粘連籽粒預(yù)標(biāo)注的處理。最后,定位部分籽粒并獲取這些籽粒質(zhì)心坐標(biāo)。
將預(yù)處理后的 RGB籽粒圖像 I 轉(zhuǎn)成灰度圖GI ,使用灰度閾值函數(shù)計(jì)算出全局閾值t ∈[ 0,1],其中灰度閾值函數(shù)使用最大類(lèi)間方差法(OTSU)。二值化操作是將大于閾值 t的各像素賦值為1 (白色),為目標(biāo)區(qū)域,其余像素賦值為0(黑色),為背景區(qū)域。
為去除籽粒內(nèi)部的黑色噪聲,對(duì)二值圖像進(jìn)行刪除小面積處理。如圖4(a)紅框標(biāo)注所示。種子內(nèi)部有黑色區(qū)域,會(huì)影響后續(xù)對(duì)籽粒的識(shí)別和標(biāo)記,需將籽粒內(nèi)部全部像素置為1 。這里設(shè)定面積閾值 T1,將小于 T1的區(qū)域像素全部置為1 ,如圖4(b)所示。
刪除小面積操作之后的二值圖像中有部分籽粒粘連,如圖5(a)紅色框顯示,若直接對(duì)其進(jìn)行質(zhì)心預(yù)標(biāo)注,會(huì)出現(xiàn)錯(cuò)標(biāo)和漏標(biāo)兩個(gè)問(wèn)題,如圖 6(a)。為盡量減少后期人工修正標(biāo)注的工作量,利用刪除粘連籽粒預(yù)標(biāo)注結(jié)果的方法來(lái)避免錯(cuò)標(biāo)問(wèn)題。圖6 (b)是刪除預(yù)標(biāo)注之后的示意圖,只出現(xiàn)漏標(biāo)情況。這里首先進(jìn)行形態(tài)學(xué)腐蝕操作,分離粘連籽粒,如圖5(b)紅框所示,但存在小部分粘連程度較大的籽粒仍無(wú)法分離,如圖5(b)綠框所示。為減少后續(xù)人工修正錯(cuò)誤標(biāo)注的工作量,進(jìn)行刪除大面積的粘連籽粒預(yù)標(biāo)注處理,其中設(shè)置了兩個(gè)面積閾值 T2,分別是190和 300。通過(guò)對(duì)比質(zhì)心標(biāo)注效果,圖7 (a)為 T2=300時(shí)的標(biāo)注示意圖,出現(xiàn)了錯(cuò)標(biāo)和漏標(biāo)兩個(gè)問(wèn)題;圖 7(b)為 T2=190時(shí)的標(biāo)注示意圖,只出現(xiàn)了漏標(biāo)情況,因此將面積閾值參數(shù) T2設(shè)置為190。
2.2.2? 大豆籽粒標(biāo)注系統(tǒng)
為實(shí)現(xiàn)快速、準(zhǔn)確、低成本的點(diǎn)標(biāo)注,利用MATLAB R2017b 構(gòu)建“脫粒種子標(biāo)注系統(tǒng)V1.0”(簡(jiǎn)稱(chēng)“標(biāo)注系統(tǒng)”),其中包括文件管理單元和標(biāo)注單元兩部分。標(biāo)注系統(tǒng)功能結(jié)構(gòu)如圖8所示。文件管理單元用于載入、清空?qǐng)D像,圖像中種子所在位置坐標(biāo)信息的顯示和存儲(chǔ)等,包括圖像載入、參數(shù)顯示、數(shù)據(jù)存儲(chǔ)以及圖像清空功能。標(biāo)注單元分成兩種標(biāo)注方式:一種是普通的人工標(biāo)注,即直接在載入的圖像上逐一標(biāo)注種子;另一種是基于傳統(tǒng)數(shù)字圖像處理技術(shù)的“預(yù)標(biāo)注+人工修正”的標(biāo)注方式,首先在 MAT‐LAB 中調(diào)用imerode()函數(shù)通過(guò)形態(tài)學(xué)腐蝕操作處理二值化圖像,對(duì)原始圖像進(jìn)行初步的籽粒識(shí)別和定位,詳情見(jiàn)1.2.1 ,然后在此基礎(chǔ)上進(jìn)行人工補(bǔ)充標(biāo)注,該方法對(duì)37,563個(gè)大豆籽粒進(jìn)行標(biāo)注時(shí)只需要使用197 min ,與人工標(biāo)注相比節(jié)約了 1592 min ,減少了約96%的人工工作量,大大降低標(biāo)注時(shí)間成本和人力成本。
該標(biāo)注系統(tǒng)的用戶(hù)界面如圖9所示。點(diǎn)擊圖9(a)中“預(yù)標(biāo)記”按鈕,紅色星號(hào)預(yù)標(biāo)記圖形將直接顯示在大豆籽粒上,從圖中可以看出,預(yù)標(biāo)記并沒(méi)有把所有的籽粒全部標(biāo)記成功,有部分籽粒被漏標(biāo),此時(shí)需要人工補(bǔ)充標(biāo)注。點(diǎn)擊圖9 (b)中“人工修正”按鈕,此時(shí)左邊區(qū)域籽粒圖像中紅色星號(hào)標(biāo)記被清空,右邊區(qū)域不變,人工參照右邊區(qū)域的圖像預(yù)標(biāo)記情況,通過(guò)操作鼠標(biāo)在左邊區(qū)域的圖像上對(duì)沒(méi)有標(biāo)記到的籽粒進(jìn)行補(bǔ)充標(biāo)注,如圖9 (b),人工修正利用綠色星號(hào)進(jìn)行標(biāo)注。標(biāo)注完成后,點(diǎn)擊菜單欄里的“保存”按鈕,標(biāo)注的籽粒坐標(biāo)被保存為*. mat 文件。
2.3 數(shù)據(jù)增強(qiáng)
為在原始圖像數(shù)量有限的情況下盡可能多的增加輸入圖像的數(shù)量,考慮在每一張?jiān)紙D像的不同位置裁剪出9個(gè)補(bǔ)?。╬atch),patch的大小設(shè)定為原始圖像大小的四分之一。設(shè)置用于訓(xùn)練和驗(yàn)證網(wǎng)絡(luò)的圖像數(shù)量為239張,則 patch 數(shù)量為2151個(gè),遠(yuǎn)遠(yuǎn)大于原始圖像的數(shù)量。在第4節(jié)試驗(yàn)部分,分別用有無(wú)數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,并進(jìn)行估測(cè)性能的對(duì)比,驗(yàn)證了使用數(shù)據(jù)增強(qiáng)的重要性和必要性。
2.4 數(shù)據(jù)集建立
按照6:1:3的比例,設(shè)置訓(xùn)練集、驗(yàn)證集和測(cè)試集圖像數(shù)。大豆籽粒圖像的訓(xùn)練集包含206張,共22,582個(gè)標(biāo)記種子;驗(yàn)證集包含33張,共3631個(gè)標(biāo)記種子;測(cè)試集包含103張,共11,350個(gè)標(biāo)記種子。經(jīng)過(guò)數(shù)據(jù)增強(qiáng),用于訓(xùn)練和驗(yàn)證網(wǎng)絡(luò)的輸入數(shù)量擴(kuò)充為2151個(gè)patch 。表1 為該數(shù)據(jù)集的詳細(xì)信息。
3? 研究方法
3.1 基于密度圖的籽粒計(jì)數(shù)
與基于檢測(cè)的方法相比較,基于密度圖的方法不用進(jìn)行分類(lèi)、預(yù)選框的回歸訓(xùn)練以及目標(biāo)分割操作,只需要訓(xùn)練網(wǎng)絡(luò),將特征圖映射成密度圖即可,然后直接根據(jù)密度圖積分計(jì)算輸入圖像的籽粒數(shù)。
3.2 真值密度圖
為實(shí)現(xiàn)網(wǎng)絡(luò)模型從輸入種子圖像中估測(cè)其種子密度圖,前期需要對(duì) VGG-T 網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練網(wǎng)絡(luò)需要提供高質(zhì)量的訓(xùn)練數(shù)據(jù)集,基于密度圖估計(jì)的人群計(jì)數(shù)通常使用高斯核將標(biāo)注點(diǎn)生成真值密度圖,以真值密度圖為監(jiān)督信號(hào),通過(guò)網(wǎng)絡(luò)生成的密度圖計(jì)數(shù)求和來(lái)實(shí)現(xiàn)計(jì)數(shù),以及計(jì)算損失。因此本節(jié)所用的數(shù)據(jù)集除2.4小節(jié)描述的種子圖像外,還包括每張種子圖像對(duì)應(yīng)的真值密度圖。
將高斯核與種子中心標(biāo)注點(diǎn)進(jìn)行卷積操作,可以生成種子圖像對(duì)應(yīng)的真值密度圖。
Dgt? = G σ(x - xi)??????????????? (1)
其中,xi 表示種子的中心位置; x 表示輸入圖像中各像素的位置; N表示該圖像包含的種子個(gè)數(shù),個(gè); G σ是高斯核,σ為擴(kuò)散參數(shù),值由圖像中種子的大小來(lái)確定。由于種子相對(duì)稀疏并且同一品種的種子大小相差很小,因此在高斯核中使用相同的擴(kuò)展參數(shù)來(lái)生成真值密度圖。種子圖像的真值密度圖如圖10所示。
3.3 VGG-T 網(wǎng)絡(luò)架構(gòu)
由于密度回歸法多用于人群計(jì)數(shù)[25],且許多工作均采用 VGG16為主干[26-28],以在許多測(cè)試數(shù)據(jù)集上獲得良好的性能。根據(jù)在不同數(shù)據(jù)集上的良好表現(xiàn),本研究同樣以VGG16作為基礎(chǔ)網(wǎng)絡(luò)。近期的目標(biāo)計(jì)數(shù)方法大多使用主干卷積神經(jīng)網(wǎng)絡(luò)的最后一層生成估測(cè)密度圖。然而由于最后一層卷積層只有單一尺度,同時(shí)由于多層池化操作,使得最后一層的分辨率大大降低,不利于生成高精度的密度圖,因此這種網(wǎng)絡(luò)不能實(shí)現(xiàn)準(zhǔn)確的估測(cè)目標(biāo)數(shù)量。為了更好地檢測(cè)小物體,本研究結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)淺層和深層的特征,以獲得必要的空間和語(yǔ)義信息。
本研究設(shè)計(jì)的 VGG-T 網(wǎng)絡(luò)擁有以下特性:在 Conv4_3之后分支了2個(gè)特征數(shù)據(jù)流,第一個(gè)數(shù)據(jù)流直接生成第一個(gè)密度圖,第二個(gè)數(shù)據(jù)流經(jīng)過(guò)Conv5_3之后,生成第二個(gè)密度圖,將兩個(gè)密度圖進(jìn)行融合得到最終的估測(cè)密度圖。圖11給出了VGG-T的架構(gòu)圖。
該網(wǎng)絡(luò)的主干網(wǎng)絡(luò)為 VGG16。主要特征提取步驟為:(1)用64個(gè)3×3、步幅為1 的濾波器構(gòu)建的兩個(gè)卷積層(Conv1_1 , Conv1_2)對(duì)輸入圖像進(jìn)行卷積,輸出特征圖的大小保持不變,通道數(shù)量為64;然后用2×2、步幅為2 的濾波器構(gòu)建最大池化層(Pool1),池化層將輸入特征圖進(jìn)行壓縮,輸出大小是輸入大小的1/2,通道數(shù)為64;(2)用128個(gè)3×3、步幅為1 的濾波器構(gòu)建兩個(gè)卷積層(Conv2_1 , Conv2_2),輸出特征圖的大小保持不變,通道數(shù)量為128;然后用2×2、步幅為2 的濾波器構(gòu)建最大池化層(Pool2),池化層將輸入特征圖進(jìn)行壓縮,輸出大小是輸入大小的1/2,即是原始輸入圖像的1/4,通道數(shù)為128;(3)用256個(gè)3×3、步幅為? 1的濾波器構(gòu)建的三個(gè)卷積層(Conv3_1, Conv3_2,Conv3_3)對(duì)輸入圖像進(jìn)行卷積,輸出特征圖的大小保持不變,通道數(shù)量為256;然后用2×2、步幅為2 的濾波器構(gòu)建最大池化層(Pool3),池化層將輸入特征圖進(jìn)行壓縮,輸出大小是輸入大小的1/2,即是原始輸入圖像的? 1/8,通道數(shù)為256;(4)用512個(gè)3×3、步幅為?????? 1的濾波器構(gòu)建的三個(gè)卷積層(Conv4_1, Conv4_2,Conv4_3)對(duì)輸入圖像進(jìn)行卷積,通道數(shù)量為512。之后分支了2個(gè)特征數(shù)據(jù)流。
VGG-T 與傳統(tǒng) VGG16網(wǎng)絡(luò)模型的對(duì)比如表2所示。相比 VGG16,本研究用1×1的卷積核代替全連接層,因?yàn)?×1的卷積核一方面大大降低要求解網(wǎng)絡(luò)參數(shù)的個(gè)數(shù),同時(shí)滿(mǎn)足全連接層的作用,另一方面還能夠適應(yīng)不同的輸入數(shù)據(jù)的大小。其中標(biāo)1 的通道直接經(jīng)濾波器為1×1的 Conv 回歸得到一個(gè)密度圖(De1);標(biāo)2 的通道則需要再經(jīng)過(guò) Pool4, Conv5_1 , Conv5_2, Conv5_3,Conv 回歸得到另一個(gè)密度圖(De2),由于比通道1 多一次池化操作,其得到的密度圖尺寸會(huì)再減小一半,為能夠完成最后一步密度圖的融合,該通道還要經(jīng)過(guò)一次反卷積操作。
使用 De1? = {dje1} 和 De2? = {dje2} 分別表示從Conv4_3和 Conv5_3回歸得到的兩個(gè)密度圖,由濾波器為1×1且只有一個(gè)輸出的卷積層回歸得到。其中,j表示密度圖中第j個(gè)像素,djei表示第 j個(gè)像素的密度。因?yàn)榻?jīng)過(guò)最大池化操作,De1 和 De2 有不同的尺寸大?。好拷?jīng)過(guò)一個(gè)最大池化,輸出尺寸都會(huì)變成原來(lái)的1/2,De1經(jīng)過(guò)三次最大池化,其尺寸是輸入圖像的1/8,De2經(jīng)過(guò)四次最大池化,其尺寸是輸入圖像的1/16。相應(yīng)的,為能夠完成網(wǎng)絡(luò)模型的訓(xùn)練,將真值密度圖下采樣到原尺寸的1/8和 1/16。使用平均兩個(gè)估測(cè)密度圖的方式進(jìn)行融合:首先,定義 UP (?)為反卷積上采樣過(guò)程,使用 UP (De2)來(lái)表示De2 通過(guò)反卷積層進(jìn)行上采樣得到與De1 相同尺寸的密度圖;然后使用(De1? + UP (De2))/2表示融合這兩個(gè)相同尺寸的估測(cè)密度圖,以得到最終的估測(cè)密度圖De:
De? =??????????????????????????????????????? (2)
其中,De表示融合后的估測(cè)密度圖代號(hào),其分辨率是輸入圖像的1/8,同時(shí)需要下采樣相應(yīng)的真值密度圖。
VGG-T 輸入的是圖像,輸出的是種子密度圖,對(duì)密度圖積分可得出該圖包含的種子總數(shù),用于計(jì)算種子數(shù)的公式如下:
Cet (N)=?? ∑ d t (N)?????????????????? (3)
其中,Cet(N)是測(cè)試圖像N中包含的種子數(shù)量估測(cè)值,粒; d t (N)表示通過(guò)網(wǎng)絡(luò)最優(yōu)模型獲得的圖像N的每個(gè)像素的估測(cè)密度值,粒。
3.4 損失函數(shù)計(jì)算
均方誤差損失函數(shù)LMSE 是典型的損失函數(shù)之一,它能逐像素地計(jì)算出訓(xùn)練網(wǎng)絡(luò)中生成的估測(cè)密度圖與訓(xùn)練數(shù)據(jù)中給出的真值密度圖之間的歐幾里德距離,函數(shù)如公式(4)所示。但是均方差損失不能考慮到密度圖之間的局部相關(guān)性,因此使用結(jié)構(gòu)點(diǎn)差異(Structural? Dissimilarity, DSSIM)損失函數(shù)LDSSIM 來(lái)測(cè)量估測(cè)密度圖和真值密度圖之間的局部模式一致性,見(jiàn)公式(5)。LDSSIM 源自結(jié)構(gòu)相似性(Structural SSIM),其函數(shù)見(jiàn)公式(6)。
其中,Θ是在網(wǎng)絡(luò)中一組可學(xué)習(xí)的參數(shù); N為訓(xùn)練圖像的數(shù)量,個(gè); Xi表示輸入圖像; M是密度圖中的像素?cái)?shù),個(gè);λ 是平衡LMSE 和LDSSIM 的加權(quán)值。E 和 G分別表示估測(cè)值和真值。SSIMi中的均值μEi、μGi和標(biāo)準(zhǔn)差σEi、σGi、σEiGi由大小為5× 5的高斯濾波器在每個(gè)位置j 上計(jì)算得到,C 1? =(k1 L)2,C2? =(k2 L)2為兩個(gè)常數(shù),避免除零,L =2B? -1 為像素值范圍,B 表示比特深度,且k1? =0.01,k2? =0.03為默認(rèn)值。方程中忽略了平均值和標(biāo)準(zhǔn)差對(duì)像素j的依賴(lài)性。L(θ)為真值密度圖與估測(cè)密度圖之間的損失。
由于訓(xùn)練樣本的數(shù)量有限,以及梯度消失對(duì)深度神經(jīng)網(wǎng)絡(luò)的影響,網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)所有參數(shù)并不容易。受到預(yù)訓(xùn)練的啟發(fā),分別對(duì)通道1和通道2單獨(dú)訓(xùn)練,學(xué)習(xí)到各層參數(shù)作為整體訓(xùn)練時(shí)2個(gè)分支通道的初始值。
3.5 評(píng)估指標(biāo)
使用平均絕對(duì)誤差(Mean Absolute Devia‐tion,MAE)和均方誤差(Mean-Square Error,MSE)來(lái)評(píng)估本方法。MAE 是一種常見(jiàn)的用于回歸模型的損失函數(shù),反映估測(cè)值和真實(shí)值之間的距離,定義如下:
MAE =? | ei? - ai |????????????? (8)
其中,N為測(cè)試樣本的數(shù)量,個(gè);ei為被評(píng)估的模型估測(cè)的第i張圖像中的種子數(shù),個(gè); ai?? 為來(lái)自被標(biāo)記的第i張圖像中的實(shí)際種子數(shù),個(gè); MAE表示測(cè)試集中種子數(shù)估測(cè)的準(zhǔn)確性,MAE 越小,說(shuō)明種子數(shù)估測(cè)的越準(zhǔn)確。
MSE是最常用的回歸損失函數(shù),表示種子數(shù)估測(cè)的穩(wěn)定性,MSE越大,說(shuō)明估測(cè)的結(jié)果存在異常值。MSE定義如下:
MSE =? (ei? - ai)2??????????????????????????????????????? (9)
4? 試驗(yàn)與結(jié)果分析
試驗(yàn)在操作系統(tǒng)為Ubuntu 18.464-bits 的 PC 機(jī)上進(jìn)行,其處理器為 Intel? Xeon (R) CPU E5-2630 v4@ 2.20GHz×20,內(nèi)存為32 GB 。使用PyTorch深度學(xué)習(xí)框架基于 NVIDIA 1080Ti GPU 來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練和測(cè)試。
4.1 有無(wú)數(shù)據(jù)增強(qiáng)計(jì)數(shù)對(duì)比
分別使用239張大豆籽粒圖像(無(wú)數(shù)據(jù)增強(qiáng))和 2151個(gè)patch (有數(shù)據(jù)增強(qiáng))作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練 VGG-T 網(wǎng)絡(luò),在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中,使用驗(yàn)證集來(lái)評(píng)估和優(yōu)化模型,然后用分別得到的最優(yōu)模型來(lái)估測(cè)測(cè)試集中圖像的籽粒數(shù)。表3 為相關(guān)結(jié)果數(shù)據(jù)。
從結(jié)果數(shù)據(jù)可以看出,使用數(shù)據(jù)增強(qiáng)的方法生成的 patch 作為訓(xùn)練數(shù)據(jù),其測(cè)試后得出的 MAE和MSE數(shù)值都較小,由此證明數(shù)據(jù)增強(qiáng)這一步驟對(duì)于提高網(wǎng)絡(luò)的估測(cè)性能非常重要而且必要。這里使用的隨即裁剪增加了訓(xùn)練樣本的多樣性,相當(dāng)于建立每個(gè)因子特征與相應(yīng)類(lèi)別的權(quán)重關(guān)系,減弱背景(或噪聲)因子的權(quán)重,且使模型面對(duì)缺失值不敏感,最終產(chǎn)生更好的學(xué)習(xí)效果,增加了模型的穩(wěn)定性,進(jìn)而提高網(wǎng)絡(luò)的估測(cè)性能。
4.2 不同計(jì)數(shù)方法對(duì)比
使用239張?jiān)即蠖棺蚜D像和 2151個(gè)patch 作為訓(xùn)練集來(lái)分別訓(xùn)練基礎(chǔ) VGG16網(wǎng)絡(luò)、VGG-T網(wǎng)絡(luò)、ResNet18網(wǎng)絡(luò)和ResNet18-T 網(wǎng)絡(luò)。其中 ResNet18-T 采用與 VGG-T 相同的思想增加一個(gè)分支以融合多尺度特征。同時(shí)使用傳統(tǒng)形態(tài)學(xué)操作,該過(guò)程首先利用最大類(lèi)間方差法對(duì)已進(jìn)行亮度、大小、對(duì)比度調(diào)節(jié)的圖像二值化,之后通過(guò)形態(tài)學(xué)梯度(膨脹-腐蝕)獲得大豆籽粒邊緣,接著利用原始圖像減去邊緣來(lái)減少籽粒之間的粘連,最終使用 OpenCV 中的findCoutours函數(shù)找到圖像中所有大豆籽粒的輪廓并進(jìn)行計(jì)數(shù),但由圖5能夠看出經(jīng)形態(tài)學(xué)腐蝕后粘連籽粒仍然未能分離。表4為5種方法的計(jì)數(shù)性能比較,根據(jù)MAE和MSE的值可以看出,當(dāng)進(jìn)行傳統(tǒng)形態(tài)學(xué)操作時(shí),其對(duì)應(yīng)的誤差均較大;對(duì)于原始圖像,VGG-T 在估測(cè)準(zhǔn)確性和穩(wěn)定性上顯著優(yōu)于基礎(chǔ) VGG16、ResNet18和 ResNet18-T;對(duì)于增強(qiáng)后的patch 數(shù)據(jù),VGG-T 的性能與ResNet18-T相當(dāng),同時(shí)優(yōu)于VGG16和ResNet18。綜上所述,試驗(yàn)結(jié)果顯示了所提出的兩個(gè)分支進(jìn)行數(shù)據(jù)特征的融合能夠進(jìn)一步實(shí)現(xiàn)模型性能的提升,且VGG-T 網(wǎng)絡(luò)在所有數(shù)據(jù)中的綜合表現(xiàn)最好。
4.3 不同測(cè)試集計(jì)數(shù)對(duì)比
將測(cè)試集的所有圖像按照每張含有籽粒數(shù)的大小進(jìn)行升序排列,然后將排好的103張測(cè)試圖像分成7 組,組1~組 7分別包含15、15、15、15、14、14、15張籽粒圖。用 VGG-T 的最優(yōu)訓(xùn)練模型分別測(cè)試這7 組測(cè)試集,表5 為 MAE、 MSE、真值種子數(shù)以及估測(cè)種子數(shù)。真值種子數(shù)表示各組平均每張圖像含有的種子數(shù)的真實(shí)值,估測(cè)種子數(shù)表示各組平均每張圖像含有的種子數(shù)的估測(cè)值。由表中數(shù)據(jù)可以看出,組1 的MAE和組4的MSE分別達(dá)到最小,為0.46和0.52。同時(shí)隨著圖像中大豆籽粒數(shù)量的不斷增加,組1~組7 的MAE 和MSE大致呈升高趨勢(shì),但增加幅度均較小,其中真值和估值最多相差2粒,說(shuō)明訓(xùn)練得到的最優(yōu)模型在包含70~200個(gè)籽粒圖像上均具有優(yōu)良的計(jì)數(shù)性能。
4.4 時(shí)間成本
目前人工計(jì)數(shù)是大豆育種者使用最為普遍的計(jì)數(shù)方法,同時(shí)光電種子數(shù)粒儀可輕松避免偶然性和主觀性導(dǎo)致的誤差,因此將本研究方法與光電種子數(shù)粒儀、人工計(jì)數(shù)方法進(jìn)行計(jì)數(shù)時(shí)間比較,結(jié)果如表6 所示。在采集原始圖像的同時(shí),調(diào)研了三位大豆育種工作者三天內(nèi)計(jì)數(shù)種子的情況,經(jīng)統(tǒng)計(jì)得出人工計(jì)數(shù)效率為100粒/80 s ,即1.25粒/s;光電種子數(shù)粒儀的計(jì)數(shù)速度大約為1000粒/3min ,即5.56粒/s 。利用本研究方法的計(jì)數(shù)效率為116.69粒/s。
本研究建立的數(shù)據(jù)集中測(cè)試集共103張大豆籽粒圖,包含11,350粒種子,假設(shè)計(jì)數(shù)效率均不變,不間斷人工手動(dòng)計(jì)數(shù)需要大約2.52h ,光電種子數(shù)粒儀則需要0.23h左右,而利用本方法耗時(shí)大約0.027h 。本方法針對(duì)人工計(jì)數(shù)和數(shù)粒儀分別節(jié)省了大約2.493h 和0.203h ,所用時(shí)間成本分別是人工手動(dòng)計(jì)數(shù)、數(shù)粒儀時(shí)間成本的1/94和1/9。
5? 結(jié)論
本研究提出了一種大豆籽粒快速高精度計(jì)數(shù)方法,構(gòu)建VGG-T模型并結(jié)合籽粒密度圖進(jìn)行回歸,所得結(jié)論如下:
(1)設(shè)計(jì)了大豆籽粒標(biāo)注系統(tǒng),提出了基于數(shù)字圖像處理技術(shù)的預(yù)標(biāo)注和人工修正標(biāo)注相結(jié)合的快速目標(biāo)點(diǎn)標(biāo)注方法。新方法標(biāo)注37,563個(gè)大豆籽粒只需要花費(fèi)197 min ,比普通人工標(biāo)注節(jié)約了1592 min ,減少了約96%的人工工作量。
(2)建立了包含342張已標(biāo)注大豆籽粒圖像,共37,563個(gè)中心被標(biāo)注的公開(kāi)可用大豆籽粒圖像數(shù)據(jù)集。
(3)構(gòu)建了結(jié)合密度估計(jì)方法的基于VGG-T的大豆籽粒數(shù)估測(cè)模型,其評(píng)估指標(biāo)在原圖和patch情況下的MAE分別為0.6和0.2,MSE為0.6和0.3,相比傳統(tǒng)圖像形態(tài)學(xué)操作、ResNet18、ResNet18-T 和 VGG16網(wǎng)絡(luò),本方法提高了大豆籽粒計(jì)數(shù)的準(zhǔn)確性。同時(shí)相比人工計(jì)數(shù)和數(shù)粒儀,以0.027 h 完成測(cè)試集中11,350個(gè)大豆籽粒的快速計(jì)數(shù),分別節(jié)省了大約2.493h和0.203h。
參考文獻(xiàn):
[1]韓昕儒, 梅旭榮, 李思經(jīng), 等. 中國(guó)農(nóng)業(yè)產(chǎn)業(yè)發(fā)展戰(zhàn)略前瞻[J].智庫(kù)理論與實(shí)踐, 2019, 4(6):2-7.
HAN X, MEI X, LI S, et al. The development strategy of China's agricultural industry[J]. Think Tank Theory & Practice, 2019, 4(6):2-7.
[2] ALI A, KHAN S A, EHSANULLAH, et al. Estimationof genetic parameters in soybean for yield and morphological? characters[J]. Pakistan Journal? of Agriculture, Agricultural? Engineering,? Veterinary? Sciences, 2016, 32(2):162-168.
[3]何進(jìn). 不同年代大豆品種籽粒產(chǎn)量差異及其水磷虧缺適應(yīng)機(jī)制[D].蘭州:蘭州大學(xué), 2016.
HE J. Grain yield difference of soybean varieties in different ages and its adaptation mechanism to water and phosphorus deficiency[D]. Lanzhou: Lanzhou University, 2016.
[4]周洪壘. 基于圖像處理的水稻考種系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué), 2019.
ZHOU H. Design and implementation of rice seed test system based on image processing[D]. Chengdu: University of Electronic Science and Technology, 2019.
[5]宋礽蘇, 華嬌, 藍(lán)景針, 等. 轉(zhuǎn)盤(pán)斜刮式光電自動(dòng)數(shù)粒儀設(shè)計(jì)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào), 2011, 42(11):89-92.
SONG R, HUA J, LAN J, et al. Design of photoelectric automatic particle counting instrument with rotary table[J]. Transactions of the CSAM, 2011, 42(11):89-92.
[6]榮斐. 基于圖像處理的作物種子自動(dòng)計(jì)數(shù)軟件開(kāi)發(fā)[J].工業(yè)設(shè)計(jì), 2011(7):126-127.
RONG F. Development of crop seed automatic counting software based on image processing[J]. Industrial Design, 2011(7):126-127.
[7]崔亮. 基于機(jī)器視覺(jué)的農(nóng)作物種子計(jì)數(shù)檢測(cè)系統(tǒng)[D].太原:中北大學(xué), 2016.
CUI L. Crop seed counting detection system based on machine vision[D]. Taiyuan: North? China University,2016.
[8] LIU T, CHEN W, WANG Y, et al. Rice and wheat graincounting method and software development based on Android system[J]. Computers and Electronics in Agriculture, 2017(141):302-309.
[9] TAN S, MA X, MAI Z, et al. Segmentation and count‐ing algorithm for touching hybrid rice grains[J]. Computers? and? Electronics? in? Agriculture,? 2019(162):493-504.
[10] 潘銳, 熊勤學(xué), 張文英. 數(shù)字圖像技術(shù)及其在作物表型研究中的應(yīng)用研究進(jìn)展[J].長(zhǎng)江大學(xué)學(xué)報(bào)(自科版), 2016, 13(21):38-41.
PAN R, XIONG Q, ZHANG W. Digital image technol‐ogy and its application in crop phenotype research[J].Journal of Changjiang University, 2016, 13(21):38-41.
[11] 章琳, 袁非牛, 張文睿, 等. 全卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2020, 56(1):25-37.
ZHANG L, YUAN F, ZHANG W, et al. A survey of to‐tal? convolution? neural networks [J]. Computer? Engi‐neering and Application, 2020, 56(1):25-37.
[12] ALSMIRAT M A, AL-ALEM F, AL-AYYOUB M, etal. Impact of digital fingerprint image quality on thefingerprint recognition? accuracy[J]. Multimedia Toolsand Applications, 2019, 78(3):3649-3688.
[13] MEDEN B, MALLI R C, FABIJAN S, et al. Face dei‐dentification with generative deep neural networks[J].IET Signal? Processing, 2017, 11(9):1046-1054.
[14] YU H, HE F, PAN Y. A novel segmentation model formedical images with intensity inhomogeneity based onadaptive perturbation[J]. Multimedia Tools and Appli‐cations, 2019, 78(9):11779-11798.
[15] LECUN Y, BENGIO Y, HINTON G. Deep learning[J].Nature, 2015, 521(7553):436-444.
[16] AICH S, STAVNESS I. Global sum pooling: A general‐ization trick for object counting with small datasets oflarge images[J/OL]. arXiv:1805.11123.2018.
[17] POUND M P, ATKINSON J A, WELLS D M, et al.Deep? learning? for? multi-task? plant? phenotyping[C]//The IEEE International Conference on Computer Vi‐sion Workshops. Piscataway, New York, USA: IEEE,2017:2055-2063.
[18] DENG R, TAO M, HUANG X, et al. Automated count‐ing grains on the rice panicle based on deep learningmethod[J]. Sensors, 2021, 21(1):281.
[19] WU W, LIU T, ZHOU P, et al. Image analysis-basedrecognition and quantification of grain number per pan‐icle in rice[J]. Plant Methods, 2019, 15: ID 122.
[20] WU W, YANG T, LI RUI, et al. Detection and enumer‐ation of wheat grains based on a deep learning methodunder various scenarios and scales[J]. Journal of Inte‐grative Agriculture, 2020, 19(8):1998-2008.
[21] 翟強(qiáng), 王陸洋, 殷保群, 等. 基于尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)算法[J].計(jì)算機(jī)工程, 2020, 46(2):250-254.
ZHAI Q, WANG L, YIN B, et al. Crowd counting algo‐rithm based on scale adaptive convolution neural net‐work[J]. Computer Engineering, 2020, 46(2):250-254.
[22] AICH? S,? STAVNESS? I. Improving? object? countingwith? heatmap? regulation[J/OL].? ArXiv:? abs/1803.05494.2018.
[23] LIU Y, SUN P, WERGELES N, et al. A survey and per‐formance? evaluation? of? deep? learning? methods? forsmall object detection[J]. Expert Systems with Applica‐tions, 2021, 172: ID 114602.
[24] BABU SAM D, SURYA S, VENKATESH BABU R.Switching? convolutional? neural? network? for? crowd counting[C]// The IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2017:5744-5752.
[25] MA Z,? WEI? X,? HONG? X,? et? al. Bayesian? loss? forcrowd? count? estimation? with? point? supervision[C]// The IEEE/CVF International Conference on Computer Vision. Piscataway,? New? York,? USA: IEEE, 2019:6142-6151.
[26] VARIOR R R, SHUAI B, TIGHE J, et al. Multi-scaleattention? network? for? crowd? counting[J/OL]. arXiv:1901.06026.2019.
[27] ZHU L, ZHAO Z, LU C, et al. Dual path multi-scale fu‐sion networks with attention for crowd counting[J/OL].arXiv:1902.01115.2019.
[28] SIMONYAN K, ZISSERMAN A. Very deep convolu‐tional networks for large-scale image recognition[J/OL].arXiv:1409.1556.2014.
Fast Counting Method of Soybean Seeds Based onDensity Estimation and VGG-Two
WANG Ying1, LI Yue1, WU Tingting2, SUN Shi2, WANG Minjuan1*
(1. Key Laboratory of Modern Precision Agriculture System Integration Research, China Agricultural University,Beijing 100083, China;2. Institute of Crop Sciences, Chinese Academy of Agricultural Sciences/Beijing Key Laboratory of Soybean Biology, Ministry of Agriculture and Rural Affairs, Beijing 100081, China)
Abstract: In order to count soybean seeds quickly and accurately, improve the speed of seed test and the level of soybean breeding, a method of soybean seed counting based on VGG-Two (VGG-T) was developed in this research. Firstly, in view of the lack of available image dataset in the field of soybean seed counting, a fast target point labeling method of combining pre-annotation based on digital image processing technology with manual correction annotation was proposed to speed up the establishment of publicly available soybean seed image dataset with annotation. Only 197 min were taken to mark 37,563 seeds when using this method, which saved 1592 min than ordinary manual marking and could reduce 96% of manual workload. At the same time, the dataset in this research is the largest annotated data set for soybean seed counting so far. Secondly, a method that combined the density estimation-based and the convolution neural network (CNN) was developed to accurately estimate the seed count from an individual threshed seed image with a single perspective. Thereinto, a CNN architecture consisting of two columns of the same network structure was used to learn the mapping from the original pixel to the density map. Due to the very limited number of training samples and the effect of vanishing gradients on deep neural networks, it is not easy for the network to learn all parameters at the same time. Inspired by the success of pre-training, this research pre-trained the CNN in each column by directly mapping the output of the fourth convolutional layer to the density map. Then these pre-trained CNNs were used to initialize CNNs in these two columns and fine-tune all parameters. Finally, the model was tested, and the effectiveness of the algorithm through three comparative experiments (with and without data enhancement, VGG16 and VGG-T, multiple sets of test set) was verified, which respectively provided 0.6 and 0.2 mean absolute error (MAE) in the original image and patch cases, while mean squared error (MSE) were 0.6 and 0.3. Compared with traditional image morphology operations, ResNet18, ResNet18-T and VGG16, the method proposed improving the accuracy of soybean seed counting. In the testset containing soybean seeds of different densities, the error fluctuation was small, and it still had excellent counting performance. At the same time, compared with manual counting and photoelectric seed counter, it saved about 2.493 h and 0.203 h respectively for counting 11,350 soybean seeds, realizing rapid soybean seeds counting.