海 妍,張 君,張東方,李玉超,劉景艷,范曉飛,索雪松
(1.河北農(nóng)業(yè)大學(xué) 機(jī)電工程學(xué)院,河北 保定 071001;2.河北農(nóng)業(yè)大學(xué) 園藝學(xué)院,河北 保定 071001)
種子發(fā)芽力是種子檢測中1 項(xiàng)重要指標(biāo)。而種子發(fā)芽率屬于種子發(fā)芽力的1 種重要評判標(biāo)準(zhǔn),因此種子發(fā)芽率檢測對農(nóng)業(yè)生產(chǎn)有著重要意義。茄子是我國很重要的蔬菜作物,種植區(qū)域廣,種子用量大[1]。目前,國內(nèi)外許多學(xué)者基于可見-近紅外光譜對種子質(zhì)量進(jìn)行了快速檢測和研究。Wang YL 等將熱損傷和人工老化的種子與正常種子進(jìn)行比較,并使用2 臺不同帶寬的光譜儀采集種子的光譜。通過競爭自適應(yīng)重加權(quán)采樣選擇有效變量,建立了種子的鑒別模型。實(shí)驗(yàn)結(jié)果證實(shí)了使用500~1 100 nm 或1 000~1 850 nm 的光譜范圍來區(qū)分種子活力的可行性[2]。Genze N 等使用轉(zhuǎn)移學(xué)習(xí)對不同具有區(qū)域建議的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)進(jìn)行訓(xùn)練,以自動(dòng)識別培養(yǎng)皿中的種子,并預(yù)測種子是否發(fā)芽[3]。馬佳佳等提出了1 種基于機(jī)器視覺的花生種子外觀品質(zhì)檢測與分類方法,利用支持向量機(jī)(Support Vector Machine,SVM)實(shí)現(xiàn)了花生種子的12 個(gè)類別分類[4]。祝保林對小桐子種子圖像進(jìn)行圖像預(yù)處理與特征參數(shù)提取,利用結(jié)合粒子群算法的SVM 分類模型對小桐子種子實(shí)現(xiàn)了分類[5]。楊云紅等將CNN_SVM 模型與其他10 種混合模型進(jìn)行比較,證明CNN_SVM模型在提高水稻種子圖像識別的正確率和縮短識別時(shí)間上面都具有很強(qiáng)的優(yōu)勢[6]。
本文利用多光譜成像技術(shù)采集茄子種子表型特征參數(shù),結(jié)合SVM、CNN 算法對茄子種子進(jìn)行發(fā)芽率預(yù)測。以期為茄子種子發(fā)芽率的檢測提供1 種高效、快速和無損的檢測方法。
1.1 試驗(yàn)材料
本文選用河北農(nóng)業(yè)大學(xué)蔬菜育種實(shí)驗(yàn)室的茄子種子進(jìn)行試驗(yàn),用種子培養(yǎng)箱對種子進(jìn)行水培,以便后期觀察種子發(fā)芽狀態(tài)。將培養(yǎng)箱溫度設(shè)置為25 ℃,光照強(qiáng)度設(shè)置為800 lx,濕度設(shè)置為相對空氣濕度90%,培養(yǎng)環(huán)境符合茄子種子發(fā)芽的最適條件[7]。試驗(yàn)共分為7 組進(jìn)行,每組培養(yǎng)48 粒種子,每組種子如圖1 擺放以便進(jìn)行圖像采集。將每一組種子進(jìn)行編號記錄并采集原始種子圖像,然后將編號后的種子分別裝于培養(yǎng)袋中,放置培養(yǎng)箱中進(jìn)行水培。茄子種子一般發(fā)芽周期為7 d 到14 d[8],分別在種子培養(yǎng)后第7 天至第14 天進(jìn)行圖像采集,記錄茄子種子出芽情況。
圖1 圖像Fig. 1 Image
1.2 試驗(yàn)設(shè)備
為了快速實(shí)現(xiàn)對茄子種子的外觀進(jìn)行圖像采集并實(shí)現(xiàn)經(jīng)濟(jì)性的要求,本試驗(yàn)搭建了如圖2 所示的多光譜成像系統(tǒng)。本系統(tǒng)的主體為五通道多光譜相機(jī)(FS3200T-10GE-NNC,JAI),其可以同時(shí)獲得RGB 圖像和2 個(gè)不同波段的近紅外圖像。此相機(jī)帶有3 個(gè)1/1.8 英寸CMOS 成像器,相機(jī)具有3.45 μm×3.45 μm 像素尺寸,支持近紅外通道。本相機(jī)的近紅外波段在700~1 000 nm 之間,該波段呈現(xiàn)的圖像可以很好地呈現(xiàn)種子的表型信息。本文利用此多光譜成像系統(tǒng)對336 個(gè)茄子種子樣品進(jìn)行圖像采集(如圖1a,b,c 所示)。
圖2 系統(tǒng)結(jié)構(gòu)Fig. 2 System structure
1.3 圖像預(yù)處理
多光譜相機(jī)采集的圖像是由多個(gè)單通道的灰度圖像組成,每張灰度圖像都具備自身的光譜響應(yīng)特性。首先對未經(jīng)處理的圖像(如3a 所示)進(jìn)行分割,將單例種子對應(yīng)編號分割開來。對單粒種子的RGB圖像進(jìn)行灰度化預(yù)處理(如圖3b 所示),為了圖像中種子和背景的差異更明顯,消除圖像中的陰影和一些噪音點(diǎn),實(shí)現(xiàn)穩(wěn)定的特征識別效果,方便圖像的分割處理[9]。然后將灰度圖像進(jìn)行濾波處理,以蹭強(qiáng)圖像的質(zhì)量。圖像在經(jīng)過濾波處理后噪點(diǎn)減少,而且能夠較好地保留種子邊緣信息。最后為實(shí)現(xiàn)圖像二值化運(yùn)用Otsu 閾值分割算法,取1 個(gè)最優(yōu)閾值處理圖像,將圖像中種子與背景分為前景與背景,以此實(shí)現(xiàn)有效地分割圖像[10]。通過圖像形態(tài)學(xué)處理,采用面積閾值可剔除誤分割區(qū)域,再結(jié)合孔洞填充算法,完成茄子種子與背景的分割,形成的二值圖像如圖3c 所示。針對樣本小帶來的泛化能力不足問題,由于茄子種子樣本擺放位置的隨機(jī)性,本試驗(yàn)采用圖像旋轉(zhuǎn)(90°、180°、270°)對圖像進(jìn)行擴(kuò)增。
圖3 種子圖像Fig. 3 Seed image
1.4 數(shù)據(jù)處理
1.4.1 表型特征提取 利用圖像處理等相關(guān)方法對種子表型特征數(shù)據(jù)進(jìn)行提取,分別對茄子種子圖像的形狀以及顏色特征進(jìn)行了提取分析。分別提取了每一粒種子的面積、周長、長軸、短軸、當(dāng)量直徑等形狀特征參數(shù),紅、綠、藍(lán)、色調(diào)、飽和度和明度等特征,取每一粒種子19 個(gè)變量的平均值作為表型信息特征值。
1.4.2 數(shù)據(jù)預(yù)處理 由于不同變量通常具有不同的單位,不同單位會(huì)使后續(xù)的實(shí)際分析處理發(fā)生困難,為了消除變量的量綱影響和變量本身的數(shù)值、差異大小的影響,故需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化[11]。本文利用The Unscramble X 10.4對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,選用的處理方法為最大-最小標(biāo)準(zhǔn)化(公式1)。
式中Y是標(biāo)準(zhǔn)化結(jié)果,X是各變量算術(shù)平均值,Xmin是變量最小值,Xmax是變量最大值。
1.4.3 數(shù)據(jù)降維 主成分分析和連續(xù)投影算法。首先將光譜數(shù)據(jù)預(yù)處理,然后進(jìn)行降維處理,使用主成分分析和連續(xù)投影算法處理光譜數(shù)據(jù),提取其中特征波段,可以使用少量的新的變量代替預(yù)處理后的變量,從而達(dá)到數(shù)據(jù)降維的目的。
連續(xù)投影算法(Successive Projections Algorithm,SPA)是1 種使矢量空間共線性最小化的前向變量選擇算法,其原理就是依據(jù)波長的長度進(jìn)行變量篩選,即將波段信息通過數(shù)學(xué)變換在其他波長信息上進(jìn)行投影,篩選出投影最大的波段信息作為特征波段選取下來[12]。它通過提取全部數(shù)據(jù)的幾個(gè)特征,以消除原始數(shù)據(jù)中多余的重復(fù)信息,對于特征數(shù)據(jù)的篩選有很好的效果[13]。本試驗(yàn)利用SPA 提取了10 個(gè)特征變量,消除了原始數(shù)據(jù)中冗余信息,提取的變量能夠代替原始變量的大量信息。
主成分分析(Principal Component Analysis,PCA)是通過分析原始的所有變量,找到重復(fù)的變量將其刪去,建立更少的互不相關(guān)的新變量,這些新變量盡可能包括原有的信息,代替原始信息[14-15]。在很多時(shí)候,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)2 個(gè)變量之間有一定關(guān)系時(shí),可以解釋為這2 個(gè)變量反映的信息有一定的重疊。為了降低數(shù)據(jù)復(fù)雜性,本試驗(yàn)用SPSS對數(shù)據(jù)進(jìn)行了主成分分析。
1.5 機(jī)器學(xué)習(xí)模型 SVM 是1 種線性分類器,用于處理2 類分類問題,依據(jù)SRM 原則構(gòu)建最優(yōu)分類超平面作為該分類器的判別面。通過核函數(shù)將樣本集投影到高維線性空間中,在該空間中隨機(jī)產(chǎn)生1個(gè)超平面并不斷移動(dòng)對樣本集進(jìn)行分類,直至不同類別的樣本點(diǎn)正好位于該超平面的兩側(cè),能對分類問題提供良好的泛化能力[16]。
CNN 模型一共有 24 層,其中分為輸入層、卷積層、批量歸一化層、激活層、池化層、全連接層和 Softmax 函數(shù)。其中卷積層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能的核心,相當(dāng)于特征提取器,池化層能夠壓縮數(shù)據(jù)和參數(shù)的量,提取出圖像中的重要特征,進(jìn)而壓縮圖片[17]。全連接層的輸入是將卷積層和池化層提取的特征進(jìn)行加權(quán),將特征空間通過線性變換映射到樣本標(biāo)記空間[18]。
本試驗(yàn)中CNN 模型(如圖4 所示)的輸入層為像素大小是 50×50 的5 通道茄子種子圖像。
圖4 卷積神經(jīng)網(wǎng)絡(luò)模型Fig. 4 Convolutional neural network model
此網(wǎng)絡(luò)中一共有3 個(gè)卷積塊,每個(gè)卷積塊都有卷積層和激活層,卷積核大小統(tǒng)一設(shè)置為 3×3,卷積層采用零填充,激活層采用ReLU 激活函數(shù)[19]。最大池化層和 Softmax 函數(shù)都被應(yīng)用在網(wǎng)絡(luò)中,最大池化層的優(yōu)點(diǎn)是能最大程度減輕過擬合[20]。經(jīng)過模型的調(diào)優(yōu),最大訓(xùn)練輪數(shù)設(shè)定為50 次,學(xué)習(xí)率設(shè)為 0.000 1。
2.1 基于SVM 預(yù)測結(jié)果
基于多光譜圖像的一維數(shù)據(jù),本文采用2 種數(shù)據(jù)降維方法,建立了SVM 模型。采用sk_learn 將原始數(shù)據(jù)按7∶3 劃分為訓(xùn)練集和測試集。
2.1.1 基于PCA 預(yù)處理預(yù)測結(jié)果 利用PCA 方法,本文以原始數(shù)據(jù)50%的綜合變量代表原始變量。此試驗(yàn)選取10 個(gè)主成分,這10 個(gè)主成分能代表原始數(shù)據(jù)99%以上的信息,圖5 列出了經(jīng)PCA 提取的10 個(gè)主成分的貢獻(xiàn)率。表1 為此方法建立的SVM分類結(jié)果,訓(xùn)練集準(zhǔn)確率為76.79%,測試集準(zhǔn)確率為70.71%。
表1 PCA+SVM 模型準(zhǔn)確率Table 1 Accuracy of PCA+SVM model
圖5 主成分貢獻(xiàn)率Fig. 5 Principal component contribution rate
2.1.2 基于SPA 預(yù)處理預(yù)測結(jié)果 利用SPA 對原始數(shù)據(jù)進(jìn)行降維處理,為了獲得模型的最優(yōu)效果,將算法的最小特征數(shù)設(shè)置為0,最大特征數(shù)設(shè)置為20。最終經(jīng)過模型的自動(dòng)調(diào)優(yōu),提取10 個(gè)特征變量。所選取的特征變量用來建立SVM 分類模型,其訓(xùn)練集準(zhǔn)確率為74.68%,測試集準(zhǔn)確率為71.71%。表2為經(jīng)SPA 降維后的SVM 模型結(jié)果。
表2 SPA+SVM 模型準(zhǔn)確率Table 2 SPA+SVM model accuracy
2.2 基于CNN 預(yù)測結(jié)果
本試驗(yàn)利用CNN 算法對茄子種子進(jìn)行發(fā)芽率預(yù)測,運(yùn)用CNN 模型訓(xùn)練五通道原始多光譜圖像,從而探索無損預(yù)測種子發(fā)芽力的可行性。利用sk_learn 將336 個(gè)樣本照片隨機(jī)劃分為80%的訓(xùn)練集和20%的驗(yàn)證集,得到266 個(gè)訓(xùn)練集,66 個(gè)驗(yàn)證集。為因數(shù)據(jù)量帶來的模型泛化能力不足的問題,本試驗(yàn)利用圖像旋轉(zhuǎn)將訓(xùn)練集圖像進(jìn)行擴(kuò)增,最終得到1 064 個(gè)訓(xùn)練樣本。此CNN 模型進(jìn)行了10 600 次迭代,每50 次進(jìn)行1 次驗(yàn)證。最終CNN 模型的訓(xùn)練集準(zhǔn)確率為91.6%,驗(yàn)證集準(zhǔn)確率為84.3%,訓(xùn)練過程中的準(zhǔn)確率和損失率如圖6 所示:
圖6 CNN 模型訓(xùn)練準(zhǔn)確率和損失率Fig. 6 Training accuracy and Loss ratio of CNN model
本試驗(yàn)利用多光譜圖像結(jié)合機(jī)器學(xué)習(xí)評估種子發(fā)芽率,實(shí)現(xiàn)了用機(jī)器代替人工對種子發(fā)芽與不發(fā)芽進(jìn)行準(zhǔn)確分類。本文對比了五通道多光譜圖像結(jié)合深度學(xué)習(xí)與種子的一維表型特征數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)對種子發(fā)芽率的預(yù)測效果。首先提取種子5 個(gè)通道的平均灰度值、種子寬度、面積等19 個(gè)表型特征參數(shù),經(jīng)過標(biāo)準(zhǔn)化預(yù)處理后結(jié)合PCA 與SPA 進(jìn)行降維分析,后采用SVM 建立發(fā)芽種子與不發(fā)芽種子的分類模型,2 種降維算法所建立的SVM 模型分類準(zhǔn)確率均達(dá)到70%以上。其次采用CNN 模型建立了基于未經(jīng)處理原始種子的多光譜圖像的種子深度學(xué)習(xí)分類模型,模型訓(xùn)練集準(zhǔn)確率為91.6%,驗(yàn)證集的準(zhǔn)確率為84.3%。證明在種子發(fā)芽率的預(yù)測中,五通道多光譜圖像與深度學(xué)習(xí)結(jié)合的有效性,深度學(xué)習(xí)結(jié)合五通道多光譜圖像可以更快速、更高效地實(shí)現(xiàn)種子發(fā)芽率的預(yù)測。CNN 通過對種子原始圖像的特征提取要比人為進(jìn)行種子表型特征的提取更加全面、更加具有代表性。本文通過機(jī)器學(xué)習(xí)結(jié)合多光譜成像技術(shù)實(shí)現(xiàn)了茄子種子發(fā)芽率的預(yù)測,可為茄子種子加工提供了1 種無損、高通量的研究方法。
河北農(nóng)業(yè)大學(xué)學(xué)報(bào)2023年6期