崔江南,付蕓,趙森,鄧澤宇,王天樞
(長春理工大學 光電工程學院,長春 130022)
番茄葉霉病又稱黑霉病,是由黃褐孢霉菌引起的番茄病害,主要危害葉片,嚴重時也危及莖、花和果實。番茄葉霉病一旦發(fā)生,迅速擴展,一般造成20%~30%的減產(chǎn),嚴重時可達50%以上,給番茄生產(chǎn)帶來巨大的經(jīng)濟損失。傳統(tǒng)的診斷方法主要以人工觀察為主,借助于農(nóng)學人員的判斷和農(nóng)民自身的經(jīng)驗,診斷結(jié)果易受主觀因素的影響,效率低,誤差大,經(jīng)常會延誤治理的最佳時機。因此,迫切需要一種快速、無損、準確的病害檢測手段。
近年來,越來越多的學者將高光譜成像技術(shù)應用于農(nóng)作物病害檢測的相關(guān)研究中。例如水稻稻瘟病、水稻紋枯?。?-2]、小麥白粉病、小麥條銹?。?-4]、玉米種子質(zhì)量[5-6]等糧食作物類的研究;黃瓜霜霉病[7],茄子[8]、菠菜[9]的凍傷,柑橘黃龍?。?0],感染黃瓜綠斑駁病毒的西瓜種子[11],藍莓腐爛?。?2]等果蔬作物類的檢測。
在番茄病害檢測方面,Gu Qing等人[13]利用高光譜成像技術(shù)對受番茄斑點枯萎病毒(Tomato spotted wilt virus,TSWV)侵染初期的煙草進行了檢測。結(jié)果表明,機器學習方法結(jié)合波長選擇算法可用于TSWV的早期檢測。Nik Susic等人[14]采用高光譜成像方法對被線蟲侵染和水分缺乏脅迫的番茄植株開展了研究。結(jié)果表明,偏最小二乘法和支持向量機分類器在區(qū)分水分充足或缺水的植物時準確率高達100%,在識別線蟲侵染的植物時準確率在90%~100%之間。
本文以番茄的葉霉病為研究對象,利用高光譜成像系統(tǒng)分別采集健康、輕微病變、嚴重病變等三類葉片樣本的高光譜數(shù)據(jù)。首先,運用PCA和SPA提取數(shù)據(jù)特征;然后,分別利用GSA、PSO和GA三種算法對SVM法的建模參數(shù)c、g進行尋優(yōu);最后,分別將基于全譜數(shù)據(jù)、PCA提取的特征變量、SPA提取的特征變量,以及SPA-PCA提取的特征變量作為SVM模型的輸入,依次構(gòu)建了4種番茄葉霉病的分類模型。通過對比分析3種尋優(yōu)算法及4種分類模型的準確率,確定識別番茄葉霉病的最佳分類模型,為病害的早期防治和病害程度的監(jiān)測提供理論依據(jù)。
本實驗過程中所用到的番茄葉片均來自于吉林省農(nóng)業(yè)科學院經(jīng)濟植物研究所。于2019年10月21日進入果樹種植基地,尋找發(fā)生病害的番茄葉片,采摘后的所有病變?nèi)~片均經(jīng)過病理檢驗,保證其僅含有單一的葉霉病。按照葉片患病區(qū)域的大小劃分病害嚴重等級,進行分類后裝入不同的保鮮袋密封保存,并放入置有冰塊的便攜式保溫箱中保存,然后迅速送往實驗室進行高光譜數(shù)據(jù)采集。通過篩選最終得到葉霉病嚴重病變?nèi)~片148片、輕微病變?nèi)~片160片、健康葉片152片,三類不同病害程度的番茄葉片如圖1所示。
圖1 三類不同病害程度的番茄葉片
高光譜圖像的采集設(shè)備是由上海五鈴光電科技有限公司生產(chǎn)的HSI-VNIR(400~1 000 nm)型推掃式可見光-近紅外高光譜成像系統(tǒng),分光儀采用透射式光柵分光,光譜范圍為400~1 000 nm,光譜分辨率為2.8 nm,光源為21 V/200 W穩(wěn)定輸出鹵素燈。系統(tǒng)主要包括成像光譜儀、CCD相機、光源、電控位移平臺、暗箱和計算機等部件,高光譜成像系統(tǒng)裝置如圖2所示。
圖2 可見光-近紅外高光譜成像系統(tǒng)
為了減少環(huán)境噪聲和暗電流對光譜數(shù)據(jù)采集的影響,高光譜數(shù)據(jù)采集前,首先對成像裝置預熱30 min左右,目的是消除基線漂移對圖像質(zhì)量的影響。預熱完畢后,打開圖像采集軟件,對圖像采集的相關(guān)參數(shù)進行設(shè)置,以保證圖像采集質(zhì)量且避免失真。設(shè)置完畢后,手動將樣品放置在載物臺上開始圖像采集,當葉片整個輪廓完整出現(xiàn)在采集軟件窗口中央時,點擊停止按鈕,此時樣品高光譜圖像采集完畢,并被保存在預先設(shè)置的存儲路徑中,每個葉片均采集10次,取10次圖像數(shù)據(jù)的平均值作為最終數(shù)據(jù),如此重復完成所有樣本圖像數(shù)據(jù)的采集。
所有待測樣本的高光譜圖像數(shù)據(jù)采集完畢后,為了避免光照不均勻和暗電流的影響,需要對所有原始高光譜圖像進行黑白標定。在相同的采集環(huán)境下,掃描標準白色校正板得到全白的標定圖像,蓋上相機鏡頭后蓋得到全黑的標定圖像,然后按照公式(1)對原始圖像進行校正:
式中,Rc為校正后的高光譜圖像;Rraw為利用高光譜圖像采集系統(tǒng)采集到的原始高光譜圖像;Rwhite為利用標準白色校正板采集得到的全白的標定圖像(反射率接近99%);Rdark為關(guān)閉相機鏡頭進行圖像采集得到的全黑的標定圖像(反射率接近0%)。校正工具為高光譜采集系統(tǒng)自帶的軟件HSI Analyzer。
為了進一步降低噪聲干擾,去除高光譜數(shù)據(jù)首尾各30個波段,得到400~900 nm波長范圍內(nèi)共462個波長的可見光高光譜數(shù)據(jù)。將剔除異常樣本后的光譜數(shù)據(jù)按照3∶1的比例劃分數(shù)據(jù)集,得到訓練集樣本315個,測試集樣本105個。
為提取病害葉片的完整光譜信息,根據(jù)采集樣本病斑特征均勻分布的特點,以葉片葉脈為中心,利用ENVI 5.3軟件選取靠近葉尖部位的100像素×100像素的區(qū)域作為光譜信息采集的感興趣區(qū)域(region of interest,ROI),最終采集的番茄樣本的原始光譜信息如圖3所示。
圖3 三類番茄葉片的原始光譜信息
為了降低環(huán)境、儀器、測量方法等因素引入的干擾,利用MATLAB 2019b軟件自帶的mapminmax歸一化函數(shù)對所有高光譜數(shù)據(jù)均進行降噪平滑處理。為了進一步研究不同病害程度葉片光譜信息的差異,取每組樣本反射率的平均值,得到平均光譜反射率曲線。從圖4可以看出,番茄葉霉病不同病害程度的光譜反射率存在差異,說明光譜反射率信息可以作為診斷番茄葉霉病病害的依據(jù),但就輕微病變和嚴重病變兩類番茄葉片而言,兩條光譜曲線存在很大的相似性,可能導致最終兩類番茄葉片的分類結(jié)果出現(xiàn)混淆,使分類精度變差。
圖4 三類番茄葉片的平均光譜曲線
為了解決高光譜數(shù)據(jù)波段多、數(shù)據(jù)量大而產(chǎn)生的數(shù)據(jù)相關(guān)、冗余、共線性等問題,降低模型的復雜度,提高建模精度和計算速度,運用主成分分析(principle component analysis,PCA)和連續(xù)投影算法(successive projection algorithm,SPA)對高光譜數(shù)據(jù)進行特征變量的提取。
PCA是最常用的數(shù)據(jù)降維方法之一,它保持了數(shù)據(jù)中對方差貢獻最大的特征,可提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。SPA是一種使矢量空間共線性最小化的前向變量選擇算法,它的優(yōu)勢在于提取全波段的幾個特征波長,能夠消除原始光譜矩陣中冗余信息,可用于光譜特征波長的篩選。
支持向量機(support vector machine,SVM)是由Vapnik領(lǐng)導的AT&T bell實驗室研究小組在1995年提出的一種基于統(tǒng)計學習理論的分類方法,是一種有監(jiān)督的機器學習方法。因SVM具有擬合精度高、學習能力強、訓練時間短、選擇參數(shù)少、泛化能力好和全局最優(yōu)等特點,因而,在解決小樣本、高維數(shù)和非線性等問題上具有很大的優(yōu)勢。
懲罰因子c和核函數(shù)中的參數(shù)g是影響支持向量機性能的主要參數(shù),常見的尋優(yōu)算法有:網(wǎng)格搜索算法(GSA)、粒子群算法(PSO)和遺傳算法(GA)。本文將利用SVM建立番茄葉霉病的識別模型,并通過3種尋優(yōu)算法確定SVM建模的最優(yōu)參數(shù),以發(fā)揮SVM分類器的最佳性能。
采用PCA算法對全部樣本的高光譜數(shù)據(jù)進行降維,得到前10個主成分(principle component,PC)的特征值和累計貢獻率,如表1所示。
表1 前10個主成分特征值和累計貢獻率
其中,PC1的貢獻率最大,為76.30%,前2個PC的累計貢獻率為94.57%,之后累計貢獻率不斷增加,但增加幅度減小,即所含的有用信息越來越少。因此,選擇前2個PC作為特征變量建模。
利用SPA算法提取特征波長,不僅能夠提取樣本中的有效信息,還能夠大幅度地減少構(gòu)建模型的計算量和復雜度。本研究中設(shè)置特征變量的數(shù)量范圍為10~50,利用MATLAB 2019b軟件運行SPA算法對預處理后的光譜進行特征波長的篩選。根據(jù)均方根誤差(RMSE)選擇變量的數(shù)量,如圖5所示。當變量個數(shù)為14時,得到最低值0.399 09,符合顯著性水平α=0.25的F檢驗,因此選擇14個特征變量,如表2所示,后續(xù)將以此14個波長作為特征變量進行建模。
圖5 SPA選擇不同變量數(shù)的RMSE分布圖
表2 SPA特征波長選擇結(jié)果
通過SPA算法選取番茄葉霉病樣本的特征波長數(shù)為14個,光譜特征維數(shù)仍然很高,為了進一步減少變量之間可能存在的相關(guān)性或共線性,獲取更少的特征變量,本文利用PCA對SPA選取的特征變量進一步降維,結(jié)果如表3所示。由于只有前2個PC的特征值大于1,但累計貢獻率沒有達到85%,為了盡可能多地保留原始的光譜信息,所以選取前6個PC作為特征變量進行建模。
表3 前6個主成分特征值和累計貢獻率
分別以全譜、PCA、SPA和SPA-PCA提取的特征變量作為SVM建模的輸入,建立番茄葉霉病的全譜-SVM、PCA-SVM、SPA-SVM和SPA-PCASVM的分類模型,核函數(shù)選用RBF,每個模型分別使用GSA、PSO和GA獲取懲罰因子c和核參數(shù)g的最優(yōu)值,三種算法的尋優(yōu)結(jié)果如圖6所示。
其中,圖6(a)、圖 6(b)為GSA算法的參數(shù)尋優(yōu)結(jié)果,根據(jù)經(jīng)驗,利用網(wǎng)格搜索算法進行參數(shù)優(yōu)化的SVM其懲罰參數(shù)c和高斯核函數(shù)參數(shù)g的取值范圍為 2-10≤c≤210,2-10≤g≤210,參數(shù)設(shè)置如下:步長cstep=0.5,gstep=0.5,其余參數(shù)默認。圖6(c)為PSO算法的參數(shù)尋優(yōu)結(jié)果,根據(jù)經(jīng)驗,利用粒子群算法進行參數(shù)優(yōu)化的SVM其懲罰參數(shù)c和高斯核函數(shù)參數(shù)g的取值范圍為0.1≤c≤100,0.1≤g≤10,參數(shù)設(shè)置如下:初始種群數(shù)量 pop=20,加速系數(shù)c1=1.5,c2=1.7,最大迭代次數(shù)T=200,其余參數(shù)默認;圖6(d)為GA算法的參數(shù)尋優(yōu)結(jié)果,根據(jù)經(jīng)驗,利用遺傳算法進行參數(shù)優(yōu)化的SVM其懲罰參數(shù)c和高斯核函數(shù)參數(shù)g的取值范圍為 0.1≤c≤100,0.1≤g≤10,參數(shù)設(shè)置如下:初始種群數(shù)量pop=20,最大迭代次數(shù)T=100,其余參數(shù)默認。
圖6 三種不同尋優(yōu)算法的尋優(yōu)結(jié)果
各分類模型預測準確率如表4所示。
表4 SVM各分類模型預測準確率
由上述分類結(jié)果可知,所有模型的總體預測準確率均高于80%,精度較好,模型對健康樣本的分類準確度最高,對病變樣本的分類準確度稍差。PCA-SVM模型的總體預測精度略低于全譜-SVM模型,但輸入變量數(shù)由462降為2,在大幅度降低特征維數(shù)、縮短運行時間的同時,也丟失了某些特征信息,從而導致分類精度的下降。SPA-SVM模型相比于全譜-SVM模型,特征波段數(shù)減小到14,在維持原有健康樣本的預測精度時,對輕微病變樣本的檢測精度大幅提升,可能是提取到了健康樣本與病變樣本存在差異的特征波段,從而使分類精度提高,但對嚴重病變的預測結(jié)果依舊很差。正常情況下,提取特征變量后會丟失原始樣本的某些有效信息,使分類精度降低,但SPA-PCA-SVM模型相比于全譜-SVM模型,健康樣本的預測精度有所提升,可能是在特征提取的過程中去除了原始健康樣本中的噪聲,提高了分類精度。綜上所述,從每類分類準確率和總體分類準確率來看,最優(yōu)模型為SPAPCA-SVM模型,該模型在犧牲少許精度的同時,大幅度減少了輸入的特征變量數(shù),提高了計算速度,能夠最大程度地區(qū)分病變樣本與健康樣本,但對不同病變程度的樣本的區(qū)分效果較差,SPA-PCA-SVM模型最優(yōu)分類結(jié)果如圖7所示。
圖7 SPA-PCA-SVM模型的最優(yōu)分類結(jié)果
本文以不同病變程度的番茄葉霉病葉片樣本為研究對象,采用不同的算法提取特征變量,構(gòu)建了各種番茄葉霉病的識別模型,主要結(jié)論如下:
(1)所有模型都對健康樣本的識別效果較好,而對不同病變程度的葉片的分類效果有待提高。
(2)PCA、SPA和SPA-PCA等算法均能對高光譜數(shù)據(jù)進行特征變量的提取,從而大幅度地降低數(shù)據(jù)的冗余度,減少參與建模的數(shù)據(jù)量,同時,還能較好地保留樣本的特征信息。結(jié)果表明,SPA-PCA-SVM模型的分類效果最優(yōu),建模輸入變量少,檢測精度較高,運行速度較快。
(3)從對番茄葉霉病的尋優(yōu)結(jié)果可知,GSA的運行時間最少,GA次之,PSO的運行時間最長。從分類準確率上來看,GSA的分類準確率較高,在大多數(shù)情況下,PSO和GA的分類精度與GSA接近,但耗時較長。綜合考慮,在利用SVM進行建模時,參數(shù)尋優(yōu)函數(shù)可優(yōu)先選擇GSA。
總之,高光譜成像技術(shù)可應用于番茄葉霉病的無損檢測。今后將從數(shù)據(jù)預處理、特征變量提取、建模方法等方面加以改進,以提高分類精度。此外,由于僅通過肉眼根據(jù)患病區(qū)域大小來定義標簽,存在人為誤差,導致標簽精度不高,嚴重影響了分類準確率,后續(xù)將借助病變多層分級、聚類分析和葉綠素定量分析等手段提高標簽精度。大量研究表明,高光譜圖像中的紋理和顏色等特征也包含了重要信息,接下來將對光譜特征與圖像特征進行融合,進一步提升分類效果。