丁琪萍,姚明印,2,吳書佳,薛乃豪,萬 奇,曾 敏,徐 將*
(1.江西農(nóng)業(yè)大學(xué) 工學(xué)院,江西 南昌 330045;2.江西省現(xiàn)代農(nóng)業(yè)裝備重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330045)
【研究意義】臍橙屬于蕓香科柑橘屬,甜橙類主要品種[1],以其色澤鮮艷、汁多味美、營養(yǎng)豐富等特點(diǎn)而深受消費(fèi)者的喜愛,具有良好的生態(tài)經(jīng)濟(jì)效益。臍橙黃龍病(Huanglongbing,HLB)是由柑橘木虱傳播的革蘭氏陰性細(xì)菌引起的毀滅性病害,因其傳播迅速、破壞力巨大、不可治愈等特點(diǎn),被認(rèn)為是世界上最具破壞性的柑橘病害[2-4]。至今為止,還沒有有效的方法來治愈黃龍病,對付這種疾病的常用方法是砍伐和焚燒受感染的樹木。在中國江西贛州,2017 至2021 年間,病樹砍伐面積達(dá)到全市柑橘類樹木種植面積的十分之一,病害嚴(yán)重威脅著整個(gè)臍橙產(chǎn)業(yè)的經(jīng)濟(jì)社會(huì)效益[5]。因此,尋找到一種快速、有效、綠色的臍橙黃龍病早期診斷方法,對臍橙產(chǎn)業(yè)健康持續(xù)發(fā)展具有重要意義?!厩叭搜芯窟M(jìn)展】目前,用于檢測柑橘中黃龍病的方法主要有現(xiàn)場檢測[6]、分子生物學(xué)檢測[7]和顯微鏡技術(shù)[8]。現(xiàn)場診斷主要通過患病果樹的癥狀進(jìn)行診斷,但準(zhǔn)確率低[9]。分子生物學(xué)檢測技術(shù)雖然具有較高的精度和靈敏度,但對試驗(yàn)研究人員的技術(shù)要求高,且樣品制備復(fù)雜,試驗(yàn)產(chǎn)物對環(huán)境污染嚴(yán)重[10]。顯微鏡檢測技術(shù)中,由于黃龍病病原體負(fù)荷在植物組織中分布不均,并且可能隨時(shí)間波動(dòng),因此許多被確定為未受感染的樹木的采樣可能出現(xiàn)假陰性[11-12]。對于大型柑橘園而言,這些方法產(chǎn)生了巨大的經(jīng)濟(jì)和時(shí)間成本,不利于促進(jìn)實(shí)際農(nóng)業(yè)生產(chǎn)。激光誘導(dǎo)擊穿光譜技術(shù)(LIBS)是一種有效的材料組成快速檢測技術(shù),具有制備簡易、原位測量、實(shí)時(shí)檢測及多元素同時(shí)測定等優(yōu)點(diǎn),可以實(shí)現(xiàn)臍橙葉片中黃龍病的快速綠色鑒別。Anielle 等[13]利用LIBS 對不同患病程度的柑橘新鮮葉片進(jìn)行測定,建立回歸與偏最小二乘回歸相結(jié)合的分類器,區(qū)分三類葉片的準(zhǔn)確率為73%。許方豪等[14]利用LIBS 聯(lián)立近紅外光譜對柑橘黃龍病進(jìn)行鑒定,并結(jié)合主成分分析(PCA)和多層感知(MLP)等化學(xué)計(jì)量方法,其訓(xùn)練集與預(yù)測集判定準(zhǔn)確率分別為89.5%和95.7%。Fabíola 等[15]利用LIBS與軟獨(dú)立模式分類(SIMCA)方法相結(jié)合來識別健康和黃龍病感染的臍橙葉片,該模型對82%~97%的患病樣本進(jìn)行有效分類,具有95%的顯著性水平。【本研究切入點(diǎn)】研究結(jié)果表明,LIBS 技術(shù)在柑橘葉片營養(yǎng)分析中具有一定的潛力,將其與合適的化學(xué)計(jì)量學(xué)方法相結(jié)合可應(yīng)用于物質(zhì)分類或早期病變的診斷。但目前運(yùn)用LIBS技術(shù)鑒別黃龍病與健康的臍橙葉片主要停留在該方法的可行性以及適用性研究,對臍橙葉片的分類準(zhǔn)確率的研究相對較少,大部分研究的判定準(zhǔn)確率只能達(dá)到95%左右。而運(yùn)用不同的預(yù)處理方法或者分類模型對鑒定結(jié)果的準(zhǔn)確性,以及穩(wěn)定性均會(huì)產(chǎn)生影響?!緮M解決的關(guān)鍵問題】本研究以240枚臍橙健康葉片和黃龍病葉片作為研究對象,利用LIBS技術(shù)采集葉片光譜數(shù)據(jù),經(jīng)過光譜預(yù)處理后,將樣本數(shù)據(jù)按照3∶1 的比例分為訓(xùn)練集和預(yù)測集,應(yīng)用科學(xué)合理的光譜數(shù)據(jù)處理手段,提高LIBS技術(shù)在臍橙黃龍病診斷中的識別效果。
臍橙葉片樣品采自于江西省贛州市的臍橙園試驗(yàn)區(qū)。選取健康和黃龍病臍橙葉片各120 枚作為試驗(yàn)樣品,臍橙葉片樣品圖如圖1所示(為了能夠在文章中明顯看出葉片的差別,特意選取患黃龍病后期的臍橙葉片進(jìn)行拍照),使用超純水反復(fù)沖洗臍橙葉片表面泥垢等污漬,后放置在室溫下自然風(fēng)干。
圖1 臍橙葉片試驗(yàn)樣品Fig.1 Pictures of navel orange leaf samples
試驗(yàn)所使用的LIBS系統(tǒng)的原理圖如圖2所示。采用Nd:YAG調(diào)Q脈沖激光器(Beamtech,Vlite-200,China)作為燒蝕源,其中激光脈沖頻率為1~10 Hz,脈沖波長為1 064 nm,激光能量為0~300 mJ。激光束通過反射鏡和100 mm 焦距的石英透鏡聚焦在樣品的表面。樣品被放置在二維旋轉(zhuǎn)平移臺(tái)上(Zolix,SC300-1A,China),以改變樣品的分析位置。利用光纖探頭將等離子體發(fā)射光譜收集傳輸?shù)礁叻直媛使庾V儀(Avantes,AvaSpec-2048FT-8R,Netherlands),光譜儀的波長為200~900 nm。實(shí)驗(yàn)中采用數(shù)字脈沖延時(shí)發(fā)生器DG645同步控制激光器及光譜儀。
圖2 LIBS系統(tǒng)原理Fig.2 Schematic diagram of LIBS system
本研究采用實(shí)驗(yàn)室自行搭建的LIBS 實(shí)驗(yàn)設(shè)備對樣品進(jìn)行光譜數(shù)據(jù)采集,為防止激光束重復(fù)擊打在葉片表面同一點(diǎn),將樣品放置在二維旋轉(zhuǎn)平移臺(tái)上。等離子體采集延遲時(shí)間為1.28μs,激光能量為170 mJ,光譜儀的積分時(shí)間設(shè)置為2 ms。每副光譜累計(jì)10 次脈沖,每個(gè)葉片采集10 副光譜。
LIBS光譜信號主要受激光器的激光粒子能量波動(dòng)、光譜儀分辨率差異、試驗(yàn)樣品不均勻性及外部環(huán)境干擾等多種客觀因素的直接影響,為了有效地消除或減弱這些干擾信息,對LIBS光譜數(shù)據(jù)進(jìn)行光譜預(yù)處理[16]。對數(shù)據(jù)依次采用平滑處理(SM)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)、中心化預(yù)處理(Center)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和多元散射校正(MSC)等多種光譜預(yù)處理方法,經(jīng)過對比分析后發(fā)現(xiàn)九點(diǎn)平滑預(yù)處理的效果最好。
經(jīng)九點(diǎn)平滑預(yù)處理后,240 份黃龍病及健康臍橙葉片樣品在200~900 nm 波段范圍的平均LIBS 光譜對比圖如圖3 所示。參考美國NIST 數(shù)據(jù)庫的標(biāo)準(zhǔn)譜線,可以得出,臍橙葉片中含有豐富的Ca、Na、Fe、K和Mg 等礦質(zhì)元素。經(jīng)過對比分析兩類臍橙葉片的LIBS 光譜,C I 247.86 nm,Mg II 279.55 nm,Ca II 393.37 nm,Ca II 396.85 nm,Na I 588.99 nm,F(xiàn)e I 616.21 nm,K I 766.49 nm 和Fe II 769.63 nm 等特征譜線強(qiáng)度存在極顯著性差異。該結(jié)果表明,利用LIBS綠色快速判別黃龍病臍橙具有一定的可行性。
圖3 9 SM處理后的黃龍病及健康臍橙葉片平均LIBS光譜圖Fig.3 Mean LIBS spectra of HLB and healthy navel orange leaves after 9 SM pretreatment
由于光譜數(shù)據(jù)的變量維數(shù)過多,采用主成分分析(PCA)方法提取特征光譜,可以降低儀器或環(huán)境的噪聲干擾,能夠有效地改善分類模型的分析能力。PCA 方法是用來研究如何將多指標(biāo)問題轉(zhuǎn)化為較少綜合指標(biāo)(主成分)問題的方法,這些主成分(PCs)是傳遞數(shù)據(jù)集中包含的主要信息的線性組合,其本質(zhì)是一種降維的統(tǒng)計(jì)過程[17]。
對9 SM 預(yù)處理后的LIBS 光譜數(shù)據(jù)建立三維PCA 分類模型。如圖4 所示,前3 個(gè)主成分PC1,PC2 和PC3 的貢獻(xiàn)率分別為84%,9%和2%,代表了原始光譜數(shù)據(jù)95%以上的重要信息。PCA 方法可以進(jìn)行數(shù)據(jù)降維,保留有效信息,但是不能定量說明判別準(zhǔn)確率,因此需要結(jié)合其它機(jī)器學(xué)習(xí)算法。
圖4 黃龍病及健康臍橙葉片的主成分分析散點(diǎn)圖Fig.4 PCA scatter diagram of HLB and healthy navel orange leaves
在光譜數(shù)據(jù)完成PCA降維后,分別輸入至線型判別分析(FDA)、B-P反向傳播網(wǎng)絡(luò)(MLP)、徑向基函數(shù)網(wǎng)絡(luò)(RBF)以及支持向量機(jī)(SVM)等4 種分類模型。本文中所有模型的分類效果評價(jià)均采用分類準(zhǔn)確率,當(dāng)實(shí)際值與預(yù)測值的誤差在0.1 以內(nèi),即認(rèn)為該樣本數(shù)據(jù)分類正確。當(dāng)模型的分類準(zhǔn)確率越高,則證明該模型的分類效果越佳。
為尋求性能最優(yōu)的SVM 模型,首先采用PSO 算法找尋SVM模型中最佳參數(shù)值c和g。設(shè)定PSO算法的初始參數(shù)值,粒子種群規(guī)模數(shù)為20,最大進(jìn)化代數(shù)為100,懲罰因子c 的搜索范圍[1,1 000],核函數(shù)參數(shù)g的搜索范圍[0.01,1 000],加速因子c1=1.5,c2=1.7。
PSO算法中粒子群迭代尋優(yōu)過程的適應(yīng)度曲線如圖5所示。由圖可知,隨著粒子群進(jìn)化代數(shù)的增加,適應(yīng)度值迅速下降;當(dāng)進(jìn)化代數(shù)為13時(shí),此時(shí)適應(yīng)度值最小,搜尋得到的最佳參數(shù)c=3.113 1,g=0.010 0。后續(xù)的適應(yīng)度值不再隨迭代次數(shù)增加而變化,說明SVM模型的參數(shù)值已經(jīng)尋得最優(yōu)解。在應(yīng)用過程中,可以適當(dāng)減少進(jìn)化次數(shù)以提升建模效率。
圖5 適應(yīng)度曲線Fig.5 Fitness curve
研究采集240 枚葉片樣本數(shù)據(jù),設(shè)定健康樣品類別為1,感染黃龍病的樣品類別為2。按照3∶1 的比例將樣本數(shù)據(jù)隨機(jī)分為訓(xùn)練集和預(yù)測集兩部分。其中“o”代表光譜數(shù)據(jù)的實(shí)際標(biāo)簽,“*”代表預(yù)測標(biāo)簽。PSO-SVM分類模型的訓(xùn)練集及測試集回歸預(yù)測結(jié)果如圖6所示。
圖6 SVM模型訓(xùn)練集和測試集預(yù)測結(jié)果Fig.6 Prediction results of SVM model training set and test set
由圖6 可知,訓(xùn)練集和測試集中的健康與黃龍病樣本均在分界區(qū)明顯分離,且預(yù)測標(biāo)簽與實(shí)際標(biāo)簽值基本重合。其中訓(xùn)練集的誤判點(diǎn)僅為2 個(gè),測試集僅為1 個(gè),表明PSO-SVM 模型的分類效果較好,其平均分類準(zhǔn)確率達(dá)到98.61%。
本文選擇模型的決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對誤差百分比(MAPE)和識別準(zhǔn)確率(Accuracy)用于衡量SVM與PCA-SVM模型的預(yù)測質(zhì)量。
R2是衡量回歸預(yù)測對樣本數(shù)據(jù)的擬合程度的重要指標(biāo),決定系數(shù)取值范圍[0,1],當(dāng)R2值越接近于1,則說明模型的擬合程度越高。RMSE 是衡量預(yù)測值同實(shí)際值之間的誤差情況,當(dāng)RMSE 值越小,則說明模型的預(yù)測精度越高。MAPE 是預(yù)測值誤差的實(shí)際情況,MAPE 為0%表示完美模型,MAPE 大于100%則表示劣質(zhì)模型。
采用PCA 降維后的前3 個(gè)主成分?jǐn)?shù)進(jìn)行SVM 建模以及識別,SVM 與PCA-SVM 模型的分類結(jié)果記錄如表1 所示。由分類結(jié)果可知,兩類模型訓(xùn)練集與預(yù)測集的MAPE 與RMSE 值均接近于0,說明模型具有較好的預(yù)測分類質(zhì)量。將PCA 方法與SVM 模型聯(lián)立大大提高了建模效率,建模時(shí)間從137 s 縮短至35 s。但經(jīng)過特征提取的PCA-SVM 分類模型并未對分類準(zhǔn)確率進(jìn)一步提升,其R2和準(zhǔn)確率分別為0.984 0,96.67%,而SVM 模型的預(yù)測集R2為0.991 0,準(zhǔn)確率為98.33%。雖然應(yīng)用PCA 方法降維能夠去除噪聲干擾,提取重要的特征光譜,但是也將有效的分類特征光譜丟失,致使模型的分類效果變差。
表1 SVM與PCA-SVM 模型的分類結(jié)果Tab.1 Classification results of SVM and PCA-SVM models
此外,本研究對比分析了PCA-RBF、PCA-MLP及PCA-FDA等模型對健康與黃龍病臍橙葉片的分類效果。PCA-RBF 和PCA-MLP 方法將LIBS 特征數(shù)據(jù)隨機(jī)分成訓(xùn)練集與測試集,分別占總數(shù)據(jù)的70%與30%。PCA-FDA方法的訓(xùn)練集和預(yù)測集則直接采用樣本總數(shù)據(jù)。
各個(gè)模型的判別精度和準(zhǔn)確率結(jié)果由表2所示。結(jié)果顯示,240組臍橙葉片光譜數(shù)據(jù)經(jīng)過9 SM預(yù)處理后,采用PCA 方法降維提取前3 個(gè)主成分,輸入至MLP 方法的分類模型效果最好,訓(xùn)練集與預(yù)測集的準(zhǔn)確率相比均為最高值,分別達(dá)到99.43%與98.48%。其次是SVM 分類模型,訓(xùn)練集和預(yù)測集的分類準(zhǔn)確率分別達(dá)至98.89%和98.33%。PCA-FDA 與PCA-RBF 模型的判別效果雖然不及PCA-MLP,但是訓(xùn)練集與預(yù)測集的分類準(zhǔn)確率均達(dá)至90%。
表2 各分類模型的判別準(zhǔn)確率Tab.2 The discriminant accuracy of each classification model
以上研究結(jié)果表明,LIBS 光譜數(shù)據(jù)經(jīng)過合適的預(yù)處理,采用PCA 方法結(jié)合MLP 分類模型進(jìn)行臍橙黃龍病的綠色診斷具有一定的可行性。SVM 方法利用較少的支持向量確定分類面,允許數(shù)據(jù)在一定程度上偏離超平面,其分類準(zhǔn)確率達(dá)到98%以上,具有較好的臍橙黃龍病鑒別能力。而PCA-SVM 相較于SVM 方法提高了建模效率,建模時(shí)間縮短了102 s,但預(yù)測集的分類準(zhǔn)確率卻從98.33%降至96.67%。在后續(xù)的研究中,可以增加輸入至SVM 模型的主成分?jǐn)?shù),看能否提升PCA-SVM 模型的分類準(zhǔn)確率。而PCA-FDA 和PCA-RBF 模型的判別精度和分類效果相對不佳,這可能是RBF相較于MLP來說,它的隱藏層數(shù)量過少,無法對數(shù)據(jù)維度過多、較為繁雜的多分類問題進(jìn)行較好的分類,而FDA 方法對非線性函數(shù)的辨認(rèn)率較低。
本文采集了黃龍病和健康臍橙葉片在200~900 nm波長范圍的LIBS全譜段數(shù)據(jù),并對光譜信息進(jìn)行九點(diǎn)平滑預(yù)處理,采用PCA 方法提取前3 個(gè)主成分?jǐn)?shù),分別輸入至SVM、PCA-SVM、PCA-FDA、PCAMLP、PCA-RBF 方法訓(xùn)練分類模型。分類結(jié)果表明,采用PCA 方法結(jié)合MLP 分類模型對黃龍病與健康臍橙葉片的分類效果最好,訓(xùn)練集準(zhǔn)確率為99.43%,預(yù)測集準(zhǔn)確率為98.48%。其次PCA-SVM 與PCARBF 分類模型訓(xùn)練集與預(yù)測集的準(zhǔn)確率效果也都非常高,均達(dá)到94%以上。研究證明,利用LIBS 技術(shù)對臍橙葉片進(jìn)行光學(xué)診斷具有一定的適用性,與改進(jìn)的預(yù)處理方法以及分類模型相結(jié)合,可以進(jìn)一步提高判定準(zhǔn)確率及建模效率,這將為贛南臍橙葉片的綠色快速鑒別提供一種全新的方法。