李 鑫,湯衛(wèi)榮,張永輝,謝 強,張 凡,吳潤生,陳相君,夏 春,曾淑華,劉 雷*
1. 四川農(nóng)業(yè)大學農(nóng)學院,成都市溫江區(qū)惠民路211號 6111302. 四川省煙草公司瀘州市公司,四川省瀘州市龍馬潭區(qū)南光路374號 646600
煙葉田間成熟度是指煙葉的生長發(fā)育達到的成熟狀態(tài)滿足后續(xù)加工環(huán)節(jié)對原料要求的程度,適宜的田間成熟度是保證烤后煙葉品質(zhì)的前提[1]。目前,生產(chǎn)中通常采用基于鮮煙葉外觀特征的人工判別方法判斷煙葉田間成熟度,但該方法難以量化且受主觀因素影響,易導致采收時煙葉成熟度控制不當,嚴重影響了煙葉品質(zhì)[2-3]。煙葉葉綠素含量[4]、SPAD值[5-6]、丙二醛、過氧化物酶和其他一些生理生化指標[7-8]等量化信息可作為判別煙葉田間成熟度的客觀依據(jù),然而煙葉生理指標的測定多費時費力,難以在生產(chǎn)中推廣應用,因此仍需探索更加客觀、準確、快速且易行的判別方法。
高光譜成像技術通過采集被測物體的電磁光譜反射信號獲取研究對象的特征信息[9],具有測定快速、對樣品無損傷、數(shù)據(jù)信息量大、分辨精度高等優(yōu)點[10]。研究表明,煙葉光譜信息可反映其顏色、色素含量、葉片組織結構、葉片生理指標等煙葉田間成熟特征[8]。王建偉等[11]分析不同成熟度煙葉光譜反射率、位置變量、面積變量和植被指數(shù)變量等光譜參數(shù),明確了不同田間成熟度煙葉的高光譜特征差異;刁航等[12]用可見光范圍內(nèi)的連續(xù)光譜、特征波段和光譜特征參數(shù)建立了煙葉田間成熟度判別模型;李佛琳等[13]發(fā)現(xiàn)不同成熟度鮮煙葉的反射光譜在503~651 nm間差異顯著。然而,煙葉田間成熟度判別模型構建的研究目前還鮮見報道。為此,比較了不同光譜數(shù)據(jù)預處理方法和機器學習算法在構建煙葉田間成熟度判別模型中的適用性,并采用遺傳算法優(yōu)選出對煙葉田間成熟度響應最靈敏的特征光譜波段作為建模輸入變量,以期構建基于高光譜信息的煙葉田間成熟度判別模型,客觀且準確判斷煙葉田間成熟度,為烤煙智能采收方法的建立提供參考。
試驗于2020年在四川省瀘州市古藺縣大寨鄉(xiāng)進行,試驗地為黑色砂壤土,土壤肥力中等,供試品種為中川208,按優(yōu)質(zhì)烤煙栽培規(guī)范進行田間管理。自烤煙移栽后100 d 開始,每隔3 d 取1 次樣,于早上8∶00對煙株中部葉(從下往上第10~12葉位)進行隨機取樣,直到過熟葉片采集完畢。由煙站技術人員參照當?shù)厣a(chǎn)實踐經(jīng)驗和相關文獻[2-3]制定鮮煙葉田間成熟度檔次劃分依據(jù)(表1)。
表1 鮮煙葉田間成熟度檔次劃分依據(jù)Tab.1 Basis of field maturity classification for fresh tobacco leaves
將評定田間成熟度檔次后的煙葉帶回室內(nèi),使用Pika XC2成像儀(美國Resonon公司)采集其光譜信息,采集軟件為Spectronon Pro,選用波長范圍為400~1000 nm,光譜分辨率為1.3 nm,光譜通道數(shù)為448個。由于煙葉過寬,成像儀載物臺無法承載完整的煙葉樣本,故選取煙葉中段作為樣本掃描區(qū)域(圖1)。每片煙葉掃描1 次,使用Spectronon Pro 軟件中ROI(Region of interest)工具計算葉片的反射光譜平均值作為該樣本的光譜數(shù)據(jù)。
圖1 煙葉光譜信息采集Fig.1 Information collection of tobacco leaf spectra
信息采集前調(diào)節(jié)焦距至圖像最清晰,隨后進行標準白板和暗電流校正[14]。使用均勻白板進行白板數(shù)據(jù)的測量,獲得白板數(shù)據(jù)(W)之后將黑色蓋帽蓋在攝像頭上,保證沒有光源透入,獲得暗電流數(shù)據(jù)(B)。按公式(1)進行校正:
式中:I是校正后的圖像數(shù)據(jù);I0是樣本的原始圖像數(shù)據(jù);B是全黑環(huán)境下的標定圖像數(shù)據(jù)(反射率接近0);W是標準白板圖像數(shù)據(jù)。
試驗采集M1、M2、M3 和M4 檔次的煙葉樣品各80 個,共計320 個樣本的高光譜數(shù)據(jù)。分別從各成熟度檔次的煙葉樣本群體中隨機選取總樣本的3/4 作為訓練集(共240 個樣本),余下1/4 為測試集(共80 個樣本,其中生青樣本、尚熟樣本、適熟樣本和過熟樣本各20個)。
應用MATLAB軟件,分別采用一階導數(shù)(1stD)、多元散射校正(MSC)、標準正態(tài)變量變換(SNV)、Savitzky-Golay(SG)卷積平滑、一階導數(shù)+SG平滑對煙葉原始高光譜數(shù)據(jù)進行預處理,去除無關信息(如電噪音、樣品背景和雜散光等),提高分辨率和靈敏度,提升模型的精確度與穩(wěn)定性[15-16]。
預處理后的全波長光譜數(shù)據(jù)共有448個變量,其中包含較多冗余信息,影響算法學習性能及模型的精確度[17]。因此,將這448 個變量分割成為45 個區(qū)間,第1到44區(qū)間每個區(qū)間內(nèi)包含10個光譜變量,第45 區(qū)間內(nèi)包含剩余的8 個變量。使用遺傳算法[18](GA)對45個光譜波段區(qū)間進行優(yōu)選,設置初始種群個數(shù)為20,迭代進化次數(shù)為100。通過適應度值的計算、個體選擇、交叉、變異等操作完成遺傳算法的一輪迭代,經(jīng)過一定次數(shù)的迭代進化使遺傳個體達到最佳適應度。
分別使用BP 神經(jīng)網(wǎng)絡(BPNN)和支持向量機(SVM)兩種算法建立全波段模型,選擇全波段建模效果最佳的數(shù)據(jù)預處理方法和建模算法建立鮮煙葉田間成熟度判別模型。
BPNN 拓撲結構采用典型的3 層結構(輸入層、隱含層、輸出層)設計,其中輸入層節(jié)點個數(shù)為模型輸入變量的個數(shù);輸出層為模型輸出成熟度類別個數(shù);隱含層的神經(jīng)元個數(shù)根據(jù)公式(2)確定:
式中:m為隱含層節(jié)點數(shù);n為輸入層節(jié)點數(shù),l為輸出層節(jié)點數(shù);α為常數(shù),在1~10的范圍內(nèi)取值。
模型建立時采用newff函數(shù)創(chuàng)建網(wǎng)絡,輸入層至隱含層的連接函數(shù)設置為tan-sigmoid 飽和正切函數(shù),隱含層到輸出層采用purelin 線性轉(zhuǎn)換函數(shù)。SVM在MATLAB R2019b軟件中調(diào)用林智仁教授開發(fā)設計的LIBSVM[19]工具箱。使用網(wǎng)格參數(shù)尋優(yōu)法對SVM模型的懲罰參數(shù)c和徑向基核函數(shù)參數(shù)g進行優(yōu)化選取。
由圖2 可知,不同成熟度檔次的煙葉在400 ~1000 nm波長內(nèi)的平均光譜曲線的整體變化趨勢相似,在550 nm 處有波峰、675 nm 處有波谷;在400 ~725 nm 間,煙葉光譜反射率隨煙葉田間成熟度的增加而升高,在725 ~ 1000 nm 間平均光譜曲線起伏平緩,煙葉的光譜反射率隨田間成熟度的增加反而降低,這與煙葉成熟過程中的外觀特征變化規(guī)律相符合。
圖2 不同成熟度檔次鮮煙葉平均光譜反射率Fig.2 Average spectral reflectances of fresh tobacco leaves of different maturity grades
使用一階導數(shù)、多元散射校正、標準正態(tài)變量變換、Savitzky-Golay平滑、一階導數(shù)+SG平滑5種光譜預處理方法對光譜數(shù)據(jù)進行預處理,如圖3所示。
圖3 4個成熟度檔次煙葉預處理后平均光譜曲線Fig.3 Average spectral curves of tobacco leaves of four maturity grades after pretreatment
為比較不同預處理方法的降噪效果,同時確定最佳建模途徑,在MATLAB 軟件中分別使用SVM和BPNN兩種不同建模算法進行全波段建模。
由表2 可見,基于不同預處理方法建立的SVM模型中,MSC-SVM 和SG-SVM 模型的綜合準確率最低,僅87.19%,而SNV-SVM 模型的綜合準確率達93.13%,相比MSC-SVM 和SG-SVM 模型增加了5.94 百分點;基于不同預處理方法建立的BPNN 模型中,SG-BPNN模型的綜合準確率最低,為87.50%,1stD-BPNN 模型的綜合準確率最高,達92.19%。對比所有模型,SNV-SVM模型的綜合準確率最高。因此,在后續(xù)研究中采用SNV 預處理的光譜數(shù)據(jù)建立鮮煙葉田間成熟度判別的SVM模型。
表2 基于不同預處理方法的SVM和BPNN模型結果Tab.2 Results of SVM and BPNN models based on different pretreatment methods
由圖4可知,經(jīng)過10次遺傳迭代后,各代平均適應度曲線在0.95附近波動,各代平均適應度與各代最佳適應度的曲線波動較小,幾乎重疊。最終從45個波段區(qū)間中優(yōu)選出19個區(qū)間,將這19個區(qū)間作為建模輸入變量。由圖5可知,經(jīng)GA優(yōu)選后的特征變量區(qū)間大多分布在可見光范圍內(nèi),且大多分布在400 ~ 550 nm 與630 ~ 700 nm 這兩個波段內(nèi),在780 ~ 1000 nm的近紅外波段內(nèi)只有少量分布,且分布較為零散。
圖4 GA變量尋優(yōu)過程圖Fig.4 Optimization process of GA variable
圖5 GA優(yōu)選的波段區(qū)間分布圖Fig.5 Map of band interval distribution optimized by GA
訓練集樣本的原始光譜數(shù)據(jù)經(jīng)SNV 預處理后,選取GA 優(yōu)選出的19 個特征波段區(qū)間作為輸入變量,并對輸入變量數(shù)據(jù)進行歸一化處理,以樣本類別為模型輸出,采用徑向基(RBF)函數(shù)作為模型核函數(shù)。使用帶有交互驗證的網(wǎng)格搜索法對SVM 的懲罰參數(shù)c和徑向基核函數(shù)參數(shù)g進行優(yōu)化,得到參數(shù)c的最佳值為2.83,參數(shù)g的最佳值為1,并基于最佳值建立SNV-GA-SVM 模型。使用80 個預測集樣本對模型進行測試,由圖6可知,該模型預測準確率達95%,且對過熟樣本的預測效果最佳。
圖6 測試集的實際分類與預測分類圖Fig.6 Actual classification and predicted classification of test set
為進一步對模型進行全面、直觀的評價,根據(jù)預測結果繪制混淆矩陣。由圖7 可知,預測集20 個生青樣本中有2 個被錯誤預測為尚熟;20 個尚熟樣本中有1個被錯誤預測為生青;20個適熟樣本中有1個被錯誤預測為尚熟;20個過熟樣本全部預測正確。
圖7 測試集的實際分類與預測分類混淆矩陣圖Fig.7 Confusion matrix diagram of actual classification and predicted classification of test set
根據(jù)混淆矩陣計算模型精確率、召回率和F1分數(shù)。由表3可知,雖然模型平均精確率達95.28%,但對尚熟樣本的識別精確率僅86.36%,而其他樣本的識別率都達90%以上,說明模型對不同成熟度檔次樣本的識別能力存在差異。從4種樣本的綜合F1分數(shù)來看,模型對生青和尚熟樣本的分類能力較弱,只有0.92和0.90,對過熟樣本的分類能力最強,達1.00,其次是適熟樣本,達0.97。整體來看,該模型能夠?qū)熑~田間成熟度檔次進行快速判別。
表3 SNV-GA-SVM模型評價指標分析Tab.3 Evaluation indexes of SNV-GA-SVM model
本研究中,煙葉高光譜反射曲線在550 nm處有波峰、675 nm 處有波谷,與余志虹等[20]研究結果一致,這可能是因為550 nm附近是葉綠素對光的強反射區(qū)域,675 nm 處是葉綠素對光的強吸收波段,在700 ~ 750 nm 處煙葉光譜反射率急劇上升,這些都是典型的綠色植物光譜特性。不同成熟度檔次煙葉光譜反射率在550 ~ 675 nm 間差異明顯,煙葉光譜反射率隨田間成熟度的增加而升高,這與戴培剛等[21]的研究結果吻合。本研究中通過GA 優(yōu)選出的特征變量區(qū)間主要分布在400 ~ 550 nm和630 ~ 700 nm波段,這兩個波段均是煙葉中質(zhì)體色素的光譜特征吸收峰[22]。可見與煙葉質(zhì)體色素密切相關的光譜波段更能反映煙葉田間成熟特征,色素是造成煙葉高光譜反射率差異的重要因素。在人眼可見光波長范圍外的780 ~1000 nm中也選出了特征變量區(qū)間,說明借助高光譜技術可獲取人眼無法識別的特征信息,還說明除質(zhì)體色素外煙葉中其他物質(zhì)也與田間成熟密切相關,這些物質(zhì)本身及其光譜特性可反映煙葉田間成熟度,但其具體成分有待進一步探索。
本研究中基于高光譜信息建立的判別模型對過熟和適熟煙葉的識別能力較強,F(xiàn)1 分數(shù)分別達到了1和0.97,但對生青和尚熟煙葉的識別能力稍低。這可能是因為煙葉由生青到過熟是一個連續(xù)漸變的生理生化過程,生青到尚熟階段為煙葉的衰老初期,煙葉生理狀態(tài)和化學成分變化都較緩慢,樣本的成熟狀態(tài)較接近,因而加大了識別難度。煙葉由適熟到過熟處于成熟進程的中后期,葉內(nèi)成分及其光譜特征的變化較前期更明顯,導致模型對不同成熟度檔次樣本的識別能力有差異。
因所用高光譜掃描設備不便在田間安裝、移動和操作,本研究中煙葉的光譜數(shù)據(jù)皆在室內(nèi)采集,降低了環(huán)境因素的影響,有利于提高模型的識別正確率,但也降低了模型使用的環(huán)境現(xiàn)實性,為接近生產(chǎn)實際還需在不同天氣條件下采集煙葉田間原位高光譜信息。另外,研究中涉及的烤煙產(chǎn)地和品種單一,還需要在后繼研究中采集更多產(chǎn)區(qū)和品種的樣品進一步驗證模型的普適性和實用性。
基于不同成熟檔次鮮煙葉的高光譜信息,采用機器學習方法建立了鮮煙葉成熟度的判別模型。結果表明,高光譜信息可敏銳、準確地反映煙葉田間成熟度的特征性差異,在550 ~ 675 nm波段內(nèi)最突出,光譜反射率隨煙葉田間成熟度的增加而增大。利用GA 可從全波段信息中優(yōu)選出與煙葉田間成熟度相關的特征變量信息。采取SNV-GA-SVM 途徑建立的煙葉田間成熟度判別模型性能優(yōu)良,模型識別準確率達95%,且對適熟和過熟樣本的識別能力最突出,對尚熟煙葉的正確識別率稍低,但也高于86%。