許敬誠,呂新,林皎,張澤,姚秋雙,范向龍,洪延宏
(石河子大學(xué)農(nóng)學(xué)院/ 新疆兵團綠洲生態(tài)農(nóng)業(yè)重點實驗室,新疆石河子832003)
隨著轉(zhuǎn)蘇云金芽孢桿菌(Bacillus thuringiensis,Bt)基因抗蟲棉的種植,棉鈴蟲種群增長被有效控制, 但棉蚜成為新疆棉田主要害蟲之一[1-2]。棉蚜多群居于棉花葉背,受到棉蚜危害的棉葉片失水變形,并出現(xiàn)褶皺,嚴(yán)重時向下卷曲[3];葉背部棉蚜代謝的糖分滴落在葉表面阻礙植株的光合作用和呼吸作用,影響植株的生長發(fā)育。 傳統(tǒng)棉蚜信息監(jiān)測需要人工觀察受害棉花葉片變化,統(tǒng)計棉蚜數(shù)量,費時費力,并且由于統(tǒng)計的延時性造成蟲情信息滯后, 不利于棉蚜危害精準(zhǔn)防控。 農(nóng)田傳感器的普及使棉蚜信息快速獲取成為可能。 機器視覺技術(shù)因其識別速度快而被廣泛應(yīng)用于蟲情監(jiān)測,Ghyar 等利用灰度共生矩陣和顏色矩陣分離葉片病變區(qū)域,實現(xiàn)水稻的病蟲害的機器識別[4]?;?LAB 顏色空間,Madhuri 等通過提取目標(biāo)對象的紋理特征構(gòu)建支持向量機模型完成田間害蟲的分類[5]。 高光譜成像技術(shù)同時集成了機器視覺技術(shù)和高光譜技術(shù)特點,能同時反映被測樣品外觀形態(tài)與內(nèi)部結(jié)構(gòu)等特性,作為一種快速、無損的識別方法在植物蟲害的癥狀檢測方面具有很大優(yōu)勢。 李震等通過基于葉綠素敏感波長建立葉綠素含量預(yù)測模型檢測柑橘紅蜘蛛為害[6]。Wu 等基于偏最小二乘判別分析法和反向傳播神經(jīng)網(wǎng)絡(luò)對菜心葉片高光譜成像影像上幼蟲部分進行識別,在近紅外波段可以有效提取出幼蟲所在區(qū)域[7]。 Cao 等通過主成分分析法選擇505、659 和955 nm 特征波長,以反向傳播神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)糧倉害蟲快速的識別[8]。 Huang 等采用連續(xù)投影法和競爭性自適應(yīng)重加權(quán)抽樣法選擇特征波長,建立偏最小二乘判別分析和最小二乘支持向量機模型完成桑螟幼蟲為害等級的快速診斷[9]。 所以,基于高光譜成像技術(shù),可以多角度對蟲害進行檢測,指導(dǎo)農(nóng)作物的植保工作。
現(xiàn)階段紋理特征獲取多基于RGB 圖像[10-12]。高光譜成像技術(shù)因其光譜分辨率高、圖像信息更為豐富,應(yīng)用于提取目標(biāo)特征是蟲害監(jiān)測的新方向之一[13-14]。 本研究以受棉蚜為害的棉花葉片為研究對象,采集健康與受棉蚜為害的棉花葉片正面高光譜圖像,通過不同光譜信息降維法提取特征波長,采用灰度共生矩陣方法提取特征波長下灰度圖像的紋理特征,以紋理特征向量為輸入建立受棉蚜為害棉花葉片的判別模型,以期為棉花蚜害快速監(jiān)測與精準(zhǔn)農(nóng)業(yè)靶向施藥提供技術(shù)支持。
本試驗于2019 年7 月在新疆維吾爾自治區(qū)石河子市石河子大學(xué)農(nóng)學(xué)院試驗場進行。 試驗田種植的棉花品種為新陸早45 號, 依照新疆傳統(tǒng)高密度膜下滴灌栽培模式種植,采用常規(guī)水肥管理模式, 不同處理的棉花植株分別于2 頂孔徑0.075 mm(200 目)封閉防蟲網(wǎng)帳篷中生長。
在棉花盛花期采集葉片,上午以活體形式采集,用果枝剪沿葉柄基部剪下葉片,除去寄生在葉背的棉蚜, 并輕拭棉花葉片正面擦除雜質(zhì),隨后裝入單獨的自封袋中編號,迅速放入裝有生物冰袋的冰盒中冷藏保存,帶回室內(nèi)獲取高光譜影像數(shù)據(jù)。 本研究共采集142 片棉花上部葉片,其中健康葉片71 片,蚜蟲為害葉片71 片。
高光譜影像數(shù)據(jù)采集采用SOC710VP 可見光- 近紅外地物高光譜成像儀 (Surface Optics Corporation,美國),光譜波段范圍351~1 044 nm,光譜分辨率可設(shè)置。 本研究中,光譜分辨率設(shè)定為1.3 nm,光譜波段數(shù)128。采集暗室內(nèi)置帶刻度升降平臺控制樣本與相機之間的距離, 光源為2盞75 W 鹵素?zé)簦∣SRAM,德國),光線直射暗室內(nèi)壁漫反射于待測物體上。 在高光譜成像信息采集前通過對相機曝光度、焦距、光圈、掃描速率的調(diào)整,確保采集到的圖像紋理清晰、不失真、無形變,儀器和樣品不會被鹵素?zé)舾邷負p傷。 通過嘗試確定高光譜成像儀的參數(shù)分別設(shè)置如下:樣品距離鏡頭64 cm,光圈1.4,曝光時間19 ms,掃描速率 150~200 幀·s-1, 圖像分辨率為 696×520像素, 光源焦點在鏡頭與拍攝葉片二分之一處,如圖1 所示。
將新鮮棉花葉片依次置于底面墊有低反射率黑色背景板的高光譜成像暗室中,同時在距葉片邊緣2 cm 處放置標(biāo)準(zhǔn)灰板輔助黑白校正。SOC710VP 可見光-近紅外地物高光譜成像儀獲取的光譜圖像原始數(shù)據(jù)是像元亮度值(Digital number,DN), 通過自帶軟件 SRAnal710 進行光譜標(biāo)定、空間輻射與光譜輻射標(biāo)定可以將像元亮度值轉(zhuǎn)化成帶光譜反射率。 全波段光譜首尾存在噪聲,且光譜影像有椒鹽噪聲。 去除噪聲明顯的光譜波段,對400~840 nm 光譜采用多項式平滑法(Savizky-Golay smoothing,SG)去噪。避開棉花葉片主葉脈所在區(qū)域, 于單片棉花葉片上提取2處面積為50×50 像素紋理清晰的感興趣區(qū)域(Region of interest,ROI)作為樣本,共得 284 個樣本。 隨機劃分67%的樣本作為建模集,其余部分作為預(yù)測集。
圖1 高光譜圖像采集平臺Fig.1 Hyperspectral image acquisition platform
全波段光譜數(shù)據(jù)的模型存在大量冗余數(shù)據(jù)和同質(zhì)性數(shù)據(jù)影響判別精度,因此為了壓縮數(shù)據(jù)量,降低模型復(fù)雜度,本研究采用主成分載荷法(Principal component analysis-Loading, PCA-Load ing)[15]、隨機蛙跳算法(Random frog, RF)[16]和連續(xù)投影法(Successive projections algorithm,SPA)[17]選擇與受棉蚜為害后棉花葉片變化相關(guān)性更強的特征波長。
主成分載荷法根據(jù)主成分分析的結(jié)果,計算出每個波長的載荷,反映主成分對每個變量的相關(guān)性。 較大的正或負載荷意味著該變量對于樣本主成分具有重要的影響, 對應(yīng)的變量相對較為重要。
隨機蛙跳算法是衡量變量重要性的一種方法,通過建立變量的正態(tài)分布空間并預(yù)選初始變量集,將初始變量子集中的變量通過不斷選擇選入候選子集,候選子集中的變量隨著迭代而不斷變化,統(tǒng)計每次迭代各變量出現(xiàn)的頻率,子集被選頻率越高說明其越重要,依據(jù)樣本頻率排名選擇變量序號對應(yīng)的波段為特征波長。
連續(xù)投影法主要解決共線性問題,能從信息變量中選擇冗余信息最少的變量,提取共線性最小的變量,將各個波長組合分別建立子集,每個子集逐一采用多元線性回歸法計算均方根誤差(Root mean square error, RMSE)值,選擇平穩(wěn)且最小的RMSE 值對應(yīng)子集作為特征波長子集。
圖像視覺特征提取方法主要有顏色、形狀和紋理提取3 類。 健康棉花葉片光滑平展,受棉蚜為害的棉花葉片皺縮卷曲,葉表面紋理特征變化明顯。 本研究主要采用灰度共生矩陣(GLCM)[18]算法進行紋理特征提取, 在提取紋理特征時,以0°、45°、90°、135°作為常用方位角,通過計算 2 個像素之間的相近關(guān)系的概率來獲得能體現(xiàn)物體特征的二階統(tǒng)計量。 灰度共生矩陣計算所獲得的無量綱參數(shù)數(shù)量較大, 不宜直接作為紋理特征,通?;谄錁?gòu)建統(tǒng)計量,結(jié)合方位角建立紋理特征向量。 常用的4 個不相關(guān)的紋理特征有能量(Energy)、熵(Entropy)、對比度(Contrast)、相關(guān)性(Correlation)[19]。 能量反映圖像灰度粗細分布的均勻程度,圖像的灰度分布越均勻,能量值越大;熵反映圖像灰度值散亂度,灰度值分布隨機度越高熵值越大; 對比度反映圖像強度差異,圖像灰度值差異大時,對比度大;相關(guān)性反映圖像紋理在行或列上一致性,圖像橫向或縱向紋理均一時,相關(guān)性值增大。 本研究中,基于特征波長選擇方法選擇的特征波長下的感興趣區(qū)域灰度圖像進行紋理特征提取。
本試驗采用2 種分類方法建立模型:線性判別分析算法偏最小二乘線性判別分析(Partial least-square-lineardiscriminantfunction,PLS-LDA)模型[20]和非線性判別分析算法支持向量機(Support vector machine,SVM)模型[21]。
PLS-LDA 模型是一種線性分類方法,它基于PLS 回歸模型預(yù)測每個樣本的類別數(shù),選取平方和預(yù)測誤差最小值處的最小潛在變量數(shù)(Latent variables,LVs)。本研究采用去中心化法對數(shù)據(jù)進行歸一化處理,通過10 000 次蒙特卡洛驗證獲取建模集的最佳潛在變量值LVs,通過多次尋優(yōu)選擇最佳閾值來為分類后的樣本歸類。
構(gòu)建支持向量機(SVM)模型需要對2 個參數(shù)尋優(yōu):核函數(shù)參數(shù)和模型的懲罰系數(shù)。 由于選擇合適的核函數(shù)沒有系統(tǒng)的方法,而本試驗的樣本呈現(xiàn)非線性分布,徑向基(Radial basis function,RBF)核函數(shù)能夠更好處理非線性關(guān)系并降低訓(xùn)練過程計算的復(fù)雜程度。 本試驗選擇徑向基核函數(shù)作為SVM 的核函數(shù)構(gòu)建RBF-SVM 模型,隨后通過蒙特卡洛交叉驗證對懲罰參數(shù)c 和樣本影響半徑的倒數(shù)g 尋優(yōu),c、g 參數(shù)的變化范圍設(shè)為-5~5,基于多次交叉驗證后的結(jié)果選擇最優(yōu)的c 和 g 的組合。
試驗獲取的可見光-近紅外高光譜波長范圍為 351~1 044 nm, 共 128 個波段。 由于試驗環(huán)境、儀器的影響以及暗電流干擾,造成獲取光譜前后端有明顯噪聲, 因此剔除噪聲明顯的波段,截取波長400~840 nm 范圍共86 個波段光譜影像用于后續(xù)建模分析,健康棉花葉片和棉蚜為害棉花葉片的平均光譜如圖2 所示。
棉花葉片高光譜特征在415 nm 有一個明顯的吸收谷,綠光波段開始出現(xiàn)反射峰,在557 nm達到最高值; 紅光波段出現(xiàn)吸收谷,677 nm 為最低值。
圖2 切除兩端噪聲后的平均光譜Fig.2 The mean spectra after removing both two ends noise
主成分分析法可以將原可能相關(guān)的變量正交變換為更多不相關(guān)的變量,顯示數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。 利用主成分分析法對401~842 nm 波段棉花葉片光譜數(shù)據(jù)進行分析, 將86 個波段的信號轉(zhuǎn)化為若干個主成分(Principal component,PC),得到前3 個主成分第一主成分PC1(96.16%)、第二主成分 PC2(2.88%)、第三主成分 PC3(0.46%),累計貢獻率達到99.5%, 能解釋大部分變量。PC1、PC2 和 PC3 三維得分分布圖如圖3 所示,健康樣本和棉蚜為害樣本之間存在非常明顯的聚類和區(qū)分,同時可以發(fā)現(xiàn),2 種樣本在三維空間中存在一定的重合,需要進一步對光譜數(shù)據(jù)進行分析。
圖3 主成分聚類分布圖Fig.3 Cluster plots based on the PCs
選擇特征波長對于去除高維數(shù)據(jù)中的冗余信息,優(yōu)化校準(zhǔn)模型,獲得良好的結(jié)果具有重要意義。 本試驗利用主成分載荷法(PCA-Loading)、隨機蛙跳算法(RF)和連續(xù)投影法(SPA)提取特征波長(Characteristic wavelengths, CWs),3 種算法分別篩選 9、10、13 個特征波長, 如圖4 和表1表示。
圖4 PCA–Loading (a), RF (b), SPA (c)法提取特征波長示意Fig.4 The optimal wavelengths selection by PCA-loading (a), RF(b) and SPA (c)
PCA-Loading 法選取主成分載荷圖曲線絕對值大于0.05 的波峰和波谷作為特征波長點,共篩選出9 個特征波長,占總波長數(shù)的10.7%。 RF 法設(shè)置算法迭代次數(shù)N 為10 000 次, 提取數(shù)量10個,蛙跳初始種群數(shù)目Q 為2 個,以每個光譜被選擇的可能性為篩選依據(jù),運行結(jié)果為降序排列的被選擇可能性, 設(shè)定被選擇可能性閾值為0.829, 共篩選出10 個特征波長, 占波長總數(shù)的12.8%。 SPA 法以全光譜范圍的波長依次對應(yīng)每個變量,設(shè)置被提取的最小變量個數(shù)為5,最大變量個數(shù)為30,以尋找最小共線性變量組,最終共篩選出 13 個特征波長,RMSE 值為 0.001。3 種算法篩選出的特征波長主要集中在綠峰波段和紅邊波段。
健康的棉花葉片正面表面平展,由于棉蚜從棉花葉片背部吸食汁液,影響?zhàn)B分供給,導(dǎo)致受到棉蚜為害的棉花葉片表面與葉肉組織結(jié)構(gòu)遭到破壞,出現(xiàn)皺縮,分支葉脈向下凹陷形成陰影,與向上突起的葉肉形成明顯灰度差。 在紋理特征感興趣區(qū)域選擇上, 由于主葉脈灰度均一性較高,與葉肉有明顯差異,且陰影面積大,不利于紋理特征的提取,因此對感興趣區(qū)域的提取要避開葉片主葉脈位置。 現(xiàn)從特征波長對應(yīng)灰度圖像中選取50×50 像素?zé)o主葉脈區(qū)域作為感興趣區(qū)域。 試驗中將原始圖片256 等級的灰度值壓縮到16 級以減小計算量, 以 4 個方向 0°、45°、90°、135°,固定取樣距離為1 像素構(gòu)建4 個方向的灰度共生矩陣,分別統(tǒng)計各個矩陣能量、熵、對比度、相關(guān)性,如圖5 和表2。
表1 對光譜樣本提取的特征波長Table 1 The effective wavelengths selection for hyperspectral sample
圖5 不同波長健康樣本與為害樣本對比Fig.5 The contrast of healthy and aphid cotton leaf’s ROI in different wavelengths
表2 不同樣本紋理特征向量參數(shù)Table 2 The average feature vector of GLCM for two types of leaves
根據(jù)不同波長下灰度圖像可知,健康葉片表面平滑, 分支葉脈的紋理在可見光波段不能辨認,在近紅外波段能看到少量較粗的部分,單張圖像中紋理分布均勻,灰度變化小。 為害葉片可見光波段和近紅外波段均能看見清晰的分支葉脈輪廓并由邊緣始形成向心突起,紋理呈斜向分布,向心突起處有亮斑,與分支葉脈處形成明顯灰度差。
通過4 個角度的灰度共生矩陣計算得到4個二階統(tǒng)計量,包括能量、熵、對比度、相關(guān)性,共得到16 組特征向量。 分別計算不同處理樣本的特征向量,得到2 組樣本基于這4 個角度的紋理特征平均值和標(biāo)準(zhǔn)差。 健康樣本的能量、對比度均超過為害樣本,熵低于為害樣本,由于為害樣本紋理分布散亂, 垂直方向和斜向灰度變化雜亂,導(dǎo)致相關(guān)性差異不顯著。4 個角度的特征向量及均值、標(biāo)準(zhǔn)差有顯著差異,可以解釋葉片受棉蚜為害后的變化。 由于紋理特征標(biāo)準(zhǔn)差數(shù)據(jù)分布接近,因此采用特征波長圖像的紋理特征標(biāo)準(zhǔn)差作為輸入,建立了棉蚜識別模型。
分別基于3 種特征波長選擇方法選擇的特征波長下的灰度圖像獲取的紋理特征, 建立PLS-LDA 和 RBF–SVM 模型, 其判別分析結(jié)果如表3 所示。
表3 基于紋理特征的PLS-DA 和RBF-SVM 判別分析模型判別結(jié)果Table 3 The discriminant results of PLS-DA and RBF-SVM models using texture features
比較模型分析效果,使用全部紋理特征數(shù)據(jù)集進行分析,SPA 法提取的特征波長組識別率最高,2 種模型識別率在82.98%以上,RF-PLS-LDA模型效果最好,預(yù)測集識別率達到91.49%。 結(jié)果顯示,使用全部紋理特征數(shù)據(jù)集建模識別效果較好,但輸入數(shù)據(jù)量較大,模型計算時間效率較低。逐一以紋理特征二階統(tǒng)計量作為輸入建立判別模型,2 類模型預(yù)測集的識別精度均在74%以上,可以實現(xiàn)對棉花上棉蚜為害葉片的精確識別。 以能量作為輸入的模型對棉蚜為害植物的識別效果最佳,預(yù)測集平均識別率達到89%;其次是對比度作為輸入的模型, 預(yù)測集平均識別率達到84%。由于相關(guān)性紋理特征差異不顯著,識別率最低。 其中,最優(yōu)模型為SPA-PLS-LDA 模型,預(yù)測集識別率達到 92.55%, 其次是 PCA-Loading-PLS-LDA-Energy 模型(91.49%)和 SPA-RBFSVM-Energy 模型(90.43%)。
基于高光譜技術(shù)的作物監(jiān)測模型主要以作物反射率作為模型輸入數(shù)據(jù)[22-23],但作物在不同脅迫環(huán)境生長下形態(tài)、 顏色等特征會發(fā)生變化,出現(xiàn)“同物異譜”或“異物同譜”現(xiàn)象。 高光譜成像技術(shù)可以同時獲取光譜信息和圖像信息,避免此類現(xiàn)象發(fā)生。 因此本研究使用高光譜成像儀進行健康、 棉蚜為害葉片正面高光譜成像數(shù)據(jù)采集,通過不同方法提取特征圖像。 基于灰度共生矩陣提取圖像紋理特征, 依此建立蚜害判別模型,證明使用高光譜成像對受棉蚜為害棉花葉片進行分類預(yù)測的可行性,為基于多光譜成像的棉蚜監(jiān)測裝置提供技術(shù)支持。
棉花受到蚜蟲為害后光譜特征上會出現(xiàn)變化[24]。本試驗中受蚜蟲為害的葉片藍光、紅光所在波段與近紅外波段吸收率下降, 而植株光譜紅、藍光波段反射率降低是由于葉綠素含量降低所引起,近紅外的反射率下降的原因是植株細胞結(jié)構(gòu)變化所產(chǎn)生,這也從光譜角度證實了蚜蟲為害會使葉片葉綠素和相對含水量下降,細胞結(jié)構(gòu)出現(xiàn)變化[25-28]。 紋理特征上,蚜蟲為害棉花葉片會導(dǎo)致其出現(xiàn)皺縮、卷曲,葉片局部形成凸起、向下卷曲等癥狀。 本研究利用灰度共生矩陣計算特征圖像灰度值的變化,經(jīng)由得出的二階統(tǒng)計量可以直觀地反映圖像部分特征[29-30]。 紋理特征參數(shù)中健康樣本的能量對比度超過蚜害樣本,熵低于蚜害樣本。 由于健康葉片表面平滑,圖像灰度分布均勻,因此表面灰度值相近,反映圖像像元灰度平方和的能量較高;而蚜蟲為害葉片表面有明顯由褶皺、蚜蜜造成的陰影和亮斑,因此圖像的灰度值差異性較大,反映圖像無序性的熵較大。
為精確蚜蟲為害后光譜反射率變化的敏感區(qū)域,降低數(shù)據(jù)冗余度,使用主成分載荷法、隨機蛙跳算法和連續(xù)投影法提取特征波長,從全波長信息中分別優(yōu)選出 9、10、13 個特征波長。 以特征波長高光譜圖像作為分析對象,利用灰度共生矩陣提取圖像的紋理信息,并取其二階統(tǒng)計量的標(biāo)準(zhǔn)差作為模型的輸入,最終通過偏最小二乘判別分析法和徑向基支持向量機建立分析判別模型。通過對比試驗發(fā)現(xiàn),RF-PLS-LDA 模型效果最好,預(yù)測集識別率達到91.49%。由于模型輸入數(shù)據(jù)量較大,導(dǎo)致建模效率低,通過減少模型輸入數(shù)據(jù)對模型進行優(yōu)化。 逐一以紋理特征二階統(tǒng)計量作為輸入建立判別模型, 其中 PCA-Loading-PLS-LDA-Energy 模型性能最好,預(yù)測集識別率達到92.55%。該方法為棉花棉蚜蟲情識別提供了新的思路,但其預(yù)測性能還須進一步改進。 下一步的研究重點為找尋不同蚜害等級下紋理特征的變化特點。
由于棉蚜為害導(dǎo)致棉花葉片葉綠素和相對含水量下降、細胞結(jié)構(gòu)產(chǎn)生變化,因此棉蚜為害樣本高光譜曲線藍光、紅光波段以及近紅外波段的反射率較健康樣本更低。 通過對比試驗發(fā)現(xiàn),RF-PLS-LDA 模型對棉蚜為害葉片的識別率最好,預(yù)測集識別率達到91.49%。 由于模型輸入數(shù)據(jù)量較大,導(dǎo)致建模效率低,通過減少模型輸入數(shù)據(jù)對模型進行優(yōu)化。 逐一以紋理特征二階統(tǒng)計量作為輸入建立判別模型, 其中PCA-Loading-PLS-LDA-Energy 模型性能最好,預(yù)測集識別率達到92.55%。