吳劍飛
(安徽理工大學空間信息與測繪工程學院,安徽 淮南 232001)
葉片含水率是農(nóng)作物主要質(zhì)量指數(shù),其變化直接影響著作物生理功能,最終影響其生長品質(zhì)和產(chǎn)量[1]。傳統(tǒng)的植物含水率檢測如電烘箱升溫、紅外線加溫、微波加熱等物理干燥方式,雖測量準確度較高,但具有耗時費力、流程冗長復雜、樣品容易損壞、時效性較差等缺點[2],而且無法適應農(nóng)作物生長過程中對大區(qū)域目標含水率真實、無損的測量要求。此外,含水率受多個因素影響,導致測量結(jié)果與實際含量相比常出現(xiàn)一定的誤差[3]。
遙感技術(shù)的出現(xiàn)和發(fā)展給農(nóng)作物含水率的動態(tài)無損檢測帶來全新的技術(shù)手段,農(nóng)作物的光譜反射特性與其本身的理化性質(zhì)緊密相關(guān),這種聯(lián)系形成了農(nóng)業(yè)遙感技術(shù)應用的物理基礎。遙感技術(shù)中高光譜分析技術(shù)[4]具有快捷、有效、無害的優(yōu)勢,可以提取大量的地物光譜信息,從而預測作物的生物參數(shù),進而檢測作物的健康狀態(tài),被認為是快速獲取含水率從而觀察農(nóng)作物生長狀態(tài)的有效技術(shù)。
實際科研和使用中,高光譜數(shù)遙感在獲取大量目標有效信息的同時,也出現(xiàn)隨機噪聲、數(shù)據(jù)污染、信息重復度高等問題,影響預測模型的運行速度和精度。特征波段的篩選算法可實現(xiàn)對高光譜數(shù)據(jù)的降維,保證模型輸入數(shù)據(jù)的有效性和非共線性,這在當前高光譜遙感技術(shù)應用于農(nóng)業(yè)方面越來越重要,已經(jīng)成為影響精度的重要指標。
國內(nèi)外研究者針對于將不同光譜變換處理和最優(yōu)波長組合的技術(shù)方法在建立判別模型中的實際應用開展了大量研究。Dai Q等[5]利用SNV-SPA建模判斷冷凍和無冷凍條件下蝦的新鮮程度,模型預測正確率高達95%。Zhu Z等[6]根據(jù)標準正太變換SNV等三種光譜預處理方法對400個蛹的光譜數(shù)據(jù)進行動態(tài)運算,確定了基于二階導數(shù)光譜形式結(jié)合偏最小二乘建模實現(xiàn)了活蛹性別判定。任怡等[7]采用競爭性自適應重加權(quán)采樣CARS算法進行了香蔥含水率和株體含水率的高光譜遙感數(shù)據(jù)獲取和敏感光譜波段篩選,壓縮率均超過了96%,采用PLSR法和SVMR等方法分別構(gòu)建了含水率定量分析模型,反演的均方根誤差分別為0.904 6和0.914 3。Qiao X X等[8]分析了包含原始光譜變換形式在內(nèi)的6種預處理方法,結(jié)合多種建模方法,有效凸顯了光譜信息,獲取了土壤多種參量的特征波段。第五鵬瑤等[9]采用4大類共計12小類預處理方法,通過MATLAB程序?qū)崿F(xiàn)120種預處理變換組合,對9組數(shù)據(jù)集的光譜進行預處理,顯示出不同處理方法的效果。Andreas S等[10]研究了不同梯度環(huán)境下,土壤光譜曲線與其有機質(zhì)含量的關(guān)系,通過包絡線去除顯現(xiàn)了光譜潛藏信息,最終確定以反射率倒數(shù)的對數(shù)處理而建立的PLSR模型反演精度最高。Wen Y L等[11]利用相關(guān)系數(shù)法,檢測出與馬尾松冠層葉綠素成分含量高度關(guān)聯(lián)的植被指數(shù),從而對馬尾松冠層葉綠素濃度作出有效評估。
高光譜數(shù)據(jù)在顯示光譜信息的同時,隱藏了部分關(guān)鍵信息,同時由于儀器暗電流和環(huán)境背景噪聲等影響,數(shù)據(jù)本身有不穩(wěn)定性。因此,數(shù)據(jù)的預先處理,可以達到凸顯目標某生化參量或去除影響的目的,對于高光譜技術(shù)精確反演農(nóng)作物信息具有重要意義。目前被認為較有效的預處理變換方法有基線校正、散射校正、平滑處理和歸一化處理。
基線校正可在一定程度上降低儀器背景噪聲,削弱漂移對信號質(zhì)量的影響,包括一階導數(shù)(FD)、二階導數(shù)(SD),效果如圖1所示,提高了光譜分辨率,消除了與波長無關(guān)的漂移,基本公式如式(1)、式(2)所示。
圖1 經(jīng)基線校正后的小麥光譜曲線
如圖2所示,散射校正能夠減少因粒度大小不一致及顆粒不均勻性而產(chǎn)生的散射對光譜信號的影響,其中較為常用的校正方法為多元散射校正(MSC)。MSC可以校正因目標表面分布不均勻產(chǎn)生的散射效應,光譜的隨機變異將盡可能地被消除,從而減弱粒徑散射影響。計算公式如下:
圖2 經(jīng)散射校正后的小麥光譜曲線
式中,mi、bi分別表示第i個樣本的光譜曲線經(jīng)一元線性回歸后的斜率和截距。
光譜信號的噪聲來源廣泛,很大程度上影響了信噪比,平滑處理有效解決了噪聲問題。Savitzky-Golay(SG)平滑法,是指使用多項式計算對原始光譜移動視窗內(nèi)的反射率數(shù)據(jù)采用多項式分解,并利用最小二乘進行數(shù)據(jù)擬合,其實質(zhì)是一種加權(quán)平均法。
如圖3所示,把光譜全波段中一個區(qū)域內(nèi)等波段間隔的n個點記為X集合,本研究選擇n為5,而多項式平滑法則是利用在波段點為Xm-2、Xm-1、Xm、Xm+1、Xm+2的數(shù)據(jù)的多項式擬合值來代替Xm,之后順序移動,直至把光譜遍歷完畢,圖4為經(jīng)過平滑處理后的小麥光譜曲線。
圖3 平滑處理原理圖
圖4 經(jīng)平滑處理后的小麥光譜曲線
如圖5所示,歸一化處理可以減小各個樣品之間的差異引起的誤差。
圖5 經(jīng)歸一化處理后的小麥光譜曲線
雙波段光譜指數(shù)法的本質(zhì)是搭配波段范圍內(nèi)任意兩個波段[12],進行作差、作商和歸一化的運算,然后與農(nóng)作物的生化參量進行相關(guān)系數(shù)分析,得出相關(guān)系數(shù)矩陣,即等勢圖形式。如圖6所示,該矩陣的每個坐標值的大小表明該點x和y進行運算后,與對應生化參量的相關(guān)性大小,該坐標值的絕對值較大時,說明該坐標的x和y對應的波段可以提供有效信息。式(4)、(5)、(6)分別為歸一化光譜指數(shù)、比值光譜指數(shù)和差值光譜指數(shù)的公式。
圖6 相關(guān)系數(shù)等勢圖
其中,Rλ1和Rλ2分別在數(shù)值上等于該波段對應的反射率。
隨機蛙跳算法(Random Frog, RF)是一種以候補變量集合反復迭代選擇的算法,先隨機確定候補集合,然后對總變量進行選擇,不斷替換集合內(nèi)概率低的變量,最終獲取少量變量的高維數(shù)據(jù)變量選擇方法。每一次迭代分為以下主要步驟:1)確定一個包含N1個變量的變量子集V0;2)基于V0中變量的特征和選擇概率,提出包含N2個變量的候補子集V1替代V0;3)計算每個變量的選取概率[13]。
基于RF算法提取小麥含水率的特征波長的運行結(jié)果,如圖7所示,每個波段對應的柱狀圖的高度表示該波段被選擇的概率,實際應用中,通常結(jié)合波段共線性和BP神經(jīng)網(wǎng)絡等機器學習算法進行RF特征波段的選擇。
圖7 RF優(yōu)選波段過程
連續(xù)投影法是一種前向變量選取的方法,能夠使矢量空間共線性的問題最小化[14],該算法的具體步驟如下:1)在樣品數(shù)據(jù)中選擇一條光譜列向量作為初始矢量;2)接著估計其他列向量在該初始矢量上的投影;3)選取出最小投影值對應的列向量作為下一個投影的初始向量,直到選取波段數(shù)達到所需數(shù)量;4)將提取的所有波段組合進行多元線性回歸,在局部最小的RMSE中選擇R2最大的波段組合作為最優(yōu)波段組合。為降低起始向量選取的隨機性,本研究采用文獻[14]提出的選取起始光譜向量的方法。
SPA算法提取小麥葉片含水率的特征波長的計算步驟如圖8(a)所示。SPA法在運算流程中利用投影向量的大小實現(xiàn)特征波段變量的過濾,然后利用計算模型的均方根誤差值RMSE選定的波段子集合即為優(yōu)選波長。圖8(b)中正方形圈出點,表示為最優(yōu)特征波段變量。
圖8 SPA優(yōu)選波段過程
競爭性自適應重加權(quán)采樣算法(Competitive Adaptive Reweighting Sampling Algorithm, CARS)[15]是以達爾文進化論的“適者生存”為指導思想,利用了蒙特卡洛抽樣算法和偏最小二乘回歸法的特征波段優(yōu)選方法。CARS法需要迭代多個周期,當超過一定周期數(shù)時,該方法會逐漸收斂,運行過程中出現(xiàn)的均方根誤差最低值即為變量數(shù)目最佳值。每個采樣周期可分為以下步驟[16]:
1)使用蒙特卡洛抽樣法(Monte Carlo Sampling,MCS)從校正集中選取樣品,再通過偏最小二乘建模;
2)計算波段回歸系數(shù)的絕對值權(quán)重,刪除絕對值小于閾值的波長變量,刪除的變量個數(shù)由衰減指數(shù)法(Exponentially Decreasing Function, EDF)確定;
3)剩余波段變量使用自適應加權(quán)算法(Adaptive Reweighted Sampling, ARS)選取波長,以實現(xiàn)偏最小二乘擬合建模;
4)選取交叉驗證的均方根誤差RMSECV最小的模型對應的波長變量作為選擇的特征波長變量。
基于CARS算法,獲取小麥葉片含水率的特征波段的運行過程,如圖9(a)所示。由于CARS中的蒙特卡洛抽樣隨著抽樣頻次的遞增呈現(xiàn)不同的計算結(jié)果,本研究選擇不同抽樣頻次后分別展開計算并選擇相對比較具有優(yōu)勢的波長變量組合。如圖9(b)所示,抽樣次數(shù)較少時,因衰減指數(shù)的影響,使用CARS法所篩選的波段變量數(shù)從總波段變量數(shù)快速下降到較低水平,隨著采樣次數(shù)增加,所選取變量數(shù)的曲線斜率下降。交叉驗證均方根誤差RMSECV,隨著運行次數(shù)的增加而呈現(xiàn)出交替降低和上升的態(tài)勢,圖中“*”豎線標出最小RMSEVC值對應的采樣次數(shù),是欠擬合與過擬合的交匯點,故判定該點處為最優(yōu)波段。由于有效信息被過濾,圖中“*”豎線之后交叉驗證均方根誤差RMSECV逐漸上升。
圖9 CARS優(yōu)選波段過程
波段優(yōu)選算法是機器學習結(jié)合高光譜遙感應用于農(nóng)作物生化參量反演領(lǐng)域的研究熱點,該類算法提取了有效波段,剔除了無效信息和干擾信息,同時也避免了基于單波段的信息“缺失”問題。小麥的高光譜信息中大部分信息對于模型的識別起到“誤導”作用,不能作為反演的根據(jù)。優(yōu)選波段多位于吸收谷的最低點(吸收谷深度),或是吸收谷斜率最大或斜率變化率最大的波段處,表明了高光譜曲線的波谷和波峰是反演農(nóng)作物生化參量的關(guān)鍵,采用競爭性自適應重加權(quán)算法、連續(xù)投影法和隨機蛙跳算法優(yōu)選出的波段低于全波段總數(shù)的1%,較明顯地壓縮了波段量,提取了有效信息,為小麥葉片含水率的反演提供技術(shù)支撐。同時,為高光譜技術(shù)應用于其他農(nóng)作物的多種生化參量反演具有一定參考意義。