張卓然,常慶瑞,張廷龍,班松濤,由明明
(西北農(nóng)林科技大學(xué) 資源環(huán)境學(xué)院,陜西 楊凌 712100)
葉綠素是植物進行光合作用的主要色素物質(zhì),它與光合作用能力、營養(yǎng)元素含量、農(nóng)作物健康狀況、作物產(chǎn)量有非常密切的關(guān)系,是評價作物長勢的重要指標(biāo)[1-3]。植物葉片SPAD(Soil plant analysis development,SPAD)值反映了葉綠素含量的相對大小, 已成為評價植被長勢的有效手段[4]。植物葉片的SPAD值易于與高光譜數(shù)據(jù)實現(xiàn)準(zhǔn)確對應(yīng),因此利用高光譜遙感技術(shù)構(gòu)建植物SPAD值預(yù)測模型成為農(nóng)業(yè)遙感的熱點研究領(lǐng)域[5-9]。
支持向量機(Support Vector Machine,簡稱SVM)是在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上提出的一種機器學(xué)習(xí)算法。由于SVM 具有出色的學(xué)習(xí)和預(yù)測性能,在分類和預(yù)測方面得到了廣泛應(yīng)用,也可以很好地應(yīng)用于函數(shù)回歸問題[10]。隨著高光譜遙感反演研究的發(fā)展,已有學(xué)者利用支持向量機對小麥、水稻等糧食作物的葉綠素、葉面積指數(shù)進行了研究[11-13];但對棉花的相關(guān)研究卻很少,且對棉花的研究主要集中在新疆地區(qū)[14-18]。因此,本研究以渭北旱塬區(qū)棉花為對象,探討合適的植被指數(shù)和反演方法,以期為提高棉花葉綠素含量高光譜遙感估算的精度,及棉花葉綠素含量快速準(zhǔn)確估算提供參考,進而為大面積范圍的棉花長勢監(jiān)測提供依據(jù)。
研究區(qū)位于陜西省乾縣梁山鄉(xiāng)齊南村(E 108°07′06″,N 34°38′33″),地處陜北黃土高原與關(guān)中平原的過渡地帶,屬于渭北旱塬地區(qū),地勢波狀起伏,田面平整,溫帶大陸性季風(fēng)氣候,半濕潤易旱,年均降水量601.6 mm,年均氣溫10.8 ℃,農(nóng)業(yè)熟制一般為一年一熟。
供試棉花品種為魯棉研28號,購自山東省德州市農(nóng)業(yè)科學(xué)研究院。2016年在研究區(qū)大田種植2 000 m2,按照當(dāng)?shù)卮筇锕芾矸绞竭M行管理。在代表棉花生長發(fā)育的開花期、花鈴期、盛鈴期、吐絮期4個生育期,各選取能夠代表該區(qū)域整體長勢水平且分布均勻的36株棉花,每株棉花取2片冠層新葉和2片冠層老葉,裝入塑封袋用冷凍保鮮箱帶回實驗室備測。
光譜反射率使用美國SVC(Spectra Vista Corporation)生產(chǎn)的HR-1024i便攜式地物光譜儀測定。儀器測量的波段值為350~2 500 nm,其中350~1 000 nm光譜采樣間隔為1.5 nm,光譜分辨率為3.5 nm;1 000~1 890 nm光譜采樣間隔為3.8 nm,光譜分辨率為9.5 nm;1 890~2 500 nm光譜采樣間隔為2.5 nm,光譜分辨率為6.5 nm。每片葉子在不同部位測量10次,取其平均值作為該葉片的最終光譜反射率。葉綠素含量使用日本KONICA MINOLTA公司生產(chǎn)的SPAD-502型手持式葉綠素儀測定,在每片葉子進行光譜測定的相同位置測10個SPAD值,取平均值作為其SPAD值,SPAD值與光譜數(shù)據(jù)一一對應(yīng)。
本研究共獲取576條葉片觀測數(shù)據(jù)。將每株棉花對應(yīng)的2片新葉和2片老葉光譜數(shù)據(jù)平均值作為該株棉花的光譜數(shù)據(jù),共獲得144組棉花光譜數(shù)據(jù);采用3∶1分層取樣的方法選取108組數(shù)據(jù)作為建模樣本,剩余的36組數(shù)據(jù)作為驗證樣本。
選取多數(shù)研究涉及的與葉綠素相關(guān)性較好、物理意義明確的6種植被指數(shù),以及紅邊幅值和藍(lán)邊幅值共8個光譜參數(shù)(表1),用于棉花葉綠素含量反演模型的構(gòu)建。
表1 本研究選取的光譜參數(shù)及其計算公式Table 1 Spectral parameters and formulas
注:表中R765表示波長為765 nm處的光譜反射率,R700表示波長為700 nm處的光譜反射率,其他同。
Note:R765represents the spectral reflectance of 765 nm,R700represents the spectral reflectance of 700 nm,and same for others.
前人研究表明,葉綠素對葉片光譜的響應(yīng)波段主要位于波長400~1 000 nm的可見光和近紅外波段[3,6-9],所以本研究主要選擇此波段進行分析。為了使不同波段范圍內(nèi)光譜具有可比性,以1 nm為采樣間隔,將測量得到的光譜數(shù)據(jù)進行重新采樣。
先在Excel 2013中采用多項式函數(shù)構(gòu)建單因素回歸模型,在Matlab2014a中進行多元逐步回歸估算模型的構(gòu)建;再用Libsvm-3.21軟件包進行SVM回歸估算模型的構(gòu)建及回歸驗證。
構(gòu)建SVM回歸模型用以下兩種方法:① 采用4個光譜參數(shù)RVI1、MTCI、TCARI和Db作為輸入自變量建立SVM模型[11],記為SPAD-SVM4;② 用8個光譜參數(shù)作為輸入自變量進行建模,記為SPAD-SVM8。由于各光譜參數(shù)值與實測SPAD 值相差過大,使用原始數(shù)據(jù)進行參數(shù)尋優(yōu)時懲戒系數(shù)C會達(dá)到閾值,導(dǎo)致無法得到最優(yōu)值,故對用于SVM建模和驗證的數(shù)據(jù)先進行歸一化處理,以消除這種量級的差別。經(jīng)過反復(fù)試驗得出,在使用SVM類型(-s)為-nu-SVR回歸,核函數(shù)類型(-t)為RBF核函數(shù)時,SVM的建模結(jié)果可以達(dá)到精度最高,故采用這2個參數(shù)進行SVM回歸模型的建立。
最后對模型精度進行評價,比較各模型的決定系數(shù)(R2)、均方根誤差(RMSE)及相對誤差(RE);其中決定系數(shù)(R2)反映模型擬合優(yōu)劣,均方根誤差(RMSE)反映數(shù)據(jù)的離散程度,相對誤差(RE)反映預(yù)測值與實測值的差距。
圖1為不同葉綠素含量棉花葉片對應(yīng)的光譜反射曲線。
圖1 不同葉綠素含量棉花葉片的光譜反射曲線Fig.1 Spectral reflectance of cotton leaves with different chlorophyll contents
由圖1可以看出,不同SPAD值對應(yīng)的棉花葉片光譜反射曲線趨勢基本相同,在可見光范圍(400~700 nm)內(nèi)反射率較低,在近紅外波段(700~1 000 nm)反射率較高;550 nm附近出現(xiàn)1個反射峰,670 nm附近出現(xiàn)1個吸收谷,680~750 nm反射率急劇上升,并在750~900 nm近紅外波段形成1個顯著的高反射平臺;在可見光波段(400~700 nm)棉花葉片對應(yīng)的光譜反射率隨著葉片SPAD值的升高而降低,在近紅外波段(700~1 000 nm),表現(xiàn)為SPAD值越高,葉片的反射率越高。
光譜反射率在一定程度上可以表征葉片的葉綠素含量。棉花冠層葉片葉綠素含量與光譜反射率的相關(guān)性如圖2所示。由圖2可以看出,在530~570 nm和680~730 nm處,葉綠素含量與光譜反射率呈極顯著負(fù)相關(guān)(99.99%置信區(qū)間,n=144),最大相關(guān)系數(shù)達(dá)0.5以上。綠色植物反射光譜在可見光波段主要受葉片色素的影響,葉片葉綠素含量與光譜反射率在可見光波段內(nèi)呈負(fù)相關(guān),說明葉綠素含量越高,光譜反射率越低,吸收作用越強;在760 nm以上的紅外波段,葉綠素含量與光譜反射率呈不顯著正相關(guān)關(guān)系,表明葉綠素有助于近紅外光的反射。
─ 表示顯著相關(guān)(r=±0.230)水平線P≤0.005;┄表示極顯著相關(guān)(r=±0.269)水平線P≤0.001─ represents significance at P≤0.005(r=±0.230);┄ represents significance at P≤0.001(r=±0.269)圖2 棉花冠層葉片葉綠素含量與原始光譜反射率的相關(guān)性Fig.2 Correlation coefficient between cotton leaves chlorophyll content and spectrum reflectance
根據(jù)表1的光譜參數(shù),統(tǒng)計分析葉綠素含量與各光譜參數(shù)的相關(guān)性,結(jié)果如表2所示。由表2可知,所選用的光譜參數(shù)與葉綠素含量均具有較好的相關(guān)性,相關(guān)系數(shù)絕對值都超過了0.400,達(dá)到了極顯著相關(guān)水平,除TCARI和Dr外的6個光譜參數(shù)與葉綠素含量的相關(guān)性極高,相關(guān)系數(shù)均達(dá)到0.630以上,最高達(dá)0.686。從相關(guān)性方向看,TCARI、Dr和Db與葉綠素含量呈負(fù)相關(guān),其他光譜參數(shù)與葉綠素含量呈正相關(guān)。
注:樣本數(shù)n=144,**表示通過0.001水平顯著性檢驗,r0.001=0.269。
Note:Sample number is 144,**means the correlation coefficient is above 0.001 level,r0.001=0.269.
2.4.1 普通回歸模型 以108組建模數(shù)據(jù)、8個光譜參數(shù)為自變量,通過單因素回歸和多元逐步回歸(SPAD-MSR),構(gòu)建棉花冠層葉片葉綠素含量的高光譜遙感估算模型,結(jié)果如表3所示。
表3 基于光譜參數(shù)(x)與棉花葉綠素含量(y)構(gòu)建的普通回歸模型Table 3 Common estimation models based on cotton chlorophyll contents and spectral parameters
由表3可見,在單因素回歸模型中,SPAD-RVI1、SPAD-RVI2、SPAD-MTCI、SPAD-GNDVI和SPAD-Db模型具有較高的精度,R2均大于0.500,RMSE均小于4.000。多元逐步回歸模型SPAD-MSR的R2達(dá)到0.717,明顯大于單因素回歸模型,而RMSE為2.797,小于所有單因素回歸模型,說明利用多元逐步回歸方法可以有效提高建模精度。
2.4.2 SVM回歸模型 用2種方法建立的SVM模型精度如表4所示。由表4可見,采用8個光譜參數(shù)構(gòu)建的SVM模型SPAD-SVM8的R2最大,達(dá)到了0.887,RMSE為3.069。以多元逐步回歸中4個光譜參數(shù)構(gòu)建的SVM模型SPAD-SVM4的R2較小,RMSE較大。由此可見,利用多光譜參數(shù)進行SVM回歸模型的構(gòu)建具有更好的精度。相較于多元逐步回歸方法,使用同樣的光譜參數(shù)作為輸入變量,SVM回歸模型的R2有明顯提升。但用SVM方法無法得到模型的確切表達(dá)式,故未列出。
表4 基于光譜參數(shù)與棉花葉綠素含量構(gòu)建的SVM回歸模型Table 4 SVM estimate models of cotton chlorophyll contents and spectral parameters
用36組葉綠素含量數(shù)據(jù)對2.4節(jié)所建模型進行驗證,結(jié)果如表5所示。
表5 基于不同參數(shù)構(gòu)建的棉花葉綠素含量回歸模型的驗證及精度比較Table 5 Verification and precision comparison of regression models for cotton chlorophyll content base on different spectral parameters
由表5可知,單因素回歸模型中只有SPAD-RVI1、SPAD-RVI2和SPAD-MTCI的R2超過0.390,其他模型精度相對較低。多元逐步回歸模型的R2達(dá)到0.620,明顯高于單因素回歸模型,而RMSE和RE較低,說明多元逐步回歸模型的擬合能力和預(yù)測精度較單因素回歸模型有所提高。SVM回歸模型的精度明顯高于普通回歸模型,R2升高,RMSE和RE降低,其中SPAD-SVM8模型的R2超過其他所有模型,達(dá)到0.884;RMSE和RE也最低,分別為2.186和3.419,較單因素回歸模型中預(yù)測精度最高的SPAD-RVI1模型的RMSE和RE分別降低46.4%和46.3%,較多元逐步回歸模型SPAD-MSR的RMSE和RE分別降低33.4%和32.1%。說明SVM建模方法比多元逐步回歸建模方法能更準(zhǔn)確地進行棉花冠層葉片葉綠素含量的預(yù)測,且SPAD-SVM8模型是所有回歸模型中精度最高的模型,預(yù)測精度較普通的單因素回歸模型和多元逐步回歸模型均明顯提高。
本研究選取6個植被指數(shù)及紅邊幅值和藍(lán)邊幅值共8個光譜參數(shù)為建模參數(shù),用單因素回歸模型進行棉花冠層葉片葉綠素含量的估算,結(jié)果顯示,TCARI、Dr、Db與棉花葉綠素含量呈極顯著負(fù)相關(guān),其他5個植被指數(shù)與棉花葉綠素含量呈極顯著正相關(guān),這與王強等[2]、Haboudane等[24]的研究結(jié)果相一致。但部分光譜參數(shù)模型的預(yù)測精度不高,這是因為棉花不同生育期對應(yīng)的模型有所不同,因此在今后的研究中需要在不同生育時期建立不同的估算模型,以達(dá)到更好的預(yù)測效果。
本研究發(fā)現(xiàn),SVM建模方法精度最高,比單因素回歸模型中預(yù)測精度最高的SPAD-RVI1模型的RMSE和RE分別降低46.4%和46.3%,較多元逐步回歸模型SPAD-MSR的RMSE和RE分別降低33.4%和32.1%,可以作為棉花冠層葉片葉綠素含量高光譜反演的優(yōu)選建模方法。這是因為SVM這種機器學(xué)習(xí)算法遵循結(jié)構(gòu)風(fēng)險最小化原理,因此能獲得最佳的推廣能力。這與梁亮等[12]在冬小麥上的研究結(jié)果相一致。
在SVM建模過程中,光譜參數(shù)的數(shù)量對棉花冠層葉片葉綠素含量高光譜估算的精度也有影響。應(yīng)用8個光譜參數(shù)構(gòu)建的SPAD-SVM8模型R2比應(yīng)用4個光譜參數(shù)構(gòu)建的SPAD-SVM4模型提高了7.4%,RMSE和RE分別降低了19.2%和23.5%。這是因為光譜參數(shù)雖然能夠消除部分環(huán)境因素的影響,但如果參與計算的波段較少,則只能包含作物的部分光譜信息,建模反演精度提高效果就不明顯;而利用更多的光譜參數(shù)進行SVM建模計算時,可以充分地利用多波段數(shù)據(jù)中的豐富光譜信息,從而更加有效地提高作物高光譜遙感反演的精度。這與梁棟等[11]在冬小麥上的研究結(jié)果相一致。本試驗在前人研究基礎(chǔ)上增加了采用相同光譜參數(shù)的多元逐步回歸方法和SVM方法的建模比較,結(jié)果表明,SPAD-SVM4模型較多元逐步回歸模型R2提升了32.7%,RMSE和RE分別降低17.5%和11.2%,說明在棉花葉綠素含量估算中,選取相同光譜參數(shù)條件下,利用SVM方法建模效果優(yōu)于多元逐步回歸方法建模。
以渭北旱塬區(qū)經(jīng)濟作物棉花為研究對象,在分析冠層葉片葉綠素含量與光譜反射率相關(guān)性的基礎(chǔ)上,選取能夠反映棉花葉綠素差異的光譜參數(shù)。采用單因素回歸、多元逐步回歸和SVM 3種方法建立了棉花冠層葉片葉綠素含量的遙感反演模型,并對各種模型的預(yù)測精度進行了比較,得到以下結(jié)論:
(1)不同葉綠素含量棉花冠層葉片對應(yīng)的光譜反射率在可見光波段,隨著葉片葉綠素含量的升高而降低;在近紅外波段表現(xiàn)為葉綠素含量越高,葉片光譜反射率越高。
(2)棉花冠層葉片葉綠素含量在530~570 nm的綠光波段和680~730 nm的紅光波段與光譜反射率呈極顯著負(fù)相關(guān),在760 nm以上的紅外波段與光譜反射率呈正相關(guān)關(guān)系。
(3)相比于單因素回歸和多元逐步回歸方法,用SVM方法建??梢杂行У靥岣吣P偷姆囱菪Ч勺鳛槊藁ㄈ~綠素含量預(yù)測模型反演的優(yōu)選方法。采用更多的光譜參數(shù)作為輸入變量構(gòu)建的模型(SPAD-SVM8)比采用較少光譜參數(shù)構(gòu)建的模型(SPAD-SVM4)估算精度更高。