肖云飛,高小紅,李冠穩(wěn)
(青海師范大學(xué)地理科學(xué)學(xué)院,青海省自然地理與環(huán)境過程重點(diǎn)實(shí)驗(yàn)室,青藏高原地表過程與生態(tài)保育教育部重點(diǎn)實(shí)驗(yàn)室,西寧 810008)
土壤有機(jī)質(zhì)是土壤的重要組成成分,是植物主要營養(yǎng)來源之一,是土壤肥力的重要指標(biāo)[1]。近年來可見光–近紅外光譜技術(shù)以高效性、實(shí)時性、成本低的特點(diǎn)在土壤理化性質(zhì)中得到了快速發(fā)展[2]。為提高可見光–近紅外光譜對土壤有機(jī)質(zhì)的預(yù)測精度,國內(nèi)外學(xué)者從土壤粒徑[3]、光譜預(yù)處理[4]、特征光譜波段選擇[5]、建模方法[6]等方面分別研究了對有機(jī)質(zhì)預(yù)測精度的影響,期待找到最佳的土壤有機(jī)質(zhì)可見光–近紅外光譜預(yù)測方法。近來有學(xué)者從建模樣本選擇優(yōu)化角度出發(fā)[7-8],研究最佳建模樣本集,以提高模型精度。
實(shí)際情況中,由于土壤樣本的采集受多種原因影響,如交通可通達(dá)性、采樣區(qū)域的范圍大小、經(jīng)費(fèi)的不足等未能全面地考慮成土母質(zhì)、理化性質(zhì)、地理空間位置等,使采樣不具有代表性、樣本空間分布的不均勻等情況,影響建模樣本的選擇,進(jìn)而影響模型的預(yù)測能力。目前常用的建模樣本選擇方法有濃度梯度法、Kennard-Stone(KS)方法、Rank-KS(RKS)方法。KS 方法以土壤光譜差異性作為建模樣本與驗(yàn)證樣本選擇的依據(jù),當(dāng)樣本之間的光譜差異較小時,選擇出的建模樣本就不具有代表性;濃度梯度法主要考慮了土壤有機(jī)質(zhì)的含量,但未考慮土壤的光譜特性、地理位置及其他理化性質(zhì)對建模樣本選擇的影響;RKS方法雖考慮了土壤有機(jī)質(zhì)含量與土壤光譜特性,但也未考慮土壤的其他理化性質(zhì)。所以該方法也使得挑選的建模樣本因未考慮其他因素的影響而缺少代表性,且RKS 方法在利用有機(jī)質(zhì)含量對樣本分類時沒有一個具體的標(biāo)準(zhǔn),可能會造成建模樣本的挑選不均勻。
陳奕云等[7]分別采用KS、RKS、SPXY(Sample set Partitioning based on joint X-Y distance)3 種方法挑選不同比例的建模樣本來預(yù)測固定驗(yàn)證樣本的精度,研究表明KS 方法無法提高模型預(yù)測精度,SPXY 方法用50% 總建模樣本數(shù)就能達(dá)到建模預(yù)測精度,RKS方法在保證建模預(yù)測精度時可以減少70% 的建模樣本。劉艷芳等[8]利用土地利用類型結(jié)合土壤理化信息、光譜信息挑選建模樣本集,研究表明具有多種土壤信息結(jié)合的方法選擇的建模樣本更具有代表性,可以有效地提高模型預(yù)測精度。鄔登巍和張甘霖[9]研究表明母質(zhì)和土地利用類型的差異會顯著影響異地模型的適應(yīng)性,一個地區(qū)建立的估算模型不可隨便用于母質(zhì)和土地利用類型不同的其他地區(qū)。Liu 等[10]利用含有不同土地利用類型的建模樣本的模型很好地預(yù)測了單一土地利用類型有機(jī)質(zhì)含量。劉偉等[11]提出將光譜信息和理化信息結(jié)合構(gòu)成的RKS 方法能夠明顯地提高二甲亞砜溶液濃度的預(yù)測精度。以上研究表明加入土壤多種信息的建模樣本選擇方法,可以構(gòu)建更具有代表性的建模集,從而提高模型預(yù)測精度。
土壤光譜反射率是土壤的眾多理化性質(zhì)的綜合反映,理化性質(zhì)不同,光譜反射率也就不同。有機(jī)質(zhì)含量相同的不同土壤類型的光譜也可能不盡相同[12-14]。本文將土壤類型加入建模樣本的選擇方法中,結(jié)合濃度梯度法、KS 方法,構(gòu)成5 種建模樣本選擇方法,對比不同建模樣本選擇方法的模型精度,研究土壤類型對建模樣本選擇的影響,尋找最佳的建模樣本構(gòu)建方法,以及在固定驗(yàn)證樣本情況下模型達(dá)到一定預(yù)測精度至少所需的建模樣本數(shù),為今后湟水流域有機(jī)質(zhì)預(yù)測提供較好的建模集構(gòu)建方法,同時為湟水流域野外采樣提供數(shù)據(jù)支持。
湟水是黃河上游最大的一級支流,發(fā)源于青海省海晏縣境內(nèi),青海境內(nèi)全長336 km。湟水流域位于青海東部地區(qū),地處36°02′ ~ 37°28′N,100°42′ ~103°04′E(圖1),是黃土高原向青藏高原的過渡地帶。流域內(nèi)地形比較復(fù)雜,內(nèi)有河谷盆地、丘陵和中高山地,海拔1 655 ~ 4 860 m,流域西寬東窄,西高東低,為高原干旱、半干旱氣候,氣溫由西向東逐漸升高[15]。流域內(nèi)主要土壤類型為灰鈣土、栗鈣土、黑鈣土、灰褐土、高山草甸土、山地草甸土等,主要農(nóng)作物有油菜、馬鈴薯、春小麥、玉米、青稞、燕麥等,是青海省主要的農(nóng)業(yè)區(qū)。
研究所使用的土壤樣本為2015 年、2016 年采集的418 個土壤樣品,采樣點(diǎn)空間分布如圖1,采樣時間選擇在農(nóng)作物收割結(jié)束的10 月至11 月初,共計(jì)34 d,為了與野外光譜采集時間一致,土壤采樣在天氣晴朗的11:00—15:30 間。采集土壤樣本時考慮土壤類型、可到達(dá)性、耕地類型、采樣地未翻曬等因素,相對均勻地分布在整個流域內(nèi)。土壤樣本采集方式在相對平坦的地方采用“梅花型”方法采集,坡耕地采用“S”型方法采集,采集土壤表層0 ~ 20 cm 的表土,去除植物根系和石粒,攪拌均勻裝入密封袋,使用GPS 實(shí)時記錄采樣點(diǎn)坐標(biāo)和高程。土壤樣本在實(shí)驗(yàn)室避光條件下自然風(fēng)干過100 目篩,用于土壤反射光譜的測量和有機(jī)質(zhì)的實(shí)驗(yàn)室分析測試。有機(jī)質(zhì)含量的測定采用重鉻酸鉀外加熱法。有機(jī)質(zhì)含量特征統(tǒng)計(jì)結(jié)果見表1。
變異系數(shù)用來衡量土壤特征的空間變異強(qiáng)度,變異系數(shù) 0 ~ 10% 為小變異,10% ~ 100% 為中等變異,大于100% 為高度變異[16]。從表中可以看出不同土壤類型的有機(jī)質(zhì)含量都屬于中等變異,且變異大小為高山草甸土<灰鈣土<灰褐土<黑鈣土<山地草甸土<栗鈣土<總體變異系數(shù),高山草甸土與山地草甸土的土壤有機(jī)質(zhì)含量較高,平均值分別達(dá)到了91.53、67.47 g/kg,灰鈣土有機(jī)質(zhì)含量最低,平均值為16.96 g/kg。
圖1 研究區(qū)采樣點(diǎn)空間分布及土壤類型Fig. 1 Spatial distribution of soil types and sampling sites in study area
表1 土壤有機(jī)質(zhì)含量特征統(tǒng)計(jì)Table 1 Descriptive statistics of soil organic matter contents for different soil types
采用美國ASD Field Spec 4地物光譜儀在暗室內(nèi)測量光譜,波長范圍為250 ~ 2 500 nm,重采樣間隔為1 nm,輸出波段2 151 條。將土壤裝入直徑為12 cm、高為2 cm 的黑色玻璃器皿中。用75 W 鹵素?zé)糇鳛楣庠?,光源入射角?0°,距土壤樣本表面中心30 cm。光譜探頭距土壤樣本中心15 cm 處垂直向下,土壤樣本每旋轉(zhuǎn)90°測5 條光譜,共20 條光譜,光譜測量中每測5 個土壤樣本白板定標(biāo)一次。檢查光譜中是否有異常光譜,剔除異常光譜計(jì)算平均值作為土壤的原始光譜。利用主成分分析方法剔除光譜異常值18 條,剩余400 條光譜進(jìn)行后續(xù)研究。
在光譜測量中,由于光譜測量環(huán)境、測量儀器等因素的影響,光譜中會出現(xiàn)噪聲,噪聲的存在會影響光譜信息的表達(dá)、分析及模型的精度[17]。光譜的微分變換可以減少噪聲和背景的影響,放大光譜特征的差異[18]。本文中首先去除噪聲比較大的350 ~ 399 nm、2 401 ~ 2 500 nm 波段。光譜預(yù)處理方法選擇Savitzky-Golay(SG)加一階微分變換。原始光譜及一階微分光譜反射率如圖2 所示。
本文考慮土壤有機(jī)質(zhì)含量、光譜特征和土壤類型構(gòu)建了5 種建模樣本優(yōu)化選擇方法。濃度梯度法是一種基于理化性質(zhì)的建模樣本選擇方法,將土壤有機(jī)質(zhì)含量按大小順序排列,并依順序每隔一個樣本抽取兩個樣本為建模樣本,剩余為驗(yàn)證樣本;土壤類型結(jié)合濃度梯度法原理是首先將土壤按照類型分開,每一種土壤類型按土壤有機(jī)質(zhì)含量大小排序,按順序每隔一個樣本抽取兩個樣本,將每種土壤類型所抽取的樣本合為一個整體作為建模集的樣本;KS 方法根據(jù)光譜主成分空間的歐氏距離選擇樣本,先尋找全體樣本空間中歐氏距離最遠(yuǎn)的兩個樣本,歸入建模集。再依次計(jì)算全體樣本中每個剩余樣本到建模集樣本的距離,選取每個剩余樣本的最短距離,將這些剩余樣本最短距離中的最長距離所對應(yīng)的樣本選入建模集。重復(fù)上一個步驟,直至建模集中樣本的數(shù)量和所需建模集樣本數(shù)量一致;土壤類型結(jié)合KS 方法原理是先將土壤按類型分開,每種土壤類型中按KS 方法挑選出一定數(shù)目的樣本作為建模樣本;RKS 法是一種既考慮土壤樣本的理化性質(zhì)又考慮其光譜性質(zhì)的建模樣本挑選方法,首先按樣本有機(jī)質(zhì)的含量將樣本分為多份,每一份中再按KS 方法選擇一定數(shù)目的樣本作為建模樣本[11]。
圖2 土壤原始光譜反射率及一階微分變換Fig. 2 Soil original spectral reflectance and first-order differential spectra of different soil types
偏最小二乘回歸(PLSR)是由Wold 和Albano 等在1989 年提出的,模型同時實(shí)現(xiàn)了多元回歸、主成分分析、變量之間相關(guān)分析的新型多元統(tǒng)計(jì)分析方法。通過因子分析實(shí)現(xiàn)了光譜數(shù)據(jù)的降維,同時也除去了干擾組分和干擾因素的影響,消除了自變量間多重共線性,很好地解決了樣本數(shù)少于變量數(shù)的問題[19]。模型采用留一法交叉驗(yàn)證方法。模型精度評價指標(biāo)采用決定系數(shù)(R2)、均方根誤差(RMSE)、相對分析誤差(RPD),當(dāng)R2、RMSE 越小,RPD 越大,模型的預(yù)測效果越好,Chang 等[20]認(rèn)為當(dāng)RPD≥2 時模型有較好的預(yù)測效果,當(dāng)1.4≤RPD<2 時模型有粗略估算能力,當(dāng)RPD<1.4 時模型不具備估算能力。
為了研究不同級別樣點(diǎn)數(shù)的最佳建模樣本選擇方法以及加入土壤類型對建模樣本選擇方法的優(yōu)化效果,將剔除異常值后的400 個土壤樣本點(diǎn)按其經(jīng)緯度坐標(biāo)導(dǎo)入到研究區(qū)地理空間中,在滿足樣點(diǎn)相對均勻分布在整個研究區(qū)內(nèi)且包含不同土壤類型的條件下,計(jì)算樣本點(diǎn)之間的空間距離(ArcGIS 軟件中完成)。在樣本數(shù)分別為400、350、300、250 時,土壤樣點(diǎn)空間分布圖上計(jì)算相同土壤類型樣點(diǎn)的空間距離,考慮每一類土壤類型的樣點(diǎn)占總樣點(diǎn)的百分比,依據(jù)經(jīng)驗(yàn)樣點(diǎn)間距離分別不小于0.12、0.22、0.32、0.44 km 對樣點(diǎn)進(jìn)行刪除,按土壤樣點(diǎn)間隔數(shù)50 剔除樣本數(shù),最后得到350、300、250、200 的樣點(diǎn)分布圖。在樣本數(shù)分別為200、150 時,土壤采樣點(diǎn)空間分布圖上不考慮土壤類型計(jì)算鄰近點(diǎn)之間的距離,刪除距離較近兩采樣點(diǎn)中的一個樣點(diǎn)(刪除樣點(diǎn)為土壤類型樣本數(shù)較多的樣點(diǎn)),按土壤樣點(diǎn)間隔數(shù)50 剔除樣本數(shù),得到150、100 的樣本分布圖。最終樣本分成7 個級別,即樣本數(shù)為400、350、300、250、200、150、100,并分別應(yīng)用濃度梯度方法、KS 法、RKS法、土壤類型結(jié)合濃度梯度方法、土壤類型結(jié)合KS方法,按建模樣本與驗(yàn)證樣本比為2︰1 確定每一級別樣本的建模樣本與驗(yàn)證樣本。不同級別樣點(diǎn)的空間位置如圖3 所示。
將400 個土壤樣本考慮空間位置、土壤類型、有機(jī)質(zhì)含量挑選出1/5 樣本(80 個)作為驗(yàn)證樣本,剩余的4/5 的樣本(320 個)作為總建模樣本。濃度梯度方法、KS 方法、RKS 方法按占樣本數(shù)的90%、80%、70%、60%、50%、40%、30%、20%、10% 分別挑選出建模樣本。土壤類型結(jié)合濃度梯度方法、KS 方法按土壤類型將總建模樣本分開,每種土壤類型的建模樣本占該土壤類型樣本數(shù)的90%、80%、70%、60%、50%、40%、30%、20%、10% 挑選出來作為一個整體作為總建模樣本。驗(yàn)證樣本地理空間分布見圖3H。不同建模樣本特征統(tǒng)計(jì)見表2。
不同級別樣本數(shù)的 5 種建模樣本選擇方法模型精度結(jié)果如圖4。KS 方法在樣本數(shù)為400、350時,建模R2與驗(yàn)證R2差值較小,模型具有較好的預(yù)測能力(RPD>2);且在樣本數(shù)為400 時RPD 值最大(RPD=2.459),模型具有最佳預(yù)測能力;當(dāng)樣本數(shù)小于300 時,建模R2不斷在增大,而驗(yàn)證R2不斷減小,差值不斷增大,模型有過擬合現(xiàn)象,預(yù)測能力較差。濃度梯度法在不同級別樣本數(shù)的模型精度變化不大,表現(xiàn)為在樣本數(shù)分別為400、350、250、200 時,RPD>2,模型具有較好的預(yù)測能力;且在樣本數(shù)為200 時RPD 為2.579,模型具有最佳預(yù)測能力;在樣本數(shù)分別為 300、150、100 時,RPD<2,模型具有粗略預(yù)測能力;樣本數(shù)在150 時建模R2為0.896,驗(yàn)證R2為0.707,差值變大,模型不穩(wěn)定。RKS 方法在樣本數(shù)分別為400、350、300、200、150 時,RPD>2,模型較穩(wěn)定,具有較好的預(yù)測能力;在樣本分別為250、100 時,RPD<2,模型具有粗略預(yù)測能力,且樣本數(shù)為100 時建模R2為0.909,驗(yàn)證R2為0.667,模型不穩(wěn)定。土壤類型結(jié)合濃度梯度法挑選的建模樣本的模型整體RPD>2,具有較好的預(yù)測能力;當(dāng)樣本數(shù)為300 時RPD 為3.237,模型具有極好的預(yù)測能力。土壤類型結(jié)合KS 方法,樣本數(shù)為300 時,RPD 為1.910,模型具有粗略預(yù)測能力;樣本數(shù)為200 時,RPD 為3.01,模型具有極好的預(yù)測能力;其他樣本數(shù)時,RPD>2,具有較好的預(yù)測能力。
當(dāng)樣本數(shù)為350、400 時,不同的建模樣本選擇方法的模型RPD 值都大于2,模型預(yù)測精度差值不大,且在樣本數(shù)為400 時,不同建模樣本選擇方法的建模R2、驗(yàn)證R2、RPD 值都較接近,說明對本研究區(qū)來說樣本數(shù)為400 是最佳的樣本選擇。當(dāng)樣本數(shù)小于350 時,不同建模樣本選擇方法的建模R2值差值不大,但驗(yàn)證R2的差值變大,RPD 值差值也變大。當(dāng)樣本數(shù)為150、100 時,驗(yàn)證R2、RPD 值都較小,說明樣本數(shù)少于150 時,模型只具有粗略的預(yù)測能力。
對比模型預(yù)測精度發(fā)現(xiàn)加入土壤類型的濃度梯度法和KS 方法挑選的建模樣本集的模型相比其他建模樣本選擇方法挑選的建模樣本集的模型驗(yàn)證R2和RPD 值相對較大。且在樣本數(shù)較少時更加明顯,說明加入土壤類型可以很好地優(yōu)化建模樣本選擇方法滿足樣本點(diǎn)較少達(dá)到很好的預(yù)測效果。
在固定驗(yàn)證樣本的情況下,建模樣本的不同選擇方法精度對比如圖5。對于任何一種建模樣本選擇方法挑選的子建模集,在建模樣本≥50% 時,建模R2>0.82,驗(yàn)證R2>0.75,RPD>2,且差值較小,模型較穩(wěn)定。說明不考慮建模樣本選擇方法情況下,只需要50% (160) 的建模樣本數(shù)就能保證模型具備好的預(yù)測精度。當(dāng)建模樣本小于總建模樣本的50% 時,不同建模樣本選擇方法的模型預(yù)測能力的差異變大,首先RKS 方法的模型精度下降,說明RKS 方法的建模樣本數(shù)量在下降到一定比例時,容易丟失對模型預(yù)測精度有顯著貢獻(xiàn)的建模樣本。加入土壤類型的濃度梯度法和KS 方法在建模樣本數(shù)只有總建模樣本數(shù)的20% 時,RPD≥2,模型具有好的預(yù)測精度,很大程度減少了建模成本。
表2 固定驗(yàn)證樣本下的不同建模樣本特征統(tǒng)計(jì)Table 2 Descriptive statistics of different calibration samples under fixed verification samples
圖4 不同級別采樣點(diǎn)建模樣本選擇方法模型精度Fig. 4 Models accuracies for different calibration samples at different samples levels
圖5 固定驗(yàn)證樣本下不同建模樣本選擇方法精度Fig. 5 Models accuracies for different calibration samples under fixed validation samples
不同類型土壤的反射光譜曲線存在著一定的規(guī)律性及基本一致的變化趨勢,但土壤可見光-近紅外光譜只能反映土壤一部分理化性質(zhì)的差異,不能很好地揭示不同類型土壤的類間差異[21]。加入土壤類型有效地控制了地理空間位置、環(huán)境背景、其他理化性質(zhì)對光譜的影響,使得建模樣本選擇更具有代表性。
本文研究與劉艷芳等[8]在江漢平原的研究結(jié)論是一致的,即加入土地利用類型可以構(gòu)建更具有代表性的建模樣本集。在該結(jié)論的基礎(chǔ)上利用湟水流域400 個土壤樣本,對比不同樣本數(shù)級別下加入土壤類型對建模樣本選擇方法的優(yōu)化效果表明:當(dāng)樣本數(shù)大于350 時,土壤類型的加入對建模樣本選擇方法的優(yōu)化效果并不顯著;而當(dāng)樣本數(shù)小于300 時,土壤類型對建模樣本選擇方法的優(yōu)化效果則較為顯著。
KS 方法在本文有機(jī)質(zhì)預(yù)測中表現(xiàn)為:當(dāng)樣本數(shù)在400、350 時模型預(yù)測精度較好,模型相對穩(wěn)定;但當(dāng)樣本數(shù)小于350,模型精度較差,模型較不穩(wěn)定。土壤類型對KS 方法的優(yōu)化結(jié)果表現(xiàn)為:在樣本點(diǎn)為400、350 時,土壤類型結(jié)合KS 方法相比KS 方法的模型預(yù)測精度提高并不明顯;但當(dāng)樣本數(shù)小于350時,土壤類型結(jié)合KS 方法相比KS 方法模型精度明顯提高,模型變穩(wěn)定。出現(xiàn)上述情況的原因是:在不斷剔除樣本數(shù)的過程中可能縮小了有機(jī)質(zhì)含量范圍使光譜差異逐漸變小,或當(dāng)樣本理化性質(zhì)含量低或含量范圍較窄時,采樣點(diǎn)間光譜差異較小,導(dǎo)致KS 方法所挑選的建模樣本不具代表性[10];而加入土壤類型可以彌補(bǔ)KS 方法的不足,使建模樣本集更具有代表性。進(jìn)而表明當(dāng)樣本較多時,在保證模型預(yù)測精度的情況下,為考慮建模時間成本,可以只選擇KS 方法挑選建模樣本;當(dāng)樣本較少的時候,為保證模型的預(yù)測精度,加入土壤類型可以優(yōu)化KS 方法,挑選出更具有代表性的建模樣本。
RKS 方法考慮了土壤的光譜信息與理化性質(zhì),相比KS 方法也有效地提高了模型的精度,但整體提高效果沒有土壤類型結(jié)合KS 方法好,可能因?yàn)镽KS方法是將樣本按有機(jī)質(zhì)含量排序劃分等級,再進(jìn)行KS 方法挑選建模樣本集,不同等級的劃分沒有指定的標(biāo)準(zhǔn),隨機(jī)性比較大。
土壤類型結(jié)合濃度梯度法相比濃度梯度法模型精度提高不明顯,可能是由于有機(jī)質(zhì)含量的考慮進(jìn)而也間接考慮了光譜的原因。有研究證明有機(jī)質(zhì)含量高低在可見光-近紅外波段對光譜反射率有較大的影響,有機(jī)質(zhì)越低,反射率越高,反之亦然[22]。
固定驗(yàn)證樣本(考慮了驗(yàn)證樣本的空間分布位置、土壤類型及有機(jī)質(zhì)含量),減少建模樣本數(shù)量,研究在保證預(yù)測精度情況下建模的最小成本。表2中建模樣本占總建模樣本的不同比例下,KS 方法的建模樣本的有機(jī)質(zhì)含量平均值與固定驗(yàn)證樣本的有機(jī)質(zhì)含量平均值差值相對較大,而其他建模樣本選擇方法的建模樣本有機(jī)質(zhì)含量平均值與固定驗(yàn)證樣本的有機(jī)質(zhì)含量平均值接近,且不同建模樣本選擇方法的建模樣本有機(jī)質(zhì)含量的范圍變化不大,固定驗(yàn)證樣本的有機(jī)質(zhì)含量都在建模樣本有機(jī)質(zhì)范圍以內(nèi),但模型預(yù)測精度不同。說明土壤光譜是土壤眾多性質(zhì)的綜合反映,只考慮單一因素的建模樣本選擇方法不能很好地挑選出具有代表性的建模樣本集,且在樣本數(shù)量較少時更為顯著,加入土壤類型可以有效地優(yōu)化建模樣本選擇方法,提高模型精度和減少建模樣本數(shù)。
陳奕云等[7]在固定驗(yàn)證樣本的情況下,KS 方法建模樣本數(shù)僅占總建模樣本數(shù)的70% 就能很好地保證模型的預(yù)測精度。本文中KS 方法建模樣本數(shù)僅占總建模樣本數(shù)的30% 就能很好地保證模型的預(yù)測精度,KS 方法在保證模型精度下選擇的建模樣本占總建模樣本的比例更小,可能是因?yàn)闃颖緮?shù)不同和固定樣本選擇考慮的因素不同,或因地區(qū)之間的土壤類型及有機(jī)質(zhì)差異所造成的。以后的研究中在選擇驗(yàn)證樣本時可以考慮加入更多的因素,如耕地類型、地形、土壤質(zhì)地等因素,增加驗(yàn)證樣本數(shù)量,使驗(yàn)證樣本相對于本研究區(qū)域更具有代表性,為以后該區(qū)域野外采樣方案提供參考意見,減少野外采樣成本。
不同樣本數(shù)的不同建模樣本選擇方法的模型精度對比以及在固定驗(yàn)證樣本下不同建模樣本選擇方法達(dá)到一定的預(yù)測精度所需的最少的建模樣本對比表明:具有多種土壤要素考慮的建模集更具有代表性,土壤類型對建模樣本選擇方法的優(yōu)化具有可行性與必要性。
本文通過對不同建模樣本選擇方法的模型精度對比,比較了不同建模樣本選擇方法的構(gòu)建對模型精度的影響。結(jié)果表明濃度梯度法和KS 方法所選的建模樣本集所建立的模型預(yù)測能力較差。加入土壤類型后使所選擇的建模樣本更有代表性,模型精度得到提高。不同級別的樣本數(shù)下最佳建模樣本選擇方法不同,但整體表現(xiàn)為土壤多種信息結(jié)合的建模樣本選擇方法模型精度較高。在固定驗(yàn)證樣本下不同建模樣本選擇方法預(yù)測模型精度對比表明,濃度梯度法、KS方法及RKS 方法3 種方法建模樣本數(shù)至少要分別達(dá)到總建模樣本數(shù)的40%、30%、40% 時,才能保證模型精度較好。土壤類型結(jié)合濃度梯度法與土壤類型結(jié)合KS 方法在建模樣本數(shù)占總建模樣本數(shù)的20%時,就能保證很好的建模精度,有效地減少了建模樣本數(shù),減少了建模成本。