周文濤,張 鑫,孔祥蕓,丁玉鵬
(1.北京數(shù)慧時空信息技術(shù)有限公司,北京 100080;2.煙臺市自然資源和規(guī)劃局,山東煙臺 264003;3.山東明嘉勘察測繪有限公司,山東 淄博 255035)
為了進一步摸清全國耕地質(zhì)量情況,第三次全國國土調(diào)查將耕地資源質(zhì)量分類與評價作為專項調(diào)查,并制定了工作方案[1]。方案要求以三調(diào)的耕地圖斑和可擴充單元圖斑(即可恢復(fù)、工程恢復(fù))作為評價單元,利用農(nóng)業(yè)農(nóng)村部和自然資源部最新的與土壤性狀相關(guān)的實測采樣數(shù)據(jù)和長期監(jiān)測數(shù)據(jù),對評價單元進行土壤性狀的賦值。但由于樣點量不足以將評價單元逐一對應(yīng)賦值,因此,通過樣點將全域評價單元賦予相對精確的土壤性狀指標在實際應(yīng)用上具有極其重要的意義。
在ArcMap 平臺的地統(tǒng)計分析模塊提供了不同的插值方法,但空間插值方法受到樣本數(shù)據(jù)屬性、插值理論模型、插值理論等綜合影響[2],并不存在一以貫之的最優(yōu)模型,學(xué)術(shù)界也沒有一種受到公眾認可的插值方法。因此,需要根據(jù)具體的數(shù)據(jù)與本區(qū)域的自然地理特征對不同的方法進行比較,進而“因地制宜”地選擇出最適于本區(qū)域的最優(yōu)模型。
本文在前人已有工作的基礎(chǔ)上,以遼東膠東丘陵地區(qū)某地為研究區(qū),采用不同的插值模型對土壤有機質(zhì)(Soil organic matter,SOM)的空間分布情況進行預(yù)測,并通過比較不同插值方法預(yù)測的誤差大小和整體的綜合反映效果,探討土壤有機質(zhì)插值方法選擇的流程,進而為其他區(qū)域不同土壤性狀的空間插值方式提供參考。
研究區(qū)位于遼東膠東丘陵自然區(qū),山區(qū)、丘陵分別占行政區(qū)總面積的 32.9%和38.4%,山丘連綿,溝壑綜橫,地勢東北部、中部偏高,光照充足,年均降雨量671.1 mm。研究區(qū)內(nèi)土地利用總面積約為207 萬畝(1 畝=0.067 hm2),其中耕地約67 萬畝,可擴充單元(即可恢復(fù)、工程恢復(fù))圖斑對應(yīng)面積共計約23 萬畝,全域耕地以旱地為主。
本文利用 386 件土壤有機質(zhì)實測數(shù)據(jù)進行空間賦值。首先采用拉斐爾法,進行異常值處理。即樣本的平均值加減3 倍的標準差作為數(shù)據(jù)的有效區(qū)間,通過表 1 中的信息進行計算,獲得的有效區(qū)間為[2.70,17.25],超出區(qū)間用有效區(qū)間的邊界值進行代替,且若為負值,則用0 代替,這是因為基于理論和實際意義,負值是不存在的。
表1 土壤有機質(zhì)數(shù)據(jù)描述性統(tǒng)計
對測區(qū)內(nèi)的386 件土壤有機質(zhì)樣點數(shù)據(jù)進行統(tǒng)計分析。通過變異系數(shù)判斷樣點數(shù)據(jù)之間是否存在相關(guān)性。變異系數(shù)計算公式:C.V=(SD/MN)·100%;其中,SD為標準偏差、MN為平均值。根據(jù)變異系數(shù)的大小可估計變量的離散程度:其中,若變異系數(shù)<10%,則為弱變異性;若10%<變異系數(shù)<100%,則屬于中等變異性;若變異系數(shù)>100%,則為強變異性。本測區(qū)樣點數(shù)據(jù)的變異系數(shù)為 24.3%,屬于中等強度變異,土壤有機質(zhì)之間存在顯著相關(guān)性。
當數(shù)據(jù)量≤50 時,傾向于以S-W檢驗結(jié)果為準;當數(shù)據(jù)量> 50 時,傾向于以K-S檢驗為準;當數(shù)據(jù)量>5 000 時,SPSS只會顯示K-S檢驗結(jié)果。本文樣本數(shù)量為386 件,遠大于50 且小于5 000,故以K-S檢驗結(jié)果為準。通過表2 中的正態(tài)性分布檢驗可以看出,其顯著性為0.2 > 0.05,說明樣點數(shù)據(jù)符合正態(tài)分布。
表2 土壤有機質(zhì)正態(tài)性分布檢驗
采用空間探索性分析工具對測區(qū)內(nèi)的土壤有機質(zhì)樣點數(shù)據(jù)進行趨勢性統(tǒng)計分析(如圖1 所示)。對數(shù)據(jù)進行 Box-Cox 轉(zhuǎn)換后,數(shù)據(jù)的正態(tài)概率圖(b)顯示采樣點的值基本最靠近對角線,證明對數(shù)據(jù)進行 Box-Cox 轉(zhuǎn)換后正態(tài)分布效果最優(yōu)。根據(jù)直方圖統(tǒng)計數(shù)據(jù)(a),樣點經(jīng)過Box-Cox 轉(zhuǎn)換后偏態(tài)系數(shù)(Skewness)為 0.16,證明數(shù)據(jù)分布具有對稱性,且數(shù)據(jù)稍右偏態(tài);峰度系數(shù)(Kurtosis)為 3.26,數(shù)據(jù)的分布形態(tài)較正態(tài)分布呈現(xiàn)高窄的狀態(tài),數(shù)據(jù)相對集中于平均數(shù)附近。平均數(shù)(8.95)與中位數(shù)(9)較近也可作為接近正態(tài)分布的依據(jù)。根據(jù)趨勢分析圖(c)顯示,在 xz、yz 平面上呈現(xiàn)一階級和近似二階的趨勢,但無法準確判斷,因此,需要進一步進行比較測算趨勢效應(yīng)。
交叉檢驗法(cross-validation)[3]是假設(shè)某空間位置的土壤有機質(zhì)未知,用具有空間關(guān)系的其他所有土壤有機質(zhì)的實測數(shù)據(jù)來估算該位置上的有機質(zhì)含量,并通過比較預(yù)測值與實測值之間的差距進行精度評價的方法。交叉檢驗法通過五項指標進行評價,分別為:平均誤差(Mean Error,ME)、標準化平均誤差(Mean standardized Error,MSE)、均方根誤(Root-mean-square standardized Error,RMSE)、平均標準誤差(Average standard error,ASE)和標準化均方根誤差(Root-mean-square standardized Error、RMSSE),評價標準[4]如下:ME 和 MSE 絕對值越接近于 0,精度越高;RMSE 越小越好;RMSSE 越接近于 1 越優(yōu)。若 ASE>RMSE 或 RMSSE<1,則說明高估了預(yù)測值;反之,則為低估。下面將對3 種地統(tǒng)計內(nèi)插方法和4 種確定性內(nèi)插方法通過預(yù)測誤差進行綜合比較,具體如下。
3.1.1 趨勢效應(yīng)及半方差函數(shù)模型的選取
首先通過ArcMap 中的空間統(tǒng)計工具(Spatial Statistics Tools)里的平均最鄰近距離(Average Nearest Neighbor)工具進行分析計算 得出NNObserved=1 017.64,確定步長。為確定趨勢效應(yīng),在不考慮各項異性,并假定半方差函數(shù)都為穩(wěn)定模型以及內(nèi)插方法均為普通克里格法的前提下,分別設(shè)置一階線性和二階多項式的內(nèi)插趨勢效應(yīng),2 種趨勢效應(yīng)插值的預(yù)測誤差情況如表3 所示:趨勢指數(shù)為一階相較于二階的 ME,MSE 絕對值更接近于0,RMSE 更小。綜上所述,趨勢指數(shù)選取一階效果更優(yōu)。
表3 不同趨勢指數(shù)的土壤有機質(zhì)預(yù)測誤差
在確定趨勢效應(yīng)選取一階的前提下,且統(tǒng)一采用普通克里格內(nèi)插方法,通過交叉驗證的結(jié)果驗證不同的半方差函數(shù)模型擬合的準確度,本文選取了球狀模型、指數(shù)模型和高斯模型3 種函數(shù)進行比較。根據(jù)表4 所示:從預(yù)測誤差結(jié)果看,指數(shù)模型的ME最接近 0,RMSE 最小,RMSSE 最接近于 1,因此,指數(shù)模型擬合效果最佳。塊金值與基臺值之比從大到小依次為高斯模型(0.89)>球狀模型(0.87)>指數(shù)模型(0.83)>0.5,因此,3 種函數(shù)模型隨機因素所引起的土壤有機質(zhì)空間異質(zhì)性程度要大于自相關(guān)部分[5]。綜合比較預(yù)測誤差、塊金值、基臺值等數(shù)據(jù),最重要的指標為預(yù)測誤差[6]。根據(jù)預(yù)測誤差等級最高的原則,選取指數(shù)模型最優(yōu)。
表4 不同模型的土壤有機質(zhì)預(yù)測誤差
3.1.2 地統(tǒng)計內(nèi)插方法預(yù)測誤差比較
趨勢效應(yīng)設(shè)置為一階,半方差函數(shù)模型選取指數(shù)模型,在以上兩項設(shè)置統(tǒng)一的情況下,比較不同的地統(tǒng)計插值方法進行插值的預(yù)測誤差。本文主要選取普通克里格、簡單克里格和泛克里格3 種方法。不同方法的預(yù)測誤差值見表5,從表中數(shù)值可以看出,簡單克里金的ME、MSE 最接近于0,且其RMSE 的值也是最小,綜上所述,簡單克里金的插值方法是最優(yōu)的。
表5 土壤有機質(zhì)的地統(tǒng)計內(nèi)插方法預(yù)測誤差
本文選取了4 種確定性內(nèi)插方法,通過比較不同方法的預(yù)測誤差值,選取最優(yōu)插值方法,具體如下。
3.2.1 反距離權(quán)重插值
距離相近的事物要比距離較遠的事物更為相似。該空間插值方法的原理是假定待賦值點都會受到局部的影響,而隨著距離的增大,受到的影響會減小。反距離權(quán)重插值認定權(quán)重與距離p 次冪成正比,權(quán)重隨著距離的增加而降低,降低的速度取決于冪值p。而p 的最優(yōu)值則通過交叉驗證統(tǒng)計信息確定。從表5 的預(yù)測誤差結(jié)果來看,平均預(yù)測誤差值差距不大,且其中當冪指數(shù)為1 時,均方根預(yù)測誤差是最小的。
3.2.2 徑向基函數(shù)插值法
徑向基函數(shù)的原理是基于系列的精確插值方法進行組合,將插值表面穿過每一個實測的采樣點,5種基函數(shù)插值出來的表面結(jié)果不同。這種插值方法最適用于平緩變化的表面,對于短距離內(nèi)出現(xiàn)劇烈變化的樣點并不適用。本文通過交叉驗證的結(jié)果選擇最優(yōu)基函數(shù),根據(jù)表6 結(jié)果顯示,規(guī)則樣條函數(shù)其 ME 值最接近于0,是最優(yōu)的基函數(shù)插值方法。
3.2.3 全局多項式插值法
據(jù)實測點進行擬合,形成由數(shù)學(xué)函數(shù)定義的平滑曲面。以貼合數(shù)據(jù)為準增加項。平面無彎曲即為一階多項式(線性),一次彎曲為二階多項式,以此類推,最多10 次。根據(jù)表6 的交叉驗證結(jié)果來看,一階與二階的 ME 相近,而二階的 RMSE 更小,因此選用二階多項式擬合效果更優(yōu)。
3.2.4 局部多項式插值法
相較于上一插值方法不同的是,上一插值法是依據(jù)整個表面進行擬合多項式,而本插值方法可以擬合指定重疊領(lǐng)域內(nèi)的多個多項式。領(lǐng)域之間是相互重疊的,位于領(lǐng)域中心的擬合多項式的值即為每次預(yù)測所使用的值,需選擇最佳參數(shù),將預(yù)測誤差降至最小。根據(jù)表6 的預(yù)測誤差所示,各階的RMSE相差較小,而3 階的ME 最接近于0。
表6 土壤有機質(zhì)各種不同確定性內(nèi)插方法預(yù)測誤差
綜合比較以上4 種確定性內(nèi)插方法,全局多項式插值法(二階)ME 最接近于0,且RMSE 最小,因此是最佳的插值方式。其次為局部多項式插值法(三階)。
綜合以上所有數(shù)據(jù)顯示,將地統(tǒng)計內(nèi)插方式與確定性內(nèi)插的預(yù)測誤差進行綜合比較,確定性內(nèi)插中的全局多項式(二階)其預(yù)測誤差的ME 更接近于0,RMSE 更小,是最優(yōu)的插值方法。
利用遼東膠東丘陵地區(qū)的 386 個土壤有機質(zhì)樣點數(shù)據(jù),在ArcGIS 平臺和 SPSS 軟件的支持下,對樣點數(shù)據(jù)進行統(tǒng)計分析,并利用不同的空間插值方法對研究區(qū)內(nèi)土壤有機質(zhì)的空間分布值進行預(yù)測,選取最優(yōu)的趨勢效應(yīng)及半方差函數(shù)模型比較不同的地統(tǒng)計內(nèi)插方法計算的預(yù)測誤差值,并綜合比較地統(tǒng)計內(nèi)插方法與確定性內(nèi)插方法的預(yù)測誤差,選取最優(yōu)模型。結(jié)果表明:
1)利用Kolmogorov-Smirnova驗證了數(shù)據(jù)符合正態(tài)分布特性,并通過空間探索分析 QQ 圖等方式確定了對樣本數(shù)據(jù)進行 Box-Cox 轉(zhuǎn)換達到的擬合度最高。
2)在地統(tǒng)計內(nèi)插方法中,趨勢效應(yīng)中,普通克里格方法(一階)插值效果比普通克里格(二階)插值效果好;在半方差函數(shù)模型中,指數(shù)模型插值效果優(yōu)于球狀和高斯模型;通過比較不同地統(tǒng)計內(nèi)插方法預(yù)測誤差,簡單克里格方法在3 種地統(tǒng)計插值方法中均方根預(yù)測誤差最小,因此是最優(yōu)的插值方式。
3)在確定性內(nèi)插方法中,交叉驗證的預(yù)測誤差結(jié)果表明,全局多項式的內(nèi)插方法優(yōu)于反距離權(quán)重、徑向基函數(shù)和局部多項式插值法。二階插值效果優(yōu)于一階和三階,是最優(yōu)的確定性內(nèi)插方法。
4)綜合比較地統(tǒng)計內(nèi)插方法和確定性內(nèi)插方法的交叉驗證的預(yù)測誤差,本項目測區(qū)適合利用確定性內(nèi)插方法的全局多項式插值(二階)進行空間插值,插值結(jié)果準確度最高。