張榆霞, 李寶磊, 施 擇,萬國盛
1.云南省環(huán)境監(jiān)測中心站, 云南 昆明 650034 2.云南大學(xué)信息學(xué)院, 云南 昆明 650091
土壤重金屬污染給世界各地帶來嚴(yán)重的環(huán)境和健康問題[1]。土壤中重金屬的空間分布圖被廣泛應(yīng)用于識(shí)別污染源、預(yù)測污染趨勢以及控制潛在的污染風(fēng)險(xiǎn)。山區(qū)水域、懸崖和山谷等自然條件給土壤均勻采樣帶來了巨大的困難。根據(jù)客觀實(shí)際條件,利用有限采樣點(diǎn)的樣品測試數(shù)據(jù),獲得精準(zhǔn)的土壤重金屬空間分布圖,對(duì)于進(jìn)一步進(jìn)行空間評(píng)價(jià)、分析和預(yù)防環(huán)境污染非常有意義。為此,探索采樣稀疏、采樣點(diǎn)分布不規(guī)則的情況下,如何獲得精確穩(wěn)定的插值結(jié)果顯得至關(guān)重要。
目前廣泛應(yīng)用于土壤性質(zhì)空間插值的方法主要有反距離(IDW)[2]、普通克里格(OK)[3]和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFANNs)[4]插值法。基于幾何學(xué)意義的IDW插值方法忽略了土壤重金屬含量高度復(fù)雜的非線性特征而導(dǎo)致精度不高。 基于統(tǒng)計(jì)學(xué)意義的OK插值法雖然得到了廣泛的應(yīng)用,但其應(yīng)用的假設(shè)條件和采樣要求[5],使其不能很好地描述具有非線性系統(tǒng)特征的土壤性質(zhì)空間分布。近年來,許多學(xué)者將人工神經(jīng)網(wǎng)絡(luò)較強(qiáng)的非線性映射能力應(yīng)用于土壤性質(zhì)的空間分布研究中[6],并取得了較理想的結(jié)果,但由于人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程具有隨機(jī)性,會(huì)降低其插值結(jié)果的穩(wěn)定性。為此,研究引入了一種集成徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(IRBFANNs)模型,用以提高山區(qū)土壤重金屬濃度插值的精確性和穩(wěn)定性?;谠颇鲜〕凼心喜可絽^(qū)表層土壤中重金屬錳和釩的樣品測試數(shù)據(jù),進(jìn)行了3種不同等級(jí)采樣密度下的IDW、OK、RBFANNs和IRBFANNs插值法比較實(shí)驗(yàn)研究。
集成技術(shù)的基本思想是通過訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò),并將其預(yù)測結(jié)果進(jìn)行平均以期消除誤差,提供更精確、穩(wěn)定的預(yù)測[4]。IRBFANNs預(yù)測需要2個(gè)步驟:首先在使用該模型之前用Bagging[7]方法對(duì)總訓(xùn)練數(shù)據(jù)重復(fù)取樣獲得不同的子訓(xùn)練數(shù)據(jù)集,用以訓(xùn)練各個(gè)RBFANNs模型,并通過式(1)計(jì)算各個(gè)模型的權(quán)重;然后把預(yù)測點(diǎn)信息Xin(被預(yù)測點(diǎn)的經(jīng)度、緯度、臨近5個(gè)采樣點(diǎn)采樣值組成的輸入向量)輸入到各個(gè)RBFANNs模型,通過式(2)計(jì)算IRBFANNs模型的輸出。
(1)
(2)
以云南省楚雄市南部以及周邊地區(qū)為試驗(yàn)區(qū)。該區(qū)域系云貴高原中部,紅河水系與金沙江水系分水嶺地帶,地跨100°59′E~101°52′E,24°1′N~25°3′N,面積達(dá)9 938.641 5 km2,山地是該區(qū)域主要的地貌。地勢西北高、東南低,海拔為556~3 657 m,海拔落差達(dá)3 101 m。土壤主要為紫色土、水稻土、紅壤和黃棕壤。該區(qū)域河溝縱橫、山地海拔落差大的特點(diǎn)給采樣點(diǎn)布設(shè)帶來較大難度。以該區(qū)域內(nèi)42個(gè)采樣點(diǎn)的土壤重金屬錳和釩檢測值為研究數(shù)據(jù)。在實(shí)驗(yàn)之前,所有數(shù)據(jù)都做了歸一化處理,其分布滿足標(biāo)準(zhǔn)正態(tài)分布。
為了比較IDW、OK、RBFANNs和IRBFANNs插值法插值的精確性和穩(wěn)定性及其受采樣密度的影響情況,基于42個(gè)采樣點(diǎn)數(shù)據(jù)進(jìn)行了A、B、C 3項(xiàng)實(shí)驗(yàn),分別隨機(jī)選取41、26和16個(gè)測試樣本子集,以保證研究結(jié)果的廣泛適用性。每項(xiàng)實(shí)驗(yàn)中都進(jìn)行了100次獨(dú)立的隨機(jī)測試,每次測試中都記錄預(yù)測誤差的均方值(RMSE)用于統(tǒng)計(jì)分析。IDW插值法通過預(yù)測點(diǎn)周圍10個(gè)采樣點(diǎn)的歐氏距離以及采樣值進(jìn)行預(yù)測;OK插值法通過使用Matlab工具箱中的dace函數(shù)實(shí)現(xiàn),回歸模型和相關(guān)函數(shù)分別為Regpoly2和Corrgauss, 相關(guān)函數(shù)的初始參數(shù)theta是10;RBFANNs通過使用Matlab工具箱中的newrb函數(shù)實(shí)現(xiàn),其中采用“試錯(cuò)法”確定的錳和釩的最優(yōu)散布常數(shù)分別為0.3和0.05,其他參數(shù)使用工具箱提供的默認(rèn)參數(shù);在IRBFANNs中,每個(gè)子訓(xùn)練集都是通過使用Bagging算法從總訓(xùn)練數(shù)據(jù)中隨機(jī)重復(fù)抽取80%數(shù)據(jù)生成。
插值性能的評(píng)價(jià)指標(biāo)RMSE如式(3)所示:
(3)
式中,n為檢驗(yàn)數(shù)據(jù)集中的檢驗(yàn)數(shù)據(jù)的個(gè)數(shù),z*(xi)為插值方法對(duì)采樣點(diǎn)xi處土壤重金屬含量的預(yù)測值,z(xi)為采樣點(diǎn)xi處采樣獲得的土壤重金屬含量的真實(shí)值。RMSE值越小則預(yù)測誤差就越小,插值精度就越高;RMSE值的波動(dòng)范圍越小,則插值算法的穩(wěn)定性就越高。
圖1展示了100個(gè)測試實(shí)驗(yàn)中得到的RMSE統(tǒng)計(jì)量。
圖1 RMSE箱圖圖例
由圖1可見,該箱圖描述了統(tǒng)計(jì)數(shù)據(jù)的中值、上五分位值、下五分位值、最大值以及最小值。中值越小則算法的插值精度就越高,上、下五分位值的差越小,則誤差波動(dòng)范圍就越集中,算法的穩(wěn)定性就越強(qiáng)。
4種方法在3種采樣密度下對(duì)土壤中錳和釩元素總量的預(yù)測實(shí)驗(yàn)結(jié)果如圖2和圖3所示。
圖2 錳RMSE箱圖
圖3 釩RMSE箱圖
2.1.1 采樣密度對(duì)插值性能的影響
由圖2和圖3可見:①4種方法中,RMSE指標(biāo)的中值都隨著訓(xùn)練數(shù)據(jù)的減少而增加,說明4種方法的精確度隨著采樣密度的降低而降低,并且RMSE指標(biāo)的上下五分之一分位值之間的差值隨著訓(xùn)練數(shù)據(jù)的減少而減少,這是由于訓(xùn)練數(shù)據(jù)減少時(shí)模型的精確度下降,預(yù)測誤差都偏大,導(dǎo)致RMSE值的范圍減小。②各類方法性能下降的程度不一致。相比較而言,IDW和OK方法的RMSE中值隨著訓(xùn)練數(shù)據(jù)的減少具有較明顯的增加,這說明IDW和OK方法的精確度易受采樣密度的影響。RBFANNs方法的RMSE中值的增加幅度沒有IDW和OK方法明顯,但是其上下五分之一分位值之間的差值遠(yuǎn)遠(yuǎn)大于其他方法,說明受采樣密度降低的影響,RBFANNs方法的精確度雖然下降得不是那么明顯,但是穩(wěn)定性有明顯的下降。③在所有方法中,隨著采樣密度的降低,IRBFANNs方法的RMSE中值上升幅度最小,上下五分之一分位值之間的差值變化不大,說明IRBFANNs精確度受采樣密度的影響較小且能保證插值的穩(wěn)定性。
總之,雖然隨著訓(xùn)練數(shù)據(jù)的減少,所有方法的預(yù)測性能都有所下降,但I(xiàn)RBFANNs的RMSE中值增加最少,特別在訓(xùn)練數(shù)據(jù)數(shù)目為16時(shí),IRBFANNs的RMSE中值以及上下五分之一分位值之間的差值都是最小的,這表明IRBFANNs方法應(yīng)用在采樣點(diǎn)密度稀疏的情況時(shí),精確度和穩(wěn)定性優(yōu)于其他方法。
2.1.2 不同方法插值性能比較
觀察圖2和圖3,同一個(gè)項(xiàng)目,不同方法之間的實(shí)驗(yàn)結(jié)果表明:
1)訓(xùn)練數(shù)據(jù)數(shù)目最多(項(xiàng)目A,41點(diǎn))時(shí),同一種元素各個(gè)方法的RMSE中值和上下五分之一分位值之間的差值差異不大,表明訓(xùn)練數(shù)據(jù)數(shù)目最多時(shí),各個(gè)方法的差異不是很明顯。而OK方法獲得最小的RMSE中值,其他方法獲得的RMSE中值略大于OK方法,這說明采樣密集時(shí),基于地理統(tǒng)計(jì)學(xué)的OK方法表現(xiàn)出眾。由圖3可見,在釩的實(shí)驗(yàn)中,IRBFANNs方法的RMSE中值以及上下五分之一分位值之間的差值明顯小于RBFANNs方法,這說明集成有助于提高基于神經(jīng)網(wǎng)絡(luò)方法的插值精度和穩(wěn)定性。
2)當(dāng)訓(xùn)練數(shù)據(jù)數(shù)目為26點(diǎn)時(shí),各個(gè)方法獲得的中值以及上下五分之一分位值差值差異相對(duì)于項(xiàng)目A趨于明顯。傳統(tǒng)的IDW和OK方法,RMSE中值以及上下五分之一分位值差值最小。而基于RBFANNs方法獲得的中值以及上下五分之一分位值之間的差值都較大,這說明傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法的精確度、穩(wěn)定性不如其他傳統(tǒng)方法。
3)當(dāng)訓(xùn)練樣本減少到16點(diǎn)時(shí),傳統(tǒng)的IDW和OK方法獲得的中值以及上下五分之一分位值之間的差值均比RBFANNs方法小,但比IRBFANNs方法大。這說明采樣密度稀疏時(shí),集成神經(jīng)網(wǎng)絡(luò)方法的精確度和穩(wěn)定性優(yōu)于其他方法。IRBFANNs方法在RMSE中值以及上下五分之一分位值之間的差值都明顯小于RBFANNs方法,這一結(jié)論與項(xiàng)目A、B一致。這進(jìn)一步說明集成有助于提高基于神經(jīng)網(wǎng)絡(luò)方法的插值精確度和穩(wěn)定性。所有方法中,IREBANNs方法獲得最小的RMSE中值以及上下五分之一分位值之間的差值,這表明IRBFANNs方法應(yīng)用在采樣點(diǎn)密度稀疏的情況時(shí)具有較好的插值精確度和穩(wěn)定性。
總之,樣本點(diǎn)最多時(shí),各種方法的插值精確度和穩(wěn)定性差異不大,傳統(tǒng)OK和IDW方法略優(yōu)于其他方法。樣本點(diǎn)適中時(shí),各個(gè)方法的插值精確度和穩(wěn)定性差異趨于明顯,各個(gè)方法對(duì)于不同的元素表現(xiàn)不一致。樣本點(diǎn)最少時(shí),各個(gè)方法的插值精確度和穩(wěn)定性差異明顯,IRBFANNs優(yōu)于其他方法,其插值精確度和穩(wěn)定性都最好。
綜上所述,訓(xùn)練數(shù)據(jù)減少時(shí),所有模型的預(yù)測精確度和穩(wěn)定性都有不同程度下降,并且各種方法對(duì)于不同的元素下降程度不同;對(duì)于所有元素樣本點(diǎn)最少時(shí),盡管各種方法的性能都有明顯的下降,但是IRBFANNs方法插值精確度和穩(wěn)定性都優(yōu)于其他方法。
為了更直觀地觀察各個(gè)方法的插值效果,圖4顯示了錳元素基于4種方法,在不同采樣密度條件下的插值結(jié)果空間分布。
2.2.1 采樣密度對(duì)插值效果的影響
由圖4可見,同一個(gè)方法,隨著采樣點(diǎn)的減少,各個(gè)方法獲得的空間分布圖的分辨率降低,其所描述的空間分布情況變得模糊。但是各個(gè)方法性能降低的程度有所不同。相比較而言,隨著采樣密度的降低,傳統(tǒng)的IDW和OK方法獲得的插值空間分布圖的分辨率、細(xì)節(jié)描述性有明顯的下降?;谏窠?jīng)網(wǎng)絡(luò)的RBFANNs和IRBFANNs方法,獲得的空間插值分布圖所描述的空間分布情況和質(zhì)量,受采樣點(diǎn)減少的影響較小,細(xì)節(jié)保留較為完整。
2.2.2 不同方法插值效果比較
由圖4可見,樣本點(diǎn)最多時(shí),IDW方法雖然提供了一個(gè)確定的錳元素含量插值表面,但是插值空間分布圖粗糙,所描述的空間分布情況缺乏空間連續(xù)性,這可能是由于樣本點(diǎn)較集中區(qū)域中,離插值點(diǎn)極近的樣本點(diǎn)對(duì)該插值點(diǎn)的估計(jì)值影響特別大,而孤立樣本點(diǎn)對(duì)各個(gè)方向插值點(diǎn)的作用是穩(wěn)定的逐漸衰弱的。
OK方法獲得的插值空間分布圖多斑點(diǎn),顏色差異性較小,其描述的空間分布情況平滑,缺乏細(xì)節(jié)信息,可見OK方法受樣本點(diǎn)非均勻分布的影響容易產(chǎn)生孤島效應(yīng),其插值的結(jié)果缺乏合理性。
與OK方法相比,RBFANNs方法獲得的插值空間分布圖描述了更多的空間差異性,并且從圖中還可以看出該元素的空間分布趨勢,這在OK方法獲得的插值空間分布圖中是很難觀察出來的。RBFANNs方法較IDW和OK方法,在錳元素空間差異細(xì)節(jié)性描述以及空間分布趨勢方面又有一定程度的提高,但是該方法獲得的插值數(shù)據(jù)的范圍與樣本數(shù)據(jù)范圍(標(biāo)準(zhǔn)正態(tài)分布)不一致,插值數(shù)據(jù)最大值和最小值遠(yuǎn)遠(yuǎn)高于或者低于樣本數(shù)據(jù)的最大值和最小值,這是由于RBFANNs的插值表面極易受邊緣效應(yīng)的影響,研究區(qū)域的邊緣插值結(jié)果往往偏大或者偏小,造成插值結(jié)果不穩(wěn)定。
IRBFANNs方法獲得的插值空間分布圖不僅平滑并具有較好的連續(xù)性,極少有斑點(diǎn),空間變異明顯,且插值數(shù)據(jù)范圍與樣本數(shù)據(jù)范圍相一致,可見其能夠合理詳細(xì)地描述元素空間分布的局部細(xì)節(jié)以及分布趨勢。同樣的采樣密度下,樣本點(diǎn)適中和樣本點(diǎn)最少時(shí),通過觀察所有元素的插值空間分布圖,可以得出與樣本點(diǎn)最多時(shí)相一致的結(jié)論。
綜上所述,IRBFANNs插值方法能夠有效合理地描述土壤重金屬空間分布的空間變異性的細(xì)節(jié)和空間分布趨勢。與其他插值方法相比,IRBFANNs在樣本點(diǎn)較少的情況下能夠獲得質(zhì)量相對(duì)較好的土壤重金屬空間分布圖。這與“2.1節(jié)”中的統(tǒng)計(jì)分析結(jié)論相一致。
使用IRBFANNs插值方法,可以提高土壤重金屬含量空間插值的性能。通過誤差統(tǒng)計(jì)和插值可視化分析,與傳統(tǒng)插值方法相比較,該方法在采樣密度稀疏的情況下,產(chǎn)生預(yù)測誤差的均值、中值以及上下五分位值都最小,表明在樣本點(diǎn)數(shù)量減少時(shí),IRBFANNs算法能夠獲得最好的插值精確度和穩(wěn)定性,據(jù)此獲得了更準(zhǔn)確的區(qū)域重金屬分布及趨勢圖,從而提高山區(qū)土壤重金屬分布預(yù)測性能。
[1] Alloway B J, Ayres D C. Chemical principles of environmental pollution[M]. Florida: CRC Press, 1997.
[2] Tomczak M. Spatial interpolation and its uncertainty using automated anisotropic inverse distance weighting (IDW) cross validation /jackknife approach[J]. Journal of Geographic Information and Decision Analysis,1998,2(2):18-30.
[3] Oliver M A, Webster R. Kriging: a method of interpolation for geographical information systems[J]. International Journal of Geographical Information System,1990,4(3):313-332.
[4] 劉思聰.B/S 結(jié)構(gòu)的云南省土壤重金屬空間插值分析系統(tǒng)[D].昆明:云南大學(xué),2012.
[5] 王政權(quán).地統(tǒng)計(jì)學(xué)及在生態(tài)學(xué)中的應(yīng)用[M]. 北京:科學(xué)出版社,1999.
[6] 何勇,張淑娟,方慧.基于人工神經(jīng)網(wǎng)絡(luò)的田間信息插值方法研究[J].農(nóng)業(yè)工程學(xué)報(bào),2004,20(3):120-123.
[7] Breiman L. Bagging predictors[J]. Machine learning,1996,24(2):123-140.