張勞模 羅鵬 龐麗峰 唐小明
(中國林業(yè)科學(xué)研究院資源信息研究所,北京,100091)
全球氣候變化使植物的分布區(qū)域也隨之發(fā)生改變,研究植被的潛在分布顯得越來越重要[1-4]。植被的分布主要受到生物因素和非生物因素的共同作用,其中以溫度和降水等非生物因素最為重要。近些年來,隨著數(shù)學(xué)方法和地理信息技術(shù)的發(fā)展,建立了多種潛在物種分布模型,其中主要以物種分布模型(SDMs)和數(shù)據(jù)挖掘模型應(yīng)用最為廣泛。典型的物種分布模型主要有MaxEnt[5]、BIOCLIM[6]、PORSKA[7]、GAM[8]、GLM[9]、LANDIS[10]等。數(shù)據(jù)挖掘模型主要有隨機(jī)森林和分類回歸樹(CART)等。
在SDMs模型之中,最大熵模型(MaxEnt)是最可靠的模型之一[11-13]。MaxEnt模型是基于Jaynes于1957年提出的最大熵理論而建立的模型[14],而Philips將最大熵模型首次應(yīng)用于物種分布[5]。MaxEnt模型在使用時(shí),需要物種的分布數(shù)據(jù)和環(huán)境變量數(shù)據(jù),一般使用經(jīng)緯度來表征物種的分布點(diǎn),而環(huán)境變量數(shù)據(jù)通常包括溫度和降水等氣候數(shù)據(jù),也包含地形地貌和植被覆蓋等信息。利用MaxEnt模型模擬物種的潛在分布結(jié)果時(shí),對(duì)于數(shù)據(jù)量的要求比較低,即使數(shù)據(jù)有部分缺少或者樣本容量很小的情況下,依舊可以模擬出較為合適的結(jié)果[15]。目前,利用MaxEnt模型對(duì)不同尺度范圍的物種潛在分布和適宜性評(píng)價(jià)均有研究[16-20],對(duì)MaxEnt模型本身模型精度和不確定性分析以及不同物種分布模型之間的差異也有相關(guān)研究[21-24]。
近年來,數(shù)據(jù)挖掘模型也是在物種潛在分布研究中運(yùn)用較為廣泛的一類模型,其中以隨機(jī)森林的模型的運(yùn)用最為廣泛。隨機(jī)森林模型是典型的弱分類器組合成為強(qiáng)分類器的模型,利用隨機(jī)森林模型進(jìn)行分析時(shí),樣本抽樣和特征數(shù)的選取都是隨機(jī)的,每棵樹自由生長(zhǎng),不進(jìn)行修剪,結(jié)果依靠平均值或者投票獲得[25]。目前,隨機(jī)森林模型不僅對(duì)云南松和蕎麥等植物物種以及白冠長(zhǎng)尾雉、中華穿山甲和藏酋猴等動(dòng)物物種進(jìn)行了潛在分布模擬,而且也對(duì)城市需水量預(yù)測(cè)、林火發(fā)生概率模擬等[26-30]。
目前,對(duì)于MaxEnt模型和隨機(jī)森林模型單獨(dú)的研究成果有很多,但是對(duì)于這兩個(gè)模型之間的對(duì)比研究還相對(duì)較少,為了探究這兩個(gè)模型之間對(duì)于某一物種潛在分布的預(yù)測(cè)結(jié)果的差異,我們利用東北紅松作為研究對(duì)象,討論兩種模型的精度差別和模擬結(jié)果的差異。
東北林區(qū)是我們國家最大天然林區(qū),尤其是大興安嶺、小興安嶺和長(zhǎng)白山地,森林資源十分豐富,林地面積和蓄積量分別占全國林地總面積和森林總蓄積量的27%和30%。該地區(qū)地形主要以山地和平原為主,海拔最高點(diǎn)是位于吉林省,海拔2 691 m。東北地區(qū)普遍緯度較高,冬長(zhǎng)夏短,年均氣溫6 ℃,年降水量為400~1 000 mm。主要樹種為紅松(PinuskoraiensisSieb. et Zucc.)、落葉松(Larixgmelinii(Rupr.) Kuzen.)、蒙古櫟(QuercusmongolicaFisch. ex Ledeb)、水曲柳(FraxinusmandshuricaRupr.)和樟子松(Pinussylvestrisvar.mongolicaLitv.)等。紅松是我國重要的珍貴樹種,同時(shí)也是國家儲(chǔ)備林樹種之一。成熟紅松樹高可達(dá)40 m以上,胸徑1~2 m。由于特殊的地理和氣候條件,紅松主要分布在中國的東北部,即小興安嶺和長(zhǎng)白山附近[31](見圖1)。近年來,由于氣候變化和人類活動(dòng)增加,紅松的數(shù)量正在逐漸減少。因此,探究紅松可能的分布范圍和適宜區(qū)域,對(duì)于紅松的保護(hù)具有重要的意義。
在國家森林資源連續(xù)清查數(shù)據(jù)中收集了東北地區(qū)159個(gè)紅松分布點(diǎn)。國家森林資源連續(xù)清查,也叫做一類調(diào)查,是一種森林資源調(diào)查方法,調(diào)查內(nèi)容包括土地利用與覆蓋、森林資源、森林生態(tài)狀況、林業(yè)生產(chǎn)和社會(huì)經(jīng)濟(jì)情況調(diào)查等項(xiàng)目。國家森林資源連續(xù)清查數(shù)據(jù)為自然條件下生長(zhǎng)的紅松數(shù)據(jù),不包括人工種植以及移栽等其他因素獲得的數(shù)據(jù)。
氣候數(shù)據(jù)來源于世界氣象(http://www.worldclim.org),其中包括了19個(gè)環(huán)境變量(年平均溫度、晝夜溫差月均值、等溫性、溫度季節(jié)變化標(biāo)準(zhǔn)差、最暖月最高溫、最冷月最低溫、氣溫年變化范圍、最濕季度平均溫、最干季度平均溫、最暖季度平均溫、最冷季度平均溫、年平均降水量、最濕月降水量、最干月降水量、降水量變異系數(shù)、最濕季度降水量、最干季度降水量、最暖季度降水量、最冷季度降水量),這些數(shù)據(jù)是根據(jù)世界各地氣象站1950—2000年的觀測(cè)數(shù)據(jù),通過空間插值實(shí)現(xiàn)的柵格數(shù)據(jù)集,被廣泛用于生態(tài)系統(tǒng)的相關(guān)研究,空間分辨率為1 km。地形數(shù)據(jù)是來源于地理空間數(shù)據(jù)云(http://www.gscloud.cn),分辨率為1 km的數(shù)字高程模型(DEM)數(shù)據(jù),并利用軟件輸出坡向和坡度信息。土壤數(shù)據(jù)下載自來源于寒區(qū)旱區(qū)科學(xué)數(shù)據(jù)中心(http://westdc.westgis.ac.cn),該數(shù)據(jù)是聯(lián)合國糧農(nóng)組織(FAO)和維也納國際應(yīng)用系統(tǒng)研究所(IIASA)所構(gòu)建的世界土壤數(shù)據(jù)庫(HWSD),空間分辨率為1 km,土壤因子包括上層土壤碎石體積分婁、上層土壤中沙體積分?jǐn)?shù)、上層壤土質(zhì)量分?jǐn)?shù)、上層土壤黏土質(zhì)量分?jǐn)?shù)、上層土壤有機(jī)碳質(zhì)量分?jǐn)?shù)、下層土壤碎石體積分婁、下層土壤中沙體積分?jǐn)?shù)、下層壤土質(zhì)量分?jǐn)?shù)、下層土壤黏土質(zhì)量分?jǐn)?shù)、下層土壤有機(jī)碳質(zhì)量分?jǐn)?shù)。
圖1 研究區(qū)與紅松分布位置點(diǎn)
判定最大熵模型和隨機(jī)森林模型本身建模精度的指標(biāo)為AUC(曲線下面積)。AUC是ROC曲線與橫坐標(biāo)之間所形成區(qū)域的面積,由縱坐標(biāo)的特異性和橫坐標(biāo)的敏感性構(gòu)成。在圖2中,紅色曲線為ROC曲線,是以真陽性率(判定為正例,也是真正例的概率)為縱坐標(biāo),假陽性率(判定為正例,但卻不是真正例的概率)為橫坐標(biāo)繪制的曲線,而曲線與橫坐標(biāo)軸圍成的圖形面積(AUC),對(duì)于判斷模型本身預(yù)測(cè)能力和準(zhǔn)確程度有著良好的應(yīng)用成果,AUC通常為0.5~1.0。AUC為0.5~0.6,模型預(yù)測(cè)失敗,模型本身不具備預(yù)測(cè)能力;AUC為0.6~0.7,模型本身的預(yù)測(cè)能力很差,這種情況下的預(yù)測(cè)結(jié)果通常不予采納;AUC為0.7~0.8,預(yù)測(cè)能力一般;AUC為0.8~0.9,表示模型具備很好的預(yù)測(cè)能力;AUC為0.9~1.0是預(yù)測(cè)精度最高。
圖2 ROC曲線
2.3.1 MaxEnt模型構(gòu)建
MaxEnt生態(tài)位模型是通過收集物種的已知地理分布信息和相關(guān)環(huán)境因子,對(duì)物種的潛在適生分布區(qū)域及影響因子進(jìn)行模擬分析的空間分布模型。利用MaxEnt模擬物種分布時(shí),首先需要輸入物種在地理空間真實(shí)的點(diǎn)位分布數(shù)據(jù),一般用經(jīng)緯度來表示;其次需要輸入相關(guān)的環(huán)境數(shù)據(jù),環(huán)境數(shù)據(jù)要求分辨率和分布范圍相同,否則模型會(huì)無法輸出預(yù)測(cè)結(jié)果。MaxEnt模型預(yù)測(cè)物種分布的基礎(chǔ)是合理的測(cè)試結(jié)果,此部分測(cè)試結(jié)果是從輸入數(shù)據(jù)中隨機(jī)抽選得到,一般來說,模型會(huì)默認(rèn)從數(shù)據(jù)中選擇70%的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),30%的數(shù)據(jù)集作為測(cè)試數(shù)據(jù)。此部分測(cè)試數(shù)據(jù)用于構(gòu)建模型,模型是否合理,是否精度達(dá)標(biāo),直接影響著模擬的結(jié)果。如果測(cè)試數(shù)據(jù)集的結(jié)果精度較好,結(jié)果合理,則可以將環(huán)境數(shù)據(jù)代入模型中,進(jìn)行物種潛在分布模擬。
2.3.2 隨機(jī)森林建模過程
隨機(jī)森林模型是典型的弱分類器組成為強(qiáng)分類器的例子,“森林”中每個(gè)個(gè)體都是一棵“決策樹”,每個(gè)決策樹單獨(dú)運(yùn)作,但是最后的結(jié)果由整個(gè)“森林”決定。對(duì)于已知的N個(gè)分布數(shù)據(jù)和M個(gè)環(huán)境因子,N個(gè)分布數(shù)據(jù)中包含了實(shí)際分布的紅松點(diǎn)位數(shù)據(jù)和模擬的非紅松分布的點(diǎn)位數(shù)據(jù),在建立模型時(shí),首先需要從N個(gè)分布數(shù)據(jù)進(jìn)行有放回地隨機(jī)抽取組成樣本集,得到n棵決策樹,在每棵決策樹進(jìn)行節(jié)點(diǎn)分裂時(shí),隨機(jī)抽取m(m≤M)個(gè)環(huán)境因子來與決策樹進(jìn)行組合匹配,從而得到最為合理的分解組合;其次在每棵決策樹進(jìn)行生長(zhǎng)分裂時(shí),外界不得進(jìn)行干預(yù)和修剪,讓其完全自由“生長(zhǎng)”,以確保建模結(jié)果的隨機(jī)性與合理性;最后,n棵決策樹組成的隨機(jī)森林的分類結(jié)果的眾數(shù)即為最后的結(jié)果。但是,在這一系列操作中,難免會(huì)有一些數(shù)據(jù)被遺漏,而這些經(jīng)過了n次隨機(jī)抽樣依舊沒有被抽中的數(shù)據(jù),我們將其稱為袋外數(shù)據(jù)(OOB),這些袋外數(shù)據(jù)組成測(cè)試數(shù)據(jù),用來對(duì)樣本精度進(jìn)行測(cè)試。建立隨機(jī)森林模型的關(guān)鍵參數(shù)是n和m,為了最大程度上得到合理的值,在本研究中,采用K折交叉檢驗(yàn)法。具體來說,對(duì)原始數(shù)據(jù)進(jìn)行隨機(jī)組合子集,數(shù)目是K個(gè),這些子集互不相交,每一次過程中,一個(gè)子集作為目的子集,用于模型檢驗(yàn),其他子集是訓(xùn)練樣本集,這樣進(jìn)行K次運(yùn)算。結(jié)合前人的研究成果,將K設(shè)置為10。經(jīng)過10次運(yùn)算,結(jié)果顯示,n=500,m=4,即生長(zhǎng)的樹的數(shù)目是500,在每一個(gè)分裂節(jié)點(diǎn)處樣本預(yù)測(cè)器的數(shù)目為4最合理。
根據(jù)模型預(yù)測(cè)能力和精度判斷指標(biāo)(AUC)可知,MaxEnt模型,訓(xùn)練數(shù)據(jù)為0.927,檢測(cè)數(shù)據(jù)AUC為0.865,均超過0.8,表明預(yù)測(cè)結(jié)果很準(zhǔn)確,模型具備很好的預(yù)測(cè)能力。隨機(jī)森林模型的AUC為0.902,預(yù)測(cè)精度在最高區(qū)間,表明預(yù)測(cè)結(jié)果十分精確。從模型精度來看,MaxEnt模型和隨機(jī)森林模型的精度基本都在0.9左右,可以滿足模型使用的精度要求,MaxEnt模型的精度略低于隨機(jī)森林模型,但是差距較小。
由圖3可知,MaxEnt模型的輸出結(jié)果顯示,各因子的重要性排序有明顯差距,年平均降水、降水量變異系數(shù)、溫度季節(jié)變化標(biāo)準(zhǔn)差等對(duì)于紅松的分布影響程度最大,其次是最濕季度降水量、最暖季度降水量、氣溫年變化范圍,其他的環(huán)境因子影響程度相對(duì)較小。3類環(huán)境要素對(duì)紅松分布的影響重要性順序?yàn)闅夂蛞卮笥诘匦我卮笥谕寥酪亍?/p>
隨機(jī)森林模型的輸出結(jié)果顯示,各因子的重要性排序雖然也有明顯差距,然而排名靠前的幾個(gè)因素差距較小,以上層土壤黏土質(zhì)量分?jǐn)?shù)、下層土壤黏土質(zhì)量分?jǐn)?shù)、上層土壤有機(jī)碳質(zhì)量分?jǐn)?shù)、下層壤土質(zhì)量分?jǐn)?shù)、下層土壤有機(jī)碳質(zhì)量分?jǐn)?shù)和上層壤土質(zhì)量分?jǐn)?shù)等土壤數(shù)據(jù),以及最冷月最低溫、最冷季度平均溫、年平均溫度、溫度季節(jié)變化標(biāo)準(zhǔn)差、氣溫年變化范圍和年平均降水等氣候數(shù)據(jù),對(duì)于紅松的分布影響程度最大,并且影響能力相當(dāng)。3類環(huán)境要素對(duì)紅松分布的影響重要性順序?yàn)橥寥酪卮笥跉夂蛞卮笥诘匦我亍?/p>
圖3 不同模型輸出的環(huán)境變量對(duì)物種分布的影響程度排序
由圖4可知,在MaxEnt模型中,最重要的因子為年平均降水,年降水在400~900 mm,對(duì)于紅松分布的影響是呈正相關(guān)的關(guān)系,即降水越多,分布概率越大;降水量變異系數(shù)大約為98時(shí),出現(xiàn)明顯拐點(diǎn),小于拐點(diǎn)值時(shí),函數(shù)趨勢(shì)略有增加,大于拐點(diǎn)值,則出現(xiàn)明顯的下降。溫度季節(jié)變化標(biāo)準(zhǔn)差為1 450時(shí),出現(xiàn)明顯拐點(diǎn),小于拐點(diǎn)值時(shí),函數(shù)呈增加趨勢(shì),但是趨勢(shì)較緩,大于拐點(diǎn)值,則出現(xiàn)明顯的下降,并且下降速度較快;最濕季度降水量小于650 mm時(shí),函數(shù)曲線基本沒有變化,之后迅速增加至最大值,隨后保持不變。最暖季度降水量和氣溫年變化范圍的函數(shù)圖像十分相似,最暖季度降水量在270~650 mm、氣溫年變化范圍在35~65 ℃時(shí),函數(shù)值持續(xù)增加,最后達(dá)到最大值后保持不變。
圖4 MaxEnt模型輸出的主要環(huán)境因子與紅松分布的關(guān)系
由圖5可知,在隨機(jī)森林模型中,排名靠前的土壤屬性為土壤黏土質(zhì)量分?jǐn)?shù)、土壤有機(jī)碳質(zhì)量分?jǐn)?shù)和土壤壤土質(zhì)量分?jǐn)?shù),由于上層土壤和下層土壤的函數(shù)圖像基本一致,所以只輸出上層土壤的結(jié)果。選取年平均氣溫、年平均降水和最冷月最低溫對(duì)氣象數(shù)據(jù)進(jìn)行詳細(xì)描述。上層土壤黏土質(zhì)量分?jǐn)?shù)小于5%、土壤有機(jī)碳質(zhì)量分?jǐn)?shù)大于21%、土壤壤土質(zhì)量分?jǐn)?shù)小于15%,有利于紅松的分布,否則,不利于紅松的生長(zhǎng)。對(duì)于氣候因子,年平均氣溫在0 ℃以下時(shí),年平均降水在600 mm以下,以及最冷月最低溫在-28 ℃以下時(shí),有利于紅松的生長(zhǎng),否則,不利于紅松的生長(zhǎng)。
由圖6可知,紅松最合適的分布區(qū)域?yàn)檫|寧省東北部和吉林省東南部的交界區(qū)域,在黑龍江的南部也有一片相對(duì)較大適生區(qū)域,最小的一片適生區(qū)域分布在黑龍江省的中北部地區(qū);整體上來看,MaxEnt模型所模擬的區(qū)域主要分布在東北地區(qū)的東部,西部地區(qū)基本沒有特別適合紅松生長(zhǎng)的區(qū)域。隨機(jī)森林模型模擬結(jié)果可以看出,紅松的適生范圍主要分布在遼寧中北部和西南部分地區(qū)、吉林中東部,以及黑龍江省的中東部;隨機(jī)森林模擬的紅松潛在分布區(qū)域面積較大基本包含了MaxEnt模型模擬的潛在分布范圍。從整體上看,兩個(gè)模型對(duì)于紅松的模擬結(jié)果有著很大的重合度,主要集中于東北地區(qū)的中東部,說明東北地區(qū)的中東部最適合紅松的生長(zhǎng)。
圖5 隨機(jī)森林模型輸出的主要環(huán)境因子與紅松分布的關(guān)系
圖6 紅松潛在分布模擬結(jié)果
圖7 東北地區(qū)年平均降水和年平均氣溫分布
圖8 東北地區(qū)氣候和土壤分布圖
本文利用MaxEnt和隨機(jī)森林兩種模型,結(jié)合東北三省氣候、土壤、地形數(shù)據(jù)和紅松分布樣點(diǎn),分析了兩種模型在模擬紅松潛在分布時(shí)的共性與區(qū)別。結(jié)果表明兩個(gè)模型精度接近,模型模擬的紅松潛在分布結(jié)果有著很大的重合度,主要集中于東北地區(qū)的中東部,說明東北地區(qū)的東部最適合紅松的生長(zhǎng),但兩個(gè)模型的輸出的因子重要性排序結(jié)果卻有顯著差異。
MaxEnt模型認(rèn)為重要性因子排序順序?yàn)闅夂?、地形和土壤,而且氣候中,年平均降水的重要性最大。由圖7可知,東北地區(qū)的降水空間差異較大,整體呈現(xiàn)由西向東、由北向南的遞增趨勢(shì)。溫度條件在該地區(qū)不是限制紅松分布的主要因子,降水的作用顯得更重要。所以紅松主要分布在東北地區(qū)的東部,這片區(qū)域溫度普遍都可以滿足紅松的生長(zhǎng)要求,然而和西部地區(qū)相比,該地區(qū)具有充沛的降水量,水分條件成為主要限制因子。
隨機(jī)森林模型認(rèn)為重要性因子排序順序?yàn)橥寥?、氣候和地形,但是因子的重要性程度相差無幾。由圖8可知,東北地區(qū)的土壤空間格局有很明顯的空間差異,西部平原區(qū)在各種土壤理化指標(biāo)上都和其他地區(qū)有所差異,這種差異很可能導(dǎo)致了紅松的分布范圍偏向于中東部地區(qū)。而最冷月、最低溫、年平均氣溫和年平均降水等氣候數(shù)據(jù)顯示,氣候要素在東北地區(qū)的空間分布上也有一定差異,并且差異也非常明顯,所以氣候要素也成為限制紅松分布的重要因子。
MaxEnt模型和隨機(jī)森林模型預(yù)測(cè)物種潛在分布都有著良好的表現(xiàn),無論是預(yù)測(cè)范圍還是精度要求都很合理。MaxEnt模型的輸入信息是物種的分布數(shù)據(jù)和環(huán)境數(shù)據(jù),其中分布數(shù)據(jù)只包括實(shí)際分布的數(shù)據(jù);而隨機(jī)森林中,輸入數(shù)據(jù)同樣是分布數(shù)據(jù)和環(huán)境數(shù)據(jù),但是分布數(shù)據(jù)中不僅包括實(shí)際分布的數(shù)據(jù),也包括非分布的數(shù)據(jù),非分布數(shù)據(jù)的選取會(huì)對(duì)結(jié)果產(chǎn)生很大的影響,如果非分布數(shù)據(jù)的選擇十分合理,也確實(shí)選取的區(qū)域沒有紅松的生長(zhǎng)分布,則會(huì)增加模型的精度,結(jié)果會(huì)更加準(zhǔn)確,如果選取的數(shù)據(jù)有所偏差,則會(huì)適得其反。在本研究當(dāng)中,非分布數(shù)據(jù)多采樣于遠(yuǎn)離分布數(shù)據(jù)的其他區(qū)域,對(duì)于這些非分布數(shù)據(jù),如果其所帶有的環(huán)境數(shù)據(jù)與分布數(shù)據(jù)差異較大,則可能成為限制因子,例如隨機(jī)森林中的土壤數(shù)據(jù),解釋了為什么最終分布模擬結(jié)果大致類似,而環(huán)境要素重要性排序卻有顯著差異。在研究中,結(jié)合數(shù)據(jù)情況,兩種模型的因子重要性分析結(jié)果都有一定道理,而那種結(jié)果更符合實(shí)際情況則是我們接下來需要研究的內(nèi)容。同時(shí),不同類型的訓(xùn)練樣本對(duì)于輸出結(jié)果會(huì)產(chǎn)生影響。因此,在構(gòu)建物種分布模型時(shí),需要考慮輸入樣本的合理性,分析樣本對(duì)預(yù)測(cè)物種分布可能造成的影響。