摘" 要:由于參數(shù)設(shè)置等不確定性因素的變化,同一模型預(yù)測的物種生態(tài)分布可能會有所不同。因此,量化不同不確定性因素的貢獻(xiàn)對于減少生態(tài)預(yù)測的變化至關(guān)重要。然而,很少有研究分析特定模型的建模不確定性。該研究以秦艽為例,探討其分布預(yù)測的不確定性,重點(diǎn)關(guān)注參數(shù)設(shè)置。首先,采用主成分分析法(PCA)和生態(tài)變量組法(EVGM)篩選環(huán)境因子。參數(shù)設(shè)置使用25%的存在點(diǎn)數(shù)據(jù)和2種缺失點(diǎn)數(shù)據(jù)方法作為測試方法,建立6套模型,探討存在點(diǎn)測試集比例對模型性能的影響,綜合分析訓(xùn)練、測試AUC值和分布面積,確定物種的最佳模型參數(shù),發(fā)現(xiàn)20%的隨機(jī)測試抽樣比例是最佳的。該模型不僅可以為秦艽等野生藥材的保護(hù)和生態(tài)規(guī)劃提供指導(dǎo),也能為確定物種空間分布的最優(yōu)模型提供理論參考。
關(guān)鍵詞:參數(shù)設(shè)置;不確定性分析;MaxEnt;秦艽;存在點(diǎn)數(shù)據(jù)
中圖分類號:Q948" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2096-9902(2024)15-0043-04
Abstract: Changes in uncertain factors such as parameter setting can lead to variations in the ecological distribution predicted by the same model. Therefore, quantifying the contributions of different uncertainty factors is crucial for reducing variability in ecological predictions. However, there is limited research analyzing the modeling uncertainty of specific models. This study, using Gentiana macrophylla as an example, explores the uncertainty in its distribution prediction, with a specific focus on parameter settings. Initially, principal component analysis (PCA) and ecological variable grouping method (EVGM) were employed to select environmental factors. Six sets of models were established using 25% of presence point data and two methods for handling missing point data as test methods. The study investigates the impact of the presence point test set proportion on model performance, conducting a comprehensive analysis of training, testing AUC values, and spatial distribution area. The optimal model parameters for species were determined, revealing that a 20% random testing sampling proportion was optimal. This model not only provides guidance for the conservation and ecological planning of Gentiana macrophylla and other medicinal herbs but also serves as a theoretical reference for determining the optimal model for species spatial distribution.
Keywords: parameter setting; uncertainty analysis; MaxEnt; Gentiana macrophylla; presence point data
物種分布模型是基于生態(tài)位理論構(gòu)建的一種數(shù)學(xué)推理模型。此模型已被用于預(yù)測物種的棲息地狀態(tài)[1],評估生態(tài)系統(tǒng)對全球變化的響應(yīng)[2],評估入侵物種的潛在擴(kuò)散能力[3]等應(yīng)用。此模型預(yù)測并非對所有物種都普遍可靠,不同物種的最佳預(yù)測模型存在差異,探討最佳模型的參數(shù)設(shè)置、優(yōu)化,對物種的不確定性分析具有重要的意義。
在國內(nèi),使用MaxEnt模型對物種分布預(yù)測的不確定性的研究有限。Chen等[4]探討了樣本量對MaxEnt預(yù)測準(zhǔn)確性和穩(wěn)定性的影響,揭示了樣本量對預(yù)測的影響很小,隨著樣本量的增加,預(yù)測精度趨于穩(wěn)定。Lin等[5]討論了MaxEnt預(yù)測臺灣飛蛾分布的準(zhǔn)確性和不確定性。目前對物種分布模型不確定性的研究多集中在模型間比較,很少有分析在廣泛使用的MaxEnt模型中比較基于數(shù)據(jù)質(zhì)量、變量選擇和模型參數(shù)設(shè)置等因素的不確定性,因此,很有必要探討MaxEnt模型建模過程中的不確定性。
隨著國內(nèi)外對中藥材需求的增加,需求的增長為中藥材提供了發(fā)展機(jī)遇,但也對野生藥用植物種質(zhì)資源的減少和瀕危構(gòu)成了威脅。胡亂栽培引種必然會影響藥材適宜生境的合理劃分,削弱藥材的真實(shí)性,導(dǎo)致藥材的功效成分遠(yuǎn)低于藥典標(biāo)準(zhǔn)。因此,對藥材生境適宜性進(jìn)行分析具有重要意義。然而,預(yù)測潛在的適宜生境分布涉及各種不確定性,這些不確定性會影響最終的分布圖,而不準(zhǔn)確的分布圖可能會誤導(dǎo)實(shí)際生產(chǎn)。因此,有必要探索藥材分布預(yù)測的不確定性,提高物種分布模型的準(zhǔn)確性,從而為物種的栽培引種提供依據(jù)。本研究以中藥材物種秦艽為例,基于MaxEnt模型,從3個參數(shù)設(shè)置和2個變量集方面,考慮不同的隨機(jī)測試抽樣比例,探討了其分布預(yù)測的不確定性。研究結(jié)果旨在為未來的物種分布模型提供參考和有效指導(dǎo)。
1" 方法和材料
秦艽是一種著名的傳統(tǒng)中草藥,以其顯著的治療效果而聞名,被廣泛應(yīng)用于各種疾病的治療。其傳統(tǒng)種植區(qū)主要分布在我國東北、西北等地區(qū)。此外,MaxEnt模型在宏觀尺度上對物種分布的預(yù)測也有較好的效果。因此,本研究選取秦艽作為研究對象,將中國國家級尺度作為研究范圍。預(yù)測秦艽的潛在地理分布,具有重要的現(xiàn)實(shí)意義和特殊性。該方法旨在為秦艽資源的保護(hù)和可持續(xù)管理提供科學(xué)依據(jù)。此外,還旨在指導(dǎo)物種引進(jìn)、培育和合理利用的戰(zhàn)略規(guī)劃和布局,從而促進(jìn)相關(guān)地區(qū)的生態(tài)和經(jīng)濟(jì)可持續(xù)發(fā)展。
1.1" 數(shù)據(jù)收集和處理
1.1.1" 秦艽存在點(diǎn)的采集和處理
本文檢索了中國數(shù)字植物標(biāo)本館(http://www.cvh.org.cn/)和全球生物多樣性信息設(shè)施(GBIF)的數(shù)據(jù),為獲取中國秦艽的已知分布點(diǎn)提供了便利。在消除重復(fù)坐標(biāo)和缺乏完整信息的標(biāo)本后,篩選出245個分布記錄。利用ArcGIS繪制網(wǎng)格圖,網(wǎng)格尺寸為1 km×1 km。為了解決存在點(diǎn)成群造成的潛能偏見問題,每1 km2網(wǎng)格單元只有一個存在記錄,排除了多余的存在點(diǎn),通過此過程保留了164個存在點(diǎn)數(shù)據(jù)。
1.1.2" 環(huán)境因素?cái)?shù)據(jù)的收集和處理
19個全球生物氣候變量(BIO1—BIO19)來自WorldClim全球氣候數(shù)據(jù)庫(http://www.worldclim.org/)。然后,利用ArcGIS 10.2對這些變量進(jìn)行掩膜操作,以提取在中國的環(huán)境數(shù)據(jù),裁剪每個生物氣候變量層,以實(shí)現(xiàn)30 s的空間分辨率。此外,高程數(shù)據(jù)來自美國宇航局提供的全球數(shù)字高程模型(SRTM 4.1版,http://datamirror.csdb.cn/),具有100 m的空間分辨率。利用Arc Toolbox中的表面分析功能,從高程數(shù)據(jù)中導(dǎo)出坡度和坡向?qū)印?/p>
為確保分析的一致性,本研究中考慮的所有環(huán)境變量均被標(biāo)準(zhǔn)化為1 km2的統(tǒng)一空間分辨率,并在統(tǒng)一的地理坐標(biāo)系內(nèi)對齊。隨后,對研究區(qū)域的數(shù)據(jù)進(jìn)行精確提取并轉(zhuǎn)換為ASCII格式。這一過程最終收集了包含19個生物氣候因子(BIO1—BIO19)的綜合氣候數(shù)據(jù),以及包含3個因子(高程ALT、坡度SLP和坡向ASP)的地形數(shù)據(jù),共計(jì)22個不同的環(huán)境因子。
1.2" 不確定性研究設(shè)計(jì)
1.2.1" 變量選擇
共線性是指解釋變量的相互依賴性,是生態(tài)數(shù)據(jù)的共同特征。許多方法被用來解釋環(huán)境變量。本研究采用2種變量選擇方法來篩選變量因子:主成分分析(PCA)和生態(tài)變量組法(EVGM)。
1)PCA在計(jì)算中涉及所有原始變量,去除密切相關(guān)的變量,構(gòu)建盡可能少的新變量,確保新變量不相關(guān),并最大限度地保留反映物種潛在分布的信息。
2)EVGM根據(jù)前人對秦艽的研究,了解對秦艽生長特性相關(guān)的主要環(huán)境因子,選擇這些環(huán)境因子(稱為生態(tài)變量組)參與MaxEnt模型中進(jìn)行物種分布建模、預(yù)測。
1.2.2" 模型參數(shù)的設(shè)置
本研究主要側(cè)重于模型測試參數(shù)的設(shè)置和分析。參數(shù)設(shè)置包括使用25%的存在點(diǎn)數(shù)據(jù)(許多研究中常見的比例[6])和2種假缺失點(diǎn)數(shù)據(jù)(Random Selection, RS和Buffer-out方法)作為3種方法的測試數(shù)據(jù)。模型基于3個參數(shù)設(shè)置構(gòu)建,在MaxEnt平臺下,75%的存在點(diǎn)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余25%作為測試數(shù)據(jù),隨機(jī)選擇種子,迭代次數(shù)設(shè)置為5,迭代類型設(shè)置為子樣本,使用PCA和EVGM 2組變量進(jìn)行建模。選擇這2個變量集是因?yàn)樗鼈冊谧兞窟x擇過程中不涉及測試比例,從而避免了對這部分研究的干擾。在每個變量集下建立了2個模型,結(jié)合兩類缺失點(diǎn)作為試驗(yàn)數(shù)據(jù),共構(gòu)建了6個模型。根據(jù)訓(xùn)練和預(yù)測曲線下面積(AUC)值比較了3個參數(shù)設(shè)置的有效性,選擇最佳模型,然后將隨機(jī)測試抽樣比例設(shè)置為10%、15%、20%、25%、30%、35%、40%、45%和50%。在保持原有2組變量的前提下,共構(gòu)建了18個模型。通過比較訓(xùn)練AUC值、檢驗(yàn)AUC值和預(yù)測結(jié)果的分布面積,評估最佳模型的測試數(shù)據(jù)集比例。
2" 結(jié)果
2.1" 變量篩選結(jié)果
為了完善建模的環(huán)境變量,本研究采用PCA和EVGM方法作為初步篩選機(jī)制。PCA有助于將22個影響因素濃縮為最重要的5個主成分,這些部分的累計(jì)貢獻(xiàn)率為93.108%。選取載荷大于0.8的因子,結(jié)合22個環(huán)境因子中相關(guān)系數(shù),排除相關(guān)系數(shù)小于0.85的因子,構(gòu)成主成分法變量集。
根據(jù)參考文獻(xiàn)[7],獲得了與秦艽生長特性相關(guān)的10個因子,包括8個氣候變量和2個地形因子。使用SPSS進(jìn)行Pearson相關(guān)系數(shù)分析,確保變量之間的相關(guān)性小于0.85(表1),并得到最終的EVGM變量集進(jìn)行建模。
最終,本研究生成了2組變量(PCA,EVGM),利用這些變量對秦艽的分布進(jìn)行建模和預(yù)測,有助于對變量集之間的不確定性因素進(jìn)行定量比較,詳見表2。這種綜合方法通過最小化共線性和優(yōu)化環(huán)境變量的選擇來確保穩(wěn)健的分析,從而對秦艽的分布進(jìn)行準(zhǔn)確的建模和預(yù)測。
2.2" 3種參數(shù)設(shè)置的比較
在模型預(yù)測精度方面,2組變量的3種參數(shù)設(shè)置下的模型訓(xùn)練AUC值在0.856 4~0.890 9之間(表3),表明模型模擬精度較好,預(yù)測差異很小。對于25%存在點(diǎn)參數(shù)設(shè)置,測試AUC值在0.844 1~0.851 4之間,表明模型擬合精度較好;而對于RS偽缺席點(diǎn)參數(shù)設(shè)置,測試AUC值在0.4862~0.6659之間波動較大,性能較差。同樣,對于Buffer-out偽缺席點(diǎn)參數(shù)設(shè)置,測試AUC值在0.734 9~0.750 3之間(表4),表明模型擬合精度適中。可以看出,存在點(diǎn)參數(shù)設(shè)置為25%的模型具有更高的擬合精度,這就是為什么在許多研究中通常使用該比例進(jìn)行測試。然而,使用25%的存在點(diǎn)比例獲得的模型精度是否總是最好的還有待討論,這是下一小節(jié)的方向。
2.3" 不同測試比例的性能評價
從圖1(a)可以看出,在PCA集下,不同采樣比例下模型的訓(xùn)練AUC值在0.855 2~0.870 9之間,差異不大,表明模型擬合精度較高。測試AUC值范圍為0.814 8~0.853 5,擬合精度較好。值得注意的是,當(dāng)采樣比例為10%時,測試AUC值最高,表明測試精度最高。同樣,由圖1(b)可以發(fā)現(xiàn),在EVGM變量集下,各采樣比例下模型的訓(xùn)練AUC值在0.884 8~0.894 9之間,具有很好的擬合精度。測試AUC值在0.826 3~0.869 7之間,具有較好的測試精度。值得注意的是,當(dāng)采樣比例為20%時,測試AUC值最高,表明測試精度最高。對比PCA和EVGM變量集對模型的檢驗(yàn)結(jié)果,選擇20%的存在點(diǎn)數(shù)據(jù)進(jìn)行檢驗(yàn)時,模型的檢驗(yàn)精度最高為0.853 75,預(yù)測精度最好。
2.4" 預(yù)測分布面積對比
經(jīng)過MaxEnt模型預(yù)測分析, 依據(jù)自然分割法將秦艽的潛在分布區(qū)分為4個等級, 按照分布概率P確定秦艽適生區(qū)等級劃分:Plt;0.2為非適生區(qū), 0.2≤Plt;0.5為低適生區(qū), 0.5≤Plt;0.7為中適生區(qū), P≥0.7為高適生區(qū)。將2種變量集下不同測試抽樣比的高適生區(qū)面積與最小適生區(qū)面積(164個分布點(diǎn)的20 km緩沖區(qū)面積)對比(圖2),無論是在PCA變量集還是EVGM變量集下,模型預(yù)測的分布面積都呈現(xiàn)出一致的趨勢。當(dāng)測試抽樣比例為10%和20%時,分布面積范圍最接近實(shí)際分布范圍。但是,當(dāng)測試抽樣比例為20%時,測試精度更高。對于其他測試采樣比例,預(yù)測的空間分布范圍隨著比例的增加而略有減小,這與用于訓(xùn)練的存在點(diǎn)的比例有關(guān)。然而,這種關(guān)系并不是嚴(yán)格線性的,并且與各個采樣點(diǎn)的環(huán)境和位置屬性高度相關(guān)。考慮到最接近實(shí)際分布和準(zhǔn)確指導(dǎo)秦艽生產(chǎn)活動的能力,20%的隨機(jī)抽樣比例被認(rèn)為是最佳的。
3" 結(jié)論
模型參數(shù)估計(jì)的不確定性是建模過程中信息不完整的必然結(jié)果。本文以秦艽為例,基于MaxEnt模型,探討了在3個參數(shù)設(shè)置和2個變量集下預(yù)測其分布的不確定性。模型精度和分布面積預(yù)測分析表明,采用25%的存在點(diǎn)數(shù)據(jù)進(jìn)行測試,模型擬合精度較高。通過基于存在點(diǎn)測試的建模分析,綜合考慮模型精度和與實(shí)際指導(dǎo)的接近性,確定20%的隨機(jī)測試抽樣比例為最優(yōu),為確定最優(yōu)物種分布預(yù)測模型提供了有價值的參考。
參考文獻(xiàn):
[1] YAN H Y, FENG L, ZHAO Y, et al. Prediction of the spatial distribution of Alternanthera philoxeroides in China based on ArcGIS and MaxEnt [J]. Global Ecology and Conservation, 2020(21): e00856.
[2] YAN H Y, HE J, ZHAO Y, et al. Gentiana macrophylla response to climate change and vulnerability evaluation in China [J]. Global Ecology and Conservation, 2020(22): e00948.
[3] YAN H Y, FENG L, ZHAO Y, et al. Predicting the potential distribution of an invasive species, Erigeron canadensis L., in China with a maximum entropy model [J]. Global Ecology and Conservation,2020(21):e00822.
[4] CHEN X M, LEI Y C, ZHANG X Q, et al. Effects of sample sizes on accuracy and stability of maximum entropy model in predicting species distribution[J]. Scientia silvae sinicae,2012,48(1):53-59.
[5] LIN Y P, DENG D, LIN W C, et al. Uncertainty analysis of crowd-sourced and professionally collected field data used in species distribution models of Taiwanese moths[J]. Biological Conservation,2015(181):102-110.
[6] BYEON D H, JUNG S, LEE W H. Review of CLIMEX and MaxEnt for studying species distribution in South Korea [J]. Journal of Asia-Pacific Biodiversity,2018,11(3):325-333.
[7] 尚忠慧.基于MaxEnt的物種空間分布預(yù)測不確定性分析——以當(dāng)歸為例[D].西安:陜西師范大學(xué),2016.
基金項(xiàng)目:重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJQN202215901)
第一作者簡介:嚴(yán)胡勇(1984-),男,博士,副教授。研究方向?yàn)樯鷳B(tài)信息學(xué)。
*通信作者:張婧月(1990-),女,碩士,副教授。研究方向?yàn)閿?shù)據(jù)挖掘。