戴亮亮,聶小力,郭 軍,鞏 浩,吳歡歡,張 濤,湯媛媛,毛 聰,彭志剛,賀 燦
(1.中國(guó)地質(zhì)調(diào)查局 長(zhǎng)沙自然資源綜合調(diào)查中心,湖南 長(zhǎng)沙 410600;
2.中國(guó)地質(zhì)調(diào)查局 西安礦產(chǎn)資源調(diào)查中心,陜西 西安 710000)
隨著計(jì)算機(jī)技術(shù)和人工智能算法的進(jìn)步,大數(shù)據(jù)在傳統(tǒng)行業(yè)獲得了巨大成功,并形成了“互聯(lián)網(wǎng)+”的經(jīng)濟(jì)社會(huì)發(fā)展新形態(tài)[1]。相比于其他傳統(tǒng)領(lǐng)域,大數(shù)據(jù)在地學(xué)領(lǐng)域特別是地球化學(xué)領(lǐng)域研究相對(duì)滯后,相關(guān)研究成果缺乏[2]。在中國(guó)知網(wǎng)檢索“地球化學(xué)”關(guān)鍵詞(2021年5月18日)可以得到將近17萬(wàn)條文獻(xiàn)記錄,而以“大數(shù)據(jù)+地球化學(xué)”為關(guān)鍵詞檢索,僅能得到約160條文獻(xiàn)記錄,相比于2018年4月20日增加了120篇文獻(xiàn)[3],文獻(xiàn)增量相對(duì)較少,在國(guó)際主要數(shù)據(jù)庫(kù)進(jìn)行類似檢索結(jié)果也相差無(wú)幾,這表明擁有海量定量數(shù)據(jù)的地球化學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)的研究屈指可數(shù),急需加強(qiáng)大數(shù)據(jù)的相關(guān)研究。
大數(shù)據(jù)是基于數(shù)據(jù)的科學(xué)[4],從數(shù)據(jù)本身出發(fā),通過(guò)對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,挖掘數(shù)據(jù)間的規(guī)律和相關(guān)關(guān)系,進(jìn)而發(fā)現(xiàn)傳統(tǒng)科學(xué)方法難以發(fā)現(xiàn)的新認(rèn)識(shí)和新規(guī)律[5]。近兩年,隨著地質(zhì)信息化建設(shè)和大數(shù)據(jù)智能地球科學(xué)的快速發(fā)展[6],大數(shù)據(jù)正在成為地球科學(xué)領(lǐng)域新的爆發(fā)點(diǎn),取得了一系列新的成果與認(rèn)識(shí)[7-8],如基于大數(shù)據(jù)分析的大地構(gòu)造環(huán)境的判別[9-15],基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)地球化學(xué)異常信息的提取和對(duì)比研究[16-17],基于機(jī)器學(xué)習(xí)的微量元素定量預(yù)測(cè)[3,18],大數(shù)據(jù)在礦產(chǎn)資源預(yù)測(cè)與評(píng)價(jià)領(lǐng)域中的應(yīng)用[19-23],由此可見(jiàn)大數(shù)據(jù)對(duì)于地球科學(xué)的核心價(jià)值就在于分類和預(yù)測(cè)。我國(guó)自1999年開(kāi)始實(shí)施土地質(zhì)量地球化學(xué)調(diào)查工作以來(lái)[24-25],在巖石、土壤、農(nóng)作物和灌溉水方面積累了大量的定性定量數(shù)據(jù)[26],但受限于調(diào)查的尺度,土壤樣品分析測(cè)試的指標(biāo)有很大的差異,1∶250 000土地質(zhì)量地球化學(xué)調(diào)查要求分析表層土壤樣品54項(xiàng)指標(biāo),主要服務(wù)于農(nóng)業(yè)種植、生態(tài)環(huán)境和礦產(chǎn)資源等方面[27],但調(diào)查的精度無(wú)法精細(xì)化指導(dǎo)礦產(chǎn)勘查工作,1∶50 000土地質(zhì)量地球化學(xué)調(diào)查在1∶250 000的基礎(chǔ)上開(kāi)展工作,但測(cè)試的指標(biāo)以服務(wù)農(nóng)業(yè)種植和生態(tài)環(huán)境為主[28],由于經(jīng)費(fèi)的限制,很少涉及金屬礦產(chǎn)元素,進(jìn)而導(dǎo)致了大比例尺的表層土壤調(diào)查出現(xiàn)了一定的礦產(chǎn)元素?cái)?shù)據(jù)缺失。同一區(qū)域的1∶250 000表層土壤樣品和1∶50 000表層土壤樣品具有相同的采樣介質(zhì)、成土母質(zhì)背景和表生地球化學(xué)過(guò)程,因此我們希望以同一區(qū)域1∶250 000測(cè)試指標(biāo)建立一個(gè)預(yù)測(cè)模型,對(duì)1∶50 000大比例尺表層土壤未測(cè)元素指標(biāo)含量進(jìn)行空間預(yù)測(cè),來(lái)補(bǔ)全1∶50 000土地質(zhì)量地球化學(xué)調(diào)查數(shù)據(jù)庫(kù)中缺少的礦產(chǎn)元素含量,服務(wù)于礦產(chǎn)資源勘查。
本文將以羅山地區(qū)表層土壤地球化學(xué)元素指標(biāo)為研究對(duì)象,運(yùn)用機(jī)器學(xué)習(xí)隨機(jī)森林方法,立足對(duì)表層土壤地球化學(xué)元素間相關(guān)關(guān)系的挖掘,重點(diǎn)探討由表層土壤的已知元素含量預(yù)測(cè)Rb元素含量的過(guò)程和結(jié)果,為機(jī)器學(xué)習(xí)算法在地球化學(xué)元素空間預(yù)測(cè)和進(jìn)一步拓展土地質(zhì)量地球化學(xué)數(shù)據(jù)的服務(wù)應(yīng)用維度提供借鑒。
本文研究的羅山地區(qū)1∶250 000表層土壤數(shù)據(jù)(2 548組數(shù)據(jù))來(lái)源于全國(guó)地質(zhì)資料館,具有54項(xiàng)指標(biāo)含量值,該樣品基本采樣密度為1個(gè)點(diǎn)/km2,采樣深度為0~20 cm,4 km2內(nèi)的4個(gè)子樣組合成1個(gè)分析樣,樣品元素含量的測(cè)定均由具有相關(guān)測(cè)試資質(zhì)的實(shí)驗(yàn)室完成,嚴(yán)格按照《DZ/T 0258—2014多目標(biāo)區(qū)域地球化學(xué)調(diào)查規(guī)范(1∶250 000)》[27]進(jìn)行質(zhì)量控制。羅山地區(qū)1∶5萬(wàn)表層土壤數(shù)據(jù)為2020年實(shí)測(cè)(1 761組數(shù)據(jù)),具有17項(xiàng)指標(biāo)含量值,采樣深度為0~20 cm,樣品空間分布相對(duì)均勻,平均采樣密度為9個(gè)點(diǎn)/km2,樣品采集充分考慮地塊代表性,在每個(gè)樣點(diǎn)的20~50 m范圍內(nèi)采集4~6個(gè)子樣,充分混勻后采用四分法獲取約1.5 kg土壤裝入樣品袋中,待樣品自然風(fēng)干后過(guò)2 mm(10目)尼龍篩,均勻獲取500 g送實(shí)驗(yàn)室分析測(cè)試,樣品野外處理及加工嚴(yán)格執(zhí)行《DZ/T 0296—2016土地質(zhì)量地球化學(xué)評(píng)價(jià)規(guī)范》[28]。
1∶5萬(wàn)表層土壤具有17種元素指標(biāo)(Se、B、As、Hg、V、Cr、Mn、Co、Ni、Cu、Zn、Mo、Cd、Pb、pH、K、P)的數(shù)據(jù),由于預(yù)測(cè)變量較多,為了提高預(yù)測(cè)的精度,防止過(guò)擬合,需要根據(jù)每個(gè)預(yù)測(cè)變量對(duì)預(yù)測(cè)結(jié)果的重要程度來(lái)對(duì)預(yù)測(cè)變量進(jìn)行優(yōu)選,確定最佳的預(yù)測(cè)變量集。變量的漏選會(huì)導(dǎo)致關(guān)鍵信息丟失,降低模型的準(zhǔn)確度,使模型無(wú)法準(zhǔn)確描述變量間的復(fù)雜關(guān)系,而多余的預(yù)測(cè)變量又會(huì)增加模型的復(fù)雜度和學(xué)習(xí)難度,同時(shí)也會(huì)將噪聲引入建模過(guò)程中,進(jìn)而導(dǎo)致模型過(guò)擬合,降低泛化能力[29-31]。因此需通過(guò)變量的重要性度量對(duì)變量進(jìn)行優(yōu)選,留下對(duì)預(yù)測(cè)結(jié)果影響最大的變量集,隨機(jī)森林中常用的變量重要性度量計(jì)算方式主要有基于基尼指數(shù)(GI)和袋外數(shù)據(jù)錯(cuò)誤率(OOB)[32-33],本文選擇基尼指數(shù)來(lái)計(jì)算出所有變量的重要性評(píng)分,因?yàn)槠湓谠u(píng)價(jià)地球化學(xué)元素含量這種連續(xù)性變量時(shí)具有更好的穩(wěn)定性[34]。本文變量遴選的方法主要分為兩步,第一步對(duì)所有變量進(jìn)行變量重要性度量并進(jìn)行排序,第二步采用機(jī)器學(xué)習(xí)中常用的學(xué)習(xí)曲線來(lái)確定最優(yōu)的預(yù)測(cè)變量數(shù)量,其原理是根據(jù)預(yù)測(cè)變量的重要性度量從高至低累計(jì)選取預(yù)測(cè)變量進(jìn)行建模,對(duì)模型的擬合優(yōu)度和均方根誤差進(jìn)行對(duì)比,進(jìn)而確定最優(yōu)的預(yù)測(cè)變量數(shù)量。
隨機(jī)森林算法是一種用隨機(jī)方式建立的,以決策樹(shù)為基學(xué)習(xí)器構(gòu)建的集成學(xué)習(xí)算法[35],且每個(gè)決策樹(shù)之間都是相互獨(dú)立的,其輸出的結(jié)果是由每個(gè)決策樹(shù)輸出結(jié)果的眾數(shù)(分類)或整體平均(回歸)而定[36-37],使得整體模型的結(jié)果具有較高的精確度和泛化性能。近些年,隨機(jī)森林算法由于其強(qiáng)大的性能,已經(jīng)成功地應(yīng)用到各領(lǐng)域的多種預(yù)測(cè)模型之中,被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”[38-39]。相比于其他機(jī)器學(xué)習(xí)建模算法,隨機(jī)森林算法具有一些明顯的優(yōu)勢(shì)[40-41],主要體現(xiàn)在:①實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練可以高度并行化,特別是對(duì)于大樣本的地球化學(xué)海量數(shù)據(jù)具有明顯的速度優(yōu)勢(shì);②能處理高維數(shù)據(jù)(多個(gè)元素指標(biāo)),具有較強(qiáng)的抗過(guò)擬合能力;③通過(guò)訓(xùn)練,可以準(zhǔn)確獲取元素間的相互關(guān)系,給出各個(gè)特征對(duì)于輸出的重要性度量;④隨機(jī)采樣的過(guò)程,使訓(xùn)練出的模型的方差小,泛化能力強(qiáng);⑤對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng),既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無(wú)需規(guī)范化[42]。因此,把隨機(jī)森林算法應(yīng)用于地球化學(xué)元素空間預(yù)測(cè)研究具有很好的契合性。如前面所述,隨機(jī)森林模型是由一棵棵決策樹(shù)組成,一般來(lái)說(shuō)決策樹(shù)的數(shù)量越多,建模的結(jié)果往往越好,但當(dāng)決策樹(shù)數(shù)量達(dá)到一定值后,隨機(jī)森林模型的精確性往往不再上升而是開(kāi)始上下波動(dòng),并且決策樹(shù)越多,模型會(huì)越復(fù)雜,訓(xùn)練時(shí)間也會(huì)越長(zhǎng)。為了平衡建模效果和模型復(fù)雜度,本文通過(guò)構(gòu)建學(xué)習(xí)曲線來(lái)擬合決策樹(shù)數(shù)量和建模效果的關(guān)系(圖1)。如圖1所示,當(dāng)決策樹(shù)數(shù)量為150棵時(shí),模型具有較低的復(fù)雜度,同時(shí)也具有較好的建模效果。
圖1 隨機(jī)森林決策樹(shù)的數(shù)量對(duì)模型擬合優(yōu)度和均方根誤差的影響Fig.1 The influence of the number of random forest decision trees on the model’s goodness of fit and root mean square error
圖2 預(yù)測(cè)變量數(shù)量對(duì)模型擬合優(yōu)度和均方根誤差的影響Fig.2 The influence of the number of predictors of the model on the goodness of fit and the root mean square error
本文用于變量遴選的學(xué)習(xí)曲線是一條預(yù)測(cè)變量數(shù)作為橫坐標(biāo)、預(yù)測(cè)模型的擬合優(yōu)度和均方根誤差作為縱坐標(biāo)的曲線(圖2),其中對(duì)全部數(shù)據(jù)(2 548組)進(jìn)行變量重要性度量是利用Python隨機(jī)森林模塊的內(nèi)置函數(shù)實(shí)現(xiàn)。由圖2可知,當(dāng)預(yù)測(cè)變量在4個(gè)以下時(shí),模型的效果隨著預(yù)測(cè)變量的增加有著巨大提升,說(shuō)明此時(shí)模型處于欠擬合狀態(tài),當(dāng)選取重要性度量最高的8個(gè)預(yù)測(cè)變量時(shí),模型既可以具有較好的擬合優(yōu)度和較低的均方根誤差,又具有較低的模型復(fù)雜度,具有較高的計(jì)算效率,因此本文選取變量重要性最高的K、B、Ni、V、Zn、As、Co和Cu作為預(yù)測(cè)因子(圖3)。
圖3 基于隨機(jī)森林算法的預(yù)測(cè)變量重要性度量Fig.3 The importance of predictor variables based on the random forest algorithm
圖4 隨機(jī)森林模型對(duì)訓(xùn)練數(shù)據(jù)(a)和測(cè)試數(shù)據(jù)(b)的回歸結(jié)果Fig.4 The regression results of the random forest model on training data and test data
在自然界中Rb沒(méi)有自己的獨(dú)立礦物,由于離子半徑等地球化學(xué)性質(zhì)與K相近,Rb常以類質(zhì)同象的形式賦存于鉀長(zhǎng)石和云母等含鉀礦物晶格中,因此Rb的含量與K具有密切的正相關(guān)關(guān)系[43]。 B為不相容元素,離子半徑小,在內(nèi)生作用過(guò)程中,常在巖漿作用的晚期富集,同Rb一樣,從超基性巖、基性巖到中性巖和酸性巖B含量逐漸增加,大部分 B分散在造巖礦物中,主要以進(jìn)入鉀長(zhǎng)石等長(zhǎng)石類礦物為主,巖石風(fēng)化成土過(guò)程中,B和Rb均容易被黏土礦物吸附,較為相似的內(nèi)生和表生作用可能使Rb和B具有一定的相關(guān)性[44]。Rb與Ni、V、Zn、As和Co等元素的關(guān)系可能與有機(jī)質(zhì)和黏土礦物的選擇性吸附有關(guān)[45]。
本文隨機(jī)森林建模是通過(guò)Python語(yǔ)言中的sklearn庫(kù)實(shí)現(xiàn),采用研究區(qū)1∶250 000表層土壤數(shù)據(jù)的80%(2 038組)作為訓(xùn)練數(shù)據(jù)集,用來(lái)建立隨機(jī)森林預(yù)測(cè)模型,20%數(shù)據(jù)(510組)用來(lái)對(duì)建立的模型進(jìn)行驗(yàn)證。首先通過(guò)K、B、Ni、V、Zn、As、Co、Cu和Rb的含量,建立隨機(jī)森林模型,如圖4(a)所示,縱坐標(biāo)表示預(yù)測(cè)值,橫坐標(biāo)表示實(shí)際值,中分線表示實(shí)際值與預(yù)測(cè)值相等,模型對(duì)訓(xùn)練數(shù)據(jù)的擬合優(yōu)度高達(dá)0.983 2,說(shuō)明隨機(jī)森林模型對(duì)該訓(xùn)練數(shù)據(jù)的訓(xùn)練效果較好。再用劃分的20%表層土壤的K、B、Ni、V、Zn、As、Co和Cu的含量數(shù)據(jù)作為預(yù)測(cè)變量輸入到建立的隨機(jī)森林模型中得到預(yù)測(cè)的Rb元素含量,并將預(yù)測(cè)值與實(shí)際值進(jìn)行對(duì)比,隨機(jī)森林模型對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果如圖4(b)所示,圖中的點(diǎn)密度基本上分布在中分線附近,預(yù)測(cè)結(jié)果的擬合優(yōu)度為0.895 6,說(shuō)明該模型很好地預(yù)測(cè)了Rb元素的含量,也進(jìn)一步表明根據(jù)本文方法篩選出的預(yù)測(cè)變量是有效的。
為了更直觀地對(duì)比測(cè)試數(shù)據(jù)的實(shí)際值和預(yù)測(cè)值,本文利用GeoIPAS軟件分別制作了實(shí)際值和預(yù)測(cè)值的地球化學(xué)圖(圖5)。從圖5中可知,預(yù)測(cè)圖能夠準(zhǔn)確地反映Rb元素的空間含量特征,預(yù)測(cè)圖的高、低值區(qū)域與實(shí)際圖具有很好的套合關(guān)系,僅有一些微小的差異,這說(shuō)明建模的過(guò)程是可靠的,預(yù)測(cè)的結(jié)果也是可信的。
圖5 測(cè)試數(shù)據(jù)Rb地球化學(xué)圖:實(shí)際圖(a)和預(yù)測(cè)圖(b)Fig.5 Rb geochemical map of test data: actual map (a) and predicted map (b)
圖6 預(yù)測(cè)表層土壤Rb元素地球化學(xué)圖(a)和成土母質(zhì)圖(b)Fig.6 Predicted surface soil Rb element geochemical map (a) and soil parent material map (b)
通過(guò)上述1∶250 000表層土壤數(shù)據(jù)建立的模型,將1∶50 000表層土壤的K、B、Ni、V、Zn、As、Co和Cu的含量數(shù)據(jù)作為輸入變量導(dǎo)入模型中,得到預(yù)測(cè)的Rb元素含量,并利用GeoIPAS軟件繪制了Rb元素地球化學(xué)圖(圖6(a)),通過(guò)與研究區(qū)的成土母質(zhì)背景(圖6(b))對(duì)比可知,預(yù)測(cè)結(jié)果比較符合實(shí)際特征:①Rb元素含量的高值區(qū)與花崗巖出露區(qū)高度套合,這是因?yàn)樽匀唤鏡b通常以伴生狀態(tài)賦存于花崗巖或花崗偉晶巖中[43];②Rb元素含量的低值區(qū)與第四系全新統(tǒng)沖積物分布密切相關(guān),其原因?yàn)镽b離子半徑較大,水化能(離子被水分子包圍的牢固程度)小,陽(yáng)離子易被帶負(fù)電的膠體黏土礦物吸附在原地,不易隨水流遷移[46],因此在第四系沖積物中含量相對(duì)較低,出現(xiàn)低值區(qū);③已發(fā)現(xiàn)螢石礦的周圍往往都有Rb元素含量高值區(qū),因?yàn)槲炇V常常有鋰銣云母伴生[47]。
本研究立足土地質(zhì)量地球化學(xué)調(diào)查出現(xiàn)的小比例尺調(diào)查元素多而大比例尺調(diào)查元素少的現(xiàn)狀,旨在對(duì)大比例尺缺失的礦產(chǎn)元素進(jìn)行空間預(yù)測(cè),通過(guò)大量數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),以稀有金屬Rb元素為例,定量探索土地質(zhì)量地球化學(xué)數(shù)據(jù)之間的關(guān)系。以同一地區(qū)1∶250 000表層土壤元素含量數(shù)據(jù)建立隨機(jī)森林模型,在1∶50 000尺度Rb元素的空間預(yù)測(cè)取得了良好的效果,Rb元素預(yù)測(cè)值與地質(zhì)背景和表生地球化學(xué)過(guò)程保持較高的一致性,可視化結(jié)果較好地展現(xiàn)了表層土壤Rb元素的空間分布主要受地質(zhì)背景和表生地球化學(xué)作用控制。主要結(jié)論如下:①在構(gòu)建隨機(jī)森林模型時(shí),采用變量重要性度量排序和構(gòu)建學(xué)習(xí)曲線的組合方法進(jìn)行預(yù)測(cè)變量的優(yōu)選,模型對(duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的擬合優(yōu)度分別達(dá)到0.983 2和0.895 6,說(shuō)明預(yù)測(cè)變量的優(yōu)選方法是有效的;②由變量重要性度量結(jié)果可知,表層土壤中Rb元素含量與K、B含量具有很強(qiáng)的相關(guān)性;③通過(guò)對(duì)大比例尺Rb元素空間預(yù)測(cè)結(jié)果的佐證,表明將大數(shù)據(jù)機(jī)器學(xué)習(xí)算法引入表層土壤地球化學(xué)元素含量的空間定量預(yù)測(cè)具有可行性。
土地質(zhì)量地球化學(xué)調(diào)查近些年積累了海量數(shù)據(jù),立足數(shù)據(jù)的特點(diǎn),本文僅以Rb元素為例,介紹了小比例尺建模、大比例尺預(yù)測(cè)的方法,展示了該算法變量?jī)?yōu)選的過(guò)程和預(yù)測(cè)的能力。首次嘗試把大數(shù)據(jù)機(jī)器學(xué)習(xí)算法運(yùn)用到土地質(zhì)量地球化學(xué)數(shù)據(jù)定量預(yù)測(cè)中來(lái),并在大比例尺的礦產(chǎn)元素空間定量預(yù)測(cè)中取得了較好的效果,對(duì)預(yù)測(cè)的結(jié)果進(jìn)行了相關(guān)的佐證,具有廣闊的應(yīng)用推廣前景,進(jìn)一步拓展了土地質(zhì)量地球化學(xué)數(shù)據(jù)的服務(wù)應(yīng)用維度。隨著新時(shí)代地質(zhì)調(diào)查事業(yè)“三大轉(zhuǎn)變”的大力推進(jìn),每一名地質(zhì)調(diào)查人員都應(yīng)當(dāng)積極向科技創(chuàng)新和信息化建設(shè)轉(zhuǎn)變,運(yùn)用新技術(shù)新方法充分挖掘數(shù)據(jù)潛力,提升數(shù)據(jù)服務(wù)水平,全面提高地質(zhì)調(diào)查成果的服務(wù)能力。