王瑀 邱昆峰, 2 侯照亮 于皓丞
1. 中國(guó)地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083 2. 中國(guó)地質(zhì)大學(xué)地質(zhì)過程與礦產(chǎn)資源國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100083 3. 維也納大學(xué)地質(zhì)系,維也納 1090
石英是地殼中儲(chǔ)量最豐富、分布最廣泛的礦物之一,可形成于多種物理化學(xué)環(huán)境。作為重要的熱液與脈石礦物,石英在熱液系統(tǒng)內(nèi)的結(jié)晶生長(zhǎng)能夠記錄區(qū)域環(huán)境演化的直接信息(G?tteetal., 2011; 陳小丹等, 2011; G?tte and Ramseyer, 2012; Kempeetal., 2012; Rusk, 2012)。石英晶體中微量元素含量的變化,反映了石英在富集微量元素過程中的物理化學(xué)條件及區(qū)域地質(zhì)演化過程(Rusk, 2012)。因此石英微量元素含量信息不僅可以用來確定其形成環(huán)境的成礦潛力,而且可以用來確定石英的結(jié)晶條件,判斷形成石英的流體、熔體的來源(Flem and Müller, 2012; Dengetal., 2018; Qiuetal., 2021)。
圖1 不同產(chǎn)狀石英微量元素Al-Ti圖解及其與Rusk (2012)分區(qū)對(duì)比Fig.1 Some published quartz trace element data on the Al-Ti diagram (the base map after Rusk, 2012)
不同地質(zhì)環(huán)境下石英晶格中微量元素的地球化學(xué)特征具有明顯差異性。通過石英的微量元素對(duì)原巖進(jìn)行分類的研究持續(xù)已久(Schr?netal., 1988; G?tze, 2009; 陳劍鋒和張輝, 2011; Rusk, 2012; Breiteretal., 2020; Dengetal., 2020b, 2021)。前人已經(jīng)對(duì)石英成因判別進(jìn)行了重要的研究:Schr?netal.(1988)提出適用于判別花崗巖、偉晶巖和流紋巖三種類型石英的Ti-Al-Ge三元圖解;Rusk (2012)對(duì)來自大約30個(gè)熱液礦床(包括斑巖型(Cu-Mo-Au)礦床、造山型金礦床和淺成低溫?zé)嵋盒徒鸬V床)的石英微量元素歸納研究,根據(jù)Al和Ti的含量對(duì)這些礦床的類型加以區(qū)分,提出可判別這三種類型石英的Al-Ti圖解(圖1)。
Schr?netal.(1988)和Rusk (2012)的圖解研究均基于二維數(shù)據(jù)可視化方法。然而,越來越多的研究表明,二維圖解無法展示多維度的信息特征,以石英圖解為例:這些圖解并不能與部分已知類型的石英微量元素?cái)?shù)據(jù)吻合,如Peterková and Dolej? (2019)的花崗巖石英微量元素?cái)?shù)據(jù)均落在Schr?netal.(1988)的Ti-Al-Ge三元圖相應(yīng)花崗巖的區(qū)域范圍之外;Rusk (2012) Al-Ti二元圖解,以一些已發(fā)表的石英微量元素元素?cái)?shù)據(jù)為例(圖1),其中斑巖型石英與該圖解所劃定的范圍吻合度較高,而淺成低溫?zé)嵋盒褪⑴cRusk (2012) Al-Ti二元圖解劃定的相應(yīng)區(qū)域有較大的偏移,且與造山型礦床的相應(yīng)區(qū)域有較大重疊;造山型石英相較于該圖解圈定的范圍更寬廣,進(jìn)一步增大了誤差范圍。雖然上述圖解在隨后的研究中進(jìn)行了補(bǔ)充修訂(G?tze, 2009; Breiteretal., 2020),數(shù)據(jù)二維研究方法的先天性不足導(dǎo)致如今依舊無法準(zhǔn)確判斷石英類型,精確約束石英生成環(huán)境。
近年來,隨著數(shù)據(jù)可用性和計(jì)算規(guī)模的增長(zhǎng),機(jī)器學(xué)習(xí)為地球科學(xué)的發(fā)展和應(yīng)用提供了新的機(jī)遇。機(jī)器學(xué)習(xí)可以幫助地質(zhì)學(xué)家對(duì)地震數(shù)據(jù)進(jìn)行高效分類(周永章等, 2018a; Geng and Wang, 2020),利用遙感數(shù)據(jù)進(jìn)行巖性分類(Yuetal., 2012; Cracknell and Reading, 2014; Dengetal., 2020a),通過礦物微量元素?cái)?shù)據(jù)對(duì)礦物形成環(huán)境進(jìn)行判別(Deng and Wang, 2016; O’sullivanetal., 2020; Wangetal., 2021; Zhangetal., 2021; Zhongetal., 2021a, b)。隨著微區(qū)測(cè)試等技術(shù)的成熟,日漸豐富的地學(xué)數(shù)據(jù)可以運(yùn)用機(jī)器學(xué)習(xí)尋找到最適合的,更高效,準(zhǔn)確度更高的數(shù)據(jù)處理方法(周永章等, 2018b)。
本文收集了全球典型礦床的石英微量元素?cái)?shù)據(jù),包含造山型礦床、斑巖型礦床、 淺成低溫?zé)嵋旱V床、 卡林型礦床、矽卡巖型礦床以及不含礦的花崗巖和偉晶巖七種類型,剔除成礦晚期的樣品后共1220個(gè)測(cè)試點(diǎn)數(shù)據(jù)(表1)。在前人研究的基礎(chǔ)上,運(yùn)用監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)方法,重新研究石英微量元素組合對(duì)巖體成礦特征的判別,提出有效的地球化學(xué)指標(biāo),建立新的石英類型判別圖解。
表1 不同成因類型石英微量元素?cái)?shù)據(jù)量
圖2 石英數(shù)據(jù)集采樣位置分布Fig.2 Location of quartz dataset used in this study
選取Al、Ti、Li、Ge、P等五個(gè)在石英微量元素研究中具有典型性和代表性的元素,基于Python在大數(shù)據(jù)以及人工智能方面具有的顯著優(yōu)勢(shì),執(zhí)行最佳端元窮舉。石英微量元素?cái)?shù)據(jù)集來自以下七種類型:花崗巖:Altenberg-Teplice地區(qū)(Breiteretal., 2012)、Bohemian地塊(Breiteretal., 2013)、Cínovec-Zinnwald地區(qū)(Breiteretal., 2017)、Orlovka花崗巖(Breiteretal., 2019)、Kleivan花崗巖(Jacamon and Larsen, 2009)和Krupka花崗巖(Peterková and Dolej?, 2019);偉晶巖:Borborema偉晶巖(Beurlenetal., 2011)、Orlovka偉晶巖(Breiteretal., 2019)、挪威南偉晶巖(Larsenetal., 2004)和Krupka偉晶巖(Peterková and Dolej?, 2019);斑巖型礦床:Bingham Cu-Au-Mo礦床(Landtwing and Pettke, 2005)、North Parkes Cu-Au礦床(Tanneretal., 2013);淺成低溫?zé)嵋盒偷V床:Cerro de Pasco地區(qū)(Rottier and Casanova, 2021)、Colquijirca地區(qū)(Rottier and Casanova, 2021)、Summitville Au-Ag-Cu高硫型礦床(Tanneretal., 2013)、El Indio Au-Ag-Cu高硫型礦床(Tanneretal., 2013);矽卡巖型礦床:雞冠嘴銅金礦床(Zhangetal., 2019);卡林型礦床:丫他金礦床(Lietal., 2020)、爛泥溝金礦床(Yanetal., 2020);造山型礦床:古臺(tái)山金銻礦床(Fengetal., 2020)(表1)。樣品的全球分布圖見圖2,詳見http://doi.org/10.5281/zenodo.4077298。
圖3 不同產(chǎn)狀和成因類型石英的微量元素含量箱式圖矩形盒兩端分別是數(shù)據(jù)的上、下四分位數(shù). 矩形盒中的水平黑線代表中值,白點(diǎn)代表平均值. 矩形盒上、下延伸截至的橫線處代表最大值和最小值. 黑點(diǎn)代表偏差大于±1.5σ的異常值Fig.3 Trace element concentrations of the different genetic types of quartzHeight of the color boxes show the interquartile range. The horizontal black lines within the boxes represent the median value. The white dots represent the mean value. Black lines that extended away up and down from the boxes, shows the maximum and minimum value on their horizontal cross cut. Black dots represent the outliers deviating by more than ±1.5σ
數(shù)據(jù)集Al值從5×10-6到3579×10-6,平均值為441.7×10-6;Ti值從0.005×10-6到501×10-6,平均值為22.6×10-6;Li值從0.03×10-6到215.7×10-6,平均值為19.6×10-6;Ge值從0.16×10-6到35.85×10-6,平均值為2.86×10-6;P值從0.2×10-6到113.0×10-6,平均值為19.0×10-6。不同成因類型石英的微量元素含量箱式圖展示了數(shù)據(jù)集石英微量元素?cái)?shù)據(jù)按類型的大致分布(圖3)。
工作流程如下:(1)數(shù)據(jù)預(yù)處理;(2)建立窮舉端元;(3)組合窮舉端元;(4)選出最優(yōu)組合;(5)對(duì)比不同機(jī)器學(xué)習(xí)算法在最優(yōu)組合上的表現(xiàn);(6)選出在此問題上最優(yōu)的機(jī)器學(xué)習(xí)分類算法;(7)優(yōu)化所選算法的超參數(shù)制作最終圖解。
首先對(duì)每個(gè)分組中存在缺失值的樣品進(jìn)行剔除處理。通過計(jì)算Al、Ti、Li、Ge、P五個(gè)元素中任意兩元素比值,得到Ti/Ge、Ti/P、Ti/Al、Ti/Li、Ge/P、Ge/Al、Ge/Li、P/Al、P/Li、Al/Li共10種組合。將初始的5種元素含量與計(jì)算后的10種元素含量比值聯(lián)合,進(jìn)行對(duì)數(shù)轉(zhuǎn)換,得到15個(gè)構(gòu)建圖解的端元。利用正態(tài)化的數(shù)據(jù),以窮舉的方式生成共105個(gè)二元圖解。
為量化且準(zhǔn)確地篩選有效的地球化學(xué)圖解,引入輪廓系數(shù)(Silhouette Coefficient)。輪廓系數(shù)是機(jī)器學(xué)習(xí)中用于無真實(shí)標(biāo)簽的環(huán)境下評(píng)估分簇結(jié)果的指標(biāo)(Rousseeuw, 1987)。更高的輪廓系數(shù)代表模型具有更好的分簇。單個(gè)樣本的輪廓系數(shù)s由內(nèi)聚度和分離度兩種因素決定,表達(dá)為公式(1):
(1)
其中a代表樣本與同一類別中其他所有點(diǎn)之間的平均距離,b代表樣本與下一個(gè)最近的簇中其他所有點(diǎn)之間的平均距離。一組樣本的輪廓系數(shù)是每個(gè)樣本輪廓系數(shù)的平均值。輪廓系數(shù)的范圍為[-1, 1]。1指集群之間的距離清晰,區(qū)分清楚;0代表集群無關(guān)聯(lián)性,亦或集群之間的距離不顯著;-1代表群集分配方式錯(cuò)誤。
通過輪廓系數(shù)量化數(shù)據(jù)簇內(nèi)部緊密程度與數(shù)據(jù)簇之間的分離程度,對(duì)所有組合的圖解按照輪廓系數(shù)值降序排序。輪廓系數(shù)越大,即各類別數(shù)據(jù)點(diǎn)簇之間分散度越大且點(diǎn)簇內(nèi)部數(shù)據(jù)之間的關(guān)聯(lián)度越高,表示各類型石英的區(qū)分度越好?;谳喞禂?shù),可篩選出全類型石英和僅礦床類型石英具有最佳區(qū)分度的端元,來構(gòu)建端元圖解。
以窮舉結(jié)果最優(yōu)組合的兩個(gè)端元作為坐標(biāo)軸制作判別圖解:本工作首先以這兩個(gè)端元作為特征樣本使用機(jī)器學(xué)習(xí)算法訓(xùn)練模型,再利用所得模型對(duì)二維平面中的所有點(diǎn)數(shù)據(jù)進(jìn)行預(yù)測(cè)計(jì)算,推斷出決策邊界。所呈現(xiàn)的決策邊界即為圖解中不同石英類型的邊界。為提高運(yùn)算精度,測(cè)試并對(duì)比了當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域,普遍使用的6種經(jīng)典監(jiān)督學(xué)習(xí)分類算法,包括線性內(nèi)核的支持向量機(jī)、K近鄰、隨機(jī)森林、多項(xiàng)式內(nèi)核的支持向量機(jī)、高斯內(nèi)核的支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)。
圖4 窮舉方法得出的區(qū)分?jǐn)?shù)據(jù)集全部類別石英排名前9的圖解每個(gè)坐標(biāo)軸左上角數(shù)值為其輪廓系數(shù)Fig.4 Top 9 results of biplots of all types from the dataset of quartz by using exhaustive methodThe Silhouette Coefficient of each axis is at the upper left corner
支持向量機(jī)(Support Vector Machine, SVM)模型是將實(shí)際學(xué)習(xí)樣本轉(zhuǎn)換成空間坐標(biāo)系中的點(diǎn),以呈現(xiàn)出決策邊界。這樣映射可將單獨(dú)類別的實(shí)例被最大限度的間隔開。新映射的樣本,將基于它們相對(duì)于決策邊界的分布來預(yù)測(cè)所屬類別。除了典型線性分類預(yù)測(cè),支持向量機(jī)還可以使用所謂的核技巧有效地進(jìn)行非線性、多維度的分類預(yù)測(cè)(Chang and Lin, 2011; Hsuetal., 2003)。K近鄰(K-Nearest Neighbors, KNN)是所有的機(jī)器學(xué)習(xí)算法中最易部署的方法之一,它是一種基于學(xué)習(xí)樣本局部近似程度的惰性學(xué)習(xí)方法(Zhang and Zhou, 2007)。隨機(jī)森林(Random Forest)是一種基于學(xué)習(xí)樣本建立多決策樹,對(duì)新的訓(xùn)練樣本進(jìn)行分類與回歸預(yù)測(cè)的集成學(xué)習(xí)方法(Breiman, 1998, 2001)。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種通過計(jì)算模型或數(shù)學(xué)模型,模仿動(dòng)物大腦內(nèi)生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能,用于對(duì)學(xué)習(xí)樣本進(jìn)行估計(jì)預(yù)測(cè)或近似預(yù)測(cè)的學(xué)習(xí)方法(Kohonen, 1988)。
判別圖解的構(gòu)建基于六種算法在的學(xué)習(xí)曲線與分別預(yù)測(cè)的石英分類邊界圖。學(xué)習(xí)曲線使用交叉驗(yàn)證得分(Browne, 2000),具體采用10折交叉驗(yàn)證方法,即將訓(xùn)練集分割成10個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他9個(gè)樣本用來訓(xùn)練。交叉驗(yàn)證重復(fù)10次,每個(gè)子樣本驗(yàn)證一次,平均10次的結(jié)果最終得到一個(gè)單一估測(cè)。學(xué)習(xí)曲線確定不同訓(xùn)練集大小的交叉驗(yàn)證訓(xùn)練和測(cè)試分?jǐn)?shù)。結(jié)合學(xué)習(xí)曲線,審查邊界過度擬合現(xiàn)象,綜合選取最優(yōu)機(jī)器學(xué)習(xí)算法;超參數(shù)進(jìn)一步優(yōu)化,計(jì)算與確定判別圖上的決策邊界(石英類型邊界)。
全類型石英圖解中輪廓系數(shù)最高的組合為Al/Ge-Al/Li,其輪廓系數(shù)為0.1491(圖4)。礦床類型石英圖解中輪廓系數(shù)最高的組合為Ti/Ge-P,其輪廓系數(shù)為0.1698(圖5)。為了更詳細(xì)地展示Ti/Ge-P圖解中數(shù)據(jù)的分布,繪制了Ti/Ge-P圖解的核密度估計(jì)圖(圖6)。
最終用于機(jī)器學(xué)習(xí)的數(shù)據(jù)量為卡林型礦床76個(gè)、淺成低溫?zé)嵋盒偷V床116個(gè)、造山型礦床64個(gè),斑巖型礦床52個(gè)、矽卡巖型礦床203個(gè),六種機(jī)器學(xué)習(xí)分類方法分別計(jì)算出的5種礦床類型石英的學(xué)習(xí)曲線(圖7)及其決策邊界(圖8)。線性內(nèi)核的支持向量機(jī)交叉驗(yàn)證分?jǐn)?shù)為0.716(圖7a);K近鄰交叉驗(yàn)證分?jǐn)?shù)為0.794(圖7b);隨機(jī)森林交叉驗(yàn)證分?jǐn)?shù)為0.796(圖7c);多項(xiàng)式(三項(xiàng))內(nèi)核的支持向量機(jī)交叉驗(yàn)證分?jǐn)?shù)為0.794(圖7d);高斯內(nèi)核的支持向量機(jī)交叉驗(yàn)證分?jǐn)?shù)為0.820(圖7e);人工神經(jīng)網(wǎng)絡(luò)交叉驗(yàn)證分?jǐn)?shù)為0.789(圖7f)。交叉驗(yàn)證分?jǐn)?shù)越高,即所得結(jié)果的準(zhǔn)確度越高。
經(jīng)過交叉驗(yàn)證的分?jǐn)?shù)和視覺審查(圖8)的綜合評(píng)判,選定人工神經(jīng)網(wǎng)絡(luò)作為圖解構(gòu)建的算法,其經(jīng)優(yōu)化超參數(shù)后預(yù)測(cè)出最終的判別圖解決策邊界(圖9),其隱藏層數(shù)為2層:其中第一層100個(gè)神經(jīng)元、第二層30個(gè)神經(jīng)元,其交叉驗(yàn)證分?jǐn)?shù)為0.869。
由于各端元的數(shù)值范圍差別巨大(如,Al,5×10-6~3579×10-6;Ge,0.16×10-6~35.85×10-6),且中值通常遠(yuǎn)低于其平均值,不符合正態(tài)分布。對(duì)數(shù)據(jù)集做對(duì)數(shù)變換,獲得符合正態(tài)分布且變化范圍較小的數(shù)據(jù)集,以保證圖解中的數(shù)據(jù)點(diǎn)分布范圍相對(duì)均勻,易于判斷區(qū)分效果。由于各類別不存在明顯的數(shù)據(jù)不平衡問題(Chawlaetal., 2004),未進(jìn)行過采樣等處理。
七種類型石英的端元窮舉結(jié)果顯示(圖4),整體上,由于二維空間的局限性,區(qū)分七種類型石英的數(shù)據(jù)點(diǎn)時(shí)產(chǎn)生疊蓋是難以避免的。相較于單一元素值,元素比值能攜帶更多信息,因此在判別圖解上普遍比單一元素作為端元具有更好的表現(xiàn)。在區(qū)分不同礦床類型石英的窮舉結(jié)果上(圖5),P和Ti是單元素作為區(qū)分單元效果較優(yōu)。Al端元對(duì)各類礦床的區(qū)分效果較差,即便Rusk (2012)圖解本身的Al所在的維度亦有較大重疊。Li+常以電價(jià)補(bǔ)償?shù)男问竭M(jìn)入石英晶格而存在于其晶格間隙中(陳劍鋒和張輝, 2011),常與Al3+共同替代Si4+,Al3+與Li+通常具有較高的正相關(guān)關(guān)系(Rusk, 2012)。Al/Li是出現(xiàn)頻數(shù)最高的元素比值端元,具有較好的判別表現(xiàn)。在七種不同類別的石英中,尤其在巖漿巖-斑巖型礦床-淺成低溫?zé)嵋盒偷V床系列中存在明顯變化性與差異性,反映了Al與Li的相關(guān)關(guān)系可能受溫度影響較大。在五種類型礦床區(qū)分的結(jié)果上(圖5),Ti/Ge與P為最優(yōu)組合。其中Ti與Ge的比值被認(rèn)為是巖漿分餾指標(biāo)(Breiteretal., 2017)。P是較少被討論的石英微量元素元素之一,但其在不同類型礦床的石英中具有明顯的差異,能有效地區(qū)分石英的類型。雖然石英中的P能夠?qū)r體賦礦類型進(jìn)行有效區(qū)分,但這種現(xiàn)象尚未得到充分理解,其背后的地球化學(xué)意義尚待分析和發(fā)掘。
圖7 六種機(jī)器學(xué)習(xí)分類算法在不同礦床類型石英分類的學(xué)習(xí)曲線比較Fig.7 Comparison of six machine learning classification algorithms on the learning curve of different mineral deposit types of quartz
礦床類型石英微量元素最優(yōu)判別端元的核密度估計(jì)圖(圖6)顯示,除了卡林型礦床類型的石英微量元素?cái)?shù)據(jù)略呈現(xiàn)兩極化,其它類型的石英微量元素?cái)?shù)據(jù)在此二端元的圖解上分布致密,不同類別之間亦具有較好的分離??中偷V床的石英微量元素?cái)?shù)據(jù)來自爛泥溝礦床(Yanetal., 2020)和丫他礦床(Lietal., 2020),盡管二者都被認(rèn)為是卡林型礦床,但其石英微量元素存在著較明顯的分歧,且二者的數(shù)據(jù)均來自粉砂巖中的石英脈,未見圍巖對(duì)此差異造成影響。卡林型礦床是否具有成因意義,以及卡林型是否屬于成因類型,仍需進(jìn)一步研究與探討(歐陽玉飛等, 2011)。
圖8 六種機(jī)器學(xué)習(xí)分類算法在不同礦床類型石英分類的決策邊界問題上的比較Fig.8 Comparison of six machine learning classification algorithms on the making decision boundary of different mineral deposit types of quartz
圖9 礦床類型石英判別圖解經(jīng)過網(wǎng)格搜索調(diào)整超參數(shù)的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出決策邊界Fig.9 Discriminating diagram for different types of quartzDecision boundaries predicted by neural network whose hyperparameters was tuned by gridsearch
學(xué)習(xí)曲線結(jié)果顯示(圖7),除線性內(nèi)核的支持向量機(jī)(圖7a)最終交叉驗(yàn)證分?jǐn)?shù)為0.716,其他五種算法均在0.8左右,無顯著差異代表預(yù)測(cè)結(jié)果準(zhǔn)確度約為80%。除隨機(jī)森林外(圖7c),其他五種算法的訓(xùn)練集曲線和交叉驗(yàn)證集曲線均已收斂,無過度擬合。80%準(zhǔn)確率,存在一定的欠擬合,從曲線走勢(shì)來看增加樣本量已不能解決問題,已經(jīng)是在二維空間中的理想結(jié)果。高斯內(nèi)核的支持向量機(jī)更適合解決中等樣本數(shù)量和中等特征數(shù)量的問題,而此問題僅有兩個(gè)特征,從其可視化的的結(jié)果來看(圖8e),大面積出現(xiàn)樣本概率低的區(qū)間均被預(yù)測(cè)為卡林型礦床類別。此類別的數(shù)據(jù)點(diǎn)相對(duì)分散,對(duì)高斯內(nèi)核的支持向量機(jī)方法呈現(xiàn)出的結(jié)果有較大影響,因此不建議在此問題上使用高斯內(nèi)核的支持向量機(jī)。K近鄰法和隨機(jī)森林法的邊界圖邊界過于嘈雜,不宜用作判別圖解(圖8b, c)。盡管線性內(nèi)核的支持向量機(jī)(圖8a)交叉驗(yàn)證分?jǐn)?shù)稍低,但其具有良好的抗過度擬合能力,所得的決策邊界圖結(jié)果優(yōu)于K近鄰法和隨機(jī)森林法。線性內(nèi)核的支持向量機(jī)更適合解決線性可分的問題,本數(shù)據(jù)集中卡林型礦床類型石英的P值呈現(xiàn)出兩極化特征,而線性內(nèi)核的支持向量機(jī)無法兼顧。神經(jīng)網(wǎng)絡(luò)具有較高的普適性。但神經(jīng)網(wǎng)絡(luò)需要進(jìn)行超參數(shù)調(diào)整,例如隱藏層數(shù)量、各隱藏層神經(jīng)元的數(shù)量、學(xué)習(xí)速率和迭代次數(shù)等,調(diào)整超參數(shù)較為復(fù)雜。且隱藏層的神經(jīng)網(wǎng)絡(luò)具有非凸的損失函數(shù),其中存在多個(gè)局部最小值,因此,不同的隨機(jī)權(quán)重初始化可能導(dǎo)致不同的驗(yàn)證準(zhǔn)確性(周志華, 2016)。在實(shí)驗(yàn)中我們也發(fā)現(xiàn)在不限定隨機(jī)權(quán)重初始化情況下,人工神經(jīng)網(wǎng)絡(luò)方法每次得出的結(jié)果有明顯差異,較為多變。
綜合學(xué)習(xí)曲線和決策邊界圖的視覺審查(圖7、圖8),人工神經(jīng)網(wǎng)絡(luò)最有利于解決此問題。為盡可能取得最優(yōu)結(jié)果,通過網(wǎng)格搜索,以3種神經(jīng)網(wǎng)絡(luò)構(gòu)架、2種優(yōu)化器和100組不同參數(shù)值初始化組合的多個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,取交叉驗(yàn)證分?jǐn)?shù)最高的解作為最終參數(shù)。這相當(dāng)于從多個(gè)初始點(diǎn)開始搜索,并行選擇誤差函數(shù)更接近全局最小值的預(yù)測(cè)結(jié)果(周志華, 2016)。交叉驗(yàn)證計(jì)算得出,此Ti/Ge-P圖解(圖9)具有約86%的準(zhǔn)確率。隨著未來更豐富的石英微量元素?cái)?shù)據(jù)被發(fā)表,此圖解還有待進(jìn)一步更新優(yōu)化。
本研究為可視化地研究石英微量元素提供借鑒,以P、Ti/Ge為端元的圖解,能有效區(qū)分礦床類型。Al/Li值在斑巖型礦床、淺成低溫?zé)嵋盒偷V床系列中變化明顯,Al/Li的強(qiáng)相關(guān)性可能受溫度影響。
在使用機(jī)器學(xué)習(xí)制定二維分類判別圖解問題上,應(yīng)避免使用K近鄰與隨機(jī)森林應(yīng)方法;人工神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)是推薦方案;人工神經(jīng)網(wǎng)絡(luò)雖然現(xiàn)在常用于更為復(fù)雜深度學(xué)習(xí),但是在為判別圖解制定決策邊界這種低特征數(shù)量分類問題上亦有較好的表現(xiàn)。在二維可視化的基礎(chǔ)上運(yùn)用的機(jī)器學(xué)習(xí)方法,高維度的研究目標(biāo)特征,做出精確預(yù)測(cè),將是未來的研究方向。有足量數(shù)據(jù)的情況下,本工作流程亦適用于其它地球化學(xué)判別圖解的研究與建立。
Ti/Ge-P圖解的決策邊界由經(jīng)過超參數(shù)調(diào)整優(yōu)化的人工神經(jīng)網(wǎng)絡(luò)計(jì)算得出,可用來判別斑巖型礦床、矽卡巖型礦床、淺成低溫?zé)嵋盒偷V床、卡林型礦床以及造山型礦床中的石英,此圖解具有約86%的準(zhǔn)確率,是大數(shù)據(jù)技術(shù)與機(jī)器學(xué)習(xí)技術(shù)在地球化學(xué)研究中的探索。隨著未來更豐富的石英微量元素?cái)?shù)據(jù)的發(fā)表,此圖解還有待進(jìn)一步更新與優(yōu)化。
致謝論文的完成得益于鄧軍院士的指導(dǎo);感謝張靜教授和兩位匿名審稿專家對(duì)文章提出的寶貴意見;感謝俞良軍老師對(duì)本文細(xì)心的審閱;感謝中國(guó)地質(zhì)大學(xué)(北京)的李珊珊博士后、龍政宇博士、朱紫怡和周飛為本文提供寶貴的修改意見。