熊玖琦, 劉星
(安徽理工大學(xué)地球與環(huán)境學(xué)院, 淮南 232001)
為發(fā)展智能化煤礦建設(shè)進程,必須解決地質(zhì)條件的透明化問題,以確保采掘過程的可視、可控和可預(yù)[1]。三維地質(zhì)建模是實現(xiàn)地質(zhì)數(shù)據(jù)可視化、地質(zhì)空間分析以及透明地質(zhì)的關(guān)鍵技術(shù)[2-3]。由于地質(zhì)構(gòu)造錯綜復(fù)雜及地下空間可見性低,目前主要采用鉆探、地震勘探、電法探測等方法獲取地下空間構(gòu)造數(shù)據(jù)。根據(jù)建模過程是否以數(shù)學(xué)模型為核心過程,主要將建模方法分為顯式建模和隱式建模[4]。針對隱式三維地質(zhì)建模,郭甲騰等[5]使用徑向基函數(shù)對礦體進行隱式自動三維建模方法,Zhong等[6]融合地質(zhì)規(guī)則約束對復(fù)雜礦體進行隱式建模,王博等[7]使用自動化提取與量化地層特征參數(shù)實現(xiàn)地質(zhì)體隱式建模。近些年來,將傳統(tǒng)地學(xué)與移動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術(shù)相融合也正在推進地質(zhì)調(diào)查工作的發(fā)展,并且將人工智能核心的機器學(xué)習(xí)與地質(zhì)工作結(jié)合也成為近期研究的熱點[8]。杜炳毅等[9]建立了基于機器學(xué)習(xí)應(yīng)用地震數(shù)據(jù)識別復(fù)雜儲層微小斷裂系統(tǒng),向杰等[10]應(yīng)用機器學(xué)習(xí)算法準確的預(yù)測出成礦產(chǎn)量,李昊陽[11]將機器學(xué)習(xí)與地質(zhì)統(tǒng)計學(xué)相結(jié)合,使得建模結(jié)果與地質(zhì)資料更加符合?,F(xiàn)將機器學(xué)習(xí)與地質(zhì)建模工作相結(jié)合,先構(gòu)建地質(zhì)體SGrid柵格模型,將建模問題轉(zhuǎn)換為柵格單元的屬性分類問題,通過機器學(xué)習(xí)算法根據(jù)已知地質(zhì)數(shù)據(jù)預(yù)測柵格單元的地層類別得到地層界線清晰的三維模型,并將該建模方法應(yīng)用于顧北煤礦北一礦區(qū)的三維模型構(gòu)建,為礦區(qū)的災(zāi)害防治、區(qū)域治理等工作提供參考依據(jù)。
顧北煤礦隸屬于安徽省淮南市,位于淮南煤田中部,潘集背斜西部與陳橋背斜東翼的銜接帶,總體呈南北走向、向東傾斜的單斜構(gòu)造形態(tài),地質(zhì)比較平緩,5°~15°傾角。據(jù)鉆孔揭露,地層由新到老依次為第四系(Q)、二疊系(P)、石炭系(C)、奧陶系(O)及寒武系,由于研究區(qū)范圍廣,數(shù)據(jù)量龐大,選取顧北煤礦北一礦區(qū)進行隱式三維地質(zhì)建模,該礦區(qū)主要涉及四條勘探線、共有23個鉆孔勘探點,總面積10.08 km2,不含斷層、褶皺等復(fù)雜地質(zhì)構(gòu)造,研究區(qū)鉆孔二維分布如圖1所示及三維顯示如圖2所示,從二維分布圖可以看出鉆孔在礦區(qū)內(nèi)呈分散分布,提取的鉆孔數(shù)據(jù)對該礦區(qū)地層劃分具有一定代表性,從三維顯示圖可以看出鉆孔揭露地層分層良好,地層層序能夠清楚劃分。
圖1 研究區(qū)鉆孔二維分布圖Fig.1 Two-dimensional distribution map of boreholes of study area
圖2 研究區(qū)鉆孔三維顯示圖Fig.2 Three-dimensional display of boreholes of study area
支持向量機[12](support vector machine,SVM)是一種基于統(tǒng)計學(xué)的機器學(xué)習(xí)算法,將輸入向量通過預(yù)先提供的非線性關(guān)系映射到更高維的空間,并尋找一個最優(yōu)超平面進行分類,使得不同類別之間的分類間隔最大??紤]一個線性分類器y=sign(wT+b),簡稱(w,b),訓(xùn)練樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1}。為了評估分類與數(shù)據(jù)的適合度,可以使用鉸鏈損耗,即
(1)
從xi到超平面wTxi+b歐氏距離為
(2)
式中:w為超平面的法向量;b為超平面的截距。
(3)
s.t.yi(wTxi+b)≥1-ξi, ?i=1,2,…,m)
ξi≥0, ?i=1,2,…,m
式(3)中:C為一個參數(shù);ξi為松弛變量。
本文中三維地質(zhì)建模方法,規(guī)避地質(zhì)數(shù)據(jù)有限的客觀因素和傳統(tǒng)建模方法專家經(jīng)驗的主觀因素,基于少量數(shù)據(jù)判斷出地質(zhì)構(gòu)造及地層信息,基于機器學(xué)習(xí)的三維地質(zhì)建模流程如圖3所示。
2.2.1 數(shù)據(jù)標準化
原始的地質(zhì)數(shù)據(jù)包括勘探點的三維地理坐標(X,Y,Z)、地層類別(A、B、C、D)、各地層起止深度以及各地層厚度,而計算機無法根據(jù)各地層起止深度認識到地層起止點之間為同一類別地層的地學(xué)意義,并且原始數(shù)據(jù)特征空間過于稀疏,訓(xùn)練結(jié)果不理想,所以需要對原始鉆孔數(shù)據(jù)進行預(yù)處理。根據(jù)各地層類別起止埋深,以1 m為單位對其進行加密處理,把地質(zhì)數(shù)據(jù)變成一系列具有三維坐標和地層屬性類別的點,數(shù)據(jù)預(yù)處理示意圖如圖4所示,并且對數(shù)據(jù)進行標準化處理以消除不同坐標量級之間的影響。
圖3 三維地質(zhì)建模流程圖Fig.3 Flow chart of 3D geological modeling
圖4 數(shù)據(jù)預(yù)處理示意圖Fig.4 Data preprocessing diagram
2.2.2 分類器選擇及參數(shù)尋優(yōu)
每個分類器的算法不同也導(dǎo)致預(yù)測結(jié)果不同,因此分類器的選擇會從根本上影響建模的效果,選擇一種合適且高效的分類器也是本文工作的重要內(nèi)容。同時為避免數(shù)據(jù)出現(xiàn)過擬合現(xiàn)象以及使用相同的驗證方案比較會話中的所有模型,在訓(xùn)練分類器之前,對樣本數(shù)據(jù)進行折數(shù)為5的交叉驗證。利用各類分類器對預(yù)處理過的鉆孔數(shù)據(jù)逐一訓(xùn)練,并在訓(xùn)練過程中對分類器進行優(yōu)化以及搜索最佳超參數(shù),目前常見的有貝葉斯優(yōu)化、網(wǎng)格搜索和隨機搜索等優(yōu)化方法進行超參數(shù)尋優(yōu),由于數(shù)據(jù)量比較大,網(wǎng)格搜索和隨機搜索需要耗費大量時間,而貝葉斯優(yōu)化通過迭代的形式對超參數(shù)進行觀察,收集預(yù)期具有良好分類結(jié)果的超參數(shù),拋棄結(jié)果不確定的超參數(shù),此方法減少了儲存空間并且計算速度快,從最小分類誤差圖(以支持向量機為例)如圖5所示中也可以看出,此優(yōu)化器可以很好地將最小誤差點作為最佳超參數(shù),所以本文選用貝葉斯優(yōu)化器進行超參數(shù)尋優(yōu)。研究區(qū)不同分類器分類結(jié)果如表1所示,可以看出,支持向量機和決策樹的分類效果較好,以支持向量機分類算法進行預(yù)測結(jié)果分析以及三維地質(zhì)建模。
圖5 最小分類誤差圖Fig.5 Minimum classification error map
表1 分類器分類結(jié)果
支持向量機算法中影響分類效果最顯著的超參數(shù)是核函數(shù),核函數(shù)是為避免高維空間中“維數(shù)災(zāi)難”問題而引入的,常用的核函數(shù)有高斯(徑向基,RBF)核函數(shù)、線性核函數(shù)以及多項式核函數(shù)[13]。對幾種核函數(shù)使用默認參數(shù)在該樣本數(shù)據(jù)上的分類結(jié)果進行對比,核函數(shù)分類結(jié)果如表2所示,其中高斯(徑向基)核函數(shù)分類準確度最高,因為其能夠?qū)⒃继卣饔成涞綗o窮維的特征空間,對處理非線性問題非常有效,這正符合鉆孔數(shù)據(jù)三維地質(zhì)建模的高度非線性特征,所以選擇高斯核函數(shù)作為支持向量機的最優(yōu)核函數(shù)。
2.2.3 建立地質(zhì)體柵格單元
由于地質(zhì)構(gòu)造發(fā)育紛繁復(fù)雜,地質(zhì)勘察中獲取的鉆孔數(shù)據(jù)離散且不完備,為了提高分類結(jié)果準確度,根據(jù)所建地質(zhì)體邊界點坐標,以一定步長建立大小相等、分布均勻的柵格單元,構(gòu)建規(guī)則的地質(zhì)體三維空間數(shù)據(jù)場。研究區(qū)總面積10.08 km2,模型取900 m深度,建立大小為30 m×20 m×10 m的柵格單元,共計約150萬個。
表2 核函數(shù)分類結(jié)果
2.3.1 分類器性能
該研究區(qū)地層共分為4個類別,為了解SVM分類器在每個類別中的執(zhí)行情況,是否有分類性能不佳的區(qū)域,繪制混淆矩陣如圖6所示和ROC(receiver operating characteristic curve)曲線如圖7所示,真正類率(ture positive rate, TPR)表示每個真實類正確分類的觀察值比例,假正類率(false positive rate, FNR)表示每個真實類中錯誤分類的觀察值比例。從圖6中可以看出第1類TPR達到99.2%,第2、第4類在90%左右,ROC曲線呈直角走向且曲線下面積AUC=0.99,說明SVM分類器性能很好,分類結(jié)果可信。
圖6 混淆矩陣圖Fig.6 Confusion matrix
圖7 ROC曲線圖Fig.7 ROC curve graph
2.3.2 模型構(gòu)建
一系列三維建模軟件的涌現(xiàn),如GOCAD、Surpac、3DMINE、Earth Vision以及三維可視化技術(shù)的發(fā)展,為地質(zhì)數(shù)據(jù)的可視化提供了便捷條件,大大提高了地質(zhì)建模的精度[14]。選用GOCAD軟件對預(yù)測數(shù)據(jù)進行三維模型構(gòu)建,COCAD軟件具有強大的地質(zhì)解譯、可視化、三維建模和分析的功能,在礦業(yè)開發(fā)、地質(zhì)工程、水利工程等領(lǐng)域受到廣泛應(yīng)用,并且該軟件主要采用離散光滑插值(discrete smooth interpolation, DSI)算法[15],該算法思想是將地質(zhì)界面看作離散化的不連續(xù)界面,然后根據(jù)地質(zhì)點、剖面線數(shù)據(jù)等約束條件求解目標函數(shù)(全局粗糙度函數(shù)),將相同屬性的節(jié)點拼接起來獲取最優(yōu)地質(zhì)界面,正符合本文根據(jù)地質(zhì)體柵格單元分類屬性進行隱式建模的思想。為使所建模型在訓(xùn)練集和測試集上都能取得良好的預(yù)測結(jié)果,因此,在機器學(xué)習(xí)之前,將預(yù)處理后的鉆孔數(shù)據(jù)進行數(shù)據(jù)分割,分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),并且確保數(shù)據(jù)的均勻性和隨機性。然后選取合適的分類器進行訓(xùn)練,并用最佳的訓(xùn)練分類器對柵格單元進行分類預(yù)測。
將已知類別的地質(zhì)體柵格單元數(shù)據(jù)導(dǎo)入GOCAD軟件中,建模結(jié)果如圖8、圖9所示。同時,對該模型進行開挖顯示,可以看出模型內(nèi)部并未出現(xiàn)地層穿插現(xiàn)象,并且地層分界處光滑自然,建模結(jié)果符合實際。為檢驗所建模型的準確性,將根據(jù)實際鉆孔數(shù)據(jù)建立的剖面圖與預(yù)測模型進行對比,以五勘探線為例如圖10所示,可以看出地層走向、各地層厚度基本一致,說明預(yù)測模型結(jié)果可靠。
圖8 研究區(qū)三維地質(zhì)模型圖Fig.8 3D geological model map of the study area
圖9 模型刪狀圖Fig.9 Model deletion diagram
圖10 原始地質(zhì)剖面與預(yù)測模型剖面對比Fig.10 Comparison between original geological section and prediction model section
(1)基于機器學(xué)習(xí)的三維地質(zhì)建模方法,將地質(zhì)建模問題轉(zhuǎn)換為地質(zhì)柵格單元的屬性分類問題,不需復(fù)雜處理和專家經(jīng)驗,通過少量稀疏地質(zhì)數(shù)據(jù)就可以準確構(gòu)建區(qū)域三維地質(zhì)模型。
(2)通過對機器學(xué)習(xí)的各種分類器及其超參數(shù)的比較分析,針對此研究區(qū),支持向量機和決策樹分類器較其他分類器分類準確度較高,并且采用RBF核函數(shù)的支持向量機分類器分類結(jié)果較好。同時對預(yù)測模型進行開挖顯示并與實際剖面對比驗證,建模結(jié)果可靠,符合實際,并且對于地層尖滅位置,無需進行復(fù)雜處理,可以直接準確構(gòu)建。
(3)該方法成功應(yīng)用于顧北煤礦北一礦區(qū)的三維地質(zhì)模型構(gòu)建,有效直觀地表達了該礦區(qū)地層走向及各地層分布特征,為礦區(qū)的災(zāi)害防治、區(qū)域治理等工作提供參考依據(jù)。