劉 凱,朱建新,戴慧敏,劉國棟,許 江,宋運紅,杜守營
1.中國地質(zhì)調(diào)查局 沈陽地質(zhì)調(diào)查中心,遼寧 沈陽 110034;2.中國地質(zhì)調(diào)查局 黑土地演化與生態(tài)效應(yīng)重點實驗室,遼寧 沈陽 110034;3.遼寧省物測勘查院有限責(zé)任公司,遼寧 沈陽 110031;4.沈陽市鵬德環(huán)境科技有限公司,遼寧 沈陽 110034
20世紀(jì)80年代以來,眾多學(xué)者利用土壤中常量、微量等全量元素特征對油氣資源進(jìn)行預(yù)測,并取得了一系列成果[1].近年來,地質(zhì)數(shù)據(jù)量的爆發(fā)式增長為油氣資源預(yù)測帶來了新的機遇.截至2018年,中國地質(zhì)調(diào)查局已在中國平原區(qū)完成區(qū)域多目標(biāo)地球化學(xué)調(diào)查250×104km2以上[2],獲得了海量的高精度土壤地球化學(xué)數(shù)據(jù).這些數(shù)據(jù)中蘊含著豐富的基礎(chǔ)地質(zhì)、生態(tài)地質(zhì)、礦產(chǎn)地質(zhì)等信息,覆蓋了中國中東部大型、中小型含油盆地,為利用該數(shù)據(jù)進(jìn)行油氣資源前景預(yù)測提供了可能[3-4].但正是由于樣本數(shù)量龐大,元素種類多,且地表土壤元素特征與深層油氣資源的關(guān)系復(fù)雜,數(shù)據(jù)的處理方法顯得尤為關(guān)鍵.
近年來,大數(shù)據(jù)方法在地學(xué)中的應(yīng)用得到了快速發(fā)展,尤其在礦產(chǎn)資源預(yù)測方面表現(xiàn)出明顯優(yōu)勢[5-6].陳坤等[7]以1∶25萬水系沉積物數(shù)據(jù)為基礎(chǔ),利用神經(jīng)網(wǎng)絡(luò)模型對湖南白馬山-龍山地區(qū)金礦成礦遠(yuǎn)景進(jìn)行了預(yù)測,并劃定了4個成礦遠(yuǎn)景區(qū).也有眾多學(xué)者將神經(jīng)網(wǎng)絡(luò)應(yīng)用于油氣資源預(yù)測,取得了較好的預(yù)測效果[8-12].
利用大數(shù)據(jù)計算方法進(jìn)行礦產(chǎn)資源預(yù)測是勘查地球化學(xué)的發(fā)展趨勢,但目前仍處于起步探索階段[13].本文基于東北地區(qū)松嫩平原多目標(biāo)地球化學(xué)調(diào)查數(shù)據(jù),嘗試?yán)肂P神經(jīng)網(wǎng)絡(luò)的模式識別技術(shù),通過訓(xùn)練學(xué)習(xí)獲得土壤元素特征與油氣田空間位置之間的判別模型,并利用模型進(jìn)行油氣資源前景預(yù)測.
松嫩平原是東北三大平原之一,行政區(qū)跨黑龍江、吉林兩省和內(nèi)蒙古自治區(qū)一小部分,北自黑龍江省嫩江縣,南至吉林省長嶺縣南部的松遼分水嶺,西側(cè)以大興安嶺低山丘陵區(qū)與山前傾斜平原分界線為界,東側(cè)邊界至小興安嶺-長白山西緣山麓臺地,總體呈南北長、東西窄的橢圓形(圖1).松嫩平原內(nèi)油氣資源豐富,北部為大慶油田探區(qū),面積為11.6×104km2,南部為吉林油田探區(qū),面積6.9×104km2[14].
圖1 松嫩平原多目標(biāo)地球化學(xué)數(shù)據(jù)范圍及油氣開采區(qū)分布圖Fig.1 Distribution map of multi-target geochemical data and oil-gas fields in Songnen Plain
本次研究采用的土壤地球化學(xué)數(shù)據(jù)全部來源于多目標(biāo)區(qū)域地球化學(xué)調(diào)查,樣品采集及測試分析方法參考《多目標(biāo)區(qū)域地球化學(xué)調(diào)查規(guī)范(1∶250000)》[15]和文獻(xiàn)[3].多目標(biāo)區(qū)域地球化學(xué)調(diào)查采用雙層網(wǎng)格采樣方式,分別采集了表層(0~20 cm)和深層(150~200 cm)土壤樣品.本研究采用的數(shù)據(jù)為松嫩平原深層土壤樣本,樣本密度為1個/16 km2.每個樣品屬性包括54個元素或氧化物含量,具體指標(biāo)為Ag、Au、As、B、Ba、Be、Bi、Br、Cd、Cr、Cl、Co、Ce、Cu、F、Ga、Ge、Hg、I、La、Li、Mn、Mo、N、Ni、Nb、P、Pb、Rb、S、Sb、Sc、Se、Sn、Sr、Th、Ti、Tl、U、V、W、Y、Zn、Zr、SiO2、Al2O3、TFe2O3、K2O、Na2O、CaO、MgO、TC、Corg、pH.
本次研究共使用松嫩平原土壤樣本11 291個,樣本在地圖上均勻分布,每個樣本可代表4 km×4 km的網(wǎng)格范圍.由于土壤屬性在空間上存在連續(xù)性和變異性,因此將土壤樣本的空間坐標(biāo)X、Y值也作為兩個屬性賦予樣本屬性中.同時在樣本屬性中增加含油性字段,將樣本點與油氣田分布圖在ArcGIS中進(jìn)行空間疊加,若樣本落在油氣田范圍內(nèi),則定義該字段為1,否則定義為0.經(jīng)統(tǒng)計,油氣田內(nèi)樣本數(shù)量為972個,油氣田外樣本數(shù)量為10 319個.經(jīng)處理后,該數(shù)據(jù)屬性中共含有56個字段作為自變量,含油性字段為因變量,為下一步建立模型做準(zhǔn)備.
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是最常用且有效的人工神經(jīng)網(wǎng)絡(luò)之一,具有高度非線性映射能力.BP神經(jīng)網(wǎng)絡(luò)通常具有3層或3層以上的神經(jīng)元,包括輸入層、中間層(隱層)和輸出層,上下層實現(xiàn)全連接,而每層神經(jīng)元之間無連接.當(dāng)一對學(xué)習(xí)樣本提供給網(wǎng)絡(luò)后,神經(jīng)元的激活值從輸入層經(jīng)各中間層向輸出層傳播,在輸出層的各神經(jīng)元獲得網(wǎng)絡(luò)的輸入響應(yīng).接下來,按照減少目標(biāo)輸出與實際輸出之間的誤差方向,從輸出層反向經(jīng)過各中間層回到輸入層,從而逐層修正各連接權(quán)值,這種算法稱為“誤差反向傳播算法”.隨著誤差逆向傳播修正不斷進(jìn)行,網(wǎng)絡(luò)對輸入模式響應(yīng)的正確率也不斷上升.
本研究利用Matlab 2018b軟件實現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的建立、訓(xùn)練和仿真,建立的網(wǎng)絡(luò)結(jié)構(gòu)如圖2.Lippmannn等[16]研究發(fā)現(xiàn),3層神經(jīng)網(wǎng)絡(luò)(只含有1個隱層)可以解決任意復(fù)雜的分類問題,隱層過多會造成誤差方向傳播過程計算過于復(fù)雜,并容易陷入局部最小誤差.因此本次研究采用3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入層神經(jīng)元數(shù)量為樣本的地球化學(xué)指標(biāo)等屬性,共56個.因為判別目標(biāo)為兩類,分別為0(油氣田外)和1(油氣田內(nèi)),因此輸出層神經(jīng)元為2個,傳遞函數(shù)為S型的對數(shù)函數(shù)(logsig).隱層神經(jīng)元數(shù)量沒有明確通用的公式,一般根據(jù)經(jīng)驗及多次試驗結(jié)果來確定.隱層神經(jīng)元個數(shù)太少會造成網(wǎng)絡(luò)的學(xué)習(xí)容量有限,個數(shù)太多會造成輸入過多的無關(guān)細(xì)節(jié),造成模型的泛化能力較弱.使用傳遞函數(shù)為S型的正切函數(shù)(tansig).設(shè)置最大訓(xùn)練步數(shù)為1000,訓(xùn)練的目標(biāo)誤差為0.01,訓(xùn)練方法為梯度下降動量BP算法,該算法的優(yōu)點是運行收斂速度較快.
圖2 本研究采用的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The BP neural network structure adopted in this study
網(wǎng)絡(luò)模型的訓(xùn)練僅需要少量典型樣本即可.本次研究利用Rand函數(shù)隨機從油氣田內(nèi)和油氣田外的樣本中各抽取500個加載入模型中,并將樣本的70%作為訓(xùn)練樣本,15%作為檢驗樣本,15%作為測試樣本.這樣可以防止網(wǎng)絡(luò)模型學(xué)習(xí)過程中發(fā)生“過擬合”現(xiàn)象,并可評價網(wǎng)絡(luò)模型的性能和泛化能力.為了消除訓(xùn)練過程中的隨機性對判別結(jié)果的影響,對網(wǎng)絡(luò)進(jìn)行20次訓(xùn)練,并將20次訓(xùn)練得到的網(wǎng)絡(luò)輸出取平均值.
訓(xùn)練后,利用交叉熵(CE)、混淆矩陣圖和誤差柱狀圖來評價網(wǎng)絡(luò)的準(zhǔn)確性.CE能夠刻畫兩個概率分布之間的距離,是分類問題中使用比較廣的一種損失函數(shù),CE越低表明兩者間的誤差越小.而判斷BP神經(jīng)網(wǎng)絡(luò)推廣能力的好壞,不僅要關(guān)注測試樣本CE大小,還要看檢驗樣本的CE是否接近于訓(xùn)練樣本,檢驗樣本CE明顯低于訓(xùn)練樣本則可能出現(xiàn)了過擬合現(xiàn)象.如圖3,本模型在第41次訓(xùn)練時,CE達(dá)到穩(wěn)定值0.235,測試樣本CE接近于訓(xùn)練樣本和檢驗樣本,且變化趨勢較為一致,說明該BP神經(jīng)網(wǎng)絡(luò)模型泛化能力較好.
圖3 BP神經(jīng)網(wǎng)絡(luò)性能評價圖Fig.3 BP neural network performance evaluation
混淆矩陣是通過每個目標(biāo)輸入值與模型的實際輸出值進(jìn)行比較,以驗證模型的模式識別和分類效果.它分為訓(xùn)練混淆矩陣、驗證混淆矩陣、測試混淆矩陣和總混淆矩陣.從圖4來看,訓(xùn)練數(shù)據(jù)的準(zhǔn)確率為92.6%,驗證數(shù)據(jù)的準(zhǔn)確率為90.0%,測試數(shù)據(jù)的準(zhǔn)確率為88.7%,總準(zhǔn)確率為91.6%,說明分類效果比較理想.
圖4 混淆矩陣圖Fig.4 The confusion matrix diagram
BP神經(jīng)網(wǎng)絡(luò)的誤差柱狀圖可以直觀看到網(wǎng)絡(luò)模型訓(xùn)練的誤差分布狀況.圖5顯示,該BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本、檢驗樣本和測試樣本的誤差大部分接近于零誤差線(Zero Error),可用來進(jìn)行模式識別和分類.
圖5 預(yù)測誤差柱狀圖Fig.5 The error prediction histogram
將訓(xùn)練獲得的神經(jīng)網(wǎng)絡(luò)模型保存成代碼,并將松嫩平原全部數(shù)據(jù)輸入模型,得到各樣本的含油概率預(yù)測結(jié)果,統(tǒng)計結(jié)果見表1.為了更直觀反映預(yù)測情況,利用樣本的含油概率(大于0.5)繪制樣本含油氣概率預(yù)測圖(圖6).圖中所示,油氣概率大于90%的區(qū)域與已有油氣田范圍吻合度較好,說明了模型的可行性.同時,在油氣田外圍局部地區(qū)也顯示出了較好的油氣概率.其中松原市東部油氣概率普遍大于90%,長嶺縣周圍油氣資源概率大于60%的區(qū)域較集中,有資料顯示兩個區(qū)域內(nèi)目前已有油氣田開采[17-19],反映出該模型的準(zhǔn)確性,也預(yù)示該區(qū)具有很好的油氣資源前景.預(yù)測結(jié)果顯示,農(nóng)安縣西南部、齊齊哈爾市東部等油氣開采空白區(qū)顯示出較高的油氣資源概率,可作為油氣資源勘查的依據(jù).
圖6 松嫩平原含油氣概率預(yù)測圖Fig.6 Prediction map of hydrocarbon-bearing probability in Songnen Plain
表1 樣本含油氣概率預(yù)測結(jié)果統(tǒng)計表Table 1 Prediction results for the hydrocarbon-bearing probability of samples
當(dāng)前,地質(zhì)調(diào)查正不斷獲取到海量的地學(xué)數(shù)據(jù),隨著數(shù)據(jù)量的增加、數(shù)據(jù)類型的多元化、解決問題的復(fù)雜化,傳統(tǒng)的統(tǒng)計方法已顯得力不從心,神經(jīng)網(wǎng)絡(luò)等大數(shù)據(jù)算法在礦產(chǎn)資源預(yù)測、生態(tài)風(fēng)險評價等地學(xué)領(lǐng)域正發(fā)揮越來越重要的作用[20-21].
本次研究基于多目標(biāo)區(qū)域地球化學(xué)數(shù)據(jù),利用BP神經(jīng)網(wǎng)絡(luò)對松嫩平原油氣資源進(jìn)行預(yù)測,結(jié)果顯示預(yù)測區(qū)與油田開采區(qū)吻合度較高,并在農(nóng)安縣西南部、齊齊哈爾市東部等油氣開采空白區(qū)顯示出較高的油氣資源概率,可為劃定油氣資源遠(yuǎn)景區(qū)提供依據(jù).同時,該BP神經(jīng)網(wǎng)絡(luò)模型可在大比例尺油氣勘查區(qū)推廣應(yīng)用.