曹志民 丁璐 韓建
DOI:10.20030/j.cnki.1000?3932.202403015
摘 要 聲波時差測井曲線在石油勘探中發(fā)揮著不可或缺的作用,但是受地質(zhì)或儀器的影響,經(jīng)常會出現(xiàn)部分甚至完整的聲波測井曲線缺失的情況。針對這一問題,提出了一種基于Stacking集成學(xué)習(xí)的聲波時差測井曲線復(fù)原方法,該模型使用隨機森林(RF)、梯度提升決策樹(GBDT)、輕量梯度提升機(LightGBM)和極限梯度提升(XGBoost)作為基學(xué)習(xí)器,支持向量回歸(SVR)作為元學(xué)習(xí)器,同時采用5折交叉驗證的方法。實驗選取了大慶油田某區(qū)塊的實際測井?dāng)?shù)據(jù),分別進(jìn)行了同井和異井間的缺失聲波時差測井曲線復(fù)原實驗,結(jié)果表明,所提方法比單一模型預(yù)測更加準(zhǔn)確,驗證了此方法的可行性。
關(guān)鍵詞 聲波時差測井曲線 Stacking集成學(xué)習(xí) 測井曲線復(fù)原 5折交叉驗證
中圖分類號 TP274?? 文獻(xiàn)標(biāo)志碼 A?? 文章編號 1000?3932(2024)03?0470?07
基金項目:海南省科技專項(批準(zhǔn)號:ZDYF2022GXJS220,ZDYF2022GXJS222)資助的課題。
作者簡介:曹志民(1980-),副教授,從事地球物理測井、油氣人工智能方面的科研與教學(xué)工作。
通訊作者:韓建(1976-),教授,從事油井信號檢測、機器學(xué)習(xí)、模式識別的研究,han?jian@126.com。
引用本文:曹志民,丁璐,韓建.基于Stacking集成學(xué)習(xí)的聲波時差測井曲線復(fù)原研究[J].化工自動化及儀表,2024,51(3):470-476.
聲波時差測井曲線在地質(zhì)勘探和油氣開發(fā)中具有重要的應(yīng)用價值,它能夠提供關(guān)于巖性、孔隙度、滲透率及裂縫等地下巖石特征的信息,為油氣勘探和開發(fā)決策提供科學(xué)依據(jù)[1]。然而在實際工作中,受鉆井液污染、儀器故障等原因,經(jīng)常出現(xiàn)部分聲波測井曲線失真或缺失的情況,重新測量井的經(jīng)濟成本和時間成本可能很高,特別是在已經(jīng)投入大量資金和時間的情況下,重新測量不切實際。隨著人工智能等領(lǐng)域的不斷發(fā)展,機器學(xué)習(xí)在儲層測井評價[2,3]、巖性識別[4]及測井曲線復(fù)原[5~7]等方面得到了成功的應(yīng)用。其中,集成學(xué)習(xí)具有解釋性強、訓(xùn)練速度快和泛化能力高等優(yōu)點。
筆者以隨機森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)、輕量梯度提升機(Light Gradient Boosting Machine,LightGBM)和極限梯度提升(eXtreme Gradient Boosting,XGBoost)作為基學(xué)習(xí)器,以支持向量回歸(Support Vector Regression,SVR)作為元學(xué)習(xí)器,同時采用5折交叉驗證的方法,建立了一個基于Stacking集成學(xué)習(xí)算法的聲波時差測井曲線預(yù)測模型。
1 基本理論
1.1 RF
RF是以隨機的方式建立一個森林,通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的基本單元是決策樹,每一棵決策樹之間沒有關(guān)聯(lián)。RF的基本原理如下[8]:
a. 從訓(xùn)練數(shù)據(jù)集中,用Bootstrap重采樣方法隨機有放回地抽取n個數(shù)據(jù)集,得到n個子訓(xùn)練集。
b. 使用子訓(xùn)練集訓(xùn)練決策樹。在訓(xùn)練過程中,對于每個節(jié)點的切分都需要先隨機選擇k個特征,然后從這k個特征中找到最優(yōu)的切分點來劃分左右子樹(這里生成的決策樹都是二叉樹)。
c. 重復(fù)步驟b,生成多個決策樹模型。
d. 對每棵決策樹進(jìn)行預(yù)測,RF最終的預(yù)測結(jié)果是所有決策樹預(yù)測結(jié)果的均值。
RF的結(jié)構(gòu)示意圖如圖1所示。
1.2 GBDT
GBDT結(jié)合了決策樹和梯度提升算法的特點,是一種基于迭代的集成學(xué)習(xí)算法[9]。在每一輪迭代中,GBDT首先訓(xùn)練一個新的決策樹模型來擬合當(dāng)前模型的殘差(預(yù)測值與真實值之間的差異),然后將新的決策樹模型與原有的模型進(jìn)行加權(quán)組合,得到一個更準(zhǔn)確的預(yù)測模型,這個過程會一直迭代,直到達(dá)到預(yù)定的迭代次數(shù)或者達(dá)到某個停止條件。GBDT的表達(dá)式為:
F(x,ω)=ph(x,ω)? (1)
其中,x為輸入樣本,p為第i棵決策樹的權(quán)重系數(shù),h為第i棵決策樹,ω為第i棵決策樹的參數(shù)。
1.3 LightGBM
LightGBM是一種梯度提升框架,其原理與GBDT基本一致[10]。LightGBM通過引入基于梯度的單邊采樣(Gradient?based One?Side Sampling,GOSS)和互斥特征捆綁(Exclusive Feature Bundling,EFB)方法,有效解決了傳統(tǒng)GBDT算法在計算特征分裂點時需要遍歷全部數(shù)據(jù)計算信息增益的耗時問題。GOSS方法通過對樣本梯度的絕對值進(jìn)行上下采樣,選取梯度絕對值較大的樣本進(jìn)行計算,從而去除了大量梯度較小的樣本,使得計算效率得到顯著提高。而EFB方法則通過對具有相似特征分布的特征進(jìn)行捆綁,減少了特征分裂時的計算量,進(jìn)一步加快了算法的執(zhí)行速度。
LightGBM采用帶深度限制的葉子生長leaf?wise節(jié)點分裂方法,在當(dāng)前所有節(jié)點中找到具有最優(yōu)增益的節(jié)點來進(jìn)行下一次的搜索和分裂,其分裂過程如圖2所示。為了快速找到最優(yōu)分裂節(jié)點,LightGBM還使用了直方圖算法,將特征值按照降序或升序排列,并將其分為多個桶(即直方圖),每個桶中存儲了該特征值的統(tǒng)計信息,如數(shù)量、梯度及梯度平方和等,即可以快速計算各個分裂節(jié)點的增益,并找到最優(yōu)的分裂節(jié)點,其構(gòu)建過程如圖3所示。
1.4 XGBoost
XGBoost是基于Boosting框架的一種實現(xiàn)結(jié)構(gòu),在GBDT的基礎(chǔ)上做了進(jìn)一步改進(jìn)[11]。XGBoost利用二階泰勒展開來優(yōu)化損失函數(shù),從而提高了模型的預(yù)測能力,并且引入了正則項,使用L1正則化(Lasso)和L2正則化(Ridge)來控制模型的復(fù)雜度,有效地避免了過擬合。XGBoost的目標(biāo)函數(shù)包含了損失函數(shù)和正則項兩部分,表示為:
L(φ)t?
g
f(
x)+
hf
(
x)+Ω(f) (2)
其中,L(φ)t為第t次迭代的目標(biāo)函數(shù),g為x的一階導(dǎo)數(shù),h為x的二階導(dǎo)數(shù),f()為第t次迭代的決策樹模型,Ω(f)為第j次迭代的正則項。
1.5 SVR
SVR是一種基于支持向量機的回歸方法,它的回歸過程與線性回歸類似,但具有更高的準(zhǔn)確度和泛化能力[12]。不同于傳統(tǒng)的線性回歸方法,SVR的目標(biāo)不是直接擬合數(shù)據(jù),而是通過在二維空間中找到一個分離超平面來建?;貧w問題。同時,SVR通過將再投影誤差作為復(fù)雜度懲罰項來調(diào)節(jié)回歸模型的靈活性。這個懲罰項控制著模型對數(shù)據(jù)點的擬合程度,從而對模型的復(fù)雜度進(jìn)行調(diào)節(jié)。通過調(diào)節(jié)復(fù)雜度參數(shù),可以靈活地控制模型的泛化能力,使其更好地適應(yīng)不同的數(shù)據(jù)集。對于數(shù)據(jù)集的某個樣本點(x,y)(i=1,2,…,l),SVR的優(yōu)化目標(biāo)為:
[w,ξ,ξ][min] w +C(ξ+ξ)
s.t.
y-w?(
x)-b≤ε+
ξ ,
ξ≥0,i=1,2,…,l
-y-w?(
x)+b≤ε+ξ,
ξ≥0(3)
其中,w為權(quán)重系數(shù),C為懲罰系數(shù),b為常值偏差,ξ和ξ為松弛變量,?()為將輸入數(shù)據(jù)映射到高維特征空間的非線性函數(shù)。
SVR的結(jié)構(gòu)示意圖如圖4所示。只有當(dāng)樣本點落在間隔ε之外時,才會考慮其損失,而在間隔ε內(nèi)的樣本點則不計入損失。
1.6 Stacking模型
Stacking模型是一種集成學(xué)習(xí)方法,采用基學(xué)習(xí)器層和元學(xué)習(xí)器層兩層架構(gòu),用于組合多個基礎(chǔ)學(xué)習(xí)器的預(yù)測結(jié)果,以提高模型的準(zhǔn)確性和魯棒性[13]。Stacking模型的基本思想是通過訓(xùn)練一個元模型,來組合多個不同的基模型的預(yù)測結(jié)果,其結(jié)構(gòu)示意圖如圖5所示。
1.7 K折交叉驗證
在機器學(xué)習(xí)建模過程中,一般會將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。測試集是獨立于訓(xùn)練過程的數(shù)據(jù),不參與模型的訓(xùn)練,而是用于評估最終模型的性能。在訓(xùn)練模型的過程中,常常會出現(xiàn)過擬合的問題,即模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未見過的測試數(shù)據(jù)上的預(yù)測效果較差。如果使用測試數(shù)據(jù)來調(diào)整模型參數(shù),就相當(dāng)于在訓(xùn)練時已經(jīng)利用了部分測試數(shù)據(jù)的信息,這將影響最終評估結(jié)果的準(zhǔn)確性。因此,一種常見的做法是將訓(xùn)練數(shù)據(jù)再劃分出一部分作為驗證數(shù)據(jù),用于評估模型的訓(xùn)練效果。這樣可以確保最終評估是在模型未曾接觸過的數(shù)據(jù)上進(jìn)行的。
K折交叉驗證將數(shù)據(jù)集分為K個互斥的子集,稱為折。在每一輪中,將其中一個折作為子驗證集,其余K-1個折作為子訓(xùn)練集,使用子訓(xùn)練集進(jìn)行模型訓(xùn)練,并在子驗證集上進(jìn)行模型評估。這一過程會重復(fù)K次,每次都會選擇不同的子驗證集。最終,將K次驗證的結(jié)果進(jìn)行平均,這種方法可以更準(zhǔn)確地評估模型的性能,因為它會使用到數(shù)據(jù)集中的所有樣本進(jìn)行驗證,避免了只使用一部分?jǐn)?shù)據(jù)可能帶來的偏差[14]。
1.8 評價指標(biāo)
為了定量評價本方法的客觀性能,采用均方誤差(Mean Square Error,MSE)、均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)、平均絕對相對誤差(Mean Absolute Percentage Error,MAPE)、對稱平均絕對百分比誤差(Symmetric Mean Absolute Percentage Error,SMAPE)和皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficients,PCCs)作為評價指標(biāo)。評價指標(biāo)MSE、RMSE、MAE、MAPE、SMAPE的數(shù)值越小,代表模型的準(zhǔn)確性越高。PCCs表示真實值與預(yù)測值之間的相關(guān)程度,其值越大,模型的準(zhǔn)確性越高。
2 實驗與結(jié)果分析
文中的Stacking模型選用RF、GBDT、LightGBM、XGBoost4種模型作為基學(xué)習(xí)器,SVR作為元學(xué)習(xí)器,并采用K折交叉驗證(這里K取5)的方法。實驗的總體框圖如圖6所示。
筆者選用大慶油田某區(qū)塊的兩口井(編號為W1、W2)作為實驗數(shù)據(jù)來源,采樣間隔均為0.125 m,即每隔0.125 m有一個采樣點,均包含井徑(CaLiper,CAL)、自然伽馬(Natural Gamma Ray,GR)、自然電位(Spontaneous Potential,SP)、深側(cè)向電阻率 (LateroLog Deep,LLD)、淺側(cè)向電阻率(LateroLog Shallow,LLS)、密度(Density,DEN)、聲波時差(Acoustic,AC)7條測井曲線。W1井的起止深度為井下1 284~2 712 m,共計11 425個采樣點。W2井的起止深度為井下1 578~1 954 m,共計3 009個采樣點。AC曲線作為目標(biāo)曲線,其他6條曲線作為母曲線。為了驗證筆者所提方法的有效性,進(jìn)行了兩組實驗:
a. 同井缺失聲波時差測井曲線復(fù)原實驗;
b. 異井缺失聲波時差測井曲線復(fù)原實驗。
2.1 同井缺失聲波時差測井曲線復(fù)原實驗
這里以W1井和W2井缺失某些聲波時差測井曲線的復(fù)原實驗為例。隨機選取30%的AC曲線進(jìn)行刪除,作為缺失的AC曲線段,并作為此次實驗的測試集,其他完整測井曲線作為訓(xùn)練集。W1井和W2井的實驗結(jié)果分別如圖7、8所示。
為了進(jìn)一步體現(xiàn)筆者所提模型的復(fù)原效果,表1和表2分別列舉了W1井和W2井的AC曲線缺失段的不同復(fù)原方法和筆者所提方法的定量評價結(jié)果。
從各個評價指標(biāo)結(jié)果來看,筆者所提方法結(jié)果均優(yōu)于對比方法。
2.2 異井缺失聲波時差測井曲線復(fù)原實驗
這里分別以W1井和W2井作為此次實驗的訓(xùn)練集和測試集,并將W2井的AC曲線全部刪除,作為完整缺失AC曲線的井。實驗結(jié)果如圖9所示。
為了進(jìn)一步體現(xiàn)筆者所提模型的復(fù)原效果,表3列舉了W2井的AC曲線不同復(fù)原方法和筆者所提方法的定量評價結(jié)果。雖然W1井與W2井同處一個區(qū)塊,但是儲層巖性分布差異較大,加大了W2井的AC曲線復(fù)原難度,復(fù)原結(jié)果沒有同井復(fù)原結(jié)果好,但仍優(yōu)于對比方法。
3 結(jié)束語
介紹了一種基于Stacking集成學(xué)習(xí)的缺失聲波時差測井曲線復(fù)原方法。該方法將RF、GBDT、LightGBM和XGBoost作為Stacking模型的基學(xué)習(xí)器,SVR作為Stacking模型的元學(xué)習(xí)器,并采用了5折交叉驗證的方法,以減少過擬合的風(fēng)險。對同井和異井間缺失的聲波時差測井曲線進(jìn)行了復(fù)原實驗,結(jié)果表明筆者所提方法可以有效地提升缺失聲波時差測井曲線復(fù)原的精確度,從多種評價指標(biāo)來看,該方法的評價指標(biāo)均優(yōu)于單一模型。
參 考 文 獻(xiàn)
[1] 霍學(xué)文.聲波測井儀器的基本原理及應(yīng)用探析[J].石化技術(shù),2017,24(11):184.
[2] WANG Z ,TANG H M,HOU Y M,et al.Quantitative evaluation of unconsolidated sandstone heavy oil reservoirs based on machine learning[J].Geological Journal,2023,58(6):2321-2341.
[3] 秦瑞寶,葉建平,李利,等.基于機器學(xué)習(xí)的煤層含氣量測井評價方法——以沁水盆地柿莊南區(qū)塊為例[J].石油物探,2023,62(1):68-79.
[4] 谷宇峰,張道勇,鮑志東,等.利用GS?LightGBM機器學(xué)習(xí)模型識別致密砂巖地層巖性[J].地質(zhì)科技通報,2021,40(4):224-234.
[5] 王俊,曹俊興,尤加春.基于GRU神經(jīng)網(wǎng)絡(luò)的測井曲線重構(gòu)[J].石油地球物理勘探,2020,55(3):510-520;468.
[6] CHENG C,GAO Y,CHEN Y,et al.Reconstruction Me? thod of Old Well Logging Curves Based on BI?LSTM Model—Taking Feixianguan Formation in East Sichuan as an Example[J].Coatings,2022,12(2):113.
[7] 李楓林,劉懷山,楊熙鐳,等.基于U?Net神經(jīng)網(wǎng)絡(luò)的聲波測井曲線重構(gòu)[J].中國海洋大學(xué)學(xué)報(自然科學(xué)版),2023,53(8):86-92;103.
[8] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.
[9] 陳天鍇,王貴勇,申立中,等.基于GBDT算法的柴油機性能預(yù)測[J].車用發(fā)動機,2022(5):51-58.
[10] WANG D N,LI L,ZHAO D.Corporate finance risk pr? ediction based on LightGBM[J].Information Sciences:An International Journal,2022,602:259-268.
[11] 賴儒杰,范啟富.基于指數(shù)平滑和XGBoost的航空發(fā)動機剩余壽命預(yù)測[J].化工自動化及儀表,2020,
47(3):243-247;250.
[12] PENG X J,DONG X.Projection support vector regression algorithms for data regression[J].Knowledge?Based Systems,2016,112:54-66.
[13] YANG R X,SUN C Y,XU L.Prediction of photovoltaic power generation based on stacking model fusion[J].Computer System Application,2020,29(5):36-45.
[14] 朱文廣,李映雪,楊為群,等.基于K-折交叉驗證和Stacking融合的短期負(fù)荷預(yù)測[J].電力科學(xué)與技術(shù)學(xué)報,2021,36(1):87-95.
(收稿日期:2023-07-26,修回日期:2024-04-08)
Research on Acoustic Moveout Logging Curves Restoration Based on Stacking Ensemble Learning
CAO Zhi?min1a,1b,2, DING Lu1a,2, HAN Jian1a,1b,2
(1a. SANYA Offshore Oil & Gas Research Institute;
1b. School of Physics and Electronic Engineering, Northeast Petroleum University;
2. Research Center for Oil & Gas Testing and Measurement Technology and Instrumentation of Heilongjiang Province)
Abstract? Acoustic moveout logging curves play an indispensable role in petroleum exploration, but the influence from geology and instruments results in the loss of partial or even complete acoustic logging curves. In this paper,? a method of acoustic moveout logging curve restoration based on Stacking ensemble learning was proposed. The model employs random forest(RF), gradient lifting decision tree(GBDT), lightweight gradient lifting machine(LightGBM) and extreme gradient lifting(XGBoost) as the base learners, takes support vector regression(SVR) as the meta?learner and adopts a five?fold cross validation method. In the experiment, the a sections? actual logging data in Daqing Oilfield was selected to respectively implement the restoration experiments of the? same well and different wells missing acoustic transit time logging curves. The experimental results show that, the method proposed outperforms the single model in the prediction and it verifies the feasibility of this method.
Key words?? acoustic moveout logging curves, Stacking ensemble learning, restoration of logging curves, five?fold cross validation