陳凱楓 楊學(xué)文 宋先知 陳 冬 張 偉 韓 亮 邢 星
(1.中國石油塔里木油田分公司2.中國石油大學(xué)(北京))
陳凱楓,楊學(xué)文,宋先知,等.基于工程錄井?dāng)?shù)據(jù)的井漏智能診斷方法.石油機械,2022,50(11):16-22.
井漏是鉆井過程中常見的井下風(fēng)險,它往往突然發(fā)生且處理起來十分復(fù)雜,還可能會誘發(fā)溢流、井塌等其他井下風(fēng)險。實現(xiàn)井漏高效準(zhǔn)確診斷對于鉆井作業(yè)的安全性和經(jīng)濟性具有重要意義。
綜合錄井法[1]是應(yīng)用最廣泛的井漏診斷方法,它通過實時監(jiān)測錄井參數(shù)是否超過閾值來診斷井漏,但閾值設(shè)定依賴于經(jīng)驗,主觀性較強,導(dǎo)致井漏診斷準(zhǔn)確率有限;亓和平等[2]采用聲波液位測量裝置對井漏后井下環(huán)空液面進(jìn)行了實時監(jiān)測;唐世春[3]采用立管壓力法對井漏的層位進(jìn)行了準(zhǔn)確診斷,但當(dāng)存在多個漏層時診斷效果不佳;門菲[4]和張學(xué)洪等[5]通過分析選取井漏表征參數(shù),基于案例推理技術(shù)建立了井漏風(fēng)險診斷模型,但不適用于探井較少的區(qū)塊;D.M.SCHAFER等[6]設(shè)計了高分辨率流量計來檢測井漏,但僅依靠單一參數(shù)導(dǎo)致效果不佳。傳統(tǒng)方法僅采用一個或幾個因素進(jìn)行井漏識別,需要提前設(shè)定閾值,存在較高的誤判和漏判,且時效性不高。井漏是一種隨機的復(fù)雜非線性問題,人工智能方法可很好解決這個問題。HOU X.X.等[7]綜合考慮地質(zhì)、鉆井液性能和鉆井參數(shù),利用神經(jīng)網(wǎng)絡(luò)對井漏等級進(jìn)行了預(yù)測;侯艷偉等[8]基于地質(zhì)和工程異常參數(shù)利用模糊數(shù)學(xué)對井下事故進(jìn)行判斷;LI Z.J.等[9]基于神經(jīng)網(wǎng)絡(luò)和支持向量機等算法,輸入泵壓、流量和地應(yīng)力等工程和地質(zhì)參數(shù)建立了井漏診斷模型,這些模型雖然精度較高,但需要實時輸入地質(zhì)參數(shù)導(dǎo)致其應(yīng)用受限。國內(nèi)外企業(yè)已研發(fā)了一批較為成熟的井漏事故診斷系統(tǒng),如DrillEdge鉆井風(fēng)險識別系統(tǒng)[10]、e-Drilling自動化鉆井系統(tǒng)[11]、NDS鉆井風(fēng)險管理系統(tǒng)[12]、KDS井涌井漏監(jiān)測系統(tǒng)[13]和ALS-K井涌井漏快速探測系統(tǒng)[14]等,但需要與隨鉆測量工具配合使用。因此亟需建立基于實時工程錄井?dāng)?shù)據(jù)的井漏智能診斷模型,以提高井漏診斷效率和準(zhǔn)確率。
筆者針對以上井漏診斷方法所存在的問題,分析并總結(jié)了井漏事故發(fā)生機理,將相關(guān)性分析和經(jīng)驗知識相結(jié)合優(yōu)選井漏表征參數(shù),基于現(xiàn)場實時工程錄井?dāng)?shù)據(jù),利用隨機森林(Random Forests,RF)、支持向量機(Support Vector Machine,SVM)、BP神經(jīng)網(wǎng)絡(luò)(error Back Propagation Neural Network,BP)和邏輯回歸(Logistic Regression,LR)4種機器學(xué)習(xí)算法分別建立多錄井表征參數(shù)的井漏智能診斷模型,并分析各表征參數(shù)的相對重要性,對準(zhǔn)確及時發(fā)現(xiàn)井漏風(fēng)險和保障鉆井安全有重要意義。
根據(jù)漏失原因井漏可分為2種:一是鉆遇滲透率大或裂縫發(fā)育的地層,鉆井液在壓差作用下通過這些漏失通道向地層中滲漏;二是由于鉆井液密度過高,液柱壓力大于地層破裂壓力導(dǎo)致地層被壓漏,形成人工漏失通道造成鉆井液向地層滲漏[15]。
井漏發(fā)生時會導(dǎo)致工程參數(shù)發(fā)生明顯變化,只依靠一種參數(shù)的變化來識別井漏并不準(zhǔn)確,要結(jié)合多種參數(shù)變化來綜合判斷[16]。
(1)鉆井液總池體積:鉆井液地層內(nèi)滲漏導(dǎo)致井筒內(nèi)鉆井液減少,上返至地面的鉆井液體積減少,故鉆井液總池體積減少。
(2)鉆井液出入口流量差:井漏時井筒中部分鉆井液流入地層中,出口流量減少,入口流量與出口流量的差值為正,若不及時處理,流量差會進(jìn)一步增加。
(3)立管壓力:井漏時鉆井液上返速度降低,與環(huán)空間摩阻減小,導(dǎo)致立壓降低。
(4)大鉤載荷:由于鉆井液密度和地層流體密度存在差異,一般情況下鉆井液密度大于地層流體密度,密度差產(chǎn)生的浮力變化會造成大鉤載荷波動。
(5)泵壓:漏失時鉆井液流入地層導(dǎo)致上返流體減少,舉升壓力減小導(dǎo)致泵壓降低。
(6)鉆速:在鉆遇裂縫發(fā)育或溶洞地層時,鉆頭破巖阻力減小,鉆速會突然加快。
本文所使用的工程錄井?dāng)?shù)據(jù)來自于國內(nèi)某油田,采用特征工程方法對工程錄井?dāng)?shù)據(jù)進(jìn)行了清洗、相關(guān)性分析及歸一化等處理,建立用于人工智能模型訓(xùn)練測試的數(shù)據(jù)集。
對于缺失值,基于數(shù)據(jù)類別的分布規(guī)律和重要性采取不同處理方法,當(dāng)特征缺失率超過70%時直接刪除;若缺失值占比較低,特征符合均勻分布則采用均值補全,特征符合線性分布則用中位數(shù)補全。對于異常值,將其轉(zhuǎn)換為空值后利用均值或中位數(shù)對空值補全。
相關(guān)性分析是特征選擇的一種重要方法,能夠衡量各參數(shù)與目標(biāo)值間的相關(guān)性程度,優(yōu)選相關(guān)性強的特征作為輸入,有利于降低模型復(fù)雜度,提高模型訓(xùn)練速度和泛化能力。
采用Pearson相關(guān)系數(shù)衡量各個變量與目標(biāo)變量之間的相關(guān)性強度,其計算公式為:
式中:X、Y為變量,Cov X,Y( )為X、Y的協(xié)方差,D X()為X的方差,D Y()為Y的方差,ρXY為X、Y的Pearson相關(guān)系數(shù)。
特征與井漏的相關(guān)性如圖1所示。通過計算各工程錄井參數(shù)與井漏間的Pearson相關(guān)系數(shù),結(jié)合井漏表征規(guī)律對輸入?yún)?shù)進(jìn)行優(yōu)選。最終選取總池體積、立管壓力、進(jìn)出口流量差、大鉤載荷、鉆時、鉆井液密度和井斜方位角等7種特征參數(shù)作為模型輸入?yún)?shù)。
圖1 特征與井漏的相關(guān)性Fig.1 Correlation between characteristics and lost circulation
鉆井過程中井漏屬于小樣本事件,數(shù)據(jù)樣本存在嚴(yán)重失衡導(dǎo)致在模型訓(xùn)練過程中預(yù)測結(jié)果更偏向于比例較大的非井漏。為解決數(shù)據(jù)比例不平衡問題,選取井漏井段和其上部非井漏井段建立數(shù)據(jù)集,井漏與非井漏數(shù)據(jù)比例為4∶6,其中井漏標(biāo)簽為1,非井漏標(biāo)簽為0。
不同特征的量綱和單位差異巨大,嚴(yán)重影響數(shù)據(jù)分析和模型預(yù)測結(jié)果,因此利用數(shù)據(jù)標(biāo)準(zhǔn)化處理消除不同量綱與單位之間的影響。原始數(shù)據(jù)經(jīng)數(shù)據(jù)標(biāo)準(zhǔn)化處理后落在特定區(qū)間,有利于模型訓(xùn)練和對比。本文采用最大-最小歸一化方法對數(shù)據(jù)進(jìn)行處理,計算公式如下:
3.1.1 隨機森林算法
決策樹是隨機森林基本單位,主要由根節(jié)點、內(nèi)部節(jié)點和葉子節(jié)點3部分組成[17]。隨機森林算法通過集成學(xué)習(xí)思想將多個決策樹集成,將不同決策樹結(jié)果進(jìn)行統(tǒng)計,以數(shù)量最多的結(jié)果作為模型預(yù)測結(jié)果。其結(jié)構(gòu)如圖2所示。
圖2 隨機森林算法示意圖Fig.2 Schematic diagram of random forest algorithm
3.1.2 支持向量機[18]
支持向量機的基本思想是尋找一個可將數(shù)據(jù)區(qū)分且?guī)缀尉嚯x最大的“超平面”,當(dāng)數(shù)據(jù)集為非線性問題時,通過核函數(shù)將線性不可分?jǐn)?shù)據(jù)映射到高維空間中,轉(zhuǎn)換為高維空間線性可分?jǐn)?shù)據(jù),并在高維空間求解最佳分類超平面。當(dāng)數(shù)據(jù)集線性可分時,其超平面方程為:
則空間中點x到最佳分類超平面的距離為:
式中:W為平面法向量,x為點x的坐標(biāo),b為平面的截距,d為點x到平面的距離。
3.1.3 BP神經(jīng)網(wǎng)絡(luò)
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成單位,其接收輸入后通過加權(quán)計算總輸入并與閾值進(jìn)行比較,利用激活函數(shù)對其進(jìn)行非線性處理得到最終輸出[19]。BP神經(jīng)網(wǎng)絡(luò)將神經(jīng)元逐層組織連接,并利用誤差逆向傳播算法進(jìn)行訓(xùn)練,不斷調(diào)整網(wǎng)絡(luò)權(quán)重和閾值,將誤差降到最低[20]。神經(jīng)元及BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
圖3 神經(jīng)元與BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neuron and BP neural network structure
3.1.4 邏輯回歸
邏輯回歸原理是將線性回歸的結(jié)果輸入到sigmoid函數(shù)中,并設(shè)置一個適當(dāng)?shù)拈撝?如果樣本類別概率大于閾值,則劃分為1,小于閾值則劃分為0。
井漏診斷是二分類問題,由于井漏和非井漏數(shù)據(jù)量不平衡,造成準(zhǔn)確率偏高,所以綜合多個指標(biāo)來衡量模型的泛化能力。本文采取準(zhǔn)確率、漏警率和虛警率評價井漏診斷模型的性能。
準(zhǔn)確率(Accuracy)是指分類模型診斷正確的樣本數(shù)量占整個診斷樣本數(shù)量的比例,其表達(dá)式如下:
漏警率(Missing Alarm Rate)指未被識別的井漏樣本占實際井漏樣本的比例,其表達(dá)式為:
虛警率(False Alarm Rate)指識別為井漏的樣本中實際為非井漏樣本的比例,其表達(dá)式為:
式中:ATP表示將正類預(yù)測為正類的樣本數(shù)量,ATN表示將負(fù)類預(yù)測為負(fù)類的樣本數(shù)量,AFP表示將負(fù)類預(yù)測為正類的樣本數(shù)量,AFN表示將正類預(yù)測為負(fù)類的樣本數(shù)量。
基于建立的井漏數(shù)據(jù)集,選取其中75%用于訓(xùn)練驗證,25%的樣本用于測試,利用隨機森林、支持向量機、BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸算法分別建立井漏智能診斷模型。
3.3.1 隨機森林模型
對于隨機森林模型,利用網(wǎng)格搜索算法對隨機森林模型的分類器數(shù)量、葉子節(jié)點最小樣本數(shù)、樹的最大深度和內(nèi)部節(jié)點劃分最小樣本數(shù)等參數(shù)進(jìn)行調(diào)整尋優(yōu),各模型參數(shù)設(shè)置及優(yōu)選結(jié)果如表1所示。
表1 隨機森林模型參數(shù)組合Table 1 Parameter combination of random forest model
不同參數(shù)組合下隨機森林模型在測試集上的準(zhǔn)確率、漏警率、虛警率如圖4所示,其橫坐標(biāo)為不同參數(shù)組合下的隨機森林模型。當(dāng)分類器數(shù)量為40、樹的最大深度為15、內(nèi)部節(jié)點劃分最小樣本數(shù)為2、葉子節(jié)點最小樣本數(shù)為1時,隨機森林模型的效果最佳,準(zhǔn)確率為98%,漏警率為3%,虛警率為1%。
圖4 隨機森林模型在不同參數(shù)組合下的評價指標(biāo)對比Fig.4 Comparison of assessment indicators of random forest model with different parameter combinations
3.3.2 支持向量機模型
對于支持向量機模型,通過預(yù)訓(xùn)練優(yōu)選出徑向基核(Radial Basis Function,RBF)作為核函數(shù),利用網(wǎng)格搜索算法對支持向量機模型的懲罰因子、核函數(shù)系數(shù)、誤差容忍度等參數(shù)進(jìn)行調(diào)整尋優(yōu),模型各參數(shù)范圍及優(yōu)選結(jié)果如表2所示。
表2 支持向量機模型參數(shù)組合Table 2 Parameter combination of support vector machine model
不同參數(shù)組合下支持向量機模型在測試集上的準(zhǔn)確率、漏警率和虛警率如圖5所示,其橫坐標(biāo)為不同參數(shù)組合下的支持向量機模型。當(dāng)懲罰因子為12、核函數(shù)系數(shù)為15、誤差容忍度為0.001時,支持向量機模型的效果最佳,準(zhǔn)確率為96%,漏警率為2%,虛警率為6%。
圖5 支持向量機模型在不同參數(shù)組合下的評價指標(biāo)對比Fig.5 Comparison of assessment indicators of support vector machine model with different parameter combinations
3.3.3 BP神經(jīng)網(wǎng)絡(luò)模型
對于BP神經(jīng)網(wǎng)絡(luò)模型,隱藏層激活函數(shù)為relu,輸出層激活函數(shù)為sigmoid,選用Adam優(yōu)化器,建立BP神經(jīng)網(wǎng)絡(luò)井漏智能診斷模型,利用網(wǎng)格搜索算法對隱藏層神經(jīng)元數(shù)量、訓(xùn)練迭代輪數(shù)和學(xué)習(xí)率等超參數(shù)進(jìn)行調(diào)整尋優(yōu),參數(shù)設(shè)置及優(yōu)選情況如表3所示。
表3 BP神經(jīng)網(wǎng)絡(luò)模型參數(shù)組合Table 3 Parameter combination of BP neural network model
不同參數(shù)組合下BP神經(jīng)網(wǎng)絡(luò)模型在測試集上的準(zhǔn)確率、漏警率和虛警率如圖6所示,其橫坐標(biāo)為不同參數(shù)組合下的BP神經(jīng)網(wǎng)絡(luò)模型。當(dāng)?shù)?層隱藏層神經(jīng)元數(shù)量為32個、第2層隱藏層神經(jīng)元數(shù)量為16個、訓(xùn)練迭代輪數(shù)為800、學(xué)習(xí)率為0.001時,BP神經(jīng)網(wǎng)絡(luò)模型的效果最佳,其井漏診斷準(zhǔn)確率為88%,漏警率為7%,虛警率為16%。
圖6 BP神經(jīng)網(wǎng)絡(luò)模型在不同參數(shù)組合下的評價指標(biāo)對比Fig.6 Comparison of assessment indicators of BP neural network model with different parameter combinations
3.3.4 邏輯回歸模型
對于邏輯回歸模型,利用網(wǎng)格搜索算法對邏輯回歸模型的優(yōu)化參數(shù)、multi_class、正則化強度的倒數(shù)C和誤差容忍度等參數(shù)進(jìn)行調(diào)整尋優(yōu),模型各超參數(shù)設(shè)置如表4所示。最終基于邏輯回歸算法建立最優(yōu)的井漏智能診斷模型。不同參數(shù)組合下邏輯回歸模型在測試集上的準(zhǔn)確率、漏警率和虛警率如圖7所示。
表4 邏輯回歸模型參數(shù)組合Table 4 Parameter combination of logistic regression model
圖7 邏輯回歸模型在不同參數(shù)組合下的評價指標(biāo)對比Fig.7 Comparison of assessment indicators of logistic regression model with different parameter combinations
其橫坐標(biāo)為不同參數(shù)組合下的邏輯回歸模型。當(dāng)優(yōu)化參數(shù)為Newton-cg、multi-class為ovr、正則化強度的倒數(shù)C為3、誤差容忍度為0.000 1時,邏輯回歸模型的效果最佳,準(zhǔn)確率為70%,漏警率為37%,虛警率為30%。
3.3.5 4種機器學(xué)習(xí)模型對比
將采用最優(yōu)參數(shù)的4種機器學(xué)習(xí)模型在測試集上的表現(xiàn)效果進(jìn)行對比,如圖8所示。在井漏診斷準(zhǔn)確率方面,最優(yōu)的隨機森林模型在測試集上為98%,支持向量機模型為96%,BP神經(jīng)網(wǎng)絡(luò)模型為88%,邏輯回歸模型為70%;在井漏診斷漏警率方面,最優(yōu)的支持向量機模型為2%,隨機森林模型為3%,遠(yuǎn)遠(yuǎn)低于BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型;在井漏診斷虛警率方面,最優(yōu)的隨機森林模型在測試集上虛警率為1%,遠(yuǎn)低于支持向量機、BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型。由此可見,隨機森林模型的井漏診斷效果更好,其在測試集上的泛化能力相對較好,能夠有效地診斷井漏風(fēng)險,且漏警率和虛警率相對較低。
3.3.6 隨機森林適配性及特征重要性分析
隨機森林是用隨機方式建立并包含多個決策樹的分類器。每棵決策樹從所有數(shù)據(jù)和所有特征中有放回地隨機采樣選取特征子集,且特征子集中的特征可隨機組合,每棵決策樹進(jìn)行獨立訓(xùn)練,并將各個樹輸出類別的眾數(shù)定為隨機森林的最終輸出。由于特征采樣的隨機性,大多數(shù)決策樹模型中不含或只含少量異常數(shù)據(jù),導(dǎo)致隨機森林模型對異常值不敏感并具有較強的抗干擾能力,即使存在一些特征遺失,仍可以保持一定的準(zhǔn)確度,且對于不平衡的數(shù)據(jù)集來說隨機森林在一定程度上可以平衡誤差,所以其在井漏診斷的問題上表現(xiàn)較好。
此外,隨機森林模型可以基于基尼指數(shù)計算出輸入特征的重要程度來評價各輸入特征的貢獻(xiàn)大小,7個輸入特征的相對重要性如圖9所示。由圖9可以看出,總池體積、立管壓力、進(jìn)出口流量差、鉆井液密度和大鉤載荷5個特征的相對重要性占比超過80%,表明這5種參數(shù)是隨機森林模型準(zhǔn)確診斷井漏的主控參數(shù)。鉆時和井斜方位角的相對重要性雖然占比不大,但其對隨機森林模型準(zhǔn)確率的提升具有重要作用。
圖9 各輸入特征的重要性Fig.9 Importance of each input characteristics
井漏機理復(fù)雜,影響因素眾多,本文基于國內(nèi)某油田的工程錄井?dāng)?shù)據(jù),利用4種機器學(xué)習(xí)算法建立了不同的井漏智能診斷模型,主要結(jié)論如下:
(1)分析了工程錄井參數(shù)與井漏之間的相關(guān)性,結(jié)合鉆井經(jīng)驗知識優(yōu)選出總池體積、立管壓力、大鉤載荷、鉆時、進(jìn)出口流量差、鉆井液密度和井斜方位角7種特征參數(shù)作為模型輸入。
(2)基于隨機森林、支持向量機、BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸4種算法分別建立了井漏智能診斷模型,其中隨機森林模型的表現(xiàn)效果最好,能夠準(zhǔn)確地識別井漏井段,準(zhǔn)確率為98%,漏警率為3%,虛警率為1%,滿足現(xiàn)場工程需要。
(3)分析了隨機森林模型在解決井漏問題中的優(yōu)點和各輸入特征的相對重要性,結(jié)果表明總池體積、立管壓力、進(jìn)出口流量差、鉆井液密度和大鉤載荷5種特征參數(shù)是隨機森林模型準(zhǔn)確診斷井漏風(fēng)險的主控參數(shù)。