鄧正強 蘭太華 林陽升 何濤 黃平 羅宇峰 王君 謝顯濤
中國石油集團川慶鉆探工程有限公司鉆井液技術服務公司
川渝地區(qū)是中國石油“十三五”提量上產的主要區(qū)塊,也是川慶鉆探重要的作業(yè)區(qū)域[1-3]。地質特征及已鉆井情況表明川渝地區(qū)地層疏松、裂縫發(fā)育,鉆井過程中漏失嚴重。地層漏失的隨機性、影響因素的多重性、漏失機理的不確定性,使得該區(qū)域防漏堵漏效果不佳,一次成功率低,甚至誘發(fā)其他井下復雜及事故。井漏造成的經濟損失、時間損失居高不下,嚴重影響著川渝地區(qū)勘探開發(fā)的進程。因對漏失通道性質認識不清,井漏治理主要以經驗為主,部分井需多次調整堵漏配方才堵漏成功,堵漏成功率低。為此引入大數(shù)據(jù)/人工智能技術賦能鉆井工程,對漏失特征、裂縫性質進行大數(shù)據(jù)診斷,智能化地提高防漏堵漏效果。通過數(shù)據(jù)挖掘可確定并輸出漏層位置、裂縫開度、漏失類型、漏失壓力、安全密度窗口、堵漏措施的有效性,并分析各因素對漏失的影響程度、相互關系,得到漏失機理及特性,對漏失進行診斷與預測[4-8]。
在井漏及堵漏領域,裂縫寬度的判斷以經驗法為主。由于井史數(shù)據(jù)具有數(shù)據(jù)量大、噪點較多、數(shù)據(jù)分散的特點,因此選用神經網絡、決策樹、隨機森林及支持向量機等4種算法對井史數(shù)據(jù)進行分析,分別計算了4種算法預測漏層位置并進行線性擬合,漏層位置預測值的線性擬合結果如圖1所示。4種機器學習模型對訓練和測試數(shù)據(jù)集進行模型性能評估的結果見表1。
圖1 4種算法預測漏層位置擬合圖Fig. 1 Fitting map of thief zone position predicted by 4 algorithms
表1 各類漏層位置預測模型性能評估Table 1 Performance evaluation of different thief zone position prediction models
從圖1可看出,隨機森林模型和支持向量機模型在預測漏層位置時收斂性更高,擬合直線斜率更接近正比例函數(shù),并且截距更小。從表1可知,神經網絡模型和支持向量機模型在漏層位置預測時具有更高的精確度和匹配度,雖然支持向量機的擬合直線斜率(k=0.974 9)更接近正比例函數(shù),并且截距更接近0(d=33.211),但是根據(jù)RMSE指數(shù)可以推斷出,神經網絡模型的穩(wěn)定性反而高于支持向量機,之所以神經網絡模型的擬合直線斜率(k=0.946 7)表現(xiàn)得不如支持向量機模型,只是因為后者更偏向于兩邊犯錯,因此擬合直線比較接近正比例函數(shù)。因此最終選擇神經網絡模型對漏層位置進行預測。
使用Python語言編寫小程序從上述平臺或電子文檔中共采集了240口井、2 796張EXCEL數(shù)據(jù)表或其他類型數(shù)據(jù)表、210萬條數(shù)據(jù)、1162個漏點,數(shù)據(jù)容量大約為2.4 GB。因為有部分井數(shù)據(jù)項目缺失,按照主要相關數(shù)據(jù)統(tǒng)計分析,總有效率65.8%。
由于采集到的數(shù)據(jù)類型各異,包含EXCEL、WORD和其他格式數(shù)據(jù)文件,數(shù)量非常大,本項目使用Python語言開發(fā)數(shù)據(jù)轉換軟件將每口井對應的數(shù)據(jù)轉換并遷移(導入)到數(shù)據(jù)庫系統(tǒng)中(MYSQL),共形成類型相同的140余萬條數(shù)據(jù)庫記錄用于后續(xù)分析使用。
上述數(shù)據(jù)收集并遷移到數(shù)據(jù)庫后,經數(shù)據(jù)探索分析發(fā)現(xiàn)原始數(shù)據(jù)存在缺失和不一致性,不能直接用于數(shù)據(jù)挖掘和預測,必須對其進行清洗后才能使用[9-11]。為了消除輸入數(shù)據(jù)之間的相互影響,調用Python中的Pandas模塊對鉆井數(shù)據(jù)實施歸一化處理,將9個輸入參數(shù)轉化在[?1,1]之間。歸一化函數(shù)的數(shù)學公式為
式中,Xi與xi分別代表規(guī)范化后和規(guī)范化前的數(shù)值;ximax和ximin分別表示規(guī)范化前最大與最小數(shù)值。具體處理的流程如圖2所示。
圖2 數(shù)據(jù)規(guī)范化流程圖Fig. 2 Flow chart of data normalization
從一體化平臺取得的鉆井數(shù)據(jù)具體包括巖性(YX)、100轉讀數(shù)(DS100)、鉆頭型號(ZTXH)、井徑擴大率(JJKDL)、鉆速(ZS)、鉆頭尺寸(ZTCC)、3轉讀數(shù)(DS3)、當量密度(DLMD)、平均井徑(PJJJ)、入口流量(RKLL)、300轉讀數(shù)(DS300)、600轉讀數(shù)(DS600)、轉速(ZS1)、鉆壓(ZY)、漏斗黏度(LDND)、層位(CW)、扭矩(NJ)、入口密度(RKMD)、鉆井液類型(ZJJLX)、出口密度(CKMD)、泵壓(BY1)、鉆井液密度(ZJJMD)等22個參數(shù),加上必定和井漏相關的井深共23個輸入參數(shù)。其中部分參數(shù)包含的井漏信息較少,對井漏的影響微乎其微。將這種參數(shù)輸入模型不僅會使網絡冗余,降低學習速度和效率,甚至還會影響其他輸入參數(shù),導致重要參數(shù)被淹沒[12-14]。因此,尋找與井漏解相關的最佳有效變量集是非常必要的。
采用相關系數(shù)法分析相關性。采用IBM公司的數(shù)據(jù)統(tǒng)計軟件SPSS對22個參數(shù)與鉆井漏失進行相關系數(shù)測試,并通過相關系數(shù)絕對值的大小確定變量的重要性,以選擇建立模型的最佳相關預測因子,結果如圖3所示。
圖3 數(shù)據(jù)挖掘模型參數(shù)的相關性分析Fig. 3 Correlation analysis on the parameters of data mining model
由圖3可以看出,在研究的22個變量中,排除掉2個常數(shù)或接近常數(shù)的變量(平均井徑PJJJ和當量密度DLMD),其余20個變量被確定是預測井漏解的輸入參數(shù)。這些變量的范圍是非常重要的因素,數(shù)據(jù)挖掘模型輸入參數(shù)中缺失了任何一種都可能會導致最終產生的井漏解決方案不可靠。
以川渝地區(qū)240口井的井史詳細數(shù)據(jù)為基礎,研究這些數(shù)據(jù)與井漏之間的關系。首先,利用基于大數(shù)據(jù)的機器學習技術提取井史數(shù)據(jù)中的有用信息,并按照一定的規(guī)則對這些信息進行特征化處理,進而得到可以進行數(shù)據(jù)挖掘的數(shù)據(jù)集合;其次,將此數(shù)據(jù)集代入相應的機器學習算法中進行學習,生成對應的學習模型;最后,對該學習模型進行評估,看模型準確率是否符合要求,如果不符合則對數(shù)據(jù)挖掘數(shù)據(jù)集重新進行特征化處理,如果符合要求則保存該學習模型。具體步驟如圖4所示。
圖4 數(shù)據(jù)挖掘模型構建步驟Fig. 4 Building procedure of data mining model
數(shù)據(jù)庫中存在很多以漢字或英文描述的信息,如巖性、層位、鉆頭類型、鉆井液類型等,這類文字信息無法直接進行數(shù)據(jù)挖掘,需要進一步處理將其數(shù)字化。由于類別之間是無序的,不能采用自然序數(shù)編碼,為了解決此類問題,采用了獨熱編碼(One-Hot Encoding)技術[15-17]。其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼,每個狀態(tài)都有其獨立的寄存器位,并且在任意時候,其中只有一位有效。經過獨熱編碼后,無序的漢字或英文信息轉化為有序的數(shù)字,為數(shù)據(jù)挖掘奠定了基礎。
如果能通過區(qū)塊井史數(shù)據(jù)分析,將漏前相關參數(shù)(如鉆壓、巖性等)發(fā)生了類似變化的井漏傾向相似井段都歸并到相同類別中,那么會對同一類井段的井漏傾向風險預測預警提供很好的判據(jù)。所以,數(shù)據(jù)挖掘領域中的聚類分析對于防漏堵漏輔助決策的智能推薦服務具有重要意義[18-20]。文本型參數(shù)經數(shù)字化處理后,進一步采用K-mean算法對相似井段進行聚類分析。
經過聚類分析后,有相似井漏傾向的井段被歸并到一個類別中,這個井段類別所關聯(lián)的井漏傾向也就成為提供智能預測預警的初始依據(jù)。即,某一井段如果有相關參數(shù)發(fā)生了類似的變化,則這一井段就有很大可能發(fā)生和類內井段相同的井漏傾向事件,但這需要進一步利用關聯(lián)規(guī)則數(shù)據(jù)挖掘算法去實現(xiàn)。
Apriori算法是關聯(lián)規(guī)則挖掘的常用方法,但其形成的關聯(lián)規(guī)則很多是冗余的,并且需要執(zhí)行的掃描次數(shù)也比較多。為此,在傳統(tǒng)的Apriori算法的基礎上進行了改進,流程如圖5所示。
圖5 關聯(lián)規(guī)則改進算法Fig. 5 Improved association rules algorithm
依據(jù)上文提出的聚類分析、關聯(lián)規(guī)則挖掘等數(shù)據(jù)挖掘算法,調用數(shù)據(jù)庫數(shù)據(jù),構建了防漏堵漏智能輔助決策平臺。其功能模塊包括:控制臺模塊、權限管理模塊、數(shù)據(jù)導入模塊、數(shù)據(jù)預處理模塊、井漏風險預測模塊及漏層位置預測模塊。
防漏堵漏智能輔助決策平臺可以在用戶登錄之后針對平臺內不同區(qū)塊的鉆井數(shù)據(jù)進行檢索查看服務,并提供部分數(shù)據(jù)統(tǒng)計功能,幫助工程師更加直觀地看到鉆井數(shù)據(jù)中的可用信息。智能決策平臺可以與一體化平臺實現(xiàn)跨平臺連接,既可以根據(jù)用戶設置自動導入實時鉆井數(shù)據(jù),也可以手動導入一些平臺以外的新數(shù)據(jù)。
防漏堵漏智能輔助決策平臺提供了包括神經網絡、K近鄰、隨機森林在內的多種數(shù)據(jù)挖掘算法,用戶既可以根據(jù)區(qū)塊規(guī)律、算法特征來自行選擇,也可以通過平臺推薦來選擇最優(yōu)模型。
使用軟件對已完鉆井和正鉆井進行堵漏方案推送驗證,結果見表2、表3,其中符合率指軟件推送的配方與實際堵漏配方的匹配程度。
表2 已完鉆井進行堵漏方案推送驗證Table 2 Recommendation and verification of lost circulation control scheme of drilled well
表3 正鉆井進行堵漏方案推送驗證Table 3 Recommendation and verification of lost circulation control scheme of being drilled well
以MX023-H1井為例。該井鄰井用密度2.17~2.24 g/cm3鉆井液在峨眉山玄武巖段精細控壓鉆進,多次出現(xiàn)氣侵、井漏,累計漏失鉆井液189 m3。本井用密度2.35 g/cm3鉆井液鉆至峨眉山玄武巖前,軟件提示本井此段發(fā)生漏失概率為80%,應做好相應預防措施。
MX023-H1井00:33取心鉆進至5 354.38 m見井漏,漏失鉆井液0.2 m3;至00:52割心上提鉆具至5 345.27 m,循環(huán)觀察,泵壓13.6~19.8 MPa、排量320 L/min,實測最大漏速9.0 m3/h、最小漏速3.0 m3/h、平均漏速6.0 m3/h,漏失鉆井液2.5 m3;至07:00降排量循環(huán),泵壓3.2~11.8 MPa、排量58~219 L/min,漏失3.7 m3;至07:20提排量循環(huán),泵壓13.6~19.8 MPa、排量180~270 L/min (排量234 L/min時漏速9.0 m3/h、排量156 L/min時漏速6.0 m3/h)漏失鉆井液3.0 m3;至08:00降排量循環(huán),泵壓6.5 MPa、排量78 L/min,漏失1.3 m3。MX023-H1井發(fā)生漏失時,根據(jù)現(xiàn)場漏失實時參數(shù),軟件推送出堵漏方式及堵漏配方供現(xiàn)場參考。
軟件推薦堵漏方案:采用橋塞堵漏方式,配制密度2.05 g/cm3、濃度15%的堵漏漿20 m3,配方:3%~6%隨堵+6%~10%剛性粒子+5%~8%片狀材料+5%~8%橋塞材料;現(xiàn)場施工人員參考軟件給出的堵漏配方確定實際堵漏配方:3%隨鉆+7%剛性粒子+4%片狀材料+4%橋塞材料,符合率60%。
從表2、3可知,對已完鉆井進行堵漏方案推送驗證符合率達60%,對正鉆井進行堵漏方案推送符合率50%,其中N209H36-10、N216H5-4井符合率低于50%的主要原因是數(shù)據(jù)庫內容不夠豐富,隨著學習樣本的增加,符合率會逐步提高。該軟件在頁巖氣、高磨區(qū)塊累計現(xiàn)場試驗17井次,一次堵漏成功率達52.9%,較未使用軟件時的一次堵漏成功率39.1%提高了13.8個百分點,現(xiàn)場應用效果良好。
(1)基于大數(shù)據(jù)構建的防漏堵漏智能輔助決策平臺推送的堵漏方案對實際堵漏方案制定具有一定的指導性,可提高一次堵漏成功率百分比。
(2)神經網絡、決策樹、.隨機森林、支持向量機4種算法中,選擇神經網絡模型對漏層位置進行預測,穩(wěn)定性最好。
(3)智能防漏堵漏輔助決策平臺先采用聚類分析方法對樣本數(shù)據(jù)進行聚類,再通過關聯(lián)分析的方法分析聚類簇中樣本的因素,實現(xiàn)了聚類+關聯(lián)規(guī)則預測井漏風險及堵漏方案推送。