李婧璇
(中國石油大港油田信息中心,天津 300280)
隨著信息化的發(fā)展,石油勘探開發(fā)中逐漸大規(guī)模應(yīng)用計算機網(wǎng)絡(luò)、智能控制和數(shù)據(jù)挖掘等新興技術(shù)來實現(xiàn)高效管理。然而,當前數(shù)字化系統(tǒng)存在信息共享性差、數(shù)據(jù)綜合應(yīng)用率低、報警準確率低等問題。對此,不少石油企業(yè)以數(shù)字油田為基礎(chǔ)逐漸向智能油田建設(shè)方向發(fā)展。其智能決策控制中心通過分析大數(shù)據(jù),實時進行資源合理調(diào)配、異常狀況判斷和生產(chǎn)風險預(yù)警,從而實現(xiàn)油田資產(chǎn)的智能化開發(fā)和管理。油水井生產(chǎn)異常狀況診斷和管理系統(tǒng)是智能油田建設(shè)的一項具體應(yīng)用,主要針對注采井組進行動態(tài)分析。注采井組是以注水井為中心,聯(lián)系周圍的油井和水井共同構(gòu)成的油田開發(fā)基本單元。該系統(tǒng)可以實現(xiàn)井組實時診斷檢測、提出相應(yīng)管理措施、跟蹤進度等功能。
數(shù)據(jù)挖掘指的是從已有數(shù)據(jù)庫大體量、有損壞且具體含義模糊的實際數(shù)據(jù)中進行抽取、轉(zhuǎn)換、分析以及模塊化處理,發(fā)現(xiàn)其中具有潛在價值的可歸納信息的過程。數(shù)據(jù)挖掘過程中需要保證數(shù)據(jù)統(tǒng)計的有效性及準確性。決策樹作為一種預(yù)測模型,代表的是對象屬性與對象值之間的映射關(guān)系。決策樹模型算法簡單,仿真結(jié)果準確率高,易于理解和使用,常用于生產(chǎn)故障預(yù)測和目標追蹤檢測等。本研究以數(shù)據(jù)挖掘技術(shù)中的決策樹模型來構(gòu)建系統(tǒng)的核心診斷算法?;诰M生產(chǎn)中的實時數(shù)據(jù),工作人員可以通過決策樹模型對生產(chǎn)異常狀況作出判斷和管理,還可以對歷史數(shù)據(jù)進行分析,設(shè)置保護設(shè)定值,對各類生產(chǎn)異常相關(guān)的指標進行預(yù)警監(jiān)測。模型性能優(yōu)異,分類精確度高,能夠保障生產(chǎn)穩(wěn)定安全,為油水井生產(chǎn)異常狀況管理提供參考。
油水井生產(chǎn)異常狀況診斷模型屬于分類模型,決策樹算法挖掘出的分類規(guī)則準確性高且易于理解,算法運算速度快。因此,本文選擇使用分類回歸樹(Classification and Regression Tree,CART)決策樹對油水井生產(chǎn)數(shù)據(jù)進行分析,初步建立生產(chǎn)異常狀況診斷模型。CART 決策樹由根節(jié)點、中間節(jié)點和葉節(jié)點構(gòu)成,通過計算基尼系數(shù)增益來確定分割點,采用二元分割法對數(shù)據(jù)進行分類,最終形成分類二叉樹。相較于其他決策樹,CART 決策樹在分析大規(guī)模樣本時不用進行大量的排序運算和對數(shù)運算,運算效率更高。
隨機變量x 對應(yīng)i 種狀態(tài)下的概率為p,p,…,p,使用基尼指數(shù)(Gini index)來選擇最佳的節(jié)點劃分特征?;嶂笖?shù)代表屬性分類的不確定性,值越小,代表不確定性越低。兩點分布的隨機變量x 的基尼指數(shù)為:
式(1)中,Gini 代表基尼指數(shù),p代表樣本屬于i 類別的概率,1-p代表樣本錯誤分類的概率。
對于訓(xùn)練數(shù)據(jù)集A,假設(shè)有j 個類別,而C代表第j 類樣本的子集,|A|為A 的大小,|C|為C的大小,則集合A 的基尼指數(shù)為:
假設(shè)數(shù)據(jù)集A 被特征L 劃分,若L 是離散型,則由L 的某個可能值l 將A 劃分為A、A:
若L 為連續(xù)型,則可以得到Gini(A,L):
A、A表示數(shù)據(jù)集A 被特征屬性L 的最佳分割點分割后的兩部分,|A|、|A|分別表示A、A中樣本的個數(shù)。Gini(A,L)取值越大,樣本數(shù)據(jù)集被標簽劃分的不確定性就越高,因此,對于CART 決策樹,可以選擇Gini(A,L)的最小值作為最佳分割點。
本文引入提升算法提升決策樹分類精度,在初步構(gòu)建完成CART 決策樹后改變樣本權(quán)重,構(gòu)建新的訓(xùn)練集得到一系列弱分類二叉樹{T,T,T,…,T},將其進行加性組合,最終得到一個更加穩(wěn)定高效的強分類二叉樹F。
第n 個弱分類器的誤差率E為:
式(5)中,W表示第n 個弱分類器、第m 個樣本的權(quán)重;T(m)表示數(shù)據(jù)集A 的第m 個樣本經(jīng)弱分類器T分類后得到的值;y表示樣本真實值;I 為指示函數(shù),取值為0 或1;N 為樣本集A 的樣本個數(shù)。當預(yù)測值T(m)=真實值y時為0,當預(yù)測值T(m)≠真實值y時為1。
分類器加性組合系數(shù)α為:
權(quán)重W為:
規(guī)范因子Z為:
最終的強分類器函數(shù)表達式為:
F對數(shù)據(jù)集的誤分類次數(shù)達到最低值時,新的弱分類器即停止構(gòu)建。
本文所使用的原始數(shù)據(jù)來源于某油田注采井組施工現(xiàn)場各底層傳感器采集的生產(chǎn)動態(tài)資料,具體包括產(chǎn)能資料、壓力資料、水淹狀況資料、原油和水的物性資料以及井下作業(yè)資料等。
將原始數(shù)據(jù)按照生產(chǎn)時間保存日志文件,通過編程進行解析。對解析后得到的數(shù)據(jù)中重復(fù)、缺失和有明顯錯誤的數(shù)據(jù)分別采取合并、臨近數(shù)值補全和直接舍棄的措施進行初步處理。從不同時間段隨機抽取2020—2021 年生產(chǎn)正常時的數(shù)據(jù)4 500 組,等概率抽取2020—2021 年生產(chǎn)異常時的數(shù)據(jù)3 500 組共同組成數(shù)據(jù)集A。將數(shù)據(jù)集中的正常數(shù)據(jù)和異常數(shù)據(jù)進行隨機混合,將其中的5 000 組數(shù)據(jù)作為訓(xùn)練集,剩下的3 000 組數(shù)據(jù)作為測試集。利用CART 決策樹模型對訓(xùn)練集進行訓(xùn)練。
油水井生產(chǎn)異常狀況可以細化為決策樹深度為9的二叉樹,且在輸入因素中,電網(wǎng)波動、電潛泵控制柜故障、地層壓力、含水變化、原油相對密度黏度和施工單位規(guī)模這6 個因素集中在決策樹中的前3 層,表明這些因素對油水井生產(chǎn)影響較大。為了進一步清晰地展示油水井生產(chǎn)異常狀況的具體分類預(yù)測情況,本文根據(jù)決策樹細化了生產(chǎn)異常因素分類規(guī)則及其樣本分布,部分樣本數(shù)量較多的分類情況如表1 所示。
表1 部分油水井生產(chǎn)異常狀況的分類規(guī)則及樣本分布情況
學(xué)習率是機器學(xué)習中重要的超參數(shù),合適的學(xué)習率能夠使模型在一定時間內(nèi)收斂到局部最小值,達到最優(yōu)性能。根據(jù)實驗結(jié)果,本文繪制了強分類器分類精確度與學(xué)習率關(guān)系曲線以及受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC 曲線),具體如圖1 所示。
圖1 強分類器ROC 曲線及精確度與學(xué)習率關(guān)系曲線
理論上,學(xué)習率的取值也會影響強分類器分類精度,但在實際測試中,學(xué)習率變化對分類精度的影響較小。圖1 中可以看出在學(xué)習率為[0,0.1]時,分類器處于欠擬合狀態(tài);學(xué)習率大于0.1 后,分類精度逐漸增高后降低;當學(xué)習率取0.8 時精度最大,為87%,此時ROC 曲線如圖1 所示。ROC 曲線中越靠近圖1 左上角,模型預(yù)測結(jié)果越準確,曲線下面積(Area Under Curve,AUC)約為0.90,表明該模型性能優(yōu)異。
對油水井生產(chǎn)異常狀況進行診斷和管理能夠有效穩(wěn)定原油產(chǎn)量,保障生產(chǎn)工人的生命財產(chǎn)安全。模型仿真形成的決策樹可以對生產(chǎn)異常狀況輸入因素進行分類,直觀顯示出影響油水井生產(chǎn)的不同因素及其比重。模型學(xué)習率變化對分類精度的影響較小,ROC 曲線下面積基本大于0.90,表明模型性能優(yōu)異,可為油水井生產(chǎn)異常狀況管理提供參考。但是,模型僅對生產(chǎn)異常狀況進行了初步分類,對于油水井生產(chǎn)異常情況的管理依然需要人工操作,還需針對異常管理進行智能化改進。