潘 元,王永輝,車明光,廖銳全,鄭 恒
(1.中國石油天然氣集團公司采油采氣重點試驗室 長江大學分室,湖北 武漢430100; 2.長江大學 石油工程學院,湖北 武漢430100; 3.中國石油集團 科學技術研究院,北京 100083)
隨著國內對致密儲層認識的深入,逐漸形成了以水平井多段壓裂為主的開發(fā)方式[1-2],但由于其與常規(guī)儲層的差異,如何準確地預測產量與選取壓裂參數(shù)仍是研究的熱點。致密油層壓后產量預測方法主要分為機器學習法、解析法與數(shù)值模擬法[3-5],但解析法與數(shù)值模擬法存在模型簡化、求解單一、計算成本大等問題。
目前主流的機器學習算法有樹形算法、支持向量機算法、神經網絡算法等[6-11]。對于大多數(shù)機器學習算法而言,確定模型參數(shù)與訓練樣本規(guī)模是精準預測的前提,例如支持向量機算法存在內核參數(shù)、懲罰參數(shù)難以確定等問題;隨機森林算法雖能有效降低泛化誤差,但對于回歸問題其訓練樣本存在數(shù)量多且部分樣本關聯(lián)度低等問題,在某些噪聲過大的數(shù)據點也會發(fā)生過擬合。
因此采用灰色關聯(lián)投影隨機森林兩階段混合算法(GCPRF)[12],通過引入加權的灰色關聯(lián)投影法(GCP)來選擇合適的訓練集訓練隨機森林模型,起到減小數(shù)據集規(guī)模提高模型預測精度的目的。產量預測實例證明,該兩階段混合算法相較隨機森林算法(RF)和梯度提升決策樹算法(GBDT)具有更好的性能;在此基礎上采用響應面分析的方法對壓裂施工參數(shù)進行了優(yōu)化,該方法為致密儲層水平井壓裂參數(shù)優(yōu)化提供了一種新的思路。
灰色關聯(lián)投影方法在灰色關聯(lián)度分析方法的基礎上進行改進,通過引入加權和投影的概念克服了灰色關聯(lián)系數(shù)評價的劣勢。首先使用熵算法突出關鍵因素,其次計算每個因素在參考因素上的投影值,在高緯度空間中識別出哪個樣本與預測樣本更相似。其中,待預測樣本特征向量與第i個樣本的特征向量可表示為
X0=[x0(1),x0(2),x0(3),…,x0(n)];
Xi=[xi(1),xi(2),xi(3),…,xi(n)],
i=1,2,3,…,m。
(1)
灰色關聯(lián)投影方法選擇相似數(shù)據集的過程如下:
(1)選取影響產量的關聯(lián)因素如水平段長度、一類油層鉆遇率、孔隙度、滲透率、含油飽和度、壓裂段數(shù)、裂縫簇數(shù)、總入井液量、加砂量、壓裂液返排率,對數(shù)據進行歸一化預處理,即
(2)
(2)構建灰色關聯(lián)判斷矩陣ε,設置待預測樣本特征向量X0為母序列,Xi為子序列,計算關聯(lián)度
(3)
式中,ρ為分辨系數(shù),這里取0.5。
(3)計算權重向量W與加權后的灰色關聯(lián)判斷矩陣。
計算單個因素對參考數(shù)列影響權重大小,具體方法為當前關聯(lián)值除以所有因素權重值之和,即
(4)
得到的權重向量形式為
W=[w1w2w3…wn]。
(5)
計算權向量加權后的灰色關聯(lián)判斷矩陣,即
(6)
(4)計算各訓練樣本在待預測樣本上的灰色投影值,即
(7)
Di表示各樣本在待預測樣本上的投影值。與常規(guī)的灰色關聯(lián)系數(shù)方法相比,該方法更為全面。
(5)設定一個閾值,從數(shù)據中篩選灰色投影值較大的樣本組成隨機森林算法的訓練集。
隨機森林算法是一種有監(jiān)督的集成學習模型,相較于傳統(tǒng)決策樹模型具有更好的泛化能力,具有抗過擬合、調節(jié)參數(shù)少等優(yōu)勢。隨機森林算法總體來說是將許多棵決策樹整合成森林,并通過多棵決策樹作用得到最終結果。
本算法中隨機森林構建的流程如下:
(1)從數(shù)據集中隨機選出m個樣本,構成一個訓練集A,其余作為測試集B,再從訓練集A中采用自助采樣法進行T次采樣,形成T個采樣集。
(2)對于T個采樣集建立含有T棵回歸樹的隨機森林模型進行訓練,各個模型的節(jié)點參數(shù)可由網格搜索方法進行優(yōu)選得到。靜態(tài)產量預測屬于回歸問題,最終的預測結果可由各決策樹模型的回歸結果之和的平均得到。
常用的回歸模型評價指標有均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)。各指標的大小隨著業(yè)務不同而不同,不具有普遍可讀性,因此采用決定系數(shù)R2(R-Square)方法作為隨機森林的評價指標,即
(8)
式中:Ya為實際值;Yp為預測值;Ym為平均值。
分母部分表示原始數(shù)據的離散程度,分子部分表示預測數(shù)據與原始數(shù)據的誤差,二者相除可以消除原始數(shù)據離散程度的影響。一般來說,R2的取值范圍為[-∞,1],越接近1,表明模型對變量的解釋能力越強,擬合效果越好。
在上述理論的基礎上構建用于產量預測的灰色關聯(lián)投影-隨機森林算法模型,算法流程如圖1所示。
圖1 產量預測算法流程Fig.1 Flow chart of yield prediction algorithm
以新疆瑪湖油田某井區(qū)8口井共2 928條樣本作為初始數(shù)據集,具體參數(shù)包括工藝參數(shù)(水平段長度、壓裂段數(shù)、裂縫簇數(shù)、入井壓裂液量、加砂量等),儲層參數(shù)(平均孔隙度、平均滲透率、含油飽和度等),生產參數(shù)(井口壓力、壓裂液返排率、日產油量等)。
以該井區(qū)M1井為例,水平段長度994 m,一類油層鉆遇率92.28%,平均孔隙度11.56%,平均滲透率3.06×10-3μm2,含油飽和度55.56%,壓裂段數(shù)17,裂縫簇數(shù)33,總入井液量18 565 m3,加砂量1 122 m3。首先根據灰色關聯(lián)投影方法計算各樣本的灰色關聯(lián)投影值,并篩選投影值大于0.9的1 613例樣本作為隨機森林模型的輸入樣本,見圖2,將輸入樣本按70%測試集、30%訓練集進行劃分,其中1 130例作為訓練集,483例作為測試集。
圖2 灰色關聯(lián)投影方法篩選M1井樣本集Fig.2 Screening M1 well sample set by grey relation projection method
隨后采用網格搜索交叉驗證方法對灰色關聯(lián)投影-隨機森林預測模型參數(shù)進行優(yōu)選,圖3中橫坐標為交叉組合編號,縱坐標為得分情況。最終優(yōu)選結果為:決策樹個數(shù)20,決策樹最大深度9,中間節(jié)點、葉子節(jié)點最小樣本數(shù)分別為5、3。
將灰色關聯(lián)投影法篩選后的樣本集帶入訓練好的隨機森林模型進行回歸預測,預測該井生產360 d內日產油隨時間變化規(guī)律。為充分評價模型預測效果,同時采用未篩選的2 928條樣本作為樣本集訓練隨機森林、梯度提升決策樹預測模型,在控制3者訓練集R2相近的情況下計算其測試集R2情況,計算結果如圖4、表1所示。
圖4 M1井不同預測算法日產油量對比Fig.4 Comparison of production of well M1 predicted using different algorithms
從表1計算結果可以看出,經過訓練后3種算法的訓練集R2為0.9~0.92,此時模型擬合效果較好,且3種算法的訓練程度相同,此時隨機森林算法較梯度提升決策樹算法而言與實際曲線更為貼近,且在訓練樣本、訓練程度相同的情況下隨機森林算法測試集R20.857 8高于梯度提升樹算法測試集R20.734 1,這是由于隨機森林算法采用多棵樹進行決策,降低了預測的泛化誤差,同時隨機森林本身的自助采樣方法也增加了決策樹間的不相關性,減少發(fā)生過擬合的風險。
表1 不同預測算法R2值Tab.1 Score of different prediction algorithms
在此基礎上對比灰色關聯(lián)投影隨機森林算法與隨機森林算法預測結果,采用灰色關聯(lián)投影方法篩選樣本集后再使用隨機森林算法預測的兩階段混合算法相較直接預測的隨機森林算法有更好的預測效果,測試集R2得分由0.875 8提高到0.918 9,M1井實際日產油與預測值之間的誤差為9.6%。
為驗證灰色關聯(lián)投影隨機森林算法的可靠性,用訓練好的模型對M2井、M3井進行產能預測,M2井、M3井計算參數(shù)見表2,預測結果見圖5。
表2 M2井、M3井計算參數(shù)Tab.2 Calculation parameters of wells M2 and M3
圖5 M2、M3井日產油量預測值與實際值對比Fig.5 Comparison of forecast and actual production of wells M2 and M3
圖5中M2、M3井實際日產油與預測值之間的誤差為1.2%、1.1%,說明該算法在訓練程度相同的情況下能起到縮小數(shù)據集規(guī)模、提高預測精度的效果。
選取待壓裂井的壓裂施工參數(shù)結合實際情況進行中心組合設計,將灰色關聯(lián)投影隨機森林算法模型預測的不同施工參數(shù)下的產量作為試驗結果,利用響應面分析法選擇預測產量最大值,即可得到產量最大值下對應的施工參數(shù),進而達到優(yōu)化目的。
仍以M1井為例,在確定地質參數(shù)的基礎上,根據中心組合設計方法設計3因素共20組試驗。需要說明的是,為避免試驗設計中出現(xiàn)高段數(shù)低簇數(shù)等不合理的試驗方案,這里只將裂縫簇數(shù)作為影響因素,壓裂段數(shù)隨裂縫簇數(shù)變化(默認單段三簇的壓裂方式),試驗參數(shù)與結果如表3所示。
表3 中心組合設計試驗結果Tab.3 Experiment results of central composite designs
利用試驗結果開展響應面分析,從曲面上找出預測產量最大點,其對應的施工參數(shù)可作為壓裂施工參數(shù)優(yōu)化的依據。以裂縫簇數(shù)、加砂量對日產油影響的響應面(圖6)為例,當總入井液量為21 000
圖6 裂縫簇數(shù)、總砂量對日產油量響應面Fig.6 Effects of crack cluster number and total sand amount on daily oil production
m3時,共有9種解決方法,對應的最優(yōu)解為:裂縫簇數(shù)34,總砂量1 181.86m3,對應日產油為44.356 m3。
(1)利用灰色關聯(lián)投影隨機森林算法對新疆油田某區(qū)塊進行產量預測,結果表明該算法的測試集決定系數(shù)0.918 9高于隨機森林算法0.875 8、梯度下提升決策樹算法0.734 1,3口井的日產油量實際值與計算值之間的誤差為9.6%、1.2%、1.1%。
(2)在確定地質參數(shù)的基礎上,采用中心組合設計試驗方法對M1井壓裂參數(shù)進行優(yōu)化,當總入井液量為21 000 m3時,裂縫簇數(shù)為34、總砂量為1 181.86 m3,此時對應日產油為44.356 m3。