何佑偉 賀質越 湯勇 秦佳正 宋俊杰 汪勇
西南石油大學油氣藏地質及開發(fā)工程國家重點實驗室
常規(guī)儲層天然氣產量已不能滿足市場需求,全球頁巖氣藏已成為非常規(guī)天然氣勘探開發(fā)的重要領域。中國頁巖氣資源量豐富,在國家產業(yè)政策的指導和支持下,該產業(yè)快速發(fā)展。截至2020年2月,長寧、威遠和昭通頁巖氣示范區(qū)塊已累計提交探明儲量10 610×108m3,累產頁巖氣超200×108m3[1]。加大頁巖氣開發(fā)和利用對保障能源安全,改善能源結構,減少環(huán)境污染,建設清潔低碳、安全高效的能源體系具有十分重要的戰(zhàn)略意義。
頁巖氣藏孔隙度和滲透率極低,單井一般無自然產能或自然產能低于工業(yè)氣流下限,需要采用水平井和水力壓裂改造技術進行開發(fā),形成天然裂縫和壓裂裂縫相互連通的復雜裂縫網絡,提高氣體在儲層中的滲流能力[2-4]。但壓裂后縫網關系復雜、裂縫動態(tài)變化、多井平臺中井間壓竄現象顯著、氣-水-壓裂液多相流動規(guī)律復雜,導致頁巖氣井產量難以預測,致使后續(xù)開發(fā)方案設計與調整缺乏科學依據。高效、準確地評價與預測頁巖氣井產量對于提高頁巖氣資源開發(fā)效果至關重要。
國內外學者采用經驗公式、解析方法及數值方法開展了大量頁巖氣產量預測方面的研究。其中,經驗公式及解析模型難以考慮頁巖氣藏復雜滲流特征,不同模型的適用條件及適用階段都各有不同,導致預測結果與實際相差較大[5-6];基于數值模型的產量預測方法對實際儲層特征進行了簡化,包括對復雜動態(tài)縫網刻畫不夠精確、未考慮井組壓竄干擾特征等[7-10],且頁巖氣井組縫網數值模型計算量較大,歷史擬合難度大,產量預測效率較低,結果不確定性高,故現場推廣性一般。因此,需借助新方法開展頁巖氣井產量預測研究。
機器學習是一種多領域交叉學科,其理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題[11],包括在石油與天然氣領域[12-18]。劉巍等[19]根據實際油藏靜態(tài)資料和開發(fā)動態(tài)資料,使用機器學習方法實現油井日產油量預測;辛欣等[20]基于機器學習方法構建水合物降壓開采傳熱—流動—力學數值模擬模型及可以替代數值模擬模型的機器學習模型,找到了累計產氣量最優(yōu)值與地層穩(wěn)定性的關系。在頁巖氣產能預測方面,Gong等[21]及Yu等[22]針對頁巖氣產量預測中的不確定性問題進行了研究;馬文禮等[23]提出了一種基于機器學習的頁巖氣產能非確定性預測方法;李菊花等[24]通過對儲層物性和壓裂施工參數分析,引入隨機森林算法對頁巖氣壓裂水平井產量進行預測,并指出測深、垂深、延伸壓力、脆性指數、密度測井值和總液量是多段壓裂井產量的主要影響因素;嚴子銘等[25]基于涪陵頁巖氣藏水平井的現場數據,分別采用深度神經網絡、支持向量回歸以及極限梯度爬升等3種機器學習方法,建立了從儲層和施工參數到采收率的預測模型,分析了各類模型的優(yōu)缺點,以及相關參數的重要性。目前,基于機器學習方法的頁巖氣井產量預測多以部分因素(地質因素或壓裂因素等)為基礎進行研究,指標體系不完善,結果可靠性有待進一步驗證。
鑒于產量評價及預測需要全面考慮頁巖氣地質、鉆井、壓裂、生產等多方面因素,并精細處理地質及工程數據,筆者利用機器學習方法進行頁巖氣井產量評價及預測研究。首先對初始數據進行缺失值分析,利用多重插補法對缺失值進行插補。之后運用皮爾遜相關系數法對各類數據進行相關性分析,利用分析結果對數據進行異常值處理。由于因素數量較多,使用主成分分析對其進行降維處理,基于最終降維的結果進行頁巖氣井產量的聚類分析,并劃分A區(qū)塊頁巖氣井產量等級,最后采用隨機森林方法對頁巖氣井產量進行預測。
加利福尼亞數學教授Breiman于2001年完善并推廣了隨機森林這一經典機器學習模型[26],其所擁有的出色性能以及解決問題領域的寬泛性已經得到了學術界的廣泛認可。隨機森林作為一個集成評估器,其基評估器是決策樹[27]。對于決策樹模型,其回歸、分類的能力有限,存在過擬合風險[28],數據微小波動可能導致結果出現較大偏差,因此使用集成算法(隨機森林)來解決上述問題。集成算法綜合考慮多評估器建模結果,以此獲取相較于單評估器更好的回歸或分類表現。隨機森林是由多個決策樹組成的集成評估器,其原理見圖1。
圖1 隨機森林原理示意圖Fig. 1 Schematic principle of random forest
首先進行數據處理,使用的數據類型全為連續(xù)型,數據質量需要進行相關性分析。觀察原始數據發(fā)現缺失值較多,需要插補。插補過后需要進行異常值分析,處理異常值。此次所用數據的特征較多(表1),若將全部特征放入模型進行訓練,將大幅增加模型復雜程度及計算量,因此通過主成分分析將可能存在相關性的特征變?yōu)榫€性不相關的特征,來對數據進行降維以提高模型計算效率,轉換后的特征稱為主成分。
表1 A區(qū)塊頁巖氣井產量影響因素Table 1 Factors influencing the production rates of shale gas wells in A Block
對原始數據進行分析,結果表明缺失數據高達34.61%,因此不建議采用眾數與平均數替換方法插補缺失值。筆者采用多重插補法對缺失值進行插補:基于除缺失值外的變量建立線性模型,以此預測要填補的數據。對插補后的數據進行分析,未出現明顯異常值,因此多重插補結果可信度較高,但仍需進一步進行異常值檢測來檢查插補數據的質量。
現場數據量大且復雜程度高,因此存在一定的誤差。明顯異常的數據(如數量級異常)易于分辨,而對于不明顯的異常,人工篩選效果較差。在異常值處理中可以選用的方法有很多,例如:箱型法、馬氏距離法、庫克距離法等。最簡單的是箱型法,其可判斷單個因素中的異常值,但對于多個因素相關性較強的情況而言,箱型法得出結論較片面。在進行異常值判斷時,需找到不同因素彼此之間的關聯:對于獨立性較強的因素(如主壓裂液量)采用箱型法篩選異常值,對于與其他因素相關性較高的因素(如返排率)采用馬氏距離法來篩選異常值。
在異常值處理后,采用皮爾遜相關系數法對連續(xù)數據進行分析(圖2),結果表明大多數變量間的相關性是正常的(如壓裂段數、射孔簇數及改造體積等),部分相關性存在異常,例如:總有機碳含量、脆性指數與平均累產氣量為負相關,表明該特征對應的數據不合理,因此需要進一步處理數據,刪除相關性異常的因素。
圖2 皮爾遜相關系數法分析結果Fig. 2 Analysis result of Pearson correlation coefficient method
將與平均累產氣相關性較弱的因素剔除,在確保數據量充足的前提下提高計算效率,篩選后的與累產氣相關的備選因素剩余15個:壓裂段數、射孔簇數、改造體積、水平段長、壓裂段長、入地液量、入地砂量、滲透率、孔隙度、總含氣量、最小水平主應力、脆性礦物、黏土礦物、井間干擾影響比例、井間干擾恢復比例。分別確定上述15個因素對應的相關因素,結果見表2。
表2 各備選因素對應的相關因素Table 2 Correlation factors corresponding to different candidate factors
除最小水平主應力外,其余備選因素皆有與其相關的因素,因此選用箱型法篩選最小水平主應力異常值,馬氏距離法篩選其余因素異常值,篩選結果見表3。除最小水平主應力存在2個異常值,其余插補后的數據均未見異常值。并且最小水平主應力異常值數量很少,可刪除。
表3 異常值篩選結果Table 3 Outlier selecting result
在聚類分析時若使用全部因素進行分析,那么數據噪聲過大,若直接刪除與累產量相關性較差的因素,可能損失部分有用信息。針對異常值處理及相關性分析后得到的15個備用因素進行主成分分析,對數據進行降維,以此提取得到由備用因素組合形成的影響因子,最終選定其中5個特征值大于1的變量。計算得到影響因子與備選因素之間的相關性矩陣見表4。
表4 影響因子與備選因素對應系數矩陣Table 4 Corresponding coefficient matrix of influential factors and candidate factors
利用k均值聚類法對樣本進行分析(表5),優(yōu)等井、中等井、劣等井分別占比36.4%、37.8%、25.8%,其中優(yōu)等井、劣等井的聚類中心差值絕對值最大的為Y1影響因子,因此其對A區(qū)塊頁巖氣藏產量評價結果影響最大,Y1影響因子的主控因素為壓裂因素(壓裂段長、壓裂段數、射孔簇數、入地液量),在壓裂因素中占比最大的為壓裂段長。
表5 聚類分析結果Table 5 Cluster analysis result
基于Python語言,采用隨機森林算法對A區(qū)塊頁巖氣井進行產量預測。由于不同評價指標往往具有不同量綱,各指標之間可比性較差,因此首先將數據歸一化,以進行綜合對比評價。歸一化使預處理數據被限定在[0,1]之內,讓數量級較小的指標也具有“發(fā)言權”。隨后確定數據標簽及特征(標簽為平均累產氣,特征為其余14個因素),并隨機劃分訓練集和測試集,以避免偶然性。最后將隨機森林回歸器實例化,通過交叉驗證觀察模型穩(wěn)定性:將數據劃分為10份,依次使用其中1份作為測試集,其他作為訓練集,通過多次計算檢驗模型精確度及泛化性,交叉驗證得到均方誤差(MSE)為0.083 5。為進一步檢查模型的準確度,隨機生成測試集放入模型進行預測,4口井預測結果的均方誤差(MSE)為0.014 2,預測準確率為89.32%。
對隨機森林模型調參,首先調整最優(yōu)隨機狀態(tài)值,繪制學習曲線,選出最優(yōu)隨機狀態(tài)值為30。固定隨機狀態(tài)值,針對樹模型數量繪制學習曲線,尋找最優(yōu)樹模型數量。以此類推,遍歷各變量尋找最優(yōu)參數,包括:樹模型數量、樹最大深度、分枝時考慮最大特征數、葉子節(jié)點最少樣本數,中間節(jié)點分枝所需最小樣本數。結果表明在對中間節(jié)點分枝所需最小樣本數進行調參時,模型準確度不增反降,認為此時模型達到最優(yōu),此時調參后模型交叉驗證結果MSE為0.055 7,最優(yōu)參數見表6。
表6 調參結果Table 6 Parameter adjustment result
調參后模型相較于未調參模型MSE下降了0.027 8,模型準確率提高了33.29%,可見模型調參效果明顯。隨機選取的4口井預測結果準確率達98.05%(圖3),表明本文建立的基于隨機森林的頁巖氣井產量預測模型具有較高應用價值。
圖3 模型預測結果Fig. 3 Model prediction result
(1)提出了一種基于機器學習的頁巖氣井產量評價與預測方法。運用了較完整的數據處理方法,使用多重插補法對缺失數據進行插補,應用相關性分析得到平均累積產氣量以及其他因素之間的相關性,篩選出15個備選因素。
(2)針對異常值處理及相關性分析后得到的15個備選因素進行主成分分析,對數據進行降維,最終采用主成分分析法對特征進行降維,以此在保證數據不失真的前提下獲取更高的計算效率。
(3)采用聚類分析方法對A區(qū)塊頁巖氣井產量進行了評價,劃分出優(yōu)等井、中等井、劣等井3個等級,并對每口頁巖氣井進行等級劃分。結果表明壓裂因素是對A區(qū)塊頁巖氣井產量影響最大的因素,其中壓裂段長起主要作用,因此為提高產量未來在壓裂過程中可著重對壓裂段長進行優(yōu)化設計。
(4)應用隨機森林方法對A區(qū)塊頁巖氣井進行產量預測,逐步對模型進行調參,得到最優(yōu)模型,并運用最優(yōu)模型進行產能預測。結果顯示調參后的模型相較于未調參模型均方誤差MSE下降了0.027 8,準確率提高33.29%,可見模型調參效果明顯,預測準確率達90%以上,證明本文建立的預測模型具有較強實用性。