孟雅蕾 賀姍 關(guān)曉琳
摘要:氣井產(chǎn)量評(píng)價(jià)預(yù)測(cè)對(duì)氣田高效開發(fā)具有重要意義。由于不同氣井儲(chǔ)層物性及生產(chǎn)特征存在較大差異,因此開發(fā)策略急需改善。針對(duì)這一問題,文章提出了一種基于機(jī)器學(xué)習(xí)的氣井產(chǎn)量預(yù)測(cè)方法。首先,通過對(duì)特征參數(shù)進(jìn)行皮爾遜相關(guān)分析,篩選出用于氣井產(chǎn)量預(yù)測(cè)的12種儲(chǔ)層特征。然后,采用改進(jìn)的ID3算法建立基學(xué)習(xí)器,并采用隨機(jī)森林算法對(duì)基學(xué)習(xí)器進(jìn)行優(yōu)化組合。其次,利用訓(xùn)練集數(shù)據(jù)完成模型訓(xùn)練并調(diào)整參數(shù)。最后,對(duì)相關(guān)區(qū)塊的儲(chǔ)層進(jìn)行氣井產(chǎn)量預(yù)測(cè)。研究結(jié)果表明,文章提出的氣井產(chǎn)量預(yù)測(cè)方法預(yù)測(cè)結(jié)果良好,準(zhǔn)確率為95.3%。該預(yù)測(cè)方法提高了氣井產(chǎn)量預(yù)測(cè)的實(shí)效性,降低了人為判斷的主觀性,對(duì)氣田產(chǎn)量預(yù)測(cè)和開發(fā)策略的制訂具有一定的指導(dǎo)意義。
關(guān)鍵詞:氣井產(chǎn)量;儲(chǔ)層特征;隨機(jī)森林;決策樹;ID3
中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)09-0119-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
全球非常規(guī)油氣資源量占油氣總儲(chǔ)量的 80%,非常規(guī)天然氣資源的勘探、開發(fā)、投產(chǎn)在我國(guó)能源安全中發(fā)揮著重要作用[1-2]。中國(guó)非常規(guī)天然氣資源儲(chǔ)量大,但儲(chǔ)層物性差、單井產(chǎn)量低,且天然氣儲(chǔ)層非均質(zhì)性強(qiáng),同一區(qū)域內(nèi)氣井生產(chǎn)特征和生產(chǎn)效果參差不齊[3-4]。因此,對(duì)氣井進(jìn)行合理、精準(zhǔn)、高效的分類預(yù)測(cè),有利于制訂合理開發(fā)措施,降低勘探開發(fā)成本,提高氣田收益。
本文通過特征參數(shù)的皮爾遜相關(guān)分析,篩選出用于氣井產(chǎn)量預(yù)測(cè)的12種儲(chǔ)層特征;然后,采用改進(jìn)的ID3算法建立基學(xué)習(xí)器,并采用隨機(jī)森林算法對(duì)基學(xué)習(xí)器進(jìn)行組合;其次,采用訓(xùn)練集數(shù)據(jù)完成模型訓(xùn)練并調(diào)整參數(shù);最后,對(duì)相關(guān)區(qū)塊進(jìn)行氣井產(chǎn)量預(yù)測(cè)。
研究結(jié)果表明,本文提出的氣井產(chǎn)量預(yù)測(cè)方法預(yù)測(cè)結(jié)果良好,準(zhǔn)確率為95.3%。該研究提高了氣井產(chǎn)量預(yù)測(cè)的實(shí)效性,降低了人為判斷的主觀性,對(duì)氣田產(chǎn)量預(yù)測(cè)和開發(fā)策略的制訂具有一定的指導(dǎo)意義。
1 儲(chǔ)層相關(guān)因素分析
1.1 儲(chǔ)層特征
儲(chǔ)層的特征包括了儲(chǔ)層的物性、巖性、含油性、含氣性等方面的特征,這也是儲(chǔ)層預(yù)測(cè)的主要方向。儲(chǔ)層巖性是描述儲(chǔ)層礦物質(zhì)組成成分的主要特征,反映了巖層的儲(chǔ)藏性能和儲(chǔ)層特征,常用參數(shù)包括儲(chǔ)層巖石物理結(jié)構(gòu)、分布范圍、儲(chǔ)層厚度等。儲(chǔ)層物性是描述儲(chǔ)層的物理性質(zhì),廣義上包括了儲(chǔ)集層巖石的骨架性質(zhì)、孔隙性、滲透性、含流體性、熱學(xué)性質(zhì)、導(dǎo)電性、聲學(xué)性質(zhì)、放射性及各種敏感性等;狹義的一般指儲(chǔ)層巖石的孔隙率和滲透率,既物性參數(shù)性質(zhì)、物性空間展布等。
儲(chǔ)層含油氣性主要指儲(chǔ)層內(nèi)的流體性質(zhì)、流體類型等特性。對(duì)儲(chǔ)層含油氣性評(píng)價(jià),可以利用測(cè)井等資料對(duì)地找出滲透層,然后對(duì)含油性進(jìn)行評(píng)價(jià)預(yù)測(cè),識(shí)別儲(chǔ)層的油層、氣層、水層、干層等不同層位,就可以對(duì)油氣富集區(qū)域即進(jìn)行預(yù)測(cè),為油氣鉆探指明位置,為開采方案的制定提供參考依據(jù)[5-7]。
1.2 影響因素
本文將氣井產(chǎn)量影響因素分為地質(zhì)、工程、排液因素幾個(gè)方面[8-9]:
1) 地質(zhì)因素是儲(chǔ)層的固有特征,包含有效厚度、電阻率、密度、泥質(zhì)含量、泊松比、孔隙度、含氣飽和度、基質(zhì)滲透率、射孔厚度等。
2) 工程因素指與氣井開采過程相關(guān)的各項(xiàng)參數(shù),包含稠化酸、降阻酸、頂替液、含砂濃度、破裂壓力、停泵壓力、垂向壓力、砂比等。
3) 排液因素可以提升返排效能,達(dá)到穩(wěn)定高效地排液。與排液相關(guān)的參數(shù)有關(guān)井油壓、關(guān)井套壓、累計(jì)排液量等。
1.3 數(shù)據(jù)處理
原始數(shù)據(jù)的數(shù)據(jù)量大且復(fù)雜程度高、數(shù)據(jù)缺失多,存在一定的異常值??梢赃M(jìn)行儲(chǔ)層評(píng)價(jià)的數(shù)據(jù)類型為連續(xù)型,且評(píng)價(jià)因素要進(jìn)行相關(guān)性分析。因此,在評(píng)價(jià)之前,需要對(duì)大量的儲(chǔ)層原始數(shù)據(jù)進(jìn)行預(yù)處理。
1) 缺失值處理。對(duì)原始數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)缺失高達(dá)23.4%,因此采用多重插補(bǔ)法對(duì)缺失值進(jìn)行插補(bǔ):基于除缺失值外的變量建立線性模型,以此預(yù)測(cè)要填補(bǔ)的數(shù)據(jù)[10]。對(duì)插補(bǔ)后的數(shù)據(jù)進(jìn)行分析,未出現(xiàn)明顯異常值,因此多重插補(bǔ)結(jié)果可信度較高,不影響后續(xù)氣井產(chǎn)量預(yù)測(cè)。
2) 異常值處理及相關(guān)性分析。對(duì)于簡(jiǎn)單的異常數(shù)據(jù)(如數(shù)量級(jí)差距較大)易于分辨,而對(duì)于不明顯的異常,人工篩選效果較差。本文選用箱型法,可迅速判斷單個(gè)因素中的異常值,但對(duì)于多個(gè)因素相關(guān)性較強(qiáng)的情況而言,箱型法得出結(jié)論較片面[11]。在進(jìn)行異常值判斷時(shí),需找到不同因素彼此之間的關(guān)聯(lián)。對(duì)在異常值處理后,采用皮爾遜相關(guān)系數(shù)法對(duì)連續(xù)數(shù)據(jù)進(jìn)行分析[12-13]。
1.4 特征篩選
本文用皮爾遜相關(guān)系數(shù)篩選出用于產(chǎn)量預(yù)測(cè)的12種儲(chǔ)層特征。皮爾遜相關(guān)系數(shù)r檢驗(yàn)兩個(gè)變量之間的相關(guān)程度,其中r的取值[-1,1]。假設(shè)兩個(gè)儲(chǔ)層特征含氣飽和度和泥質(zhì)含量分別用X和Y表示,Xi、Yi是隨機(jī)的樣本值,[X]和[Y]隨機(jī)樣本的平均值,則隨機(jī)變量X和Y的皮爾遜相關(guān)系數(shù)r的計(jì)算公式如式(1) 所示[14-15]:
[r=i=1n(Xi-X)(Yi-Y)i=1n(Xi-X)2i=1n(Yi-Y)2]? ? (1)
優(yōu)質(zhì)儲(chǔ)層是一個(gè)相對(duì)的概念,并沒有絕對(duì)評(píng)價(jià)指標(biāo),在不同的氣田和不同的儲(chǔ)層中,評(píng)價(jià)指標(biāo)也是完全不同的。本文通過研究鄂爾多斯某區(qū)塊目的層12口井、58個(gè)顯示層的試氣數(shù)據(jù),根據(jù)皮爾遜相關(guān)系數(shù),篩選出的12個(gè)儲(chǔ)層特征因素相關(guān)性較小,但對(duì)該儲(chǔ)層具有較大影響的特征指標(biāo),這些儲(chǔ)層特征指標(biāo)的皮爾遜相關(guān)系數(shù)如表1所示。
2 氣井產(chǎn)量預(yù)測(cè)算法
我國(guó)天然氣資源豐富,市場(chǎng)需求發(fā)展旺盛,創(chuàng)新勘探開發(fā)技術(shù),實(shí)現(xiàn)氣井產(chǎn)量的智能化預(yù)測(cè)對(duì)增加氣田產(chǎn)能、降低開發(fā)成本和促進(jìn)氣井管理精細(xì)化發(fā)展具有重要意義。近年來,國(guó)內(nèi)外專家學(xué)者產(chǎn)出了大量氣井產(chǎn)能預(yù)測(cè)的方法。但是由于儲(chǔ)層因素復(fù)雜,每個(gè)氣田產(chǎn)量的主控因素都有較大差別,且很多參數(shù)是無法量化的,無法直接加入機(jī)器學(xué)習(xí)的預(yù)測(cè)模型中。氣井產(chǎn)量作為一個(gè)預(yù)測(cè)目標(biāo)是一個(gè)有監(jiān)督學(xué)習(xí)問題。在氣井產(chǎn)量預(yù)測(cè)中,本文選擇使用ID3決策樹和隨機(jī)森林這兩種機(jī)器學(xué)習(xí)器來進(jìn)行訓(xùn)練和預(yù)測(cè)。
2.1 ID3決策樹
傳統(tǒng)的ID3算法存在傾向選擇取值較多的屬性,因此本文使用改進(jìn)的ID3算法。首先,基于均衡系數(shù)對(duì)ID3算法得到的信息增益進(jìn)行優(yōu)化;當(dāng)某個(gè)條件屬性的取值個(gè)數(shù)非常接近總數(shù)時(shí)會(huì)導(dǎo)致增益率修正補(bǔ)償過度,引入屬性偏向閾Q避免屬性偏向問題;引入均衡系數(shù)的概念,平衡多值偏向?qū)π畔⒃鲆娴挠绊懞托畔⒃鲆嫘拚a(bǔ)償過度;每一次搜索都使用全部數(shù)據(jù)訓(xùn)練樣本,在一定程度上降低了個(gè)別噪聲數(shù)據(jù)對(duì)構(gòu)建決策樹的影響,改進(jìn)的ID3算法如下:
[I=-i=1znpjlog2(pj)]? ? ? ? ? ?(2)
[EBj=j=1mpBjIBj=-j=1mZ1j+…+ZmjZi=1npijlog2(pij)]? ? (3)
[GBj=I-E(Bj)]? ? ? ? (4)
其中,[E(Bj)是條件熵]、[GBj]是信息增益[,I]為信息熵,[pij]是指訓(xùn)練集[Zi]中第j類樣本的概率,[ pj]是指訓(xùn)練集[Z]中的任意樣本數(shù)據(jù)元組屬于第j類的概率,[pj=ZjZ]。
[ G'Bj=fm1GBj]? ? ? ? ? (5)
其中,[G'Bj]是對(duì)屬性[Bj]的信息增益[GBj]進(jìn)行修正得到修正信息增益,f(m1)為修正參數(shù),其中m1表示各決策屬性的取值個(gè)數(shù),[f(m1)=1m1]。
[Q=1m1j=1mE(Bj)]? ? ? ? ?(6)
屬性偏向閾Q通常取值為所有條件熵[E(Bj)]的平均值,m1表示條件屬性的個(gè)數(shù)。
[TBj=1m1GBj×1m1E(Bj)1m1GBj+1m1E(Bj)]? ? ? (7)
[GBjnew=GBj×TBj]? ?(8)
均衡系數(shù)[TBj]由修正信息增益[G'Bj]和屬性偏向閾Q得到;優(yōu)化信息增益[GBjnew]利用均衡系數(shù)[TBj]對(duì)信息增益[GBj]進(jìn)行優(yōu)化。
重復(fù)公式(2) -公式(8) ,使用改進(jìn)的ID3算法,利用優(yōu)選好的儲(chǔ)層特征因素建立基學(xué)習(xí)器。
2.2 隨機(jī)森林算法
集成學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一種思想,通過結(jié)合多個(gè)弱學(xué)習(xí)器進(jìn)行聯(lián)合預(yù)測(cè)形成精度更高的模型。隨機(jī)森林是一種集成學(xué)習(xí)算法,隨機(jī)森林以決策樹為基本單元,通過集成大量的決策樹構(gòu)成了隨機(jī)森林。由多個(gè)決策樹共同組成的隨機(jī)森林模型可以提高最終預(yù)測(cè)值的準(zhǔn)確率和健壯性[16-17]。
隨機(jī)森林算法中的決策樹能夠?qū)δP瓦M(jìn)行可視化展示,對(duì)結(jié)果的控制因素級(jí)數(shù)由決策樹的最上層往下層依次減弱[18]。當(dāng)隨機(jī)森林模型用于預(yù)測(cè)問題時(shí),輸出為所有決策樹輸出值的平均值:
[Q(X)=1Mi=1Mwihij(x)]? ? ?(9)
其中[hi(x)]為每一個(gè)子決策樹的輸出,[wi]為子決策樹的權(quán)重,[hij(x)]為[hi(x)]在基學(xué)習(xí)器上的輸出。在使用隨機(jī)森林進(jìn)行基學(xué)習(xí)器組合時(shí),首先在每個(gè)訓(xùn)練集上采用隨機(jī)森林分類算法獨(dú)立地訓(xùn)練出M個(gè)預(yù)測(cè)結(jié)果,最終采用投票的方式,投票多的決策樹最終進(jìn)行決策。
[Q(X)=argmaxi=1Mwihi(x)]? ? (10)
3 實(shí)驗(yàn)與分析
本文選取鄂爾多斯某區(qū)塊的12口單井的相關(guān)數(shù)據(jù)作為訓(xùn)練集Y,將數(shù)據(jù)集按照8:2的比例分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于構(gòu)建機(jī)器學(xué)習(xí)模型,測(cè)試集用于模型預(yù)測(cè)和參數(shù)調(diào)整[19-20]。實(shí)驗(yàn)中對(duì)隨機(jī)森林模型進(jìn)行調(diào)參,調(diào)參結(jié)果如表2所示:
實(shí)驗(yàn)的運(yùn)行環(huán)境為Intel Core-i7,內(nèi)存16GB的PC機(jī),操作系統(tǒng)是Windows10,編程語(yǔ)言是Python, 每個(gè)實(shí)驗(yàn)獨(dú)立運(yùn)行10次,使用訓(xùn)練后的模型對(duì)20%的預(yù)測(cè)集進(jìn)行預(yù)測(cè),預(yù)測(cè)值與實(shí)際值的對(duì)比如圖1所示。
從預(yù)測(cè)值和實(shí)際值的對(duì)比可知,用隨機(jī)森林算法構(gòu)建的機(jī)器學(xué)習(xí)模型在對(duì)測(cè)試數(shù)據(jù)做預(yù)測(cè)時(shí),預(yù)測(cè)值與實(shí)際值出現(xiàn)偏差情況較少,預(yù)測(cè)值曲線變化趨勢(shì)與實(shí)際值曲線幾近重合,擬合效果良好,預(yù)測(cè)準(zhǔn)確率分別達(dá)到了95.3%,本文提出的基于機(jī)器學(xué)習(xí)的氣井預(yù)測(cè)方法的準(zhǔn)確率和穩(wěn)定性較高。
4 總結(jié)
隨著鄂爾多斯盆地勘探的不斷深入,多變的地質(zhì)條件、日趨復(fù)雜的儲(chǔ)層物性及油水關(guān)系,使得勘探開發(fā)工作變得更富有挑戰(zhàn)和難度。本文提出的基于機(jī)器學(xué)習(xí)的氣井產(chǎn)量預(yù)測(cè)方法預(yù)測(cè)結(jié)果良好,準(zhǔn)確率高、穩(wěn)定性高。該項(xiàng)研究可以提高氣井產(chǎn)量預(yù)測(cè)的實(shí)效性,降低人為判斷的主觀性,本研究具有良好的推廣應(yīng)用前景,對(duì)氣田產(chǎn)量預(yù)測(cè)和開發(fā)策略的制訂具有一定的指導(dǎo)意義。
參考文獻(xiàn):
[1] 劉豪.二氧化碳?jí)毫训孛嫔淞骰焐把b置設(shè)計(jì)及其性能研究[D].西安:西安石油大學(xué),2021.
[2] 付金華,牛小兵,李明瑞,等.鄂爾多斯盆地延長(zhǎng)組7段3亞段頁(yè)巖油風(fēng)險(xiǎn)勘探突破與意義[J].石油學(xué)報(bào),2022,43(6):760-769,787.
[3] 劉長(zhǎng)春,楊永興,方鐵園,等.鄂爾多斯盆地頁(yè)巖油優(yōu)質(zhì)儲(chǔ)層評(píng)價(jià)方法[J].錄井工程,2023,34(3):49-54,62.
[4] 柳潔,田冷,劉士鑫,等.基于復(fù)合機(jī)器算法的致密氣井產(chǎn)能預(yù)測(cè)模型:以鄂爾多斯盆地SM區(qū)塊為例[J].大慶石油地質(zhì)與開發(fā). 2023(8):10-18.
[5] WANG H Y.What factors control shale-gas production and production-decline trend in fractured systems:a comprehensive analysis and investigation[J].SPE Journal,2017,22(2):562-581.
[6] JOSHI K G,AWOLEKE O O,MOHABBAT A.Uncertainty quantification of gas production in the barnett shale using time series analysis[C]//Day 5 Thu,April 26,2018.April 22-26,2018.Garden Grove,California,USA.SPE,2018.
[7] LOLON E,HAMIDIEH K,WEIJERS L,et al.SPE Hydraulic Fracturing Technology Conference - Evaluating the Relationship Between Well Parameters and Production Using Multivariate[C].Spe Hydraulic Fracturing Technology Conference,2016.
[8] 聶云麗,高國(guó)忠.基于隨機(jī)森林的頁(yè)巖氣 “甜點(diǎn)” 分類方法[J].油氣藏評(píng)價(jià)與開發(fā),2023,13(3):358-367.
[9] 劉佳慧.基于數(shù)據(jù)驅(qū)動(dòng)的多聯(lián)機(jī)系統(tǒng)用能評(píng)估與診斷[D].武漢:華中科技大學(xué),2019.
[10] 張文浩,苗苗青,姜鯤鵬,等.中國(guó)油氣資源勘探開發(fā)特點(diǎn)、趨勢(shì)及生態(tài)管理[J].地質(zhì)與資源,2019,28(5):454-459.
[11] 張凱兵,馬東佟,孟雅蕾.基于雙源自適應(yīng)知識(shí)蒸餾的輕量化圖像分類方法[J].西安工程大學(xué)學(xué)報(bào),2023,37(4):82-91.
[12] 路兆陽(yáng).基于大數(shù)據(jù)分析的致密氣藏氣井產(chǎn)量預(yù)測(cè)方法研究[D].成都:西南石油大學(xué),2019.
[13] VIKARA D,REMSON D,KHANNA V.Machine learning-informed ensemble framework for evaluating shale gas production potential:case study in the Marcellus Shale[J].Journal of Natural Gas Science and Engineering,2020,84:103679.
[14] 祝元寵,咸玉席,李清宇,等.基于大數(shù)據(jù)的頁(yè)巖氣產(chǎn)能預(yù)測(cè)[J].油氣井測(cè)試,2019,28(1):1-6.
[15] 紀(jì)磊,李菊花,肖佳林.隨機(jī)森林算法在頁(yè)巖氣田多段壓裂改造中的應(yīng)用[J].大慶石油地質(zhì)與開發(fā),2020,39(6):168-174.
[16] 黃家宸,張金川.機(jī)器學(xué)習(xí)預(yù)測(cè)油氣產(chǎn)量現(xiàn)狀[J].油氣藏評(píng)價(jià)與開發(fā)期刊, 2021,11(4):613-620.
[17] 王建波,馮明剛,嚴(yán)偉,等.焦石壩地區(qū)頁(yè)巖儲(chǔ)層可壓裂性影響因素及計(jì)算方法[J].斷塊油氣田,2016,23(2):216-220,225.
[18] 陳桂華,肖鋼,徐強(qiáng),等.頁(yè)巖油氣地質(zhì)評(píng)價(jià)方法和流程[J].天然氣工業(yè),2012,32(12):1-5,123.
[19] 陳桂華,肖鋼,徐強(qiáng),等.頁(yè)巖油氣地質(zhì)評(píng)價(jià)方法和流程[J].天然氣工業(yè),2012,32(12):1-5,123.
[20] 馬永生,蔡勛育,趙培榮.中國(guó)頁(yè)巖氣勘探開發(fā)理論認(rèn)識(shí)與實(shí)踐[J].石油勘探與開發(fā),2018,45(4):561-574.
【通聯(lián)編輯:梁書】