薛永超, 袁志乾,2, 金青爽, 張春輝, 趙天龍, 劉佳, 李海龍
(1.中國石油大學(xué)(北京)石油工程學(xué)院, 北京 102249; 2.中海石油(中國)有限公司天津分公司, 天津 300452;3.中國石油長慶油田分公司, 慶陽 745100)
油井產(chǎn)量預(yù)測是油田開發(fā)過程中的一項(xiàng)重要工作,準(zhǔn)確的油井產(chǎn)量預(yù)測可以評估出油井的開發(fā)潛力,有助于整體全面的認(rèn)識(shí)油藏,為改善油井的工作制度和制定合理高效的油田開發(fā)方案提供依據(jù)。
近年來,大數(shù)據(jù)、人工智能技術(shù)在智能油田中的運(yùn)用成為熱點(diǎn)話題,這些技術(shù)的實(shí)現(xiàn)都以機(jī)器學(xué)習(xí)算法為基礎(chǔ)[1-4]。相關(guān)人員利用機(jī)器學(xué)習(xí)算法對油井產(chǎn)量預(yù)測開展了大量研究,應(yīng)用多元回歸分析、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等方法建立了油井產(chǎn)量預(yù)測模型,實(shí)現(xiàn)了對油井日產(chǎn)量、初產(chǎn)或平均產(chǎn)量的預(yù)測。線性模型應(yīng)用方面,谷建偉等[5]使用lasso算法進(jìn)行了油井動(dòng)態(tài)日產(chǎn)量預(yù)測;章雨等[6]基于多元線性回歸對環(huán)江油田長6儲(chǔ)層各井日產(chǎn)油量進(jìn)行預(yù)測。但各因素對油田產(chǎn)量的影響是非線性的,這些線性模型很難刻畫。宋宣毅等[7]用灰狼算法優(yōu)化支持向量機(jī)進(jìn)行單井初期日產(chǎn)量預(yù)測,預(yù)測誤差小于12%,但支持向量機(jī)只適用于小樣本的預(yù)測,當(dāng)數(shù)據(jù)集比較大時(shí),難以應(yīng)用。神經(jīng)網(wǎng)絡(luò)的應(yīng)用方面,李彥尊等[8]以美國Eagle Ford頁巖油氣田為例,用人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測頁巖油氣動(dòng)態(tài)日產(chǎn)量,預(yù)測精度達(dá)90%;李智超等[9]用小波神經(jīng)網(wǎng)絡(luò)做油田年產(chǎn)油量預(yù)測,相對誤差很低;陳娟等[10]用遺傳算法優(yōu)化了網(wǎng)絡(luò)層,對長寧地區(qū)壓裂后頁巖氣水平井日產(chǎn)氣量進(jìn)行了預(yù)測,平均誤差8.76%。神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用效果很好,但其可解釋性差,無法解釋那個(gè)因素是主要影響因素。還有相關(guān)學(xué)者利用長短期記憶網(wǎng)絡(luò)和ARIMA-Kalman濾波器等建立了對油井產(chǎn)量的時(shí)間序列預(yù)測模型。例如,馬承杰[11]使用長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行油井動(dòng)態(tài)日產(chǎn)量預(yù)測,相對于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),長短期神經(jīng)網(wǎng)絡(luò)能更好地捕捉時(shí)間序列信息,進(jìn)行動(dòng)態(tài)產(chǎn)能預(yù)測,但仍然無法解決神經(jīng)網(wǎng)絡(luò)類模型解釋性差的問題;2018年,谷建偉等[12]用ARIMA-Kalman濾波器數(shù)據(jù)挖掘模型進(jìn)行油井動(dòng)態(tài)月產(chǎn)油量預(yù)測,但該方法考慮的因素比較單一,只考慮產(chǎn)量本身;2019年,谷建偉等[13]使用長短期神經(jīng)網(wǎng)絡(luò)進(jìn)行油井動(dòng)態(tài)月產(chǎn)油量預(yù)測,平均誤差僅為1.46%;任燕龍等[14]用果蠅算法優(yōu)化長短期記憶神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)層進(jìn)行油井動(dòng)態(tài)日產(chǎn)油量預(yù)測,為神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)整提供了智能算法。傳統(tǒng)機(jī)器學(xué)習(xí)在訓(xùn)練模型時(shí)忽略了輸入特征數(shù)據(jù)間的內(nèi)在聯(lián)系,無法充分提取特征信息,同時(shí)模型需要擬合的參數(shù)過多,直接影響了模型的最終預(yù)測精度。針對傳統(tǒng)機(jī)器學(xué)習(xí)的缺點(diǎn),將深度森林算法應(yīng)用于油井產(chǎn)量預(yù)測問題中,深度森林是一種基于隨機(jī)森林的深度學(xué)習(xí)算法[15],目前多用于圖像檢測和模式識(shí)別[16-17],其特有的多粒度掃描階段可以全方位、多層次的掃描輸入的特征,最大程度地獲取特征信息,為模型準(zhǔn)確度提供保障,同時(shí)相比于其他機(jī)器學(xué)習(xí)算法,該算法擁有參數(shù)少、調(diào)參簡單、魯棒性好等優(yōu)點(diǎn),因此在面對不同領(lǐng)域的預(yù)測問題時(shí)均能取得不錯(cuò)的效果。
現(xiàn)將深度森林算法應(yīng)用于油井產(chǎn)量預(yù)測問題中,以油井的地質(zhì)參數(shù)、壓裂參數(shù)等數(shù)據(jù)作為輸入特征,構(gòu)建基于深度森林算法的油井產(chǎn)量預(yù)測模型,并對模型預(yù)測結(jié)果做出評估和分析,最終建立可以準(zhǔn)確預(yù)測研究區(qū)塊油井產(chǎn)能的機(jī)器學(xué)習(xí)模型,為油井產(chǎn)能預(yù)測提供一種新方法。
隨機(jī)森林(random forest,RF)是一種機(jī)器集成學(xué)習(xí)算法,由Breiman在2001年首次提出[18]。集成學(xué)習(xí)通過構(gòu)建多個(gè)學(xué)習(xí)器來完成指定的學(xué)習(xí)任務(wù)[19],隨機(jī)森林以決策樹作為基學(xué)習(xí)器,并在決策樹的基礎(chǔ)上引入了隨機(jī)屬性選擇。將樣本Y輸入到隨機(jī)森林模型后,模型會(huì)從輸入的樣本數(shù)據(jù)中有放回的隨機(jī)抽取數(shù)據(jù),訓(xùn)練N個(gè)決策樹模型,每棵決策樹會(huì)根據(jù)自身的屬性獨(dú)立的做出分類預(yù)測或者回歸預(yù)測,隨后將每棵決策樹的結(jié)果放在一起進(jìn)行投票匯總。對于分類問題,得票數(shù)最高的類別即為預(yù)測類別;對于回歸問題,所有決策樹預(yù)測結(jié)果的平均值即為預(yù)測數(shù)值。隨機(jī)森林的分類決策過程可表示為
(1)
式(1)中:H(x)為分類結(jié)果;hi為第i個(gè)決策樹模型;I為度量函數(shù);N為決策樹數(shù)量;y為目標(biāo)變量。
深度森林(deep forest,DF)是Zhou等[20]在2017年提出的一種深度學(xué)習(xí)方法。相比于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN),深度森林參數(shù)較少,且對參數(shù)設(shè)置的敏感度不高,無需進(jìn)行復(fù)雜的調(diào)參,且模型訓(xùn)練容易,易于使用,并行的結(jié)構(gòu)設(shè)計(jì)使其在處理跨域問題時(shí)仍能有不錯(cuò)的表現(xiàn)。
1.2.1 多粒度掃描階段
多粒度掃描階段的目的是為了分析輸入的數(shù)據(jù)特征,挖掘特征間的順序關(guān)系。多粒度掃描應(yīng)用了類似于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的一個(gè)滑動(dòng)窗口來提取特征,窗口在原始特征向量上滑動(dòng),然后將窗口選取出的特征用隨機(jī)森林進(jìn)行信息提取。完整的多粒度掃描過程如圖1所示:首先輸入完整的具有P維特征的樣本數(shù)據(jù),應(yīng)用長度為k的滑動(dòng)窗口提取特征,默認(rèn)滑動(dòng)步長為1,那么得到的k維特征子樣本向量數(shù)量S的計(jì)算公式為
圖1 多粒度掃描流程Fig.1 The procedure of multi-grained scanning
S=(P-k)+1
(2)
將所得向量分別代入不同的森林模型(默認(rèn)為隨機(jī)森林模型和完全隨機(jī)森林模型)進(jìn)行計(jì)算處理后輸出類概率向量,最后將不同模型輸出的類概率向量進(jìn)行拼接,最終生成轉(zhuǎn)換特征向量,作為級(jí)聯(lián)森林的輸入向量。
經(jīng)過多粒度掃描階段后,原本的數(shù)據(jù)特征維數(shù)得到了擴(kuò)展,使得后續(xù)算法具有了處理特征順序的能力,增強(qiáng)了級(jí)聯(lián)森林階段。
1.2.2 級(jí)聯(lián)森林階段
級(jí)聯(lián)森林階段是深度森林進(jìn)行深度學(xué)習(xí)的過程。級(jí)聯(lián)森林的每一級(jí)都由不同類型的森林模型組成(默認(rèn)是隨機(jī)森林模型和完全隨機(jī)森林模型),不同類型的森林模型可以充分提取并學(xué)習(xí)輸入特征向量的信息,提高模型的預(yù)測準(zhǔn)確度。
級(jí)聯(lián)森林階段流程如圖2所示,首先將多粒度掃描階段得到的轉(zhuǎn)換特征向量輸入到級(jí)聯(lián)森林的第一級(jí)中,經(jīng)過不同的森林模型處理后得到增強(qiáng)向量,將生成的增強(qiáng)向量與原先的轉(zhuǎn)換特征向量進(jìn)行拼接,得到的新向量作為下一級(jí)的輸入向量,將最后一級(jí)生成的增強(qiáng)向量進(jìn)行回歸取平均值得到最終結(jié)果。
圖2 級(jí)聯(lián)森林流程Fig.2 The procedure of cascade forest
模型過擬合會(huì)導(dǎo)致模型在面對訓(xùn)練集以外的數(shù)據(jù)時(shí)表現(xiàn)很差,為避免該情況發(fā)生,每一個(gè)森林模型所產(chǎn)生的增強(qiáng)向量均由k折交叉驗(yàn)證得到。級(jí)聯(lián)森林的級(jí)數(shù)由算法自動(dòng)確定,當(dāng)模型連續(xù)三級(jí)的訓(xùn)練中性能沒有提升,則終止級(jí)聯(lián)森林過程。
進(jìn)行特征選擇是構(gòu)建預(yù)測模型前的必要工作,從多維特征中提取最重要的特征參數(shù)有利于提升模型的精度和泛化能力[21]。平均不純度減少 (mean decrease impurity,MDI)方法是一種基于隨機(jī)森林的特征選擇方法,該方法以添加該特征后預(yù)測誤差的減小程度作為特征重要性的評價(jià)依據(jù)。決策樹通過計(jì)算不純度減少程度來選擇特征生成節(jié)點(diǎn),每個(gè)特征使模型減少的不純度即為這個(gè)特征的重要程度。設(shè)有n個(gè)特征,模型的初始誤差為e0,向模型中添加某個(gè)特征節(jié)點(diǎn)后模型的誤差為ei,那么該特征的重要性Mi可表示為
(3)
按照式(3)依次計(jì)算每個(gè)特征的重要性,并按重要性大小將特征進(jìn)行排列。對于重要性高的特征予以保留;對于重要性低的特征,觀察剔除該特征后對模型精度的影響,若模型精度變化不大,則說明該特征是冗余特征可以剔除,若模型精度變化大則予以保留。
建立模型后需要借助評價(jià)指標(biāo)來直觀反映評價(jià)模型的精度和泛化能力[22],常用的評價(jià)指標(biāo)有均方根誤差(root mean square error,RMSE)、平均相對誤差(mean relative error,MRE)、決定系數(shù)R2等。本文中選取RMSE、MRE、R2作為模型評價(jià)指標(biāo)。
均方根誤差計(jì)算公式為
(4)
平均相對誤差計(jì)算公式為
(5)
決定系數(shù)計(jì)算公式為
(6)
選取H152油藏作為研究對象,H152油藏位于鄂爾多斯盆地南部沉積中心,屬于低孔低滲透油藏。該油藏1996年投入開發(fā),截至目前,全區(qū)動(dòng)用含油面積48.7×104km2,動(dòng)用地質(zhì)儲(chǔ)量2 435×104t,綜合含水率67.6%,采出程度13.73%。研究選取該井區(qū)典型生產(chǎn)井242口作為產(chǎn)量預(yù)測研究對象,產(chǎn)量預(yù)測目標(biāo)為每口生產(chǎn)井開井生產(chǎn)半年內(nèi)的月均產(chǎn)油量,因?yàn)殚_井生產(chǎn)半年內(nèi)一般不會(huì)采取大規(guī)模的增產(chǎn)措施,此時(shí)的產(chǎn)量最能直接反映一口井的產(chǎn)油能力。
完成樣本選取后,將樣本數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集、測試集三類。其中訓(xùn)練集數(shù)據(jù)用于訓(xùn)練模型,確定模型中的假設(shè)函數(shù)參數(shù);驗(yàn)證集數(shù)據(jù)用于優(yōu)化模型超參數(shù),選取表現(xiàn)最優(yōu)的超參數(shù)組合,確定最優(yōu)模型;測試集數(shù)據(jù)用于對模型進(jìn)行性能評估。將242口樣本井?dāng)?shù)據(jù)以6∶2∶2的比例劃分訓(xùn)練集、驗(yàn)證集和測試集,即152口井?dāng)?shù)據(jù)用于訓(xùn)練模型,45口井?dāng)?shù)據(jù)用于優(yōu)選超參數(shù),45口井?dāng)?shù)據(jù)用于評估模型。
2.3.1 缺失值處理
全面分析并選取可能影響油井產(chǎn)量的特征因素,包含孔隙度、滲透率、有效厚度、含水飽和度、泥質(zhì)含量、電阻率、射孔厚度、井底流壓、生產(chǎn)壓差、井位置、入地總液量共計(jì)11種特征因素。經(jīng)統(tǒng)計(jì),在2 662個(gè)數(shù)據(jù)點(diǎn)上共有235個(gè)數(shù)據(jù)缺失,數(shù)據(jù)缺失率處于正常范圍之內(nèi),數(shù)據(jù)缺失分布如圖3所示。
圖3 缺失值分布Fig.3 Missing value distribution
針對缺失值,采取K最鄰近算法(K-nearest neighbor,KNN)填補(bǔ)缺失值。該方法選取與缺失數(shù)據(jù)點(diǎn)距離最近的K個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)平均值作為填補(bǔ)值,對缺失數(shù)據(jù)進(jìn)行填補(bǔ),這里采用的距離通常是歐氏距離。本文中K值取5,即選擇與缺失數(shù)據(jù)點(diǎn)最鄰近的5個(gè)數(shù)據(jù)點(diǎn)的平均值作為填補(bǔ)值。經(jīng)過相關(guān)計(jì)算后,235個(gè)數(shù)據(jù)缺失均成功被填補(bǔ)。
2.3.2 標(biāo)準(zhǔn)化處理
在建立預(yù)測模型前,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。本文中選取Z-Score標(biāo)準(zhǔn)化方法,即
(7)
式(7)中:x為個(gè)體觀測值;μ為總體數(shù)據(jù)平均值;σ為總體數(shù)據(jù)標(biāo)準(zhǔn)差。
經(jīng)過標(biāo)準(zhǔn)化處理后,不同量級(jí)的數(shù)據(jù)轉(zhuǎn)化為同一量級(jí),統(tǒng)一用計(jì)算出的Z-Score衡量,這有助于提升模型的收斂速度和預(yù)測精度。
應(yīng)用MDI特征選擇方法對可能影響油井產(chǎn)量的11種特征參數(shù)進(jìn)行分析,通過式(4)計(jì)算每個(gè)特征的重要性,各個(gè)特征重要性計(jì)算結(jié)果如圖4所示。
圖4 特征參數(shù)重要性柱狀圖Fig.4 Column of feature parameter importance
從計(jì)算結(jié)果可以看出入地總液量對產(chǎn)量的影響最大,入地總液量是描述壓裂的重要參數(shù),H152油藏屬于低滲透油藏,油井不壓裂便沒有產(chǎn)能,因此影響最大,此外有效厚度和生產(chǎn)壓差對產(chǎn)量的影響也較大。井位置和射孔厚度的重要性基本為0,與產(chǎn)量間基本無關(guān)系。對于剩下的特征,采取逐一剔除的方式進(jìn)行檢驗(yàn),若剔除后對模型的精度影響較大則保留,經(jīng)過檢驗(yàn)后,孔隙度、滲透率、泥質(zhì)含量三個(gè)特征被保留。綜上,最終選擇孔隙度、滲透率、泥質(zhì)含量、生產(chǎn)壓差、有效厚度、入地總液量6個(gè)特征參數(shù)作為模型的輸入變量。
2.5.1 深度森林建模流程
將訓(xùn)練集中152口樣本井?dāng)?shù)據(jù)代入到深度森林模型中訓(xùn)練模型,完成建模過程。根據(jù)MDI特征選擇結(jié)果,孔隙度、滲透率等6個(gè)特征被保留,因此深度森林產(chǎn)量預(yù)測模型的輸入特征維數(shù)為6維,使用深度森林默認(rèn)的超參數(shù)建模。在多粒度掃描階段,選取3個(gè)滑動(dòng)窗口對特征進(jìn)行掃描提取,窗口長度分別為1、2、3,滑動(dòng)步長為1,森林模型采用隨機(jī)森林和完全隨機(jī)森林模型。在級(jí)聯(lián)森林階段,每一級(jí)都包含兩個(gè)隨機(jī)森林模型和兩個(gè)完全隨機(jī)森林模型,森林模型決策樹數(shù)量和深度設(shè)置與多粒度掃描階段相同,若連續(xù)三級(jí)模型精度沒有提升,則終止級(jí)聯(lián)森林過程,深度森林產(chǎn)量預(yù)測模型示意圖如圖5所示。
圖5 深度森林產(chǎn)量預(yù)測流程Fig.5 Production forecast procedure of deep forest
2.5.2 網(wǎng)格化搜索優(yōu)化超參數(shù)
超參數(shù)優(yōu)化對提升模型精度有著重要意義。利用訓(xùn)練集中152口樣本井?dāng)?shù)據(jù)訓(xùn)練具有不同超參數(shù)的深度森林產(chǎn)量預(yù)測模型,然后將驗(yàn)證集中45口樣本井?dāng)?shù)據(jù)分別代入訓(xùn)練好的模型中進(jìn)行預(yù)測,根據(jù)不同模型預(yù)測結(jié)果的評價(jià)指標(biāo)來確定最優(yōu)超參數(shù),確定最優(yōu)模型。
深度森林主要的超參數(shù)有決策樹最大深度、每個(gè)森林模型中的決策樹個(gè)數(shù)、級(jí)聯(lián)森林級(jí)數(shù),其中級(jí)聯(lián)森林級(jí)數(shù)可以通過深度森林算法自行確定,這里對決策樹最大深度和決策樹個(gè)數(shù)進(jìn)行優(yōu)化。根據(jù)相關(guān)文獻(xiàn)和經(jīng)驗(yàn),樹最大深度取值范圍為(15,30,50),決策樹數(shù)量取值范圍為(100,200,500,1 000),參數(shù)優(yōu)化結(jié)果如表1所示。
根據(jù)表1的計(jì)算結(jié)果,當(dāng)決策樹最大深度為30,每個(gè)森林模型決策樹個(gè)數(shù)為500時(shí),深度森林模型在驗(yàn)證集上的均方根誤差和平均相對誤差有最小值,此時(shí)的模型即為最優(yōu)模型。
表1 深度森林超參數(shù)優(yōu)化結(jié)果
利用測試集中的45口井?dāng)?shù)據(jù)對模型進(jìn)行性能評估。為了對深度森林產(chǎn)量預(yù)測模型進(jìn)行綜合的比對和評價(jià),本文中同時(shí)建立了BP(back propagation)神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型和隨機(jī)森林產(chǎn)量預(yù)測模型,兩種模型的樣本劃分和輸入特征與深度森林相同,同樣使用網(wǎng)格化搜索優(yōu)化超參數(shù)。
將測試集中45口井?dāng)?shù)據(jù)分別代入到深度森林產(chǎn)量預(yù)測模型、BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測模型和隨機(jī)森林產(chǎn)量預(yù)測模型中,三種模型在測試集上的產(chǎn)量預(yù)測擬合結(jié)果如圖6所示,利用預(yù)測產(chǎn)量計(jì)算模型評價(jià)指標(biāo),以模型評價(jià)指標(biāo)作為模型性能評價(jià)依據(jù)。三種模型評價(jià)指標(biāo)計(jì)算結(jié)果如表2所示。
圖6 三種模型產(chǎn)量預(yù)測擬合結(jié)果Fig.6 Production forecast results of three model
表2 各模型評價(jià)指標(biāo)計(jì)算結(jié)果
從三個(gè)預(yù)測模型在測試集上的評價(jià)指標(biāo)來看,BP神經(jīng)網(wǎng)絡(luò)模型的均方根誤差25.62,平均相對誤差23.51%,決定系數(shù)0.68;隨機(jī)森林模型的均方根誤差16.74,平均相對誤差15.36%,決定系數(shù)0.82;深度森林模型的均方根誤差8.69,平均相對誤差7.97%,決定系數(shù)0.94。均方根誤差和平均相對誤差反映了模型整體的預(yù)測誤差,決定系數(shù)反映了預(yù)測值和實(shí)際值之間的擬合情況,深度森林模型有著最低的均方根誤差、平均相對誤差和最高的決定系數(shù),說明深度森林模型在測試集上的整體誤差最小,預(yù)測產(chǎn)量和實(shí)際產(chǎn)量間的擬合情況最好,因此深度森林模型是三個(gè)模型中性能最好的模型。
繪制三種模型實(shí)際產(chǎn)量與預(yù)測產(chǎn)量的對比曲線如圖7所示,發(fā)現(xiàn)少數(shù)預(yù)測點(diǎn)的產(chǎn)量預(yù)測值與實(shí)際值偏差很大,這可能是兩個(gè)原因?qū)е碌模旱谝粋€(gè)原因是對部分井的缺失數(shù)據(jù)采用了KNN方法進(jìn)行填補(bǔ),填補(bǔ)值與實(shí)際值之間存在差異,這導(dǎo)致了預(yù)測值出現(xiàn)偏差;第二個(gè)原因是部分井在生產(chǎn)過程中采取了大型作業(yè)措施,這會(huì)導(dǎo)致油井產(chǎn)量發(fā)生大幅變化,最終造成該部分井的預(yù)測產(chǎn)量與實(shí)際產(chǎn)量相差較大。
圖7 實(shí)際產(chǎn)量與預(yù)測產(chǎn)量對比圖Fig.7 Comparison of actual production and forecast production
(1)建立了基于深度森林算法的油井產(chǎn)量預(yù)測模型,利用油田所提供的相關(guān)數(shù)據(jù)即可快速預(yù)測油井產(chǎn)量,且預(yù)測結(jié)果準(zhǔn)確,誤差較小。
(2)應(yīng)用KNN最鄰近算法填補(bǔ)缺失值,是處理數(shù)據(jù)缺失問題的好方法。由于各種原因,油田提供的數(shù)據(jù)難免存在部分缺失,KNN算法填補(bǔ)的缺失值最接近真實(shí)值,有利于提升產(chǎn)量預(yù)測模型的精度。
(3)MDI特征選擇方法可以快速準(zhǔn)確的篩選出對油井產(chǎn)量影響最大的特征參數(shù),同時(shí)剔除冗余特征,實(shí)現(xiàn)特征降維,降低模型復(fù)雜度。
(4)與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林等機(jī)器學(xué)習(xí)算法相比,深度森林算法的能夠更全面準(zhǔn)確地提取特征信息,計(jì)算效率高,預(yù)測結(jié)果更準(zhǔn)確。基于深度森林算法的油井產(chǎn)量預(yù)測模型能夠有效預(yù)測油井產(chǎn)量,為油田生產(chǎn)以及開發(fā)方案的調(diào)整提供參考和依據(jù)。
(5)可以考慮將更多特征參數(shù)納入到產(chǎn)量預(yù)測模型中,如鉆完井方式、增產(chǎn)措施、生產(chǎn)工藝等,進(jìn)一步提升預(yù)測模型的準(zhǔn)確性和泛化性。同時(shí)可以依據(jù)產(chǎn)量預(yù)測模型的建立思路,構(gòu)建其他生產(chǎn)指標(biāo)的預(yù)測模型,如產(chǎn)水量預(yù)測、產(chǎn)氣量預(yù)測等,實(shí)現(xiàn)油田生產(chǎn)多指標(biāo)預(yù)測。