*趙磊 張海雄,3 賀婷婷
(1.中國石化集團(tuán)新星石油有限責(zé)任公司新能源研究院 河南 450000 2.國家地?zé)崮茉撮_發(fā)利用研究及應(yīng)用技術(shù)推廣中心 北京 100083 3.中國地質(zhì)大學(xué)(武漢) 湖北 430000)
地?zé)豳Y源作為一種清潔能源,被廣泛應(yīng)用于供暖、發(fā)電、烘干、種植、養(yǎng)殖、旅游、醫(yī)療保健等諸多方面,在有效緩解能源短缺、解決化石能源所引起的環(huán)境問題等方面起著重要作用。在以往的地?zé)衢_發(fā)過程中,長期的地?zé)崴沙鰧?dǎo)致地下水位下降過快、地面下沉等問題,甚至導(dǎo)致資源枯竭,嚴(yán)重制約了地?zé)崮艿目沙掷m(xù)、安全開發(fā)和利用,地?zé)峋毓嗍墙鉀Q上述問題的重要手段,是資源可持續(xù)發(fā)展的重要途徑[1-2]。
地?zé)峋毓噙^程中,常因懸浮物超標(biāo)、微生物繁殖、化學(xué)反應(yīng)沉淀、氣泡堵塞、黏土膨脹等原因產(chǎn)生儲層堵塞[3-6],導(dǎo)致回灌壓力上升、回灌壓力下降,嚴(yán)重影響回灌效果。馮超臣和黃文峰[7]通過對菏澤市巖溶地?zé)峋菜毓鄬?shí)驗(yàn)結(jié)果的分析,發(fā)現(xiàn)回灌壓力、回灌水水質(zhì)、回灌水溫度、回灌工藝以及儲層巖性特征等均會(huì)影響回灌效果。賀淼等[8]通過回灌實(shí)驗(yàn)研究發(fā)現(xiàn),回灌量與回灌壓力之間呈線性正比例關(guān)系、與回灌溫度之間呈反比例關(guān)系。張平平和王秀芹[9]通過對德州市某地?zé)峋M開展高溫尾水和低溫尾水回灌實(shí)驗(yàn),發(fā)現(xiàn)低溫尾水回灌效果并非完全優(yōu)于高溫尾水,而是存在一個(gè)水位界限值,水位升幅低于該值時(shí),低溫尾水表現(xiàn)出更好的回灌性能,水位升幅高于該值時(shí),高溫尾水回灌性能更好。張春志等[10]對魯東構(gòu)造型地?zé)崽锘毓鄶?shù)據(jù)進(jìn)行分析發(fā)現(xiàn),無論用地?zé)嵛菜毓噙€是用常溫地下水回灌,單位時(shí)間回灌量隨回灌壓力的增大都呈二次曲線變化,在一定的壓力范圍內(nèi),單位回灌量隨壓力的加大逐漸增加,在達(dá)到最大值后隨壓力的增大而減小。馮守濤等[11]以魯西北坳陷區(qū)開展的館陶組熱儲回灌試驗(yàn)為基礎(chǔ),建立了以單位涌水量變化率、滲透系數(shù)的比值和單位回灌量比值評價(jià)回灌堵塞程度的評價(jià)指標(biāo)體系。高新智[12]選擇天津市新近系孔隙型砂巖作為研究對象,通過收集分析現(xiàn)有的大量回灌試驗(yàn)數(shù)據(jù),建立了孔隙型砂巖熱儲評價(jià)模型,并利用該模型對天津市新近系孔隙型砂巖熱儲進(jìn)行了回灌能力評價(jià)。上述方法多從單因素角度考察回灌壓力,由于回灌壓力受多因素共同影響并且各個(gè)因素與回灌壓力之間表現(xiàn)出高度非線性關(guān)系,采用現(xiàn)有手段準(zhǔn)確預(yù)測地?zé)峋毓嗄芰κ掷щy,預(yù)測結(jié)果與實(shí)際結(jié)果誤差大、實(shí)時(shí)性差,不能滿足現(xiàn)場地?zé)嵘a(chǎn)管理的需要。
近年來,機(jī)器學(xué)習(xí)方法被大量用于油田生產(chǎn)預(yù)測,取得了良好的預(yù)測效果[13-14]。2018年,谷建偉等[15]以單井產(chǎn)油量為時(shí)間序列,建立基于自動(dòng)回歸移動(dòng)平均—卡爾曼濾波器的產(chǎn)油量預(yù)測模型,其預(yù)測誤差小于2%。2019年,谷建偉等[16]采用長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型預(yù)測油井產(chǎn)量,平均誤差約為1.46%。2020年,楊洋等[17]建立了自動(dòng)回歸移動(dòng)平均模型與支持向量機(jī)時(shí)序模型相結(jié)合的油井產(chǎn)量組合預(yù)測方法,平均預(yù)測誤差在10%以內(nèi)。同年,劉巍等[18]在利用平均不純度減少(MDI)方法對影響油井產(chǎn)量的因素進(jìn)行篩選的基礎(chǔ)上,建立了利用LSTM模型快速預(yù)測油井日產(chǎn)油量的方法,平均相對誤差4%。LSTM模型在油井產(chǎn)量預(yù)測中的成功應(yīng)用為預(yù)測地?zé)峋毓鄩毫Φ淖兓峁┝酥匾梃b。
地?zé)峋毓鄩毫︻A(yù)測是基于地?zé)峋a(chǎn)歷史的典型的時(shí)間序列預(yù)測問題。長短期記憶神經(jīng)網(wǎng)絡(luò)預(yù)測模型是一種具有自循環(huán)結(jié)構(gòu)的時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),前一個(gè)時(shí)間的輸入會(huì)影響到當(dāng)前時(shí)間的輸出,同時(shí)通過“門”的作用將對當(dāng)前時(shí)間不重要的信息選擇性遺忘,而將重要的信息保留下來,從而具有長時(shí)間的記憶能力。LSTM可以綜合考慮多因素影響,能保留以前的回灌信息并傳遞給后續(xù)過程,也即能將過去和將來的回灌數(shù)據(jù)進(jìn)行關(guān)聯(lián),挖掘其潛在規(guī)律,更加準(zhǔn)確、可靠地預(yù)測地?zé)峄毓嗑a(chǎn)動(dòng)態(tài)。地?zé)峋毓鄩毫哂袝r(shí)變特征,因此LSTM模型能可靠地用于預(yù)測地?zé)峋毓鄩毫Φ淖兓厔荨?/p>
(1)長短期記憶神經(jīng)網(wǎng)絡(luò)理論
長短期記憶神經(jīng)網(wǎng)絡(luò)是一種改進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò)。相比于遞歸神經(jīng)網(wǎng)絡(luò),LSTM在其基礎(chǔ)上引入了輸入門、輸出門以及遺忘門三個(gè)結(jié)構(gòu)(圖1)。
圖1 LSTM結(jié)構(gòu)示意圖[15]
工作時(shí),LSTM單元將時(shí)刻t的輸入狀態(tài)xt以及包含上一個(gè)時(shí)刻 (t? 1)關(guān)信息的短期隱藏狀態(tài)ht?1和包含時(shí)刻t之前所有時(shí)刻的長期隱藏狀態(tài)ct?1進(jìn)行計(jì)算處理,得到時(shí)刻t的輸出狀態(tài)yt。
遺忘門的作用是將ft和ct?1之間的數(shù)組元素相乘來決定ct?1中所含信息在時(shí)刻t將被遺忘的內(nèi)容,遺忘原則是ct?1元素與0相乘則全部遺忘、與1相乘則全部保留;輸入門的作用是將gt和it之間的數(shù)組元素相乘來決定gt中所包含信息在時(shí)刻t被保留的內(nèi)容。遺忘門信息(ft?ct?1)和輸入門信息(gt?it)相結(jié)合得到時(shí)刻的長期隱藏狀態(tài)(ct),如式(1)所示[1]。
其中,?符號指數(shù)組元素之間依次相乘。
輸出門將新的ct和輸出向量ot進(jìn)行計(jì)算得到時(shí)刻的短期隱藏狀態(tài)ht,如式(2)所示。
通過全連接層FC將xt和ht?1進(jìn)行計(jì)算處理,得到ft、gt、it和ot,如式(3)~式(6)所示。
其中,f(x)函數(shù)通常為式(7)式(8)所示的tanh或ReLU非線性激活函數(shù);σ(x)通常為式(9)所示的Sigmoid激活函數(shù),決定分別控制遺忘門、輸入門和輸出門的ft、it、ot取值(0到1之間);gt由f(x)決定,與it共同控制輸入門的取值(0到1之間);Wxg、Wxf、Wxi、Wxo為處理的權(quán)重矩陣,Whg、Whf、Whi、Who為處理ht?1的權(quán)重矩陣,bg、bf、bi、bo為偏置項(xiàng),權(quán)重矩陣和偏置項(xiàng)由程序在自我學(xué)習(xí)過程中自動(dòng)調(diào)整。
LSTM通過遺忘門、輸入門和輸出門的控制,保留了對重要信息的長期記憶和非重要信息的遺棄,從而提高了對長時(shí)間序列數(shù)據(jù)的分析處理能力,能更好地適應(yīng)具有前后關(guān)聯(lián)和依賴性的時(shí)序預(yù)測問題。受到儲層性質(zhì)、水質(zhì)、回灌量等因素的影響,產(chǎn)生的儲層堵塞是一個(gè)逐漸積累和演化的過程,與之直接相關(guān)的表現(xiàn)就是地?zé)峋毓鄩毫Φ闹饾u變化,因此利用LSTM模型預(yù)測地?zé)峋毓鄩毫哂泻芎玫膬?yōu)勢。
(2)地?zé)峋毓鄩毫︻A(yù)測步驟
基于LSTM神經(jīng)網(wǎng)絡(luò)的地?zé)峋毓鄩毫︻A(yù)測過程如下:
①收集地?zé)峋當(dāng)?shù)據(jù),將數(shù)據(jù)按照一定比例劃分為訓(xùn)練集和測試集。
②將井口回灌壓力、井口回灌溫度、日回灌量和累計(jì)回灌量等數(shù)據(jù)集分別采用最大最小歸一化方法進(jìn)行歸一化處理。
③利用歸一化的訓(xùn)練集數(shù)據(jù)訓(xùn)練LSTM模型,建立地?zé)峋毓鄩毫︻A(yù)測模型。
④利用歸一化的測試集數(shù)據(jù)對LSTM模型預(yù)測效果進(jìn)行測試,驗(yàn)證模型的可靠性。
⑤利用設(shè)計(jì)的未來的井口回灌溫度、日回灌量和累計(jì)回灌量預(yù)測未來的回灌壓力。
(1)數(shù)據(jù)收集
蘭考縣具有豐富的中低溫地?zé)豳Y源,潛力大,是未來地?zé)衢_發(fā)利用的重點(diǎn)發(fā)展區(qū)域。目前該區(qū)域已生產(chǎn)的個(gè)別地?zé)峋写嬖诨毓嚯y的問題,在一定程度上制約了地?zé)峋目沙掷m(xù)高效生產(chǎn)。以蘭考縣一口地?zé)峄毓嗑鳛檠芯繉ο?,考慮到現(xiàn)場每日獲取回灌水質(zhì)數(shù)據(jù)的難度較大,認(rèn)為在回灌期間水質(zhì)基本保持不變,收集和整理該回灌井一個(gè)取暖季(自2019年11月15日至2020年3月20日)的井口回灌溫度、日回灌量、累計(jì)回灌量和井口回灌壓力數(shù)據(jù)開展回灌壓力預(yù)測方法研究。
(2)數(shù)據(jù)歸一化
由于各類數(shù)據(jù)的取值范圍不同,數(shù)值大小上可能存在數(shù)量級差異(如井口回灌壓力數(shù)值通常在小于10的范圍,而日回灌量數(shù)值可能在大于1000的范圍),并且存在不同的變化幅度,為了讓不同類型的數(shù)據(jù)具有一定可比性,同時(shí)為了提高計(jì)算精度,有必要進(jìn)行歸一化處理。研究中采用了常用的最大最小歸一化方法,其計(jì)算方法如式(10)所示。
式中,x表示某特征(如井口回灌壓力、井口回灌溫度、日回灌量、累計(jì)回灌量)待進(jìn)行歸一化處理的數(shù)據(jù);xmin和xmax分別表示該特征的最小值和最大值。
(3)樣本集構(gòu)造
用Xt表示第t天影響井口回灌壓力的特征向量,研究中取井口回灌溫度、日回灌量和累計(jì)回灌量3個(gè)特征,編號分別為xt1~xt3。
LSTM的特殊結(jié)構(gòu)要求輸入的參數(shù)是由連續(xù)的M個(gè)特征向量組成的序列(M為時(shí)間序列步長)。研究中構(gòu)造的輸入序列形式為 {Xt?M+1,Xt?M+2,…,Xt}。第1個(gè) 序列形式為 {X1,X2,……1,…XM},第2個(gè) 序列形式為{X2,X3,…,XM+1},第n個(gè)序列形式為 {Xn,X n+1,…1,…XM+n?1}。
樣本由輸入序列和輸出序列構(gòu)成,以獲取了T天生產(chǎn)數(shù)據(jù)為例,假設(shè)時(shí)間步長為M,yt為第t天的井口回灌壓力,輸入序列包括I1={X1,X2,……2,…XM},I2={X2,X3,……2,XM+1},…,In={X n,Xn+1,…,XM+n?1};輸出序列包括O1={yM+1},O2={yM+2},…,On={yM+n},組成n個(gè)學(xué)習(xí)樣本,則n=T?M+1。
選取2019年11月15日至2020年3月20日共計(jì)127天的生產(chǎn)數(shù)據(jù)。由于所采集數(shù)據(jù)量少,屬于小規(guī)模數(shù)據(jù)集,因此按照傳統(tǒng)機(jī)器學(xué)習(xí)中常用的8:2比例劃分訓(xùn)練集和測試集。
(4)評價(jià)指標(biāo)
LSTM模型訓(xùn)練的質(zhì)量采用采用平均相對誤差δr、決定系數(shù)R2進(jìn)行評價(jià),計(jì)算公式如式(11)和式(12)所示。
其中,N是數(shù)據(jù)的個(gè)數(shù);x,是經(jīng)過長短期記憶神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后預(yù)測的數(shù)據(jù);x是真實(shí)的數(shù)據(jù);是真實(shí)數(shù)據(jù)的平均值。平均相對誤差越小、決定系數(shù)越接近1,則模型訓(xùn)練的質(zhì)量越好。
(5)模型訓(xùn)練與自動(dòng)調(diào)優(yōu)
地?zé)峋毓鄩毫︻A(yù)測模型的工作原理是輸入前M天的井口回灌溫度、日回灌量、累計(jì)回灌量,預(yù)測第M+1天的井口回灌壓力;接著取一定步長Tstep來移動(dòng)這個(gè)M天時(shí)間步,來預(yù)測Tstep+M+1天的井口回灌壓力,從而實(shí)現(xiàn)整個(gè)訓(xùn)練數(shù)據(jù)集的計(jì)算。為了防止在訓(xùn)練過程中出現(xiàn)過度擬合問題,LSTM模型訓(xùn)練過程中需要添加忽略層,通過隨機(jī)方式在每次訓(xùn)練時(shí)忽略一些神經(jīng)元(通常為20%~40%)。研究中取的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如下:第一層內(nèi)神經(jīng)元數(shù)目為64、第二層內(nèi)神經(jīng)元數(shù)目為128、訓(xùn)練次數(shù)為500、時(shí)間步長為3天、批次大小為64、忽略層的比例為20%。
為了尋找模型的最優(yōu)解,本文采用了一種可以讓學(xué)習(xí)率隨訓(xùn)練過程自動(dòng)修改的Adaptive Moment Estimation(Adam)優(yōu)化器。Adam優(yōu)化器的算法策略可以表示為:
式中,mt和vt分別為模型第t次迭代的一階動(dòng)量項(xiàng)和二階動(dòng)量項(xiàng);β1和β2通常取值0.9和0.999;和分別表示mt和vt的修正值;Wt表示模型第t次迭代的參數(shù);ε 通常取-810 。
損失函數(shù)使用均方誤差(Mean Square Error,MSE),公式為:
其中,N是數(shù)據(jù)的個(gè)數(shù);,x是經(jīng)過長短期記憶神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后預(yù)測的數(shù)據(jù);x是真實(shí)的數(shù)據(jù)。
在訓(xùn)練地?zé)峋毓鄩毫︻A(yù)測模型過程中,隨訓(xùn)練次數(shù)的增加,訓(xùn)練集和測試集的損失函數(shù)逐漸減小并趨于穩(wěn)定(圖2),說明不存在過擬合或欠擬合現(xiàn)象。模型的訓(xùn)練結(jié)果如圖3所示,訓(xùn)練集的決定系數(shù)為0.99、平均相對誤差為5.86%,說明模型具有較高精度。
圖2 訓(xùn)練集和測試集的均方誤差
圖3 訓(xùn)練結(jié)果
根據(jù)建立的LSTM模型,所選地?zé)峄毓嗑趬毫︻A(yù)測結(jié)果如圖4所示,決定系數(shù)為0.87、總體平均相對誤差為2.63%。從預(yù)測結(jié)果可以看出,基于地?zé)峋毓鄽v史數(shù)據(jù)建立的LSTM模型能準(zhǔn)確地預(yù)測井口回灌壓力的變化趨勢。表1統(tǒng)計(jì)了部分日期的預(yù)測結(jié)果。
圖4 井口回灌壓力預(yù)測結(jié)果
表1 井口回灌壓力預(yù)測值與實(shí)際值統(tǒng)計(jì)
續(xù)表
考慮地?zé)峄毓嗑a(chǎn)的前后關(guān)聯(lián)性,利用現(xiàn)場容易采集的井口回灌壓力、井口回灌溫度、日回灌量和累計(jì)回灌量,建立了一種地?zé)峋毓鄩毫STM預(yù)測方法,得到結(jié)論如下:
(1)基于現(xiàn)場生產(chǎn)數(shù)據(jù)的LSTM模型可以很好地預(yù)測地?zé)峋诨毓鄩毫?,總體平均相對誤差為1.63%,預(yù)測精度能滿足現(xiàn)場工程應(yīng)用要求,為地?zé)峄毓嗑a(chǎn)狀況診斷和措施決策提供了一種快速、簡便方法。
(2)本文建立的LSTM神經(jīng)網(wǎng)絡(luò)模型具有良好的預(yù)測性。所建立的LSTM模型的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為:第一層內(nèi)神經(jīng)元數(shù)目為64、第二層內(nèi)神經(jīng)元數(shù)目為128、訓(xùn)練次數(shù)為500、時(shí)間步長為3天、批次大小為64、忽略層的比例為20%。
(3)基于目前的研究成果,可以進(jìn)一步將采出井的相關(guān)參數(shù)引入LSTM模型中,以考慮采灌井之間的干擾影響進(jìn)行生產(chǎn)預(yù)測;利用LSTM建立地?zé)峋毓鄩毫︻A(yù)測模型,較長時(shí)間段的生產(chǎn)數(shù)據(jù)樣本會(huì)進(jìn)一步提高預(yù)測精度;對于生產(chǎn)時(shí)間較短的地?zé)峋ㄗh采用遷移學(xué)習(xí)方法來解決小樣本問題。
(4)本研究成果對地?zé)嵘a(chǎn)制度優(yōu)化、儲層污染性評價(jià)、儲層解堵等方面具有指導(dǎo)意義。