清華大學(xué)自動(dòng)化系 鄭宇哲 葉朝輝
中海油田服務(wù)股份有限公司 劉西恩 趙 龍
石油測(cè)井技術(shù)發(fā)展至今日,整體趨勢(shì)上勘探領(lǐng)域不斷擴(kuò)大,研究對(duì)象也越來越復(fù)雜。以基于地層均質(zhì)假設(shè)的測(cè)井響應(yīng)方程建模方法和統(tǒng)計(jì)分析建立回歸方程為主的傳統(tǒng)測(cè)井解釋方法,面對(duì)較為復(fù)雜的研究對(duì)象時(shí),識(shí)別精度往往不夠準(zhǔn)確,并且多數(shù)情況下,對(duì)技術(shù)人員的經(jīng)驗(yàn)要求較高[1]。而當(dāng)前發(fā)展迅速的人工智能技術(shù)可以從已有的歷史數(shù)據(jù)中自主發(fā)現(xiàn)和學(xué)習(xí)規(guī)律,并依此對(duì)新的樣本數(shù)據(jù)進(jìn)行識(shí)別或預(yù)測(cè)。它可以針對(duì)測(cè)井?dāng)?shù)據(jù)的特點(diǎn)進(jìn)行全方面的信息挖掘,其處理數(shù)據(jù)的思路和方法與傳統(tǒng)理論完全不同,與之相比有著獨(dú)到的優(yōu)點(diǎn)[2]。前人在使用機(jī)器學(xué)習(xí)方法進(jìn)行測(cè)井解釋方面已經(jīng)做出了一些研究,但基本都是使用一些淺層結(jié)構(gòu)的模型,在樣本的選取和訓(xùn)練過程中的細(xì)節(jié)方面的考慮也稍顯欠缺,因此最終得到的預(yù)測(cè)精度還有提升空間[3-6]。本次研究緊密結(jié)合實(shí)際生產(chǎn),采用了深度BP神經(jīng)網(wǎng)絡(luò)、聚類、RBM等多項(xiàng)深度學(xué)習(xí)技術(shù),并且在數(shù)據(jù)的預(yù)處理階段和訓(xùn)練過程中采用了多種方法來提高其準(zhǔn)確率,最終在孔隙度儲(chǔ)層參數(shù)上獲得了較高的識(shí)別精度,說明基于深度學(xué)習(xí)的新型測(cè)井解釋方法在實(shí)際生產(chǎn)中具有一定的應(yīng)用價(jià)值。
研究區(qū)域位于山西省內(nèi)的某作業(yè)區(qū),為中海油田服務(wù)股份有限公司的開發(fā)區(qū)域。經(jīng)過甄選,以一段連續(xù)的共計(jì)300多米的測(cè)井段作為研究對(duì)象,其采樣間隔為0.1米,共計(jì)3000多個(gè)測(cè)井?dāng)?shù)據(jù)點(diǎn)。在該測(cè)井段內(nèi)使用了多種測(cè)井項(xiàng)目,共包括井徑、井斜、中子、聲波、伽馬、光電、密度、自然電位、陣列感應(yīng)電阻率、深淺測(cè)電阻率、泥質(zhì)含量等。最終探明該井段包含多種類型的儲(chǔ)層,包括干層、差氣層、氣層。該測(cè)井段樣本充足且樣本多樣性豐富,為使用深度學(xué)習(xí)進(jìn)行研究提供了良好的先決條件。
深度學(xué)習(xí)模型最終預(yù)測(cè)性能的好壞很大程度上與輸入特征的選取有關(guān)。
由于本井段測(cè)井項(xiàng)目較多,因此可供選擇的輸入特征較多。對(duì)于一個(gè)儲(chǔ)層物性參數(shù),本文采用如下的方法確定輸入特征:
(1)采用SIS(Sure Independence Screening)算法[7]:生成若干組服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,計(jì)算這些隨機(jī)變量與響應(yīng)變量之間的相關(guān)系數(shù),取其中最大值作為臨界值T。之后,再計(jì)算每一個(gè)特征與響應(yīng)變量之間的相關(guān)系數(shù),初步篩選出相關(guān)系數(shù)大于T的特征。
(2)結(jié)合測(cè)井技術(shù)人員的經(jīng)驗(yàn)與SIS方法的計(jì)算結(jié)果,在初步篩選的基礎(chǔ)上進(jìn)一步選取可靠的輸入特征。
以孔隙度為例,表1所示為經(jīng)過篩選后得到的輸入特征。
表1 孔隙度的輸入特征
大量的勘探實(shí)踐和理論研究已經(jīng)證明了地層的非均質(zhì)性以及測(cè)井?dāng)?shù)據(jù)和儲(chǔ)層物性參數(shù)之間的響應(yīng)的非線性性質(zhì),而Hornik等人證明[8],三層以上神經(jīng)網(wǎng)絡(luò)具有可逼近任意連續(xù)函數(shù)的特點(diǎn)。BP神經(jīng)網(wǎng)絡(luò)常用于解決一般的非線性響應(yīng)問題,因此考慮使用其來建立測(cè)井?dāng)?shù)據(jù)到儲(chǔ)層物性參數(shù)之間的映射關(guān)系[9]。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的確定沒有一般性的通用法則,結(jié)構(gòu)過于簡(jiǎn)單容易造成欠擬合,結(jié)構(gòu)過于復(fù)雜則容易造成過擬合[11]。由于網(wǎng)絡(luò)參數(shù)較多時(shí)也會(huì)要求訓(xùn)練樣本數(shù)目增大,為與實(shí)際生產(chǎn)相結(jié)合,研究需要同時(shí)滿足結(jié)構(gòu)盡量簡(jiǎn)單和足夠的預(yù)測(cè)精度兩個(gè)條件。以孔隙度為例,采用“試湊法”,對(duì)于多種結(jié)構(gòu)進(jìn)行重復(fù)實(shí)驗(yàn)得出,隱層的層數(shù)選取為2層比較合理,最終確定網(wǎng)絡(luò)結(jié)構(gòu)為8X6X3X1,如圖1所示。
圖1 預(yù)測(cè)孔隙度的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在實(shí)際生產(chǎn)中,對(duì)于新開發(fā)的區(qū)域,測(cè)井?dāng)?shù)據(jù)往往有限。為與將來的實(shí)際生產(chǎn)對(duì)接,希望在所用到的訓(xùn)練數(shù)據(jù)盡量少的情況下,還能保證較高的預(yù)測(cè)精度。因此對(duì)于所給的數(shù)據(jù)集,應(yīng)將小部分取出用于訓(xùn)練,而將大部分留下作為測(cè)試集,故訓(xùn)練樣本集應(yīng)具有一定的代表性,充分覆蓋多種類別的儲(chǔ)層,且各個(gè)類別之間的樣本數(shù)目應(yīng)大致相同。
具體方法為:(1)將3000多個(gè)測(cè)井?dāng)?shù)據(jù)點(diǎn)進(jìn)行自底向上的層次聚類處理。由于該井段的儲(chǔ)層類別劃分為干層、差氣層、氣層三類,因此選擇目標(biāo)聚類簇?cái)?shù)為3。(2)聚類完成后,在3個(gè)簇中再按照一定的比例抽取數(shù)據(jù)點(diǎn),組合成訓(xùn)練集[13]。由此得到的訓(xùn)練集具有較好的代表性。
改變抽取的比例,組成樣本容量不同的訓(xùn)練集合,采用簡(jiǎn)易的BP算法對(duì)2.2中所確定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用150個(gè)數(shù)據(jù)點(diǎn)構(gòu)成的驗(yàn)證集觀察隨著訓(xùn)練集樣本容量的增加時(shí)網(wǎng)絡(luò)性能的變化情況,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 驗(yàn)證集準(zhǔn)確率隨訓(xùn)練樣本容量變化情況
由圖2可見,樣本容量在300以上時(shí),模型的精度不再隨容量的增加有明顯提高,波動(dòng)的范圍可以認(rèn)為是訓(xùn)練過程中的隨機(jī)因素導(dǎo)致。即在實(shí)際生產(chǎn)中,若收集到300個(gè)以上比較具有代表性的樣本點(diǎn)時(shí),使用本文提出的方法預(yù)期可以得到較高的預(yù)測(cè)精度。經(jīng)過調(diào)整最終將孔隙度模型的訓(xùn)練集樣本容量確定為315個(gè)。
本次研究采用了先使用受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,以下簡(jiǎn)稱為RBM)進(jìn)行無監(jiān)督預(yù)訓(xùn)練,再采用有監(jiān)督方法調(diào)優(yōu)的訓(xùn)練模型策略[14]。
RBM其結(jié)構(gòu)如圖3所示,是由一個(gè)可見層和一個(gè)隱層組成的層內(nèi)無連接、層間無向全連接的一種概率神經(jīng)網(wǎng)絡(luò)。
圖3 RBM結(jié)構(gòu)示意圖
因此,可將神經(jīng)網(wǎng)絡(luò)相鄰的兩層看作一個(gè)RBM,上一層的響應(yīng)即為下一層的輸入。而實(shí)際應(yīng)用表明,使用RBM訓(xùn)練得到的權(quán)值來初始化BP神經(jīng)網(wǎng)絡(luò),有助于解決傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)隨機(jī)初始化帶來的容易陷入局部極小值點(diǎn)和收斂過慢的問題,從而提升網(wǎng)絡(luò)預(yù)測(cè)精度。本次研究采用了CRBM(Continuous Restricted Boltzmann Machine)模型[15],使用CD(Contrastive Divergence)算法[16],對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行逐層預(yù)訓(xùn)練。設(shè)置迭代到重構(gòu)誤差以均方根誤差衡量時(shí)達(dá)到0.01時(shí)預(yù)訓(xùn)練完成。
在有監(jiān)督訓(xùn)練調(diào)優(yōu)階段,傳統(tǒng)的梯度下降法遍歷整個(gè)訓(xùn)練集后才對(duì)權(quán)值做一次更新,計(jì)算量大導(dǎo)致訓(xùn)練緩慢,本次研究采用小批次梯度下降法,即每次從訓(xùn)練集中抽取一批樣本計(jì)算梯度,完成權(quán)值的更新。為了加快收斂,引入了動(dòng)量和衰減學(xué)習(xí)率的機(jī)制,其迭代公式為:
其中ΔWn為本次權(quán)值更新量,ΔWn-1為上次權(quán)值更新量,Δ J為梯度,γ、η分別為動(dòng)量參數(shù)和學(xué)習(xí)率。
設(shè)置迭代輪數(shù)上限為50000,目標(biāo)收斂精度為0.0001,動(dòng)量參數(shù)γ取0.9,學(xué)習(xí)率η初始取0.01,每迭代100輪將其乘以0.5。以2.3中確定的樣本容量,在聚類之后的總計(jì)3000多個(gè)樣本中,抽取315個(gè)樣本作為訓(xùn)練集,另外抽取100個(gè)樣本作為驗(yàn)證集,將其余的樣本均作為測(cè)試集,某一次訓(xùn)練的誤差變化趨勢(shì)如圖4所示。
圖4 訓(xùn)練過程誤差變化趨勢(shì)
訓(xùn)練過程引入了“早停止”機(jī)制來防止過擬合,即檢測(cè)到經(jīng)過一定迭代輪數(shù),驗(yàn)證集的誤差不再下降時(shí),便停止訓(xùn)練。圖中驗(yàn)證集曲線上的標(biāo)記點(diǎn)為誤差最低點(diǎn)。最終經(jīng)過1020輪迭代后訓(xùn)練結(jié)束。此時(shí)得到訓(xùn)練集上網(wǎng)絡(luò)預(yù)測(cè)的孔隙度和測(cè)井?dāng)?shù)據(jù)的孔隙度的相關(guān)系數(shù)達(dá)到0.9938。
之后采用該模型對(duì)全井段進(jìn)行預(yù)測(cè),得到相關(guān)系數(shù)為0.9788,繪制散點(diǎn)圖如圖5所示(將孔隙度歸一化到[-1,1]之間進(jìn)行作圖,下同)。選取部分井段繪制曲線圖6所示(隱去了橫軸的具體深度)。由圖6可見,網(wǎng)絡(luò)預(yù)測(cè)結(jié)果和測(cè)井?dāng)?shù)據(jù)高度重合,說明預(yù)測(cè)結(jié)果精度較高。
圖5 全井段孔隙度預(yù)測(cè)結(jié)果
圖6 全井段測(cè)井?dāng)?shù)據(jù)與網(wǎng)絡(luò)預(yù)測(cè)孔隙度曲線
山西省某作業(yè)區(qū)內(nèi)的該測(cè)井段,其樣本類型豐富,適合使用深度學(xué)習(xí)方法對(duì)其進(jìn)行研究,搭建儲(chǔ)層物性參數(shù)預(yù)測(cè)模型。具體步驟如下:
(1)采用SIS算法并結(jié)合經(jīng)驗(yàn)選取預(yù)測(cè)變量。
(2)采用BP神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型,確定模型結(jié)構(gòu),并且為切合實(shí)際生產(chǎn)情況,確定了訓(xùn)練集的樣本容量。
(3)使用聚類方法預(yù)處理數(shù)據(jù),從聚類結(jié)果中抽取一定的比例組成訓(xùn)練集、驗(yàn)證集。
(4)采用無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督調(diào)優(yōu)的訓(xùn)練策略:無監(jiān)督階段將神經(jīng)網(wǎng)絡(luò)每?jī)蓪涌醋饕粋€(gè)CRBM,采用CD算法預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò);有監(jiān)督階段使用引入動(dòng)量和衰減學(xué)習(xí)率機(jī)制的小批次梯度下降法加快收斂,并引入了“早停止”措施防止過擬合。
使用該流程對(duì)孔隙度進(jìn)行了預(yù)測(cè),得到了良好的預(yù)測(cè)結(jié)果,說明本文提出的方法在實(shí)際生產(chǎn)中有一定的應(yīng)用價(jià)值。
[1]楊斌,匡立春,孫中春,等.神經(jīng)網(wǎng)絡(luò)及其在石油測(cè)井中的應(yīng)用[M]北京:石油工業(yè)出版社,2005:94-98.
[2]宋文廣,李振智,陳漢林,等.地層原油物性參數(shù)大數(shù)據(jù)處理方法研究[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(3):270-274.
[3]張偉,師奕兵,周龍甫,等.基于改進(jìn)的粒子群-小波神經(jīng)網(wǎng)絡(luò)的固井質(zhì)量智能評(píng)價(jià)[J].信息與控制,2010,39(3):276-283.
[4]邊會(huì)媛,潘保芝,王飛,等.基于橫波測(cè)井資料的神經(jīng)網(wǎng)絡(luò)火山巖流體性質(zhì)識(shí)別[J].測(cè)井技術(shù),2013,37(3):264-268.
[5]李民,陳科貴,楊智,張家浩,劉鑫.基于模式識(shí)別的稠油油藏復(fù)雜巖性識(shí)別方法[J].測(cè)井技術(shù),2017,41(4):453-457.
[6]ALI Dashti,EBRAHIM Sefidari.伊朗扎格羅斯地區(qū)Mansuri油田儲(chǔ)集層物性模擬[J].石油勘探與開發(fā),2016,43(4):559-563.
[7]Fan J Q,Lv J.Sure independence screening for ultrahigh dimensional feature space[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2008,70(5):849-911.
[8]K Hornik,M Stinchcombe,H White.Multilayer feedforward networks are universal approximators[J].Neural Networks,1989,2(5):359-366.
[9]趙軍龍,李綱,麻平社,等.神經(jīng)網(wǎng)絡(luò)在石油測(cè)井解釋中的應(yīng)用綜述[J].地球物理學(xué)進(jìn)展,2010,25(5):1744-1751.
[10]王娜娜,張國英,王明君,等.改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)在石油測(cè)井解釋中的應(yīng)用[J].北京石油化工學(xué)院學(xué)報(bào),2008,16(1):17-20.
[11]侯祥林,胡英,李永強(qiáng),等.多層人工神經(jīng)網(wǎng)絡(luò)合理結(jié)構(gòu)的確定方法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,24(1):35-38.
[12]范佳妮,王振雷,錢鋒.BP人工神經(jīng)網(wǎng)絡(luò)隱層結(jié)構(gòu)設(shè)計(jì)的研究進(jìn)展[J].控制工程,2005,(S1):109-113.
[13]韓習(xí)武,趙鐵軍.一種聚類質(zhì)量的評(píng)價(jià)方法及其應(yīng)用[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2009,41(11):225-227.
[14]Hinton.G.E et al.A fast learning algorithm for deep belief nets[J].Neural Computation,vol.18,2006,1527-1554.
[15]H Chen,A Murray.A Continuous Restricted Boltzmann Machine with a Hardware-Amenable Learning Algorithm[J].Lecture Notes in Computer Science,2002,2415:358-363.
[16]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.