陳鋼花 梁莎莎*② 王 軍 祗淑華 諸葛月英 劉有基
(①中國(guó)石油大學(xué)(華東)地球科學(xué)與技術(shù)學(xué)院,山東青島 266580; ②嘉興市佳安燃?xì)饧夹g(shù)服務(wù)有限公司,浙江嘉興 314000; ③中國(guó)石化勝利油田分公司勘探開發(fā)研究院,山東東營(yíng)257015;④中國(guó)石油集團(tuán)測(cè)井有限公司華北分公司,河北任丘 062550)
利用常規(guī)測(cè)井曲線難以準(zhǔn)確識(shí)別復(fù)雜砂礫巖儲(chǔ)層[1]中的流體類型,并且效率較低,主要是因?yàn)槌R?guī)測(cè)井資料受巖性影響大,巖石骨架對(duì)測(cè)井響應(yīng)特征的影響大于流體。另外,地層水礦化度低、巖石礦物成分多樣等因素也會(huì)造成油、水層差異不明顯,利用常規(guī)測(cè)井曲線判斷流體時(shí)誤差較大[2]。核磁共振測(cè)井技術(shù)的應(yīng)用提高了復(fù)雜儲(chǔ)層的識(shí)別精度,但是限于成本尚不能廣泛應(yīng)用于生產(chǎn)[3]。常規(guī)測(cè)井技術(shù)成本低、應(yīng)用數(shù)據(jù)量大,利用機(jī)器學(xué)習(xí)研究常規(guī)測(cè)井資料在流體識(shí)別中的應(yīng)用具有重要意義。
機(jī)器學(xué)習(xí)是利用計(jì)算機(jī)、概率論、統(tǒng)計(jì)學(xué)等通過數(shù)據(jù)輸入,讓計(jì)算機(jī)學(xué)會(huì)新知識(shí),從而實(shí)現(xiàn)人工智能。機(jī)器學(xué)習(xí)的過程就是通過訓(xùn)練數(shù)據(jù)尋找目標(biāo)函數(shù),常用算法主要有決策樹[4]、隨機(jī)森林算法[5]、邏輯回歸、支持向量機(jī)[6]、神經(jīng)網(wǎng)絡(luò)[7]、聚類分析[8]等。近年來,機(jī)器學(xué)習(xí)逐漸成為儲(chǔ)層評(píng)價(jià)研究的熱點(diǎn)[9],其以常規(guī)測(cè)井?dāng)?shù)據(jù)為基礎(chǔ),能大幅度提高流體識(shí)別精度。因此,機(jī)器學(xué)習(xí)技術(shù)的研究對(duì)于油氣開發(fā)具有重要意義[10]。劉得芳等[11]應(yīng)用決策樹方法提高了利用單一信息判別的準(zhǔn)確性。張銀德等[12]結(jié)合測(cè)井資料和試采資料,利用支持向量機(jī)方法準(zhǔn)確識(shí)別了油、氣、水層。王少龍等[13]實(shí)現(xiàn)了BP神經(jīng)網(wǎng)絡(luò)在儲(chǔ)層流體中的信息自動(dòng)化識(shí)別。陳鋼花等[14]構(gòu)建聲—電測(cè)井聯(lián)合流體識(shí)別因子應(yīng)用于川東碳酸鹽巖氣藏研究中,解釋結(jié)果與試采結(jié)果吻合較好。但是,諸多算法中神經(jīng)網(wǎng)絡(luò)算法較為復(fù)雜,如果學(xué)習(xí)樣本數(shù)量較少,容易出現(xiàn)過擬合問題,導(dǎo)致準(zhǔn)確率下降。同時(shí),神經(jīng)網(wǎng)絡(luò)“黑盒”過程導(dǎo)致無(wú)法觀察中間結(jié)果,學(xué)習(xí)時(shí)間長(zhǎng),容易陷入局部極小值。在分類較多時(shí),決策樹法錯(cuò)誤率較高。如果所用測(cè)井曲線數(shù)量以及標(biāo)準(zhǔn)樣本數(shù)量不大時(shí),應(yīng)用聚類算法難以獲得較為準(zhǔn)確的結(jié)果。
針對(duì)以上問題,本文將AdaBoost(Adaptive Boosting,自適應(yīng)增強(qiáng))算法應(yīng)用于砂礫巖儲(chǔ)層流體識(shí)別中,以提高流體識(shí)別精度。
Boosting算法也稱為提升法或者增強(qiáng)學(xué)習(xí),是一類常用的機(jī)器學(xué)習(xí)算法[15]。它是將弱學(xué)習(xí)器(Weak Learners)集成提升為一個(gè)預(yù)測(cè)(分類)精度高的強(qiáng)學(xué)習(xí)器(Strong Learner)。AdaBoost算法是Boosting算法族中最有影響的一種迭代算法[16],其預(yù)測(cè)精準(zhǔn)、算法簡(jiǎn)單,在諸多領(lǐng)域都有著成功應(yīng)用,尤其在處理分類問題和模式識(shí)別領(lǐng)域更為突出,例如人臉識(shí)別、語(yǔ)音識(shí)別、文本識(shí)別、遙感分類等[17]。AdaBoost算法迭代是通過改變訓(xùn)練集中樣本數(shù)據(jù)各自的權(quán)重實(shí)現(xiàn)的,實(shí)現(xiàn)過程如圖1所示:
(1)對(duì)于二分類問題,在初始化時(shí)對(duì)訓(xùn)練集中的每一個(gè)樣本數(shù)據(jù)賦予同樣的權(quán)重,并訓(xùn)練出一個(gè)弱學(xué)習(xí)器1(圖1a左);
(2)根據(jù)弱學(xué)習(xí)器1對(duì)樣本數(shù)據(jù)的訓(xùn)練誤差率更新樣本數(shù)據(jù)的訓(xùn)練權(quán)重,使之前弱學(xué)習(xí)器1分類錯(cuò)誤的訓(xùn)練樣本點(diǎn)的權(quán)重增加,并使錯(cuò)誤數(shù)據(jù)點(diǎn)被下一個(gè)弱學(xué)習(xí)器選中的概率增加(圖1a右);
(3)基于調(diào)整權(quán)重后的訓(xùn)練樣本訓(xùn)練弱學(xué)習(xí)器2(圖1b左);
(4)重復(fù)上述(2)和(3)的步驟直至弱學(xué)習(xí)器數(shù)目達(dá)到事先指定的數(shù)目(圖1b右、圖1c左);
(5)將各個(gè)訓(xùn)練得到的弱學(xué)習(xí)器組合得到最終的強(qiáng)分類器(圖1c右)。
最初的AdaBoost算法只適用于二分類問題,而在實(shí)際中常常會(huì)遇到多分類問題。關(guān)于二分類問題,要求弱學(xué)習(xí)器的分類正確率比隨機(jī)猜測(cè)略好,即正確率大于1/2。關(guān)于類別數(shù)目為K的多分類問題,弱學(xué)習(xí)器的分類正確率比隨機(jī)猜測(cè)正確率1/K略大這一條件過弱,很難集成出一個(gè)精度高的強(qiáng)學(xué)習(xí)器。而弱學(xué)習(xí)器的分類正確率大于1/2這一條件又過強(qiáng),可能導(dǎo)致在實(shí)際應(yīng)用中難以找到足夠多個(gè)正確率大于1/2的弱學(xué)習(xí)器[18]。
AdaBoost.M2算法作為AdaBoost算法的推廣,適用于解決多分類問題。對(duì)于K類多分類問題,AdaBoost.M2算法將其拆解為K-1個(gè)二分類問題加以解決。
AdaBoost.M2算法反復(fù)調(diào)用給定的弱學(xué)習(xí)器算法,主要是在訓(xùn)練集中維護(hù)一套權(quán)重分布。在第t輪迭代時(shí),樣本(xi,yi)(i為樣本編號(hào),xi為樣本數(shù)據(jù),yi為該樣本的標(biāo)簽)的分布權(quán)值記為Dt(i)。初始所有樣本權(quán)重相等,但進(jìn)行迭代時(shí),每一輪錯(cuò)誤分類的樣本權(quán)重都將會(huì)增加。弱學(xué)習(xí)器的任務(wù)就是根據(jù)分布Dt(i)找到合適的分類器。對(duì)于給定樣本數(shù)據(jù)xi,有正確分類yi和非正確分類y(除yi之外的K-1類)[19]。調(diào)用弱學(xué)習(xí)算法自動(dòng)得到分類器ht,并假設(shè)ht從[0,1]取值。對(duì)于樣本(xi,yi),ht會(huì)進(jìn)行K-1次判別,每一次判別都有三種情況: 當(dāng)ht(xi,yi)=1、ht(xi,y)=0時(shí),則分類正確,xi的類別是yi; 當(dāng)ht(xi,yi)=0、ht(xi,y)=1時(shí),則分類錯(cuò)誤,xi的類別是y; 當(dāng)ht(xi,yi)=ht(xi,y)時(shí),則xi的類別隨機(jī)從yi和y中選取一個(gè)。
圖1 AdaBoost算法原理示意圖 左為弱學(xué)習(xí)器訓(xùn)練過程,右為訓(xùn)練結(jié)果
每一次判別錯(cuò)誤分類為y的概率為
(1)
(2)
(3)
從而可以得到評(píng)估弱學(xué)習(xí)器好壞的偽損失
(4)
偽損失εt對(duì)判別正確率低的弱分類器ht進(jìn)行懲罰,減少其投票權(quán)重。同時(shí),在下一輪迭代中增加錯(cuò)誤分類的標(biāo)簽權(quán)重,加大對(duì)錯(cuò)分樣本的訓(xùn)練機(jī)會(huì)。
AdaBoost.M2算法的實(shí)現(xiàn)步驟如下。
(1)輸入樣本總數(shù)為N的訓(xùn)練集S={(x1,y1),…,(xi,yi),…,(xN,yN)},標(biāo)簽yi∈Y={1,2,K},其中i為樣本編號(hào),K是類別數(shù)。
(5)
(3)循環(huán)迭代t=1,…,T。
③計(jì)算ht的偽損失。
⑤計(jì)算新的權(quán)重
(6)
式中:i=1,2,…,N;y∈Y-(yi)。
(4)輸出T次循環(huán)后得到的最終組合分類器
(7)
A研究區(qū)砂礫巖具有近物源、快速堆積、縱向厚度變化大、相變快等特點(diǎn)。礫石成分復(fù)雜、孔隙結(jié)構(gòu)多樣、非均質(zhì)性強(qiáng),存在多油水系統(tǒng),油水層測(cè)井響應(yīng)特征差異不明顯[20]。通常自然電位(SP)異常幅度可以反映儲(chǔ)層滲透性、地層水礦化度,電阻率(RT)大小取決于孔隙結(jié)構(gòu)以及孔隙所含流體。但在復(fù)雜砂礫巖儲(chǔ)層中,地層水礦化度差異大,砂礫巖體巖石骨架對(duì)電阻率的的影響遠(yuǎn)遠(yuǎn)大于流體,利用常規(guī)測(cè)井資料難以準(zhǔn)確評(píng)價(jià)油、水層。
圖2 研究區(qū)電阻率—密度交會(huì)圖
由圖2可知,利用密度與電阻率難以識(shí)別流體。因而,選取反映儲(chǔ)層巖性、物性、流體性質(zhì)的SP、GR(伽馬)、RT、AC(聲波時(shí)差)、CNL(補(bǔ)償中子)、DEN(密度)等六種測(cè)井資料,運(yùn)用機(jī)器學(xué)習(xí)算法,提取反映流體的信息,多參數(shù)結(jié)合實(shí)現(xiàn)砂礫巖中的流體識(shí)別。
首先在關(guān)鍵井中,根據(jù)核磁共振、錄井油氣顯示、試油等結(jié)果選取多個(gè)井段的儲(chǔ)層樣本,綜合考慮巖性、孔隙結(jié)構(gòu)、地層水礦化度等因素,選取上述六種測(cè)井資料作為輸入,建立研究區(qū)干層、水層、油水同層、油層識(shí)別模型。
建模前,對(duì)輸入?yún)?shù)做歸一化處理,消除量綱的影響。圖3為不同流體類型測(cè)井?dāng)?shù)據(jù)歸一化后的平行坐標(biāo)系,從左到右分別為DEN、CNL、GR、AC、SP、RT測(cè)井類型。每一個(gè)樣本為一條曲線,不同顏色的曲線代表不同類型的流體。從圖中可以看出,不同類型流體測(cè)井響應(yīng)特征不同,同一種流體各測(cè)井響應(yīng)特征也不完全一致。因此,采用單一測(cè)井曲線無(wú)法對(duì)復(fù)雜儲(chǔ)層流體類型進(jìn)行劃分,需要多個(gè)測(cè)井參數(shù)進(jìn)行學(xué)習(xí)分類,獲得學(xué)習(xí)模型,識(shí)別油水層。
圖3 歸一化后的參數(shù)平行坐標(biāo)系
在AdaBoost.M2算法中,要求弱學(xué)習(xí)器的輸出為一個(gè)在[0,1]內(nèi)的值。因此,本文采用決策樹法作為弱分類器。在建模過程中,將歸一化后的數(shù)據(jù)作為輸入,輸出為流體類型(判斷為該類型響應(yīng)為1,否則響應(yīng)為0)。本文以研究區(qū)9口井為樣本井,將試油、試采資料的層段作為樣本層,共選擇了反映流體性質(zhì)的353個(gè)樣本數(shù)據(jù)進(jìn)行訓(xùn)練并建立砂礫巖流體識(shí)別模型。其中80%的樣本(282個(gè))作為訓(xùn)練數(shù)據(jù),20%的樣本(71個(gè))作為測(cè)試數(shù)據(jù),并將測(cè)試結(jié)果與試油、試采結(jié)果做對(duì)比分析。
表1為測(cè)試結(jié)果與試油、試采資料的對(duì)比,可以看出代表判別錯(cuò)誤的層共有6個(gè),解釋符合率為91.5%,證明了該模型的適用性,可用于研究區(qū)流體識(shí)別。
研究區(qū)X井流體識(shí)別測(cè)井解釋成果如圖4所示。
圖4 X井試油段解釋成果圖 Rxo為沖洗帶電阻率
表1 測(cè)試結(jié)果與試油、試采結(jié)果對(duì)照表
1437~1462m井段儲(chǔ)層特征明顯,SP值負(fù)異常,GR值低,DEN值偏低,AC值和CNL值均較低,RT值高,具有典型的含油氣特征。本方法判定該儲(chǔ)層為油層,試油結(jié)果日產(chǎn)油68.9×104m3。1611~1614m井段和1635~1640m井段的45、49號(hào)層SP值負(fù)異常,GR值低,DEN值中等,AC值和CNL值均中等,RT值較高,錄井含油性為熒光,解釋為差油層。本方法判定為干層。試油結(jié)果為干層,2個(gè)層段無(wú)產(chǎn)量。上述結(jié)果表明了本文方法的準(zhǔn)確性和適用性。
AdaBoost.M2算法很好地利用了弱分類器進(jìn)行聯(lián)級(jí),提高了分類準(zhǔn)確度。本文將決策樹法作為弱分類器用于砂礫巖流體識(shí)別,樣本回判準(zhǔn)確率為95%,測(cè)試準(zhǔn)確率達(dá)91.5%,精度高且效果好。隨著油氣藏勘探難度的增加,測(cè)井?dāng)?shù)據(jù)復(fù)雜程度與人工對(duì)比識(shí)別難度也在增加,機(jī)器學(xué)習(xí)是解決該問題的有利途徑,根據(jù)不同地區(qū)的特點(diǎn)選取測(cè)井?dāng)?shù)據(jù)和弱分類器類型、數(shù)目,即可提高流體識(shí)別精度,指導(dǎo)油氣藏生產(chǎn)與開發(fā)。