国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于機器學(xué)習(xí)的有利區(qū)評價新方法

2019-07-26 09:36李克文周廣悅路慎強
特種油氣藏 2019年3期
關(guān)鍵詞:特征選擇準(zhǔn)確率邏輯

李克文,周廣悅,路慎強,郭 俊

(1.中國石油大學(xué)(華東),山東 青島 266580;2.中國石化勝利油田分公司,山東 東營 257022)

0 引 言

目前,中國大部分油田處于勘探開發(fā)中后期,探明儲量以隱蔽性油藏為主,但隱蔽性油藏較難被發(fā)現(xiàn)[1],因此,有利區(qū)預(yù)測是勘探開發(fā)過程中非常關(guān)鍵的一步[2]。傳統(tǒng)的有利區(qū)預(yù)測一般基于斷層、地貌等地質(zhì)信息或者根據(jù)少量常用的地震屬性參數(shù)建模[3],許多學(xué)者在該方面進行了深入的研究,主要以地震、測井等資料為基礎(chǔ),分析構(gòu)造特征以及油藏特征,利用參數(shù)分析法、AVO屬性分析法等完成儲層綜合評價,以此為依據(jù)進行有利區(qū)預(yù)測[4-7]。傳統(tǒng)預(yù)測方法由于地質(zhì)條件復(fù)雜、采用的地震屬性相關(guān)性差、井震匹配關(guān)系差,導(dǎo)致預(yù)測精度低。隨著地球物理技術(shù)的進步和發(fā)展,利用機器學(xué)習(xí)進行有利區(qū)預(yù)測的方式應(yīng)運而生[8-11]。機器學(xué)習(xí)中考慮到地震屬性之間的隱含作用,篩選出對分類起積極作用的關(guān)鍵地震屬性,解決了多解性問題,從而輔助地質(zhì)人員快速圈定有利目標(biāo)。以東營某區(qū)域地震體為例,該區(qū)域的已鉆井?dāng)?shù)量較少,還未對有利區(qū)進行充分的挖掘,采用嶺回歸與邏輯斯諦分類算法相融合的模型,通過對地震屬性集進行相關(guān)性分析,選擇能反映有利區(qū)的關(guān)鍵屬性,進而預(yù)測有利區(qū)分布。

1 研究方法與原理

1.1 嶺回歸

地震屬性集[12]中可能存在大量冗余以及無關(guān)的屬性,使用特征提取算法[13]對屬性集進行約簡,降低屬性集的維度,避免有害屬性對分類結(jié)果產(chǎn)生影響,使得預(yù)測結(jié)果更加準(zhǔn)確。文中使用正則化-嶺回歸進行屬性約減。

正則化即在已有模型的最小化經(jīng)驗誤差函數(shù)上加上額外的約束或者懲罰項,該約束或懲罰項可以理解為對參數(shù)引入先驗分布。誤差函數(shù)由原來的E(X,Y)變?yōu)镋(X,Y)+alpha‖w‖,其中X為輸入變量,Y為輸出變量,w為模型系數(shù)組成的向量,‖‖為L1或者L2的范數(shù)[14],alpha為一個可調(diào)參數(shù),控制正則化的強度。當(dāng)正則化用在線性模型上時,L1正則化和L2正則化也稱為Lasso和Ridge。

L2正則化將模型系數(shù)w的L2范數(shù)添加到了誤差函數(shù)中,其中懲罰項中系數(shù)為二次方,因此,L2正則化會讓系數(shù)的取值變得平均。關(guān)聯(lián)性大的特征,對應(yīng)系數(shù)相近[15]。用于特征選擇時,L2是一種相對穩(wěn)定的模型,對于特征理解來說更加有用[16]:能力強的特征對應(yīng)的系數(shù)為非零。嶺回歸的損失函數(shù)為:

(1)

1.2 基于邏輯斯諦回歸算法的多分類問題研究

簡單的線性回歸函數(shù)中每個訓(xùn)練數(shù)據(jù)對應(yīng)一個假設(shè)值,該假設(shè)值是連續(xù)的,不能直接進行分類,在此函數(shù)基礎(chǔ)上延伸,將概率和假設(shè)值結(jié)合起來進行分類,即邏輯斯諦回歸算法[17-18]。

1.2.1 二項邏輯斯諦回歸模型

二項邏輯斯諦回歸模型是用于分類的模型,使用P(Y|X)表示,其中,隨機變量X取實數(shù),隨機變量Y取1或0。該模型的條件概率分布分別為:

(2)

(3)

式中:x∈Rn,為輸入;Y∈{0,1},為輸出;b為偏置;w·x為內(nèi)積。

根據(jù)給定的輸入值x,由上式求得P(Y=1|x)和P(Y=0|x),通過比較2個條件概率值的大小,將x進行分類[19]。對于給定的訓(xùn)練集T=[(x1,y1),(x2,y2),…,(xN,yN)],模型參數(shù)通過極大似然估計法得到,進而得到邏輯斯諦回歸模型。

1.2.2 多項邏輯斯諦回歸

將二項邏輯斯諦回歸模型推廣為多項邏輯斯諦回歸模型。若定義離散型隨機變量Y的取值集合為{1,2,…,K},則多項邏輯斯諦回歸模型為:

(4)

(5)

式中:x∈Rn+1;wk∈Rn+1。

2 實驗結(jié)果及分析

2.1 實驗數(shù)據(jù)

以東營某區(qū)域第4層位作為研究對象,從勘探數(shù)據(jù)庫、地震數(shù)據(jù)體等數(shù)據(jù)源中提取目的層位的地震屬性、井?dāng)?shù)據(jù)、巖性剖面數(shù)據(jù)、時深轉(zhuǎn)換以及層位數(shù)據(jù)等井震信息,作為有利區(qū)預(yù)測的數(shù)據(jù)來源。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 直井樣本的獲取

選擇井口坐標(biāo)最近的地震道A,提取該地震道對應(yīng)的地震屬性集,記作輸入變量Xi={x1,x2,…,xn},n為地震屬性的個數(shù);根據(jù)層位數(shù)據(jù)選取地震道A的時窗[t1,t2];根據(jù)標(biāo)定數(shù)的時深對,計算對應(yīng)的深度范圍[d1,d2];統(tǒng)計[d1,d2]范圍內(nèi)砂巖的累計厚度,計算類別標(biāo)簽,有利區(qū)按照好、中、差分為3類,記作輸出變量y={0,1,2}。

2.2.2 斜井樣本的獲取

斜井由于井眼軌道偏移,對應(yīng)層位的地震道需要重新計算。根據(jù)井斜數(shù)據(jù),逐點計算采樣點對應(yīng)的垂深、坐標(biāo)方向偏移量[vd,Δx,Δy];利用時深標(biāo)定數(shù)據(jù),計算νd對應(yīng)于地震剖面上的時間st;利用Δx、Δy、井口坐標(biāo)計算與采樣點最近的地震道A。根據(jù)層位數(shù)據(jù)獲取當(dāng)前地震道A的時窗[t1,t2],若stt1,則此時的地震道A即為該斜井目標(biāo)層位在地下對應(yīng)的地震道,再通過式(1)獲取樣本(Xi,y)。

2.3 特征選擇實驗結(jié)果分析

圖1為嶺回歸算法篩選不同對應(yīng)采收率地震屬性。由圖1可知,選擇的特征個數(shù)為5時分類準(zhǔn)確率最高,特征選擇個數(shù)小于5時,分類準(zhǔn)確率整體上呈現(xiàn)升高趨勢,關(guān)鍵屬性個數(shù)的增加提高了分類器的性能;特征選擇個數(shù)大于5時,分類準(zhǔn)確率整體上呈現(xiàn)下降趨勢,無用屬性以及冗余屬性的增加降低了分類器的性能。由實驗可知,分類準(zhǔn)確率最高的5個關(guān)鍵屬性分別為均方根振幅、瞬時相位、最小振幅、弧長、最大振幅。采用嶺回歸得到的關(guān)鍵屬性基本包含了傳統(tǒng)有利區(qū)預(yù)測常用的均方根振幅、瞬時相位、最小振幅、最大振幅等地震屬性,同時篩選出的不常用屬性弧長可作為下一步嘗試用于有利區(qū)預(yù)測的地震屬性。

圖1 嶺回歸特征選擇分類性能

表1為支持向量機遞歸特征消除、方差分析[20]、隨機森林、Lasso回歸[21]、嶺回歸等特征選擇算法在邏輯斯諦回歸、K近鄰算法、決策樹[22]、自適應(yīng)增強算法[23]上的分類準(zhǔn)確率比較。由表1可知,嶺回歸特征選擇算法在邏輯斯諦回歸、K近鄰算法、決策樹、自適應(yīng)增強分類器上的準(zhǔn)確率分別是57.5%、58.4%、52.4%、56.0%,且對比其他的特征選擇算法,嶺回歸對應(yīng)的分類準(zhǔn)確率最高。由此說明嶺回歸特征選擇不僅能夠選擇出比較好的關(guān)鍵特征,而且能夠獲得較高的分類性能。

表1 多種特征選擇方法在不同分類器上的準(zhǔn)確率

2.4 分類預(yù)測實驗結(jié)果分析

2.4.1 采用多種分類算法進行對比實驗

地震屬性作為輸入變量,其衡量的尺度有很大的差異,需要對其進行去均值及方差歸一化處理。將經(jīng)過標(biāo)準(zhǔn)化處理的地震屬性作為分類模型的輸入,采用交叉驗證方法,計算多種帶有默認(rèn)參數(shù)分類算法的準(zhǔn)確率、精確率、召回率以及F1值進行模型評估,選擇分類效果最優(yōu)的模型。

文中采用的分類算法包括邏輯斯諦回歸、線性判別式分析、K近鄰算法、決策樹、樸素貝葉斯[24]等普通分類算法以及自適應(yīng)增強算法、梯度提升決策樹[25]、隨機森林[26]、極端隨機樹、極端梯度提升等。

采用各個算法訓(xùn)練分類模型,計算不同算法對應(yīng)的準(zhǔn)確率、精確率、召回率以及F1值(表2、3)。普通分類算法中線性判別式分析、邏輯斯諦回歸以及K近鄰算法的準(zhǔn)確率都達(dá)到了50.0%以上,集成分類算法中的梯度提升決策樹、隨機森林、極端梯度提升準(zhǔn)確率較高,說明以上算法具有進一步研究的意義。

表2 普通分類算法性能指標(biāo)

表3 集成分類算法性能指標(biāo)

2.4.2 確定最優(yōu)參數(shù)

選取分類效果比較好的幾種算法的常用參數(shù)取值范圍,采用網(wǎng)格搜索進行自動調(diào)參,使用交叉驗證降低劃分訓(xùn)練集造成的偶然性,獲得平均準(zhǔn)確率最高的參數(shù)組合。最優(yōu)參數(shù)的選擇結(jié)果如表4所示。

表4 分類器最優(yōu)參數(shù)

由表4可知,經(jīng)最優(yōu)參數(shù)選擇后的K近鄰算法、梯度提升決策樹以及邏輯斯諦回歸的準(zhǔn)確率最高。

2.4.3 選擇最優(yōu)的分類算法

利用表4中的K近鄰算法、梯度提升決策樹以及邏輯斯諦回歸最優(yōu)參數(shù)算法對數(shù)據(jù)樣本進行重新訓(xùn)練,采用交叉驗證,隨機選擇種子,保證分類結(jié)果的準(zhǔn)確性。各訓(xùn)練模型的分類算法指標(biāo)如表5所示。

表5 優(yōu)選分類算法性能指標(biāo)

綜上所述,邏輯斯諦回歸分類算法準(zhǔn)確率最高,達(dá)到60.0%左右,且精確率、召回率以及F1值相對于其他算法也是最高的,因此,確定為最優(yōu)算法。

2.5 采用嶺回歸+邏輯斯諦回歸預(yù)測有利區(qū)

將預(yù)處理后的地震屬性集作為輸入,采用嶺回歸篩選出關(guān)鍵地震屬性集,包括均方根振幅、瞬時相位、最小振幅、弧長、最大振幅,將其作為邏輯斯諦回歸模型的輸入,進而訓(xùn)練分類模型,該融合模型的分類準(zhǔn)確率為61.5%,精確率為48.5%,召回率為60.1%,F(xiàn)1值為48.5%。實驗結(jié)果表明,利用嶺回歸與邏輯斯諦分類相融合的算法,分類準(zhǔn)確率達(dá)到60%以上,預(yù)測效果明顯。

圖2為對東營某區(qū)域進行預(yù)測的二維結(jié)果俯視圖,其中綠色區(qū)域代表非有利儲層發(fā)育區(qū)(標(biāo)簽為0),黃色區(qū)域代表儲層發(fā)育區(qū)(標(biāo)簽為1),紅色區(qū)域代表有利儲層發(fā)育區(qū)(標(biāo)簽為2),藍(lán)色表示無數(shù)據(jù)區(qū)域??碧饺藛T能夠以圖中黃色以及紅色連片區(qū)域作為參考,進行有利區(qū)的圈定。

圖2 東營某區(qū)域有利區(qū)預(yù)測結(jié)果

3 結(jié)論和認(rèn)識

(1) 采用嶺回歸與邏輯斯諦分類相融合的算法進行有利區(qū)預(yù)測,分類準(zhǔn)確率達(dá)到60.0%以上,與常規(guī)儲層預(yù)測方法相比效果明顯,證明了該文提出的基于機器學(xué)習(xí)預(yù)測方法的有效性。

(2) 通過預(yù)測結(jié)果,得到有利區(qū)的大概分布范圍,為地質(zhì)勘探人員打井提供了一種參考,從而快速圈定有利區(qū)。

(3) 因有利區(qū)的判定不僅與地震屬性相關(guān),后續(xù)研究將綜合考慮除地震屬性之外的地質(zhì)構(gòu)造特征、測井解釋成果、試油結(jié)論等進行有利區(qū)的預(yù)測,同時,將會不斷實踐新的算法以及改進算法,進一步提高利用機器學(xué)習(xí)預(yù)測有利區(qū)的準(zhǔn)確率。

猜你喜歡
特征選擇準(zhǔn)確率邏輯
刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
正交基低冗余無監(jiān)督特征選擇法
邏輯
創(chuàng)新的邏輯
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
網(wǎng)絡(luò)入侵檢測場景下的特征選擇方法對比研究
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
女人買買買的神邏輯