国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隨機(jī)森林算法在測井巖性分類中的應(yīng)用

2020-07-20 11:38:40康乾坤路來君
世界地質(zhì) 2020年2期
關(guān)鍵詞:決策樹巖性類別

康乾坤,路來君

吉林大學(xué) 地球科學(xué)學(xué)院,長春 130061

0 引言

巖性分類識別是地質(zhì)工作中重要的一部分,通過對巖性的識別分類,可以直觀地表達(dá)出巖石地球物理屬性在縱深維度上的變化特征和規(guī)律,揭示出油藏、氣藏和礦藏等的潛在分布特性[1]。對于巖性信息的獲取多依靠實(shí)地巖芯取樣、交會圖[2]和聚類分析[3]等傳統(tǒng)方法和數(shù)理統(tǒng)計(jì)手段,隨后發(fā)展為神經(jīng)網(wǎng)絡(luò)[4-9]、支持向量機(jī)[10]等機(jī)器學(xué)習(xí)方法。傳統(tǒng)方法中實(shí)地巖芯取樣和巖芯編錄所獲取的資料質(zhì)量較高,是寶貴的地質(zhì)基礎(chǔ)資料,但是存在人力成本和時間成本較高的不足。隨著測井技術(shù)的不斷完善,物探測井信息的豐富度也越來越高,在龐雜的物探測井?dāng)?shù)據(jù)中如何快速有效地獲取儲層巖性信息逐漸成為提升地質(zhì)工作效率的一個重要問題。

機(jī)器學(xué)習(xí)算法用以解決地質(zhì)問題,為提升地質(zhì)工作的效率提供了新的思路和方法。前人已做大量的相關(guān)工作。巖性識別中的機(jī)器學(xué)習(xí)方法由最初基于無監(jiān)督的聚類分析法[3]、無監(jiān)督的自組織競爭神經(jīng)網(wǎng)絡(luò)[6]等,迅速發(fā)展到后續(xù)基于有監(jiān)督的BP神經(jīng)網(wǎng)絡(luò)[7]、卷積神經(jīng)網(wǎng)絡(luò)[8]和基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)[9]等,準(zhǔn)確率不斷地提升,識別效果也越來越明顯。目前這些方法也存在一些問題和不足,神經(jīng)網(wǎng)絡(luò)方法容易存在過擬合、收斂速度較慢等問題[8];支持向量機(jī)則較大程度上依賴于核函數(shù)的選取和懲罰系數(shù)的選擇[10];無監(jiān)督學(xué)習(xí)的方法存在分類類別難以控制以及需要足夠大的樣本群來保證性能等不足[6]。因此有必要探索出更穩(wěn)健、更適用的機(jī)器學(xué)習(xí)方法來處理地質(zhì)應(yīng)用中巖性自動識別分類的問題。

隨機(jī)森林算法是一種由大量隨機(jī)決策樹所構(gòu)成的集成機(jī)器學(xué)習(xí)算法。算法保留了決策樹分類的優(yōu)勢,同時擁有更好的容錯性[11-13],廣泛應(yīng)用于數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域,具有較好的處理高維數(shù)據(jù)的能力[14-15]。綜上所述,本文選擇隨機(jī)森林算法應(yīng)用于測井巖性的分類識別。將物探測井?dāng)?shù)據(jù)作為隨機(jī)森林算法的輸入變量,對巖性進(jìn)行有監(jiān)督的分類預(yù)測識別,依據(jù)結(jié)果評價(jià)算法的有效性,對不同的測井參數(shù)變量在巖性分類中的作用予以分析。

1 研究區(qū)概況及數(shù)據(jù)

研究區(qū)位于松遼盆地大慶長垣南端某鈾礦礦區(qū),松遼盆地是中國東北地區(qū)中部的一個大型中新生代陸相沉積盆地[16]。大慶長垣位于松遼盆地北部一級構(gòu)造單元中的中央坳陷區(qū)內(nèi),是盆地內(nèi)最大的背斜構(gòu)造[17]。研究區(qū)位于大慶長垣地塊的最南端(圖1)。

圖1 研究區(qū)構(gòu)造位置圖[18]Fig.1 Tectonic location map of study area

研究區(qū)內(nèi)鈾礦鉆孔數(shù)據(jù)每孔共計(jì)有8條測井曲線,分別對應(yīng)自然伽馬、放射性、自然電位、三側(cè)向電阻率、視電阻率、井徑、密度和聲波時差共計(jì)8項(xiàng)物探測井參數(shù)。測井?dāng)?shù)據(jù)屬性信息和分辨率詳見表1,以0.125 m為采樣間隔,覆蓋范圍為地表至地下450余米,測井曲線的豐富程度高,巖芯保存完好。巖性數(shù)據(jù)均為準(zhǔn)確巖芯定名資料,由天津地質(zhì)調(diào)查局野外地質(zhì)鉆孔編錄完成。目前具有完整巖性信息的鉆孔共計(jì)22口井,單井內(nèi)依據(jù)巖性劃分對應(yīng)測井?dāng)?shù)據(jù),平均測井樣本點(diǎn)2 800余個,均具有明確對應(yīng)的定名巖性信息。為本文研究工作提供了有力的支持。測井巖性柱狀圖詳見圖2。

表1 研究區(qū)鉆孔測井?dāng)?shù)據(jù)示例

圖2 研究區(qū)某鉆孔測井巖性柱狀圖Fig.2 Logging data of a well in study area

2 不同巖性的測井響應(yīng)特征

研究區(qū)內(nèi)的主要地層自上而下劃分依次為明水組-四方臺組-嫩江組,分布深度由地表至地下450 m的范圍內(nèi),縱深方向上未見有斷層,地層分布較為均勻,起伏變化較小[19]。研究區(qū)內(nèi)的主要巖性分布為貼近地表較薄的黏土層、厚砂巖層、泥巖層以及部分礫巖巖層。各個巖性類別由于其理化性質(zhì)的差異,對測井曲線有著不同的響應(yīng)特征,有一定的規(guī)律可循。不同巖性的測井響應(yīng)特征規(guī)律主要為:

(1)在自然伽馬測井中,由于粒級的不斷細(xì)化,孔隙度不斷減小,諸如K、Th、U等放射性元素逐漸聚集于致密巖層中,導(dǎo)致致密巖層的放射性數(shù)值普遍偏高[20],自然伽馬測井?dāng)?shù)值大小表現(xiàn)為:泥巖>砂巖>黏土>礫巖。

(2)在自然電位測井中,自然電位曲線因受巖層中泥質(zhì)含量的影響,浸透性高的地層自然電位參數(shù)表現(xiàn)為較大的負(fù)異常,滲透性低的巖層自然電位表現(xiàn)為較小的負(fù)異常[21]。粉砂巖、細(xì)砂巖以及泥巖等滲透性較低的巖性類別自然電位值較小,中砂巖、粗砂巖和礫巖則相對較高(圖3)。

(3)密度的變化幅度較小,主要受巖層內(nèi)夾雜物質(zhì)的含量以及巖石孔隙度的影響而出現(xiàn)波動,黏土(1.89 g/cm3)<砂巖(2.23 g/cm3)<泥巖(2.26 g/cm3)<礫巖(2.37 g/cm3)。砂巖層孔隙度略高于泥巖層,密度略小于泥巖層。礫巖巖石密度較大,但孔隙度亦較大,密度平均值較高。

(4)電阻率曲線隨著巖石粒度的變化而變化,隨著巖石粒度逐漸變小,從礫巖-砂巖-泥巖的粒度變化對應(yīng)的電阻率幅值呈由大到小的總體變化規(guī)律(20~30 Ω·m)→(5~10 Ω·m)[20]。

圖3 不同巖性的自然電位箱線圖Fig.3 Boxplot of spontaneous potential with different lithology

(5)井徑曲線同巖層的致密程度有較大的關(guān)系,隨著測井儀器中鉆頭的下探,井壁物質(zhì)的致密程度直接決定井徑的大小。黏土、細(xì)砂巖、中砂巖、粗砂巖和礫巖的井徑基本保持在125~127 mm,在粉砂巖和泥巖層中井徑則擴(kuò)大至136~140 mm。

各巖性類別測井響應(yīng)特征的差異在測井?dāng)?shù)據(jù)中表現(xiàn)為測井曲線幅值范圍的不同。以研究區(qū)某一鉆孔為例,不同測井曲線的數(shù)值差異詳見表2,不同巖性類別在自然電位測井響應(yīng)數(shù)值范圍的箱線圖見圖3。

不同巖性類別在同一測井參數(shù)的數(shù)值響應(yīng)規(guī)律存在明顯的差異,最大最小值和均值的不同代表了巖性類別間的總體差異,中位數(shù)和均值的差異體現(xiàn)了數(shù)據(jù)聚集程度的不同。各個巖性類別測井?dāng)?shù)據(jù)統(tǒng)計(jì)量所表現(xiàn)出的差異亦從側(cè)面驗(yàn)證了巖性類別基于測井?dāng)?shù)據(jù)的可分性。綜上所述,巖性類別的測井響應(yīng)規(guī)律為巖性類別的劃分提供了理論基礎(chǔ)的支持,特別是在基于數(shù)值型測井?dāng)?shù)據(jù)的巖性類別劃分工作中,錯綜復(fù)雜的響應(yīng)特征組合及其對應(yīng)的巖性所屬類別是機(jī)器學(xué)習(xí)方法所要掌握的核心知識。

表2 不同巖性類別的測井?dāng)?shù)據(jù)統(tǒng)計(jì)

3 隨機(jī)森林算法的原理

隨機(jī)森林算法是由Breiman于2001年提出的一種集成多棵決策樹的有監(jiān)督學(xué)習(xí)算法,基于數(shù)據(jù)處理結(jié)果的類型,隨機(jī)森林可以完成分類和回歸兩種應(yīng)用,屬于機(jī)器學(xué)習(xí)方法中的一種[13]。隨機(jī)森林算法的核心思想是基于眾多隨機(jī)決策樹判別結(jié)果的最優(yōu)分類和回歸,解釋輸入變量X1,X2,X3,…Xn對解釋變量Y的作用。決策樹是隨機(jī)森林的核心所在,依據(jù)條件熵和信息增益保證決策樹的最優(yōu)生成。其基本原理為:

(1)通過Bagging的方法從樣本數(shù)為N的數(shù)據(jù)集D中,隨機(jī)且有放回地選取不同變量數(shù)、不同樣本數(shù)的參數(shù)組合,用以形成眾多的隨機(jī)決策樹并決定每棵樹的分類節(jié)點(diǎn)[12]。如此形成的決策樹對于大數(shù)據(jù)量的樣本具有較好的容錯性。

(2)計(jì)算數(shù)據(jù)集D的信息熵,以及各個變量Xi同D之間的條件熵。信息熵可稱之為數(shù)據(jù)集的平均不確定性。條件熵H(D|Xi)是在數(shù)據(jù)集D發(fā)生的前提下,Xi變量所帶來的熵值變化。數(shù)據(jù)集D的信息熵為H(D):

(1)

式中:Di為數(shù)據(jù)集D中第i個數(shù)據(jù)出現(xiàn)的概率。

數(shù)據(jù)集D同變量之間的聯(lián)合熵H(D,Xi)為:

(2)

數(shù)據(jù)集D同變量之間的條件熵為:

H(D|Xi)=H(D,Xi)-H(Xi)

(3)

(3)計(jì)算每一個變量Xi相對于數(shù)據(jù)集D的信息增益g(D,Xi),用以度量特征Xi對數(shù)據(jù)集D的不確定性的減小程度。不確定性的減小程度即為D發(fā)生概率的增加。信息增益的計(jì)算公式如下:

g(D,Xi)=H(D)-H(D|Xi)

(4)

(4)以信息熵為度量生成熵值下降最快的樹,同時選擇信息增益率和Gini系數(shù)最大的變量作為決策樹分裂節(jié)點(diǎn)的變量。到葉子節(jié)點(diǎn)處熵值降為0,至此,每個葉節(jié)點(diǎn)由于其熵值最小原則,均屬于同一類別。Gini系數(shù)的計(jì)算公式如下:

(5)

(5)基于隨機(jī)選取的樣本變量參數(shù)組合便可生成大量可并行處理的隨機(jī)決策樹,這些隨機(jī)決策樹共同組成了隨機(jī)決策森林。每一棵決策樹會根據(jù)待分類的數(shù)據(jù)給出一個基于該分類樹的分類結(jié)果,并最終匯總?cè)可掷镏貜?fù)度最高的決策樹的結(jié)果為隨機(jī)決策森林的分類結(jié)果。

隨機(jī)森林算法的另一大優(yōu)勢在于參與該算法可以給出關(guān)于分類變量重要性的度量[14]。通過計(jì)算變量對數(shù)據(jù)集的信息增益率來判斷變量的貢獻(xiàn)值,變量的信息增益率越大,表明該變量對熵值減少的能力越強(qiáng),該變量使數(shù)據(jù)由不確定性變?yōu)榇_定性的能力便越強(qiáng),可應(yīng)用于樣本的變量篩選。

4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

以不同巖性的測井響應(yīng)特征為理論依據(jù),8條物探測井曲線為輸入變量,利用隨機(jī)森林算法對研究區(qū)的鉆孔測井巖性進(jìn)行分類識別,將研究區(qū)內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,參照巖性類別劃分的規(guī)范和標(biāo)準(zhǔn),給出研究區(qū)7種巖性類別,初次實(shí)驗(yàn)采用單鉆孔全部數(shù)據(jù)進(jìn)行算法處理,訓(xùn)練樣本同預(yù)測樣本比例為7∶3,隨機(jī)取樣以保證模型的廣泛性(表3)。由于隨機(jī)森林算法需要對初始參數(shù)進(jìn)行合適的選取,不同的初始參數(shù)會導(dǎo)致不同的分類結(jié)果[15]。故而初始參數(shù)的設(shè)置采用初始參數(shù)值域最小值為初始參數(shù),通過逐次遞增迭代循環(huán)的方法篩選出最優(yōu)的參數(shù)組合,即決策樹的數(shù)目和決策樹所采用的節(jié)點(diǎn)個數(shù)。

為了有效地了解不同變量對分類結(jié)果的作用或影響,利用訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)森林算法的袋外誤差驗(yàn)證和變量重要性的度量。算法的袋外誤差在于隨機(jī)選取訓(xùn)練樣本進(jìn)行準(zhǔn)確率驗(yàn)證,保證訓(xùn)練的合理性。預(yù)測數(shù)據(jù)則用以對隨機(jī)森林算法進(jìn)行精度檢驗(yàn)。采用混淆矩陣對隨機(jī)森林算法的巖性分類結(jié)果進(jìn)行精度評價(jià),給出分類結(jié)果的總體精度以及各個巖性類別的生產(chǎn)者精度和用戶精度。在相同的訓(xùn)練條件下,引入支持向量機(jī)方法,對兩種方法的預(yù)測結(jié)果進(jìn)行對比分析。

表3 巖性劃分類別及樣本數(shù)據(jù)分布

Table 3 Classification of lithology and distribution of sample data

樣本類型訓(xùn)練樣本預(yù)測樣本樣本總數(shù)黏土261036粉砂巖444202646細(xì)砂巖430190620中砂巖10431135粗砂巖622385泥巖8073701 177礫巖327118445總計(jì)2 2009443 144

本次實(shí)驗(yàn)利用R語言完成,R的版本為(R.3.6.0)。初始決策樹棵數(shù)設(shè)置為100棵,決策樹所采用的節(jié)點(diǎn)數(shù)預(yù)設(shè)為變量數(shù)的算術(shù)平方根,即為1個。實(shí)驗(yàn)表明在決策樹為567棵時,決策樹節(jié)點(diǎn)為3個時,隨機(jī)森林算法的分類效果最優(yōu),袋外誤差的驗(yàn)證準(zhǔn)確率為88.05%(表4)。支持向量機(jī)方法采用徑向基函數(shù)為核函數(shù),gamma值依據(jù)支持向量機(jī)理論設(shè)置為變量個數(shù)的導(dǎo)數(shù)0.125,cost懲罰因子設(shè)置默認(rèn)值為1。

依據(jù)訓(xùn)練后的模型,對全鉆孔30%隨機(jī)取樣的預(yù)測樣本進(jìn)行分類識別,隨機(jī)森林算法的分類準(zhǔn)確率為88.67%,同時支持向量機(jī)方法的分類準(zhǔn)確率為73.2%(表5)。

表4 隨機(jī)森林算法訓(xùn)練樣本預(yù)測結(jié)果

表5 不同算法預(yù)測樣本分類結(jié)果

Table 5 Classification results of prediction samples with different algorithms

巖性類別隨機(jī)森林算法支持向量機(jī)方法用戶精度/%生產(chǎn)者精度/%用戶精度/%生產(chǎn)者精度/%黏土80.00100.00100.0088.89粉砂巖78.7188.8354.3665.84細(xì)砂巖90.0090.0076.4180.11中砂巖64.5290.9131.8293.33粗砂巖73.9189.4747.0066.67泥巖93.2489.1582.7771.99礫巖99.1584.1795.9773.01總體精度88.6773.20

對比表5,隨機(jī)森林算法在總體預(yù)測分類準(zhǔn)確度和單個巖性的分類準(zhǔn)確度方面均要優(yōu)于支持向量機(jī)方法,其中兩種算法對于中砂巖和粗砂巖的識別準(zhǔn)確率均低于其他巖性,支持向量機(jī)方法對于粉砂巖的準(zhǔn)確率也較低。出現(xiàn)較高分類誤差的主要原因是由于不同類型的砂巖之間過渡不明顯,相較于不同巖性之間的區(qū)分度較低。通過對巖芯編錄數(shù)據(jù)的分析,不同類型的砂巖會以夾層的形式出現(xiàn),導(dǎo)致分類誤差的升高。巖芯編錄分析的數(shù)據(jù)較為精細(xì),而實(shí)驗(yàn)設(shè)計(jì)相較之原始數(shù)據(jù)有所精簡,根據(jù)粒級的不同將砂巖劃分為粉砂巖、細(xì)砂巖、中砂巖和粗砂巖4類,這其中出現(xiàn)諸如含礫粗砂巖、含礫中砂巖和泥質(zhì)粉砂巖等互層巖性的存在,實(shí)驗(yàn)設(shè)計(jì)時將其均歸類為主要巖性,即含礫粗砂巖歸類為粗砂巖,泥質(zhì)粉砂巖歸類為粉砂巖。由于其含礫和含泥質(zhì)等特性的存在,在測井參數(shù)的數(shù)值中體現(xiàn)為接近于礫巖、泥巖等現(xiàn)象,致使區(qū)分度的降低和分類誤差的升高。在單個巖性識別準(zhǔn)確率和總體識別準(zhǔn)確率中,隨機(jī)森林算法均明顯優(yōu)于支持向量機(jī)算法,表明基于眾多決策樹投票機(jī)制的隨機(jī)森林算法在巖性分類識別應(yīng)用中優(yōu)于支持向量機(jī)方法。

根據(jù)隨機(jī)森林算法變量重要性的分析,得出各個測井變量的平均下降準(zhǔn)確率和平均下降Gini系數(shù)(表6),兩者均表達(dá)該變量被替換時準(zhǔn)確率下降程度的度量,數(shù)值越大,該變量的重要性程度越高[14]。在巖性分類的應(yīng)用中,三測向電阻率、自然電位和視電阻率是重要性較高的變量,自然伽馬和井徑也可作為較好的分類變量,重要性較低的變量為時差和密度。究其原因,在于該變量在不同巖性類別間的區(qū)分度不高,以密度測井為例,各個巖性類別的密度均值、標(biāo)準(zhǔn)差和中位值較為接近(圖4)。在復(fù)雜巖層和過渡巖層中難以發(fā)揮區(qū)分的作用。

表6 巖性分類變量重要性度量

Table 6 Measurement of importance of lithology classification variables

平均下降準(zhǔn)確率/%平均下降Gini系數(shù)三側(cè)向電阻率100.112 23363.316 5井徑98.087 27199.219 7自然電位88.752 04266.790 8時差74.915 43139.173 2視電阻率72.836 54255.339 2密度62.600 44111.792 6自然伽馬61.905 86193.825 5放射性58.872 13144.196 6

圖4 不同巖性的密度箱線圖Fig.4 Boxplot of density with different lithologies

5 結(jié)論

(1)利用隨機(jī)森林算法進(jìn)行巖性自動分類識別,預(yù)測準(zhǔn)確率為88.67%,效果明顯優(yōu)于支持向量機(jī)方法。

(2)中砂巖和粗砂巖常伴有互層形式出現(xiàn),是隨機(jī)森林算法巖性識別的難點(diǎn)。

(3)通過隨機(jī)森林算法的平均下降準(zhǔn)確率得出,自然電位和電阻率是巖性分類應(yīng)用中重要性較高的測井變量。

猜你喜歡
決策樹巖性類別
一種識別薄巖性氣藏的地震反射特征分析
云南化工(2020年11期)2021-01-14 00:50:58
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
K 近鄰分類法在巖屑數(shù)字圖像巖性分析中的應(yīng)用
錄井工程(2017年1期)2017-07-31 17:44:42
基于決策樹的出租車乘客出行目的識別
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
低滲巖性氣藏壓降法計(jì)算庫容量改進(jìn)
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
平阴县| 嘉祥县| 肃宁县| 信丰县| 石景山区| 武威市| 施甸县| 新津县| 肇州县| 泸州市| 宽甸| 嘉善县| 奉节县| 玛纳斯县| 天长市| 平阳县| 杨浦区| 铜鼓县| 汶上县| 肇东市| 凤城市| 津南区| 黎平县| 合水县| 霸州市| 西贡区| 迁西县| 当雄县| 中西区| 东莞市| 岫岩| 忻城县| 安达市| 邻水| 耿马| 于都县| 大方县| 凉城县| 河源市| 安化县| 江孜县|