国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成學(xué)習(xí)的松遼盆地砂巖型鈾礦地層巖性自動識別研究

2023-12-26 01:23:56段忠義楊亞新羅齊彬
原子能科學(xué)技術(shù) 2023年12期
關(guān)鍵詞:鈾礦決策樹巖性

段忠義,肖 昆,*,楊亞新,黃 笑,姜 山,張 華,羅齊彬

(1.東華理工大學(xué) 核資源與環(huán)境國家重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013;2.核工業(yè)二四三大隊(duì),內(nèi)蒙古 赤峰 024000)

北方沉積盆地砂巖型鈾礦作為我國儲量最多的鈾礦類型,區(qū)內(nèi)仍有大面積的鈾異常亟待查證,鈾礦資源勘探潛力巨大[1]。在鈾礦勘查中,地球物理測井?dāng)?shù)據(jù)作為連接地球物理性質(zhì)變化和地下地質(zhì)環(huán)境的橋梁,是了解地下巖層結(jié)構(gòu)和儲層特征的有效且不可替代的方法。因此,測井?dāng)?shù)據(jù)解釋在鈾礦勘查中具有重要意義[2-3]。對測井?dāng)?shù)據(jù)的分析和挖掘已成為提高勘查效率的重點(diǎn)之一[4-7]。隨著測井勘探技術(shù)的發(fā)展,在地下地質(zhì)結(jié)構(gòu)環(huán)境多變且復(fù)雜的情況下,對測井?dāng)?shù)據(jù)的解釋和地層分析也提出了更高的要求[8-11]。利用測井?dāng)?shù)據(jù)的分析結(jié)果對地下空間目標(biāo)進(jìn)行準(zhǔn)確的識別與劃分是測井資料解釋的重要環(huán)節(jié),包括地層結(jié)構(gòu)劃分、沉積相、巖性識別、以及儲層識別等[12-13]。其中巖性識別在理解地質(zhì)體結(jié)構(gòu)、成礦信息預(yù)測等研究中發(fā)揮著重要作用[14-15];儲層識別是復(fù)雜儲層勘探開發(fā)的基礎(chǔ),儲層的正確表征是降低勘探開發(fā)風(fēng)險(xiǎn)的重要手段,可為更好地設(shè)計(jì)和制定方案提供依據(jù)。

巖性識別是測井?dāng)?shù)據(jù)分析的核心,目前廣泛使用的巖性識別方法主要有:傳統(tǒng)巖性識別方法,包括交會圖法[16-18]、概率統(tǒng)計(jì)方法[19-20]、聚類分析方法[21-23];機(jī)器學(xué)習(xí)類巖性識別方法,包括支持向量機(jī)SVM[24-26]、神經(jīng)網(wǎng)絡(luò)[27-28]、集成學(xué)習(xí)類方法[29]。傳統(tǒng)的巖性識別、儲層識別方法存在精度、識別效率和泛化能力低等問題[30]。針對異常值、不平衡性和高復(fù)雜性的測井?dāng)?shù)據(jù),傳統(tǒng)的測井解釋方法有很大的局限性。隨著儲層地質(zhì)條件的復(fù)雜性以及測井?dāng)?shù)據(jù)的多樣性和數(shù)量不斷增加,主觀的專業(yè)知識和經(jīng)驗(yàn)無法更好地解釋。在面對復(fù)雜且更具挑戰(zhàn)性問題時(shí),機(jī)器學(xué)習(xí)類方法為實(shí)現(xiàn)自動化、性能提升提供了新的解決方案,在大量數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式和關(guān)系方面顯示出巨大的優(yōu)勢,使得巖性識別、儲層識別有了新的突破[31-33]。

集成學(xué)習(xí)是通過融合兩個或多個模型的顯著屬性在預(yù)測中達(dá)成共識的方法,使得最終的學(xué)習(xí)框架較單個構(gòu)成模型更全面,減少了誤差和其他因素影響。相對于普通機(jī)器學(xué)習(xí)算法,集成學(xué)習(xí)算法在數(shù)據(jù)處理方面有更多優(yōu)勢,面對復(fù)雜度較高的問題,可以增強(qiáng)分類性能的信息融合,以獲取更可靠的決策?;贐oosting的XGBoost模型借助由回歸樹組成的強(qiáng)學(xué)習(xí)器,引入了正則項(xiàng)與并行計(jì)算技術(shù),在提高效率的同時(shí),確保了模型的可靠性[34];基于Bagging優(yōu)化的SMOTE隨機(jī)森林算法借助人工合成少數(shù)過采樣技術(shù),解決了數(shù)據(jù)樣本的不平衡問題[35]。因此,本文采用集成學(xué)習(xí)算法中的XGBoost和SMOTE隨機(jī)森林模型開展砂巖型鈾礦地層巖性識別研究,對松遼盆地的砂巖型鈾礦建立巖性自動識別模型,以模型巖性識別的準(zhǔn)確率為評價(jià)標(biāo)準(zhǔn),并與KNN模型和GBDT模型進(jìn)行對比分析,考察改進(jìn)集成模型的可行性,以提升我國北方砂巖型鈾礦儲層識別的效率與精度,為實(shí)現(xiàn)我國鈾礦資源勘查戰(zhàn)略性突破提供技術(shù)支撐。

1 理論與方法

1.1 XGBoost算法

在Friedman[36]提出的Boosting算法基礎(chǔ)上,Chen等[37]通過改進(jìn)目標(biāo)函數(shù)與優(yōu)化導(dǎo)數(shù)信息,并針對性地處理缺失值和模型過擬合,提出了一種優(yōu)于GBDT的模型,即XGBoost模型。相較于GBDT,XGBoost精度更高、靈活性更強(qiáng),并行計(jì)算與列抽樣的引入提高了XGBoost的計(jì)算效率。

XGBoost的目標(biāo)函數(shù)如下:

(1)

經(jīng)過t次迭代得到目標(biāo)函數(shù):

(2)

對式(2)進(jìn)行二階泰勒展開:

(3)

(4)

1.2 基于SMOTE的隨機(jī)森林算法

隨機(jī)森林算法屬于集成算法中的Bagging方法,作為一種集成學(xué)習(xí)方法,它在隨機(jī)選擇的數(shù)據(jù)樣本上構(gòu)建了許多決策樹。然后從每棵樹上獲得預(yù)測,并通過多數(shù)投票,選擇獲得多數(shù)票的決定。其中構(gòu)建隨機(jī)森林算法模型的步驟如下:1) 從給定數(shù)據(jù)或訓(xùn)練集中隨機(jī)挑選K個數(shù)據(jù)點(diǎn)作為隨機(jī)樣本;2) 構(gòu)建與K個數(shù)據(jù)點(diǎn)相關(guān)聯(lián)的決策樹;3) 選擇要構(gòu)建的樹的數(shù)量,定義為N,然后重復(fù)前兩步;4) 對于一個新數(shù)據(jù)點(diǎn),讓已經(jīng)構(gòu)建的N棵樹來預(yù)測新數(shù)據(jù)點(diǎn)所屬的類別,并將新數(shù)據(jù)點(diǎn)分配給贏得多數(shù)票的類別。

對于處理高維數(shù)據(jù)的分類問題,隨機(jī)森林表現(xiàn)出不錯的效果,通過Bagging算法彌補(bǔ)了單個決策樹對訓(xùn)練集噪聲的敏感問題,降低了訓(xùn)練多棵決策樹存在的關(guān)聯(lián)問題,有效解決了模型過擬合問題。

針對數(shù)據(jù)集中出現(xiàn)的分類不平衡問題,采用SMOTE合成少數(shù)過采樣技術(shù),在保持樣本各自形態(tài)的基礎(chǔ)上進(jìn)行插值,使各類數(shù)據(jù)平衡,以此提高少數(shù)類的分類精度[38-39],在SMOTE合成鄰近樣本示意圖中,橫縱坐標(biāo)通常代表數(shù)據(jù)點(diǎn)的某些特征。假設(shè)一個二維數(shù)據(jù)集的每個數(shù)據(jù)點(diǎn)都有兩個特征組成:特征1和特征2。這種情況下,示意圖的橫坐標(biāo)通常代表特征1,縱坐標(biāo)則代表特征2。具體過程如圖1所示。

圖1 SMOTE合成鄰近樣本(據(jù)Chawla等[39])Fig.1 SMOTE composite adjacent sample (modified from Chawla et al[39])

2 建模與應(yīng)用

本文以我國北方松遼盆地典型砂巖型鈾礦區(qū)為研究對象,砂巖型鈾礦地球物理測井資料為基礎(chǔ)數(shù)據(jù),提取研究區(qū)目的井次2 860個數(shù)據(jù)點(diǎn)作為訓(xùn)練數(shù)據(jù)集,1 270個數(shù)據(jù)點(diǎn)作為驗(yàn)證數(shù)據(jù)集。

2.1 樣本構(gòu)建

根據(jù)巖石粒級的粗細(xì)程度與綜合測井曲線對巖性進(jìn)行劃分,依次為黏土、泥巖、粉砂巖、細(xì)砂巖、中砂巖、粗砂巖和砂礫巖。以多維數(shù)據(jù)為樣本進(jìn)行訓(xùn)練,劃分巖性作為樣本的可靠分類標(biāo)簽,結(jié)合砂巖型鈾礦中不同巖性在不同地球物理測井?dāng)?shù)據(jù)中的響應(yīng)規(guī)律,進(jìn)行測井屬性的優(yōu)選,挑選在砂巖型鈾礦巖性研究中常見的測井曲線作為輸入變量:井徑(CAL)、巖石密度(DEN)、聲波時(shí)差(DT)、放射性(γ)、自然伽馬(GR)、三側(cè)向電阻率(LLD3)、視電阻率(RT)、自然電位(SP)共8條曲線[40],每種巖性的不同測井曲線幅值差異如表1所列。

由表1可知,巖石的致密程度與各物性參數(shù)存在一定的相關(guān)性,如密度和視電阻率隨巖石粒級的增加呈增長趨勢,聲波時(shí)差則相反;自然伽馬數(shù)值相對較高,但在中砂巖中存在局部高自然伽馬值,表明研究區(qū)含礦主巖為砂巖。對于同巖性的巖石,其數(shù)值變化范圍較大。泥巖一般放射性伽馬值相對較高,砂巖放射性伽馬值相對較低。但從粉砂巖、細(xì)砂巖以及中砂巖的自然伽馬值來看,出現(xiàn)了部分高自然伽馬值,指示一定的鈾礦異?;虻V化特征。

為了進(jìn)一步分析巖性類別在測井變量組合之間的區(qū)分度,通過交會圖分析測井響應(yīng)參數(shù)對巖性儲層的敏感性,結(jié)果如圖2所示。

圖2 二維測井參數(shù)交會圖Fig.2 Cross plot of two-dimensional logging parameters

a——密度校深曲線;b——視電阻率校深曲線圖3 曲線校深圖Fig.3 Corrected depth chart

由圖2可看出,在二維測井交會圖中,巖性樣本點(diǎn)的分布越離散,對巖性的區(qū)分度越好。黏土較其他3種巖性分區(qū)明顯,其密度相對較高,聚集程度較高,而粉砂巖、中砂巖、細(xì)砂巖與粗砂巖重疊在一起,不易分類??傮w來看,二維測井曲線交會圖不能很好地劃分砂巖型鈾礦巖性,故需要采用分類功能更全面的集成學(xué)習(xí)法來進(jìn)行精確巖性劃分。

2.2 數(shù)據(jù)處理

1) 曲線校深與曲線濾波

測井過程中,受地下地質(zhì)環(huán)境客觀因素以及操作方法等影響,測井響應(yīng)值在深度上存在不一致性,不能有效完成后續(xù)處理解釋工作。本文采用CIF Log2.1測井軟件中的數(shù)據(jù)預(yù)處理模塊對工區(qū)原始測井?dāng)?shù)據(jù)進(jìn)行校深和濾波,使同一口井中所有測井?dāng)?shù)據(jù)之間的深度關(guān)系保持一致,以滿足后續(xù)測井資料處理與訓(xùn)練要求,具體過程如圖3所示。濾波采用10點(diǎn)移動平均濾波以過濾序列中的高頻擾動,保留有用低頻趨勢。

2) 標(biāo)準(zhǔn)化

在利用集成算法進(jìn)行巖性識別時(shí),不同類型的測井曲線具有不同的量綱和數(shù)量級,其差異性會對模型的識別精度產(chǎn)生影響[41]。本文采用Scikit-learn中的StandardScaler模塊對數(shù)據(jù)的特征維度進(jìn)行去均值和方差歸一化,使數(shù)據(jù)符合正態(tài)分布,轉(zhuǎn)化函數(shù)如下:

(5)

其中:μ為所有樣本的均值;σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

2.3 模型應(yīng)用與對比

1) 模型參數(shù)設(shè)置

對于由XGBoost模型建立的巖性識別模型,可以根據(jù)其高度的靈活性優(yōu)勢,自定義優(yōu)化目標(biāo)和評價(jià)標(biāo)準(zhǔn),在參數(shù)調(diào)優(yōu)過程中,除通用參數(shù)和學(xué)習(xí)目標(biāo)函數(shù)外,對模型預(yù)測結(jié)果影響較大的參數(shù)是學(xué)習(xí)率(learning_rate)和樹的最大深度(max_depth)。

在初始化模型參數(shù)時(shí),盡量讓模型的復(fù)雜度較高,然后通過網(wǎng)格搜索GridSearchCV超參數(shù)空間調(diào)優(yōu)來降低模型復(fù)雜度。學(xué)習(xí)率和最大迭代次數(shù)這兩個參數(shù)的調(diào)優(yōu)是聯(lián)系在一起的,學(xué)習(xí)率越大,達(dá)到相同性能的模型所需要的最大迭代次數(shù)越小;學(xué)習(xí)率越小,達(dá)到相同性能的模型所需要的最大迭代次數(shù)越大。XGBoost每個參數(shù)的更新都需要進(jìn)行多次迭代,因此,學(xué)習(xí)率和最大迭代次數(shù)是首先需要考慮的參數(shù),且學(xué)習(xí)率和最大迭代參數(shù)的重點(diǎn)不是提高模型的分類準(zhǔn)確率,而是提高模型的泛化能力。因此,當(dāng)模型的分類準(zhǔn)確率很高時(shí),最后一步應(yīng)減小學(xué)習(xí)率的是調(diào)節(jié)樹的最大深度,以提高模型的泛化能力,逐步降低模型復(fù)雜度。調(diào)參過程如圖4所示,其中,縱坐標(biāo)為數(shù)損失函數(shù)(Log Loss),用于衡量模型對真實(shí)標(biāo)簽的概率預(yù)測與實(shí)際標(biāo)簽之間的差異,較小的學(xué)習(xí)率通常需要在模型中添加更多的樹,可以通過調(diào)整參數(shù)組合來探索這種決策關(guān)系;橫坐標(biāo)表示樹的最大深度,從5~40不等;學(xué)習(xí)率從0.1~0.5不等,max_depth有8個變量,learning_rate有5個變量。每個組合使用10倍交叉驗(yàn)證進(jìn)行評估,因此共需要訓(xùn)練和評估400個XGBoost模型。調(diào)參目標(biāo)是針對給定的學(xué)習(xí)率,使性能隨樹的數(shù)量的增加而提高,然后穩(wěn)定下來。由于算法或評估過程的隨機(jī)性或數(shù)值精度的差異,結(jié)果可能會有所不同,需要多次運(yùn)行并比較平均結(jié)果,多次迭代后將輸出每個評估的最佳組合以及對數(shù)損失函數(shù)。最終可以得到最佳結(jié)果的學(xué)習(xí)率為0.2,樹的最大深度為10。

圖4 學(xué)習(xí)率和樹最大深度的變化Fig.4 Learning_rate and max_depth tendency chart

在構(gòu)建提升樹之后,檢索每個屬性的重要性分?jǐn)?shù)。通常,重要性分?jǐn)?shù)反映的是每個特征在構(gòu)建模型內(nèi)的增強(qiáng)決策樹中的有用性或價(jià)值。使用決策樹做出關(guān)鍵決策的屬性越多,其相對重要性就越高,為數(shù)據(jù)集中的每個屬性明確計(jì)算此重要性,允許對屬性進(jìn)行排名和相互比較。單個決策樹的重要性是通過每個屬性分割點(diǎn)改進(jìn)性能度量的量計(jì)算的,由節(jié)點(diǎn)負(fù)責(zé)的觀察數(shù)加權(quán)。性能度量可以是用于選擇分割點(diǎn)的純度(Gini指數(shù))也可以是另一個更具體的誤差函數(shù)。對于集成模型中的多棵決策樹,可以計(jì)算每個決策樹的特征重要性,并對所有決策樹的特征重要性取平均值,以此更全面地評估特征的重要性。

使用的內(nèi)置XGBoost特征重要性圖,因算法或評估程序的隨機(jī)性或數(shù)值精度的差異而有所不同,因此多次運(yùn)行該示例,并比較平均結(jié)果,如圖5所示,其中橫坐標(biāo)F score表示每個特征的重要性得分,衡量的是特征在模型中的相對重要程度;縱坐標(biāo)Features表示測井特征參數(shù)。從圖5可知,重要性相對較高的特征參數(shù)為CAL和DEN。

圖5 XGBoost特征重要性篩選Fig.5 XGBoost feature importance screening

2) 模型預(yù)測結(jié)果及與真實(shí)結(jié)果的對比

經(jīng)過模型參數(shù)調(diào)整和交叉驗(yàn)證后,兩種模型樣本測試集中的巖性分類結(jié)果如圖6所示,其中橫坐標(biāo)為巖性:1,粗砂巖;2,粉砂巖;3,泥巖;4,砂礫巖;5,細(xì)砂巖;6,黏土;7,中砂巖。用混淆矩陣分析模型的分類結(jié)果,按照真實(shí)類別與模型預(yù)測類別兩個標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì),最終以矩陣形式呈現(xiàn)。其中矩陣的行表示真實(shí)值,矩陣的列表示預(yù)測值。

圖6 混淆矩陣預(yù)測數(shù)據(jù)Fig.6 Confusion matrix prediction data

上述混淆矩陣的每個單元格(i,j)表示模型將真實(shí)類別為i的樣本預(yù)測為類別j的數(shù)量,觀測值在對角線位置,數(shù)值越多越好;反之,在其他位置出現(xiàn)的觀測值則越少越好。對于7種巖性,兩種集成模型都表現(xiàn)出較好的識別效果,其中泥巖和細(xì)砂巖的分類結(jié)果與其他巖性的差異明顯,XGBoost模型略優(yōu)于SMOTE隨機(jī)森林模型。

受試者工作特征(ROC)曲線是模型的另一種評價(jià)指標(biāo),ROC曲線下與坐標(biāo)軸圍成的面積(AUC)用于衡量分類模型的準(zhǔn)確性。ROC曲線反映的是不同閾值下真正例率和假正例率之間的權(quán)衡關(guān)系。在ROC曲線中,完美測試的AUC值為1,表示模型在所有閾值下都能完美區(qū)分正例和反例。對角線表示隨機(jī)猜測的模型性能,即真正例率等于假正例率。利用所計(jì)算的AUC值,可以衡量分類器在不同閾值下的整體性能,面積越大,表示模型的分類準(zhǔn)確性越高。ROC曲線越接近左上角,說明模型在預(yù)測樣本為正樣本的同時(shí)還盡可能地減少了錯誤分類。采用XGBoost模型和SMOTE隨機(jī)森林模型所得ROC曲線如圖7所示。由圖7可知,兩個模型的ROC曲線都靠近左上角的點(diǎn),且AUC值均大于0.7,說明兩種模型都具有較高的診斷價(jià)值,最佳邊界點(diǎn)是曲線最靠近左上角的點(diǎn),其中XGBoost模型最佳邊界點(diǎn)的敏感度為0.8,特異度為0.25。SMOTE隨機(jī)森林模型最佳邊界點(diǎn)的敏感度為0.6,特異度為0.26??梢奨GBoost模型較SMOTE隨機(jī)森林模型診斷價(jià)值更高,整體預(yù)測結(jié)果更優(yōu)。

圖7 ROC曲線Fig.7 ROC curve

為了檢驗(yàn)本文所建立的集成模型的準(zhǔn)確性,將XGBoost模型與SMOTE隨機(jī)森林模型的識別結(jié)果與KNN模型和GBDT模型的識別結(jié)果進(jìn)行對比。利用CIFLog2.1測井軟件繪制部分井段鉆井取心的巖性剖面與模型預(yù)測剖面,如圖8所示。從圖8可知,XGBoost模型和SMOTE隨機(jī)森林模型能更準(zhǔn)確地對地層不同巖性做出響應(yīng),與鉆井取心的巖性剖面的對比可知,XGBoost模型和SMOTE隨機(jī)森林模型對于砂巖型鈾礦巖性的識別較其他模型更準(zhǔn)確。針對巖性連續(xù)變化的井段,XGBoost模型的巖性識別效果與鉆井取心巖性剖面基本一致,SMOTE隨機(jī)森林模型的巖性識別效果與鉆井取心巖性剖面絕大部分對應(yīng)較好,但對于少部分?jǐn)?shù)據(jù)集較少的井段會出現(xiàn)巖性不對應(yīng)的情況,這是因?yàn)殡S機(jī)森林算法對于小數(shù)據(jù)或低維數(shù)據(jù)(特征較少的數(shù)據(jù)),不能達(dá)到很好的分類效果。而KNN模型和GBDT模型在面對高維數(shù)據(jù)和不平衡數(shù)據(jù)時(shí)所表現(xiàn)出的局限性,導(dǎo)致部分巖性不能準(zhǔn)確對應(yīng),識別效果與XGBoost模型和SMOTE隨機(jī)森林模型相比較差。各模型的運(yùn)行時(shí)間和準(zhǔn)確性如表2所列。

表2 各模型的準(zhǔn)確率和運(yùn)行時(shí)間Table2 Accuracy and running time of each model

圖8 單井段巖性識別效果Fig.8 Single well interval lithology identification result

由表2可知:XGBoost模型的識別效果最好,準(zhǔn)確率高達(dá)95.27%,其次是SMOTE隨機(jī)森林模型,準(zhǔn)確率為95.02%;GBDT模型和KNN模型的分類效果較弱,準(zhǔn)確率分別為93.81%和93.72%。XGBoost模型之所以準(zhǔn)確率最高,在于XGBoost模型采用并行計(jì)算技術(shù)使得多個弱分類器組合進(jìn)行學(xué)習(xí),模型學(xué)習(xí)的結(jié)果優(yōu)于以決策樹作為基學(xué)習(xí)器的GBDT模型,同時(shí)還借鑒了隨機(jī)森林的列抽樣,降低過擬合。從運(yùn)行時(shí)間來看,基于模型本身的原理簡單,模型訓(xùn)練較快來考慮,KNN模型和GBDT模型所用時(shí)間較短。整體上,XGBoost模型和SMOTE隨機(jī)森林模型優(yōu)于KNN模型和GBDT模型,這是因?yàn)榧蓪W(xué)習(xí)通過不同方法改變原始訓(xùn)練樣本的分布構(gòu)建分類器,最終集合弱分類器成強(qiáng)分類器,并且在每輪迭代中使用內(nèi)置交叉驗(yàn)證,方便獲得最優(yōu)迭代次數(shù),減少了計(jì)算量,提高了模型準(zhǔn)確率。其中Boosting方法每次迭代時(shí)訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān),而且每次通過更新各樣本權(quán)重的方式來改變數(shù)據(jù)分布;Bagging方法每次迭代前,采用有放回的隨機(jī)抽樣來獲取訓(xùn)練數(shù)據(jù),這使得每次迭代不依賴之前建立的模型,生成的各弱模型之間沒有關(guān)聯(lián),可以徹底實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)之間的并行訓(xùn)練。

3 結(jié)論

1) 通過測井資料和交會圖分析,確定了與模型相關(guān)的8條曲線作為輸入變量,并運(yùn)用模型評價(jià)指標(biāo)對兩種集成學(xué)習(xí)模型進(jìn)行評估,驗(yàn)證了模型的可行性;利用網(wǎng)格搜索GridSearchCV從超參數(shù)空間尋找最優(yōu)的參數(shù)組合,運(yùn)用10倍交叉驗(yàn)證結(jié)合參數(shù)組合,通過迭代確定了初步最優(yōu)化模型。

2) XGBoost模型對損失函數(shù)添加正則項(xiàng)以及二階泰勒展開,彌補(bǔ)了傳統(tǒng)Boosting算法的缺陷,提升了優(yōu)化效果,通過對缺失值切分方法的優(yōu)化,使得每個特征的缺失值學(xué)習(xí)到一個最優(yōu)的切分方向,特征的正確排序與分割結(jié)合多線程并行極大提高了運(yùn)算準(zhǔn)確率。

3) Boosting和Bagging兩種集成學(xué)習(xí)在預(yù)測分類中都表現(xiàn)出不錯的性能,XGBoost模型對砂巖型鈾礦地層巖性識別的準(zhǔn)確率最高,達(dá)到了95.27%,SMOTE隨機(jī)森林模型次之,KNN模型的識別效果最差。

猜你喜歡
鈾礦決策樹巖性
一種識別薄巖性氣藏的地震反射特征分析
云南化工(2020年11期)2021-01-14 00:50:58
CSAMT法在柴北緣砂巖型鈾礦勘查砂體探測中的應(yīng)用
鈾礦地質(zhì)勘探設(shè)施治理分析
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
關(guān)于鈾礦地質(zhì)退役設(shè)施的長期監(jiān)護(hù)
UExplore_SAR軟件在鈾礦地質(zhì)勘查中的應(yīng)用
K 近鄰分類法在巖屑數(shù)字圖像巖性分析中的應(yīng)用
錄井工程(2017年1期)2017-07-31 17:44:42
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
蒙阴县| 栾城县| 垦利县| 遂溪县| 鸡西市| 黔西县| 青浦区| 六枝特区| 蒙山县| 无极县| 建德市| 长宁县| 千阳县| 吉林省| 霍邱县| 南京市| 汉沽区| 临沭县| 桦川县| 上蔡县| 华容县| 华安县| 洪泽县| 喀什市| 衡东县| 绥化市| 兴义市| 闽侯县| 阿巴嘎旗| 延长县| 牡丹江市| 南开区| 耒阳市| 庄浪县| 南昌县| 宜州市| 蒲城县| 贵州省| 利津县| 东台市| 抚宁县|