国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Voting和Stacking集成算法的巖爆傾向性預測*

2023-10-24 03:43:42李子彬
化工礦物與加工 2023年10期
關鍵詞:巖爆分類器準確率

王 凱,李子彬

(1.中國有色金屬工業(yè)昆明勘察設計研究院有限公司,云南 昆明 650000;2.昆明理工大學 國土資源工程學院,云南 昆明 650093)

0 引言

隨著礦山開采向深部轉移,工作面處于高地應力、高地溫、高巖溶水壓以及強擾動等環(huán)境中,巖爆災害呈增加趨勢[1-2]。巖爆是高地應力條件下地下洞室開挖過程中因圍巖開挖卸荷而發(fā)生脆性破壞,儲存于巖體中的彈性應變能突然釋放且產(chǎn)生爆裂松脫、剝落、彈射甚至拋擲現(xiàn)象的一種動力失穩(wěn)地質災害[3]。巖爆具有很強的突發(fā)性、隨機性和危害性,已成為威脅井下安全生產(chǎn)的重大災害之一[4-5]。因此,提高巖爆預測準確性對于保障礦山安全生產(chǎn)至關重要。

機器學習作為人工智能的一個分支,國內(nèi)外不少學者將其引入巖爆等級預測預警領域,獲得了較好的效果。湯志立等[6]引入機器學習算法建立了9個考慮多因素的巖爆預測模型;謝學斌等[7]基于改進的CRITIC算法以及XGBoost對樣本進行加權和計算訓練,建立了CRITIC-XGB巖爆傾向性等級預測模型;喬木等[8-9]基于主客觀組合賦權和物元可拓理論建立了巖爆傾向性預測模型;胡建華等[10]采用消除云霧化的綜合權重法建立了多指標巖爆傾向性的改進有限云評價模型;吳順川等[11]采用主成分分析法(PCA)對數(shù)據(jù)進行降維,結合概率神經(jīng)網(wǎng)絡(PNN)建立了巖爆烈度預測模型;劉曉悅等[12]引入AdaBoost集成學習算法對BAS-SVM弱學習器進行了強化訓練,建立了AdaBoost-BAS-SVM巖爆等級預測模型;劉劍等[13]基于修正散點圖矩陣與隨機森林進行了巖爆傾向性等級預測;劉德軍等[14]融合8個機器學習算法,提出了3組考慮多個巖爆預測指標的Stacking集成算法。

從現(xiàn)有研究成果來看,機器學習應用于巖爆預測是可行的。然而各種機器學習算法都有其優(yōu)越性和魯棒性,僅將一種或幾種算法簡單融合得到的模型預測效果并不理想或泛化性不強。因此,本文基于Voting和Stacking集成算法,融合現(xiàn)階段準確率較高的幾種機器學習算法,建立集成分類器預測巖爆傾向性。此外,選用精確率、準確率、召回率及F1分數(shù)作為評價指標,綜合評估幾種基礎分類器和集成分類器的性能,擇優(yōu)選擇最佳分類器,并將其應用于秦嶺隧道進行巖爆預測,以檢驗模型的可靠性。

1 數(shù)據(jù)來源及分析

1.1 數(shù)據(jù)來源

根據(jù)烈度將巖爆劃分為無巖爆(Ⅰ級)、輕微巖爆(Ⅱ級)、中等巖爆(Ⅲ級)、強烈?guī)r爆(Ⅳ級)。從巖爆的影響因素出發(fā),考慮了應力條件、脆性條件及能量因素,選取最大切向應力SMT、應力集中系數(shù)FSC、脆性系數(shù)B1、彈性能量指數(shù)Wet等作為指標。本文一共選擇231組巖爆數(shù)據(jù),均來自國內(nèi)外公開發(fā)表的文獻[15-16],其中,無巖爆(Ⅰ級)37例,輕微巖爆(Ⅱ級)72例,中等巖爆(Ⅲ級)79例,強烈?guī)r爆(Ⅳ級)43例。巖爆數(shù)據(jù)及等級分布見圖 1。

圖 1 巖爆數(shù)據(jù)及等級分布

1.2 數(shù)據(jù)分析

為分析數(shù)據(jù)異常情況,以各指標數(shù)據(jù)按不同巖爆等級繪制箱型圖(見圖 2)。

圖 2 各指標數(shù)據(jù)箱型圖

由圖2可知,各指標均存在異常數(shù)據(jù),考慮到工程實際情況,本文并未刪除這些異常值,保留異常離群值的全部樣本作為數(shù)據(jù)集,建立巖爆預測算法。

1.3 數(shù)據(jù)預處理

建立模型之前,首先對所有數(shù)據(jù)作標準化處理(特征縮放),其原理是針對每個特征維度去均值和歸一化,而不是針對樣本,使得處理后的數(shù)據(jù)符合標準正態(tài)分布,以解決數(shù)據(jù)不均衡的問題。其轉換函數(shù)為

(1)

式中,μ為所有樣本的均值,σ為所有樣本的標準差。

2 集成算法構建

2.1 Voting集成算法原理

Voting是一種集成學習,結合多個機器學習模型預測結果而產(chǎn)生最終結果(見圖 3)。在整個數(shù)據(jù)集上訓練多個基礎模型來進行預測,每個模型預測結果被認為是一個“投票”,得到多數(shù)選票的預測結果將被選為最終預測結果。投票方法分為硬投票和軟投票兩種(見圖 4),硬投票將N個基礎模型預測結果按數(shù)量票選出最終結果,軟投票將N個基礎模型預測的概率平均值作為最終結果。

圖 3 Voting集成算法原理

圖4 硬投票和軟投票

2.2 Stacking集成算法原理

Stacking也被稱為疊加泛化,目的是通過使用不同的泛化器來減少錯誤,其結合策略是使用另一個機器學習算法來將個體學習器的結果結合在一起。在Stacking算法中,個體學習器又稱為初級學習器,用于結合的學習器稱作元學習器(Meta-model)。將初級學習器的預測結果作為新的特征輸入元學習器,得到最終預測結果(見圖5)。

圖 5 Stacking集成算法原理

2.3 集成算法構建及優(yōu)化

2.3.1 集成算法構建

本文基于Scikit-learn基礎算法包對數(shù)據(jù)集進行學習,考慮到各算法的原理、優(yōu)缺點及精確率,選擇邏輯回歸(LR)、隨機森林(RF)、支持向量機(SVM)、決策樹(DT)、K近鄰(KNN)、高斯樸素貝葉斯(GNB)等6種基礎機器學習方法,其精確率分別為0.70、0.93、0.94、0.92、0.90、0.92。先將數(shù)據(jù)集輸入6種機器學習算法模型中得到初始預測結果,根據(jù)Voting集成算法分別進行硬投票和軟投票,得到Voting集成分類器1(V1)和Voting集成分類器2(V2);Stacking集成算法的初級學習器也由6個基本算法構成,并分別從中選擇準確率最高的兩種(RF、SVM)作為元模型,由此得到Stacking集成分類器1(S1)和Stacking集成分類器2(S2)。

圖6 構建集成分類器V1、V2、S1和S2

2.3.2 交叉驗證及超參數(shù)調優(yōu)

為使建立的分類器具有更好的泛化性,本文引入K折交叉驗證(K-fold cross-validation)[17],K值取10,其原理見圖 7。將原始數(shù)據(jù)集分割為相等的K部分,依次將每個部分作為測試集,其余部分作為訓練集,訓練分類器,將K次準確率的平均值作為最終的準確率。

圖7 K折交叉驗證

邏輯回歸分類器(LR)中C值為正則化懲罰參數(shù),其值越小懲罰力度越大,取0.01;隨機森林分類器(RF)中基評估器數(shù)量(estimators)為100,隨機因子(random state)取10;支持向量機分類器中C值懲罰因子為1.0,核函數(shù)為徑向基函數(shù)RBF,決策函數(shù)類型選擇一對一;決策樹分類器中最大深度為2;K近鄰分類器中用于查詢鄰居的數(shù)量為2。

3 分類器性能評估

準確率(Precision)和召回率(Recall)是廣泛應用于信息檢索和統(tǒng)計學分類領域的兩個度量值,分別衡量分類器的查準率和查全率。圖 8列舉了所有分類器各個等級的預測結果,計算了各等級的準確率、召回率及全部結果的精確率(Accuracy),并組成了混淆矩陣。

由圖8可知:預測為Ⅰ級樣本中準確率最高的是集成分類器S1、SVM,準確率為1,其次為集成分類器V1、RF,準確率為0.949;所有Ⅰ級樣本中預測最全的是集成分類器S1、V1、RF,召回率為1。預測為Ⅱ級樣本中準確率最高的是集成分類器S1,準確率為1;其次是SVM,準確率為0.986。所有Ⅱ級樣本中預測最全的是集成分類器S1、SVM,召回率為0.986。預測為Ⅲ級樣本中準確率最高的是集成分類器S2,準確率為0.949,其次是集成分類器S1,準確率為0.948。所有Ⅲ級樣本中預測最全的是LR,召回率為0.975;其次是KNN,召回率為0.962。預測為Ⅳ級樣本中準確率最高的是集成分類器V1,準確率為0.944;其次是KNN,準確率為0.938。所有Ⅳ級樣本中預測最全的是RF,召回率為0.953;其次是集成分類器S1、S2、DT,召回率為0.930。

圖8 各算法混淆矩陣

對于Ⅰ級、Ⅱ級樣本,6個基礎分類器中SVM、RF預測效果更好,4個集成分類器中S1、V1預測效果更好。對于Ⅲ級、Ⅳ級樣本,6個基礎分類器中KNN預測效果更好,4個集成分類器中S1、S2預測效果更好。從整體精確率來看,6個基礎分類器中SVM、RF預測效果更好,4個集成分類器中S1、S2預測效果更好。

根據(jù)混淆矩陣計算各算法的精確率、準確率、召回率及F1分數(shù)(見表 1)。由表1可知,6個基礎分類器中預測效果最好的是RF和SVM,精確率分別為0.93、0.94,準確率、召回率及F1分數(shù)也優(yōu)于其他基礎分類器;LR由于對Ⅰ級、Ⅳ級樣本不敏感,導致整體預測效果欠佳。

表1 各算法精確率、準確率、召回率及F1分數(shù)

集成分類器相對于基礎分類器均有不同程度的提升,為了更直觀地對比集成分類器的優(yōu)化效果,圖 9列舉了4個集成分類器相對于基礎分類器中RF、SVM的性能提升情況。由圖9可知:相對于RF,S1、S2性能提升較明顯;V1、V2基于投票原理,受基礎分類器中較差的LR、GNB影響,預測效果稍差;相對于SVM,S1性能提升較明顯,S2預測性能與其持平;V1、V2均因投票機制所限性能稍有降低。整體來看,4個集成分類器中S1較基礎分類器性能提升最顯著,預測效果最佳,精確率、準確率、召回率、F1分數(shù)分別為0.95、0.97、0.96、0.95。

圖9 集成分類器相對于RF、SVM的性能對比

4 工程實例

秦嶺隧道為西安-安康鐵路線上的重大控制工程,位于陜西省長安縣與柞水縣交界處,長18 km,近南北向穿越近東西向展布的秦嶺山脈,最大埋深達1 600 m。隧道穿越的巖體主要為混合片麻巖和混合花崗巖,其中混合片麻巖的單軸抗壓強度為95~130 MPa,最大主應力為20~40 MPa。巖爆主要發(fā)生在洞身拱部,電鏡掃描巖爆破裂面發(fā)現(xiàn)主要是張拉破壞,局部為剪切破壞[17]。

根據(jù)秦嶺隧道施工過程中實際發(fā)生巖爆的4處記錄,樁號分別為1+731、1+640、3+390、3+000,巖爆等級為Ⅱ級、Ⅲ級。將本文構建的集成分類器S1應用于秦嶺隧道的巖爆傾向性分析,結果見表 2。由表2可知,S1預測結果與秦嶺隧道實際情況一致,驗證了該分類器在實際應用中的可靠性及準確性。

表2 秦嶺隧道巖爆數(shù)據(jù)及預測結果

5 結論

為合理預測巖爆災害的烈度,本文考慮了巖爆發(fā)生的主要因素,采用Voting和Stacking集成算法,結合6種機器學習算法建立了4個集成分類器V1、V2、S1、S2,對其預測效果進行了對比分析,得到以下主要結論:

a.基礎分類器各有優(yōu)劣,對不同等級的樣本敏感程度也不盡相同,其中,SVM、RF對Ⅰ級、Ⅱ級樣本較敏感,KNN對Ⅲ級、Ⅳ級樣本更敏感。整體來看,LR由于對Ⅰ級、Ⅳ級樣本不敏感,導致預測效果欠佳;預測效果最好的是RF和SVM,精確率分別為0.93、0.94。

b.Voting和Stacking集成算法均能有效融合各基礎機器學習算法結果,充分發(fā)揮各算法優(yōu)勢,集成分類器相對于基礎分類器性能均有不同程度的提升。根據(jù)投票機制,基于Voting集成算法的分類器易受性能較差的基礎分類器影響,整體性能弱于Stacking集成算法。

c.4個集成分類器中S1、V1對Ⅰ級、Ⅱ級樣本較敏感,S1、S2對Ⅲ級、Ⅳ級樣本更敏感。整體來看,S1較基礎分類器性能提升最顯著,預測效果最佳,精確率、準確率、召回率、F1分數(shù)分別為0.95、0.97、0.96、0.95。

d.將基于Stacking算法構建的集成分類器S1應用于秦嶺隧道巖爆預測,預測結果與工程現(xiàn)場實際一致,驗證了其可靠性。

猜你喜歡
巖爆分類器準確率
某引水隧洞深埋段花崗巖巖爆演化規(guī)律研究
中國水運(2023年8期)2023-09-08 01:45:02
使用聲發(fā)射測試結果預判巖爆等級
金屬礦山(2022年1期)2022-02-23 11:16:36
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
高速公路車牌識別標識站準確率驗證法
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
引漢濟渭工程秦嶺隧洞巖爆數(shù)值模擬與巖爆預測研究
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
五莲县| 延吉市| 博罗县| 兖州市| 华安县| 轮台县| 新密市| 弥勒县| 锡林郭勒盟| 海安县| 田林县| 乐都县| 台前县| 武宣县| 定日县| 维西| 丰台区| 深泽县| 时尚| 弥勒县| 井冈山市| 丹寨县| 龙南县| 密山市| 务川| 新田县| 乌拉特中旗| 西吉县| 霞浦县| 扶绥县| 和林格尔县| 广汉市| 新闻| 苏尼特右旗| 华容县| 施秉县| 图木舒克市| 岳西县| 太湖县| 冀州市| 伊吾县|