国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于過采樣支持向量機的煤與瓦斯突出預測

2021-10-20 13:04齊金平
科學技術(shù)與工程 2021年28期
關(guān)鍵詞:超平面瓦斯煤層

萬 宇, 齊金平, 張 儒, 閆 森

(蘭州交通大學機電技術(shù)研究所, 蘭州 730070)

煤與瓦斯突出是一種影響安全生產(chǎn)的動力災害[1],形成原因復雜,影響因素眾多,突出的發(fā)生會造成嚴重的社會經(jīng)濟損失。基于已發(fā)生突出案例的特征參量進行分類研究,有利于利用突出發(fā)生與否在指標上的差異化表現(xiàn)準確識別突出,進而對未開采區(qū)域的突出危險進行預測,對事故的預控預防具有指導意義。在實際生產(chǎn)中,過去人們常常使用單項指標法、瓦斯地質(zhì)統(tǒng)計法、DK法對突出進行預測。隨著機器學習理論和計算機硬件的發(fā)展,基于機器學習的危險預測以其強大的數(shù)據(jù)分析能力成為學術(shù)研究中的熱點,如神經(jīng)網(wǎng)絡、深度信念網(wǎng)絡、支持向量機(support vector machine, SVM)等在不同預測問題上的表現(xiàn)可圈可點。

付華等[2]提出了一種改進的極限學習機對煤與瓦斯突出強度進行預測;汪瑩等[3]構(gòu)建了基于粗糙集理論(rough set,RS)結(jié)合支持向量機(support vector machine,SVM)的煤與瓦斯突出預測模型;顧能華等[4]將核主成分分析(kernel principal component analysis,KPCA)與Takagi-Sugeno(T-S)模糊神經(jīng)網(wǎng)絡結(jié)合對突出風險進行預測;邵良杉等[5]將隨機森林算法引入突出預測模型解決了數(shù)據(jù)缺失問題。這些方法的在一定程度上提升的突出預測的精度,但是在最大化全體分類準確率的過程中,容易忽略少數(shù)類樣本的正確分類,若想訓練出優(yōu)秀的模型需要大量的突出數(shù)據(jù),這在實際生產(chǎn)中是很難搜集的。為解決這個問題,引入過采樣算法對基于支持向量機的分類預測提供樣本支持。

1 支持向量機

1.1 支持向量機原理

支持向量機是一種基于Vapnik-Chervonenkis(VC)維理論和結(jié)構(gòu)風險最小化準則的監(jiān)督學習算法[6],在面對非線性、小樣本問題時表現(xiàn)出色,計算復雜度取決于支持向量的數(shù)目,從而避免了“維數(shù)災難”,并且具有良好的魯棒性和泛化性能。目前已廣泛應用于計算機視覺、時間序列預測、人工智能等領(lǐng)域。SVM的基本思想是在特征空間中尋找一個最優(yōu)超平面,以期兩類樣本分隔間距最大化。設樣本數(shù)據(jù)集(xi,yi),i=1,2,…,l,x∈Rn,yi∈{-1,+1},其中,l為訓練樣本總數(shù),n為空間的維數(shù),xi為待分類數(shù)據(jù),yi為標記類別,在SVM算法中,滿足Mercer條件的核函數(shù)K=(xi,xj)可以代替原空間中的內(nèi)積,也就是將原空間中線性不可分的樣本映射到高維空間使其變得線性可分,為了增加對噪聲的容錯性同時引入松弛變量ξi與懲罰因子C,上述條件可以轉(zhuǎn)化為式(1)帶約束條件的優(yōu)化問題進行求解。

(1)

通過引入拉格朗日對偶定理將上述最優(yōu)分類問題轉(zhuǎn)化為式(2),決策函數(shù)如式(3)所示。

(2)

(3)

式中:w、b分別為超平面的法向量和截距;Φ、L為函數(shù);ξ為松弛變量;αi、αj為拉格朗日乘子。

1.2 支持向量機缺點

以二分類為例,在兩類樣本數(shù)量懸殊的情況下SVM的分類效果會變差,具體失效原因如下。

(4)

(5)

(6)

(7)

(8)

(9)

(10)

設經(jīng)過過采樣后的Np=Nn=m,可將式(10)轉(zhuǎn)化為

(11)

2 過采樣算法

2.1 BSMOTE算法

Fernandez等[7]提出了合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE),與以往簡單復制的方法不同,它的核心思想是在少數(shù)類樣本的連線上隨機合成新樣本以實現(xiàn)數(shù)據(jù)均衡,一定程度上解決了分類過擬合問題。王坤等[8]使用SMOTE算法合成氣象要素中的少數(shù)類樣本,再結(jié)合邏輯回歸模型對短時強降水進行預測取得了較好的效果,但是這種采樣使得一些新合成的樣本沒有提供有效信息且增加了類之間重疊的可能性。Smiti等[9]提出了一種考慮樣本分布特點采樣的Borderline-SMOTE算法,該算法認為樣本越靠近決策邊界,其分類意義越高,因此引入k-近鄰法(k-nearest neighbor,k-NN)找出邊界樣本,分別計算少數(shù)類樣本集中每一個樣本的m個近鄰樣本,近鄰樣本既可能是同類也可能是異類,如果異類樣本數(shù)量大于同類,則認為該樣本靠近邊界,并將其放入一個新集合中以備合成新樣本,否則就將該樣本點剔除。黃景林等[10]將Borderline-SMOTE算法與卷積神經(jīng)網(wǎng)絡相結(jié)合構(gòu)造了輸電線路故障分類模型,提高了對少數(shù)類故障樣本的識別能力。Borderline-SMOTE算法只對靠近邊界的樣本進行過采樣,使得新合成的樣本也處于分類邊界附近,保持了正負類邊界支持向量的數(shù)量一致,根據(jù)SVM的原理可知,這對分類器性能的提升是很有幫助的。但是該算法同時也右在3個缺點:①數(shù)據(jù)呈多簇分布時,合成樣本可能會產(chǎn)生新噪聲;②如果近鄰或參數(shù)k值大小設置不當,可能會將位于邊界附近的重要樣本視作噪聲,而k值的大小很難預先確定;③k-NN法不能找到所有的邊界點。

2.2 改進的BSMOTE算法

針對第一個缺點,可以將樣本點作為一個簇,合并距離最近的兩個簇,不斷重復直到聚類數(shù)為2(少數(shù)類和多數(shù)類),選出少數(shù)類簇,用同樣的方法合并最終得到n個簇。

(12)

(13)

綜合二者考慮噪聲為真的概率,具體表達式為

(14)

針對③缺點,可以通過考慮樣本超平面位置改進合成公式解決,經(jīng)SVM訓練生成超平面可產(chǎn)生圖1所示的3種情況:①決策平面輕微偏移,沒有錯分的正類樣本。此時距離超平面越近樣本點,越容易為邊界點;②決策平面一般偏移,存在部分正類樣本錯分,對于錯分的正類樣本點,距離超平面越遠的,越容易為邊界點,反之,對于正確分類的部分,越近的正類樣本點越容易為邊界點;③決策平面嚴重偏移,正類樣本全部錯分。此時,距離超平面越遠的正類樣本點越靠近邊界。

圖1 超平面偏移的3種情況Fig.1 Three cases of hyperplane migration

因此,簇中正類樣本信息量的計算公式為

(15)

(16)

合成新樣本的計算公式為

ε′∈{0.5y∈0,1,…,N/k;(1-0.5y∈0,1,…,N/k)}

(17)

整體的算法流程如圖2所示。

圖2 改進的Borderline-SMOTE算法流程圖Fig.2 Flow chart of improved Borderline-SMOTE algorithm

步驟1 通過聚類分析將少數(shù)類樣本分成n個簇。

步驟2 在第i∈{1,2,…,n}個簇中,利用k-NN法識別出疑似噪聲點,總數(shù)記作qi。

步驟3 若沒有疑似噪聲點,進入步驟5;否則計算疑似噪聲點為真的概率。

步驟4 按概率順序剔除j∈{0,1,…,qi}個噪聲點得到簇i′。

步驟5 結(jié)合負類樣本導入SVM訓練,計算正類樣本信息量并排序。

步驟6 合成新樣本,記為簇i″。

步驟7 訓練由簇i″組成的新訓練集,計算正確率后返回步驟4直到噪聲點全部剔除完,記下準確率最高的簇i″。

步驟8 返回步驟3直到所有簇訓練完,將所有的簇i″合并存儲。

3 基于過采樣SVM的突出預測

3.1 突出機理與樣本的采集

由于突出本身的復雜性以及突出發(fā)生時采集實時數(shù)據(jù)困難,使得關(guān)于該災害的機理研究尚未形成一套完整的理論體系,但是經(jīng)過中外學者們不斷地總結(jié)經(jīng)驗和模擬實驗提出了四類假說:瓦斯主導假說、化學效應假說、地應力主導假說以及目前認同度最高的綜合作用假說[11]。

依據(jù)綜合作用假說,選取垂深、瓦斯含量、煤層厚度、瓦斯壓力、堅固性系數(shù)5個指標作為影響突出的指標。煤層垂深的大小一方面代表開采地點的應力狀況,一般垂深越大,受到地下能量影響破壞內(nèi)部平衡的可能性越高;另一方面,深部地下土壤環(huán)境的密閉性通常高于淺層,這種現(xiàn)象將導致積聚的瓦斯氣體不利于揮發(fā)而增加突出風險;瓦斯作為形成突出災害的主要氣體,可以在開采過程中通過取樣試驗初步測量,通常煤層中的瓦斯含量越高,因采掘作業(yè)破壞煤層平衡后發(fā)生的突出風險也就越高;一定的煤層厚度也是突出發(fā)生的必備條件,因煤層滲透性較差,厚煤層的分層會阻止瓦斯逸散,形成瓦斯分層從而增加突出發(fā)生可能性;瓦斯壓力影響著突出爆發(fā)時瓦斯噴出的劇烈程度,因此對確定煤層的突出風險起著至關(guān)重要的作用,一般情況下,瓦斯壓力越大突出風險程度越高;堅固的煤層由于采掘作業(yè)中不易破壞而能夠較好地保存吸附的瓦斯氣體,通常情況下發(fā)生大規(guī)模突出風險的概率較小,因此堅固性系數(shù)也可作為判斷突出風險的指標。

以中國煤與瓦斯突出事故為研究對象,通過整理資料、問卷調(diào)查共獲得210個樣本點,包括50個突出樣本,160個非突出樣本。從兩類樣本中分別選取20個作為測試樣本,剩下作為訓練樣本,在此基礎(chǔ)上,再將突出樣本數(shù)逐步縮減至20個、10個共3個訓練集,以觀察在正類樣本數(shù)量逐步縮小的情況下算法的表現(xiàn)。具體分布如表1所示,部分數(shù)據(jù)如表2所示。

表1 實驗樣本分布情況Table 1 Distribution of experimental samples

表2 部分預測指標集數(shù)據(jù)Table 2 Partial forecast indicator set data

3.2 預測流程與評價方法

基于過采樣算法的SVM預測流程如圖3所示。煤與瓦斯突出預測的本質(zhì)是不平衡數(shù)據(jù)分類問題,引入混淆矩陣如表3所示。

表3 混淆矩陣Table 3 Confusion matrix

圖3 基于過采樣算法的SVM預測流程圖Fig.3 SVM prediction flow chart based on oversampling algorithm

P/Ne(positive/negative)表示預測對象的所屬類別,T/F(true/false)表示分類的正確與否,如TP即將實際有突出的煤礦預測為有突出的樣本數(shù)量,并選取由此產(chǎn)生的5個指標:敏感性(sensitivity,SEN)、特異性(specificity,SPE)、幾何平均值(Geometric mean,G-mean)、F測度(F-measure)、曲線下面積(area under curve,AUC)來評價分類情況的好壞[12],前四者求解公式分別為

SEN=TP/(TP+FN)

(18)

SPE=TN/(TN+FP)

(19)

(20)

PRE=TP/(FP+TP)

(21)

F-measure=2SEN PRE/(SEN+PRE)

(22)

AUC值需要通過計算工作特性曲線(receiver operating characteristic curve,ROC)下面積得到,ROC曲線也稱受試者工作特性曲線,其橫縱坐標分別是假陽性率(false positive rate,FPR)和真陽性率(true positive rate,TPR),坐標(0,1)對應的是理想的分類模型。曲線越靠近左上角表示分類效果越好,定量指標AUC需要通過積分求面積獲得,其大小一般在0.5~1,越靠近1表示越接近理想分類模型。

除上述評價指標外,考慮算法的綜合魯棒性[13],其計算公式為

bm=Rm/max(Ri),i=1,2,…,k′

(23)

式(23)中:bm為算法m的魯棒性性能,其值越接近1代表相對性能越好;Rm為算法m的調(diào)整蘭德系數(shù)(adjusted rand index,ARI) 值。算法在不同數(shù)據(jù)集上的整體表現(xiàn)可以通過對bm求和得到。

3.3 算法對比和參數(shù)設置

共使用4種算法:SVM、BSMOTE-SVM、SC-SVM、改進的BSMOTE-SVM,對3種不同訓練集下預測結(jié)果的性能指標進行對比。算法參數(shù)盡可能選取最優(yōu)值,BSMOTE-SVM算法的近鄰域參數(shù)k在3個訓練集中分別選擇3、4、4;譜聚類(spectral clustering,SC)保留相同數(shù)目的正負類樣本;改進的BSMOTE取δ=10-13,α=0.5,k=4;SVM的核函數(shù)選擇RBF,其中Rδ=10、0.5,C=10,并利用粒子群算法(particle swarm optimization,PSO)對Rδ、C尋優(yōu),其中,Rδ為徑向基核函數(shù)自帶的參數(shù),C為懲罰參數(shù),PSO的初始種群與迭代次數(shù)分別設為20、100。

3.4 結(jié)果分析及對比

利用上述所有方法對煤與瓦斯突出進行分類預測,SEN、SPE、G-mean、F-measure、AUC準確率的結(jié)果如表4~表6所示。魯棒性的結(jié)果如圖4所示。

表4 不同算法的預測結(jié)果比較(Rδ=10)Table 4 Comparison of prediction results of different algorithms(Rδ=10)

表5 不同算法的預測結(jié)果比較(Rδ=0.5)Table 5 Comparison of prediction results of different algorithms(Rδ=0.5)

表6 改進的PSO-BSMOTE-SVM的預測結(jié)果Table 6 Prediction results of improved PSO-BSMOTE-SVM

圖4 不同算法的魯棒性比較Fig.4 Robustness comparison of different algorithms

分析表4~表6、圖4可知:①過采樣算法與支持向量機的組合在G-mean值、AUC值、魯棒性值上的表現(xiàn)均優(yōu)于單一支持向量機,說明該組合在煤與瓦斯突出預測領(lǐng)域是適用的,而以SC為例的欠采樣算法組合預測效果不如單一支持向量機,推測可能是由于在數(shù)據(jù)偏少的情況下,欠采樣算法刪除的樣本點包含影響分類決策的重要信息,從而導致決策面發(fā)生偏移;②改進的BSMOTE-SVM相比BSMOTE-SVM在分類器性能上有所提升,雖然隨著訓練集中突出樣本的減少,各類算法的性能指標均有不同程度的下降,但是改進的BSMOTE-SVM依然保持了預測結(jié)果最優(yōu)的特點,說明在重采樣方面的改進方法是有效的;③不同的Rδ值對應算法的預測效果相差很大,因此對SVM分類器參數(shù)Rδ與C進行優(yōu)化是有必要的。經(jīng)粒子群算法優(yōu)化參數(shù)后,改進的BSMOTE-SVM算法表現(xiàn)出了更加優(yōu)秀的性能。

4 結(jié)論

依據(jù)綜合作用假說建立了預測指標集,研究了過采樣算法與支持向量機的組合在煤與瓦斯突出危險預測方面的應用。針對BSMOTE算法的缺點作出了相應的改進,通過聚類、去噪、合成新樣本為SVM提供樣本支持,此外仿真實驗還使用了以SC為代表的欠采樣算法作為對比,可以看出經(jīng)過SC重采樣的樣本集訓練后的效果反而有所下降,充分說明了過采樣算法在煤與瓦斯突出危險預測領(lǐng)域的優(yōu)勢,針對SVM調(diào)參復雜還采用了PSO算法進行參數(shù)尋優(yōu),取得了非常好的預測效果,在防控災害上有很好的應用價值。

猜你喜歡
超平面瓦斯煤層
一種改進的多分類孿生支持向量機
逐級降壓解吸過程中解吸瓦斯膨脹能變化特性
基于非線性核的SVM模型可視化策略
新旺煤業(yè)3號煤層蹬空開采可行性研究
溫莊煤業(yè)3號煤層蹬空開采可行性論證
有限維Banach空間中完備集的構(gòu)造
礦井瓦斯涌出量預測
金谷煤礦11號煤層上行開采可行性技術(shù)研究
11采區(qū)永久避難硐室控制瓦斯涌出、防止瓦斯積聚和煤層自燃措施
Gianluca Capannolo
鲁甸县| 鲁山县| 临泽县| 孙吴县| 巴彦县| 介休市| 江安县| 醴陵市| 雅江县| 司法| 禹州市| 武威市| 时尚| 清流县| 宜宾县| 岚皋县| 新营市| 阳曲县| 原平市| 台东市| 类乌齐县| 久治县| 新丰县| 嘉善县| 云林县| 揭西县| 砀山县| 罗城| 徐闻县| 阿鲁科尔沁旗| 乌审旗| 治多县| 武平县| 神木县| 平乡县| 桂东县| 神池县| 嵊州市| 大洼县| 乌拉特中旗| 大安市|