秋興國,王瑞知,張衛(wèi)國,張昭昭,張婧
(西安科技大學 計算機技術與科學學院, 陜西 西安 710054)
礦井突水災害事故危害巨大,據(jù)中國煤礦安全生產(chǎn)網(wǎng)站統(tǒng)計,2013—2019年我國共發(fā)生煤礦水害事故39起,占全國煤礦總事故的11.21%;因煤礦水害導致死亡的有246人,占全國煤礦總事故死亡人數(shù)的14.03%[1]??焖倥袛嗨搭悇e并及時確定突水危險發(fā)生位置是有效預防突水事故發(fā)生及水害治理的重要方法和技術手段。
顏丙乾等[2]通過主成分分析(Principal Component Analysis, PCA)得出不同水樣的礦化程度,將馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo, MCMC)引入到貝葉斯(Bayes)方法中,建立了基于PCA和MCMC的Bayes方法的礦井突水水源判別模型。聶鳳琴等[3]建立了基于馬氏距離的礦井突水水源判別模型,通過劃分不同水源間的距離對水源類型進行區(qū)分。孫福勛等[4]在Fisher判別分析理論的基礎上引入質(zhì)心距評價法剔除混合水樣樣本,實驗證明改進后的模型判別準確率從60%提高到了83.3%。姜子豪等[5]提出了一種基于Bayes-可拓判別法的礦井突水水源判別方法,避免了Bayes判別法中各特征指標對總體樣本的影響及可拓判別法忽視誤判損失帶來的判別誤差問題,可有效提高水源判別精度。楊勇等[6]采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)建立礦井突水水源判別模型,實驗證明該模型適用于處理多維突水序列。劉東銳等[7]利用遺傳算法(Genetic Algorithm,GA)對傳統(tǒng)支持向量機(Support Vector Machine, SVM)進行優(yōu)化,建立了GA-SVM水源判別模型,解決了SVM模型參數(shù)選取經(jīng)驗化的問題。李垣志等[8]建立了基于回聲狀態(tài)網(wǎng)絡(Echo State Network, ESN)的礦井突水水源判別模型,削弱了人為因素的干擾。以上模型雖然具有一定的實用性,但仍存在非線性能力較差、模型穩(wěn)定性較差、判別精度低等問題。為此,本文基于PCA和確定性分層跳躍循環(huán)網(wǎng)絡(Cycle Reservoir with Hierarchical Jumps, CRHJ)構建了PCA-CRHJ模型。將該模型應用于2個實際煤礦的突水水源判別,以驗證該模型的實用性和有效性。
假設原始數(shù)據(jù)集包括n個數(shù)據(jù)樣本,每個樣本具有p個指標Z1—Zp,對此數(shù)據(jù)集的PCA數(shù)據(jù)分析計算流程如下。
(1) 對原始數(shù)據(jù)集進行標準化處理,組成標準化數(shù)據(jù)矩陣。
(2) 根據(jù)Pearson相關系數(shù)[9]計算各個變量數(shù)據(jù)間的相關性,組成相關系數(shù)矩陣。
(3) 求解關于相關系數(shù)矩陣的特征方程,對求出的特征值λ進行排序(從大到小),即λ1≥λ2≥…≥λp,并求出每個特征值所對應的單位特征向量L1—Lp,所有單位特征向量組成的主成分得分矩陣為
(1)
式中l(wèi)pp為單位特征向量Lp的第p個得分系數(shù)。
(4) 計算累計貢獻βm,保留累計貢獻率在85%以上的前m個成分作為新的主成分。
(2)
(5) 原始數(shù)據(jù)集經(jīng)過PCA處理后得到重組數(shù)據(jù)集,第m個新主成分的數(shù)學模型Fm為
Fm=l1mZ1+l2mZ2+…+lpmZp
(3)
確定性循環(huán)跳躍網(wǎng)絡(Cycle Reservoir with Regular Jumps, CRJ)是一種能夠進行時間序列分析的新型遞歸神經(jīng)網(wǎng)絡[10],其儲備池采用簡單的確定型循環(huán)拓撲結(jié)構,解決了ESN儲備池隨機連接結(jié)構不易受控制的問題。與CRJ拓撲結(jié)構不同的是,CRHJ的儲備池采用分層跳躍拓撲結(jié)構,內(nèi)部活躍度明顯提高,在保證內(nèi)部多樣性的同時增強了內(nèi)部穩(wěn)定性,從而增強了模型的非線性能力,使其表現(xiàn)出卓越的性能。
圖1 N=12,J=3的CRJ拓撲結(jié)構Fig.1 CRJ topological structure with N=12 and J=3
圖2 N=18,J1=2,J2=4,J3=8的CRHJ拓撲結(jié)構Fig.2 CRHJ topological structure with N=18 and J1=2,J2=4,J3=8
CRHJ的更新公式為[12]
x(t+1)=f(Vs(t+1)+Wx(t)+z(t+1))
(4)
式中:x(t)為t時描述儲備池內(nèi)部狀態(tài)的狀態(tài)變量,x(t)=(x1(t),x2(t),…,xN(t))T;f為儲備池激活函數(shù),通常取tanh函數(shù)或sigmoidal函數(shù);V為輸入連接權值矩陣,由輸入連接權重r1={-v,v}組成,矩陣大小為N×K;s(t)為t時的輸入變量,s(t)=(s1(t),s2(t),…,sK(t))T;W為儲備池權值矩陣,由r2和rjk組成,矩陣大小為N×N;z(t)為獨立且均勻分布的隨機噪聲。
y(t+1)=Ux(t+1)
(5)
式中:y(t)為t時的輸出變量,y(t)=(y1(t),y2(t),…,yH(t));U為輸出連接權值矩陣,利用Tikhonov正則化方法[13]求出矩陣大小為H×N。
為了驗證基于PCA-CRHJ模型的礦井突水水源判別的實用性和有效性,將該模型應用到安徽淮南張集煤礦和新莊孜煤礦的突水水源判別中。
采用最大最小歸一化方法分別對數(shù)據(jù)集A、B中的數(shù)據(jù)進行標準化處理。
利用Pearson相關系數(shù)ξ評估標準數(shù)據(jù)矩陣各個指標變量之間的線性相關程度。取相關程度閾值為0.8,|ξ|>0.8表示2個變量之間線性相關程度較高。數(shù)據(jù)集A各指標相關系數(shù)見表1,數(shù)據(jù)集B各指標相關系數(shù)見表2。表1中,相關系數(shù)的絕對值大于0.8的有X1和X8,X2和X8,X4和X6,X4和X11,X6和X11,X7和X11,11對指標中有6對指標相關性過大,信息重疊使得信息豐富性降低。表2中,相關系數(shù)的絕對值大于0.8的有Y3和Y4,Y1和Y5,Y1和Y7,Y5和Y7,7對指標中有4對指標相關性過大,信息重疊使得信息豐富性降低。因此,對數(shù)據(jù)進行PCA分析,突出各個指標的特征,避免對模型精度的影響。進行PCA分析時,計算得到各個主成分的特征值、貢獻率、累計貢獻率,見表3。
表1 數(shù)據(jù)集A各指標相關系數(shù)Table 1 Each index correlation coefficient in data set A
表2 數(shù)據(jù)集B各指標相關系數(shù)Table 2 Each index correlation coefficient in data set B
表3 數(shù)據(jù)集A、數(shù)據(jù)集B各成分特征值、貢獻率、累計貢獻率Table 3 Characteristic value, contribution rate and cumulative contribution rate of each component in data set A and set B
(6)
(7)
表4 模型參數(shù)Table 4 Model parameters
基于數(shù)據(jù)集A與數(shù)據(jù)集B,對PCA-CRHJ、CRHJ、CRJ、ESN模型進行礦井突水水源判別模擬實驗。將各個模型分別運行100次。
模擬實驗采用均方根誤差RMSE對模型的準確率進行評估,當RMSE接近于0時,表示模型準確率高。
基于數(shù)據(jù)集A的判別誤差分布如圖3所示,基于數(shù)據(jù)集B的判別誤差分布如圖4所示,各模型的判別結(jié)果與誤差見表5。對比圖3和圖4可知,由于ESN的輸入權值矩陣與儲備池的連接權矩陣在每次訓練時均需隨機生成且網(wǎng)絡內(nèi)部狀態(tài)不穩(wěn)定,所以,模型誤差分布波動性較大;PCA-CRHJ、CRHJ、CRJ的輸入權值矩陣與儲備池連接權值矩陣在訓練前已確定且保持不變,確定性跳躍循環(huán)的拓撲結(jié)構使得訓練過程中網(wǎng)絡內(nèi)部狀態(tài)保持穩(wěn)定,所以,模型誤差分布平穩(wěn)。根據(jù)表5計算分析可得:基于數(shù)據(jù)集A訓練的PCA-CRHJ模型的精度比CRHJ模型提高了79.81%,比CRJ模型提高了79.95%,比ESN模型提高了86.55%;基于數(shù)據(jù)集B訓練的PCA-CRHJ模型的精度比CRHJ模型提高了48.95%,比CRJ模型提高了61.43%,比ESN模型提高了61.89%。4種模型模擬準確率高低順序如下:PCA-CRHJ>CRHJ>CRJ>ESN。由表5中期望輸出與判別結(jié)果可知,PCA-CRHJ模型的判別結(jié)果與期望輸出一致,模擬準確率達到了100%。
圖3 基于數(shù)據(jù)集A的誤差分布Fig.3 Error distribution of data set A
圖4 基于數(shù)據(jù)集B的誤差分布Fig.4 Error distribution of data set B
表5 判別結(jié)果與誤差Table 5 Discrimination results and errors
PCA-CRHJ模型有5類主要參數(shù),分別為儲備池規(guī)模N、輸入連接權重r1、單向連接權重r2、分層雙向跳躍權重rjk、跳躍步長J。
(1) 3類權重參數(shù)的敏感度分析。保持N=20和J=2不變,依次改變其余3類權重參數(shù)值,以RMSE作為評判指標討論3類權重參數(shù)的敏感性。PCA-CRHJ模型不同權重參數(shù)的誤差分布如圖5所示,其中圖5(a)為誤差放大前的模擬結(jié)果,圖5(b)為將誤差放大至[0.083,0.090]區(qū)間的模擬結(jié)果。本文所用PCA-CRHJ模型共有3層跳躍網(wǎng)絡,故分層雙向跳躍權重依次是rj1,rj2,rj3。從圖5(a)可看出,輸入連接權重r1對模型模擬結(jié)果的影響最大,當其取值在[0,0.4]時,RMSE隨著輸入連接權重r1的增大而減小,模型模擬結(jié)果誤差較大,當其取值大于0.4時,RMSE趨于穩(wěn)定;r2,rj1,rj2,rj3對模型模擬結(jié)果影響均較小。從圖5(b)可得出,5個權重參數(shù)-RMSE曲線的斜率(θ)大小依次是θ1>θj1>θ2>θj3>θj2,因此,5個權重參數(shù)對模型誤差模擬的影響大小依次為r1>rj1>r2>rj3>rj2。
(a) 誤差放大前
(2) 儲備池規(guī)模及跳躍步長的敏感度分析。設3類權重參數(shù)取得最優(yōu)值且保持不變,跳躍步長取值范圍為[2,60],儲備池規(guī)模分別取500,400,300,200,100,誤差分布如圖6所示。從圖6橫向觀察,跳躍步長J對模擬結(jié)果的影響整體上趨于平穩(wěn),影響較小;縱向觀察,當跳躍步長J一定時,不同儲備池規(guī)模N的取值使RMSE產(chǎn)生較大差異,因此,儲備池規(guī)模N對模型模擬結(jié)果影響較大。其原因主要在于所用水源判別的數(shù)據(jù)集太小,選用較大的儲備池規(guī)模N易使模型產(chǎn)生過擬合現(xiàn)象,從而使誤差增大。所以,對于PCA-CRHJ網(wǎng)絡,當數(shù)據(jù)集較小時,選用較小的儲備池規(guī)模N將得到更優(yōu)的結(jié)果。
圖6 PCA-CRHJ模型儲備池規(guī)模參數(shù)及跳躍步長參數(shù)的誤差分布Fig.6 Error distribution of reservoir scale and jump size in PCA-CRHJ model
(1) 采用PCA對數(shù)據(jù)集進行預處理,有效提取多元時間突水序列的數(shù)據(jù)特征,重構原始數(shù)據(jù),結(jié)合具有多元時間序列分析能力的CRHJ神經(jīng)網(wǎng)絡建立PCA-CRHJ模型,用于礦井突水水源的判別。通過與CRHJ、CRJ、ESN模型進行對比,表明PCA-CRHJ模型的實際判別效果最優(yōu),準確率可達100%。
(2) 對PCA-CRHJ模型參數(shù)敏感性進行分析,表明輸入連接權重參數(shù)對模型判別結(jié)果的影響最大,5個權重參數(shù)對模型模擬結(jié)果影響大小的順序依次是r1>rj1>r2>rj3>rj2;當3類權重參數(shù)取得最優(yōu)值且保持不變時,儲備池規(guī)模對模型誤差影響最大,而跳躍步長的影響則較小。