馬鑫民,王 毅,翟中華,馮文宇,朱培梟,陳 攀,張召冉,王雁冰
(1.中國礦業(yè)大學(xué)(北京)力學(xué)與建筑工程學(xué)院,北京 100083;2.北方工業(yè)大學(xué) 土木工程學(xué)院,北京 100144)
爆破在礦山開采的總成本中所占比例雖然不大,但爆破效果的優(yōu)劣往往會(huì)給后續(xù)工作如鏟裝、運(yùn)輸、破碎等帶來較大的影響,因此其是礦山安全高效開采的關(guān)鍵技術(shù)之一[1],而爆破效果的優(yōu)劣是評(píng)價(jià)掘進(jìn)質(zhì)量好壞的重要指標(biāo)。如何通過科學(xué)的方法開展爆破效果預(yù)測(cè),并據(jù)此調(diào)整優(yōu)化爆破參數(shù),進(jìn)而提升爆破效果具有重要的理論和工程實(shí)際意義。通過爆破智能預(yù)測(cè)可以比較準(zhǔn)確地預(yù)測(cè)出當(dāng)前生產(chǎn)條件下爆破效果。此技術(shù)能給予在現(xiàn)場施工的技術(shù)人員更多合理的經(jīng)驗(yàn)性知識(shí),輔助他們因地制宜地進(jìn)行現(xiàn)場的方案調(diào)整。
爆破效果預(yù)測(cè)在國內(nèi)外都屬于新興的研究方向,預(yù)測(cè)的辦法也是百花齊放。支持向量機(jī)(Support Vector Machine,簡稱 SVM)因其對(duì)小樣本、高維度的數(shù)據(jù)更敏感,在爆破效果預(yù)測(cè)中被廣泛使用或聯(lián)合其他算法使用[2-9]。針對(duì)爆破效果預(yù)測(cè)存在的不足,本文提出基于改進(jìn)的SVM算法進(jìn)行爆破效果預(yù)測(cè)研究,既充分發(fā)揮SVM的優(yōu)點(diǎn),又具有創(chuàng)新性。提出目前研究較少的預(yù)測(cè)爆破的炸藥單耗,通過網(wǎng)格搜索交叉驗(yàn)證算法與SVM算法結(jié)合提升預(yù)測(cè)的準(zhǔn)確性;利用免費(fèi)開源、用途廣泛、語言簡單的Python平臺(tái)進(jìn)行建模預(yù)測(cè)及輸出數(shù)據(jù);利用隨機(jī)森林重要性排序篩選合理的預(yù)測(cè)因素,綜合提升預(yù)測(cè)準(zhǔn)確率及可操作性,更貼合工程人員的實(shí)際需求。
SVM是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法[10-15],其中心思想就是利用某些支持向量所構(gòu)成的“超平面”,將不同類別的樣本點(diǎn)進(jìn)行分類[16,17]。
假設(shè)線性分割面表示為w′x+b=0,則點(diǎn)到分割面的距離可以表示為:
(1)
SVM可以解決連續(xù)型數(shù)據(jù)的預(yù)測(cè)問題,稱為SVM回歸,簡稱SVR,需要計(jì)算出上式中的w與b。對(duì)于線性回歸,加入松弛因子ξ(*),確保不等式|yi-f(xi)|-ξ(*)≤ε成立,即:
(2)
整理得關(guān)于目標(biāo)函數(shù)的極大值問題,即:
(3)
(4)
在實(shí)際中遇到的樣本基本都是高維且非線性可分的,需借助于核函數(shù)技術(shù),實(shí)現(xiàn)樣本在核空間下完成線性可分。需要使用核函數(shù)K(xi,xj)技術(shù)替換更高維的空間內(nèi)積,函數(shù)f(xi)可以表示為:
(5)
選擇SVM適配的三種核函數(shù),具體見表1。
表1 使用的核函數(shù)種類
Grid Search CV(Cross Validation),由網(wǎng)格搜索和交叉驗(yàn)證兩部分組成[18,19]。
Grid Search(網(wǎng)格搜索)的目的是尋找最優(yōu)參數(shù),即在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器,遍歷所有可能參數(shù)的組合,從中找到在驗(yàn)證集上精度最高的參數(shù)。
這種方法雖然簡單易行,但是其最終的表現(xiàn)好壞與初始數(shù)據(jù)的劃分結(jié)果有很大的關(guān)系,為了降低偶然性,可采用交叉驗(yàn)證的方式來予以輔助。
Cross Validation(交叉驗(yàn)證)的基本思想是把將原始數(shù)據(jù)進(jìn)行分組,一部分作為訓(xùn)練集,另一部分作為測(cè)試集,先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再用測(cè)試集來測(cè)試訓(xùn)練得到的模型,以此作為評(píng)價(jià)分類器的性能指標(biāo)。
采取K折交叉驗(yàn)證,若K=10,就是十折交叉驗(yàn)證,其運(yùn)算步驟如下:
1)將所有數(shù)據(jù)集分成10份。
2)不重復(fù)地每次取其中1份做測(cè)試集,用其他9份做訓(xùn)練集訓(xùn)練模型,之后計(jì)算該模型在測(cè)試集上的MSEi。
3)將10次的MSEi取平均得到MSE。即:
(6)
一般來說折數(shù)不宜過多,K=5或K=10較為常用,通過比對(duì)每一組數(shù)值,可以求得選定范圍內(nèi)使預(yù)測(cè)準(zhǔn)確率最高的參數(shù)。
雖然SVM模型對(duì)爆破預(yù)測(cè)有很大優(yōu)勢(shì),但是SVM還有核函數(shù)的參數(shù)不易調(diào)整的缺點(diǎn)。為了克服這一缺點(diǎn),引用Grid Search CV算法來進(jìn)行合理的參數(shù)尋優(yōu),提升SVM算法的準(zhǔn)確率。
本文使用非線性可分SVM模型,選擇使用徑向基核函數(shù)“Rbf”、多項(xiàng)式核函數(shù)“Poly” 和線性核函數(shù)“Linear”三種核函數(shù)作為對(duì)比驗(yàn)證,用網(wǎng)格搜索法來進(jìn)行它們的參數(shù)尋優(yōu)。
在這三種核函數(shù)中,有兩個(gè)重要的參數(shù),即C和gamma。C表示模型對(duì)誤差的懲罰系數(shù),gamma反映了數(shù)據(jù)映射到高維特征空間后的分布。這兩個(gè)參數(shù)的大小將會(huì)一定程度上改變預(yù)測(cè)的結(jié)果。
網(wǎng)格搜索法需要在SVM建模之前進(jìn)行,使用K折交叉驗(yàn)證,K-CV交叉驗(yàn)證重復(fù)k次,其顯著的優(yōu)點(diǎn)是所有的樣本都被作為了訓(xùn)練集和測(cè)試集,每個(gè)樣本都被驗(yàn)證一次。在SVM算法下,將全體數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集,按照預(yù)先設(shè)定好的K折,經(jīng)過計(jì)算,將其中平均得分最高的超參數(shù)組合作為最佳選擇,將這些參數(shù)傳遞給SVM的核函數(shù),以便進(jìn)行下一步的SVM預(yù)測(cè)。
在實(shí)際運(yùn)用中,可利用Python中的sklearn子模塊下的“sklearn.model_selection import GridSearchCV”模塊實(shí)現(xiàn)參數(shù)的尋優(yōu)。
隨機(jī)森林(Random Forest)算法作為對(duì)照組,其核心思想是采用多顆決策樹的投票機(jī)制來完成預(yù)測(cè),其基本原理是運(yùn)用Bootstrap抽樣法從數(shù)據(jù)集中隨機(jī)抽取多個(gè)樣本,為每一個(gè)樣本進(jìn)行決策樹建模,在給每個(gè)結(jié)點(diǎn)劃分屬性時(shí),從該節(jié)點(diǎn)的屬性集合中隨機(jī)抽取一個(gè)子集,選取該子集中的最優(yōu)屬性用于劃分;最后組合多棵決策樹的預(yù)測(cè),得出預(yù)測(cè)結(jié)果[23]。其中,Bootstrap重抽樣方法中每個(gè)樣本未被抽取的概率為:
(7)
當(dāng)N→+∞時(shí),每個(gè)樣本未被抽取的概率為:
(8)
其中,N為原始訓(xùn)練集中樣本的個(gè)數(shù)。
本文使用的爆破數(shù)據(jù)庫由線上收集和現(xiàn)場收集兩部分組成,具體收集流程如圖1所示。巖石巷道爆破方案決策涉及的參數(shù)多且復(fù)雜,為提高預(yù)測(cè)準(zhǔn)確性,在眾多因素中初步挑選出5大類、共18個(gè)比較重要的因素。
圖1 爆破數(shù)據(jù)收集流程
共收集整理76組爆破數(shù)據(jù),部分?jǐn)?shù)據(jù)有缺失或者不合理的地方,運(yùn)用爆破經(jīng)驗(yàn)進(jìn)行合理的補(bǔ)充、或替換,有利于進(jìn)行預(yù)測(cè),處理后見表2。
表2 預(yù)處理后的爆破數(shù)據(jù)庫的數(shù)據(jù)
表2的數(shù)據(jù)并不利于預(yù)測(cè),這些數(shù)據(jù)的大小和量級(jí)不同,預(yù)測(cè)時(shí)易造成數(shù)據(jù)間的歐式距離不準(zhǔn),導(dǎo)致預(yù)測(cè)準(zhǔn)確率不足,為了讓不同維度之間的特征在數(shù)值上有一定的比較性,需要進(jìn)行數(shù)據(jù)的歸一化來提升預(yù)測(cè)的準(zhǔn)確率和運(yùn)算速度。
為了消除數(shù)據(jù)特征之間的量綱影響,需要對(duì)各個(gè)特征進(jìn)行歸一化處理,使得不同指標(biāo)之間具有可比性,本文選用線性函數(shù)歸一化。它對(duì)原始數(shù)據(jù)進(jìn)行線性變換,使結(jié)果映射到[0,1]的范圍,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的等比縮放[24]。其公式如下:
(9)
式中,x*為某一樣本歸一化后的值;x為某一樣本的值;max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值。
將表2的數(shù)據(jù)進(jìn)行歸一化,結(jié)果見表3,為建模預(yù)測(cè)打下良好的基礎(chǔ)。
表3 經(jīng)整理及歸一化后的爆破數(shù)據(jù)庫的數(shù)據(jù)
1)引入Python中的sklearn機(jī)器學(xué)習(xí)庫的相關(guān)程序包,作為預(yù)測(cè)算法的前置準(zhǔn)備,sklearn機(jī)器學(xué)習(xí)庫在智能預(yù)測(cè)中有很強(qiáng)的適用性。
2)根據(jù)爆破現(xiàn)場情況和文獻(xiàn)中的相關(guān)理論經(jīng)驗(yàn)合理地補(bǔ)充或修改數(shù)據(jù)庫中的數(shù)據(jù),運(yùn)用公式(9)將數(shù)據(jù)歸一化。
3)將預(yù)處理后的爆破數(shù)據(jù)運(yùn)用Python隨機(jī)分為訓(xùn)練集和預(yù)測(cè)集,在數(shù)據(jù)庫自身預(yù)測(cè)中訓(xùn)練集約占總體數(shù)據(jù)的70%,測(cè)試集約占總體數(shù)據(jù)的30%。
4)對(duì)SVM適配的三種核函數(shù)的參數(shù)使用網(wǎng)格搜索法進(jìn)行尋優(yōu),通過交叉驗(yàn)證可以確定參數(shù)的取值。
5)將上一步得到的參數(shù)運(yùn)用sklearn機(jī)器學(xué)習(xí)庫中的SVR函數(shù)預(yù)測(cè)炸藥單耗,可得出預(yù)測(cè)結(jié)果。
6)將數(shù)據(jù)可視化并分析預(yù)測(cè)結(jié)果以得結(jié)論。
預(yù)測(cè)流程如圖2所示。
圖2 Grid Search CV-SVM預(yù)測(cè)流程
通過初步預(yù)測(cè),發(fā)現(xiàn)預(yù)測(cè)的炸藥單耗的準(zhǔn)確性不高,其相關(guān)系數(shù)為0.55~0.65之間,運(yùn)用隨機(jī)森林算法中的重要性排序功能,對(duì)炸藥單耗預(yù)測(cè)進(jìn)行因素重要性排序,排序結(jié)果如圖3所示??紤]可能是因?yàn)橐蛩靥鄬?dǎo)致效果不佳,依次將重要性低的因素剔除并重新建模預(yù)測(cè),當(dāng)剩余6種重要因素時(shí)(總裝藥量、掏槽眼裝藥量、周邊眼裝藥量、炮眼深度、輔助眼裝藥量、斷面面積)預(yù)測(cè)的最好,將這種預(yù)測(cè)方法應(yīng)用于實(shí)際案例中,結(jié)果表現(xiàn)良好。
圖3 爆破數(shù)據(jù)庫炸藥單耗預(yù)測(cè)重要性排序
運(yùn)用2.5節(jié)的結(jié)論進(jìn)行建模預(yù)測(cè),可以得到多項(xiàng)式核函數(shù)、徑向基核函數(shù)以及線性核函數(shù)三類核函數(shù)匹配的SVM在爆破數(shù)據(jù)庫下對(duì)數(shù)據(jù)庫自身的炸藥單耗回歸預(yù)測(cè)的數(shù)據(jù),同時(shí)展示同條件下隨機(jī)森林的預(yù)測(cè)數(shù)據(jù)作為對(duì)比,這四種預(yù)測(cè)參數(shù)和預(yù)測(cè)結(jié)果(平均絕對(duì)誤差“MAE”、均方誤差“MSE”、解釋回歸模型的方差得分“Explained_variance_score”、相關(guān)系數(shù)“R2_score”)見表4。
表4 爆破數(shù)據(jù)庫炸藥單耗回歸預(yù)測(cè)結(jié)果對(duì)比
隨機(jī)分配訓(xùn)練集53組,預(yù)測(cè)集23組,四種函數(shù)預(yù)測(cè)的效果對(duì)比和誤差對(duì)比如圖4、5所示。
圖4 四種函數(shù)對(duì)爆破數(shù)據(jù)庫中炸藥單耗的回歸預(yù)測(cè)結(jié)果與原始數(shù)據(jù)對(duì)比圖
圖5 四種函數(shù)對(duì)爆破數(shù)據(jù)庫中炸藥單耗的回歸預(yù)測(cè)誤差對(duì)比
通過以上的參數(shù)和圖像可以發(fā)現(xiàn)SVR-Rbf組相較于其他三組都有絕對(duì)的優(yōu)勢(shì),其相關(guān)系數(shù)為0.934,平均絕對(duì)誤差也只有0.129,表現(xiàn)非常出色同時(shí)發(fā)現(xiàn)隨機(jī)森林在本組的表現(xiàn)與SVR-Linear組相似,但不如SVR-Poly組,隨機(jī)森林相較支持向量機(jī)預(yù)測(cè)精度相對(duì)較差。
對(duì)所得數(shù)據(jù)進(jìn)行進(jìn)一步分析,繪制四種函數(shù)的誤差直方圖,發(fā)現(xiàn)SVR-Rbf組的誤差范圍最小,核密度值最大,從各方面綜合來看SVR-Rbf組預(yù)測(cè)效果最好,數(shù)據(jù)如圖6所示。
圖6 四種函數(shù)對(duì)爆破數(shù)據(jù)庫中炸藥單耗的預(yù)測(cè)誤差直方圖和核密度分布
在以爆破數(shù)據(jù)庫自己為訓(xùn)練集和預(yù)測(cè)集的預(yù)測(cè)中,SVM技術(shù),尤其是SVR-Rbf組展現(xiàn)出了比較好的預(yù)測(cè)能力。接下來將把現(xiàn)場實(shí)際的數(shù)據(jù)帶入爆破數(shù)據(jù)庫中去預(yù)測(cè),驗(yàn)證爆破數(shù)據(jù)庫的能否支持現(xiàn)場的實(shí)際需要。
顧北煤礦位于安徽省淮南市鳳臺(tái)縣,其地層的巖性主要為粉砂巖、粉細(xì)砂巖、中細(xì)砂巖、細(xì)砂巖、煤等;(煤)巖層裂隙、滑面發(fā)育;局部發(fā)育小褶曲;巖石普氏系數(shù)f在4~5之間。
為驗(yàn)證模型的預(yù)測(cè)效果,選取顧北煤礦中實(shí)測(cè)的23組數(shù)據(jù)作為預(yù)測(cè)集,而原爆破數(shù)據(jù)庫中的76組數(shù)據(jù)作為訓(xùn)練集,進(jìn)行預(yù)測(cè),部分?jǐn)?shù)據(jù)見表5。
表5中的數(shù)據(jù)均為現(xiàn)場實(shí)測(cè)收集,實(shí)際案例數(shù)據(jù)同樣經(jīng)過數(shù)據(jù)處理過程,再運(yùn)用四種函數(shù)進(jìn)行預(yù)測(cè),最終得出預(yù)測(cè)的結(jié)果。通過比較相關(guān)系數(shù)等參數(shù),可以得出徑向基核函數(shù)表現(xiàn)最好,多項(xiàng)式核函數(shù)稍遜,徑向基核函數(shù)更次之,對(duì)照組隨機(jī)森林在實(shí)際案例中表現(xiàn)不如前面三種函數(shù)。具體的參數(shù)和預(yù)測(cè)結(jié)果見表6。
表5 顧北煤礦部分實(shí)測(cè)爆破數(shù)據(jù)
表6 顧北煤礦案例炸藥單耗回歸預(yù)測(cè)結(jié)果對(duì)比
參與預(yù)測(cè)的共計(jì)99組數(shù)據(jù),訓(xùn)練集比重為0.768,預(yù)測(cè)集比重為0.232。
通過以上的參數(shù)和圖像可以看到同樣是SVR-Rbf組在各方面相較于其他三組有很大的優(yōu)勢(shì),其相關(guān)系數(shù)為0.959,平均絕對(duì)誤差也只有0.040,由此可見SVR-Rbf函數(shù)的確具有較強(qiáng)的實(shí)用性。另外兩組SVR的函數(shù)表現(xiàn)不如Rbf。最重要的是,雖然預(yù)測(cè)出的數(shù)值有所差異,但是SVR的三種函數(shù)在圖10中的預(yù)測(cè)趨勢(shì)大致相同,說明SVR所搭載的函數(shù)有共通性,但徑向基核函數(shù)表現(xiàn)更好,隨機(jī)森林預(yù)測(cè)的表現(xiàn)依然不佳,印證了SVM算法更適用于小樣本、高維度的數(shù)據(jù)的結(jié)論。
對(duì)所得數(shù)據(jù)進(jìn)行進(jìn)一步分析,分別繪制四種函數(shù)的誤差直方圖,依然同上一節(jié)的結(jié)論,SVR-Rbf組的誤差范圍最小,誤差接近0的組別最多,而Poly和Linear組都是預(yù)測(cè)偏大;Rbf組的核密度值也是最大,且核密度值的峰值遠(yuǎn)高于其它組別,綜合來看SVR-Rbf組預(yù)測(cè)效果最好。
本節(jié)介紹了以爆破數(shù)據(jù)庫自己為訓(xùn)練集,實(shí)際案例為預(yù)測(cè)集的預(yù)測(cè)中,用支持向量機(jī)理論來預(yù)測(cè)炸藥單耗展現(xiàn)出了非常好的預(yù)測(cè)能力,對(duì)實(shí)際案例具有良好的適應(yīng)性。
1)提出了基于改進(jìn)SVM算法的爆破效果預(yù)測(cè)方法。利用隨機(jī)森林特征重要性方法獲得了爆破效果影響因素的權(quán)重,并根據(jù)專家經(jīng)驗(yàn)確定了6個(gè)關(guān)鍵指標(biāo),為提升爆破效果預(yù)測(cè)模型的準(zhǔn)確性提供了前提條件。
2)針對(duì)巖石巷道爆破效果預(yù)測(cè)工程特點(diǎn),構(gòu)建了以平均絕對(duì)誤差和相關(guān)系數(shù)為評(píng)價(jià)指標(biāo)的網(wǎng)格搜索法-支持向量機(jī)回歸爆破效果預(yù)測(cè)模型,基于徑向基、多項(xiàng)式和線性三種支持向量機(jī)核函數(shù)對(duì)收集的76組樣本進(jìn)行預(yù)測(cè)訓(xùn)練,預(yù)測(cè)結(jié)果顯示,SVR-Rbf函數(shù)預(yù)測(cè)的各項(xiàng)指標(biāo)均優(yōu)于其他函數(shù),其中判定系數(shù)為0.935,平均絕對(duì)誤差為0.129,SVR-Poly函數(shù)次之,SVR-Linear函數(shù)和Random Forest函數(shù)結(jié)果相似,表現(xiàn)最差。
3)為驗(yàn)證本文建立的爆破效果預(yù)測(cè)模型的可靠性,將模型應(yīng)用于顧北煤礦實(shí)際工程中,以該礦實(shí)測(cè)23組數(shù)據(jù)作為測(cè)試集進(jìn)行爆破效果預(yù)測(cè),結(jié)果顯示SVR-Rbf函數(shù)表現(xiàn)最佳,其判定系數(shù)為0.959,平均絕對(duì)誤差為0.040,預(yù)測(cè)結(jié)果與實(shí)際相符。工程實(shí)際應(yīng)用效果表明,本文提出的巖石巷道爆破效果預(yù)測(cè)方法具有較好的可靠性和實(shí)用性。