胡 斌 湯 琦 李 京 丁 靜 劉 霽
(1.武漢科技大學資源與環(huán)境工程學院,湖北 武漢 430081;2.冶金礦產資源高效利用與造塊湖北省重點實驗室,湖北 武漢 430081)
巖體的數值分析和計算方法已廣泛應用于巖土 工程問題分析中。但由于地質條件的不確定性、施工的多變性和模擬實驗存在取樣困難、尺寸效應等問題,獲取現場巖體的力學參數較為困難,使得構建好的數值計算模型,因力學參數選取的不合理而導致數值計算結果與工程實際存在較大差距。
Kavanagh等[1]最早提出了基于有限元法的彈性固體彈性模量反演方法,用來解決上述不足。而后伴隨著人工智能技術的發(fā)展,優(yōu)化方法出現了智能化的趨勢,眾多學者將各種智能算法與優(yōu)化方法相結合起來,如人工神經網絡、遺傳算法、粒子群優(yōu)化算法等被引入反分析中。馮夏庭等[2]通過遺傳算法優(yōu)化人工神經網絡結構,并通過彈性問題的反分析,驗證了方法的有效性。漆祖芳等[3]通過對傳統粒子群算法的改進,提出了V-SVP-MVPSO算法,并成功地應用于大崗山水電站右岸邊坡巖體參數反演分析中。王開禾等[4]通過將模擬退火算法(SA)很強的局部尋優(yōu)能力與遺傳算法(GA)相結合,用以提高算法的收斂速度及全局尋優(yōu)能力。
以往的研究往往集中在對類神經網絡算法的改進以及控制參數的優(yōu)化來實現對工程現場的正確模擬反饋,通過不同算法性能的相互補充來解決早熟問題、局部最優(yōu)以及魯棒性等問題,從而實現精度上的提升,而往往忽視了算法選擇的重要性。Chen等[5]通過對比研究了6種算法的預測性能,指出隨機森林(RF)算法相較于單一的類神經網絡算法(如BP神經網絡、極限學習機(ELM)、支持向量機(SVM)等)存在控制參數少和泛化能力強的特點。故本文提出使用隨機森林(RF)算法和粒子群(PSO)算法結合的RF-PSO混合算法模型,通過正交設計試驗樣本,與傳統類神經網絡模型進行對比后,獲取巖體力學參數與監(jiān)測位移之間的映射關系,完成對礦山邊坡力學參數的反演。
隨機森林算法是一種集成學習算法[6-7],其原理如圖1所示。它以決策樹為基礎,結合使用Bootstrap技術[8]和節(jié)點隨機分裂技術,形成多棵決策樹,最后將所有預測結果匯總輸出。通過多棵決策樹進行集成學習,有效地克服了單棵決策樹容易出現過擬合精度較低等問題,并且有效降低了學習系統的泛化誤差。
圖1 隨機森林算法示意Fig.1 Schematic of random forest algorithm
本文實現的隨機森林算法是由以CART算法[9]為不純度函數的決策樹組成。采用Gini系數來選取合適的特征為切分點,使得模型可用于回歸問題的分析,避免了傳統的以信息增益為節(jié)點特征偏向于取值較多的屬性的問題。
設數據集D={(x1,y1),(x2,y2),…,(xn,yn)}的屬性空間X?Rm中某一特征變量Xj,j=1,2,…,m有q個取值,則Gini系數表達式如下:
式中,pi表示特征變量為i的概率。
粒子群算法(PSO)是由Kennedy J等[10]提出的一種群體智能優(yōu)化仿生算法,通過不斷迭代粒子的速度和位置信息,使模型達到目標問題的最優(yōu)解。憑借具有輸入參數少、收斂速度快、全局尋優(yōu)能力強等特點,被廣泛應用。
正交設計RF-PSO模型是由正交設計構造試驗樣本、隨機森林算法(RF)建立非線性映射關系和粒子群算法(PSO)對結果進行全局搜索三部分組成。具體算法流程如圖2所示。
圖2 正交設計RF-PSO混合算法流程Fig.2 Flow chart of RF-PSO hybrid algorithm with orthogonal design
基本步驟如下:
(1)確定待反演參數類型及取值范圍。針對所要分析的問題確定反演參數類型及水平數,后根據正交設計構建試驗方案,最后通過有限差分軟件FLAC3D進行正分析計算位移后確定試驗樣本。
(2)采用Bootstrap取樣,以形成與試驗樣本的相同的訓練數據子集,進而形成回歸預測決策樹模型,生成隨機森林模型。
(3)將訓練好的隨機森林模型與粒子群算法(PSO)相結合,憑借前者建立的映射關系及后者全局搜索能力,根據適應度函數不斷更新粒子速度和位置,根據終止條件輸出最優(yōu)反演結果解。
為了反映模型間的性能效果差異,結合Tseranidis等[11]總結的8種誤差評價指標,選取平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(R2)3個指標來評價模型回歸效果的差異程度、離散程度和相關程度。
式中,ri、pi分別為監(jiān)測點位移的計算值和預測值;n為輸入數據個數;為監(jiān)測點位移的平均值。
以黃山某石灰石礦山邊坡為研究對象,該石灰石礦山存在力學強度低、水理性質差的炭質泥頁巖(軟弱夾層),為邊坡破壞的優(yōu)勢結構面。根據礦山開采設計,礦山邊坡臺階坡面角為60°,最終邊幫角為43°,臺階高度 15 m。
選取邊坡軟弱夾層力學參數作為模型的輸入參數,查閱相關文獻[12-14],搜集了11組軟弱夾層力學參數,構建樣本數據的多樣性,用以提高模型對于軟弱夾層力學參數與邊坡位移的映射關系敏感度和反演力學參數的精度。為使樣本數據安排合理具有科學性,采用L11正交表設計試驗方案,FLAC3D正分析計算產生樣本數據庫。數據庫建立好后,訓練集占樣本數據庫80%,測試集占樣本數據庫20%。樣本數據庫中力學參數類型、變化范圍及平均值如表1所示。
表1 軟弱夾層力學參數數據范圍Table 1 Mechanical parameter data range of weak interlayer
選取該石灰石礦山采區(qū)典型剖面為計算模型進行正向計算,如圖3所示。模型網格劃分對于重點位置進行加密,其他位置采用合理網格進行過渡。監(jiān)測點選擇在邊坡坡頂的位置,坐標為X=205.29 m,Z=170.61m,監(jiān)測其由于石灰?guī)r開挖后引起位移的大小。
圖3 優(yōu)化后的邊坡數值網絡模型Fig.3 Optimized slope numerical network model
通過L11正交表設計方案設計的121組試驗方案,通過FLAC3D軟件進行數值計算,采用Mohr-Coulomb破壞準則。模型底部邊界采用固定約束,側向邊界采用法向約束,采用自重應力作為初始地應力。由于監(jiān)測點位于邊坡頂部,故將監(jiān)測點的豎向位移作為模型數據輸出,樣本數據共計121組。
如圖4所示,數值計算結果主要分布在0~5.0 mm之間,樣本的最大值及中位數分別為10.63 mm、1.21 mm,說明樣本數據中存在少量的大位移點,可以作為后續(xù)檢驗模型預測泛化能力的參考。
圖4 數值計算結果分布Fig.4 Distribution of numerical calculation results
為了對比不同機器學習算法在礦山邊坡力學參數預測上的性能差異,本研究選取BP神經網絡模型和GA-BP神經網絡模型作為RF算法的比較對象,模型搭建均在Matlab軟件中進行。
根據輸入層節(jié)點和輸出節(jié)點數確定BP神經網絡結構,由于數據和變量的數目較少,考慮采用單層的隱含層即模型中隱含層數為1,通過設置100組不同隱含層節(jié)點進行測試集精度分析,結果如圖5所示,當BP神經網絡結構為4-7-1時,誤差數值最小。對于GA-BP算法模型中的遺傳算法的群體規(guī)模N取10,遺傳代數G取40,交叉概率PC取0.2,變異概率Pm取0.1,其他參數取系統默認值。
圖5 BP神經網絡模型性能和隱含層節(jié)點數目關系Fig.5 Relationship between the performance of BP neural network model and the number of hidden layer nodes
隨機森林作為一種機器學習算法,決定其輸出結果的因素主要為決策樹數量及分裂屬性個數。分裂屬性個數一般設置為樣本特征變量總數的66%[15],故本文中mtry等于3。ntree的值通過設置100個不同的值進行預測精度的分析,其結果如圖6所示,當決策樹數目為1時,對應的誤差值最小。
圖6 RF算法模型性能和決策樹數目關系Fig.6 Relationship between the performance of RF algorithm model and the number of decision trees
選取數據集的80%(97組樣本)作為訓練集,20%(24組樣本)作為測試集,以121×4矩陣作為輸入數據,監(jiān)測點Z方向位移作為模型輸出,在Windows系統下,采用Corei7-9700F處理器進行運算,不同算法模型對測試集預測結果如圖7所示。在運行速度上,BP神經網絡模型憑借其結構簡單運行速度最快,RF算法模型次之。通過MAE和RMSE的數值對比,RF算法模型憑借集成學習的特點其預測數據擬合度最好,混合算法模型GA-BP通過對神經網絡中權值閾值的優(yōu)化,在預測數據離散和差異程度上要優(yōu)于單一的BP神經網絡。在預測結果相關性上,RF算法模型也優(yōu)于混合算法模型GA-BP及單一的BP神經網絡,決定系數R2為0.96。
圖7 模型的測試集預測結果Fig.7 Prediction results of test set of the model
由于數據集中大位移樣本數量較少,導致BP神經網絡和GA-BP神經網絡模型對于大位移的預測出現了較大的誤差,反之RF算法模型對于大位移的預測出現了較好的泛化能力,適合用來預測不同力學參數下的位移變化這一復雜的非線性問題。在精度波動上,RF算法也表現出集成學習算法波動小的特點。在可操作性上,RF算法模型控制參數數量較之傳統的BP神經網絡模型少,操作難度較小。GA-BP神經網絡模型克服了控制參數選取的問題,但較之于隨機森林(RF)算法模型,存在計算量大,運行速度慢的缺點。
因此,采用隨機森林(RF)算法模型構建力學參數與位移間的映射關系。
將通過FLAC3D正向計算組成的樣本集訓練好的RF模型作為PSO算法中的適應度計算函數,采用量測值與預測值之間的絕對誤差作為目標。選取4組位移值作為力學參數反演的對象,再將反演的力學參數結果導入已經建立好的數值計算模型中,判斷算法的回歸預測性能。為使反演結果具有的參考性和可對比性,根據樣本數據的離散程度,選取4組位移:10、2.5、1.21、0.3 mm,分別進行反演分析計算,其結果如表2所示。從計算結果可以看出,除去大位移因為相關樣本數據量不足反演結果出現較大偏差外,其余測試精度均達到95%以上。說明RF-PSO混合算法模型獲得的參數和計算模型的合理性,其反演得到的力學參數可以模擬礦山邊坡開挖后變形預測的正確性和有效性。
表2 巖石力學參數反演計算結果Table 2 Inversion calculation results of rock mechanics parameters
(1)RF-PSO混合算法與傳統類神經網絡模型相比較,在數據過擬合和泛化性方面較傳統BP神經網絡和GA-BP神經網絡有大幅度提高,避免了過學習問題,提高了反演精度。運算速度也快于GA-BP神經網絡模型,為智能反演提供了新的思路。
(2)以黃山某石灰石礦山邊坡為計算模型所構建的樣本集,應用RF-PSO位移反分析算法反演邊坡軟弱夾層力學參數后,進行正向計算的結果與實際值間的平均相對誤差在3%左右,表明反演得到的軟弱夾層力學參數是合理的。