姜泓任,董慶波,姜相松,羅國成
(1.大連海事大學(xué)輪機工程學(xué)院,大連116026;2.中鐵建大橋工程局集團第一工程有限公司,大連116033)
近年來,邊坡相關(guān)工程在我國迅速發(fā)展,而對于邊坡穩(wěn)定性的評估與預(yù)測是邊坡工程安全性的保障,也是邊坡工程的重中之重。因此,對邊坡工程的穩(wěn)定性進(jìn)行及時有效的預(yù)測有著重要意義。為了解決非線性邊坡系統(tǒng)的復(fù)雜性,建立隨機森林邊坡穩(wěn)定性預(yù)測模型。選取邊坡土體重度、邊坡高度、孔壓值、黏聚力、內(nèi)摩擦角以及邊坡傾角6個特征作為隨機森林的輸入特征向量組成元素;安全系數(shù)作為隨機森林的輸出。對實際數(shù)據(jù)的訓(xùn)練預(yù)測結(jié)果表明,模型的決定系數(shù)接近于1,回歸效果好,對于邊坡的穩(wěn)定性預(yù)測準(zhǔn)確。研究結(jié)果證明隨機森林邊坡穩(wěn)定性模型的可行性。
邊坡工程;隨機森林;機器學(xué)習(xí);穩(wěn)定性
隨著我國經(jīng)濟發(fā)展以及基礎(chǔ)的建設(shè),道路橋梁工程、礦山建設(shè)工程、水利工程等工程發(fā)展迅速,其中存在著大量與邊坡相關(guān)的工程。邊坡的穩(wěn)定性事關(guān)重大,一旦出現(xiàn)滑坡災(zāi)害,會嚴(yán)重危害到人們的人身安全以及國家財產(chǎn)。因此,找到一種準(zhǔn)確且便捷的道路邊坡穩(wěn)定性預(yù)測方法便顯得尤為重要。
邊坡穩(wěn)定性受到多個因素影響,在實際的邊坡工程中,各個影響因素相互作用,組成一個復(fù)雜的非線性系統(tǒng)。長期以來,研究者們在預(yù)測邊坡穩(wěn)定性時,往往采用將影響邊坡穩(wěn)定性的因素量化后帶入物理模型進(jìn)行分析這一傳統(tǒng)方法。例如肖歡等人[1]采用極限平衡法分析礦山的局部邊坡穩(wěn)定性;年庚乾等人[2]利用雙重介質(zhì)模型對裂隙巖質(zhì)邊坡的滲流及穩(wěn)定性進(jìn)行分析;彭超等人[3]將基于張拉剪切復(fù)合破壞的強度折減法應(yīng)用于邊坡穩(wěn)定性分析。然而由于邊坡系統(tǒng)的復(fù)雜性,建立的物理模型不僅復(fù)雜,還可能對實際情況的反應(yīng)有所偏頗,因此其對于穩(wěn)定性預(yù)測的準(zhǔn)確程度相對不足。而近年來機器學(xué)習(xí)算法的興起很好地彌補了傳統(tǒng)物理模型的不足。
機器學(xué)習(xí)的核心目的是使機器能從大量數(shù)據(jù)中尋找學(xué)習(xí)規(guī)律,并將獲得的學(xué)習(xí)規(guī)律應(yīng)用到其他的同類數(shù)據(jù)中[4],無需建立具體的物理模型,可以較好地預(yù)測非線性復(fù)雜系統(tǒng)。迄今為止,已經(jīng)有很多研究人員將巖土學(xué)科與機器學(xué)習(xí)算法相結(jié)合,建立邊坡穩(wěn)定性預(yù)測模型。例如,何永波等人[5]將通過卷積神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性分析模型;牛鵬飛等人[6]利用PCA-LMBP神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性預(yù)測模型;黎璽克[7]采用了遺傳算法改進(jìn)BP神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性預(yù)測模型。相較于其他機器學(xué)習(xí)算法,隨機森林具有更好的泛化性以及準(zhǔn)確性,且計算量更少,在訓(xùn)練集樣本分布不均以及解決非線性回歸問題中有著更好的表現(xiàn)。
筆者隨機抽取某組邊坡樣本數(shù)據(jù)中的一部分作為訓(xùn)練集建立了基于隨機森林算法的邊坡穩(wěn)定性預(yù)測模型,并對剩余部分?jǐn)?shù)據(jù)進(jìn)行了預(yù)測與分析,為道路邊坡穩(wěn)定性預(yù)測提供了一種新的機器學(xué)習(xí)算法模型思路。
隨機森林是一種以決策樹為基學(xué)習(xí)器的有監(jiān)督的集成學(xué)習(xí)算法。集成學(xué)習(xí)是一種十分重要且實用的機器學(xué)習(xí)方法,隨機森林算法便是集成學(xué)習(xí)算法中的典型算法之一,它以簡單而且高效的特點為人所知。在隨機森林模型中,包含著多個由Bagging集成算法訓(xùn)練的決策樹,當(dāng)待計算樣本輸入后,模型通過集成眾多決策樹的輸出結(jié)果并以投票的方式輸出結(jié)果。隨機森林預(yù)測模型可分為兩類,一類是回歸模型,另一類是分類模型。兩者的區(qū)別在于預(yù)測結(jié)果的性質(zhì):前者預(yù)測結(jié)果為具體數(shù)值,后者預(yù)測結(jié)果為劃分的類別。本文所采用的邊坡穩(wěn)定性預(yù)測算法為隨機森林的回歸算法,通過邊坡的幾項特征對于邊坡安全系數(shù)進(jìn)行回歸預(yù)測。在隨機森林的回歸模型中,集成算法為Bagging系列算法,基學(xué)習(xí)器采用的為CART回歸樹模型。
Bagging系列算法[8]是一種并行的集成學(xué)習(xí)算法,它的提出是為了處理數(shù)據(jù)的不平衡問題,能夠有效地增強回歸器的回歸效果。在Bagging算法中,基學(xué)習(xí)器的訓(xùn)練集是通過對原始樣本進(jìn)行隨機抽樣得到的。假設(shè)原始樣本總數(shù)為M,對其進(jìn)行N組取樣。每組取樣為有放回的隨機取樣,樣本容量也為M。從而得到N組采樣集,將這N個采樣集分別進(jìn)行獨立訓(xùn)練,可得N個基學(xué)習(xí)器,將N個基學(xué)習(xí)器通過集合策略即可得到通過Bagging算法抽樣的強學(xué)習(xí)器。原始樣本集中每個樣本未被抽中的概率為,當(dāng)M足夠大時,概率趨近為,約為36.8%[9],這說明了每次抽樣原始樣本集中約有1/3的樣本沒有被抽中,這可以有效地增加模型對噪聲的容忍度,適和應(yīng)用于一些穩(wěn)定性差或傾向于過擬合的模型,如決策樹模型。
CART決策樹是一種基本樹模型,廣泛應(yīng)用于各類樹模型中,其特點是既能處理分類問題也能處理回歸問題。所謂回歸,即根據(jù)輸入的特征向量決定對應(yīng)的輸出值,在CART回歸樹結(jié)構(gòu)中,特征空間被劃分成了若干單元,每個單元對應(yīng)著一個輸出值,因其為二叉樹結(jié)構(gòu),特征節(jié)點處的取值只有“是”與“否”。對于訓(xùn)練集數(shù)據(jù),需找出每個特征的最佳劃分點以及對于不同的特征劃分的先后順序,再根據(jù)其特征在每個特征節(jié)點處進(jìn)行判斷,按照其特征將其劃分到某個單元,便能得到對應(yīng)的輸出值。
在尋找最佳特征劃分點時,使用最小化均方差法。假設(shè)X和Y分別為輸入和輸出變量,并且Y是連續(xù)變量,假設(shè)訓(xùn)練數(shù)據(jù)集如下:
其中輸入特征向量為:n為特征個數(shù),i=1,2,…,N,N為樣本容量。
在進(jìn)行劃分前,從特征向量中等概率隨機抽取一個特征子集,在進(jìn)行每一次的劃分時,遍歷子集中的所有特征的所有取值,選擇一個使平方誤差最小的點作為最優(yōu)切分點。記作訓(xùn)練集中第j個特征變量和它的取值s,并定義兩個區(qū)域:
與:
為找出最優(yōu)j和s,對下式求解:
也就是找出j和s,使要劃分的兩個區(qū)域平方誤差和最小。根據(jù)證明,c1,c2為兩個區(qū)域內(nèi)分別對應(yīng)的Y的均值。
找到最優(yōu)的切分點(j,s)后,按照最優(yōu)切分點將輸入空間依次劃分為兩個區(qū)域,接著對新生成的每個區(qū)域都重復(fù)上述劃分過程,直到滿足停止條件。如此,一棵回歸樹便被成功地構(gòu)建了出來,通常稱這種回歸樹為最小二乘回歸樹。
劃分結(jié)束后得到的若每個葉節(jié)點上輸出數(shù)值唯一則以該值作為該葉節(jié)點的預(yù)測數(shù)值,若最終葉子節(jié)點上輸出數(shù)值不唯一,則以該節(jié)點上所有人的平均數(shù)值做為該葉節(jié)點的預(yù)測數(shù)值。
簡單來說,隨機森林模型是Bagging集成算法與決策樹的結(jié)合。
(1)使用Bootstrapping方法,從初始數(shù)據(jù)集中隨機、有放回的進(jìn)行n次采樣,每次采集m個樣本,生成n個訓(xùn)練集。
(2)對n個訓(xùn)練集分別進(jìn)行訓(xùn)練,得到n個決策樹模型。
(3)對于每個決策樹模型,按照之前所述的方法進(jìn)行二分裂。
(4)將生成的多顆決策樹組成隨機森林。對于分類問題,按照多棵樹分類器投票決定最終分類結(jié)果;對于回歸問題,由多顆樹預(yù)測值的均值決定最終預(yù)測結(jié)果。
為了驗證基于隨機森林的邊坡穩(wěn)定性預(yù)測模型的預(yù)測效果,引用《基于網(wǎng)格搜索支持向量機的邊坡穩(wěn)定性系數(shù)預(yù)測》[10]一文中的邊坡樣本數(shù)據(jù)42組。其中每組數(shù)據(jù)樣本都包含特征向量以及對應(yīng)的安全系數(shù)兩部分,特征向量由邊坡土體重度、邊坡高度、孔壓值、黏聚力、內(nèi)摩擦角以及邊坡傾角六個特征變量組成。通過隨機森林預(yù)測模型對樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),找到邊坡特征向量中六項特征值與邊坡安全系數(shù)的非線性關(guān)系。具體數(shù)據(jù)樣本如表1。
表1 邊坡樣本數(shù)據(jù)集
從上述邊坡樣本中隨機抽取34組樣本作為訓(xùn)練集(樣本序號1到34),剩余的8組樣本作為測試集(樣本序號35到42),在進(jìn)行歸一化處理后通過尋優(yōu)方法,確定該隨機森林模型決策樹數(shù)量為101,在每個節(jié)點處進(jìn)行分割的特征子集數(shù)量為5,然后建立隨機森林邊坡穩(wěn)定性預(yù)測模型。
為了對隨機森林邊坡穩(wěn)定性預(yù)測模型進(jìn)行客觀評估,引入決定系數(shù)(coefficient of determination)這一概念作為模型的評價標(biāo)準(zhǔn)。決定系數(shù)的數(shù)學(xué)表達(dá)式如下:
決定系數(shù)的值代表了在回歸模型中,能由自變量解釋的變化程度占總變化程度的比例,總變化程度即為樣本的方差,不能由自變量解釋的變化程度由(真實值-回歸值)的平方和來表示,因此決定系數(shù)可以用1減去不能由自變量解釋的變化程度占總變化程度的比例來表示,決定系數(shù)越接近1,說明預(yù)測值可以被解釋的程度越高,預(yù)測結(jié)果越準(zhǔn)確,回歸模型的效果越好。
為了體現(xiàn)基于隨機森林的邊坡穩(wěn)定性預(yù)測模型相比傳統(tǒng)機器學(xué)習(xí)算法的優(yōu)勢,將隨機森林模型的回歸及預(yù)測結(jié)果與BP神經(jīng)網(wǎng)絡(luò)的回歸預(yù)測結(jié)果進(jìn)行對比。
繪制隨機森林的邊坡穩(wěn)定性模型的回歸擬合曲線與BP神經(jīng)網(wǎng)絡(luò)回歸擬合曲線同時與真實值進(jìn)行對比,如圖1所示。從圖中可知,在對訓(xùn)練集進(jìn)行回歸時,與BP神經(jīng)網(wǎng)絡(luò)相比,回歸森林模型所得到的結(jié)果與真實值更加的接近,并且回歸效果更加穩(wěn)定。通過計算,隨機森林回歸模型的決定系數(shù)為0.989;而BP神經(jīng)回歸模型的決定系數(shù)為0.936。相比之下,隨機森林模型的決定系數(shù)更接近于1,擬合效果更好。接著多次抽取訓(xùn)練集,得到的安全系數(shù)擬合曲線都與真實值曲線接近,決定系數(shù)均與1接近,由此可得隨機森林回歸模型的穩(wěn)定性同樣良好。
兩種模型對于測試集的安全系數(shù)預(yù)測擬合曲線與真實值曲線對例如圖2。
兩種模型對測試集預(yù)測結(jié)果對例如表2所示。
結(jié)合圖2和表3可以看出,基于隨機森林的邊坡穩(wěn)定性預(yù)測模型預(yù)測結(jié)果與BP神經(jīng)網(wǎng)絡(luò)模型相比,平均誤差更小,對于邊坡安全系數(shù)的預(yù)測值與真實值更加接近,預(yù)測的結(jié)果更加穩(wěn)定。若將安全系數(shù)大于1視作穩(wěn)定,小于1視作不穩(wěn)定,隨機森林邊坡穩(wěn)定性預(yù)測模型能夠更加準(zhǔn)確地對于邊坡的穩(wěn)定與否做出預(yù)測。
圖1 兩種模型回歸值與真實值對比
圖2 兩種模型預(yù)測值與真實值對比
表2 預(yù)測結(jié)果對比
本文基于隨機森林機器學(xué)習(xí)算法,基本搭建了一種可行的邊坡穩(wěn)定性預(yù)測模型,能夠數(shù)值化的預(yù)測邊坡的穩(wěn)定系數(shù)。相比較于傳統(tǒng)的物理模型,本模型更加適合于邊坡工程這類非線性復(fù)雜系統(tǒng)的預(yù)測;而相較于BP神經(jīng)網(wǎng)絡(luò)這類的回歸預(yù)測模型,本模型有著計算量小、回歸結(jié)果更加準(zhǔn)確和穩(wěn)定、適合用于樣本分布不均的情況等優(yōu)點。
目前來說,訓(xùn)練集樣本容量偏小,因此在進(jìn)行邊坡穩(wěn)定性預(yù)測時,可能會對預(yù)測結(jié)果的準(zhǔn)確度有一定的影響;樣本特征類別偏少,可能對與更加特殊以及復(fù)雜的邊坡穩(wěn)定性預(yù)測造成影響。將來應(yīng)該對邊坡數(shù)據(jù)以及邊坡特征類別的數(shù)量進(jìn)行擴充,以提高模型的預(yù)測精度,和模型對不同種類邊坡的區(qū)分度。