基于隨機森林算法的邊坡穩(wěn)定性預(yù)測

2020-03-08 06:01:54姜泓任董慶波姜相松羅國成

現(xiàn)代計算機 2020年36期

姜泓任，董慶波，姜相松，羅國成

（1.大連海事大學(xué)輪機工程學(xué)院，大連116026；2.中鐵建大橋工程局集團第一工程有限公司，大連116033）

近年來，邊坡相關(guān)工程在我國迅速發(fā)展，而對于邊坡穩(wěn)定性的評估與預(yù)測是邊坡工程安全性的保障，也是邊坡工程的重中之重。因此，對邊坡工程的穩(wěn)定性進(jìn)行及時有效的預(yù)測有著重要意義。為了解決非線性邊坡系統(tǒng)的復(fù)雜性，建立隨機森林邊坡穩(wěn)定性預(yù)測模型。選取邊坡土體重度、邊坡高度、孔壓值、黏聚力、內(nèi)摩擦角以及邊坡傾角6個特征作為隨機森林的輸入特征向量組成元素；安全系數(shù)作為隨機森林的輸出。對實際數(shù)據(jù)的訓(xùn)練預(yù)測結(jié)果表明，模型的決定系數(shù)接近于1，回歸效果好，對于邊坡的穩(wěn)定性預(yù)測準(zhǔn)確。研究結(jié)果證明隨機森林邊坡穩(wěn)定性模型的可行性。

邊坡工程；隨機森林；機器學(xué)習(xí)；穩(wěn)定性

0 引言

隨著我國經(jīng)濟發(fā)展以及基礎(chǔ)的建設(shè)，道路橋梁工程、礦山建設(shè)工程、水利工程等工程發(fā)展迅速，其中存在著大量與邊坡相關(guān)的工程。邊坡的穩(wěn)定性事關(guān)重大，一旦出現(xiàn)滑坡災(zāi)害，會嚴(yán)重危害到人們的人身安全以及國家財產(chǎn)。因此，找到一種準(zhǔn)確且便捷的道路邊坡穩(wěn)定性預(yù)測方法便顯得尤為重要。

邊坡穩(wěn)定性受到多個因素影響，在實際的邊坡工程中，各個影響因素相互作用，組成一個復(fù)雜的非線性系統(tǒng)。長期以來，研究者們在預(yù)測邊坡穩(wěn)定性時，往往采用將影響邊坡穩(wěn)定性的因素量化后帶入物理模型進(jìn)行分析這一傳統(tǒng)方法。例如肖歡等人[1]采用極限平衡法分析礦山的局部邊坡穩(wěn)定性；年庚乾等人[2]利用雙重介質(zhì)模型對裂隙巖質(zhì)邊坡的滲流及穩(wěn)定性進(jìn)行分析；彭超等人[3]將基于張拉剪切復(fù)合破壞的強度折減法應(yīng)用于邊坡穩(wěn)定性分析。然而由于邊坡系統(tǒng)的復(fù)雜性，建立的物理模型不僅復(fù)雜，還可能對實際情況的反應(yīng)有所偏頗，因此其對于穩(wěn)定性預(yù)測的準(zhǔn)確程度相對不足。而近年來機器學(xué)習(xí)算法的興起很好地彌補了傳統(tǒng)物理模型的不足。

機器學(xué)習(xí)的核心目的是使機器能從大量數(shù)據(jù)中尋找學(xué)習(xí)規(guī)律，并將獲得的學(xué)習(xí)規(guī)律應(yīng)用到其他的同類數(shù)據(jù)中[4]，無需建立具體的物理模型，可以較好地預(yù)測非線性復(fù)雜系統(tǒng)。迄今為止，已經(jīng)有很多研究人員將巖土學(xué)科與機器學(xué)習(xí)算法相結(jié)合，建立邊坡穩(wěn)定性預(yù)測模型。例如，何永波等人[5]將通過卷積神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性分析模型；牛鵬飛等人[6]利用PCA-LMBP神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性預(yù)測模型；黎璽克[7]采用了遺傳算法改進(jìn)BP神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性預(yù)測模型。相較于其他機器學(xué)習(xí)算法，隨機森林具有更好的泛化性以及準(zhǔn)確性，且計算量更少，在訓(xùn)練集樣本分布不均以及解決非線性回歸問題中有著更好的表現(xiàn)。

筆者隨機抽取某組邊坡樣本數(shù)據(jù)中的一部分作為訓(xùn)練集建立了基于隨機森林算法的邊坡穩(wěn)定性預(yù)測模型，并對剩余部分?jǐn)?shù)據(jù)進(jìn)行了預(yù)測與分析，為道路邊坡穩(wěn)定性預(yù)測提供了一種新的機器學(xué)習(xí)算法模型思路。

1 隨機森林模型基本原理

1.1 隨機森林的特點

隨機森林是一種以決策樹為基學(xué)習(xí)器的有監(jiān)督的集成學(xué)習(xí)算法。集成學(xué)習(xí)是一種十分重要且實用的機器學(xué)習(xí)方法，隨機森林算法便是集成學(xué)習(xí)算法中的典型算法之一，它以簡單而且高效的特點為人所知。在隨機森林模型中，包含著多個由Bagging集成算法訓(xùn)練的決策樹，當(dāng)待計算樣本輸入后，模型通過集成眾多決策樹的輸出結(jié)果并以投票的方式輸出結(jié)果。隨機森林預(yù)測模型可分為兩類，一類是回歸模型，另一類是分類模型。兩者的區(qū)別在于預(yù)測結(jié)果的性質(zhì)：前者預(yù)測結(jié)果為具體數(shù)值，后者預(yù)測結(jié)果為劃分的類別。本文所采用的邊坡穩(wěn)定性預(yù)測算法為隨機森林的回歸算法，通過邊坡的幾項特征對于邊坡安全系數(shù)進(jìn)行回歸預(yù)測。在隨機森林的回歸模型中，集成算法為Bagging系列算法，基學(xué)習(xí)器采用的為CART回歸樹模型。

1.2 Bagging系列算法

Bagging系列算法[8]是一種并行的集成學(xué)習(xí)算法，它的提出是為了處理數(shù)據(jù)的不平衡問題，能夠有效地增強回歸器的回歸效果。在Bagging算法中，基學(xué)習(xí)器的訓(xùn)練集是通過對原始樣本進(jìn)行隨機抽樣得到的。假設(shè)原始樣本總數(shù)為M，對其進(jìn)行N組取樣。每組取樣為有放回的隨機取樣，樣本容量也為M。從而得到N組采樣集，將這N個采樣集分別進(jìn)行獨立訓(xùn)練，可得N個基學(xué)習(xí)器，將N個基學(xué)習(xí)器通過集合策略即可得到通過Bagging算法抽樣的強學(xué)習(xí)器。原始樣本集中每個樣本未被抽中的概率為，當(dāng)M足夠大時，概率趨近為，約為36.8%[9]，這說明了每次抽樣原始樣本集中約有1/3的樣本沒有被抽中，這可以有效地增加模型對噪聲的容忍度，適和應(yīng)用于一些穩(wěn)定性差或傾向于過擬合的模型，如決策樹模型。

1.3 CART決策樹的建立

CART決策樹是一種基本樹模型，廣泛應(yīng)用于各類樹模型中，其特點是既能處理分類問題也能處理回歸問題。所謂回歸，即根據(jù)輸入的特征向量決定對應(yīng)的輸出值，在CART回歸樹結(jié)構(gòu)中，特征空間被劃分成了若干單元，每個單元對應(yīng)著一個輸出值，因其為二叉樹結(jié)構(gòu)，特征節(jié)點處的取值只有“是”與“否”。對于訓(xùn)練集數(shù)據(jù)，需找出每個特征的最佳劃分點以及對于不同的特征劃分的先后順序，再根據(jù)其特征在每個特征節(jié)點處進(jìn)行判斷，按照其特征將其劃分到某個單元，便能得到對應(yīng)的輸出值。

在尋找最佳特征劃分點時，使用最小化均方差法。假設(shè)X和Y分別為輸入和輸出變量，并且Y是連續(xù)變量，假設(shè)訓(xùn)練數(shù)據(jù)集如下：

其中輸入特征向量為：n為特征個數(shù)，i=1,2,…,N，N為樣本容量。

在進(jìn)行劃分前，從特征向量中等概率隨機抽取一個特征子集，在進(jìn)行每一次的劃分時，遍歷子集中的所有特征的所有取值，選擇一個使平方誤差最小的點作為最優(yōu)切分點。記作訓(xùn)練集中第j個特征變量和它的取值s，并定義兩個區(qū)域：

與：

為找出最優(yōu)j和s，對下式求解：

也就是找出j和s，使要劃分的兩個區(qū)域平方誤差和最小。根據(jù)證明，c1，c2為兩個區(qū)域內(nèi)分別對應(yīng)的Y的均值。

找到最優(yōu)的切分點（j，s）后，按照最優(yōu)切分點將輸入空間依次劃分為兩個區(qū)域，接著對新生成的每個區(qū)域都重復(fù)上述劃分過程，直到滿足停止條件。如此，一棵回歸樹便被成功地構(gòu)建了出來，通常稱這種回歸樹為最小二乘回歸樹。

劃分結(jié)束后得到的若每個葉節(jié)點上輸出數(shù)值唯一則以該值作為該葉節(jié)點的預(yù)測數(shù)值，若最終葉子節(jié)點上輸出數(shù)值不唯一，則以該節(jié)點上所有人的平均數(shù)值做為該葉節(jié)點的預(yù)測數(shù)值。

1.4 隨機森林模型的建立

簡單來說，隨機森林模型是Bagging集成算法與決策樹的結(jié)合。

（1）使用Bootstrapping方法，從初始數(shù)據(jù)集中隨機、有放回的進(jìn)行n次采樣，每次采集m個樣本，生成n個訓(xùn)練集。

（2）對n個訓(xùn)練集分別進(jìn)行訓(xùn)練，得到n個決策樹模型。

（3）對于每個決策樹模型，按照之前所述的方法進(jìn)行二分裂。

（4）將生成的多顆決策樹組成隨機森林。對于分類問題，按照多棵樹分類器投票決定最終分類結(jié)果；對于回歸問題，由多顆樹預(yù)測值的均值決定最終預(yù)測結(jié)果。

2 基于隨機森林邊坡模型建立

2.1 數(shù)據(jù)集

為了驗證基于隨機森林的邊坡穩(wěn)定性預(yù)測模型的預(yù)測效果，引用《基于網(wǎng)格搜索支持向量機的邊坡穩(wěn)定性系數(shù)預(yù)測》[10]一文中的邊坡樣本數(shù)據(jù)42組。其中每組數(shù)據(jù)樣本都包含特征向量以及對應(yīng)的安全系數(shù)兩部分，特征向量由邊坡土體重度、邊坡高度、孔壓值、黏聚力、內(nèi)摩擦角以及邊坡傾角六個特征變量組成。通過隨機森林預(yù)測模型對樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)，找到邊坡特征向量中六項特征值與邊坡安全系數(shù)的非線性關(guān)系。具體數(shù)據(jù)樣本如表1。

表1 邊坡樣本數(shù)據(jù)集

2.2 模型建立

從上述邊坡樣本中隨機抽取34組樣本作為訓(xùn)練集（樣本序號1到34），剩余的8組樣本作為測試集（樣本序號35到42），在進(jìn)行歸一化處理后通過尋優(yōu)方法，確定該隨機森林模型決策樹數(shù)量為101，在每個節(jié)點處進(jìn)行分割的特征子集數(shù)量為5，然后建立隨機森林邊坡穩(wěn)定性預(yù)測模型。

3 預(yù)測的結(jié)果與分析

3.1 評價指標(biāo)

為了對隨機森林邊坡穩(wěn)定性預(yù)測模型進(jìn)行客觀評估，引入決定系數(shù)（coefficient of determination）這一概念作為模型的評價標(biāo)準(zhǔn)。決定系數(shù)的數(shù)學(xué)表達(dá)式如下：

決定系數(shù)的值代表了在回歸模型中，能由自變量解釋的變化程度占總變化程度的比例，總變化程度即為樣本的方差，不能由自變量解釋的變化程度由（真實值-回歸值）的平方和來表示，因此決定系數(shù)可以用1減去不能由自變量解釋的變化程度占總變化程度的比例來表示，決定系數(shù)越接近1，說明預(yù)測值可以被解釋的程度越高，預(yù)測結(jié)果越準(zhǔn)確，回歸模型的效果越好。

3.2 結(jié)果分析

為了體現(xiàn)基于隨機森林的邊坡穩(wěn)定性預(yù)測模型相比傳統(tǒng)機器學(xué)習(xí)算法的優(yōu)勢，將隨機森林模型的回歸及預(yù)測結(jié)果與BP神經(jīng)網(wǎng)絡(luò)的回歸預(yù)測結(jié)果進(jìn)行對比。

繪制隨機森林的邊坡穩(wěn)定性模型的回歸擬合曲線與BP神經(jīng)網(wǎng)絡(luò)回歸擬合曲線同時與真實值進(jìn)行對比，如圖1所示。從圖中可知，在對訓(xùn)練集進(jìn)行回歸時，與BP神經(jīng)網(wǎng)絡(luò)相比，回歸森林模型所得到的結(jié)果與真實值更加的接近，并且回歸效果更加穩(wěn)定。通過計算，隨機森林回歸模型的決定系數(shù)為0.989；而BP神經(jīng)回歸模型的決定系數(shù)為0.936。相比之下，隨機森林模型的決定系數(shù)更接近于1，擬合效果更好。接著多次抽取訓(xùn)練集，得到的安全系數(shù)擬合曲線都與真實值曲線接近，決定系數(shù)均與1接近，由此可得隨機森林回歸模型的穩(wěn)定性同樣良好。

兩種模型對于測試集的安全系數(shù)預(yù)測擬合曲線與真實值曲線對例如圖2。

兩種模型對測試集預(yù)測結(jié)果對例如表2所示。

結(jié)合圖2和表3可以看出，基于隨機森林的邊坡穩(wěn)定性預(yù)測模型預(yù)測結(jié)果與BP神經(jīng)網(wǎng)絡(luò)模型相比，平均誤差更小，對于邊坡安全系數(shù)的預(yù)測值與真實值更加接近，預(yù)測的結(jié)果更加穩(wěn)定。若將安全系數(shù)大于1視作穩(wěn)定，小于1視作不穩(wěn)定，隨機森林邊坡穩(wěn)定性預(yù)測模型能夠更加準(zhǔn)確地對于邊坡的穩(wěn)定與否做出預(yù)測。

圖1 兩種模型回歸值與真實值對比

圖2 兩種模型預(yù)測值與真實值對比

表2 預(yù)測結(jié)果對比

4 結(jié)語

本文基于隨機森林機器學(xué)習(xí)算法，基本搭建了一種可行的邊坡穩(wěn)定性預(yù)測模型，能夠數(shù)值化的預(yù)測邊坡的穩(wěn)定系數(shù)。相比較于傳統(tǒng)的物理模型，本模型更加適合于邊坡工程這類非線性復(fù)雜系統(tǒng)的預(yù)測；而相較于BP神經(jīng)網(wǎng)絡(luò)這類的回歸預(yù)測模型，本模型有著計算量小、回歸結(jié)果更加準(zhǔn)確和穩(wěn)定、適合用于樣本分布不均的情況等優(yōu)點。

目前來說，訓(xùn)練集樣本容量偏小，因此在進(jìn)行邊坡穩(wěn)定性預(yù)測時，可能會對預(yù)測結(jié)果的準(zhǔn)確度有一定的影響；樣本特征類別偏少，可能對與更加特殊以及復(fù)雜的邊坡穩(wěn)定性預(yù)測造成影響。將來應(yīng)該對邊坡數(shù)據(jù)以及邊坡特征類別的數(shù)量進(jìn)行擴充，以提高模型的預(yù)測精度，和模型對不同種類邊坡的區(qū)分度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡