国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林算法的邊坡穩(wěn)定性預(yù)測

2020-03-08 06:01:54姜泓任董慶波姜相松羅國成
現(xiàn)代計算機 2020年36期
關(guān)鍵詞:決定系數(shù)決策樹邊坡

姜泓任,董慶波,姜相松,羅國成

(1.大連海事大學(xué)輪機工程學(xué)院,大連116026;2.中鐵建大橋工程局集團第一工程有限公司,大連116033)

近年來,邊坡相關(guān)工程在我國迅速發(fā)展,而對于邊坡穩(wěn)定性的評估與預(yù)測是邊坡工程安全性的保障,也是邊坡工程的重中之重。因此,對邊坡工程的穩(wěn)定性進(jìn)行及時有效的預(yù)測有著重要意義。為了解決非線性邊坡系統(tǒng)的復(fù)雜性,建立隨機森林邊坡穩(wěn)定性預(yù)測模型。選取邊坡土體重度、邊坡高度、孔壓值、黏聚力、內(nèi)摩擦角以及邊坡傾角6個特征作為隨機森林的輸入特征向量組成元素;安全系數(shù)作為隨機森林的輸出。對實際數(shù)據(jù)的訓(xùn)練預(yù)測結(jié)果表明,模型的決定系數(shù)接近于1,回歸效果好,對于邊坡的穩(wěn)定性預(yù)測準(zhǔn)確。研究結(jié)果證明隨機森林邊坡穩(wěn)定性模型的可行性。

邊坡工程;隨機森林;機器學(xué)習(xí);穩(wěn)定性

0 引言

隨著我國經(jīng)濟發(fā)展以及基礎(chǔ)的建設(shè),道路橋梁工程、礦山建設(shè)工程、水利工程等工程發(fā)展迅速,其中存在著大量與邊坡相關(guān)的工程。邊坡的穩(wěn)定性事關(guān)重大,一旦出現(xiàn)滑坡災(zāi)害,會嚴(yán)重危害到人們的人身安全以及國家財產(chǎn)。因此,找到一種準(zhǔn)確且便捷的道路邊坡穩(wěn)定性預(yù)測方法便顯得尤為重要。

邊坡穩(wěn)定性受到多個因素影響,在實際的邊坡工程中,各個影響因素相互作用,組成一個復(fù)雜的非線性系統(tǒng)。長期以來,研究者們在預(yù)測邊坡穩(wěn)定性時,往往采用將影響邊坡穩(wěn)定性的因素量化后帶入物理模型進(jìn)行分析這一傳統(tǒng)方法。例如肖歡等人[1]采用極限平衡法分析礦山的局部邊坡穩(wěn)定性;年庚乾等人[2]利用雙重介質(zhì)模型對裂隙巖質(zhì)邊坡的滲流及穩(wěn)定性進(jìn)行分析;彭超等人[3]將基于張拉剪切復(fù)合破壞的強度折減法應(yīng)用于邊坡穩(wěn)定性分析。然而由于邊坡系統(tǒng)的復(fù)雜性,建立的物理模型不僅復(fù)雜,還可能對實際情況的反應(yīng)有所偏頗,因此其對于穩(wěn)定性預(yù)測的準(zhǔn)確程度相對不足。而近年來機器學(xué)習(xí)算法的興起很好地彌補了傳統(tǒng)物理模型的不足。

機器學(xué)習(xí)的核心目的是使機器能從大量數(shù)據(jù)中尋找學(xué)習(xí)規(guī)律,并將獲得的學(xué)習(xí)規(guī)律應(yīng)用到其他的同類數(shù)據(jù)中[4],無需建立具體的物理模型,可以較好地預(yù)測非線性復(fù)雜系統(tǒng)。迄今為止,已經(jīng)有很多研究人員將巖土學(xué)科與機器學(xué)習(xí)算法相結(jié)合,建立邊坡穩(wěn)定性預(yù)測模型。例如,何永波等人[5]將通過卷積神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性分析模型;牛鵬飛等人[6]利用PCA-LMBP神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性預(yù)測模型;黎璽克[7]采用了遺傳算法改進(jìn)BP神經(jīng)網(wǎng)絡(luò)建立了邊坡穩(wěn)定性預(yù)測模型。相較于其他機器學(xué)習(xí)算法,隨機森林具有更好的泛化性以及準(zhǔn)確性,且計算量更少,在訓(xùn)練集樣本分布不均以及解決非線性回歸問題中有著更好的表現(xiàn)。

筆者隨機抽取某組邊坡樣本數(shù)據(jù)中的一部分作為訓(xùn)練集建立了基于隨機森林算法的邊坡穩(wěn)定性預(yù)測模型,并對剩余部分?jǐn)?shù)據(jù)進(jìn)行了預(yù)測與分析,為道路邊坡穩(wěn)定性預(yù)測提供了一種新的機器學(xué)習(xí)算法模型思路。

1 隨機森林模型基本原理

1.1 隨機森林的特點

隨機森林是一種以決策樹為基學(xué)習(xí)器的有監(jiān)督的集成學(xué)習(xí)算法。集成學(xué)習(xí)是一種十分重要且實用的機器學(xué)習(xí)方法,隨機森林算法便是集成學(xué)習(xí)算法中的典型算法之一,它以簡單而且高效的特點為人所知。在隨機森林模型中,包含著多個由Bagging集成算法訓(xùn)練的決策樹,當(dāng)待計算樣本輸入后,模型通過集成眾多決策樹的輸出結(jié)果并以投票的方式輸出結(jié)果。隨機森林預(yù)測模型可分為兩類,一類是回歸模型,另一類是分類模型。兩者的區(qū)別在于預(yù)測結(jié)果的性質(zhì):前者預(yù)測結(jié)果為具體數(shù)值,后者預(yù)測結(jié)果為劃分的類別。本文所采用的邊坡穩(wěn)定性預(yù)測算法為隨機森林的回歸算法,通過邊坡的幾項特征對于邊坡安全系數(shù)進(jìn)行回歸預(yù)測。在隨機森林的回歸模型中,集成算法為Bagging系列算法,基學(xué)習(xí)器采用的為CART回歸樹模型。

1.2 Bagging系列算法

Bagging系列算法[8]是一種并行的集成學(xué)習(xí)算法,它的提出是為了處理數(shù)據(jù)的不平衡問題,能夠有效地增強回歸器的回歸效果。在Bagging算法中,基學(xué)習(xí)器的訓(xùn)練集是通過對原始樣本進(jìn)行隨機抽樣得到的。假設(shè)原始樣本總數(shù)為M,對其進(jìn)行N組取樣。每組取樣為有放回的隨機取樣,樣本容量也為M。從而得到N組采樣集,將這N個采樣集分別進(jìn)行獨立訓(xùn)練,可得N個基學(xué)習(xí)器,將N個基學(xué)習(xí)器通過集合策略即可得到通過Bagging算法抽樣的強學(xué)習(xí)器。原始樣本集中每個樣本未被抽中的概率為,當(dāng)M足夠大時,概率趨近為,約為36.8%[9],這說明了每次抽樣原始樣本集中約有1/3的樣本沒有被抽中,這可以有效地增加模型對噪聲的容忍度,適和應(yīng)用于一些穩(wěn)定性差或傾向于過擬合的模型,如決策樹模型。

1.3 CART決策樹的建立

CART決策樹是一種基本樹模型,廣泛應(yīng)用于各類樹模型中,其特點是既能處理分類問題也能處理回歸問題。所謂回歸,即根據(jù)輸入的特征向量決定對應(yīng)的輸出值,在CART回歸樹結(jié)構(gòu)中,特征空間被劃分成了若干單元,每個單元對應(yīng)著一個輸出值,因其為二叉樹結(jié)構(gòu),特征節(jié)點處的取值只有“是”與“否”。對于訓(xùn)練集數(shù)據(jù),需找出每個特征的最佳劃分點以及對于不同的特征劃分的先后順序,再根據(jù)其特征在每個特征節(jié)點處進(jìn)行判斷,按照其特征將其劃分到某個單元,便能得到對應(yīng)的輸出值。

在尋找最佳特征劃分點時,使用最小化均方差法。假設(shè)X和Y分別為輸入和輸出變量,并且Y是連續(xù)變量,假設(shè)訓(xùn)練數(shù)據(jù)集如下:

其中輸入特征向量為:n為特征個數(shù),i=1,2,…,N,N為樣本容量。

在進(jìn)行劃分前,從特征向量中等概率隨機抽取一個特征子集,在進(jìn)行每一次的劃分時,遍歷子集中的所有特征的所有取值,選擇一個使平方誤差最小的點作為最優(yōu)切分點。記作訓(xùn)練集中第j個特征變量和它的取值s,并定義兩個區(qū)域:

與:

為找出最優(yōu)j和s,對下式求解:

也就是找出j和s,使要劃分的兩個區(qū)域平方誤差和最小。根據(jù)證明,c1,c2為兩個區(qū)域內(nèi)分別對應(yīng)的Y的均值。

找到最優(yōu)的切分點(j,s)后,按照最優(yōu)切分點將輸入空間依次劃分為兩個區(qū)域,接著對新生成的每個區(qū)域都重復(fù)上述劃分過程,直到滿足停止條件。如此,一棵回歸樹便被成功地構(gòu)建了出來,通常稱這種回歸樹為最小二乘回歸樹。

劃分結(jié)束后得到的若每個葉節(jié)點上輸出數(shù)值唯一則以該值作為該葉節(jié)點的預(yù)測數(shù)值,若最終葉子節(jié)點上輸出數(shù)值不唯一,則以該節(jié)點上所有人的平均數(shù)值做為該葉節(jié)點的預(yù)測數(shù)值。

1.4 隨機森林模型的建立

簡單來說,隨機森林模型是Bagging集成算法與決策樹的結(jié)合。

(1)使用Bootstrapping方法,從初始數(shù)據(jù)集中隨機、有放回的進(jìn)行n次采樣,每次采集m個樣本,生成n個訓(xùn)練集。

(2)對n個訓(xùn)練集分別進(jìn)行訓(xùn)練,得到n個決策樹模型。

(3)對于每個決策樹模型,按照之前所述的方法進(jìn)行二分裂。

(4)將生成的多顆決策樹組成隨機森林。對于分類問題,按照多棵樹分類器投票決定最終分類結(jié)果;對于回歸問題,由多顆樹預(yù)測值的均值決定最終預(yù)測結(jié)果。

2 基于隨機森林邊坡模型建立

2.1 數(shù)據(jù)集

為了驗證基于隨機森林的邊坡穩(wěn)定性預(yù)測模型的預(yù)測效果,引用《基于網(wǎng)格搜索支持向量機的邊坡穩(wěn)定性系數(shù)預(yù)測》[10]一文中的邊坡樣本數(shù)據(jù)42組。其中每組數(shù)據(jù)樣本都包含特征向量以及對應(yīng)的安全系數(shù)兩部分,特征向量由邊坡土體重度、邊坡高度、孔壓值、黏聚力、內(nèi)摩擦角以及邊坡傾角六個特征變量組成。通過隨機森林預(yù)測模型對樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),找到邊坡特征向量中六項特征值與邊坡安全系數(shù)的非線性關(guān)系。具體數(shù)據(jù)樣本如表1。

表1 邊坡樣本數(shù)據(jù)集

2.2 模型建立

從上述邊坡樣本中隨機抽取34組樣本作為訓(xùn)練集(樣本序號1到34),剩余的8組樣本作為測試集(樣本序號35到42),在進(jìn)行歸一化處理后通過尋優(yōu)方法,確定該隨機森林模型決策樹數(shù)量為101,在每個節(jié)點處進(jìn)行分割的特征子集數(shù)量為5,然后建立隨機森林邊坡穩(wěn)定性預(yù)測模型。

3 預(yù)測的結(jié)果與分析

3.1 評價指標(biāo)

為了對隨機森林邊坡穩(wěn)定性預(yù)測模型進(jìn)行客觀評估,引入決定系數(shù)(coefficient of determination)這一概念作為模型的評價標(biāo)準(zhǔn)。決定系數(shù)的數(shù)學(xué)表達(dá)式如下:

決定系數(shù)的值代表了在回歸模型中,能由自變量解釋的變化程度占總變化程度的比例,總變化程度即為樣本的方差,不能由自變量解釋的變化程度由(真實值-回歸值)的平方和來表示,因此決定系數(shù)可以用1減去不能由自變量解釋的變化程度占總變化程度的比例來表示,決定系數(shù)越接近1,說明預(yù)測值可以被解釋的程度越高,預(yù)測結(jié)果越準(zhǔn)確,回歸模型的效果越好。

3.2 結(jié)果分析

為了體現(xiàn)基于隨機森林的邊坡穩(wěn)定性預(yù)測模型相比傳統(tǒng)機器學(xué)習(xí)算法的優(yōu)勢,將隨機森林模型的回歸及預(yù)測結(jié)果與BP神經(jīng)網(wǎng)絡(luò)的回歸預(yù)測結(jié)果進(jìn)行對比。

繪制隨機森林的邊坡穩(wěn)定性模型的回歸擬合曲線與BP神經(jīng)網(wǎng)絡(luò)回歸擬合曲線同時與真實值進(jìn)行對比,如圖1所示。從圖中可知,在對訓(xùn)練集進(jìn)行回歸時,與BP神經(jīng)網(wǎng)絡(luò)相比,回歸森林模型所得到的結(jié)果與真實值更加的接近,并且回歸效果更加穩(wěn)定。通過計算,隨機森林回歸模型的決定系數(shù)為0.989;而BP神經(jīng)回歸模型的決定系數(shù)為0.936。相比之下,隨機森林模型的決定系數(shù)更接近于1,擬合效果更好。接著多次抽取訓(xùn)練集,得到的安全系數(shù)擬合曲線都與真實值曲線接近,決定系數(shù)均與1接近,由此可得隨機森林回歸模型的穩(wěn)定性同樣良好。

兩種模型對于測試集的安全系數(shù)預(yù)測擬合曲線與真實值曲線對例如圖2。

兩種模型對測試集預(yù)測結(jié)果對例如表2所示。

結(jié)合圖2和表3可以看出,基于隨機森林的邊坡穩(wěn)定性預(yù)測模型預(yù)測結(jié)果與BP神經(jīng)網(wǎng)絡(luò)模型相比,平均誤差更小,對于邊坡安全系數(shù)的預(yù)測值與真實值更加接近,預(yù)測的結(jié)果更加穩(wěn)定。若將安全系數(shù)大于1視作穩(wěn)定,小于1視作不穩(wěn)定,隨機森林邊坡穩(wěn)定性預(yù)測模型能夠更加準(zhǔn)確地對于邊坡的穩(wěn)定與否做出預(yù)測。

圖1 兩種模型回歸值與真實值對比

圖2 兩種模型預(yù)測值與真實值對比

表2 預(yù)測結(jié)果對比

4 結(jié)語

本文基于隨機森林機器學(xué)習(xí)算法,基本搭建了一種可行的邊坡穩(wěn)定性預(yù)測模型,能夠數(shù)值化的預(yù)測邊坡的穩(wěn)定系數(shù)。相比較于傳統(tǒng)的物理模型,本模型更加適合于邊坡工程這類非線性復(fù)雜系統(tǒng)的預(yù)測;而相較于BP神經(jīng)網(wǎng)絡(luò)這類的回歸預(yù)測模型,本模型有著計算量小、回歸結(jié)果更加準(zhǔn)確和穩(wěn)定、適合用于樣本分布不均的情況等優(yōu)點。

目前來說,訓(xùn)練集樣本容量偏小,因此在進(jìn)行邊坡穩(wěn)定性預(yù)測時,可能會對預(yù)測結(jié)果的準(zhǔn)確度有一定的影響;樣本特征類別偏少,可能對與更加特殊以及復(fù)雜的邊坡穩(wěn)定性預(yù)測造成影響。將來應(yīng)該對邊坡數(shù)據(jù)以及邊坡特征類別的數(shù)量進(jìn)行擴充,以提高模型的預(yù)測精度,和模型對不同種類邊坡的區(qū)分度。

猜你喜歡
決定系數(shù)決策樹邊坡
這邊山 那邊坡
基于Python語言路徑分析矩陣算法運演
不同規(guī)格香港牡蠣殼形態(tài)性狀對重量性狀的影響
2種貝齡合浦珠母貝數(shù)量性狀的相關(guān)與通徑分析
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于顏色讀數(shù)識別物質(zhì)濃度的數(shù)學(xué)模型研究
水利水電工程高邊坡的治理與加固探討
基于決策樹的出租車乘客出行目的識別
基于SLOPE/W的邊坡穩(wěn)定分析
兴宁市| 玉山县| 扶余县| 通化市| 建阳市| 沽源县| 咸丰县| 崇义县| 根河市| 开阳县| 永德县| 龙门县| 高清| 颍上县| 禹城市| 壤塘县| 沙湾县| 肇源县| 驻马店市| 安多县| 读书| 西林县| 彝良县| 天水市| 玛多县| 华宁县| 韶山市| 阜阳市| 沿河| 仙桃市| 宿松县| 靖西县| 镶黄旗| 诏安县| 周至县| 卓资县| 新乡县| 波密县| 古浪县| 禄丰县| 凭祥市|