楊建新,唐海英
(湖南省核工業(yè)地質(zhì)局 三0二大隊,湖南 株洲 423000)
常見基坑變形研究方法主要包括數(shù)值模擬、理論計算及智能算法預(yù)測等。在數(shù)值模擬方面,Liu Haiming等利用FLAC3D軟件,選用2種本構(gòu)模型對地面沉降進(jìn)行模擬,通過與現(xiàn)場監(jiān)測數(shù)據(jù)對比研究了基坑開挖影響范圍;劉冰冰采用ABAQUS數(shù)值軟件,對西安地鐵四號線基坑工程沉降進(jìn)行模擬,研究了基坑開挖降水對相鄰建筑物的影響。在理論計算方面,Peck R.B.基于大量基坑工程數(shù)據(jù),提出了基坑地表沉降計算公式;段紹偉等根據(jù)長沙市地鐵開挖實測數(shù)據(jù),采用回歸分析方法對Peck沉降計算公式進(jìn)行了修正。數(shù)值模擬及理論計算為現(xiàn)場基坑建設(shè)提供了理論指導(dǎo),但由于基坑變形的復(fù)雜性及隨機(jī)性,現(xiàn)場實際沉降與理論計算存在一定偏差。智能算法能避開基坑變形的內(nèi)在機(jī)理,具有良好的預(yù)測能力,目前已成為基坑變形預(yù)測的主要技術(shù)手段。該文主要利用隨機(jī)森林、決策樹、支持向量機(jī)3種機(jī)器學(xué)習(xí)算法,結(jié)合上海某深基坑實測數(shù)據(jù),對基坑變形進(jìn)行預(yù)測,分析基坑沉降的影響因素。
決策樹算法是目前最常見的機(jī)器學(xué)習(xí)算法之一,它以信息熵作為判別標(biāo)準(zhǔn),將決策樹葉節(jié)點(diǎn)上的值作為輸出樣本信息,而非葉節(jié)點(diǎn)上的值作為數(shù)據(jù)樣本中某個屬性的劃分點(diǎn),樣本數(shù)據(jù)根據(jù)該屬性上的不同分割點(diǎn)被劃分為多個子數(shù)據(jù)集。建立決策樹的核心在于非葉節(jié)點(diǎn)上屬性的選擇,即如何選擇適當(dāng)?shù)膶傩约皩傩苑指铧c(diǎn)對樣本數(shù)據(jù)進(jìn)行劃分。
對于回歸問題,常采用CART決策樹算法。對于給定的訓(xùn)練T={(x1,y1),(x2,y2),…,(xn,yn)},根據(jù)訓(xùn)練數(shù)據(jù)集中的幾個或全部特征,按一定方法對樣本數(shù)據(jù)進(jìn)行分割,從而建立相應(yīng)決策樹,使決策樹中葉節(jié)點(diǎn)上的值與訓(xùn)練樣本中的值相等或接近。建立決策樹的核心問題是非葉節(jié)點(diǎn)上特征的選擇。假如選擇訓(xùn)練集T中的j號特征中的s分量作為分割訓(xùn)練集的閾值,原數(shù)據(jù)集將分為R1={x|Rj≤s}、R2={x|Rj>s}兩部分,分割后模型的輸出值與實際y值的均方誤差可表示為:
f(xi))2]
式中:f(xi)為模型輸出值,其越接近實際值y,模型精度越高。
隨機(jī)森林的基本思想是通過Bagging集成,將多個弱決策樹求解結(jié)果取平均值,從而獲得具有較高精確度和泛化性能的算法。如圖1所示,通過Bootstrap重采樣技術(shù),從原始訓(xùn)練數(shù)據(jù)集D中有放回地重復(fù)隨機(jī)抽取k個樣本,生成新的訓(xùn)練數(shù)據(jù)集,然后基于新生成的k個訓(xùn)練集建立k顆決策樹,將k顆決策樹組成隨機(jī)森林。隨機(jī)森林的計算結(jié)果等于所有決策樹計算結(jié)果的平均值。
圖1 隨機(jī)森林算法示意圖
支持向量機(jī)是將實際問題通過非線性變換Φ(x)轉(zhuǎn)換到高維的特征空間,再利用各種優(yōu)化算法求得最大分類間隔,使樣本點(diǎn)能線性可分地轉(zhuǎn)換到所得到的高維空間。在這些樣本點(diǎn)中,有一部分位于最大分類間隔的超平面之上,此即支持向量點(diǎn)。
如圖2所示,設(shè)待求解的數(shù)據(jù)集為(x1,y1),(x2,y2),…,(xn,yn),x∈R,y∈R,i=1,…,N,xn為輸入數(shù)據(jù),y為輸出數(shù)據(jù)。通過使所有樣本點(diǎn)離超平面的總偏差最小,可建立如下關(guān)系式:
圖2 支持向量機(jī)原理示意圖
基坑開挖對周邊地面變形的影響不可忽視。地面變形是多因素共同作用的結(jié)果,主要包括施工工況、巖土層參數(shù)、支護(hù)結(jié)構(gòu)剛度及支撐形式等。各因素的影響程度及方式不同,應(yīng)用傳統(tǒng)的理論計算方法難以考慮多種因素建立準(zhǔn)確的基坑沉降預(yù)測模型,機(jī)器學(xué)習(xí)方法為此提供了可靠途徑。
以上海某基坑工程為例,現(xiàn)場施工過程中記錄基坑開挖深度、開挖面以上地層內(nèi)摩擦角、土體黏聚力、土體重度、地層滲透系數(shù)、監(jiān)測點(diǎn)距離及監(jiān)測點(diǎn)沉降等。圖3為選取的輸入變量與基坑變形量的Pearson相關(guān)系數(shù)圖,用來衡量變量之間的線性相關(guān)關(guān)系,取值范圍為[-1,1],-1表示為負(fù)相關(guān),1表示為正相關(guān)。數(shù)值越接近1或-1,表示相關(guān)度越強(qiáng);越接近零,表示相關(guān)度越弱。從圖3來看,輸入變量與輸出變量之間存在一定的相關(guān)性。
圖3 輸入變量與輸出變量相關(guān)系數(shù)圖
選取100組監(jiān)測數(shù)據(jù)(涵蓋開挖前、開挖中及基坑施工后全周期)作為訓(xùn)練樣本和測試樣本建立預(yù)測模型,隨機(jī)抽取80%數(shù)據(jù)作為訓(xùn)練集,剩下20%數(shù)據(jù)作為測試集,分別基于決策樹算法、隨機(jī)森林算法及支持向量機(jī)算法進(jìn)行模型預(yù)測。
通過調(diào)整模型超參數(shù)獲得最優(yōu)化模型,提高機(jī)器學(xué)習(xí)模型的預(yù)測準(zhǔn)確性?;诰W(wǎng)格搜索交叉驗證方法進(jìn)行超參數(shù)調(diào)整。圖4為5折交叉驗證示意圖,其原理為通過將超參數(shù)數(shù)據(jù)集分為n個子集,以1個子集作為驗證集,其余n-1個子集作為訓(xùn)練集,得到模型結(jié)果,并通過循環(huán)變換驗證集。重復(fù)上述過程,選取模型表現(xiàn)最優(yōu)的超參數(shù)數(shù)據(jù)集作為模型的超參數(shù)。
圖4 交叉驗證示意圖
采用擬合優(yōu)度R2和均方根誤差RMSE統(tǒng)計指標(biāo)作為機(jī)器學(xué)習(xí)預(yù)測模型精度評價指標(biāo),公式如下:
R2的取值范圍為[-1,1],R2越接近1,擬合越好;RMSE的取值范圍為[0,+∞),取值越接近零,預(yù)測值與實際值擬合越好。
機(jī)器學(xué)習(xí)中,使用網(wǎng)格搜索交叉驗證獲得的最佳超參數(shù)組合進(jìn)行建模,各模型在測試集上的性能表現(xiàn)見表1。從表1可看出:支持向量機(jī)的預(yù)測效果較差;隨機(jī)森林和決策樹算法具有較高的預(yù)測精度,其擬合優(yōu)度都超過0.9,且均方根誤差在2以下;隨機(jī)森林算法的預(yù)測能力最好,這主要是由于輸入數(shù)據(jù)與輸出數(shù)據(jù)具有高度非線性,集成算法具有較高的表現(xiàn)能力。
表1 機(jī)器學(xué)習(xí)預(yù)測結(jié)果對比
利用3種機(jī)器學(xué)習(xí)模型對整個數(shù)據(jù)集進(jìn)行建模分析,結(jié)果見圖5。從圖5可看出:隨機(jī)森林模型和決策樹模型的預(yù)測值均較好地分布在理想擬合線附近,最大相對誤差為0.35%,且具有較高的穩(wěn)定性;支持向量機(jī)模型的預(yù)測值表現(xiàn)較差,最大相對誤差為10.34%,難以滿足工程實際要求。不同機(jī)器學(xué)習(xí)算法,由于其內(nèi)核計算方法的差別,在同一工程數(shù)據(jù)的預(yù)測應(yīng)用中表現(xiàn)出精度差異。
圖5 機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果
表2為隨機(jī)森林模型預(yù)測值與基坑周邊沉降實測值對比。從表2可看出:隨機(jī)森林模型預(yù)測結(jié)果雖有一定波動,但在可接受范圍內(nèi),其相對誤差為0.13%~2.01%,平均相對誤差為0.97%,對于基坑變形預(yù)測來說其精度滿足要求。
表2 位移實測值與隨機(jī)森林模型預(yù)測值的比較
影響基坑沉降的因素很多,但不同因素的影響程度不一樣。在機(jī)器學(xué)習(xí)算法中,函數(shù)“feature_importance_”對各影響因素的重要性給出了定量解釋,數(shù)學(xué)過程如下:
(1)對每一顆決策樹,建立決策樹前將數(shù)據(jù)集分為訓(xùn)練集和預(yù)測集,選擇沒有參與建立決策樹的預(yù)測集數(shù)據(jù)進(jìn)行預(yù)測,計算預(yù)測值與試驗值的誤差,記為err1。
(2)隨機(jī)對預(yù)測集數(shù)據(jù)中樣本的影響因素(因變量)X加入噪聲干擾(即隨機(jī)改變樣本在特征X的值),再次計算預(yù)測值與試驗值之間的誤差,記為err2。
(3)假設(shè)森林中有N棵樹,則影響因素(因變量)X的重要性為:
加入隨機(jī)噪聲后,模型的精度會發(fā)生變化(即err2改變),err2的變化幅度反映輸出結(jié)果對X變量的敏感性。假如X變量對結(jié)果無影響,則err2與err1相等,即ERRX=0;ERRX越大,X變量對樣本預(yù)測結(jié)果的影響越大,該特征的重要程度較高。
基于隨機(jī)森林模型分析各影響因素對基坑沉降的敏感性,結(jié)果見圖6,其中所有重要性系數(shù)總和為1。從圖6可看出:內(nèi)摩擦角、黏聚力和檢測點(diǎn)距離的相對重要性系數(shù)分別為0.245、0.231、0.22,其值在所有影響因素中較高,影響因素的重要性排名為內(nèi)摩擦角>黏聚力>監(jiān)測點(diǎn)距離>土體重度>基坑開挖深度>土體滲透系數(shù),說明土層本身性質(zhì)對基坑沉降至關(guān)重要。
圖6 隨機(jī)森林模型生成的特征重要性
基于機(jī)器學(xué)習(xí)中的決策樹、隨機(jī)森林和支持向量機(jī)算法對基坑沉降進(jìn)行預(yù)測,得出如下主要結(jié)論:
(1)傳統(tǒng)模型一般難以考慮基坑的復(fù)雜性。基于基坑實測數(shù)據(jù)建立基坑沉降預(yù)測的機(jī)器學(xué)習(xí)模型,通過與實測數(shù)據(jù)對比,隨機(jī)森林預(yù)測模型的表現(xiàn)優(yōu)于其他2種模型,其最大相對誤差為2.01%。
(2)內(nèi)摩擦角對基坑沉降的影響最顯著,但土層力學(xué)性質(zhì)等特征的影響較平均,土層滲透系數(shù)對基坑沉降的影響較小。