姚 怡 王曉敏
(西安科技大學(xué)高新學(xué)院, 西安 710109)
21世紀(jì)以來,全球經(jīng)濟(jì)社會(huì)發(fā)展突飛猛進(jìn),隨著越來越多工程活動(dòng)的加劇,其地質(zhì)條件也呈現(xiàn)出更加復(fù)雜化和多樣化的特點(diǎn)[1,2],尤其在水電工程領(lǐng)域的表現(xiàn)更為明顯.因此水利工程的邊坡穩(wěn)定性也備受關(guān)注,對于邊坡穩(wěn)定性的研究也隨著水利工程活動(dòng)的加速而不斷深入[3,4].
早在20世紀(jì)初期,人們就已經(jīng)開始了在邊坡穩(wěn)定性方面的經(jīng)驗(yàn)和理論研究.20世紀(jì)中葉,類比法被大量應(yīng)用于邊坡失穩(wěn)研究[5].六十年代,研究人員將結(jié)構(gòu)面相關(guān)理論與邊坡的失穩(wěn)特征相聯(lián)系,巖體結(jié)構(gòu)的雛形就此產(chǎn)生[6].到了七十年代,研究方向開始向邊坡的破壞過程和變形機(jī)理轉(zhuǎn)變,累計(jì)性破壞理論和時(shí)效變形理論成為該階段的研究熱點(diǎn)[7].此后,由于計(jì)算機(jī)時(shí)代的來臨,使傳統(tǒng)的研究方法逐漸從定性研究向定量研究過渡[8].而通信技術(shù)的發(fā)展,為學(xué)科之間交叉和相互滲透提供了便捷.到20世紀(jì)末,我國西部大開發(fā)戰(zhàn)略的提出和三峽工程的建設(shè)為邊坡理論研究和實(shí)踐應(yīng)用提供了良好的平臺(tái)[9,10],至此,系統(tǒng)科學(xué)開始在邊坡穩(wěn)定性研究中發(fā)揮作用.時(shí)至今日,多類研究方法已被應(yīng)用于邊坡穩(wěn)定性研究,包括數(shù)值模擬[11]、界面元、快速Lagrange[12]、極限平衡[13]、離散單元[14]和神經(jīng)網(wǎng)絡(luò)[15]等.快速Lagrange和離散單元法的理論基本相似,均采用將鑲嵌的巖體離散化后再進(jìn)行分析[16],該方法可對不同的材料進(jìn)行分析.當(dāng)巖體切面發(fā)生形變時(shí),可以對整個(gè)過程進(jìn)行模擬,從而建立本構(gòu)方程[17].該方法對數(shù)值模擬的分析過程較為繁雜,計(jì)算時(shí)間復(fù)雜度大,實(shí)際應(yīng)用較為困難.神經(jīng)網(wǎng)絡(luò)作為現(xiàn)階段較為常用的方法,它根據(jù)人腦的結(jié)構(gòu)特征演化而來,具有良好的自我糾錯(cuò)能力、自學(xué)習(xí)能力和對環(huán)境的適應(yīng)能力.神經(jīng)網(wǎng)絡(luò)將繁雜的各因子作為系統(tǒng)輸入,建立非線性模型,利用模型對邊坡穩(wěn)定性進(jìn)行分析[18].但這種方法具有收斂速度慢、容易陷入局部極小值的缺點(diǎn).極限平衡法作為當(dāng)下普遍用于工程實(shí)際的基本方法,能夠定量地計(jì)算出邊坡穩(wěn)定性系數(shù)且計(jì)算簡便[19].但該方法本身受理論假設(shè)和實(shí)際工程環(huán)境的限制,其計(jì)算準(zhǔn)確率偏低[20].
以上研究中均忽視了邊坡穩(wěn)定性影響因子間的相互關(guān)系,而影響因子間的相互關(guān)系可能會(huì)使輸入數(shù)據(jù)矩陣的結(jié)構(gòu)變得復(fù)雜.主成分分析法作為解決此類問題的有力工具,在邊坡穩(wěn)定性研究中應(yīng)用并不多見[21].同時(shí),鑒于支持向量機(jī)在解決樣本規(guī)模較小以及非線性問題中所表現(xiàn)出的優(yōu)勢,本文將二者相結(jié)合構(gòu)建了PCA-SVM 模型用于邊坡穩(wěn)定性分析.
崆峒水庫位于甘肅省平?jīng)鍪幸晕髦猩絽^(qū)、涇河上游峽谷內(nèi),涇河橫穿大陰山,經(jīng)源縣至崆峒山,后向東部流淌.途徑廣袤的黃土塬,最終流向下游的平?jīng)鍪?水庫容量達(dá)2 970萬m3,壩高達(dá)63.8 m,標(biāo)準(zhǔn)蓄水位1 523.2 m,堤壩前水頭43 m,回水長度4.8 km.改擴(kuò)建工程計(jì)劃將容量提升1 602萬m3,標(biāo)準(zhǔn)蓄水位提升14.6 m,堤壩前水頭大約提升15 m,回水長度延長1.1 km[15].
水庫地處平?jīng)鍪嗅轻紖^(qū),位于崆峒山前峽出口,屬峽谷型水庫.涇河位于庫區(qū)吊橋以上,流向由南至北且河道蜿蜒[22].谷底寬度為30~90 m,河床寬度為10~25 m,切割強(qiáng)烈,沿岸地勢險(xiǎn)峻,河谷大致呈V字狀.崆峒山主峰位于水庫西側(cè),坡險(xiǎn)岸高且多為垂直陡崖.東側(cè)地勢略緩,坡度大約30°~50°.水庫兩岸坡體相對高差達(dá)400~500 m.
PCA 是一種常用的主成分分析方法[23].實(shí)際問題中,各個(gè)輸入變量之間存在某些相關(guān)性,這些相關(guān)性反映出變量之間存在一些重復(fù)信息.PCA 便是要尋求包含80%以上原變量信息的新變量,這些新變量可以由原變量線性表出,且相互之間不再具有相關(guān)性,所求得的新變量就是主成分,通常主成分包含的變量數(shù)為6個(gè)以內(nèi).
不妨設(shè)實(shí)際樣本個(gè)數(shù)為n,每個(gè)樣本均為p維隨機(jī)變量,原始數(shù)據(jù)由下式矩陣表示:
實(shí)際上,因各變量因子所采用的單位和量綱不同,會(huì)造成數(shù)據(jù)不平衡的問題.因此,需要在主成分分析之前先對所有數(shù)據(jù)進(jìn)行歸一化處理.數(shù)據(jù)歸一化的方法多樣,本文采用如下較為常用的方式進(jìn)行處理:
由式(2)對數(shù)據(jù)進(jìn)行歸一化處理后,得到新的變量X.其中,x i(i=1,2,…,p)表示原變量.用Y表示歸一化處理后的新變量,則有:
新變量的對應(yīng)分量分別稱為原變量對應(yīng)分量的第1,2,…,p個(gè)主成分.PCA 的本質(zhì)是計(jì)算原變量X在主成分Y上的荷載c ij(i,j=1,2,…,p),它們分別屬于相關(guān)矩陣的特征值的特征向量,特征值對應(yīng)于該主成分的貢獻(xiàn),累計(jì)貢獻(xiàn)率為:特征值λl,l=1,2,…,r,且r≤6就是對應(yīng)的第l個(gè)主成分,累計(jì)貢獻(xiàn)率通常為75%~85%以上.
支持向量機(jī)是結(jié)合統(tǒng)計(jì)學(xué)和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的一種機(jī)器學(xué)習(xí)方法.該方法是基于小樣本建立的綜合了模型復(fù)雜性和學(xué)習(xí)能力的一種模型,屬于有監(jiān)督學(xué)習(xí),在分類和回歸分析中得到普遍應(yīng)用.SVM 在解決分類和回歸相關(guān)問題時(shí)本質(zhì)上是一致的,只是二者輸出數(shù)據(jù)的取值范圍有所區(qū)別[18].
支持向量機(jī)將通過SVM 得到的回歸問題的結(jié)論再應(yīng)用到回歸分析中.SVM 就是尋求使得與實(shí)際樣本值y最大程度接近的擬合函數(shù)f(x).在該模型中,當(dāng)且僅當(dāng)y=f(x)時(shí),才成立|y i-f(x)|=0.構(gòu)建2ε的間隔(該間隔f(x)為中心),ε是損失邊界,若該間隔內(nèi)存在樣本(|y i-f(x)|在承受范圍內(nèi)),則認(rèn)為預(yù)測是準(zhǔn)確的.SVM 的示意圖如圖1所示.
圖1 SVM 示意圖
數(shù)學(xué)模型由式(4)表示:
通過調(diào)整懲罰因子C可以降低算法的復(fù)雜度和提高準(zhǔn)確率,從而式(4)轉(zhuǎn)化為二次規(guī)劃最優(yōu)解的問題,該最優(yōu)解可由Lagrange鞍點(diǎn)求得.將Lagrange函數(shù)對偶化,即可求得最小值
根據(jù)之前的理論分析,基于PCA 和SVM 的邊坡穩(wěn)定性預(yù)測模型建立過程如圖2所示.
圖2 建模過程圖
1)根據(jù)邊坡外形、坡體結(jié)構(gòu)、巖體力學(xué)性質(zhì)以及外力等方面選取邊坡穩(wěn)定性影響因子集.
2)利用式2)對影響因子數(shù)據(jù)進(jìn)行歸一化處理.
3)對步驟1)中選取的影響因子進(jìn)行PCA 分析并提取主成分.
4)將主成分劃分為訓(xùn)練集、預(yù)測集和驗(yàn)證集,以主成分作為SVM 的輸入,邊坡穩(wěn)定系數(shù)作為輸出.
5)利用Grid-search對SVM 進(jìn)行參數(shù)尋優(yōu),確定懲罰因子C和參數(shù)g.
6)通過預(yù)測集對經(jīng)過訓(xùn)練的模型進(jìn)行預(yù)測,并分析預(yù)測效果.
7)通過驗(yàn)證集對模型進(jìn)行驗(yàn)證,并分析驗(yàn)證結(jié)果.
支持向量機(jī)的數(shù)據(jù)處理速度取決于輸入數(shù)據(jù)的大小,由于各輸入數(shù)據(jù)之間存在一定的數(shù)據(jù)相關(guān)性,因此本文利用PCA 剔除掉不相關(guān)的主成分,使得SVM 模型的效果得到提高.
根據(jù)已參閱的相關(guān)文獻(xiàn)和整理的相關(guān)資料,在總結(jié)其他研究者經(jīng)驗(yàn)的基礎(chǔ)上,選取6個(gè)影響因素作為模型輸入(詳見表1).從文中所述研究區(qū)的水庫工程中,隨機(jī)選取1000 組歷史邊坡數(shù)據(jù)作為數(shù)據(jù)集.以976∶24的比例將該數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集.限于篇幅,表2 中僅列出了用于驗(yàn)證模型的樣本數(shù)據(jù),而模型訓(xùn)練用數(shù)據(jù)并未列出.
表1 邊坡穩(wěn)定性影響因素
表2 邊坡數(shù)據(jù)樣本
續(xù)表2 邊坡數(shù)據(jù)樣本
對表2中的數(shù)據(jù)進(jìn)行相關(guān)性分析,各因素相關(guān)系數(shù)矩陣見表3.
表3 相關(guān)系數(shù)矩陣
從表3可以看出,本文選取的影響因素之間相關(guān)系數(shù)在0.8以上的有8個(gè),這些影響因素之間具有某些相關(guān)性,SVM 輸出的準(zhǔn)確性必定會(huì)受到影響,所以有必要對輸入數(shù)據(jù)的主成分進(jìn)行分析.
通過計(jì)算,得到表2中輸入數(shù)據(jù)的成分矩陣和方差,見表4和表5.
表4 成分矩陣
表5 解釋的總方差
從表5 可以看出,主成分1 的方差貢獻(xiàn)率為81.562%,滿足主成分占總方差75%~85%的要求.主成分2的方差貢獻(xiàn)率占總方差的12.901%,前兩個(gè)主成分的方差貢獻(xiàn)率已達(dá)到94.463%,能夠有效的反映原變量的信息.
再將主成分矩陣中的數(shù)據(jù)通過SPSS 軟件的Transform-computer變換,最終得到主成分載荷因子數(shù)據(jù)(見表6).
表6 主成分因子載荷矩陣
通過上表中的數(shù)據(jù),得到主成分的表達(dá)式如下:
針對采用單一的支持向量機(jī)對邊坡安全系數(shù)進(jìn)行分析存在輸入變量之間具有相關(guān)性且輸入數(shù)據(jù)過多的不足,所以本文將主成分分析法與支持向量機(jī)相結(jié)合構(gòu)建優(yōu)選模型,對邊坡安全系數(shù)進(jìn)行合理的分析.
根據(jù)邊坡模型的特點(diǎn),選用RBF 核函數(shù)作為支持向量核函數(shù),需要調(diào)整的參數(shù)為懲罰因子C和參數(shù)g.本節(jié)采用Matlab 進(jìn)行模擬分析,使用Gridsearch參數(shù)尋優(yōu),最終確定懲罰因子C為1.625 1×104,核函數(shù)參數(shù)g為1.858 0×10-3.
從實(shí)際工程中隨機(jī)選取976組數(shù)據(jù)用于模型訓(xùn)練,選取24組數(shù)據(jù)(見表2)用于模型驗(yàn)證,這里采用10折交叉法進(jìn)行驗(yàn)證,以平均絕對誤差[24]EMA和均方誤差[25]EMS作為評(píng)價(jià)指標(biāo),結(jié)果見表7 和圖3 所示.
表7 PCA-SVM 和SVM 的評(píng)價(jià)指標(biāo)對比
從表7可以看出,無論從平均相對誤差還是均方誤差分析,使用PCA 的擬合效果明顯比未使用PCA的擬合效果要好.從圖3可以看出,相比單一的SVM模型,PCA-SVM 的擬合曲線更加接近于實(shí)際值.
圖3 數(shù)據(jù)擬合效果圖
上面的實(shí)驗(yàn)已經(jīng)表明PCA 的使用是有效的,為了驗(yàn)證PCA-SVM 的相比于其他模型的性能,再將本文模型與目前流行的遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)(GA-BP)、梯度增強(qiáng)回歸(GBR)、粒子群優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)(PSO-BP)和RBF 神經(jīng)網(wǎng)絡(luò)(RBF)的模型進(jìn)行對比(所有模型均經(jīng)過主成分分析),擬合結(jié)果如圖4所示.
圖4 5種模型擬合效果對比
同樣,以平均絕對誤差EMA和均方誤差EMS作為評(píng)價(jià)指標(biāo)對5種模型擬合結(jié)果的效果進(jìn)行對比,結(jié)果見表8.
表8 5種模型的評(píng)價(jià)指標(biāo)比較
5種模型的擬合曲線對比圖中顯示,本文提出的模型擬合效果與真實(shí)值最為接近,是所有模型中擬合效果最好的.表8的數(shù)據(jù)也顯示出本文提出模型的誤差是最小的,這說明在10次驗(yàn)證實(shí)驗(yàn)中,PCA-SVM模型的穩(wěn)定性最高.
本小節(jié)選取位于平?jīng)鍪嗅轻妓畮斓腁、B、C、D共4處邊坡樣本進(jìn)行邊坡安全系數(shù)預(yù)測,數(shù)據(jù)見表9.
表9 預(yù)測樣本
從圖4和表8的結(jié)果可以看出RBF 和GBR 的擬合效果較好,,故利用GBR、RBF 和PCA-SVM 對以上數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果見表10.
表10 預(yù)測結(jié)果比較
從表10可以看出,PCA-SVM 模型對于4處預(yù)測點(diǎn)預(yù)測結(jié)果的絕對誤差分別為0.03、0.07、0.11和0.13,和其它兩種模型相比均為最小,預(yù)測值與實(shí)際值也更接近.再次表明了PCA-SVM 模型在邊坡安全系數(shù)預(yù)測方面的有效性.
1)本文采用主成分分析和網(wǎng)格搜索支持向量機(jī)相結(jié)合的方法,對邊坡穩(wěn)定性進(jìn)行了分析.利用PCA實(shí)現(xiàn)了對輸入數(shù)據(jù)的降維處理,避免了因輸入變量間的相關(guān)性造成的計(jì)算復(fù)雜化,過程簡潔明了,實(shí)驗(yàn)表明結(jié)果準(zhǔn)確,該方法是有效的.
2)PCA-SVM 模型與單一SVM 模型的預(yù)測結(jié)果表明,經(jīng)PCA 處理后的預(yù)測準(zhǔn)確率更高,平均絕對誤差和均方誤差也明顯減小.驗(yàn)證樣本集的平均絕對誤差EMA從0.23降至0.047,均方誤差EMS從0.19降至0.014,表明將PCA 與SVM 相結(jié)合應(yīng)用于邊坡穩(wěn)定性分析是有效的.
3)本文提出的PCA-SVM 模型與常用的遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)(GA-BP)、梯度增強(qiáng)回歸(GBR)、粒子群優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)(PSO-BP)和RBF神經(jīng)網(wǎng)絡(luò)(RBF)的模型進(jìn)行對比,結(jié)果表明PCASVM 模型的擬合結(jié)果與實(shí)際值最匹配,同時(shí)平均絕對誤差和均方誤差也最小.研究區(qū)的測試結(jié)果再次驗(yàn)證了PCA-SVM 模型的有效性和可行性.本文所采用的研究方法為邊坡穩(wěn)定性研究領(lǐng)域提供了一種新的思路.
4)因本研究所使用的數(shù)據(jù)集樣本類型和數(shù)量有限,實(shí)驗(yàn)結(jié)果不可避免的具有一定局限性,后期還需要更多工程數(shù)據(jù)以提高模型的普適性和泛化性.