李瑞光 臧國輕
摘 要: 為解決土石壩滲流監(jiān)測數(shù)據(jù)的分析問題,采用基于主成分分析的支持向量機法,對某均質壩體內滲流浸潤線的監(jiān)測數(shù)據(jù)建立了預測模型,并針對壩體內的測壓管水位進行了具體計算預測。結果表明,主成分分析法可以有效降維,并較好的綜合反映壩體內測壓管水位的主要影響因素;預測值與實測值的誤差分析結果表明,支持向量機模型在小樣本壩體監(jiān)測數(shù)據(jù)分析預測方面的精度較高,該模型可為其他類似工程監(jiān)測數(shù)據(jù)的分析預測提供新的方法。
關鍵詞: 支持向量機; 壩體監(jiān)測; 主成分分析; 預測模型
中圖分類號:TP301.6 文獻標志碼:A 文章編號:1006-8228(2018)06-05-04
Prediction model of dam seepage monitoring data with principal component analysis
based support vector machine
Li Ruiguang1, Zang Guoqing2
(1. Foreign Language Teaching Department of University, Henan University, Kaifeng, Henan 475001, China; 2. Henan University)
Abstract: Adopting the principal component analysis based support vector machine method, a predictive analysis model of dam monitoring is established, and applied to dam seepage monitoring. The piezometric level in a dam is also forecasted by this model. The comparison of measured results with predicted results shows that the principal component analysis method can decrease the dimensions of measured result effectively, and better reflects major effect factors of piezometric level in dam. Error analysis of the model shows that the support vector machine method has higher forecast precision in small samples, it provides a new way of forecasting seepage monitoring of dam, and the model offers a useful reference for other similar project as well.
Key words: support vector machine; dam monitoring; principal component analysis; predictive model
0 引言
中國水庫的建設數(shù)量在所有國家中位居前列,這些工程建成之后對水庫和壩體進行有效的運行管理和安全監(jiān)測顯得尤為重要。在這一環(huán)節(jié),對壩體安全監(jiān)測數(shù)據(jù)的處理和預報是一個非常重要的研究領域,也是近年來飛速發(fā)展的科研方向[1]。
對于土石壩來說,壩體滲流的監(jiān)測是關系壩體安全極其重要的內容,本文以某土石壩的滲流監(jiān)測為切入點,嘗試將有限的監(jiān)測資料與數(shù)學方法結合,建立影響滲流的變量之間的內在關系,并將其應用在壩體滲流監(jiān)測的預測預報方面。目前國內外對壩體監(jiān)測數(shù)據(jù)的分析與預報研究,采取了很多種數(shù)學模型與方法,也針對不同的模型開發(fā)了相應的軟件系統(tǒng)[2]。較為傳統(tǒng)的監(jiān)控分析模型和系統(tǒng)基本都是以單點的統(tǒng)計模型、確定模型和混合模型,或者多點的分布模型為基礎進行分析預報,近年來BP神經(jīng)網(wǎng)絡、投影尋蹤(Projection Pursuit Regression,PPR)和支持向量機(Support Vector Machine,SVM)等方法也逐漸涌現(xiàn)[3-4],并已開始應用于壩體變形、滲流模擬預測等方面。以法國和意大利的監(jiān)測信息系統(tǒng)為例,比較知名的有PANDA和DAMSAFE系統(tǒng),其共同特點都是采用internet/intranet通訊,并對監(jiān)測數(shù)據(jù)進行專家級別的分層管理和控制,但這些傳統(tǒng)的統(tǒng)計學模型受到建模假設的限制過多,模型中描述因子過少。上世紀九十年代以來,BP神經(jīng)網(wǎng)絡[5]和投影尋蹤回歸等新的數(shù)據(jù)分析模型開始被壩體監(jiān)測數(shù)據(jù)分析所應用,這主要是由于模糊神經(jīng)網(wǎng)絡和支持向量機等方法具有很好的自適應性和容錯性,并能將高維數(shù)據(jù)樣本空間進行降維,通過提取數(shù)據(jù)信息主要元素的手段對壩體的監(jiān)測數(shù)據(jù)進行仿真、分析和預測。當然,這些方法也存在易陷入局部最優(yōu)解、數(shù)據(jù)訓練對使用者的依賴性較強等缺點,但這些不足并不妨礙神經(jīng)網(wǎng)絡成為經(jīng)驗風險最小化的方法,尤其是數(shù)據(jù)泛化能力更強的支持向量機方法[6-8],將其用于水利工程中壩體的監(jiān)測數(shù)據(jù)分析與預測中,具有非常好的應用前景。
實際工程中土石壩滲流的監(jiān)測主要通過測壓管水位來直觀體現(xiàn),本文試圖通過主成分分析法(Principal Component Analysis,PCA)建立支持向量機的預測模型,通過學習訓練掌握壩體監(jiān)測數(shù)據(jù)的內在規(guī)律,為實際中受監(jiān)測條件限制的數(shù)據(jù)分析研究預測提供數(shù)據(jù)預估以彌補數(shù)據(jù)信息的不足,并可根據(jù)已建成模型對工程決策以及風險控制的合理性提供參考。
1 基于主成分分析的支持向量機模型原理
支持向量機模型是在統(tǒng)計學習理論(Statistical learning theory)的基礎上發(fā)展起來的一種分析回歸方法,其主要目標是研究如何在小樣本的情形下建立機器學習規(guī)律[9],因為這些情況下經(jīng)常涉及到多維數(shù)據(jù),而數(shù)據(jù)處理預測中從低維空間到高維空間的非線性映射是比較困難的,基于主成分分析方法的支持向量機模型可以解決這種維數(shù)災難。
1.1 主成分分析法
主成分分析法是一種數(shù)學變換方法,它主要通過將原有的多維樣本中的多個指標進行重新組合,形成新的少數(shù)幾個綜合指標的低維樣本,這些新的指標按照方差依次遞減的順序排列,采取的方法主要是數(shù)學線性變換。一般將新生成的指標稱為主成分,每個主成分都是原有指標的線性組合。這些主成分之間互不相關,并盡可能多包含原有指標的有效信息,如此就可以只考慮幾個主成分,同時不會損失太多原有數(shù)據(jù)的信息[10]。
假設有n個樣本數(shù)據(jù),每個樣本有p個指標變量,這樣就構成了一個n×p階的數(shù)據(jù)矩陣:
⑴
將每一列(即每一個原始指標)看作一個原始變量,新的變量由這些原始變量作線性組合來得到。將每個原始指標記作X1,X2,…,Xp,新的變量指標記作Z1,Z2,…,Zp,則有:
⑵
其中,要求,且系數(shù)由以下兩個原則來決定:①Zi與Zj(i≠j;i,j=1,2,…,p)不相關;②Z1是X1,X2,…,Xp的一切線性組合中方差最大者;Z2是與Z1不相關的X1,X2,…,Xp的一切線性組合中方差最大者;……;Zm是與Z1,Z2,…,Zm都不相關的X1,X2,…,Xp的一切線性組合中方差最大者。這樣得出的新變量指標Z1,Z2,…,Zm分別稱為原變量指標X1,X2,…,Xp的第一、第二、……、第m個主成分,其中,Z1在總方差中占的比例最大,其余主成分的方差依次遞減。
1.2 支持向量機模型
考慮一個線性回歸問題,給定訓練集{(x1,y1),…,(xi,yi),i=1,2,…,n},其中xi為輸入變量,yi為預測值,n為樣本數(shù)。假設有回歸函數(shù)f(x)=(ω·x)+b,支持向量機通過求解在一定約束條件下的最小化泛函,結合拉格朗日函數(shù),構造出如下最優(yōu)問題:
⑶
⑷
其中,C為懲罰因子,α,α*為拉格朗日乘子,ε為不敏感損失系數(shù)。由上述優(yōu)化問題,就可以求出α,α*,可以得到支持向量機模型為:
⑸
其中k核函數(shù)(kernel function),其作用主要是將高維數(shù)據(jù)與低維數(shù)據(jù)建立非線性映射,從而解決非線性回歸問題,并成功地克服了樣本數(shù)據(jù)線性不可分這個困難,它通過將樣本數(shù)據(jù)映射到高維特征空間后變?yōu)榫€性可分,從而簡化在低維特征空間的非線性問題。在高維特征空間內,核函數(shù)K用于計算內積:
⑹
常見的核函數(shù)k可以是多項式也可以是徑向基核函數(shù)(RBF):
⑺
還可以是sigmoid核函數(shù):
⑻
為保證模型的可靠性以及說服性,應將監(jiān)測數(shù)據(jù)劃分為測試集(用于模型效果測試)和訓練集(用于建模數(shù)據(jù)訓練)。一般而言,模型設計與檢驗應重復多次,例如有N個樣本,可以隨機分為m份,利用其中m-1份當作訓練集進行預測模型設計,剩下的1份作為測試集,并進行相應的誤差計算。之后將測試集放回原樣本中,取出另外一份當作測試集,其余用作訓練集,如此反復,計算平均預測誤差,并將其作為評價數(shù)據(jù)預測效果的依據(jù),不斷調整優(yōu)化模型參數(shù),直到產(chǎn)生最優(yōu)模型。
2 某均質土壩滲流監(jiān)測模型的建立
對于具有反濾壩址的均質土壩,為了監(jiān)測其浸潤線的位置,監(jiān)測斷面一般取壩體橫斷面,之后在上游壩肩和反濾壩址上游各布置一根測壓管,中間根據(jù)具體情況布置一根或數(shù)根測壓管[11]。本論文中研究的壩體為中小型均質壩,故選取了兩個橫斷面,每個橫斷面布設了三根測壓管。
根據(jù)其監(jiān)測結果,發(fā)現(xiàn)在土壩中預埋的測壓管水位與以下因素有關:前一天庫水位H1(考慮滯后性)、降雨量Q、下游水位H2和干灘段距離L。從理論上來說,有多少的原始變量就可以提取多少個主成分,但為了降低樣本數(shù)據(jù)的維數(shù),只需要提取出包含85%以上信息的前2~3 個主成分進行分析就足以滿足精度要求,其余的可以忽略不計。
前期監(jiān)測數(shù)據(jù)樣本共有160組,每組樣本數(shù)據(jù)對應4個原始變量,數(shù)據(jù)矩陣M為160×4,根據(jù)選擇的基礎樣本原始數(shù)據(jù),首先對其進行標準化處理,以消除統(tǒng)計誤差和量綱差異的影響。本研究應用SPSS軟件對樣本進行分析計算,標準化后的相關系數(shù)矩陣如表1所示。其中,X1、X2、X3、X4分別表示經(jīng)標準化處理后的前一天庫水位H1(考慮滯后性)、降雨量Q、下游水位H2和干灘段距離L。一般來說相關系數(shù)值如果大于0.3,就說明數(shù)據(jù)間存在相關性,適合進行主成分分析對數(shù)據(jù)進行處理。
將由主成分分析提取的2個主成分因子與所對應的測壓管水位組成160×3的矩陣A,對數(shù)據(jù)矩陣在[0,1]進行歸一化處理,減小因數(shù)值差異對模型的干擾,提高數(shù)據(jù)矩陣的整體性。之后劃分測試集和訓練集,為了保證模型的可靠性及說服性,將160組樣本數(shù)據(jù)隨機抽取120組作為訓練集進行模型訓練,余下40組作為測試集進行效果測試。本研究將幾種常見核函數(shù)代入模型后發(fā)現(xiàn)徑向基核函數(shù)(7式)解決非線性問題時具有極強的優(yōu)勢,更適合壩體監(jiān)測數(shù)據(jù)分析情況,故選擇RBF為核函數(shù)。選擇使用LIBSVM軟件包進行支持向量機模型預測,并用交叉驗證法搜索尋找最優(yōu)參數(shù),其懲罰因子C為9.273。
3 某均質土壩滲流浸潤線預測實例
結合主成分分析法進行支持向量機建模,運用模型對測壓管水位進行預測后,采用包含40組數(shù)據(jù)的測試集進行驗證,預測效果如圖1所示。
從圖1中可以看出,除極少部分預測值稍有起伏之外,其余預測值的精度均較高,且與實測值吻合良好,誤差基本在1%以內。為了檢驗模型的學習效果,還可以計算訓練集與測試集的均方根誤差RMSE與相關系數(shù)R。本實例中訓練集與測試集的均方根誤差RMSE分別為4.15×10-4和5.86×10-4,訓練集與測試集的相關系數(shù)R分別為0.996和0.991。由此可見,此模型對隨機抽取的40個樣本數(shù)據(jù)預測效果很好,因此可用此訓練模型進行測壓管水位的預測。
4 結論
本文基于主成分分析法的支持向量機模型,建立某均質壩滲流測壓管水位的預測模型,通過與實測值進行對比,得出以下結論。
⑴ 使用主成分分析法可以更加綜合全面的對影響測壓管水位的因素進行描述,同時降低數(shù)據(jù)維度,提高模型預測計算的速度,尤其能提高支持向量機的學習效率。
⑵ 基于160組的樣本數(shù)據(jù),隨機挑選120組作為訓練集進行支持向量機的模型訓練,剩余40組用作測試集檢驗模型學習效果,通過與實測值進行對比,結果表明二者吻合程度很高,誤差很小,其均方根誤差數(shù)量級非常小,相關系數(shù)接近于1,足以說明此預測模型的精確性和可靠性。
⑶ 通過對工程實例成功地進行計算預測,說明通過主成分分析法選取的主成分能夠比較全面的反映壩體內測壓管水位的變化特征,而支持向量機模型則較好的解決了樣本數(shù)據(jù)有限的預測問題。它們的聯(lián)合運用,可以為今后類似水利工程壩體監(jiān)測數(shù)據(jù)的分析預測提供參考依據(jù),具有良好的應用前景。
本論文中的預測模型是基于最常用的算法和核函數(shù)的選取而得出的,因此今后還應該在算法的優(yōu)化,以及更合理的核函數(shù)選取方面進行更深入的研究。
參考文獻(References):
[1] 酈能惠.土石壩安全監(jiān)測分析評價預報系統(tǒng)[M].中國水利水
電出版社,2003.
[2] 吳中如.水工建筑物安全監(jiān)控理論及其應用[M].高等教育出
版社,2003.
[3] 趙振宇,徐用懋.模糊理論和神經(jīng)網(wǎng)絡的基礎與應用[M].清華
大學出版社,1996.
[4] 張棟,蔡開元.基于遺傳算法的神經(jīng)網(wǎng)絡兩階段學習方案[J].
系統(tǒng)仿真學報,2003.15(8):1089-1090
[5] 吳建華,魏茹生,趙海生等.神經(jīng)網(wǎng)絡模型下的土石壩安全監(jiān)
測仿真研究[J].系統(tǒng)仿真學報,2008.20(4):1052-1059
[6] 杜樹新,吳鐵軍.模式識別中的支持向量機方法[J].浙江大學
學報:工學版,2003.37(5):403-409
[7] 王磊.基于主成分分析的支持向量機回歸預測模型[J].信息
技術,2008.12:58-59
[8] 常中華,張二勇,柴建峰等.應用主成分分析法研究滲透介質的
滲透穩(wěn)定問題[J].水文地質工程地質,2004.31(5):15-20
[9] 丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].
電子科技大學學報,2011.40(1):2-10
[10] 虞鴻.基于主成分的大壩觀測數(shù)據(jù)多效應量的統(tǒng)計分析研
究[J].中國科學:技術科學,2010.40(7):830-839
[11] 梁國錢,鄭敏生,孫伯永等.土石壩滲流觀測資料分析模型
及方法[J].水利學報,2003.2:83-87