国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GP-XGBoost的大壩變形預(yù)測(cè)模型

2021-10-20 11:16:44蘇懷智楊立夫
水利水電科技進(jìn)展 2021年5期
關(guān)鍵詞:壩體大壩變形

徐 韌,蘇懷智,楊立夫

(1.河海大學(xué)水文水資源與水利工程科學(xué)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210098;2.河海大學(xué)水利水電學(xué)院,江蘇 南京 210098)

大壩作為重要的基礎(chǔ)設(shè)施,其安全關(guān)乎民生,加強(qiáng)大壩性態(tài)監(jiān)測(cè)是保障大壩安全的重要舉措,而壩體的變形情況能夠直觀反映其性態(tài),是判斷大壩服役期間狀態(tài)的重要依據(jù)[1-2]。隨著自動(dòng)監(jiān)測(cè)設(shè)備投入使用,壩體變形監(jiān)測(cè)數(shù)據(jù)延續(xù)性更好、時(shí)效性更強(qiáng)、穩(wěn)定性更佳,樣本基數(shù)較人工觀測(cè)時(shí)更大。而傳統(tǒng)算法如灰色模型理論在大數(shù)據(jù)預(yù)測(cè)中效果欠佳[3],BP神經(jīng)網(wǎng)絡(luò)在長周期數(shù)據(jù)預(yù)測(cè)中易過擬合[4],基于時(shí)間序列的模型其參數(shù)在大時(shí)間跨度預(yù)測(cè)時(shí)敏感性較差[5]。

近年來,隨機(jī)森林、AdaBoost、Bootstrap等集成學(xué)習(xí)算法因其速度快、精度高、魯棒性好的特點(diǎn)被學(xué)者運(yùn)用在大壩變形預(yù)測(cè)領(lǐng)域。羅浩等[6]通過隨機(jī)森林算法,基于水壓分量、溫度分量、時(shí)效分量對(duì)拱壩位移進(jìn)行了預(yù)測(cè)。沈晶鑫等[7]將AdaBoost算法與優(yōu)化神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用AdaBoost算法將粒子群優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型集成,建立了大壩變形預(yù)測(cè)模型,并對(duì)向家壩第七壩段變形進(jìn)行預(yù)測(cè)。王曉玲等[8]基于Bootstrap和改進(jìn)布谷鳥算法建立了混合模型,利用混沌理論和慣性權(quán)重理論以改善模型易陷入局部最優(yōu)的問題,成功實(shí)現(xiàn)了大壩性態(tài)評(píng)價(jià)。極端梯度提升 (extreme gradient boosting,XGBoost)算法由華盛頓大學(xué)陳天奇博士提出,是一種可進(jìn)行并行計(jì)算的集成算法,通過加入正則項(xiàng)來控制模型復(fù)雜度,有效降低過擬合概率,能較好地解決傳統(tǒng)模型存在的過學(xué)習(xí)、預(yù)測(cè)效率低、訓(xùn)練時(shí)間長、只適用于小集群樣本等問題[9],已在交通流量預(yù)測(cè)、商品銷售量預(yù)測(cè)、疾病診斷等領(lǐng)域取得成功應(yīng)用[10-12],目前在大壩安全領(lǐng)域應(yīng)用較少。

為提高大壩安全預(yù)測(cè)模型的預(yù)測(cè)精度及訓(xùn)練速度,提升大壩安全監(jiān)測(cè)系統(tǒng)對(duì)于數(shù)據(jù)噪音的響應(yīng)能力,本文采用XGBoost算法對(duì)大壩變形數(shù)據(jù)進(jìn)行預(yù)測(cè),并引入貝葉斯優(yōu)化,通過高斯過程(GP)對(duì)模型參數(shù)進(jìn)行優(yōu)化,建立基于GP-XGBoost的大壩變形預(yù)測(cè)模型,并結(jié)合原型觀測(cè)數(shù)據(jù)對(duì)模型擬合預(yù)測(cè)能力進(jìn)行評(píng)價(jià)。

1 建模原理

1.1 大壩變形預(yù)測(cè)統(tǒng)計(jì)模型基本原理

水壓、溫度等環(huán)境量的變化會(huì)導(dǎo)致壩體產(chǎn)生可逆變形,而時(shí)效因子則引起壩體材料劣化、力學(xué)性能下降從而形成不可逆影響[13]。構(gòu)建大壩變形預(yù)測(cè)模型時(shí)常選擇水壓因子、溫度因子、時(shí)效因子作為影響因子[14-15]。壩體位移公式為

δ=δH+δT+δθ

(1)

式中:δ為壩體位移;δH、δT、δθ分別為位移的水壓分量、溫度分量和時(shí)效分量。

1.2 基于XGBoost算法的大壩變形預(yù)測(cè)模型構(gòu)建原理

XGBoost算法是梯度提升機(jī)器(gradient boosting machine,GBM)算法的擴(kuò)展,是一種同時(shí)具備線性模型和樹模型特點(diǎn)的優(yōu)化模型,能夠同時(shí)完成回歸和分類任務(wù)。XGBoost算法由多棵決策樹(CART)組成,通過決策樹集成實(shí)現(xiàn)機(jī)器學(xué)習(xí),所有決策樹的預(yù)測(cè)值相累加即為模型預(yù)測(cè)值,并由梯度提升決策樹(gradien boost decision Tree,GBDT)算法進(jìn)行模型訓(xùn)練[16]。與GBDT算法不同的是,XGBoost算法通過對(duì)損失函數(shù)進(jìn)行二階泰勒展開以快速逼近目標(biāo)函數(shù),并加入了正則項(xiàng)調(diào)節(jié)參數(shù)以避免過擬合,訓(xùn)練速度快,預(yù)測(cè)精度高[17]。

在構(gòu)建大壩變形預(yù)測(cè)模型時(shí),XGBoost算法通過在變形預(yù)測(cè)函數(shù)中不斷加入關(guān)于各因子的新函數(shù)來逼近實(shí)測(cè)變形值,即:

(2)

XGBoost算法目標(biāo)函數(shù)定義如下:

(3)

式中:L為損失函數(shù),用于評(píng)估變形預(yù)測(cè)值與真實(shí)值之間的損失;Ω(fK)為正則化函數(shù),用于控制控制模型復(fù)雜度,避免過擬合。正則化函數(shù)定義如下:

(4)

式中:γ、λ為正則項(xiàng)懲罰系數(shù);ω為葉子節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重;T為溫度。對(duì)(2)式改寫并作二階泰勒展開:

(5)

可以對(duì)公式(5)進(jìn)行進(jìn)一步簡化得:

式中:gi為損失函數(shù)的一階梯度統(tǒng)計(jì);hi為損失函數(shù)的二階梯度統(tǒng)計(jì)。通過迭代找到f(x)使目標(biāo)函數(shù)最小則模型訓(xùn)練完成。

1.3 基于高斯過程(GP)的預(yù)測(cè)模型參數(shù)優(yōu)化原理

貝葉斯優(yōu)化算法(Bayesian optimization)是一種高效的優(yōu)化工具[18],其基于不同代理模型可分為3類:樹型評(píng)估器TPE、隨機(jī)森林回歸AMAC和高斯過程GP。大壩原型觀測(cè)數(shù)據(jù)集龐大,特選用迭代速度較快、質(zhì)量較高的高斯過程作為優(yōu)化模型內(nèi)核。

以高斯過程為內(nèi)核執(zhí)行優(yōu)化任務(wù)時(shí),常對(duì)目標(biāo)函數(shù)f(x)假設(shè)一個(gè)滿足高斯過程的先驗(yàn)分布模型,即模型各參數(shù)任何有限維度的組合仍滿足高斯分布:

f(x)~GP(E(f(x)),COV(x,x′))

(8)

式中:E為f(x)的數(shù)學(xué)期望;COV(x,x′)為x的協(xié)方差。每個(gè)參數(shù)組合{x1,x2,…,xi}都屬于高斯分布,滿足以下公式:

(9)

在先驗(yàn)分布函數(shù)確定后,采樣對(duì)模型進(jìn)行修正。樣本越多,模型越精確。為提升采樣速度,優(yōu)化算法通過定義采集函數(shù)確定下一個(gè)采樣點(diǎn)[19]。采集函數(shù)將權(quán)衡模型優(yōu)化方向?yàn)樘剿?exploration)或開發(fā)(exploitation),探索將在新的區(qū)域采樣以避免局部最優(yōu),開發(fā)則在現(xiàn)有局部最優(yōu)解附近開展進(jìn)一步搜索,嘗試尋求全局最優(yōu)解[20]。優(yōu)化目標(biāo)則是在全集Α中尋找使f(x)值達(dá)到最大或最小的X集合如下式所示:

x*=argmaxx∈Αf(x)

(10)

1.4 K-折交叉驗(yàn)證

交叉驗(yàn)證值CV常作為模型優(yōu)劣評(píng)價(jià)指標(biāo)。K-折交叉驗(yàn)證(K-fold cross-validation)是交叉驗(yàn)證的一種。調(diào)用交叉驗(yàn)證函數(shù)時(shí),先將數(shù)據(jù)集均分為K份,選擇其中一份作為驗(yàn)證集,其余K-1份則用于訓(xùn)練模型,如此執(zhí)行K次,將得到的K個(gè)評(píng)價(jià)值求和平均即為交叉驗(yàn)證值CV[21-22]。評(píng)價(jià)值的類型根據(jù)大壩觀測(cè)數(shù)據(jù)特點(diǎn)選用均方根誤差RMSE(Root Mean Square Error)。

2 建模步驟

建模流程如圖1所示,具體步驟如下。

圖1 基于GP-XGBoost算法的建模流程

步驟1對(duì)上游水位、壩體上下游方向水平位移及時(shí)效數(shù)據(jù)進(jìn)行處理,整理為合適影響因子作為輸入樣本集,并將其劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集1、測(cè)試集2,其中驗(yàn)證集由交叉驗(yàn)證函數(shù)從訓(xùn)練集中劃分。

步驟2劃分好的訓(xùn)練集與驗(yàn)證集通過交叉驗(yàn)證產(chǎn)生評(píng)價(jià)指標(biāo)CV,確定各參數(shù)優(yōu)化范圍,帶入貝葉斯優(yōu)化算法進(jìn)行優(yōu)化迭代。由于驗(yàn)證集取自訓(xùn)練集內(nèi)部,為避免局部最優(yōu)和預(yù)測(cè)值突變的情況,選取CV值小于最大CV值10%(本次選取0.2)的參數(shù)組構(gòu)建預(yù)測(cè)模型[23],對(duì)訓(xùn)練集1進(jìn)行預(yù)測(cè),若所選參數(shù)組均出現(xiàn)局部最優(yōu)或預(yù)測(cè)值突變則適當(dāng)放寬CV閾值,綜合選取最優(yōu)參數(shù)組。綜合評(píng)價(jià)各參數(shù)組訓(xùn)練速度與預(yù)測(cè)精度,選取最優(yōu)參數(shù)組構(gòu)建基于GP-XGBoost的大壩變形預(yù)測(cè)模型。

步驟3將測(cè)試集2中的數(shù)據(jù)帶入步驟2中構(gòu)建的模型,用于模型評(píng)價(jià),通過與基于默認(rèn)參數(shù)的XGBoost算法、線性回歸方法、BP神經(jīng)網(wǎng)絡(luò)所建立的模型進(jìn)行比較,對(duì)GP-XGBoost模型做出評(píng)價(jià)。

3 工程實(shí)例驗(yàn)證

某水庫為混凝土雙支墩肋墩壩,控制流域面積570 km2,總庫容3.47億m3,是一座具有防洪、灌溉、發(fā)電、養(yǎng)殖等綜合功能的年調(diào)節(jié)的大(2)型水庫。選取2015年1月至2018年3月共1 174組上游水位數(shù)據(jù)及PL5測(cè)點(diǎn)在上下游方向的水平位移測(cè)值作為初始數(shù)據(jù)集進(jìn)行分析。其中PL5測(cè)點(diǎn)位于5號(hào)壩段壩頂,為自動(dòng)測(cè)點(diǎn),采用垂線法采集水平位移數(shù)據(jù)。

3.1 數(shù)據(jù)預(yù)處理

PL5測(cè)點(diǎn)上下游方向水平位移、上游水位均為一天一測(cè),數(shù)據(jù)較完整,自2015年1月至2017年12月,水平位移與上游水位一一對(duì)應(yīng),其中水平位移與水位過程線如圖2所示。

圖2 磨子潭水庫PL5 測(cè)點(diǎn)位移與上游水位過程線

將輸入樣本集前600項(xiàng)劃分為為訓(xùn)練集,601~800項(xiàng)劃分為測(cè)試集1,其余劃分為測(cè)試集2。驗(yàn)證集由內(nèi)置交叉驗(yàn)證函數(shù)在訓(xùn)練集中自動(dòng)生成,并在訓(xùn)練過程中生成模型評(píng)價(jià)指標(biāo)CV。

3.2 參數(shù)優(yōu)化

對(duì)各關(guān)鍵參數(shù)進(jìn)行初值定義,選定優(yōu)化范圍,具體參數(shù)含義、初值及取值范圍如表1所示。

表1 參數(shù)優(yōu)化初值、范圍及含義

將表1中的參數(shù)組帶入貝葉斯算法中迭代2 000次,取出2 000種參數(shù)組合中CV值小于0.2的5組,如表2所示。

表2 最優(yōu)參數(shù)組

將5組參數(shù)分別帶入XGBoost建模并對(duì)測(cè)試集1進(jìn)行預(yù)測(cè),迭代次數(shù)設(shè)置為600。各參數(shù)組對(duì)測(cè)試集1預(yù)測(cè)情況如圖3所示,其中第2參數(shù)組預(yù)測(cè)RMSE值最小為0.904 91。其中11月至12月變形預(yù)測(cè)數(shù)據(jù)出現(xiàn)小范圍突變,其原因歸結(jié)為此時(shí)段內(nèi)壩體水壓分量突然增大,模型參數(shù)max_depth對(duì)于突變數(shù)據(jù)較為敏感,當(dāng)參數(shù)max_depth取值偏大時(shí),預(yù)測(cè)值突變較明顯,通過貝葉斯優(yōu)化調(diào)整參數(shù)取值,選取合適的max_depth值可以緩解預(yù)測(cè)值突變的情況,如第2參數(shù)組所示。若根據(jù)條件CV<0.2所選參數(shù)組建模預(yù)測(cè)均出現(xiàn)明顯突變,則應(yīng)適當(dāng)擴(kuò)大參數(shù)組選取范圍,權(quán)衡各參數(shù)在合適范圍做出選擇。

圖3 不同參數(shù)組預(yù)測(cè)結(jié)果

5組參數(shù)組訓(xùn)練迭代收斂情況如圖4所示。由圖4可知,第4組參數(shù)建模收斂速度最快,但第2組參數(shù)建模在預(yù)測(cè)精度較高的條件下也滿足了運(yùn)算速度需求,綜上所述,將選擇第2參數(shù)組構(gòu)建變形預(yù)測(cè)模型,用于精度評(píng)價(jià)。

圖4說明預(yù)測(cè)模型最多經(jīng)過200次迭代即可收斂,在后續(xù)的運(yùn)算中將迭代次數(shù)縮減為300次以提升學(xué)習(xí)效率。

圖4 模型訓(xùn)練迭代過程

3.3 模型對(duì)比評(píng)價(jià)

針對(duì)回歸模型選用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、擬合優(yōu)度(R2)作為精度評(píng)價(jià)指標(biāo),分別用于評(píng)價(jià)模型穩(wěn)定性、精確度及擬合效果。

將基于GP-XGBoost算法的預(yù)測(cè)模型與未經(jīng)過參數(shù)優(yōu)化的XGBoost預(yù)測(cè)模型、線性回歸模型、BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練并對(duì)測(cè)試集2進(jìn)行預(yù)測(cè),對(duì)各模型的精度進(jìn)行比較,評(píng)價(jià)模型性能。具體模型訓(xùn)練結(jié)果、預(yù)測(cè)結(jié)果及殘差計(jì)算結(jié)果如圖5所示,預(yù)測(cè)精度評(píng)價(jià)結(jié)果如表3所示。

表3 各模型預(yù)測(cè)精度評(píng)價(jià)

由圖5可知,基于GP-XGBoost建立的預(yù)測(cè)模型在水位突變的時(shí)段能夠很好地對(duì)壩體水平位移進(jìn)行預(yù)測(cè),且整體精度高,擬合效果好,收斂速度快。BP神經(jīng)網(wǎng)絡(luò)模型在預(yù)測(cè)階段有時(shí)會(huì)出現(xiàn)過擬合的現(xiàn)象,而XGBoost模型加入了正則項(xiàng)參數(shù),通過選擇合適的參數(shù)值有效避免過擬合。由表3可以看出線性回歸模型的擬合優(yōu)度也較高,但線性回歸模型優(yōu)勢(shì)在于反映線性趨勢(shì),呈現(xiàn)局部復(fù)雜變化較為困難,如6月底及12月初的線性回歸模型預(yù)測(cè)數(shù)據(jù)難以體現(xiàn)壩體變形短期的波動(dòng),而基于GP-XGBoost所建立的大壩變形預(yù)測(cè)模型,預(yù)測(cè)值可以較好吻合壩體實(shí)際變形波動(dòng)過程(圖5),有助于大壩性態(tài)分析。實(shí)例中基于GP-XGBoost所建立的模型預(yù)測(cè)誤差相較于傳統(tǒng)模型明顯較小,擬合更平滑、精度更高、模型更穩(wěn)定,對(duì)于大變形預(yù)測(cè)將更具優(yōu)勢(shì)。參數(shù)優(yōu)化能夠進(jìn)一步提升XGBoost算法模型的精確度,優(yōu)化擬合效果,使模型能夠很好地滿足大壩變形預(yù)測(cè)的工作需求。

圖5 各模型預(yù)測(cè)結(jié)果對(duì)比

3.4 特征重要性分析

選擇特征分裂率、特征平均收益率、特征平均覆蓋率3個(gè)特征來衡量各分量在基于GP-XGBoost構(gòu)建的大壩變形預(yù)測(cè)模型中占水平位移的比重。其中特征分裂率表示因子對(duì)大壩變形的參與度,通過統(tǒng)計(jì)某個(gè)特征的分裂次數(shù)確定。特征平均收益率表示因子對(duì)大壩變形的影響率,通過損失函數(shù)的變化ΔL度量。特征平均覆蓋率表示因子對(duì)大壩變形的貢獻(xiàn)度,通過節(jié)點(diǎn)的二階梯度hi表征,特征平均收益率與特征平均覆蓋率的計(jì)算方法如式(11)(12)所示。其中各因子互相獨(dú)立,分別進(jìn)行計(jì)算。

(11)

(12)

結(jié)果通過交叉驗(yàn)證互相比對(duì),本次計(jì)算各因子交叉驗(yàn)證結(jié)果一致,具體結(jié)果如表4所示。由表4可知,溫度分量占大壩變形最大比重,其特征平均收益率達(dá)98%,選擇溫度因子作為分裂結(jié)點(diǎn)可以使預(yù)測(cè)函數(shù)快速接近真實(shí)值,且溫度分量對(duì)大壩變形的速率影響最大。同時(shí)溫度因子特征分裂率、特征平均覆蓋率都接近50%,表明溫度分量與大壩變形聯(lián)系較強(qiáng),對(duì)變形的貢獻(xiàn)較大。水壓與時(shí)效分量對(duì)大壩變形速率影響較小,但對(duì)變形的大小有一定的影響。

表4 各因子特征重要性 單位:%

結(jié)果表明,對(duì)壩體溫度進(jìn)行實(shí)時(shí)監(jiān)測(cè)、控制可以有效幫助大壩健康服役,控制大壩變形速率,減少變形量,增加大壩維護(hù)工作的容錯(cuò)率,增強(qiáng)大壩變形的可控性。應(yīng)對(duì)冷卻管道等溫控設(shè)施進(jìn)行定期檢查,對(duì)于壩體溫度較高部分重點(diǎn)防護(hù),降低壩體開裂風(fēng)險(xiǎn)。

4 結(jié) 語

a.XGBoost算法通過加入正則項(xiàng)參數(shù),限制擬合程度,有效避免過擬合。且多決策樹疊加保證了計(jì)算精度,對(duì)目標(biāo)函數(shù)進(jìn)行二階泰勒展開大幅提升迭代速度,能夠很好地適應(yīng)大壩原型監(jiān)測(cè)數(shù)據(jù)周期長、數(shù)據(jù)量大、精度要求高的特點(diǎn)。

b.基于高斯過程的貝葉斯優(yōu)化函數(shù)能夠探索開發(fā)最優(yōu)參數(shù)組,進(jìn)一步提高模型的精度、穩(wěn)定性,擬合更加平滑。基于磨子潭水庫原型觀測(cè)數(shù)據(jù)建立的大壩變形監(jiān)測(cè)模型的成功應(yīng)用證明, GP-XGBoost為大壩安全監(jiān)測(cè)提供了一種良好的思路。

c.XGBoost是一種集成算法結(jié)合的樹型算法,其包含了樹型算法在預(yù)測(cè)過程中難以突破訓(xùn)練樣本峰值的缺點(diǎn)。大壩上游水位在汛期上漲迅速,極有可能超過訓(xùn)練樣本峰值,峰值限制問題將是今后的研究方向。

猜你喜歡
壩體大壩變形
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
周寧縣滴水巖水庫大壩壩體防滲加固處理
談詩的變形
中華詩詞(2020年1期)2020-09-21 09:24:52
“我”的變形計(jì)
大壩:力與美的展現(xiàn)
例談拼圖與整式變形
幫海貍建一座大壩
大壩
水庫砌石拱壩安全復(fù)核及壩體補(bǔ)強(qiáng)加固防滲處理
會(huì)變形的餅
剑川县| 宜君县| 汝城县| 镇巴县| 来宾市| 新丰县| 洛宁县| 济南市| 河北区| 大关县| 华宁县| 缙云县| 玛曲县| 佛学| 宝丰县| 营山县| 阜康市| 福海县| 酉阳| 广丰县| 嘉兴市| 崇州市| 本溪| 大厂| 富蕴县| 习水县| 静海县| 阿克陶县| 兴义市| 舟山市| 宜都市| 吉安县| 临猗县| 渭南市| 栾川县| 乃东县| 漳浦县| 城步| 吉隆县| 那曲县| 兴隆县|