国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)PSO-RF算法的大壩變形預(yù)測模型

2022-11-10 02:36鄭東健陳卓研
水利水電科技進(jìn)展 2022年6期
關(guān)鍵詞:決策樹適應(yīng)度分類器

張 石,鄭東健,陳卓研

(河海大學(xué)水利水電學(xué)院,江蘇 南京 210098)

變形監(jiān)測是國內(nèi)外大壩安全監(jiān)控的主要內(nèi)容,根據(jù)變形及環(huán)境量監(jiān)測值構(gòu)建大壩變形預(yù)測模型,可以有效預(yù)測壩體的位移變化規(guī)律及發(fā)展趨勢,進(jìn)而分析其服役狀態(tài),對大壩安全運(yùn)行具有重要意義[1]。由于影響大壩變形的因素復(fù)雜,常用的逐步回歸、多元回歸等回歸分析方法易受變量多重共線性的影響,導(dǎo)致預(yù)測模型精度較低[2-4]。隨著人工智能和大數(shù)據(jù)分析技術(shù)的發(fā)展,支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、長短期記憶網(wǎng)絡(luò)(LSTM)、極端梯度提升(XGBoost)等機(jī)器學(xué)習(xí)算法在大壩變形預(yù)測中得到廣泛應(yīng)用[5-8],進(jìn)一步提升了模型預(yù)測效果。然而,上述機(jī)器學(xué)習(xí)模型在應(yīng)用過程中均存在不足之處,如支持向量機(jī)的模型超參數(shù)難以選取,神經(jīng)網(wǎng)絡(luò)模型易陷入局部極值以及存在過擬合問題等[9]。

隨機(jī)森林(RF)算法由Breiman在2001年提出[10],能有效解決多參數(shù)之間的非線性映射問題,由于其具備預(yù)測精度高、訓(xùn)練速度快等優(yōu)勢,已在生物學(xué)、地質(zhì)學(xué)等領(lǐng)域得到廣泛應(yīng)用[11-12],近年來也逐漸在大壩安全監(jiān)控領(lǐng)域得到關(guān)注[13]。田菊飛等[14]基于隨機(jī)森林算法構(gòu)建大壩應(yīng)力預(yù)測模型,采用經(jīng)驗法選取算法參數(shù)。仝曉哲等[15]基于網(wǎng)格搜索法建立了網(wǎng)絡(luò)搜索法-隨機(jī)森林(GSM-RF)大壩變形預(yù)測模型,通過遍歷搜索尋找隨機(jī)森林模型的最優(yōu)參數(shù)組合,并結(jié)合實例驗證表明該模型具有較強(qiáng)的預(yù)測性能。陳詩怡等[16]通過試算得到隨機(jī)森林算法的最優(yōu)參數(shù),并以此建立混凝土壩變形預(yù)測模型。曾永軍等[17]在建立基于隨機(jī)森林算法的混凝土壩變形預(yù)測模型的過程中,同樣采用經(jīng)驗法進(jìn)行參數(shù)尋優(yōu)??偨Y(jié)前人研究成果可知,經(jīng)驗法和網(wǎng)格搜索法是隨機(jī)森林參數(shù)尋優(yōu)的常用方法,但這兩種傳統(tǒng)方法均存在較大局限性,前者由于主觀性較強(qiáng),容易陷入局部極值,進(jìn)而導(dǎo)致算法預(yù)測性能下降;后者雖然能獲得較好的尋優(yōu)結(jié)果,但計算效率低,且受網(wǎng)格結(jié)構(gòu)影響較大。目前,在計算智能領(lǐng)域,粒子群優(yōu)化(PSO)算法、蟻群(ACO)算法、人工魚群(AFS)算法等群體智能算法因原理簡單、收斂速度快、準(zhǔn)確性高,已成為求解優(yōu)化問題的常用方法[18]。本文引入自適應(yīng)變異和均衡慣性權(quán)重對PSO算法進(jìn)行改進(jìn),提出一種基于改進(jìn)PSO算法和RF算法(即改進(jìn)PSO-RF算法)的大壩變形預(yù)測模型,并以某混凝土拱壩為例,通過對比GSM-RF、LSTM、SVM和BP神經(jīng)網(wǎng)絡(luò)(BPNN)模型,驗證了本文所提出模型(即RSO-RF模型)的預(yù)測性能。

1 RF算法原理

RF算法的基本原理為集成學(xué)習(xí),其實質(zhì)是包含若干決策樹的分類器。該算法通過組合隨機(jī)形成的決策樹,形成一個預(yù)測性能更加穩(wěn)定的強(qiáng)分類器,最終由所有決策樹的預(yù)測結(jié)果綜合決定輸出值。

1.1 決策樹算法

決策樹算法屬于歸納學(xué)習(xí)算法中的一種。在回歸預(yù)測中,決策樹采用CART(classification and regression tree)算法[19],即從根節(jié)點(diǎn)開始,根據(jù)Gini指數(shù)最小原則選擇最優(yōu)屬性,然后采用二分遞歸方法進(jìn)行屬性分裂和構(gòu)造節(jié)點(diǎn),直到滿足條件時停止分裂并形成葉節(jié)點(diǎn)。決策樹的預(yù)測建立在根節(jié)點(diǎn)至葉節(jié)點(diǎn)的路徑上,輸入數(shù)據(jù)經(jīng)過的路徑不同,產(chǎn)生的預(yù)測結(jié)果不同。相對于其他數(shù)據(jù)挖掘算法,決策樹算法簡單方便,計算速度快,且便于解釋生成規(guī)則。

1.2 集成學(xué)習(xí)

由于單分類器在數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)質(zhì)量參差不齊等條件下存在局限性,集成學(xué)習(xí)逐漸成為大數(shù)據(jù)挖掘和分析的有效手段[20],其基本方法是以某種規(guī)則或者方式綜合若干基分類器的預(yù)測結(jié)果,從而有效避免單分類器存在的過擬合問題,以增強(qiáng)學(xué)習(xí)系統(tǒng)的泛化能力。按照基分類器是否關(guān)聯(lián),集成學(xué)習(xí)算法可分為無關(guān)聯(lián)的Bagging系列算法和有關(guān)聯(lián)的Boosting系列算法,而RF算法就是Bagging系列算法的代表。經(jīng)典的Bagging系列算法通過自助法對原始樣本進(jìn)行有放回抽樣,在生成的若干新樣本集上分別訓(xùn)練基分類器,最后組合所有基分類器得到最終的集成分類器。在傳統(tǒng)Bagging算法的基礎(chǔ)上,RF算法引入隨機(jī)特征選擇,即在構(gòu)建基分類器時,隨機(jī)選取內(nèi)部節(jié)點(diǎn)的分裂屬性集,以進(jìn)一步增加決策樹的多樣性,提高預(yù)測性能。

1.3 RF算法流程

a.采用自助抽樣法隨機(jī)生成n組訓(xùn)練樣本集,并基于每組新樣本構(gòu)建決策樹模型。

b.在每個內(nèi)部節(jié)點(diǎn)(非葉子節(jié)點(diǎn))選擇屬性時,從樣本集的所有屬性中隨機(jī)抽取若干個屬性作為該節(jié)點(diǎn)的屬性集,并以CART算法的評價規(guī)則選取最優(yōu)屬性進(jìn)行分裂,直到?jīng)Q策樹生長完全。在決策樹的生長過程中,不進(jìn)行剪枝處理。

c.輸入測試樣本集,每顆決策樹計算生成一個預(yù)測值。在綜合所有預(yù)測值的基礎(chǔ)上,得出最終結(jié)果。對于回歸問題,取所有決策樹預(yù)測值的加權(quán)平均值作為最終預(yù)測值。

算法流程如圖1所示。

圖1 RF算法流程示意圖

2 改進(jìn)PSO-RF算法

2.1 PSO算法原理

PSO算法源于對群鳥覓食行為的研究,是一種求解優(yōu)化問題的群體智能算法[21]。算法中每個粒子具有位置和速度兩個基本屬性。位置代表尋優(yōu)問題的潛在解,經(jīng)適應(yīng)度函數(shù)計算后對應(yīng)各粒子的適應(yīng)度值。粒子的速度會隨著自身和全局粒子的極值在每次迭代過程中進(jìn)行動態(tài)調(diào)整和更新,從而決定下一迭代步中粒子的移動方向和距離,具體更新公式如下:

(1)

(2)

2.2 PSO算法的改進(jìn)

PSO算法原理簡單,收斂速度快,通用性強(qiáng),但當(dāng)數(shù)據(jù)復(fù)雜程度較大、維度較高、參數(shù)設(shè)置不當(dāng)時,容易產(chǎn)生早熟收斂、搜索精度低、后期迭代效率不高等問題[22]。隨著迭代的進(jìn)行,算法逐漸從全局搜索階段轉(zhuǎn)入局部搜索階段。不同階段對算法尋優(yōu)能力的要求有所區(qū)別,前期搜索范圍大,需在重視多樣性的同時提高搜索效率,而后期更加注重算法的收斂能力,同時也要減少多樣性的損失,以避免算法早熟收斂。動態(tài)調(diào)整w可使PSO算法在各階段取得更好的尋優(yōu)效果[23],本文選取線性遞減慣性權(quán)重來更好地均衡算法的全局搜索和局部搜索能力,其表達(dá)式為

wk=w1-(w1-w2)k/kmax

(3)

式中:k為當(dāng)前迭代次數(shù);kmax為最大迭代次數(shù);wk為第k次迭代時的慣性權(quán)重;w1、w2分別為慣性權(quán)重的初始值和結(jié)束值。

在迭代過程中,PSO算法可能會由于收斂速度過快而陷入局部極值,從而過早收斂。針對早熟收斂問題,引入遺傳算法中的變異操作,即在每次迭代過程中,以一定概率初始化粒子位置,從而使部分粒子跳出先前搜索到的局部最優(yōu)位置,在更大范圍內(nèi)重新開展搜索。

2.3 基于改進(jìn)PSO算法的RF模型參數(shù)尋優(yōu)步驟

步驟1設(shè)置最大迭代次數(shù)和種群規(guī)模,并初始化粒子位置和速度。搜索空間的維度由尋優(yōu)參數(shù)數(shù)量決定。為防止盲目搜索,粒子各維度的位置和速度根據(jù)各尋優(yōu)參數(shù)范圍設(shè)定最大值與最小值。

步驟2設(shè)置均方誤差為適應(yīng)度函數(shù),將粒子位置信息代入適應(yīng)度函數(shù)計算各粒子初始適應(yīng)度值。取初始粒子適應(yīng)度值為個體極值,當(dāng)前個體最優(yōu)值為全局極值。

步驟3動態(tài)調(diào)整w,根據(jù)個體極值和全局極值更新下一迭代步粒子的速度和位置。當(dāng)粒子速度或位置超過最大值或低于最小值時,取相應(yīng)最值。執(zhí)行自適應(yīng)變異操作,以一定概率初始化部分粒子位置。

步驟4計算各粒子適應(yīng)度值,將當(dāng)前迭代步各粒子適應(yīng)度值與自身極值、全局極值作對比,更新并記錄個體最優(yōu)與全局最優(yōu)適應(yīng)度值及相應(yīng)位置。

步驟5判斷是否滿足終止條件,即迭代次數(shù)是否達(dá)到最大值。滿足,則輸出全局最優(yōu)適應(yīng)度值,其對應(yīng)位置即為隨機(jī)森林模型的最優(yōu)參數(shù)組合;不滿足,則重復(fù)步驟3和4,直到滿足終止條件。

3 基于改進(jìn)PSO-RF算法的大壩變形預(yù)測模型構(gòu)建

3.1 模型輸入變量

3.2 模型參數(shù)

影響RF模型性能的主要參數(shù)為決策樹個數(shù)即訓(xùn)練樣本集個數(shù)n和內(nèi)部節(jié)點(diǎn)隨機(jī)抽取的分裂變量數(shù)m。n一般不小于100,默認(rèn)值為500,m默認(rèn)值為總變量數(shù)的算術(shù)平方根并向下取整。選取n、m為改進(jìn)PSO算法的目標(biāo)參數(shù)進(jìn)行尋優(yōu),并將RF模型擬合結(jié)果的均方誤差MSE設(shè)定為適應(yīng)度函數(shù),以迭代計算出的MSE最小值所對應(yīng)的位置為n和m的最優(yōu)組合。

3.3 建模流程

步驟1讀取原始數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理。

步驟2將樣本集分為訓(xùn)練集和測試集,一般測試集的比例為總樣本數(shù)的10%~20%。

步驟3將訓(xùn)練集數(shù)據(jù)輸入改進(jìn)PSO-RF算法,通過粒子群優(yōu)化算法迭代尋優(yōu),得出隨機(jī)森林模型的最優(yōu)參數(shù)組合。

步驟4將測試集數(shù)據(jù)輸入?yún)?shù)優(yōu)化后的隨機(jī)森林模型,得到預(yù)測結(jié)果。

步驟5通過對比模型預(yù)測值和實際值,并計算均方誤差MSE、平均絕對誤差MAE和決定系數(shù)R2,分析模型預(yù)測效果。

綜上,基于改進(jìn)PSO-RF算法的大壩變形預(yù)測模型的具體建模流程見圖2。

圖2 基于改進(jìn)PSO-RF算法的大壩變形預(yù)測模型流程

4 模型驗證

4.1 工程概況

某水庫位于安徽省六安市,流域面積為745 km2,樞紐工程由攔河壩、泄洪中孔、泄洪隧洞、電站廠房等建筑物組成。水庫攔河壩為碾壓混凝土雙曲拱壩,最大壩高104.60 m。大壩工作性態(tài)總體正常,安全監(jiān)測系統(tǒng)較為全面,已基本實現(xiàn)水位、變形、應(yīng)力、應(yīng)變、溫度、滲流、滑坡及松動體等多方面的自動化數(shù)據(jù)采集與監(jiān)測。大壩主體共分為12個壩段,在2號、4號、6號、8號、11號壩段各設(shè)1組正倒垂系統(tǒng),用于監(jiān)測壩體及壩頂?shù)乃轿灰?。垂線測點(diǎn)共16個,具體布置情況如圖3所示(圖中1~12為壩段號,PP-1至PP-16為垂線測點(diǎn),其中PP-1、PP-3、PP-4、PP-5、PP-6、PP-9、PP-11、PP-12為正垂線測點(diǎn),PP-2、PP-7、PP-8、PP-10、PP-13、PP-14、PP-15、PP-16為倒垂線測點(diǎn))。

圖3 大壩垂線測點(diǎn)布置(單位:m)

選取4號壩段171.00 m高程處PP-13測點(diǎn)的900組徑向位移監(jiān)測數(shù)據(jù)為研究對象,時間為2016年10月29日至2019年4月16日。將前720組監(jiān)測數(shù)據(jù)(2016年10月29日至2018年10月18日)作為訓(xùn)練集,后180組監(jiān)測數(shù)據(jù)(2018年10月19日至2019年4月16日)作為測試集。

4.2 模型參數(shù)尋優(yōu)

對于RF模型的參數(shù)尋優(yōu),目前主要采用經(jīng)驗法和網(wǎng)格搜索法(GSM)。本文采用改進(jìn)PSO算法對RF模型參數(shù)進(jìn)行尋優(yōu),并在計算效率和尋優(yōu)性能方面與GSM進(jìn)行對比。由于經(jīng)驗法主觀性較強(qiáng),應(yīng)用局限性較大,不作為本文模型的比較對象。

4.2.1基于GSM的模型參數(shù)尋優(yōu)

GSM在設(shè)定參數(shù)區(qū)間和尋優(yōu)步長的基礎(chǔ)上構(gòu)建搜索空間,以擬合精確度為評價指標(biāo),通過遍歷每一種參數(shù)組合進(jìn)行尋優(yōu)。先設(shè)定n和m的搜索區(qū)間和尋優(yōu)步長,對于參數(shù)n,設(shè)置區(qū)間為[100,1 000],尋優(yōu)步長為2;對于參數(shù)m,設(shè)置區(qū)間為[1,10],尋優(yōu)步長為1,故網(wǎng)格節(jié)點(diǎn)總數(shù)為4 510個。目標(biāo)函數(shù)為均方誤差MSE。經(jīng)計算,得到最優(yōu)參數(shù)組合為n=342,m=9,最小均方誤差為0.004 34,尋優(yōu)時長為5 987 s。

4.2.2基于改進(jìn)PSO算法的模型參數(shù)尋優(yōu)

改進(jìn)PSO算法的相關(guān)參數(shù)設(shè)置如下:最大迭代次數(shù)為200,粒子總數(shù)為20,加速度因子s1、s2均為2,慣性權(quán)重初始值w1和結(jié)束值w2分別為0.9、0.5。同樣設(shè)置參數(shù)n、m的尋優(yōu)區(qū)間分別為[100,1 000]、[1,10],適應(yīng)度函數(shù)為均方誤差MSE。通過改進(jìn)PSO算法進(jìn)行參數(shù)尋優(yōu),當(dāng)?shù)螖?shù)達(dá)到設(shè)定值后終止迭代,具體迭代收斂過程見圖4。由圖4可知,相比于常規(guī)PSO算法,改進(jìn)PSO算法由于引入線性遞減慣性權(quán)重和自適應(yīng)變異,有效避免了局部極值,尋優(yōu)精度更高,并且尋優(yōu)速度更快,在第33次迭代時已收斂至最優(yōu)結(jié)果,得到最小均方差為0.004 27,對應(yīng)最優(yōu)參數(shù)組合為n=407,m=9。記錄尋優(yōu)時長為753 s。

圖4 改進(jìn)PSO及常規(guī)PSO算法迭代收斂過程

4.3 模型訓(xùn)練和預(yù)測

基于GSM和改進(jìn)PSO兩種不同尋優(yōu)算法得到的最優(yōu)參數(shù)組合分別構(gòu)建隨機(jī)森林模型,并輸入測試集數(shù)據(jù)進(jìn)行預(yù)測。同時,為驗證本文模型預(yù)測性能的優(yōu)劣,在相同訓(xùn)練集數(shù)據(jù)的基礎(chǔ)上構(gòu)建基于LSTM、SVM和BPNN的大壩變形預(yù)測模型,同樣對測試集數(shù)據(jù)進(jìn)行預(yù)測。5種預(yù)測模型的超參數(shù)取值如表1所示,對應(yīng)的預(yù)測曲線及殘差過程線見圖5。由圖5可知,5種模型均取得了較好的訓(xùn)練效果,但SVM模型和BPNN模型由于受超參數(shù)取值、陷入局部極值等因素的影響產(chǎn)生了較為明顯的過擬合現(xiàn)象,導(dǎo)致其在測試集的預(yù)測中精度較差,而GSM-RF模型和改進(jìn)PSO-RF模型基于集成學(xué)習(xí)的優(yōu)勢,泛化能力較強(qiáng),有效地避免了過擬合的問題,在預(yù)測中表現(xiàn)較好。另外,基于dropout技術(shù)[4]的LSTM模型也未出現(xiàn)明顯的過擬合問題,但由于模型結(jié)構(gòu)復(fù)雜,且不能完全克服長序列預(yù)測中的梯度問題,預(yù)測效果不及兩種RF模型。

表1 5種大壩變形預(yù)測模型的超參數(shù)取值范圍及尋優(yōu)值

為進(jìn)一步分析比較這5種模型的預(yù)測效果,選取MSE、MAE和R2作為評價指標(biāo)進(jìn)行計算,結(jié)果見表2。由表2可知,在訓(xùn)練集中,5種模型均達(dá)到了非常高的擬合程度;而在測試集的預(yù)測中,本文模型的3項指標(biāo)明顯優(yōu)于LSTM、BPNN和SVM模型,略優(yōu)于GSM-RF模型,表明其預(yù)測性能更強(qiáng),穩(wěn)定性更好。同時,兩種RF模型預(yù)測效果相近也說明兩種算法得出的RF參數(shù)已接近最優(yōu),但改進(jìn)PSO-RF算法收斂速度更快,在第33次迭代時即得到最優(yōu)參數(shù)組合,且參數(shù)尋優(yōu)時長相較GSM縮短87.42%,進(jìn)一步驗證了GSM-RF模型可以在保證較高預(yù)測性能的基礎(chǔ)上大幅度提高計算效率的結(jié)論。

表2 5種大壩變形預(yù)測模型預(yù)測性能比較

5 結(jié) 論

a.與傳統(tǒng)網(wǎng)格搜索法相比,改進(jìn)PSO算法可在保證模型尋優(yōu)精度的同時,顯著提升尋優(yōu)速度,有效解決了RF算法的參數(shù)尋優(yōu)問題。

b.基于改進(jìn)PSO-RF算法的大壩變形預(yù)測模型的預(yù)測性能出色,預(yù)測精度和穩(wěn)定性明顯優(yōu)于LSTM、SVM和BPNN模型,略優(yōu)于GSM-RF模型。

c.GSM-RF模型的適用性較強(qiáng),稍加修改即可應(yīng)用于其他混凝土壩型,為高精度預(yù)測大壩變形提供了一種新途徑。

猜你喜歡
決策樹適應(yīng)度分類器
改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
一種基于改進(jìn)適應(yīng)度的多機(jī)器人協(xié)作策略
基于差異性測度的遙感自適應(yīng)分類器選擇
基于實例的強(qiáng)分類器快速集成方法
基于決策樹的出租車乘客出行目的識別
基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測
威海市| 祁门县| 大厂| 农安县| 左贡县| 金堂县| 阳西县| 东阿县| 五寨县| 平昌县| 即墨市| 定日县| 云和县| 临桂县| 定边县| 敦化市| 灵武市| 南平市| 万载县| 玉溪市| 鲁甸县| 河池市| 台北市| 若尔盖县| 沙洋县| 宜丰县| 淮北市| 海城市| 乌什县| 牙克石市| 泽库县| 定安县| 涿鹿县| 湖南省| 沧州市| 监利县| 宁蒗| 海安县| 枣庄市| 潜山县| 九江市|