国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GA算法優(yōu)化Stacking集成學(xué)習(xí)的金屬材料大氣腐蝕速率研究

2023-11-10 08:56:20樊志彬米春旭
山東電力技術(shù) 2023年10期
關(guān)鍵詞:決策樹速率預(yù)測

田 輝,樊志彬,王 倩,米春旭

(國網(wǎng)山東省電力公司電力科學(xué)研究院,山東 濟(jì)南 250003)

0 引言

電網(wǎng)系統(tǒng)在人民日常生活以及社會經(jīng)濟(jì)活動中擔(dān)負(fù)著舉足輕重的作用,電網(wǎng)設(shè)備穩(wěn)定運(yùn)行是保證供電的基礎(chǔ)。電網(wǎng)設(shè)備中的金屬材料易受大氣腐蝕的影響,眾多研究發(fā)現(xiàn)腐蝕對設(shè)備自身穩(wěn)定性和服役性能均有較大影響,易造成較大經(jīng)濟(jì)損失和安全隱患[1-2]。準(zhǔn)確了解電網(wǎng)設(shè)備金屬材料的腐蝕情況是保障電網(wǎng)供電安全穩(wěn)定的關(guān)鍵,因此需要對電網(wǎng)設(shè)備金屬材料進(jìn)行腐蝕預(yù)測,保證能夠提前了解設(shè)備的腐蝕情況,以便及時維護(hù)。

大氣腐蝕是一個復(fù)雜的過程,許多金屬材料的腐蝕規(guī)律仍不能被準(zhǔn)確掌握,其往往受相對濕度、溫度、污染物等多種環(huán)境因素的影響,目前還沒有準(zhǔn)確合理的腐蝕預(yù)測模型。因此,研究各種大氣環(huán)境下腐蝕的影響因素和腐蝕過程的動力學(xué)規(guī)律,對預(yù)測腐蝕損失具有重要意義。為了得到準(zhǔn)確的模型來估計不同環(huán)境條件下的腐蝕規(guī)律,一些學(xué)者已經(jīng)做了許多工作。

環(huán)境因子對腐蝕速率影響定量關(guān)系的研究模型主要包括劑量響應(yīng)方程模型和機(jī)器學(xué)習(xí)模型等。其中,劑量響應(yīng)方程模型是基于現(xiàn)場暴露腐蝕試驗(yàn)結(jié)果與試驗(yàn)點(diǎn)環(huán)境參數(shù)回歸分析的經(jīng)驗(yàn)公式。大量研究表明,金屬材料的大氣腐蝕過程同時受到多種環(huán)境因子的影響,許多研究已經(jīng)得出包括溫度、濕度、潤濕時間、SO2沉積量、Cl-沉積量以及污染物等是影響腐蝕的主要因素,并分析了各自對金屬材料腐蝕速率的影響[3-5]。因此現(xiàn)有大多數(shù)研究也是基于上述因素建立劑量響應(yīng)方程。最常用的劑量響應(yīng)方程的基本形式遵循簡單的線性或?qū)?shù)線性關(guān)系[6]。葉堤等[7]結(jié)合灰色關(guān)聯(lián)分析和非線性回歸方法,同時考慮了氮元素的影響,建立了基于大氣腐蝕機(jī)理的碳鋼、Zn、Cu 的腐蝕劑量響應(yīng)方程。李牧錚等[8]通過建立各自的和綜合的多元線性回歸方程組,除了考慮氮元素外,還考慮了大氣沉降物中水溶性降塵量,給出了金屬材料的大氣腐蝕預(yù)測劑量響應(yīng)方程。

由于腐蝕數(shù)據(jù)的不確定性大,以及傳統(tǒng)回歸方法在處理非線性交互效應(yīng)方面的局限性,依賴經(jīng)驗(yàn)公式會得到不同的劑量響應(yīng)方程,這樣會產(chǎn)生各種各樣的公式,不利于推廣。同時,影響腐蝕速率的因素較多,依靠劑量響應(yīng)方程不能綜合考慮各種環(huán)境因子的相互影響。

近幾年,基于機(jī)器學(xué)習(xí)的方法在腐蝕研究中得到了越來越廣泛的應(yīng)用。機(jī)器學(xué)習(xí)模型可通過在經(jīng)驗(yàn)和數(shù)據(jù)中學(xué)習(xí),自動搜索知識,而不依賴于預(yù)先確定的方程,能更好地理解和預(yù)測大氣腐蝕。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)[9]、隨機(jī)森林(random forest,RF)[10]、支持向量機(jī)(support vector regression,SVR)[11]等算法已經(jīng)應(yīng)用在各類數(shù)據(jù)挖掘中。在腐蝕預(yù)測方向上也有了一些研究,其中Cai等[12]研究了相對濕度、溫度、二氧化硫和氯化物對動態(tài)環(huán)境中短期腐蝕行為的影響,提出了一種描述環(huán)境因子統(tǒng)計分布的多參數(shù)方法。Zhi 等[13]結(jié)合RF 系數(shù)和Spearman 系數(shù)的混合方法,降低了維度,給出了不同服役周期下影響腐蝕速率主要的環(huán)境因子,建立了SVR 腐蝕預(yù)測模型。Pei 等[14]改進(jìn)了RF 模型,提高了對碳鋼大氣腐蝕的預(yù)測精度,且預(yù)測能力明顯強(qiáng)于ANN 和SVR 模型。以往研究中使用的機(jī)器學(xué)習(xí)模型往往是1~2 種模型,容易造成過擬合或者欠擬合現(xiàn)象,并沒有充分發(fā)揮各個模型的優(yōu)勢,因此基于機(jī)器學(xué)習(xí)的腐蝕預(yù)測還有很大的研究空間。

研究分析影響腐蝕的環(huán)境因子,并將遺傳算法和Stacking 集成學(xué)習(xí)模型結(jié)合,建立腐蝕預(yù)測模型。相較于以往的腐蝕預(yù)測模型,該模型能夠充分發(fā)揮各個機(jī)器學(xué)習(xí)模型的優(yōu)勢,在提升擬合度的同時,有效減少過擬合現(xiàn)象,提高模型的適用性。同時,通過較少的環(huán)境因子,更加便捷有效地對腐蝕速率進(jìn)行預(yù)測,減少因采集過多環(huán)境因子帶來的工作量。

1 Stacking集成學(xué)習(xí)模型原理

Stacking 集成學(xué)習(xí)算法一般分為兩層,第一層為初級學(xué)習(xí)器,第二層為次級學(xué)習(xí)器。原始數(shù)據(jù)集經(jīng)過初級學(xué)習(xí)器訓(xùn)練得到一個新的數(shù)據(jù)集,用來訓(xùn)練次級學(xué)習(xí)器,并最終得到預(yù)測結(jié)果[15]。該方法在訓(xùn)練過程中,通過不同算法模型的優(yōu)化組合,發(fā)揮各自的優(yōu)勢,從而提高整個模型的預(yù)測準(zhǔn)確率。其結(jié)構(gòu)如圖1 所示。

圖1 Stacking算法示意Fig.1 Schematic of stacking algorithm

首先,將數(shù)據(jù)分為訓(xùn)練集Tr和測試集Te,為進(jìn)一步降低過擬合,訓(xùn)練集Tr又被分成K份:{Tr1,Tr2,…,TrK}。在第一層初級學(xué)習(xí)器中,取其中K-1份作為訓(xùn)練集,另外一份作為驗(yàn)證集,每個模型分別進(jìn)行K次訓(xùn)練,每次可以得到一個驗(yàn)證集預(yù)測結(jié)果V和一個預(yù)測集結(jié)果P,分別表示為{V1,V2,…,VK}、{P1,P2,…,PK}。經(jīng)過m個模型訓(xùn)練則可以得到m組訓(xùn)練集預(yù)測結(jié)果,驗(yàn)證集預(yù)測結(jié)果為{V11,V12,…,V1K,V21,V22,…,V2K,…,Vm1,Vm2,…,VmK},預(yù)測集結(jié)果為{P11,P12,…,P1K,P21,P22,…,P2K,…,Pm1,Pm2,…,PmK}。同時,對K次訓(xùn)練得到的預(yù)測集結(jié)果求平均值得到m組測試集預(yù)測結(jié)果:{P1,P2,…,Pm}。由第一層訓(xùn)練集預(yù)測結(jié)果和測試集預(yù)測結(jié)果組成第二層次級學(xué)習(xí)器的輸入,實(shí)現(xiàn)對第一層初級訓(xùn)練器結(jié)果優(yōu)化,提高預(yù)測的準(zhǔn)確性。

1.1 初級學(xué)習(xí)器

對于初級學(xué)習(xí)器,用到的算法包括隨機(jī)森林算法、自適應(yīng)增強(qiáng)算法(adaptive boosting,AdaBoost)、梯度提升決策樹算法(gradient boosted decision trees,GBDT)和極端梯度提升算法(extreme gradient boosting,XGBoost)。

1)隨機(jī)森林算法。

隨機(jī)森林由Breiman 等提出,是基于樹的機(jī)器學(xué)習(xí)算法,其基本單元是決策樹。它是一個集成分類器,由許多獨(dú)立的決策樹組成,并輸出大多數(shù)決策樹預(yù)測的類。算法過程如圖2 所示。

算法步驟如下:

a)將訓(xùn)練數(shù)據(jù)集有放回抽取N次,得到新的子訓(xùn)練集{D1,D2,…,DN},作為決策樹根節(jié)點(diǎn)處的樣本。

b)隨機(jī)選取屬性做節(jié)點(diǎn)分裂屬性,并重復(fù)該步驟。

c)通過以上步驟,建立大量決策樹,形成隨機(jī)森林。

d)將每棵樹輸出的預(yù)測值求平均值得到最終預(yù)測結(jié)果。

2)AdaBoost 算法。

AdaBoost 算法是由Freund 和Schapire[16]在1995年提出,針對同一訓(xùn)練集進(jìn)行不同學(xué)習(xí)器(分類器)的訓(xùn)練,并將這些弱學(xué)習(xí)器集合起來,組成一個更有效的強(qiáng)學(xué)習(xí)器。在解決回歸問題時,具體算法過程如下。

a)初始化每個樣本數(shù)據(jù)的權(quán)值分布。

假定練集樣本為

訓(xùn)練集的第k個弱學(xué)習(xí)器的輸出權(quán)重為

式中:ωki(i=1,2,…,N)為第i個樣本在第k個弱學(xué)習(xí)器的輸出權(quán)重。

則初始化樣本集權(quán)重為

b)進(jìn)行第k次迭代。

①使用具有權(quán)值分布Dk(k=1,2,…,K)的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),得到弱學(xué)習(xí)器gk。

②訓(xùn)練集上的最大誤差為

式中:xi為第i個樣本;yi為xi的目標(biāo)值。

③計算每個樣本的相對誤差為

④計算在gk訓(xùn)練數(shù)據(jù)集上的回歸誤差率為

⑤計算弱學(xué)習(xí)器系數(shù)為

⑥更新訓(xùn)練樣本集的權(quán)值分布為

c)結(jié)束K輪迭代,得到最終強(qiáng)學(xué)習(xí)器為

式中:gk*(x)為所有的中位數(shù)值乘以對應(yīng)序號k*對應(yīng)的弱學(xué)習(xí)器。

3)GBDT 算法與XGBoost 算法。

GBDT 算法由Friedman[17]提出,是一種迭代的決策樹算法,由多棵決策樹組成,所有樹的結(jié)論累加起來作為最終答案。GBDT 算法可以看成是M棵樹組成的加法模型。

式中:x為輸入樣本;υ、υm為模型參數(shù);hm(x,υm)為分類回歸樹;δm為每棵樹的權(quán)重。

其算法過程如下。

a)初始化學(xué)習(xí)器

式中:L(?)為損失函數(shù)。

b)建立M棵分類回歸樹。

①計算第m棵樹(m=1,2,...,M)對應(yīng)的響應(yīng)值為

式中:F(x)為學(xué)習(xí)器函數(shù);Fm-1(x)為第m-1 輪得到的學(xué)習(xí)器。

②用(xi,rm,i)擬合得到第m棵回歸樹Tm,葉子節(jié)點(diǎn)區(qū)域劃為Rm,j(j=1,2,…,Jm),Jm為第m棵回歸樹葉子節(jié)點(diǎn)的個數(shù)。

③遍歷所有節(jié)點(diǎn),計算回歸樹Tm的每個葉子節(jié)點(diǎn)Rm,j的輸出值,即為最佳擬合值cm,j。

④更新學(xué)習(xí)器為

c)重復(fù)步驟直到滿足停止條件,累加得到最終的學(xué)習(xí)器表達(dá)式為

XGBoost 算法是建立在GBDT 算法上,進(jìn)一步改進(jìn)了算法,不再詳細(xì)展開。

1.2 次級學(xué)習(xí)器

次級學(xué)習(xí)器由人工神經(jīng)網(wǎng)絡(luò)模型構(gòu)成。人工神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)相當(dāng)于一個神經(jīng)元,這些神經(jīng)元接收外界的輸入信息進(jìn)行計算和調(diào)整,并將它們輸送到其他神經(jīng)元。神經(jīng)元的計算函數(shù)由神經(jīng)元輸入連接的權(quán)重定義,通過恰當(dāng)?shù)馗淖冞@些權(quán)重大小可以學(xué)習(xí)得到計算函數(shù),對輸入數(shù)據(jù)建立相關(guān)模型。BP(back propagation,BP)神經(jīng)網(wǎng)絡(luò)是常見的神經(jīng)網(wǎng)絡(luò)算法,是一種基于誤差反向傳播算法的三層前饋神經(jīng)網(wǎng)絡(luò),主要由輸入層、隱含層和輸出層構(gòu)成。BP神經(jīng)網(wǎng)絡(luò)具有實(shí)現(xiàn)任何復(fù)雜非線性映射的功能,使其適合求解內(nèi)部機(jī)制相對復(fù)雜的問題,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。其中輸入層、隱含層和輸出層神經(jīng)元個數(shù)分別為M、I和J,Xm表示輸入層第m個神經(jīng)元,Ki表示隱含層第i個神經(jīng)元,Yj表示輸出層第j個神經(jīng)元。

圖3 BP神經(jīng)網(wǎng)絡(luò)Fig.3 BP neural network

隱含層和輸出層采用Tan-Sigmoid 函數(shù)作為傳遞函數(shù)

式中:n為迭代次數(shù)。

采用Levenberg-Marquardt 算法對網(wǎng)絡(luò)權(quán)值進(jìn)行修正

式中:J為包含誤差性能函數(shù)對網(wǎng)絡(luò)權(quán)值一階導(dǎo)數(shù)的雅克比矩陣;μ為一個需要設(shè)置的常數(shù);e(n)為網(wǎng)絡(luò)總誤差。

權(quán)重/閾值學(xué)習(xí)函數(shù)采用梯度下降動量法來進(jìn)行權(quán)值的迭代

式中:η為學(xué)習(xí)率;β為動量因子。

2 預(yù)測模型構(gòu)建

對于隨機(jī)森林、AdaBoost 算法等幾個初級學(xué)習(xí)器,需要設(shè)置決策樹最大深度和基分類器個數(shù),依靠人工經(jīng)驗(yàn)選擇的方式往往效果不佳,采用遺傳算法對其優(yōu)化后得到更好的擬合效果。

遺傳算法是一種受進(jìn)化和自然遺傳學(xué)原則指導(dǎo)的隨機(jī)搜索和優(yōu)化技術(shù)。遺傳算法由一種群體組成,其中每個個體代表搜索優(yōu)化問題的一種可能的解決方案。通過適應(yīng)度函數(shù)篩選優(yōu)質(zhì)個體;然后,在交叉算子的控制下產(chǎn)生新的個體,通過突變算子將隨機(jī)噪聲添加到后代中,以改變其“基因”。通過重復(fù)上述過程,最終提供一個較好的解決方案。

基于GA 優(yōu)化的Stacking 集成學(xué)習(xí)模型框架如圖4 所示,整個預(yù)測過程主要分?jǐn)?shù)據(jù)預(yù)處理、遺傳算法優(yōu)化參數(shù)、初級學(xué)習(xí)器模型訓(xùn)練、次級學(xué)習(xí)器模型訓(xùn)練及模型預(yù)測。具體過程如下。

圖4 預(yù)測模型流程Fig.4 Prediction model process flow

a)數(shù)據(jù)預(yù)處理。通過對數(shù)據(jù)集進(jìn)行數(shù)據(jù)的清洗,刪除掉不符合實(shí)際的數(shù)據(jù),并對缺失部分的數(shù)據(jù)進(jìn)行補(bǔ)齊。

b)將數(shù)據(jù)集分割成測試集和驗(yàn)證集,并對測試集分成K份,進(jìn)行K折交叉驗(yàn)證。

使用遺傳算法求得各個初級學(xué)習(xí)器的最優(yōu)參數(shù)組合(最大深度和基學(xué)習(xí)器個數(shù)),以優(yōu)化初級學(xué)習(xí)器的模型。

c)使用初級學(xué)習(xí)器訓(xùn)練得到訓(xùn)練集預(yù)測結(jié)果{V11,V12,…,V1K,V21,V22,…,V2K,…,Vm1,Vm2,…,VmK},以及測試集預(yù)測結(jié)果{P1,P2,…,Pm}。

d)將初級學(xué)習(xí)器訓(xùn)練得到的結(jié)果作為新的數(shù)據(jù)集,使用次級學(xué)習(xí)器進(jìn)行訓(xùn)練得到最終結(jié)果。

3 模型評價指標(biāo)

設(shè)計擬合優(yōu)度R2和均方根誤差RMSE兩個評價指標(biāo),其具體表達(dá)式如式(19)所示。

式中:yi為待擬合數(shù)據(jù)為擬合數(shù)據(jù)為待擬合數(shù)據(jù)均值;Sreg為回歸平方和;Sres為殘差平方和;Stot為總平方和。

4 算例分析

取用山東省28 個暴露腐蝕試驗(yàn)站的鍍鋅鋼腐蝕數(shù)據(jù)對提出的模型進(jìn)行驗(yàn)證。結(jié)合Spearman 相關(guān)系數(shù)和隨機(jī)森林特征重要性評估的方法,分析了多個環(huán)境因子與腐蝕速率的相關(guān)性,結(jié)果如表1 所示。

表1 環(huán)境因子與鍍鋅鋼腐蝕速率的相關(guān)性Table 1 Correlation between environmental factors and corrosion rate of galvanized steel

通過表1 可以得出,潤濕時間和Cl-沉積量對鍍鋅鋼腐蝕速率的影響較大。結(jié)合以往研究和本文的分析將溫度、濕度、潤濕時間、SO2沉積量和Cl-沉積量這幾個主要環(huán)境因子作為模型的輸入來進(jìn)行訓(xùn)練。

將28 條站點(diǎn)數(shù)據(jù)中的23 條數(shù)據(jù)作為訓(xùn)練集,5條作為測試集。利用Python 編寫基于GA 優(yōu)化的Stacking 集成學(xué)習(xí)模型。遺傳算法模型的初始種群個數(shù)設(shè)置為20 個,交叉率為40%,變異率為66.6%,迭代20 次,求得隨機(jī)森林、Adaboost、GBDT 和XGBoost 初級學(xué)習(xí)器的最大深度和基分類器個數(shù)分別為(16,174)、(20,109)、(11,11)和(7,156)。

人工神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)設(shè)置為10,學(xué)習(xí)速率為0.015。迭代次數(shù)設(shè)為25000 次。經(jīng)過次級學(xué)習(xí)器的訓(xùn)練,得到28 站鍍鋅鋼腐蝕速率實(shí)際值和預(yù)測值如表2 所示,測試集在不同模型下的預(yù)測結(jié)果擬合優(yōu)度R2和均方誤差RMSE如表3 所示。

表2 鍍鋅鋼腐蝕速率實(shí)際值和預(yù)測值Table 2 Actual and predicted values of corrosion rate of galvanized steel 單位:μm/a

表3 不同模型預(yù)測結(jié)果的評價指標(biāo)Table 3 Evaluation indexes of prediction results of different models

結(jié)合表1、表2 和表3 可以得出,在模型中減少了PM2.5、PM10、NO2、O3等環(huán)境因子輸入的情況下,可以實(shí)現(xiàn)以較少的環(huán)境因子作為模型輸入開展腐蝕速率的預(yù)測。

該模型結(jié)合了多個預(yù)測模型的優(yōu)點(diǎn),可以充分發(fā)揮各個模型的作用。相較于RF、Adaboost、GBDT 和XGBoost 算法的單個模型,通過該模型第一層初級學(xué)習(xí)器和第二層次級學(xué)習(xí)器神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,優(yōu)化了預(yù)測效果,提升了擬合優(yōu)度,降低了均方根誤差。

5 結(jié)束語

為了更好地擬合大氣環(huán)境與電網(wǎng)設(shè)備材料腐蝕的量化關(guān)系,提出一種基于GA 優(yōu)化的Stacking 集成學(xué)習(xí)預(yù)測模型。利用該模型對山東省28 個暴露腐蝕試驗(yàn)站的環(huán)境與鍍鋅鋼腐蝕數(shù)據(jù)進(jìn)行訓(xùn)練,相較于常規(guī)的機(jī)器學(xué)習(xí)模型,可以在使用較少的環(huán)境因子的情況下實(shí)現(xiàn)對電網(wǎng)設(shè)備金屬材料腐蝕速率的預(yù)測;在降低過擬合的同時擬合優(yōu)度得到進(jìn)一步提升,均方根誤差得到進(jìn)一步減小,能更有效地實(shí)現(xiàn)鍍鋅鋼腐蝕速率的預(yù)測。使用文中提出的模型可以進(jìn)一步地指導(dǎo)電網(wǎng)設(shè)備的部署和防護(hù),降低因腐蝕老化造成的經(jīng)濟(jì)影響,具有一定的實(shí)用性和推廣價值。文中使用的數(shù)據(jù)量有限,將來會繼續(xù)收集實(shí)驗(yàn)數(shù)據(jù)以優(yōu)化模型,同時將暴露周期因素考慮在內(nèi),構(gòu)建長期腐蝕速率模型。

猜你喜歡
決策樹速率預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(B卷)
選修2-2期中考試預(yù)測卷(A卷)
“化學(xué)反應(yīng)的速率與限度”知識與能力提升
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
速度和速率有什么不同
不必預(yù)測未來,只需把握現(xiàn)在
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
类乌齐县| 高雄县| 马关县| 安宁市| 寻乌县| 盘锦市| 拜城县| 孟州市| 台南市| 绍兴县| 惠水县| 游戏| 永康市| 龙山县| 巫山县| 瓮安县| 黄陵县| 宜兰市| 如东县| 西青区| 三原县| 马龙县| 文登市| 翼城县| 中阳县| 清涧县| 荆门市| 安阳县| 成安县| 资兴市| 明星| 开封县| 探索| 孝昌县| 囊谦县| 玉田县| 郎溪县| 洮南市| 西青区| 余庆县| 鹰潭市|