王競一,曹 歡,劉曉冬,楊文廣,張 明
(1.河北涿州京源熱電有限責任公司,河北 保定 072750;2.南京天洑軟件有限公司,江蘇 南京 211106)
隨著火電廠運行管理模式的精細化,特別是隨著智能化技術(shù)在火電廠中的應用,優(yōu)化火電廠整個系統(tǒng)中關(guān)鍵環(huán)節(jié)的運行方式、降低輔機等設備的異常停機、提高設備運行經(jīng)濟性和可靠性,成為火電廠提質(zhì)增效的重要手段?;痣姀S化學水處理系統(tǒng)是火電廠的重要輔助系統(tǒng)?;痣姀S化學水處理系統(tǒng)通常包括鍋爐補給水、凝結(jié)處理、廢水處理三個部分,是整個電力生產(chǎn)系統(tǒng)中的重要組成部分。由于火電廠不同環(huán)節(jié)對水質(zhì)的高要求,化學水處理系統(tǒng)通常較為復雜,且運行過程對異常和故障的容忍度低。為保持化學水處理系統(tǒng)運行在較優(yōu)狀態(tài),需定期對化學水處理系統(tǒng)進行清洗,清洗周期的優(yōu)化對于水質(zhì)的保持和運行的經(jīng)濟性都具有十分重要的影響。通過關(guān)鍵參數(shù)趨勢預測,可以對設備的性能狀態(tài)退化進行趨勢預測,可以輔助運行人員發(fā)現(xiàn)參數(shù)異常以及合理安排清洗計劃。
本文以化學水處理系統(tǒng)關(guān)鍵設備的運行參數(shù)預測為目標,提出了一種基于mRMR和LSTM的時間序列預測方法,可以針對運行數(shù)據(jù)中影響水處理系統(tǒng)性能的關(guān)鍵參數(shù),建立高準確度的水處理系統(tǒng)參數(shù)預測與評價方法,通過與隨機森林數(shù)等多種算法進行對比,證明了方法的有效性,為短期趨勢預測和清洗周期預測提供方法支撐。
典型的時間序列預測訓練的過程包括輸入?yún)?shù)的選擇、時間序列的數(shù)據(jù)步長和窗口的選擇、訓練算法的選擇以及超參的選擇。在建立預測模型的過程中,需要根據(jù)選擇的時間長度進行時間序列的預處理,由于實際系統(tǒng)的采樣率較高,每秒1次數(shù)據(jù)采集,在預測較長時間的參數(shù)狀態(tài)值時,需考慮中長期的歷史趨勢,存在了時間序列長度難以被長短時記憶模型有效捕獲的困難,即數(shù)據(jù)數(shù)據(jù)的時間間隔和窗口大小將對結(jié)果具有顯著影響。
對此,本文提供了一種分層的超參優(yōu)化選擇思路,即首先使用mRMR來進行特征參數(shù)的選擇,然后通過對比訓練進行時間序列的數(shù)據(jù)步長和窗口的選擇,最后進行LSTM網(wǎng)絡層數(shù)和神經(jīng)元個數(shù)的超參選擇,最終完成模型的訓練。對于本方法中的關(guān)鍵組成部分的原理描述如下。
進行特征參數(shù)選擇之前,首先要根據(jù)測量數(shù)據(jù)進行數(shù)據(jù)的預處理,入口流量的分布規(guī)律如圖1所示。
圖1 入口流量分布規(guī)律
由圖1可知,入口流量為0的時間占據(jù)了相當?shù)谋壤@表明,在數(shù)據(jù)預處理中,需要對數(shù)據(jù)進行篩選,去掉停機時間的數(shù)據(jù),同時利用清洗時間將數(shù)據(jù)進行分割,以正確捕獲數(shù)據(jù)規(guī)律,為預測模型的建立提供良好的數(shù)據(jù)基礎。
在原始測量參數(shù)中,存在較多的變量,為分析變量直接的相關(guān)性,特別是對預測性能的相關(guān)性,本文采用最小冗余最大相關(guān)性的特征參數(shù)選擇方法。
最小冗余最大相關(guān)性(mRMR)是一種濾波式的特征選擇方法,一種常用的特征選擇方法是最大化特征與分類變量之間的相關(guān)度,就是選擇與分類變量擁有最高相關(guān)度的前k個變量。但是,在特征選擇中,單個好的特征的組合并不能增加分類器的性能,因為有可能特征之間是高度相關(guān)的,這就導致特征變量的冗余。因此最終有了mRMR,即最大化特征與分類變量之間的相關(guān)性,而最小化特征與特征之間的相關(guān)性。這就是mRMR的核心思想。它不僅考慮到了特征和label之間的相關(guān)性,還考慮到了特征和特征之間的相關(guān)性。度量標準使用的是互信息(Mutual Information,MI)。對于mRMR方法,特征子集與類別的相關(guān)性通過各個特征與類別的信息增益的均值來計算,而特征與特征的冗余使用的是特征和特征之間的互信息加和再除以子集中特征個數(shù)的平方。
(1)互信息
定義:給定兩個隨機變量x和y,他們的概率密度函數(shù)(對應于連續(xù)變量)為p(x),p(y),p(x,y),則互信 息為
互信息是信息論里一種有用的信息度量,它可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不確定性。
(2)mRMR目標
mRMR的目標就是找出含有m個特征的特征子集S,這m個特征需滿足以下兩點條件:
1)保證特征和類別的相關(guān)性最大;
2)確保特征之間的冗余性最小。
由于RNN存在梯度消失的問題,學者提出了長短時記憶神經(jīng)網(wǎng)絡模型(Long Short-Term Memory,LSTM)來解決這個問題。除了隱狀態(tài)向量外,LSTM還維護一個能夠?qū)刂箷r間步所觀測到的信息進行編碼的記憶單元。記憶單元由三個門結(jié)構(gòu)控制:輸入門、輸出門和遺忘門。
LSTM單元的具體結(jié)構(gòu)如圖2所示。在每一個時間步t,首先,遺忘門的向量f通過一個關(guān)于當前時刻輸入x和上一個時刻的隱狀態(tài)f的函數(shù)得到。當遺忘門的值接近1時,來自上一個記憶單元c的信息將會被保留,當遺忘門的值接近0時,來自上一個記憶單元的信息將會被遺忘。之后,另一個關(guān)于當前時刻輸入x和上一個時刻的隱狀態(tài)h的函數(shù)將會導出輸入門向量i。該輸入門向量將會被加到記憶單元中形成c。最后,輸出門將會決定哪些來自記憶單元的信息被用來形成新的新狀態(tài)h。
圖2 LSTM單元結(jié)構(gòu)圖
為驗證本文所提出的方法,針對化學水處理的反滲透設備的一段壓差,基于本文提出的方法,進行了4h和12h提前預測,為狀態(tài)的識別和預警提供方法和模型基礎。原始數(shù)據(jù)集的采樣間隔為10s,長度為1年。采用前文中的方法,剔除停機時間的數(shù)據(jù),得到有效數(shù)據(jù)共計142萬組,其中訓練數(shù)據(jù)占比70%,測試數(shù)據(jù)占比30%。
利用mRMR方法,針對反滲透設備進行了特征參數(shù)選擇,選擇結(jié)果見表1。
表1 特征參數(shù)選擇結(jié)果
利用特征參數(shù)選擇得到的參數(shù),以及優(yōu)化選擇的時間窗口參數(shù),構(gòu)建了多個LSTM訓練模型,自動篩選模型超參數(shù),按訓練結(jié)果從中選取合適的組合。
4h預測的LSTM模型最優(yōu)的層數(shù)為2層,神經(jīng)元的個數(shù)為10個。建立的短時記憶模型網(wǎng)絡結(jié)構(gòu)如圖3所示。
圖3 長短時記憶模型網(wǎng)絡結(jié)構(gòu)
通過訓練得到的預測結(jié)果如圖4所示。
圖4 差壓4h預測
對于12h預測模型,選擇網(wǎng)絡層數(shù)為2,通過訓練,得到的預測結(jié)果如圖5所示。利用特征參數(shù)選擇得到的參數(shù),構(gòu)建了訓練模型,自動篩選模型超參數(shù),按訓練結(jié)果從中選取合適的組合。
圖5 差壓12h預測
從機理的角度看,對于不同的目標預測時長,最優(yōu)的輸入?yún)?shù)的時間間隔和窗口大小是不同的。對于4h和12h的壓差預測,本文分別計算了時間間隔為2 min和10 min, 窗口大小為2 h、3 h和4 h,對于預測準確度的影響,最終得到的結(jié)果見表2和表3。
表2 4 h提前預測效果
表3 12 h提前預測結(jié)果
可以看到,當預測時長為4 h時,數(shù)據(jù)間隔取10 min,數(shù)據(jù)窗口為3 h是預測效果最好。當預測時長為12 h時,數(shù)據(jù)間隔為10 min,數(shù)據(jù)窗口為4 h,預測效果更好。
作為對比,本文在相同輸入樣本之下,同時使用支持向量機SVR、隨機森林RF和集成學習梯度提升決策樹GBDT,SVR使用RBF核函數(shù),隨機森林中數(shù)目的個數(shù)為100,GBDT中弱學習器的個數(shù)為100。
根據(jù)最終訓練的結(jié)果(表4)可以得出。不論對于4h預測還是12 h預測,使用LSTM的精度要好于另外三種算法,進一步證明了本文提出的組合算法的有效性。
表4 不同預測方法對比表
本文以火電廠化學水處理系統(tǒng)為對象,提出了一種基于mRMR和LSTM的時間序列預測方法,提供分層的超參優(yōu)化選擇思路,即首先使用mRMR來進行特征參數(shù)的選擇,然后使用通過對比訓練進行時間序列的數(shù)據(jù)步長和窗口的選擇,最后進行LSTM網(wǎng)絡層數(shù)和神經(jīng)元個數(shù)的超參選擇,最終完成模型的訓練。
將該方法應用在反滲透設備一段壓差的預測之中,分析了運行數(shù)據(jù)中影響該參數(shù)的關(guān)鍵參數(shù),針對4h和12h的差壓參數(shù)預測優(yōu)化選擇了時間步長和窗口大小的,最后建立基于長短時記憶模型網(wǎng)絡的參數(shù)預測模型,并通過與其他算法進行對比,取得了較好的預測效果。本文所建立的方法可以為化學水處理系統(tǒng)短期趨勢預測和清洗周期預測提供方法支撐。同時也可以為相似設備的趨勢預測和清洗周期預測提供方法 支持。