張明達(dá),崔昊楊,余豪華,孫益輝,王思謹(jǐn),王浩乾
(1.國網(wǎng)浙江奉化區(qū)供電有限公司,浙江 奉化 315500;2.上海電力大學(xué),上海 200090)
從數(shù)據(jù)的角度揭示電力設(shè)備內(nèi)部狀態(tài)變化規(guī)律,是捕捉故障先兆信息、追溯故障過程、預(yù)測故障概率的重要依據(jù)。然而,電力設(shè)備狀態(tài)數(shù)據(jù)不僅來源多,還會由狀態(tài)監(jiān)測系統(tǒng)可靠性差、測量失誤、設(shè)備系統(tǒng)擾動等情況導(dǎo)致不完整、冗余、遺漏、錯(cuò)誤等無效異常數(shù)據(jù)的存在。這些無效、異常數(shù)據(jù)的出現(xiàn)導(dǎo)致設(shè)備狀態(tài)真實(shí)規(guī)律難以挖掘,嚴(yán)重者可能導(dǎo)致狀態(tài)規(guī)律挖掘錯(cuò)誤。因此,如何避免無效異常值對設(shè)備真實(shí)規(guī)律挖掘的影響,以及如何提高數(shù)據(jù)挖掘算法的魯棒性成了電力大數(shù)據(jù)的核心問題。
目前,電力大數(shù)據(jù)分析常采用的方法按應(yīng)用場景可分為:以整合移動平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)為代表的統(tǒng)計(jì)分析,以神經(jīng)網(wǎng)絡(luò)(Back Propagation,BP)、支持向量機(jī)(Support Vector Machine, SVM)等為代表的智能學(xué)習(xí)方法,以及以長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)等為代表的深度智能學(xué)習(xí)方法。其中,以ARIMA為代表的統(tǒng)計(jì)分析方法不需大量樣本進(jìn)行訓(xùn)練,并且具有較高的準(zhǔn)確率,但是當(dāng)數(shù)據(jù)增大到一定規(guī)模后,該類算法容易陷入局部最優(yōu)(即只反映短期規(guī)律,不能反映長期規(guī)律);以BP、SVM為代表的智能學(xué)習(xí)方法雖然容易訓(xùn)練,但是海量數(shù)據(jù)處理時(shí)存在梯度消失的情況;而以LSTM、GRU等為代表的深度智能學(xué)習(xí)方法,由于具備長期的“記憶細(xì)胞”,可以輕松處理海量數(shù)據(jù),并且具有極高的準(zhǔn)確率,但是這類方法對數(shù)據(jù)的有效性、一致性、完整性的要求嚴(yán)苛。由于監(jiān)測系統(tǒng)產(chǎn)生的無效異常值將破壞LSTM、GRU這類算法的“記憶細(xì)胞”,進(jìn)而導(dǎo)致規(guī)律挖掘出錯(cuò)或無法挖掘。
針對當(dāng)前狀態(tài)數(shù)據(jù)存在的問題和現(xiàn)有GRU算法的不足,提出了基于改進(jìn)GRU的電力大數(shù)據(jù)分析模型。該模型首先針對狀態(tài)數(shù)據(jù)一致性、有效性較差,以及沖擊、無效數(shù)據(jù)影響數(shù)據(jù)真實(shí)性的問題,利用自適應(yīng)閾值的小波變換對數(shù)據(jù)進(jìn)行清洗;其次,以周期為單位將清洗后的數(shù)據(jù)分為多個(gè)數(shù)據(jù)段,通過對各數(shù)據(jù)段同一時(shí)刻的記憶進(jìn)行求和,并將求和結(jié)果的平均值作為標(biāo)準(zhǔn)記憶,以此消除不完整數(shù)據(jù)對狀態(tài)規(guī)律挖掘的影響;最后,根據(jù)數(shù)據(jù)段的質(zhì)量高低對GRU的“記憶”進(jìn)行更新,即數(shù)據(jù)質(zhì)量好的多記,數(shù)據(jù)質(zhì)量差的忘記。實(shí)驗(yàn)結(jié)果表明,提出的預(yù)測模型在數(shù)據(jù)未濾波和濾波后的預(yù)測均方根誤差(Root Mean Square Error , RMSE)均低于 ARIMA 、LSTM和GRU 模型。
狀態(tài)數(shù)據(jù)貫穿設(shè)備全壽命運(yùn)行的整個(gè)時(shí)期,具有總量大(Volume)、增長快(Variability)、密度低(Value)等特點(diǎn)。并且,從圖1的光伏發(fā)電可知,新能源光伏發(fā)電數(shù)據(jù)以0.25h為單位進(jìn)行采樣,故光伏發(fā)電的數(shù)據(jù)在總量、增長速度方面均比設(shè)備狀態(tài)數(shù)據(jù)大;此外,由于光伏發(fā)電易受氣候影響,其價(jià)值密度不僅低于狀態(tài)數(shù)據(jù)的價(jià)值密度,還多了圖1中周四光伏發(fā)電波動數(shù)據(jù)的無效異常數(shù)據(jù)。因此,本文以“迎刃而解”為思路(能挖掘困難的新能源發(fā)電數(shù)據(jù)規(guī)律,那也能挖掘較為簡單的狀態(tài)數(shù)據(jù)規(guī)律),對本文算法的有效性進(jìn)行驗(yàn)證。同時(shí),為了便于比較,采用RMSE作為評價(jià)依據(jù),計(jì)算公式如下:
(1)
式中:′、分別為預(yù)測數(shù)據(jù)、現(xiàn)實(shí)數(shù)據(jù)。
圖1 一周內(nèi)光伏發(fā)電的負(fù)荷
由于光伏發(fā)電都在8之后,于是采用08:00-20:00的發(fā)電數(shù)據(jù)進(jìn)行預(yù)測分析,ARIMA、LSTM、GRU預(yù)測準(zhǔn)確度如表1所示,預(yù)測結(jié)果如圖2所示。結(jié)合表1和圖2可知,ARIMA預(yù)測準(zhǔn)確率最低,RMSE達(dá)到了135,而LSTM及LSTM變體GRU的RMSE雖然比ARIMA較小,分別為41和39,但預(yù)測準(zhǔn)確率依舊有待提高。由此可見,類似周四的異常數(shù)據(jù)不僅加大了數(shù)據(jù)規(guī)律挖掘的難度,還降低了挖掘算法的準(zhǔn)確率。
表1 ARIMA、LSTM、GRU預(yù)測光伏發(fā)電的負(fù)荷與真實(shí)值的RMSE對比
圖2 ARIMA、LSTM、GRU預(yù)測光伏發(fā)電的負(fù)荷與真實(shí)值的對比
從圖1可知,類似周四的數(shù)據(jù)由于受氣候影響,其波動性影響了整天發(fā)電數(shù)據(jù)的規(guī)律性,這些無效的異常數(shù)據(jù)造成當(dāng)天發(fā)電數(shù)據(jù)呈現(xiàn)出一個(gè)假的“駝峰規(guī)律”性。因此,針對這些無效、異常數(shù)據(jù)的影響,以及當(dāng)前算法的不足,本文通過數(shù)據(jù)質(zhì)量改善和算法改進(jìn)兩部分進(jìn)行改進(jìn)。
針對無效、異常數(shù)據(jù)的影響,參照文獻(xiàn)[12],利用自適應(yīng)小波濾波算法進(jìn)行數(shù)據(jù)質(zhì)量提升。傳統(tǒng)的小波濾波常用閾值選取公式為:
(2)
式中:、和分別為噪聲均方差、信號提升層數(shù)和信號范圍。由于無效異常值的出現(xiàn)是隨機(jī)不可預(yù)知的,無法得到數(shù)據(jù)和噪聲的統(tǒng)計(jì)特性先驗(yàn)規(guī)律,故針對規(guī)律失真的情況,利用數(shù)據(jù)真實(shí)性定義其自適應(yīng)閾值范圍,改進(jìn)后的自適應(yīng)閾值小波濾波為:
(3)
(4)
式中:和分別為當(dāng)前采樣值和上次濾波結(jié)果。
作為LSTM改進(jìn)體的GRU雖然簡化了輸入和輸出,即LSTM的輸入、輸出、忘記門簡化為更新門和重置門,但是依舊保持了LSTM預(yù)測準(zhǔn)確率高的優(yōu)點(diǎn)。標(biāo)準(zhǔn)的GRU門控邏輯如圖3所示,時(shí)刻GRU狀態(tài)輸出為:
式中:、、和⊙ 分別為Sigmoid激活函數(shù)、權(quán)重矩陣、偏置向量和數(shù)據(jù)對應(yīng)位置的點(diǎn)乘運(yùn)算。
圖3 標(biāo)準(zhǔn)的GRU門控邏輯
從圖3中GRU的門控邏輯可知,重置門決定了如何將新數(shù)據(jù)與之前記憶結(jié)合,而更新門則決定了多少之前記憶的作用。因此,提高算法對無效異常數(shù)據(jù)魯棒性的關(guān)鍵在于如何和。為此,本文對GRU進(jìn)行改進(jìn),改進(jìn)后的GRU門控邏輯如圖4所示。本文根據(jù)自適應(yīng)小波濾波對數(shù)據(jù)質(zhì)量提升程度,將數(shù)據(jù)分為個(gè)周期段,將各周期段同一時(shí)刻的平均記憶作為標(biāo)準(zhǔn)記憶。利用標(biāo)準(zhǔn)記憶對GRU的重置門進(jìn)行選擇性記憶,即數(shù)據(jù)質(zhì)量高的多記憶、數(shù)據(jù)質(zhì)量差的少記憶。改進(jìn)后的GRU為:
(7)
(8)
圖4 改進(jìn)后的GRU門控邏輯
為了驗(yàn)證本文模型在異常、無效數(shù)據(jù)影響情況下均具有較高的準(zhǔn)確率和可靠性,進(jìn)行了以下實(shí)驗(yàn)。實(shí)驗(yàn)分為兩部分:原始數(shù)據(jù)情況下不同算法之間對比和數(shù)據(jù)濾波后不同算法之間對比。從圖5和表2的對比中可知,無效異常數(shù)據(jù)導(dǎo)致的失真規(guī)律雖然對GRU的記憶造成了影響,但是本文對重置門進(jìn)行了選擇性記憶,失真較大的規(guī)律被遺忘,預(yù)測準(zhǔn)確率相對于ARIMA、LSTM和GRU分別提高了76%、16%和11%。
另外,經(jīng)過本文方法濾波后的光伏發(fā)電數(shù)據(jù)的質(zhì)量得以提升,以周三和周四數(shù)據(jù)改善結(jié)果最為明顯,數(shù)據(jù)上升沿和下降沿的失真得到了抑制。本文模型、ARIMA、LSTM和GRU利用濾波后數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率相對于未濾波數(shù)據(jù)預(yù)測準(zhǔn)確率分別提高了28%、56%、13%、13.8%;利用失真得到抑制的數(shù)據(jù)進(jìn)行預(yù)測,本文模型預(yù)測準(zhǔn)確率相對于ARIMA、LSTM和GRU分別提高了61%、30%和25%。
圖5 數(shù)據(jù)未濾波情況下,本文方法與ARIMA、LSTM、GRU預(yù)測結(jié)果對比
圖6 本文方法與Kalman濾波對數(shù)據(jù)質(zhì)量提升情況對比
圖7 數(shù)據(jù)濾波后,本文方法與ARIMA、LSTM、GRU預(yù)測結(jié)果對比
表2 ARIMA、LSTM、GRU和本文方法預(yù)測光伏發(fā)電的負(fù)荷與真實(shí)值的RMSE對比
針對電力大數(shù)據(jù)分析過程中存在無效、異常數(shù)據(jù)導(dǎo)致數(shù)據(jù)質(zhì)量較差,以及當(dāng)前數(shù)據(jù)分析方法難以在規(guī)律失真情況下分析真實(shí)規(guī)律的問題,提出了基于改進(jìn)GRU的調(diào)控大數(shù)據(jù)分析模型。該模型采取自適應(yīng)小波濾波的方法提高數(shù)據(jù)質(zhì)量,降低數(shù)據(jù)規(guī)律失真率;并通過改進(jìn)GRU的重置門的記憶細(xì)胞提高模型抗數(shù)據(jù)失真魯棒性。