馮沛儒, 江桂芬, 徐加銀, 葉劍橋, 李生虎*
(1.國網(wǎng)安徽省電力有限公司經(jīng)濟(jì)技術(shù)研究院, 合肥 230061; 2.合肥工業(yè)大學(xué)電氣與自動化工程學(xué)院, 合肥 230009)
近些年,隨著光伏發(fā)電滲透率不但增大,電網(wǎng)的穩(wěn)定性、可靠性和經(jīng)濟(jì)性受到較大影響[1-2]。站在電網(wǎng)角度,有必要對光伏發(fā)電進(jìn)行精準(zhǔn)預(yù)測,以提高電網(wǎng)對光伏的調(diào)度能力和消納效率[3],增強(qiáng)電網(wǎng)的靈活性和穩(wěn)定性。
目前,光伏預(yù)測模型主要可分為物理預(yù)測、統(tǒng)計預(yù)測和組合預(yù)測[4]。物理預(yù)測是基于天氣預(yù)報,然后根據(jù)光電轉(zhuǎn)換效率得到光伏系統(tǒng)輸出功率,如何建立詳細(xì)的光電轉(zhuǎn)換模型是預(yù)測的關(guān)鍵。文獻(xiàn)[5]對光伏物理模型進(jìn)行了總結(jié),表明物理建模需要較大的運算時間。文獻(xiàn)[6]比較了多種光伏物理模型,通過對輻照強(qiáng)度分離和轉(zhuǎn)置建模,其預(yù)測精準(zhǔn)度有較大提升。物理預(yù)測優(yōu)點在于不需大量的歷史數(shù)據(jù),但是在物理模型中通常一些氣象因素測量難度大或無法測量,在實際工程中會存在模型適用性差、精度較低等問題。
統(tǒng)計預(yù)測是通過統(tǒng)計算法建立輸入和輸出映射模型,本質(zhì)上是“擬合”過程。常見預(yù)測方法有時間序列[7]、回歸分析[8]、特征工程[9]、隨機(jī)森林[10]、神經(jīng)網(wǎng)絡(luò)[11-12]等。通常這些方法將氣象因素作為整體輸入預(yù)測模型中,但氣象因素之間的時間尺度、影響大小是不同的,在預(yù)測中將其統(tǒng)一作為輸入可能會影響模型精確性[13]。
組合預(yù)測方法通過對光伏出力特征的有效分解然后對每個分量進(jìn)行預(yù)測,能發(fā)掘原始數(shù)據(jù)在不同時間尺度的變化趨勢[14-15]。為此,文獻(xiàn)[16]提出由經(jīng)驗?zāi)J椒纸?empirical mode decomposition,EMD),然后通過相關(guān)向量機(jī)模型來預(yù)測短期光伏功率,但EMD分解后會丟失原始序列的一些細(xì)節(jié),導(dǎo)致效果精度下降。文獻(xiàn)[17-18]通過采用變分模式分解,對分量分別采用回聲狀態(tài)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)預(yù)測,但由于該分解方法需先定義分解個數(shù),不能自適應(yīng)分解,可能使預(yù)測精度降低。文獻(xiàn)[19]將氣象因素EMD分解后降維分析得到的主成分,然后建立LSTM預(yù)測模型,但未分析各主成分和光伏之間相關(guān)性,忽略了時間尺度的影響。文獻(xiàn)[20]采用相似日處理氣象數(shù)據(jù),以達(dá)到數(shù)據(jù)降維的目的,但相似日數(shù)據(jù)量不同可能會影響預(yù)測精度。
綜上,現(xiàn)有組合預(yù)測方法未體現(xiàn)分解后光伏分量和氣象因素關(guān)系,即忽略光伏分量的時間尺度和氣象因素的時間尺度的相關(guān)性?,F(xiàn)提出基于互補(bǔ)集合經(jīng)驗?zāi)B(tài)分解(complementary ensemble empirical mode decomposition,CEEMD)、雙向長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)和隨機(jī)森林(random forest regression,RFR)的組合算法的光伏預(yù)測模型。首先,利用CEEMD將光伏分解為具有不同時間尺度的分量,以體現(xiàn)出光伏的時間特性;然后對光伏分量與空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度5種氣象因素進(jìn)行相關(guān)性分析,劃分強(qiáng)、弱相關(guān)分量,即在光伏中體現(xiàn)氣象因素的時間尺度;對于強(qiáng)相關(guān)分量采用RFR預(yù)測,而弱相關(guān)分量采用BiLSTM預(yù)測,以增加氣象因素和分量之間關(guān)聯(lián);最后,由各個分量模型預(yù)測結(jié)果進(jìn)行組合得到最后預(yù)測結(jié)果。
在短期光伏預(yù)測中,氣象因素存在一定的時間尺度,例如,溫度在幾分鐘內(nèi)不會劇烈變化,而風(fēng)速在短時間內(nèi)可能會出現(xiàn)較大變化。傳統(tǒng)方法直接分析氣象因素和光伏序列的相關(guān)性無法體現(xiàn)光伏發(fā)電中的氣象因素的時間尺度。而光伏發(fā)電量在分解后可得頻率不同的分量,其各個分量的時間尺度和氣象因素時間尺度存在相關(guān)性??紤]氣象因素和各光伏分量的相關(guān)性大小,則可體現(xiàn)出光伏分量和氣象因素的關(guān)系,對不同光伏分量篩選不同氣象因素和使用不同預(yù)測模型,可提高預(yù)測精度與效果。同時能提高對氣象數(shù)據(jù)的利用效率。
為判斷兩個變量之間密切程度,即各個分量和氣象因素之間的相關(guān)程度,定義Pearson相關(guān)系數(shù),表達(dá)式為
(1)
式(1)中:at為t時刻的氣象因素數(shù)值;xt為t時刻光伏出力數(shù)值;n為采樣時間點個數(shù)。相關(guān)系數(shù)R的絕對值越趨近于1,表示變量之間的相關(guān)關(guān)系越強(qiáng);反之,則表示相關(guān)關(guān)系越弱。
主要考慮空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度5種氣象因素。圖1為預(yù)測主要研究思路。通過對光伏序列分解,得到光伏的不同時間尺度的分量,再分析各分量與氣象因素相關(guān)性,以此體現(xiàn)氣象的時間尺度對光伏分量的影響,能最大利用氣象因素數(shù)據(jù),提高預(yù)測精度。
圖1 預(yù)測主要研究思路
根據(jù)分量的相關(guān)性,即弱相關(guān)分量受氣象因素的影響程度很小,利用光伏分量存在時間特性,采用BiLSTM模型預(yù)測。強(qiáng)相關(guān)分量可通過氣象因素進(jìn)行回歸預(yù)測,由于神經(jīng)網(wǎng)絡(luò)存在對多變量預(yù)測時間較長問題,利用RFR模型預(yù)測,以提高預(yù)測速度。
為體現(xiàn)光伏序列中的時間尺度,需要對其進(jìn)行分解處理。EMD可實現(xiàn)自適應(yīng)分解,相比其他分解算法無需指定分解層數(shù)和基函數(shù)。EMD[21]分解后原始序列可表示為
(2)
式(2)中:zi(t)為第i個t時刻本征模態(tài)函數(shù)(intrinsic mode function,IMF)分量;r(t)為殘余分量;t為采樣時刻;n為IMF的數(shù)量。但EMD由于參數(shù)設(shè)置不當(dāng),易產(chǎn)生模態(tài)混疊等問題。
CEEMD在原始序列加入N對正、負(fù)的白噪聲,避免模態(tài)混疊現(xiàn)象,處理如下。
(3)
由于弱相關(guān)分量不受氣象因素影響,可通過光伏分量本身的時間特性進(jìn)行預(yù)測。而長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)適用于有關(guān)時間序列預(yù)測問題。LSTM結(jié)構(gòu)如圖2所示。
圖2 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
LSTM模型共有3個輸入,分別為當(dāng)前時刻狀態(tài)xt、上一時刻的短期信息ht-1和上一時刻的長期信息Ct-1。LSTM門控單元狀態(tài)值計算如下。
(4)
式(4)中:σ為sigmoid函數(shù);ft、It、ot分別為t時刻遺忘門(f)狀態(tài)、輸入門(I)狀態(tài)和輸出門(o)狀態(tài);W、b分別為門控單元的權(quán)重系數(shù)和偏置系數(shù)。
得到門控單元狀態(tài)后,計算長、短期信息Ct、ht狀態(tài),公式為
(5)
BiLSTM構(gòu)建前、后向LSTM雙層訓(xùn)練結(jié)構(gòu)如圖3所示,在時間維度上考慮到未來因素,其輸出結(jié)果由前、后向LSTM決定[22],即有
圖3 BiLSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
Ht=concat(ht,f,ht,b)
(6)
式(6)中:Ht為BiLSTM輸出;concat為矩陣拼接操作;ht,f、ht,b分別為前、后向LSTM的輸出。
利用RFR對共線性數(shù)據(jù)不敏感、算法收斂快的優(yōu)點,通過氣象因素對強(qiáng)相關(guān)分量進(jìn)行預(yù)測[23]。RFR由決策樹組成。
RFR從原始樣本集中有放回地隨機(jī)抽取訓(xùn)練樣本,并訓(xùn)練得到單個弱學(xué)習(xí)器,在隨機(jī)森林回歸模型中該弱學(xué)習(xí)器為回歸樹,重復(fù)這一過程生成多棵回歸樹組成隨機(jī)森林,并由所有樹的預(yù)測值的平均值決定最終預(yù)測結(jié)果,RFR流程如圖4所示。
圖4 RFR預(yù)測流程
生成決策樹的節(jié)點誤差函數(shù)為
(7)
式(7)中:Fu為節(jié)點誤差函數(shù);M為當(dāng)前節(jié)點樣本個數(shù);S1、S2分別為左、右子節(jié)點的訓(xùn)練樣本;sa1和sa2分別為左、右子節(jié)點的訓(xùn)練樣本均值;s為當(dāng)前節(jié)點。
CEEMD-BiLSTM-RFR預(yù)測模型如圖5所示。相比傳統(tǒng)組合預(yù)測方法,主要考慮了氣象因素和光伏分量之間的相關(guān)性,分析不同時間尺度分量和空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度的相關(guān)性,劃分強(qiáng)、弱相關(guān)分量;根據(jù)分量特性不同所采用不同預(yù)測模型。具體步驟如下。
圖5 CEEMD-BiLSTM-RFR流程
步驟1CEEMD將光伏序列分解若干個獨立的分量,其體現(xiàn)了時間尺度。
步驟2用Pearson相關(guān)系數(shù)分析各IMF分量與氣象因素之間的關(guān)系。
步驟3篩選與氣象因素顯著相關(guān)的強(qiáng)相關(guān)光伏分量,采用RFR建立預(yù)測模型;而不顯著相關(guān)的分量,可通過BiLSTM進(jìn)行預(yù)測。
步驟4將預(yù)測后分量相加,重構(gòu)光伏序列。
將原始光伏數(shù)據(jù)和氣象因素進(jìn)行標(biāo)準(zhǔn)化處理以消除單位差異,表達(dá)式為
(8)
式(8)中:Zt為標(biāo)準(zhǔn)化后的數(shù)據(jù)。
用歸一化平均百分誤差(normalized average percentage error,MAPE)、均方根誤差(root-mean-square error,RMSE)、平均絕對誤差(mean absolute error,MAE)和判定系數(shù)(Rsquared,RS)為評價依據(jù),判斷模型預(yù)測精度,計算公式如下。
(9)
(10)
(11)
(12)
實驗數(shù)據(jù)為安徽省蚌埠市光伏電站提供的2021年7月1—31日共31 d的出力數(shù)據(jù),時間精度為30 min,共計1 488個采樣點,并對數(shù)據(jù)進(jìn)行脫敏處理。光伏電站環(huán)境檢測儀獲取的空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度5種環(huán)境序列數(shù)據(jù)。其環(huán)境監(jiān)測儀器的運行情況良好,數(shù)據(jù)來源可靠。以2021年7月1—22日數(shù)據(jù)為訓(xùn)練集,2021年7月23—31日數(shù)據(jù)為驗證集。
短期預(yù)測的時間尺度在0~72 h,主要用來制定調(diào)度計劃、預(yù)測電力市場等,對過于久遠(yuǎn)歷史數(shù)據(jù)依賴性不高。文獻(xiàn)[25-26]所述的訓(xùn)練數(shù)據(jù)集大小和本文數(shù)據(jù)集大小相似。
設(shè)置CEEMD的噪聲標(biāo)準(zhǔn)偏差為0.2,白噪聲次數(shù)為50,最大迭代次數(shù)為200。分解結(jié)果如圖6所示。
圖6 CEEMD分解結(jié)果
由圖6可知,光伏數(shù)據(jù)分解11個IMF分量和1個余項RES,IMF1~I(xiàn)MF4波動頻率較高,具有很強(qiáng)的隨機(jī)性;IMF5和IMF6呈周期波動,幅值變化較為均勻,可能與氣象因素的時間尺度相吻合;IMF7~I(xiàn)MF11比較平滑,波動較小;余項呈下降趨勢,屬于長期分量。
分別計算空氣溫度(W1)、太陽輻射度(W2)、風(fēng)速(W3)、風(fēng)向(W4)和空氣濕度(W5)和各個光伏分量的Pearson相關(guān)系數(shù),如表1所示。
表1 光伏分量與氣象因素Pearson相關(guān)系數(shù)
可以看出,光伏分量IMF5和IMF6和太陽輻射度、空氣溫度、空氣濕度呈較強(qiáng)的正相關(guān)性,可認(rèn)為IMF5和IMF6時間尺度和三種氣象因素時間尺度高度相似;IMF9受風(fēng)向、空氣濕度影響較大;IMF10的時間尺度和風(fēng)速的時間尺度存在相關(guān)性。
用隨機(jī)搜索調(diào)整回歸樹數(shù)目、內(nèi)部節(jié)點再劃分所需最小樣本數(shù)和葉子節(jié)點最少樣本數(shù)3個參數(shù),以避免RFR過擬合。BiLSTM主要由輸入層、輸出層和隱藏層決定。模型調(diào)整后參數(shù)設(shè)置如表2所示。
表2 模型參數(shù)設(shè)置
為驗證所提算法有效性,分別建立LSTM、BiLSTM、EMD-LSTM[27]、EMD-BiLSTM、CEEMD-BiLSTM、CEEMD-RFR和本文算法共7種模型,以晴天(7月23日)和多云(7月30日)預(yù)測結(jié)果為例,計算評價指標(biāo),結(jié)果如圖7、表3、圖8、表4所示。
表4 多云(7月30日)不同算法預(yù)測結(jié)果指標(biāo)對比
圖7 晴天(7月23日)預(yù)測結(jié)果對比
圖8 多云(7月30日)預(yù)測結(jié)果對比
圖7為晴天(7月23日)7種模型預(yù)測結(jié)果比,7種模型都有較好的預(yù)測結(jié)果。由表3可知,EMD-LSTM相比EMD-BiLSTM的MAPE、RMSE和MAE指標(biāo)降低了24.62%、0.218和0.09,RS指標(biāo)提高了0.026。同時,通過對比CEEMD-BiLSTM和CEEMD-RFR指標(biāo)可知,分解后采用BiLSTM比RFR預(yù)測精度要高,故所提算法中使用BiLSTM是合理且有效的。本文算法相比其他算法MAPE、RMSE和MAE指標(biāo)最低,RS指標(biāo)最接近于1,其預(yù)測精度較高。
圖8為多云(7月30日)預(yù)測結(jié)果對比,由于為多云天,光伏出力波動較大,7種模型都存在預(yù)測誤差,但本文算法擬合效果最好。由表4可知,采用單一整體預(yù)測模型(LSTM和BiLSTM)由于未充分考慮光伏隨機(jī)波動性帶來的影響,導(dǎo)致其預(yù)測精度較差。經(jīng)過EMD或者CEEMD引入,分解出了光伏不同時間尺度下的分量,其預(yù)測結(jié)果都有提高。其中, CEEMD-BiLSTM相比EMD-BiLSTM的MAPE、RMSE和MAE指標(biāo)降低了5.103%、0.318和0.202,RS指標(biāo)提高了0.18。本文算法由于考慮到氣象因素和分量之間的關(guān)系,相比CEEMD-BiLSTM的MAPE、RMSE和MAE指標(biāo)降低了4.524%、0.276和0.177,RS指標(biāo)提高了0.075。相比CEEMD-RFR的MAPE、RMSE和MAE指標(biāo)降低了6.979%、0.282和0.124。對7種模型誤差指標(biāo)分析,本文算法相比其余算法,由于考慮光伏分量和氣象因素的關(guān)系,對分量預(yù)測精度進(jìn)一步提高,故預(yù)測效果較好。
提出了一種基于CEEMD-BiLSTM-RFR的光伏預(yù)測方法,考慮到光伏分量和氣象因素的關(guān)系,體現(xiàn)了氣象因素的時間尺度,提高了氣象數(shù)據(jù)利用效率和預(yù)測精度。結(jié)論如下。
(1)采用CEEMD方法自適應(yīng)分解光伏序列,使光伏的時間尺度分解地更加清晰、明確。
(2)對所提模型與CEEMD-BiLSTM模型的對比分析,采用相關(guān)性劃分強(qiáng)、弱分量可提高模型的精度。特別地,在多云天氣,所提模型預(yù)測精度可提高18.26%。
(3)所提算法CEEMD-BiLSTM-RFR在預(yù)測精度方面要比一般的單一模型或沒有深度處理的組合模型更高。