邱 明, 魯冠軍, 吳昊天, 楊仲卿
(1. 重慶大學(xué) 能源與動力工程學(xué)院, 重慶 400044; 2. 重慶電力高等??茖W(xué)校 動力工程學(xué)院, 重慶400053; 3.華北電力大學(xué) 電氣與電子工程學(xué)院, 北京 102206)
由于光伏發(fā)電系統(tǒng)具有可持續(xù)、 環(huán)境友好和發(fā)電效率較高等特點,因此,該系統(tǒng)越來越受到人們的重視。目前,我國光伏行業(yè)已進入了產(chǎn)業(yè)結(jié)構(gòu)調(diào)整階段, 各光伏企業(yè)均由原來的粗獷式發(fā)展模式轉(zhuǎn)變?yōu)榫毣l(fā)展模式。 2019 年,我國光伏市場結(jié)構(gòu)調(diào)整初見成效, 分布式光伏電站和集中式光伏電站的占比逐漸趨于平穩(wěn), 光伏市場的發(fā)展?fàn)顩r也趨于穩(wěn)定。 在如此大規(guī)模的光伏發(fā)電接入電力系統(tǒng)的情況下, 如何有效協(xié)調(diào)可再生能源和常規(guī)能源的規(guī)劃與運行, 是當(dāng)前可再生能源持續(xù)發(fā)展的關(guān)鍵問題。 可再生能源出力的不確定性給整個能源系統(tǒng)帶來極大挑戰(zhàn)。 因此, 須要對集中式、 分布式太陽能光伏發(fā)電系統(tǒng)的出力情況均進行 有 效 預(yù) 測[1],[2]。
從上世紀(jì)70 年代開始,針對光伏發(fā)電功率預(yù)測問題,國內(nèi)外學(xué)者已經(jīng)展開廣泛研究。光伏發(fā)電功率預(yù)測方法通常包括直接計算法和間接計算法。其中,直接計算法可基于氣象參數(shù)變化過程計算得到光伏發(fā)電輸出功率; 對于基于數(shù)據(jù)驅(qū)動的間接法, 使用機器學(xué)習(xí)模型對歷史輸出數(shù)據(jù)進行訓(xùn)練學(xué)習(xí)。間接計算法包括序列建模算法、支持向量 回 歸(Support Vector Regressor,SVR)、神 經(jīng) 網(wǎng)絡(luò)(Artificial Neural Network,ANN)和混合建模方式[3]~[8]。文獻[9]分析了目前常用的光伏發(fā)電功率預(yù)測方法,包括點預(yù)測和概率預(yù)測,并分別對當(dāng)前的預(yù)測算法和評價指標(biāo)等進行了梳理、歸類和總結(jié)。文獻[10]提出了一種分布式光伏電站預(yù)測模型,該模型使用臨近區(qū)域的光伏電站進行建模, 使用長短期記憶網(wǎng)絡(luò)對時間特征進行抓取, 使用圖卷積網(wǎng)絡(luò)對電站空間特征進行提取, 并根據(jù)提取的時空特征信息和歷史數(shù)據(jù)來訓(xùn)練光伏發(fā)電預(yù)測模型。 文獻[11]采用深度學(xué)習(xí)方法對光伏出力進行預(yù)測,預(yù)測結(jié)果表明,深度學(xué)習(xí)算法優(yōu)于淺層學(xué)習(xí)算法。 文獻[12] 提出了一種小波變換(Wavelet Transform)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測算法,并利用該算法對光伏陣列的超短期功率進行了有效預(yù)測。 文獻[13]在泛在電力物聯(lián)網(wǎng)背景下,提出了一種基于Elman 網(wǎng)絡(luò)的光伏出力預(yù)測模型,并采用智能算法對該預(yù)測模型的權(quán)值進行優(yōu)化, 以提高預(yù)測精度。 文獻[14]針對環(huán)境溫度、環(huán)境濕度和太陽輻照度3 個因素, 建立基于云團變化的光伏短期發(fā)電功率預(yù)測模型和普適性的云規(guī)則生成器,利用主成分分析法對輸入數(shù)據(jù)進行降維處理,并使用遺傳算法對預(yù)測模型進行優(yōu)化, 分析結(jié)果表明,該模型具有良好的預(yù)測能力。 文獻[15]重點分析了光伏電站數(shù)據(jù)的質(zhì)量, 并采用清洗方式對數(shù)據(jù)進行異常處理,此外,根據(jù)預(yù)測模型的成本約束和運行需求, 提出一種基于核函數(shù)極限學(xué)習(xí)機的分布式光伏發(fā)電功率預(yù)測方法。
在復(fù)雜的光伏電站運行環(huán)境下, 本文提出了一種基于數(shù)據(jù)清洗與組合學(xué)習(xí)的光伏發(fā)電功率預(yù)測方法??紤]到變電站實際運行時,通信與傳輸過程中的數(shù)據(jù)遺漏狀況, 在數(shù)據(jù)輸入模型前采用KNN 算法對缺失數(shù)據(jù)進行補全;然后,利用Lasso算法將極限學(xué)習(xí)機 (Extreme Learning Machine,ELM)、 神經(jīng)網(wǎng)絡(luò)模型和Adaboost 模型的預(yù)測結(jié)果進行動態(tài)組合,以獲得最終預(yù)測結(jié)果;最后,采用北京大興區(qū)的實際光伏發(fā)電數(shù)據(jù)來驗證模擬結(jié)果的準(zhǔn)確性。
本文研究對象為光伏電站。 光伏電站一般處于配電網(wǎng)和電壓等級較低的輸電網(wǎng)中, 屬于電力系統(tǒng)的末端環(huán)節(jié), 該電壓等級下的電網(wǎng)并不能如大電網(wǎng)一樣做到精細化管理。 配電網(wǎng)和電壓等級較低的輸電網(wǎng)的通信和信息系統(tǒng)發(fā)展得相對滯后, 使得該電壓等級下電力系統(tǒng)中測量誤差和傳輸設(shè)備故障率均較高, 使得設(shè)備可靠性變差。 此外, 配電網(wǎng)中管理調(diào)度人員的數(shù)量和維修人員的專業(yè)素質(zhì)也有待提高, 人為因素造成的數(shù)據(jù)質(zhì)量不高的狀況也應(yīng)該得到高度重視。
光伏電站數(shù)據(jù)極易出現(xiàn)缺失, 如果不對缺失數(shù)據(jù)進行有效清洗, 直接將缺失數(shù)據(jù)嵌套入預(yù)測模型進行訓(xùn)練,對預(yù)測模型產(chǎn)生巨大影響,從而導(dǎo)致光伏出力預(yù)測的精度大幅度降低。 對于降壓變電站的數(shù)據(jù)缺失問題,預(yù)測模型使用KNN 算法進行數(shù)據(jù)清洗,KNN 算法是缺失數(shù)據(jù)清洗中較為有效、計算復(fù)雜度較低的算法,在機器學(xué)習(xí)實際工程的數(shù)據(jù)預(yù)處理方面得到廣泛應(yīng)用,考慮到KNN 算法中歐式距離越近,數(shù)據(jù)間相似度越高這一情況,KNN 算法選取了數(shù)據(jù)集中與缺失數(shù)據(jù)最近鄰的、最完整的k 個數(shù)據(jù)補全缺失值。KNN 算法模型的計算式為
式中:Yi為第i 個樣本點的前m 維特征向量,Yj=(yi1,yi2,yi3,…,yir),其中,yir為第i 個樣本點的第r維屬性。
ELM 屬于單層前饋神經(jīng)網(wǎng)絡(luò)算法。ELM 輸出函數(shù)f(x)的表達式為
式中:h(x)為隱藏層計算所得的輸出;β為隱藏層與輸出層之間的連接權(quán)重,β=[β1,…,βL]T。
核函數(shù)極限學(xué)習(xí)機的誤差表達式為
式中:L 為神經(jīng)元的數(shù)目;βi,hi(x)分別為第i 個節(jié)點的權(quán)值和輸出值;fO(x)為真實標(biāo)記值。
核函數(shù)極限學(xué)習(xí)機的基本架構(gòu)如圖1 所示。
圖1 核函數(shù)極限學(xué)習(xí)機的基本構(gòu)架Fig.1 Kernel-based extreme learning machine
核函數(shù)極限學(xué)習(xí)機輸出函數(shù)fL(x)的表達式為
式中:gi(x),G(ai,bi,x)均為第i 個隱藏節(jié)點的輸出函數(shù);ai,bi均為隱藏層參數(shù)。
訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)所需要權(quán)重的最優(yōu)二乘解的表達式為
式中:T 為預(yù)測目標(biāo)值;H 為神經(jīng)網(wǎng)絡(luò)隱藏層矩陣。
模型輸出權(quán)重的最小標(biāo)準(zhǔn)二乘解表達式為
式中:H*為H 的廣義逆矩陣;1/C 為常數(shù)。
式(7)中的1/C,能夠使求解結(jié)果具有更好的泛化能力。
Adaboost 模型為疊加集成模型, 它訓(xùn)練了多個弱擬合模型,然后將各個弱擬合模型組合起來,構(gòu)成一個強預(yù)測模型。 其總體思路是對正確樣本賦予較低權(quán)值,對錯誤樣本賦予較高權(quán)值,通過不斷加權(quán)組合,提高預(yù)測模型的性能。
Adaboost 模型的計算步驟如下。
①從樣本中選取n 組訓(xùn)練數(shù)據(jù), 設(shè)初始化數(shù)據(jù)的分布權(quán)值為Di(i)=1/n。
②在訓(xùn)練第t 個弱學(xué)習(xí)器時, 用訓(xùn)練數(shù)據(jù)訓(xùn)練決策樹,從而得到誤差之和et為Dl(i)。
③根據(jù)預(yù)測誤差之和et計算弱學(xué)習(xí)模型的權(quán)重αt。 αt的計算式為
④根據(jù)弱學(xué)習(xí)器調(diào)整下一輪訓(xùn)練樣本的權(quán)重,更新公式為
式中:Dt(i)為第t 輪的權(quán)值,i=1,2,…,n;yt為第t輪的學(xué)習(xí)器;Bt為第t 輪的歸一化因子。
⑤訓(xùn)練T 輪以后, 得到T 組弱學(xué)習(xí)器f(gt,αtt), 由T 組弱學(xué)習(xí)器組合可以得到一個強學(xué)習(xí)器h(x)。 h(x)的計算式為
Lasso 回歸方法是基于正則化的線性回歸分析方法, 主旨思想是在相關(guān)系數(shù)絕對值之和小于一個閾值的條件下,使得殘差的平方和最小化。
普通線性模型的表達式為
式中:Y 為最終負荷的預(yù)測值;X為第一層模型的預(yù)測值,X=(X(1),X(2),X(3)),其中,X(1),X(2),X(3)分別為第一層模型中ELM 模型、Adaboost 模型和ANN 模 型 的 預(yù) 測 值;ε 為 隨 機 誤 差 項,ε=(ε1,ε2,..,εn);r 為回歸系數(shù)。
Lasso 回歸方法估計的表達式為
在模型訓(xùn)練過程中須要求解權(quán)重, 當(dāng)權(quán)值計算完成后,表明負荷預(yù)測模型已建立完成。
本文預(yù)測模型的建立過程包括數(shù)據(jù)清洗、模型訓(xùn)練和預(yù)測指標(biāo)等過程。在數(shù)據(jù)的預(yù)處理階段,數(shù)據(jù)清洗是整個數(shù)據(jù)分析過程中不可缺少的一環(huán),也是較易被忽視的一環(huán),以往的文獻并沒有對其足夠重視, 數(shù)據(jù)清洗的質(zhì)量直接決定了模型預(yù)測效果。在實際工程應(yīng)用中,數(shù)據(jù)清洗時間往往占分析過程的50%~80%。由各電壓等級光伏電站的實際情況可知, 低電壓等級光伏電站的管理水平較低,相對來說,數(shù)據(jù)缺失的概率較高。因此,須要在數(shù)據(jù)輸入模型前充分對數(shù)據(jù)進行清洗。 本文選取了光伏輸入相關(guān)特征,輸入數(shù)據(jù)包括總輻射S、組件溫度Td、環(huán)境溫度To、氣壓A、相對濕度H 和歷史光伏發(fā)電功率P 進行數(shù)據(jù)清洗[12]。
單個模型容易陷入局部最小值, 且統(tǒng)計假設(shè)空間有限, 本文采用的模型組合可以提高預(yù)測算法的可靠性。 對于ELM 模型、Adaboost 模型和ANN 模型的預(yù)測結(jié)果, 采用Lasso 線性組合的方式進行學(xué)習(xí)。 為了確保Lasso 算法中各參數(shù)的實時性, 本文采用動態(tài)更新的方式改變Lasso 算法中的各個參數(shù), 從而獲得時序滾動的光伏預(yù)測模型,保證當(dāng)前模型與數(shù)據(jù)的相互匹配。圖2 為時序滾動的光伏功率預(yù)測模式。
圖2 時序滾動的光伏功率預(yù)測模式Fig.2 PV output forecasting time horizon-rolling
本文模型的訓(xùn)練流程:首先,采用KNN 算法對缺失數(shù)據(jù)進行填充, 將填充后數(shù)據(jù)輸入到ANN模型、Adaboost 模型和ELM 模型中,并分別對這3個模型進行訓(xùn)練; 為了避免ANN 模型和ELM 模型計算結(jié)果不確定性的影響, 本文以多組不同的參數(shù)值對ANN 模型和ELM 模型進行初始化,并從多個不同的初始點開始探索, 從而有效避免陷入不同的局部極小值, 然后獲得更接近全局最小的結(jié)果;最后,將各模型的預(yù)測結(jié)果輸入Lasso 線性模型,得到最終的光伏功率預(yù)測結(jié)果。基于數(shù)據(jù)清洗與模型組合的光伏功率預(yù)測方法的計算流程圖如3 所示。
圖3 基于數(shù)據(jù)清洗與模型組合的光伏功率預(yù)測方法流程圖Fig.3 PV output forecasting based on data cleansing and model aggregation
本文選用北京大興區(qū)的光伏發(fā)電系統(tǒng)實際運行數(shù)據(jù)對模擬結(jié)果進行驗證。 光伏發(fā)電系統(tǒng)總裝機容量分別為400 kW,4 MW, 選取2017 年數(shù)據(jù)為訓(xùn)練數(shù)據(jù),2018 年1 月份數(shù)據(jù)為測試數(shù)據(jù)。
本文的誤差指標(biāo)主要包括均方根誤差(Root Mean Square Error,RMSE) 和標(biāo)準(zhǔn)化平均相對誤差(Normalized Mean Absolute Error,nMAE)。
RMSE,nMAE 的表達式分別為
式中:fi,ti分別為i 時刻光伏發(fā)電系統(tǒng)的實際發(fā)電功率和預(yù)測發(fā)電功率;tm為最大裝機容量。
為了分析不同數(shù)據(jù)填充方案的優(yōu)劣,將KNN補全算法、 線性插值的補全方法和不使用補全算法的計算結(jié)果進行對比。在相同的模型架構(gòu)下,分別采用3 種方式對模型進行訓(xùn)練。
不同數(shù)據(jù)補全算法對預(yù)測結(jié)果影響見表1。
表1 不同數(shù)據(jù)清洗算法對預(yù)測結(jié)果的影響Table 1 Effect of different data cleansing algorithm
由表1 可知,電壓等級越低、額定容量越小的光伏電站,數(shù)據(jù)缺失的情況越嚴(yán)重,這表明光伏電站的管理水平與電壓等級具有相關(guān)性, 即電壓等級越低、 額定容量越小的光伏電站的管理水平越低。 不同類型的光伏電站預(yù)測功率呈現(xiàn)不同的誤差分布。此外,不使用補全算法對預(yù)測精度影響很大, 這是由于刪除缺失數(shù)據(jù)的信息破壞了數(shù)據(jù)原有的內(nèi)部特征,使得預(yù)測精度大幅度降低。采用線性插值方法時, 只能考慮輸入數(shù)據(jù)中單一特征變量的存量數(shù)據(jù)結(jié)構(gòu), 對于缺失數(shù)據(jù)也只是簡單的采用線性方法進行補全,因此,線性插值方法預(yù)測精度的提升幅度有限。利用KNN 補全算法對缺失數(shù)據(jù)進行填充,能夠較好地還原數(shù)據(jù)初始形態(tài),使得預(yù)測結(jié)果的精度較高。
Lasso 算法動態(tài)地學(xué)習(xí)了各個模型的權(quán)重。因此,須要分析各個子模型對應(yīng)權(quán)值的趨勢。圖4 為Lasso 模型權(quán)值隨時間的變化情況,圖中:β1,β2,β3分別為ELM 模型,Adaboost 模型和ANN 模型的權(quán)值。
圖4 Lasso 模型權(quán)值隨時間變化情況Fig.4 Time-varying weights of Lasso model
由圖4 可知,Lasso 模型在不同時段通過計算獲得不同模型的權(quán)值, 說明在當(dāng)前預(yù)測場景條件下, 各模型具有不同的優(yōu)勢,Lasso 算法能夠充分學(xué)習(xí)到各個子模型的優(yōu)點, 使得預(yù)測效果得到進一步提升。
天氣情況對光伏輸出功率影響較大。因此,為了進一步驗證本文算法的準(zhǔn)確性和優(yōu)越性, 分別在晴天和陰天的場景下, 對組合學(xué)習(xí)模型和單模型(ANN)的預(yù)測結(jié)果進行分析。 圖5 為不同天氣條件下, 額定輸出功率分別為400 kW,4 MW 的光伏發(fā)電系統(tǒng)輸出功率的預(yù)測結(jié)果隨時間的變化情況。
圖5 不同天氣條件下,不同額定輸出功率光伏發(fā)電系統(tǒng)輸出功率的預(yù)測結(jié)果隨時間的變化情況Fig.5 PV power output forecasting under different weather conditions as time change with different rated power
將本文組合學(xué)習(xí)預(yù)測模型的預(yù)測結(jié)果與SVM 模型[6]、ANN 模型[7]和時間序列算法[8]的預(yù)測結(jié)果進行比較。 其中,ANN 模型的內(nèi)置節(jié)點分別為14,100,1;SVM 模型核函數(shù)參數(shù)為徑向基函數(shù),懲罰系數(shù)為1 000,核函數(shù)系數(shù)為10-3。各個算法的預(yù)測結(jié)果如表2 所示。
表2 不同場景下多個模型的光伏預(yù)測誤差Table 2 Photovoltaic forecasting error of several models
由表2 和圖5 可知,與陰雨天氣相比,晴朗天氣下各個模型的預(yù)測精度較高, 這是因為晴朗天氣下光伏出力的變化較為平穩(wěn), 導(dǎo)致光伏出力的變化曲線較為平滑。此外,在陰雨天氣下各個模型的預(yù)測誤差普遍偏大, 這是由于云層與太陽輻照度的變化使得光伏出力產(chǎn)生突變。 對于模型的預(yù)測效果而言,相較于其他模型,組合學(xué)習(xí)模型的計算結(jié)果能更好地顯示出光伏出力的變化趨勢。 在多個光伏預(yù)測的場景下, 本文模型均獲得了最高的精度和泛化能力, 這是因為本文組合模型聚合了多種學(xué)習(xí)算法, 并將其動態(tài)結(jié)合以提高本文模型的泛化性和魯棒性。對其他算法而言,神經(jīng)網(wǎng)絡(luò)只使用了單一學(xué)習(xí)方法,容易陷入局部極小值,使得整體泛化性不高。 支持向量機輸入數(shù)據(jù)挖掘的信息有限,雖然該算法也有較高的預(yù)測精度,但仍低于本文的預(yù)測方法。 時間序列算法的學(xué)習(xí)能力較弱, 只能計及光伏的歷史信息, 預(yù)測精度也偏低。由此可見,本文使用的組合預(yù)測模型對于電力系統(tǒng)制定合理的運行策略有著較高參考價值。
本文提出一種基于數(shù)據(jù)清洗與組合學(xué)習(xí)的光伏發(fā)電功率預(yù)測方法。 考慮到變電站實際運行中通信和傳輸過程中的數(shù)據(jù)遺漏情況, 在數(shù)據(jù)輸入模型前采用KNN 算法對缺失數(shù)據(jù)和異常數(shù)據(jù)進行清洗,然后,通過Lasso 算法將ELM 模型、ANN模型和Adaboost 模型的預(yù)測結(jié)果進行動態(tài)組合。模擬結(jié)果表明:利用KNN 算法能夠良好地清洗光伏發(fā)電站中的缺失數(shù)據(jù)和異常數(shù)據(jù), 使得整體數(shù)據(jù)能夠恢復(fù)到原有特征; 組合學(xué)習(xí)方式能夠充分發(fā)揮多種算法的優(yōu)勢, 針對不同容量的光伏電站均有良好的預(yù)測結(jié)果; 晴天條件下, 本文模型的RMSE相較于神經(jīng)網(wǎng)絡(luò)、 支持向量機和時間序列分別提高了1.22%,1.83%,2.99%,陰雨天條件下,本文模型的RMSE 分別提高了0.66%,1.78%,4.68%。
目前,本文模型主要圍繞點預(yù)測展開,概率預(yù)測與組合學(xué)習(xí)方式的結(jié)合仍然有待于深入挖掘,數(shù)據(jù)的填充方式只考慮了同一尺度數(shù)據(jù)的相互關(guān)系,對于歷史數(shù)據(jù)的變化趨勢仍值得深入分析。