基于數(shù)據(jù)清洗與組合學(xué)習(xí)的光伏發(fā)電功率預(yù)測方法研究

2020-12-16 04:45魯冠軍吳昊天楊仲卿

可再生能源 2020年12期

邱明，魯冠軍，吳昊天，楊仲卿

（1. 重慶大學(xué) 能源與動力工程學(xué)院，重慶 400044； 2. 重慶電力高等?？茖W(xué)校動力工程學(xué)院，重慶400053； 3.華北電力大學(xué) 電氣與電子工程學(xué)院，北京 102206）

0 引言

由于光伏發(fā)電系統(tǒng)具有可持續(xù)、環(huán)境友好和發(fā)電效率較高等特點，因此，該系統(tǒng)越來越受到人們的重視。目前，我國光伏行業(yè)已進入了產(chǎn)業(yè)結(jié)構(gòu)調(diào)整階段，各光伏企業(yè)均由原來的粗獷式發(fā)展模式轉(zhuǎn)變?yōu)榫毣l(fā)展模式。 2019 年，我國光伏市場結(jié)構(gòu)調(diào)整初見成效，分布式光伏電站和集中式光伏電站的占比逐漸趨于平穩(wěn)，光伏市場的發(fā)展?fàn)顩r也趨于穩(wěn)定。在如此大規(guī)模的光伏發(fā)電接入電力系統(tǒng)的情況下，如何有效協(xié)調(diào)可再生能源和常規(guī)能源的規(guī)劃與運行，是當(dāng)前可再生能源持續(xù)發(fā)展的關(guān)鍵問題。可再生能源出力的不確定性給整個能源系統(tǒng)帶來極大挑戰(zhàn)。因此，須要對集中式、分布式太陽能光伏發(fā)電系統(tǒng)的出力情況均進行有效預(yù) 測[1]，[2]。

從上世紀(jì)70 年代開始，針對光伏發(fā)電功率預(yù)測問題，國內(nèi)外學(xué)者已經(jīng)展開廣泛研究。光伏發(fā)電功率預(yù)測方法通常包括直接計算法和間接計算法。其中，直接計算法可基于氣象參數(shù)變化過程計算得到光伏發(fā)電輸出功率；對于基于數(shù)據(jù)驅(qū)動的間接法，使用機器學(xué)習(xí)模型對歷史輸出數(shù)據(jù)進行訓(xùn)練學(xué)習(xí)。間接計算法包括序列建模算法、支持向量回歸（Support Vector Regressor，SVR）、神經(jīng) 網(wǎng)絡(luò)（Artificial Neural Network，ANN）和混合建模方式[3]～[8]。文獻[9]分析了目前常用的光伏發(fā)電功率預(yù)測方法，包括點預(yù)測和概率預(yù)測，并分別對當(dāng)前的預(yù)測算法和評價指標(biāo)等進行了梳理、歸類和總結(jié)。文獻[10]提出了一種分布式光伏電站預(yù)測模型，該模型使用臨近區(qū)域的光伏電站進行建模，使用長短期記憶網(wǎng)絡(luò)對時間特征進行抓取，使用圖卷積網(wǎng)絡(luò)對電站空間特征進行提取，并根據(jù)提取的時空特征信息和歷史數(shù)據(jù)來訓(xùn)練光伏發(fā)電預(yù)測模型。文獻[11]采用深度學(xué)習(xí)方法對光伏出力進行預(yù)測，預(yù)測結(jié)果表明，深度學(xué)習(xí)算法優(yōu)于淺層學(xué)習(xí)算法。文獻[12] 提出了一種小波變換（Wavelet Transform）與神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測算法，并利用該算法對光伏陣列的超短期功率進行了有效預(yù)測。文獻[13]在泛在電力物聯(lián)網(wǎng)背景下，提出了一種基于Elman 網(wǎng)絡(luò)的光伏出力預(yù)測模型，并采用智能算法對該預(yù)測模型的權(quán)值進行優(yōu)化，以提高預(yù)測精度。文獻[14]針對環(huán)境溫度、環(huán)境濕度和太陽輻照度3 個因素，建立基于云團變化的光伏短期發(fā)電功率預(yù)測模型和普適性的云規(guī)則生成器，利用主成分分析法對輸入數(shù)據(jù)進行降維處理，并使用遺傳算法對預(yù)測模型進行優(yōu)化，分析結(jié)果表明，該模型具有良好的預(yù)測能力。文獻[15]重點分析了光伏電站數(shù)據(jù)的質(zhì)量，并采用清洗方式對數(shù)據(jù)進行異常處理，此外，根據(jù)預(yù)測模型的成本約束和運行需求，提出一種基于核函數(shù)極限學(xué)習(xí)機的分布式光伏發(fā)電功率預(yù)測方法。

在復(fù)雜的光伏電站運行環(huán)境下，本文提出了一種基于數(shù)據(jù)清洗與組合學(xué)習(xí)的光伏發(fā)電功率預(yù)測方法?？紤]到變電站實際運行時，通信與傳輸過程中的數(shù)據(jù)遺漏狀況，在數(shù)據(jù)輸入模型前采用KNN 算法對缺失數(shù)據(jù)進行補全；然后，利用Lasso算法將極限學(xué)習(xí)機（Extreme Learning Machine，ELM）、神經(jīng)網(wǎng)絡(luò)模型和Adaboost 模型的預(yù)測結(jié)果進行動態(tài)組合，以獲得最終預(yù)測結(jié)果；最后，采用北京大興區(qū)的實際光伏發(fā)電數(shù)據(jù)來驗證模擬結(jié)果的準(zhǔn)確性。

1 預(yù)測模型及算法機理分析

1.1 基于KNN 算法的數(shù)據(jù)清洗方式

本文研究對象為光伏電站。光伏電站一般處于配電網(wǎng)和電壓等級較低的輸電網(wǎng)中，屬于電力系統(tǒng)的末端環(huán)節(jié)，該電壓等級下的電網(wǎng)并不能如大電網(wǎng)一樣做到精細化管理。配電網(wǎng)和電壓等級較低的輸電網(wǎng)的通信和信息系統(tǒng)發(fā)展得相對滯后，使得該電壓等級下電力系統(tǒng)中測量誤差和傳輸設(shè)備故障率均較高，使得設(shè)備可靠性變差。此外，配電網(wǎng)中管理調(diào)度人員的數(shù)量和維修人員的專業(yè)素質(zhì)也有待提高，人為因素造成的數(shù)據(jù)質(zhì)量不高的狀況也應(yīng)該得到高度重視。

光伏電站數(shù)據(jù)極易出現(xiàn)缺失，如果不對缺失數(shù)據(jù)進行有效清洗，直接將缺失數(shù)據(jù)嵌套入預(yù)測模型進行訓(xùn)練，對預(yù)測模型產(chǎn)生巨大影響，從而導(dǎo)致光伏出力預(yù)測的精度大幅度降低。對于降壓變電站的數(shù)據(jù)缺失問題，預(yù)測模型使用KNN 算法進行數(shù)據(jù)清洗，KNN 算法是缺失數(shù)據(jù)清洗中較為有效、計算復(fù)雜度較低的算法，在機器學(xué)習(xí)實際工程的數(shù)據(jù)預(yù)處理方面得到廣泛應(yīng)用，考慮到KNN 算法中歐式距離越近，數(shù)據(jù)間相似度越高這一情況，KNN 算法選取了數(shù)據(jù)集中與缺失數(shù)據(jù)最近鄰的、最完整的k 個數(shù)據(jù)補全缺失值。KNN 算法模型的計算式為

式中：Yi為第i 個樣本點的前m 維特征向量，Yj=（yi1，yi2，yi3，…，yir），其中，yir為第i 個樣本點的第r維屬性。

1.2 核函數(shù)極限學(xué)習(xí)機

ELM 屬于單層前饋神經(jīng)網(wǎng)絡(luò)算法。ELM 輸出函數(shù)f（x）的表達式為

式中：h（x）為隱藏層計算所得的輸出；β為隱藏層與輸出層之間的連接權(quán)重，β=[β1，…，βL]T。

核函數(shù)極限學(xué)習(xí)機的誤差表達式為

式中：L 為神經(jīng)元的數(shù)目；βi，hi（x）分別為第i 個節(jié)點的權(quán)值和輸出值；fO（x）為真實標(biāo)記值。

核函數(shù)極限學(xué)習(xí)機的基本架構(gòu)如圖1 所示。

圖1 核函數(shù)極限學(xué)習(xí)機的基本構(gòu)架Fig.1 Kernel-based extreme learning machine

核函數(shù)極限學(xué)習(xí)機輸出函數(shù)fL（x）的表達式為

式中：gi（x），G（ai，bi，x）均為第i 個隱藏節(jié)點的輸出函數(shù)；ai，bi均為隱藏層參數(shù)。

訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)所需要權(quán)重的最優(yōu)二乘解的表達式為

式中：T 為預(yù)測目標(biāo)值；H 為神經(jīng)網(wǎng)絡(luò)隱藏層矩陣。

模型輸出權(quán)重的最小標(biāo)準(zhǔn)二乘解表達式為

式中：H*為H 的廣義逆矩陣；1/C 為常數(shù)。

式（7）中的1/C，能夠使求解結(jié)果具有更好的泛化能力。

1.3 Adaboost 模型

Adaboost 模型為疊加集成模型，它訓(xùn)練了多個弱擬合模型，然后將各個弱擬合模型組合起來，構(gòu)成一個強預(yù)測模型。其總體思路是對正確樣本賦予較低權(quán)值，對錯誤樣本賦予較高權(quán)值，通過不斷加權(quán)組合，提高預(yù)測模型的性能。

Adaboost 模型的計算步驟如下。

①從樣本中選取n 組訓(xùn)練數(shù)據(jù)，設(shè)初始化數(shù)據(jù)的分布權(quán)值為Di（i）=1/n。

②在訓(xùn)練第t 個弱學(xué)習(xí)器時，用訓(xùn)練數(shù)據(jù)訓(xùn)練決策樹，從而得到誤差之和et為Dl（i）。

③根據(jù)預(yù)測誤差之和et計算弱學(xué)習(xí)模型的權(quán)重αt。 αt的計算式為

④根據(jù)弱學(xué)習(xí)器調(diào)整下一輪訓(xùn)練樣本的權(quán)重，更新公式為

式中：Dt（i）為第t 輪的權(quán)值，i=1，2，…，n；yt為第t輪的學(xué)習(xí)器；Bt為第t 輪的歸一化因子。

⑤訓(xùn)練T 輪以后，得到T 組弱學(xué)習(xí)器f（gt，αtt），由T 組弱學(xué)習(xí)器組合可以得到一個強學(xué)習(xí)器h（x）。 h（x）的計算式為

1.4 Lasso 回歸方法

Lasso 回歸方法是基于正則化的線性回歸分析方法，主旨思想是在相關(guān)系數(shù)絕對值之和小于一個閾值的條件下，使得殘差的平方和最小化。

普通線性模型的表達式為

式中：Y 為最終負荷的預(yù)測值；X為第一層模型的預(yù)測值，X=（X（1），X（2），X（3）），其中，X（1），X（2），X（3）分別為第一層模型中ELM 模型、Adaboost 模型和ANN 模型的預(yù) 測值；ε 為隨機誤差項，ε=(ε1，ε2，..，εn)；r 為回歸系數(shù)。

Lasso 回歸方法估計的表達式為

在模型訓(xùn)練過程中須要求解權(quán)重，當(dāng)權(quán)值計算完成后，表明負荷預(yù)測模型已建立完成。

2 基于數(shù)據(jù)清洗與組合學(xué)習(xí)的光伏發(fā)電功率預(yù)測模型

本文預(yù)測模型的建立過程包括數(shù)據(jù)清洗、模型訓(xùn)練和預(yù)測指標(biāo)等過程。在數(shù)據(jù)的預(yù)處理階段，數(shù)據(jù)清洗是整個數(shù)據(jù)分析過程中不可缺少的一環(huán)，也是較易被忽視的一環(huán)，以往的文獻并沒有對其足夠重視，數(shù)據(jù)清洗的質(zhì)量直接決定了模型預(yù)測效果。在實際工程應(yīng)用中，數(shù)據(jù)清洗時間往往占分析過程的50%～80%。由各電壓等級光伏電站的實際情況可知，低電壓等級光伏電站的管理水平較低，相對來說，數(shù)據(jù)缺失的概率較高。因此，須要在數(shù)據(jù)輸入模型前充分對數(shù)據(jù)進行清洗。本文選取了光伏輸入相關(guān)特征，輸入數(shù)據(jù)包括總輻射S、組件溫度Td、環(huán)境溫度To、氣壓A、相對濕度H 和歷史光伏發(fā)電功率P 進行數(shù)據(jù)清洗[12]。

單個模型容易陷入局部最小值，且統(tǒng)計假設(shè)空間有限，本文采用的模型組合可以提高預(yù)測算法的可靠性。對于ELM 模型、Adaboost 模型和ANN 模型的預(yù)測結(jié)果，采用Lasso 線性組合的方式進行學(xué)習(xí)。為了確保Lasso 算法中各參數(shù)的實時性，本文采用動態(tài)更新的方式改變Lasso 算法中的各個參數(shù)，從而獲得時序滾動的光伏預(yù)測模型，保證當(dāng)前模型與數(shù)據(jù)的相互匹配。圖2 為時序滾動的光伏功率預(yù)測模式。

圖2 時序滾動的光伏功率預(yù)測模式Fig.2 PV output forecasting time horizon-rolling

本文模型的訓(xùn)練流程：首先，采用KNN 算法對缺失數(shù)據(jù)進行填充，將填充后數(shù)據(jù)輸入到ANN模型、Adaboost 模型和ELM 模型中，并分別對這3個模型進行訓(xùn)練；為了避免ANN 模型和ELM 模型計算結(jié)果不確定性的影響，本文以多組不同的參數(shù)值對ANN 模型和ELM 模型進行初始化，并從多個不同的初始點開始探索，從而有效避免陷入不同的局部極小值，然后獲得更接近全局最小的結(jié)果；最后，將各模型的預(yù)測結(jié)果輸入Lasso 線性模型，得到最終的光伏功率預(yù)測結(jié)果。基于數(shù)據(jù)清洗與模型組合的光伏功率預(yù)測方法的計算流程圖如3 所示。

圖3 基于數(shù)據(jù)清洗與模型組合的光伏功率預(yù)測方法流程圖Fig.3 PV output forecasting based on data cleansing and model aggregation

3 算例分析

本文選用北京大興區(qū)的光伏發(fā)電系統(tǒng)實際運行數(shù)據(jù)對模擬結(jié)果進行驗證。光伏發(fā)電系統(tǒng)總裝機容量分別為400 kW，4 MW，選取2017 年數(shù)據(jù)為訓(xùn)練數(shù)據(jù)，2018 年1 月份數(shù)據(jù)為測試數(shù)據(jù)。

本文的誤差指標(biāo)主要包括均方根誤差（Root Mean Square Error，RMSE）和標(biāo)準(zhǔn)化平均相對誤差（Normalized Mean Absolute Error，nMAE）。

RMSE，nMAE 的表達式分別為

式中：fi，ti分別為i 時刻光伏發(fā)電系統(tǒng)的實際發(fā)電功率和預(yù)測發(fā)電功率；tm為最大裝機容量。

3.1 數(shù)據(jù)預(yù)處理方案對比

為了分析不同數(shù)據(jù)填充方案的優(yōu)劣，將KNN補全算法、線性插值的補全方法和不使用補全算法的計算結(jié)果進行對比。在相同的模型架構(gòu)下，分別采用3 種方式對模型進行訓(xùn)練。

不同數(shù)據(jù)補全算法對預(yù)測結(jié)果影響見表1。

表1 不同數(shù)據(jù)清洗算法對預(yù)測結(jié)果的影響Table 1 Effect of different data cleansing algorithm

由表1 可知，電壓等級越低、額定容量越小的光伏電站，數(shù)據(jù)缺失的情況越嚴(yán)重，這表明光伏電站的管理水平與電壓等級具有相關(guān)性，即電壓等級越低、額定容量越小的光伏電站的管理水平越低。不同類型的光伏電站預(yù)測功率呈現(xiàn)不同的誤差分布。此外，不使用補全算法對預(yù)測精度影響很大，這是由于刪除缺失數(shù)據(jù)的信息破壞了數(shù)據(jù)原有的內(nèi)部特征，使得預(yù)測精度大幅度降低。采用線性插值方法時，只能考慮輸入數(shù)據(jù)中單一特征變量的存量數(shù)據(jù)結(jié)構(gòu)，對于缺失數(shù)據(jù)也只是簡單的采用線性方法進行補全，因此，線性插值方法預(yù)測精度的提升幅度有限。利用KNN 補全算法對缺失數(shù)據(jù)進行填充，能夠較好地還原數(shù)據(jù)初始形態(tài)，使得預(yù)測結(jié)果的精度較高。

3.2 預(yù)測效果對比分析

Lasso 算法動態(tài)地學(xué)習(xí)了各個模型的權(quán)重。因此，須要分析各個子模型對應(yīng)權(quán)值的趨勢。圖4 為Lasso 模型權(quán)值隨時間的變化情況，圖中：β1，β2，β3分別為ELM 模型，Adaboost 模型和ANN 模型的權(quán)值。

圖4 Lasso 模型權(quán)值隨時間變化情況Fig.4 Time-varying weights of Lasso model

由圖4 可知，Lasso 模型在不同時段通過計算獲得不同模型的權(quán)值，說明在當(dāng)前預(yù)測場景條件下，各模型具有不同的優(yōu)勢，Lasso 算法能夠充分學(xué)習(xí)到各個子模型的優(yōu)點，使得預(yù)測效果得到進一步提升。

天氣情況對光伏輸出功率影響較大。因此，為了進一步驗證本文算法的準(zhǔn)確性和優(yōu)越性，分別在晴天和陰天的場景下，對組合學(xué)習(xí)模型和單模型（ANN）的預(yù)測結(jié)果進行分析。圖5 為不同天氣條件下，額定輸出功率分別為400 kW，4 MW 的光伏發(fā)電系統(tǒng)輸出功率的預(yù)測結(jié)果隨時間的變化情況。

圖5 不同天氣條件下，不同額定輸出功率光伏發(fā)電系統(tǒng)輸出功率的預(yù)測結(jié)果隨時間的變化情況Fig.5 PV power output forecasting under different weather conditions as time change with different rated power

將本文組合學(xué)習(xí)預(yù)測模型的預(yù)測結(jié)果與SVM 模型[6]、ANN 模型[7]和時間序列算法[8]的預(yù)測結(jié)果進行比較。其中，ANN 模型的內(nèi)置節(jié)點分別為14，100，1；SVM 模型核函數(shù)參數(shù)為徑向基函數(shù)，懲罰系數(shù)為1 000，核函數(shù)系數(shù)為10-3。各個算法的預(yù)測結(jié)果如表2 所示。

表2 不同場景下多個模型的光伏預(yù)測誤差Table 2 Photovoltaic forecasting error of several models

由表2 和圖5 可知，與陰雨天氣相比，晴朗天氣下各個模型的預(yù)測精度較高，這是因為晴朗天氣下光伏出力的變化較為平穩(wěn)，導(dǎo)致光伏出力的變化曲線較為平滑。此外，在陰雨天氣下各個模型的預(yù)測誤差普遍偏大，這是由于云層與太陽輻照度的變化使得光伏出力產(chǎn)生突變。對于模型的預(yù)測效果而言，相較于其他模型，組合學(xué)習(xí)模型的計算結(jié)果能更好地顯示出光伏出力的變化趨勢。在多個光伏預(yù)測的場景下，本文模型均獲得了最高的精度和泛化能力，這是因為本文組合模型聚合了多種學(xué)習(xí)算法，并將其動態(tài)結(jié)合以提高本文模型的泛化性和魯棒性。對其他算法而言，神經(jīng)網(wǎng)絡(luò)只使用了單一學(xué)習(xí)方法，容易陷入局部極小值，使得整體泛化性不高。支持向量機輸入數(shù)據(jù)挖掘的信息有限，雖然該算法也有較高的預(yù)測精度，但仍低于本文的預(yù)測方法。時間序列算法的學(xué)習(xí)能力較弱，只能計及光伏的歷史信息，預(yù)測精度也偏低。由此可見，本文使用的組合預(yù)測模型對于電力系統(tǒng)制定合理的運行策略有著較高參考價值。

4 結(jié)論

本文提出一種基于數(shù)據(jù)清洗與組合學(xué)習(xí)的光伏發(fā)電功率預(yù)測方法。考慮到變電站實際運行中通信和傳輸過程中的數(shù)據(jù)遺漏情況，在數(shù)據(jù)輸入模型前采用KNN 算法對缺失數(shù)據(jù)和異常數(shù)據(jù)進行清洗，然后，通過Lasso 算法將ELM 模型、ANN模型和Adaboost 模型的預(yù)測結(jié)果進行動態(tài)組合。模擬結(jié)果表明：利用KNN 算法能夠良好地清洗光伏發(fā)電站中的缺失數(shù)據(jù)和異常數(shù)據(jù)，使得整體數(shù)據(jù)能夠恢復(fù)到原有特征；組合學(xué)習(xí)方式能夠充分發(fā)揮多種算法的優(yōu)勢，針對不同容量的光伏電站均有良好的預(yù)測結(jié)果；晴天條件下，本文模型的RMSE相較于神經(jīng)網(wǎng)絡(luò)、支持向量機和時間序列分別提高了1.22%，1.83%，2.99%，陰雨天條件下，本文模型的RMSE 分別提高了0.66%，1.78%，4.68%。

目前，本文模型主要圍繞點預(yù)測展開，概率預(yù)測與組合學(xué)習(xí)方式的結(jié)合仍然有待于深入挖掘，數(shù)據(jù)的填充方式只考慮了同一尺度數(shù)據(jù)的相互關(guān)系，對于歷史數(shù)據(jù)的變化趨勢仍值得深入分析。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡