張穎超, 成金杰, 鄧 華, 宗 陽(yáng), 章 璇
(1.南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210044; 2.南京信息工程大學(xué) 氣象災(zāi)害預(yù)報(bào)預(yù)警與評(píng)估協(xié)同創(chuàng)新中心,江蘇 南京 210044)
風(fēng)電機(jī)組的有功出力受自然風(fēng)影響,具有較高的間歇性和波動(dòng)性。當(dāng)大規(guī)模風(fēng)電并網(wǎng)運(yùn)行時(shí),傳統(tǒng)電力系統(tǒng)的平衡能力受到破壞,給電力部門的調(diào)控策略帶來(lái)極大的挑戰(zhàn)[1]。要想在提高風(fēng)力發(fā)電在電力系統(tǒng)中比重的同時(shí),確保電力系統(tǒng)安全穩(wěn)定運(yùn)行,使用較高精度的短期風(fēng)電功率預(yù)測(cè)技術(shù)是有效措施之一。
目前,短期風(fēng)電功率預(yù)測(cè)技術(shù)主要分為物理方法和統(tǒng)計(jì)方法[2]。物理方法通過(guò)對(duì)風(fēng)電場(chǎng)的地理位置進(jìn)行物理建模,將高精度的數(shù)值天氣預(yù)報(bào)(numerical weather prediction,NWP)結(jié)果和風(fēng)電場(chǎng)的地理信息轉(zhuǎn)換為風(fēng)機(jī)輪轂高度處的風(fēng)速、風(fēng)向等信息,再結(jié)合功率曲線推算出風(fēng)機(jī)的有功出力[3];統(tǒng)計(jì)方法需要準(zhǔn)確的風(fēng)電場(chǎng)歷史觀測(cè)數(shù)據(jù)去訓(xùn)練模型,由于組合預(yù)測(cè)方法和先進(jìn)的參數(shù)尋優(yōu)算法能明顯提高其預(yù)測(cè)精度,使得統(tǒng)計(jì)方法成為目前較為常用的短期風(fēng)電功率預(yù)測(cè)方法[4]。
然而,統(tǒng)計(jì)方法的訓(xùn)練樣本多數(shù)為風(fēng)電場(chǎng)全年的歷史觀測(cè)數(shù)據(jù),一方面,過(guò)多的訓(xùn)練樣本存在冗余信息,會(huì)導(dǎo)致過(guò)擬合現(xiàn)象;另一方面,這種整體性地選擇訓(xùn)練樣本難以適應(yīng)復(fù)雜多樣的天氣狀況,預(yù)測(cè)精度也往往達(dá)不到理想效果。近年來(lái),一些學(xué)者借鑒電力負(fù)荷預(yù)測(cè)中“相似日”的原理選取訓(xùn)練樣本,并取得了不錯(cuò)的預(yù)測(cè)效果。文獻(xiàn)[5-7]選取風(fēng)速、風(fēng)向、溫度、氣壓和相對(duì)濕度等氣象信息的均值或最值構(gòu)成天氣模式向量,通過(guò)關(guān)聯(lián)系數(shù)和夾角余弦等作為相似性判據(jù),對(duì)歷史日進(jìn)行搜索,構(gòu)成訓(xùn)練樣本集。文獻(xiàn)[8-11]采用聚類方式,根據(jù)相似的天氣模式向量將訓(xùn)練樣本歸類,建立自適應(yīng)天氣變化的預(yù)測(cè)模型。以上結(jié)果表明,與沒(méi)有對(duì)樣本進(jìn)行篩選和分類的其他模型相比,其預(yù)測(cè)精度得到明顯提高。
由于天氣狀況比較復(fù)雜,實(shí)踐中很難將其定性為特定的類別,即使在相似的天氣狀況下,風(fēng)速變化曲線也會(huì)相差較大。而風(fēng)速作為影響風(fēng)機(jī)出力的主要因素,由于風(fēng)機(jī)槳葉的慣性作用,風(fēng)速的波動(dòng)對(duì)風(fēng)電機(jī)組的有功出力會(huì)有較大影響[12-13]。因此,在選擇相似日時(shí)應(yīng)充分考慮風(fēng)速變化趨勢(shì)的相似性。基于此,通過(guò)離散Fréchet距離作為風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度等時(shí)間序列的相似性判據(jù)來(lái)匹配相似日。此外,這些氣象要素之間存在復(fù)雜的非線性關(guān)系,使用核熵成分分析(kernel entropy component analysis, KECA)在高維特征空間提取非線性主元作為支持向量機(jī)(SVM)的輸入。實(shí)驗(yàn)結(jié)果表明,該方法能夠較好地從歷史數(shù)據(jù)中選取相似日和非線性主元,且預(yù)測(cè)精度較高。
以云南某風(fēng)電場(chǎng)為例,實(shí)驗(yàn)數(shù)據(jù)為13臺(tái)型號(hào)相同的風(fēng)機(jī)運(yùn)行數(shù)據(jù)和測(cè)風(fēng)塔采集的氣象數(shù)據(jù),采樣時(shí)段為2016年7月至8月,采樣間隔為15 min,風(fēng)機(jī)信息如表1所示。
表1 風(fēng)機(jī)基本信息Table 1 Basic information of wind turbines
Fréchet距離是法國(guó)數(shù)學(xué)家Fréchet基于空間路徑相似度的方法提出的,能夠度量?jī)汕€間整體走勢(shì)的相似情況,其定義[14]如下:
定義設(shè)f,g:[0,1]→R2是給定兩條連續(xù)曲線,α,β:[0,1]→[0,1]為連續(xù)非減的實(shí)函數(shù),且滿足α(0)=β(0)=0,α(1)=β(1)=1,則兩曲線間的Fréchet距離為:
(1)
可見(jiàn),F(xiàn)réchet距離的實(shí)質(zhì)是尋找一對(duì)實(shí)函數(shù)α(t)、β(t)最小化曲線f與g之間連通的最大距離。為解決實(shí)際問(wèn)題,Eiter和Mannila在此基礎(chǔ)上,通過(guò)離散化和求極限的思想提出了離散Fréchet距離的概念。
設(shè)給定兩條離散有序序列P=
L={(ua1,vb1),(ua2,vb2),…,(uak,vbk)},
其中,a1=b1=1,ak=p,bk=q且對(duì)于i=1,…,k,滿足ai+1=ai或ai+1=ai+1,bi+1=bi或bi+1=bi+1,即序列點(diǎn)對(duì)L同時(shí)服從P、Q中各序列點(diǎn)的對(duì)應(yīng)次序關(guān)系。
定義‖L‖為序列點(diǎn)對(duì)L中最長(zhǎng)連接的長(zhǎng)度,表示如下:
(2)
則兩曲線間的離散Fréchet距離的定義[15]為:
d(P,Q)=min{‖L‖}。
(3)
d(P,Q)可根據(jù)以下公式遞歸求解:
d(P,Q)=
(4)
式中:dE(up,vq)是兩點(diǎn)up和vq間的歐式距離。
核熵成分分析(kernel entropy component analysis, KECA)是數(shù)據(jù)轉(zhuǎn)換與維度變換的一種新方法。該方法以二次Renyi熵值作為信息量的度量,在高維特征空間提取非線性主元,能夠很好地表征原始特征數(shù)據(jù)關(guān)于熵的內(nèi)在結(jié)構(gòu)[16]。
設(shè)某一概率系統(tǒng)中,有概率密度函數(shù)為p(x)的數(shù)據(jù)集X=[x1,x2,…,xN],xi∈RD,X對(duì)應(yīng)的二次Renyi熵表示如下:
(5)
(6)
式中:kσ(x,xi)為核函數(shù);σ為寬度參數(shù)。
根據(jù)高斯函數(shù)卷積定理,化簡(jiǎn)可得
(7)
式中:K為N×N核矩陣;I為各元素均為N×1的矩陣。將K特征值分解為:K=EDET,其中D為特征值λ1,λ2,…,λN構(gòu)成的對(duì)角矩陣,E為對(duì)應(yīng)的特征向量e1,e2,…,eN構(gòu)成的特征矩陣,則式(7)可表示為:
(8)
(9)
式中:Dd為對(duì)特征值λ1,λ2,…,λN降序排列后選取的前d個(gè)特征值所構(gòu)成的對(duì)角矩陣;Ed則是由相應(yīng)的特征向量構(gòu)成。
對(duì)于一個(gè)新的測(cè)試樣本xnew在特征空間上的投影可表示為:
(10)
由上述可知,核相關(guān)矩陣的維數(shù)等于訓(xùn)練樣本的個(gè)數(shù)。因此,KECA方法最多能夠從高維特征空間提取N個(gè)非線性主元作為訓(xùn)練模型的輸入。
支持向量機(jī)(support vector machine, SVM)是建立在VC維理論(Vapnik-Chervonenkis dimen-sion)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的基礎(chǔ)上的,相較神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)方法而言具有嚴(yán)格的理論基礎(chǔ)[17]。此外,SVM能夠很好地解決小樣本、非線性和高維度等問(wèn)題。在案例中,使用了著名的開(kāi)源軟件包LibSVM[18],選取的SVM核函數(shù)為徑向基函數(shù)。
影響風(fēng)機(jī)出力的主要因素有風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度等5個(gè)氣象要素,以這些氣象要素的采樣點(diǎn)序列匹配相似日,具體步驟如下。
(1)假設(shè)有N個(gè)歷史日,首先分別將N個(gè)歷史日和預(yù)測(cè)日各氣象要素的采樣點(diǎn)序列表示成{(i,ci)}i=1,…,k形式,其中i是按采樣時(shí)間順序排列的序列號(hào),ci是采集數(shù)據(jù)的瞬時(shí)值,每隔15 min采樣一次,則k=96。
(2)分別將風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度的采樣點(diǎn)序列按式(11)歸一化處理:
(11)
根據(jù)式(4)分別計(jì)算各歷史日與預(yù)測(cè)日對(duì)應(yīng)氣象要素采樣點(diǎn)序列的離散Fréchet距離di,j,獲得的距離矩陣D如下:
D=[di,j],
(12)
式中:i=1,…,5為第i個(gè)氣象要素;j=1,…,N為第j個(gè)歷史日。
(3)根據(jù)距離矩陣D計(jì)算各歷史日與預(yù)測(cè)日的整體相似度,為表征影響風(fēng)機(jī)出力的關(guān)鍵因素在相似日判定中的主導(dǎo)作用,采用連乘的方式定義整體相似度公式,整體相似度公式如下:
(13)
(4)選取N個(gè)歷史日中相似度最高的m日作為預(yù)測(cè)日的相似日樣本。
風(fēng)機(jī)發(fā)電功率與各影響因素之間存在著復(fù)雜的非線性關(guān)系。KECA方法通過(guò)核函數(shù)把輸入的數(shù)據(jù)映射到高維特征空間,進(jìn)行非線性主元的提取,最大化保留了原始數(shù)據(jù)中的信息熵。
數(shù)據(jù)集X=[x1,x2,…,xm×96]為選取出來(lái)的m個(gè)相似日數(shù)據(jù),xi表示為同時(shí)刻風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度構(gòu)成的向量,則基于KECA方法的特征提取的具體步驟分為以下3步。
(1)選取徑向基函數(shù)作為式(6)的核函數(shù),并構(gòu)造相應(yīng)的核相關(guān)矩陣K,徑向基函數(shù)表示為:
(14)
(2)對(duì)核矩陣K進(jìn)行特征值分解,并根據(jù)式(8)對(duì)二次Renyi熵的估計(jì),將核矩陣的特征值和相應(yīng)的特征向量按估計(jì)值大小降序排列。
(3)確定非線性主元個(gè)數(shù)d,即將數(shù)據(jù)映射到由降序排列后的前d個(gè)特征值和特征向量所張成特征子空間中。根據(jù)式(9)求取產(chǎn)生的非線性映射。
結(jié)合相似日的外推效果,KECA方法能夠表征數(shù)據(jù)關(guān)于熵的內(nèi)在結(jié)構(gòu)及SVM處理小樣本、高維度的優(yōu)點(diǎn),提出了基于相似日和特征提取的SVM短期風(fēng)電功率預(yù)測(cè)模型,如圖1所示。
圖1 預(yù)測(cè)流程圖Figure 1 Forecasting flow chart
將m個(gè)相似日的風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度及相應(yīng)時(shí)刻的功率作為初始樣本集,通過(guò)KECA方法對(duì)這5個(gè)氣象要素的初始樣本進(jìn)行分析,提取出的非線性主元作為SVM模型的輸入,輸出為對(duì)應(yīng)時(shí)刻的實(shí)際功率值,完成SVM預(yù)測(cè)模型的訓(xùn)練。預(yù)測(cè)時(shí),需要根據(jù)式(10)將預(yù)測(cè)日的氣象數(shù)據(jù)即風(fēng)速、風(fēng)向、溫度、壓力、相對(duì)濕度映射到KECA產(chǎn)生的特征子空間中,并將其作為預(yù)測(cè)時(shí)的輸入。
以8月27日為預(yù)測(cè)日,其余為歷史日,利用所提出的匹配相似日的方法,可找出歷史日中與預(yù)測(cè)日相似度最高的前m天。為確定m值,將m取值為1~15,分別使用相似日-KECA-SVM方法對(duì)預(yù)測(cè)日的功率進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)中,通過(guò)網(wǎng)格法求取徑向基核函數(shù)的參數(shù)和非線性主元的個(gè)數(shù)。圖2為預(yù)測(cè)結(jié)果的相對(duì)均方根誤差(rRMSE)對(duì)比圖。從圖2可以看出,較少的相似日數(shù)量,無(wú)法代表樣本空間的特征;當(dāng)相似日選取較多時(shí),存在冗余信息,不僅降低模型的預(yù)測(cè)性能,而且需要過(guò)多的訓(xùn)練時(shí)間。當(dāng)m=7時(shí),模型預(yù)測(cè)的效果相對(duì)較好,對(duì)應(yīng)的徑向基參數(shù)σ為4.5,非線性主元d為25。因此相似日為7 d,表2為這7個(gè)相似日與預(yù)測(cè)日的整體相似度計(jì)算結(jié)果。
圖2 不同數(shù)量的相似日預(yù)測(cè)誤差對(duì)比Figure 2 Comparison of prediction errors for different quantities of similar days
表2 整體相似度計(jì)算結(jié)果Table 2 Calculation results of similarity degree
圖3為用離散Fréchet距離作為相似性判據(jù)提取出的相似日的風(fēng)速曲線。圖中每個(gè)采樣點(diǎn)為每15 min采樣一次。為了能清楚直觀地比較,圖中給出了較為相似的一條風(fēng)速曲線。可以看出,提取出的相似日的風(fēng)速曲線不僅在幅值上與預(yù)測(cè)日的風(fēng)速曲線比較接近,而且整體的變化趨勢(shì)上也大致相同。說(shuō)明整體相似度的定義能夠很好地表征風(fēng)速的主導(dǎo)作用,而離散Fréchet距離作為曲線相似性的判據(jù),能夠充分考慮到風(fēng)速整體走勢(shì)的相似情況。選取相似日后,相似日和預(yù)測(cè)日的風(fēng)速有了相似的變化趨勢(shì),天氣狀況也較為接近。
圖3 相似日的風(fēng)速曲線Figure 3 Wind speed curve on similar days
為了驗(yàn)證相似日匹配和核熵成分分析方法的合理性和有效性,將以下3種預(yù)測(cè)方法進(jìn)行對(duì)比。
方法1:SVM預(yù)測(cè)方法,即直接使用原始樣本訓(xùn)練SVM模型,由于原始樣本數(shù)據(jù)量大,模型的訓(xùn)練需要花費(fèi)大量的時(shí)間。
方法2:相似日-SVM預(yù)測(cè)方法,即采用上述的相似日匹配的方法,從原始樣本中提取相似日,將相似日的風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度和對(duì)應(yīng)時(shí)刻的實(shí)際功率作為SVM的訓(xùn)練樣本。
方法3:相似日-KECA-SVM預(yù)測(cè)方法,即在方法2的基礎(chǔ)上將7個(gè)相似日的風(fēng)速、風(fēng)向、溫度、氣壓、相對(duì)濕度及對(duì)應(yīng)時(shí)刻的實(shí)際功率作為初始樣本,并采用KECA方法提取相似日各氣象要素的非線性主元,最后將d個(gè)主元作為SVM的輸入節(jié)點(diǎn)和實(shí)際功率作為輸出,完成SVM模型的訓(xùn)練。
上述3種方法的預(yù)測(cè)結(jié)果如圖4所示。圖中每個(gè)采樣點(diǎn)為每15 min采樣一次。結(jié)合圖3可以看出,使用原始樣本做預(yù)測(cè)時(shí),單純的SVM預(yù)測(cè)結(jié)果較差,大多數(shù)的預(yù)測(cè)值與實(shí)際值相比明顯偏低。相似日-SVM預(yù)測(cè)方法過(guò)濾了原始樣本中的冗余信息,使得相似日和預(yù)測(cè)日的氣象信息較為接近,而且風(fēng)速變化的整體趨勢(shì)也較為吻合。預(yù)測(cè)的結(jié)果表明,在風(fēng)速變化較大的時(shí)間段預(yù)測(cè)值更加接近實(shí)際觀測(cè)值。相似日-KECA-SVM預(yù)測(cè)方法不僅在風(fēng)速變化較大的時(shí)間段的預(yù)測(cè)精度得到提高,而且在風(fēng)速變化幅度較小的時(shí)間段(即采樣點(diǎn)為70~90)預(yù)測(cè)精度也有一定的提高。
圖4 各方法風(fēng)電功率預(yù)測(cè)值對(duì)比Figure 4 Comparison of predicted values of different methods
圖5為3種方法預(yù)測(cè)的絕對(duì)誤差,圖中每個(gè)采樣點(diǎn)為每15 min采樣一次。從中可以看出單純地使用支持向量機(jī)作預(yù)測(cè),其絕對(duì)誤差的波動(dòng)范圍較大,出現(xiàn)較大誤差的次數(shù)較多。經(jīng)過(guò)相似日方法處理后,誤差波動(dòng)范圍變小,尤其在風(fēng)速波動(dòng)較大的時(shí)間段,出現(xiàn)較大誤差的次數(shù)也較少。而經(jīng)過(guò)相似日匹配和核熵成分分析后,預(yù)測(cè)效果最好。
圖5 各種方法預(yù)測(cè)的絕對(duì)誤差Figure 5 Prediction absolute error of various methods
分別采用相對(duì)平均絕對(duì)誤差(rMAE)、相對(duì)均方根誤差(rRMSE)和均方根誤差(RMSE)作為評(píng)價(jià)各方法預(yù)測(cè)效果的指標(biāo),各誤差計(jì)算結(jié)果如表3所示。
表3 各方法預(yù)測(cè)誤差比較Table 3 Comparison of prediction errors
從表3可以看出,經(jīng)過(guò)相似日的匹配和核熵成分分析后,各個(gè)誤差指標(biāo)都有不同程度的降低。相比于使用全部樣本,相似日-KECA-SVM預(yù)測(cè)效果更好,說(shuō)明所提出的相似日匹配方法和核熵成分分析方法能夠有效提高建模數(shù)據(jù)的相似性,從而降低誤差。
結(jié)合相似日原理和核熵成分分析方法對(duì)中國(guó)云南某風(fēng)電場(chǎng)的采集數(shù)據(jù)進(jìn)行預(yù)處理,主要優(yōu)點(diǎn)如下:
(1)風(fēng)速是影響風(fēng)機(jī)出力的關(guān)鍵因素,其變化趨勢(shì)在相似日判定中至關(guān)重要,通過(guò)離散Fréchet距離判別曲線相似性的方法來(lái)匹配相似日,有效兼顧了風(fēng)速的變化趨勢(shì)。相似日的選取增強(qiáng)了數(shù)據(jù)的相關(guān)性,提高了模型的預(yù)測(cè)精度。
(2)風(fēng)機(jī)出力和各影響因素之間存在著復(fù)雜的非線性關(guān)系,經(jīng)過(guò)核熵成分分析后在高維特征空間能更好地呈現(xiàn)數(shù)據(jù)集的特點(diǎn),有利于預(yù)測(cè)精度的提高。
(3)針對(duì)風(fēng)力發(fā)電的周期性不太明顯、相似日出現(xiàn)的頻率較低的情況,結(jié)合SVM具有支持小樣本建模和較強(qiáng)的非線性學(xué)習(xí)等特點(diǎn),建立的短期風(fēng)電功率預(yù)測(cè)模型具有較好的泛化能力。