楊乘勝,張世超,朱海東,趙竟,張永涵,張庭玉
(1.南京華盾電力信息安全測評有限公司,江蘇 南京 210000;2.中國華電集團有限公司,北京 100031;)
隨著國內(nèi)電力市場的有序推進,我國的電力市場已初具規(guī)模。在電力市場現(xiàn)貨交易的場景中,市場出清價是整個電力市場的核心要素之一,是直接影響發(fā)電側(cè)利潤與競標策略的重要參數(shù)。
當(dāng)前電力市場出清價格預(yù)測研究中一個經(jīng)典的預(yù)測方法就是使用歷史連續(xù)序列進行預(yù)測[1]?;陔娏κ袌龅哪:砸约皠討B(tài)變化的隨機性,灰色系統(tǒng)理論也常被應(yīng)用于負荷預(yù)測和電價預(yù)測中[2],文獻[3]提出了一種基于數(shù)據(jù)挖掘與支持向量機的出清價格預(yù)測方法。文獻[4]應(yīng)用多日機組數(shù)據(jù)和日前出清環(huán)節(jié)數(shù)據(jù),提出了一種組合模型優(yōu)化安排系統(tǒng)機組開機方式。文獻[5]則是采取了奇異值分析結(jié)合機器學(xué)習(xí)方法進行預(yù)測的方法。
隨著深度學(xué)習(xí)的發(fā)展,一系列時間序列預(yù)測的深度學(xué)習(xí)模型也開始應(yīng)用于電力市場中。文獻[6]提出了一種基于經(jīng)驗?zāi)J椒纸馀cLSTM的序列電價預(yù)測模型。文獻[7]采用最大信息系數(shù)相關(guān)性和改進多層級門控的方法對LSTM模型進行改進,提升了短期電價的預(yù)測精度。此外,還有使用DeepESN[8],Attention-GRU[9]等深度神經(jīng)網(wǎng)絡(luò)模型進行電價預(yù)測的研究方法,也都在相應(yīng)的場景中取得了不錯的效果。
然而,國內(nèi)的電力市場起步較晚,各區(qū)域電力市場政策不統(tǒng)一,難以形成統(tǒng)一的標準的數(shù)據(jù)集。此外,國內(nèi)電力市場的歷史數(shù)據(jù)普遍不公開,導(dǎo)致現(xiàn)有的數(shù)據(jù)量較少。因此很多基于大數(shù)據(jù)的電力市場出清價格預(yù)測模型難以在這類小樣本數(shù)據(jù)上達到良好的效果。為了實現(xiàn)小樣本和不連續(xù)數(shù)據(jù)上的出清價格預(yù)測,本文提出了一種基于日前披露數(shù)據(jù)相似性的電力市場出清價格預(yù)測方法,并在某區(qū)域電力市場交易的試運行數(shù)據(jù)上進行了測試,通過實驗證明了本文方法的有效性。
在電力市場出清價格預(yù)測問題中,日前披露數(shù)據(jù)信息對于市場報價預(yù)期有著重要的影響,如負荷預(yù)測、裝機容量、停運預(yù)測等供需信息的披露能夠?qū)Ξ?dāng)前的市場環(huán)境有較為準確的判斷[10-11]。然而,在數(shù)據(jù)量有限的情況下,機器學(xué)習(xí)和深度學(xué)習(xí)算法難以對數(shù)據(jù)的規(guī)律進行無偏差的估計[12]。國內(nèi)的電力市場交易普遍處于試運行階段,不僅數(shù)據(jù)量有限,而且通常在運行一段時間后就會暫停運行,使獲得的數(shù)據(jù)集出現(xiàn)時間不連續(xù)的情況[13],因此一些基于時序分析的預(yù)測算法也不能達到很好的預(yù)測效果。
相比于機器學(xué)習(xí)和深度學(xué)習(xí)等方法,基于日前披露數(shù)據(jù)相似性的預(yù)測方法對于數(shù)據(jù)量的要求相對較低,只要相似度算法得當(dāng),就可以達到較好的預(yù)測結(jié)果,不會出現(xiàn)因為訓(xùn)練數(shù)據(jù)不平衡而導(dǎo)致過擬合或者欠擬合問題。
在日前披露數(shù)據(jù)中會公布每日的負荷、電價、需求值等相關(guān)數(shù)據(jù),組成一個y= (x1,x2,……,xn)的向量用于描述當(dāng)日的特征。如圖1所示,本文計算電力市場交易日前披露數(shù)據(jù)各指標間的相關(guān)性,通過相關(guān)性矩陣可以發(fā)現(xiàn)日前出清價格與各項指標數(shù)據(jù)之間具有不同的相關(guān)性程度。而在日前披露數(shù)據(jù)中,某日各項指標數(shù)據(jù)與待預(yù)測數(shù)據(jù)各項指標數(shù)據(jù)相似的情況下,日前出清價格也具有一定的相似性。
圖1 相關(guān)性分析圖Fig.1 Correlation analysis chart
由于某些指標數(shù)據(jù)與日前出清價格的相關(guān)性較弱,在預(yù)測時引入這些因素,反而可能會影響預(yù)測的精度。根據(jù)統(tǒng)計學(xué)中的相關(guān)性原則[14-15],當(dāng)相關(guān)性的絕對值小于0.4時,則可以認為二者的相關(guān)性較弱甚至不具備相關(guān)性;當(dāng)相關(guān)性的絕對值大于0.4且小于0.6時,說明二者具有一定的相關(guān)性;當(dāng)相關(guān)性的絕對值大于0.6且小于0.8時,說明二者具有較為明顯的相關(guān)性;當(dāng)相關(guān)性的絕對值大于0.8時,說明二者已經(jīng)具有很明顯的強相關(guān)性。因此本文在進行日前出清價格預(yù)測前,預(yù)先對日前披露數(shù)據(jù)進行了處理,只選擇了相關(guān)性大于0.4的指標數(shù)據(jù)用于相似性的計算,以降低無關(guān)指標數(shù)據(jù)對于預(yù)測的影響。
通過相關(guān)性分析的結(jié)果可以看出,日前出清價格與多項指標都具有一定的相關(guān)性,并且日前出清價格與各項指標數(shù)據(jù)間也并非是一種單一的線性對應(yīng)關(guān)系[16-17]。簡單的用某項單一的影響因素來預(yù)測日前出清價格就會出現(xiàn)很大的局限性,因此單一的模型就難以實現(xiàn)準確的預(yù)測效果[18]。而電廠中存在的指標數(shù)據(jù)類型繁多,各項指標數(shù)據(jù)對于日前出清價格的影響也各不相同,盲目地將所有指標作為日前出清價格的影響因素會降低強相關(guān)指標數(shù)據(jù)對于日前出清價格的影響權(quán)重,從而導(dǎo)致預(yù)測效果受到干擾。
相比于機器學(xué)習(xí)和深度學(xué)習(xí)等算法,盡管基于日前披露數(shù)據(jù)相似性的預(yù)測算法對于數(shù)據(jù)量的依賴要更小,但歷史數(shù)據(jù)的質(zhì)量同樣會影響預(yù)測結(jié)果,若數(shù)據(jù)過少或涵蓋范圍過于局限,難以找到與待預(yù)測數(shù)據(jù)近似情況或能夠查找到的最近似數(shù)據(jù)與待預(yù)測數(shù)據(jù)的結(jié)果差距過大,這些情況都會影響最終的預(yù)測效果。
為了保證算法的可行性,確定歷史披露數(shù)據(jù)能否足夠支撐預(yù)測工作,本文通過層次聚類方法對歷史披露數(shù)據(jù)進行聚類分析,將歷史數(shù)據(jù)按照日前出清價格分為若干個組。日前披露數(shù)據(jù)每15分鐘進行一次測點記錄,每天產(chǎn)生96條測點數(shù)據(jù)。由于數(shù)據(jù)存在不完全連續(xù)的情況,本文使用了2020年8月、11月和12月三個月的數(shù)據(jù)進行了分析,并用前71個自然日的測點數(shù)據(jù)模擬歷史數(shù)據(jù),以12月后21個自然日的測點數(shù)據(jù)模擬待預(yù)測數(shù)據(jù)。如表1、表2所示,分別統(tǒng)計了模擬歷史數(shù)據(jù)和模擬待預(yù)測數(shù)據(jù)的出清價格分布情況。
表1 模擬歷史數(shù)據(jù)出清價格區(qū)間分布情況Tab.1 Distribution of clearing price range of simulated historical data
續(xù)表1
表2 模擬預(yù)測數(shù)據(jù)出清價格區(qū)間分布情況Tab.2 Distribution of clearing price range of simulated forecast data
通過聚類分析可以發(fā)現(xiàn),日前出清價格多集中在中低價格段,價格極高的極端情況相對較為少見。在模擬歷史數(shù)據(jù)中,價格高于400的數(shù)據(jù)占比僅為2.6%。在模擬的測試數(shù)據(jù)中,高于400的數(shù)據(jù)占比僅為1.9%。因此根據(jù)聚類分析的結(jié)果可知,2020年8月、11月和12月三個月中前71個自然日的模擬歷史數(shù)據(jù)基本已經(jīng)能夠涵蓋模擬預(yù)測數(shù)據(jù)中的絕大部分情況。盡管當(dāng)前的試運行數(shù)據(jù)較少并且不連續(xù),但是歷史數(shù)據(jù)仍然對日前出清價格的預(yù)測有著較為重要的意義。
盡管模擬歷史數(shù)據(jù)中某些情況較為少見,如日前出清價格在800-900、1035-1200以及1248-1400等區(qū)間段時,缺少可用的歷史數(shù)據(jù)進行支持,因此若待預(yù)測數(shù)據(jù)出現(xiàn)在這些區(qū)間時,算法就不能準確地預(yù)測出日前出清價格。但是通過觀察模擬的待預(yù)測數(shù)據(jù)可以發(fā)現(xiàn),在這些區(qū)間內(nèi)分布的數(shù)據(jù)同樣不常見,出清價格高于800的情況,在模擬歷史數(shù)據(jù)占比僅為1.1%,而在模擬預(yù)測數(shù)據(jù)中占比甚至不超過1%。即使出現(xiàn)了類似的情況也可以在這類情況發(fā)生后將該情況添加到歷史數(shù)據(jù)中,為后續(xù)的預(yù)測提供經(jīng)驗。從數(shù)據(jù)的分布情況上可以看出兩個月左右的歷史數(shù)據(jù)基本可以滿足預(yù)測的需要。
為了增強算法的預(yù)測能力,每當(dāng)出清價格結(jié)果更新時就將該條記錄加入到歷史數(shù)據(jù)庫中,這樣即使某一天的待預(yù)測數(shù)據(jù)中出現(xiàn)了歷史數(shù)據(jù)中沒有的情況,也可以及時將這種情況記錄下來,為后續(xù)的預(yù)測提供指導(dǎo)。隨著歷史數(shù)據(jù)庫的擴充,歷史數(shù)據(jù)中涵蓋的數(shù)據(jù)指標的組合情況也會更加豐富,預(yù)測的精度和準確性也就進一步提高。
傳統(tǒng)的相似日法中需要對各影響因素相似度的權(quán)重進行賦值[19]。在電力市場出清價格預(yù)測問題中,人工賦值的方式極大地依賴于研究者的市場經(jīng)驗,若研究者的市場經(jīng)驗不足,那么設(shè)置的參數(shù)就可能不合理。并且不同市場情況存在差異,某一地區(qū)的市場難以適應(yīng)其他地區(qū)的市場,尤其在面對復(fù)雜市場情況時,已有經(jīng)驗也很有可能出現(xiàn)偏差。
本文使用皮爾森相關(guān)系數(shù)來衡量各指標與日前出清價格之間的相關(guān)性程度,以確定各指標數(shù)據(jù)對日前出清價格的影響[20]。使用相關(guān)系數(shù)分析方法確定的參數(shù)值能夠根據(jù)市場的實際情況進行動態(tài)調(diào)整,通過自適應(yīng)的求解參數(shù)可以增強算法的準確性和通用性,避免了人為經(jīng)驗賦值對預(yù)測結(jié)果造成的偏差,將不同的指標類型對于日前出清價格的影響程度進行量化,并且參與到實際的相似性計算之中。
(1)
為了解決各項指標數(shù)據(jù)與日前出清價格之間相關(guān)性程度不同的問題,本文將各指標數(shù)據(jù)與日前出清價格的相關(guān)性進行了量化處理并作為相關(guān)系數(shù)參與到了相似性的計算當(dāng)中。
由公式(1)可知,相關(guān)性的計算結(jié)果取值范圍處于[-1,1]之間,當(dāng)指標數(shù)據(jù)與日前出清價格的相關(guān)性絕對值越接近1時,說明該指標對日前出清價格的影響程度就越大。由于指標數(shù)據(jù)與日前出清價格的相關(guān)性程度會影響到數(shù)據(jù)之間相似性的計算,因此在計算相似性時就需要將各指標數(shù)據(jù)與日前出清價格的相關(guān)性考慮在內(nèi)。
當(dāng)某項指標數(shù)據(jù)與日前出清價格的相關(guān)性越高時,該指標數(shù)據(jù)的計算結(jié)果對相似性的影響要高于與日前出清價格的相關(guān)性較低的指標。當(dāng)待預(yù)測數(shù)據(jù)與歷史數(shù)據(jù)中兩種指標的距離相同的情況下,與日前出清價格相關(guān)性更強的指標對兩條數(shù)據(jù)相似性程度的決定權(quán)重更高。
ξ(x,y)=1-|r|
(2)
本文基于指標數(shù)據(jù)與日前出清價格的相關(guān)性,建立了一種相關(guān)系數(shù)計算方法。如公式(2)所示,ξ(x,y)為指標數(shù)據(jù)與日前出清價格間的影響系數(shù),r為指標數(shù)據(jù)與日前出清價格間的相關(guān)性計算結(jié)果。當(dāng)歷史數(shù)據(jù)與待預(yù)測數(shù)據(jù)中的某項指標具有較強的相關(guān)性時,其相關(guān)系數(shù)越小。在指標數(shù)據(jù)的差值上乘以該相關(guān)系數(shù)會使兩個數(shù)據(jù)在該指標上計算出的距離變得更小,最終會認定相關(guān)性更強的指標對相似性的影響要更大。
本文提出的相似性計算方法是在對應(yīng)指標數(shù)據(jù)上計算均方誤差并乘以對應(yīng)相關(guān)系數(shù)的方式,以此來衡量待預(yù)測數(shù)據(jù)與歷史數(shù)據(jù)的差異程度。計算的結(jié)果越小就說明兩個數(shù)據(jù)之間的相似性越強,日前出清價格也就越接近。
表3 相關(guān)系數(shù)樣例Tab.3 Example of correlation coefficient
(3)
在進行預(yù)測時,算法會按照公式3給出的計算公式將待預(yù)測數(shù)據(jù)與歷史數(shù)據(jù)庫中的數(shù)據(jù)進行一一比對,并找到相似距離最低的歷史數(shù)據(jù),將該日期的日前出清價格作為預(yù)測結(jié)果。同樣以上文中表3的情況為例,歷史數(shù)據(jù)A與待預(yù)測數(shù)據(jù)的計算結(jié)果Sa就會變?yōu)棣蝍·(100-120)2+ξb·(50-50)2,最終的相似性距離Sa=400ξa。采用相同的計算方法,歷史數(shù)據(jù)B與待預(yù)測數(shù)據(jù)的相似性距離Sb=400ξb。假設(shè)此處指標A與日前出清價格的相關(guān)性ra要強于指標B與日前出清價格的相關(guān)性rb。由本文2.1節(jié)可知,計算指標與日前出清價格的相關(guān)性程度越高,相關(guān)性系數(shù)越小,因此ξa<ξb,最終使得Sa 在進行計算的過程中,可能會出現(xiàn)多條歷史記錄與待預(yù)測數(shù)據(jù)的計算結(jié)果相似的情況,這時應(yīng)當(dāng)選取時間最接近待預(yù)測數(shù)據(jù)的歷史數(shù)據(jù)作為最終結(jié)果。這是因為物理量的變化趨勢更多地取決于歷史時段中近期的發(fā)展規(guī)律,相比之下,遠期的歷史數(shù)據(jù)與待預(yù)測數(shù)據(jù)的相關(guān)性比近期數(shù)據(jù)更弱。尤其在試運行及電力市場探索階段,由于交易規(guī)則、運營模式等情況的變動,交易用戶會根據(jù)市場情況不斷的調(diào)整各自的交易策略,這就導(dǎo)致不同時間段的市場交易情況都有所不同,而每個時間段內(nèi)的交易情況會更加相似,因此近期的交易數(shù)據(jù)參考價值更高。 盡管直接采用歷史日前出清價格作為預(yù)測結(jié)果會存在一定的誤差,即使在兩個數(shù)據(jù)極其相似的情況下,日前出清價格也會存在差異,但從聚類分析時可知,相似數(shù)據(jù)的存在的區(qū)域較為狹窄,基本都處在一個較小的值域之內(nèi),因此該方法還是能預(yù)測出一個較為準確的結(jié)果。并且隨著交易數(shù)據(jù)量增多,歷史數(shù)據(jù)的數(shù)量也會不斷進行累積,在進行長期的預(yù)測時,實際的出清價格會不斷地更新到歷史數(shù)據(jù)庫中,歷史數(shù)據(jù)中包含的日前出清價格的涵蓋范圍也會增加,預(yù)測結(jié)果會不斷得到修正,使最終得到的結(jié)果更加準確。 本文選取了某區(qū)域電力市場交易試運行數(shù)據(jù)上2020年8月、11月和12月三個月的數(shù)據(jù)進行了測試,以8月、11月以及12月前10天的數(shù)據(jù)模擬歷史出清數(shù)據(jù),對之后21天的出清價格進行預(yù)測。日前披露數(shù)據(jù)中包括了日前出清價格、負荷預(yù)測情況、機組容量情況、輸送電情況等31項指標的情況,指標數(shù)據(jù)每15分鐘進行一次更新記錄,每天共有96條測點數(shù)據(jù)。經(jīng)過相關(guān)性分析和歷史披露數(shù)據(jù)分析等分析后,在原始數(shù)據(jù)的基礎(chǔ)上,選取了與日前出清數(shù)據(jù)相關(guān)性絕對值大于0.4的指標項作為實驗的樣本。 本文在92天共計8832條測點數(shù)據(jù)上進行了實驗,將前6816條測點數(shù)據(jù)模擬為歷史數(shù)據(jù),對后續(xù)2016個測點進行了預(yù)測,得到了如圖2所示的結(jié)果。 圖2 預(yù)測值與實際值對比圖Fig.2 Comparison of predicted value and actual value 從圖2中可以看出,本文提出的方法在實際的運用中具有較為準確的效果,尤其是在大多數(shù)較為規(guī)律的周期中,預(yù)測的結(jié)果都較為準確。但同樣也有一些不準確的預(yù)測存在,如在一些含有突變點的測點位置,預(yù)測的結(jié)果會存在著少量的偏差。這是因為相比于具有較強規(guī)律性和周期性的負荷預(yù)測,電力市場交易還會在很大程度上受到競爭、供求關(guān)系等人為因素以及輸電阻塞、網(wǎng)損或線損等環(huán)境因素的影響,進而產(chǎn)生“價格釘”的問題,表現(xiàn)出價格的隨機波動性和突然跳躍性[21],尤其在風(fēng)電[22-23]、水電[24]、光伏[25]等一些受環(huán)境影響因素較大的能源上表現(xiàn)更為明顯,當(dāng)發(fā)電負荷產(chǎn)生較大的波動時,就會直接反應(yīng)在價格波動上[26-28]。當(dāng)這些數(shù)據(jù)存在于歷史數(shù)據(jù)中時,就會導(dǎo)致算法預(yù)測出的部分結(jié)果產(chǎn)生一定的偏差,將部分正常的日前出清價格預(yù)測為價格較高的價格釘。但與整體的預(yù)測結(jié)果相比,價格釘?shù)那闆r本身就是一個較為少數(shù)的情況,在數(shù)據(jù)量較少的情況下,價格釘出現(xiàn)的頻率也就更低,盡管可以通過人工合成樣本增加價格釘出現(xiàn)的頻率以提高對于價格釘?shù)念A(yù)測準確率,但伴隨著人工合成樣本比重的增加,這些樣本會影響其他類型樣本的預(yù)測準確率。 此外,本文搭建了一個SVR模型[29](支持向量回歸, support vector regression)以及一個具有4個隱藏層的LSTM模型(長短期記憶網(wǎng)絡(luò), Long Short-Term Memory)用于算法效果的對比。其中LSTM模型的批尺寸為64,迭代次數(shù)為50次,采用adam作為優(yōu)化器。 如表3所示,展示了三種算法在21天共計2016個測點數(shù)據(jù)上的均方根誤差結(jié)果。 通過表4可以看出,在數(shù)據(jù)量少且數(shù)據(jù)中間存在時間不連續(xù)的情況下,基于日前披露數(shù)據(jù)的相似性的預(yù)測方法要明顯優(yōu)于其他兩種方法。由于數(shù)據(jù)量和數(shù)據(jù)條件的限制,在實驗的過程中SVR對于價格釘?shù)念A(yù)測出現(xiàn)了很大偏差,在數(shù)據(jù)波動和跳躍過大時,均不能準確的進行預(yù)測;而在LSTM模型中則出現(xiàn)了較為明顯的過擬合現(xiàn)象,隨著訓(xùn)練的進行,訓(xùn)練集的損失會逐漸減少,但用模擬的待預(yù)測數(shù)據(jù)的損失反而會增大,最終導(dǎo)致了預(yù)測結(jié)果的不佳。因此在國內(nèi)現(xiàn)有電力市場數(shù)據(jù)較為缺乏的情況下,通過相似性模型來預(yù)測日前出清價格是一種較為合適的預(yù)測方法。 表4 三種算法比較結(jié)果Tab.4 Comparison results of three algorithms 本文運用了一種基于日前披露數(shù)據(jù)相似性的出清價格預(yù)測算法,通過在日前披露數(shù)據(jù)中尋找相似條件的歷史數(shù)據(jù),對出清價格進行預(yù)測。首先計算各指標數(shù)據(jù)與出清價格的相關(guān)性確定各指標對出清價格的影響權(quán)重,選出相關(guān)性大于0.4的指標作為影響因素。通過計算待預(yù)測數(shù)據(jù)各指標與歷史數(shù)據(jù)各指標之間距離,結(jié)合之前計算出的各指標數(shù)據(jù)的權(quán)重,搜索到相似性最高的歷史數(shù)據(jù),最終給出預(yù)測結(jié)果。通過在某區(qū)域電力市場的交易數(shù)據(jù)上的實驗結(jié)果,證明本文提出的方法在實際的區(qū)域電力市場交易應(yīng)用中具有較好的精度和可行性。本文提出的方法基于統(tǒng)計原理,無需進行大量訓(xùn)練的過程,對于設(shè)備的性能要求較低,在工程實踐中也有較好的應(yīng)用和參考價值。2.3 實驗與分析
3 結(jié)論