基于隨機森林算法和粗糙集理論的改進型深度學(xué)習(xí)短期負(fù)荷預(yù)測模型

2024-01-06 10:10:06封鈺宋佑斌金晟馮家歡史雪晨俞永杰黃弦超

發(fā)電技術(shù) 2023年6期

封鈺，宋佑斌，金晟，馮家歡，史雪晨，俞永杰，黃弦超

（1.國網(wǎng)江蘇省電力有限公司蘇州供電分公司，江蘇省蘇州市 215004；2.國網(wǎng)浙江省電力有限公司杭州市錢塘區(qū)供電公司，浙江省杭州市 310000；3.華北電力大學(xué)電氣與電子工程學(xué)院，北京市昌平區(qū) 102206）

0 引言

短期電力負(fù)荷預(yù)測對保障電力系統(tǒng)安全經(jīng)濟運行具有重要意義[1-3]。近年來，隨著全球電力市場不斷發(fā)展，現(xiàn)貨市場和日內(nèi)交易制度不斷完善，對負(fù)荷預(yù)測精準(zhǔn)度的要求也越來越高[4-8]。影響負(fù)荷的因素多種多樣，常見的有天氣因素(溫度、濕度、日照強度等)和時間因素(工作日、節(jié)假日、當(dāng)前具體時間等)[9]。同時，一些政策性因素也會導(dǎo)致負(fù)荷規(guī)律發(fā)生變化，如疫情管控導(dǎo)致工廠減產(chǎn)、停工，造成用電負(fù)荷下降；對電動汽車的鼓勵性政策導(dǎo)致用電負(fù)荷增加。以上因素使得短期負(fù)荷預(yù)測呈現(xiàn)出極強的非線性和隨機性特點。

到目前為止，短期負(fù)荷預(yù)測方法主要有傳統(tǒng)預(yù)測方法和啟發(fā)式預(yù)測方法2類[10-14]。傳統(tǒng)預(yù)測方法包括時間序列法和回歸分析法等，缺點在于數(shù)學(xué)模型較為簡易，預(yù)測的精準(zhǔn)度有待提高[13-14]。啟發(fā)式預(yù)測方法包括支持向量機法和神經(jīng)網(wǎng)絡(luò)法等，因具有一定的自適應(yīng)能力，近幾年在非線性預(yù)測領(lǐng)域被廣泛使用[10,12]。然而，支持向量機法存在過于依賴核函數(shù)的局限性；神經(jīng)網(wǎng)絡(luò)法的訓(xùn)練效果往往取決于網(wǎng)絡(luò)結(jié)構(gòu)，目前通過神經(jīng)網(wǎng)絡(luò)進行負(fù)荷預(yù)測的研究大多采用經(jīng)驗法選擇大量特征量作為輸入，而沒有進行特征量的評判精簡，導(dǎo)致神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、訓(xùn)練費時[15-16]。因此，如何準(zhǔn)確地選擇神經(jīng)網(wǎng)絡(luò)輸入特征量十分重要。

隨機森林(random forest，RF)算法是一種基于決策樹的自學(xué)習(xí)算法，能夠進行數(shù)據(jù)的分類和回歸，在電氣工程等領(lǐng)域應(yīng)用廣泛[10-12,17-18]。文獻[18]將隨機森林算法和神經(jīng)網(wǎng)絡(luò)相結(jié)合，進一步提高了預(yù)測的精準(zhǔn)性，但未對預(yù)測結(jié)果進行修正，且評價模型全部聚焦在整體，既未對局部預(yù)測點的誤差進行研究，也沒有將負(fù)荷預(yù)測中的突變點納入研究范圍。

綜上所述，為進一步完善研究，本文提出一種基于RF 算法和粗糙集理論(rough set theory，RST)的改進型深度學(xué)習(xí)(deep learning，DL)短期負(fù)荷預(yù)測模型(RF-DL-RST)。該模型引入政策因素，與時間、天氣因素一起建立負(fù)荷預(yù)測特征集，將關(guān)鍵特征量和歷史負(fù)荷值作為深度學(xué)習(xí)的輸入、輸出項進行訓(xùn)練，并通過粗糙集理論修正預(yù)測結(jié)果。最后，以蘇州某地區(qū)電網(wǎng)為例，對該模型的有效性進行仿真驗證。

1 隨機森林算法的特征量提取原理

1.1 隨機森林算法簡介

隨機森林算法示意圖如圖1 所示。隨機森林算法的關(guān)鍵在于決策樹，通過對每棵決策樹的預(yù)測結(jié)果采用投票或者加權(quán)平均等方式得到預(yù)測或回歸結(jié)果。

圖1 隨機森林算法示意圖Fig.1 Schematic diagram of RF algorithm

關(guān)于決策樹的形成，國內(nèi)外研究者提出了很多種決策樹算法，如ID3、C4.5、分類回歸樹(classification and regression tree，CART)這3 種算法都是采用從頂部出發(fā)、自上而下形成決策樹的方法[19-20]。在決策樹形成過程中，每一個新的節(jié)點都需要選擇新的屬性作為分裂的依據(jù)，這3 種決策樹算法不同點在于生長過程中葉子分裂的抉擇判據(jù)。其中，CART 對回歸樹使用最小均方差作為分裂的屬性度量，對分類樹使用基尼指數(shù)(Gini index，GI)作為分裂判據(jù)[19-20]。當(dāng)運用隨機森林算法進行分類時，采取投票的方式確定最終結(jié)果，當(dāng)運用隨機森林算法進行回歸時，采用取均值的方式得到預(yù)測結(jié)果。此外，為了降低過擬合、隨機誤差對預(yù)測結(jié)果的影響，一般將原始數(shù)據(jù)分為訓(xùn)練集和測試集，而后利用bootstrap 方法進行訓(xùn)練集抽取，接著采用CART 算法從上到下逐個對每一棵決策樹進行訓(xùn)練，直到滿足要求。

1.2 特征量提取

如何選擇數(shù)據(jù)集中的關(guān)鍵特征量對降低模型復(fù)雜度、縮短運算時間十分重要。隨機森林算法進行關(guān)鍵特征量提取時，一般采用基尼指數(shù)或袋外數(shù)據(jù)錯誤率進行評價[19-22]。采用袋外數(shù)據(jù)錯誤率提取特征量的算法詳見文獻[21-22]，本文采用基尼指數(shù)的方式進行研究，原理如下。

假設(shè)數(shù)據(jù)集有J個特征量(X1,X2,X3,…,XJ)，C個類別，I棵決策樹，則節(jié)點m的基尼指數(shù)為

特征量Xj在節(jié)點m的重要性評分采用節(jié)點m分枝前后的基尼指數(shù)變化量表示：

式中Gl和Gr分別為節(jié)點m分枝后2 個新節(jié)點l、r的基尼指數(shù)。

設(shè)定特征量Xj在第i棵樹中出現(xiàn)的節(jié)點集合為M，則特征量Xj在第i棵樹的重要性表示為

綜上，特征量Xj在RF中的重要性可表示為

由此，可以對數(shù)據(jù)集中的各個特征量進行重要性排序，提取重要特征量。

2 深度學(xué)習(xí)原理

深度神經(jīng)網(wǎng)絡(luò)(deep neural network，DNN)是深度學(xué)習(xí)的一種框架，它是一種具備至少一個隱含層的神經(jīng)網(wǎng)絡(luò)。與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)相比，兩者有著相似的結(jié)構(gòu)，但DNN 隱含層的層數(shù)一般較多，并采用了layer-wise 的訓(xùn)練機制，克服了BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度擴散問題。與傳統(tǒng)的求解方法相比，訓(xùn)練好的DNN具有較高的計算效率和計算精度[23]。

典型的DNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示，首尾分別為輸入、輸出層，中間層都是隱含層，各層間是全連接關(guān)系(前一層的任一節(jié)點一定與后一層的任一節(jié)點連接)。假設(shè)第i-1層有g(shù)個節(jié)點，則第i層的第j個節(jié)點的輸出表示為

圖2 DNN示意圖Fig.2 Schematic diagram of DNN

式中：σ(·)為激活函數(shù)，用于對某一節(jié)點的輸入求和并進一步增強；為第i-1層的第k個節(jié)點到第i層的第j個節(jié)點的權(quán)重系數(shù)；為第i-1層的第k個節(jié)點的輸出；為第i層的第j個節(jié)點的偏差系數(shù)。

本文采用均方差損失函數(shù)，表示如下：

式中：P為訓(xùn)練樣本數(shù)；yp，t為t時刻p樣本的期望值；為DNN輸出的預(yù)測值；T為預(yù)測時段數(shù)。

同時，本文對損失函數(shù)引入L2正則化，目的在于限制權(quán)重參數(shù)在一定范圍，以適應(yīng)異常值和噪聲，表達式[23]如下：

式中：α為正則化超參數(shù)；ω為權(quán)重向量。

設(shè)定參數(shù)的學(xué)習(xí)率為μ，通過式(7)反復(fù)更新隱含層參數(shù)，直至預(yù)測精度收斂[23-24]。

3 預(yù)測修正模型

粗糙集理論是一種處理不確定性和模糊問題的數(shù)學(xué)工具，能夠?qū)Σ灰恢?、需要誤差修正或有數(shù)據(jù)丟失的缺陷信息進行有效修正和分析[25-26]。

利用粗糙集理論建立負(fù)荷預(yù)測修正模型[25-26]：

式中：yt+1和分別為t+1時刻預(yù)測值和修正值；st為尺度因子。

要求解尺度因子st，需構(gòu)建一個信息系統(tǒng)。本文假設(shè)粗糙集理論所依的信息系統(tǒng)為K=(U，A)，其中：論域U為DNN 輸出的預(yù)測值集合；A=C∪S為屬性集，S={st}代表決策屬性，條件屬性C為數(shù)據(jù)集特征量的集合，基于已有的研究結(jié)果[25-26]，此處定義C={a，b，c}。其中：

至此，通過式(9)—(12)可對負(fù)荷預(yù)測值進行修正。

4 預(yù)測結(jié)果評價模型

本文設(shè)置均方誤差(mean square error，MSE)和最大絕對誤差(maximum absolute error，MAE) 2個指標(biāo)對預(yù)測結(jié)果進行評價。預(yù)測負(fù)荷和真實負(fù)荷的均方誤差用于評價整體預(yù)測效果；預(yù)測負(fù)荷和真實負(fù)荷的最大絕對誤差用于評價局部點的預(yù)測效果。MSE和MAE分別表示如下：

式中：N為預(yù)測點的數(shù)量；yn為第n個預(yù)測點的真實值；為第n個預(yù)測點的預(yù)測值。

5 RF-DL-RST預(yù)測模型

RF-DL-RST 模型框架如圖3 所示。本文的目標(biāo)是對電力負(fù)荷進行短期預(yù)測，輸入的特征量包括天氣、時間等多種因素，與預(yù)測結(jié)果(即負(fù)荷數(shù)據(jù))存在量綱、單位等差異，需要對預(yù)測數(shù)據(jù)進行預(yù)處理，具體方法見文獻[26]。

圖3 RF-DL-RST模型示意圖Fig.3 Schematic diagram of RF-DL-RST model

影響地區(qū)用電負(fù)荷的因素非常多，有天氣、時間和政策等因素，然而DNN的預(yù)測精度并不與輸入項呈正相關(guān)，當(dāng)輸入項過多時，不僅會造成網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，還有可能劣化模型精度。

參照文獻[18]，本文建立負(fù)荷預(yù)測的特征集。不過，本文認(rèn)為其時間因素中的周日期和工作日、節(jié)假日構(gòu)成重復(fù)，故剔除周日期特征量。同時，考慮到近幾年疫情封控對社會用電方式的影響，本文將該日是否封控也作為一個特征量進行研究。此外，本文還補充了平均溫度、平均風(fēng)速、日出時間、日落時間等天氣因素作為特征量。具體預(yù)測特征量見表1。

表1 預(yù)測特征量Tab.1 Prediction characteristic variables

6 算例分析

本文使用蘇州某地區(qū)電網(wǎng)2022 年10 月28 日至2023 年2 月4 日的負(fù)荷數(shù)據(jù)對RF-DL-RST 預(yù)測模型進行仿真驗證。為驗證RF-DL-RST模型的優(yōu)越性，設(shè)置2 個對比模型，其中：對比模型1 是RF-DL 模型，無RST 修正部分；對比模型2 是DL-RST 模型，無RF 特征量篩選部分。3 個模型的相關(guān)參數(shù)選擇一致。

6.1 負(fù)荷預(yù)測關(guān)鍵特征量提取

對表1所選取的預(yù)測特征量進行重要性排序，RF 模型中決策樹數(shù)目設(shè)置為500，分裂特征數(shù)取3，訓(xùn)練集和測試集比例為9∶1。圖4 為特征量重要性分析結(jié)果。

圖4 隨機森林算法特征量重要性分析結(jié)果Fig.4 Results of importance analysis of characteristic variables based on RF algorithm

從圖4 可以看出，表1 中15 個特征量按重要性得分從低到高排序后，當(dāng)日小時、最低溫度、平均溫度、天氣條件、節(jié)假日、工作日、日出時間、是否封控這8 個特征量得分較高，因此將其作為DNN模型的輸入項。

6.2 深度學(xué)習(xí)訓(xùn)練

將由RF篩選的8個關(guān)鍵特征量和歷史負(fù)荷數(shù)據(jù)分別作為DNN 模型的輸入、輸出項進行訓(xùn)練。DNN輸入層節(jié)點數(shù)為8，輸出層節(jié)點數(shù)為1。設(shè)置DNN 含3 層隱含層，節(jié)點數(shù)分別為40、30 和20，激活函數(shù)為ReLU；訓(xùn)練集和測試集比例為9∶1，訓(xùn)練次數(shù)為200次。

在迭代過程中，預(yù)測值的均方誤差隨訓(xùn)練次數(shù)的變化曲線如圖5 所示?？梢钥闯觯秸`差在訓(xùn)練次數(shù)為150 左右時開始收斂，不斷趨近于975 MW2這一數(shù)值。

圖5 預(yù)測值均方誤差隨訓(xùn)練次數(shù)的變化曲線Fig.5 Curve of MSE of predicted value changing with training times

6.3 RST修正

依據(jù)式(8)—(12) 分別計算條件屬性C={a，b，c}，以及在t之前的決策屬性S，從而得到粗糙集信息系統(tǒng)。鑒于粗糙集理論處理數(shù)據(jù)的要求，此處設(shè)定條件屬性C={a，b，c}的編碼規(guī)則[13]為

由此，可計算得到修正后的負(fù)荷預(yù)測數(shù)據(jù)。

圖6為2023年2月5日的實際負(fù)荷與RST修正前后預(yù)測負(fù)荷曲線?？梢钥闯觯?jīng)RST 修正后的預(yù)測負(fù)荷曲線基本介于實際負(fù)荷曲線和未經(jīng)RST修正的預(yù)測負(fù)荷曲線之間，更接近實際負(fù)荷曲線。

圖6 實際負(fù)荷與RST修正前后預(yù)測負(fù)荷曲線對比Fig.6 Comparison of actual load and predicted load curves before and after RST correction

6.4 對比分析

根據(jù)式(13)、(14)可計算出預(yù)測結(jié)果的評價指標(biāo)。RF-DL-RST 模型與RF-DL、DL-RST 模型的指標(biāo)對比如表2所示。

表2 3個模型的指標(biāo)對比Tab.2 Index comparison of three models

從表2 可以看出，與RF-DL 模型相比，RFDL-RST 模型的MSE 指標(biāo)降低了30.198%，整體預(yù)測結(jié)果更接近真實值，MAE指標(biāo)也從5.77%下降到4.01%，在07:00—08:00(負(fù)荷迅速增加)和22:00—23:00(負(fù)荷迅速降低)等負(fù)荷變化較大的特殊時段，預(yù)測精準(zhǔn)度大大提高。

此外，與DL-RST 模型相比，RF-DL-RST 模型的MAE 和MSE 指標(biāo)分別降低了15.221%和21.425%，且RF-DL-RST模型的DL訓(xùn)練時間縮短了10.186%，說明通過RF 模型精簡DL 輸入特征量能夠提高負(fù)荷預(yù)測效果。

綜合以上分析可知，RF-DL-RST 模型的預(yù)測結(jié)果明顯更優(yōu)，驗證了本文預(yù)測模型的有效性。

7 結(jié)論

針對短期負(fù)荷預(yù)測，基于隨機森林算法和粗糙集理論，提出RF-DL-RST模型。通過實例計算分析，得到如下結(jié)論：

1）通過RF 對影響負(fù)荷的因素進行重要性評估，縮短了模型運算時間，提高了預(yù)測的精準(zhǔn)度。

2）通過RST對模型結(jié)果進行修正，并從整體和局部2 個角度建立評價模型，驗證了方法的有效性，大大提高了對負(fù)荷突變點的預(yù)測精準(zhǔn)度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡