吳麗珍, 孔 純, 陳 偉
(蘭州理工大學(xué) 電氣工程與信息工程學(xué)院, 甘肅 蘭州 730050)
電力系統(tǒng)負(fù)荷預(yù)測(cè)是從已知的電力系統(tǒng)數(shù)據(jù)、經(jīng)濟(jì)狀況、氣象變化、人口數(shù)量等多種情況出發(fā),通過(guò)對(duì)歷史數(shù)據(jù)的提取分析,研究事物之間的內(nèi)在聯(lián)系和變化規(guī)律,從而對(duì)未來(lái)負(fù)荷的變化作出預(yù)先的估計(jì)和推測(cè)[1].短期負(fù)荷預(yù)測(cè)是電力系統(tǒng)運(yùn)行、規(guī)劃、調(diào)度的基礎(chǔ).精準(zhǔn)的短期負(fù)荷預(yù)測(cè)有助于電力系統(tǒng)規(guī)劃、控制、運(yùn)行,合理地安排發(fā)電廠發(fā)電機(jī)組的啟停,確定電廠冷、熱備用容量,有效降低發(fā)電成本,提高經(jīng)濟(jì)效益和社會(huì)效益[2].要實(shí)現(xiàn)精準(zhǔn)的短期負(fù)荷預(yù)測(cè)需要精準(zhǔn)的預(yù)測(cè)模型,精準(zhǔn)的預(yù)測(cè)模型來(lái)源于海量的精準(zhǔn)數(shù)據(jù).隨著各種配電智能終端在電力系統(tǒng)中的廣泛應(yīng)用,以及社會(huì)智能化、信息化水平不斷的提高,產(chǎn)生了龐大且多樣的電力數(shù)據(jù)和豐富的天氣、溫度、地理等數(shù)據(jù),這些數(shù)據(jù)構(gòu)成了短期負(fù)荷預(yù)測(cè)的數(shù)據(jù)來(lái)源[3],數(shù)據(jù)呈現(xiàn)“4V”特征[4],即數(shù)據(jù)量大(volume)、數(shù)據(jù)格式多樣(variety)、數(shù)據(jù)處理速度快(velocity)和數(shù)據(jù)價(jià)值密度低(value).在如此海量的數(shù)據(jù)中常常存在著大量重復(fù)記錄、錯(cuò)誤記錄和不完整記錄的數(shù)據(jù),這些數(shù)據(jù)將對(duì)負(fù)荷預(yù)測(cè)產(chǎn)生不良后果.如何從海量數(shù)據(jù)中提取有效數(shù)據(jù),并快速處理這些數(shù)據(jù),是大數(shù)據(jù)背景下負(fù)荷預(yù)測(cè)的關(guān)鍵問(wèn)題[5].為了從海量數(shù)據(jù)中提取有效數(shù)據(jù),需在計(jì)算之前對(duì)數(shù)據(jù)進(jìn)行清洗.近年來(lái),數(shù)據(jù)清洗技術(shù)獲得了廣泛關(guān)注.Nascimento等[6]利用近鄰排序算法(sorting neighbor algorithm,SNM)對(duì)文中數(shù)據(jù)進(jìn)行清理,通過(guò)分析數(shù)據(jù)集關(guān)鍵屬性,對(duì)不同屬性進(jìn)行排序以檢測(cè)重復(fù)數(shù)據(jù),但其檢測(cè)精度和計(jì)算成本受其觀測(cè)窗口的影響.莫文雄等[7]基于隨機(jī)矩陣?yán)碚搶?duì)擾動(dòng)數(shù)據(jù)進(jìn)行檢測(cè),通過(guò)比較擾動(dòng)事件觀測(cè)矩陣與隨機(jī)矩陣在互相關(guān)譜分布上的差異,以確定擾動(dòng)源的類型及其所在區(qū)域,該方法可用于異常數(shù)據(jù)監(jiān)測(cè).
此外,有關(guān)電力負(fù)荷預(yù)測(cè)數(shù)據(jù)處理的研究也不斷發(fā)展,涌現(xiàn)出多種電力負(fù)荷預(yù)測(cè)的理論和方法.基于歷史數(shù)據(jù)確定多種變量之間關(guān)系的回歸分析法[8]、研究隨時(shí)間變化動(dòng)態(tài)電力數(shù)據(jù)的時(shí)間序列法[9]、針對(duì)電力系統(tǒng)建立模糊推理系統(tǒng)來(lái)進(jìn)行負(fù)荷預(yù)測(cè)[10]以及數(shù)據(jù)驅(qū)動(dòng)的人工神經(jīng)網(wǎng)絡(luò)負(fù)荷預(yù)測(cè)[11]等.以上所述方法雖然針對(duì)某些特定情況的負(fù)荷預(yù)測(cè)十分有效,但是對(duì)于海量且復(fù)雜的大數(shù)據(jù)情況有一定的局限性,不適于現(xiàn)今配電網(wǎng)短期負(fù)荷預(yù)測(cè).
為此,本文在MapReduce并行編程框架下,提出基于小批量隨機(jī)梯度下降法算法的線性回歸模型.利用大數(shù)據(jù)分析與處理技術(shù)從海量的數(shù)據(jù)中挖掘出負(fù)荷變化的規(guī)律,結(jié)合基于自適應(yīng)近鄰排序算法(adaptive sorting neighbor algorithm,ASNM)和K均值聚類的數(shù)據(jù)清理技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.在Hadoop大數(shù)據(jù)平臺(tái)上,利用基于MapReduce并行計(jì)算框架,建立基于小批量隨機(jī)梯度下降法算法的線性回歸模型,并通過(guò)顯著性檢驗(yàn)方法檢驗(yàn)該數(shù)據(jù)集在負(fù)荷預(yù)測(cè)中的顯著性.最后,基于以上方法建立短期負(fù)荷預(yù)測(cè)模型,并應(yīng)用在甘肅武威某區(qū)域配電網(wǎng)短期負(fù)荷預(yù)測(cè)系統(tǒng)中.實(shí)驗(yàn)結(jié)果表明,所提短期負(fù)荷預(yù)測(cè)模型滿足負(fù)荷預(yù)測(cè)的要求,并且極大地提高了負(fù)荷計(jì)算的速度,縮短了負(fù)荷預(yù)測(cè)時(shí)間.
某個(gè)傳感器檢測(cè)到擾動(dòng)記錄的數(shù)據(jù),可能會(huì)被下游變電站電能檢測(cè)裝置重復(fù)記錄,傳感器故障會(huì)造成該節(jié)點(diǎn)記錄數(shù)據(jù)的缺失,智能終端在非正常狀態(tài)下工作則帶來(lái)異常數(shù)據(jù).重復(fù)數(shù)據(jù)、不完整數(shù)據(jù)和異常數(shù)據(jù)會(huì)對(duì)實(shí)驗(yàn)分析結(jié)果造成巨大影響[12].為了減少重復(fù)數(shù)據(jù)的計(jì)算,減少異常數(shù)據(jù)帶來(lái)的干擾,很有必要對(duì)數(shù)據(jù)進(jìn)行清理.此外,負(fù)荷預(yù)測(cè)數(shù)據(jù)類型復(fù)雜多樣,數(shù)據(jù)種類繁多,有像電壓、電流、功率這樣的浮點(diǎn)型數(shù)據(jù),還有像天氣狀況、居民消費(fèi)水平等無(wú)法直接計(jì)算的數(shù)據(jù)[13],因此,需要對(duì)這些數(shù)據(jù)進(jìn)行初始化.
自適應(yīng)近鄰排序算法(ASNM)是一種適用于并行計(jì)算模型MapReduce的重復(fù)數(shù)據(jù)檢測(cè)算法,其步驟如圖1所示.
圖1 ASNM算法步驟示意圖Fig.1 Illustration of procedures for ASNM
從圖1可以看出,該算法可分成兩步實(shí)現(xiàn),其步驟如下:
Step1:自適應(yīng)記錄簇劃分.同一擾動(dòng)源引起的觀測(cè)數(shù)據(jù)會(huì)在極短的時(shí)間內(nèi)被多個(gè)傳感器檢測(cè)記錄,不同的擾動(dòng)事件其擾動(dòng)發(fā)生的時(shí)刻也不同,因此可以將擾動(dòng)發(fā)生的時(shí)刻作為擾動(dòng)時(shí)間的關(guān)鍵屬性,以事件記錄的時(shí)間間隔作為事件的相似距離,距離函數(shù)為
d(Ri,Rj)=|Ti-Tj|
(1)
式中:Ri和Rj分別為第i條和j條擾動(dòng)記錄;Ti和Tj分別為第i條和j條擾動(dòng)事件的時(shí)間.當(dāng)事件相似距離小于距離閾值φ時(shí),可將這兩條記錄劃分至同一簇.
Step2:簇內(nèi)重復(fù)數(shù)據(jù)融合.在同一時(shí)間段內(nèi)也可能發(fā)生不同類型或者不同空間的擾動(dòng),這些擾動(dòng)不屬于重復(fù)記錄的數(shù)據(jù),因此要將它們區(qū)分開(kāi)來(lái),具體判斷函數(shù)為
(2)
式中:Fi和Fj分別表示事件i和事件j的類型;Wi和Wj分別表示事件i和事件j的檢測(cè)子站;0表示Ri和Rj不是重復(fù)記錄的數(shù)據(jù);1表示Ri和Rj是重復(fù)記錄的數(shù)據(jù),需要進(jìn)行數(shù)據(jù)清理.
異常數(shù)據(jù)和不完整數(shù)據(jù)的特征值與有效數(shù)據(jù)的特征值有較大差異,因此能利用K均值聚類算法對(duì)有效數(shù)據(jù)、異常數(shù)據(jù)和不完整數(shù)據(jù)的特征向量進(jìn)行劃分.基于K均值聚類算法的數(shù)據(jù)檢測(cè)方法的具體步驟如下:
Step1: 建立時(shí)空觀測(cè)矩陣.智能終端依據(jù)時(shí)間序列和空間分布記錄觀測(cè)數(shù)據(jù),建立時(shí)空觀測(cè)矩陣:
(3)
式中:xk(n)為第k個(gè)傳感器在n時(shí)段內(nèi)收集的數(shù)據(jù).
Step2: 初始化聚類中心.本文涉及到3種數(shù)據(jù)分別是有效數(shù)據(jù)、異常數(shù)據(jù)和不完整數(shù)據(jù)(將不完整數(shù)據(jù)缺失部分補(bǔ)0),因此需要初始化3個(gè)聚類中心c={c1,c2,c3},每一個(gè)聚類中心包含k個(gè)傳感器收集數(shù)據(jù),每個(gè)聚類中心cj所在集合記為Gj.
Step3: 將每個(gè)待聚類數(shù)據(jù)放入聚類集合中.計(jì)算帶聚類數(shù)據(jù)x(n)到聚類質(zhì)心的歐式距離:
(4)
Step4: 更新聚類中心.根據(jù)每個(gè)聚類集合中包含的所有數(shù)據(jù)點(diǎn),更新聚類中心使得每個(gè)數(shù)據(jù)點(diǎn)到新中心的幾何均距最小,即
(5)
Step5: 每當(dāng)有一個(gè)數(shù)據(jù)輸入,就重復(fù)Step3到Step5,直至輸入最后一個(gè)數(shù)據(jù),跳出循環(huán),完成K均值聚類.
完成聚類后,所有數(shù)據(jù)會(huì)被分成3類(有效數(shù)據(jù)、異常數(shù)據(jù)和不完整數(shù)據(jù)),可以直接將異常數(shù)據(jù)和不完整數(shù)據(jù)剔除,因?yàn)閿?shù)據(jù)量足夠大,且異常數(shù)據(jù)和不完整數(shù)據(jù)占總數(shù)據(jù)量比例很小,剔除這些數(shù)據(jù)不會(huì)對(duì)負(fù)荷預(yù)測(cè)的準(zhǔn)確性造成影響.
多元回歸分析研究的目的是找出因變量Y與多個(gè)變量X=[x1,x2,…,xn]之間的定量關(guān)系,利用最小二乘法[14]找出相關(guān)因素之間的線性關(guān)系.
多元線性回歸模型是計(jì)算所有影響因素與其權(quán)重之積的總和再加上一個(gè)常數(shù)偏差,其模型為
(6)
多元線性回歸模型用向量表示為
(7)
式中:θT為權(quán)重因子向量,θT=[θ0,θ1,θ2,…,θn];X為變量矩陣,在此表示影響因子向量,X=[1,x1,x2,…,xn].
(8)
為找到使得損失函數(shù)最小的θ值,需對(duì)均方差MSE(θ)求導(dǎo),令其導(dǎo)數(shù)為0:
θMSE(θ)=0
(9)
從而求得多元線性回歸方程的正規(guī)方程:
(10)
梯度下降法是尋找最優(yōu)解問(wèn)題的通用優(yōu)化算法[15-16].梯度下降的主要思想是通過(guò)迭代微調(diào)參數(shù)最小化損失函數(shù).
傳統(tǒng)的梯度下降法在于進(jìn)行每一次迭代的過(guò)程都要遍歷整個(gè)數(shù)據(jù)集,當(dāng)數(shù)據(jù)量過(guò)大時(shí),傳統(tǒng)梯度下降的計(jì)算速度就變得很慢.此外,當(dāng)目標(biāo)函數(shù)存在多個(gè)局部最小值時(shí),傳統(tǒng)的梯度下降算法很容易陷入局部最小值.
圖2 小批量隨機(jī)梯度下降流程圖Fig.2 Flow chart of mini-batch stochastic gradient descent
小批量隨機(jī)梯度下降法的求解步驟如下:
Step1: 對(duì)式(8)中每個(gè)θi分別求偏導(dǎo),得到梯度向量的損失方程為
(11)
θ(n+1)=θ(n)-ηθMSE(θ(n))
(12)
其中:η為學(xué)習(xí)率,決定了每次迭代的步長(zhǎng).
Step3: 根據(jù)式(12)的迭代式,隨機(jī)選取一小批實(shí)例數(shù)據(jù)(k個(gè)樣本)進(jìn)行迭代計(jì)算,并更新一次梯度和權(quán)值.
2.3.1F檢驗(yàn)
在電力負(fù)荷預(yù)測(cè)的線性回歸分析中,F檢驗(yàn)的目的是檢驗(yàn)因變量y與自變量x1,x2,…,xp之間是否存在線性關(guān)系[17].檢驗(yàn)統(tǒng)計(jì)量為
(13)
對(duì)給定的顯著水平α,根據(jù)第一自由度p和第二自由度(n-p-1)查表可以得到拒絕域的臨界值Fα(p,n-p-1).再與計(jì)算所得到的F檢驗(yàn)值比較,若F≤Fα(p,n-p-1),則認(rèn)為y與X無(wú)顯著的線性關(guān)系;若F>Fα(p,n-p-1),則y可以用x1,x2,…,xp線性擬合.
2.3.2T檢驗(yàn)
在電力負(fù)荷預(yù)測(cè)中,不是所有的數(shù)據(jù)都與負(fù)荷有較強(qiáng)的線性關(guān)系,因此在負(fù)荷預(yù)測(cè)過(guò)程中要剔除那些與負(fù)荷相關(guān)性不強(qiáng)的數(shù)據(jù)[18].T檢測(cè)法就是針對(duì)每個(gè)自變量xi檢驗(yàn)它的總體參數(shù)θi是否顯著為零,以判斷該特征數(shù)據(jù)與負(fù)荷相關(guān)性的強(qiáng)弱.其檢驗(yàn)統(tǒng)計(jì)量為
(14)
在實(shí)際負(fù)荷預(yù)測(cè)中,通常設(shè)定一個(gè)衡量顯著性的閾值,一般取0.05,再將所有特征放入模型進(jìn)行訓(xùn)練,計(jì)算每個(gè)特征的p值,p值若比選定的顯著性閾值小,則選擇該特征;若p值比選定的顯著性閾值大,則認(rèn)為該特征與負(fù)荷模型不存在強(qiáng)相關(guān)性,并將該特征移除利用剩下的特征進(jìn)行新一輪的擬合,若還存在p值高于閾值的特征則繼續(xù)移除,直到滿足條件.
Hadoop是Apache軟件基金會(huì)下的開(kāi)源分布式計(jì)算平臺(tái),具有良好的通用性,適用于構(gòu)建智能電網(wǎng)大數(shù)據(jù)平臺(tái)[19].根據(jù)電力負(fù)荷數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜多樣的特點(diǎn),需搭建基于Hadoop生態(tài)體系的分布式電力大數(shù)據(jù)計(jì)算分析平臺(tái).Hadoop的核心是利用分布式文件系統(tǒng)(hadoop distributed file system,HDFS)作為大數(shù)據(jù)的存儲(chǔ)框架,利用分布式并行計(jì)算框架MapReduce作為數(shù)據(jù)處理框架[20].本文實(shí)驗(yàn)在Ubuntu 16.04系統(tǒng)上搭建大數(shù)據(jù)平臺(tái),Hadoop版本為2.7.1,使用Hadoop平臺(tái)上的分布式計(jì)算框架MapReduce、分布式文件系統(tǒng)HDFS和資源調(diào)度管理框架(yet another resource negotiator,YARN)[21].
MapReduce計(jì)算原理如圖3所示,先從分布式文件系統(tǒng)(HDFS)中取出以固定大小的塊為基本單位存儲(chǔ)數(shù)據(jù),通過(guò)Map程序?qū)?shù)據(jù)切割成不相關(guān)的分片,分配給多臺(tái)計(jì)算機(jī)實(shí)現(xiàn)分布式計(jì)算,Map任務(wù)輸出的〈key,value〉鍵值對(duì),再通過(guò)Shuffle過(guò)程歸并鍵值對(duì)送給Reduce任務(wù),最終輸出另一批〈key,value〉鍵值對(duì)存入HDFS中.
圖3 MapReduce計(jì)算原理圖Fig.3 Schematic diagram for MapReduce calculation
在Map過(guò)程中,將來(lái)自矩陣XT的元素xij,標(biāo)識(shí)成n條〈key,value〉的形式,其中key=(i,1),value=(‘x’,j,xij);將來(lái)自(Xθ-y)矩陣的元素記為ei1,將其標(biāo)識(shí)成1條〈key,value〉形式,key=(1,k),value=(‘e’,i,ei1).通過(guò)key把計(jì)算結(jié)果歸為一類,通過(guò)value區(qū)分元素是來(lái)自哪個(gè)矩陣以及確定其具體位置.在Shuffle過(guò)程相同key的value會(huì)被整合到同一列表中,形成〈key,list(value)〉對(duì),再傳遞給Reduce.經(jīng)過(guò)Reduce階段最終輸出的是〈key,value〉,其中key=(i,j)表示輸出矩陣元素的位置,value表示元素的值,這樣就完成了矩陣乘法的MapReduce過(guò)程.矩陣加減和矩陣數(shù)乘的Map階段生成的〈key,value〉鍵值對(duì),key用來(lái)標(biāo)識(shí)矩陣元素的位置,value則為對(duì)應(yīng)元素位置的值,Shuffle過(guò)程將具有相同key的value整合到同一列表,最后通過(guò)Reduce過(guò)程將相同位置元素進(jìn)行加減或數(shù)乘.
本文采用的評(píng)價(jià)指標(biāo)有絕對(duì)誤差、相對(duì)誤差、平均絕對(duì)百分誤差和均方根誤差.
(1) 絕對(duì)誤差(absolute error,AE)是負(fù)荷實(shí)際值與預(yù)測(cè)值之差:
(15)
(2) 相對(duì)誤差(relative error,RE)是絕對(duì)誤差與實(shí)際值之比:
(16)
(3) 平均絕對(duì)百分誤差(mean absolute percentage error,MAPE)能準(zhǔn)確地反映預(yù)測(cè)誤差的大?。?/p>
(17)
(4) 均方根誤差(root mean square error,RMSE)是預(yù)測(cè)值與觀測(cè)值之差的樣本標(biāo)準(zhǔn)差:
(18)
實(shí)驗(yàn)采用甘肅省武威市某配電網(wǎng)的實(shí)際運(yùn)行數(shù)據(jù)作為算例.首先對(duì)負(fù)荷預(yù)測(cè)數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)檢測(cè)實(shí)驗(yàn),然后對(duì)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)和不完整數(shù)據(jù)的清理,再組成負(fù)荷預(yù)測(cè)數(shù)據(jù)集.負(fù)荷預(yù)測(cè)數(shù)據(jù)集包含1 480條記錄作為訓(xùn)練集,用于建立負(fù)荷預(yù)測(cè)模型,另外1 186條數(shù)據(jù)作為測(cè)試集,用于驗(yàn)證負(fù)荷預(yù)測(cè)模型的準(zhǔn)確性.訓(xùn)練集和測(cè)試集中每條記錄都包含8條屬性,將每條數(shù)據(jù)信息都存入影響因子矩陣Xi(x1,x2,x3,x4,x5,x6,x7),x1表示系統(tǒng)相電壓,x2表示相電壓畸變率,x3表示系統(tǒng)相電流,x4表示相電流畸變率,x5表示負(fù)載相電流,x6表示補(bǔ)償電流,x7表示功率因數(shù);Yi=y,y表示負(fù)荷功率.
4.2.1數(shù)據(jù)清洗實(shí)驗(yàn)結(jié)果分析
利用自適應(yīng)近鄰排序(ASNM)算法對(duì)甘肅省武威市某配電網(wǎng)2018-08-01到2018-08-21的電力數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)檢測(cè).圖4為重復(fù)數(shù)據(jù)檢測(cè)的實(shí)驗(yàn)結(jié)果.實(shí)驗(yàn)結(jié)果表明,自適應(yīng)近鄰排序算法能有效地檢驗(yàn)出重復(fù)數(shù)據(jù),且該數(shù)據(jù)集的重復(fù)數(shù)據(jù)占總體數(shù)據(jù)的4.7%~24.7%.
圖4 重復(fù)數(shù)據(jù)檢驗(yàn)實(shí)驗(yàn)結(jié)果Fig.4 Tested results of repeated data verification
利用K均值算法對(duì)完成重復(fù)數(shù)據(jù)檢測(cè)后的數(shù)據(jù)進(jìn)行處理,以分離出異常數(shù)據(jù)和不完整數(shù)據(jù).圖5為K均值算法聚類結(jié)果.實(shí)驗(yàn)結(jié)果表明,K均值聚類算法能有效地從數(shù)據(jù)集中分離出異常數(shù)據(jù)和不完整數(shù)據(jù).
圖5 利用K均值聚類分離數(shù)據(jù)Fig.5 Separating data by K-means clustering
4.2.2負(fù)荷預(yù)測(cè)結(jié)果分析
基于MapReduce分布式并行計(jì)算框架的小批量隨機(jī)梯度下降算法和傳統(tǒng)梯度下降算法的運(yùn)算速度對(duì)比結(jié)果如圖6所示.
從圖6可以看出,基于MapReduce分布式并行計(jì)算框架的小批量隨機(jī)梯度下降算法相對(duì)于傳統(tǒng)梯度下降算法,在數(shù)據(jù)量小于40 MB時(shí)計(jì)算速度甚至不如傳統(tǒng)梯度下降算法.其原因是:當(dāng)數(shù)據(jù)量較小時(shí),如果訓(xùn)練數(shù)據(jù)樣本量小于其分批處理閾值k,小批量隨機(jī)梯度下降法就變成了傳統(tǒng)的梯度下降法,且并行計(jì)算各個(gè)主機(jī)之間的通信和數(shù)據(jù)交換需要消耗帶寬,這樣反而降低了運(yùn)算速度.但當(dāng)數(shù)據(jù)量較大時(shí),并行小批量隨機(jī)梯度下降算法所消耗的運(yùn)算時(shí)間遠(yuǎn)小于傳統(tǒng)算法,且這種差距會(huì)隨著數(shù)據(jù)量的增大變得越發(fā)明顯.
圖6 并行小批量隨機(jī)梯度和傳統(tǒng)梯度下降算法運(yùn)行時(shí)間對(duì)比Fig.6 Comparison of running time between parallel mini-batch SGD algorithm and traditional gradient descent algorithm
將完成數(shù)據(jù)清洗工作負(fù)荷的數(shù)據(jù)存入分布式文件系統(tǒng)(HDFS),利用分布式并行框架MapReduce對(duì)小批量隨機(jī)梯度下降算法并行化處理,完成計(jì)算,得出負(fù)荷預(yù)測(cè)模型(表1).
表1 負(fù)荷預(yù)測(cè)模型分析Tab.1 Model analysis of load forecasting
表1中相關(guān)系數(shù)為每一個(gè)變量對(duì)應(yīng)的權(quán)重因子θi,常采用標(biāo)準(zhǔn)誤差來(lái)衡量相關(guān)系數(shù)的可靠性.標(biāo)準(zhǔn)誤差計(jì)算公式為
(19)
式中:X代表變量矩陣;diag()為求取方陣對(duì)角線元素函數(shù).根據(jù)式(19)求取的標(biāo)準(zhǔn)誤差如表1 所列,可知在該數(shù)據(jù)集下利用小批量隨機(jī)梯度下降算法獲得相關(guān)系數(shù)的標(biāo)準(zhǔn)誤差較小,利用該方法獲得的相關(guān)系數(shù)可靠性較高.再借助T檢驗(yàn)來(lái)確定自變量顯著性,設(shè)定顯著性閾值為0.05,計(jì)算每個(gè)特征的p值,根據(jù)負(fù)荷預(yù)測(cè)結(jié)果,p>|t|的有x2、x5、x7,說(shuō)明負(fù)荷預(yù)測(cè)的結(jié)果與相電壓畸變率x2(%)、負(fù)載相電流x5(A)和功率因數(shù)x7沒(méi)有顯著的線性關(guān)系,因此需要將這3個(gè)特征從訓(xùn)練模型中刪去,重新進(jìn)行擬合.重新擬合的結(jié)果如表2所列.
表2 剔除無(wú)關(guān)特征后的負(fù)荷預(yù)測(cè)模型分析Tab.2 Model analysis load forecasting after eliminating irrelevant features
重新擬合后,通過(guò)T檢驗(yàn),所有特征均具有顯著性.再通過(guò)F檢驗(yàn)驗(yàn)證該數(shù)據(jù)能否線性表征負(fù)荷模型,計(jì)算獲得F檢驗(yàn)的值為135 826,遠(yuǎn)大于表3所查的極限值,所以負(fù)荷預(yù)測(cè)模型在該特征數(shù)據(jù)下存在顯著的線性關(guān)系.最終,得到負(fù)荷預(yù)測(cè)的模型為
表3 F檢驗(yàn)臨界值(α=0.05)Tab.3 F test threshold (α=0.05)
y=-1.634 6+0.007 1x1+
0.210 1x3-0.000 9x4+
0.017 7x6
(20)
根據(jù)1 186條測(cè)試數(shù)據(jù)集,利用式(20)預(yù)測(cè)模型獲得的負(fù)荷曲線與實(shí)際運(yùn)行的負(fù)荷曲線進(jìn)行對(duì)比,結(jié)果如圖7所示.
圖7 模型預(yù)測(cè)的運(yùn)行負(fù)荷與實(shí)際運(yùn)行負(fù)荷對(duì)比曲線Fig.7 Comparison curve between the load predicted by the model and the actual operating load
從圖7可以看出,預(yù)測(cè)模型得出的負(fù)荷預(yù)測(cè)曲線與電力系統(tǒng)實(shí)際運(yùn)行負(fù)荷曲線擬合較好,預(yù)測(cè)結(jié)果與實(shí)際值偏差較小.
為了更清楚地展示每個(gè)預(yù)測(cè)點(diǎn)相對(duì)于實(shí)際誤差的大小,對(duì)1 186條測(cè)試數(shù)據(jù)逐點(diǎn)繪制的絕對(duì)百分誤差曲線如圖8所示.該負(fù)荷預(yù)測(cè)模型的最大相對(duì)誤差為8.246%,平均絕對(duì)百分誤差(MAPE)為2.043%,均方根誤差(RMSE)為3 112.62,該模型預(yù)測(cè)能準(zhǔn)確捕捉負(fù)荷變化規(guī)律,快速預(yù)測(cè)負(fù)荷變化趨勢(shì),負(fù)荷預(yù)測(cè)結(jié)果精準(zhǔn).
本文針對(duì)大數(shù)據(jù)背景下負(fù)荷預(yù)測(cè)計(jì)算速度慢和預(yù)測(cè)不精確的問(wèn)題,提出了在大數(shù)據(jù)平臺(tái)上利用小批量隨機(jī)梯度下降法建立負(fù)荷預(yù)測(cè)回歸模型,并在計(jì)算之前對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)清洗工作.實(shí)驗(yàn)結(jié)果表明,采用所提的自適應(yīng)近鄰排序算法能夠有效地檢測(cè)出重復(fù)數(shù)據(jù);采用所提的K均值聚類方法能夠有效地剔除異常數(shù)據(jù)和記錄不完整數(shù)據(jù).采用所提的基于大數(shù)據(jù)平臺(tái)和MapReduce并行編程框架的小批量隨機(jī)梯度下降算法建立的短期負(fù)荷預(yù)測(cè)模型進(jìn)行實(shí)際配電網(wǎng)負(fù)荷預(yù)測(cè),其平均絕對(duì)百分誤差(MAPE)為2.043%,均方根誤差(RMSE)為3 112.62,表明該方法能快速、高效地處理大批數(shù)據(jù),建立精確的短期負(fù)荷預(yù)測(cè)模型.