孫 源,臧婷婷,姜 峰
(1.湖北大學a.數(shù)學與統(tǒng)計學學院;b.應用數(shù)學湖北省重點實驗室,武漢430062;2.中國科學院武漢文獻情報中心,武漢430071)
新一輪的電改使得電力系統(tǒng)從壟斷走向競爭已成為必然,多家發(fā)電企業(yè)表現(xiàn)出了擬直接向周邊大客戶供電并開展售電業(yè)務的強烈意愿。國網(wǎng)冀北公司因此面臨著優(yōu)質客戶減少,市場份額下降的嚴峻形勢,售電市場空間縮小、競爭激烈,相關管理者不得不及時作出調整;最近幾年環(huán)境污染甚是嚴重,加之冀北地區(qū)鄰近首都北京,因此自然成了治污減污的重要目標。這對于以重工業(yè)為主要發(fā)展對象的冀北地區(qū)來說,限產(chǎn)甚至停產(chǎn)的要求將會嚴重影響電力市場的波動。
本文在這種大環(huán)境下,以保證電力系統(tǒng)正常運行、提高冀北公司的市場競爭力、降低公司的運行成本為目標,調研了冀北地區(qū)各行業(yè)電力客戶分布及用電情況,選取冀北五地市重點行業(yè)電力大客戶日負荷和電量數(shù)據(jù),通過研究數(shù)據(jù)預處理方法,進行負荷聚類分析。
電力用戶負荷聚類就是根據(jù)不同用戶的不同用電曲線,將用電特征相似的用戶聚到一起,對不同用電特征的用戶分別進行用電特征分析。隨著負荷曲線的不斷復雜化,傳統(tǒng)聚類算法肯定或多或少有些不適用的地方,相關研究者對負荷聚類方法不斷地進行更新、探討,以便根據(jù)不同環(huán)境找到合適的各種聚類模型。由于數(shù)據(jù)量較大,本文經(jīng)過多種算法的對比和實際驗算,最終選用計算速度較快的K-means聚類算法進行聚類,聚類結果經(jīng)驗證后也比較合理。
K-Means聚類又稱快速聚類,是由Mac Queen于1766年提出并命名的一種方法。其思想是:對于給定的N個樣本,任意挑選出K個對象,作為K個族類的初始聚類中心;接著分別計算所有其他樣本到這K個中心的歐式距離,與誰越接近,就屬于那個類。新的K個類形成后再重新計算每個類的聚類中心,接著重復上面的過程,計算所有樣本到每個新的聚類中心的距離,與誰越接近,就屬于那個類。不停地重復上述過程直到聚類中心不再改變?yōu)橹?,以上便是K-Means聚類算法的全過程。
本文選取冀北五地市四百多個行業(yè)中的黑色金屬冶煉及壓延工藝、黑色金屬礦采、非金屬礦物和金屬制品四個重點行業(yè)的每天96個點的日負荷數(shù)據(jù)進行重點分析,負荷數(shù)據(jù)來自冀北電網(wǎng)公司數(shù)據(jù)庫。其中黑色金屬冶煉及壓延工藝的數(shù)據(jù)量為284053條,黑色金屬礦采數(shù)據(jù)量為1950430條,非金屬礦物數(shù)據(jù)量為2620129條,金屬制品數(shù)據(jù)量為3359569條。
選取的每天96個點的負荷數(shù)據(jù)中有缺失的部分,需要進行填補修正。對于缺失值的處理已有眾多學者進行了研究,本次缺失值的填補針對不同的情況采用不同的方法:
(1)刪除表中無效記錄
因為本次所選的負荷值是正向有功負荷,所以表中數(shù)據(jù)應該是大于等于零的。首先刪除表中含有負值的記錄;其次為了使得聚類結果有代表性,再刪除表中全為0的記錄;最后刪除表中出現(xiàn)極大值、極小值等異常值的記錄,刪除完數(shù)據(jù)后得到的數(shù)據(jù)即為需要進行聚類分析的目標用戶。
(2)刪除連續(xù)缺失太多的數(shù)據(jù)
每天的負荷值有96個點,經(jīng)過多次嘗試認為每天連續(xù)缺失超過30個負荷值即算缺失過多。刪掉含有空缺值較多的一些記錄,是因為表中有用字段對應的數(shù)據(jù)缺失值過多時,填補等方法將不能起到相應作用,且無法保證填補數(shù)據(jù)的有效性,此時將其刪掉,以減小后續(xù)計算時的誤差。
(3)末段缺失值處理
由于缺失值的處理是對歷史數(shù)據(jù)進行補齊,且每個用戶的用電行為是呈現(xiàn)一定的規(guī)律性的,所以可根據(jù)某一負荷點數(shù)據(jù)前后的日相同負荷點數(shù)據(jù),用線性插值法來補齊數(shù)據(jù)。
(4)單個數(shù)據(jù)缺失
此種情況下比較好處理,用前后負荷的均值來代替即可。
(5)多個數(shù)據(jù)缺失
在出現(xiàn)多個負荷值缺失時,尤其是連續(xù)多個值缺失,以上填補方法會受到限制,此時本文將采用均值填補法,將96點數(shù)據(jù)中有缺失值的地方,根據(jù)缺失數(shù)據(jù)的前條記錄和后條記錄相應位置的值進行均值計算后得到填補數(shù)據(jù)。又因為負荷數(shù)據(jù)受到外界天氣、重大事件等影響因素較大,在填補較多的負荷數(shù)據(jù)時,為了減小誤差,還應結合人為經(jīng)驗,對負荷值進行修正。
(6)數(shù)據(jù)歸一化
因為不同用戶的負荷大小相差甚遠,所以為了更好地將用電行為相似的用戶聚到一起,需要對原始數(shù)據(jù)進行無量綱化處理,再進行分析。為了確保本數(shù)據(jù)訓練的有效性,需對電力負荷數(shù)據(jù)進行歸一化處理。處理方法如下:
該方法可實現(xiàn)對原始數(shù)據(jù)的等比例伸縮,其中X′為歸一化后的值,X為原始數(shù)據(jù),分別為原始數(shù)據(jù)集的最大值和最小值。
數(shù)據(jù)經(jīng)過上述的缺失值處理和歸一化后即可進行聚類分析。因聚類結果有大量統(tǒng)計圖表,為了展示方便,本文只選取黑色金屬礦采行業(yè)的典型聚類圖。黑色金屬礦采行業(yè)主要包括鐵礦采選和其它黑色金屬礦采,目前冀北黑色金屬礦采業(yè)用戶共7861戶。在冀北五地市中,唐山的用戶最多,共計5003個,合同容量占比約0.434;承德的用戶其次,共計1430個,合同容量占比約0.386;張家口的用戶第三,共842個,合同容量占比約0.065;秦皇島的用戶第四,共計584個,合同容量占比約0.113;廊坊的用戶第五,共計2個,合同容量占比不足0.01。圖1便是黑色金屬礦采行業(yè)的用戶日負荷特性聚類結果,聚類數(shù)為10,展示的是每類的聚類中心曲線(其中橫坐標是每天96點的負荷取值時間)。
圖1(a)曲線很顯然為連續(xù)生產(chǎn)類型,負荷率都在80%以上,其年最高負荷率為83%,生產(chǎn)時間為連續(xù)24小時,日平均負荷水平約為83%。
圖1(b)曲線為白天生產(chǎn)類型,其年最高負荷率為60%,生產(chǎn)時間從8:00至18:00,日平均負荷水平約為35%。
圖1(c)曲線為夜間生產(chǎn)類型,即避峰生產(chǎn)。其年最高負荷率為60%,生產(chǎn)時間從23:00至次日8:00,日平均負荷水平約為32%。
圖1(d)曲線與圖1(b)曲線2有相似的地方,都為白天生產(chǎn)類型,生產(chǎn)時間都從8:00至18:00,但也有區(qū)別,其年最高負荷率32%,日平均負荷水平約為19%,均低于第二類。
圖1(e)曲線為不生產(chǎn)類型,其年最高負荷率僅為9%,日平均負荷水平約為8%,并沒有達到生產(chǎn)所需負荷水平。
圖1(f)曲線與圖1(a)曲線都為連續(xù)生產(chǎn)類型,其年最高負荷率為59%,生產(chǎn)時間為連續(xù)24小時,日平均負荷水平約為54%,負荷率均低于第一類,說明此類用戶比第一類用戶小。
圖1(g)曲線為半夜生產(chǎn)類型,其年最高負荷率為73%,生產(chǎn)時間從23:00至次日20:00,日平均負荷水平約為42%。
圖1(h)曲線為典型的避峰生產(chǎn)類型,在高峰期呈現(xiàn)較低負荷率,低峰期有較高負荷率。其年最高負荷率為62%,生產(chǎn)時間從20:00至次日8:00,日平均負荷水平約為36%。
圖1 聚類中心曲線
圖1(i)曲線也是一種連續(xù)生產(chǎn)類型用戶,與其他連續(xù)生產(chǎn)用戶不同的依然是負荷率大小的區(qū)別。其年最高負荷率為51%,生產(chǎn)時間為連續(xù)24小時,日平均負荷水平約為48%。
圖1(j)曲線的夜間負荷率明顯降低,所以為白天生產(chǎn)類型,其年最高負荷率為70%,生產(chǎn)時間從8:00至24:00,日平均負荷水平約為40%。
以上介紹的是幾種用戶的聚類中心圖,概括起來大體分為連續(xù)生產(chǎn)型、白天生產(chǎn)型和避峰生產(chǎn)型,接下來展示這三種典型用戶的聚類圖,如圖2至圖4所示。
圖2 連續(xù)生產(chǎn)類型
圖3 避峰生產(chǎn)類型
圖4 白天生產(chǎn)類型
以上便是黑色金屬礦采行業(yè)的聚類結果展示,為了驗證結果的有效性,本文利用SSE、CHI、DBI等指標做了檢驗,確定最佳聚類數(shù)為10。
根據(jù)本文聚類的結果可以在電價營銷中針對相同類型的電力用戶進行削峰填谷的操作。通過對于工業(yè)用戶的負荷曲線進行分析,可以獲取到對于地區(qū)及行業(yè)有明顯峰谷生產(chǎn)行為的用戶進行電價優(yōu)惠,促進用戶保持這種穩(wěn)定的避峰生產(chǎn)行為。如在黑色冶金及壓延工藝中的鐵合金冶煉行業(yè),其用戶多為避峰生產(chǎn)及夜間生產(chǎn)類型。聚類結果可以很明確地顯示各種用戶的用電行為,因此有助于電網(wǎng)公司合理供配電及管理者制定合理的調控電價政策。聚類結果還可以用在基于用戶經(jīng)濟效益的電費預警中,通過對冀北地區(qū)黑色金屬礦采行業(yè)整體用電情況,從行業(yè)整體負荷情況入手,參考存在用電異常用戶的整體情況分析來看,經(jīng)濟效益差的用戶大多與行業(yè)整體負荷趨勢不同,且用戶還通常伴隨多種生產(chǎn)模式,再一個就是經(jīng)濟效益較差的用戶其負荷率一般較低。依照這幾種分析結果,可以有效地判定哪些用戶是欠費高風險用戶,可以出臺相應的電價政策以減少損失。
參考文獻:
[1]Feyyad U M.Data Mining and Knowledge Discovery:Making Sense Out of Data[J].IEEE Expert Intelligent Systems&Their Applications,1996,11(5).
[2]Li P Q,Li X R,Chen H H,et al.Characteristics Classification and Synthesis of Power Load Based on Fuzzy Clustering[J].Proceedings of the Csee,2005.
[3]馮曉蒲,張鐵峰.四種聚類方法之比較[J].微型機與應用,2010,29(16).
[4]王春雷,梁小放,章堅民等.基于用電采集系統(tǒng)的負荷特性曲線聚類分析[J].浙江電力,2014,(7).
[5]李培強,李欣然,陳輝華等.基于模糊聚類的電力負荷特性的分類與綜合[J].中國電機工程學報,2005,25(24).
[6]趙文清,龔亞強.基于Kernel K-means的負荷曲線聚類[J].電力自動化設備,2016,36(6).
[7]王晨力.基于蟻群優(yōu)化算法的電力負荷聚類和輸電線故障識別研究[D].天津:天津大學碩士論文,2005.
[8]彭小圣,鄧迪元,程時杰等.面向智能電網(wǎng)應用的電力大數(shù)據(jù)關鍵技術[J].中國電機工程學報,2015,35(3).
[9]劉建華,王進,孟穎等.基于模擬退火的粗糙集K均值電力負荷聚類分析[J].現(xiàn)代電力,2012,29(1).
[10]馮曉蒲.基于實際負荷曲線的電力用戶分類技術研究[D].北京:華北電力大學碩士論文,2011.