基于大數(shù)據(jù)分析的電力客戶服務需求預測*

2020-08-01 06:39朱州

沈陽工業(yè)大學學報 2020年4期

朱州

(中國南方電網(wǎng)貴州電網(wǎng)公司信息中心，貴陽 550000)

智慧城市使用物聯(lián)網(wǎng)與云技術(shù)建立了一個可交互、可感知、可視和可控的城市運行機制及智能生產(chǎn)生活方式[1].智慧城市不僅可以減少成本、節(jié)約能源，且能提升效率，改善生活質(zhì)量.智能電網(wǎng)作為智慧城市的重要組成部分，通過電力數(shù)據(jù)建立電力服務需求預測模型，保證電力系統(tǒng)的安全穩(wěn)定運行與統(tǒng)一調(diào)度，并可有效地指導電力工程建設規(guī)劃[2-4].但傳統(tǒng)的電力需求預測模型只考慮區(qū)域平均用電量和最高負荷等電力系統(tǒng)內(nèi)部數(shù)據(jù)，未考慮氣象、人口和政策等影響，其預測精度有限，因此，亟需在智慧城市的建設框架下提出新的預測模型與方法[5-6].

近年來，針對電力市場隨機性、多變量和時變性的特點，主要提出了兩方面的電力需求預測方法：一是使用數(shù)據(jù)挖掘方法分析電力市場外部因素對電力需求的影響，并以其變化趨勢預測市場需求的變化；二是提出新的預測模型來提升預測精度[7].文獻[8]中使用徑向基神經(jīng)網(wǎng)絡分別建立短期和中長期電力需求模型；文獻[9]結(jié)合氣象、日期數(shù)據(jù)等外部因素，使用最小二乘支持向量機建立了短期電力需求模型，并通過與其他預測方法進行比較來證明其有效性.

雖然上述方法都選用了不同的預測模型和方法對短期和中長期電力需求進行了預測研究，但是仍存在著一些不足：1)部分模型僅根據(jù)歷史數(shù)據(jù)來預測，而沒有關(guān)注經(jīng)濟社會發(fā)展因素；2)部分模型只根據(jù)主觀判斷來考慮外部因素的影響，而未從海量數(shù)據(jù)中篩選出關(guān)鍵因素.針對以上問題，本文首先依托貴州地區(qū)的智能電網(wǎng)大數(shù)據(jù)，通過挖掘其中的關(guān)聯(lián)信息，建立了電力客戶的細分模型，然后在該模型基礎(chǔ)上，使用BP神經(jīng)網(wǎng)絡算法建立了電力客戶的需求預測模型.

1 電力客戶細分模型

本文為建立更智能的需求預測模型，首先將電力客戶進行細分，再使用細分后的數(shù)據(jù)指導需求預測模型的訓練，所建立的電力客戶細分模型如圖1所示.首先根據(jù)人口信息、企業(yè)信息、宏觀經(jīng)濟信息及其相關(guān)信息建立數(shù)據(jù)倉庫，然后對數(shù)據(jù)進行格式轉(zhuǎn)換與清洗，并提取出用戶的自然特征和行為特征，最后使用K-means聚類對數(shù)據(jù)進行挖掘，并對結(jié)果進行分析.

圖1 電力客戶細分模型功能圖Fig.1 Function diagram of power customer subdivision model

1.1 數(shù)據(jù)倉庫構(gòu)建

隨著數(shù)字化技術(shù)的廣泛應用，電力客戶數(shù)據(jù)庫中存儲著大量的自動化辦公系統(tǒng)、監(jiān)控和財務系統(tǒng)等信息[10]，但這些數(shù)據(jù)隨著日常業(yè)務的進行與時間的推移不斷被添加、刪除和修改，故本文根據(jù)電力客戶細分模型的實際需求建立了星型結(jié)構(gòu)的數(shù)據(jù)倉庫.該數(shù)據(jù)倉庫結(jié)構(gòu)最大限度地節(jié)省了數(shù)據(jù)存儲空間，保證數(shù)據(jù)存儲的有效性.本文從個人用戶的角度出發(fā)，通過采集其社保信息、個人信息和地域特征等信息來分析電力客戶的電力價值，并建立圖2所示的電力價值組成圖.該圖結(jié)合公民的社保信息、個人信息和地域特征，并依據(jù)電價值的排序劃分電力用戶區(qū)域.

本文從區(qū)域商業(yè)價值和區(qū)域宏觀經(jīng)濟兩個角度來采集數(shù)據(jù)，并建立與圖2類似的價值構(gòu)成數(shù)據(jù)庫.其中，區(qū)域商業(yè)價值數(shù)據(jù)庫從商業(yè)實體的角度分析企業(yè)信息、商場信息和法人信息來實現(xiàn)數(shù)據(jù)搜索.區(qū)域宏觀經(jīng)濟數(shù)據(jù)庫則從地區(qū)物價指數(shù)、貿(mào)易數(shù)據(jù)和資產(chǎn)投資數(shù)據(jù)等宏觀信息來分析地區(qū)的貿(mào)易活動，實現(xiàn)不同層次用電客戶的劃分.

圖2 區(qū)域電力價值組成圖Fig.2 Value composition diagram of regional power

1.2 數(shù)據(jù)清洗與挖掘

由于電力客戶信息存在大量的冗余信息，本文使用東方通TI-ETL軟件對數(shù)據(jù)進行清洗，得到符合身份證號碼設置、民族和性別的數(shù)據(jù)，清洗后的數(shù)據(jù)便于讀取與模型訓練.

得到可讀性更強的數(shù)據(jù)后，本文根據(jù)上文建立的區(qū)域電力價值圖、電力客戶的影響力和用電潛力對居民信息進行集成劃分，如圖3所示.使用K-means聚類算法對搜集的數(shù)據(jù)進行深層次分析，以強化業(yè)務協(xié)同和資源共享，解決信息孤島問題.為較好區(qū)分出不同用電行業(yè)與客戶之間的差異，本文在樣本相似性聚類的基礎(chǔ)上，提出使用相關(guān)性度量聚類后類別內(nèi)樣本間的一致性.使用Pearson相關(guān)系數(shù)法來表示樣本x與樣本y之間的相關(guān)系數(shù)，其計算表達式為

(1)

圖3 區(qū)域居民信息集成劃分結(jié)構(gòu)Fig.3 Integrated partition structure of regional resident information

結(jié)合樣本相似度與相關(guān)系數(shù)，可以得到本文的相似性度量方程為

Eik(x)=μdik(x)+(1-μ)rik(x) (0≤μ≤1)

(2)

式中：Eik(x)為樣本i與類中心k的相似性值；dik(x)為樣本i與類中心k的距離，本文使用平方差距離；rik(x)為樣本i與類中心k的相關(guān)系數(shù)；μ為權(quán)重常數(shù).當μ為1時，相似性度量指標為基于距離的度量；當μ為0時，相似性度量指標為基于相關(guān)系數(shù)的度量.使用改進后的相似性度量指標后，電力客戶的具體劃分過程如下：

1) 讀取數(shù)據(jù)得到初始數(shù)據(jù)集X=NP和客戶組數(shù)，其中，N為居民綜述，P為特征維度；

2) 從X中隨機選擇k個樣本作為數(shù)據(jù)的初始聚類中心；

3) 計算其樣本與各聚類中心的相似性度量指標，并根據(jù)其數(shù)值將樣本劃分到對應的聚類中心；

4) 利用每一組數(shù)據(jù)的均值更新聚類中心；

5) 重復步驟3)和4)，直至聚類中心不再更新，得到分組結(jié)果.

2 電力需求預測

電力需求預測是根據(jù)已有的歷史數(shù)據(jù)總結(jié)其規(guī)律，并建立預估模型來預測未來的電力需求.但由于客觀因素與人為因素影響，電力需求通常具有連續(xù)性、多變性和季節(jié)性，導致無法準確預測客戶的用電需求.本文從電力需求預測的影響因素出發(fā)，根據(jù)時間、經(jīng)濟、社會和天氣等因素建立電力需求模型.具體使用的數(shù)據(jù)指標包括：

1) 宏觀經(jīng)濟指標.第一產(chǎn)業(yè)、第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的投資總值，制造業(yè)、文娛業(yè)和基礎(chǔ)建設的投資值等.

2) 歷年電力消費數(shù)據(jù).

3) 已經(jīng)建立的電力客戶細分數(shù)據(jù).

4) 政策數(shù)據(jù).第一產(chǎn)業(yè)、第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的耗電數(shù)據(jù)，居民消費和收入數(shù)據(jù)等.

基于上述數(shù)據(jù)，本文使用BP神經(jīng)網(wǎng)絡建立電力需求預測模型.為避免神經(jīng)元過飽和的問題，文中首先對數(shù)據(jù)進行歸一化處理，即

(3)

式中：xi0為歸一化數(shù)據(jù)的第i個特征分量；xmax和xmin為對應樣本的最大值與最小值.

為了更準確地從挖掘到的數(shù)據(jù)中提取出關(guān)聯(lián)規(guī)則來解決電力需求問題，本文從網(wǎng)絡層數(shù)、神經(jīng)元數(shù)目、初始權(quán)重設置和學習速率的選擇來介紹具體預測模型的設計方法.

1) 網(wǎng)絡層數(shù).雖然使用更深的神經(jīng)網(wǎng)絡能提升模型的性能，但也在一定程度上降低了訓練效率.因此，本文設計了一個包含輸入層、隱含層和輸出層的三層神經(jīng)網(wǎng)絡模型.

2) 輸入層節(jié)點數(shù).輸入層用于加載數(shù)據(jù)，過多的輸入節(jié)點數(shù)將引入較多的噪聲；而過少的輸入節(jié)點數(shù)將導致網(wǎng)絡獲取信息能力不足，因此，本文根據(jù)輸入數(shù)據(jù)維度設置網(wǎng)絡的輸入節(jié)點數(shù)為65.

3) 輸出層節(jié)點數(shù).本文分別預測5個區(qū)域的用電需求，故輸出層節(jié)點的數(shù)量設置為5，輸出層用于獲取5個區(qū)域的實際用電需求.

4) 隱含層節(jié)點數(shù).隱含層節(jié)點數(shù)確定表達式為

(4)

式中：m、n和h分別為輸入層節(jié)點數(shù)、輸出層節(jié)點數(shù)和隱含層節(jié)點數(shù)；a*為1～10間的常數(shù)[11]，因此，本文設置隱含層節(jié)點的數(shù)量為18.

5) 學習率設置.神經(jīng)網(wǎng)絡的學習率影響網(wǎng)絡權(quán)重的變化情況，設置過大的學習率將導致網(wǎng)絡不穩(wěn)定；而學習率過小將增加訓練時間，并可能引起局部最小值.因此，為了保證網(wǎng)絡的穩(wěn)定訓練，本文設置學習率為0.01.

為了避免網(wǎng)絡陷入局部最優(yōu)解，文中提出了一種改進的附加動量法來調(diào)整網(wǎng)絡權(quán)重，其對權(quán)重和閾值的調(diào)節(jié)表達式分別為

(5)

式中：w為網(wǎng)絡權(quán)重；k為訓練速度；c為動量因子；η為學習率；δi為誤差函數(shù)的梯度；b為閾值.

附加動量法即使用動量因子對網(wǎng)絡權(quán)值的變化進行加權(quán)調(diào)節(jié)，增加動量因子將使權(quán)重向著誤差曲面凹陷區(qū)域運動，從而避免網(wǎng)絡權(quán)重陷入局部平坦區(qū)域.因此，可以通過調(diào)節(jié)動量因子來幫助網(wǎng)絡跳離局部極小值.根據(jù)式(2)可以看出，調(diào)整后的閾值在出現(xiàn)較大誤差時應取消本次權(quán)重更新，避免網(wǎng)絡陷入較大的誤差范圍.因此，在使用式(2)時應設定條件來決定是否修改網(wǎng)絡權(quán)值.本文設置附加動量法的判別依據(jù)為

(6)

式中，E(k)為網(wǎng)絡第k次迭代時的平方和誤差.

3 仿真與實驗結(jié)果

本文使用貴州電力信息數(shù)據(jù)構(gòu)建了宏觀經(jīng)濟數(shù)據(jù)庫、區(qū)域歷年電力消費數(shù)據(jù)庫、政策數(shù)據(jù)庫和電力客戶細分數(shù)據(jù)庫等數(shù)據(jù)庫表.在數(shù)據(jù)庫構(gòu)建過程中得到符合身份證號碼設置、民族和性別的數(shù)據(jù)，直接刪除沒有身份信息的數(shù)據(jù)，然后選取其中有代表性的1 446 000余名住戶和企業(yè)的用電信息進行仿真分析.

基于這些數(shù)據(jù)本文將該市按照行政區(qū)劃分為3個類別：工業(yè)區(qū)、商業(yè)區(qū)和居民區(qū).根據(jù)居民電力用戶基數(shù)大和數(shù)據(jù)繁雜的特點，本文以經(jīng)濟和社會行為做依據(jù)，并關(guān)聯(lián)企業(yè)法人信息來反映用電客戶全貌，根據(jù)繳費額度和用電量對電力客戶進行劃分.將電力用戶劃分為：居民生活用電(A類)，大工業(yè)用電(B類)，農(nóng)業(yè)生產(chǎn)用電(C類)和商業(yè)用電(D類)，電力客戶進行細分的結(jié)果如表1所示.

表1 電力客戶細分結(jié)果Tab.1 Subdivision results of power customers

為驗證本文所提出的改進聚類算法的有效性，比較了僅使用傳統(tǒng)基于距離的相似性度量方法和本文所提出聚類方法的性能，結(jié)果如表2所示.從表2中可以看出，所提出的方法雖然在距離屬性上的表現(xiàn)較差，但能明顯增加樣本間的相關(guān)性.

表2 改進前后K-Means聚類算法性能Tab.2 Performance of K-Means clustering algorithm before and after improvement

本文也測試了所提出的神經(jīng)網(wǎng)絡電力的預測精度.表3為使用某地區(qū)2008～2018年的用電數(shù)據(jù)訓練預測獲得的2019年電力需求誤差百分比.從表3中可以看出，本文算法最大的相對誤差僅6.52%，表明算法可以得到較好的預測結(jié)果，能有效地預測電力客戶用電需求.從表3中還可以看出，不區(qū)分用戶類別直接預測的最大誤差為10.86%，表明使用電力客戶細分數(shù)據(jù)后能在一定程度上提升預測精度.

為了驗證本文算法的有效性，本文使用10個不同小區(qū)的用電量數(shù)據(jù)進行訓練和預測，結(jié)果如圖4所示.從圖4中可以看出，本文算法的預測值十分接近實際用電量，表明本文算法能取得較高的預測精度.

圖4 10個小區(qū)用電量預測結(jié)果Fig.4 Forecasting results of electricity consumption from 10 communities

4 結(jié) 論

本文依托貴州智能電網(wǎng)大數(shù)據(jù)，從區(qū)域商業(yè)價值和區(qū)域宏觀經(jīng)濟等角度搜集電力服務數(shù)據(jù)，并通過挖掘其中的關(guān)聯(lián)信息，使用K-Means算法建立了電力客戶的細分模型，將客戶劃分為4類.在客戶細分模型的基礎(chǔ)上，設計了BP神經(jīng)網(wǎng)絡算法來建立需求預測模型，該模型能根據(jù)清洗后的數(shù)據(jù)特征直接預測客戶的需求變化情況.在Matlab平臺上的仿真與測試結(jié)果表明，所提出的方法能幫助電網(wǎng)公司更好地理解客戶行為和服務需求，制定營銷策略.