王威、王蘭君
(國網(wǎng)上海市電力公司,上海 200000)
能源與電力發(fā)展事關(guān)國計民生,與經(jīng)濟社會存在廣泛緊密的聯(lián)系。推動大數(shù)據(jù)和實體經(jīng)濟深度融合,挖掘能源電力大數(shù)據(jù)價值,對于助力新時代能源電力事業(yè)數(shù)字化轉(zhuǎn)型,更好服務(wù)經(jīng)濟社會發(fā)展具有重大意義[1-2]。
售電收入是電力企業(yè)主營業(yè)務(wù)收入,在面臨復(fù)雜外部環(huán)境挑戰(zhàn)下,準(zhǔn)確落實國家政策要求,確保電價執(zhí)行正確,保證電費應(yīng)收盡收是電力企業(yè)的重點工作之一??紤]到電網(wǎng)企業(yè)日常管理的復(fù)雜性,末端用戶電價執(zhí)行錯誤造成的錯收、少收一直都客觀存在[3-4]。以福利機構(gòu)類用電為例,福利機構(gòu)用電是指經(jīng)區(qū)(縣)級及以上人民政府民政部門批準(zhǔn),由國家、社會組織或公民個人舉辦的,為老年人、殘疾人、孤兒、棄嬰提供養(yǎng)護(hù)、康復(fù)、托管等服務(wù)場所的生活用電。然而,實際用電用戶中,部分應(yīng)執(zhí)行大工業(yè)、一般工商業(yè)電價的工商業(yè)企業(yè)、培訓(xùn)機構(gòu)類用戶等,錯誤執(zhí)行了福利機構(gòu)類用電電價[5]。根據(jù)傳統(tǒng)基于用戶信息檔案比對的方法,以上用戶在電力公司登記信息很可能不存在任何疑點。用戶的用電行為習(xí)慣反映了真實用電需求,因此運用能源電力大數(shù)據(jù)分析的技術(shù)方法分析用戶用電行為習(xí)慣特征識別異常用戶是精準(zhǔn)的切入點[6-8]。
能源電力大數(shù)據(jù)是在新時期能源生產(chǎn)和消費革命的背景下,在能源電力、能源經(jīng)濟、電力經(jīng)濟、大數(shù)據(jù)等概念基礎(chǔ)上全面融合而成的新理念。通過融合電網(wǎng)企業(yè)內(nèi)部生產(chǎn)、營銷等數(shù)據(jù),以及外部各類能源、經(jīng)濟、產(chǎn)業(yè)、氣象、商業(yè)等數(shù)據(jù),利用大數(shù)據(jù)分析手段,對經(jīng)濟社會發(fā)展的運行狀態(tài)、變化特點、關(guān)聯(lián)演進(jìn)等進(jìn)行洞察和分析,提供更好的服務(wù)[9-11]。
本課題應(yīng)用居民檔案信息、電量、負(fù)荷等內(nèi)部數(shù)據(jù),融合氣象、地理位置等外部數(shù)據(jù),分析福利機構(gòu)用電類用戶用電行為與用能情況,防范異常用電侵占風(fēng)險,助力電力公司進(jìn)行監(jiān)督和管理[12]。
首先,基于用戶用電特征,設(shè)計核心指標(biāo)體系,導(dǎo)入處理好的數(shù)據(jù)計算指標(biāo)值;然后,核算用戶指標(biāo)值與行業(yè)總體指標(biāo)值的偏離程度,換算成嫌疑分?jǐn)?shù),通過客觀賦權(quán)法確定各指標(biāo)偏離度權(quán)重,加權(quán)得到用戶綜合嫌疑得分;最后,根據(jù)綜合嫌疑得分高低識別潛在的異常用戶[13-15]。
圖1 用電異常嫌疑用戶識別模型技術(shù)路線Fig.1 Technical route of identification model for suspected users with abnormal electricity usage
模型識別原理是在用電行為習(xí)慣和特征相似的群體里,識別異于總體特征,或與總體特征弱相關(guān)的個體異常值[16-18]。
熵權(quán)法是一種客觀賦權(quán)法,基本思路是根據(jù)指標(biāo)的變化程度分配權(quán)重[19]。本文通過信息熵計算各指標(biāo)的權(quán)重:
(1)
注:假設(shè)給定了k個指標(biāo)X1,X2,……,Xk,其中Xi={x1,x2,……,xn},對各指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后的值為Y1,Y2,……,Yk,Ej表示信息熵。
變異系數(shù)模型是一種較為客觀的方法,能夠反映指標(biāo)數(shù)據(jù)的變化信息[20]。標(biāo)準(zhǔn)差與平均數(shù)的比值稱為變異系數(shù),記為CV,其計算公式為:
(2)
結(jié)合指標(biāo)變異系數(shù)計算指標(biāo)權(quán)重W(n),其計算公式為:
(3)
其中,n表示評價指標(biāo)個數(shù)。
指標(biāo)的變異程度來對各指標(biāo)進(jìn)行賦權(quán),當(dāng)指標(biāo)取值差異越大時,也就越能反映因素差異。
為全面反映評價指標(biāo)的權(quán)重,采用灰色關(guān)聯(lián)模型進(jìn)行組合賦權(quán)[21]。運用熵權(quán)法和變異系數(shù)法分別對各指標(biāo)計算客觀權(quán)重,并將兩組客觀權(quán)重通過一定的方式(如:乘法集成法)進(jìn)行組合,最終確定各指標(biāo)的權(quán)重。
(1)生成權(quán)重矩陣
(2)求每個指標(biāo)權(quán)重平均值
(4)
(3)不同模型下指標(biāo)權(quán)重的絕對偏差
(5)
(4)計算指標(biāo)綜合權(quán)重
W(n)為綜合權(quán)重向量,其中:
其中wj表示第j個指標(biāo)在客觀綜合賦權(quán)法的組合權(quán)重。
通過運用實時分析,對同一用電類別客戶的橫向比較,或者對同類型、同規(guī)模的用戶之間數(shù)據(jù)進(jìn)行比較,可利用箱形圖發(fā)現(xiàn)用電異常[22-23]。
箱形圖可以通過展現(xiàn)出的大致的數(shù)據(jù)離散程度,作為異常值判斷的信息支撐。與需假定數(shù)據(jù)服從正態(tài)分布的z分?jǐn)?shù)或3σ法則方法不同,箱形圖主要依靠實際數(shù)據(jù)特征,不需要事先假定數(shù)據(jù)服從特定的分布形式。
箱形圖的基礎(chǔ)是將數(shù)據(jù)劃分為上四分位數(shù)Q1、下四分位數(shù)Q3和四分位距QR。同時將Q3+1.5QR和Q1-1.5QR兩處異常值截斷點之間的區(qū)域作為內(nèi)限。箱線圖提供了識別異常值的一個標(biāo)準(zhǔn):小于Q1-1.5QR或大于Q3+1.5QR的值被定義為異常值。
從營銷業(yè)務(wù)應(yīng)用系統(tǒng)、用電信息采集系統(tǒng)中抽取用戶基礎(chǔ)用電特征數(shù)據(jù)(如:實時電流、電壓、日電量等),形成用戶特征原始數(shù)據(jù)表。同時,為保證特征軌跡接近實際情況,將對原始數(shù)據(jù)表進(jìn)行缺失值填充、去重、歸一化等操作,確保數(shù)據(jù)整齊可靠。
2.1.1 月用電量數(shù)據(jù)字段
抽取用戶月用電量系統(tǒng)數(shù)據(jù)字段:戶號、戶名、供電單位、地址、合同容量、運行容量、變壓器容量、用戶電壓、用電類別、行業(yè)類別、客戶類型、變損標(biāo)志、功率因素考核標(biāo)準(zhǔn)、立戶日期、銷戶日期、電源編號、電價碼、電價名稱、201901-201912各時段電量。
2.1.2 日用電量數(shù)據(jù)字段
抽取用戶日用電量系統(tǒng)數(shù)據(jù)字段:計量點ID、日期、表計倍率、總讀數(shù)、尖峰讀數(shù)、峰讀數(shù)、平讀數(shù)、谷讀數(shù)。
2.1.3 96點負(fù)荷數(shù)據(jù)字段
抽取用戶96點負(fù)荷系統(tǒng)數(shù)據(jù):戶號、計量點ID、電價碼、電價名稱、日期、A1(00:00-00:15)、A2(00:15-00:30)……A96(23:45-00:00)96個時點數(shù)據(jù)。
福利機構(gòu)用戶1437戶,電量時間跨度201901-201912。月用電量數(shù)據(jù)58,680條、日用電量數(shù)據(jù)594,950條、96點負(fù)荷數(shù)據(jù)57,115,200條。
2.2.1 月用電量數(shù)據(jù)統(tǒng)計
部分用戶涉及多個電表,抽取用戶電表每月峰、平、谷三個時段用電量數(shù)據(jù)。
2.2.2 日用電量數(shù)據(jù)統(tǒng)計
日用電量數(shù)據(jù)表提供的是各時段示數(shù),需要進(jìn)行計算轉(zhuǎn)換為電量值,具體計算邏輯如下:
電量值=(當(dāng)天讀數(shù)-前一日讀數(shù))*表計倍率
(注:當(dāng)天讀數(shù)是指當(dāng)天0時-當(dāng)日24時,如:7月17日,當(dāng)天為2019年07月17日 0時,到2019年07月18日 0時)。
2.2.3 96點負(fù)荷數(shù)據(jù)統(tǒng)計
96點負(fù)荷數(shù)據(jù)表提供電壓、電流、功率因素三相數(shù)據(jù)(到表計),需要通過計算得到負(fù)荷并匹配到戶。96點負(fù)荷值計算具體邏輯如下:
某時刻負(fù)荷瞬時值=DL(該時刻電流)*DY(該時刻電壓)*YS(該時刻功率因素)
(注:ABC三相基本均衡,取C相用于后續(xù)數(shù)據(jù)分析)
2.3.1 空值情況
(1)日電量表
日電量表存在日期、表計倍率為空,以及平時段讀數(shù)、谷時段讀數(shù)缺失(為空或0)的情況。
經(jīng)核實,平時、谷時讀數(shù)可能未采集到,后續(xù)考慮日用電量數(shù)據(jù)指標(biāo)和應(yīng)用場景,不用各時段的電量,僅采用總電量來做計算。
(2)96點負(fù)荷表
96點負(fù)荷數(shù)據(jù)表存在日期、SSLX(示數(shù)類型)、相線(XX)為空或某些時刻缺失,以及96個點負(fù)荷均為0的情況[24]。
經(jīng)核實,可能是采集異常等原因?qū)е?,后續(xù)采用前后填充的方式填充缺失值。對于96個點負(fù)荷均為0的情況,在分析中考慮按計量點ID分組統(tǒng)計96個點時刻0值的天數(shù),若達(dá)到總天數(shù)80%以上則刪除該用戶,反之暫時保留。
2.3.2 負(fù)值情況
(1)日電量表
日電量表存在讀數(shù)倒流(讀數(shù)在某天下降的比前一天低)或讀數(shù)每天均相同情況。
經(jīng)核實,讀數(shù)采集可能存在異?;虺砣藛T誤操作等問題導(dǎo)致,后續(xù)考慮將電量為負(fù)數(shù)的記錄進(jìn)行填充(前后填充)。讀數(shù)每天均相同的按METER_ID分組統(tǒng)計0值的天數(shù),達(dá)到總天數(shù)80%以上則刪除該表計數(shù)據(jù)。
(2)96點負(fù)荷表
96點負(fù)荷數(shù)據(jù)存在電壓、電流、功率因素等參數(shù)為負(fù)數(shù)的情況。
經(jīng)核實,負(fù)荷瞬時值為負(fù)數(shù),表示倒走,后續(xù)分析直接填充為0。
2.3.3 數(shù)據(jù)修正
數(shù)據(jù)抽取采集過程中,不同系統(tǒng)或渠道數(shù)據(jù)源,部分存在數(shù)據(jù)異常或沖突的問題。這是不同系統(tǒng)對于同一個數(shù)據(jù)對象的統(tǒng)計邏輯不同而造成的,邏輯的不一致會直接導(dǎo)致結(jié)果的差異性;除了統(tǒng)計邏輯和口徑的差異,也有因為源數(shù)據(jù)系統(tǒng)基于性能的考慮,放棄了外鍵約束,從而導(dǎo)致數(shù)據(jù)不一致的結(jié)果。
通常由于并發(fā)量和負(fù)載過高、服務(wù)器延遲甚至宕機等原因?qū)е碌臄?shù)據(jù)采集差異。對于這類的數(shù)據(jù)矛盾,首先明確各個源系統(tǒng)的邏輯、條件、口徑,然后定義一套符合各個系統(tǒng)采集邏輯的規(guī)則,并對異常源系統(tǒng)的采集邏輯進(jìn)行修正。
此外,還存在抽數(shù)規(guī)則的錯誤導(dǎo)致的數(shù)據(jù)采集的錯誤,此時需要從源頭糾正錯誤的采集邏輯,然后再進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換。
抽取2019年上海全部福利機構(gòu)用電類用戶月用電量、日用電量和96點負(fù)荷數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理后,代入模型運算,輸出疑似侵占用戶嫌疑清單。
3.1.1 基于資料調(diào)研的用電特征
(1)福利機構(gòu)用電活動規(guī)律性明顯,通常日間負(fù)荷較高,中午午休時間負(fù)荷降低,三餐時間會出現(xiàn)一個用電小高峰,夜間負(fù)荷較低,深夜是每天負(fù)荷的最低點[25]。
(2)福利機構(gòu)工作日用電與周末、節(jié)假日用電等相差不大。
(3)福利機構(gòu)用電受氣候、季節(jié)影響,陰雨天日間照明負(fù)荷增加,夏季高溫時空調(diào)、電扇負(fù)荷上升,冬季取暖用電負(fù)荷上升。
(4)福利機構(gòu)用電與工商業(yè)用電相比,負(fù)荷密度較小,屬于低耗能用戶。
3.1.2 基于大數(shù)據(jù)分析的用電特征
基于基礎(chǔ)數(shù)據(jù)觀測,對比分析福利機構(gòu)類用電谷電量占比、單位容量年消費電量等指標(biāo)值情況:
(1)福利機構(gòu)類用戶季節(jié)性用電特征
福利機構(gòu)用電整體上夏季、冬季處于用電高峰,高峰月有1月-2月、8月(其中1月-2月氣溫偏低,8月氣溫最高),春秋季用電相對較低,與調(diào)研資料一致。
圖2 福利機構(gòu)用戶總體月度用電趨勢圖Fig.2 Overall monthly electricity consumption trend of users in welfare institutions
圖3 上海2019年氣溫變化趨勢Fig.3 Temperature trend of Shanghai in 2019
(2)福利機構(gòu)用戶峰谷用電強度分析
福利機構(gòu)用戶峰平谷用電相差不大,谷時段用電相對較低。為區(qū)分用戶白天夜間用電偏好,將峰時段與平時段電量相加作為峰時段,從峰谷時段用電趨勢可以看出,兩個時段趨勢基本一致,峰(峰+平)谷比約為3。
圖4 福利機構(gòu)用戶峰谷用電強度分布圖Fig.4 Peak-to-valley electricity intensity distribution of users in welfare institutions
圖5 福利機構(gòu)用戶總體月度峰谷用電趨勢圖Fig.5 Overall monthly peak-to-valley electricity trend of users in welfare institutions
(3)福利機構(gòu)用戶節(jié)假日用電強度分析
福利機構(gòu)工作日用電與周末用電整體差異較小,與全年日均電量比例維持在1∶1。
圖6 福利機構(gòu)用戶工作日/周末用電強度Fig.6 Power consumption intensity of users of welfare institutions on weekdays/weekends
(4)福利機構(gòu)用戶96點負(fù)荷曲線分析
福利機構(gòu)類用戶周末和工作日96點負(fù)荷曲線幾乎一致,無周末用電偏好;從96點負(fù)荷曲線可以看出用電主要集中在白天(早上6點至夜間6點),其他時段負(fù)荷較低。
圖7 福利機構(gòu)用戶96點負(fù)荷曲線Fig.7 96-point load curve for users of welfare institutions
3.2.1 特征指標(biāo)設(shè)計與公式
結(jié)合福利機構(gòu)類用戶用電數(shù)據(jù),對福利機構(gòu)用電特征的分析,歸納如下:
福利機構(gòu)用戶用電高峰集中在夏季和冬季,高峰月份為1月、2月、8月;工作日與周末用電差異不大;白天用電較多,夜間用電較少(夏季、冬季可能略有增高),總體峰谷用電趨勢一致。因此福利機構(gòu)用電嫌疑用戶挖掘主要參考谷峰電量比、周末與工作日用電強度比等2個特征指標(biāo),各指標(biāo)計算公式如下所示:
(1)谷峰電量比=谷時段電量/峰時段電量;
(2)周末用電強度=周末日均電量/全年日均電量;
(3)工作日用電強度=工作日日均電量/全年日均電量;
(4)周末與工作日用電強度比=周末用電強度/工作日用電強度。
3.2.2 指標(biāo)異常偏離度計算
針對單個指標(biāo),基于指標(biāo)數(shù)據(jù)分布確定指標(biāo)總體水平,定義異常偏離度SCL為單個用戶與總體水平之間的偏離程度:
(7)
其中SCL表示單個指標(biāo)的異常偏離度,[Q1,Q2]表示單個指標(biāo)總體集中區(qū)間,Qi表示單個指標(biāo)某用戶具體取值[26-27]。以此類推,可計算谷峰電量比偏離度SCLva、周末與工作日用電強度比偏離度SCLwe。
3.2.3 指標(biāo)偏離度權(quán)重確認(rèn)
Score=t1*SCLva+t2*SCLwe
(8)
其中,Score表示綜合嫌疑得分,SCL為用戶各指標(biāo)與總體水平的偏離度,t1、t2為基于灰色關(guān)聯(lián)分析模型計算的谷峰電量比偏離度權(quán)重、周末與工作日用電強度比偏離度權(quán)重?;疑P(guān)聯(lián)分析模型融合了熵權(quán)法及變異系數(shù)法兩套客觀賦權(quán)法的結(jié)果,最終可以結(jié)合專家經(jīng)驗采用主觀賦權(quán)法進(jìn)行科學(xué)調(diào)整[28]。
表1 t1、t2客觀賦權(quán)法計算結(jié)果Tab.1 Calculation results of t1 and t2 objective weighting method
3.3.1 福利機構(gòu)用電類行業(yè)標(biāo)準(zhǔn)
分別計算福利機構(gòu)用電客戶總體的谷峰電量比、周末與工作日用電強度比指標(biāo)值集中區(qū)間,作為識別嫌疑用戶的行業(yè)標(biāo)準(zhǔn)。
福利機構(gòu)類用戶總體的指標(biāo)值計算結(jié)果如下所示:
(1)總體谷峰電量比集中水平為0.33;
(2)總體周末與工作日用電強度比集中區(qū)間為[0.98,1.00]。
當(dāng)用戶各指標(biāo)值接近總體集中水平或落在總體的集中區(qū)間時視為正常。
谷峰電量比方面,谷峰用電比例越大,越偏向谷時用電,峰時用電較少,即夜間用電多,白天用電少,與用戶實際用電行為習(xí)慣不符??紤]部分用戶夜間用電少或不用電,當(dāng)谷峰比小于0.33時,亦視為正常;當(dāng)谷峰比大于0.33時,分析用戶與總體谷峰比的偏離度。
周末與工作日用電強度比方面,當(dāng)用戶周末與工作日用電強度比在集中區(qū)間時視為用戶周末與工作日用電差異較小,無周末用電偏好,與實際相符;當(dāng)強度比小于0.98時,分析與總體用戶強度比集中區(qū)間下限的偏離度;當(dāng)強度比大于1.00時,分析用戶與總體用戶強度比集中區(qū)間上限的偏離度。
3.3.2 用電異常嫌疑用戶輸出
綜合各指標(biāo)偏離度計算值與權(quán)重得到各用戶的綜合嫌疑得分,其中綜合嫌疑得分越高,用電異常嫌疑越大。
當(dāng)前,僅展示嫌疑最大的前5位用戶,如下表所示。
表2 福利機構(gòu)用電類嫌疑用戶top5清單Tab.2 Top 5 list of suspected electricity users in welfare institutions
為進(jìn)一步驗證模型的有效性和精確度,根據(jù)用電異常嫌疑用戶清單展開核查,綜合嫌疑得分前二十的福利機構(gòu)用電類嫌疑用戶中,確認(rèn)侵占的異常用戶14個,占比70%。
通過實證檢驗,本課題研究建立的嫌疑用戶智能識別模型有效。
通過本課題創(chuàng)新設(shè)計,基于能源電力大數(shù)據(jù),采用大數(shù)據(jù)算法分析目標(biāo)用戶群體的用電行為特征,搭建多維行業(yè)用戶行為特性特征指標(biāo)體系,建立智能化、自動化嫌疑用戶智能識別模型,全面助力異常用電快速定位,避免電費錯收、漏收、少收等問題發(fā)生,保障電力企業(yè)經(jīng)濟利益。嫌疑用戶智能識別模型搭建完成后,可應(yīng)用信息技術(shù)整合用戶基礎(chǔ)檔案和橫向?qū)?biāo)分析功能研制用電異常用戶識別輔助工具,形成常態(tài)化工作模式和機制,協(xié)助相關(guān)工作人員進(jìn)行用電異常用戶定位與核查,提高工作效率,促進(jìn)數(shù)字化工作新模式的轉(zhuǎn)型升級與落地應(yīng)用。