金 晟,蘇 盛,薛 陽,楊藝寧,劉 廈,曹一家
(1. 智能電網(wǎng)運(yùn)行與控制湖南省重點(diǎn)實(shí)驗(yàn)室(長沙理工大學(xué)),湖南省長沙市 410114;2. 中國電力科學(xué)研究院有限公司,北京市 100192)
為促進(jìn)經(jīng)濟(jì)發(fā)展、降低實(shí)體企業(yè)用能成本,近年來,中國在持續(xù)推進(jìn)新一輪電力市場化改革的基礎(chǔ)上多輪次大幅調(diào)降一般工商業(yè)電價,供電企業(yè)承擔(dān)降價總金額近3 000 億元。同時,外部環(huán)境日益復(fù)雜和全社會用電量增速放緩,也對供電企業(yè)的精益化運(yùn)營提出了重大挑戰(zhàn)[1-2]。為維系供電企業(yè)長遠(yuǎn)發(fā)展,亟待開展內(nèi)部挖潛,提高經(jīng)營收益。用戶竊電直接造成供電企業(yè)凈收益流失,近年來出現(xiàn)的比特幣挖礦竊電等新現(xiàn)象,使得用電管理形式更為嚴(yán)峻。2019 年,中國破獲多起比特幣挖礦竊電案件,其中僅江蘇省鎮(zhèn)江市破獲的一起案件涉案金額就高達(dá)2 000 萬元。因此,研究滿足工程應(yīng)用要求的竊電檢測方法為開展指向性的竊電稽查提供決策支持,是當(dāng)前亟待解決的問題[3]。
智能電表和用電信息采集系統(tǒng)的普及應(yīng)用,使得供電企業(yè)掌握的用戶用電數(shù)據(jù)從月結(jié)抄表電量顯著增長為15 min/30 min 間隔的高密度計(jì)量數(shù)據(jù),并能記錄電表開蓋次數(shù)和開蓋時間等輔助信息,為分析用戶行為、識別異常用戶提供便利。電力工程技術(shù)人員從基本物理規(guī)律出發(fā),提出了一些基于簡單規(guī)則的竊電檢測方法,能準(zhǔn)確識別竊電行為,并在工程實(shí)踐中得到推廣應(yīng)用。由于竊電的現(xiàn)象表征與電表接線形式和竊電方式緊密關(guān)聯(lián),該類方法僅適合于采用特定手法竊電的用戶。高校院所科研人員主要從用電異常識別的角度探索了數(shù)據(jù)驅(qū)動的竊電檢測方法。目前,該類研究主要基于特定數(shù)據(jù)集進(jìn)行測試分析,在工程應(yīng)用中能否滿足生產(chǎn)需要尚待實(shí)踐驗(yàn)證。由于用電信息采集系統(tǒng)和營銷系統(tǒng)中記錄有豐富的用戶數(shù)據(jù),在深入分析不同類型用戶行為特性的基礎(chǔ)上,有可能通過模型和算法等層面的優(yōu)化設(shè)計(jì),提出能夠滿足工程應(yīng)用需求的竊電檢測方法。
本文首先結(jié)合電表接線方式介紹了不同竊電手法的實(shí)現(xiàn)方式和現(xiàn)象表征;然后,梳理了工程技術(shù)人員總結(jié)的竊電檢測方法的基本思路,進(jìn)而分析數(shù)據(jù)驅(qū)動竊電檢測方法異常識別思路及存在的問題。在此基礎(chǔ)上,結(jié)合供電企業(yè)在人力資源約束下對竊電檢測評價指標(biāo)的差異性要求,分析指出不平衡樣本和跨類雜糅用戶的用電行為特性對應(yīng)狀態(tài)空間太過龐大,導(dǎo)致數(shù)據(jù)驅(qū)動竊電檢測方法特征指標(biāo)項(xiàng)的靈敏性和可靠性難以滿足要求等問題。最后,從算法設(shè)計(jì)、特征指標(biāo)選取以及用電異常的狀態(tài)空間細(xì)分等層面對低誤報率(false positive rate,F(xiàn)PR)竊電檢測進(jìn)行展望。
常見的竊電手法按是否涉及計(jì)量裝置分為2 類:與計(jì)量裝置無關(guān)的竊電手法主要包括繞表用電和用戶私自增容偷逃基本電費(fèi)2 類;與計(jì)量裝置有關(guān)的竊電手法主要包括欠壓型、欠流型、移相型和擴(kuò)差法竊電[4]。欠壓型、欠流型及移相型竊電手法通過改變電壓、電流及電壓與電流之間的相角達(dá)到竊電的目的,擴(kuò)差法竊電通過改變電表內(nèi)部結(jié)構(gòu)或干擾電表運(yùn)行擴(kuò)大電表計(jì)量誤差,從而達(dá)到竊電的目的。4 類竊電方式的具體實(shí)現(xiàn)手法如圖1 所示[5]。
圖1 竊電手法魚骨圖Fig.1 Fishbone diagram of electricity theft means
根據(jù)用戶類型和電表接線方式的差異,各種竊電方式可以表現(xiàn)出不同的指征。如在低壓單相用戶中采用分流法使得電流不經(jīng)零線回流,將使得低壓用戶出現(xiàn)零序電流。工商業(yè)用戶一般采用三相三線制或三相四線制接線。其中,三相三線接線方式下不存在零序電流,常采用兩元件電表計(jì)量(計(jì)量兩相電流),而三相四線用戶一般采用三元件電表計(jì)量(計(jì)量三相電流)。對應(yīng)于涉及電流互感器的竊電手法中表現(xiàn)出的指征也有所差異。
根據(jù)供電企業(yè)稽查確認(rèn)竊電用戶的案例分析,按照竊電持續(xù)性和竊電程度對用電量時序的改變方式,可將竊電時電量變化分為表1 所示的8 類[6-9]。
表1 竊電時電量變化趨勢Table 1 Trends of electricity changes with electricity theft
第1 類持續(xù)按照固定比例縮小計(jì)量電量,在實(shí)際中多對應(yīng)單相/兩相電流分流、單相電流反向或更換互感器等。為逃避稽查,第2 類竊電用戶在竊電回路中采用可控開關(guān)間斷性地將電量降為0,可在每天的負(fù)荷高峰時段或無稽查風(fēng)險時段竊電。第3 類竊電用戶表現(xiàn)為全時段零用電,多為數(shù)量龐大、難以上門稽查的低壓居民用戶。第4 類和第5 類為持續(xù)或斷續(xù)按時變比例f(t)隨機(jī)減少用電量的竊電用戶,在實(shí)踐中表現(xiàn)為篡改電表軟件的智能化竊電或工業(yè)企業(yè)中部分車間整體繞表用電的竊電用戶。第6 類竊電用戶電量表現(xiàn)為在用戶電量均值基礎(chǔ)上持續(xù)或按時變比例f(t)減少用電量。第7 類竊電用戶電量則表現(xiàn)為用電量均值。第8 類竊電用戶的總用電量不變,通過顛倒用電時序降低電費(fèi)成本。
供電企業(yè)用電管理人員數(shù)量有限,現(xiàn)場稽查困難,竊電檢測是經(jīng)營管理中長期存在的問題。智能電表得到普及應(yīng)用前,工程技術(shù)人員在可用數(shù)據(jù)極度匱乏的條件下,摸索總結(jié)出了不依賴用戶高密度計(jì)量數(shù)據(jù)的正常用戶排除方法[10],具體思路如下。
1)信用過濾:根據(jù)行業(yè)和客戶信用評級過濾極不可能竊電的高信用等級客戶。
2)線損過濾:計(jì)算客戶接入線路/臺區(qū)的線損率,過濾線損低于閾值的線路/臺區(qū)下的接入用戶。
3)功率因數(shù)過濾:一般竊電難以在竊電的同時保持功率因數(shù)不變,可以根據(jù)功率因數(shù)統(tǒng)計(jì)分布是否明顯偏離過去的統(tǒng)計(jì)分布,過濾功率因數(shù)無明顯變化的正??蛻?。
4)電量縱向比較過濾:以用戶竊電導(dǎo)致用電量下降為前提,將用戶電量與去年同期及近期電量相比,過濾電量無明顯突變的客戶。
采用上述方法,可在有限數(shù)據(jù)支持下將用電稽查人力資源靶向性地聚焦于高危竊電用戶,提高竊電檢測命中率(true positive rate,TPR),相關(guān)思路對于當(dāng)下也極具參考價值。
智能電表的普及應(yīng)用極大地豐富了可供挖掘分析的用戶用電數(shù)據(jù)。電力工程技術(shù)人員根據(jù)生產(chǎn)實(shí)踐經(jīng)驗(yàn),總結(jié)了一些具有物理意義的竊電檢測實(shí)用性指標(biāo)[11-13],主要包括:
1)單相低壓用戶剩余電流:單相用戶電流繞過入戶中性線而經(jīng)外接中性線入地時可減少電度計(jì)量,根據(jù)單相電表的剩余電流可準(zhǔn)確識別竊電用戶。
2)功率反向或缺相:絕大多數(shù)用戶未配置分布式電源,一般用電表計(jì)量下網(wǎng)電量。用戶竊電可能造成單相或三相功率反向或缺相,可根據(jù)是否存在明顯的反向功率和數(shù)據(jù)缺相識別異常用戶。
3)功率因數(shù)突變:部分竊電手法通過改變電表接線調(diào)整電流、電壓的夾角實(shí)現(xiàn)竊電,竊電時伴有功率因數(shù)突變,可將功率因數(shù)突變作為輔助判據(jù)。
4)增量物理指標(biāo):電力裝備企業(yè)根據(jù)多數(shù)竊電方式需要改動電表或外置強(qiáng)磁場干擾的特點(diǎn),研制了具有開蓋檢測和強(qiáng)磁檢測能力的防竊電電表,可根據(jù)記錄的電表開蓋次數(shù)、時間以及強(qiáng)磁場干擾,識別竊電用戶及竊電起止時間。
以上幾種在工程實(shí)際中得到推廣應(yīng)用的竊電檢測方法所用特征指標(biāo)項(xiàng)均具有明確的物理意義,能直觀準(zhǔn)確標(biāo)識竊電行為,滿足生產(chǎn)實(shí)踐的準(zhǔn)確性要求。由于竊電的現(xiàn)象表征與電表接線形式和竊電手法緊密關(guān)聯(lián),雖然該類方法可準(zhǔn)確識別采用特定手法竊電的某些類型用戶,但也存在適用范圍有限的缺陷。
用電信息采集系統(tǒng)、電力營銷系統(tǒng)及配電自動化系統(tǒng)可提供完整的用戶臺賬、電量計(jì)量及接入配電線路和臺區(qū)信息,有力地支撐了數(shù)據(jù)驅(qū)動竊電檢測技術(shù)的發(fā)展[14-17]。數(shù)據(jù)驅(qū)動竊電檢測方法根據(jù)實(shí)現(xiàn)機(jī)理可分為基于無監(jiān)督學(xué)習(xí)的聚類分析、基于有監(jiān)督學(xué)習(xí)的分類和基于配電網(wǎng)狀態(tài)估計(jì),如圖2 所示。下面分別綜述這3 類方法研究現(xiàn)狀與存在的問題。
圖2 數(shù)據(jù)驅(qū)動竊電檢測流程Fig.2 Detection process of data-driven based electricity theft
由于同類型用戶應(yīng)具有相近的用電模式,有可能利用計(jì)量和營銷數(shù)據(jù),采用無監(jiān)督的方式對用戶用電特征指標(biāo)項(xiàng)進(jìn)行聚類,然后將不符合多數(shù)用戶用電行為模式特征的少數(shù)用戶識別為異常用戶[1,8,18-22]。在異常用電檢測過程中,隨著用戶數(shù)據(jù)采集頻率的不斷提高及數(shù)據(jù)分析維度的擴(kuò)展,客戶用電行為表現(xiàn)出的模式特征愈加復(fù)雜[23-27],需要先根據(jù)用戶行為模式來提煉和篩選可有效表征用戶用電行為特性的特征指標(biāo)項(xiàng),再采用聚類算法找出顯著偏離正常用戶聚類簇的異常用戶。
基于聚類的竊電檢測方法的核心在于特征指標(biāo)項(xiàng)選擇和算法設(shè)計(jì)兩方面。在特征指標(biāo)選擇上,由于竊電常表現(xiàn)為用電量的趨勢性下降、日負(fù)荷曲線的異常以及報裝容量利用率偏低等形式,多以上述表征為依歸,設(shè)計(jì)特征指標(biāo)項(xiàng)。在算法層面上,常見的聚類算法可分為基于劃分、基于層次、基于密度和基于網(wǎng)絡(luò)等,應(yīng)用于異常檢測的聚類方法主要有基于劃分和基于密度2 類?;趧澐值木垲惙椒▽⒂脩舻奶卣骷辖?jīng)過劃分后,使得子集合中離中心較遠(yuǎn)的離群點(diǎn)作為異常點(diǎn);基于密度的聚類則認(rèn)為遠(yuǎn)離高密度點(diǎn)且自身處于低密度區(qū)域的點(diǎn)為異常點(diǎn)[19]?;诰垲惖母`電檢測方法對比如表2 所示,詳述如下。
表2 基于聚類的竊電檢測方法對比Table 2 Comparison of electricity theft detection methods based on clustering
文獻(xiàn)[1]采用模糊C 均值(fuzzy C-means,F(xiàn)CM)算法對包括居民、商業(yè)、工業(yè)及政府單位在內(nèi)的用戶數(shù)據(jù)集進(jìn)行聚類分析,除使用連續(xù)6 個月的月均用電量、最大月用電量、月電量方差及當(dāng)?shù)仄骄秒娏康戎笜?biāo)外,還將標(biāo)識用戶歷史用電異常度的現(xiàn)場稽查次數(shù)納入特征指標(biāo)集進(jìn)行聚類,分析得到能代表各聚類簇的典型向量。最后計(jì)算用戶當(dāng)前用電信息與所屬聚類簇典型向量間的歐氏距離,評估用戶異常風(fēng)險。文獻(xiàn)[8]將線損相關(guān)性分析與針對日負(fù)荷曲線的密度峰值快速搜索聚類(clustering by fast search and find of density peaks,CFSFDP)結(jié)合,采用愛爾蘭居民用戶及中小型企業(yè)500 日的用電量數(shù)據(jù)進(jìn)行用電異常檢測。仿真結(jié)果表明,模型的曲線下面積(area under curve,AUC)指標(biāo)和平均精度均值(mean average precision,MAP)指標(biāo)在不同竊電形式下均可達(dá)70%以上。文獻(xiàn)[18]利用分壓或分流竊電時計(jì)量的電壓、電流數(shù)據(jù)形成離群點(diǎn)的特征,對高損臺區(qū)的低壓用戶的電流、電壓數(shù)據(jù)進(jìn)行聚類分析,識別采用欠壓法和欠流法竊電的用戶。文獻(xiàn)[19]采用最優(yōu)路徑森林(optimum-path forest,OPF)聚類方法,按有功電量、報裝容量、最大需量、無功電量、專變?nèi)萘?、功率因?shù)和負(fù)荷系數(shù)(單位時間平均電量與最大需量之比)等用戶用電行為特征指標(biāo)項(xiàng),對8 126 戶商業(yè)和工業(yè)用戶數(shù)據(jù)進(jìn)行聚類分析,仿真分析結(jié)果表明OPF 聚類、K 均值聚類、高斯混合模型(Gaussian mixture model,GMM)及近鄰傳播(affinity propagation,AP)算法識別工業(yè)和商業(yè)用戶用電異常的準(zhǔn)確率均在60%左右。
特征指標(biāo)項(xiàng)之間可能存在強(qiáng)關(guān)聯(lián)性,為了降低特征指標(biāo)項(xiàng)的信息重疊,提高異常檢測效率,文獻(xiàn)[20]在用戶多日負(fù)荷均值差值與變化斜率的變動性指標(biāo)、前后多日負(fù)荷標(biāo)準(zhǔn)差的波動性指標(biāo)及負(fù)荷升降趨勢性指標(biāo)的基礎(chǔ)上,采用主成分分析提取主成分因子后,利用網(wǎng)格化局部離群因子(grid-based local outlier factor)算法檢測離群的用電異常用戶,能夠篩選出低密度區(qū)域的數(shù)據(jù)點(diǎn),提高算法效率。本文采用省級電網(wǎng)6 200 個用戶18 個月的負(fù)荷數(shù)據(jù),根據(jù)受試者工作特性(receiver operating characteristic,ROC)曲線、AUC 及累計(jì)查全率(cumulative recall,CR)曲線對模型進(jìn)行綜合評價。文獻(xiàn)[21]提出一種基于高斯核函數(shù)改進(jìn)的電力用戶用電數(shù)據(jù)離群點(diǎn)檢測方法,針對文獻(xiàn)[8]相同的用戶數(shù)據(jù),首先采用FCM 聚類方法將用戶聚成多個類簇,然后采用文獻(xiàn)[20]相同的指標(biāo)項(xiàng)進(jìn)行特征集降維處理后,用高斯核密度局部離群因子(Gaussian kernel density based local outlier factor,GKLOF)算法進(jìn)行聚類分析,識別離群的異常用戶。文中采用TPR 和FPR 進(jìn)行算法評價,仿真結(jié)果表明所提算法在TPR 和FPR 上均優(yōu)于原始局部離群因子(local outlier factor,LOF)算法。
前述研究多以靜態(tài)離線數(shù)據(jù)分析為主,難以適用于大數(shù)據(jù)流量和儲存海量數(shù)據(jù)的實(shí)際生產(chǎn)系統(tǒng)。文獻(xiàn)[22-23]提出結(jié)合實(shí)時數(shù)據(jù)進(jìn)行同步異常檢測,以快速發(fā)現(xiàn)用戶用電異常。文獻(xiàn)[22]針對在大規(guī)模數(shù)據(jù)處理平臺上進(jìn)行海量用戶異常識別的需要,結(jié)合分布式流式計(jì)算平臺,基于用戶個體在縱向時間和橫向空間上的聚類特性,設(shè)計(jì)并實(shí)現(xiàn)了流式基于密度的含噪聲空間聚類(density based spatial clustering of applications with noise,DBSCAN),對比分析表明所提算法在異常檢測上較原始DBSCAN 算法更有效。文獻(xiàn)[23]加入關(guān)聯(lián)分析思想構(gòu)造關(guān)聯(lián)規(guī)則,以用戶單位時間內(nèi)的用電量波動作為特征指標(biāo)項(xiàng)進(jìn)行密度聚類,并在用戶波動區(qū)間分簇后對標(biāo)準(zhǔn)化的分簇對象計(jì)算離群對象得分,所提算法能及時分析異常用電,其單位時段[ti-1,ti]內(nèi)波動量bi-1,i的計(jì)算公式為:
式中:ai為單位時段[ti-1,ti]內(nèi)的用電量。若包含m個 樣 本 點(diǎn) 的 單 用 戶 用 電 量 序 列P={pt,1,pt,2,…,pt,m},pt,m為用戶在對應(yīng)時刻t的用電量,則ai=pt,i-pt,i-1,以此構(gòu)建單位時段的波動量序列B={b0,1,b1,2,…,bm-1,m}。
綜上,基于聚類的竊電檢測方法一般使用表征用電量的趨勢性下降、日負(fù)荷曲線的異常以及報裝容量利用率偏低等特征指標(biāo)項(xiàng)進(jìn)行特征優(yōu)選和聚類分析[19-20]。需要指出的是,不同行業(yè)用戶用電行為特性存在顯著差異,部分行業(yè)用電需求直接取決于訂單需量,用戶用電量的大幅或趨勢性波動是常態(tài)。此外,竊電多發(fā)的工程建筑類用戶的用電行為極不規(guī)律,基于日負(fù)荷曲線聚類識別用電異常的實(shí)用性也需要在工程實(shí)踐中進(jìn)行考驗(yàn)。
分類屬于有監(jiān)督學(xué)習(xí)[28-35],其采用已知類別標(biāo)簽的樣本訓(xùn)練分類器,由經(jīng)過訓(xùn)練的分類器根據(jù)輸入特征量將無標(biāo)簽樣本分類。與基于聚類的竊電檢測方法類似,基于分類的異常用電檢測需要采用適當(dāng)?shù)乃惴?,根?jù)選擇的特征指標(biāo)項(xiàng)將用戶劃分為正常和異常2 類,差異之處在于后者可以利用大量已知類別的樣本訓(xùn)練分類器。實(shí)際竊電樣本往往明顯少于正常用電樣本,這將帶來突出的不平衡樣本集問題。基于分類的竊電檢測方法對比如表3 所示,詳述如下。
表3 基于分類的竊電檢測方法對比Table 3 Comparison of electricity theft detection methods based on classification
文獻(xiàn)[28]以竊電將造成用電量明顯下降為指引,將過去2 年的用電數(shù)據(jù)劃分為3 個時間窗,第1 個時間窗為最早16 個月的用電數(shù)據(jù),標(biāo)識用戶在正常狀態(tài)下的用電行為;隨后2 個月為第2 個時間窗,標(biāo)識竊電導(dǎo)致電量下降過程;最后6 個月標(biāo)識竊電之后達(dá)到的穩(wěn)定狀態(tài)。在此基礎(chǔ)上,定義特征指標(biāo)項(xiàng),采用皮爾森相關(guān)系數(shù)識別用電量突降的異常用戶。除此以外,還根據(jù)月最大/最小用電量、月無功有功電量比、報裝容量利用率等特征指標(biāo)項(xiàng),采用貝葉斯網(wǎng)絡(luò)和決策樹識別用電異常的用戶。仿真結(jié)果表明,所提組合檢測方法能覆蓋不同類型竊電手法,提高檢測準(zhǔn)確率。文獻(xiàn)[29]使用支持向量機(jī)(support vector machine,SVM)作為分類器,除使用用戶每個月平均日負(fù)荷曲線外,還將用戶信用評級作為特征輸入,并對SVM 進(jìn)行了參數(shù)優(yōu)化。本文測試數(shù)據(jù)集包括186 968 戶電力用戶,通過TPR 評價模型性能。文獻(xiàn)[30]提出基于稀疏隨機(jī)森林模型的用電異常檢測方法,該方法利用竊電導(dǎo)致用電量下降的特性,采用日用電量為特征指標(biāo)項(xiàng)。首先利用時間窗函數(shù)與有放回重采樣,建立用電行為模式信息簇,然后基于隨機(jī)權(quán)網(wǎng)絡(luò)得到隨機(jī)森林模型并稀疏化來識別用電異常。此外,通過用戶異常度累積的方式,可在恰當(dāng)閾值設(shè)置下避免干擾因素造成的短期負(fù)荷驟降引起的誤報。該方法使用數(shù)據(jù)集為5 690 個城鎮(zhèn)用電客戶的負(fù)荷數(shù)據(jù),涵蓋大工業(yè)、商業(yè)、非居民照明、非工業(yè)及居民5 個類別,最后以TPR、FPR 衡量模型性能好壞。文獻(xiàn)[31]借鑒工程實(shí)踐的判斷規(guī)則,將根據(jù)功率反向等判據(jù)檢測的指標(biāo)用作特征項(xiàng),將用戶用電量時序數(shù)據(jù)異常分為normal、change 和complex 這3 種類型,其中normal類型的異常體現(xiàn)為毛刺,change 類型的異常體現(xiàn)為曲線有大幅度的下移,而complex 類型則體現(xiàn)為雜亂無章且無規(guī)律,利用K近鄰(K-nearest neighbors,KNN)算法對193 個居民和工業(yè)用戶異常數(shù)據(jù)進(jìn)行分類訓(xùn)練,分類準(zhǔn)確率接近80%。
文獻(xiàn)[32]首先根據(jù)用戶多日平均的日負(fù)荷曲線確定工作日和節(jié)假日的高峰負(fù)荷上下限,然后使用極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)作為分類器,將標(biāo)幺化的用戶日負(fù)荷曲線作為特征輸入,判斷用戶是否竊電。所使用數(shù)據(jù)集包括1 500 戶商業(yè)用戶,分類準(zhǔn)確率可達(dá)54.61%。文獻(xiàn)[33]將多層感知機(jī)(multi-layer perceptron,MLP)神經(jīng)網(wǎng)絡(luò)作為分類器,所使用數(shù)據(jù)集分為2 個部分,前者為3 486 戶工業(yè)用戶,后者為5 645 戶商業(yè)用戶,所使用的特征指標(biāo)集與文獻(xiàn)[19]相同,最后以均方誤差(mean-square error,MSE)和準(zhǔn)確率衡量方法有效性。
上述基于聚類和分類的竊電檢測方法所采用的特征指標(biāo)項(xiàng),多根據(jù)研究人員對于竊電用戶在用電行為特性上的先驗(yàn)知識來設(shè)計(jì)和選擇。近年來,機(jī)器學(xué)習(xí)領(lǐng)域的研究進(jìn)展表明,深度學(xué)習(xí)可以從輸入的低階特征中提取高階特征,從而顯著提高系統(tǒng)的泛化能力?;诖?,文獻(xiàn)[34-35]分別采用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和基于堆疊去相關(guān)自編碼器的SVM,利用負(fù)荷時間序列數(shù)據(jù)識別竊電用戶,在測試所用數(shù)據(jù)集上取得了較好的識別效果。
從可用信息多寡角度來看,基于分類的異常檢測方法增加了帶分類標(biāo)簽樣本信息,檢測效果有可能優(yōu)于基于聚類的異常檢測方法?;诜诸惖母`電檢測中,除正面與負(fù)面樣本不平衡特性影響外,正面與負(fù)面樣本之間行為特性的差異性以及負(fù)面樣本代表性的影響更為突出。已有分類檢測文獻(xiàn)多圍繞用電量突降設(shè)計(jì)特征指標(biāo)項(xiàng),這實(shí)際上隱含正常用戶用電基本平穩(wěn)的假設(shè)。但相當(dāng)一部分行業(yè)電力用戶的用電量可能本身就并不平穩(wěn),而設(shè)備大修、停產(chǎn)改造等原因也會造成用戶持續(xù)低電量。用戶正常用電行為下的電量波動和竊電造成的電量波動之間的區(qū)別并不明顯,容易混淆。僅從算法層面進(jìn)行優(yōu)化改進(jìn),不一定能取得滿意的檢測效果。
電網(wǎng)本身的物理特性決定了各節(jié)點(diǎn)的節(jié)點(diǎn)電壓和注入功率等狀態(tài)量具有強(qiáng)耦合性,服從潮流方程約束,可以采用狀態(tài)估計(jì)的方式根據(jù)其他節(jié)點(diǎn)的量測量估計(jì)目標(biāo)用戶的狀態(tài)量[36]。用戶竊電時篡改的只是本地的計(jì)量數(shù)據(jù),實(shí)際上很難通過多個用戶協(xié)同篡改各自的計(jì)量數(shù)據(jù)實(shí)現(xiàn)滿足潮流約束的竊電。因此,有可能在用戶計(jì)量數(shù)據(jù)的基礎(chǔ)上,結(jié)合配電網(wǎng)的節(jié)點(diǎn)電壓等數(shù)據(jù),開展基于配電網(wǎng)狀態(tài)估計(jì)的竊電檢驗(yàn)[37-39]。
基于配電網(wǎng)狀態(tài)估計(jì)的竊電檢測除要求掌握詳細(xì)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和參數(shù)外,還要求線變戶表關(guān)系正確、與實(shí)際系統(tǒng)嚴(yán)格一致,工程應(yīng)用中局限性較強(qiáng)。盡管采用文獻(xiàn)[40-41]提出的方法可借助無線傳感器和射頻識別標(biāo)簽提高狀態(tài)數(shù)據(jù)采集精度,但也需額外增加硬件和運(yùn)維成本。
進(jìn)行異常檢測時,往往采用表4 所示混淆矩陣及其衍生指標(biāo)評價檢測效果?;煜仃噷⑺杏脩舭凑掌鋵?shí)際歸屬和檢測歸屬分為真陽性(true positive,TP)、真陰性(false negative,F(xiàn)N)、假陽性(false positive,F(xiàn)P)和真陰性(true negative,TN),其中:TP 和TN 為正確分類的部分,比例越高說明檢測效果越好;FP 為誤報而FN 為漏報。
表4 異常用電檢測中應(yīng)用的混淆矩陣Table 4 Confusion matrix applied in anomaly electricity detection
以混淆矩陣為基礎(chǔ),可以推導(dǎo)出多個分類器的評價指標(biāo)。常用指標(biāo)主要有準(zhǔn)確率[19,32-33]、精確率[1]、TPR[21,28-30,35]和FPR[21,30-31,35]等,其中:準(zhǔn)確率為所有預(yù)測樣本中預(yù)測正確的比例;精確率為所有預(yù)測為異常用戶的樣本中實(shí)際異常用戶的占比;TPR 為實(shí)際異常用戶中預(yù)測正確樣本的占比;FPR為誤檢為異常用戶的正常用戶在所有正常用戶中的占比。各指標(biāo)準(zhǔn)確定義如式(1)至式(4)所示。
式中:kAccuracy、kPrecision、kTPR、kFPR分別為準(zhǔn)確率、精確率、TPR、FPR 指標(biāo);PTP為實(shí)際異常用戶被檢測為異常用戶的數(shù)量;PFN為實(shí)際異常用戶被檢測為正常用戶的數(shù)量;PFP為實(shí)際正常用戶被檢測為異常用戶的數(shù)量;PTN為實(shí)際正常用戶被檢測為正常用戶的數(shù)量。
除了靜態(tài)和單一指標(biāo)外,還可以采用多種或動態(tài)指標(biāo)衡量模型整體可信度。附錄A 表A1 所列為從混淆矩陣衍生出的多種模型評價曲線。
1)精確率-召回率(precision-recall,P-R)曲線[42]的橫坐標(biāo)和縱坐標(biāo)分別為TPR 和精確率,二者的值越趨近于1 則模型的效果越好,故P-R 曲線凸向(1,1)。
2)ROC 曲線[43]的橫坐標(biāo)為FPR,縱坐標(biāo)為TPR。FPR 越趨近于0 且TPR 越趨近于1 時模型的檢測效果越好,故ROC 曲線的圖像凸向(0,1)。
3)提升曲線[44]與增益曲線[45]的橫坐標(biāo)均為ddepth,其計(jì)算公式為:
在異常檢測中,ddepth代表預(yù)測為異常用戶的樣本占整體樣本數(shù)的比例。提升曲線與增益曲線的縱坐標(biāo)分別為LLift和GGain。
假設(shè)隨著模型中設(shè)定閾值減小,更多用戶被劃分為異常樣本,即ddepth(檢測為異常用戶占所有檢測用戶的比例)值變大,LLift衡量了0 與不利用竊電檢測模型相比、使用竊電檢測模型帶來的檢測效果提升程度。當(dāng)閾值為0 且不使用檢測模型時,ddepth為1,此時LLift=[PTP/(PTP+PFP)](PTP+PFP+0+0)/(PTP+0)=1。提升曲線偏離1 越遠(yuǎn),表示與不使用檢測模型相比,使用檢測模型提升檢測效果的程度越大,效果越好;增益曲線越接近(0,1)時,表明只需檢測較少的樣本即可取得較高的準(zhǔn)確率,模型檢測效果越好。文獻(xiàn)[20]對模型評價所使用的CR曲線橫坐標(biāo)也是ddepth,縱坐標(biāo)為TPR。曲線越接近(0,1),模型檢測效果越好,檢測較小比例樣本即可取得較高的檢出率。
4)柯爾莫可洛夫-斯米洛夫(Kolmogorov-Smirnov,KS)曲線[46]的橫坐標(biāo)為檢測模型設(shè)定的閾值,縱坐標(biāo)為TPR 與FPR 的差值,TPR 與FPR 的差值越大表明檢出率越高而誤檢率越低,檢測模型的性能越好。KS 值的計(jì)算公式為|max(kTPR-kFPR)|,即TPR 與FPR 差值絕對值的最大值。當(dāng)模型取得KS 值處對應(yīng)的橫坐標(biāo)閾值時,檢測效果最佳。
除前述模型評價曲線外,諸如AUC[8,21,34]、MSE[33]、MAP[34]和貝葉斯檢出率(Bayesian detection rate,BDR)[35]等指標(biāo)在竊電檢測模型評價中也有應(yīng)用。基于混淆矩陣及衍生評價指標(biāo)在應(yīng)用中主要存在以下2 點(diǎn)問題。
1)從工程技術(shù)人員應(yīng)用反饋來看,阻礙數(shù)據(jù)驅(qū)動竊電檢測方法走向推廣應(yīng)用的主要瓶頸在于FPR 偏高。由于供電企業(yè)用電管理人力資源有限,加之地方政府為改善營商環(huán)境限制供電企業(yè)頻繁進(jìn)行現(xiàn)場稽查,F(xiàn)PR 高的竊電檢測方法難以得到推廣應(yīng)用。
2)從表2 和表3 可以看出,既有研究多側(cè)重提高竊電檢測準(zhǔn)確率,與工程應(yīng)用要求的低FPR 并不一致,在不均衡樣本中以準(zhǔn)確率高為目標(biāo)進(jìn)行異常檢測,本身就是一種誤導(dǎo)。一般認(rèn)為電力用戶中竊電用戶占比不高,是典型的不平衡樣本。當(dāng)竊電用戶占比為1%時,竊電檢測只需要將所有樣本判定為正,檢測準(zhǔn)確率就可達(dá)到99%,但此指標(biāo)實(shí)際上不具有參考價值。
從供電企業(yè)角度來看,杜絕竊電現(xiàn)象并不需要查處全部竊電用戶,準(zhǔn)確檢測部分竊電用戶進(jìn)而震懾其他用戶,同樣可以達(dá)到目的。供電企業(yè)用戶數(shù)量龐大,其中相當(dāng)比例為竊電異常用戶。從實(shí)際工作出發(fā),漏報部分竊電用戶對于開展用電稽查影響不大,但出現(xiàn)誤報將使用電稽查失去靶向性,進(jìn)而導(dǎo)致稽查人員放棄使用數(shù)據(jù)驅(qū)動竊電檢測方法。綜上,工程應(yīng)用對于竊電檢測的要求是可容忍一定程度的漏報率,并盡可能降低FPR。
從工程應(yīng)用角度來看,既有數(shù)據(jù)驅(qū)動的竊電檢測方法在正負(fù)樣本的不平衡特性和基于特征指標(biāo)項(xiàng)的檢測判據(jù)可靠性等方面存在較明顯缺陷。除在樣本不平衡條件下以最大化檢出率和檢測準(zhǔn)確率為目標(biāo)進(jìn)行算法優(yōu)化設(shè)計(jì)、導(dǎo)致竊電檢測FPR 偏高以外,更突出的問題集中在特征指標(biāo)的選擇上。數(shù)據(jù)驅(qū)動的竊電檢測往往以竊電導(dǎo)致低電量或用電量突降異常為依歸,根據(jù)泛化的竊電表征(如用電量陡降或趨勢性下降、報裝容量利用率低和日負(fù)荷曲線離群異常等)設(shè)計(jì)和選取特征指標(biāo)項(xiàng),此時實(shí)際上隱含正常用戶用電基本平穩(wěn)的假設(shè)。但從圖3 中實(shí)際工業(yè)用戶的用電數(shù)據(jù)來看,相當(dāng)部分行業(yè)的用戶按訂單安排生產(chǎn),用電量并不具有平穩(wěn)特性。正常情況下,用戶日電量波動可達(dá)30%~50%,而單相分流竊電時電量波動也在30%左右,很容易和正常波動混淆導(dǎo)致誤判。用戶設(shè)備大修、停產(chǎn)改造、消防整改、環(huán)保檢查和安全檢查等原因造成持續(xù)的用電量突降,也可導(dǎo)致誤判。
圖3 典型行業(yè)日用電量曲線Fig.3 Daily power consumption curves of typical industry
跨行業(yè)雜糅用戶用電行為特性對應(yīng)的狀態(tài)空間太過龐大,是導(dǎo)致難以設(shè)置能準(zhǔn)確刻畫用戶用電行為特性的特征指標(biāo)項(xiàng),進(jìn)而影響異常檢測靈敏性和可靠性的關(guān)鍵。因?yàn)檎:彤惓S脩舻碾娏坎▌颖旧砭腿菀谆煜試@電量設(shè)計(jì)的特征指標(biāo)項(xiàng)存在可用信息不足的缺陷。僅根據(jù)電量信息,很難判斷電量異常是否為竊電所致。實(shí)際上,負(fù)荷數(shù)據(jù)可用作用戶的負(fù)荷指紋,從中分析提煉用戶所處生產(chǎn)經(jīng)營狀態(tài)的增量信息,從而識別低電量異常是否對應(yīng)竊電。此外,利用用戶竊電與接入線路/臺區(qū)線損之間的關(guān)聯(lián)性,引入臺區(qū)/線路線損增量信息,也可提高竊電檢測的靶向性。
根據(jù)以上分析,可按圖4 所示,從不平衡樣本的算法設(shè)計(jì)、基于生產(chǎn)經(jīng)營狀態(tài)識別的竊電二次篩查、考慮行業(yè)用電特性差異的特征指標(biāo)項(xiàng)提取以及高損線路/臺區(qū)線損電量歸因分析4 個方面研究低FPR竊電檢測方法。
圖4 低FPR 檢測改進(jìn)方法Fig.4 Improved method for detection with low FPR
樣本不平衡是基于分類的異常檢測的常見問題。采用不平衡樣本訓(xùn)練分類器時,以提高分類準(zhǔn)確率為目標(biāo)設(shè)計(jì)算法會過多關(guān)注多數(shù)類樣本而忽略少數(shù)類樣本,從而降低少數(shù)類異常樣本的分類性能。
利用供電企業(yè)進(jìn)行竊電檢測時要求FPR 盡可能低而可以接受一定比例漏報的特點(diǎn),基于分類的竊電檢測算法可從算法層面進(jìn)行優(yōu)化設(shè)計(jì),調(diào)控漏報率與FPR 之間的平衡,降低由樣本不平衡導(dǎo)致的高FPR,具體措施如下。
1)文獻(xiàn)[47]按最大化分類準(zhǔn)確率為目標(biāo)設(shè)計(jì)算法,根據(jù)不同竊電手法的數(shù)學(xué)描述產(chǎn)生大量訓(xùn)練樣本來消除不平衡水平,有助于提高異常檢測的準(zhǔn)確率。
2)采用隨機(jī)欠采樣(random under sampling,RU)技術(shù),在訓(xùn)練樣本中多次有放回地隨機(jī)抽取少量樣本作為弱分類器中的訓(xùn)練樣本[48],也可提高不平衡樣本條件下的異常檢測效果。
3)基于合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE),從每個少數(shù)類樣本的最近鄰中隨機(jī)選擇1 個樣本,然后在2 個樣本間的連線上隨機(jī)選擇一點(diǎn)作為新合成的樣本,也是一種有效的方法[49]。文獻(xiàn)[50]采用改進(jìn)SMOTE,通過合成小類別邊界數(shù)據(jù)樣本來加強(qiáng)對樣本邊界的分類能力,防止分類界面模糊和類別邊界樣本分類困難。
4)優(yōu)化分類算法的分類閾值。竊電檢測為二分類檢測,一般采用0.5 作為正常和異常的分類界限。使用訓(xùn)練集訓(xùn)練分類器時,搜索以取得分類器分類準(zhǔn)確率最高/FPR 最低時對應(yīng)的分類閾值作為最優(yōu)閾值,也可降低FPR。
基于電量異常識別竊電的突出問題是無法識別是用戶低電量生產(chǎn)經(jīng)營狀態(tài)還是竊電造成用戶低電量異常,容易將用戶正常生產(chǎn)經(jīng)營狀態(tài)變化誤判為竊電。
對于特定工商業(yè)用戶而言,其用電設(shè)備構(gòu)成基本固定。在特定生產(chǎn)經(jīng)營狀態(tài)下使用的設(shè)備組合和對應(yīng)的用電模式是基本確定的。每種生產(chǎn)經(jīng)營狀態(tài)下投運(yùn)電氣設(shè)備的組合決定其對應(yīng)的用電模式。正常節(jié)假日時,用戶投運(yùn)設(shè)備不同,負(fù)荷明顯低于工作日,對應(yīng)的用電模式也有顯著差異。正常用戶經(jīng)過一段時間之后,將會遍歷自身各種生產(chǎn)和經(jīng)營狀態(tài)對應(yīng)的用電模式。
利用用戶用電行為對應(yīng)一定的生產(chǎn)經(jīng)營狀態(tài)的特點(diǎn),可以將用戶一日的三相計(jì)量數(shù)據(jù)作為負(fù)荷指紋,標(biāo)識用戶當(dāng)天的用電行為模式及所屬的生產(chǎn)經(jīng)營狀態(tài)。對于正常用戶而言,電量突降只是從正常的高電量生產(chǎn)經(jīng)營狀態(tài)轉(zhuǎn)換進(jìn)入低電量生產(chǎn)經(jīng)營狀態(tài)。而竊電用戶電量突降時對應(yīng)的用電模式與生產(chǎn)經(jīng)營狀態(tài)都可能與正常的生產(chǎn)經(jīng)營狀態(tài)不同。因此,根據(jù)負(fù)荷指紋識別用戶的生產(chǎn)經(jīng)營狀態(tài),可以提供電量之外的增量信息,從而規(guī)避僅基于電量的竊電檢測存在的信息不足問題,降低竊電檢測FPR。
既有基于分類或聚類的竊電檢測方法多傾向于跨行業(yè)進(jìn)行竊電檢測,一般僅按照居民、商業(yè)、工業(yè)等大類來分類竊電檢測。由于跨行業(yè)混雜的用戶在用電行為特性上具有顯著的差異性,一方面在選擇特征指標(biāo)項(xiàng)時無法針對個別行業(yè)用電行為特性設(shè)計(jì)和選取指標(biāo),而只能選擇用電量突降、報裝容量利用率偏低和日負(fù)荷曲線異常等脫離行業(yè)特性的泛化指標(biāo);另一方面,不同行業(yè)用戶的行為模式差異巨大,又在靈敏性和可靠性上對選出的指標(biāo)造成了負(fù)面影響。
實(shí)際上,細(xì)分行業(yè)的用戶在用電行為特性上具有強(qiáng)相似性。如圖5 所示的路燈負(fù)荷就具有明確的日負(fù)荷曲線特征。由于路燈供電線路散布于城市四處,鄰近居民店面盜接路燈線路的竊電案例屢見不鮮。路燈一般采用小容量專變供電,只有供電電量而沒有用電電量計(jì)量,不能根據(jù)線損率識別異常。但結(jié)合路燈負(fù)荷的運(yùn)行時間及點(diǎn)亮模式特點(diǎn),有可能采用負(fù)荷波動性作為特征指標(biāo)項(xiàng)來設(shè)計(jì)檢測模型,識別用電異常的路燈專變用戶。
圖5 典型路燈負(fù)荷曲線Fig.5 Typical street light load curve
按細(xì)分行業(yè)設(shè)置特征指標(biāo)項(xiàng)的實(shí)質(zhì)是充分挖掘和利用對特定行業(yè)用電行為的先驗(yàn)知識。與前述路燈專變用戶類似的,其他行業(yè)也可以根據(jù)行業(yè)用電行為特性提取能有效刻畫用電行為特性和識別用電異常的特征指標(biāo)項(xiàng)。
絕大多數(shù)既有竊電檢測方法共同的缺陷是需要檢測到竊電導(dǎo)致的用電行為突變,但供電企業(yè)一般僅保留近幾年的用電數(shù)據(jù),不一定能覆蓋竊電導(dǎo)致突變的時間點(diǎn)。此外,部分用戶甚至可能在入網(wǎng)時就配置了錯誤的電流、電壓互感器,無從檢測到竊電導(dǎo)致的用電行為突變。
由于配電線路/臺區(qū)下一般僅接入有限數(shù)量的用戶,非技術(shù)線損電量由接入用戶造成。為縮小目標(biāo)、簡化問題,傳統(tǒng)上在極度匱乏用戶用電數(shù)據(jù)的條件下,主要圍繞高損臺區(qū)/線路進(jìn)行針對性的用電稽查,是縮小狀態(tài)空間、降低竊電檢測FPR 的實(shí)用方法,有可能為高效準(zhǔn)確檢測包括成比例無突變竊電在內(nèi)的用電異常提供解決思路。
由于臺區(qū)/線路線損電量與用戶竊電電量之間存在對應(yīng)關(guān)系[51-55],技術(shù)上可以采用歸因分析方法,識別造成臺區(qū)線損率升高的異常用戶,從而通過確定臺區(qū)下屬用戶用電量時間序列與臺區(qū)損失電量時間序列之間的因果關(guān)系,識別臺區(qū)下屬竊電異常用戶。
用戶竊電直接造成供電企業(yè)凈收益流失,依托營銷與電能計(jì)量數(shù)據(jù)進(jìn)行數(shù)據(jù)驅(qū)動的竊電檢測,是提高供電企業(yè)經(jīng)營收益的重要途徑。本文首先介紹了各種竊電手法及對應(yīng)的外在表征;然后,分別分析了現(xiàn)場工程應(yīng)用和理論研究中常用竊電檢測方法的基本思路及存在的缺陷。在此基礎(chǔ)上,結(jié)合供電企業(yè)工程應(yīng)用需求分析指出低FPR 是推動數(shù)據(jù)驅(qū)動竊電檢測方法走向工程實(shí)用的關(guān)鍵。最后,從算法設(shè)計(jì)、狀態(tài)空間細(xì)分和特征指標(biāo)項(xiàng)的設(shè)計(jì)選擇等方面展望了實(shí)現(xiàn)低FPR 竊電檢測的研究方向。
本文拋磚引玉,討論了幾種可能推進(jìn)低FPR 竊電檢測的思路。實(shí)際上,竊電的表現(xiàn)形態(tài)隨著用戶側(cè)電源、負(fù)荷以及用電模式而變化,電能替代戰(zhàn)略的推進(jìn)和分布式電源、儲能系統(tǒng)的普及應(yīng)用,都將對竊電檢測技術(shù)不斷提出新的要求。而某些用戶如低壓居民用戶中還存在相當(dāng)數(shù)量的零電量用戶,很難通過提高計(jì)量數(shù)據(jù)采集頻率提供竊電檢測的有效信息,需要集思廣益,多視角地研究提出滿足工程應(yīng)用需求的實(shí)用方法。
本文在撰寫過程中得到國家自然科學(xué)基金委員會-國家電網(wǎng)公司智能電網(wǎng)聯(lián)合基金項(xiàng)目(U19266207)資助,特此感謝!
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。