黃悅?cè)A 郭思涵 鮑 剛 程江洲 諶 橋 王藝潔
(三峽大學(xué) 電氣與新能源學(xué)院, 湖北 宜昌 443002)
隨著用電用戶的迅速增加和智能電表的普及,供電企業(yè)能夠從配電網(wǎng)中收集到海量的運(yùn)行數(shù)據(jù)[1],因此電力企業(yè)需要對(duì)用戶用電信息采集系統(tǒng)收集到的數(shù)據(jù)進(jìn)行整理與挖掘,獲取隱藏其中的信息[2].用電數(shù)據(jù)信息來源廣,結(jié)構(gòu)復(fù)雜,對(duì)企業(yè)進(jìn)行數(shù)據(jù)分析造成了困難[3].數(shù)據(jù)挖掘技術(shù)能實(shí)現(xiàn)數(shù)據(jù)整理、數(shù)據(jù)分類、異常數(shù)據(jù)查找等功能[4],以此推動(dòng)泛在電力物聯(lián)網(wǎng)的建設(shè),提升電網(wǎng)的全息感知能力[5].
目前按照對(duì)用電行為的定義方式分類,基于用電信息采集系統(tǒng)的研究主要有兩類:第一類是抽取、提煉用電負(fù)荷曲線,從中提取用電特征再對(duì)其進(jìn)行分析.文獻(xiàn)[6]提出了一種融合K-means聚類算法和異常點(diǎn)查找算法的竊電識(shí)別方法;文獻(xiàn)[7]提出了基于無監(jiān)督學(xué)習(xí)的異常用電模型檢測(cè)方法,將網(wǎng)格分析的方法引入異常點(diǎn)查找算法.以上文獻(xiàn)聚焦于異常數(shù)據(jù)點(diǎn)的查找,通過結(jié)合不同的聚類方法減少異常點(diǎn)檢測(cè)算法所計(jì)算的數(shù)據(jù)點(diǎn),能顯著提高檢測(cè)效率.文獻(xiàn)[8]基于改進(jìn)的K-means聚類算法對(duì)用戶負(fù)荷數(shù)據(jù)進(jìn)行日負(fù)荷曲線的特性分類,但文中并未針對(duì)竊電情形對(duì)分類中出現(xiàn)的異常情況進(jìn)行挖掘.第二類是基于用戶用電過程中產(chǎn)生的電參量記錄,從與其有關(guān)的時(shí)間序列中選取特征,將其描述為樣本點(diǎn)后再進(jìn)行分析.文獻(xiàn)[9]提出一種基于深度學(xué)習(xí)的用戶異常用電模式檢測(cè)模型,構(gòu)建了特征提取網(wǎng)絡(luò)和多層特征匹配網(wǎng)絡(luò),具有較高的準(zhǔn)確性,但在實(shí)際應(yīng)用的過程中,需要大量帶有標(biāo)記的訓(xùn)練集才能獲得模型的較高準(zhǔn)確性.文獻(xiàn)[10]使用基于距離的離群點(diǎn)查找方法,繪出竊電方法魚骨圖對(duì)所研究用戶電流電壓曲線進(jìn)行研究,通過觀測(cè)對(duì)象與質(zhì)心的歐幾里得距離甄別竊電用戶,但文中并未考慮供電及測(cè)量裝置故障等因素導(dǎo)致的異常觀測(cè)點(diǎn).文獻(xiàn)[11]利用大數(shù)據(jù)針對(duì)多種類型竊電手段,建立竊電特征模型,但并未將高級(jí)測(cè)量體系(advanced metering infrastruc-ture,AMI)下對(duì)智能電表的攻擊納入考慮.
本文提出針對(duì)專變用戶基于用電模式特征的無監(jiān)督方式異常用電檢測(cè)方法.首先引入LOF(local outlier factor)離群點(diǎn)檢測(cè)算法,基于電參量的時(shí)間序列考慮攻擊者行為特點(diǎn),構(gòu)建異常用電特征;然后設(shè)計(jì)異常用電評(píng)價(jià)流程量化用戶用電的異常程度,得到用戶異常行為的發(fā)生時(shí)刻;最后綜合考慮異常用電評(píng)價(jià)指標(biāo)與異常用電持續(xù)時(shí)間減小技術(shù)性因素帶來的誤差.
目前用戶用電采集系統(tǒng)能進(jìn)行一定程度的異常用電分析并記錄,通過接口上報(bào)到相關(guān)部門[12-14].對(duì)這些數(shù)據(jù)的技術(shù)分析能探查到一定數(shù)量的異常用電用戶,跟蹤重點(diǎn)用戶用電情況,但隨著AMI體系下異常用電模式的多樣化,竊電行為越來越隱蔽,異常用電行為與正常用電行為的區(qū)分度越來越小,造成了管理難度的加大[15].
專變用戶的電能計(jì)量采取高供高計(jì)、高供低計(jì)的方式.根據(jù)用戶接線方式的不同,采集樣本中存在不同類型的數(shù)據(jù).高供高計(jì)采用三相三線的計(jì)量方式,高供低計(jì)采用三相四線的計(jì)量方式.在數(shù)據(jù)收集與分析的過程中,將高供低計(jì)三元件計(jì)量方式產(chǎn)生的三相數(shù)據(jù)記為A、B、C三相,高供高計(jì)二元件計(jì)量方式產(chǎn)生的兩項(xiàng)數(shù)據(jù)記為A、C兩相.
電網(wǎng)運(yùn)行中的輸配電損失可分為技術(shù)性損失和非技術(shù)性損失.常見技術(shù)性損失有計(jì)量裝置的故障以及線路故障.智能電表在使用過程中產(chǎn)生故障和失誤造成計(jì)量異常,這些情況會(huì)使用電信息數(shù)據(jù)呈現(xiàn)出異常的波動(dòng),甚至超出計(jì)量范圍,另一個(gè)因素線路故障即供電異常也會(huì)導(dǎo)致用電數(shù)據(jù)的異常,這些故障導(dǎo)致的用電數(shù)據(jù)的異常容易從用電信息采集數(shù)據(jù)所返回的數(shù)據(jù)判斷出來.非技術(shù)損失以竊電形成的異常用電行為為首,是造成供電企業(yè)經(jīng)濟(jì)損失的主要原因.竊電行為不僅嚴(yán)重影響了企業(yè)的收益,對(duì)配電網(wǎng)的安全運(yùn)行和發(fā)展造成阻礙,而且由于竊電行為一般通過對(duì)計(jì)量裝置和供電回路的私自改裝實(shí)施,極易發(fā)生安全事故,使用高電壓、高用電量的專變用戶更是如此.因互感器變比較大,僅需電表較少的走字誤差即能獲得較大的非法收益[16].因此在異常用電行為的挖掘過程中,對(duì)于高壓專變用戶的竊電行為的防范應(yīng)是重中之重.除傳統(tǒng)的欠流法、欠壓法之外,AMI下又催生惡意攻擊通信系統(tǒng),篡改數(shù)據(jù)管理系統(tǒng)中電表測(cè)量值的情形,加大了竊電行為發(fā)掘的難度[17].
用戶用電采集系統(tǒng)采集的主要數(shù)據(jù)項(xiàng)有電能量數(shù)據(jù),交流模擬量、工況數(shù)據(jù)、電能質(zhì)量越限統(tǒng)計(jì)數(shù)據(jù)、事件記錄數(shù)據(jù)以及費(fèi)控信息等數(shù)據(jù)[18],目前供電企業(yè)對(duì)以上數(shù)據(jù)的分析限于統(tǒng)計(jì),大量數(shù)據(jù)隱含的信息被浪費(fèi).因此需要提出AMI下針對(duì)專變用戶的更精細(xì)的特征提取方法.用戶用電采集系統(tǒng)所獲取的數(shù)據(jù)在時(shí)間序列上呈現(xiàn)出高維度的特點(diǎn).首先對(duì)96點(diǎn)電參量數(shù)據(jù)采取降維處理后,構(gòu)建異常用電特征集合U.集合U由用電不平衡特征、電壓異常特征、電流異常特征3個(gè)子集構(gòu)成.
用戶在正常用電行為時(shí)呈現(xiàn)出三相用電平衡的特征,電表讀取的電壓數(shù)據(jù)在額定值的上下有輕微的浮動(dòng),電流的不平衡也在數(shù)值0附近波動(dòng).三相用電的專變用戶出現(xiàn)的竊電行為能夠從電壓和電流不平衡率的偏移中體現(xiàn)出來.按照下式分別定義高供高計(jì)、高供低計(jì)專變用戶電壓、電流不平衡:
其中:Ui.n表示i相在時(shí)刻n的電壓采集數(shù)值,xV.n表示時(shí)刻n的電壓不平衡度,Ii.n為i相在時(shí)刻n的電流采集數(shù)值,xI.n表示時(shí)刻n的電流不平衡度.
建立用電不平衡特征矩陣Xn表征用戶在時(shí)刻n的用電不平衡度.
其中,XV=(xV.1,xV.2,…,xV.n),XI=(xI.1,xI.2,…,xI.n).
對(duì)二維空間中用電不平衡特征矩陣Xn所構(gòu)成的樣本點(diǎn)進(jìn)行離群點(diǎn)分析.局部離群因子(local outlier factor,LOF)檢測(cè)算法是一種基于密度的無監(jiān)督離群點(diǎn)檢測(cè)算法,對(duì)離群點(diǎn)有較高的靈敏性.離群點(diǎn)指的是在樣本空間中與其他數(shù)據(jù)特征顯著不一致的數(shù)據(jù).雖然這些數(shù)據(jù)總量較少,但包含著大量研究者需要重點(diǎn)研究的信息.離群點(diǎn)挖掘?qū)⒂行У刈R(shí)別出數(shù)據(jù)集中的異常數(shù)據(jù)并從中挖掘出有意義的潛在信息作為目標(biāo),使它適用于用戶用電行為分析[19].若用戶的用電行為正常,則用電不平衡特征矩陣每一行所對(duì)應(yīng)的二維觀測(cè)點(diǎn)在樣本空間中應(yīng)是密集的簇,不應(yīng)存在顯著偏離簇的觀測(cè)點(diǎn),此時(shí)的局部離群因子即LOF值接近1;當(dāng)異常用電發(fā)生時(shí)電壓和電流的不平衡度會(huì)產(chǎn)生較大偏移,LOF值非常大,進(jìn)而形成離群點(diǎn).
離群點(diǎn)檢測(cè)步驟如下[20]:
Step1:定義各觀測(cè)點(diǎn)與距其第k個(gè)最近的觀測(cè)點(diǎn)的距離為第K距離Kdist(p);
Step2:計(jì)算各觀測(cè)點(diǎn)的第k距離鄰域Nk(p)={q∈N/{p}|dist(p,q)≤Kdist(p)|},其中,dist(p,q)表示數(shù)據(jù)中第p個(gè)觀測(cè)點(diǎn)與第q個(gè)觀測(cè)點(diǎn)之間的距離;
Step3:計(jì)算各觀測(cè)點(diǎn)的局部可達(dá)距離Dreach(p,q)=max{Kdist(p)dist(p,q)};
Step4:計(jì)算各觀測(cè)點(diǎn)的局部可達(dá)密度lrdk(p):
其中:o表示被計(jì)算的第k距離鄰域Nk(p)中任意觀測(cè)點(diǎn);
Step5:定義各對(duì)象的局部異常因子LOFk(p)
經(jīng)過離群點(diǎn)分析后,n時(shí)刻數(shù)據(jù)計(jì)算所得局部異常因子LOFk(p)記為xn,形成關(guān)于時(shí)間的用電不平衡特征序列X=(x1,x2,…,xn).
電壓異常表現(xiàn)為在某時(shí)刻電壓記錄值偏移額定值或趨于零,電壓數(shù)值異常降低通常能夠判斷存在竊電行為發(fā)生.定義電壓異常特征序列反映用戶用電過程中的電壓偏移額定值的用電行為.
用戶電能計(jì)量裝置的失壓記錄可能存在兩種情況,計(jì)量回路斷開或供電異常.目前國內(nèi)各地供電可靠性逐步提高,用戶平均停電時(shí)間4~5 h[21],因此設(shè)置失壓持續(xù)時(shí)間剔除無計(jì)劃停電所造成的失壓記錄,避免因短時(shí)停電事故造成的技術(shù)性損失重復(fù)報(bào)警.采取4 h作為失壓持續(xù)時(shí)間的評(píng)判標(biāo)準(zhǔn).失壓持續(xù)時(shí)間在4 h以內(nèi)記為暫時(shí)的供電異常,不記錄為電壓異常.電壓異常特征序列生成過程如圖1所示.
其中電壓異常特征序列表示為n維向量Y=(y1,y2,y3,…,yn).未失壓時(shí)由式(6)分別定義高供低計(jì)、高供高計(jì)用戶用電壓采集數(shù)值與額定電壓的偏移程度.
圖1 電壓異常特征序列生成流程
由電能計(jì)算公式W=U·I·cosφ·t可知,在功率因數(shù)cosφ和電壓U較為恒定的情況下,改變電流I的計(jì)量能夠達(dá)到用戶竊電的目的,即減少電費(fèi)的計(jì)量.非法用戶可能會(huì)將某時(shí)段內(nèi)的電流計(jì)量修改為0,或?qū)㈦娏髑€進(jìn)行移峰,使用電曲線的峰值轉(zhuǎn)移到低電價(jià)時(shí)段[15].而對(duì)專變用戶來說,每日電力負(fù)荷曲線是相似的,這就決定了正常用電用戶的每日電流曲線也同樣具有相似性.如圖2所示的某專變用戶的日電流曲線集合,能夠看出每日A相電流曲線的波動(dòng)有較大的相似性.
圖2 某專變用戶電流曲線
若電流曲線相較于前幾日電流曲線的聚類中心有較大波動(dòng),則可能發(fā)生異常用電行為.
計(jì)算電流異常特征序列步驟如下:
Step1:選取A相電流作為參考,計(jì)算前10日電流記錄值聚類中心(本文中按照均值計(jì)算),得到聚類中心曲線.其中時(shí)刻t對(duì)應(yīng)的聚類中心取值mean(IA.t)=∑d=(0,1,2,…,10)IA.d.t.其中IA.d.t表示前d日t時(shí)刻的A相電流記錄值;
Step2:計(jì)算每日時(shí)刻t的電流記錄值與前10日電流聚類中心曲線時(shí)刻t的距離zD.t=|mean(IA.t)-IA.D.t|;
Step3:生成電流異常特征序列Z=(zD.t)=(z1,z2,…,zn).其中,n=24D+t,序列Z表示將每日zD.t按照時(shí)刻排序所得到的序列.
本文采用專變用戶電流電壓曲線數(shù)據(jù)作為挖掘樣本.根據(jù)專變用戶的用電特征和常見的竊電手法提出了一種基于用電特征分析的無監(jiān)督異常用電檢測(cè)方法.引入離群點(diǎn)分析算法,將采集數(shù)據(jù)進(jìn)行特征提取,凝練出用電特征序列,隨后對(duì)其進(jìn)行特征分析,得到異常指數(shù)序列,將用電行為的異常程度進(jìn)行量化并通過所提出的異常用電評(píng)價(jià)流程在持續(xù)時(shí)間上作出劃分以減少誤報(bào)的可能性.異常用電檢測(cè)方法總體設(shè)計(jì)如圖3所示.
圖3 異常用電檢測(cè)方法總體設(shè)計(jì)
第2節(jié)基于電參量構(gòu)建了用電特征以表征用電異常程度,但無法從某個(gè)單一的特征做出判別.因此本文建立異常用電評(píng)價(jià)指標(biāo)綜合量化用戶在時(shí)間序列上的用電異常程度,為異常用電的判別提供依據(jù).
對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,以消除量綱對(duì)計(jì)算結(jié)果的影響.由公式(6)容易看出yn∈[0,1],因此電壓異常特征序列Y=(y1,y2,y3,…,yn)所有取值都在[0,1]之間,不需要采取歸一化這一步驟.將用電不平衡特征序列X=(x1,x2,x3,…,xn)、電流異常特征序列Z=(z1,z2,z3,…,zn)進(jìn)行歸一化處理.轉(zhuǎn)換結(jié)果如下:
轉(zhuǎn)換函數(shù)為
定義異常用電評(píng)價(jià)指標(biāo)
得到異常指數(shù)序列
以10日作為一個(gè)檢測(cè)周期進(jìn)行計(jì)算,將序列T=(t1,t2,…,t240)中的成分進(jìn)行排序,輸出序列T中的前p%數(shù)值作為閾值T1,排序中前q%數(shù)值作為閾值T2,返回?cái)?shù)據(jù)集查找用戶的異常用電時(shí)刻.此處p、q取值可參考臺(tái)區(qū)以往竊電率.查找異常用電時(shí)刻流程如圖4所示.
圖4 異常用電評(píng)價(jià)流程
由于竊電行為通常持續(xù)數(shù)小時(shí)[22],因此檢測(cè)過程中將異常用電評(píng)價(jià)指標(biāo)持續(xù)5 h超過閾值T1判斷為持續(xù)異常用電行為,此時(shí)的用電行為容易指向竊電的發(fā)生.異常用電評(píng)價(jià)指標(biāo)超過閾值T2,判斷為暫時(shí)異常用電行為,有較大的可能為采集異?;蚴枪╇姰惓?此方法能夠剔除因閾值設(shè)置造成評(píng)價(jià)指標(biāo)靠前的正常用電用戶和技術(shù)性損失造成的異常用電記錄,減少誤報(bào)發(fā)生的可能性.
根據(jù)電力公司實(shí)際采集的數(shù)據(jù),基于高斯分布生成大規(guī)模模擬數(shù)據(jù),驗(yàn)證所提出檢測(cè)方法的可行性.模擬數(shù)據(jù)集中添加異常數(shù)據(jù),共446400條.其中異常數(shù)據(jù)占比2.68%.根據(jù)模擬數(shù)據(jù)集規(guī)模對(duì)參數(shù)k、p、q進(jìn)行選取.此次實(shí)驗(yàn)中選取k=20,p=5,q=2時(shí)能達(dá)到較好的分類效果.根據(jù)典型竊電電參量曲線構(gòu)建異常樣本,其中包括:(a)電壓不平衡;(b)電流不平衡;(c)電流異常降低;(d)電流曲線移峰;(e)電壓異常降低及供電異常.各類異常數(shù)據(jù)部分電參量曲線如圖5所示.
圖5 各類異常數(shù)據(jù)曲線
異常用電檢測(cè)過程的實(shí)質(zhì)是二元分類問題,所有樣本將被劃分為正類(異常數(shù)據(jù))或負(fù)類(正常數(shù)據(jù)),當(dāng)檢測(cè)樣本中的正、負(fù)類樣本分布極端不均衡時(shí),直接使用檢測(cè)結(jié)果的正確率衡量其檢測(cè)效果將失去意義.因此為了檢驗(yàn)檢測(cè)方法的可行性,用二元分類問題評(píng)判標(biāo)準(zhǔn)混淆矩陣及相關(guān)參數(shù)評(píng)判檢測(cè)方法的可行性.異常用電檢測(cè)結(jié)果組成的混淆矩陣見表1.
表1 異常用電檢測(cè)結(jié)果
從表中能夠得到本文所提出的異常用電檢測(cè)方法針對(duì)大規(guī)模數(shù)據(jù)的查準(zhǔn)率達(dá)到0.80,召回率為0.81.其中,查準(zhǔn)率為被正確分類的樣本與總樣本的比值,召回率為被正確分類樣本與真實(shí)正類樣本的比值.查準(zhǔn)率和召回率的調(diào)和平均值F1值達(dá)到0.81,檢測(cè)方法的分類效果良好.
本文采用的數(shù)據(jù)集為某市級(jí)供電公司智能電表采集的經(jīng)脫敏處理含有竊電用戶的50戶專變用戶電壓、電流數(shù)據(jù).將正常用電時(shí)刻標(biāo)記為0,暫時(shí)異常時(shí)刻標(biāo)記為1,持續(xù)異常標(biāo)記為2.部分驗(yàn)證結(jié)果見表2.
表2 異常用電指數(shù)及判別結(jié)果
計(jì)算結(jié)果與真實(shí)情況基本相符.值得注意的是在挖掘過程中,異常用電行為首先會(huì)被判定為暫時(shí)異常用電行為,當(dāng)異常用電時(shí)間超過設(shè)定的持續(xù)時(shí)間閾值后將被判定為持續(xù)異常用電行為.稽查人員能夠通過異常種類和發(fā)生頻率判斷異常用電發(fā)生時(shí)刻.當(dāng)異常用電行為經(jīng)常發(fā)生時(shí),可以判斷用戶發(fā)生了竊電行為,需要工作人員實(shí)施現(xiàn)場勘查.在實(shí)際應(yīng)用中,此檢測(cè)方法能夠?yàn)楸O(jiān)控人員追蹤竊電行為提供有力參考.
本文提出了基于用電特征分析的無監(jiān)督方式異常用電檢測(cè)方法,解決了竊電檢測(cè)需要大規(guī)模訓(xùn)練集的問題.通過用戶用電信息采集系統(tǒng)采集的電參量曲線,引入離群點(diǎn)檢測(cè)算法設(shè)計(jì)用電特征提取手段,量化用電異常.建立異常用電評(píng)價(jià)指標(biāo),對(duì)用電過程中的用電異常情況進(jìn)行分類,以異常持續(xù)時(shí)間進(jìn)行劃分,得出更加精準(zhǔn)的分析結(jié)果.該方法不存在迭代的過程,計(jì)算量較小,能有效檢測(cè)出高用電量專變用戶持續(xù)性的異常用電行為.通過模擬數(shù)據(jù)的分析和算例的驗(yàn)證,證明了本方法對(duì)于異常用電行為檢測(cè)的有效性.檢測(cè)方法仍需要進(jìn)行完善,后續(xù)將研究應(yīng)對(duì)電力公司多渠道來源、多數(shù)據(jù)種類海量數(shù)據(jù),將異常用電檢測(cè)方法運(yùn)用到反竊電系統(tǒng)研究中,進(jìn)一步提高對(duì)異常用電檢測(cè)的準(zhǔn)確性以滿足企業(yè)及時(shí)精準(zhǔn)探查竊電行為的需求.