黃 根,徐愛蓉,孫成剛,李建寧
(國網(wǎng)上海市電力公司青浦供電公司,上海 201799)
近年來,我國工商業(yè)發(fā)展迅速,城市化水平不斷提高,人們的工作生活與社會(huì)生產(chǎn)均離不開電能,于是電力用戶量迅速擴(kuò)大。隨著能源互聯(lián)網(wǎng)的推進(jìn)發(fā)展,電網(wǎng)公司的信息化程度越來越高,用電側(cè)電量數(shù)據(jù)相當(dāng)龐大。因此,電力企業(yè)需要不斷提高工作效率和管理效能,才能更好地為廣大電力用戶提供更優(yōu)質(zhì)的服務(wù)。
在電力企業(yè)自身的不斷發(fā)展中,仍然存在某些不足之處,例如電力用戶電量數(shù)據(jù)異常問題沒有得到有效解決。若不及時(shí)處理用戶電量數(shù)據(jù)異常情況,可能會(huì)給供電企業(yè)或電力用戶帶來一些不必要的經(jīng)濟(jì)損失。因此,如何從龐大的電力企業(yè)電量數(shù)據(jù)中高效、準(zhǔn)確地檢測(cè)出異常用電數(shù)據(jù),以供電力企業(yè)工作人員分析決策、作出處理,對(duì)提高供電服務(wù)水平和經(jīng)濟(jì)效益,同時(shí)促進(jìn)企業(yè)的發(fā)展與進(jìn)步,有著相當(dāng)重要的意義。為了及時(shí)有效地獲取電力數(shù)據(jù)信息,監(jiān)測(cè)電力企業(yè)的用電情況,檢測(cè)出異常數(shù)據(jù),需要設(shè)計(jì)一種準(zhǔn)確率較高的異常用電檢測(cè)算法。
文獻(xiàn)[1]通過分析典型異常電力數(shù)據(jù)提出了一種以用戶相似性檢索為核心的檢測(cè)模型,在相似度矩陣中,利用簇中心的電力用戶,提取出有疑似異常用電的竊電用戶,并驗(yàn)證了該方法的有效性與可行性。文獻(xiàn)[2]針對(duì)電力異常行為建立了一個(gè)大的數(shù)據(jù)庫,通過標(biāo)記好的數(shù)據(jù)集與異常電力信息,實(shí)現(xiàn)了較低維度數(shù)據(jù)的監(jiān)測(cè),在最大互信息系數(shù)的基礎(chǔ)上,以快速聚類算法,提出了較強(qiáng)的正相關(guān)密度峰值,并測(cè)試了多種類型異常檢測(cè)行為的有效性。文獻(xiàn)[3]針對(duì)現(xiàn)有的異常電力數(shù)據(jù),通過概率預(yù)測(cè)算法,提出了基于離線預(yù)測(cè)模型的異常識(shí)別方法,采用貝葉斯推斷模型,結(jié)合電力實(shí)測(cè)數(shù)據(jù)與電力預(yù)測(cè)數(shù)據(jù)的相關(guān)性,設(shè)計(jì)了相應(yīng)的檢測(cè)方法,并驗(yàn)證了該方法的實(shí)用性和有效性。本文在此基礎(chǔ)上,為提高異常數(shù)據(jù)的檢測(cè)精度,設(shè)計(jì)一種基于STM32 的異常用電行為檢測(cè)算法。
在STM32 的主控電路中,可以獲取數(shù)據(jù)采集的外圍電路,并得到更準(zhǔn)確的電力企業(yè)異常用電數(shù)據(jù)。電力用戶之間數(shù)據(jù)行為的不同,會(huì)直接導(dǎo)致符合序列的周期和閾值出現(xiàn)較大變化,且氣候冷暖的改變、節(jié)日假期等時(shí)段與正常情況下的用電單位也存在不同之處[4]。此時(shí)的電力負(fù)荷內(nèi)會(huì)有大量的無用噪聲,不但會(huì)無意義地增加電力數(shù)據(jù)的總量,還會(huì)導(dǎo)致原始時(shí)間序列的異常數(shù)據(jù)檢測(cè)與識(shí)別出現(xiàn)錯(cuò)誤或遺漏,因此對(duì)電力數(shù)據(jù)進(jìn)行預(yù)處理,建立負(fù)荷數(shù)據(jù)的特征空間,減少維度異常,提取特征數(shù)據(jù),是電力異常數(shù)據(jù)檢測(cè)過程中的必要程序。首先需要清洗電力負(fù)荷數(shù)據(jù),補(bǔ)全數(shù)據(jù)中缺失的部分,若不能補(bǔ)全,則需要將其清除,以減少大數(shù)據(jù)的總量。電力負(fù)荷數(shù)據(jù)的結(jié)構(gòu)字段如表1 所示。
表1 電力負(fù)荷數(shù)據(jù)結(jié)構(gòu)字段
依據(jù)表1 所示的結(jié)構(gòu)字段重新整理電力數(shù)據(jù)后,可解決大部分的用戶數(shù)據(jù)缺失問題,此時(shí)就可以對(duì)異常值進(jìn)行處理。當(dāng)電能表檢修或更新時(shí),所有的電力數(shù)據(jù)均會(huì)從頭開始,如果此時(shí)的電力數(shù)據(jù)沒有被及時(shí)記錄,或者中間存在時(shí)間差,導(dǎo)致電力記錄失效,就會(huì)出現(xiàn)電力數(shù)據(jù)異?,F(xiàn)象[5-7]。在引入大量噪聲后,補(bǔ)全數(shù)據(jù)的缺失值,并將觀察到的變量全部填充成均值形式,計(jì)算公式如下:
式中pd——某缺失時(shí)段的用電量均值;da——缺失時(shí)段之前的電表示數(shù);db——缺失時(shí)段之后的電表示數(shù);Nt——電力數(shù)據(jù)缺失的時(shí)間總數(shù)[8]。
依據(jù)式(1)填寫電力企業(yè)所缺失的用電數(shù)據(jù),對(duì)完整的負(fù)荷序列進(jìn)行特征提取,此時(shí)用戶電量的均值為
式中Wm——用戶電表中通過提取得到的電力數(shù)據(jù);xi——某一周期內(nèi)的特征提取數(shù)值;ni——日用電量的表示數(shù)[9-10]。
通過以上方法得到完整的電力企業(yè)用電數(shù)據(jù),以此進(jìn)行后續(xù)的異常用電檢測(cè)。
通過電力數(shù)據(jù)所能得到的用電異常情況,可以分為線損異常、交流電壓異常、交流電流異常等多種類型。
(1)線損異常主要是電能在通過銅導(dǎo)線時(shí)由于電阻導(dǎo)致的損耗。普通電路的線損電量計(jì)算公式為
式中Wxs——某片電力設(shè)備中,由銅導(dǎo)線導(dǎo)致的線損電量;Wg和Ws——電力企業(yè)的供電量與經(jīng)過損耗后所得到的售電量[11-12]。
線損電量與供電量之比需要在理論上不高于一定值,即線損率,若線損率超出一定值,則表明電力數(shù)據(jù)異常。通常,線損率可分為兩類:理論線損率和統(tǒng)計(jì)線損率。理論線損率的計(jì)算公式為
式中Pxs——某長(zhǎng)度銅制導(dǎo)線下的理論線損率。
統(tǒng)計(jì)線損率的計(jì)算公式為
式中Ptj——統(tǒng)計(jì)線損率。
(2)在該電力數(shù)據(jù)異常檢測(cè)的約束條件內(nèi),依據(jù)組合事件可以判定電表開蓋的記錄參數(shù)。通過交流電壓的異常判定值可以得到電壓不平衡度以及測(cè)量時(shí)間的取值要求[13-14]。每隔3 s 可以獲取一次電力數(shù)據(jù)的離散采樣值,計(jì)算公式如下:
式中km——測(cè)量?jī)x器的電壓不平衡度離散采樣數(shù)值;kf——某一時(shí)間周期內(nèi)的采樣值;mn——該時(shí)間周期內(nèi)的采樣次數(shù)。
此時(shí)可以依據(jù)離散采樣值,獲取電壓不平衡度的近似方程式:
式中Sp和Sl——線電壓與線短路容量。
(3)交流電流異??梢砸罁?jù)功率參數(shù)的不同而確定,正常電力數(shù)據(jù)閾值一般不會(huì)低于0.85,但是當(dāng)用戶的用電數(shù)據(jù)異常時(shí),就可直接得到電流不平衡度的計(jì)算公式:
式中Ec——電流不平衡度;Imax和Imin——一段時(shí)間內(nèi)的電流最大值與電流最小值[15]。
結(jié)合三類電力數(shù)據(jù)的異常情況,可以通過電力數(shù)據(jù)獲取電力企業(yè)異常用電的分類模型。
前面已對(duì)電力企業(yè)的數(shù)據(jù)進(jìn)行預(yù)處理,補(bǔ)全了不完整的數(shù)據(jù)結(jié)構(gòu),然后通過這些電力數(shù)據(jù)建立了異常分類模型。在該模型中,可以通過歷史用電數(shù)據(jù)設(shè)計(jì)電力企業(yè)的異常用電行為檢測(cè)算法,如圖1 所示。
圖1 算法流程
結(jié)合圖1 中的算法流程,首先需對(duì)電力數(shù)據(jù)進(jìn)行預(yù)處理,并選擇用電數(shù)據(jù)集,主要包括當(dāng)前數(shù)據(jù)集和歷史數(shù)據(jù)集[16]。然后通過二者共同評(píng)估電力異常曲線,若異常曲線達(dá)到檢測(cè)閾值,則可以得到異常用電結(jié)果,否則為正常用電結(jié)果。此時(shí)的檢測(cè)算法,即為本文提出的基于STM32 的異常用電行為檢測(cè)算法。
選取Centos7 操作系統(tǒng),使用Python 進(jìn)行數(shù)據(jù)軟件編寫。在更新系統(tǒng)參數(shù)時(shí)使用Adam 算法,并利用TCN 算法進(jìn)行用戶的用電行為異常檢測(cè)。劃分測(cè)試集與驗(yàn)證集,作為試驗(yàn)數(shù)據(jù)集的基礎(chǔ)分類,并通過測(cè)試集進(jìn)行模型超參數(shù)的驗(yàn)證,設(shè)定本試驗(yàn)內(nèi)最長(zhǎng)步數(shù)為1 000。
試驗(yàn)使用STM32 數(shù)據(jù)采集裝置對(duì)上海某區(qū)域?qū)嶋H500 名電力用戶進(jìn)行用電數(shù)據(jù)采集,并建立一個(gè)用電異常數(shù)據(jù)集。該數(shù)據(jù)集中的數(shù)據(jù)存在大量的缺失現(xiàn)象,需要提前進(jìn)行數(shù)據(jù)的預(yù)處理,提取特征數(shù)據(jù),依據(jù)電力負(fù)荷數(shù)據(jù)結(jié)構(gòu),篩選其中能夠被使用的數(shù)據(jù),并對(duì)其進(jìn)行編號(hào)處理。數(shù)據(jù)集的原始樣本共有63 541 條,經(jīng)過重新整理后的可用數(shù)據(jù)則只剩下10 356 條。將預(yù)處理后的數(shù)據(jù)隨機(jī)選擇其中約20%作為測(cè)試集,將剩余約80%作為驗(yàn)證集。為了保證不平衡數(shù)據(jù)集的完整性,可以將其對(duì)模型的影響加入到隨機(jī)欠采樣處理中,并與其他幾種常用的檢測(cè)方法進(jìn)行對(duì)比測(cè)試。經(jīng)過前期處理后,獲取幾個(gè)帶有標(biāo)簽的訓(xùn)練集,各公共數(shù)據(jù)集的詳細(xì)情況如表2 所示。
表2 公共數(shù)據(jù)集樣本情況
如表2 所示,通過以上訓(xùn)練集中的數(shù)據(jù)隨機(jī)生成A,B,C,D,E 5 個(gè)數(shù)據(jù)集,其中均含有正常樣本與異常樣本。
絕對(duì)誤差可以以相對(duì)簡(jiǎn)單的數(shù)據(jù)評(píng)估一個(gè)模型的檢測(cè)能力。在電力企業(yè)異常用電行為檢測(cè)過程中,可以先使用絕對(duì)誤差,對(duì)幾種電力企業(yè)異常用電行為檢測(cè)方法的精度進(jìn)行測(cè)試。
絕對(duì)誤差的計(jì)算公式如下:
式中fae——模型內(nèi)數(shù)據(jù)的絕對(duì)誤差;f′m——預(yù)測(cè)的電力企業(yè)用電量;fm——電力企業(yè)的實(shí)際用電量。
使用式(9),可得到本文方法、相似性檢索方法、相關(guān)性與聚類自適應(yīng)融合技術(shù)、概率預(yù)測(cè)方法這4 種檢測(cè)方法的絕對(duì)誤差曲線,如圖2 所示。
圖2 不同模型預(yù)測(cè)絕對(duì)誤差曲線對(duì)比
在圖2 中有4 條曲線,分別代表0~100 數(shù)據(jù)點(diǎn)內(nèi)4 種不同的異常用電檢測(cè)算法對(duì)電力企業(yè)用電數(shù)據(jù)的模型預(yù)測(cè)絕對(duì)誤差。通過對(duì)比可以明顯地看出,本文提出的基于STM32 檢測(cè)方法,其絕對(duì)誤差基本沒有超出0.2 kWh,而其他3 種方法的絕對(duì)誤差均大于本文方法的相應(yīng)值。因此,相較于另外3 種常用的檢測(cè)方法,基于STM32 的檢測(cè)算法得到的用電量預(yù)測(cè)曲線波動(dòng)較小,并且誤差也是同等數(shù)據(jù)點(diǎn)下的最低值。這表明本文算法在幾種方法中在檢測(cè)精度上更具優(yōu)越性。
使用經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行聚類處理,在分層最近鄰欠采樣的運(yùn)算中,可以通過部分?jǐn)?shù)據(jù)直接運(yùn)算。測(cè)試中,設(shè)置決策樹的數(shù)量為10,在數(shù)據(jù)集中隨機(jī)采樣30 次,然后獲取訓(xùn)練集在決策樹中的訓(xùn)練結(jié)果,得到算法模型。通過接受者操作特征(ROC)曲線評(píng)價(jià)異常檢測(cè)結(jié)果,該曲線的量化方法如下:
式中DROC(AUC)——不同分類器中ROC曲線下與坐標(biāo)軸圍成的面積,DROC(AUC)值越接近1,表示算法的檢測(cè)結(jié)果越好;n-和n+——樣本在少數(shù)類和多數(shù)類中的數(shù)量,一般情況下,n+的數(shù)量均大于n-,即可以在算法中任意實(shí)現(xiàn)公式
分別使用不同的聚類簇?cái)?shù)作為正常樣本下的聚類參數(shù),在不同的樣本點(diǎn)下,獲取電力數(shù)據(jù)在異常檢測(cè)中的ROC 曲線下與坐標(biāo)軸圍成的面積,對(duì)比4 種不同的算法,得到的結(jié)果如圖3 所示。
圖3 異常用電檢測(cè)結(jié)果AUC 值
使用表2 中的數(shù)據(jù)集作為檢測(cè)算法的數(shù)據(jù)來源,分別在不同的聚類簇?cái)?shù)下,測(cè)試異常用電的檢測(cè)效果。通過圖3 可以看出,聚類簇?cái)?shù)k=5 時(shí)的DROC(AUC)值,明顯小于聚類簇?cái)?shù)k=20 或者k=50時(shí)的DROC(AUC)值,可見聚類簇?cái)?shù)越大,對(duì)異常用電的檢測(cè)效果越好。同時(shí),對(duì)比4 種不同的檢測(cè)算法,在相同的數(shù)據(jù)集中,本文提出的基于STM32的異常用電檢測(cè)算法DROC(AUC)值明顯高于其他3種算法,表明本文算法的檢測(cè)效果更好。
通過上海某區(qū)域電力用戶用電數(shù)據(jù)實(shí)例證明了所提出算法的可行性。結(jié)合圖2 所得到的模型預(yù)測(cè)絕對(duì)誤差曲線對(duì)比結(jié)果和圖3 所得到的異常用電檢測(cè)結(jié)果,驗(yàn)證了本文算法在實(shí)際用電數(shù)據(jù)的檢測(cè)環(huán)境中較其他幾種常用算法具有更高的檢測(cè)精度和準(zhǔn)確率,能夠更好地檢測(cè)出電力企業(yè)的異常用電情況。
本文提出了一種基于STM32 的異常用電行為檢測(cè)算法。首先對(duì)電力用戶初始數(shù)據(jù)進(jìn)行了預(yù)處理,獲取了完整的電力數(shù)據(jù),然后將所有電力數(shù)據(jù)分級(jí)分區(qū)處理,建立異常電力數(shù)據(jù)分類模型,并提出了相應(yīng)的異常用電檢測(cè)算法。
通過模型預(yù)測(cè)絕對(duì)誤差曲線評(píng)價(jià)異常用電檢測(cè)精度,ROC 曲線評(píng)價(jià)異常用電檢測(cè)準(zhǔn)確度,分別在不同的聚類簇?cái)?shù)下不同檢測(cè)方法的DROC(AUC)值。試驗(yàn)結(jié)果表明,本文所提出的算法在相同條件下得到的檢測(cè)效果更好,準(zhǔn)確度更高,為電力企業(yè)針對(duì)異常用電行為的分析與決策提供了新思路。