国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于AMI數(shù)據(jù)驅(qū)動的竊電用戶識別研究

2022-12-11 02:37劉文浩馮玥姜東良
制造業(yè)自動化 2022年11期
關(guān)鍵詞:頻域用電負(fù)荷

劉文浩,馮玥,姜東良

(1.遼寧工程技術(shù)大學(xué) 電氣與控制工程學(xué)院,葫蘆島 125105;2.國網(wǎng)冀北電力有限公司遷西縣供電分公司,唐山 064300;3.遼寧工程技術(shù)大學(xué) 軟件學(xué)院,葫蘆島 125105)

0 引言

電已經(jīng)成為我們生活中的必需品。電能損失可分為技術(shù)損失和非技術(shù)損失[1],通常發(fā)生在發(fā)電、輸電和配電過程中。主要的非技術(shù)損失之一是竊電。這種不當(dāng)行為通常包括繞過電表、篡改電表讀數(shù)或破壞電表等[2]。在發(fā)達(dá)國家,如美國每年因竊電損失約60億美元[3]。對于發(fā)展中經(jīng)濟(jì)體來說,損失的后果要糟糕得多。印度每年因竊電損失170億美元[4]。其他發(fā)展中國家損失了近50%的電力收入[5]。除了會給電力公司造成巨額收入損失外,竊電也會導(dǎo)致電力需求激增、電力系統(tǒng)負(fù)荷過重、以及對公共安全的危害(如火災(zāi)和電擊)。

目前,有大量關(guān)于檢測竊電的研究。傳統(tǒng)的竊電檢測方法包括[6]:人工檢查有問題的電表安裝或錯誤配置,將異常電表讀數(shù)與正常電表讀數(shù)進(jìn)行比較,以及檢查旁路輸電線路等。然而,這些方法極其耗時、昂貴且效率低下。智能電網(wǎng)的出現(xiàn)為解決竊電帶來了機(jī)遇。隨著高級計(jì)量設(shè)施(AMI)的大量安裝,用戶的用電大數(shù)據(jù)的收集變成了可能。相比于傳統(tǒng)的竊電檢測方法,數(shù)據(jù)驅(qū)動方法是更具吸引力的,因?yàn)橹悄茈姳硖峁┝素S富的能耗數(shù)據(jù),成本低并且能提供良好的檢測率。

文獻(xiàn)[5~10]使用開源的愛爾蘭能源數(shù)據(jù)集[11]對用戶竊電檢測問題進(jìn)行了大量研究。但愛爾蘭數(shù)據(jù)集中所有的用戶都被認(rèn)為是誠實(shí)用戶,需自定義生成竊電用戶的數(shù)據(jù)。自定義竊電用戶數(shù)據(jù)與真實(shí)竊電用戶數(shù)據(jù)之間相似性不能保證完全。文獻(xiàn)[12]公布出帶真實(shí)竊電標(biāo)簽的用戶用電數(shù)據(jù)集,針對竊電用戶和誠實(shí)用戶每周和每月用電規(guī)律的差異性,從周用電消費(fèi)趨勢和月用電消費(fèi)趨勢兩個維度提取特征,搭建卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行竊電檢測,給出了80%的AUC值。但此方法中數(shù)據(jù)預(yù)處理不夠充分,對連續(xù)缺失值的插補(bǔ)過多,并且僅考慮不同類型用戶自身的用電規(guī)律,缺乏不同用戶用電數(shù)據(jù)的直接對比。

考慮到誠實(shí)用戶與竊電用戶用電數(shù)據(jù)的差異是多樣的。我們對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行嚴(yán)格預(yù)處理。通過分析不同類型用戶用電數(shù)據(jù)數(shù)值和消費(fèi)趨勢方面的差異性,尋找其它可用于有效分類的特征,并搭配監(jiān)督學(xué)習(xí)方法進(jìn)行試驗(yàn)。

由于時頻域參數(shù)在故障分類方面有非常多成功的經(jīng)驗(yàn)[13,14]。為此,我們對用戶時頻域參數(shù)在竊電分類中的研究也做了初步探索,并給出分類結(jié)果。試驗(yàn)流程圖如圖1所示。

圖1 竊電檢測流程圖

1 數(shù)據(jù)處理與分析

1.1 數(shù)據(jù)預(yù)處理

源數(shù)據(jù)集[15]由中國國家電網(wǎng)公司提供,包括42372個用戶2014年1月1日至2016年10月31日連續(xù)1034天的日用電負(fù)荷。其中,有3615個用戶被標(biāo)記為竊電用戶,其余則為誠實(shí)用戶,且數(shù)據(jù)中包含大量的缺失值。為此,使用Python語言軟件的msno模塊繪制數(shù)據(jù)分布矩陣,發(fā)現(xiàn)2016年1月1日之前的數(shù)據(jù)情況存在嚴(yán)重缺失。為保證數(shù)據(jù)可靠性,我們截取2016年1月1日至2016年10月31日連續(xù)304天的的數(shù)據(jù),并將其中連續(xù)缺失數(shù)據(jù)超過6天的用戶刪除,少量缺失值我們對其進(jìn)行前向插補(bǔ),最后預(yù)處理后的數(shù)據(jù)情況如表1所示。

表1 預(yù)處理后數(shù)據(jù)信息表

1.2 用戶用電行為分析

為證明所提模型的合理性,在建立模型之前,我們對表1中用戶進(jìn)行用電行為分析,繪制負(fù)荷圖如下。為保證分析數(shù)據(jù)的有效性,我們對誠實(shí)用戶和異常用戶進(jìn)行隨機(jī)抽取。

如圖2所示,我們隨機(jī)抽取誠實(shí)用戶與竊電用戶各三名,繪制出它們連續(xù)304天的用電數(shù)據(jù)曲線,從中我們可以看出總體上,大部分竊電用戶的日用電量是低于誠實(shí)用戶的,并且誠實(shí)用戶相比竊電用戶用電規(guī)律具有更強(qiáng)的波動性。此外,我們隨機(jī)挑選部分用戶繪制節(jié)假日和休息日的用電數(shù)據(jù)曲線,如圖3、圖4所示。從中我們可以觀測到節(jié)假日和休息日不同類型用戶的電量差是變化的,誠實(shí)用戶的用電波動性更強(qiáng)。除此之外,隨機(jī)抽取竊電用戶與誠實(shí)用戶各500名,繪制出時頻域參數(shù)中的無量綱值峭度與偏斜度對比圖,如圖5所示。

圖2 竊電用戶與誠實(shí)用戶用電負(fù)荷對比圖

圖3 節(jié)假日用電負(fù)荷對比圖

圖4 休息日用電負(fù)荷對比圖

圖5 部分時頻域特征對比圖

基于對比圖,利用經(jīng)驗(yàn)和直觀負(fù)荷圖從數(shù)據(jù)中提取特征是困難的。在對竊電用戶和誠實(shí)用戶的數(shù)據(jù)分析中,我們無法看出竊電用戶與誠實(shí)用戶之間用電規(guī)律明顯的不同。但考慮用電規(guī)律的波動性,我們將用戶每天的日用電總量作為特征,利用主成分分析(PCA)保留特征中絕大部分信息,進(jìn)行特征重構(gòu)繼而分類。此外,針對峭度等時頻域參數(shù)對比圖,我們也挑選了部分時頻域參數(shù)作為特征進(jìn)行分類。

1.3 數(shù)據(jù)集的平衡

如表1中竊電用戶與誠實(shí)用戶的數(shù)量分布情況。為解決數(shù)據(jù)類別嚴(yán)重不平衡的問題,在本文中,我們引入合成少數(shù)類過采樣技術(shù)(SMOTE)。SMOTE根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中[16]。原理如下,SMOTE對少數(shù)類中每一個樣本(x1,x2),以歐式距離為標(biāo)準(zhǔn)計(jì)算它與少數(shù)類樣本集中所有樣本的距離,得其k近鄰。根據(jù)不平衡比例設(shè)置采樣倍率N,由N從其k近鄰中隨機(jī)選擇若干樣本,假設(shè)選擇的近鄰為(x'1,x'2)。樣本點(diǎn)合成公式如式(1)所示:

其中Δ={(x'1-x1),(x'2-x2)},random(0,1)為0,1之間的隨機(jī)數(shù)。使用SMOTE后,正常用戶和盜竊用戶的數(shù)量幾乎相等。

2 特征提取與用戶分類

對竊電識別效果最好的PCA-RandomForest模型給出搭建原理和詳細(xì)過程,其他則在第3節(jié)中簡要介紹。

2.1 利用PCA進(jìn)行特征提取

在探索提議的檢測方法之前,簡要介紹主成分分析的基本原理[17]。主成分分析是一種統(tǒng)計(jì)分析方法,在空間上可以理解為保持源數(shù)據(jù)集中各樣本空間位置不變的情況下,構(gòu)建新坐標(biāo)系,使得各樣本在這個新的坐標(biāo)系上的投影具有最大的方差。這樣可以在盡可能保留源數(shù)據(jù)集信息的同時,降低給定高維數(shù)據(jù)的維數(shù)。

在我們的模型中,我們定義每個用戶為一個獨(dú)立的樣本,用戶每天的用電數(shù)據(jù)量為其用電特征。我們提取處理后的用戶用電數(shù)據(jù)(細(xì)節(jié)如表1所示)構(gòu)建特征矩陣。矩陣的每一行是一個樣本的特征向量,即矩陣中有m個樣本,每個樣本有n個特征值。降維之前我們對數(shù)據(jù)X進(jìn)行白化處理,保證數(shù)據(jù)各維度的方差為1,之后對數(shù)據(jù)集X應(yīng)用主成分分析進(jìn)行降維。

第一主成分如下所示:

同理,第二主成分被給出為:

同樣,我們計(jì)算出其他主成分,各主成分所保留信息占比如圖6所示,我們選擇前7個主成分,重新構(gòu)建特征矩陣p=[p1,p2,...,p7],這保存了源數(shù)據(jù)集99%的信息。

圖6 各主成分信息占比圖

2.2 利用隨機(jī)森林進(jìn)行分類

根據(jù)PCA重建數(shù)據(jù)的特點(diǎn),隨機(jī)森林算法用于分類。隨機(jī)森林算法由多個CART決策樹組成。構(gòu)建每棵決策樹前,首先對全部m個樣本進(jìn)行有放回的自助采樣,獲得與源數(shù)據(jù)集大小相同,但部分?jǐn)?shù)據(jù)點(diǎn)會缺失(大約三分之一)的數(shù)據(jù)集。接下來,基于新創(chuàng)建的數(shù)據(jù)集建立決策樹。與普通決策樹構(gòu)建不同,隨機(jī)森林中決策樹的構(gòu)建選擇在每個節(jié)點(diǎn)處,隨機(jī)選擇特征的一個子集,并對其中一個特征尋找最佳測試。特征子集中特征個數(shù)由最大特征數(shù)(max_features)參數(shù)來控制。由于使用了自助采樣,隨機(jī)森林中構(gòu)建每顆決策樹的數(shù)據(jù)集都略有不同。由于每個節(jié)點(diǎn)的特征選擇,每棵樹的劃分都是基于特征的不同子集。這共同保證隨機(jī)森林中所有樹都不相同。在分類過程中,采取軟投票(soft voting)策略。即每個算法做出“軟”預(yù)測,給出每個可能的輸出標(biāo)簽的概率。對所有樹的預(yù)測概率取平均值,然后將概率最大的類別作為預(yù)測結(jié)果。

隨機(jī)森林算法通過Python語言軟件平臺實(shí)現(xiàn),在實(shí)現(xiàn)過程中的一個關(guān)鍵參數(shù)是max_features,較小的max_features可以降低過擬合。我們對不同max_features進(jìn)行試驗(yàn),默認(rèn)的max_features=sqrt(n_features)給出了比較好的結(jié)果。

3 實(shí)驗(yàn)結(jié)果與討論

以(均值,方差,最小值,最大值,峭度,偏斜度,標(biāo)準(zhǔn)差)等七個時頻域參數(shù)為特征進(jìn)行分類的結(jié)果如表2所示。除此之外,PCA搭配監(jiān)督學(xué)習(xí)方法的分類結(jié)果也在表2中顯示作為對比。

表2 各方法準(zhǔn)確率對比表

為證明所提模型的穩(wěn)定性,隨機(jī)抽取源數(shù)據(jù)集不同比例樣本進(jìn)行分類。PCA-RandomForest(R%)指隨機(jī)抽取源數(shù)據(jù)集中R%的樣本,利用PCA-RandomForest模型進(jìn)行分類。結(jié)果如表3所示。

表3 不同比例源數(shù)據(jù)集準(zhǔn)確率對比表

PCA-RandomForest(100%)竊電檢測模型的混淆矩陣如圖7所示。從中可以看出該模型非常均衡,對竊電用戶的識別率達(dá)到84%左右,同時對誠實(shí)用戶的誤診率小于15%。由此證明不同類型用戶每天的日用電量也為竊電用戶和和誠實(shí)用戶的不同特征之一,對此特征進(jìn)行降維后進(jìn)行竊電用戶的識別是有效的。

圖7 混淆矩陣圖

4 結(jié)語

本文基于由中國國家電網(wǎng)公司(SGCC)提供的帶竊電用戶標(biāo)簽的真實(shí)數(shù)據(jù)集,對不同類型用戶用電數(shù)據(jù)進(jìn)行分析,建立以用戶所有日負(fù)荷總量為特征的PCARandomForest竊電檢測模型。該模型非常均衡。利用該模型超過84%的竊電用戶被識別,而誠實(shí)用戶的誤檢率小于15%,這表明日負(fù)荷值的差異性同樣是識別不同類型用戶的有效手段之一。占比源數(shù)據(jù)集60%~90%的對比實(shí)驗(yàn)證明了該模型的穩(wěn)定性。事實(shí)上,由PCA-RandomForest的原理,該模型可適用于很多場景,尤其是工業(yè)應(yīng)用。同時也可與其它模型共同作用,進(jìn)行異常對象的識別。除此之外,我們對峭度等時頻域參數(shù)在竊電檢測領(lǐng)域中的效果進(jìn)行了初步探索,給出對比結(jié)果,這也是我們正在嘗試的方向之一。

猜你喜歡
頻域用電負(fù)荷
3項(xiàng)標(biāo)準(zhǔn)中維持熱負(fù)荷要求對比分析
基于頻域的聲信號計(jì)權(quán)改進(jìn)算法
Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system
安全用電知識多
對輸配電及用電工程的自動化運(yùn)行的幾點(diǎn)思考
為生活用電加“保險(xiǎn)”
用電安全要注意
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計(jì)
網(wǎng)絡(luò)控制系統(tǒng)有限頻域故障檢測和容錯控制
主動降負(fù)荷才是正經(jīng)事
东城区| 墨竹工卡县| 潜山县| 平湖市| 青浦区| 宜兰县| 辽阳市| 都兰县| 祁东县| 涿州市| 通许县| 陆丰市| 盐边县| 华池县| 双峰县| 贵阳市| 曲周县| 苏尼特右旗| 启东市| 永嘉县| 封丘县| 马鞍山市| 交口县| 加查县| 南陵县| 都兰县| 安阳县| 道真| 宣汉县| 连江县| 固原市| 舟山市| 德保县| 专栏| 泰州市| 清远市| 日喀则市| 姚安县| 金沙县| 仁化县| 莱州市|