国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于電量離群點挖掘的竊電辨識方法研究

2018-10-22 11:32:54王偉峰
中國計量大學學報 2018年3期
關鍵詞:離群電量波動

李 寧,王偉峰,蔡 慧,汪 偉,王 穎

(1.中國計量大學 機電工程學院,浙江 杭州 310018;2.國網(wǎng)浙江省電力有限公司,浙江 杭州 310007)

隨著國民經(jīng)濟和電力生產(chǎn)力的快速發(fā)展,使得電力消費者用電需求量與日俱增,與此同時,供電質(zhì)量與用電營銷管理已經(jīng)成為一個非常重要的話題[1].

然而由于高科技竊電手段層出不窮,導致竊電問題變得越來越突出.據(jù)不完全統(tǒng)計,全國每年因竊電造成的經(jīng)濟損失達幾百億元,國家為此蒙受了巨大的經(jīng)濟損失.竊電不僅會使電力部門蒙受巨大損失,而且會嚴重危及到社會經(jīng)濟秩序的正常運行[2-3].

目前,大多數(shù)的反竊電產(chǎn)品都屬于裝置或設備,這些設備大多數(shù)缺乏自身防護能力,無人值守時難免竊電者在反竊電產(chǎn)品本體上動手腳.而數(shù)據(jù)挖掘在防竊電方面的研究和應用儼然已經(jīng)成為一個熱點,數(shù)據(jù)挖掘用于預測分析以及統(tǒng)計分析和匯總商業(yè)智能等領域[4-5].目前雖然也出現(xiàn)了一些諸如聚類[6]、分類、離群點檢測等數(shù)據(jù)挖掘算法,但這些算法都存在各自的缺陷,無法很好地完成疑似竊電判別的任務.在這些算法中,離群點挖掘目前主要應用于經(jīng)濟、金融、入侵檢測等方面[7-9],因此將離群點挖掘應用于防竊電檢測更是具有研究的價值.目前在這個方面的研究中,文獻[10]應用基于距離的離群點算法,針對欠壓法和欠流法提出一種新的竊電辨識方法.但是,這種方法僅僅只針對欠壓法和欠流法,應用范圍有限.而且,對于三相電壓、三相電流等多維數(shù)據(jù),數(shù)據(jù)處理的復雜度會隨著檢測樣本數(shù)據(jù)量的增大而增大.文獻[11]中提出了通過對電壓、電流海量數(shù)據(jù)進行曲線擬合,建立數(shù)學模型并引入基于正態(tài)分布的離群點算法,依據(jù)拉依達準則對海量數(shù)據(jù)進行數(shù)據(jù)挖掘找出竊電嫌疑戶.但是,實際上很難用某個分布模型描述或統(tǒng)計用戶用電量以及電壓電流值的分布情況.

針對這些方法存在的不足,本文提出基于電量波動率和離群點挖掘算法結(jié)合的電量波動模型.這不僅是一種更加新穎的疑似竊電辨識方法,而且由于分析對象是一維數(shù)據(jù),模型處理復雜度低、準確度高.它通過分析用戶的歷史用電量數(shù)據(jù),挖掘出用戶用電的行為特征,從而區(qū)別異常用電數(shù)據(jù)和正常用電數(shù)據(jù),找到竊電嫌疑點.

1 離群點挖掘算法

離群點挖掘就是從大量的數(shù)據(jù)中自動或半自動地獲得有用信息的過程,即給定一個有n個數(shù)據(jù)點或?qū)ο蟮臄?shù)據(jù)集和期望的離群點個數(shù)k,找出與數(shù)據(jù)集中其余數(shù)據(jù)顯著不同的、異常的或不一致的前k個對象.離群點挖掘問題可以被看作兩個子問題:

1)準確定義離群點;

2)找到離群點挖掘方法.

離群點挖掘方法主要分為基于分布(統(tǒng)計)的、基于深度的、基于聚類的、基于距離的和基于密度的五類.五種離群點檢測方法在不同領域均有應用,但都存在不足.基于分布(統(tǒng)計)的方法要求數(shù)據(jù)集合服從某一種概率或分布模型,基于聚類的方法對離群點的挖掘效率較低且依賴于所有簇的個數(shù),基于密度的方法多應用于在局部離群點檢測中,基于深度的方法對高維數(shù)據(jù)處理效率低[12-14].因此,基于距離的離群點檢測方法應用于竊電的判定和算法實現(xiàn)中比較合適.而定義基于距離的離群點的方法主要有以下兩種[15-16].

定義1如果數(shù)據(jù)集中至少有p(p∈[0,1])部分對象與對象o的距離大于D,則對象o是一個基于距離的關于參數(shù)p和D的離群點.反過來說,就是不多于(1-p)部分對象與對象o的距離小于等于D.

定義2數(shù)據(jù)集中到其第k個最近鄰居的距離dk最大的前n個對象就是離群點.

2 電量波動模型

2.1 電量波動描述

本模型分析的對象是用戶的日用電量數(shù)據(jù),從電量波動著手,找到電量波動率與用戶異常用電特征之間的關系.以往描述數(shù)據(jù)波動情況,大多是用方差、標準差、極差等,采用最多的是樣本標準差.但是,需要對同一樣本不同時期的波動情況對比時,缺乏可比性.當樣本平均水平不同,用標準差是無法實現(xiàn)兩組數(shù)據(jù)離散程度大小對比的.由于在本算法的思路中,需要對一組電量數(shù)據(jù)按月(或一段時間內(nèi))分別計算波動率再進行比較,因此用標準差就不適合.因此,在本文電量波動模型的研究中提出一種新的電量波動描述,即采用變異系數(shù)(或離散系數(shù))CV來描述用電量數(shù)據(jù)的波動和離散情況,就很好地解決了上述的問題.

定義3變異系數(shù)CV定義如下:

(1)

經(jīng)過大量的研究分析得到:0≤CV<0.2時,為合理波動范圍;0.2≤CV≤0.5時,為一般波動范圍;0.50.8,說明樣本波動過度嚴重,需直接進行現(xiàn)場排查.所以,電量的正常波動范圍應在[0,0.2).

變異系數(shù)一般是應用于金融、股票風險預測等方面,在電力行業(yè)幾乎很少得到應用.本文是在大量的樣本數(shù)據(jù)分析過程中,通過計算樣本變異系數(shù)與算法竊電辨識結(jié)果進行綜合分析設置波動范圍,實際使用過程可以視具體情況作相應調(diào)整.

2.2 基于距離的離群點算法

基于距離的離群點算法是用距離來描述兩個數(shù)據(jù)對象之間的相似程度,即兩個數(shù)據(jù)對象的距離越大,說明兩個數(shù)據(jù)對象相似度越小;反之,兩個數(shù)據(jù)對象的距離越小,說明兩個數(shù)據(jù)對象相似度越高.

由于算法分析的對象是用戶電量,假設{x1,x2,…,xn}是由用電信息采集系統(tǒng)采集的一組用電量數(shù)組.描述兩個數(shù)據(jù)對象之間的距離用歐氏距離來表示,對于兩個一維空間樣本g1(x1)和g2(x2),歐氏距離公式為

D(g1g2)=|x1-x2|.

(2)

對于n個樣本,求兩兩樣本之間的距離,可構(gòu)成相似度矩陣來描述兩兩之間的相似度關系.本算法分析的用電量是一維數(shù)據(jù),因此,本文采用的是一維歐氏距離.

描述n個樣本兩兩之間的相似度關系可以用相似度矩陣(即歐氏距離矩陣)來表示,相似度矩陣如下:

(3)

其中,Dij表示對象i和j之間的相似度,滿足正定性,即數(shù)據(jù)間的距離為非負,當且僅當i=j時,Dij=0;比較對象i和對象j,當它們相近或者是更加“接近”時,Dij→0;當它們的差異性越大,則該數(shù)值越大;并且滿足對稱性,即Dij=Dji.所以,相似度矩陣是一個以主對角線為軸的對稱矩陣.

在完成了定義離群點的目標后,接下來更為重要的是如何進行離群點挖掘.以往算法中的離群點大多是作為負面的東西加以排除,而我們此處的離群點是用戶是否存在竊電的有力判據(jù),因此尋找一個有效且復雜度低的方法檢測竊電嫌疑點就顯得尤為重要了.本文提出的電量波動模型通過將電量波動率和改進的離群點算法相結(jié)合,很好地滿足了上述要求.

首先,在計算和比較電量波動率的基礎上,通過選取更加準確的質(zhì)心來代表樣本整體水平,然后比較單個樣本與質(zhì)心的相似度,以此來篩選離群點.基于電量波動的離群點算法框圖如圖1.

數(shù)據(jù)預處理一般包括數(shù)據(jù)清洗和歸一化兩個部分.數(shù)據(jù)清洗的規(guī)則如下:

規(guī)則一 各字段任一數(shù)據(jù)缺失即定義為數(shù)據(jù)缺失.如用戶編碼、總正向有功等;

規(guī)則二 在抄表數(shù)據(jù)中,將與終端電表采集的總正向有功數(shù)據(jù)進行清洗;

規(guī)則三 將標注不明確的數(shù)據(jù)視為無效并剔除,如未標明終端還是表計;

規(guī)則四 將樣本數(shù)據(jù)中特別離譜的假數(shù)據(jù)(即異常偏高和值為負的數(shù)據(jù))剔除.

總之,清洗后要保證用電量數(shù)據(jù)和相應的用電時間要一一對應.

圖1 基于電量波動的離群點檢測算法流程圖Figure 1 Flow chart of outlier detection algorithm based on electricity volatility

任意一天用電量的計算方法定義為

di=pi-pi-1.

(4)

式(4)中,pi代表第i天的表計總正向有功功率,pi-1代表第i-1天的表計總正向有功功率.

當樣本數(shù)量龐大,需要對數(shù)據(jù)進行歸一化處理,一般將所有樣本化為介于0和1之間的數(shù).一般的歸一化方法如下:

.(5)

其中,x(i)代表任意一個樣本值,min(x(n))代表樣本最小值,max(x(n))代表樣本最大值.

定義4基于電量波動率的樣本質(zhì)心avg2定義如下:

(6)

式(6)中,avg1為原始樣本的平均值,avg2為去除所有dx>km×avg1的樣本后的平均值.這樣做的目的是排除異常偏高數(shù)據(jù)對竊電嫌疑點分析的影響.km為比例系數(shù),根據(jù)定義3,按照單月(或一段時間內(nèi),具體時間長短可根據(jù)實際需求設定)計算CV,且將CVmin定義為所有CV≥0.2中最小的波動率.

變異系數(shù)越大,說明樣本離散程度越大,一些不合理的數(shù)據(jù)距離合理的樣本范圍就越遠,為了排除不合理的數(shù)據(jù)對整體樣本的影響,需要根據(jù)定義5設置系數(shù)km.

定義5比例系數(shù)km定義如下:

(7)

需要注意的是,當CVmin≥0.8時,說明樣本波動率過度嚴重,一般可直接進行竊電現(xiàn)場排查.這就是如前文所說,基于電量波動率可大大提高離群點檢測和防竊電工作的效率.

在確定質(zhì)心以后,下面就是進行離群點算法檢測了,圖2是離群點算法流程圖.

圖2 基于距離的離群點算法流程圖Figure 2 Flow chart of distance-based outlier algorithm

圖2中,p參數(shù)一般會有一個可調(diào)的范圍,即能夠輸出結(jié)果的參數(shù)范圍.如可調(diào)范圍為p∈[a,b],在可調(diào)范圍內(nèi),設置p=b-0.01x,x為需要尋優(yōu)的次數(shù),利用循環(huán)實現(xiàn)尋優(yōu),觀察離群點挖掘結(jié)果,最優(yōu)挖掘結(jié)果對應的p就是最優(yōu)的p.

3 算例分析

3.1 MATLAB計算分析

為了驗證該算法在實際防竊電工作的準確性,選取由用電信息采集系統(tǒng)采集并經(jīng)過清洗規(guī)則進行清洗之后的浙江省長興縣某化纖公司2016年5-7月共92 d實際用電數(shù)據(jù)如圖3.該圖顯示的該公司總正向有功的真實數(shù)據(jù).總正向有功是隨著時間逐日進行累加的,當用戶一直都是正常用電的話,總正向有功應該近似一條線性的直線,如果存在竊電導致表計功率減少,則這條近似直線的斜率會較小.顯然,從原始的正向有功功率難以準確直觀地判斷出該公司在這三個月內(nèi)是否存在竊電行為,以及在哪一天開始竊電.

圖3 某化纖公司92 d的實際總正向有功數(shù)據(jù)Figure 3 The 92 days actual total positive active power data of a chemical fiber company

因此,下面運用本算法對該組數(shù)據(jù)進行處理和竊電分析.

首先,根據(jù)公式(4)計算出對應的日用電量數(shù)據(jù).如圖4,圓圈內(nèi)有星狀“*”填充的數(shù)據(jù)是檢測出的離群點,很明顯,離群點相對樣本總體來說是小部分數(shù)據(jù),這也正驗證了“離群”的定義,它們與大多數(shù)樣本的距離都很大.

圖4 未考慮竊電實際的離群點檢測結(jié)果Figure 4 Outlier detection results withoutconsidering the actual stealing situation

利用定義3的方法計算電量波動率可以得到:5月的電量波動率CV5=0.187 2,CV6=0.227 6,CV7=0.024 3說明7月電量波動極小,數(shù)據(jù)較平穩(wěn).

再根據(jù)上文所述的定義4以及定義5,CVmin=0.227 6,avg1=33.660 3,km=1.2,avg2=31.593 9,很顯然,avg2更能代表樣本總體的整體水平,說明質(zhì)心選擇的方法是可行的.

圖4是單純的離群點檢測,并未考慮到竊電實際情況,因為竊電是不用電或少用電,所以用電量相較于正常情況應該是偏低的,故應該是將高于質(zhì)心的離群點去掉.

如圖5所示是考慮到竊電實際的離群點檢測結(jié)果.由圖可知,所檢測出的離群點符合了竊電原理,而且在三個月的波動率中,6月的波動率最大,說明該月出現(xiàn)竊電的可能性也最大,而算法檢測的竊電嫌疑點正是出現(xiàn)在6月,證明了算法檢測離群點的準確性,也進一步佐證了基于電量波動的離群點檢測算法相對于以往的竊電判別方法來說有一定的優(yōu)勢.

圖5 考慮竊電實際的離群點檢測Figure 5 Outlier detection results consideringthe actual stealing situation

在實際竊電判別中,僅僅出現(xiàn)一天或兩天異常,其實并不能代表用戶竊電,因為這種情況可能是由一些特殊的原因造成的.因此,此處我們設置了如果連續(xù)三天出現(xiàn)異常,第三天進行竊電報警的條件.如圖6,第一次竊電報警的時間為“2016/06/08”,而實際查證的該用戶開始竊電的時間為“2016/06/06”,與設置的竊電報警條件相符,進一步證明了該算法的可靠性.

圖6 設置竊電報警條件下的結(jié)果Figure 6 The results of setting stealing alarm conditions

此外,需要說明的是,本次仿真實驗中,離群點參數(shù)p設置為0.804 9,說明了所檢測出的離群點具有很高的可信度,因為所有的離群點都滿足至少有k=0.804 9×92≈74個樣本與其本身之間的距離d>D=7.250 7.

3.2 算法分析結(jié)果與實際稽查結(jié)果比較

本算法的竊電分析結(jié)果是可以為一線員工的實際現(xiàn)場稽查提供理論依據(jù)的.依據(jù)算法分析結(jié)果,可以幫助稽查人員更有針對性地確定嫌疑用戶的竊電時間,從而快速地實施竊電排查.

下面是利用本算法分析的一些案例結(jié)果與現(xiàn)場排查結(jié)果進行比較的情況,如表1所示.這一方面說明了本算法已經(jīng)達到了比較理想的準確性.

表1 算法分析與實際排查情況對比

在實際分析中,共對若干個案例進行計算分析,這些案例包括紡織廠、絲綢廠和酒店管理有限公司在內(nèi)的采用高供高計或高供低計的大型用電用戶和一些低壓用戶.此處選取了10個案例分析結(jié)果如表1所示.結(jié)果表明,在10個分析案例中,當算法疑似度高于60%或是低于50%時,判斷是否竊電與實際稽查結(jié)果相符合,而只有一組算法疑似度在50%~60%之間時,與稽查結(jié)果不符,準確度達到90%.當然,隨著分析樣本的增加,預計算法分析準確度還會增高,這說明了依據(jù)本算法,可以達到很好的竊電辨識效果,從而大大提高防竊電工作的效率.

4 結(jié)語

本文在深入分析竊電與防竊電現(xiàn)狀以及了解竊電原理和常見竊電手段的基礎上,提出了一種用于疑似竊電判別的電量波動模型.該模型結(jié)合了電量波動率和基于距離的離群點挖掘算法,是一種針對用戶用電量分析的新的竊電辨識方法.首先,提出了一種新的描述電量波動的指標:變異系數(shù),根據(jù)電量波動率選取樣本質(zhì)心,然后依據(jù)該質(zhì)心和離群點原理篩選出離群點,并經(jīng)過處理找到竊電嫌疑點,并設置竊電報警的條件.該算法不同于以往離群點算法僅僅依靠離群點定義來篩選離群點,更不同于傳統(tǒng)防竊電算法僅僅依靠線損和電壓、電流異常以及計量異常情況來判斷是否竊電.應用本文這種模型進行疑似竊電判別,大大降低了數(shù)據(jù)處理的復雜度,提高了判別的準確性,進而提高了防竊電工作的效率.此外,將電量和電壓、電流等負荷數(shù)據(jù)判別相結(jié)合,可進一步提高竊電判斷的準確性.

當然,本算法仍舊存在一定的缺陷,即離群點參數(shù)尋優(yōu)的過程是通過有限次調(diào)節(jié)p來完成的,當數(shù)據(jù)集為大規(guī)模數(shù)據(jù)集時,可能調(diào)節(jié)的p并不是最優(yōu).此外,樣本質(zhì)心除受到樣本離散程度影響外,還需要考慮樣本密度的影響,加上氣候因素對用電量的影響也沒有作充分考慮,因此模型還需要進一步地完善.

猜你喜歡
離群電量波動
電量越低越透明的手機
羊肉價回穩(wěn) 后期不會大幅波動
微風里優(yōu)美地波動
中國化肥信息(2019年3期)2019-04-25 01:56:16
四川2018年7月轉(zhuǎn)讓交易結(jié)果:申報轉(zhuǎn)讓電量11.515 63億千瓦時
干濕法SO2排放波動對比及分析
電量隔離傳感器測試儀的研制
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應用
離群的小雞
北斗通信在小型水電廠電量采集中的應用
武乡县| 子长县| 易门县| 清涧县| 永昌县| 昌乐县| 崇文区| 托克逊县| 丹凤县| 崇义县| 德庆县| 图木舒克市| 成安县| 井冈山市| 景泰县| 北辰区| 杭锦旗| 南通市| 合肥市| 平邑县| 永州市| 岱山县| 北川| 秦安县| 崇左市| 扬中市| 山丹县| 岳池县| 禹州市| 晋中市| 炎陵县| 三江| 虞城县| 武功县| 元氏县| 顺昌县| 眉山市| 阜宁县| 郑州市| 罗田县| 龙岩市|