張新瑞,張思宵,楊紅欣,任志丹,劉海峰
(1.國(guó)網(wǎng)冀北電力有限公司張家口供電公司,河北 張家口075000;2.煙臺(tái)東方威思頓電氣有限公司,山東 煙臺(tái)264000)
近年來(lái),隨著經(jīng)濟(jì)的飛速發(fā)展,社會(huì)對(duì)電能的需求也隨之增大。如何合理并有效地管理生產(chǎn)生活用電,減少電力企業(yè)蒙受的經(jīng)濟(jì)損失,是供電公司長(zhǎng)期關(guān)注的課題。從中國(guó)電力糾紛事件來(lái)看,最典型的兩類(lèi)問(wèn)題就是竊電和違約用電,且都呈現(xiàn)出增長(zhǎng)的趨勢(shì)。科技的發(fā)展也讓竊電手法變化多樣,給電力系統(tǒng)的穩(wěn)定、安全運(yùn)行造成了一定的影響。為了有效推動(dòng)電力企業(yè)穩(wěn)定發(fā)展,用電檢查人員急需一種能夠主動(dòng)進(jìn)行竊電監(jiān)控分析的方法和工具,及時(shí)發(fā)現(xiàn)疑似竊電用戶,保障供電公司的經(jīng)濟(jì)利益。
目前國(guó)內(nèi)外的專(zhuān)家學(xué)者對(duì)反竊電技術(shù)進(jìn)行了大量研究,文獻(xiàn)[1]的專(zhuān)家學(xué)者給出了一種基于歐幾里得距離的離群點(diǎn)檢測(cè)算法,有效實(shí)現(xiàn)了對(duì)欠流、失壓法竊電的檢測(cè)。文獻(xiàn)[2-3]提出了一種基于正態(tài)分布的離群點(diǎn)反竊電算法,對(duì)用電信息采集系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘,由于是基于離群點(diǎn)算法的反竊電研判,所以存在求解誤差大的缺點(diǎn)。文獻(xiàn)[4]利用線損相關(guān)數(shù)據(jù),對(duì)損耗較大的電力用戶進(jìn)行識(shí)別,實(shí)現(xiàn)了對(duì)竊電的有效識(shí)別。文獻(xiàn)[5]提出一種基于無(wú)監(jiān)督學(xué)習(xí)的電力用戶用電行為異常檢測(cè)模型,主要包括特征提取、主成分分析、局部離群因子計(jì)算等,模型的輸出結(jié)果包括疑似竊電概率和電力用戶的異常度。
在電力大數(shù)據(jù)時(shí)代,基于用電信息采集系統(tǒng)的海量數(shù)據(jù)的深入挖掘和智能診斷分析方面仍處于實(shí)踐探索階段,通過(guò)數(shù)據(jù)深入挖掘分析,可有效鎖定竊電用戶和識(shí)別竊電方式,對(duì)電力企業(yè)持續(xù)良好發(fā)展具有十分重要的戰(zhàn)略意義。本文提出一種基于DBSCAN 聚類(lèi)算法的反竊電分析模型,建立多維特征因子關(guān)聯(lián)模型,通過(guò)在低壓臺(tái)區(qū)中的實(shí)際應(yīng)用,驗(yàn)證了方法的有效性,可以有效定位竊電用戶,提高工作效率,保障了供電公司的利益。
利用用采和電力營(yíng)銷(xiāo)系統(tǒng)積累的海量用電客戶歷史數(shù)據(jù),結(jié)合經(jīng)過(guò)確認(rèn)的各類(lèi)典型竊電樣本,統(tǒng)籌考慮多維竊電因素,抽象識(shí)別竊電行為的普遍因素,建立異常預(yù)測(cè)的數(shù)學(xué)分析模型,通過(guò)大數(shù)據(jù)技術(shù)分析手段,深挖電能量數(shù)據(jù)背后的價(jià)值,對(duì)竊電嫌疑用戶進(jìn)行概率推測(cè)和預(yù)警,精準(zhǔn)識(shí)別重大竊電嫌疑戶,通過(guò)建立預(yù)警、排查和處理反饋的閉環(huán)工作機(jī)制,完成模型的自我優(yōu)化,從而提供一種強(qiáng)有力的反竊電監(jiān)控預(yù)警手段。
隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用和推廣,數(shù)據(jù)挖掘的核心是從海量的、有噪聲的、不完整的數(shù)據(jù)中挖掘有用知識(shí)的過(guò)程??赏瓿蓮牡蛯哟蔚臄?shù)據(jù)簡(jiǎn)單分析、呈現(xiàn)提升到挖掘背后隱藏的有用信息,為實(shí)際應(yīng)用提供決策支持,數(shù)據(jù)挖掘的基本流程如圖1 所示。
問(wèn)題描述:本過(guò)程需要明確具體的業(yè)務(wù)需求。就本文而言,需要從大量的電力用戶歷史用電數(shù)據(jù)中精準(zhǔn)找出竊電嫌疑用戶。
數(shù)據(jù)采集:待確定目標(biāo)后,需要采集相關(guān)的數(shù)據(jù),為竊電檢測(cè)模型的構(gòu)建提供支持。
數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是整個(gè)數(shù)據(jù)挖掘過(guò)程中非常重要的階段,直接關(guān)系到后期所構(gòu)建模型的質(zhì)量。一般要完成噪聲數(shù)據(jù)消除、特征選擇等過(guò)程。
數(shù)據(jù)挖掘執(zhí)行:根據(jù)數(shù)據(jù)挖掘的具體任務(wù),挑選最適合的算法進(jìn)行知識(shí)的發(fā)現(xiàn),比如分類(lèi)、聚類(lèi)等方法。
結(jié)果分析與評(píng)價(jià):竊電模型要在實(shí)際場(chǎng)景中應(yīng)用,需要保證結(jié)果的合理性和科學(xué)性。
2.2.1 DBSCAN 算法基本描述
DBSCAN ( Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類(lèi)方法)是一種很典型的密度聚類(lèi)算法,與通常只適用于凸樣本集的聚類(lèi)算法(如K-Means)相比,DBSCAN 既可以適用于凸樣本集,也可以適用于非凸樣本集。
DBSCAN 聚類(lèi)算法的優(yōu)勢(shì)主要表現(xiàn)在如下幾點(diǎn):①滿足對(duì)任何形狀的稠密樣本集進(jìn)行聚類(lèi)分析,K-Means 之類(lèi)的聚類(lèi)算法通常用于凸樣本集;②在進(jìn)行聚類(lèi)的同時(shí)可以尋找到異常數(shù)據(jù)點(diǎn),對(duì)樣本集中的異常點(diǎn)不敏感;③聚類(lèi)結(jié)果不存在偏倚,無(wú)需預(yù)先確定聚類(lèi)的類(lèi)別,而初始值參數(shù)的選取對(duì)K-Means 聚類(lèi)算法有較大的影響。
2.2.2 DBSCAN 聚類(lèi)算法的步驟
輸入:樣本集合D={x1,x2,…,xm},鄰域參數(shù)(?,MinPts),樣本距離度量步驟如下。
步驟一,初始化數(shù)據(jù)樣本集合Ω=?,初始化聚類(lèi)的簇?cái)?shù)k=0,初始化未訪問(wèn)數(shù)據(jù)樣本集合Γ=D,簇劃分C=?。
步驟二,對(duì)于j=1,2,…,m根據(jù)如下步驟尋找出所有的核心對(duì)象:①通過(guò)距離度量方法,得到樣本xj的?-鄰域子樣本集Nε(xj);②如果子樣本集當(dāng)中的樣本數(shù)目滿足|Nε(xj)|≥MinPts,則需要將樣本xj加入核心對(duì)象樣本集合Ω=Ω∪{xj}。
步驟三,如果核心對(duì)象集合Ω=?,那么算法結(jié)束,否則進(jìn)入步驟四。
步驟四,在核心對(duì)象集合Ω中,隨機(jī)挑選一個(gè)核心對(duì)象o,初始化當(dāng)前簇核心對(duì)象隊(duì)列Ωcur={o},初始化類(lèi)別序號(hào)k=k+1 以及當(dāng)前簇樣本集合Ck={o},更新未訪問(wèn)樣本集合Γ=Γ-{o}。
步驟五,如果當(dāng)前簇核心對(duì)象隊(duì)列Ωcur=? ,那么當(dāng)前聚類(lèi)簇Ck生成完成,更新簇劃分C={C1,C1,…,Ck},更新核心對(duì)象集合Ω=Ω-Ck,進(jìn)入步驟三。
步驟六,在當(dāng)前簇核心對(duì)象隊(duì)列中Ωcur隨機(jī)拿出一個(gè)核心,對(duì)象o′,利用鄰域距離閾值? 找出所有的?-鄰域子樣本集N?(o′),令Δ=N?(o′)∩Γ,更新當(dāng)前簇樣本集合Ck=Ck∪Δ ,更新未訪問(wèn)樣本集合Γ=Γ-Δ ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,進(jìn)入步驟五。
最終模型輸出簇劃分C={C1,C1,…,Ck}。
目前張家口供電公司所管轄的低壓臺(tái)區(qū)基本實(shí)現(xiàn)了全采集、全覆蓋。公司信息化、智能化水平較高,用電信息采集系統(tǒng)、營(yíng)銷(xiāo)系統(tǒng)都已經(jīng)實(shí)際應(yīng)用,可為低壓臺(tái)區(qū)反竊電應(yīng)用提供大量的基礎(chǔ)數(shù)據(jù)。
聚類(lèi)算法非常適用于這種大量數(shù)值數(shù)據(jù)的處理,而離群點(diǎn)數(shù)據(jù)敏感的優(yōu)點(diǎn)適用于從大量數(shù)據(jù)中挖掘出異常數(shù)據(jù)。對(duì)于挖掘出的異常數(shù)據(jù),合理利用竊電甄別方法就能準(zhǔn)確定位竊電嫌疑用戶。
通過(guò)對(duì)張家口地區(qū)竊電案例進(jìn)行分析,結(jié)合現(xiàn)場(chǎng)查處的違約竊電案例記錄,發(fā)現(xiàn)竊電手段上大致可分為兩大類(lèi):第一類(lèi)是通過(guò)改變計(jì)量回路或計(jì)量裝置,通過(guò)改變電流、電壓、相位或接線等方式進(jìn)行竊電;另一類(lèi)是高科技竊電方式,通過(guò)大功率干擾或遙控等方式阻礙計(jì)量裝置正常計(jì)費(fèi),此類(lèi)竊電手法不破壞電能表硬件設(shè)備、操作時(shí)間短、隱蔽性強(qiáng)等特點(diǎn)使供電部門(mén)無(wú)法排查,造成巨大損失。
因此,本文重點(diǎn)從以上幾種情況入手,深入挖掘和分析用電、營(yíng)銷(xiāo)、線損等多維度數(shù)據(jù),提取竊電用戶的用電特征,構(gòu)建豐富專(zhuān)家樣本庫(kù),進(jìn)行模型選擇、訓(xùn)練及驗(yàn)證,構(gòu)建反竊電診斷模型。
通過(guò)對(duì)歷史竊電用戶用電量、電壓、電流、報(bào)警事件等用電數(shù)據(jù)進(jìn)行逆向分析,構(gòu)建完整的特征向量,本文選取失壓斷相事件、用戶電量趨勢(shì)、電壓和電流數(shù)據(jù)計(jì)算出有功功率與采集的有功功率值比、用戶電量與臺(tái)區(qū)線損率相關(guān)性系數(shù)、異常報(bào)警事件(電能表開(kāi)蓋、計(jì)量裝置開(kāi)箱、磁場(chǎng)干擾等類(lèi)型的異常事項(xiàng))五個(gè)特征維度構(gòu)建特征向量進(jìn)行建模?;谟貌上到y(tǒng)和營(yíng)銷(xiāo)系統(tǒng)中的電力用戶歷史數(shù)據(jù),提取用電特征,構(gòu)建基于DBSCAN 聚類(lèi)算法的反竊電模型。
以張家口供電公司管轄范圍內(nèi)臺(tái)區(qū)線損相對(duì)高、偷竊電行為嚴(yán)重的20 個(gè)臺(tái)區(qū)的電力用戶作為分析對(duì)象,構(gòu)成測(cè)試樣本。在用電信息采集系統(tǒng)中,抽取其數(shù)據(jù),提取電力用戶用電特征,應(yīng)用DBSCAN 聚類(lèi)算法,仿真結(jié)果表明算法具有較好的異常檢測(cè)效果。
本文通過(guò)對(duì)張家口供電公司低壓臺(tái)區(qū)電力用戶用電數(shù)據(jù)的分析、處理、挖掘,構(gòu)建了一種基于DBSCAN 聚類(lèi)算法的反竊電檢測(cè)模型。在低壓臺(tái)區(qū)反竊電實(shí)際應(yīng)用中,驗(yàn)證了模型的有效性,可準(zhǔn)確的識(shí)別出疑似竊電用戶,為用電檢查人員提供了強(qiáng)有力的反竊電監(jiān)控預(yù)警分析方法,可顯著提高反竊電的查處懲治力度,確保供用電秩序正常,及時(shí)挽回供電公司的經(jīng)濟(jì)損失。