王耀聃 李紅嬌 詹清欽
(上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 200090)
電能損耗中的非技術(shù)性損耗(Non-technical loss, NTL)主要是指交付和消費(fèi)過程中被損耗但不能向終端用戶收費(fèi)的電能,例如竊電和非法用電等異常用電行為帶來的損耗。智能電表的部署是智能電網(wǎng)解決竊電的有效形式之一。智能電表在電網(wǎng)中廣泛普及,使得用電數(shù)據(jù)的采集范圍得到了顯著提高,基于數(shù)據(jù)驅(qū)動(dòng)的模式來檢測用戶竊電行為的潛力隨之增加[1]。通過減少電力盜竊可以降低單位供電成本,對于電力成本的長期管理至為關(guān)鍵。
目前,基于數(shù)據(jù)驅(qū)動(dòng)的用戶竊電行為檢測方法主要有兩種。一種是直接利用分類模型完成正常用戶和異常用戶的識別,主要有神經(jīng)網(wǎng)絡(luò)[2]、決策樹[3]和支持向量機(jī)[4]等。這些方法雖然取得了一定的效果但未注重用電數(shù)據(jù)特征的分析與選擇。用戶正常用電行為與竊電行為分別反映出相應(yīng)的行為慣性,兩者之間存在著潛在的不明顯分類規(guī)律。僅靠分類模型進(jìn)行判別,而未考慮特征提取會(huì)造成檢測精度不高,特別是對于較小數(shù)據(jù)集而言[1]。
第二種檢測方法結(jié)合特征提取與分類算法,通過構(gòu)建用戶用電量數(shù)據(jù)特征集合,利用分類模型分析學(xué)習(xí)用電量數(shù)據(jù)特征集和用戶用電行為之間的映射關(guān)系,使用訓(xùn)練得到的分類模型來預(yù)測用戶的用電行為屬性,達(dá)到對竊電行為的識別[5]。在特征提取方面,文獻(xiàn)[6]由用戶的日負(fù)荷曲線定義了4種度量指標(biāo),提取出13個(gè)特征變量。文獻(xiàn)[7]利用統(tǒng)計(jì)特征確定出各類特征指標(biāo),再利用主成分分析(Principal component analysis, PCA)提取用電數(shù)據(jù)特征。文獻(xiàn)[8]提出一種用電行為特征優(yōu)選策略,通過對相關(guān)電力負(fù)荷指標(biāo)(如日負(fù)荷率、峰谷系數(shù)等)的定量分析,實(shí)現(xiàn)特征集優(yōu)化選擇。文獻(xiàn)[9]通過引入社群習(xí)慣建立了四個(gè)社群特征指標(biāo)對用戶進(jìn)行行為分析。在分類算法方面,文獻(xiàn)[10]從數(shù)據(jù)挖掘的角度,構(gòu)建基于人工神經(jīng)網(wǎng)絡(luò)的竊電風(fēng)險(xiǎn)等級模型,利用該模型對用戶行為等級進(jìn)行分類。文獻(xiàn)[11]提出了一種社交蜘蛛優(yōu)化的改進(jìn)支持向量機(jī)參數(shù)調(diào)整與特征選擇模型用于竊電檢測。文獻(xiàn)[12]引入了欠完備自編碼器提取特征,隨后采用傳統(tǒng)BP算法對用戶用電行為分類,與淺層模型相比提高了特征的有效性,表明了自編碼器在特征提取中的潛力。但其采用的傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)易陷入局部最小值。文獻(xiàn)[13]引入了深度森林(Deep forest, DF)[14]算法判斷用戶是否具有竊電傾向。DF具有參數(shù)設(shè)定少、對超參數(shù)設(shè)置不敏感、適用于小規(guī)模數(shù)據(jù)集等優(yōu)點(diǎn),由于用電數(shù)據(jù)集規(guī)模較小故將其用于竊電檢測工作上有一定的優(yōu)勢。
以上研究雖然通過實(shí)驗(yàn)論證了其優(yōu)勢,但仍有改進(jìn)的空間,原因在于:
(1) 特征有效性不高。以上特征提取方法均從電氣量統(tǒng)計(jì)變換的角度進(jìn)行研究,依賴先驗(yàn)知識,且模型為淺層模型,難以自動(dòng)處理數(shù)據(jù)間的非線性復(fù)雜關(guān)系,尋找深度隱含特征。
(2) 分類算法未考慮樣本類別數(shù)量上的不平衡關(guān)系。在實(shí)際電網(wǎng)營銷系統(tǒng)中,正常用戶數(shù)量與竊電用戶數(shù)量具有明顯不平衡關(guān)系。所提方法并未考慮此因素,導(dǎo)致算法更加偏重樣本數(shù)量占多數(shù)類的正常用戶而忽略樣本數(shù)量較少的竊電用戶,最終整體檢測準(zhǔn)確率虛高而少數(shù)竊電用戶的檢出率不高。
本文針對以上問題,結(jié)合上述自編碼器與深度森林的優(yōu)勢,提出一種堆疊稀疏自編碼器(Stacked sparse autoencoder, SSAE)與基于海林格距離[15]的深度森林(Hellinger distance deep forest, HDDF) 相結(jié)合的竊電檢測模型。將整個(gè)檢測過程分為基于SSAE的用電量數(shù)據(jù)特征提取階段和基于HDDF的用戶用電行為分類檢測階段。將SSAE與HDDF結(jié)合,可看作是兩級數(shù)據(jù)處理和分析方法,SSAE提取的有用特征作為后續(xù)分類器的輸入,由于對原始用電量數(shù)據(jù)進(jìn)行了再表征,強(qiáng)化了HDDF的分類表征學(xué)習(xí)能力,提高了模型的分類檢測精度。具有以下優(yōu)勢:
(1) 相比于統(tǒng)計(jì)特征提取方法,深度模型SSAE的應(yīng)用,可以以較少的數(shù)據(jù)維度實(shí)現(xiàn)用電量數(shù)據(jù)中有用特征的自動(dòng)提取。同時(shí),克服了普通自編碼器容易過擬合的缺陷,提高了特征數(shù)據(jù)的有效性。
(2) 將DF改進(jìn)為HDDF,即DF結(jié)構(gòu)中決策樹的分裂標(biāo)準(zhǔn)由Gini系數(shù)替換為對樣本類別數(shù)量分布不敏感的Hellinger distance度量方法,降低了數(shù)據(jù)集不平衡性對分類精度的影響,提高了竊電用戶的檢出率。
竊電行為識別的關(guān)鍵之一在于提取用電數(shù)據(jù)的關(guān)鍵特征。竊電行為直觀上將導(dǎo)致異常的用電量示值。圖1顯示了兩種不同的異常用電數(shù)據(jù)類型。在圖1(a)中,該類竊電用戶全年出現(xiàn)低用電量情況較多,對應(yīng)的竊電方式為高頻低量。在圖1(b)中,異常用戶前五個(gè)月幾乎沒有任何電量示數(shù),這有可能是智能電表自身故障造成,但也有可能是人為操控電表使部分時(shí)期內(nèi)電量示數(shù)遺失,對應(yīng)竊電方式為階段連續(xù)竊電。
(a) 竊電類型1
(b) 竊電類型2圖1 典型竊電類型
圖2以一個(gè)用戶為例,以周為單位繪制了9周(2個(gè)月)的用電量箱型圖。第一個(gè)箱子代表了9周中周一用電量數(shù)據(jù),以此類推,第七個(gè)箱子表示周日用電量數(shù)據(jù)。如圖2(a)所示,正常用戶箱子長度均較短,其中周五最短,表示9周內(nèi)周五的用電量相差不大,波動(dòng)最小。通過上下四位數(shù)和中位數(shù)的間距也可以看出,整體每天的用電量分布較為對稱。相反地,在圖2(b)中,每個(gè)箱子的長度都比正常用戶的箱子長度長,這表明用電量數(shù)據(jù)較分散,即用電量波動(dòng)較大。且竊電用戶的用電量分布呈較不對稱趨勢,在周一與周五中分別有一個(gè)離群點(diǎn)(異常值)。
(a) 正常用戶 (b) 竊電用戶圖2 正常/竊電用戶周用電量
通過對正常用戶和竊電用戶的用電量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析可以觀察到,竊電用戶的用電量數(shù)據(jù)呈以下特點(diǎn):① 用電量波動(dòng)程度較之正常用戶更為陡峭;② 用電量分布較不對稱,具有較少周期性或非周期性。然而,基于統(tǒng)計(jì)提取出的特征較為粗糙,電量數(shù)據(jù)間可能含有非線性相關(guān)性,手動(dòng)提取特征并不能滿足需求,很難挖掘出用戶用電行為的深層規(guī)律。因此提出一種采用SSAE技術(shù)從用電量數(shù)據(jù)中自動(dòng)挖掘其特征的方法。在SSAE中通過構(gòu)建多層非線性變換網(wǎng)絡(luò)對原始用電數(shù)據(jù)進(jìn)行建模,逐層學(xué)習(xí)更高級別的功能,以提取用電數(shù)據(jù)的高階抽象特征。
SAE在普通自編碼器的基礎(chǔ)上,對隱藏層節(jié)點(diǎn)進(jìn)行一些稀疏性的限制(如圖3所示),可從隱藏層H={h1,h2,…,hi}中得到比原始用電數(shù)據(jù)更好的特征描述。本文使用加入KL散度懲罰項(xiàng)的損失函數(shù)對用電數(shù)據(jù)進(jìn)行稀疏性約束,引入了正則化參數(shù)λ防止自編碼器出現(xiàn)過擬合問題。稀疏自編碼的整體代價(jià)函數(shù)可表示為式(1),其中nl表示網(wǎng)絡(luò)層數(shù),Sl表示l層神經(jīng)元數(shù)量。
圖3 稀疏自編碼器結(jié)構(gòu)
(1)
(2)
(3)
本文采用Hinton[18]提出的逐層預(yù)訓(xùn)練—微調(diào)策略來解決深度網(wǎng)絡(luò)存在的非凸性和梯度彌散問題。每個(gè)SAE的非線性變換關(guān)系,特征與目標(biāo)標(biāo)簽之間的關(guān)系將通過逐層貪婪訓(xùn)練得到有效學(xué)習(xí)。將所有SAE按照圖5從左到右的順序分別獨(dú)立訓(xùn)練,且上一個(gè)SAE提取到的特征將作為下一個(gè)SAE的輸入。當(dāng)?shù)趌層的SAE訓(xùn)練完畢后,第l層的隱藏層特征將作為Softmax分類器的輸入,對Softmax分類器進(jìn)行訓(xùn)練,獲得最佳參數(shù)矩陣。最后,所有SAE將會(huì)被組合成一個(gè)SSAE進(jìn)行整體微調(diào)。
微調(diào)過程旨在了解各層之間的相互關(guān)系,使目標(biāo)標(biāo)簽和預(yù)測標(biāo)簽之間的誤差最小化。在迭代過程中,根據(jù)FP和BP算法計(jì)算代價(jià)函數(shù)對前L-1層網(wǎng)絡(luò)參數(shù)的導(dǎo)數(shù),由式(4)對J(θ)求導(dǎo)得到代價(jià)函數(shù)對最后的Softmax層參數(shù)的導(dǎo)數(shù)。在微調(diào)之后,對SSAE從輸入層到最后一個(gè)SAE特征層進(jìn)行切割,提取用電特征F。
(4)
圖4 堆疊稀疏自編碼器結(jié)構(gòu)
將從SSAE中提取的用電數(shù)據(jù)特征和相應(yīng)的標(biāo)簽一起用于DF的訓(xùn)練。受深度神經(jīng)網(wǎng)絡(luò)啟發(fā),DF由多粒度掃描和級聯(lián)結(jié)構(gòu)森林兩部分組成。如圖5所示。
(a) 多粒度掃描階段
(b) 級聯(lián)森林階段圖5 Deep Forest算法流程
多粒度掃描采用滑動(dòng)窗口結(jié)構(gòu)對數(shù)據(jù)集進(jìn)行掃描擴(kuò)展,生成原始數(shù)據(jù)的特征以增強(qiáng)級聯(lián)森林的差異性。在圖5中,假設(shè)經(jīng)SSAE提取后得到的用電特征序列為n維,取窗口大小為d,步長為1(僅作示例)進(jìn)行滑動(dòng)掃描,得到k=(n-d)/c+1個(gè)d維實(shí)例向量。這k個(gè)d維向量被用于訓(xùn)練兩個(gè)類型的森林,因?yàn)楦`電檢測屬于二分類問題,因此訓(xùn)練后將得到2維類別概率向量。隨后將2維類別概率向量按序拼接作為級聯(lián)森林的輸入向量。
采用經(jīng)多粒度掃描所得的類別概率向量作為級聯(lián)森林的輸入向量。首先,輸入向量經(jīng)不同類型的森林模型分類訓(xùn)練后將得到增強(qiáng)特征向量。隨后,增強(qiáng)特征向量將與原始輸入向量拼接,輸入到級聯(lián)森林的下一層。特別地,級聯(lián)層在擴(kuò)展到下一層后,將通過驗(yàn)證集對整體級聯(lián)的性能進(jìn)行估計(jì),若沒有明顯的性能提升,則終止該訓(xùn)練過程。因此,級聯(lián)結(jié)構(gòu)中的層數(shù)具有自適應(yīng)性,這使得該算法適用于不同規(guī)模的數(shù)據(jù)集。最后,對輸出的類別概率向量取均值和最值,得到最終的分類結(jié)果。
級聯(lián)結(jié)構(gòu)通過對原始特征向量進(jìn)行逐層處理實(shí)現(xiàn)表征學(xué)習(xí)的思想。它并不像DNN那樣根據(jù)正向和反向傳播算法來逐層學(xué)習(xí),而是在有監(jiān)督學(xué)習(xí)下通過基于決策樹集成的集成來直接學(xué)習(xí)類分布特征。DF結(jié)構(gòu)中森林決策樹一般采用分類回歸決策樹(Classification and regression tree,CART),CART決策樹以最小Gini指數(shù)作為分裂屬性,Gini指數(shù)的計(jì)算如下:
(5)
式中:p(i|t)為變量t屬于類i的概率,c為樣本的個(gè)數(shù)。Gini指數(shù)越小劃分效果越好。然而,原始DF算法大部分工作都考慮在相對平衡的數(shù)據(jù)集上,忽略了不平衡樣本數(shù)量的情況。已有相關(guān)研究證明了Gini指數(shù)非均衡敏感的固有弱點(diǎn)[19],因此將Gini指數(shù)作為分裂標(biāo)準(zhǔn)會(huì)導(dǎo)致出現(xiàn)信息增益很小甚至負(fù)增長的情況,降低分裂屬性選擇的有效性,導(dǎo)致決策樹過快停止生長[20]。最終分類器往往會(huì)傾向于有利于多數(shù)正常用戶分類的方向?qū)W習(xí),使少數(shù)類竊電用戶無法得到有效劃分。
為了克服上述缺點(diǎn),本文考慮基于距離度量作為決策樹的分裂標(biāo)準(zhǔn)。Hellinger distance度量了兩個(gè)分布之間的距離,是一種反映不同概率分布差異的度量方法,用于計(jì)算給定屬性在不同條件下的類概率分布之間的差異,然后選擇差異大的屬性作為最佳分裂指標(biāo),改進(jìn)了Gini指數(shù)在不平衡分類情況下的不足[20]。
設(shè)(Θ,λ)為度量空間,P、Q分別表示對應(yīng)參數(shù)λ的兩個(gè)連續(xù)分布。則P、Q兩分布之間的Hellinger distance表示為:
(6)
當(dāng)分布是離散型時(shí),在可數(shù)空間Φ中,Hellinger distance又可表示為:
(7)
Hellinger distance具有如下的性質(zhì):
(2) 為對稱非負(fù)(即:dH(P,Q)=dH(Q,P)≥0)。
(3) 值越大,表示概率分布P和Q之間的差異也越大。
(4) Hellinger distance的平方是KL散度的下界。
采用式(7)作為分裂指標(biāo)時(shí),由于是在可數(shù)空間上求值,上述條件概率下的分布可表示為:
(8)
本文以用戶用電特征樣本為輸入,樣本分類結(jié)果為輸出的方式實(shí)現(xiàn)對用戶用電行為的檢測。具體可分為以下7個(gè)步驟:
(1) 按8 ∶2比例隨機(jī)劃分用電量數(shù)據(jù)集為訓(xùn)練樣本和測試樣本。
(2) 對原始數(shù)據(jù)集進(jìn)行預(yù)處理。
(3) 將訓(xùn)練樣本中的用戶用電量數(shù)據(jù)輸入SSAE網(wǎng)絡(luò)。對SSAE采用逐層貪婪訓(xùn)練—微調(diào)的方式進(jìn)行訓(xùn)練(算法1)。
(4) 對SSAE從輸入層到最后一個(gè)SAE特征層進(jìn)行切割,提取用電特征F。
(5) 將經(jīng)SSAE提取到的用電特征F及對應(yīng)標(biāo)簽輸入DF進(jìn)行訓(xùn)練,采用Hellinger Distance優(yōu)化DF,輸出指示是否竊電的標(biāo)簽(算法2和算法3)。
(6) 訓(xùn)練完畢,得到用戶竊電行為分類檢測的模型。
(7) 在測試集上評估本文所提模型與其他對比模型的性能。
算法1SSAE用電特征提取
輸入:用戶電量數(shù)據(jù)X={X1,X2,…,XN}。
(1) 首先訓(xùn)練網(wǎng)絡(luò)中的第1層,使用FP及BP算法,通過如下公式得到本層的參數(shù)W、b:
(9)
(10)
(11)
(12)
式中:δ(l)為第l層的殘差、a(l)為第l層的激活值。
(13)
(14)
(15)
(4) 將第n個(gè)隱藏層的特征值輸入Softmax分類器進(jìn)行訓(xùn)練,通過計(jì)算式(16),最小化目標(biāo)標(biāo)簽與預(yù)測類標(biāo)簽之間的誤差來獲得最佳參數(shù)矩陣。
(16)
(5) 將所有訓(xùn)練好的SAE提取出來進(jìn)行堆疊組合,進(jìn)行微調(diào)。
(6) 將由逐層貪婪預(yù)訓(xùn)練得到的參數(shù)作為SSAE網(wǎng)絡(luò)的初始化權(quán)重值。
(7) 計(jì)算每層的激活向量a(l)與殘差δ(l)。
(8) 將殘差從Softmax分類器層傳回輸入層。使用梯度下降算法微調(diào)每一次迭代后的參數(shù)W、b。
(9) 重復(fù)步驟2至步驟4,優(yōu)化模型參數(shù),直至代價(jià)函數(shù)滿足收斂要求。
算法2HD決策樹改進(jìn)Deep Forest
輸入:訓(xùn)練集T,終止值C,屬性集合F。
(1) if |T| (2) return; (3) end if (4) for屬性集F的每個(gè)特征屬性fdo (5) 由式(8)計(jì)算屬性f的Hf=Hellinger(T,f); (6) end for (7)b=max(H); (8) for屬性b中每個(gè)值vdo (9)HDDT(Txb=v,C,F); (10) end for 算法3改進(jìn)的DF竊電用戶識別 輸入:經(jīng)SSAE提取到的用電特征F及對應(yīng)標(biāo)簽。 輸出:指示是否竊電的標(biāo)簽。 (1) 設(shè)置1個(gè)d維的窗口在輸入的用電特征向量上進(jìn)行滑動(dòng)取值,步長為c,則切分成k個(gè)d維向量(k=(n-d)/c+1)。 (2) 將k個(gè)d維向量輸入兩種類型的森林進(jìn)行訓(xùn)練,每個(gè)森林各輸出k個(gè)2維類別概率向量。 (5) 將這8維增強(qiáng)向量與原始輸入用電特征進(jìn)行拼接,組成4×k+8維的特征向量,作為下一層級聯(lián)森林2的輸入。 (6) 判斷模型性能,若性能無明顯提升,則進(jìn)入下一步;若性能仍有上升,則繼續(xù)進(jìn)行訓(xùn)練。 (7) 輸出末級訓(xùn)練得到的類別概率向量。先求其均值再取概率類別值最大的類作為是否竊電的分類結(jié)果。 圖6 基于SSAE-HDDF的竊電檢測模型框架 在本文所提的SSAE-HDDF模型中,由于對SSAE網(wǎng)絡(luò)進(jìn)行逐層貪婪訓(xùn)練得到整個(gè)網(wǎng)絡(luò)的初始化參數(shù),再利用微調(diào)手段優(yōu)化整體網(wǎng)絡(luò)性能,因此能充分提取到用電數(shù)據(jù)關(guān)鍵特征。隨后再將提取出的用電特征作為分類器的輸入進(jìn)行分類識別。使用Hellinger distance優(yōu)化DF分類器,從式(8)可以看出不受先驗(yàn)概率的影響,對不平衡數(shù)據(jù)類分布不是很敏感。將SSAE特征提取器與HDDF分類器相結(jié)合,由于對原始用電數(shù)據(jù)進(jìn)行了特征再表征,加強(qiáng)了特征與標(biāo)簽屬性間的非線性映射關(guān)系,進(jìn)一步提高HDDF的分類表征學(xué)習(xí)能力[2]。 本文選取的數(shù)據(jù)集來自于國家電網(wǎng)公司某地9 956個(gè)用戶2015/01/01—2015/12/31的日用電量數(shù)據(jù)。圖7顯示了數(shù)據(jù)集的一部分。其中,CONS_NO為用戶編號,label表示用戶類型(0為正常,1為竊電),DATA_DATE則表示日期,KWH_READING代表當(dāng)天用電量,KWH_READING代表前一天用電量,KWH為當(dāng)天用電量與前一天用電量示值差。特別地,本數(shù)據(jù)集是典型的不平衡數(shù)據(jù)集,正常用戶與竊電用戶樣本比例為8 561 ∶1 395。 圖7 部分用戶用電量數(shù)據(jù) 由于設(shè)備故障、數(shù)據(jù)傳輸故障,人為主觀因素等多方面原因,造成部分用戶數(shù)據(jù)存在異常值和缺失值(其中10月份數(shù)據(jù)大量缺失)。對于異常值,采取視為缺失值處理的方法。對數(shù)據(jù)缺失百分比高于60%的用戶進(jìn)行剔除。對低于60%的用戶,則通過簡單移動(dòng)平均窗口法進(jìn)行插補(bǔ)。簡單移動(dòng)平均窗口方法根據(jù)時(shí)間序列逐項(xiàng)計(jì)算固定數(shù)量項(xiàng)的一組平均值,并作為下一個(gè)缺失值的填充。即一組數(shù)中的第i個(gè)位置數(shù)據(jù)為缺失數(shù)據(jù),則取前后window個(gè)數(shù)據(jù)的平均值作為插補(bǔ)數(shù)據(jù)。這里window取為5。按下式計(jì)算缺失值: (17) 若出現(xiàn)有連續(xù)的超過5個(gè)NaN值輸入的特殊情況,則在這些輸入中插入該行的平均值,然后再執(zhí)行上述補(bǔ)值操作。按下式對數(shù)據(jù)進(jìn)行歸一化處理: (18) 經(jīng)過預(yù)處理后的數(shù)據(jù)集中包含7 869個(gè)正常用戶樣本,1 154個(gè)竊電用戶樣本。 在竊電檢測中,錯(cuò)分正常用戶與竊電用戶,后果是不同的。將正常用戶誤報(bào)為竊電用戶可能使正常用戶遭受不必要的經(jīng)濟(jì)損失,影響用戶的信用,也會(huì)增加核查成本;而將竊電用戶錯(cuò)分為正常用戶不僅使竊電用戶逃脫應(yīng)受的懲罰,也讓電力企業(yè)承擔(dān)嚴(yán)重的經(jīng)濟(jì)損失。在保證總的評估性能的基礎(chǔ)上,應(yīng)當(dāng)注重對竊電用戶樣本的評估。為了平衡上述兩種錯(cuò)誤本文采用了4個(gè)指標(biāo)進(jìn)行性能評估,分別為檢出率(Detection rate,DR)、準(zhǔn)確率(ACC)、F1-Score和AUC。其中F1-Score是一種混合度量,常在不平衡樣本分類中調(diào)和精確率和召回率。在AUC中,M為正類樣本的數(shù)目,N為負(fù)類樣本的數(shù)目。相應(yīng)的混淆矩陣如表1所示。 表1 混淆矩陣在竊電檢測中的應(yīng)用 (19) (20) (21) (22) (23) 本文所提模型參數(shù)主要為特征提取階段中SSAE隱藏層維數(shù)以及DF相關(guān)參數(shù)。在SSAE網(wǎng)絡(luò)結(jié)構(gòu)中,輸入層節(jié)點(diǎn)數(shù)為每個(gè)用戶304天(不包含10月)的用電量數(shù)據(jù)。文獻(xiàn)[22]中指出,一般將隱藏層設(shè)為三層可取得良好效果,故本文使用含有三層隱藏層的SSAE。SAE的學(xué)習(xí)率η=0.01,稀疏性參數(shù)ρ=0.05,微調(diào)學(xué)習(xí)率取值為0.2。 采用文獻(xiàn)[1]的方法,在進(jìn)行特征提取的過程中應(yīng)盡量最小化每個(gè)SAE的損失函數(shù)并減少每個(gè)SAE的輸出特征維度。圖8顯示了每個(gè)SAE的LSAE與其特征層維數(shù)的關(guān)系。對于圖8(a)SAE而言,拐點(diǎn)為(125,0.985 8),當(dāng)其特征層維數(shù)大于125以后,LSAE幾乎保持不變,故選擇125作為該特征層的維數(shù)。類似地,圖9(b)、(c)的特征層維數(shù)分別為45、20。 (a) 特征維數(shù) (b) 特征維數(shù) (c) 特征維數(shù)圖8 特征維數(shù)與LSAE的關(guān)系 DF具有無須大量設(shè)置參數(shù)和調(diào)參的優(yōu)點(diǎn),采用默認(rèn)的參數(shù)設(shè)置即可。因此,本文采用DF默認(rèn)的參數(shù)設(shè)置并結(jié)合實(shí)際情況稍作調(diào)整。具體參數(shù)設(shè)置見表2。 表2 DF參數(shù) 3.3.1特征提取的對比與分析 為了評估SSAE特征提取能力,采用了其他四個(gè)常用的特征提取方法與HDDF分類器結(jié)合作為對照組。即基于統(tǒng)計(jì)的特征提取方法、普通AE、PCA、獨(dú)立成分分析(Independent component analysis,ICA),以及未經(jīng)微調(diào)的SSAE。 按照基于統(tǒng)計(jì)的特征提取方法[6-7],提取年、季度、月,不同階段的用戶用電特征,見表3。不同特征維度下準(zhǔn)確率的變化如圖9所示。 表3 統(tǒng)計(jì)特征指標(biāo) 圖9 統(tǒng)計(jì)特征維度對準(zhǔn)確率影響 圖9中,隨著特征維度的增加,準(zhǔn)確率逐步上升,當(dāng)特征維度為30時(shí)達(dá)到最高,此后準(zhǔn)確率有所下降。這是因?yàn)楦魈卣鞯膶傩杂兴P(guān)聯(lián),所提供的有效信息重疊,特征的增加有可能帶來冗余信息干擾以致準(zhǔn)確率下降。 為了使對比更加合理,設(shè)定AE、PCA和ICA所提取到的特征均為20維,而基于統(tǒng)計(jì)提取的特征,使用PCA降維至20維。不同特征提取方法的對比結(jié)果如表4所示。 表4 不同特征提取方法對比 由表4可知,SSAE(微調(diào))在每一項(xiàng)評價(jià)指標(biāo)上均優(yōu)于其他方法。以DR為例,SSAE(微調(diào))比SSAE、PCA、ICA、AE、統(tǒng)計(jì)方法分別提高了6.75%、17.45%、19.31%、16.96%和25.82%。不同特征提取方法的結(jié)果表明,基于統(tǒng)計(jì)方法提取的特征只是從統(tǒng)計(jì)量的角度提取了表層如標(biāo)準(zhǔn)差、均值等特征,未能提取到隱含的深層特征,因而效果不及其他方法。普通自編碼器網(wǎng)絡(luò)的特征尋找能力強(qiáng)于PCA與ICA,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)非線性關(guān)系也能表征非線性變換,因而能比PCA、ICA提高對許多復(fù)雜非線性映射問題的泛化學(xué)習(xí)能力。深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)性能又優(yōu)于普通神經(jīng)網(wǎng)絡(luò),SSAE因?yàn)槠湎∈杼攸c(diǎn)和深層網(wǎng)絡(luò)結(jié)構(gòu)對特征輸入進(jìn)行高效的表征學(xué)習(xí),提升了分類精度,因而表現(xiàn)最好。此外,微調(diào)策略加強(qiáng)了整體網(wǎng)絡(luò)充分提取有用特征信息的能力。 3.3.2模型性能的對比與分析 為驗(yàn)證所提模型性能,本文建立了8種模型對比分析。包括RF、ANN、DF、HDDF、SSAE-RF、SSAE-ANN、SSAE-DF和SSAE-HDDF。其中,前4種模型未進(jìn)行特征提取,后4種模型采用了SSAE模塊進(jìn)行特征提取。結(jié)果如表5、表6所示。 表5 未經(jīng)SSAE特征提取的模型分類結(jié)果 表6 經(jīng)SSAE特征提取后的模型分類結(jié)果 實(shí)驗(yàn)結(jié)果表明,本文所提SSAE-HDDF模型在四個(gè)評價(jià)指標(biāo)上表現(xiàn)最佳,不僅具有較高的總體評估精度,同時(shí)能夠提高對竊電樣本的檢出。在圖10、圖11中,當(dāng)樣本量較小時(shí),SSAE-HDDF的DR值遠(yuǎn)高于其他模型,隨著樣本比例的增加,SSAE-HDDF保持較為穩(wěn)定的趨勢,說明該模型不太受樣本規(guī)模的影響。經(jīng)SSAE提取后的模型性能總體優(yōu)于未經(jīng)SSAE提取過的模型,其中SSAE-HDDF最高可達(dá)73.49%,而最低的ANN僅有55.79%。原因在于SSAE的稀疏性和深層網(wǎng)絡(luò)結(jié)構(gòu)能進(jìn)行高效的表征學(xué)習(xí),提供比原始數(shù)據(jù)更加有用的信息,進(jìn)一步加強(qiáng)后續(xù)DF的分類學(xué)習(xí)能力。DF在Hellinger distance的引入下保證模型精度并且不受先驗(yàn)概率的影響,對不平衡數(shù)據(jù)類分布不是很敏感,提高了模型在學(xué)習(xí)過程中對竊電樣本的重視程度,從而檢測出更多的竊電用戶。 圖10 未提取特征的模型DR值 圖11 經(jīng)提取特征后的模型DR值 由于現(xiàn)有的竊電檢測方法多從電氣量角度提取統(tǒng)計(jì)特征,未能挖掘出深層隱含特征,且算法未考慮數(shù)據(jù)集的不平衡性,本文提出一種結(jié)合SSAE與HDDF的竊電檢測模型。在此模型中,SSAE類似于自動(dòng)特征提取器,HDDF則是輸出分類器。對比實(shí)驗(yàn)表明,提出的SSAE-HDDF模型具有兩個(gè)特性:首先是可以通過混合模型自動(dòng)提取特征。與常見的特征提取方法相比,顯示了SSAE強(qiáng)大的自動(dòng)特征提取能力。其次,采用Hellinger distance改進(jìn)分類算法以克服樣本類別不平衡對分類結(jié)果的影響。HDDF在深度結(jié)構(gòu)下可實(shí)現(xiàn)對輸入特征的多層表征學(xué)習(xí),加強(qiáng)對竊電樣本的重視,提高了竊電樣本識別率。未來工作將會(huì)在特征工程上進(jìn)行改進(jìn)和完善,選取更為有貢獻(xiàn)的特征進(jìn)一步提高竊電用戶的檢出率。3 實(shí)驗(yàn)與結(jié)果分析
3.1 模型評價(jià)指標(biāo)
3.2 模型參數(shù)分析
3.3 對比結(jié)果與分析
4 結(jié) 語