李強(qiáng),張立梅*,白牧可
(1.河北農(nóng)業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院,保定 071000;2.中國電力科學(xué)研究院有限公司,北京 100192)
智能配電網(wǎng)在集成信息通信技術(shù)和智能感知設(shè)備后,成為復(fù)雜的信息物理系統(tǒng),能夠?qū)崿F(xiàn)實(shí)時(shí)感知、信息服務(wù)和動(dòng)態(tài)控制功能。但是,對信息技術(shù)和網(wǎng)絡(luò)物理設(shè)備的高度依賴也使智能配電系統(tǒng)面臨嚴(yán)峻的網(wǎng)絡(luò)威脅,導(dǎo)致設(shè)備、服務(wù)和系統(tǒng)異常[1],從而導(dǎo)致大量的異常數(shù)據(jù)破壞了真實(shí)量測數(shù)據(jù)的完整性和可用性。當(dāng)這些異常數(shù)據(jù)繞過監(jiān)控機(jī)制,參與電力可靠性評估、電網(wǎng)運(yùn)行狀態(tài)估計(jì)和電網(wǎng)調(diào)度管理等,會(huì)造成巨大的經(jīng)濟(jì)損失和嚴(yán)重的安全問題。
開展異常數(shù)據(jù)辨識可以提高智能配電網(wǎng)的防御能力,減少電力企業(yè)和用戶的經(jīng)濟(jì)損失。在異常數(shù)據(jù)辨識研究中,特征提取是進(jìn)行準(zhǔn)確辨識的必備環(huán)節(jié)。文獻(xiàn)[2]提取波動(dòng)性、趨勢性和變動(dòng)性特征對電力數(shù)據(jù)時(shí)間序列進(jìn)行表征;文獻(xiàn)[3]采用分段線性表示方法描述電力數(shù)據(jù)的動(dòng)態(tài)特性;文獻(xiàn)[4]通過計(jì)算杰卡德相似系數(shù)進(jìn)行相似性比較,從而提取異常數(shù)據(jù)特征?,F(xiàn)有工作側(cè)重于多維數(shù)據(jù)的降維處理,忽略了電網(wǎng)結(jié)構(gòu)和電力數(shù)據(jù)的關(guān)聯(lián)關(guān)系,對電力異常數(shù)據(jù)的特征表示還需完善和提高。
作為異常數(shù)據(jù)辨識的主要內(nèi)容,辨識方法的選取對提高辨識準(zhǔn)確性和效率也具有關(guān)鍵作用。概率統(tǒng)計(jì)方法[5]是早期電力異常數(shù)據(jù)檢測中常用的方法,然而這類方法在時(shí)間復(fù)雜度和辨識準(zhǔn)確性上的表現(xiàn)難以滿足智能配電網(wǎng)的要求。近年來,具有多維數(shù)據(jù)處理能力的機(jī)器學(xué)習(xí)分類方法在電力數(shù)據(jù)異常檢測中得到了廣泛應(yīng)用,文獻(xiàn)[6]基于自動(dòng)編碼器檢測由電源管理單元(power management unit,PMU)數(shù)據(jù)操縱攻擊產(chǎn)生的電力異常數(shù)據(jù),構(gòu)建了分布式檢測框架;文獻(xiàn)[7]提出一種基于改進(jìn)極限學(xué)習(xí)機(jī)的電力系統(tǒng)異常數(shù)據(jù)檢測模型,但是沒有實(shí)現(xiàn)在線檢測;文獻(xiàn)[8]結(jié)合主成分分析和改進(jìn)局部離群因子算法檢測異常電力交易數(shù)據(jù),針對異常行為特征實(shí)現(xiàn)分階段檢測,能有效識別電力市場異常行為?;跈C(jī)器學(xué)習(xí)的辨識方法在智能電網(wǎng)中發(fā)揮著重要作用,但是這些方法缺少對配電網(wǎng)數(shù)據(jù)中類不平衡問題的研究,導(dǎo)致異常數(shù)據(jù)的辨識能力弱。
現(xiàn)提出一種基于多元數(shù)據(jù)特征和改進(jìn)隨機(jī)森林算法的智能配電網(wǎng)異常數(shù)據(jù)辨識方法。首先從原始數(shù)據(jù)和衍生數(shù)據(jù)兩方面進(jìn)行特征分析,利用三次樣條插值、K-means聚類和箱線圖法提取原始數(shù)據(jù)特征,進(jìn)而考慮配電網(wǎng)運(yùn)行特性,挖掘電壓越限、三相不平衡等衍生數(shù)據(jù)特征。其次,基于隨機(jī)森林,從Bootstrap抽樣、決策樹構(gòu)造和辨識結(jié)果投票等方面對算法進(jìn)行改進(jìn),以降低類不平衡對模型性能的影響。最后,通過仿真實(shí)驗(yàn)證明該方案的有效性。
異常數(shù)據(jù)辨識過程主要包括數(shù)據(jù)獲取、數(shù)據(jù)清洗、異常數(shù)據(jù)特征提取和異常數(shù)據(jù)辨識4個(gè)環(huán)節(jié),如圖1所示。
RN(A)表示隨機(jī)森林中第N棵決策樹對樣本A的辨識結(jié)果;RRF(A)表示隨機(jī)森林對樣本A的辨識結(jié)果圖1 智能配電網(wǎng)異常數(shù)據(jù)檢測Fig.1 Anomaly data detection for smart distribution network
數(shù)據(jù)獲?。韩@取具有足夠規(guī)模、可靠來源和準(zhǔn)確性的數(shù)據(jù)對于確保研究的完整性至關(guān)重要。智能電表、變壓器等終端設(shè)備在電網(wǎng)信息采集、存儲和傳輸過程中發(fā)揮著重要作用,同時(shí)面臨嚴(yán)峻的網(wǎng)絡(luò)威脅,是獲取量測數(shù)據(jù)的主要途徑。采集的數(shù)據(jù)包括三相電流、三相電壓和功率。
數(shù)據(jù)清洗:采用缺失值填充和離群值檢測方法對原始數(shù)據(jù)進(jìn)行清洗,能夠提升數(shù)據(jù)質(zhì)量,避免由于電力設(shè)備異常、人工操作失誤等原因產(chǎn)生的缺失值和離群值對異常數(shù)據(jù)檢測的干擾。采用三次樣條插值法和箱線圖法進(jìn)行數(shù)據(jù)預(yù)處理。
特征分析:由網(wǎng)絡(luò)攻擊產(chǎn)生的異常數(shù)據(jù)具備隱蔽性,能夠利用與原始測量值一致的分布特性繞過異常數(shù)據(jù)檢測。因此,從原始數(shù)據(jù)和衍生數(shù)據(jù)兩方面進(jìn)行特征分析,能夠進(jìn)一步提高異常數(shù)據(jù)的辨識準(zhǔn)確性。從電壓越限、三相電壓不平衡和三相電流不平衡三方面提取衍生特征。
異常數(shù)據(jù)辨識:在完成特征提取之后,利用清洗后的量測數(shù)據(jù)和衍生數(shù)據(jù)構(gòu)造樣本集,采用改進(jìn)隨機(jī)森林算法訓(xùn)練異常數(shù)據(jù)辨識模型,實(shí)現(xiàn)對樣本數(shù)據(jù)的準(zhǔn)確識別。
智能配電網(wǎng)是集成計(jì)算、網(wǎng)絡(luò)和物理設(shè)備的多維復(fù)雜系統(tǒng),也為異常數(shù)據(jù)的產(chǎn)生和滲透創(chuàng)造了條件。風(fēng)電、光伏等清潔能源的接入,增加了智能配電網(wǎng)的不確定性和波動(dòng)性,導(dǎo)致異常數(shù)據(jù)特征的變化。為了提高異常數(shù)據(jù)辨識準(zhǔn)確性,從原始數(shù)據(jù)特征和衍生數(shù)據(jù)特征兩方面進(jìn)行分析。原始數(shù)據(jù)是從終端設(shè)備采集的歷史數(shù)據(jù),衍生數(shù)據(jù)考慮配電網(wǎng)運(yùn)行的性能要求,包括電壓限制、功率平衡和電網(wǎng)結(jié)構(gòu)等不同的約束,基于歷史數(shù)據(jù)獲得。
原始數(shù)據(jù)特征從樣本數(shù)據(jù)中提取,與相電壓、相電流和三相負(fù)載功率有關(guān),可以表示為F1={UA,UB,UC,IA,IB,IC,P}。不同的配電網(wǎng)量測數(shù)據(jù)具備不同的特征,導(dǎo)致其在一定范圍內(nèi)波動(dòng)[9],如圖2所示。為了構(gòu)建原始數(shù)據(jù)特征,采用三次樣條插值填充缺失值,K-means聚類被用于獲取區(qū)間時(shí)間序列,而箱線圖法則負(fù)責(zé)剔除異常值和提取原始數(shù)據(jù)的邊界特征。原始數(shù)據(jù)特征的構(gòu)建過程如下。
圖2 不同數(shù)據(jù)的區(qū)間時(shí)間序列Fig.2 The interval time sequence of different data
步驟1樣本數(shù)據(jù)集的預(yù)處理??紤]到存在多重?cái)?shù)據(jù)缺失,采用三次樣條插值方法對缺失值進(jìn)行填充[10]。假設(shè)序列X= {x1,x2,…,xp,…,xn},根據(jù)式(1)進(jìn)行區(qū)間[xi,xj]的缺失值填充。
(1)
式(1)中:xp∈[xi,xj];ei+1=xj-xi;gi=S(xi);α、β為需要確定的參數(shù)。
步驟2獲得區(qū)間時(shí)間序列。根據(jù)歷史數(shù)據(jù),計(jì)算時(shí)間序列與區(qū)間時(shí)間序列之間的相似性,進(jìn)行K-means聚類[11],如圖3所示。設(shè)置時(shí)間序列X={x1,x2,…,xp,…,xn}和間隔時(shí)間序列Y={y1,y2,…,yp,…,yn}={[y11,y12],[y21,y22],…,[yp1,yp2],…,[yn1,yn2]},則X和Y之間的距離D在式(2)和式(3)中給出[12]。
圖3 基于k-means獲取區(qū)間時(shí)間序列Fig.3 Obtaining interval time series based on k-means
(2)
(3)
步驟3提取原始數(shù)據(jù)特征。與區(qū)間時(shí)間序列相結(jié)合,采用箱線圖方法提取原始數(shù)據(jù)特征[13]所示的區(qū)間五分位數(shù)來描述分布特征(圖4),對原始數(shù)據(jù)的判斷如式(4)所示。
圖4 基于箱線圖的區(qū)間五分位數(shù)示意圖Fig.4 The schematic of interval quintile based on box-plot
(4)
式(4)中:q1、m和q3為有序的第一四分位數(shù)、中位數(shù)和第三四分位數(shù);r為q3和q1之間的差值,異常數(shù)據(jù)位于邊界q3+1.5r和q1-1.5r的外部。
分布式電源的集成、不平衡負(fù)載和不對稱線路參數(shù)的存在,通常會(huì)引發(fā)智能配電網(wǎng)波動(dòng),網(wǎng)絡(luò)攻擊者會(huì)利用這一特性篡改數(shù)據(jù),提高異常數(shù)據(jù)的隱蔽性。故提出用衍生數(shù)據(jù)特征反映配電網(wǎng)運(yùn)行特性,通過結(jié)合電能質(zhì)量標(biāo)準(zhǔn)和配電網(wǎng)技術(shù)規(guī)范提取衍生數(shù)據(jù)特征,包括電壓越限(ΔU)、三相電流不平衡度(fI)和三相電壓不平衡度(fU),表示為F2={ΔUA, ΔUB, ΔUC,fI,fU}。
2.2.1 電壓越限
電壓越限會(huì)導(dǎo)致電能質(zhì)量下降,干擾負(fù)載或設(shè)備的正常運(yùn)行,甚至導(dǎo)致電力系統(tǒng)崩潰。具有不確定性特征的分布式電源并網(wǎng)導(dǎo)致電壓波動(dòng)經(jīng)常發(fā)生,電壓越限已成為主要的電能質(zhì)量問題,也不可避免地成為網(wǎng)絡(luò)攻擊的目標(biāo)。因此,電壓越限是異常數(shù)據(jù)辨識中不可缺少的組成部分。這里的電壓越限(ΔU)是指由異常數(shù)據(jù)引起的配電網(wǎng)節(jié)點(diǎn)電壓過高或過低的情況,用式(5)描述,即
(5)
式(5)中:ΔU為電壓偏差百分比;U為實(shí)際電壓;UN為標(biāo)稱電壓。
2.2.2 三相不平衡
與電壓越限類似,三相不平衡也是配電系統(tǒng)中的一種常見現(xiàn)象,成為影響配電網(wǎng)異常數(shù)據(jù)檢測性能的主要因素[14]。然而,攻擊者也會(huì)通過虛假數(shù)據(jù)注入引發(fā)三相不平衡,在干擾異常檢測的同時(shí)防止被發(fā)現(xiàn)。因此,可以通過分析三相不平衡提高異常數(shù)據(jù)辨識能力,包括三相電流不平衡度(fI)和三相電壓不平衡度(fU)。式(6)和式(7)中的三相不平衡度分別是三相電流和電壓不平衡的定量表示,表達(dá)式分別為
(6)
(7)
式中:IA、IB、IC分別為A相、B相和C相電流;Iave為三相電流的平均值;UA、UB、UC分別為A相、B相和C相電壓;Uave為三相電壓平均值。
隨機(jī)森林(random forest, RF)是一種基于決策樹的集成學(xué)習(xí)算法,被廣泛應(yīng)用于異常數(shù)據(jù)檢測[15-16]。為了提高算法的異常數(shù)據(jù)辨識能力,設(shè)計(jì)了混合Bootstrap抽樣和加權(quán)投票策略,為解決類別不平衡問題提供了新的思路,并且在決策樹構(gòu)造階段引入信息增益率改進(jìn)最優(yōu)特征的選擇,增加了隨機(jī)森林中決策樹的穩(wěn)定性?;诟倪M(jìn)隨機(jī)森林實(shí)現(xiàn)配電網(wǎng)異常數(shù)據(jù)辨識的具體流程如圖5所示。
圖5 基于改進(jìn)隨機(jī)森林的異常數(shù)據(jù)辨識流程Fig.5 Flow chart of anomaly data identification based on improved random forest
Bootstrap被用于生成訓(xùn)練決策樹的數(shù)據(jù)子集,其實(shí)質(zhì)是對樣本數(shù)據(jù)有放回地進(jìn)行隨機(jī)抽樣[17]。在隨機(jī)森林算法中,首先利用Bootstrap方法從樣本集中有放回的抽取θ組數(shù)據(jù),N次抽樣后得到N個(gè)包含θ組數(shù)據(jù)的訓(xùn)練集;然后利用決策樹算法構(gòu)建N棵決策樹,具體過程如圖6所示。
圖6 混合Bootstrap抽樣方法Fig.6 Sampling method based on hybrid Bootstrap
然而,實(shí)驗(yàn)結(jié)果表明,Bootstrap方法在配電網(wǎng)數(shù)據(jù)集抽樣中表現(xiàn)并不理想,經(jīng)常出現(xiàn)訓(xùn)練子集中異常樣本數(shù)量過少的問題,導(dǎo)致模型不具備優(yōu)異的異常數(shù)據(jù)辨識能力。這與配電網(wǎng)數(shù)據(jù)集中存在的類不平衡現(xiàn)象有關(guān),即正常樣本數(shù)量大于異常樣本數(shù)量。因此,提出一種混合Bootstrap方法,結(jié)合基于樣本不平衡度的過采樣方法,解決由Bootstrap抽樣導(dǎo)致的訓(xùn)練子集類不平衡問題。
人工少數(shù)類過采樣法(synthetic minority oversampling technique,SMOTE)常用于不平衡數(shù)據(jù)集的過采樣,通過對少數(shù)類樣本的多次擬合實(shí)現(xiàn)類平衡[18]。然而,配電網(wǎng)數(shù)據(jù)集中正常樣本和異常樣本的不平衡是客觀規(guī)律,追求類完全平衡是不科學(xué)和不合理的。通過樣本不平衡度控制異常樣本的擬合次數(shù),初始數(shù)據(jù)集d的樣本不平衡度η可以表示為
(8)
如果通過Bootstrap抽樣獲取的訓(xùn)練子集樣本不平衡度η1>η,說明該子集的樣本不平衡問題較為嚴(yán)重,不利于決策樹對異常樣本的識別。此時(shí),需要通過SMOTE方法對訓(xùn)練子集進(jìn)行過采樣,實(shí)現(xiàn)對異常樣本的擴(kuò)充,直到η1=η。
決策樹(classification and regression tree,CART)算法是用于構(gòu)造決策樹的一種方法[19],在節(jié)點(diǎn)或者數(shù)據(jù)集的分裂中實(shí)現(xiàn)對異常數(shù)據(jù)的識別。最優(yōu)分裂特征的選擇是影響決策樹辨識性能的關(guān)鍵因素,CART算法根據(jù)Gini系數(shù)衡量特征重要性。但是,這種方法缺乏對應(yīng)的驗(yàn)證機(jī)制,無法保證最優(yōu)特征的唯一性。因此,在選擇最優(yōu)分裂特征過程中引入信息增益率,對最優(yōu)分裂特征進(jìn)行驗(yàn)證,以提高辨識準(zhǔn)確性和穩(wěn)定性,改進(jìn)決策樹的構(gòu)造過程如圖7所示。
圖7 決策樹構(gòu)造流程Fig.7 Flow chart of constructing a decision tree
在通過特征選擇生成特征子集后,根據(jù)最優(yōu)分裂特征值完成對訓(xùn)練數(shù)據(jù)集的分裂,分裂后訓(xùn)練子集的純度或確定性高于分裂前的數(shù)據(jù)集,進(jìn)而在不斷分裂的過程中實(shí)現(xiàn)對樣本的分類。傳統(tǒng)的CART算法選取Gini系數(shù)量化特征值的重要性,Gini系數(shù)越小,特征值越重要,基于特征值分裂后的數(shù)據(jù)子集確定性越高[20]。根據(jù)特征值auv劃分?jǐn)?shù)據(jù)集d的Gini系數(shù)可以表示為
(9)
(10)
式中:d1和d2為數(shù)據(jù)集d分裂后的子集;H為d中樣本的總類別數(shù);Ch為數(shù)據(jù)集中第h類的樣本數(shù)。
可知,CART算法依據(jù)某一個(gè)特征進(jìn)行分類,對于最優(yōu)特征的選擇具有不確定性,無法保證決策樹的分類準(zhǔn)確性。為此,引入信息增益率對最優(yōu)特征值進(jìn)行驗(yàn)證[21],最優(yōu)特征值應(yīng)該同時(shí)滿足Gini系數(shù)最小和信息增益率最大的約束。首先通過計(jì)算Gini系數(shù)進(jìn)行最優(yōu)特征值的初始選擇,然后與采用信息增益率計(jì)算得到的最優(yōu)特征值進(jìn)行比較,如果兩者相等,則進(jìn)行節(jié)點(diǎn)分裂;否則,繼續(xù)計(jì)算最優(yōu)特征值。信息增益率可以表示為
(11)
Gai(d)=EntroyB(d)-EntroyA(d)
(12)
有時(shí)天氣壞一點(diǎn),逃了學(xué)沒有什么去處,我就一個(gè)人走到城外廟里去。本地大建筑在城外計(jì)三十來處,除了廟宇就是會(huì)館和祠堂。其間空地廣闊,因此均為小手工業(yè)者所利用。那些廟里常常有人在殿前廊下絞繩子、織竹簟、做香,我就看他們做事;有人下棋,我看下棋;有人打拳,我看打拳。
(13)
式中:InfGaiRat為信息增益率;Gai和SplInf分別為信息增益和分裂信息,信息增益率越大,特征值越重要;Nd為父節(jié)點(diǎn)數(shù)據(jù)集的樣本數(shù);Ndl為第l個(gè)子節(jié)點(diǎn)數(shù)據(jù)集的樣本數(shù);L為節(jié)點(diǎn)數(shù);EntroyB和EntroyA分別為樣本數(shù)據(jù)集分裂前、后的熵。
最后,以葉子節(jié)點(diǎn)樣本數(shù)和決策樹深度作為節(jié)點(diǎn)分裂結(jié)束條件,當(dāng)葉子結(jié)點(diǎn)包含樣本數(shù)小于指定閾值或者決策樹深度大于指定閾值時(shí),決策樹節(jié)點(diǎn)停止分裂。
隨機(jī)森林算法通過對決策樹分類結(jié)果進(jìn)行投票作出最終決策,并且任意決策樹的投票權(quán)重相同。通過混合Bootstrap方法,縮小了訓(xùn)練子集中正常樣本和異常樣本的比例,但是類別不平衡現(xiàn)象依然存在。因此,提出一種加權(quán)投票策略,對具有不同分類性能的決策樹賦予不同的投票權(quán)重,目的是提高隨機(jī)森林算法對異常數(shù)據(jù)的辨識能力。為了找到隨機(jī)森林中對異常數(shù)據(jù)更加敏感的決策樹,采用Fβ評估決策樹性能。Fβ是精確度(precision,P)和召回率(recall,R)的加權(quán)調(diào)和平均,F(xiàn)β越大,表明該決策樹對異常樣本的分類性能越好。因此,將Fβ設(shè)置為決策樹的投票權(quán)重。Fβ的計(jì)算方法如下。
(14)
(15)
(16)
式中:NTP為正確識別異常樣本的數(shù)量;NFP和NFN分別為異常樣本和正常樣本被錯(cuò)誤分類的數(shù)量;β為用于平衡精確度和召回率重要性的參數(shù)。
則隨機(jī)森林分類模型輸出為
(17)
式(17)中:Rt為決策樹模型;h為決策樹分類結(jié)果,h=1表示辨識結(jié)果為正常,h=2表示辨識結(jié)果為異常;RRF為隨機(jī)森林分類模型輸出;N為隨機(jī)森林模型中基分類器的總數(shù);I(·)為指示函數(shù),當(dāng)決策樹分類結(jié)果為真時(shí),指示函數(shù)的值為1,反之為0。
在MATLAB環(huán)境中進(jìn)行仿真實(shí)現(xiàn),處理器為Intel(R) Core(TM) i5-7300HQ CPU @2.5 GHz,Window10操作系統(tǒng)。
4.1.1 評價(jià)指標(biāo)
在智能電網(wǎng)異常數(shù)據(jù)辨識中,評估算法性能時(shí)不僅要考慮異常數(shù)據(jù)的正確識別,也應(yīng)該關(guān)注正常樣本的辨識情況。因此,使用準(zhǔn)確度(accuracy, Acc)、精確度和召回率評估模型性能[22]。精確度和召回率的計(jì)算方法見式(14)和式(15),準(zhǔn)確度的計(jì)算方法為
(18)
式(18)中:NTN為正常樣本被正確分類的數(shù)量。
4.1.2 仿真參數(shù)
為了準(zhǔn)確提取數(shù)據(jù)特征,從變壓器中收集了35 712條記錄,包含三相電壓、電流和功率值。每15 min采集一組數(shù)據(jù),每天有96個(gè)采樣點(diǎn)。根據(jù)式(5)~式(7),得到3個(gè)衍生特征。圖8顯示了部分原始數(shù)據(jù)樣本的變化情況,而圖9和圖10是提取的衍生數(shù)據(jù)特征。在由原始數(shù)據(jù)和衍生數(shù)據(jù)組成的數(shù)據(jù)集中,訓(xùn)練樣本占80%,而其他是測試樣本。
圖8 A相電壓原始數(shù)據(jù)Fig.8 Raw data of A-phase voltage
圖9 三相電壓的電壓偏差Fig.9 The Voltage Deviation of three-phase voltage
圖10 三相不平衡度Fig.10 The three-phase unbalance degree
4.2.1 決策樹數(shù)量影響
RF中決策樹數(shù)量與異常檢測性能密切相關(guān)。在不同數(shù)量的決策樹條件下的準(zhǔn)確度和訓(xùn)練時(shí)間如圖11所示,其中初始數(shù)量和增量均為10??梢钥闯觯惴ǖ臏?zhǔn)確度隨決策樹數(shù)量的增加而提高,當(dāng)決策樹數(shù)量達(dá)到60時(shí)保持穩(wěn)定。與準(zhǔn)確度不同的是,訓(xùn)練時(shí)間不斷增加。因此,考慮到時(shí)間要求,建議在滿足辨識準(zhǔn)確性的條件下采用較少的決策樹數(shù)量。因此,在后續(xù)試驗(yàn)中將決策樹數(shù)量設(shè)置為60。
圖11 不同決策樹數(shù)量的影響Fig.11 Influence under different number of decision trees
4.2.2 衍生數(shù)據(jù)特征影響
如圖12所示為衍生數(shù)據(jù)特征對算法性能的影響??梢钥闯?,考慮衍生特征時(shí)的準(zhǔn)確度、精確度和召回率都優(yōu)于僅使用原始數(shù)據(jù)特征。結(jié)果表明,衍生數(shù)據(jù)特征的引入確實(shí)減少了異常數(shù)據(jù)的錯(cuò)誤分類。此外,引入衍生特征在增加樣本規(guī)模的情況下節(jié)約了運(yùn)行時(shí)間,說明算法效率明顯提高。兩種算法的性能曲線均不隨迭代操作次數(shù)的增加而發(fā)生劇烈波動(dòng),這表明該算法具有穩(wěn)定的識別性能。
圖12 衍生數(shù)據(jù)特征的影響Fig.12 Influence of derived data features
針對數(shù)據(jù)集A、B、C,將本文方法與決策樹算法、BP神經(jīng)網(wǎng)絡(luò)、SVM和傳統(tǒng)隨機(jī)森林4種方法進(jìn)行比較分析,驗(yàn)證所提出的檢測方法的有效性。在仿真中,決策樹是通過CART算法構(gòu)建的,BPNN的隱層數(shù)為4層,而SVM采用高斯核實(shí)現(xiàn),傳統(tǒng)隨機(jī)森林中決策樹數(shù)量也設(shè)置為60。
表1列出了不同模型的異常數(shù)據(jù)辨識結(jié)果,DT、BPNN、SVM和傳統(tǒng)隨機(jī)森林在3個(gè)數(shù)據(jù)集上的召回率都遠(yuǎn)小于本文算法,說明它們易將異常數(shù)據(jù)識別為正常數(shù)據(jù),會(huì)出現(xiàn)異常數(shù)據(jù)的漏檢和誤檢,這是由于這些算法缺乏類不平衡數(shù)據(jù)的處理機(jī)制。通過采用混合Bootstrap抽樣和加權(quán)投票,提高了算法的異常數(shù)據(jù)識別能力,獲得了較高的召回率。此外,通過比較不同數(shù)據(jù)集的檢測結(jié)果,可以看出本文算法具有穩(wěn)定的辨識性能,這是由于引入信息增益率優(yōu)化了最優(yōu)特征選擇過程。與傳統(tǒng)隨機(jī)森林比較,本文算法的訓(xùn)練時(shí)間有所增加,但是仍然低于BPNN和SVM。
表1 不同模型的性能比較Table 1 Performance comparison of different models
提出一種基于多元數(shù)據(jù)特征和改進(jìn)隨機(jī)森林的異常數(shù)據(jù)辨識方法,進(jìn)一步提高了異常數(shù)據(jù)檢測的準(zhǔn)確度。通過大量仿真比較,得出如下結(jié)論。
(1)多元數(shù)據(jù)特征能夠有效反映異常數(shù)據(jù)的動(dòng)態(tài)變化規(guī)律。提取原始數(shù)據(jù)特征對于獲取多元數(shù)據(jù)分布特性具有重要作用,而衍生數(shù)據(jù)特征有助于深入挖掘數(shù)據(jù)相關(guān)性,擴(kuò)展了數(shù)據(jù)集規(guī)模并且提高了模型的學(xué)習(xí)能力。
(2)針對類不平衡問題提出了改進(jìn)隨機(jī)森林算法。提出結(jié)合過采樣的混合Bootstrap方法,基于樣本不平衡度構(gòu)造異常數(shù)據(jù),根據(jù)決策樹的異常數(shù)據(jù)辨識能力進(jìn)行加權(quán)投票,提高算法的異常數(shù)據(jù)檢測性能,能夠避免誤檢和漏檢。
(3)本文算法在異常數(shù)據(jù)辨識準(zhǔn)確性和穩(wěn)定性上表現(xiàn)優(yōu)異。仿真結(jié)果表明,當(dāng)決策樹數(shù)量為60棵時(shí),隨機(jī)森林辨識性能最好。本文算法在3個(gè)數(shù)據(jù)集上的異常數(shù)據(jù)辨識準(zhǔn)確度都超過99%,優(yōu)于決策樹、支持向量機(jī)等算法。