国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不平衡數(shù)據(jù)集異常檢測(cè)和分類算法

2023-10-07 03:41:22陳湘媛王冠男崔艷輝
關(guān)鍵詞:類別聚類分類

樊 芮,陳湘媛,王冠男,崔艷輝

(1.國(guó)網(wǎng)湖南省電力有限公司供電服務(wù)中心(計(jì)量中心)智能電氣量測(cè)與應(yīng)用技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410004;2.國(guó)網(wǎng)征信有限公司,北京 100055)

異常檢測(cè)是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要研究方向,目標(biāo)是從數(shù)據(jù)集中自動(dòng)檢測(cè)和識(shí)別出有別于其中大部分?jǐn)?shù)據(jù)的異常部分,在生物醫(yī)學(xué)疾病診斷、金融財(cái)經(jīng)欺詐檢測(cè)、信息安全故障診斷和工業(yè)系統(tǒng)入侵檢測(cè)等領(lǐng)域得到了廣泛應(yīng)用[1-2]。

目前國(guó)內(nèi)外學(xué)者對(duì)異常檢測(cè)的研究主要分為基于統(tǒng)計(jì)理論的方法、基于聚類的方法、基于分類的方法和基于神經(jīng)網(wǎng)絡(luò)的方法4大類。其中,基于統(tǒng)計(jì)理論的方法認(rèn)為自然界中的數(shù)據(jù)集都可以用某種確定的概率分布模型進(jìn)行建模,集合中與該模型概率分布不符的數(shù)據(jù)點(diǎn)即為異常數(shù)據(jù)[3-4];基于聚類的方法根據(jù)數(shù)據(jù)集的相關(guān)程度將其劃分為不同的簇,與簇中心相關(guān)程度較小的樣本即判決為異常數(shù)據(jù),作為一種無(wú)監(jiān)督方法,該類方法不需要訓(xùn)練集,并且原理簡(jiǎn)單,容易實(shí)現(xiàn)[5-7];基于分類的方法通過(guò)挖掘并提取帶標(biāo)簽訓(xùn)練數(shù)據(jù)集內(nèi)不同類別樣本之間的差異性信息,并利用該信息學(xué)習(xí)得到最優(yōu)分類函數(shù),從而實(shí)現(xiàn)對(duì)測(cè)試數(shù)據(jù)類別屬性的判斷,由于帶標(biāo)簽訓(xùn)練樣本集的使用,該類方法得到的檢測(cè)性能通常優(yōu)于基于聚類的方法[8-12];基于神經(jīng)網(wǎng)絡(luò)的方法是近年來(lái)隨著人工智能和深度學(xué)習(xí)技術(shù)的發(fā)展而興起的一種新方法,以卷積神經(jīng)網(wǎng)絡(luò)、多層感知機(jī)等方法為代表,由于具備自適應(yīng)、自學(xué)習(xí)和非線性逼近能力,得到了廣泛應(yīng)用[13-14]。

上述研究大都采用單一模型,雖然在面對(duì)各自特定問(wèn)題時(shí)獲得了較好的結(jié)果,但是隨著異常檢測(cè)問(wèn)題愈加復(fù)雜及數(shù)據(jù)規(guī)模愈加龐大,并且實(shí)際生產(chǎn)生活中異常檢測(cè)算法面對(duì)的通常是不平衡數(shù)據(jù)集[15],上述單一模型會(huì)帶來(lái)許多問(wèn)題。例如K-均值聚類(K-means)方法的聚類性能對(duì)聚類個(gè)數(shù)的選擇依賴性較大[16],支撐向量機(jī)SVM(Support Vector Machine)和神經(jīng)網(wǎng)絡(luò)方法在面對(duì)不平衡樣本時(shí)性能會(huì)出現(xiàn)下降[17]??梢?jiàn),單一模型應(yīng)用存在局限性,將多個(gè)模型進(jìn)行組合應(yīng)用優(yōu)勢(shì)更加明顯。

針對(duì)上述問(wèn)題,本文提出一種SVDD-ImSMOTEMICD-K-means組合模型用于實(shí)現(xiàn)不平衡數(shù)據(jù)集條件下的異常數(shù)據(jù)檢測(cè)和分類。首先利用正常類樣本訓(xùn)練支撐向量數(shù)據(jù)描述SVDD(support vector data description)分類器構(gòu)造閉合分類面,從而實(shí)現(xiàn)對(duì)“異?!睌?shù)據(jù)的檢測(cè);然后對(duì)“異?!睌?shù)據(jù)進(jìn)行進(jìn)一步分析,利用所提的改進(jìn)少數(shù)類樣本合成技術(shù)ImSMOTE(improved syntheticminority over- sampling technique)對(duì)少數(shù)類別進(jìn)行過(guò)采樣以構(gòu)建平衡數(shù)據(jù)集;最后利用所提最大類間-類內(nèi)距K-均值聚類MICD-K-means(maximization of inter-intra class distance K-means)對(duì)“異?!睌?shù)據(jù)進(jìn)行自動(dòng)聚類,得到具體的異常數(shù)據(jù)類別屬性。基于加州大學(xué)歐文分校UCI(University of California lrivine)公共數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)方法,所提方法能夠獲得更高的異常檢測(cè)和分類性能。

1 算法概述

圖1 給出了利用所提組合模型進(jìn)行異常檢測(cè)的流程,包含訓(xùn)練和測(cè)試2個(gè)過(guò)程。訓(xùn)練過(guò)程的輸入數(shù)據(jù)為正常類樣本,利用主成分分析PCA(principal component analysis)進(jìn)行特征提取和數(shù)據(jù)降維,進(jìn)而對(duì)SVDD 分類器進(jìn)行訓(xùn)練得到最優(yōu)分類面。相對(duì)于傳統(tǒng)SVM 等分類器,SVDD 只需要正常類樣本即可構(gòu)造閉合分類面,大大降低了訓(xùn)練數(shù)據(jù)集的構(gòu)造難度。將測(cè)試過(guò)程的輸入數(shù)據(jù)分為正常和異常類樣本,同樣利用PCA對(duì)輸入數(shù)據(jù)進(jìn)行特征提取和數(shù)據(jù)降維,然后將提取的特征向量作為輸入,利用訓(xùn)練階段得到的最優(yōu)SVDD 分類面進(jìn)行異常檢測(cè),從而將輸入數(shù)據(jù)自動(dòng)劃分為正常和異常兩類,至此完成了算法的第1 階段,即基于SVDD 的異常數(shù)檢測(cè)。第2 階段為基于MICD-K-means 的異常數(shù)據(jù)分類,首先利用所提ImSMOTE 對(duì)樣本集中少數(shù)類別進(jìn)行過(guò)采樣以獲得均衡數(shù)據(jù)集;然后利用MICD-K-means 算法對(duì)異常數(shù)據(jù)進(jìn)行聚類分析,自動(dòng)將其聚集為K個(gè)類別,從而實(shí)現(xiàn)異常數(shù)據(jù)類別屬性的區(qū)分。

圖1 本文所提方法流程Fig.1 Flow chart of proposed method

2 基于SVDD 的異常數(shù)據(jù)檢測(cè)

2.1 基于PCA 的數(shù)據(jù)降維

異常檢測(cè)問(wèn)題的多樣性和復(fù)雜性決定了研究人員通常會(huì)面臨高維、非線性和海量數(shù)據(jù)的處理需求,可能產(chǎn)生維數(shù)災(zāi)難問(wèn)題。同時(shí),數(shù)據(jù)中往往還存在著大量重復(fù)、冗余信息,不僅會(huì)降低算法運(yùn)行效率,還會(huì)影響檢測(cè)性能。因此,在進(jìn)行異常檢測(cè)前通常需要對(duì)高維數(shù)據(jù)進(jìn)行降維處理。

PCA 是數(shù)據(jù)分析領(lǐng)域中一種經(jīng)典的數(shù)據(jù)降維和特征提取方法,通過(guò)線性變換將原始數(shù)據(jù)中具有相關(guān)性的信息進(jìn)行組合得到少量相互正交的綜合性特征,這些綜合性特征即為主分量。對(duì)于任意D維觀測(cè)數(shù)據(jù)s=[s1,s2,…,sD]T,利用PCA 進(jìn)行數(shù)據(jù)處理的主要步驟如下。

步驟1協(xié)方差矩陣計(jì)算,其計(jì)算公式為

式中:R為觀測(cè)數(shù)據(jù)的協(xié)方差矩陣;E( )表示期望運(yùn)算;u為觀測(cè)數(shù)據(jù)s的均值;上標(biāo)H 表示矩陣復(fù)共軛運(yùn)算。

步驟2特征值分解。對(duì)協(xié)方差矩陣R進(jìn)行特征值分解,從而得到特征值和特征向量,即

式中:λi和vi分別為協(xié)方差矩陣的特征值和特征向量,且λ1≥λ2≥…≥δ2=…=δ2,δ2為噪聲方差;W為主分量個(gè)數(shù)。

步驟3根據(jù)能量占比大的特征值個(gè)數(shù)來(lái)確定主分量。將占特征值總能量90%的大特征值對(duì)應(yīng)的特征向量作為主分量,其計(jì)算公式為

步驟4子空間投影實(shí)現(xiàn)數(shù)據(jù)降維。將原始數(shù)據(jù)投影到步驟3 得到的主分量張成的子空間中以實(shí)現(xiàn)數(shù)據(jù)降維,即

式中,為PCA降維后的數(shù)據(jù)。

2.2 基于SVDD 的異常檢測(cè)

對(duì)于自然界的過(guò)程,正常是一種長(zhǎng)期且穩(wěn)定的狀態(tài),異常是暫時(shí)且隨機(jī)的狀態(tài)。在采用分類方法進(jìn)行異常檢測(cè)時(shí),通常難以獲得足夠多的異常樣本用于模型訓(xùn)練,而SVDD分類器只需要正常類樣本即可構(gòu)造閉合覆蓋模型,從而實(shí)現(xiàn)對(duì)未知樣本的判斷。因此,本文選用SVDD分類器進(jìn)行異常檢測(cè),實(shí)現(xiàn)對(duì)測(cè)試樣本正?;虍惓5念悇e判決[18]。

設(shè)給定的正常類訓(xùn)練樣本集Xti=[xt1,xt2,…,xtN]T,其中xtN為Xti中的第N個(gè)樣本。SVDD基于閉環(huán)超球體的分類問(wèn)題可以利用如下優(yōu)化函數(shù)進(jìn)行描述:

式中:c和r分別為超球體的球心和半徑;ξi和C分別為松弛變量和懲罰因子。當(dāng)訓(xùn)練樣本集在原始空間中不符合球狀分布時(shí),SVDD 通過(guò)核函數(shù)將其映射到高維空間進(jìn)行分析。目前常用的核函數(shù)為高斯核函數(shù),可以表示為

式中:K(xti,xtj)為高斯核函數(shù);σ為高斯核參數(shù),σ的取值決定著超球體邊界的緊密性。在高維空間中,結(jié)合拉格朗日乘子和核函數(shù)可以將式(5)轉(zhuǎn)換為如下的對(duì)偶形式:

式中,α′i為xti對(duì)應(yīng)的指示參數(shù)。當(dāng)α′i>0 時(shí),xti為最優(yōu)超球體上的支撐向量,利用所有支撐向量可以計(jì)算得到最優(yōu)超球體的球心c和半徑r為

式中,‖ ‖2表示歐式距離算子。式(8)即為最優(yōu)SVDD 分類面的表達(dá)式。在測(cè)試階段,對(duì)于任意未知測(cè)試樣本x*,SVDD的決策方程為

若f(x*)≤0,則表明x*處于超球體內(nèi)部,將其判決為正常類樣本;若f(x*)>0,則x*處于超球體外部,將其判決為異常類樣本。

3 基于MICD-K-means 的異常數(shù)據(jù)聚類

3.1 ImSMOTE 過(guò)采樣

根據(jù)圖1 所示流程,在基于SVDD 分類器實(shí)現(xiàn)正常類和異常類樣本分類后,需要進(jìn)一步對(duì)異常類樣本進(jìn)行分析,將其劃分為不同的聚類。由于異常數(shù)據(jù)通常呈現(xiàn)出典型的樣本不平衡現(xiàn)象,如果直接對(duì)不平衡樣本集進(jìn)行分類,多數(shù)類樣本會(huì)模糊少數(shù)類樣本的邊界,在類別重疊區(qū)域,分類器會(huì)將大部分少數(shù)類樣本判決為多數(shù)類樣本以得到較低的誤分率。為了解決該問(wèn)題,通常對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣以構(gòu)建平衡數(shù)據(jù)集[19],SMOTE是其中的經(jīng)典方法。該算法通過(guò)隨機(jī)選擇少數(shù)類樣本并在其與近鄰樣本之間插入多個(gè)合成樣本的方式,生成無(wú)重復(fù)的新的少數(shù)類樣本以實(shí)現(xiàn)數(shù)據(jù)集均衡。

SMOTE 算法具有原理簡(jiǎn)單、容易實(shí)現(xiàn)等優(yōu)點(diǎn)。但是在實(shí)際應(yīng)用中,只有分布在不同類別樣本集合邊界處的數(shù)據(jù)才會(huì)對(duì)分類結(jié)果產(chǎn)生影響,在樣本集內(nèi)部的數(shù)據(jù)不但對(duì)分類結(jié)果影響較小,反而會(huì)增加算法運(yùn)算復(fù)雜度[20]?;诖?,本文對(duì)SMOTE算法進(jìn)行改進(jìn),只對(duì)少數(shù)分布在數(shù)據(jù)集邊界的樣本進(jìn)行過(guò)采樣操作,使得合成后的數(shù)據(jù)集兼顧分類性能和運(yùn)算效率。本文所提的ImSMOTE算法步驟如下。

步驟1近鄰樣本計(jì)算。對(duì)少數(shù)類數(shù)據(jù)集中每個(gè)樣本hi,根據(jù)歐式距離由近及遠(yuǎn)關(guān)系確定其k近鄰樣本集。

步驟2判斷是否為邊界點(diǎn)。對(duì)樣本hi的k近鄰樣本集中的樣本比例進(jìn)行分析,若集合中多數(shù)類樣本比例高于少數(shù)類樣本比例,則將hi判定為邊界樣本,否則將其放回少數(shù)類樣本集。

步驟3對(duì)邊界樣本集進(jìn)行過(guò)采樣。對(duì)步驟2得到的邊界樣本集進(jìn)行過(guò)采樣操作,合成新的樣本hnew。過(guò)采樣操作需滿足如下關(guān)系式:

式中:hj為邊界樣本集中根據(jù)過(guò)采樣倍數(shù)n隨機(jī)選取的樣本;rand( )1 表示[0,1]范圍內(nèi)的隨機(jī)數(shù)。

步驟4重復(fù)步驟1~步驟3,直至構(gòu)建滿足數(shù)量要求的均衡樣本集。

3.2 MICD-K-means 聚類

K-均值聚類作為一種經(jīng)典的無(wú)監(jiān)督聚類方法,用樣本之間歐式距離的大小來(lái)衡量樣本相似程度,從而將距離近的樣本劃分為同一子集實(shí)現(xiàn)數(shù)據(jù)聚類,具有簡(jiǎn)單高效的優(yōu)點(diǎn)。采用K-均值聚類時(shí)首先需要確定聚類個(gè)數(shù),常用方法是根據(jù)先驗(yàn)信息進(jìn)行設(shè)置,但存在主觀性強(qiáng)和適應(yīng)性差的問(wèn)題,并且實(shí)際中很多應(yīng)用場(chǎng)景都無(wú)法獲得先驗(yàn)信息。針對(duì)該問(wèn)題,本文提出MICD-K-means方法,對(duì)異常數(shù)據(jù)進(jìn)行自動(dòng)聚類,提升算法的自動(dòng)化程度和適應(yīng)性。具體步驟如下。

步驟1設(shè)置類別數(shù)K=1。

步驟2從數(shù)據(jù)集中隨機(jī)選擇K個(gè)樣本g1,g2,…,gK作為初始聚類中心。

步驟3計(jì)算每個(gè)樣本到K個(gè)聚類中心的歐式距離,并將其劃分至與其距離最近聚類中心對(duì)應(yīng)的子類中。樣本fi到聚類中心gj的歐式距離可以表示為

步驟4對(duì)K個(gè)子類的聚類中心進(jìn)行更新,更新公式為

式中,nk為第k個(gè)子類的樣本數(shù)。

步驟5按K個(gè)新聚類中心對(duì)樣本進(jìn)行重新劃分,若連續(xù)兩次得到的劃分結(jié)果一致,則算法收斂,否則重復(fù)步驟3~步驟5。

步驟6計(jì)算算法收斂后的類間-內(nèi)間距rK,其計(jì)算公式為

步驟7K=K+1,轉(zhuǎn)至步驟2。

步驟8將K=1,2,…,n遍歷,得到r1,r2,…,rn。選擇最大類間-內(nèi)間距對(duì)應(yīng)的類別數(shù)K作為最終的聚類個(gè)數(shù)。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證所提異常檢測(cè)算法在實(shí)際工程應(yīng)用中的性能,采用KDD CUP’99入侵檢測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集開(kāi)展驗(yàn)證實(shí)驗(yàn)。KDD CUP’99是MIT林肯實(shí)驗(yàn)室和美國(guó)國(guó)防高級(jí)研究計(jì)劃局合作建立的入侵檢測(cè)系統(tǒng)錄取的tcpdump 數(shù)據(jù),被廣泛應(yīng)用于工業(yè)系統(tǒng)異常入侵檢測(cè)領(lǐng)域。該數(shù)據(jù)集包含1 類Normal(正常)數(shù)據(jù)及DoS(拒絕服務(wù)攻擊)、R2L(遠(yuǎn)程非授權(quán)訪問(wèn))、U2R(非法獲得超級(jí)用戶權(quán)限)、Probe(探測(cè)和掃描)4類攻擊數(shù)據(jù)。,每條數(shù)據(jù)由41維網(wǎng)絡(luò)包基本信息特征構(gòu)成。表1 給出了每種數(shù)據(jù)類別對(duì)應(yīng)的樣本分布情況,可以看出,該數(shù)據(jù)集中樣本分布極不均衡,DoS類異常數(shù)據(jù)占總數(shù)據(jù)的80%以上,而U2R和R2L兩類數(shù)據(jù)分別只有52和126條記錄。

表1 KDD CUP’99 數(shù)據(jù)集數(shù)據(jù)分布Tab.1 Data distribution of KDD CUP’99 data set

4.2 評(píng)估指標(biāo)

目前,對(duì)異常檢測(cè)算法進(jìn)行評(píng)估通常采用異常檢測(cè)結(jié)果混淆矩陣,如表2所示。根據(jù)異常檢測(cè)結(jié)果混淆矩陣可以計(jì)算得到準(zhǔn)確率和誤檢率等評(píng)估指標(biāo)。

表2 異常檢測(cè)結(jié)果混淆矩陣Tab.2 Confusion matrix of abnormal detection results

由于本文所提方法在常規(guī)異常檢測(cè)基礎(chǔ)上進(jìn)一步具備了異常數(shù)據(jù)類別屬性判斷,即分類能力,異常檢測(cè)結(jié)果混淆矩陣(見(jiàn)表2)已不能全面衡量多類分類時(shí)不同方法的性能,因此本文對(duì)異常檢測(cè)結(jié)果混淆矩陣進(jìn)行擴(kuò)展得到異常檢測(cè)及分類結(jié)果混淆矩陣,如表3 所示,其中TPi_P 為將實(shí)際第i類數(shù)據(jù)判決為第i類標(biāo)簽的樣本數(shù),TPi_N 為將實(shí)際第i類數(shù)據(jù)判決為其他K-1類標(biāo)簽的樣本數(shù)。

表3 異常檢測(cè)及分類結(jié)果混淆矩陣Tab.3 Confusion matrix of anomaly detection and classification results

在異常檢測(cè)及分類結(jié)果混淆矩陣的基礎(chǔ)上,定義每種類別分類的正確率(ACC)和所有類別分類的平均正確率(ACC_MEAN)兩項(xiàng)指標(biāo)對(duì)所提方法的異常檢測(cè)與分類性能進(jìn)行定量評(píng)估。其中,每種類別分類正確率為該類別正確分類樣本數(shù)除以該類別樣本總數(shù);所有類別分類的平均正確率為所有正確分類樣本數(shù)除以總樣本數(shù),可分別表示為

4.3 數(shù)據(jù)降維

根據(jù)圖1所示流程,首先采用PCA 方法對(duì)輸入數(shù)據(jù)進(jìn)行降維處理。圖2 給出了PCA 分解后得到的輸入數(shù)據(jù)特征值譜圖,可以看出,從序號(hào)為8 的特征值開(kāi)始,對(duì)應(yīng)的歸一化特征值已接近于0。根據(jù)式(3)可以計(jì)算得到能量占比大的特征值個(gè)數(shù)為3。表4 給出了3 個(gè)能量占比大的特征值對(duì)應(yīng)主分量之間的相關(guān)系數(shù),可以看出,3 個(gè)主分量(PC1~PC3)之間及3個(gè)主分量與剩余特征向量之間的相關(guān)系數(shù)均很?。ㄐ∮?0-6),這表明特征之間幾乎不存在冗余重復(fù)信息,有效實(shí)現(xiàn)了數(shù)據(jù)降維。

表4 不同主分量之間的相關(guān)系數(shù)Tab.4 Correlation coefficients between different principal components

圖2 特征值譜圖Fig.2 Eigenvalue spectrum

4.4 樣本均衡及MICD-K-means 聚類個(gè)數(shù)確定

利用所提ImSMOTE 方法對(duì)U2R 和R2L2 類異常數(shù)據(jù)進(jìn)行過(guò)采樣處理,以實(shí)現(xiàn)樣本均衡。根據(jù)表1所示每種類別樣本數(shù)量,對(duì)U2R類樣本和R2L類樣本進(jìn)行50 倍過(guò)采樣,使樣本均衡后兩類樣本數(shù)據(jù)分別為2 600 和6 300。在完成樣本均衡后,根據(jù)MICD-K-means 方法得到類內(nèi)-類間距變化曲線如圖3 所示,可以看出,當(dāng)K=4 時(shí)類間-類內(nèi)距最大,則將所提方法自動(dòng)確定聚類個(gè)數(shù)K為4。

圖3 類間-類內(nèi)距隨K 變化曲線Fig.3 Variation curve of inter-intra class distance with K

4.5 異常檢測(cè)及分類結(jié)果

根據(jù)圖1 所示流程,在完成PCA 降維后,首先需要利用SVDD 分類器進(jìn)行正?;虍惓n惲信袥Q,因此實(shí)驗(yàn)中取70%的正常樣本作為訓(xùn)練數(shù)據(jù)集建立最優(yōu)SVDD 分類面,對(duì)剩余30%正常樣本和所有異常數(shù)據(jù)(4 類異常數(shù)據(jù)被歸為1 類)進(jìn)行判決,SVDD 核參數(shù)采用五折交叉驗(yàn)證的方式進(jìn)行尋優(yōu)。表5給出了判決結(jié)果混淆矩陣,可以看出,SVDD在實(shí)現(xiàn)對(duì)所有異常樣本正確判決的同時(shí),僅僅將少量正常樣本(13組)判決為異常,有效實(shí)現(xiàn)了異常檢測(cè)。

表5 SVDD 異常檢測(cè)結(jié)果混淆矩陣Tab.5 Confusion matrix of SVDD anomaly detection results

對(duì)表5 判決為異常的數(shù)據(jù)利用MICD-K-means得到的聚類結(jié)果如圖4 所示。為了直觀展示聚類結(jié)果,圖4 給出了4 類類異常數(shù)據(jù)邊界處部分?jǐn)?shù)據(jù)的二維平面投影結(jié)果,可以看出,每類異常數(shù)據(jù)在二維平面均表現(xiàn)出了較高的聚集性,且4類異常數(shù)據(jù)之間又呈現(xiàn)出了較高的差異性。

圖4 MICD-K-means 聚類結(jié)果二維平面投影Fig.4 Two-dimensional plane projection of MICD-Kmeans clustering results

對(duì)圖4 和表5 所示結(jié)果進(jìn)行綜合分析,得到本文所提異常數(shù)據(jù)檢測(cè)及分類結(jié)果混淆矩陣,如表6所示。同時(shí)為了對(duì)比,表7 和表8 分別給出了在相同條件下采用多步多分類器MSMT(multi-step and multi-type classification)[13]和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM(long short term memory)[14]進(jìn)行異常檢測(cè)及分類得到結(jié)果混淆矩陣,其中MSMT 分別采用SVM、決策樹(shù)和B-Bagging3 種分類器按步驟逐步實(shí)現(xiàn)對(duì)DoS、Probe、Normal、U2R和R2L的檢測(cè)。圖5給出了不同方法異常檢測(cè)性能對(duì)比。對(duì)表5~表8及圖5所示結(jié)果進(jìn)行對(duì)比分析可知,3 種方法對(duì)Normal、Probe 和DoS3 類數(shù)據(jù)得到的分類正確率較為接近,其中LSTM 和MSMT 兩種方法對(duì)3 類數(shù)據(jù)的正確分類率均高于97%,所提方法對(duì)3 類數(shù)據(jù)的正確分類率高于99%,但是由于LSTM沒(méi)有進(jìn)行樣本均衡,對(duì)U2R 和R2L 兩類數(shù)據(jù)的正確分類概率分別只有61.5%和60.3%。進(jìn)一步對(duì)表7進(jìn)行分析可知,為了獲得更高的平均正確分類率,在模型訓(xùn)練過(guò)程中LSTM將大部分U2R類和R2L類數(shù)據(jù)判決為數(shù)據(jù)更多的DoS類和Probe類數(shù)據(jù)。由表8可知,MSMT對(duì)U2R 類數(shù)據(jù)的正確分類概率達(dá)到80.7%,對(duì)R2L 類數(shù)據(jù)的分類正確概率為76.2%,相比于LSTM 有一定提升,但是MSMT在對(duì)U2R和R2L兩類數(shù)據(jù)的判決中出現(xiàn)了混淆,將大部分R2L類數(shù)據(jù)判決為U2R類數(shù)據(jù),導(dǎo)致性能出現(xiàn)下降。由圖5 可知,所提方法對(duì)U2R 和R2L 兩類數(shù)據(jù)的平均正確分類率高于96%,相對(duì)于LSTM 和MSMT 方法分別提升了30%以上和15%以上,性能優(yōu)勢(shì)明顯,驗(yàn)證了所提方法的有效性。

表6 所提異常檢測(cè)及分類結(jié)果混淆矩陣Tab.6 Confusion matrix of the proposed anomaly detection and classification result

表7 LSTM 異常檢測(cè)及分類結(jié)果混淆矩陣Tab.7 Confusion matrix of LSTM anomaly detection and classification results

表8 MSMT 異常檢測(cè)及分類結(jié)果混淆矩陣Tab.8 Confusion matrix of MSMT anomaly detection and classification results

圖5 不同方法異常檢測(cè)性能對(duì)比Fig.5 Anomaly detection performance of different methods

接收機(jī)工作特性ROC(receiver operating characteristic)曲線及接收機(jī)工作特性曲線下面積AUC(area under ROC curve)被廣泛應(yīng)用于評(píng)估分類模型的性能。ROC曲線最初用于評(píng)估兩類分類問(wèn)題,對(duì)于多類分類問(wèn)題,可以將其轉(zhuǎn)化為多個(gè)兩類分類問(wèn)題,即除正類外其他都作為負(fù)類,然后分別構(gòu)建多條ROC 曲線,最后通過(guò)對(duì)多條ROC 曲線取平均的方式得到最終的ROC曲線。

圖6 給出了對(duì)不同方法進(jìn)行評(píng)估得到的ROC曲線,其中橫坐標(biāo)為根據(jù)分類結(jié)果計(jì)算得到的虛警概率FPR,縱坐標(biāo)為對(duì)應(yīng)的檢測(cè)概率TPR,可以看出,所提方法的ROC 曲線更靠近于平面的左上方,AUC 值(0.892 4)明顯大于MSMT(0.824 7)和LSTM(0.802 5),這表明所提方法具有更好的分類性能。

圖6 不同方法的ROC 曲線Fig.6 ROC curves of different methods

數(shù)據(jù)采集和存取過(guò)程中通常會(huì)引入噪聲分量,因此異常檢測(cè)算法在低信噪比條件下仍能獲得較好的性能。通過(guò)加入高斯白噪聲構(gòu)造低信噪比為0 dB的實(shí)驗(yàn)數(shù)據(jù)來(lái)驗(yàn)證所提方法的泛化能力。圖7給出了低信噪比條件下不同方法的對(duì)比結(jié)果,可以看出,低信噪比條件下所提方法對(duì)每類數(shù)據(jù)的分類性能仍明顯優(yōu)于LSTM 和MSMT。對(duì)比圖5 和圖7可以看出,信噪比降低后LSTM 和MSTM 的ACC_MEAN 指標(biāo)分別下降了17.7%和13.5%,而所提方法的ACC_MEAN 指標(biāo)僅下降6.2%,這表明所提方法具有較高的噪聲魯棒性,對(duì)低信噪比數(shù)據(jù)具有較強(qiáng)的泛化能力。

圖7 低信噪比條件下不同方法異常檢測(cè)性能Fig.7 Anomaly detection performance of different methods at low signal-to-noise ratio

為了進(jìn)一步驗(yàn)證所提方法對(duì)不同數(shù)據(jù)的泛化能力,采用某地區(qū)異常用電實(shí)測(cè)數(shù)據(jù)集開(kāi)展實(shí)驗(yàn),該數(shù)據(jù)集包含正常用電、竊電、漏電和計(jì)量錯(cuò)誤4類數(shù)據(jù)。圖8 給出了不同方法異常用電實(shí)測(cè)數(shù)據(jù)檢測(cè)性能,可以看出,與前述實(shí)驗(yàn)類似,所提方法對(duì)每類數(shù)據(jù)均能獲得最優(yōu)的分類性能,相比于LSTM和MSMT,所提方法的ACC_MEAN 分別提升了13.3%和8.5%,這表明所提方法比LSTM 和MSMT具有更強(qiáng)的數(shù)據(jù)適應(yīng)性和泛化能力。

圖8 異常用電實(shí)測(cè)數(shù)據(jù)檢測(cè)性能Fig.8 Detection performance based on measured data of abnormal power consumption

5 結(jié) 論

針對(duì)單一模型進(jìn)行異常檢測(cè)的局限性及不平衡樣本導(dǎo)致的檢測(cè)性能下降問(wèn)題,本文提出一種SVDD-ImSMOTE-MICD-K-means 組合模型用于實(shí)現(xiàn)不平衡樣本集條件下的異常數(shù)據(jù)檢測(cè)和分類。主要結(jié)論如下。

(1)提出了ImSMOTE 方法用于對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣以構(gòu)建平衡數(shù)據(jù)集,ImSMOTE 有效解決了SMOTE重復(fù)采樣和無(wú)效采樣的問(wèn)題。

(2)提出了MICD-K-means 方法對(duì)異常數(shù)據(jù)進(jìn)行自適應(yīng)聚類,相比于K-means 方法,MICD-Kmeans 方法能夠自動(dòng)確定聚類個(gè)數(shù),提升算法的自動(dòng)化程度并降低運(yùn)算復(fù)雜度。

(3)提出了一種先分類后聚類的層次化異常檢測(cè)方法,在有監(jiān)督SVDD 分類器實(shí)現(xiàn)異常檢測(cè)的基礎(chǔ)上,利用無(wú)監(jiān)督MICD-K-means 方法對(duì)異常數(shù)據(jù)進(jìn)行聚類,得到異常屬性,以達(dá)到數(shù)據(jù)的精細(xì)化管理。

(4)所提方法相比于傳統(tǒng)方法能夠獲得更高的檢測(cè)性能,特別是能夠明顯提升少數(shù)類樣本的分類性能,可以更好地滿足實(shí)際工程應(yīng)用需求。

猜你喜歡
類別聚類分類
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于DBSACN聚類算法的XML文檔聚類
教你一招:數(shù)的分類
服務(wù)類別
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
田东县| 杨浦区| 汝阳县| 新田县| 玉龙| 新蔡县| 元氏县| 珲春市| 宕昌县| 宝清县| 莲花县| 永修县| 海阳市| 德保县| 潼南县| 温泉县| 黑龙江省| 盐山县| 航空| 阜新市| 四子王旗| 库伦旗| 襄垣县| 塔城市| 佛山市| 土默特左旗| 平罗县| 威远县| 朔州市| 武鸣县| 大宁县| 班戈县| 瓦房店市| 河池市| 保德县| 绍兴市| 德江县| 体育| 禄丰县| 榆中县| 炎陵县|