祝誠勇 黃鵬翔 李理敏
摘 要:針對孤立森林算法無法檢測與軸平行的局部異常點(diǎn)以及樹結(jié)構(gòu)無法動態(tài)更新等問題,提出了一種基于專家反饋的廣義孤立森林異常檢測算法。首先,將數(shù)據(jù)映射在單位特征向量上,從映射區(qū)域內(nèi)選擇分割點(diǎn)劃分?jǐn)?shù)據(jù)空間,重復(fù)此操作構(gòu)造出一棵廣義孤立樹;然后,給廣義孤立森林中每棵樹的葉節(jié)點(diǎn)引入權(quán)重,綜合考慮子空間劃分次數(shù)和子空間內(nèi)樣本數(shù)量對數(shù)據(jù)異常分?jǐn)?shù)的影響;最后,計(jì)算每個(gè)數(shù)據(jù)的加權(quán)異常分?jǐn)?shù),并選擇異常分?jǐn)?shù)較大的數(shù)據(jù)交由專家進(jìn)行批量標(biāo)注,算法根據(jù)標(biāo)注結(jié)果更新葉節(jié)點(diǎn)權(quán)重,從而實(shí)現(xiàn)樹結(jié)構(gòu)的動態(tài)調(diào)整。實(shí)驗(yàn)結(jié)果表明,該算法在7個(gè)數(shù)據(jù)集中專家標(biāo)注真實(shí)異常的數(shù)量優(yōu)于其他同類樹結(jié)構(gòu)算法,并在12個(gè)數(shù)據(jù)集中平均準(zhǔn)確率比孤立森林、擴(kuò)展孤立森林和廣義孤立森林分別提升了38.952%、49.144%和49.144%。
關(guān)鍵詞:異常檢測; 孤立森林; 動態(tài)更新; 專家反饋
中圖分類號:TP393?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號:1001-3695(2024)01-014-0088-06
doi:10.19734/j.issn.1001-3695.2023.05.0182
Generalized isolation forest anomaly detection algorithm based on expert feedback
Abstract:Aiming at the problem that the isolation forest algorithm cannot detect local anomalies parallel to the axes and the tree structure is unable to be dynamically updated, this paper proposed a generalized isolation forest anomaly detection algorithm based on expert feedback. Firstly, it projected the data to the sampled normal unit vector, and selected a split point from the mapping area to divide the data space, then repeated these operations until constructed a generalized isolation tree. Secondly, it introduced the weights of the leaf nodes of each tree in the generalized isolation forest, which comprehensively considered the influence of the number of subspace partitions and the sample size in the subspace on anomaly scores. Finally, it calculated the weighted anomaly scores of each data, and submitted data with high anomaly scores to expert for batch labeling, then the algorithm updated the weights of the leaf nodes according to the labeling results, so as to dynamically adjust the structure of the generalized isolation tree. The experimental results show that the numbers of real abnormal data are marked by expert in 7 datasets are better than that of the other tree-based anomaly detection algorithms, and the average precision in 12 datasets are 38.952%, 49.144% and 49.144% higher than isolation forest, extended isolation forest, generalized isolation forest, respectively.
Key words:anomaly detection; isolation forest; dynamic update; expert feedback
0 引言
異常檢測(anomaly detection,AD),又被稱為新奇點(diǎn)檢測(novelty detection,ND)或離群點(diǎn)檢測(outlier detection,OD),可以識別出與正常數(shù)據(jù)不同的數(shù)據(jù),或與預(yù)期行為差異大的數(shù)據(jù)[1],是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究方向,在工業(yè)[2]、金融[3]、網(wǎng)絡(luò)[4]等諸多領(lǐng)域中都有廣泛的應(yīng)用。
目前,異常檢測方法根據(jù)數(shù)據(jù)標(biāo)簽的使用情況可以分為監(jiān)督、半監(jiān)督、無監(jiān)督三類[5,6]。標(biāo)簽數(shù)據(jù)的獲取和標(biāo)注需要大量的時(shí)間和精力,而且異常行為可能會隨時(shí)間發(fā)生動態(tài)變化,難以獲得全面且準(zhǔn)確的帶有標(biāo)簽的數(shù)據(jù)集[7]。因此,研究無監(jiān)督異常檢測方法具有非常重要的學(xué)術(shù)價(jià)值與實(shí)際意義。孤立森林(isolation forest,IF)是一種適用于連續(xù)數(shù)據(jù)的無監(jiān)督異常檢測方法,具有計(jì)算復(fù)雜度低、魯棒性好、可解釋性強(qiáng)等優(yōu)點(diǎn),在高維和海量數(shù)據(jù)處理中得到了廣泛應(yīng)用[8,9]。然而IF存在決策邊界與特征軸平行的問題,在密集數(shù)據(jù)中易產(chǎn)生重疊效應(yīng)[10],導(dǎo)致檢測精度降低。為此,文獻(xiàn)[11]提出了一種擴(kuò)展孤立森林(extended isolation forest,EIF)異常檢測算法,使用隨機(jī)斜率的超平面對數(shù)據(jù)空間進(jìn)行劃分,解決了IF中決策邊界與軸平行的問題,提升了算法檢測性能,但是EIF每棵樹在分支的過程中,可能會存在空分支問題。文獻(xiàn)[12]提出了一種廣義孤立森林(generalized isolation forest,GIF)異常檢測算法,通過將數(shù)據(jù)映射在隨機(jī)單位特征向量上,從映射區(qū)域中選取閾值劃分?jǐn)?shù)據(jù)空間,優(yōu)化了EIF可能存在的空分支問題。然而,上述三種基于樹結(jié)構(gòu)的異常檢測算法都是采用隔離離群點(diǎn)的思路進(jìn)行樹的構(gòu)建和異常檢測,存在一定概率的漏警問題[13]。文獻(xiàn)[14]通過引入專家反饋(expert feedback,EF)策略,在每次循環(huán)過程中,將IF中最有可能是異常的數(shù)據(jù)交由專家進(jìn)行標(biāo)注,算法再根據(jù)標(biāo)注結(jié)果進(jìn)行動態(tài)更新,通過這種方式解決了IF中存在的漏警問題。但是該方法仍然存在以下問題:a)以IF為基礎(chǔ),存在決策邊界與特征軸平行的問題;b)專家每次只標(biāo)注最具異??赡苄缘囊粋€(gè)數(shù)據(jù),增加了算法迭代優(yōu)化的次數(shù);c)葉節(jié)點(diǎn)權(quán)重更新時(shí),僅考慮了數(shù)據(jù)從樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的過程中經(jīng)歷邊的個(gè)數(shù),未涉及與數(shù)據(jù)同在一個(gè)葉節(jié)點(diǎn)中樣本數(shù)量的影響。
基于以上分析,本文提出了一種基于專家反饋的廣義孤立森林(EF-GIF)異常檢測算法,其主要創(chuàng)新之處體現(xiàn)在以下幾個(gè)方面:a)樹的分支策略,將數(shù)據(jù)映射在單位特征向量上,從映射區(qū)域中選取閾值來劃分?jǐn)?shù)據(jù)空間,解決了IF中決策邊界與特征軸平行的問題;b)異常數(shù)據(jù)標(biāo)注,算法將異??赡苄暂^大的多個(gè)數(shù)據(jù)提交給專家進(jìn)行批量標(biāo)注,有效地減少了權(quán)重迭代更新的次數(shù);c)葉節(jié)點(diǎn)權(quán)重計(jì)算,綜合考慮了數(shù)據(jù)從樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)所經(jīng)過邊的個(gè)數(shù)和同在一個(gè)葉節(jié)點(diǎn)中樣本數(shù)量的影響。實(shí)驗(yàn)結(jié)果表明,本文算法在專家標(biāo)注真實(shí)異常數(shù)據(jù)數(shù)量方面優(yōu)于IF、EIF和GIF算法,同時(shí)在檢測精度方面相比同類算法也取得了不同程度的提升。
1 相關(guān)工作
1.1 孤立森林算法原理
孤立森林是集成學(xué)習(xí)算法中一類典型的無監(jiān)督異常檢測算法,它將異常定義為“容易被孤立的離群點(diǎn)”,即分布稀疏且遠(yuǎn)離高密度數(shù)據(jù)群體的點(diǎn)[15]。其算法思想為:隨機(jī)選擇一個(gè)特征超平面,不斷地對數(shù)據(jù)空間劃分子空間,直至每個(gè)子空間只有一個(gè)數(shù)據(jù)點(diǎn)或達(dá)到限定深度。在劃分過程中,越是離群的數(shù)據(jù)點(diǎn)越早被劃分開來,故其平均深度也越小。數(shù)據(jù)樣本x的異常值分?jǐn)?shù)計(jì)算公式如下:
其中:h(x)表示樣本x的路徑長度,其計(jì)算公式為
h(x)=e+c(size)(2)
其中:e表示樣本x從樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)所經(jīng)歷邊的數(shù)目;size表示與x同在一個(gè)葉節(jié)點(diǎn)的樣本數(shù)目;E[h(x)]表示樣本x在所有樹中h(x)的均值;c(φ)是給定φ個(gè)數(shù)據(jù)樣本時(shí),樹的平均路徑長度,用來對E[h(x)]作歸一化處理,其計(jì)算公式如下:
其中:H(φ-1)=ln(φ-1)+0.5772。從式(1)可以看出,數(shù)據(jù)x在每棵樹中的平均路徑E[h(x)]越短,異常分?jǐn)?shù)值score(x)越接近1,表明其越可能是異常點(diǎn);反之,異常分?jǐn)?shù)值score(x)越接近0,表明其越可能是正常點(diǎn)。
1.2 分支策略
孤立森林算法的關(guān)鍵在于如何劃分?jǐn)?shù)據(jù)空間,即樹的分支策略。假設(shè)數(shù)據(jù)有d1和d2兩個(gè)特征,圖1給出了IF、EIF和GIF三種算法的分支策略。如圖1(a)所示,IF從d1和d2兩個(gè)特征中隨機(jī)選取一個(gè)特征,然后在該特征的值域范圍內(nèi)確定左右分支的決策邊界。IF在分支過程中存在軸平行問題,即在單一特征的決策過程中,決策邊界與特征軸平行。這會導(dǎo)致在密集的數(shù)據(jù)中產(chǎn)生重疊效應(yīng)[10],引起異常檢測精度降低。EIF考慮了d1和d2兩個(gè)特征之間的相關(guān)性,其隨機(jī)斜率的超平面由單位特征向量β和截距點(diǎn)PE確定,如圖1(b)所示。由于PE是從包絡(luò)數(shù)據(jù)樣本的超立方體中采樣(粉色陰影區(qū)域,參見電子版),導(dǎo)致EIF在劃分左右分支的過程中,可能會存在空分支問題。GIF考慮了d1和d2兩個(gè)特征之間的相關(guān)性,其決策邊界由單位特征向量β和截距點(diǎn)PG確定,如圖1(c)所示。PG是數(shù)據(jù)樣本在β的映射區(qū)域中選取的(綠色虛線),這有效地解決了EIF可能存在空分支的問題。
為進(jìn)一步說明不同分支策略對孤立森林算法的影響,利用圖2的合成數(shù)據(jù)對三種算法性能進(jìn)行比較,訓(xùn)練集是以(0,0)為中心,服從高斯分布的數(shù)據(jù),測試集是不同半徑的圓環(huán)數(shù)據(jù),具體測試結(jié)果如圖3所示。從圖3(a)可以看出,IF在密集的數(shù)據(jù)中會產(chǎn)生重疊效應(yīng),存在與軸平行的局部異常點(diǎn)無法檢測的問題,導(dǎo)致檢測效果下降。同時(shí),對比圖3(b)和(c)可以看出,GIF的異常分?jǐn)?shù)比EIF更接近訓(xùn)練數(shù)據(jù)的真實(shí)分布情況。圖4進(jìn)一步給出了三種算法對不同半徑測試數(shù)據(jù)的異常分?jǐn)?shù)標(biāo)準(zhǔn)差。從圖中可以看出,總體上GIF的異常分?jǐn)?shù)標(biāo)準(zhǔn)差小于IF和EIF。
1.3 漏警問題
漏警率是評價(jià)異常檢測算法的一個(gè)重要指標(biāo)。孤立森林算法將數(shù)據(jù)中分布稀疏且遠(yuǎn)離高密度數(shù)據(jù)群體的點(diǎn)判斷為異常點(diǎn),但是當(dāng)高密度正常數(shù)據(jù)群體呈現(xiàn)重尾分布時(shí),易將落于尾部區(qū)域中的異常數(shù)據(jù)判斷為正常點(diǎn),即產(chǎn)生了漏警現(xiàn)象[16]。以圖5(a)中分布的數(shù)據(jù)為例,分別利用IF、EIF、GIF三種算法對其進(jìn)行數(shù)據(jù)異常檢測,結(jié)果分別如圖5(b)~(d)所示。從圖中可以看出,三種孤立森林算法將靠近高密度正常數(shù)據(jù)的部分邊緣異常數(shù)據(jù)誤檢為正常數(shù)據(jù),導(dǎo)致發(fā)生了漏警問題。
2 基于專家反饋的廣義孤立森林算法
2.1 專家反饋原理
在監(jiān)督學(xué)習(xí)中,存在樣本難以大量獲取且標(biāo)注成本高的問題。不同樣本對于特定任務(wù)的重要程度是不同的,所以帶來的模型性能提升也并不完全相同。專家反饋是一種從樣本角度提高檢測效率的方案,其基本思路是通過專家選擇性地標(biāo)注少量的高質(zhì)量樣本,從而訓(xùn)練出表現(xiàn)較好的模型,如圖6所示[14]。
本文通過引入專家反饋過程,試圖在有限的反饋標(biāo)注次數(shù)中,選擇最有價(jià)值的樣本交給專家進(jìn)行標(biāo)注并將其加入到有標(biāo)簽數(shù)據(jù)集中繼續(xù)對模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)任務(wù)模型的在線更新。原始數(shù)據(jù)根據(jù)專家標(biāo)注,分成無標(biāo)簽數(shù)據(jù)DO、專家標(biāo)注的異常數(shù)據(jù)DA和專家標(biāo)注的正常數(shù)據(jù)DN。
2.2 廣義孤立森林構(gòu)造
2.3 專家反饋的廣義孤立森林
傳統(tǒng)的孤立森林算法在模型訓(xùn)練完成后,在后續(xù)異常檢測過程中結(jié)構(gòu)保持固定不變,易出現(xiàn)模型無法完全適應(yīng)實(shí)際動態(tài)場景的現(xiàn)象,還可能存在嚴(yán)重的誤報(bào)與漏報(bào)問題[14]。為此,本文給GIF中每個(gè)葉節(jié)點(diǎn)添加一個(gè)權(quán)重,在異常檢測過程中利用專家反饋信息自適應(yīng)地調(diào)整葉節(jié)點(diǎn)的權(quán)重,從而實(shí)現(xiàn)GIF中樹結(jié)構(gòu)的動態(tài)更新,如圖7所示。
數(shù)據(jù)x在帶權(quán)重的廣義孤立森林中的加權(quán)路徑異常分?jǐn)?shù)可以表示為
其中:h(x)是由數(shù)據(jù)x在各棵樹上的路徑長度組成的,當(dāng)m列中只有t列非零的向量,m為廣義孤立森林中葉節(jié)點(diǎn)總數(shù),h(x)包含了數(shù)據(jù)從樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)所經(jīng)過邊的個(gè)數(shù)以及同在一個(gè)葉節(jié)點(diǎn)中樣本數(shù)量信息;w=[w1,…,wm]1×m表示廣義孤立森林中葉節(jié)點(diǎn)對應(yīng)權(quán)重組成的向量。
在初始時(shí)刻,將w的值w(0)=[1/t,…,1/t],WScore(X,w(0))將計(jì)算所有數(shù)據(jù)樣本的加權(quán)路徑異常分?jǐn)?shù),然后按照異常分?jǐn)?shù)降序排列,假設(shè)位于異常百分位τ上的數(shù)據(jù)為x(0)τ,其加權(quán)路徑異常分?jǐn)?shù)為s(0)τ=WScore(x(0)τ,w(0))。傳統(tǒng)孤立森林算法將s(0)τ作為閾值來判斷數(shù)據(jù)是否異常,即若數(shù)據(jù)xi的加權(quán)異常分?jǐn)?shù)WScore(xi,w(0))
為了解決上述問題,本文在GIF中引入了專家標(biāo)注反饋的過程。同時(shí),為了減少權(quán)重迭代更新的次數(shù),每次將異常分?jǐn)?shù)值位于前q的多個(gè)數(shù)據(jù)同時(shí)交由專家進(jìn)行批量標(biāo)注。根據(jù)已標(biāo)注數(shù)據(jù)xj的加權(quán)異常分?jǐn)?shù)WScore(xj,w)、異常分?jǐn)?shù)檢測閾值s(b-q)τ和真實(shí)結(jié)果標(biāo)簽yj三者之間的關(guān)系定義如下?lián)p失函數(shù):
其中:s(b-q)τ由w=w(b-q)時(shí)刻計(jì)算得到,以WScore(xj,w)與s(b-q)τ之間的距離作為損失:s(b-q)τ-WScore(xj,w)表示漏警導(dǎo)致的損失;WScore(xj,w)-s(b-q)τ表示虛警導(dǎo)致的損失。
通過最小化上述損失函數(shù)來更新GIF中的葉節(jié)點(diǎn)權(quán)重,從而降低系統(tǒng)誤報(bào)與漏報(bào)概率。定義目標(biāo)函數(shù)為
其中:|·|表示標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù);超參數(shù)CA是權(quán)衡DA中數(shù)據(jù)漏警損失和DN中數(shù)據(jù)虛警損失的系數(shù),通常CA>>1,這使得算法更注重于優(yōu)化漏警問題。同時(shí),為了避免w(b)過擬合,在目標(biāo)函數(shù)中添加了L2正則化項(xiàng)‖w-w(b-q)‖2,λ是權(quán)衡誤報(bào)和漏報(bào)損失與正則化項(xiàng)的超參數(shù)。采用自適應(yīng)梯度優(yōu)化算法[17]對式(6)進(jìn)行求解,即可得到動態(tài)更新后的w(b),使得DA中數(shù)據(jù)異常分?jǐn)?shù)高于s(b-q)τ,DN中數(shù)據(jù)異常分?jǐn)?shù)低于s(b-q)τ。
算法3給出了專家批量標(biāo)注與葉節(jié)點(diǎn)權(quán)重更新的過程。
算法3 Rweight(X,B,t,q)
輸入:X為輸入數(shù)據(jù),B為標(biāo)注數(shù)據(jù)次數(shù),t為樹的棵數(shù),q為批量標(biāo)注數(shù)。
輸出:w。
b=0
DA=DN=
權(quán)重初始化w=w(b)=[1/t,…,1/t]
while b
數(shù)據(jù)集的異常分?jǐn)?shù)WScore(X,w)
異常分?jǐn)?shù)值位于前q的未標(biāo)注數(shù)據(jù)[x1t,…,xqt]
for i=1 to q do
if xit is anomaly
DA=DA∪xit
else
DN=DN∪xit
end if
end for
b=b+q
最小化損失以更新權(quán)重w=w(b)
end while
return w
使用如圖8(a)所示的toy2數(shù)據(jù)集[14],驗(yàn)證每次專家反饋后本文EF-GIF的檢測效果。如圖8(b)所示,隨著每次專家反饋后葉節(jié)點(diǎn)權(quán)重的更新,EF-GIF異常檢測效果明顯提升。
為更加直觀地說明圖8(b)異常檢測效果提升的過程,對toy2數(shù)據(jù)集進(jìn)行可視化。圖9給出了當(dāng)專家標(biāo)注數(shù)據(jù)次數(shù)從0~60逐漸增加時(shí),其異常分?jǐn)?shù)熱力圖變化的過程,圖中紅色區(qū)域?yàn)楫惓7謹(jǐn)?shù)較高的區(qū)域,藍(lán)色區(qū)域?yàn)楫惓7謹(jǐn)?shù)較低的區(qū)域。
從圖9(a)~(d)的變化可以看出,隨著專家反饋標(biāo)注次數(shù)的不斷增加,toy2數(shù)據(jù)集異常分?jǐn)?shù)熱力圖的分布逐漸接近圖8(a)的數(shù)據(jù)真實(shí)分布。
3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
本文的主要實(shí)驗(yàn)環(huán)境參數(shù)為:Intel i7-10700 2.9 GHz CPU,8 GB內(nèi)存,Windows 10 64位操作系統(tǒng),算法采用Python 3.6實(shí)現(xiàn)。
采用來源于文獻(xiàn)[12,18]中的12個(gè)公開數(shù)據(jù)集,具體如表2所示。mammography、shuttle數(shù)據(jù)集,主要考慮多樣本數(shù)對于異常檢測算法的影響;cardio、PenGlobal、letter、breast cancer、annthyroid和ionosphere數(shù)據(jù)集,主要考慮高特征維度對于異常檢測算法的影響;ALOI數(shù)據(jù)集,綜合考慮多樣本數(shù)和高特征維度對于異常檢測算法的影響。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
本文參考文獻(xiàn)[14]的實(shí)驗(yàn)參數(shù)設(shè)置,表3給出了各參數(shù)的具體描述及取值,通過100次仿真測試得到實(shí)驗(yàn)結(jié)果。
3.3 實(shí)驗(yàn)結(jié)果分析
為體現(xiàn)每次權(quán)重更新后異常檢測算法發(fā)現(xiàn)異常數(shù)據(jù)的能力,圖10給出了專家標(biāo)注異常數(shù)據(jù)數(shù)量的實(shí)驗(yàn)結(jié)果。從圖中可以看出,EF-GIF在breast cancer、ionosphere和yeast這3個(gè)數(shù)據(jù)集中的性能與IF、EIF、GIF相似,在PenGlobal、letter、annthyroid、abalone、cardiotocograph、mammography、ALOI這7個(gè)數(shù)據(jù)集中的性能優(yōu)于其他三種未改進(jìn)的算法,體現(xiàn)出EF-GIF在發(fā)現(xiàn)數(shù)據(jù)中真實(shí)異常能力方面的提升。上述結(jié)果的主要原因?yàn)椋喝鐖D10所示,首先GIF的分支策略優(yōu)于IF和EIF;其次EF-GIF相比GIF引入了專家反饋環(huán)節(jié),通過式(6)中的葉節(jié)點(diǎn)權(quán)重更新,最小化檢測過程中誤報(bào)與漏報(bào)問題和正則化項(xiàng)構(gòu)成的損失,最終提升了算法的檢測效果。
表4進(jìn)一步給出了四種算法在PenGlobal數(shù)據(jù)集上專家標(biāo)注真實(shí)異常數(shù)據(jù)數(shù)量的均值。從表中可以看出,EF-GIF發(fā)現(xiàn)數(shù)據(jù)中真實(shí)異常數(shù)據(jù)的數(shù)量隨反饋標(biāo)注次數(shù)的增加而明顯提升,尤其是在專家標(biāo)注次數(shù)達(dá)到60時(shí),EF-GIF相比IF、EIF和GIF分別有54.882%、49.136%和57.194%的提升。從表中四種算法在真實(shí)異常數(shù)據(jù)數(shù)量上的差異可知,未引入專家反饋孤立森林算法中存在漏警問題的現(xiàn)象較為嚴(yán)重。
為了更進(jìn)一步說明本文算法在未知數(shù)據(jù)集上的檢測效果,將數(shù)據(jù)集以7∶3的比例劃分為訓(xùn)練集和測試集,取異常檢測中常用的受試工作者特征曲線下的面積(area under curve,AUC)和平均準(zhǔn)確率(average precision,AP)作為評價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表5所示。從表5可以看出:在AUC方面,EF-GIF在12個(gè)數(shù)據(jù)集中有11個(gè)優(yōu)于IF、EIF和GIF,平均分別提升了2.791%、1.925%和2.667%;在AP方面,EF-GIF在12個(gè)數(shù)據(jù)集中有11個(gè)優(yōu)于IF、EIF和GIF,平均分別提升了38.952%、49.144%和49.144%。這是因?yàn)楸疚腅F-GIF算法考慮了數(shù)據(jù)從根節(jié)點(diǎn)到葉節(jié)點(diǎn)所經(jīng)過邊的個(gè)數(shù)和最終落在葉節(jié)點(diǎn)上數(shù)據(jù)的數(shù)量信息,保證了數(shù)據(jù)異常分?jǐn)?shù)的多樣性,使專家在循環(huán)反饋過程中能夠有效區(qū)分漏警數(shù)據(jù)。
綜上所述,在發(fā)現(xiàn)數(shù)據(jù)中真實(shí)異常數(shù)據(jù)數(shù)量和檢測準(zhǔn)確率方面,EF-GIF相較于其他樹異常檢測算法有明顯提升,通過專家批量標(biāo)注和優(yōu)化葉節(jié)點(diǎn)權(quán)重,使樹結(jié)構(gòu)和檢測閾值能夠根據(jù)實(shí)際場景進(jìn)行自適應(yīng)動態(tài)調(diào)整,提高了算法的泛化能力。
4 結(jié)束語
本文提出了一種基于專家反饋的廣義孤立森林異常檢測算法,其分支策略考慮到數(shù)據(jù)特征之間的相關(guān)性,將數(shù)據(jù)先映射在單位特征向量上,然后通過從映射區(qū)域中隨機(jī)采樣閾值分割左右分支的方式,優(yōu)化了IF中決策邊界與特征軸平行問題。同時(shí),在專家反饋過程中,采用批量標(biāo)注異??赡苄暂^大的數(shù)據(jù)策略,有效減少了算法更新迭代的計(jì)算次數(shù)。另外,在葉節(jié)點(diǎn)權(quán)重更新方面,綜合考慮了數(shù)據(jù)從根節(jié)點(diǎn)到葉節(jié)點(diǎn)所經(jīng)過邊的數(shù)量和最終落在葉節(jié)點(diǎn)上的數(shù)據(jù)數(shù)量對漏警問題的影響。實(shí)驗(yàn)結(jié)果表明,EF-GIF在PenGlobal、letter、annthyroid、abalone、cardiotocograph、mammography、ALOI數(shù)據(jù)集上,真實(shí)異常數(shù)據(jù)的數(shù)量優(yōu)于IF、EIF和GIF算法;其次在檢測準(zhǔn)確率方面,分別有38.952%、49.144%和49.144%的提升。
后續(xù)將進(jìn)一步分析不同標(biāo)注策略和優(yōu)化方法對異常檢測性能的影響,并探究已標(biāo)注數(shù)據(jù)和標(biāo)簽之間的關(guān)系,篩選關(guān)鍵特征,提升專家標(biāo)注效率。
參考文獻(xiàn):
[1]Ruff L, Kauffmann J R, Vandermeulen R A, et al. A unifying review of deep and shallow anomaly detection[J].Proc of the IEEE,2021,109(5):756-795.
[2]Zhou Xiaokang, Hu Yiyong, Liang Wei, et al. Variational LSTM enhanced anomaly detection for industrial big data[J].IEEE Trans on Industrial Informatics,2020,17(5):3469-3477.
[3]Li Tie, Kou Gang, Peng Yi, et al. An integrated cluster detection, optimization, and interpretation approach for financial data[J].IEEE Trans on Cybernetics,2021,52(12):13848-13861.
[4]Injadat M N, Moubayed A, Nassif A B, et al. Multi-stage optimized machine learning framework for network intrusion detection[J].IEEE Trans on Network and Service Management,2020,18(2):1803-1816.
[5]Pang Guansong, Shen Chunhua, Cao Longbing, et al. Deep learning for anomaly detection:a review[J].ACM Computing Surveys,2021,54(2):1-38.
[6]Schmidl S, Wenig P, Papenbrock T. Anomaly detection in time series: a comprehensive evaluation[J].Proc of the VLDB Endowment,2022,15(9):1779-1797.
[7]卓琳,趙厚宇,詹思延.異常檢測方法及其應(yīng)用綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(S1):9-15.(Zhuo Lin, Zhao Houyu, Zhan Siyan. A survey of anomaly detection methods and their applications[J].Application Research of Computers,2020,37(S1):9-15.)
[8]唐立,郝鵬,任沛閣,等.基于改進(jìn)孤立森林算法的無人機(jī)異常行??? 為檢測[J].航空學(xué)報(bào),2022,43(8):584-593.(Tang Li, Hao Peng, Ren Peige, et al. UAV abnormal behavior detection based on improved iForest algorithm[J].Acta Aeronautica et Astronautica Sinica,2022,43(8):584-593.)
[9]杭菲璐,郭威,陳何雄,等.基于iForest和LOF的流量異常檢測[J].計(jì)算機(jī)應(yīng)用研究,2022,39(10):3119-3123.(Hang Feilu, Guo Wei, Chen Hexiong, et al. Network traffic anomaly detection based on iForest and LOF[J].Application Research of Compu-ters,2022,39(10):3119-3123.)
[10]楊曉暉,張圣昌.基于多粒度級聯(lián)孤立森林算法的異常檢測模型[J].通信學(xué)報(bào),2019,40(8):133-142.(Yang Xiaohui, Zhang Shengchang. Anomaly detection model based on multi-grained cascade isolation forest algorithm[J].Journal on Communications,2019,40(8):133-142.)
[11]Hariri S, Kind M C, Brunner R J. Extended isolation forest[J].IEEE Trans on Knowledge and Data Engineering,2019,33(4):1479-1489.
[12]Lesouple J, Baudoin C, Spigai M, et al. Generalized isolation forest for anomaly detection[J].Pattern Recognition Letters,2021,149:109-119.
[13]Li Changgen, Guo Liang, Gao Hongli, et al. Similarity-measured isolation forest:anomaly detection method for machine monitoring data[J].IEEE Trans on Instrumentation and Measurement,2021,70:1-12.
[14]Das S, Wong W K, Fern A, et al. Incorporating feedback into tree-based anomaly detection[EB/OL].[2023-05-07].https://arxiv.org/pdf/1708.09441.pdf.
[15]Liu F T, Ting K M, Zhou Zhihua.Isolation forest[C]//Proc of the 8th IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2008:413-422.
[16]Das S, Wong W K, Dietterich T, et al. Discovering anomalies by incorporating feedback from an expert[J].ACM Trans on Knowledge Discovery from Data,2020,14(4):1-32.
[17]Soydaner D. A comparison of optimization algorithms for deep learning[J].International Journal of Pattern Recognition and Artificial Intelligence,2020,34(13):2052013.
[18]Lesouple J, Tourneret J Y. Incorporating user feedback into one-class support vector machines for anomaly detection[C]//Proc of the 28th European Signal Processing Conference.Piscataway,NJ:IEEE Press,2021:1608-1612.