国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多元異常數(shù)據(jù)的三種典型檢測方法對比*

2021-12-22 06:28集美大學誠毅學院江曉露
數(shù)字技術與應用 2021年11期
關鍵詞:馬氏協(xié)方差編碼器

集美大學誠毅學院 江曉露

異常檢測在醫(yī)療、金融等領域有著廣泛的應用,其中尤以多元無監(jiān)督數(shù)據(jù)的異常檢測比一元數(shù)據(jù)更普遍存在,且更為復雜。本文從三種典型檢測方法入手,針對一組多元無監(jiān)督數(shù)據(jù)集進行了異常檢測的實驗。三種方法分別是基于統(tǒng)計的馬氏距離、基于劃分思想的孤立森林、以及基于深度學習的自編碼器,它們代表了異常檢測方法的三個大的領域。文章在同一個數(shù)據(jù)集使用這三種方法,探索和討論了三種方法實驗過程和實驗結果的異同。

0 引言

可疑故障的檢測,又稱為異常檢測。異常檢測在醫(yī)療、金融、網(wǎng)絡安全、銀行、網(wǎng)絡服務、交通運輸和制造業(yè)等領域有著非常廣泛的應用。數(shù)據(jù)的異常值[1]在統(tǒng)計上指的是與給定樣本的其余部分不一致的一小部分觀測值,一般來說異常值的界定與對總體數(shù)據(jù)選擇何種模型有關。異常檢測中多元數(shù)據(jù)的情況更為復雜一些,多元數(shù)據(jù)中的異常值往往在其分量中并非異常,而在對數(shù)據(jù)結構建模后,才能發(fā)現(xiàn)它們的存在?,F(xiàn)實中的異常檢測通常是多元的,且很多時候是沒有標簽的,對于無監(jiān)督的多元數(shù)據(jù),異常檢測方法常見有以下幾種典型:

(1)基于統(tǒng)計距離。多元統(tǒng)計學異常檢測方法常見的是使用馬氏距離(Mahalanobis Distance)。它通過樣本協(xié)方差矩陣標準化數(shù)據(jù),測量了標準化后的多變量觀測值到數(shù)據(jù)集樣本平均值的距離。利用正態(tài)分布數(shù)據(jù)的馬氏距離服從卡方分布這一性質,根據(jù)需要的異常比例我們可以找到馬氏距離的閾值,從而找到可疑的多元觀測值。2005年王斌會[2]和陳一非提出基于文件馬氏距離的多元異常檢測,2018年張紅飛[3]等提出了基于改進馬氏距離的空壓機健康狀態(tài)評估。

(2)基于劃分思想。除了傳統(tǒng)的統(tǒng)計方法外,在高維數(shù)據(jù)集中實現(xiàn)異常檢測的一種有效方法是使用孤立森林(Isolation Forest)。孤立森林[4]通過遞歸地隨機分割數(shù)據(jù)集,一直往復,直到所有的樣本點都是孤立的。在這種隨機分割的策略下,異常點通常具有較短的路徑。2020年,陳佳等[5]提出基于邊緣計算框架的孤立森林網(wǎng)絡異常檢測方法進行DoS的異常檢測,李倩等[6]采用基于模糊孤立森林算法的多維數(shù)據(jù)異常檢測方法有效解決了樣本數(shù)據(jù)對于每一屬性的異常程度不同的問題。

(3)基于深度學習。深度學習是機器學習領域中一個新的研究方向,在搜索技術、數(shù)據(jù)挖掘、機器翻譯等相關領域取得了很多成果。自編碼器作為常見的深度學習去噪工具,也常被用于進行多元數(shù)據(jù)的異常識別。自編碼器先將高維數(shù)據(jù)壓縮降維,再將低維數(shù)據(jù)擴展到原來的維度,這樣就重新構造了原始輸入。在這個過程中,由于少部分異常數(shù)據(jù)不能很好地學習到數(shù)據(jù)的模型,重新構造后與原始數(shù)據(jù)有較大的差異。通過對比重構數(shù)據(jù)與原始數(shù)據(jù)的差異的大小,可以識別出異常數(shù)據(jù)。2019年馬波等[7]探索了變分自編碼器在機械故障預警中的應用。2020年張常華等[8]在自編碼器異常檢測中結合了主成分分析方法。

本文將使用以上三種方法探索異常檢測,嘗試找到多元數(shù)據(jù)異常檢測的三種代表性方法的各自優(yōu)劣之處,也作為其他領域多元數(shù)據(jù)異常檢測的參考。

1 數(shù)據(jù)介紹

本次實驗的多元數(shù)據(jù)是某商業(yè)銀行分行在某年1-4月的ATM機交易統(tǒng)計數(shù)據(jù),觀測值共131013個,無標簽。為直觀起見,我們只選擇兩個特征,分別是每分鐘總共發(fā)生的交易總筆數(shù)、每分鐘交易成功筆數(shù)和業(yè)務量的比率,簡稱交易量和成功率。實驗將在所有的觀測值上建立模型檢測異常值,但為了清晰直觀的顯示效果,三種檢測的結果最后會在圖上的125個隨機抽取的樣本上標注出正常和異常標簽。

2 利用馬氏距離進行異常檢測

馬氏距離,又稱統(tǒng)計距離,樣本觀測值x到樣本中心μ的馬氏距離被定義為:

其中μ和Σ是總體數(shù)據(jù)的均值和協(xié)方差。在實踐中,μ和Σ常用估計值替代。標準的協(xié)方差估計方法是協(xié)方差最大似然估計,但這種估計方法對數(shù)據(jù)集中是否存在異常值非常敏感。最小協(xié)方差行列式估計器(Minimum Covariance Determinant),簡稱MCD,是PJ Rousseeuw在1984年引入的數(shù)據(jù)集協(xié)方差的穩(wěn)健估計器[9]。MCD找到一個樣本量為h的子集IMCD使得在所有大小為h的子集中,該子集的協(xié)方差矩陣的行列式是最小的,我們利用這個子集計算均值和協(xié)方差的估計量:

其中MCDk是一個比例常數(shù),保證了協(xié)方差估計量的一致性和無偏性。

根據(jù)MCD估計出的均值和協(xié)方差可以計算每個觀測值的馬氏距離。馬氏距離越大觀測值異常的概率越大。正態(tài)總體的馬氏距離服從自由度為p的卡方分布,其中p為樣本觀測值的維度。實驗中p為2。取顯著性水平 0.1α=,利用卡方分布的分位點獲得馬氏距離的閾值。鑒于成功率偏高的數(shù)據(jù)不會是異常值這一基本事實,將實驗判別出的成功率偏高的異常值給予正常的標簽,后面兩個異常檢驗方法也是一樣,不再贅述。在此基礎上,共找到13152個異常點。在抽樣的125個樣本中,識別為異常值的樣本點有13個。

3 利用孤立森林進行異常檢測

孤立森林(Isolation Forest)由周志華教授等人于2008年在第八屆IEEE數(shù)據(jù)挖掘國際會議上提出。它是一種無監(jiān)督的方法,通過從訓練集中隨機選取一個特征,在該特征的最大值最小值之間隨機選取一個分界點,將訓練集進行劃分;不斷重復上述過程,直到只剩一個樣本或相同樣本或達到樹的深度限制。圖1展示了正常點xi和異常點xo被孤立的過程。正常的樣本點需要分割多次才會被孤立,異常點則需要更少的次數(shù)。

圖1 孤立森林的模型演示Fig.1 Model demonstration of isolated forest

通過被孤立的路徑長度來表示一個樣本點被孤立的程度,路徑長度h(x)的計算公式為

其中e表示樣本觀測值x從字數(shù)的根節(jié)點到葉節(jié)點過程中經(jīng)過的邊的數(shù)目,C(T.size)表示在一棵用T.size條樣本數(shù)據(jù)構建的二叉樹的平均路徑長度。樣本的“孤立”程度可以通過分值

來判斷,其中 ()()Ehx表示樣本點x在孤立森林中所有孤立樹的路徑長度的平均值,表示單棵孤立樹的訓練樣本數(shù)。

Sklearn中將異常分數(shù)添加負號并減去適當偏移量,使異常分數(shù)越小異常程度越大,且默認零為正常和異常的分界點。本次實驗設置0.1為孤立森林的異常比例進行孤立森林建模,計算出的樣本的異常分數(shù)圖如圖2。在所有數(shù)據(jù)中被檢測為異常的有8291個。在抽樣的125個樣本中,識別為異常值的樣本點有6個。

圖2 數(shù)據(jù)點平均路徑長度頻次圖Fig.2 Frequency chart of average path length of data points

4 利用自編碼器進行異常檢測

1986年Rumelhart提出自編碼器的概念[10],并將其用于高維復雜數(shù)據(jù)處理,促進了神經(jīng)網(wǎng)絡的發(fā)展。自編碼器是神經(jīng)網(wǎng)絡的一種,經(jīng)過訓練后能嘗試將輸入復制到輸出。在輸入到輸出的過程中,數(shù)據(jù)會有所偏移。模型學習到了大部分好的特征,使得異常點相比正常點偏離原數(shù)據(jù)更遠。

最簡單的自編碼器由一個隱藏層產(chǎn)生編碼,再由輸出層產(chǎn)生解碼。自編碼器在大于5維的數(shù)據(jù)上表現(xiàn)更好,本次實驗的數(shù)據(jù)只用到2維,為使自編碼器能夠取得較好的效果,實驗先將2維擴展成6維,再對6維的數(shù)據(jù)進行編碼和解碼,最后將6維數(shù)據(jù)重新降維成2維,輸出和輸入都設定為ATM數(shù)據(jù),圖3顯示了數(shù)據(jù)的轉換過程。訓練的過程中隨機選取了5%的數(shù)據(jù)作為驗證集,自編碼器的訓練結果如圖4所示有穩(wěn)定的收斂效果。計算出輸入和輸出的差距,設定輸入輸出差的閾值為0.11,得到檢測出的異常值。共檢測出13655個異常點,在抽取的125個樣本中,異常點有11個。

圖3 自編碼器的神經(jīng)網(wǎng)絡結構Fig.3 Neural network structure of self encoder

圖4 自編碼器的收斂過程Fig.4 Convergence process of self encoder

5 實驗結果

在隨機抽取的125個樣本中三種方法檢測出的異常點如圖5,孤立森林和馬氏距離選擇的異常點比較相似,大部分選擇的是成功率偏低的數(shù)據(jù)。自編碼器與前二者比較,綜合了兩個維度,更多分布在了數(shù)據(jù)集的外圍。運行時間來看,馬氏距離的檢測費時最少,孤立森林其次,自編碼器費時最多。在訓練完的模型上,如果想對新的樣本進行判別,三種方法都可以直接判斷,無需重新建模。

圖5 利用三種方法的異常檢測Fig.5 Anomaly detection using three methods

馬氏距離的判別是基于統(tǒng)計分布的,在大部分的統(tǒng)計推斷中,我們常把數(shù)據(jù)的分布假設為正態(tài)分布,這樣的假設與許多實際應用中的數(shù)據(jù)不符,比如本次實驗采用的ATM機數(shù)據(jù),當數(shù)據(jù)與正態(tài)分布偏離較多的時候,許多的正常點不會集中在數(shù)據(jù)中心附近,這樣的檢測容易導致誤判率的上升。

孤立森林是利用劃分進行判別的,選取隨機的分界點的思路也使得適用的數(shù)據(jù)可以不限數(shù)據(jù)分布。孤立森林的方法的算法并不復雜,具有線性的時間復雜度,在處理大數(shù)據(jù)時速度快,且精準度較高,在工業(yè)界應用范圍比較廣。

自編碼器在本次實驗中更貼合數(shù)據(jù)的分布。4層的神經(jīng)網(wǎng)絡雖未消耗很多的時間,但在精度上并未體現(xiàn)出絕對的優(yōu)勢。深度學習的學習效果很大程度上依賴于數(shù)據(jù)量和模型的復雜度,數(shù)據(jù)量指的是樣本點的數(shù)量及維度。在數(shù)據(jù)量未達到要求時使用深度學習,將無法體現(xiàn)深度學習的優(yōu)勢。

6 結語

綜合來說,馬氏距離不適合普通的多元數(shù)據(jù)單獨使用,更適合用于對其他方法的檢測結果進行參照,如本次實驗中孤立森林和自編碼器的檢測結果在馬氏距離的度量下更易看出檢出數(shù)據(jù)是否合理。自編碼器在低維數(shù)據(jù)上使用效果不佳,可以使用先擴維再降維的方式對維度不高的數(shù)據(jù)進行轉換,但效果不如直接使用高維數(shù)據(jù)好。在中小型數(shù)據(jù)中,孤立森林將是更優(yōu)的選擇,可以快速準確地達到檢測的要求。

猜你喜歡
馬氏協(xié)方差編碼器
一類時間變換的強馬氏過程
有環(huán)的可逆馬氏鏈的統(tǒng)計確認
關于樹指標非齊次馬氏鏈的廣義熵遍歷定理
基于FPGA的同步機軸角編碼器
一致可數(shù)可加馬氏鏈不變測度的存在性
多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
基于PRBS檢測的8B/IOB編碼器設計
二維隨機變量邊緣分布函數(shù)的教學探索
不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預報器
JESD204B接口協(xié)議中的8B10B編碼器設計
甘洛县| 台东市| 隆安县| 岚皋县| 新兴县| 睢宁县| 黔西县| 黄石市| 虞城县| 固原市| 寿宁县| 水富县| 黎城县| 武隆县| 明星| 辉南县| 临泉县| 孝昌县| 年辖:市辖区| 沁源县| 平顺县| 石家庄市| 虎林市| 四子王旗| 开原市| 河北区| 河南省| 遂川县| 阿荣旗| 南木林县| 新化县| 昆山市| 天水市| 兴山县| 夏河县| 黄骅市| 灵宝市| 高雄市| 乌鲁木齐市| 邯郸县| 丰原市|