基于判別分析原理的離群點檢測算法

2015-09-09 19:00簡述芬侯天子

電腦知識與技術(shù) 2015年16期

關(guān)鍵詞：離群

簡述芬侯天子

摘要：信息技術(shù)進入了數(shù)據(jù)時代，多屬性高維數(shù)據(jù)廣泛存在很多數(shù)據(jù)集中?；谂袆e分析的離群點檢測算法是一種新的離群點挖掘的思路，通過一個數(shù)據(jù)實例驗證該算法可以檢測數(shù)據(jù)之中的異常數(shù)據(jù)。

關(guān)鍵詞：離群；判別分析；檢測算法

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2015）03-0090-02

Discriminate Analysis Based Outlier Detection Algorithm

JIAN Shu-fen1， HOU Tian-zi2

（1.Sichuan Police College，Luzhou 646000，China；2. The Procuratorate of Wuhou， Chengdu 610000，China）

Abstract：Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way，and the algorithm is proved that it can find out outlier in data by a instance.

Key words： outlier； discriminate analysis； detection algorithm

1 判別分析在基于離群點挖掘時的可行性

1.1判別分析方法的定義

有一種方法可以辨別所屬的類別，這種方法是判別分析。其有著潛在的應(yīng)用方面，比如說在預測新產(chǎn)品的成功率上，或者確定該學生能否被錄用等方面。一般存在某種關(guān)系，如某個被解釋的定性變量和定量的解釋變量，判別分析方法比較適合。

判別分析方法是應(yīng)用性很強的一種多元統(tǒng)計方法，判別分析方法對問題求解可以這樣描述：假設(shè)存在n個k維總體[G1，G2，...，Gk]，分布函數(shù)或特征已知，（若已知的分布函數(shù)分別是[F1（x），F(xiàn)2（x），...，F(xiàn)k（x）]分布函數(shù)或特征已知），對于給定一個新的樣本x，要分析出樣本出自哪個總體。

1.2判別分析方法與分類的異同

判別分析與數(shù)據(jù)挖掘中的分類技術(shù)并不等同。分類與判別分析目的都是出于給數(shù)據(jù)分類的目的，在這上面是相似的。

判別分析方法是數(shù)學統(tǒng)計中一種方法，需要嚴謹?shù)倪壿嬐评韥硗茖總€步驟，這與分類有所不同。分類是挖掘中的廣泛應(yīng)用的技術(shù)之一，如決策樹、貝葉斯等，需構(gòu)造分類器或模型來預測類屬標號/。其中，只有貝葉斯分類也同時應(yīng)用在統(tǒng)計學中。

1.3判別分析應(yīng)用于離群點挖掘

離群點數(shù)據(jù)由絕大多數(shù)的正常數(shù)據(jù)和少數(shù)的異常數(shù)據(jù)組成，將判別分析縮減優(yōu)化，優(yōu)化到兩個總體，將一個新樣品x設(shè)定，通過推算得出它屬于其中某個總體，如果判定結(jié)果是異常數(shù)據(jù)表示的總體，那么就可以判定某個樣品是離群點，否則就屬于正常數(shù)據(jù)的樣品。這種離群點判別分析算法的優(yōu)點在于它的動態(tài)性好。當新來品種，就可以很快分析出數(shù)據(jù)所屬類別。

這種判別方法，類似貝葉斯分類法：利用貝葉斯原理構(gòu)造出貝葉斯分類器，將費歇（Fisher）判別運用到離群點數(shù)據(jù)挖掘，用這種判定分析，進行離群點檢測。

2 判別分析方法步驟

對判別分析方法的實現(xiàn)可分5個步進行。

第1步：檢測判別分析對象

第1步：檢測對象在提前分好的小組中的差異點，對獲取進行分類。在這些變量中，分析判別差異時，觀察其中解釋較多的數(shù)據(jù)，這些數(shù)據(jù)對判定樣品類別時起的作用比較大的。

第2步：判別分析設(shè)計

對解釋變量和被解釋變量，用判別分析加以摘選出來，設(shè)為定性變量。由于在判別分析中，對樣本量與預測變量的個數(shù)的比率是敏感的，因此也需要考慮到樣本的容量大小。

第3步：假定判別分析

在推算出判別分析函數(shù)前，首先假定解釋變量的正態(tài)性，協(xié)方差陣相等，這樣可以確保之后的計算滿足條件。

第4步：判別模型估計與整體擬合評估

選擇估計方法，推算判別分析函數(shù)，并找出其中的差異性，確定函數(shù)的有效性。

第5步：解釋結(jié)論并驗證

判別分析里有距離判別、貝葉斯判別、費歇判別等都是判別分析中的分析方法，判別方法不同，臨界條件也不同。判別分析不僅對所判別的數(shù)據(jù)有成效，在另一方面也能夠?qū)σ呀?jīng)的分類數(shù)據(jù)進行回判，從而驗證數(shù)據(jù)的真實性。

關(guān)于判別分析的具體性質(zhì)，詳細的數(shù)學推導過程與證明可參見文獻[1]。

3 費歇判別

在費歇判別中，投影是該判別方法的基本思想，假設(shè)k組p維數(shù)據(jù)向指定的一個方向投影，k個分組得到的投影分別放在k個不同地方，盡可能的縮短組內(nèi)的距離。

在這只是把k=2這個值表明，隨即分成兩個類別，由離群點的概念可得，可把數(shù)據(jù)分成兩類，分別是正常數(shù)據(jù)和異常數(shù)據(jù)。

樣本G總數(shù)為n，表示為

[G=G1?G2=x（1）1，x（1）2，...，x（1）n1，x（2）1，x（2）2，...，x（2）n2 n=n1+n2]

令[a=a1，a2，...，ap′]，a是p維空間中的任一量，[ux=a′X]是X以a為法線的方向上的投影，則G1和G2的投影是：

[G1：a′x（1）1，a′x（1）2，...，a′x（1）n1 ]

[G2：a′x（2）1，a′x（2）2，...，a′x（2）n2]

? 組間關(guān)系[B0]：由第t組的平均值和與總均值的向量差的平方和：

[B0=t=12nta′X（t）-a′X2=a′t=12ntX（t）-XX（t）-X′a=a′Ba] （1）

其中[X=1nt=12j=1ntX（t）j]，[B=t=12ntX（t）-XX（t）-X′]。等式變換的原理參照矩陣的乘法規(guī)則。

? 組內(nèi)關(guān)系[A0]：指第i組內(nèi)，用組內(nèi)第j個向量和第i組的均值向量差的平方和表示。

[A0=t=12j=1nta′X（t）j-a′X（t）2=a′t=12j=1ntX（t）j-X（t）X（t）j-X（t）′a=a′Aa] （2）

盡量分開不同組的所得投影，盡可能縮短組內(nèi)數(shù)值的距離。

定義 4 -3：已知a是在[a′Aa=1]條件下使得[Δa=a′Ba]達到極大值的方向，稱[ux=a′X]為線性判別函數(shù)。

據(jù)第二點的判別方法的過程表明，確定判別條件以后就可以進行判別分析。

4 利用判別原理進行離群點檢測

在離群點挖掘中[2]引入判別分析的原理，簡化費歇判別原理：

直到最后兩個樣本時，將費歇判別函數(shù)就可以寫成：

[uX=X（1）-X（2）′S-1pX] （3）

這時閾值的計算方法見公式（4）

[u=12X（1）-X（2）′S-1pX（1）+X（2）] （4）

計算出總體樣本的協(xié)方差矩陣估計值[Sp]的逆矩陣。

兩個總體均值有明顯差異需要檢驗，在檢驗是否有差異后判別函數(shù)的有效性。驗證統(tǒng)計量F，用公式（5），公式中的D2 可以用（6）的公式計算。

[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2]，n1和n2分別為兩個總體的樣本數(shù) （5）

[D2=X（1）-X（2）′S-1pX（1）-X（2）] （6）

[Fα（p，n1+n2-p-1）]表示α水平下的卡方分別，當[F>Fα（p，n1+n2-p-1）]時，表明判別函數(shù)是有效的，具體推導步驟參見文獻[3]，將判別標準推導出

判[X∈G1]，當[u（X）>u]

判[X∈G2]，當[u（X）

待判，當[u（X）=u]

針對高維數(shù)據(jù)中離群點檢測算法進行了分析和研究，提出了高維數(shù)據(jù)中離群點檢測需要注意的一些問題，從而便于研究者以這些算法為基礎(chǔ)，在此基礎(chǔ)上提出新的改進算法。

參考文獻：

[1] 高惠璇. 應(yīng)用多元統(tǒng)計分析[M]. 北京：北京大學出版社， 2005.

[2] 張堯庭，方開泰. 多元統(tǒng)計分析引論[M]. 北京：北京科學出版社， 1982.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于判別分析原理的離群點檢測算法