簡述芬 侯天子
摘要:信息技術(shù)進入了數(shù)據(jù)時代,多屬性高維數(shù)據(jù)廣泛存在很多數(shù)據(jù)集中?;谂袆e分析的離群點檢測算法是一種新的離群點挖掘的思路,通過一個數(shù)據(jù)實例驗證該算法可以檢測數(shù)據(jù)之中的異常數(shù)據(jù)。
關(guān)鍵詞:離群;判別分析;檢測算法
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)03-0090-02
Discriminate Analysis Based Outlier Detection Algorithm
JIAN Shu-fen1, HOU Tian-zi2
(1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)
Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.
Key words: outlier; discriminate analysis; detection algorithm
1 判別分析在基于離群點挖掘時的可行性
1.1判別分析方法的定義
有一種方法可以辨別所屬的類別,這種方法是判別分析。其有著潛在的應(yīng)用方面,比如說在預測新產(chǎn)品的成功率上,或者確定該學生能否被錄用等方面。一般存在某種關(guān)系,如某個被解釋的定性變量和定量的解釋變量,判別分析方法比較適合。
判別分析方法是應(yīng)用性很強的一種多元統(tǒng)計方法,判別分析方法對問題求解可以這樣描述:假設(shè)存在n個k維總體[G1,G2,...,Gk],分布函數(shù)或特征已知,(若已知的分布函數(shù)分別是[F1(x),F(xiàn)2(x),...,F(xiàn)k(x)]分布函數(shù)或特征已知),對于給定一個新的樣本x,要分析出樣本出自哪個總體。
1.2判別分析方法與分類的異同
判別分析與數(shù)據(jù)挖掘中的分類技術(shù)并不等同。分類與判別分析目的都是出于給數(shù)據(jù)分類的目的,在這上面是相似的。
判別分析方法是數(shù)學統(tǒng)計中一種方法,需要嚴謹?shù)倪壿嬐评韥硗茖總€步驟,這與分類有所不同。分類是挖掘中的廣泛應(yīng)用的技術(shù)之一,如決策樹、貝葉斯等,需構(gòu)造分類器或模型來預測類屬標號/。其中,只有貝葉斯分類也同時應(yīng)用在統(tǒng)計學中。
1.3判別分析應(yīng)用于離群點挖掘
離群點數(shù)據(jù)由絕大多數(shù)的正常數(shù)據(jù)和少數(shù)的異常數(shù)據(jù)組成,將判別分析縮減優(yōu)化,優(yōu)化到兩個總體,將一個新樣品x設(shè)定,通過推算得出它屬于其中某個總體,如果判定結(jié)果是異常數(shù)據(jù)表示的總體,那么就可以判定某個樣品是離群點,否則就屬于正常數(shù)據(jù)的樣品。這種離群點判別分析算法的優(yōu)點在于它的動態(tài)性好。當新來品種,就可以很快分析出數(shù)據(jù)所屬類別。
這種判別方法,類似貝葉斯分類法:利用貝葉斯原理構(gòu)造出貝葉斯分類器,將費歇(Fisher)判別運用到離群點數(shù)據(jù)挖掘,用這種判定分析,進行離群點檢測。
2 判別分析方法步驟
對判別分析方法的實現(xiàn)可分5個步進行。
第1步:檢測判別分析對象
第1步:檢測對象在提前分好的小組中的差異點,對獲取進行分類。在這些變量中,分析判別差異時,觀察其中解釋較多的數(shù)據(jù),這些數(shù)據(jù)對判定樣品類別時起的作用比較大的。
第2步:判別分析設(shè)計
對解釋變量和被解釋變量,用判別分析加以摘選出來,設(shè)為定性變量。由于在判別分析中,對樣本量與預測變量的個數(shù)的比率是敏感的,因此也需要考慮到樣本的容量大小。
第3步:假定判別分析
在推算出判別分析函數(shù)前,首先假定解釋變量的正態(tài)性,協(xié)方差陣相等,這樣可以確保之后的計算滿足條件。
第4步:判別模型估計與整體擬合評估
選擇估計方法,推算判別分析函數(shù),并找出其中的差異性,確定函數(shù)的有效性。
第5步:解釋結(jié)論并驗證
判別分析里有距離判別、貝葉斯判別、費歇判別等都是判別分析中的分析方法,判別方法不同,臨界條件也不同。判別分析不僅對所判別的數(shù)據(jù)有成效,在另一方面也能夠?qū)σ呀?jīng)的分類數(shù)據(jù)進行回判,從而驗證數(shù)據(jù)的真實性。
關(guān)于判別分析的具體性質(zhì),詳細的數(shù)學推導過程與證明可參見文獻[1]。
3 費歇判別
在費歇判別中,投影是該判別方法的基本思想,假設(shè)k組p維數(shù)據(jù)向指定的一個方向投影,k個分組得到的投影分別放在k個不同地方,盡可能的縮短組內(nèi)的距離。
在這只是把k=2這個值表明,隨即分成兩個類別,由離群點的概念可得,可把數(shù)據(jù)分成兩類,分別是正常數(shù)據(jù)和異常數(shù)據(jù)。
樣本G總數(shù)為n,表示為
[G=G1?G2=x(1)1,x(1)2,...,x(1)n1,x(2)1,x(2)2,...,x(2)n2 n=n1+n2]
令[a=a1,a2,...,ap′],a是p維空間中的任一量,[ux=a′X]是X以a為法線的方向上的投影,則G1和G2的投影是:
[G1:a′x(1)1,a′x(1)2,...,a′x(1)n1 ]
[G2:a′x(2)1,a′x(2)2,...,a′x(2)n2]
? 組間關(guān)系[B0]:由第t組的平均值和與總均值的向量差的平方和 :
[B0=t=12nta′X(t)-a′X2=a′t=12ntX(t)-XX(t)-X′a=a′Ba] (1)
其中[X=1nt=12j=1ntX(t)j],[B=t=12ntX(t)-XX(t)-X′]。等式變換的原理參照矩陣的乘法規(guī)則。
? 組內(nèi)關(guān)系[A0]:指第i組內(nèi),用組內(nèi)第j個向量和第i組的均值向量差的平方和表示。
[A0=t=12j=1nta′X(t)j-a′X(t)2=a′t=12j=1ntX(t)j-X(t)X(t)j-X(t)′a=a′Aa] (2)
盡量分開不同組的所得投影,盡可能縮短組內(nèi)數(shù)值的距離。
定義 4 -3:已知a是在[a′Aa=1]條件下使得[Δa=a′Ba]達到極大值的方向,稱[ux=a′X]為線性判別函數(shù)。
據(jù)第二點的判別方法的過程表明,確定判別條件以后就可以進行判別分析。
4 利用判別原理進行離群點檢測
在離群點挖掘中[2]引入判別分析的原理,簡化費歇判別原理:
直到最后兩個樣本時,將費歇判別函數(shù)就可以寫成:
[uX=X(1)-X(2)′S-1pX] (3)
這時閾值的計算方法見公式(4)
[u=12X(1)-X(2)′S-1pX(1)+X(2)] (4)
計算出總體樣本的協(xié)方差矩陣
兩個總體均值有明顯差異需要檢驗,在檢驗是否有差異后判別函數(shù)的有效性。驗證統(tǒng)計量F,用公式(5),公式中的D2 可以用(6)的公式計算。
[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2],n1和n2分別為兩個總體的樣本數(shù) (5)
[D2=X(1)-X(2)′S-1pX(1)-X(2)] (6)
[Fα(p,n1+n2-p-1)]表示α水平下的卡方分別,當[F>Fα(p,n1+n2-p-1)]時,表明判別函數(shù)是有效的,具體推導步驟參見文獻[3],將判別標準推導出
判[X∈G1],當[u(X)>u]
判[X∈G2],當[u(X)
待判, 當[u(X)=u]
針對高維數(shù)據(jù)中離群點檢測算法進行了分析和研究,提出了高維數(shù)據(jù)中離群點檢測需要注意的一些問題,從而便于研究者以這些算法為基礎(chǔ),在此基礎(chǔ)上提出新的改進算法。
參考文獻:
[1] 高惠璇. 應(yīng)用多元統(tǒng)計分析[M]. 北京: 北京大學出版社, 2005.
[2] 張堯庭, 方開泰. 多元統(tǒng)計分析引論[M]. 北京: 北京科學出版社, 1982.