国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于判別分析原理的離群點檢測算法

2015-09-09 19:00簡述芬侯天子
電腦知識與技術(shù) 2015年16期
關(guān)鍵詞:離群

簡述芬 侯天子

摘要:信息技術(shù)進入了數(shù)據(jù)時代,多屬性高維數(shù)據(jù)廣泛存在很多數(shù)據(jù)集中?;谂袆e分析的離群點檢測算法是一種新的離群點挖掘的思路,通過一個數(shù)據(jù)實例驗證該算法可以檢測數(shù)據(jù)之中的異常數(shù)據(jù)。

關(guān)鍵詞:離群;判別分析;檢測算法

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)03-0090-02

Discriminate Analysis Based Outlier Detection Algorithm

JIAN Shu-fen1, HOU Tian-zi2

(1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)

Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.

Key words: outlier; discriminate analysis; detection algorithm

1 判別分析在基于離群點挖掘時的可行性

1.1判別分析方法的定義

有一種方法可以辨別所屬的類別,這種方法是判別分析。其有著潛在的應(yīng)用方面,比如說在預測新產(chǎn)品的成功率上,或者確定該學生能否被錄用等方面。一般存在某種關(guān)系,如某個被解釋的定性變量和定量的解釋變量,判別分析方法比較適合。

判別分析方法是應(yīng)用性很強的一種多元統(tǒng)計方法,判別分析方法對問題求解可以這樣描述:假設(shè)存在n個k維總體[G1,G2,...,Gk],分布函數(shù)或特征已知,(若已知的分布函數(shù)分別是[F1(x),F(xiàn)2(x),...,F(xiàn)k(x)]分布函數(shù)或特征已知),對于給定一個新的樣本x,要分析出樣本出自哪個總體。

1.2判別分析方法與分類的異同

判別分析與數(shù)據(jù)挖掘中的分類技術(shù)并不等同。分類與判別分析目的都是出于給數(shù)據(jù)分類的目的,在這上面是相似的。

判別分析方法是數(shù)學統(tǒng)計中一種方法,需要嚴謹?shù)倪壿嬐评韥硗茖總€步驟,這與分類有所不同。分類是挖掘中的廣泛應(yīng)用的技術(shù)之一,如決策樹、貝葉斯等,需構(gòu)造分類器或模型來預測類屬標號/。其中,只有貝葉斯分類也同時應(yīng)用在統(tǒng)計學中。

1.3判別分析應(yīng)用于離群點挖掘

離群點數(shù)據(jù)由絕大多數(shù)的正常數(shù)據(jù)和少數(shù)的異常數(shù)據(jù)組成,將判別分析縮減優(yōu)化,優(yōu)化到兩個總體,將一個新樣品x設(shè)定,通過推算得出它屬于其中某個總體,如果判定結(jié)果是異常數(shù)據(jù)表示的總體,那么就可以判定某個樣品是離群點,否則就屬于正常數(shù)據(jù)的樣品。這種離群點判別分析算法的優(yōu)點在于它的動態(tài)性好。當新來品種,就可以很快分析出數(shù)據(jù)所屬類別。

這種判別方法,類似貝葉斯分類法:利用貝葉斯原理構(gòu)造出貝葉斯分類器,將費歇(Fisher)判別運用到離群點數(shù)據(jù)挖掘,用這種判定分析,進行離群點檢測。

2 判別分析方法步驟

對判別分析方法的實現(xiàn)可分5個步進行。

第1步:檢測判別分析對象

第1步:檢測對象在提前分好的小組中的差異點,對獲取進行分類。在這些變量中,分析判別差異時,觀察其中解釋較多的數(shù)據(jù),這些數(shù)據(jù)對判定樣品類別時起的作用比較大的。

第2步:判別分析設(shè)計

對解釋變量和被解釋變量,用判別分析加以摘選出來,設(shè)為定性變量。由于在判別分析中,對樣本量與預測變量的個數(shù)的比率是敏感的,因此也需要考慮到樣本的容量大小。

第3步:假定判別分析

在推算出判別分析函數(shù)前,首先假定解釋變量的正態(tài)性,協(xié)方差陣相等,這樣可以確保之后的計算滿足條件。

第4步:判別模型估計與整體擬合評估

選擇估計方法,推算判別分析函數(shù),并找出其中的差異性,確定函數(shù)的有效性。

第5步:解釋結(jié)論并驗證

判別分析里有距離判別、貝葉斯判別、費歇判別等都是判別分析中的分析方法,判別方法不同,臨界條件也不同。判別分析不僅對所判別的數(shù)據(jù)有成效,在另一方面也能夠?qū)σ呀?jīng)的分類數(shù)據(jù)進行回判,從而驗證數(shù)據(jù)的真實性。

關(guān)于判別分析的具體性質(zhì),詳細的數(shù)學推導過程與證明可參見文獻[1]。

3 費歇判別

在費歇判別中,投影是該判別方法的基本思想,假設(shè)k組p維數(shù)據(jù)向指定的一個方向投影,k個分組得到的投影分別放在k個不同地方,盡可能的縮短組內(nèi)的距離。

在這只是把k=2這個值表明,隨即分成兩個類別,由離群點的概念可得,可把數(shù)據(jù)分成兩類,分別是正常數(shù)據(jù)和異常數(shù)據(jù)。

樣本G總數(shù)為n,表示為

[G=G1?G2=x(1)1,x(1)2,...,x(1)n1,x(2)1,x(2)2,...,x(2)n2 n=n1+n2]

令[a=a1,a2,...,ap′],a是p維空間中的任一量,[ux=a′X]是X以a為法線的方向上的投影,則G1和G2的投影是:

[G1:a′x(1)1,a′x(1)2,...,a′x(1)n1 ]

[G2:a′x(2)1,a′x(2)2,...,a′x(2)n2]

? 組間關(guān)系[B0]:由第t組的平均值和與總均值的向量差的平方和 :

[B0=t=12nta′X(t)-a′X2=a′t=12ntX(t)-XX(t)-X′a=a′Ba] (1)

其中[X=1nt=12j=1ntX(t)j],[B=t=12ntX(t)-XX(t)-X′]。等式變換的原理參照矩陣的乘法規(guī)則。

? 組內(nèi)關(guān)系[A0]:指第i組內(nèi),用組內(nèi)第j個向量和第i組的均值向量差的平方和表示。

[A0=t=12j=1nta′X(t)j-a′X(t)2=a′t=12j=1ntX(t)j-X(t)X(t)j-X(t)′a=a′Aa] (2)

盡量分開不同組的所得投影,盡可能縮短組內(nèi)數(shù)值的距離。

定義 4 -3:已知a是在[a′Aa=1]條件下使得[Δa=a′Ba]達到極大值的方向,稱[ux=a′X]為線性判別函數(shù)。

據(jù)第二點的判別方法的過程表明,確定判別條件以后就可以進行判別分析。

4 利用判別原理進行離群點檢測

在離群點挖掘中[2]引入判別分析的原理,簡化費歇判別原理:

直到最后兩個樣本時,將費歇判別函數(shù)就可以寫成:

[uX=X(1)-X(2)′S-1pX] (3)

這時閾值的計算方法見公式(4)

[u=12X(1)-X(2)′S-1pX(1)+X(2)] (4)

計算出總體樣本的協(xié)方差矩陣估計值[Sp]的逆矩陣。

兩個總體均值有明顯差異需要檢驗,在檢驗是否有差異后判別函數(shù)的有效性。驗證統(tǒng)計量F,用公式(5),公式中的D2 可以用(6)的公式計算。

[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2],n1和n2分別為兩個總體的樣本數(shù) (5)

[D2=X(1)-X(2)′S-1pX(1)-X(2)] (6)

[Fα(p,n1+n2-p-1)]表示α水平下的卡方分別,當[F>Fα(p,n1+n2-p-1)]時,表明判別函數(shù)是有效的,具體推導步驟參見文獻[3],將判別標準推導出

判[X∈G1],當[u(X)>u]

判[X∈G2],當[u(X)

待判, 當[u(X)=u]

針對高維數(shù)據(jù)中離群點檢測算法進行了分析和研究,提出了高維數(shù)據(jù)中離群點檢測需要注意的一些問題,從而便于研究者以這些算法為基礎(chǔ),在此基礎(chǔ)上提出新的改進算法。

參考文獻:

[1] 高惠璇. 應(yīng)用多元統(tǒng)計分析[M]. 北京: 北京大學出版社, 2005.

[2] 張堯庭, 方開泰. 多元統(tǒng)計分析引論[M]. 北京: 北京科學出版社, 1982.

猜你喜歡
離群
一種基于鄰域粒度熵的離群點檢測算法
離群動態(tài)性數(shù)據(jù)情報偵查方法研究
基于自然鄰居鄰域圖的無參數(shù)離群檢測算法
一種相似度剪枝的離群點檢測算法
一種基于近鄰關(guān)系的新型離群評估算法
候鳥
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
離群的小雞
應(yīng)用相似度測量的圖離群點檢測方法
一種基于核空間局部離群因子的離群點挖掘方法