數(shù)據(jù)挖掘中的距離判別分析法

2015-05-30 09:27:48姜喜春

科技資訊 2015年27期

摘要：判別分析是統(tǒng)計學中的一種重要的數(shù)據(jù)處理方法，也是數(shù)據(jù)挖掘的重要技術之一。該文主要研究多元統(tǒng)計分析中的距離判別分析方法。第一，介紹了判別分析的基本思想。第二，主要圍繞距離判別分析具體方法展開論述。首先，論述了距離的定義，主要介紹了閔可夫斯基距離和馬氏距離的定義。其次，重點介紹了兩總體的距離判別分析和多總體的距離判別分析的方法。分別從方差相等和方差不相等的兩種不同情形進行展開論述。第三，闡述了判別準的評價，給出了誤判率的估計值。

關鍵詞：數(shù)據(jù)挖掘距離判別分析兩總體的距離判別分析多總體的距離判別分析

中圖分類號：O21 文獻標識碼：A 文章編號：1672-3791（2015）09（c）-0155-02

隨著大數(shù)據(jù)時代的來臨，人們越來越重視數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘技術是從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價值的關系、模式和趨勢，并用這些知識和規(guī)則建立用于決策支持的模型，提供預測性決策支持的方法、工具和過程[1]。統(tǒng)計學中的很多分析方法都能夠很好的處理和分析數(shù)據(jù)，主要包括：數(shù)據(jù)描述性分析、回歸分析、判別分析、聚類分析、主成分分析、典型相關分析和數(shù)值模擬分析等方法。本文著重介紹判別分析中的距離判別分析方法，希望能夠應用該方法在數(shù)據(jù)中挖掘出有用的信息。

1 判別分析的基本思想

判別分析是多元統(tǒng)計分析中用于判別樣本所屬類型的一種統(tǒng)計分析方法。判別分析是指事物的分類是清楚的，目的是通過已知分類建立判別函數(shù)，預測新的觀察對象所屬類別。判別分析適用于被解釋變量是非度量的屬性變量，而影響被解釋變量的解釋變量是度量變量。判別分析按判別的組數(shù)來分，有兩組判別分析和多組判別分析；按區(qū)分不同總體所用的數(shù)學模型來分，有線性判別和非線性判別；按判別對所處理的變量方法不同，有逐步判別、序貫判別等；按判別準則不同，有距離判別、貝葉斯判別（Bayes）、費歇（Fisher）判別等。該文著重介紹其中的距離判別分析。

2 距離判別分析

2.1 距離的定義

2.1.1 閔可夫斯基距離

設有維向量，則稱為維向量、之間的閔可夫斯基距，其中為常數(shù)。當時閔可夫斯基距離就是常見的歐氏距離。

2.1.2 馬氏距離

馬氏距離是由印度統(tǒng)計學家馬哈拉諾比斯（PC Mahalanobis）提出的，由于馬氏距離具有統(tǒng)計意義，在距離判別分析時經(jīng)常應用馬氏距離：

（1）同一總體的兩個向量之間的馬氏距離。

設總體G的兩個維觀測向量，稱為維向量、之間的馬氏距離。其中為總體協(xié)方差矩陣，通常取為實對稱正定矩陣，當Σ為單位矩陣時馬氏距離就是歐氏距離。

（2）一個向量到一個總體的馬氏距離。

總體G的均值向量為μ，協(xié)方差矩陣為Σ。則稱為n維向量x與總體G的馬氏距離。

（3）兩個總體之間的馬氏距離。

設有兩個總體G1，G2，兩個總體的均值向量分別為，協(xié)方差矩陣相等，皆為，則兩個總體之間的馬氏距離為。

2.2 兩總體的距離判別分析

距離判別分析思想是：根據(jù)已知分類的數(shù)據(jù)，分別計算各類的重心即分組的均值，對任給的一次觀測，計算其與每一類中心的距離，最后依據(jù)最小距離進行判別。若它與第類的距離最小，就判定其歸屬于第類。

2.2.1 兩總體的協(xié)方差矩陣相等的情況

設兩個總體、協(xié)方差陣均為，考慮維樣品到總體、的馬氏距離的平方差為：

，其中，、為兩個總體的均值。于是判別準則為：。在實際問題中、、為樣本的估計值。

2.2.2 兩總體的協(xié)方差矩陣不相等的情況

設兩個總體、協(xié)方差陣分別為與不相等，均值分別為、。則樣品到總體、的馬氏距離的平方差為：，判別準則仍為：。兩種情況的區(qū)別是判別函數(shù)不同。

2.3 多總體的距離判別分析

設有多個總體，均指向量分別為，協(xié)方差矩陣的分別為。對于待判樣品，計算其到個總體的馬氏距離，若存在第個總體使得則判定樣品屬于第個總體。

2.3.1 總體協(xié)方差矩陣相等時的判別

當每個總體的協(xié)方差矩陣都相等時，判別函數(shù)為：，則到的距離最小等價于對所有的，有。其中總體均值向量與協(xié)方差矩陣用樣本的均值和樣本協(xié)方差矩陣代替。

2.3.2 總體協(xié)方差矩陣不全相等時的判別

假設有個總體，則樣品到各個總體的馬氏距離的平方分別為：。若，則判定。

3 判別準則的評價

誤判率是考察一個判別準則的優(yōu)良性的一個指標。誤判率的估計思想是：屬于樣品被誤判為屬于樣品的個數(shù)為個個，屬于樣品被誤判為屬于樣品的個數(shù)為個個，兩總體樣品總數(shù)為個，則誤判率的估計為：。

4 結語

首先，該文系統(tǒng)的闡述了距離判別分析的基本思想和具體方法。按照統(tǒng)計學中的馬氏距離的定義給出了判別函數(shù)。進行兩組判別分析和多組判別分析，對應的構造了線性判別函數(shù)和二次判別函數(shù)。在今后的研究過程中也可以考慮使用閔可夫斯基距離構造判別函數(shù)，并和馬氏距離構造的判別函數(shù)的判別效果進行對比分析，以考察哪種判別函數(shù)更合理，以及考察相互之間的聯(lián)系和區(qū)別，從而能夠從更多的角度去研究同一個問題，得到更好的分析結果。其次，該文只是研究了距離判別分析，但是判別分析的方法有很多種，還有貝葉斯判別（Bayes）分析、費歇（Fisher）判別分析等。在今后的研究和學習中要加強這些方法的比較研究，從而靈活應用每種方法分析數(shù)據(jù)，最后得出精確的分析結果。

參考文獻

[1] 張良均，陳俊德，劉名軍，等.數(shù)據(jù)挖掘實用案例分[M].北京：機械工業(yè)出版社，2013：5-10.

[2] 李柏年，吳禮斌.MATLAB數(shù)據(jù)分析方法[M].北京：機械工業(yè)出版社，2012：81-89.

[3] 姜喜春，高軍，王永娟.基于MATLAB軟件的回歸分析[J].黑河學院學報，2014，5（6）：126-128.

[4] 何曉群.多元統(tǒng)計分析[M].北京：中國人民大學出版社，2012：88-89.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)挖掘中的距離判別分析法