摘 要:判別分析是統(tǒng)計學中的一種重要的數(shù)據(jù)處理方法,也是數(shù)據(jù)挖掘的重要技術之一。該文主要研究多元統(tǒng)計分析中的距離判別分析方法。第一,介紹了判別分析的基本思想。第二,主要圍繞距離判別分析具體方法展開論述。首先,論述了距離的定義,主要介紹了閔可夫斯基距離和馬氏距離的定義。其次,重點介紹了兩總體的距離判別分析和多總體的距離判別分析的方法。分別從方差相等和方差不相等的兩種不同情形進行展開論述。第三,闡述了判別準的評價,給出了誤判率的估計值。
關鍵詞:數(shù)據(jù)挖掘 距離判別分析 兩總體的距離判別分析 多總體的距離判別分析
中圖分類號:O21 文獻標識碼:A 文章編號:1672-3791(2015)09(c)-0155-02
隨著大數(shù)據(jù)時代的來臨,人們越來越重視數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘技術是從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程[1]。統(tǒng)計學中的很多分析方法都能夠很好的處理和分析數(shù)據(jù),主要包括:數(shù)據(jù)描述性分析、回歸分析、判別分析、聚類分析、主成分分析、典型相關分析和數(shù)值模擬分析等方法。本文著重介紹判別分析中的距離判別分析方法,希望能夠應用該方法在數(shù)據(jù)中挖掘出有用的信息。
1 判別分析的基本思想
判別分析是多元統(tǒng)計分析中用于判別樣本所屬類型的一種統(tǒng)計分析方法。判別分析是指事物的分類是清楚的,目的是通過已知分類建立判別函數(shù),預測新的觀察對象所屬類別。判別分析適用于被解釋變量是非度量的屬性變量,而影響被解釋變量的解釋變量是度量變量。判別分析按判別的組數(shù)來分,有兩組判別分析和多組判別分析;按區(qū)分不同總體所用的數(shù)學模型來分,有線性判別和非線性判別; 按判別對所處理的變量方法不同,有逐步判別、序貫判別等; 按判別準則不同,有距離判別、貝葉斯判別(Bayes)、費歇(Fisher)判別等。該文著重介紹其中的距離判別分析。
2 距離判別分析
2.1 距離的定義
2.1.1 閔可夫斯基距離
設有維向量,則稱為維向量、之間的閔可夫斯基距,其中為常數(shù)。當時閔可夫斯基距離就是常見的歐氏距離。
2.1.2 馬氏距離
馬氏距離是由印度統(tǒng)計學家馬哈拉諾比斯(PC Mahalanobis)提出的,由于馬氏距離具有統(tǒng)計意義,在距離判別分析時經(jīng)常應用馬氏距離:
(1)同一總體的兩個向量之間的馬氏距離。
設總體G的兩個維觀測向量,稱為維向量、之間的馬氏距離。其中為總體協(xié)方差矩陣,通常取為實對稱正定矩陣,當Σ為單位矩陣時馬氏距離就是歐氏距離。
(2)一個向量到一個總體的馬氏距離。
總體G的均值向量為μ,協(xié)方差矩陣為Σ。則稱為n維向量x與總體G的馬氏距離。
(3)兩個總體之間的馬氏距離。
設有兩個總體G1,G2,兩個總體的均值向量分別為,協(xié)方差矩陣相等,皆為,則兩個總體之間的馬氏距離為。
2.2 兩總體的距離判別分析
距離判別分析思想是:根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心即分組的均值,對任給的一次觀測,計算其與每一類中心的距離,最后依據(jù)最小距離進行判別。若它與第類的距離最小,就判定其歸屬于第類。
2.2.1 兩總體的協(xié)方差矩陣相等的情況
設兩個總體、協(xié)方差陣均為,考慮維樣品到總體、的馬氏距離的平方差為:
,其中,、為兩個總體的均值。于是判別準則為:。 在實際問題中、、為樣本的估計值。
2.2.2 兩總體的協(xié)方差矩陣不相等的情況
設兩個總體、協(xié)方差陣分別為與不相等,均值分別為、。則樣品到總體、的馬氏距離的平方差為:,判別準則仍為:。兩種情況的區(qū)別是判別函數(shù)不同。
2.3 多總體的距離判別分析
設有多個總體,均指向量分別為,協(xié)方差矩陣的分別為。對于待判樣品,計算其到個總體的馬氏距離,若存在第個總體使得則判定樣品屬于第個總體。
2.3.1 總體協(xié)方差矩陣相等時的判別
當每個總體的協(xié)方差矩陣都相等時,判別函數(shù)為:,則到的距離最小等價于對所有的,有。其中總體均值向量與協(xié)方差矩陣用樣本的均值和樣本協(xié)方差矩陣代替。
2.3.2 總體協(xié)方差矩陣不全相等時的判別
假設有個總體,則樣品到各個總體的馬氏距離的平方分別為:。若,則判定。
3 判別準則的評價
誤判率是考察一個判別準則的優(yōu)良性的一個指標。誤判率的估計思想是:屬于樣品被誤判為屬于樣品的個數(shù)為個個,屬于樣品被誤判為屬于樣品的個數(shù)為個個,兩總體樣品總數(shù)為個,則誤判率的估計為:。
4 結語
首先,該文系統(tǒng)的闡述了距離判別分析的基本思想和具體方法。按照統(tǒng)計學中的馬氏距離的定義給出了判別函數(shù)。進行兩組判別分析和多組判別分析,對應的構造了線性判別函數(shù)和二次判別函數(shù)。在今后的研究過程中也可以考慮使用閔可夫斯基距離構造判別函數(shù),并和馬氏距離構造的判別函數(shù)的判別效果進行對比分析,以考察哪種判別函數(shù)更合理,以及考察相互之間的聯(lián)系和區(qū)別,從而能夠從更多的角度去研究同一個問題,得到更好的分析結果。其次,該文只是研究了距離判別分析,但是判別分析的方法有很多種,還有貝葉斯判別(Bayes)分析、費歇(Fisher)判別分析等。在今后的研究和學習中要加強這些方法的比較研究,從而靈活應用每種方法分析數(shù)據(jù),最后得出精確的分析結果。
參考文獻
[1] 張良均,陳俊德,劉名軍,等.數(shù)據(jù)挖掘實用案例分[M].北京:機械工業(yè)出版社,2013:5-10.
[2] 李柏年,吳禮斌.MATLAB數(shù)據(jù)分析方法[M].北京:機械工業(yè)出版社,2012:81-89.
[3] 姜喜春,高軍,王永娟.基于MATLAB軟件的回歸分析[J].黑河學院學報,2014,5(6):126-128.
[4] 何曉群.多元統(tǒng)計分析[M].北京:中國人民大學出版社,2012:88-89.