国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘中的距離判別分析法

2015-05-30 09:27:48姜喜春
科技資訊 2015年27期
關鍵詞:數(shù)據(jù)挖掘

摘 要:判別分析是統(tǒng)計學中的一種重要的數(shù)據(jù)處理方法,也是數(shù)據(jù)挖掘的重要技術之一。該文主要研究多元統(tǒng)計分析中的距離判別分析方法。第一,介紹了判別分析的基本思想。第二,主要圍繞距離判別分析具體方法展開論述。首先,論述了距離的定義,主要介紹了閔可夫斯基距離和馬氏距離的定義。其次,重點介紹了兩總體的距離判別分析和多總體的距離判別分析的方法。分別從方差相等和方差不相等的兩種不同情形進行展開論述。第三,闡述了判別準的評價,給出了誤判率的估計值。

關鍵詞:數(shù)據(jù)挖掘 距離判別分析 兩總體的距離判別分析 多總體的距離判別分析

中圖分類號:O21 文獻標識碼:A 文章編號:1672-3791(2015)09(c)-0155-02

隨著大數(shù)據(jù)時代的來臨,人們越來越重視數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘技術是從大量數(shù)據(jù)中挖掘出隱含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程[1]。統(tǒng)計學中的很多分析方法都能夠很好的處理和分析數(shù)據(jù),主要包括:數(shù)據(jù)描述性分析、回歸分析、判別分析、聚類分析、主成分分析、典型相關分析和數(shù)值模擬分析等方法。本文著重介紹判別分析中的距離判別分析方法,希望能夠應用該方法在數(shù)據(jù)中挖掘出有用的信息。

1 判別分析的基本思想

判別分析是多元統(tǒng)計分析中用于判別樣本所屬類型的一種統(tǒng)計分析方法。判別分析是指事物的分類是清楚的,目的是通過已知分類建立判別函數(shù),預測新的觀察對象所屬類別。判別分析適用于被解釋變量是非度量的屬性變量,而影響被解釋變量的解釋變量是度量變量。判別分析按判別的組數(shù)來分,有兩組判別分析和多組判別分析;按區(qū)分不同總體所用的數(shù)學模型來分,有線性判別和非線性判別; 按判別對所處理的變量方法不同,有逐步判別、序貫判別等; 按判別準則不同,有距離判別、貝葉斯判別(Bayes)、費歇(Fisher)判別等。該文著重介紹其中的距離判別分析。

2 距離判別分析

2.1 距離的定義

2.1.1 閔可夫斯基距離

設有維向量,則稱為維向量、之間的閔可夫斯基距,其中為常數(shù)。當時閔可夫斯基距離就是常見的歐氏距離。

2.1.2 馬氏距離

馬氏距離是由印度統(tǒng)計學家馬哈拉諾比斯(PC Mahalanobis)提出的,由于馬氏距離具有統(tǒng)計意義,在距離判別分析時經(jīng)常應用馬氏距離:

(1)同一總體的兩個向量之間的馬氏距離。

設總體G的兩個維觀測向量,稱為維向量、之間的馬氏距離。其中為總體協(xié)方差矩陣,通常取為實對稱正定矩陣,當Σ為單位矩陣時馬氏距離就是歐氏距離。

(2)一個向量到一個總體的馬氏距離。

總體G的均值向量為μ,協(xié)方差矩陣為Σ。則稱為n維向量x與總體G的馬氏距離。

(3)兩個總體之間的馬氏距離。

設有兩個總體G1,G2,兩個總體的均值向量分別為,協(xié)方差矩陣相等,皆為,則兩個總體之間的馬氏距離為。

2.2 兩總體的距離判別分析

距離判別分析思想是:根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心即分組的均值,對任給的一次觀測,計算其與每一類中心的距離,最后依據(jù)最小距離進行判別。若它與第類的距離最小,就判定其歸屬于第類。

2.2.1 兩總體的協(xié)方差矩陣相等的情況

設兩個總體、協(xié)方差陣均為,考慮維樣品到總體、的馬氏距離的平方差為:

,其中,、為兩個總體的均值。于是判別準則為:。 在實際問題中、、為樣本的估計值。

2.2.2 兩總體的協(xié)方差矩陣不相等的情況

設兩個總體、協(xié)方差陣分別為與不相等,均值分別為、。則樣品到總體、的馬氏距離的平方差為:,判別準則仍為:。兩種情況的區(qū)別是判別函數(shù)不同。

2.3 多總體的距離判別分析

設有多個總體,均指向量分別為,協(xié)方差矩陣的分別為。對于待判樣品,計算其到個總體的馬氏距離,若存在第個總體使得則判定樣品屬于第個總體。

2.3.1 總體協(xié)方差矩陣相等時的判別

當每個總體的協(xié)方差矩陣都相等時,判別函數(shù)為:,則到的距離最小等價于對所有的,有。其中總體均值向量與協(xié)方差矩陣用樣本的均值和樣本協(xié)方差矩陣代替。

2.3.2 總體協(xié)方差矩陣不全相等時的判別

假設有個總體,則樣品到各個總體的馬氏距離的平方分別為:。若,則判定。

3 判別準則的評價

誤判率是考察一個判別準則的優(yōu)良性的一個指標。誤判率的估計思想是:屬于樣品被誤判為屬于樣品的個數(shù)為個個,屬于樣品被誤判為屬于樣品的個數(shù)為個個,兩總體樣品總數(shù)為個,則誤判率的估計為:。

4 結語

首先,該文系統(tǒng)的闡述了距離判別分析的基本思想和具體方法。按照統(tǒng)計學中的馬氏距離的定義給出了判別函數(shù)。進行兩組判別分析和多組判別分析,對應的構造了線性判別函數(shù)和二次判別函數(shù)。在今后的研究過程中也可以考慮使用閔可夫斯基距離構造判別函數(shù),并和馬氏距離構造的判別函數(shù)的判別效果進行對比分析,以考察哪種判別函數(shù)更合理,以及考察相互之間的聯(lián)系和區(qū)別,從而能夠從更多的角度去研究同一個問題,得到更好的分析結果。其次,該文只是研究了距離判別分析,但是判別分析的方法有很多種,還有貝葉斯判別(Bayes)分析、費歇(Fisher)判別分析等。在今后的研究和學習中要加強這些方法的比較研究,從而靈活應用每種方法分析數(shù)據(jù),最后得出精確的分析結果。

參考文獻

[1] 張良均,陳俊德,劉名軍,等.數(shù)據(jù)挖掘實用案例分[M].北京:機械工業(yè)出版社,2013:5-10.

[2] 李柏年,吳禮斌.MATLAB數(shù)據(jù)分析方法[M].北京:機械工業(yè)出版社,2012:81-89.

[3] 姜喜春,高軍,王永娟.基于MATLAB軟件的回歸分析[J].黑河學院學報,2014,5(6):126-128.

[4] 何曉群.多元統(tǒng)計分析[M].北京:中國人民大學出版社,2012:88-89.

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
數(shù)據(jù)挖掘技術綜述與應用
河南科技(2014年19期)2014-02-27 14:15:26
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
高級數(shù)據(jù)挖掘與應用國際學術會議
崇仁县| 阳江市| 荔波县| 安阳市| 青浦区| 尖扎县| 霞浦县| 读书| 登封市| 阿瓦提县| 新津县| 丰镇市| 盐边县| 雷波县| 桃园市| 海伦市| 广西| 香港| 五大连池市| 石棉县| 乐都县| 蒲城县| 夏津县| 天镇县| 阜康市| 宜黄县| 拉萨市| 射阳县| 重庆市| 鄂伦春自治旗| 维西| 启东市| 常山县| 保康县| 恩平市| 襄垣县| 邹城市| 彭州市| 商城县| 多伦县| 高雄市|