高維數(shù)據的距離判別方法*

2013-01-10 10:16:38黃利文

通化師范學院學報 2013年4期

黃利文

(泉州師范學院數(shù)學與計算機學院，福建泉州 362000)

判別分析是用于判別個體所屬群體的一種統(tǒng)計方法，它產生于20世紀30年代.其特點是根據已掌握的每個類別的若干樣本數(shù)據信息，總結出客觀事物分類的規(guī)律性，并建立相應的判別準則.然后，當遇到新的樣品時，根據總結出來的判別準則，判別該樣品所屬的類別[1，2].目前，該方法已在模式識別、地質、遙感、醫(yī)學等領域得到廣泛應用[3，4].在判別分析中，若判別變量較多時，易因變量之間的相關性，降低判別模型的判別效果.為了降低變量之間的相關性的影響，提出了挑選變量的方法.該方法采用維爾克斯統(tǒng)計量Λ挑選變量，并用挑選后的變量建立模型，對提高判別效果起了很重要的作用，但該方法得到的結果往往是局部最優(yōu)解，有時候會將重要的變量漏掉[5，6].文獻[7]采用主成分分析法進行降維處理，該方法在進行降維處理時有兩種思路：其一是直接從協(xié)方差矩陣出發(fā)進行主成分提??；其二是從相關矩陣出發(fā)(先對原始數(shù)據進行標準化處理，然后在從協(xié)方差矩陣出發(fā))進行主成分提取.其中第一種方法易受到量綱和數(shù)量級的影響，從而影響判別的效果.第二種方法雖然消除了量綱和數(shù)量級的影響，但該方法在進行標準化處理后，將原始數(shù)據各指標的均值變?yōu)?，方差變?yōu)?，易丟失各指標之間變異程度的差異信息[8].為此，文中在主成分分析的基礎上，對其進行改進，并以改進后的主成分方法提取判別變量的主成分，然后以近鄰原則建立距離判別準則，并以該準則對待判樣品進行判別歸類.

1 改進的主成分分析法原理

設n個樣本構成的數(shù)據矩陣為

引理2[8]原始數(shù)據的均值化不改變各指標間的相關系數(shù).

原始數(shù)據通過均值化處理后，消除了指標間的量綱和數(shù)量級的影響.由引理1，均值化后的協(xié)方差矩陣能更好地反映各指標變異程度的差異.由引理2，原始數(shù)據的均值化沒有改變各指標之間的相關性.

(1)

其中αj為組合系數(shù)向量，記為αj=(α1j，…，αmj)′.

為了加以限制，對組合系數(shù)αj做如下要求：

α′jαj=1，j=1，…，p

且組合系數(shù)向量αj由以下原則確定：

1)Yi與Yj(i≠j，i，j=1，…，p)不相關；

2)Y1是Y1，…，Xp的一切線性組合(組合系數(shù)向量滿足上述的方程組)中方差最大的，Y2是與Y1不相關的X1，…，Xp的一切線性組合中方差最大的，依次類推，Yp是與Y1，…Yp-1不相關的X1，…，Xp的一切線性組合中方差最大的.

滿足上述要求的綜合指標向量Y1，Y2，…，Yp稱為主成分，這些主成分反映原始數(shù)據的信息，且互不相關.每一個主成分所提取原始數(shù)據的信息量依次遞減，用方差來度量，且主成分方差的貢獻等于原始數(shù)據的相關矩陣所對應的特征值λj，對應主成分的組合系數(shù)αj=(α1j，…，αpj)′為其特征值λj所對應的特征向量.

2 基于特征向量集的距離判別法

依據“組間差大，組內差小”的思想尋找最優(yōu)的判別向量u，使得

(2)

通過訓練樣本，設找到的最優(yōu)判別向量為u，就可建立如下線性投影表達式：

z=u′y.

(3)

將總體G1，G2，…，Gk的樣品代入式(3)得到各類投影值的全體，分別記為C1，C2，…，Ck，其中Cα={wα1，wα2，…，wαnα}為一個有序樣本，α=1，2，…，k.依最優(yōu)分割理論[9]對Cα進行最優(yōu)分割，確定其特征點數(shù)，記為mα，其最優(yōu)分段記為Cαl，每個分段包含tαl的樣本，α=1，2，…，k，l=1，2，…，mα.

若有序樣本Cα具有mα個特征點，則其對應的總體Gα應具有mα個特征.采用如下方法確定總體Gα的mα個特征：

若

(4)

則稱Pαl(l=1，2，…，mα)為總體Gα應具有mα個特征.

定義1 設x、y為兩個任意的樣品，則稱

D(x，y)=(x-y)(x-y)′

為樣品x與樣品y之間的距離.

定義2 設x為任意的一個樣品，P1，P2，…，ps為總體G的s個特征，則稱

為樣品x與總體G的距離.

依定義2，樣品x到第α個總體的距離為

由此，可建立如下的判別準則：若

(5)

則判斷樣品x∈Gβ.

3 高維數(shù)據的距離判別法

由第1部分、第2部分的討論，可得到高維數(shù)據的距離判別法的步驟如下：

(1)對樣本矩陣X=(Xij)n×p進行均值化處理，記為X*.

(2)計算X*的協(xié)方差陣，記為V.

(4)計算判別向量u，建立線性投影表達式z=u′y.依此式計算各個總體的樣品投影值，并確定各個總體的特征點.

(5)用第2部分中的式(4)確定各總體的特征.

(6)按第2部分中的式(5)建立判別準則，對待判樣品判別歸類.

4 實例分析

例1 為了檢驗文中方法的效果，文中采用UCI數(shù)據集.該數(shù)據集為wine，為葡萄酒的化學分析結果.它有13個成分指標，178個樣品，共3類.現(xiàn)采用文中的方法進行分析，結果如下：

(1)對數(shù)據集均值化后進行主成分分析，按85%的貢獻率提取主成分，得到5個主成分.

表1 主成分系數(shù)

(2)利用5個主成分得到的新數(shù)據，得到線性投影表達式為

z=y1-0.0726y2-0.8282y3-
2.8400y4-1.5095y5

(6)

(3)按式(6)對各個總體進行投影，并利用最優(yōu)分割理論，確定各個總體的特征均為3個.采用第2部分中式(4)，得到各個總體的特征見表2.

表2 各個總體的特征

(4)按文中的方法將原始數(shù)據未降維與降維處理兩種方式分別建立判別模型，所得的結果如下.

表3 判別結果對比

從表3可以看出，應用文中的判別方法，原始數(shù)據通過降維處理建立的模型要比未降維的效果好，這表明當判別變量較多或者變量間的相關性較大時，文中的判別方法有助于提高模型的判別效果.

5 結論

高維數(shù)據的距離判別方法采用改進的主成分分析法進行降維，按85%的貢獻率提取判別數(shù)據的主成分，然后以近鄰原則建立距離判別準則，并以該準則對待判樣品進行判別歸類.

實例表明，但當判別變量較多或者變量間的相關性較大時，采用改進的主成分分析法進行降維，能用較少的主成分，提取更多的原始信息.另外，文中采用改進的距離判別方法，通過對各個總體的特征提取，有助于提高判別模型的判別效果.

參考文獻：

[1]何躍，楊磊，徐玖平.一種新的聚類判別分析框架及其實證研究[J].計算機應用研究，2007，24(12):32-36．

[2]周健，史秀志，王懷勇.礦井突水水源識別的距離判別分析模型[J].煤炭學報，2010，35(2):278-282.

[3]邱道宏，張樂文，李術才，等.基于權重反分析方法的加權距離判別法及應用[J].巖土力學，2010，31(10):3243-3253.

[4]高國朋，顏可珍.基于距離判別分析法的邊坡穩(wěn)定性預測模型及應用[J].水利與建筑工程學報，2010，8(3):43-45.

[5]張堯庭，方開泰.多元統(tǒng)計分析引論[M].北京:科學出版社，1999.

[6]于秀林，任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社，1999.

[7]王榮輝，宗若雯，王正洲，等.主成分分析法和Fisher判別方法在汽油分類分析中的應用[J].中國科學技術大學學報，2006，36(12):1331-1335.

[8]紀榮芳.主成分分析法中數(shù)據處理方法的改進[J].山東科技大學學報，2007，26(5):95-98.