黃利文
(泉州師范學院 數(shù)學與計算機學院,福建 泉州 362000)
判別分析是用于判別個體所屬群體的一種統(tǒng)計方法,它產生于20世紀30年代.其特點是根據已掌握的每個類別的若干樣本數(shù)據信息,總結出客觀事物分類的規(guī)律性,并建立相應的判別準則.然后,當遇到新的樣品時,根據總結出來的判別準則,判別該樣品所屬的類別[1,2].目前,該方法已在模式識別、地質、遙感、醫(yī)學等領域得到廣泛應用[3,4].在判別分析中,若判別變量較多時,易因變量之間的相關性,降低判別模型的判別效果.為了降低變量之間的相關性的影響,提出了挑選變量的方法.該方法采用維爾克斯統(tǒng)計量Λ挑選變量,并用挑選后的變量建立模型,對提高判別效果起了很重要的作用,但該方法得到的結果往往是局部最優(yōu)解,有時候會將重要的變量漏掉[5,6].文獻[7]采用主成分分析法進行降維處理,該方法在進行降維處理時有兩種思路:其一是直接從協(xié)方差矩陣出發(fā)進行主成分提??;其二是從相關矩陣出發(fā)(先對原始數(shù)據進行標準化處理,然后在從協(xié)方差矩陣出發(fā))進行主成分提取.其中第一種方法易受到量綱和數(shù)量級的影響,從而影響判別的效果.第二種方法雖然消除了量綱和數(shù)量級的影響,但該方法在進行標準化處理后,將原始數(shù)據各指標的均值變?yōu)?,方差變?yōu)?,易丟失各指標之間變異程度的差異信息[8].為此,文中在主成分分析的基礎上,對其進行改進,并以改進后的主成分方法提取判別變量的主成分,然后以近鄰原則建立距離判別準則,并以該準則對待判樣品進行判別歸類.
設n個樣本構成的數(shù)據矩陣為
引理2[8]原始數(shù)據的均值化不改變各指標間的相關系數(shù).
原始數(shù)據通過均值化處理后,消除了指標間的量綱和數(shù)量級的影響.由引理1,均值化后的協(xié)方差矩陣能更好地反映各指標變異程度的差異.由引理2,原始數(shù)據的均值化沒有改變各指標之間的相關性.
(1)
其中αj為組合系數(shù)向量,記為αj=(α1j,…,αmj)′.
為了加以限制,對組合系數(shù)αj做如下要求:
α′jαj=1,j=1,…,p
且組合系數(shù)向量αj由以下原則確定:
1)Yi與Yj(i≠j,i,j=1,…,p)不相關;
2)Y1是Y1,…,Xp的一切線性組合(組合系數(shù)向量滿足上述的方程組)中方差最大的,Y2是與Y1不相關的X1,…,Xp的一切線性組合中方差最大的,依次類推,Yp是與Y1,…Yp-1不相關的X1,…,Xp的一切線性組合中方差最大的.
滿足上述要求的綜合指標向量Y1,Y2,…,Yp稱為主成分,這些主成分反映原始數(shù)據的信息,且互不相關.每一個主成分所提取原始數(shù)據的信息量依次遞減,用方差來度量,且主成分方差的貢獻等于原始數(shù)據的相關矩陣所對應的特征值λj,對應主成分的組合系數(shù)αj=(α1j,…,αpj)′為其特征值λj所對應的特征向量.
依據“組間差大,組內差小”的思想尋找最優(yōu)的判別向量u,使得
(2)
通過訓練樣本,設找到的最優(yōu)判別向量為u,就可建立如下線性投影表達式:
z=u′y.
(3)
將總體G1,G2,…,Gk的樣品代入式(3)得到各類投影值的全體,分別記為C1,C2,…,Ck,其中Cα={wα1,wα2,…,wαnα}為一個有序樣本,α=1,2,…,k.依最優(yōu)分割理論[9]對Cα進行最優(yōu)分割,確定其特征點數(shù),記為mα,其最優(yōu)分段記為Cαl,每個分段包含tαl的樣本,α=1,2,…,k,l=1,2,…,mα.
若有序樣本Cα具有mα個特征點,則其對應的總體Gα應具有mα個特征.采用如下方法確定總體Gα的mα個特征:
若
(4)
則稱Pαl(l=1,2,…,mα)為總體Gα應具有mα個特征.
定義1 設x、y為兩個任意的樣品,則稱
D(x,y)=(x-y)(x-y)′
為樣品x與樣品y之間的距離.
定義2 設x為任意的一個樣品,P1,P2,…,ps為總體G的s個特征,則稱
為樣品x與總體G的距離.
依定義2,樣品x到第α個總體的距離為
由此,可建立如下的判別準則:若
(5)
則判斷樣品x∈Gβ.
由第1部分、第2部分的討論,可得到高維數(shù)據的距離判別法的步驟如下:
(1)對樣本矩陣X=(Xij)n×p進行均值化處理,記為X*.
(2)計算X*的協(xié)方差陣,記為V.
(4)計算判別向量u,建立線性投影表達式z=u′y.依此式計算各個總體的樣品投影值,并確定各個總體的特征點.
(5)用第2部分中的式(4)確定各總體的特征.
(6)按第2部分中的式(5)建立判別準則,對待判樣品判別歸類.
例1 為了檢驗文中方法的效果,文中采用UCI數(shù)據集.該數(shù)據集為wine,為葡萄酒的化學分析結果.它有13個成分指標,178個樣品,共3類.現(xiàn)采用文中的方法進行分析,結果如下:
(1)對數(shù)據集均值化后進行主成分分析,按85%的貢獻率提取主成分,得到5個主成分.
表1 主成分系數(shù)
(2)利用5個主成分得到的新數(shù)據,得到線性投影表達式為
z=y1-0.0726y2-0.8282y3-
2.8400y4-1.5095y5
(6)
(3)按式(6)對各個總體進行投影,并利用最優(yōu)分割理論,確定各個總體的特征均為3個.采用第2部分中式(4),得到各個總體的特征見表2.
表2 各個總體的特征
(4)按文中的方法將原始數(shù)據未降維與降維處理兩種方式分別建立判別模型,所得的結果如下.
表3 判別結果對比
從表3可以看出,應用文中的判別方法,原始數(shù)據通過降維處理建立的模型要比未降維的效果好,這表明當判別變量較多或者變量間的相關性較大時,文中的判別方法有助于提高模型的判別效果.
高維數(shù)據的距離判別方法采用改進的主成分分析法進行降維,按85%的貢獻率提取判別數(shù)據的主成分,然后以近鄰原則建立距離判別準則,并以該準則對待判樣品進行判別歸類.
實例表明,但當判別變量較多或者變量間的相關性較大時,采用改進的主成分分析法進行降維,能用較少的主成分,提取更多的原始信息.另外,文中采用改進的距離判別方法,通過對各個總體的特征提取,有助于提高判別模型的判別效果.
參考文獻:
[1]何躍,楊磊,徐玖平.一種新的聚類判別分析框架及其實證研究[J].計算機應用研究,2007,24(12):32-36.
[2]周健,史秀志,王懷勇.礦井突水水源識別的距離判別分析模型[J].煤炭學報,2010,35(2):278-282.
[3]邱道宏,張樂文,李術才,等.基于權重反分析方法的加權距離判別法及應用[J].巖土力學,2010,31(10):3243-3253.
[4]高國朋,顏可珍.基于距離判別分析法的邊坡穩(wěn)定性預測模型及應用[J].水利與建筑工程學報,2010,8(3):43-45.
[5]張堯庭,方開泰.多元統(tǒng)計分析引論[M].北京:科學出版社,1999.
[6]于秀林,任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999.
[7]王榮輝,宗若雯,王正洲,等.主成分分析法和Fisher判別方法在汽油分類分析中的應用[J].中國科學技術大學學報,2006,36(12):1331-1335.
[8]紀榮芳.主成分分析法中數(shù)據處理方法的改進[J].山東科技大學學報,2007,26(5):95-98.
[9]林志興,黃利文.基于特征向量集的距離判別[J].集美大學學報,2007,12(3):280-283.