国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高維數(shù)據的距離判別方法*

2013-01-10 10:16:38黃利文
通化師范學院學報 2013年4期
關鍵詞:原始數(shù)據降維總體

黃利文

(泉州師范學院 數(shù)學與計算機學院,福建 泉州 362000)

判別分析是用于判別個體所屬群體的一種統(tǒng)計方法,它產生于20世紀30年代.其特點是根據已掌握的每個類別的若干樣本數(shù)據信息,總結出客觀事物分類的規(guī)律性,并建立相應的判別準則.然后,當遇到新的樣品時,根據總結出來的判別準則,判別該樣品所屬的類別[1,2].目前,該方法已在模式識別、地質、遙感、醫(yī)學等領域得到廣泛應用[3,4].在判別分析中,若判別變量較多時,易因變量之間的相關性,降低判別模型的判別效果.為了降低變量之間的相關性的影響,提出了挑選變量的方法.該方法采用維爾克斯統(tǒng)計量Λ挑選變量,并用挑選后的變量建立模型,對提高判別效果起了很重要的作用,但該方法得到的結果往往是局部最優(yōu)解,有時候會將重要的變量漏掉[5,6].文獻[7]采用主成分分析法進行降維處理,該方法在進行降維處理時有兩種思路:其一是直接從協(xié)方差矩陣出發(fā)進行主成分提??;其二是從相關矩陣出發(fā)(先對原始數(shù)據進行標準化處理,然后在從協(xié)方差矩陣出發(fā))進行主成分提取.其中第一種方法易受到量綱和數(shù)量級的影響,從而影響判別的效果.第二種方法雖然消除了量綱和數(shù)量級的影響,但該方法在進行標準化處理后,將原始數(shù)據各指標的均值變?yōu)?,方差變?yōu)?,易丟失各指標之間變異程度的差異信息[8].為此,文中在主成分分析的基礎上,對其進行改進,并以改進后的主成分方法提取判別變量的主成分,然后以近鄰原則建立距離判別準則,并以該準則對待判樣品進行判別歸類.

1 改進的主成分分析法原理

設n個樣本構成的數(shù)據矩陣為

引理2[8]原始數(shù)據的均值化不改變各指標間的相關系數(shù).

原始數(shù)據通過均值化處理后,消除了指標間的量綱和數(shù)量級的影響.由引理1,均值化后的協(xié)方差矩陣能更好地反映各指標變異程度的差異.由引理2,原始數(shù)據的均值化沒有改變各指標之間的相關性.

(1)

其中αj為組合系數(shù)向量,記為αj=(α1j,…,αmj)′.

為了加以限制,對組合系數(shù)αj做如下要求:

α′jαj=1,j=1,…,p

且組合系數(shù)向量αj由以下原則確定:

1)Yi與Yj(i≠j,i,j=1,…,p)不相關;

2)Y1是Y1,…,Xp的一切線性組合(組合系數(shù)向量滿足上述的方程組)中方差最大的,Y2是與Y1不相關的X1,…,Xp的一切線性組合中方差最大的,依次類推,Yp是與Y1,…Yp-1不相關的X1,…,Xp的一切線性組合中方差最大的.

滿足上述要求的綜合指標向量Y1,Y2,…,Yp稱為主成分,這些主成分反映原始數(shù)據的信息,且互不相關.每一個主成分所提取原始數(shù)據的信息量依次遞減,用方差來度量,且主成分方差的貢獻等于原始數(shù)據的相關矩陣所對應的特征值λj,對應主成分的組合系數(shù)αj=(α1j,…,αpj)′為其特征值λj所對應的特征向量.

2 基于特征向量集的距離判別法

依據“組間差大,組內差小”的思想尋找最優(yōu)的判別向量u,使得

(2)

通過訓練樣本,設找到的最優(yōu)判別向量為u,就可建立如下線性投影表達式:

z=u′y.

(3)

將總體G1,G2,…,Gk的樣品代入式(3)得到各類投影值的全體,分別記為C1,C2,…,Ck,其中Cα={wα1,wα2,…,wαnα}為一個有序樣本,α=1,2,…,k.依最優(yōu)分割理論[9]對Cα進行最優(yōu)分割,確定其特征點數(shù),記為mα,其最優(yōu)分段記為Cαl,每個分段包含tαl的樣本,α=1,2,…,k,l=1,2,…,mα.

若有序樣本Cα具有mα個特征點,則其對應的總體Gα應具有mα個特征.采用如下方法確定總體Gα的mα個特征:

(4)

則稱Pαl(l=1,2,…,mα)為總體Gα應具有mα個特征.

定義1 設x、y為兩個任意的樣品,則稱

D(x,y)=(x-y)(x-y)′

為樣品x與樣品y之間的距離.

定義2 設x為任意的一個樣品,P1,P2,…,ps為總體G的s個特征,則稱

為樣品x與總體G的距離.

依定義2,樣品x到第α個總體的距離為

由此,可建立如下的判別準則:若

(5)

則判斷樣品x∈Gβ.

3 高維數(shù)據的距離判別法

由第1部分、第2部分的討論,可得到高維數(shù)據的距離判別法的步驟如下:

(1)對樣本矩陣X=(Xij)n×p進行均值化處理,記為X*.

(2)計算X*的協(xié)方差陣,記為V.

(4)計算判別向量u,建立線性投影表達式z=u′y.依此式計算各個總體的樣品投影值,并確定各個總體的特征點.

(5)用第2部分中的式(4)確定各總體的特征.

(6)按第2部分中的式(5)建立判別準則,對待判樣品判別歸類.

4 實例分析

例1 為了檢驗文中方法的效果,文中采用UCI數(shù)據集.該數(shù)據集為wine,為葡萄酒的化學分析結果.它有13個成分指標,178個樣品,共3類.現(xiàn)采用文中的方法進行分析,結果如下:

(1)對數(shù)據集均值化后進行主成分分析,按85%的貢獻率提取主成分,得到5個主成分.

表1 主成分系數(shù)

(2)利用5個主成分得到的新數(shù)據,得到線性投影表達式為

z=y1-0.0726y2-0.8282y3-
2.8400y4-1.5095y5

(6)

(3)按式(6)對各個總體進行投影,并利用最優(yōu)分割理論,確定各個總體的特征均為3個.采用第2部分中式(4),得到各個總體的特征見表2.

表2 各個總體的特征

(4)按文中的方法將原始數(shù)據未降維與降維處理兩種方式分別建立判別模型,所得的結果如下.

表3 判別結果對比

從表3可以看出,應用文中的判別方法,原始數(shù)據通過降維處理建立的模型要比未降維的效果好,這表明當判別變量較多或者變量間的相關性較大時,文中的判別方法有助于提高模型的判別效果.

5 結論

高維數(shù)據的距離判別方法采用改進的主成分分析法進行降維,按85%的貢獻率提取判別數(shù)據的主成分,然后以近鄰原則建立距離判別準則,并以該準則對待判樣品進行判別歸類.

實例表明,但當判別變量較多或者變量間的相關性較大時,采用改進的主成分分析法進行降維,能用較少的主成分,提取更多的原始信息.另外,文中采用改進的距離判別方法,通過對各個總體的特征提取,有助于提高判別模型的判別效果.

參考文獻:

[1]何躍,楊磊,徐玖平.一種新的聚類判別分析框架及其實證研究[J].計算機應用研究,2007,24(12):32-36.

[2]周健,史秀志,王懷勇.礦井突水水源識別的距離判別分析模型[J].煤炭學報,2010,35(2):278-282.

[3]邱道宏,張樂文,李術才,等.基于權重反分析方法的加權距離判別法及應用[J].巖土力學,2010,31(10):3243-3253.

[4]高國朋,顏可珍.基于距離判別分析法的邊坡穩(wěn)定性預測模型及應用[J].水利與建筑工程學報,2010,8(3):43-45.

[5]張堯庭,方開泰.多元統(tǒng)計分析引論[M].北京:科學出版社,1999.

[6]于秀林,任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999.

[7]王榮輝,宗若雯,王正洲,等.主成分分析法和Fisher判別方法在汽油分類分析中的應用[J].中國科學技術大學學報,2006,36(12):1331-1335.

[8]紀榮芳.主成分分析法中數(shù)據處理方法的改進[J].山東科技大學學報,2007,26(5):95-98.

[9]林志興,黃利文.基于特征向量集的距離判別[J].集美大學學報,2007,12(3):280-283.

猜你喜歡
原始數(shù)據降維總體
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
用樣本估計總體復習點撥
受特定變化趨勢限制的傳感器數(shù)據處理方法研究
2020年秋糧收購總體進度快于上年
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
中國外匯(2019年6期)2019-07-13 05:44:06
全新Mentor DRS360 平臺借助集中式原始數(shù)據融合及直接實時傳感技術實現(xiàn)5 級自動駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
直擊高考中的用樣本估計總體
拋物化Navier-Stokes方程的降維仿真模型
計算物理(2014年1期)2014-03-11 17:00:18
巴楚县| 淳化县| 台中县| 伊川县| 且末县| 柏乡县| 攀枝花市| 岚皋县| 沁阳市| 祁东县| 新余市| 衡阳县| 孙吴县| 张掖市| 长沙市| 绥芬河市| 靖边县| 建平县| 东平县| 荆州市| 扶沟县| 秀山| 海宁市| 灌云县| 安化县| 华蓥市| 三原县| 金阳县| 富源县| 乳山市| 汝州市| 富川| 嘉鱼县| 永寿县| 南召县| 嘉兴市| 汶川县| 潮安县| 萨嘎县| 辽宁省| 南雄市|