利用SPSS進(jìn)行判別分析的幾個(gè)問(wèn)題的說(shuō)明

2015-05-24 01:52陳敏瓊

現(xiàn)代計(jì)算機(jī) 2015年5期

關(guān)鍵詞：判別函數(shù)后驗(yàn)協(xié)方差

陳敏瓊

（中山大學(xué)新華學(xué)院，廣州 510520）

利用SPSS進(jìn)行判別分析的幾個(gè)問(wèn)題的說(shuō)明

陳敏瓊

（中山大學(xué)新華學(xué)院，廣州 510520）

判別分析是多元統(tǒng)計(jì)分析中最常用的方法之一，但由于其原理的復(fù)雜性與方法的多樣性，使其成為《多元統(tǒng)計(jì)分析》課程學(xué)習(xí)特別是SPSS軟件操作學(xué)習(xí)的難點(diǎn)之一。為此，對(duì)判別分析的幾種方法的原理進(jìn)行總結(jié)，針對(duì)利用SPSS進(jìn)行判別分析過(guò)程中常見(jiàn)的若干疑點(diǎn)，先從理論上做推導(dǎo)說(shuō)明，結(jié)合例子對(duì)SPSS判別分析的步驟和輸出結(jié)果作詳細(xì)解釋和說(shuō)明。

判別分析；SPSS判別分析；步驟；解釋說(shuō)明

0 引言

判別分析是根據(jù)觀測(cè)到的樣品的若干數(shù)量特征（稱為因子或判別變量）對(duì)樣品進(jìn)行歸類、識(shí)別，判斷其屬性的預(yù)報(bào)（預(yù)測(cè)）的一種多元統(tǒng)計(jì)分析方法。其基本原理大致為：建立判別函數(shù)，給出判別準(zhǔn)則，最后將待判樣品代入判別函數(shù)進(jìn)行判別。根據(jù)建立判別函數(shù)的方法的不同，具體可分為距離判別與Bayes判別，Bayes判別法又可分兩種：最大后驗(yàn)概率法與最小誤判損失法。還有一種先對(duì)樣品進(jìn)行投影后再采用距離判別的方法，即Fisher判別法，這三種方法是判別分析最常采用的方法。在SPSS操作中只能實(shí)現(xiàn)Bayes判別法與Fisher判別法兩種，并且這兩種方法的操作是合在一起進(jìn)行的，輸出結(jié)果也比較混亂，據(jù)經(jīng)驗(yàn)歸納，對(duì)于初學(xué)者來(lái)說(shuō)常會(huì)提出以下幾點(diǎn)疑問(wèn)：

①如何利用SPSS完成距離判別？

②SPSS菜單中哪些選項(xiàng)是針對(duì)Bayes判別設(shè)置的，哪些選項(xiàng)是針對(duì)設(shè)置的？

③SPSS輸出結(jié)果哪些部分是Bayes判別結(jié)果，哪些部分是Fisher判別結(jié)果？

④SPSS輸出判別函數(shù)或投影函數(shù)對(duì)應(yīng)的理論表達(dá)是什么？

⑤利用SPSS進(jìn)行Fisher判別時(shí)，為何將樣品投影后按距離判別，此處距離只要計(jì)算歐氏距離而非統(tǒng)計(jì)學(xué)意義的馬氏距離？

針對(duì)上述種種疑點(diǎn)下文將逐步給出詳細(xì)解釋說(shuō)明。

1 判別分析常用的三種方法的原理總結(jié)

1.1 距離判別

設(shè)有k個(gè)總體，已知總體Gr的均值向量與協(xié)方差陣分別為μr，Σr＞O，r=1，2，…，k，對(duì)于任意待判樣品X，可建立判別函數(shù)為：

特別地，若Σ1=Σ2=…=Σk=Σ，則判別函數(shù)可簡(jiǎn)化為線性函數(shù)：

距離判別法思想很簡(jiǎn)單，適用條件也很寬松，只須知道各類的均值和協(xié)方差陣即可，實(shí)際應(yīng)用中常用樣本均值與樣本協(xié)方差陣來(lái)估計(jì)。

1.2 Bayes判別

此處僅介紹SPSS能操作完成的最大后驗(yàn)概率法：設(shè)有k個(gè)總體G1，G2，…，Gk，已知這k個(gè)總體各自出現(xiàn)的概率（驗(yàn)前概率）為q1，q2，…，qk，各總體有概率密度函數(shù)f1（x），f2（x），…，fk（x），則可建立判別函數(shù)為樣品X=x已知時(shí)，它屬于Gr的后驗(yàn)概率P（X∈Gr|X=x），即：

簡(jiǎn)化后為：

判別準(zhǔn)則為：

若G1，G2，…，Gk分別為p維正態(tài)總體，均值與協(xié)方差陣分別為μr，Σr＞O，r=1，2，…，k，此時(shí)判別函數(shù)為：

進(jìn)一步可簡(jiǎn)化為：

特別地，若Σ1=Σ2=…=Σk=Σ，則判別函數(shù)可再簡(jiǎn)化為線性函數(shù)：

對(duì)比式（2）和式（5）可知，距離判別為Bayes判別法在各類總體為同方差的多維正態(tài)總體且先驗(yàn)概率相同時(shí)有特殊情況。

1.3 Fisher判別

假設(shè)有k個(gè)p維的總體G1，G2，…，Gk，各總體的期望與協(xié)方差陣分別為μr，Σr＞O，r=1，2，…，k，且已知若Σ1=Σ2=…=Σk=Σ，F(xiàn)isher判別法的思想是先對(duì)樣品進(jìn)行投影再采用距離判別法判別，尋找的投影函數(shù)F（X）= a'X，a∈Rp必須使得投影后的各總體間差異能盡可能大地拉開(kāi)，若記：

B，A分別稱為k個(gè)總體組間離差陣與組內(nèi)離差陣，則有結(jié)論[1～2]：

設(shè)Σ-1B的非零特征根為λ1≥λ2≥…λp＞0，對(duì)應(yīng)的單位特征向量分別為l1，l2，…，lp，令：

注：由于投影函數(shù)的不唯一性，有時(shí)為了計(jì)算上方便可對(duì)投影函數(shù)做一些線性變換，如為了將k個(gè)總體的總的中心投至原點(diǎn)，投影函數(shù)可進(jìn)一步變換為：

對(duì)于（7）式給出的投影表達(dá)式易知有以下兩點(diǎn)性質(zhì)：

性質(zhì)一：

性質(zhì)二：

故對(duì)于待判樣品X，只須計(jì)算其投影后的點(diǎn)到各類總體投影后中心的歐氏距離再作判別，即投影后可建立判別函數(shù)：

判別準(zhǔn)則為：

當(dāng)然，實(shí)際中只須取前一兩個(gè)投影函數(shù)即可將投影后各類樣品明顯分開(kāi)。

2 判別分析的SPSS操作步驟

2.1 判別分析的SPSS操作的幾點(diǎn)說(shuō)明

（1）SPSS只能完成Bayes判別與Fisher判別，無(wú)法直接完成距離判別；

（2）SPSS中Bayes判別與Fisher判別的操作沒(méi)有分開(kāi)進(jìn)行；

（3）SPSS中給出的判別表達(dá)式（投影函數(shù)）都是針對(duì)協(xié)方差陣相等的情形下給出的，對(duì)于協(xié)方差陣不相等的情況須手動(dòng)計(jì)算。

（4）SPSS判別以Bayes判別為主，主要菜單與選項(xiàng)都是針對(duì)Bayes判別分析設(shè)置，并且最終保存的判別結(jié)果也是以Bayes判別為依據(jù)；Fisher判別操作僅給出投影表達(dá)式、各類投影中心坐標(biāo)及投影分界圖，最終判別結(jié)果須我們自己根據(jù)各類投影中心坐標(biāo)或投影分界圖去做判別[5]。

2.2 例子說(shuō)明

某地市場(chǎng)上銷售的收錄機(jī)有多種牌號(hào)，該地某商場(chǎng)從市場(chǎng)上隨機(jī)抽取了13種牌號(hào)的收錄機(jī)，其中有4種暢銷，有5種銷售一般，有4種滯銷。所調(diào)查的各種收錄機(jī)的質(zhì)量評(píng)分、功能評(píng)分和銷售價(jià)格資料如下表所示：

表1 某地各種收錄機(jī)的銷售狀況

其中變量x1指“質(zhì)量評(píng)分”，x2指“功能評(píng)分”，x3指“銷售價(jià)格”，g指“銷售狀態(tài)”：g=1指代“暢銷”狀態(tài)，g= 2指代“平銷”狀態(tài)，g=3指代“滯銷”狀態(tài)，14號(hào)樣品為待判樣品。

假設(shè)有一新廠商來(lái)推銷其產(chǎn)品，其產(chǎn)品的質(zhì)量評(píng)分為7.0，功能評(píng)分為7.0，銷售價(jià)格為660元，現(xiàn)須將該產(chǎn)品的銷售前景進(jìn)行預(yù)測(cè)（歸類）。

對(duì)本例采用SPSS進(jìn)行判別分析的具體步驟如下：

①單擊Ana1yze→C1assify→Discriminant，從對(duì)話框左側(cè)的變量列表中選中進(jìn)行判別分析的有關(guān)變量x1～x3進(jìn)入Independents框，作為判別分析的基礎(chǔ)數(shù)據(jù)變量。從對(duì)話框左側(cè)的變量列表中選分組變量g進(jìn)入Grouping Variab1e框，并點(diǎn)擊Define Range...按鈕，在Define Range對(duì)話框中，定義判別原始數(shù)據(jù)的類別數(shù)，在Minimum（最小值）處輸入1，在Maximum（最大值）處輸入3。

②打開(kāi)Statistics對(duì)話框，在Descriptives菜單下選擇：

Univariate ANOVAs，對(duì)各類中同一自變量均值都相等的假設(shè)進(jìn)行檢驗(yàn)，輸出單變量的方差分析結(jié)果。

Box's M，對(duì)各類的協(xié)方差矩陣相等的假設(shè)進(jìn)行檢驗(yàn)。

在Function Coefficients菜單下選擇：

Fisherh's：給出Bayes判別函數(shù)系數(shù)

Unstandardized：給出未標(biāo)準(zhǔn)化的典型判別系數(shù)（Fisher投影函數(shù)）。

③打開(kāi)C1assify對(duì)話框：

在Prior Probabi1ities菜單下，選擇先驗(yàn)概率賦值方式（此項(xiàng)為Bayes判別選項(xiàng)）：

A11 groups equa1：各類先驗(yàn)概率相等（若選此項(xiàng)，得出結(jié)果便為距離判別法結(jié)果）；

Compute from groups sizes：各類的先驗(yàn)概率與其樣本量成正比（本例選擇）。

在Use Covariance Matrix菜單下，選擇計(jì)算中使用的共同協(xié)方差矩陣的估計(jì)方式：

Within-groups：使用合并類內(nèi)協(xié)方差矩陣進(jìn)行分類（系統(tǒng)默認(rèn)）（本例選擇）；

Separate-groups：使用各類協(xié)方差矩陣進(jìn)行分類。

在Disp1ay菜單下，選擇生成到輸出窗口中的分類結(jié)果（此項(xiàng)為Bayes判別選項(xiàng)）。

Casewise resu1ts：輸出每個(gè)觀測(cè)量包括判別分?jǐn)?shù)實(shí)際類預(yù)測(cè)類（根據(jù)判別函數(shù)求得的分類結(jié)果）和后驗(yàn)概率等；

Summary tab1e：輸出分類的小結(jié)給出正確分類觀測(cè)量數(shù)（原始類和根據(jù)判別函數(shù)計(jì)算的預(yù)測(cè)類相同）和錯(cuò)分觀測(cè)量數(shù)和錯(cuò)分率（本例選擇）。

Leave-one-out c1assification：輸出交互驗(yàn)證結(jié)果。

在P1ots菜單下，選擇要求輸出的樣品投影圖（此項(xiàng)為Fisher判別選項(xiàng)）。

Combined-groups：生成一張包括各類的散點(diǎn)圖（本例選擇）；

Separate-groups：每類生成一個(gè)散點(diǎn)圖；

Territoria1 map：根據(jù)生成的函數(shù)值把各觀測(cè)值分到各組的區(qū)域圖（本例選擇）。

④打開(kāi)Save對(duì)話框，將以下三項(xiàng)全勾上：

Predicted group membership：建立一個(gè)新變量，系統(tǒng)根據(jù)判別分?jǐn)?shù)把觀測(cè)量按后驗(yàn)概率最大指派所屬的類；

Discriminant score：保存各樣品的判別的分值，該得分是由未標(biāo)準(zhǔn)化的Fisher判別投影函數(shù)計(jì)算所得。

Probabi1ities of group membership：建立新變量表明觀測(cè)量屬于各類的后驗(yàn)概率。

全部選擇完成后，點(diǎn)擊OK，輸出主要結(jié)果如下：

表2 Tests of Equality of Group Means每個(gè)變量各類均值相等的檢驗(yàn)

此結(jié)果說(shuō)明，x1，x2，x3三個(gè)指標(biāo)每個(gè)指標(biāo)均值在三類間都是有差異的，此檢驗(yàn)通過(guò)說(shuō)明判別有意義。

表3 Box's Test of Equality of Covariance Matrices協(xié)方差矩陣相等的檢驗(yàn)

注意，sig值=0.483＞0.05，說(shuō)明檢驗(yàn)通過(guò)，即各類的協(xié)方差相等的假設(shè)在0.05的顯著性水平下成立。

Summary of Canonica1 Discriminant典型判別函數(shù)綜述（此部分輸出Fisher判別相關(guān)結(jié)果）。

只有兩個(gè)判別（投影）函數(shù)，所以特征值只有兩個(gè)。判別函數(shù)的特征值越大，說(shuō)明函數(shù)越具有區(qū)別判斷力。最后一列表示是典則相關(guān)系數(shù)，是組間平方和與總平方和之比的平方根，表示判別函數(shù)分?jǐn)?shù)與組別間的關(guān)聯(lián)程度。

表5 Wilks'Lambda判別函數(shù)檢驗(yàn)

上表中“1through 2”表示兩個(gè)判別函數(shù)的平均數(shù)在三個(gè)類間的差異情況，P值為0.004表示差異達(dá)到顯著水平，即兩個(gè)投影函數(shù)能將各組樣品分開(kāi)?！?”表示在排除了第一個(gè)判別函數(shù)后，第二個(gè)判別函數(shù)在三個(gè)組別間的差異情況，P值=0.049表示判別函數(shù)2也達(dá)到顯著水平，即第二個(gè)投影函數(shù)亦能將各組樣品分開(kāi)。

表6 Canonical Discriminant Function Coefficients（非標(biāo)準(zhǔn)化典型判別函數(shù)系數(shù)矩陣）

由非標(biāo)準(zhǔn)化典型判別函數(shù)系數(shù)矩陣可寫出兩個(gè)判別函數(shù)即Fisher投影函數(shù)的表達(dá)式：

其中l(wèi)i為E-1H的第i大特征根對(duì)應(yīng)的單位特征向量（E，H分別為樣品組內(nèi)離差陣與組間離差陣）。

表7 Functions at Group Centroids類中心坐標(biāo)（非標(biāo)準(zhǔn)化典型判別下的類中心）

表7為各類樣品在上述F1，F(xiàn)2兩個(gè)投影函數(shù)下投影后的中心坐標(biāo)。

圖1 投影分界圖

圖1為各類樣品投影后的分界圖，其中“1”代表“暢銷”，“2”代表“平銷”，“3”代表“滯銷”，“*”代表各類投影中心，“32”分界線表明是第3類與第2類的投影后的界線，其余兩條意義類似。

由圖2可知待判樣品x0=（7.0，7，660），投影后的點(diǎn)離“平銷”類樣品投影后中心最近，故可判定X0來(lái)自第2類，即“平銷”一類。

C1assification Statistics分類分析（此部分輸出Bayes判別相關(guān)結(jié)果）。

圖2 各樣品投影后的散點(diǎn)圖

表8 先驗(yàn)概率

表9 貝葉斯判別函數(shù)的系數(shù)

上表為貝葉斯判別函數(shù)的系數(shù)矩陣，可以用數(shù)學(xué)表達(dá)式表示為：

它對(duì)應(yīng)的表達(dá)式為（5）式中各總體均值μi與協(xié)方差陣Σ分別用樣本均值與樣本聯(lián)合方差陣Sp估計(jì)后所得表達(dá)：

圖3 增加了新變量后的數(shù)據(jù)窗口

返回?cái)?shù)據(jù)窗口，可發(fā)現(xiàn)原數(shù)據(jù)窗口多了5列（如圖3）。

其中：Dis_1列顯示為各樣品按Bayes判別法判別所屬類別，可知待判別樣品x0=（7.0，7，660）屬于第2類，即“平銷”狀，此分類結(jié)果與前面Fisher判別法結(jié)果一致；Dis1_2，Dis2_2，Dis3_2列為樣品分別屬于第1類，第2類與第3類的后驗(yàn)概率大??；Dis1_1，Dis2_1列為樣品在兩個(gè)Fisher投影函數(shù)下投影后的坐標(biāo)；

最后結(jié)果匯總了將所有樣品包括各類訓(xùn)練樣品和待判樣品采用Bayes判別法判別后所屬類別與原始類別相比較，由匯總結(jié)果可知采用Bayes判別法判別正判率為92.3%。

3 結(jié)語(yǔ)

本文總結(jié)了距離判別、Bayes判別與Fisher判別三種判別法的原理，并借助例子對(duì)這三種判別法的SPSS操作及輸出結(jié)果作了詳細(xì)說(shuō)明，要特別說(shuō)明的是：SPSS中判別分析操作輸出結(jié)果都是針對(duì)協(xié)方差陣相等的情形下給出的，故在做判別分析前，一定要對(duì)各類的協(xié)方差陣是否相等進(jìn)行Box's M檢驗(yàn)，只有檢驗(yàn)通過(guò)了，本文給出的操作及輸出結(jié)果才可信，否則只能依照公式（1）或公式（4）手動(dòng)計(jì)算后再做判別[3～4]。

表10 分類結(jié)果矩陣

[1] 何曉群.多元統(tǒng)計(jì)分析[M].北京:中國(guó)人民大學(xué)出版社，2008（9）：105～112

[2] 高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M}.北京:北京大學(xué)出版社，2008（7）:192～198

[3] 陳希傎，曹慧珍.判別分析與SPSS的使用[J].科學(xué)技術(shù)與工程，2008（7）:3567～3574

[4] 任志娟.SPSS中判別分析法的正確使用[J].統(tǒng)計(jì)與決策，2006（2）:157～157

[5] 張文彤.SPSS統(tǒng)計(jì)分析高級(jí)教程[M}.北京:高等教育出版社，2006（12）:261～277

Instructions for Several Problems about the Discriminant Analysis Using SPSS

CHEN Min-qiong
（Xinhua Co11ege,Sun Yat-Sen University，Guangzhou 510520）

Discriminant ana1ysis is one of the most common1y used methods in mu1tivariate statistica1 ana1ysis,but because of the comp1exity of its princip1e and methods of diversity,making it one of the difficu1ties in 1earning the course of Mu1tivariate Statistica1 Ana1ysis,in particu1ar the 1earning of SPSS software operating.To do this,summaries the princip1e of severa1 methods of discriminant ana1ysis,according to the common prob1ems of SPSS in the process,does the first theoretica1 derivation,combined with examp1es,exp1ains the steps and output resu1ts of SPSS discriminant ana1ysis in detai1s.

Discriminant Ana1ysis;SPSS Discriminant;Procedure;Exp1ain

1007-1423（2015）05-0034-07

10.3969/j.issn.1007-1423.2015.05.007

陳敏瓊（1983-），女，江西吉安人，碩士，講師，研究方向?yàn)榻y(tǒng)計(jì)軟件分析與應(yīng)用

2014-12-30修改日期：2015-01-25

中山大學(xué)新華學(xué)院2014年院級(jí)教改項(xiàng)目（No.2014J001）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

利用SPSS進(jìn)行判別分析的幾個(gè)問(wèn)題的說(shuō)明

0 引言

1 判別分析常用的三種方法的原理總結(jié)

2 判別分析的SPSS操作步驟

3 結(jié)語(yǔ)