国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

概率神經(jīng)網(wǎng)絡(luò)在判別分析中的比較優(yōu)勢

2010-07-23 07:14米帥軍
統(tǒng)計與決策 2010年2期
關(guān)鍵詞:除草機費希爾貝葉斯

米帥軍,習(xí) 勤

(華東交通大學(xué) 經(jīng)濟管理學(xué)院,南昌 310003)

判別分析是用于判斷樣品或個體所屬類型的一種統(tǒng)計分析方法。采用這種分析隱含的一個最為基本的假設(shè)是:已知總體按著某些特征或指標分為兩個或兩個以上的類型。從這個基本假定可以看出:一是總體劃分類型的特征或指標必須為兩個以上,如果只有一個指標,則很容易根據(jù)新抽取樣品的指標值判斷該樣品屬于哪一類;二是所分的類型中都必須包含一個或以上的個體,否則該類型是不可識別的[1]。在生產(chǎn)、科研和日常生活中就是根據(jù)總體的經(jīng)驗分類,結(jié)合樣品調(diào)查的數(shù)據(jù)來對樣品進行歸類的。如根據(jù)客戶的信用指標(房產(chǎn)、年齡、收入、職業(yè)、婚否等)來對信用卡客戶進行信用評級,根據(jù)上市公司業(yè)績表現(xiàn)等財務(wù)指標判別一個上市公司股股票類型。當(dāng)然這里隱含了一個假設(shè)是:已知各類型客戶或公司的評價指標值。從上述分析可以看出,判別分析適用于被解釋變量為屬性變量(如類型、等級、規(guī)格等),解釋變量為可測量或可量化的統(tǒng)計分析。

1 問題的提出

常用的判別分析方法有距離判別法、貝葉斯判別法、費希爾判別法、逐步判別法,序貫判別等。這些判別分析方法都基于一定的假設(shè)條件。當(dāng)假設(shè)條件與實際情況相差較大時,就會導(dǎo)致較高的誤判率,尤其是類與類之間的特征(如均值)在統(tǒng)計上顯著性不高時,誤判率將急劇上升。

現(xiàn)以距離判別法、貝葉斯判別法、費希爾判別法為例來說明其應(yīng)用的假設(shè)條件與基本思想。

1.1 距離判別法

距離判別法的基本思想是:樣品和哪個類型的距離最近,就判斷它屬于哪個類,因而距離判別法又稱直觀判別法[2]。距離判別法分為歐氏距離判別與馬氏距離判別,其差別是馬氏距離采用了協(xié)方差陣來對距離進行校正?,F(xiàn)以馬氏距離判別法來說明其應(yīng)用條件。為敘述方便,以總體分為兩個類型為例。

馬氏距離定義:設(shè)總體G有m個評價指標,均值向量為u=(u1,u2,…,um)',協(xié)方差陣為∑=(aij)m×m,則新抽取的樣品 X=(x1,x2,…,xm)'與總體G的馬氏距離為:

如有兩個總體被分為兩類G1、G2,則樣品X=(x1,x2,…,xm)'與G1、G2的距離分別為:

u1,u2,∑1,∑2分別為類 G1、G2的均值向量與協(xié)方差陣。

馬氏距離的判別規(guī)則為:

(1)如果 W(X)>0,則 X 屬于類 G2;

(2)如果 W(X)<0,則 X 屬于類 G1;

(3)如果W(X)=0,則有待用其它方法判定。

從馬氏距離的判別函數(shù)可以發(fā)現(xiàn),當(dāng)類G1、G2的均值向量u1,u2,有顯著性差別時,判別效率將較高;反之,則效率較低。事實上,由于u1,u2是m維向量,直觀上很難判斷u1,u2是否有明顯差別。如果u1,u2并沒有顯著性差別而采用距離判別法將導(dǎo)致誤判。

1.2 貝葉斯判別法

貝葉斯(Bayes)判別法的基本思想是:假定對研究的對象已有一定的認識,常用先驗概率分布來描述這種認識;然后抽取一個樣本,用樣本來修正已有的先驗概率分布,得到后驗概率分布,再結(jié)合誤判損失函數(shù),可以得出期望誤判損失,使平均損失 ECM(expected cost of misclassification)最小的判別方法稱為貝葉期判別法。

設(shè)總體G被分為G1、G2兩類,密度函數(shù)分別為p1(x)、p2(x),先驗概率分布分別為 q1(x)、q2(x),誤判損失函數(shù)分別為c1(G2|G1)、c2(G1|G2),誤判概率分別為 p1(G2|G1)、p2(G1,G2),則樣品 X誤判的平均損失為:

貝葉斯判別規(guī)則:如果把X判入G1的損失為ECM1,把X判入G2的損失為ECM2,則

(1)當(dāng) ECM1<ECM2時,X 應(yīng)屬于 G1;

(2)當(dāng)ECM1>ECM2時,X應(yīng)屬于G2;

(3)當(dāng)ECM1=ECM2時,有待用其它方法判定。

從理論上來講,貝葉斯判別很完善。與距離判別法相比,貝葉斯判別法克服了其兩個不足:一是距離判別法沒有考慮G1、G2出現(xiàn)的機會大小,即先驗概率,這在進行異常類判斷時很不合理,如信用卡惡意透支分析中將產(chǎn)生很大的偏差,因為惡意透支的概率相對較?。欢菦]有考慮誤判的損失。

但是,貝葉斯判別法在實際應(yīng)用中可操性不強。在實踐中,除了能獲得誤判損失函數(shù)外,其它的參數(shù)與概率分布都是難以獲得。通常的解決辦法是假定總體的各類服從某一分布,一般取正態(tài)分布。事實上,在統(tǒng)計分析時假定正態(tài)分布前提是基于大樣本。然而,大樣本不僅與研究問題有關(guān),且由于條件限制一般也難以取得足夠大的樣本。因此,如果概率分布假定與實際總體情況不一致將產(chǎn)生誤判,誤判率與分布概率偏差有正向關(guān)系。

1.3 費希爾判別法

費希爾判別的基本思想是投影,將總體G的G1、G2兩類中的m維數(shù)據(jù)往某一方向投影,使得投影后G1與G2盡可能地分開。衡量投影后G1與G2是否明顯地分開,采用一元方差分析[1]。

費希爾判別法很實用,與距離判別法一樣,沒有總體分布的假定。但是,與距離判別法相比,費希爾是基于協(xié)方差陣的矩陣線性變換,使兩組G1、G2投影后盡可能地分開。

采用費希爾判別法也存在較高的誤判率問題。事實上,在空間上分散的點,在投影后可能很靠近。因此,就一般的總體G而言,很難找到一個合適的投影方向使兩組G1、G2投影后完全分開,即采用費希爾判別法易導(dǎo)致較高的誤判率。

2 概率神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是對生物神經(jīng)網(wǎng)絡(luò)進行仿真研究的結(jié)果。它通過采集樣本數(shù)據(jù)進行學(xué)習(xí)的方法來建立數(shù)據(jù)模型,系統(tǒng)通過樣本不斷學(xué)習(xí),在此基礎(chǔ)上建立計算模型,從而建立神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[4]。神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練后可以執(zhí)行復(fù)雜函數(shù)的功能,能對所有函數(shù)進行逼近,即Universal Approximation Theorem[7]。這就是說,如果一個網(wǎng)絡(luò)通過訓(xùn)練后呈穩(wěn)定狀態(tài),那么神經(jīng)網(wǎng)絡(luò)就具備了執(zhí)行輸入到輸出這種線性或非線性的函數(shù)功能。當(dāng)然,這種函數(shù)不是基于理論或經(jīng)驗的假設(shè),而是基于對樣本的有監(jiān)督的訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)具備了模擬復(fù)雜系統(tǒng)的功能。概率神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)模型的一種,其網(wǎng)絡(luò)模型結(jié)構(gòu)圖略。

概率神經(jīng)網(wǎng)絡(luò)(簡稱PNN)模型分為三層,第一層為輸入層,第二層為Radial Basis Layer,第三層為Competitive Layer。輸入向量為R,訓(xùn)練的樣本數(shù)為Q(也即,共輸入Q個向量R),每個目標向量有K個元素,因此,每個輸入向量對應(yīng)著K個元素中的一個。IW1,1是第一層的權(quán)重,是一個Q×R矩陣。

PNN的基本工作過程為:第一層計算輸入向量與目標向量的距離,并形成一個新的向量,這個新向量顯示了輸入與目標輸出之間的差別。第二層對每一個輸入加權(quán)求和,并求每一個輸入的貢獻,并輸出一個概率向量。第三層中的競爭轉(zhuǎn)換函數(shù)從第二層的輸出概率向量中挑出最大的概率值,使最大的概率對應(yīng)某一類別[6]。

PNN適合于解決分類判別問題,可應(yīng)用的領(lǐng)域相當(dāng)廣泛。只要有一定的樣本量,PNN一定會收斂到一個貝葉斯分類[6]。但是PNN需要較多時間來計算分類,這是其一個不足之處。當(dāng)然,如果PNN是用于經(jīng)濟分析而不是硬件產(chǎn)品設(shè)計,計算時間不足為慮,重要是它能得出更為準確的結(jié)果。采用PNN的另一個不足是研究者不能得到一個基于樣本訓(xùn)練出來的分類判別函數(shù),也即不能對輸入輸出進行結(jié)構(gòu)分析,這也是所有神經(jīng)網(wǎng)絡(luò)模型的一大缺憾。

3 判別效率的比較與分析

表1 家庭除草機數(shù)據(jù)的不同判別方法效率比較

表2 巖石化學(xué)成分的含量數(shù)據(jù)的不同判別方法效率比較

本文用兩個案例來比較上述判別方法的效率。采用的分析軟件是SAS9與MatLab7(數(shù)據(jù)來源于參考文獻[1]與[2])。

案例一說明:有一個關(guān)于家庭擁有除草機與家庭收入、草坪面積的調(diào)查表,如表1所示。第H1至H24為調(diào)查數(shù)據(jù),第H25至H30為預(yù)測對象,即通過判別分析,推測家庭H25至H30是否將購買除草機或已擁有除草機。分別采用距離判別法、貝葉斯判別法、費希爾判別法與PNN判別法。分析結(jié)果如表1所示。

從分析的結(jié)果來看,采用距離判別分析、貝葉斯判別分析、費希爾判別分析,對家庭H1、H13、H17是否擁有除草機產(chǎn)生了誤判,誤判率為12.5%,而采用PNN判別法誤判率為0.00%。同時,對家庭H25、H27、H29的是否準備購買或擁有除草機的預(yù)測上也不同。

為了顯示PNN的判別分析的優(yōu)勢,再列出一判別分析案例(僅給出判別分析結(jié)果,見表2)。

4 結(jié)束語

本文通過對PNN在判別分析中的比較優(yōu)勢進行簡單地對比發(fā)現(xiàn),對大樣本的判別分析時,采用PNN優(yōu)勢更加明顯,尤其是對于評價指標有幾十個以上時,PNN更加凸顯其模式識別的特有優(yōu)勢。如對基金評級、信用卡評級、上市公司業(yè)績評級等可以采用更多的相關(guān)指標,以便從不同的側(cè)面與角度來給出綜合評價。同時,采用PNN評級可以有效地避開采用主成分分析等多元統(tǒng)計手法,因為在采用多元統(tǒng)計分析方法時,對指標進行壓縮或組合會導(dǎo)致總體信息的損失。因此,如果只考慮類型的判別,而不進行結(jié)構(gòu)分析,即不需要分析各個指標對評價目標的影響程度或權(quán)重時,采用PNN判別分析是完全合理的。由于PNN能對所有線性或非線性動態(tài)系統(tǒng)進行模擬,采用PNN進行判別分析的準確度相比而言是很高的。由于PNN是一個類似于黑夾子的模型,導(dǎo)致其對經(jīng)濟結(jié)構(gòu)的解釋不足。

[1]何曉群.多元統(tǒng)計分析[M].北京:中國人民大學(xué)出版社,2004.

[2]高惠璇.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學(xué)出版社,2005.

[3]叢爽.面向MATLAB工具箱的神經(jīng)網(wǎng)絡(luò)理論與應(yīng)用[M].北京:中國科學(xué)技術(shù)大學(xué)出版社,1998.

[4]張云濤,龔玲.數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004.

[5]岳朝龍,黃永興,嚴忠.SAS系統(tǒng)與經(jīng)濟統(tǒng)計分析[M].北京:中國科學(xué)技術(shù)大學(xué)出版社,2003.

[6]H Demuth.MATLAB Neural Networks Toolbox,Probabilistic Neural Networks[M].Mathworks Inc,1993.

[7]Simon Haykin.Neural Networks:A Comprehensive Foundation(2ndEdition)[M].北京:清華大學(xué)出版社,2001.

猜你喜歡
除草機費希爾貝葉斯
基于貝葉斯解釋回應(yīng)被告人講述的故事
北斗定位水稻機械智能除草機來啦
機過草無 秧苗無損 北斗定位水稻機械智能除草機顯身手
大自然的除草機——金龜子
除草機的設(shè)計與有限元分析
基于貝葉斯估計的軌道占用識別方法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
IIRCT下負二項分布參數(shù)多變點的貝葉斯估計