国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

傳統(tǒng)Bayes 判別與非參數(shù)核密度Bayes 判別的比較

2015-01-15 06:01艾天霞
服裝學(xué)報(bào) 2015年5期
關(guān)鍵詞:正態(tài)總體密度

艾天霞, 張 蕾

(1.榆林學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 榆林719000;2. 云南師范大學(xué)文理學(xué)院 工商管理學(xué)院,云南昆明650222)

判別分析的基本思想是根據(jù)對(duì)已有的分類(lèi)數(shù)據(jù)進(jìn)行研究,找出樣本數(shù)據(jù)的分類(lèi)規(guī)律,然后建立判別函數(shù),進(jìn)而通過(guò)判別函數(shù)對(duì)新樣本的分類(lèi)情況進(jìn)行判別的一種分類(lèi)學(xué)科。根據(jù)是否需要事先假設(shè)總體的分布情況,判別分析分為參數(shù)判別分析和非參數(shù)判別分析。參數(shù)判別分析就是傳統(tǒng)的判別分析,主要有距離判別、Bayes判別和Fisher 判別。非參數(shù)判別分析主要分為兩種:一種是非參數(shù)核密度估計(jì)判別分析;另一種是非參數(shù)最近鄰估計(jì)判別分析[1]。在參數(shù)判別分析方法中,Bayes 判別方法應(yīng)用最為廣泛;在非參數(shù)判別分析方法中,非參數(shù)核密度Bayes 判別方法最為普遍。下面介紹這兩種判別分析的基本原理,并對(duì)這兩種判別分析方法進(jìn)行比較。

1 傳統(tǒng)Bayes 判別分析

傳統(tǒng)Bayes 判別分析主要討論正態(tài)分布的情況。假設(shè)有k 個(gè)總體G1,G2,…,Gk,對(duì)應(yīng)的概率密度函數(shù)分別為f1(x),f2(x),…,fk(x),Xi服從均值為μi,協(xié)方差陣為∑i的正態(tài)分布,其中i = 1,2,…,k,Xi的密度函數(shù)為

相應(yīng)的先驗(yàn)概率分別為p1,p2,…,pk,則有pi≥0 且p1+p2+…+pk= 1。提前假定所有的錯(cuò)判損失都相同,則多分類(lèi)Bayes 判別的判別準(zhǔn)則為[2]

2 非參數(shù)核密度Bayes 判別分析

在非參數(shù)核密度Bayes判別分析中,假設(shè)有k 個(gè)總體G1,G2,…,Gk,p 個(gè)指標(biāo),相應(yīng)的核密度函數(shù)[3-4]分別為fn1(x),fn2(x),…,fnk(x),先驗(yàn)概率分別為p1,p2,…,pk,假定所有的錯(cuò)判損失相等,采用SJ 帶寬,并取核函數(shù)為高斯核函數(shù),則總體Gj(j =1,2,…,k)的核密度估計(jì)[5-6]可表示為

其 中,i = 1,2,…,nj;j = 1,2,…,k;n = n1+n2+ … +nj;相應(yīng)的先驗(yàn)概率的估計(jì)為

將先驗(yàn)概率的估計(jì)值代入多分類(lèi)貝葉斯判別規(guī)則中,得到后驗(yàn)概率,然后進(jìn)行比較。因此,非參數(shù)核密度貝葉斯判別規(guī)則為

3 傳統(tǒng)Bayes 判別分析與非參數(shù)核密度Bayes 判別分析比較

3.1 兩種判別分析方法的理論比較

傳統(tǒng)Bayes 判別方法是一種參數(shù)判別方法,主要討論總體服從正態(tài)分布的情形。采用傳統(tǒng)Bayes判別方法時(shí),需要事先假定總體服從正態(tài)分布。但是,在實(shí)際情況中,總體通常不服從正態(tài)分布,或者總體的分布情況是未知的,此時(shí)已不再適用傳統(tǒng)Bayes 判別方法。非參數(shù)核密度Bayes 判別方法是一種非參數(shù)判別方法,運(yùn)用非參數(shù)判別方法時(shí),不需要事先假定總體的分布情況,而是直接通過(guò)數(shù)據(jù)本身來(lái)估計(jì)總體的概率密度,適用于任何分布形式的總體。從理論上來(lái)說(shuō),相比于傳統(tǒng)方法,非參數(shù)核密度Bayes 判別方法具有更廣泛的適用性。

3.2 兩種判別分析方法的統(tǒng)計(jì)模擬

通過(guò)統(tǒng)計(jì)模擬的方法對(duì)傳統(tǒng)Bayes 判別方法與非參數(shù)核密度Bayes 判別方法進(jìn)行比較。若總體所考慮的指標(biāo)有p 個(gè),那么總體就是p 維數(shù)據(jù),所采用的判別分析就是p 維判別分析。為了方便研究,文中僅僅模擬了p = 1 和p = 2 的情形,其他多維情形可以類(lèi)似推導(dǎo)。

對(duì)于一維情形和二維情形,又分別模擬了正態(tài)數(shù)據(jù)和非正態(tài)數(shù)據(jù),其中正態(tài)數(shù)據(jù)作為對(duì)照組,非正態(tài)數(shù)據(jù)作為比較組。總體中參數(shù)的取值情況不同,得到的數(shù)據(jù)也不一樣。針對(duì)上述情形,文中將分別模擬參數(shù)的不同取值情況,以便更好地說(shuō)明結(jié)果。

3.2.1 一維正態(tài) 用R 語(yǔ)言隨機(jī)生成服從N(μ,σ2)的一維數(shù)據(jù)xi(i = 1,2,…,n),其中針對(duì)參數(shù)μ和σ2的不同取值,模擬了以下6 種情況:(1)μ = 0,σ2= 1;(2)μ = 0,σ2= 0.5;(3)μ = 5,σ2= 1;(4)μ = 5,σ2= 0.5;(5)μ = 10,σ2= 1;(6)μ =10,σ2= 0.5。生成隨機(jī)數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類(lèi)情況,采用的方法是:求出每組數(shù)據(jù)的中位數(shù),記為Me(xi),對(duì)于i = 1,2,…,n,定義

則Si就是每組數(shù)據(jù)的原始分類(lèi)情況。如果存在若干數(shù)據(jù)等于Me(xi)的情況,就需要剔除掉這幾個(gè)數(shù)據(jù),然后再重新生成幾個(gè)隨機(jī)數(shù)據(jù),直至每組數(shù)據(jù)中沒(méi)有等于中位數(shù)的情況為止,最后將保證類(lèi)別1和類(lèi)別2 的數(shù)據(jù)各占數(shù)據(jù)總量的一半。

3.2.2 一維非正態(tài) 不妨采用服從Gamma 分布的數(shù)據(jù)進(jìn)行模擬。用R 語(yǔ)言隨機(jī)生成服從Gamma(α,β)分布的數(shù)據(jù)xi(i = 1,2,…,n),其中針對(duì)參數(shù)α 和β 的不同取值,模擬了以下6 種情況:(1)α = 2,β = 0.1;(2)α = 2,β = 0.5;(3)α = 2,β = 1;(4)α = 2,β = 2.5;(5)α = 2,β = 5;(6)α =2,β = 10.5。生成隨機(jī)數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類(lèi)情況,方法同上。

3.2.3 二維正態(tài) 用R 語(yǔ)言隨機(jī)生成服從N2(μ,Σ)的二維正態(tài)數(shù)據(jù),其中第一維數(shù)據(jù)xi1服從N(μ1,),第二維數(shù)據(jù)xi2服從N(μ2,),針對(duì)參數(shù)μ1,,μ2,的不同取值,模擬了以下6 種情況:。生成隨機(jī)數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類(lèi)情況,采用的方法是:令

求出yi的中位數(shù),記為Me(yi),最后,對(duì)于i = 1,2,…,n,定義

則Si就是每組數(shù)據(jù)的原始分類(lèi)情況。如果存在若干數(shù)據(jù)等于Me(yi)的情況,就需要剔除再選,直至每組數(shù)據(jù)中沒(méi)有等于中位數(shù)的情況為止,最后將保證類(lèi)別1 和類(lèi)別2 的數(shù)據(jù)各占數(shù)據(jù)總量的一半。

3.2.4 二維非正態(tài) 不妨采用混合分布組成的非正態(tài)二維數(shù)據(jù),具體方法如下:先構(gòu)造第一維數(shù)據(jù)xi1,用R 生成兩組具有不同μ 和σ2的一維正態(tài)數(shù)據(jù),第一組數(shù)據(jù)ri1服從N(μ1,),第二組數(shù)據(jù)ri2服從N(μ2,),其中μ1≠μ2且,再生成一組服從U(0,1)的均勻分布數(shù)據(jù)zi,對(duì)于i = 1,2,…,n

則xi1為第一維數(shù)據(jù),同理構(gòu)造第二維數(shù)據(jù)xi2。針對(duì)參數(shù)μ1,,μ2,,μ3,,μ4,σ24 的不同取值,模擬以下6 種情況:

生成二維隨機(jī)數(shù)據(jù)后,定義每組數(shù)據(jù)的原始分類(lèi)情況,方法同上。

3.2.5 模擬結(jié)果 利用隨機(jī)生成的數(shù)據(jù),采用兩種判別方法進(jìn)行判別分析。在統(tǒng)計(jì)模擬時(shí),分別取樣本容量n = 50,n = 200,n = 500 3 種情況,進(jìn)行重復(fù)數(shù)N = 1 000 次的模擬試驗(yàn),最后取1 000 次模擬結(jié)果的平均值作為最終結(jié)果。運(yùn)行R 軟件,得出每組數(shù)據(jù)的最終模擬結(jié)果,將兩種判別方法的最終模擬結(jié)果進(jìn)行比較。結(jié)果顯示,在上述統(tǒng)計(jì)模擬的各種情形中,非參數(shù)核密度Bayes 判別方法的正判率都明顯高于傳統(tǒng)Bayes 判別方法的正判率。

3.3 兩種判別分析方法的實(shí)證比較

3.3.1 對(duì)一組正態(tài)體檢數(shù)據(jù)的判別分析 為研究冠心病,某位醫(yī)生測(cè)定了15 例50 ~59 歲的冠心病人和15 例50 ~59 歲的正常人的舒張壓和膽固醇指標(biāo)(數(shù)據(jù)來(lái)源于《SPSS 寶典》16.3 實(shí)例數(shù)據(jù)[7])。對(duì)這30例數(shù)據(jù)分別用兩種判別方法進(jìn)行判別分析,將分類(lèi)結(jié)果與原始分類(lèi)情況進(jìn)行比較,結(jié)果如表1 所示。

表1 體檢數(shù)據(jù)的兩種判別結(jié)果比較Tab.1 Comparison of two discriminant results for physical examination data

表1 結(jié)果表明,在冠心病組的判別中,非參數(shù)核密度Bayes 判別方法的正判率是66.7%,高于傳統(tǒng)Bayes 判別方法的正判率;在正常人組的判別中,兩種方法的正判率都是100%。綜合來(lái)看,非參數(shù)核密度Bayes 判別方法的正判率高于傳統(tǒng)Bayes 判別方法。

3.3.2 對(duì)一組非正態(tài)企業(yè)財(cái)務(wù)數(shù)據(jù)的判別分析為研究企業(yè)財(cái)務(wù)預(yù)警[8-9]問(wèn)題,隨機(jī)選取了20 家被特別處理的上市公司(ST 公司)和180 家正常的上市公司(非ST 公司)作為研究對(duì)象(數(shù)據(jù)來(lái)源于Wind 資訊)。測(cè)定這200 家上市公司的8 個(gè)財(cái)務(wù)指標(biāo)。對(duì)這8 個(gè)財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),各指標(biāo)數(shù)據(jù)都不服從正態(tài)分布。針對(duì)這200 例數(shù)據(jù),分別采用兩種判別方法進(jìn)行判別分析,將分類(lèi)結(jié)果與原始分類(lèi)情況進(jìn)行比較,計(jì)算出兩種方法的正判率,結(jié)果如表2 所示。

表2 企業(yè)財(cái)務(wù)數(shù)據(jù)的兩種判別結(jié)果比較Tab.2 Comparison of two discriminant results for enterprise’s financial data

表2 結(jié)果表明,在ST 公司的判別中,非參數(shù)核密度Bayes 判別方法的正判率是100%,明顯高于傳統(tǒng)Bayes 判別方法的正判率;在非ST 公司的判別中,非參數(shù)核密度Bayes 判別方法的正判率略高于傳統(tǒng)Bayes 判別方法的正判率。綜合來(lái)看,非參數(shù)核密度Bayes 判別方法的正判率明顯高于傳統(tǒng)Bayes判別方法的正判率。

4 結(jié) 語(yǔ)

綜上所述,非參數(shù)核密度Bayes 判別方法要明顯優(yōu)于傳統(tǒng)Bayes 判別方法。從理論上看,當(dāng)總體的分布情況已知,且服從正態(tài)分布時(shí),傳統(tǒng)Bayes 判別方法無(wú)疑是適用的;但當(dāng)總體的分布情況未知時(shí),此時(shí)應(yīng)該采用非參數(shù)核密度Bayes 判別方法。非參數(shù)核密度Bayes 判別方法不需要事先假定總體的分布情況,所以適用范圍更廣。通過(guò)統(tǒng)計(jì)模擬和實(shí)證分析兩方面驗(yàn)證,結(jié)果表明,當(dāng)總體服從正態(tài)分布時(shí),非參數(shù)核密度Bayes 判別方法的正判率不低于傳統(tǒng)Bayes 判別方法的正判率;當(dāng)總體不服從正態(tài)分布時(shí),非參數(shù)核密度Bayes 判別方法的正判率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)Bayes 判別方法的正判率??梢?jiàn),對(duì)于任何分布形式的總體來(lái)說(shuō),非參數(shù)核密度Bayes 判別方法都是有效的。

[1]朱干江.非參數(shù)密度估計(jì)在判別分析中的應(yīng)用[D].南京:南京信息工程大學(xué),2007.

[2]薛毅,陳立萍.統(tǒng)計(jì)建模與R 軟件[M].北京:清華大學(xué)出版社,2007:375-397.

[3]馬明衛(wèi),宋松柏.非參數(shù)方法在干旱頻率分析中的應(yīng)用[J].水文,2011,31(3):5-12.

MA Mingwei,SONG Songbai.Nonparametric approach for drought frequency analysis[J]. Journey of China Hydrology,2011,31(3):5-12.(in Chinese)

[3]牛玉坤,胡曉華.基于非參數(shù)核估計(jì)方法的中國(guó)股市收益率分布研究[J].湖南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013,26(4):363-367.

NIU Yukun,HU Xiaohua. The Chinese stock market returns distribution research based on nonparametric kernel estimation method[J].Journal of Hainan Normal University:Natural Science,2013,26(4):363-367.(in Chinese)

[5]ZHANG Jin,WANG Xueren.Robust normal reference bandwidth for kernel density estimation[J].Statist Neerlandica,2009,63:13-23.

[6]Adamowskik.Nonparametric kernel estimation of frequencies[J].Water Resources Research,1985,21(11):1585-1590.

[7]張慶利.SPSS 寶典[M].2 版.北京:電子工業(yè)出版社,2011:214-287.

[8]羅怡,鄭春偉.我國(guó)企業(yè)財(cái)務(wù)預(yù)警實(shí)證分析—以2012 年23 家金融機(jī)具上市公司為例[J].財(cái)經(jīng)科學(xué),2014(2):88-95.

LUO Yi,ZHENG Chunwei.Financial warning empirical analysis of the financial instrument companies:evidence form 23 listed companies of 2012[J].Finance and Economics,2014(2):88-95.(in Chinese)

[9]黃振,朱珺,張為.基于Bayes 判別分析法的上市公司財(cái)務(wù)風(fēng)險(xiǎn)研究[J].洛陽(yáng)理工學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2012,27(3):26-28.

HUANG Zhen,ZHU Jun,ZHANG Wei. Research based on discriminative analysis of bayes into financial risks faced with the exchange-listed companies[J].Journal of Luoyang Institute of Science and Technology:Social Science,2012,27(3):26-28.(in Chinese)

猜你喜歡
正態(tài)總體密度
『密度』知識(shí)鞏固
密度在身邊 應(yīng)用隨處見(jiàn)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
2020年秋糧收購(gòu)總體進(jìn)度快于上年
外匯市場(chǎng)運(yùn)行有望延續(xù)總體平穩(wěn)發(fā)展趨勢(shì)
“玩轉(zhuǎn)”密度
密度應(yīng)用知多少
直擊高考中的用樣本估計(jì)總體
雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
基于泛正態(tài)阻抗云的諧波發(fā)射水平估計(jì)