国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息熵和Monte Carlo方法的分布檢驗(yàn)

2019-03-13 13:01張志娟李星野
經(jīng)濟(jì)研究導(dǎo)刊 2019年3期
關(guān)鍵詞:信息熵

張志娟 李星野

摘 要:在統(tǒng)計(jì)分析中,分布檢驗(yàn)非常重要,應(yīng)用較多的檢驗(yàn)方法有卡方檢驗(yàn)、K-S檢驗(yàn)、S-W檢驗(yàn)、A-D檢驗(yàn)等。提出一種借助Monte Carlo方法、采用信息熵指標(biāo)實(shí)現(xiàn)統(tǒng)計(jì)分布檢驗(yàn)的方法,檢驗(yàn)結(jié)果的對(duì)比表明信息熵方法簡(jiǎn)便有效。

關(guān)鍵詞:信息熵;均勻分布;置信區(qū)間;卡方檢驗(yàn)

中圖分類號(hào):O21 ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? ?文章編號(hào):1673-291X(2019)03-0159-03

引言

在數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域,分布檢驗(yàn)是其中的重要步驟,具有方便、快速、準(zhǔn)確等優(yōu)點(diǎn),現(xiàn)已廣泛應(yīng)用在醫(yī)學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域,在判斷實(shí)驗(yàn)結(jié)果是否符合預(yù)期,產(chǎn)品質(zhì)量是否合格等方面作用重大??ǚ綑z驗(yàn)是基于統(tǒng)計(jì)樣本中實(shí)際觀測(cè)值與理論推斷值兩者偏離程度而發(fā)展起來的一種典型的分布檢驗(yàn)方法,該方法可以解決檢驗(yàn)數(shù)據(jù)是否符合假設(shè)的分布類型的問題,可以很好地描述分類資料統(tǒng)計(jì)推斷的特點(diǎn)。但是由于卡方檢驗(yàn)較為依賴樣本空間的劃分,不同的樣本空間分段數(shù)會(huì)導(dǎo)致不同的結(jié)論[1~3]。K-S檢驗(yàn)方法是另外一種較為典型的分布檢驗(yàn)方法,它需要將做統(tǒng)計(jì)分析的數(shù)據(jù)和另一組標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行對(duì)比,求得它和標(biāo)準(zhǔn)數(shù)據(jù)之間的偏差,但是當(dāng)數(shù)據(jù)規(guī)模較小時(shí),相應(yīng)參數(shù)檢驗(yàn)是無效的,統(tǒng)計(jì)推斷是不可信的[2,4~6];與K-S檢驗(yàn)方法相對(duì)的是S-W檢驗(yàn)方法,S-W檢驗(yàn)解決了小樣本情況下數(shù)據(jù)服從正態(tài)分布的統(tǒng)計(jì)檢驗(yàn),但是這種檢驗(yàn)方法在大樣本情況下的適用性是不明確的[4]。A-D檢驗(yàn)方法成功解決了上述兩種方法的問題,且可以用于多種分布類型的檢驗(yàn),但是,A-D檢驗(yàn)受兩端異常值的影響較大[4]。本文提出了一種新的分布檢驗(yàn)方法,該方法基于Monte Carlo方法,運(yùn)用信息熵理論,求得不同置信度的檢驗(yàn)下邊界,可以檢驗(yàn)隨機(jī)數(shù)的分布類型,信息熵方法更加簡(jiǎn)便有效。

一、信息熵方法實(shí)現(xiàn)分布檢驗(yàn)的原理

(一)檢驗(yàn)原理

本文對(duì)經(jīng)典的分布檢驗(yàn)方法不再贅述,根據(jù)假設(shè)檢驗(yàn)的基本原理,可以利用來自總體X的樣本x1,x2,x3…xn檢驗(yàn)總體是否服從特定分布F0(X)。此時(shí),檢驗(yàn)的原假設(shè)為H0:F(x)=F0(x),備擇假設(shè)為H1:F(x)≠F0(x)。當(dāng)原假設(shè)成立時(shí),隨機(jī)變量Y=F0(X)服從[0,1]上的均勻分布[7]。因此,檢驗(yàn)樣本x1,x2,x3…xn是否服從分布F0(X),可以轉(zhuǎn)化為檢驗(yàn)y1,y2,y3…yn(其中yi=F0(xi))是否服從[0,1]上的均勻分布。對(duì)于均勻分布的檢驗(yàn),本文借助信息熵指標(biāo),基于Monte Carlo方法,求得檢驗(yàn)均勻分布的下邊界,實(shí)現(xiàn)分布檢驗(yàn)。

(二)信息熵

信息熵最早是從熱力學(xué)中熵這個(gè)概念演化而來,熵的物理意義表示體系混亂程度的度量[8]。信息論之父Shannon 指出,任何信息都存在冗余,冗余大小與信息中每個(gè)符號(hào)(數(shù)字、字母或單詞)的出現(xiàn)概率或者說不確定性有關(guān)[9]。信息熵表示信息中排除了冗余后的平均信息量,本文選取以e為底的自然對(duì)數(shù),信息熵可以表示為:

式中,i∈[1,k]表示樣本空間劃分后的第i個(gè)區(qū)間,P(i)指樣本空間劃分后,在樣本含有n個(gè)子樣本的觀察中落入i區(qū)間的頻數(shù)ni與樣本個(gè)數(shù)n的比值。

在判斷一組隨機(jī)數(shù)是否服從均勻分布時(shí),根據(jù)數(shù)據(jù)的均勻性質(zhì),越均勻的數(shù)據(jù),其混亂程度越低,包含的信息量越大,信息熵越大。當(dāng)數(shù)據(jù)完全均勻時(shí),信息熵達(dá)到最大值,如下所示:

其中,k表示樣本空間分段數(shù)。當(dāng)數(shù)據(jù)完全均勻時(shí),樣本容量大小對(duì)信息熵沒有影響。

二、下邊界擬合過程

當(dāng)大量的值都具有計(jì)算出的概率時(shí),國(guó)內(nèi)外通用的方法是運(yùn)用Monte Carlo方法求得問題的解。Monte Carlo方法是指使用隨機(jī)數(shù)(或更常見的偽隨機(jī)數(shù))來解決很多計(jì)算問題的方法[9]。本文為了得到下邊界,采用Monte Carlo方法。實(shí)驗(yàn)數(shù)據(jù)是通過隨機(jī)數(shù)生成器生成的,隨機(jī)生成服從[0,1]上均勻分布的數(shù)據(jù),數(shù)據(jù)包含100組,樣本容量為n,n∈{100, 200,300,400,500,600,700,800,900,1 000}。

(一)95%下邊界擬合過程

論文運(yùn)用基于信息熵為指標(biāo)的均勻分布檢驗(yàn)的方法對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)的過程中,為了得到下邊界,本文以樣本容量n=100及95%下邊界為例進(jìn)行說明,首先計(jì)算95%下邊界與樣本空間分段數(shù)的關(guān)系。當(dāng)樣本容量n=100時(shí),把樣本空間分成互不相容的k=2個(gè)區(qū)間,計(jì)算得到100個(gè)信息熵Hk,挑選升序排列的第6個(gè)信息熵作為95%熵,保證在95%熵以上包含95%的信息熵(改變置信度,邊界以上包含信息熵的個(gè)數(shù)不同,可以得到不同置信度的下邊界)。改變k∈[2,17]值,得到16個(gè)與樣本空間分段數(shù)k相關(guān)的95%熵,求得95%熵與樣本空間分段數(shù)k的關(guān)系擬合95%下邊界當(dāng)數(shù)據(jù)容量n∈{200,300,400,500,600,700,800,900,1 000}時(shí),95%下邊界與樣本空間分段數(shù)關(guān)系的計(jì)算方法同上。其次,計(jì)算95%下邊界與樣本容量的關(guān)系。

本文首先研究了95%下邊界與樣本空間分段數(shù)k的關(guān)系及與樣本完全均勻時(shí)的信息熵Hk的距離。假設(shè)95%下邊界的形式為lnk-f(n,k),為了求的f(n,k)的具體形式,將16個(gè)95%熵與對(duì)應(yīng)k的最大信息熵lnk作差,即yk=lnk-95%熵,yk為f(n,k)的真實(shí)值。

圖1為當(dāng)n=100時(shí),差值yk和分段數(shù)k的折線圖,由圖中可以看出,差值yk隨著k的增大呈上升趨勢(shì)。為了進(jìn)一步得到y(tǒng)k和k之間的關(guān)系,本文假設(shè)兩者之間為線性關(guān)系,函數(shù)形式為yk=a+b1k。將yk與k做OLS回歸,得a=0.0044,b1=0.00746,調(diào)整的R2為0.98516。但由于常數(shù)項(xiàng)a太小,假設(shè)函數(shù)不包含常數(shù)項(xiàng)為yk=b1k,OLS回歸結(jié)果為b1=0.00783,調(diào)整的R2為0.99685,OLS擬合效果很好。同時(shí),觀察圖中差值和擬合函數(shù)曲線之間的關(guān)系,可以得出擬合函數(shù)對(duì)原曲線的擬合效果很好,因此假設(shè)yk和k之間的函數(shù)關(guān)系為線性是恰當(dāng)?shù)摹?/p>

本文進(jìn)而研究了95%下邊界與樣本容量n的關(guān)系,當(dāng)改變樣本容量n的值,求出b2,b3,b4…b10。下頁(yè)圖2為系數(shù)b與樣本容量n的關(guān)系,由圖中可以看出,系數(shù)b隨著樣本容量n的增加呈現(xiàn)出逐漸下降的趨勢(shì)。為了得到曲線的具體形式,假設(shè)曲線的函數(shù)形式為b=cnd,以非線性函數(shù)線性化方法計(jì)算c、d的值,得c=0.60571,d=-0.93745,調(diào)整的R2為0.99544。同時(shí),觀察圖2中擬合函數(shù)曲線,對(duì)比擬合函數(shù)曲線與系數(shù)圖可知,擬合函數(shù)曲線對(duì)系數(shù)b與樣本容量n之間關(guān)系的擬合效果較好,且通過計(jì)算求得系數(shù)預(yù)測(cè)值與系數(shù)真實(shí)值之間的差值很小。因此,假設(shè)曲線的函數(shù)形式為冪函數(shù)是適當(dāng)?shù)摹?/p>

根據(jù)上述步驟,通過計(jì)算得:

則95%下邊界的公式可以表示為:

(二)樣本外數(shù)據(jù)驗(yàn)證及其他下邊界

為了檢驗(yàn)通過以上方法得到的95%下邊界的準(zhǔn)確性,需要通過樣本外數(shù)據(jù)進(jìn)行驗(yàn)證。隨機(jī)生成服從(0,1)上均勻分布的數(shù)據(jù),數(shù)據(jù)包含100組,每組數(shù)據(jù)的樣本容量為n,n∈{280,420,500,650,880,1 100,1 500}。檢驗(yàn)結(jié)果為:當(dāng)n=280,k=15時(shí),95%下邊界=2.66522<95%熵=2.66594;當(dāng)n=420,k=5時(shí),95%下邊界=1.59982>95%熵=1.59946;當(dāng)n=500,k=6時(shí),95%下邊界=1.78203>95%熵=1.78194;當(dāng)n=650,k=8時(shí),95%下邊界=2.0694<95%熵=2.06972;當(dāng)n=880,k=11時(shí),95%下邊界=2.38761<95%熵=2.38796;當(dāng)n=1100,k=15時(shí),95%下邊界=2.69678>5%熵=2.69647;當(dāng)n=1500,k=17時(shí),95%下邊界=2.82378<95%熵=2.82434。

對(duì)于樣本外數(shù)據(jù)進(jìn)行任意分段時(shí),通過以上方法得出的95%熵有較大部分大于95%下邊界,說明95%下邊界作為檢驗(yàn)隨機(jī)數(shù)是否服從均勻分布的邊界是恰當(dāng)?shù)?。例如,?dāng)樣本容量n=280、分段數(shù)k=15時(shí),得到的95%熵為2.66594,是大于95%下邊界2.66522的,信息熵方法得到的95%下邊界是合適的。但是由于給出的邊界是不會(huì)包含所有的均勻分布數(shù)據(jù)的,還有一小部分的95%熵是小于95%下邊界的。

根據(jù)上述方法,可以得出不同置信度的下邊界。當(dāng)置信區(qū)間為90%時(shí),下邊界為lnk-0.58775n-0.96634k;當(dāng)置信區(qū)間為91%時(shí),下邊界為lnk-0.59545n-0.96469k;當(dāng)置信區(qū)間為92%時(shí),下邊界為lnk-0.60894n-0.96497k;當(dāng)置信區(qū)間為93%時(shí),下邊界為lnk-0.61176n-0.9621k;當(dāng)置信區(qū)間為94%時(shí),下邊界為lnk-0.68140 n-0.97612k;當(dāng)置信區(qū)間為95%時(shí),下邊界為lnk-0.69751n-0.97577k;當(dāng)置信區(qū)間為96%時(shí),下邊界為lnk-0.72685n-0.97819k;當(dāng)置信區(qū)間為97%時(shí),下邊界為lnk-0.73876n-0.97331;當(dāng)置信區(qū)間為98%時(shí),下邊界為lnk-0.86220n-0.99301k;當(dāng)置信區(qū)間為99%時(shí),下邊界為lnk-0.99351n-1.00611k;當(dāng)置信區(qū)間為100%時(shí),下邊界為lnk-0.98126n-0.98655k。隨著置信區(qū)間的增大,下邊界逐漸遠(yuǎn)離數(shù)據(jù)服從完全均勻分布時(shí)的上邊界。當(dāng)樣本數(shù)據(jù)密度增加時(shí),即使樣本分段數(shù)和樣本容量不同,下邊界也逐漸趨于重合。

三、信息熵方法與卡方檢驗(yàn)比較

為了驗(yàn)證本文運(yùn)用信息熵和Monte Carlo方法得出的檢驗(yàn)邊界的有效性,本文使用卡方檢驗(yàn)來驗(yàn)證上述實(shí)驗(yàn)數(shù)據(jù)的均勻性。在用卡方檢驗(yàn)檢驗(yàn)本文實(shí)驗(yàn)數(shù)據(jù)的均勻性過程中,選取不同樣本容量、不同分段數(shù)的95%信息熵的數(shù)據(jù)組進(jìn)行檢驗(yàn)。對(duì)于相同樣本容量,不同分段數(shù)會(huì)出現(xiàn)95%信息熵?cái)?shù)據(jù)組是同一組數(shù)據(jù)的現(xiàn)象,為了避免重復(fù)計(jì)算,以下只需選取相同樣本容量的任意一個(gè)分段數(shù)進(jìn)行卡方檢驗(yàn),檢驗(yàn)結(jié)果同時(shí)作為其他分段數(shù)的結(jié)果。由于數(shù)據(jù)量大,檢驗(yàn)結(jié)果只呈現(xiàn)一部分,以此說明結(jié)果的表示形式如:當(dāng)樣本容量為100,分段數(shù)為2時(shí),卡方檢驗(yàn)P值為0.046;當(dāng)樣本容量為100,分段數(shù)為3時(shí),卡方檢驗(yàn)P值為0.059;當(dāng)樣本容量為100.分段數(shù)為4時(shí),卡方檢驗(yàn)P值為0.073等等,依此類推。

在對(duì)95%信息熵?cái)?shù)據(jù)組進(jìn)行卡方檢驗(yàn)的結(jié)果中,有94組數(shù)據(jù)的卡方檢驗(yàn)p值是大于0.05的,表明在5%的顯著性水平下這些數(shù)據(jù)是不能拒絕服從均勻分布的原假設(shè)的,其余的數(shù)據(jù)在5%的顯著性水平下不能接受服從均勻分布的原假設(shè)。由于本文所用到的實(shí)驗(yàn)數(shù)據(jù)是運(yùn)用Monte Carlo方法隨機(jī)生成的服從均勻分布的數(shù)據(jù),運(yùn)用本文的信息熵方法在95%下邊界檢驗(yàn)下均是服從均勻分布的。但是在卡方檢驗(yàn)下,95%信息熵?cái)?shù)據(jù)組有41.25%的數(shù)據(jù)在5%(下轉(zhuǎn)168頁(yè))(上接161頁(yè))的顯著性水平下不能接受服從均勻分布的原假設(shè)。由此說明,在信息熵方法與卡方檢驗(yàn)的對(duì)比下,卡方檢驗(yàn)是稍顯嚴(yán)格的。

結(jié)語(yǔ)

本文根據(jù)均勻分布的性質(zhì)和信息熵指標(biāo)的意義,運(yùn)用Monte Carlo方法通過仿真實(shí)驗(yàn)得出檢驗(yàn)均勻分布的90%~100%的下邊界,經(jīng)過樣本外數(shù)據(jù)的驗(yàn)證,最后運(yùn)用信息熵方法與卡方檢驗(yàn)進(jìn)行對(duì)比,從而得出以下結(jié)論:信息熵方法計(jì)算過程簡(jiǎn)便,結(jié)果準(zhǔn)確有效,在實(shí)際運(yùn)用中既優(yōu)化了計(jì)算步驟,又降低了應(yīng)用復(fù)雜度。

根據(jù)其他類型分布與均勻分布的關(guān)系,本文所提出的信息熵方法不僅可以實(shí)現(xiàn)均勻分布的檢驗(yàn),而且對(duì)于其他類型的分布也可以有效實(shí)現(xiàn)分布檢驗(yàn)。

猜你喜歡
信息熵
計(jì)及用戶不滿意度的家庭能量管理調(diào)度優(yōu)化研究
近似邊界精度信息熵的屬性約簡(jiǎn)
基于信息熵的承運(yùn)船舶短重風(fēng)險(xiǎn)度量與檢驗(yàn)監(jiān)管策略研究
基于信息熵的承運(yùn)船舶短重風(fēng)險(xiǎn)度量與檢驗(yàn)監(jiān)管策略研究
信息熵及其在中醫(yī)“證癥”關(guān)聯(lián)中的應(yīng)用研究
論犯罪信息
基于改進(jìn)灰關(guān)聯(lián)度的雷達(dá)抗干擾能力評(píng)估算法
基于信息熵的信息系統(tǒng)內(nèi)部控制評(píng)價(jià)指標(biāo)研究
從信息熵論視角看特殊教育課堂教學(xué)
基于模糊集和信息熵理論的電網(wǎng)調(diào)度員培訓(xùn)評(píng)估方案
安新县| 庆元县| 信丰县| 政和县| 阳曲县| 凭祥市| 大化| 泰顺县| 罗田县| 正宁县| 门头沟区| 滨海县| 吉安市| 新龙县| 哈巴河县| 西青区| 定边县| 封丘县| 乐安县| 响水县| 井陉县| 色达县| 德庆县| 乾安县| 亚东县| 太湖县| 弥渡县| 大田县| 旅游| 铅山县| 平昌县| 乌兰浩特市| 阿坝| 嵊泗县| 武穴市| 卢氏县| 昂仁县| 民丰县| 天祝| 六枝特区| 微博|