国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

卡方分布的性質(zhì)與應(yīng)用探討

2016-07-03 11:09:08
中文信息 2016年1期
關(guān)鍵詞:孟德?tīng)?/a>卡方頻數(shù)

杜 蒙

(榆林市第一中學(xué),陜西 榆林 719000)

一、卡方分布的理論概述

若n個(gè)相互獨(dú)立的隨機(jī)變量均服從標(biāo)準(zhǔn)正態(tài)分布,則這n個(gè)均服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一個(gè)新的隨機(jī)變量,其分布規(guī)律稱為卡方分布。其中參數(shù)n稱為自由度,自由度不同卡方分布就不同。從以上的定義介紹中我們可以看出,卡方分布實(shí)際上是由正態(tài)分布構(gòu)造而成的一個(gè)新的分布,這也正說(shuō)明了正態(tài)分布在數(shù)理統(tǒng)計(jì)中的重要作用。卡方分布是概率論和統(tǒng)計(jì)學(xué)中重要的一種開(kāi)率分布。卡方分布常用于假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算。

二、卡方分布的性質(zhì)

1.卡方分布的圖像分布在第一象限,且呈正偏態(tài).

2.卡方分布隨著自由度增加而逐漸趨向于對(duì)稱,df很大時(shí)接近正態(tài)分布,當(dāng)df趨向于正無(wú)窮大時(shí),分布即為正態(tài)分布。

3.卡方分布只有一個(gè)參數(shù),即自由度n,不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。

4.卡方分布的均值為自由度n,記作Eχ2=n,這里的符號(hào)“E”是表示對(duì)隨機(jī)變量取平均值的意思;卡方分布的方差為二倍的自由度,即為Dχ2=2n,這里的符號(hào)“D”表示對(duì)隨機(jī)變量求方差。

5.卡方分布具有可加性:如果k個(gè)服從卡方分布而且相互獨(dú)立的隨機(jī)變量,則它們的和仍然服從卡方分布,這個(gè)新的卡方分布的自由度為原來(lái)的k個(gè)卡方分布自由度之和。

6.不管自由度n是多少,卡方分布曲線下的面積都是1.

7.卡方值都是正數(shù)。

三、卡方檢驗(yàn)的應(yīng)用

1.卡方檢驗(yàn)的簡(jiǎn)單介紹

卡方檢驗(yàn)的基本步驟是:第一步,建立原假設(shè)H0(正常情況下結(jié)論,不以否定的)和備擇假設(shè);第二步,根據(jù)理論分布或者理論經(jīng)驗(yàn)建立期望頻數(shù);第三部,由實(shí)際頻數(shù)和計(jì)算出來(lái)的期望頻數(shù)來(lái)計(jì)算樣本的卡方值,卡方檢驗(yàn)的基本公式是:

其中,表示實(shí)際頻數(shù),表示期望頻數(shù),表示卡方值。在實(shí)際應(yīng)用中,調(diào)查資料或者實(shí)驗(yàn)得出的若干個(gè)實(shí)際頻數(shù)與理論頻數(shù)之間的差別可以用公式一來(lái)表示,如果樣本量足夠大,要是大于40而且理論頻數(shù)大于5,則公式一就近似服從卡方分布,樣本來(lái)那個(gè)越大,近似程度就越好;第四步,根據(jù)顯著性水平α和自由度在卡方分布概率表中找出相對(duì)應(yīng)的卡方臨界值,如果卡方臨界值小于運(yùn)算得出的卡方值,就接受原假設(shè),如果卡方臨界值大于運(yùn)算得出的卡方值,就拒絕原假設(shè),接受備擇假設(shè)。在卡方分布的應(yīng)用研究中,常用于兩種情況:擬合度檢驗(yàn)和獨(dú)立性檢驗(yàn),下面我們就論證了這兩種應(yīng)用。

2.單一因素的卡方擬合度檢驗(yàn)

我們都知道,影響一個(gè)事物的因素可能是多種多樣的。同樣的,在非參數(shù)檢驗(yàn)過(guò)程中,只有一個(gè)因素改變的檢驗(yàn)成為單因素檢驗(yàn),多個(gè)因素同時(shí)改變的檢驗(yàn)成為多因素檢驗(yàn)。擬合度檢驗(yàn)是對(duì)已經(jīng)制作好的預(yù)測(cè)模型進(jìn)行檢驗(yàn),比較它們的預(yù)測(cè)結(jié)果與實(shí)際發(fā)生情況之間的吻合度。

2.1 檢驗(yàn)數(shù)據(jù)之間有無(wú)差異性

檢驗(yàn)觀測(cè)的數(shù)據(jù)之間的差異性是比較簡(jiǎn)單的單因素卡方檢驗(yàn),只是簡(jiǎn)單的檢驗(yàn)了分成多項(xiàng)的頻數(shù)之間在數(shù)量上有無(wú)明顯的差異。下面這個(gè)例子是這一檢驗(yàn)在語(yǔ)言研究中的應(yīng)用。

例為了了解學(xué)生學(xué)習(xí)數(shù)學(xué)的動(dòng)機(jī),我們做了一次小范圍的問(wèn)卷調(diào)查,這次問(wèn)卷分為了5個(gè)項(xiàng)目,調(diào)查了100名普通高校大一學(xué)生,調(diào)查問(wèn)卷的結(jié)果如表二所示。現(xiàn)在的問(wèn)題是,從問(wèn)卷調(diào)查結(jié)果分析學(xué)生學(xué)習(xí)數(shù)學(xué)的動(dòng)機(jī)有無(wú)顯著性差異?

表一學(xué)生學(xué)習(xí)英語(yǔ)的動(dòng)機(jī)實(shí)際頻數(shù)表

上表所給的數(shù)據(jù)是計(jì)數(shù)數(shù)據(jù)而且樣本量不大,比較適合用卡方擬合度檢驗(yàn)。問(wèn)題具體分析步驟如下:

(1)建立原始假設(shè)和備擇假設(shè)。原始假設(shè)認(rèn)為每個(gè)學(xué)生學(xué)習(xí)數(shù)學(xué)的動(dòng)機(jī)之間沒(méi)有明顯的差異;備擇假設(shè)則認(rèn)為學(xué)生學(xué)習(xí)英語(yǔ)的動(dòng)機(jī)有明顯的差異。

(2)計(jì)算出期望頻數(shù)。如果學(xué)生學(xué)習(xí)數(shù)學(xué)的動(dòng)機(jī)沒(méi)有明顯的差異,則100名學(xué)生對(duì)5個(gè)項(xiàng)目的選擇概率應(yīng)該是相等的,所以期望頻數(shù)的公式是:期望頻數(shù)=總數(shù)/分類的項(xiàng)目數(shù)

將表一中的數(shù)據(jù)代入公式2,得出的結(jié)果是:期望頻數(shù)=總數(shù)/分類的項(xiàng)目數(shù)=100/5=20

(3)計(jì)算卡方值。

(4)計(jì)算自由度。在這個(gè)問(wèn)題中共有5個(gè)分類項(xiàng)目,即比較5個(gè)分類項(xiàng)目的頻數(shù),但是在實(shí)際計(jì)算中,最后一個(gè)分類項(xiàng)的頻數(shù)是由全部頻數(shù)減去前面4個(gè)頻數(shù)所得到的,因此實(shí)際上只有4個(gè)獨(dú)立信息。所以計(jì)算這類檢驗(yàn)的自由度公式是:df=n-1=5-1=4,所以自由度是4.

(5)查表。查表可知,當(dāng)自由度為4時(shí),顯著性水平位0.05,卡方臨界值是 9.49。

(6)得出結(jié)論。由于計(jì)算出的卡方值23.9大于12.6,這說(shuō)明觀測(cè)數(shù)據(jù)之間存在著明顯的差異,因此拒絕原假設(shè)接受備擇假設(shè),也就是說(shuō)學(xué)生學(xué)習(xí)數(shù)學(xué)的動(dòng)機(jī)是存在著明顯差異的。

2.2 檢驗(yàn)樣本分布與理論分布模型之間的擬合度

單因素卡方檢驗(yàn)中的另一個(gè)重要的用途是檢驗(yàn)樣本分布與特定分布模型或者某一理論分布模型是否擬合,下面這個(gè)例子是檢驗(yàn)樣本是否服從孟德?tīng)栠z傳定律。

例按照孟德?tīng)柕倪z傳定律,讓開(kāi)淡紅色花的豌豆隨機(jī)交配,子代可以開(kāi)出紅花、淡紅花、白花三類,它們的比例是1:2:1,為了驗(yàn)證這個(gè)理論,我們特別安排論了一個(gè)實(shí)驗(yàn),實(shí)驗(yàn)得到的開(kāi)紅花、淡紅花、白花的豌豆的株數(shù)分別是26,,66,28,現(xiàn)在的問(wèn)題是驗(yàn)證這些數(shù)據(jù)與孟德?tīng)栠z傳定律是否一致。

如果以分別表示隨機(jī)交配的豌豆開(kāi)紅花、淡紅花、白花這一事件,那么孟德?tīng)栠z傳定律認(rèn)為,

p1=,為了驗(yàn)證這些數(shù)據(jù)與孟德?tīng)栠z傳定律是否一致,就是要檢驗(yàn)

現(xiàn)在共進(jìn)行了n=26+66+28=120次觀測(cè),其中發(fā)生的頻數(shù)分別是26,66,28,而在原始假設(shè)下期望的頻數(shù)是30,60,30,所以

查閱卡方分布概率表得,在自由度為2,顯著性水平為0.05時(shí),卡方分布的臨界值是5.991,大于1.267,因此不能拒絕原始假設(shè),即實(shí)際數(shù)據(jù)與孟德?tīng)柕睦碚撃P蜎](méi)有顯著差異。

3.多因素卡方檢驗(yàn)

卡方檢驗(yàn)除了能進(jìn)行擬合度檢驗(yàn)之外,還能進(jìn)行分析倆個(gè)或多個(gè)因素之間有無(wú)關(guān)聯(lián)。下面我們來(lái)介紹卡方檢驗(yàn)在列聯(lián)表獨(dú)立性檢驗(yàn)和四個(gè)表獨(dú)立性檢驗(yàn)中的應(yīng)用研究。

3.1 列聯(lián)表獨(dú)立性檢驗(yàn)

隨機(jī)試驗(yàn)的結(jié)果往往要記錄各個(gè)研究對(duì)象的兩個(gè)或者多個(gè)分類屬性。這時(shí)樣本中具有各個(gè)屬性的頻數(shù)統(tǒng)計(jì)就需要按照各個(gè)屬性的交叉分類進(jìn)行。特別的,在兩個(gè)分類屬性時(shí),往往要用一個(gè)矩形表來(lái)列出兩個(gè)屬性交叉分類下每種組合的頻數(shù),這種表就稱作為列聯(lián)表。有一種2×2的列聯(lián)表叫做四格表。

3.2 齊一性的卡方檢驗(yàn)

匯總在兩向列聯(lián)表中的數(shù)據(jù),在采集的時(shí)候可有各種不同的情況。有時(shí)候其中兩個(gè)屬性不能都看為是隨機(jī)的。

例如在流行病的研究中,為了研究得病與否與某個(gè)生活習(xí)慣的關(guān)系,往往預(yù)先規(guī)定對(duì)一定數(shù)量的患者與非患者進(jìn)行觀測(cè)。例如,在下表中就是對(duì)262名心血管病人和519名(大體上兩倍)無(wú)心血管疾病的公民詢問(wèn)他們是否有吸煙史的調(diào)查結(jié)果。希望由此來(lái)比較在這兩個(gè)人群中有吸煙史的比例是不是相同。

?

在上表所示的數(shù)據(jù)中,被調(diào)查的心血管病患者與非心血管病患者的比列是262::519。這個(gè)采樣比例是根據(jù)研究的需要確定的,但是這個(gè)比列并不能反映出整個(gè)人群中患病的人與不患病的人的比例。因此在分析這個(gè)數(shù)據(jù)的時(shí)候,不應(yīng)該將患病與否這個(gè)屬性作為隨機(jī)的。而是應(yīng)該講這兩個(gè)人群分別作為不同的總體,在這兩個(gè)總體中比較其吸煙者的比列。

四、結(jié)束語(yǔ)

綜上所述,我們主要研究的是卡方分布的八條性質(zhì)和卡方分布在現(xiàn)實(shí)生活中的應(yīng)用。本文的難點(diǎn)就是在研究列聯(lián)表獨(dú)立性檢驗(yàn)和齊一性卡方檢驗(yàn)時(shí),卡方統(tǒng)計(jì)量的推導(dǎo)以及列聯(lián)表獨(dú)立性檢驗(yàn)和齊一性卡方檢驗(yàn)的區(qū)別,也就是說(shuō)不是很明確在什么情況下用列聯(lián)表獨(dú)立性檢驗(yàn),什么時(shí)候用齊一性檢驗(yàn),雖然最后的卡方統(tǒng)計(jì)量的計(jì)算公式是一樣的,但是其中的原理確實(shí)有很大差異的。

猜你喜歡
孟德?tīng)?/a>卡方頻數(shù)
紀(jì)念遺傳學(xué)奠基人孟德?tīng)栒Q辰200周年
科學(xué)(2022年5期)2022-12-29 09:49:04
歷史的另類解讀——論孟德?tīng)栔遗c不幸
科學(xué)(2022年5期)2022-12-29 09:48:52
卡方檢驗(yàn)的應(yīng)用條件
卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
卡方檢驗(yàn)的應(yīng)用條件
他熱愛(ài)那些美麗的花朵
視野(2020年3期)2020-02-25 03:15:45
中考頻數(shù)分布直方圖題型展示
學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
頻數(shù)和頻率
盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
壶关县| 屯留县| 福泉市| 疏附县| 赫章县| 双柏县| 敦化市| 宁河县| 新宁县| 岚皋县| 桦甸市| 自治县| 克拉玛依市| 宣汉县| 邮箱| 东台市| 邵东县| 皋兰县| 专栏| 山阴县| 昌江| 尼木县| 游戏| 尼玛县| 济南市| 龙口市| 襄垣县| 防城港市| 颍上县| 六安市| 农安县| 乐昌市| 静海县| 辰溪县| 峨边| 南京市| 利川市| 湛江市| 淮阳县| 博罗县| 鄢陵县|