国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息相關(guān)系數(shù)在列聯(lián)表中的應(yīng)用

2017-01-09 13:43:46劉成友張蓓蓓
中國衛(wèi)生統(tǒng)計 2016年5期
關(guān)鍵詞:關(guān)聯(lián)系數(shù)樣本量公式

丁 勇 劉成友 張蓓蓓

信息相關(guān)系數(shù)在列聯(lián)表中的應(yīng)用

丁 勇1△劉成友2張蓓蓓1

χ2檢驗在R×C列聯(lián)表資料的統(tǒng)計研究中有著廣泛的應(yīng)用,但也存在著因樣本量改變而使χ2值被過低或過高估計的問題,通過引進R×C列聯(lián)表的關(guān)聯(lián)系數(shù),可在一定程度上克服這一缺陷[1-3]。關(guān)聯(lián)度的分析是分析系統(tǒng)中各因素關(guān)聯(lián)程度的方法,正確計算列聯(lián)表資料的關(guān)聯(lián)系數(shù),不僅對于統(tǒng)計方法本身,而且對于實際應(yīng)用都意義重大。目前常用的關(guān)聯(lián)系數(shù)為Pearson列聯(lián)系數(shù)[4-6]。本文將以信息論為基礎(chǔ)的信息相關(guān)系數(shù)[7]應(yīng)用于R×C列聯(lián)表,并與Pearson列聯(lián)系數(shù)進行比較,通過理論分析、實例計算和計算機模擬,我們發(fā)現(xiàn)信息相關(guān)系數(shù)更合適作為列聯(lián)表關(guān)聯(lián)系數(shù)的指標。

χ2檢驗的不足之處

一般的R行C列的R×C列聯(lián)表數(shù)據(jù)如表1所示。χ2檢驗的統(tǒng)計量公式為[4-5]:

自由度v=(R-1)(C-1)

由χ2值可求出相應(yīng)的概率值

式中的f(x)為χ2分布的概率密度函數(shù)。實際應(yīng)用中,p值一般通過查表或用各種數(shù)學(xué)、統(tǒng)計軟件得到,為得到更精確的值,本文用數(shù)學(xué)軟件Matlab的chi2cdf函數(shù)計算。

表1 R×C列聯(lián)表數(shù)據(jù)

關(guān)于χ2檢驗的應(yīng)用,先看一個簡單的4格表例子。

例:某研究欲比較兩種藥物對治療某疾病的效果,將325名治療者隨機分成2組,結(jié)果如表2所示,問兩種藥物的有效率是否相等?(顯著性水平α=0.05)

表2 兩種藥物治療某種疾病的有效率

建立原假設(shè)H0:兩種藥物的有效率相同。

備擇假設(shè)H1:兩種藥物的有效率不同。

把表1的所有數(shù)據(jù)擴大一倍,從而樣本量也擴大1倍(n=650),有效率保持不變時,由公式(1)不難求出此時χ2=4.3337,故拒絕原假設(shè),接受備擇假設(shè),認為兩種藥物的有效率不同。

考慮一般的R×C表,當(dāng)樣本量擴大k倍,而表中數(shù)據(jù)的比例不變,記此時的χ2值為由公式(1)可得

是原χ2值的k倍,但自由度仍然是v=(R-1)(C-1)。因此,對給定的顯著性水平α,如果原R×C表的但適當(dāng)?shù)財U大樣本量倍數(shù)k,會有

僅僅由于樣本量的變化,它們之間的比例關(guān)系沒有發(fā)生變化,卻導(dǎo)致了兩個不同的結(jié)論,這說明χ2檢驗在應(yīng)用中存在一定的不足之處。

列聯(lián)系數(shù)和信息相關(guān)系數(shù)及其比較

為了解決χ2檢驗應(yīng)用中的不足之處,引進不受樣本量變化影響的關(guān)聯(lián)系數(shù)。這些關(guān)聯(lián)系數(shù)有[3]:Phi系數(shù)、Pearson列聯(lián)系數(shù)、Cramer′s V等。目前最常用的關(guān)聯(lián)系數(shù)是Pearson列聯(lián)系數(shù)(以下簡稱列聯(lián)系數(shù)),廣泛出現(xiàn)在各種統(tǒng)計教材和實際應(yīng)用中[3-6]。記列聯(lián)系數(shù)為r,其計算公式為[4-5]

顯然0≤r<1。由公式(3)可知,當(dāng)樣本量擴大k倍時,r保持不變,因為

在信息論中,如果隨機變量X的分布律為pi=P(X=xi)>0(i=1,2,…,m),則其信息熵定義為[8]其中b為對數(shù)的底,一般取b為2、e(自然對數(shù))或10(常用對數(shù))。文獻[7]以信息熵為依據(jù),提出了一種廣義相關(guān)系數(shù)的概念,本文將其引入R×C列聯(lián)表中,并稱其為信息相關(guān)系數(shù),定義如下:

把表1的因素A看成一個隨機變量,有R個不同的狀態(tài)Ai(i=1,2,…,R),其概率分布為所以因素A的信息熵為把表1的因素B看成另一個隨機變量,有C個不同狀態(tài)Bj(j=1,2,…,C),其概率分布為所以因素B的信息熵為兩個因素A和B的聯(lián)合概率分布為所以聯(lián)合信息熵信息相關(guān)系數(shù)記為ρ,定義為

由對數(shù)換底公式不難證明,無論對數(shù)的底b取何值,公式(4)的結(jié)果都是相同的。

對表2的數(shù)據(jù),按公式(3)和(4)可分別求出r=0.0814和ρ=0.0029。

當(dāng)數(shù)據(jù)成比例擴大k倍時,由H(A)、H(B)和H(AB)的計算公式可知,它們保持不變,故ρ也保持不變,這一性質(zhì)與列聯(lián)系數(shù)相同。

文獻已證明[7,9]:0≤ρ≤1;且當(dāng)因素A和因素B相互獨立時,H(AB)=H(A)+H(B),所以ρ=0;當(dāng)因素A和因素B完全相關(guān)時,H(AB)=H(A)=H(B),所以ρ=1。

在我們前期研究[9-10]的基礎(chǔ)上,本文做進一步的工作,說明信息相關(guān)系數(shù)可應(yīng)用于R×C列聯(lián)表,并且比列聯(lián)系數(shù)更能反映真實情況。下面對列聯(lián)系數(shù)和信息相關(guān)系數(shù)進行比較。

1.動態(tài)變化比較

為簡單明了,取3×3列聯(lián)表數(shù)據(jù)T=[tij],以樣本總數(shù)的3種3×3列聯(lián)表數(shù)據(jù)為例進行說明。

(1)完全相關(guān)列聯(lián)表

取T為完全相關(guān)的列聯(lián)表按公式(1)~(4)可得p=0、r=0.8165和ρ=1。

對完全相關(guān)的列聯(lián)表,顯然信息相關(guān)系數(shù)等于1更符合實際情況,所以ρ要優(yōu)于r。

再來看數(shù)據(jù)變動的情況:

T有9個元素,考慮給其中一個元素增加1個樣本,其余元素不變,即樣本總數(shù)為91時,分別考察r和ρ的變化情況。

上述計算表明,當(dāng)增加的樣本在對角線上時,仍然是完全相關(guān)資料,結(jié)果不變;ρ都為1,而r都為0.8165,所以仍然有ρ要優(yōu)于r。

當(dāng)增加的樣本在其他6個位置時,不再是完全相關(guān)資料,r和ρ都相應(yīng)地減少。

再考察不增加樣本,但T1的任意的兩行(或列)合并的情況:當(dāng)T1成為2×3(或3×2)列聯(lián)表,不再是完全相關(guān)資料時,都有r和ρ相應(yīng)地減少。這些變化說明雖然r與ρ的值都變小,但r由0.8165變小,ρ由1變小,后者更符合實際情況。因為當(dāng)列聯(lián)表由完全相關(guān)資料變?yōu)椴煌耆嚓P(guān)資料時,列聯(lián)表的關(guān)聯(lián)系數(shù)應(yīng)該由1變?yōu)樾∮?。

(2)不相關(guān)列聯(lián)表

取T為不相關(guān)的列聯(lián)表按公式(1)~(4)可得P=1、r=ρ=0,都與不相關(guān)列聯(lián)表的關(guān)聯(lián)系數(shù)應(yīng)該為0相符合。

仿前增加1個樣本。當(dāng)?shù)?行的3個元素的其中一個增加一個樣本時,都有r=0.0334,ρ=0.0005;當(dāng)?shù)?行的3個元素的其中一個增加一個樣本時,都有r=0.0215,ρ=0.0002;當(dāng)?shù)?行的3個元素的其中一個增加一個樣本時,都有r=0.0153,ρ=0.0001。

增加1個樣本時,T2不再是不相關(guān)列聯(lián)表,關(guān)聯(lián)系數(shù)應(yīng)增加,上述計算結(jié)果與實際情況相符,兩個關(guān)聯(lián)系數(shù)都增加;且三種情況r與ρ的大小變化規(guī)律對應(yīng)相同:增加的1個樣本在第1行時增加最多,第2行次之,第3行最少。

仿前,當(dāng)T2的任意兩行(或列)合并成為2×3(或3×2)列聯(lián)表時,仍然是不相關(guān)列聯(lián)表,都有r=ρ=0,與實際情況相符。

(3)一般列聯(lián)表

取T為一般的列聯(lián)表(每行每列、正對角線都有5、10和15,但排列順序不同,對稱),按公式(1)~(4)可得p=0.0047、r=0.3780和ρ=0.0794。

仿前,當(dāng)T3的任意的兩行(或列)合并成為2×3(或3×2)列聯(lián)表時,都有r=0.2774和ρ=0.0515,都相應(yīng)減少。

2.模擬比較

從上述三個例子數(shù)據(jù),我們看到r與ρ的大小變化規(guī)律對應(yīng)相同,但r比ρ更符合實際情況。下面進一步考察一般的情況。由于樣本總數(shù)n=90的3×3列聯(lián)表的所有可能性是個巨大的數(shù)字,無法一一計算,所以我們用模擬數(shù)據(jù)進行研究。

數(shù)據(jù)模擬過程:利用Matlab函數(shù)random(′discrete uniform′,20,3,3),每次產(chǎn)生[0,20]區(qū)間上離散型均勻分布的3行3列隨機整數(shù)矩陣,作為3×3列聯(lián)表。其依據(jù)是,由數(shù)理統(tǒng)計知識可知,[0,20]區(qū)間上的均勻分布的隨機數(shù)的均值(數(shù)學(xué)期望)為10,3行3列9個數(shù)據(jù)的樣本總和的均值為90。

按照公式(1)~(4)計算模擬數(shù)據(jù)3×3列聯(lián)表的p、r和ρ值。共進行10000次模擬,由于10000數(shù)據(jù)量較大,無法清楚地畫出散點圖,我們將p值范圍[0,1]等分為10個小區(qū)間,對r和ρ求平均值,用平均值作圖。結(jié)果見表3和圖1、圖2。

圖1 r與ρ關(guān)系圖

表3 小區(qū)間上列聯(lián)系數(shù)平均值和信息相關(guān)系數(shù)平均值(10000次模擬結(jié)果)

用表3的數(shù)據(jù),并結(jié)合完全相關(guān)列聯(lián)表的p=0、r=0.8165和ρ=1及不相關(guān)列聯(lián)表的p=1、r=ρ=0數(shù)據(jù),可畫出到r與ρ的關(guān)系圖(圖1)以及r和ρ與p(p取區(qū)間中點)的關(guān)系圖(圖2)。由圖1可知,當(dāng)r增大(或減小)時,ρ也增大(或減?。?,即對應(yīng)的變化趨勢是一致的,說明前面3個例子的分析結(jié)果具有普遍性。由圖2可知,當(dāng)p增大時,r和ρ都相應(yīng)減小,p接近0時r<ρ,p>0.05時都有r>ρ。

用同樣的方法,我們又對樣本總數(shù)為90的3×4、4×4、4×5和5×5的列聯(lián)表情況進行了模擬,都得到了類似的結(jié)果。

討 論

列聯(lián)系數(shù)r在實際問題中得到廣泛應(yīng)用,說明作為關(guān)聯(lián)系數(shù),它具有一定的合理性。以上比較表明,當(dāng)樣本量改變時,信息相關(guān)系數(shù)ρ與r的變化規(guī)律相同。此外,由公式(3)和(4)可知,這兩個關(guān)聯(lián)系數(shù)還有如下的共同特征:任意交換列聯(lián)表的兩行或兩列,兩個關(guān)聯(lián)系數(shù)的值都不變。這些都表明,ρ與r有非常多的相同點和一致性,ρ同樣也具有作為關(guān)聯(lián)系數(shù)的合理性。

文獻[6]認為,一個滿意的相關(guān)度量應(yīng)至少具備下列兩個特點:(1)當(dāng)兩變量不相關(guān)時,其值應(yīng)該等于0;(2)當(dāng)兩變量完全相關(guān)時,其值應(yīng)該等于1。從上面列聯(lián)表T1和T2的資料可知,列聯(lián)系數(shù)r滿足(1)但不滿足(2),對完全相關(guān)的列聯(lián)表T1,r僅為0.8165;由公式(3)也可知,對任意的R×C列聯(lián)表都有r<1。而信息相關(guān)系數(shù)ρ完全滿足這兩個特點,因而彌補了列聯(lián)系數(shù)的這一缺陷。當(dāng)兩變量趨于完全相關(guān)時,p應(yīng)趨于0,從而拒絕兩變量不相關(guān)的零假設(shè)。圖2表明,在p=0附近,ρ值大于r值,接近于1。

我們認為,從實際應(yīng)用出發(fā),一個滿意的相關(guān)度量還應(yīng)具備如下特點:當(dāng)p值較大,接收兩變量不相關(guān)的零假設(shè),也就是說,當(dāng)認為兩變量不相關(guān)時,關(guān)聯(lián)系數(shù)值應(yīng)較小。從不相關(guān)列聯(lián)表T2的情況看,無論增加的一個樣本在哪一行,都有較大的p(分別為0.9987、0.9998和0.9999),在實際應(yīng)用中,都會接受兩變量不相關(guān)的假設(shè),所以這兩個變量的關(guān)聯(lián)系數(shù)都應(yīng)較小,從上述計算來看,都有ρ<r(0.0005<0.0334,0.0002<0.0215,0.0001<0.0153);從圖2也可看出,對于較大的p,ρ<r。因此,從實際應(yīng)用來看,作為關(guān)聯(lián)系數(shù),ρ更合理。

由于R×C列聯(lián)表為計數(shù)資料,而χ2分布是連續(xù)型分布,因此對于χ2值的精確計算,還存在不同的看法和爭議[5,11-12],有的認為要校正,有的認為不需校正。不同的計算,會得到不同的χ2值,由公式(3)可知,這時又會導(dǎo)致不同的列聯(lián)系數(shù)。而信息相關(guān)系數(shù)是以信息熵為基礎(chǔ)的,對變量的分布沒有要求,與統(tǒng)計分布無關(guān),既能描述變量間的線性相關(guān)關(guān)系,也能描述變量間的非線性相關(guān)關(guān)系,用公式(4)計算,不存在爭議。許多研究資料(例如臨床醫(yī)學(xué)數(shù)據(jù))由于其特殊性,變量之間關(guān)系復(fù)雜,很難確定變量的分布,因此,更適合用信息相關(guān)系數(shù)描述數(shù)據(jù)之間的相關(guān)性。

綜上所述,我們認為,作為R×C列聯(lián)表的關(guān)聯(lián)系數(shù),信息相關(guān)系數(shù)ρ比列聯(lián)系數(shù)r更合適。本文拋磚引玉,希望在今后的各種實際問題中,應(yīng)用這一指標,并進一步分析、比較,完善這方面的工作和研究,確定出一個更合理的關(guān)聯(lián)系數(shù)指標。

[1]Roscino A,Pollice A.A Generalization of the Polychoric Corelation Coefficient.New York:Springer,2006:135-142.

[2]鄭兵云.非參數(shù)檢驗的兩個局限性問題.統(tǒng)計教育,2007,6:8-9.

[3]薛允蓮,姜世強,劉貴浩等.列聯(lián)表資料的關(guān)聯(lián)強度.中國衛(wèi)生統(tǒng)計,2011,28(3):244-246.

[4]李賢平,沈崇圣,陳子毅.概率論與數(shù)理統(tǒng)計.上海:復(fù)旦大學(xué)出版社.2003.

[5]孫振球,徐勇勇主編.醫(yī)學(xué)統(tǒng)計學(xué).第4版.北京:人民衛(wèi)生出版社,2014:102-107.

[6]李克均,時松和,胡東生.列聯(lián)表的行列關(guān)聯(lián)度與對應(yīng)分析.中國衛(wèi)生統(tǒng)計,2006,23(3):261-263.

[7]丁晶,王文圣,趙永龍.以互信息為基礎(chǔ)的廣義相關(guān)系數(shù).四川大學(xué)學(xué)報(工程科學(xué)版),2002,34(3):1-5.

[8]王海燕.信息論基礎(chǔ).南京:東南大學(xué)出版社.2003:9-14.

[9]丁勇.平均互信息的可加性和廣義相關(guān)系數(shù)不等式.工程數(shù)學(xué)學(xué)報,2007,24(2):282-286.

[10]丁勇.離散型隨機變量的平均信息熵.?dāng)?shù)學(xué)的實踐與認識.202,42(18):141-146.

[11]譚藝強.四格表資料三種檢驗方法分析.廣東藥學(xué)院學(xué)報,1999,15(1):75-77.

[12]陳國民,王潔貞.關(guān)于四格表資料值和校正值分布的模擬分析.中國衛(wèi)生統(tǒng)計,2002,19(4):249-251.

(責(zé)任編輯:郭海強)

1.南京醫(yī)科大學(xué)康達學(xué)院數(shù)學(xué)與計算機教研室(222000);

2.南京醫(yī)科大學(xué)附屬南京醫(yī)院醫(yī)療設(shè)備處

△通信作者:丁勇,E-mail:Yding@njmu.edu.cn

猜你喜歡
關(guān)聯(lián)系數(shù)樣本量公式
組合數(shù)與組合數(shù)公式
排列數(shù)與排列數(shù)公式
醫(yī)學(xué)研究中樣本量的選擇
等差數(shù)列前2n-1及2n項和公式與應(yīng)用
基于灰色關(guān)聯(lián)度對山東小麥新品種(系) 綜合表現(xiàn)評價分析
應(yīng)用灰色關(guān)聯(lián)度法分析稠油熱采油井生產(chǎn)主控因素
航空裝備測試性試驗樣本量確定方法
例說:二倍角公式的巧用
Sample Size Calculations for Comparing Groups with Binary Outcomes
大豆產(chǎn)量及主要農(nóng)藝性狀的相關(guān)性及灰色關(guān)聯(lián)度分析
渝中区| 青川县| 寿光市| 孙吴县| 青岛市| 墨脱县| 秀山| 称多县| 弥渡县| 珠海市| 永兴县| 正阳县| 阿拉善左旗| 左云县| 和田市| 青神县| 进贤县| 曲阳县| 荣成市| 深州市| 垫江县| 大同县| 余江县| 建水县| 昭觉县| 彭阳县| 霍林郭勒市| 深圳市| 班戈县| 罗江县| 廉江市| 巩义市| 安达市| 突泉县| 黔东| 修文县| 内乡县| 页游| 郑州市| 彰化市| 东山县|