丁 勇 劉成友 張蓓蓓
信息相關(guān)系數(shù)在列聯(lián)表中的應(yīng)用
丁 勇1△劉成友2張蓓蓓1
χ2檢驗在R×C列聯(lián)表資料的統(tǒng)計研究中有著廣泛的應(yīng)用,但也存在著因樣本量改變而使χ2值被過低或過高估計的問題,通過引進R×C列聯(lián)表的關(guān)聯(lián)系數(shù),可在一定程度上克服這一缺陷[1-3]。關(guān)聯(lián)度的分析是分析系統(tǒng)中各因素關(guān)聯(lián)程度的方法,正確計算列聯(lián)表資料的關(guān)聯(lián)系數(shù),不僅對于統(tǒng)計方法本身,而且對于實際應(yīng)用都意義重大。目前常用的關(guān)聯(lián)系數(shù)為Pearson列聯(lián)系數(shù)[4-6]。本文將以信息論為基礎(chǔ)的信息相關(guān)系數(shù)[7]應(yīng)用于R×C列聯(lián)表,并與Pearson列聯(lián)系數(shù)進行比較,通過理論分析、實例計算和計算機模擬,我們發(fā)現(xiàn)信息相關(guān)系數(shù)更合適作為列聯(lián)表關(guān)聯(lián)系數(shù)的指標。
一般的R行C列的R×C列聯(lián)表數(shù)據(jù)如表1所示。χ2檢驗的統(tǒng)計量公式為[4-5]:
自由度v=(R-1)(C-1)
由χ2值可求出相應(yīng)的概率值
式中的f(x)為χ2分布的概率密度函數(shù)。實際應(yīng)用中,p值一般通過查表或用各種數(shù)學(xué)、統(tǒng)計軟件得到,為得到更精確的值,本文用數(shù)學(xué)軟件Matlab的chi2cdf函數(shù)計算。
表1 R×C列聯(lián)表數(shù)據(jù)
關(guān)于χ2檢驗的應(yīng)用,先看一個簡單的4格表例子。
例:某研究欲比較兩種藥物對治療某疾病的效果,將325名治療者隨機分成2組,結(jié)果如表2所示,問兩種藥物的有效率是否相等?(顯著性水平α=0.05)
表2 兩種藥物治療某種疾病的有效率
建立原假設(shè)H0:兩種藥物的有效率相同。
備擇假設(shè)H1:兩種藥物的有效率不同。
把表1的所有數(shù)據(jù)擴大一倍,從而樣本量也擴大1倍(n=650),有效率保持不變時,由公式(1)不難求出此時χ2=4.3337,故拒絕原假設(shè),接受備擇假設(shè),認為兩種藥物的有效率不同。
考慮一般的R×C表,當(dāng)樣本量擴大k倍,而表中數(shù)據(jù)的比例不變,記此時的χ2值為由公式(1)可得
是原χ2值的k倍,但自由度仍然是v=(R-1)(C-1)。因此,對給定的顯著性水平α,如果原R×C表的但適當(dāng)?shù)財U大樣本量倍數(shù)k,會有
僅僅由于樣本量的變化,它們之間的比例關(guān)系沒有發(fā)生變化,卻導(dǎo)致了兩個不同的結(jié)論,這說明χ2檢驗在應(yīng)用中存在一定的不足之處。
為了解決χ2檢驗應(yīng)用中的不足之處,引進不受樣本量變化影響的關(guān)聯(lián)系數(shù)。這些關(guān)聯(lián)系數(shù)有[3]:Phi系數(shù)、Pearson列聯(lián)系數(shù)、Cramer′s V等。目前最常用的關(guān)聯(lián)系數(shù)是Pearson列聯(lián)系數(shù)(以下簡稱列聯(lián)系數(shù)),廣泛出現(xiàn)在各種統(tǒng)計教材和實際應(yīng)用中[3-6]。記列聯(lián)系數(shù)為r,其計算公式為[4-5]
顯然0≤r<1。由公式(3)可知,當(dāng)樣本量擴大k倍時,r保持不變,因為
在信息論中,如果隨機變量X的分布律為pi=P(X=xi)>0(i=1,2,…,m),則其信息熵定義為[8]其中b為對數(shù)的底,一般取b為2、e(自然對數(shù))或10(常用對數(shù))。文獻[7]以信息熵為依據(jù),提出了一種廣義相關(guān)系數(shù)的概念,本文將其引入R×C列聯(lián)表中,并稱其為信息相關(guān)系數(shù),定義如下:
把表1的因素A看成一個隨機變量,有R個不同的狀態(tài)Ai(i=1,2,…,R),其概率分布為所以因素A的信息熵為把表1的因素B看成另一個隨機變量,有C個不同狀態(tài)Bj(j=1,2,…,C),其概率分布為所以因素B的信息熵為兩個因素A和B的聯(lián)合概率分布為所以聯(lián)合信息熵信息相關(guān)系數(shù)記為ρ,定義為
由對數(shù)換底公式不難證明,無論對數(shù)的底b取何值,公式(4)的結(jié)果都是相同的。
對表2的數(shù)據(jù),按公式(3)和(4)可分別求出r=0.0814和ρ=0.0029。
當(dāng)數(shù)據(jù)成比例擴大k倍時,由H(A)、H(B)和H(AB)的計算公式可知,它們保持不變,故ρ也保持不變,這一性質(zhì)與列聯(lián)系數(shù)相同。
文獻已證明[7,9]:0≤ρ≤1;且當(dāng)因素A和因素B相互獨立時,H(AB)=H(A)+H(B),所以ρ=0;當(dāng)因素A和因素B完全相關(guān)時,H(AB)=H(A)=H(B),所以ρ=1。
在我們前期研究[9-10]的基礎(chǔ)上,本文做進一步的工作,說明信息相關(guān)系數(shù)可應(yīng)用于R×C列聯(lián)表,并且比列聯(lián)系數(shù)更能反映真實情況。下面對列聯(lián)系數(shù)和信息相關(guān)系數(shù)進行比較。
1.動態(tài)變化比較
為簡單明了,取3×3列聯(lián)表數(shù)據(jù)T=[tij],以樣本總數(shù)的3種3×3列聯(lián)表數(shù)據(jù)為例進行說明。
(1)完全相關(guān)列聯(lián)表
取T為完全相關(guān)的列聯(lián)表按公式(1)~(4)可得p=0、r=0.8165和ρ=1。
對完全相關(guān)的列聯(lián)表,顯然信息相關(guān)系數(shù)等于1更符合實際情況,所以ρ要優(yōu)于r。
再來看數(shù)據(jù)變動的情況:
T有9個元素,考慮給其中一個元素增加1個樣本,其余元素不變,即樣本總數(shù)為91時,分別考察r和ρ的變化情況。
上述計算表明,當(dāng)增加的樣本在對角線上時,仍然是完全相關(guān)資料,結(jié)果不變;ρ都為1,而r都為0.8165,所以仍然有ρ要優(yōu)于r。
當(dāng)增加的樣本在其他6個位置時,不再是完全相關(guān)資料,r和ρ都相應(yīng)地減少。
再考察不增加樣本,但T1的任意的兩行(或列)合并的情況:當(dāng)T1成為2×3(或3×2)列聯(lián)表,不再是完全相關(guān)資料時,都有r和ρ相應(yīng)地減少。這些變化說明雖然r與ρ的值都變小,但r由0.8165變小,ρ由1變小,后者更符合實際情況。因為當(dāng)列聯(lián)表由完全相關(guān)資料變?yōu)椴煌耆嚓P(guān)資料時,列聯(lián)表的關(guān)聯(lián)系數(shù)應(yīng)該由1變?yōu)樾∮?。
(2)不相關(guān)列聯(lián)表
取T為不相關(guān)的列聯(lián)表按公式(1)~(4)可得P=1、r=ρ=0,都與不相關(guān)列聯(lián)表的關(guān)聯(lián)系數(shù)應(yīng)該為0相符合。
仿前增加1個樣本。當(dāng)?shù)?行的3個元素的其中一個增加一個樣本時,都有r=0.0334,ρ=0.0005;當(dāng)?shù)?行的3個元素的其中一個增加一個樣本時,都有r=0.0215,ρ=0.0002;當(dāng)?shù)?行的3個元素的其中一個增加一個樣本時,都有r=0.0153,ρ=0.0001。
增加1個樣本時,T2不再是不相關(guān)列聯(lián)表,關(guān)聯(lián)系數(shù)應(yīng)增加,上述計算結(jié)果與實際情況相符,兩個關(guān)聯(lián)系數(shù)都增加;且三種情況r與ρ的大小變化規(guī)律對應(yīng)相同:增加的1個樣本在第1行時增加最多,第2行次之,第3行最少。
仿前,當(dāng)T2的任意兩行(或列)合并成為2×3(或3×2)列聯(lián)表時,仍然是不相關(guān)列聯(lián)表,都有r=ρ=0,與實際情況相符。
(3)一般列聯(lián)表
取T為一般的列聯(lián)表(每行每列、正對角線都有5、10和15,但排列順序不同,對稱),按公式(1)~(4)可得p=0.0047、r=0.3780和ρ=0.0794。
仿前,當(dāng)T3的任意的兩行(或列)合并成為2×3(或3×2)列聯(lián)表時,都有r=0.2774和ρ=0.0515,都相應(yīng)減少。
2.模擬比較
從上述三個例子數(shù)據(jù),我們看到r與ρ的大小變化規(guī)律對應(yīng)相同,但r比ρ更符合實際情況。下面進一步考察一般的情況。由于樣本總數(shù)n=90的3×3列聯(lián)表的所有可能性是個巨大的數(shù)字,無法一一計算,所以我們用模擬數(shù)據(jù)進行研究。
數(shù)據(jù)模擬過程:利用Matlab函數(shù)random(′discrete uniform′,20,3,3),每次產(chǎn)生[0,20]區(qū)間上離散型均勻分布的3行3列隨機整數(shù)矩陣,作為3×3列聯(lián)表。其依據(jù)是,由數(shù)理統(tǒng)計知識可知,[0,20]區(qū)間上的均勻分布的隨機數(shù)的均值(數(shù)學(xué)期望)為10,3行3列9個數(shù)據(jù)的樣本總和的均值為90。
按照公式(1)~(4)計算模擬數(shù)據(jù)3×3列聯(lián)表的p、r和ρ值。共進行10000次模擬,由于10000數(shù)據(jù)量較大,無法清楚地畫出散點圖,我們將p值范圍[0,1]等分為10個小區(qū)間,對r和ρ求平均值,用平均值作圖。結(jié)果見表3和圖1、圖2。
圖1 r與ρ關(guān)系圖
表3 小區(qū)間上列聯(lián)系數(shù)平均值和信息相關(guān)系數(shù)平均值(10000次模擬結(jié)果)
用表3的數(shù)據(jù),并結(jié)合完全相關(guān)列聯(lián)表的p=0、r=0.8165和ρ=1及不相關(guān)列聯(lián)表的p=1、r=ρ=0數(shù)據(jù),可畫出到r與ρ的關(guān)系圖(圖1)以及r和ρ與p(p取區(qū)間中點)的關(guān)系圖(圖2)。由圖1可知,當(dāng)r增大(或減小)時,ρ也增大(或減?。?,即對應(yīng)的變化趨勢是一致的,說明前面3個例子的分析結(jié)果具有普遍性。由圖2可知,當(dāng)p增大時,r和ρ都相應(yīng)減小,p接近0時r<ρ,p>0.05時都有r>ρ。
用同樣的方法,我們又對樣本總數(shù)為90的3×4、4×4、4×5和5×5的列聯(lián)表情況進行了模擬,都得到了類似的結(jié)果。
列聯(lián)系數(shù)r在實際問題中得到廣泛應(yīng)用,說明作為關(guān)聯(lián)系數(shù),它具有一定的合理性。以上比較表明,當(dāng)樣本量改變時,信息相關(guān)系數(shù)ρ與r的變化規(guī)律相同。此外,由公式(3)和(4)可知,這兩個關(guān)聯(lián)系數(shù)還有如下的共同特征:任意交換列聯(lián)表的兩行或兩列,兩個關(guān)聯(lián)系數(shù)的值都不變。這些都表明,ρ與r有非常多的相同點和一致性,ρ同樣也具有作為關(guān)聯(lián)系數(shù)的合理性。
文獻[6]認為,一個滿意的相關(guān)度量應(yīng)至少具備下列兩個特點:(1)當(dāng)兩變量不相關(guān)時,其值應(yīng)該等于0;(2)當(dāng)兩變量完全相關(guān)時,其值應(yīng)該等于1。從上面列聯(lián)表T1和T2的資料可知,列聯(lián)系數(shù)r滿足(1)但不滿足(2),對完全相關(guān)的列聯(lián)表T1,r僅為0.8165;由公式(3)也可知,對任意的R×C列聯(lián)表都有r<1。而信息相關(guān)系數(shù)ρ完全滿足這兩個特點,因而彌補了列聯(lián)系數(shù)的這一缺陷。當(dāng)兩變量趨于完全相關(guān)時,p應(yīng)趨于0,從而拒絕兩變量不相關(guān)的零假設(shè)。圖2表明,在p=0附近,ρ值大于r值,接近于1。
我們認為,從實際應(yīng)用出發(fā),一個滿意的相關(guān)度量還應(yīng)具備如下特點:當(dāng)p值較大,接收兩變量不相關(guān)的零假設(shè),也就是說,當(dāng)認為兩變量不相關(guān)時,關(guān)聯(lián)系數(shù)值應(yīng)較小。從不相關(guān)列聯(lián)表T2的情況看,無論增加的一個樣本在哪一行,都有較大的p(分別為0.9987、0.9998和0.9999),在實際應(yīng)用中,都會接受兩變量不相關(guān)的假設(shè),所以這兩個變量的關(guān)聯(lián)系數(shù)都應(yīng)較小,從上述計算來看,都有ρ<r(0.0005<0.0334,0.0002<0.0215,0.0001<0.0153);從圖2也可看出,對于較大的p,ρ<r。因此,從實際應(yīng)用來看,作為關(guān)聯(lián)系數(shù),ρ更合理。
由于R×C列聯(lián)表為計數(shù)資料,而χ2分布是連續(xù)型分布,因此對于χ2值的精確計算,還存在不同的看法和爭議[5,11-12],有的認為要校正,有的認為不需校正。不同的計算,會得到不同的χ2值,由公式(3)可知,這時又會導(dǎo)致不同的列聯(lián)系數(shù)。而信息相關(guān)系數(shù)是以信息熵為基礎(chǔ)的,對變量的分布沒有要求,與統(tǒng)計分布無關(guān),既能描述變量間的線性相關(guān)關(guān)系,也能描述變量間的非線性相關(guān)關(guān)系,用公式(4)計算,不存在爭議。許多研究資料(例如臨床醫(yī)學(xué)數(shù)據(jù))由于其特殊性,變量之間關(guān)系復(fù)雜,很難確定變量的分布,因此,更適合用信息相關(guān)系數(shù)描述數(shù)據(jù)之間的相關(guān)性。
綜上所述,我們認為,作為R×C列聯(lián)表的關(guān)聯(lián)系數(shù),信息相關(guān)系數(shù)ρ比列聯(lián)系數(shù)r更合適。本文拋磚引玉,希望在今后的各種實際問題中,應(yīng)用這一指標,并進一步分析、比較,完善這方面的工作和研究,確定出一個更合理的關(guān)聯(lián)系數(shù)指標。
[1]Roscino A,Pollice A.A Generalization of the Polychoric Corelation Coefficient.New York:Springer,2006:135-142.
[2]鄭兵云.非參數(shù)檢驗的兩個局限性問題.統(tǒng)計教育,2007,6:8-9.
[3]薛允蓮,姜世強,劉貴浩等.列聯(lián)表資料的關(guān)聯(lián)強度.中國衛(wèi)生統(tǒng)計,2011,28(3):244-246.
[4]李賢平,沈崇圣,陳子毅.概率論與數(shù)理統(tǒng)計.上海:復(fù)旦大學(xué)出版社.2003.
[5]孫振球,徐勇勇主編.醫(yī)學(xué)統(tǒng)計學(xué).第4版.北京:人民衛(wèi)生出版社,2014:102-107.
[6]李克均,時松和,胡東生.列聯(lián)表的行列關(guān)聯(lián)度與對應(yīng)分析.中國衛(wèi)生統(tǒng)計,2006,23(3):261-263.
[7]丁晶,王文圣,趙永龍.以互信息為基礎(chǔ)的廣義相關(guān)系數(shù).四川大學(xué)學(xué)報(工程科學(xué)版),2002,34(3):1-5.
[8]王海燕.信息論基礎(chǔ).南京:東南大學(xué)出版社.2003:9-14.
[9]丁勇.平均互信息的可加性和廣義相關(guān)系數(shù)不等式.工程數(shù)學(xué)學(xué)報,2007,24(2):282-286.
[10]丁勇.離散型隨機變量的平均信息熵.?dāng)?shù)學(xué)的實踐與認識.202,42(18):141-146.
[11]譚藝強.四格表資料三種檢驗方法分析.廣東藥學(xué)院學(xué)報,1999,15(1):75-77.
[12]陳國民,王潔貞.關(guān)于四格表資料值和校正值分布的模擬分析.中國衛(wèi)生統(tǒng)計,2002,19(4):249-251.
(責(zé)任編輯:郭海強)
1.南京醫(yī)科大學(xué)康達學(xué)院數(shù)學(xué)與計算機教研室(222000);
2.南京醫(yī)科大學(xué)附屬南京醫(yī)院醫(yī)療設(shè)備處
△通信作者:丁勇,E-mail:Yding@njmu.edu.cn