宋德勝 ,劉媛媛 ,李長(zhǎng)平 ,2,崔 壯 ,胡良平
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,天津 300070;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專(zhuān)業(yè)委員會(huì),北京 100029;3.軍事科學(xué)院研究生院,北京 100850*通信作者:胡良平,E-mail:lphu927@163.com)
相關(guān)分析的目的是揭示兩個(gè)變量之間是否存在線(xiàn)性相關(guān)性。目前較常見(jiàn)的兩個(gè)隨機(jī)變量之間的相關(guān)性度量指標(biāo)是Pearson乘積矩相關(guān)系數(shù),簡(jiǎn)稱(chēng)Pearson相關(guān)系數(shù),其公式表示的是實(shí)際數(shù)據(jù)與期望數(shù)據(jù)的偏離程度[1]。與Pearson相關(guān)系數(shù)不同,Spearman秩相關(guān)系數(shù)和Kendall's tau-b秩相關(guān)系數(shù)利用了秩。這兩種秩相關(guān)系數(shù)一般是當(dāng)資料不滿(mǎn)足Pearson相關(guān)系數(shù)時(shí)的替代方法。從幾何學(xué)角度看,Pearson相關(guān)系數(shù)測(cè)量的是兩個(gè)定量變量之間呈線(xiàn)性相關(guān)的程度;而兩種秩相關(guān)系數(shù)則不限于線(xiàn)性相關(guān)。但三者具有類(lèi)似的性質(zhì):①相關(guān)系數(shù)的范圍都是[-1,1];②都具有對(duì)稱(chēng)性。值得注意的是,不管是正相關(guān)還是負(fù)相關(guān),都不涉及“因果關(guān)系”。本文對(duì)這三種相關(guān)系數(shù)的概念、作用以及應(yīng)用進(jìn)行介紹。
Pearson乘積矩相關(guān)系數(shù)由Karl Pearson提出[2]。它是兩個(gè)定量變量相關(guān)的一種參數(shù)化測(cè)量,既可計(jì)算相關(guān)強(qiáng)度,也可得出相關(guān)方向。若兩個(gè)定量變量呈完全正線(xiàn)性相關(guān),則Pearson相關(guān)系數(shù)為1;若兩個(gè)定量變量呈完全負(fù)線(xiàn)性相關(guān),則Pearson相關(guān)系數(shù)為-1;若兩個(gè)定量變量不呈線(xiàn)性相關(guān),則Pearson相關(guān)系數(shù)為0。因此,Pearson相關(guān)系數(shù)的取值范圍為[-1,1]。此外,Pearson相關(guān)系數(shù)要求兩個(gè)定量變量服從二元正態(tài)分布、兩個(gè)定量變量每一對(duì)取值應(yīng)來(lái)自同一個(gè)個(gè)體,且所有受試對(duì)象應(yīng)抽自滿(mǎn)足“同質(zhì)性”的同一個(gè)總體。若不滿(mǎn)足這些前提條件,則不適合計(jì)算任何相關(guān)系數(shù);僅當(dāng)不滿(mǎn)足“雙變量正態(tài)分布”時(shí),可考慮進(jìn)行秩相關(guān)分析。Pearson相關(guān)系數(shù)計(jì)算公式如下:
一般來(lái)說(shuō),上述統(tǒng)計(jì)量來(lái)自于樣本,若需推論到總體,則需要進(jìn)行假設(shè)檢驗(yàn)。經(jīng)統(tǒng)計(jì)學(xué)家證明,Pearson相關(guān)系數(shù)服從自由度為n-2的t分布。檢驗(yàn)統(tǒng)計(jì)量t的計(jì)算公式如下:
上式中,r是來(lái)自樣本的Pearson相關(guān)系數(shù)。
Spearman秩相關(guān)系數(shù)是Charles Spearman提出的一個(gè)一般非參數(shù)統(tǒng)計(jì)量,通常用rs表示[3]。它使用單調(diào)函數(shù)度量?jī)蓚€(gè)變量的關(guān)系。與Pearson相關(guān)系數(shù)類(lèi)似,Spearman秩相關(guān)系數(shù)的取值范圍也為[-1,1]。實(shí)際上,Spearman秩相關(guān)系數(shù)等同于兩個(gè)變量秩次值的Pearson相關(guān)系數(shù),既可以用于連續(xù)型隨機(jī)變量,也可用于離散有序隨機(jī)變量。計(jì)算公式如下:
上式中,Ri是xi的秩次,Si是yi的秩次,是Ri的均值,是Si的均值。若存在結(jié)(即同一個(gè)變量的原始數(shù)據(jù)中存在2個(gè)或2個(gè)以上相同的數(shù)據(jù)),則使用平均秩。
對(duì)來(lái)自于樣本的Spearman秩相關(guān)系數(shù)仍需假設(shè)檢驗(yàn)才可以推廣到總體。Spearman秩相關(guān)系數(shù)仍服從自由度為n-2的t分布。檢驗(yàn)統(tǒng)計(jì)量t的計(jì)算公式如下:
Kendall's tau-b秩相關(guān)系數(shù)也稱(chēng)為Kendall'sτ系數(shù),是用于測(cè)量?jī)蓚€(gè)觀(guān)測(cè)指標(biāo)之間秩相關(guān)的指標(biāo),由Maurice Kendall提出,可用于衡量配對(duì)設(shè)計(jì)擴(kuò)大條件下兩屬性變量等級(jí)之間的相關(guān)程度[4]。本質(zhì)上,兩個(gè)變量之間秩的分布越相似,則Kendall's tau-b秩相關(guān)系數(shù)越大,它也是一種一般的非參數(shù)統(tǒng)計(jì)量,因?yàn)樗灰蕾?lài)于兩個(gè)變量的分布。由于Kendall's tau-b秩相關(guān)系數(shù)對(duì)結(jié)進(jìn)行了處理,因此,其取值范圍為[-1,1]。Kendall's tau-b秩相關(guān)系數(shù)計(jì)算公式[5]如下:
Z服從標(biāo)準(zhǔn)正態(tài)分布。其中,
在這里,
【例1】本例數(shù)據(jù)為N.C.State University關(guān)于男性身體健康課程的調(diào)查數(shù)據(jù)。數(shù)據(jù)集變量包括年齡(歲)、體重(kg)、跑步時(shí)長(zhǎng)(跑步1.5英里所需時(shí)間,按分鐘計(jì))以及氧攝入量[mL/(kg·min)]。試分析氧攝入量與跑步時(shí)長(zhǎng)之間的關(guān)系。資料見(jiàn)表1。
表1 男性身體健康調(diào)查數(shù)據(jù)
2.1.1 創(chuàng)建數(shù)據(jù)集
2.1.2 繪制氧攝入量與跑步時(shí)長(zhǎng)的散點(diǎn)圖
【程序說(shuō)明】SGPLOT過(guò)程是SAS軟件中的繪圖過(guò)程。Scatter語(yǔ)句表示繪制散點(diǎn)圖。之后的“x=”和“y=”分別指定需要繪制散點(diǎn)圖的兩個(gè)變量。運(yùn)行結(jié)果見(jiàn)圖1。
圖1 Oxygen(氧攝入量)和Runtime(跑步時(shí)長(zhǎng))的散點(diǎn)圖
由圖1的散點(diǎn)圖可知,Oxygen和Runtime之間大致呈線(xiàn)性負(fù)相關(guān)。也就是說(shuō),隨著氧攝入量的增加,跑步到1.5英里所需時(shí)間逐步減少。因此,可以進(jìn)行相關(guān)分析。
2.1.3 相關(guān)分析
【程序說(shuō)明】本例調(diào)用SAS軟件中的CORR過(guò)程進(jìn)行相關(guān)性分析。CORR過(guò)程語(yǔ)句后的data選項(xiàng)指定包含相關(guān)分析變量的數(shù)據(jù)集,pearson表示計(jì)算Pearson相關(guān)系數(shù)(若此處不指定任何相關(guān)系數(shù),默認(rèn)顯示Pearson相關(guān)系數(shù))。VAR語(yǔ)句指定需要進(jìn)行相關(guān)分析的變量。
【SAS主要輸出結(jié)果及解釋】
輸出結(jié)果中,首先給出了兩個(gè)變量的一些簡(jiǎn)單統(tǒng)計(jì)描述結(jié)果,接著給出了Pearson相關(guān)系數(shù)及其假設(shè)檢驗(yàn)結(jié)果。Pearson相關(guān)系數(shù)分析結(jié)果的右上方由上到下分別是樣本Pearson相關(guān)系數(shù)、對(duì)Pearson相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)對(duì)應(yīng)的P值以及排除缺失值后用于分析的樣本例數(shù)。可以看到,在本例中,氧攝入量和跑步至1.5英里所需時(shí)間呈負(fù)相關(guān)(相關(guān)系數(shù)為-0.86843),且t檢驗(yàn)的P值小于0.0001,因此可認(rèn)為隨著氧攝入量的增加,跑步至1.5英里所需時(shí)間呈線(xiàn)性下降趨勢(shì)。說(shuō)明:輸出結(jié)果中未給出檢驗(yàn)統(tǒng)計(jì)量t的數(shù)值。
【例2】某研究機(jī)構(gòu)收集了成年人年齡和身體脂肪百分比的數(shù)據(jù),本例選取了其中18例數(shù)據(jù)。分析年齡與身體脂肪百分比的關(guān)系。見(jiàn)表2。
表2 18名成年人年齡和身體脂肪百分比數(shù)據(jù)
2.2.1 創(chuàng)建數(shù)據(jù)集
2.2.2 繪制散點(diǎn)圖
【程序說(shuō)明】與例1類(lèi)似,繪制年齡與身體脂肪百分比的散點(diǎn)圖見(jiàn)圖2。
圖2 年齡(Age)與身體脂肪百分比(Bodyfat_perc)散點(diǎn)圖
由圖2可知,年齡與身體脂肪百分比線(xiàn)性趨勢(shì)不明顯,因此,本例將使用Spearman秩相關(guān)分析。
2.2.3 秩相關(guān)分析
【程序說(shuō)明】本例也使用PROC CORR調(diào)用SAS軟件的CORR相關(guān)分析過(guò)程。過(guò)程語(yǔ)句后的Spearman選項(xiàng)表示進(jìn)行Spearman秩相關(guān)分析。VAR語(yǔ)句指定要分析的變量,with指定另一個(gè)需要分析的變量。
【SAS主要輸出結(jié)果及解釋】
由結(jié)果可知,年齡和身體脂肪百分比的Spearman秩相關(guān)系數(shù)為0.75388,P值為0.0003,由此可認(rèn)為,隨著年齡的增加,身體脂肪百分比也在上升。
說(shuō)明:由于對(duì)Kendall's tau-b秩相關(guān)系數(shù)的假設(shè)檢驗(yàn)是Z檢驗(yàn)(即以正態(tài)分布為理論依據(jù)的檢驗(yàn)),不是t檢驗(yàn),超出了本文的范圍,故從略。值得一提的是:適合采用Kendall's tau-b秩相關(guān)分析的數(shù)據(jù)結(jié)構(gòu)為“配對(duì)設(shè)計(jì)擴(kuò)大形式的定性資料”,可參閱文獻(xiàn)[6]了解其方法及應(yīng)用,此處從略。
Spearman秩相關(guān)系數(shù)通常適用于單組設(shè)計(jì)雙變量且資料不符合Pearson相關(guān)分析的前提條件的場(chǎng)合,由于它是基于“秩次”計(jì)算得到的秩相關(guān)系數(shù),故其精確度會(huì)有所降低。
Pearson相關(guān)分析對(duì)資料的要求很高,通常要求資料為單組設(shè)計(jì)二元定量資料且兩變量呈線(xiàn)性變化趨勢(shì)。但在實(shí)際使用中,前提條件可能會(huì)略有偏移,但應(yīng)注意不能偏離過(guò)大。如張美燕等[7]利用其分析了精神科門(mén)診患者使用四種量表評(píng)定之間的關(guān)系。
Kendall秩相關(guān)系數(shù)有三種,分別是Kendall's tau-a[8]、Kendall's tau-b 和 Kendall's tau-c[9]秩相關(guān)系數(shù)。本文主要探討的是Kendall's tau-b秩相關(guān)系數(shù),它與其他兩類(lèi)Kendall秩相關(guān)系數(shù)的主要區(qū)別在于對(duì)結(jié)的處理方法不同。因篇幅所限,詳情從略。
綜上所述,在進(jìn)行相關(guān)分析時(shí),需根據(jù)數(shù)據(jù)的特點(diǎn)(特別是所滿(mǎn)足的前提條件)和所取自的設(shè)計(jì)類(lèi)型選擇合適的相關(guān)分析方法。此外,相關(guān)分析的結(jié)果并不能代表變量之間的因果關(guān)系。如需進(jìn)行因果判斷,需要特殊的統(tǒng)計(jì)學(xué)方法。