谷恒明,胡良平,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
簡單線性回歸分析及其應(yīng)用
谷恒明1,胡良平1,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
本文目的是介紹簡單線性回歸分析的前提條件、種類、實(shí)現(xiàn)計算的SAS程序及結(jié)果解釋,并說明數(shù)據(jù)是否值得做直線回歸分析以及如何選擇正確的直線回歸分析類型。簡單線性回歸分析有三種具體情形,分別是:簡單直線回歸分析、加權(quán)直線回歸分析和具有重復(fù)試驗(yàn)的直線回歸分析。進(jìn)一步通過實(shí)例來闡述如何進(jìn)行不同的簡單線性回歸分析,并給出實(shí)現(xiàn)這些直線回歸分析所需要的SAS程序及輸出結(jié)果。
簡單線性回歸分析;SAS程序;加權(quán)直線回歸分析;重復(fù)試驗(yàn)的線性回歸分析
*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
簡單線性回歸分析是研究兩定量變量之間依存變化關(guān)系的一種最常用最簡單的方法。如何正確實(shí)現(xiàn)簡單線性回歸分析,需要考察以下兩組前提條件。
第一組前提條件,即從數(shù)理統(tǒng)計學(xué)角度考量所歸納出來的前提條件[1]:①自變量X可以是普通變量,也可以是隨機(jī)變量,但因變量Y必須是隨機(jī)變量;②線性,即因變量Y與自變量X之間的關(guān)系為線性關(guān)系,在直角坐標(biāo)系內(nèi)繪制關(guān)于X與Y的散點(diǎn)圖,可以看出線性關(guān)系;③獨(dú)立性,即各個觀察對象之間必須是相互獨(dú)立的;④正態(tài)性,即給定X的取值后,Y服從正態(tài)分布;⑤等方差性,即不同X值對應(yīng)的Y的分布具有相同的方差。
第二組前提條件,即從基本常識角度考量所歸納出來的前提條件:①對于兩個定量變量而言,所有受試對象應(yīng)具有同質(zhì)性;②所研究的兩個定量變量在專業(yè)上應(yīng)具有一定的聯(lián)系;③在直角坐標(biāo)系中繪制(X,Y)的全部散點(diǎn),全部散點(diǎn)應(yīng)呈現(xiàn)直線變化趨勢;④散點(diǎn)圖上不存在下列兩類可疑的異常點(diǎn),第一類,在垂直于橫坐標(biāo)軸方向上的可疑異常點(diǎn),第二類,在假定的理想直線的左右兩端的延長線方向上的可疑異常點(diǎn)。
事實(shí)上,上述的第二組前提條件更有實(shí)用價值,它也是進(jìn)行簡單直線回歸分析的基本步驟。在此基礎(chǔ)上,再計算直線回歸方程中的參數(shù)并對參數(shù)進(jìn)行假設(shè)檢驗(yàn);最后,再將所獲得的簡單直線回歸方程用于“預(yù)測(給定自變量的數(shù)值去計算因變量的取值)”或“控制(給定因變量的取值去估算自變量的變化范圍)”。
簡單直線回歸模型為:
y=α+βx+ε
(1)
簡單線性回歸分析的任務(wù):其一,估計式(1)中參數(shù)α和β的數(shù)值;其二,假設(shè)檢驗(yàn),包括對截距、斜率和整個直線回歸方程的檢驗(yàn)。
【例1】研究20名兒童的血紅蛋白(y)與血鐵(x)之間的關(guān)系[2],數(shù)據(jù)見表1。
【分析與解答】對表1資料進(jìn)行簡單直線回歸分析所需要的SAS程序如下:
data jz; input n y x@@; cards;
113.5518.7213467.3311469.8414.3456.6512.5448.7612.5424.1
711.8405.6811.5446911416.71010.7430.81110.2409.81210384.1139.5356.3149.4388.6158.8325.9166.3292.8177.3332.8187.8283197.3312.5207294.7
; run;
proc gplot data=jz; plot x*y='s'; run;
proc reg data=jz; model y=x/noint; run;
圖1 20名兒童的血紅蛋白(y,mg/dL)與血鐵(x,ug/dL)的散點(diǎn)圖
簡單直線回歸分析的假設(shè)檢驗(yàn)結(jié)果見表2、表3。
表2 方差分析
表3 參數(shù)估計
所謂經(jīng)驗(yàn)決策是決策者憑借經(jīng)驗(yàn)制定決策的活動和過程,[7]經(jīng)驗(yàn)決策主要的推理過程是邏輯學(xué)中的類比推理,其最為主要的推理過程是:
醫(yī)學(xué)或藥學(xué)試驗(yàn)中經(jīng)常需要計算引起試驗(yàn)動物總體中半數(shù)動物產(chǎn)生某種反應(yīng)所需的藥物(或毒物)劑量,即半數(shù)有效量,需要使用到加權(quán)直線回歸分析[1]。
【例2】SAS 9.3幫助文檔中Probit過程中第一個例子,研究不同劑量藥物下小鼠反應(yīng)數(shù)。數(shù)據(jù)見表4。
表4 不同劑量藥物下小鼠反應(yīng)數(shù)
注:dose代表劑量,n代表每個劑量組的動物數(shù),response代表每個劑量組的陽性反應(yīng)動物數(shù)
【分析與解答】對表4資料進(jìn)行加權(quán)直線回歸分析所需要的SAS程序如下:
data a; input Dose N Response @@; datalines;
11012122310441055128610871010
;
run;
output out=B p=Prob std=std xbeta=xbeta; run;
參數(shù)估計結(jié)果見表5。
表5 參數(shù)估計
所求得該藥物的半數(shù)反應(yīng)劑量為3.39096。見表6。
表6 半數(shù)反應(yīng)劑量
在同一試驗(yàn)條件下進(jìn)行多次重復(fù)試驗(yàn),研究因變量與自變量之間是否存在直線關(guān)系時可以用具有重復(fù)試驗(yàn)的直線回歸分析。
具有重復(fù)試驗(yàn)的直線回歸分析與無重復(fù)試驗(yàn)的直線回歸分析的區(qū)別在于:前者可以對“失擬(即直線回歸方程所不能解釋的那部分信息)”進(jìn)行假設(shè)檢驗(yàn),僅當(dāng)“失擬”的檢驗(yàn)結(jié)果無統(tǒng)計學(xué)意義時,可將其視為無重復(fù)試驗(yàn)的情形,但試驗(yàn)點(diǎn)數(shù)為不同X值個數(shù)乘以重復(fù)試驗(yàn)次數(shù)(各X值對應(yīng)的重復(fù)試驗(yàn)次數(shù)相等);否則,應(yīng)選擇合適的曲線類型,進(jìn)行曲線回歸分析。
【例3】研究不同血液濃度與血紅蛋白含量之間的關(guān)系[1]。數(shù)據(jù)見表7。
表7 不同血液濃度下血紅蛋白的測定值
【分析與解答】 對表7資料進(jìn)行具有重復(fù)試驗(yàn)的直線回歸分析所需要的SAS程序如下:
data b; input x n@@; g=_n_; do i=1 to n; input y@@; output; end; cards;
1033.23.13.32036.26.26.23039.29.39.240312.312.412.250315.615.215.460318.318.218.370321.121.321.380323.923.823.790326.526.426.4100329.029.128.9
;
run;
proc glm data=b; class g;model y=x g/ss1; run;
proc reg data=b; model y=x; run;
具有重復(fù)試驗(yàn)的直線回歸分析較簡單直線回歸分析多了失擬檢驗(yàn),目的是考察僅采用直線回歸方程是否可以較好地擬合給定的資料。失擬檢驗(yàn)的結(jié)果見表8。
表8 本例資料的失擬檢驗(yàn)結(jié)果
在表8中,只需看最后一行,對分組變量g(它在本質(zhì)上就是自變量不同取值的個數(shù))進(jìn)行檢驗(yàn)即可,這里F=29.57,P<0.0001,說明失擬平方和基本上是由模型分組因素造成,也就是說,該資料未通過失擬檢驗(yàn),不能直接擬合簡單直線回歸方程,而需要根據(jù)散點(diǎn)圖中全部散點(diǎn)的分布趨勢和形態(tài),選定合適的曲線類型并擬合之。
究竟如何進(jìn)一步處理此資料,請讀者閱讀完本期中的下一篇文章《簡單曲線回歸分析及其應(yīng)用》后,自己去把它完成。提示:若采用二次拋物線、對數(shù)函數(shù)曲線、指數(shù)函數(shù)曲線或冪函數(shù)曲線來分別擬合本例資料,從模型的假設(shè)檢驗(yàn)的F值和復(fù)相關(guān)系數(shù)平方(即R2)的數(shù)值越大越好以及殘差圖中散點(diǎn)分布情況(全部散點(diǎn)在殘差為0的水平線上下隨機(jī)波動且無明顯變化趨勢為好)來全面考量,相對來說,本例資料擬合二次拋物線最好。
[1] 胡良平.科研設(shè)計與統(tǒng)計分析[M].北京: 軍事醫(yī)學(xué)科學(xué)出版社, 2012:381-400.
[2] 徐天和, 柳青.中國醫(yī)學(xué)統(tǒng)計百科全書 多元統(tǒng)計分冊[M].北京: 人民衛(wèi)生出版社, 2004: 2.
Simplelinearregressionanalysisanditsapplication
GuHengming1,HuLiangping1,2*
(1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China
The aim of this article is to introduce the preconditions, categories, SAS programs and the results interpretation of the simple linear regression analysis to illustrate how to choose the correct regression model and whether the data is worth regression analysis. There are three kinds of simple linear regression analyses: simple linear regression analysis, weighted linear regression analysis and repeated experimental linear regression analysis. The following examples are used to illustrate different simple linear regression analyses and the corresponding SAS programs required to perform these linear regression analyses and their results.
Simple linear regression analysis; SAS Program; Weighted linear regression analysis; Repeated experimental linear regression analysis
國家高技術(shù)研究發(fā)展計劃課題資助(2015AA020102)
R195.1
A
10.11886/j.issn.1007-3256.2017.06.002
2017-12-03)
陳 霞)