胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
回歸分析是研究因變量如何依賴自變量變化而變化的規(guī)律的重要統(tǒng)計(jì)分析方法之一,然而,回歸分析的基本要素涉及兩個(gè)方面,其一,變量狀態(tài)及相互間關(guān)系;其二,樣品(測(cè)定變量取值的對(duì)象)狀態(tài)及相互間關(guān)系。因篇幅所限,本文僅討論前述的“第一個(gè)要素”。
一般來(lái)說(shuō),可將因變量分為四種狀態(tài),即計(jì)量的、計(jì)數(shù)的、有序的(也被稱為等級(jí)的)和定性的;事實(shí)上,在實(shí)際應(yīng)用中,還有一種狀態(tài),即“相異性”或“相似性”大小的度量,被稱為“非度量型數(shù)據(jù)”[1]。例如,度量100種汽車彼此兩兩之間的相似程度,可以定義一些“數(shù)字”來(lái)表示任何兩輛汽車之間的相似程度,但它們可能僅代表一種“相似程度”上的“順序關(guān)系”,并不代表“數(shù)量大小”上的“順序關(guān)系”;再比如:現(xiàn)有50種不同風(fēng)味的菜肴,讓10位鑒賞家品嘗,每位鑒賞家給每種菜肴評(píng)一個(gè)分,這個(gè)“分”就被稱為“偏好得分”。各鑒賞家所評(píng)出的“偏好得分”之間是不可比的。顯然,“非度量型變量”不適合用作回歸分析中的“因變量”,但可用于“非度量型多維尺度分析”[1]或“結(jié)合分析”[2]之中。
自變量狀態(tài)也有“計(jì)量的、計(jì)數(shù)的、有序的和定性的”四種,但從回歸模型構(gòu)建與求解的“最初理論和方法”中可隱約體察到:統(tǒng)計(jì)學(xué)的先驅(qū)者們默認(rèn)自變量都是“計(jì)量的”。不知從何時(shí)開始,統(tǒng)計(jì)學(xué)上接受了“定性的自變量”,并將“二值定性自變量”賦予兩個(gè)不等的數(shù)值(通常分別取0與1),而將具有k水平的多值名義變量改造成彼此有一定聯(lián)系的(k-1)個(gè)“啞變量”(因?yàn)樗鼈兌家酝粋€(gè)“水平”為基準(zhǔn))。嚴(yán)格地說(shuō),這(k-1)個(gè)啞變量應(yīng)當(dāng)同時(shí)進(jìn)入或剔除回歸模型,因?yàn)槊恳粋€(gè)啞變量都只利用了全部數(shù)據(jù)集中一部分“樣品或觀測(cè)”。具體來(lái)說(shuō),就是基準(zhǔn)水平組的樣品和其對(duì)比組的樣品。
經(jīng)典統(tǒng)計(jì)學(xué)的回歸分析要求:自變量間應(yīng)相互獨(dú)立。然而,在解決實(shí)際問(wèn)題時(shí),存在兩方面的困難:第一,如何方便快捷地證明給定資料中的自變量間是相互獨(dú)立的;第二,若基于專業(yè)知識(shí)和/或統(tǒng)計(jì)學(xué)知識(shí),得知某些自變量間并非相互獨(dú)立,如何合理處置?
3.2.1 自變量間有線性關(guān)系及共線性診斷
如何發(fā)現(xiàn)自變量間存在線性關(guān)系呢?這在統(tǒng)計(jì)學(xué)上被稱為“共線性診斷”。很多通用統(tǒng)計(jì)軟件都有這方面的功能,例如:SAS軟件的REG過(guò)程中,可用“條件數(shù)和方差分量”和/或“方差膨脹因子或容許度”[2]來(lái)實(shí)現(xiàn)共線性診斷。
3.2.2 如何消除共線性的影響
一般來(lái)說(shuō),當(dāng)自變量間存在多重共線性時(shí),先通過(guò)自變量篩選,可以淘汰出一些自變量,再對(duì)保留在回歸模型中的全部自變量進(jìn)行共線性診斷。若此時(shí)自變量間仍存在共線性,可采取以下兩種方法消除共線性的影響:其一,采用主成分回歸分析法,即先對(duì)全部自變量進(jìn)行主成分分析,再以全部主成分變量(它們之間互相獨(dú)立)為“新自變量”,創(chuàng)建因變量Y依賴新自變量的回歸模型;其二,直接采用嶺回歸分析法構(gòu)建多重線性回歸模型。采用前述兩種方法對(duì)同一個(gè)資料構(gòu)建多重線性回歸模型,發(fā)現(xiàn)嶺回歸分析優(yōu)于主成分回歸分析。因?yàn)橹鞒煞只貧w分析不能克服某些回歸系數(shù)的正負(fù)號(hào)違反專業(yè)知識(shí)的弊端,而嶺回歸分析很好地解決了這個(gè)問(wèn)題[3-4]。
3.2.3 自變量間有非線性關(guān)系
到目前為止,在進(jìn)行多重回歸分析時(shí),建模者很少考慮“自變量間有非線性關(guān)系”的問(wèn)題。由基本常識(shí)可知,既然自變量間有“共線性關(guān)系”,那就可能存在“共非線性關(guān)系”。只是從統(tǒng)計(jì)學(xué)角度來(lái)看這種情況非常難以駕馭,故迄今為止,似乎尚無(wú)現(xiàn)成的統(tǒng)計(jì)模型能處理此問(wèn)題。這也足以說(shuō)明統(tǒng)計(jì)學(xué)遠(yuǎn)未達(dá)到盡善盡美的程度。
在對(duì)資料進(jìn)行回歸建模之前,人們賦予資料一個(gè)“隱含假定”:自變量與因變量間存在數(shù)量聯(lián)系。至于這種聯(lián)系的密切程度是很弱、少許、中等、較強(qiáng)還是很強(qiáng),取決于不同的自變量及因變量在全部觀測(cè)對(duì)象上的取值或表現(xiàn),需要借助統(tǒng)計(jì)學(xué)上的假設(shè)檢驗(yàn)來(lái)作出推斷。然而,在實(shí)際問(wèn)題中,確有一些自變量與因變量間沒(méi)有任何關(guān)系,此時(shí),經(jīng)過(guò)假設(shè)檢驗(yàn)或許還能得出:這些自變量對(duì)預(yù)測(cè)因變量的值具有統(tǒng)計(jì)學(xué)意義!如何才能發(fā)現(xiàn)這種“無(wú)中生有”的錯(cuò)誤結(jié)論?
在SAS/STAT 9.3中有一個(gè)“試驗(yàn)性過(guò)程”叫做“ADAPTIVEREG”,它的含義是“適應(yīng)性回歸分析過(guò)程”。該過(guò)程的“初衷”是能根據(jù)自變量與因變量的“數(shù)量表現(xiàn)”,靈活且有針對(duì)性地度量出各自變量對(duì)因變量影響的“重要性”,從而發(fā)現(xiàn)那些與因變量無(wú)關(guān)的“自變量”。然而,令人失望的是:人為設(shè)定一些與因變量無(wú)關(guān)的自變量,采用前述提及的“ADAPTIVEREG”過(guò)程建模,仍然找出了幾個(gè)“重要的自變量”。SAS程序和計(jì)算結(jié)果如下:
data artificial;
drop i;
arrayX{10};
doi=1 to 400;
doj=1 to 10;
X{j}=ranuni(1);
end;
Y=40*exp(8*((x1-0.5)**2+(x2-0.5)**2))/
(exp(8*((x1-0.2)**2+(x2-0.7)**2))+
exp(8*((x1-0.7)**2+(x2-0.2)**2)))+rannor(1);
output;
end;
run;
proc corr data=artificial;
vary;
withx3-x10;
run;
proc adaptivereg data=artificial;
modely=x3-x10;
run;
【SAS程序說(shuō)明】
在SAS數(shù)據(jù)步中,創(chuàng)建了10個(gè)自變量x1~x10,將它們放入一個(gè)數(shù)組“X{ }”中,它們的取值為服從均勻分布的“隨機(jī)數(shù)”;創(chuàng)建了一個(gè)因變量y,它是“x1”與“x2”的曲線函數(shù),其函數(shù)的表達(dá)式見(jiàn)下面的式(1):
(1)
共有400個(gè)觀測(cè)值,即樣本含量為400。也就是說(shuō),y僅與“x1”和“x2”有曲線關(guān)系,而與“x3~x10”無(wú)關(guān)。
在第1個(gè)SAS過(guò)程步中,進(jìn)行y與“x3~x10”之間的Pearson相關(guān)分析;在第2個(gè)SAS過(guò)程步中,由“model語(yǔ)句”可知,試圖創(chuàng)建y依賴“x3~x10”的多重線性回歸模型。
【SAS主要輸出結(jié)果】
Pearson相關(guān)系數(shù),N=400 Prob>|r| under H0: Rho=0xyx30.004030.9360x40.079570.1121x50.021070.6744x6-0.001010.9839x7-0.015010.7648x80.063330.2063x90.020170.6876x10-0.031560.5291
“x3~x10”后面均有兩行計(jì)算結(jié)果,上行代表“Pearson相關(guān)系數(shù)”、下行代表“對(duì)應(yīng)的P值”。以上結(jié)果表明,y與“x3~x10”中的任何一個(gè)之間的Pearson相關(guān)系數(shù)都很小,假設(shè)檢驗(yàn)的結(jié)果均無(wú)統(tǒng)計(jì)學(xué)意義,也就是說(shuō),y與“x3~x10”之間的任何一個(gè)都是互相獨(dú)立的。
變量重要性變量基數(shù)重要性(%)x36100.00x4260.87x7242.66x8116.58
此結(jié)果表明:在8個(gè)與因變量無(wú)關(guān)的自變量中,找出了4個(gè)比較重要的自變量,其中,x3與x4對(duì)因變量y影響的重要性分別為100.00%與60.87%。顯然,這個(gè)結(jié)論是錯(cuò)誤的!若采用SAS/STAT中的“REG過(guò)程”并分別借助逐步法、后退法和前進(jìn)法“篩選自變量”,其SAS過(guò)程步程序如下:
proc reg data=artificial;
modely=x3-x10/selection=stepwise sle=0.9 sls=0.05;
run;
proc reg data=artificial;
modely=x3-x10/selection=backward sls=0.05;
run;
proc reg data=artificial;
modely=x3-x10/selection=forward sle=0.05;
run;
【SAS輸出結(jié)果】
上面三個(gè)過(guò)程步運(yùn)行的結(jié)果相同,均沒(méi)有一個(gè)自變量被保留在回歸模型中。這個(gè)結(jié)果反映了真實(shí)的情況。
然而,當(dāng)人為假定模型中不包含截距項(xiàng)(在前面三個(gè)過(guò)程步的“model語(yǔ)句”的“/”之后加上一個(gè)選項(xiàng)“NOINT”)時(shí),三個(gè)過(guò)程步運(yùn)行的結(jié)果相同,其最終結(jié)果如下:
方差分析源自由度平方和均方F值Pr>F模型45985.050001496.26250127.41<0.0001誤差3964650.41446 11.74347未校正合計(jì)40010635變量參數(shù)估計(jì)值標(biāo)準(zhǔn)誤差I(lǐng)I型SSF 值Pr>Fx42.402450.51390256.6570721.86<0.0001x51.779450.50770144.2604712.28 0.0005x81.845100.54490134.6513511.47 0.0008x91.335680.5214177.062896.56 0.0108
據(jù)此,可寫出4重線性回歸模型如下:
該4重線性回歸模型的“R2=0.5627”,模型的假設(shè)檢驗(yàn)結(jié)果為:F=127.41、P<0.0001,說(shuō)明此模型具有統(tǒng)計(jì)學(xué)意義。
顯然,這個(gè)結(jié)果在統(tǒng)計(jì)學(xué)上是“相當(dāng)好的”;然而,它確實(shí)嚴(yán)重違背了真實(shí)情況!
由此可知:當(dāng)研究者對(duì)所研究變量之間的“真實(shí)情況”一無(wú)所知時(shí),必須依據(jù)“基本常識(shí)”和“專業(yè)知識(shí)”作出有一定依據(jù)的“假定”,運(yùn)用統(tǒng)計(jì)學(xué)的各種技術(shù)方法構(gòu)建多重回歸模型,再回到實(shí)踐中去檢驗(yàn)回歸模型的實(shí)用價(jià)值。
在實(shí)際問(wèn)題中,自變量與因變量間有間接數(shù)量關(guān)系的情形是最常見(jiàn)的。例如:若以正常成年人“心像面積”為因變量,以其“身高、體重、體重指數(shù)、胸圍”為自變量,則后者對(duì)前者的影響是“間接的”,而且具有一定的“數(shù)量關(guān)系”。再例如:若以正常成年人“身體健康指數(shù)(假定其存在)”為因變量,以其“血糖生化指標(biāo)(如空腹血糖、餐后2小時(shí)血糖、空腹胰島素、餐后2小時(shí)胰島素、糖化血紅蛋白、胰島素抵抗指數(shù)、胰島素敏感指數(shù)等)”“血脂生化指標(biāo)(甘油三脂、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、載脂蛋白α、載脂蛋白β等)”“肝功能指標(biāo)(門冬氨酸氨基轉(zhuǎn)移酶、谷丙冬氨酸氨基轉(zhuǎn)移酶、谷草/谷丙、γ-谷氨酰轉(zhuǎn)肽酶、血清總蛋白、白蛋白、球蛋白、白球比、總膽紅素、直接膽紅素、間接膽紅素等)”“腎功能指標(biāo)(肌酐、尿素氮、尿酸等)”“炎癥因子指標(biāo)(TNF-α、IL-6、C反應(yīng)蛋白、MCP-1等)”“脂肪因子指標(biāo)(瘦素、脂聯(lián)素、游離脂肪酸等)”“內(nèi)毒素”“腸泌肽指標(biāo)(胰高血糖素樣肽-1和葡萄糖依賴性促胰島素多肽)”“代謝組學(xué)檢測(cè)指標(biāo)(胰高血糖素樣肽-1、YY肽等)”“DNA甲基化檢測(cè)指標(biāo)”和“各種基因檢測(cè)指標(biāo)”為自變量,則后者對(duì)前者的影響是“間接的”,而且具有一定的“數(shù)量關(guān)系”。
類似上面的例子,在人體身心、自然界、人與自然之間,只要找出“因變量”,就有大量的“自變量”與其有間接的數(shù)量關(guān)系。
在現(xiàn)實(shí)問(wèn)題中,自變量與因變量間有直接數(shù)量關(guān)系的情況相對(duì)較少。一個(gè)最常見(jiàn)的例子如下:若以“藥物種類”“劑量大小”“作用時(shí)間”和“給藥途徑”等作為自變量,而以“生物體作出的反應(yīng)”為“因變量”,則自變量與因變量間存在直接數(shù)量關(guān)系;再比如,在農(nóng)業(yè)試驗(yàn)研究中,若以“作物品種”“耕種方式”“土壤成分”“灌溉方式”“降雨量多少”等作為“自變量”,以“作物產(chǎn)量或品質(zhì)”作為因變量,則自變量與因變量間也有直接數(shù)量關(guān)系。
在研究因變量是否依賴多個(gè)自變量變化而變化的規(guī)律時(shí),統(tǒng)計(jì)學(xué)教科書上通常都“理直氣壯”地引導(dǎo)使用者直接構(gòu)建“多重線性回歸模型”。由基本常識(shí)和專業(yè)知識(shí)可知,在實(shí)際問(wèn)題中,可能某些自變量完全獨(dú)立于因變量,也可能某些自變量與因變量間存在著某種復(fù)雜的“曲線關(guān)系”,更多情況下,人們遺漏了很多“間接或直接”影響因變量的自變量(這正是很多試驗(yàn)設(shè)計(jì)質(zhì)量不高的科研項(xiàng)目存在的“嚴(yán)重瑕疵”)。所以,人們最習(xí)慣使用的“多重線性回歸分析方法”,只是對(duì)變量間關(guān)系的一種“理想化、簡(jiǎn)單化”處理方法,其結(jié)果“僅供參考”。
比較穩(wěn)妥的做法是:第一,要力爭(zhēng)科研設(shè)計(jì)無(wú)懈可擊(至少要做到:對(duì)因變量可能有影響的自變量不會(huì)被遺漏);第二,有標(biāo)準(zhǔn)操作規(guī)程并按其實(shí)施科學(xué)研究;第三,有實(shí)時(shí)精準(zhǔn)的質(zhì)量控制策略并得到嚴(yán)格落實(shí);第四,有經(jīng)得起推敲且系統(tǒng)全面的“統(tǒng)計(jì)分析計(jì)劃”,單從“統(tǒng)計(jì)建?!狈矫鎭?lái)說(shuō),應(yīng)先對(duì)資料進(jìn)行“探索性分析”,以便對(duì)某些變量采取合適的變量變換、引入必要的“派生變量”[3-4]、采取多種可能的“統(tǒng)計(jì)模型”擬合資料,從構(gòu)建的多個(gè)高質(zhì)量回歸模型中,優(yōu)中選優(yōu);然后,將足夠大樣本量的“測(cè)試數(shù)據(jù)集(未參與回歸建模計(jì)算)”帶入求得的“最優(yōu)”回歸模型,考察其“精準(zhǔn)程度”。僅當(dāng)“精準(zhǔn)程度”達(dá)到專業(yè)要求時(shí),才可以使用已構(gòu)建的回歸模型去解決所研究的實(shí)際問(wèn)題。