山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(030001) 趙俊康 梁洪川 王 彤
半相依回歸(seemingly unrelated regression,SUR)也稱為相依回歸或似乎不相關(guān)回歸,可視為多個因變量情形下多元回歸(multivariate regression)的特例,由于它允許方程組中多個方程存在不同的自變量,這就為統(tǒng)計建模帶來了較大的靈活性。同時,SUR在參數(shù)估計過程中考慮了方程間的相關(guān)信息,使參數(shù)估計效率在滿足某些適當(dāng)條件下較之對每個方程分別作最小二乘估計的傳統(tǒng)方法得到改進〔1〕。
該方法最早源于計量經(jīng)濟學(xué)實踐,回歸方程組被用于解釋不同的經(jīng)濟實體或同一經(jīng)濟實體不同時期經(jīng)濟活動中各要素的相互作用規(guī)律,作為多元線性回歸模型的自然擴展,Zellner首次提出此模型用來解釋通用電氣和西武公司固定資產(chǎn)投資總額與其已發(fā)行股數(shù)額和現(xiàn)實資本額的關(guān)系,使用了半相依回歸這個名稱,并提出了兩步估計法(two-stage estimator)。自Zellner的建設(shè)性工作后,SUR“在現(xiàn)代計量經(jīng)濟學(xué)中扮演了中心角色”〔2〕,并且在經(jīng)濟、工業(yè)、地質(zhì)和社會科學(xué)等領(lǐng)域得到廣泛應(yīng)用,在醫(yī)學(xué)領(lǐng)域也有很大的應(yīng)用前景。我國學(xué)者有王松桂、陳桂景等提出協(xié)方差改進估計用于該模型〔3-4〕。
醫(yī)學(xué)研究中很多現(xiàn)象是屬于非線性的,如血藥濃度與時間變量的關(guān)系等。模型的非線性有兩種可能的情況,一種是因變量與自變量的非線性,此類模型大多可通過合適的變換化為線性模型,只要變換后誤差仍為可加,則線性模型的估計理論和方法都適用。另一種是因變量與參數(shù)的非線性,這種情況下非線性是內(nèi)在的,無法變換為線性模型,此時必須采用新的參數(shù)估計方法。
1.模型結(jié)構(gòu)
非線性半相依回歸模型可寫為
xti是(ki×1)向量,代表第i個方程、第t個觀測中的自變量值;θi是參數(shù)空間中第i個方程的未知參數(shù)向量;fi(·;·)為第i個方程的非線性函數(shù);e=(et1,et2,…,etm)'被假定為相互獨立同分布,均值為零,方差-協(xié)方差為∑的誤差向量〔5〕。
2.參數(shù)估計
非線性半相依回歸模型的參數(shù)估計思想與線性模型類似〔6〕。
首先,不考慮方程間相關(guān)信息,我們對每一非線性方程極小化目標函數(shù)
得到各方程的非線性普通最小二乘估計,如果誤差向量為正態(tài)分布,則此估計還是極大似然估計。
然后,誤差向量的方差-協(xié)方差矩陣可估計為以
為元素的矩陣s=((sij)),得到∑的一致估計∑∧。
最后,考慮方程間的相關(guān)信息,在參數(shù)空間Θ上極小化目標函數(shù)
從而得到非線性半相依回歸參數(shù)^θ的FGLS估計。
極小化目標函數(shù)的方法可采用 Gauss-Newton、Newton-Raphson和極大似然估計等非線性模型的估計方法。Gallant提出了一種將多元問題轉(zhuǎn)換為一元問題的解決方案。Gallant建議將作Cholesky分解,即令=H'H,然后令 Z=YH',d(θ)=f(θ)H',則目標函數(shù)變?yōu)?/p>
Gallant的方法使得原有得一元非線性程序只需稍微改動即可應(yīng)用于多元模型。
Gallant證明,如果方程間確實有相關(guān)關(guān)系,且各方程的自變量xti不均相同,并且每一方程的非線性函數(shù)fi(xti;θi)形式不同,則非線性半相依回歸優(yōu)于非線性普通最小二乘回歸。反之,如果模型中每一個方程的自變量xti都相同,并且每一方程的非線性函數(shù)fi(xti;θi)有相同的形式,則非線性半相依回歸與非線性普通最小二乘參數(shù)估計結(jié)果相同,即^θ(I)與^θ(∑)有相同的漸近分布。
3.假設(shè)檢驗
由于非線性模型參數(shù)無顯解式,其估計的小樣本分布很難導(dǎo)出,但Gallant,Willlam得到了一些大樣本性質(zhì)〔7〕。Gallant證明當(dāng)∑∧為∑的一致估計時,非線性半相依回歸參數(shù)^θ的FGLS估計服從漸近正態(tài)分布
其漸近方差-協(xié)方差陣為
其中
如誤差向量為正態(tài)分布,則FGLS還是極大似然估計。
由于以上的結(jié)果,線性模型的參數(shù)檢驗方法可在漸近理論的框架內(nèi)移植。如Wald檢驗
4.S型劑量—反應(yīng)關(guān)系曲線的非線性生長曲線分析模型
藥物的劑量—反應(yīng)關(guān)系分析是藥理及毒理學(xué)試驗的重要內(nèi)容,其中重復(fù)測量設(shè)計是常用的試驗設(shè)計方法。采用重復(fù)測量設(shè)計我們除了可以探討不同試驗條件對反應(yīng)量的影響,還可同時了解反應(yīng)量隨時間變化特點和規(guī)律。在重復(fù)測量分析中,有時我們可以建立一個數(shù)學(xué)模型,用時間的函數(shù)來預(yù)測反應(yīng)變量隨時間變化趨勢,這種分析方法稱為生長曲線分析(growth curve analysis)。生長曲線分析可以采用多項式回歸模型分析(polynomial regression model)、Rao-Khatri降維分析等線性模型方法。但線性模型只是生長曲線族中的特例,更多的是曲線生長的形式,如S型曲線等。這種情況下,使用線性模型方法可能無法很好的擬合資料。此時,應(yīng)該用非線性方法擬合模型。
V?lund〔8〕提出了一種擬合 S型劑量—反應(yīng)關(guān)系曲線的非線性模型,其形式為
Yij=1/[1+exp( - (A'iθXj))]+ δij(10)其中,i=1,2,…,n;j=1,2,…,m,Yij為第 j時點第 i個體的反應(yīng)變量觀測值,通常以百分率表示,反映某反應(yīng)量占總反應(yīng)量的百分比;Aj為第j時點的設(shè)計矩陣;θ為未知參數(shù)矩陣,我們一般假定參數(shù)向量不隨時間改變,即各時點對應(yīng)的參數(shù)向量相同。為此,我們可以對各時點方程的參數(shù)實施限制,使得各方程對應(yīng)參數(shù)相等;Xj=(1,t'j)',tj為第j時點。從模型的形式上看,由于每一方程j的自變量代表各自重復(fù)測量時點,即各方程自變量不相同,并且,各重復(fù)測量值之間大多存在相關(guān)性,所以該模型為非線性半相依回歸模型,我們可在半相依回歸的框架下,運用模型誤差向量的方差-協(xié)方差矩陣信息,以提高模型參數(shù)的估計效率〔2〕。
一項毒理學(xué)試驗研究四氯化碳CCl4肝細胞毒性的劑量-反應(yīng)關(guān)系及其與時間的關(guān)系。取64份肝細胞懸濁液,隨機分為4組,分別加入劑量為0、1.0、2.5和5.0mM 的 CCl4,在加入后第 0、0.01、0.25、0.5、1、2、3小時測量乳酸脫氫酶滲出百分比。
圖1 不同CCl4濃度在各時間點的平均乳酸脫氫酶滲出率曲線
以時間為X軸,乳酸脫氫酶滲出率為Y軸,繪出不同CCl4濃度在各時間點的平均乳酸脫氫酶滲出率曲線(見圖1),可見乳酸脫氫酶滲出率隨時間變化呈非線性關(guān)系,可用非線性模型擬合數(shù)據(jù)。
將非線性回歸方程寫成通常的形式
其中β0代表平均效應(yīng)參數(shù),β1表示CCl4的效應(yīng)參數(shù),β2表示時間的效應(yīng)參數(shù),β3表示CCl4與時間交互效應(yīng)參數(shù)。
對此例擬合上述非線性半相依回歸模型的參數(shù)估計結(jié)果見表1。
表1 非線性半相依回歸擬合參數(shù)估計值及假設(shè)檢驗結(jié)果
可見,各估計參數(shù)的P值均小于0.05,說明CCl4及時間對乳脫酸氫酶滲出率的影響有統(tǒng)計學(xué)意義,CCl4與時間之間存在交互作用。最終模型可寫為:
運用該模型,可以預(yù)測不同CCl4濃度在各時間點乳酸脫氫酶滲出率。
在本例中,由于我們需要對各個非線性方程對應(yīng)的參數(shù)進行限制,令其不隨時間改變而改變,所以無法對各個方程分別采用非線性普通最小二乘估計而獲得統(tǒng)一的估計參數(shù),我們必須在方程組框架下,才能對參數(shù)實施限制。這充分說明了半相依回歸模型在建模上的特點。
本文介紹了非線性半相依回歸模型的參數(shù)估計方法及其大樣本性質(zhì),指出方程間確實有相關(guān)關(guān)系,且各方程的自變量xti不均相同,每一方程的非線性函數(shù)fi(xti;θi)形式不同的情況下,非線性半相依回歸優(yōu)于普通非線性最小二乘回歸。在醫(yī)學(xué)研究中的生長曲線問題通常為重復(fù)測量設(shè)計,各重復(fù)測量值之間大多存在相關(guān)性,且在方程組形式中,若每一方程自變量Xj代表各自重復(fù)測量時點,即各方程自變量不相同,這些特點非常符合半相依回歸系統(tǒng)的框架。故而此時運用模型誤差向量的方差-協(xié)方差矩陣信息可提高參數(shù)的估計效率。同時,在通常的統(tǒng)計軟件如SAS中,對重復(fù)測量的時間點之間建模僅提供多次項擬合,并不能滿足更復(fù)雜靈活的非線性模型形式,而在非線性半相依回歸框架下可以針對專業(yè)特點自行定義更利于專業(yè)解釋的各種非線性函數(shù)來建模,較之于一般的重復(fù)測量方差分析具有不可比擬的靈活性。如藥理和毒理學(xué)研究中各種劑量-反應(yīng)關(guān)系通常是一個S型曲線,此時即可進行非線性半相依回歸建模。
需注意的是,本文介紹的參數(shù)估計方法在因變量為多元離散分布或模型中包含更復(fù)雜的非參數(shù)項時,此方法將不再適用。關(guān)于廣義線性模型或廣義可加模型(generalized additive model)與半相依回歸的結(jié)合,將另文介紹。
1.梁洪川,韓宏,郎素萍,等.似乎不相關(guān)回歸模型及其在老年認知問題中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2005,22(6):362-364.
2.Arthur Stanley Goldberger.A course in econometrics.Cambridge,MA:Harvard University Press,1991:323.
3.馬鐵豐,王松桂.兩個半相依模型回歸系數(shù)的改進估計.應(yīng)用概率統(tǒng)計,2009,25(6):619-631.
4.王立春,汪惠民,陳桂景.一般半相依回歸系統(tǒng)的協(xié)方差改進估計.應(yīng)用概率統(tǒng)計,2001,17(2):156-162.
5.Judge,Hill,Griffiths,et al.Introduction to the theory and practice of econometrics.2nd ed.New York:John Wiley & Sons,Inc,1988.
6.Gallant AR.Seemingly unrelated nonlinear regressions.Journal of Econometrics,1975,3:35-50.
7.Barnett WA.Maximum Likelihood and Iterated Aitken Estimation of Nonlinear Systems of Equations.Journal of the American Statistical Association,1976,71:354-360.
8.Aage Vφlund.Application of the four-parameter logistic model to bioassay:comparison with slope ratio and parallel line models.Biometrics,1978,34(3):357-365.