袁 敏 智麗萍 高健孫 江 潔
(安徽醫(yī)科大學(xué)衛(wèi)生管理學(xué)院,安徽 合肥 230032)
多重線性回歸模型在社會(huì)實(shí)踐中地位舉足輕重,特別是在經(jīng)濟(jì)問題中,如家庭消費(fèi)支出受家庭可支配收入、家庭所有的財(cái)富、物價(jià)水平、金融機(jī)構(gòu)存款利息等多種因素影響。如何探究各影響因素的權(quán)重問題,將關(guān)系生活決策和幸福指數(shù)。因而如何發(fā)揮多重線性回歸模型在日常生活中的價(jià)值,就得從知識(shí)的傳承開始。多重線性回歸模型傳統(tǒng)教法是從定義開始,挖掘模型的特性,理論的論證,公式結(jié)論的強(qiáng)行記憶,生搬硬套,使得我們的模型價(jià)值難以為人們接受。本文將從全新的角度,利用投影法開展多重線性回歸模型的研究過程,為我們推廣多重線性回歸模型揭開新的思路。
Weisberg(2005)一書的問題6.13中涉及的是美國中西部一所大學(xué)在20世紀(jì)80年代為“女性工資待遇受歧視”的法律訴訟案所收集的薪水?dāng)?shù)據(jù)(可從R軟件的alr3包中的salary數(shù)據(jù)獲得)。該數(shù)據(jù)包含52個(gè)正式教職工的年薪(Salary)及與其相關(guān)的 5 個(gè)變量,即 Sex(1 ∶女,0:男);Rank(1∶助理教授 2∶副教授3∶教授);Year(擁有當(dāng)前職稱的時(shí)間,單位:年);Degree(1:博士 0:碩士);YSdeg(工齡,單位:年)。
數(shù)據(jù)表明女性平均工資比男性低3340美元,假設(shè)工資的對數(shù)服從正態(tài),應(yīng)用獨(dú)立兩樣本t-檢驗(yàn)得到p值為0.048,小于0.05,故認(rèn)為在0.05的檢驗(yàn)水平下男性和女性的平均工資有顯著的統(tǒng)計(jì)學(xué)差異。但是,男女性可能存在與工資有關(guān)的其它因素(比如職稱、學(xué)歷)的差異,而這些因素可能導(dǎo)致了男女性平均工資的差異,即混雜因素(confounding)。一般職稱與薪水是掛鉤的,職稱越高,平均薪水相對越高,因此我們分別考察男女性的職稱分布情況,畫出如下條圖:
圖1.1:salary數(shù)據(jù)中男性和女性的職稱分布條圖
從圖1.1可以看出,男性和女性在職稱組成上有很大的差異,男性中教授職稱所占的比例相對較高,而女性職員中助理教授所占的比例較高,因此男女性職員的職稱組成差異也許是導(dǎo)致薪水差異的混雜因素。
事實(shí)上,獨(dú)立兩樣本t檢驗(yàn)即建立如下簡單線性回歸模型(simple linear regression model):
其中Sex取值0,1分別代表女性和男性。獨(dú)立兩樣本t檢驗(yàn)等價(jià)于檢驗(yàn)假設(shè)H0:b=0。由于薪水可能受其他因素的影響,比如職稱等,我們需要在上述簡單線性模型(1.1)的右端添加若干項(xiàng)以控制協(xié)變量的影響,即建立多重線性回歸模型(multiple linear regression model):
即可達(dá)到控制協(xié)變量Rank、YSdeg、Degree和Year的目的。在多重線性回歸模型中考察薪水是否會(huì)與性別有關(guān),即在模型(1.2)下檢驗(yàn)假設(shè),相應(yīng)的p值為0.26〉0.05,說明在控制了其他可能影響薪水的因素前提下,男女的薪水差異沒有顯著的統(tǒng)計(jì)學(xué)意義。
一般而言,從簡單線性回歸模型到多重線性回歸模型是為了控制混雜因素,可用下面的流程圖直觀的表達(dá):
新加項(xiàng)c'z是為了控制z的影響。系數(shù)b為給定z的條件下x的效應(yīng),所以在多重線性回歸模型y=a+bx+c'z+,N(0,σ2)中研究一維隨機(jī)變量x與y之間的關(guān)系可以分成兩步進(jìn)行:
其次將y對x┸進(jìn)行回歸,建立簡單線性回歸模型y=a+bx┸+即為多重線性回歸模型。
一般的多重線性回歸模型可表達(dá)成如下形式和條件:
則模型(2.1)可用矩陣向量形式表達(dá)成:Yn×1=Xn×pβp×1+n×1
(1)最小二乘法
假設(shè)設(shè)計(jì)矩陣X為列滿秩,為估計(jì)參數(shù)β,常用的估計(jì)方法為最小二乘法(Least Square,LS),即最小化誤差平方和:
minβ∈Rp2=minβ∈Rp∑n (y-x'i)2=minβ∈Rp‖Y-Xβ‖2注意到目標(biāo)函數(shù) Q(β)=‖Y-Xβ‖2=Y'Y-2Y'Xβ+β'X'Xβ,則將函數(shù)Q對向量β求導(dǎo)數(shù)得到,令0,得到正則方程X('Y-Xβ)=0。注意到X為列滿秩,故X'X可逆。求解這個(gè)正則方程,得到LS估計(jì)為。進(jìn)一步計(jì)算LS估計(jì)的方差為:
下面列舉了關(guān)于正則方程的幾個(gè)注解:
注5:當(dāng)p>n時(shí),Y=Xβ是一個(gè)關(guān)于參數(shù)β的欠定方程(under-determined system)或稱為不定方程。為了求出欠定方程的有意義的解,通常需要施加某些約束條件,比如在數(shù)論中限制β為有理數(shù)或正整數(shù);比如在壓縮感知中限定β為稀疏的,即某一些分量為0,但不知道具體哪些分量為0。如果假設(shè)β的p個(gè)分量非0,則須解Cnp個(gè)適定方程,從得到的Cnp個(gè)解中發(fā)現(xiàn)滿足某些準(zhǔn)則的有意義的解或者最優(yōu)解。
(2)最小二乘法與投影(projection)
投影(projection)是線性代數(shù)中的一個(gè)重要概念。那么什么是投影呢?形象點(diǎn)說,就是將你需要投影的東西上的每一點(diǎn)向你要投影的平面作垂線,垂線與平面的交點(diǎn)的集合就是投影。圖2.1是三維投影中向量b對平面的投影的圖示,
圖2.1 三維投影
定理2.1minβ‖Y-Xβ‖2等價(jià)于其中為Y在L(X)上的投影。
證明:注意到 Xβ=x(1)β1+x(2)β2+…+x(p)βp為 X 各列向量。的線性組合。根據(jù)投影的定義,因?yàn)榕cL(X)正交,所以與L(X)中的任何向量Y-u均正交。故。證畢。
多重線性回歸模型是探索多個(gè)協(xié)變量與因變量之間關(guān)系的一個(gè)重要工具。由具體的實(shí)例從簡單線性回歸模型應(yīng)用中可能帶來的問題引入多重線性回歸模型有利于激發(fā)學(xué)生的興趣,加深學(xué)生理解進(jìn)行多重線性回歸的背景。最小二乘法是線性回歸模型分析中最經(jīng)典的估計(jì)方法。用投影法講解最小二乘估計(jì),直觀簡潔地講清楚最小二乘法的幾何意義,避免了學(xué)生死記硬背最小二乘估計(jì)的公式以及協(xié)方差矩陣的公式。