多重線性回歸模型中的最小二乘估計(jì)與投影法

2018-11-06 07:39:34智麗萍高健孫

吉林廣播電視大學(xué)學(xué)報(bào) 2018年10期

袁敏智麗萍高健孫江潔

（安徽醫(yī)科大學(xué)衛(wèi)生管理學(xué)院，安徽合肥 230032）

多重線性回歸模型在社會(huì)實(shí)踐中地位舉足輕重，特別是在經(jīng)濟(jì)問題中，如家庭消費(fèi)支出受家庭可支配收入、家庭所有的財(cái)富、物價(jià)水平、金融機(jī)構(gòu)存款利息等多種因素影響。如何探究各影響因素的權(quán)重問題，將關(guān)系生活決策和幸福指數(shù)。因而如何發(fā)揮多重線性回歸模型在日常生活中的價(jià)值，就得從知識(shí)的傳承開始。多重線性回歸模型傳統(tǒng)教法是從定義開始，挖掘模型的特性，理論的論證，公式結(jié)論的強(qiáng)行記憶，生搬硬套，使得我們的模型價(jià)值難以為人們接受。本文將從全新的角度，利用投影法開展多重線性回歸模型的研究過程，為我們推廣多重線性回歸模型揭開新的思路。

一、簡單線性回歸到多重線性回歸:從性別歧視訴訟案談起

Weisberg（2005）一書的問題6.13中涉及的是美國中西部一所大學(xué)在20世紀(jì)80年代為“女性工資待遇受歧視”的法律訴訟案所收集的薪水?dāng)?shù)據(jù)（可從R軟件的alr3包中的salary數(shù)據(jù)獲得）。該數(shù)據(jù)包含52個(gè)正式教職工的年薪（Salary）及與其相關(guān)的 5 個(gè)變量，即 Sex（1 ∶女，0：男）；Rank（1∶助理教授 2∶副教授3∶教授）；Year（擁有當(dāng)前職稱的時(shí)間，單位：年）；Degree（1：博士 0：碩士）；YSdeg（工齡，單位：年）。

數(shù)據(jù)表明女性平均工資比男性低3340美元，假設(shè)工資的對數(shù)服從正態(tài)，應(yīng)用獨(dú)立兩樣本t-檢驗(yàn)得到p值為0.048，小于0.05，故認(rèn)為在0.05的檢驗(yàn)水平下男性和女性的平均工資有顯著的統(tǒng)計(jì)學(xué)差異。但是，男女性可能存在與工資有關(guān)的其它因素（比如職稱、學(xué)歷）的差異，而這些因素可能導(dǎo)致了男女性平均工資的差異，即混雜因素（confounding）。一般職稱與薪水是掛鉤的，職稱越高，平均薪水相對越高，因此我們分別考察男女性的職稱分布情況，畫出如下條圖：

圖1.1：salary數(shù)據(jù)中男性和女性的職稱分布條圖

從圖1.1可以看出，男性和女性在職稱組成上有很大的差異，男性中教授職稱所占的比例相對較高，而女性職員中助理教授所占的比例較高，因此男女性職員的職稱組成差異也許是導(dǎo)致薪水差異的混雜因素。

事實(shí)上，獨(dú)立兩樣本t檢驗(yàn)即建立如下簡單線性回歸模型(simple linear regression model)：

其中Sex取值0，1分別代表女性和男性。獨(dú)立兩樣本t檢驗(yàn)等價(jià)于檢驗(yàn)假設(shè)H0：b=0。由于薪水可能受其他因素的影響，比如職稱等，我們需要在上述簡單線性模型(1.1)的右端添加若干項(xiàng)以控制協(xié)變量的影響，即建立多重線性回歸模型(multiple linear regression model)：

即可達(dá)到控制協(xié)變量Rank、YSdeg、Degree和Year的目的。在多重線性回歸模型中考察薪水是否會(huì)與性別有關(guān)，即在模型（1.2）下檢驗(yàn)假設(shè)，相應(yīng)的p值為0.26〉0.05,說明在控制了其他可能影響薪水的因素前提下，男女的薪水差異沒有顯著的統(tǒng)計(jì)學(xué)意義。

一般而言，從簡單線性回歸模型到多重線性回歸模型是為了控制混雜因素，可用下面的流程圖直觀的表達(dá)：

新加項(xiàng)c'z是為了控制z的影響。系數(shù)b為給定z的條件下x的效應(yīng)，所以在多重線性回歸模型y=a+bx+c'z+,N（0，σ2）中研究一維隨機(jī)變量x與y之間的關(guān)系可以分成兩步進(jìn)行：

其次將y對x┸進(jìn)行回歸，建立簡單線性回歸模型y=a+bx┸+即為多重線性回歸模型。

二、多重線性回歸模型

一般的多重線性回歸模型可表達(dá)成如下形式和條件：

則模型（2.1）可用矩陣向量形式表達(dá)成：Yn×1=Xn×pβp×1+n×1

（1）最小二乘法

假設(shè)設(shè)計(jì)矩陣X為列滿秩，為估計(jì)參數(shù)β,常用的估計(jì)方法為最小二乘法（Least Square,LS），即最小化誤差平方和：

minβ∈Rp2=minβ∈Rp∑n （y-x'i）2=minβ∈Rp‖Y-Xβ‖2注意到目標(biāo)函數(shù) Q（β）=‖Y-Xβ‖2=Y'Y-2Y'Xβ+β'X'Xβ，則將函數(shù)Q對向量β求導(dǎo)數(shù)得到,令0,得到正則方程X（'Y-Xβ）=0。注意到X為列滿秩,故X'X可逆。求解這個(gè)正則方程,得到LS估計(jì)為。進(jìn)一步計(jì)算LS估計(jì)的方差為：

下面列舉了關(guān)于正則方程的幾個(gè)注解：

注5：當(dāng)p＞n時(shí)，Y=Xβ是一個(gè)關(guān)于參數(shù)β的欠定方程（under-determined system）或稱為不定方程。為了求出欠定方程的有意義的解，通常需要施加某些約束條件，比如在數(shù)論中限制β為有理數(shù)或正整數(shù)；比如在壓縮感知中限定β為稀疏的，即某一些分量為0，但不知道具體哪些分量為0。如果假設(shè)β的p個(gè)分量非0，則須解Cnp個(gè)適定方程，從得到的Cnp個(gè)解中發(fā)現(xiàn)滿足某些準(zhǔn)則的有意義的解或者最優(yōu)解。

（2）最小二乘法與投影(projection)

投影(projection)是線性代數(shù)中的一個(gè)重要概念。那么什么是投影呢？形象點(diǎn)說，就是將你需要投影的東西上的每一點(diǎn)向你要投影的平面作垂線，垂線與平面的交點(diǎn)的集合就是投影。圖2.1是三維投影中向量b對平面的投影的圖示,

圖2.1 三維投影

定理2.1minβ‖Y-Xβ‖2等價(jià)于其中為Y在L（X）上的投影。

證明：注意到 Xβ=x（1）β1+x（2）β2+…+x（p）βp為 X 各列向量。的線性組合。根據(jù)投影的定義，因?yàn)榕cL（X）正交，所以與L（X）中的任何向量Y-u均正交。故。證畢。

三、總結(jié)

多重線性回歸模型是探索多個(gè)協(xié)變量與因變量之間關(guān)系的一個(gè)重要工具。由具體的實(shí)例從簡單線性回歸模型應(yīng)用中可能帶來的問題引入多重線性回歸模型有利于激發(fā)學(xué)生的興趣，加深學(xué)生理解進(jìn)行多重線性回歸的背景。最小二乘法是線性回歸模型分析中最經(jīng)典的估計(jì)方法。用投影法講解最小二乘估計(jì)，直觀簡潔地講清楚最小二乘法的幾何意義，避免了學(xué)生死記硬背最小二乘估計(jì)的公式以及協(xié)方差矩陣的公式。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

多重線性回歸模型中的最小二乘估計(jì)與投影法

一、簡單線性回歸到多重線性回歸:從性別歧視訴訟案談起

二、多重線性回歸模型

三、總結(jié)

一、簡單線性回歸到多重線性回歸:從性別歧視訴訟案談起

三、總結(jié)