韋新星 盧玉桂
(河池學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,廣西 宜州 546300)
線性回歸分析的幾種統(tǒng)計軟件實現(xiàn)
韋新星 盧玉桂
(河池學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,廣西宜州546300)
線性回歸分析是一種應(yīng)用極為廣泛的數(shù)據(jù)分析方法,如何更好地對其進(jìn)行軟件實現(xiàn)一直是人們關(guān)心的問題。針對線性回歸分析的軟件實現(xiàn)問題,將幾種常見的統(tǒng)計軟件進(jìn)行對比分析,得出Excel,SPSS和R等統(tǒng)計軟件在處理線性回歸分析時的優(yōu)劣,進(jìn)而為實際案例的正確建模和檢驗提供可能性。
線性回歸分析;Excel;SPSS;R;建模
“回歸”一詞是英國統(tǒng)計學(xué)家F.Galton在研究父親身高及其成年兒子身高的關(guān)系時提出的[1]226-236?;貧w分析一經(jīng)提出,便被廣泛應(yīng)用于各個領(lǐng)域。運(yùn)用該方法,人們可以分析事物之間的統(tǒng)計關(guān)系,考察變量之間的數(shù)量變化規(guī)律。此外,通過回歸方程的建立,人們還可以確定一個或多個變量對某個特定變量的影響程度,進(jìn)而為預(yù)測提供科學(xué)依據(jù)。
然而,在回歸方程的建立過程中,諸如回歸系數(shù)的估計和回歸方程的檢驗等問題,涉及到的計算量和計算難度都較大,按照公式進(jìn)行傳統(tǒng)的計算實屬下策。為此,不少學(xué)者就回歸分析的實現(xiàn)問題進(jìn)行了研究。易芳[2]在研究透視電壓與透視件厚度的關(guān)系時,通過MATLAB語言編程,實現(xiàn)了這一實例的線性回歸分析。董鳳鳴等[3],通過研究餐飲連鎖店銷售額與店鋪附近地區(qū)大學(xué)生人數(shù)之間的關(guān)系,介紹了Excel在一元線性回歸中的應(yīng)用?;矢4]通過建立英語成績分析模型,介紹了SPSS在多元線性回歸中的應(yīng)用。張宇山[5]從考慮共線性的角度出發(fā),通過研究產(chǎn)品密度的影響因素,介紹了SAS編程在多元線性回歸中的應(yīng)用。綜合分析前人的研究,不難發(fā)現(xiàn)在線性回歸分析時,大多數(shù)文獻(xiàn)都只是進(jìn)行了單一的軟件實現(xiàn)研究,且不同的實例所使用的統(tǒng)計軟件還不盡相同。那么,在實現(xiàn)線性回歸分析時,不同統(tǒng)計軟件之間有何差別?又如何進(jìn)行統(tǒng)計軟件的選擇呢?
本文在前人研究的基礎(chǔ)上,針對線性回歸分析的軟件實現(xiàn)問題,將幾種常見的統(tǒng)計軟件進(jìn)行對比分析,以便得出不同軟件在處理線性回歸分析時的優(yōu)劣,為實際案例的正確建模和檢驗提供可能性。
線性回歸模型的一般形式為:
y=β0+β1x1+β2x2+…+βpxp+ε
(1)
其中,y為因變量,x1,x2,…,xp為p個自變量,ε為隨機(jī)因素,ε~N(0,σ2),而β0,β1,β2,…,βp為待估參數(shù)。當(dāng)p=1時,式(1)為一元線性回歸模型,而當(dāng)pgt;1時,式(1)則為多元線性回歸模型,因此可以說,一元線性回歸是多元線性回歸的特例。
對式(1)兩邊取期望,則有:
E(y)=β0+β1x1+β2x2+…+βpxp
(2)
回歸方程建立后,需要進(jìn)行各種統(tǒng)計檢驗,常見的有回歸方程的擬合優(yōu)度檢驗、回歸方程的顯著性檢驗、回歸系數(shù)的顯著性檢驗[1]226-236。
回歸方程的擬合優(yōu)度檢驗采用R2統(tǒng)計量。R2越接近1,表明回歸方程的擬合優(yōu)度越高;R2越接近0,則表示回歸方程的擬合優(yōu)度越低。
回歸方程的顯著性檢驗采用F統(tǒng)計量。在給定的顯著性水平下,若F統(tǒng)計量大于臨界值,或檢驗統(tǒng)計量的P值小于顯著性水平,則拒絕原假設(shè),表明回歸方程的整體效果是顯著的;反之回歸方程的整體效果不顯著。
回歸系數(shù)的顯著性檢驗采用t統(tǒng)計量。在給定的顯著性水平下,若t統(tǒng)計量大于臨界值,或檢驗統(tǒng)計量的P值小于顯著性水平,則拒絕原假設(shè),表明回歸系數(shù)對因變量有顯著影響;反之回歸系數(shù)對因變量無顯著影響。
本節(jié)將從一元和多元的情形出發(fā),分別運(yùn)用統(tǒng)計軟件Excel,SPSS,R對不同情形下的同一案例進(jìn)行軟件實現(xiàn),通過對比分析,找出各軟件在處理線性回歸分析時的優(yōu)劣,以便為實際問題的正確建模和檢驗預(yù)測提供條件。
2.1 一元線性回歸情形
該案例采用美國60個商學(xué)院的數(shù)據(jù),數(shù)據(jù)來源于文獻(xiàn)[6]108-114,包括4個變量,分別是拿到MBA后的工資y、讀MBA前的工資x1、學(xué)費x2及GMAT分?jǐn)?shù)x3?,F(xiàn)運(yùn)用一元線性回歸分析進(jìn)行數(shù)據(jù)處理,以探究拿到MBA后的工資y與讀MBA前的工資x1之間的關(guān)系。
2.1.1 Excel的一元線性回歸分析
運(yùn)用Excel2010進(jìn)行一元線性回歸分析的操作步驟為:
選擇“數(shù)據(jù)”→“數(shù)據(jù)分析”(若沒有該選項,則通過“文件”→“選項”→“加載項”進(jìn)行加載),在彈出的“數(shù)據(jù)分析”對話框中,選擇“回歸”,然后確定。
接下來,在彈出的“回歸”選項框中進(jìn)行選擇。其中輸入選項:在“Y值輸入?yún)^(qū)域”選擇A1∶ A61,“X值輸入?yún)^(qū)域”選擇B1∶ B61,在“標(biāo)志”和“置信度”復(fù)選框中均打鉤,而“常數(shù)為零”復(fù)選框不打鉤(也可在“Y值輸入?yún)^(qū)域”選擇A2∶ A61,“X值輸入?yún)^(qū)域”選擇B2∶ B61,但此時只需在“置信度”復(fù)選框中打鉤即可,同樣的,“常數(shù)為零”復(fù)選框不打鉤)。輸出選項:可在“輸出區(qū)域”“新工作表組”和“新工作簿”單選框中任選其一。而剩余的殘差選項和正態(tài)分布選項,則根據(jù)實際需要進(jìn)行選擇即可。最后選擇“確定”。
得到的結(jié)果如下:首先在模型建立方面,回歸方程為y=-11.403+20 829x1,表明讀MBA前的工資x1與拿到MBA后的工資y是呈正相關(guān)的,且x1每變動一個單位所引起的因變量y的平均變動為2.829千美元。其次在模型檢驗方面,所得模型的判定系數(shù)R2為0.854,表明回歸方程的擬合優(yōu)度較高;此外,若給定的顯著性水平α取0.05,則由回歸分析的Sig.值為0lt;0.05有:拒絕原假設(shè),即回歸方程的整體效果是顯著的;另一方面,x1的Sig.值小于0.05,拒絕原假設(shè),認(rèn)為系數(shù)x1對因變量的影響是顯著的。
2.1.2 SPSS的一元線性回歸分析
運(yùn)用SPSS22.0進(jìn)行一元線性回歸分析的操作步驟為:
先將Excel文件導(dǎo)入SPSS中(選擇“文件”→“打開”→“數(shù)據(jù)”,在“文件類型”下拉列中選擇Excel,再在“查找范圍”中找到所需導(dǎo)入的數(shù)據(jù)的位置,最后點擊“打開”和“確定”即可),然后選擇“分析”→“回歸”→“線性”。
接下來,在彈出的“線性回歸”窗口中進(jìn)行選擇。將拿到MBA后的工資y選入“因變量”框中,將讀MBA前的工資x1選入“自變量”框中,在“方法”框中可根據(jù)實際需要選擇不同的變量篩選策略,最后確定。具體結(jié)果如下:
表1 模型匯總
模型RR2調(diào)整R2標(biāo)準(zhǔn)估計的誤差109240854085210097
表2 顯著性檢驗結(jié)果
模型平方和df均方FSig.1回歸346483241346483243398270000殘差591360958101959總計4056193359
表3 模型系數(shù)
模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)B標(biāo)準(zhǔn)誤差試用版tSig.1常數(shù)-114036839-16670101282901530924184340000
可以看到,回歸方程仍為y=-11.403+2.829x1,R2仍為0.854,表明運(yùn)用SPSS進(jìn)行一元線性回歸時輸出的結(jié)果不僅在重要指標(biāo)參數(shù)上和Excel相同,而且比Excel更詳細(xì)些;另外,值得一提的是,采用SPSS,可通過“保存”選項,得到因變量的預(yù)測值,而Excel卻不能。
2.1.3 R的一元線性回歸分析
運(yùn)用R進(jìn)行一元線性回歸分析的操作步驟為[7]:
先將Excel文件另存為逗號分隔符文件(csv格式)或文本文件(txt格式),然后分別用read.csv()或read.table()方法進(jìn)行讀取。在這里,我們以另存為到桌面的txt格式為例。注意:在R語句的編寫中,所有代碼中的標(biāo)點符號都用半角格式書寫,且區(qū)分大小寫。
接下來,輸入以下R語句:
a=read.table(“C:/Users/Administrator/Desktop/線性回歸分析的幾種統(tǒng)計軟件實現(xiàn).txt”,header=T)
b=lm(拿到MBA后的工資~讀MBA前的工資,a)
summary(b)
輸出結(jié)果如下:
Call:
lm(formula = 拿到MBA后的工資 ~ 讀MBA前的工資,data = a)
Residuals:
Min 1Q Median 3Q Max
-32.877 -5.952 -0.087 6.802 23.636
Coefficients:
Estimate Std.Error t value Pr(gt;|t|)
(Intercept) -11.402 6 6.839 4 -1.667 0.101
讀MBA前的工資 2.829 0 0.153 5 18.434 lt;2e-16 ***
——
Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multiple R-squared:0.854 2,Adjusted R-squared:0.851 7
F-statistic:339.8 on 1 and 58 DF,p-value:lt; 2.2e-16
可以看到,回歸方程仍為y=-11.403+2.829x1,R2仍為0.854,表明運(yùn)用R進(jìn)行一元線性回歸時輸出的結(jié)果在重要指標(biāo)參數(shù)上跟Excel和SPSS相同,R不僅保留了SPSS更詳細(xì)的優(yōu)點,而且操作比Excel和SPSS都更簡便。
2.2 多元線性回歸情形
本節(jié)采用相同的案例進(jìn)行統(tǒng)計軟件的對比?,F(xiàn)探究拿到MBA后的工資y與讀MBA前的工資x1、學(xué)費x2及GMAT分?jǐn)?shù)x3之間的關(guān)系。
其中,運(yùn)用Excel2010進(jìn)行多元線性回歸分析的操作步驟和一元的情況相似,只是在選擇“X值輸入?yún)^(qū)域”時,把x1,x2及x3的數(shù)據(jù)都選入。但輸出結(jié)果中,學(xué)費x2和GMAT分?jǐn)?shù)x3的Sig.值均大于0.05,表明這兩個自變量對因變量的影響是不顯著的,此輸出結(jié)果有待進(jìn)一步改進(jìn),可Excel無法解決此問題。
運(yùn)用SPSS進(jìn)行多元線性回歸分析的操作步驟和一元的情況也相似,在“自變量”框的選擇中,將變量x1,x2及x3都選入。而與Excel相比,SPSS可在得知某些系數(shù)不顯著時進(jìn)行改進(jìn),只需在“方法”框中根據(jù)實際需要從下拉列中選擇即可。以逐步回歸為例,SPSS將影響很不顯著的GMAT分?jǐn)?shù)x3和不是很顯著的學(xué)費x2都剔除掉了,自變量由3個變成了1個,而且此時的輸出結(jié)果和一元回歸時的表1、表2以及表3一模一樣。這說明SPSS的改進(jìn)結(jié)果仍有較大缺陷。
運(yùn)用R進(jìn)行多元線性回歸分析,只需在R軟件里輸入以下語句:
a=read.table(“C:/Users/Administrator/Desktop/線性回歸分析的幾種統(tǒng)計軟件實現(xiàn).txt”,header=T)
b=lm(拿到MBA后的工資~讀MBA前的工資+學(xué)費+GMAT分?jǐn)?shù),a)
summary(b)
輸出結(jié)果為:
Call:
lm(formula = 拿到MBA后的工資 ~ 讀MBA前的工資 + 學(xué)費 + GMAT分?jǐn)?shù),data = a)
Residuals:
Min 1Q Median 3Q Max
-32.758 -6.345 -0.324 7.155 22.450
Coefficients:
Estimate Std. Error t value Pr(gt;|t|)
(Intercept) -25.374 9 32.911 4 -0.771 0.443 9
讀MBA前的工資 2.381 2 0.323 5 7.362 8.73e-10 ***
學(xué)費 0.257 6 0.140 9 1.828 0.072 8.
GMAT分?jǐn)?shù) 0.028 2 0.063 5 0.444 0.658 6
——
Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multiple R-squared:0.863 1,Adjusted R-squared:0.855 7
F-statistic:117.6 on 3 and 56 DF,p-value:lt; 2.2e-16
可以看到,沒改進(jìn)前R所得的回歸方程為y=-25.374 9+2.381 2x1+0.257 6x2+0.028 2x3,但學(xué)費x2的Sig.值為0.072 8,比0.05稍大,而GMAT分?jǐn)?shù)x3的Sig.值為0.658 6,明顯大于0.05,這表明學(xué)費x2不是很顯著,并且GMAT分?jǐn)?shù)x3很不顯著。為此,上述所得的回歸方程是與實際不符的,應(yīng)進(jìn)行模型改進(jìn)。
而相比前兩種軟件,運(yùn)用R軟件進(jìn)行模型改進(jìn),不僅改進(jìn)結(jié)果較好且操作簡便,只需在R軟件里輸入以下語句:
a=read.table(“C:/Users/Administrator/Desktop/線性回歸分析的幾種統(tǒng)計軟件實現(xiàn).txt”,header=T)
b=lm(拿到MBA后的工資~讀MBA前的工資+學(xué)費+GMAT分?jǐn)?shù),a)
c=step(b)
summary(c)
改進(jìn)的輸出結(jié)果為:
Call:
lm(formula = 拿到MBA后的工資 ~ 讀MBA前的工資 + 學(xué)費,data = a)
Residuals:
Min 1Q Median 3Q Max
-32.902 -6.406 -0.230 6.754 22.848
Coefficients:
Estimate Std. Error t value Pr(gt;|t|)
(Intercept) -11.065 7 6.700 6 -1.651 0.104 1
讀MBA前的工資 2.475 7 0.241 9 10.233 1.61e-14 ***
學(xué)費 0.260 4 0.139 7 1.863 0.067 6.
——
Signif. codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multiple R-squared:0.862 6,Adjusted R-squared:0.857 8
F-statistic:178.9 on 2 and 57 DF,p-value:lt; 2.2e-16
可以看到在上述改進(jìn)的輸出結(jié)果中,學(xué)費x2的Sig.值為0.067 6,相比之前的0.072 8已有較大改進(jìn),故雖然仍比0.05稍大,但可選入模型;另一方面,在改進(jìn)輸出中并沒有GMAT分?jǐn)?shù)x3的信息,表明GMAT分?jǐn)?shù)x3沒有被選入模型,即對于有爭議的x2和x3,R只剔除了很不顯著的GMAT分?jǐn)?shù)x3,而保留了讀MBA前的工資x1和學(xué)費x2,改進(jìn)的回歸方程為:
y=-11.065 7+2.475 7x1+0.260 4x2
綜上,與SPSS的改進(jìn)結(jié)果相比,R的改進(jìn)結(jié)果與實際更相符。
本文采用相同的案例對線性回歸的軟件實現(xiàn)進(jìn)行對比分析。從一元和多元的情形出發(fā),分別運(yùn)用統(tǒng)計軟件Excel,SPSS,R對不同情形下的同一案例進(jìn)行處理,通過對比分析,得出在準(zhǔn)確度方面:處理一元回歸時,三種軟件的結(jié)果相同,但SPSS和R的輸出較詳細(xì)些,還可通過簡單操作進(jìn)行預(yù)測;處理多元回歸時,R可進(jìn)行模型改進(jìn),準(zhǔn)確度最高。在操作方面:3種軟件的操作都較簡便,其中Excel和SPSS直觀易用,而R的操作雖然更簡便,但需要有一定的R語句編寫基礎(chǔ)。
[1]薛薇.統(tǒng)計分析與SPSS的應(yīng)用[M].北京:中國人民大學(xué)出版社,2014.
[2]易芳.采用MATLAB的線性回歸分析[J].兵工自動化,2004(1):68-69.
[3]董鳳鳴,周萍.EXCEL在一元線性回歸分析中的應(yīng)用[J].科技信息(科學(xué)教研),2007(12):144-146.
[4]皇甫偉.SPSS相關(guān)分析與線性回歸分析在英語考試成績分析中的應(yīng)用[J].中國電力教育,2007(10):52-53.
[5]張宇山.多元線性回歸分析的實例研究[J].科技信息,2009(9):54-56.
[6]吳喜之.統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論[M].北京:中國統(tǒng)計出版社,2013.
[7]楊姍姍,王松會,宋東東.基于回歸分析的研究及R語言實現(xiàn)[J].電子科技,2015,28(10):186-188.
2017-09-01
[責(zé)任編輯姚勝勛]
SeveralStatisticalSoftwareImplementationoftheLinearRegressionAnalysis
WEIXinxing,LUYugui
(SchoolofMathematicsandStatistics,HechiUniversity,Yizhou,Guangxi546300,China)
The linear regression analysis is a widely used method of data analysis,and how to carry out the software implementation better has been the concern of people. This article analyses the several statistical software according to the software implementation problem of the linear regression analysis,then the advantages and disadvantages of Excel,SPSS and R statistical software in dealing with the linear regression analysis are obtained;furthermore,it provides the possibility for the correct modeling and testing of actual cases.
linear regression analysis;Excel;SPSS;R;modeling
O212.4
A
1672-9021(2017)05-00064-06
韋新星(1990-),女,廣西柳州人,河池學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院助教,碩士,主要研究方向:應(yīng)用統(tǒng)計。
廣西高校中青年教師基礎(chǔ)能力提升項目(KY2016LX279);河池學(xué)院碩士專業(yè)學(xué)位建設(shè)基金課題(2016YT004);廣西大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(201610605054)。