張林泉
(廣東女子職業(yè)技術(shù)學(xué)院,廣東廣州 511450)
線性回歸模型的置信區(qū)間與預(yù)測(cè)區(qū)間應(yīng)用分析*
張林泉
(廣東女子職業(yè)技術(shù)學(xué)院,廣東廣州 511450)
論述線性回歸的因變量置信區(qū)間和因變量個(gè)別值的預(yù)測(cè)區(qū)間原理后,結(jié)合實(shí)例分析了學(xué)生總數(shù)與季度營(yíng)業(yè)額2個(gè)變量的關(guān)系.研究發(fā)現(xiàn),學(xué)生總數(shù)與季度營(yíng)業(yè)額關(guān)系存在很強(qiáng)的正向線性關(guān)系(r=0.950 1),可決系數(shù)(R2=0.902 7)可以解釋總平方和中的90.27%,表明其擬合度很好.之后,給出了因變量平均值的置信區(qū)間、因變量個(gè)別值的預(yù)測(cè)區(qū)間及圖形.
回歸分析;置信區(qū)間;預(yù)測(cè)區(qū)間;學(xué)生總數(shù);季度營(yíng)業(yè)額
一元線性回歸預(yù)測(cè)法是指成對(duì)的2個(gè)變量數(shù)據(jù)分布大體上呈直線趨勢(shì)時(shí),運(yùn)用合適的參數(shù)估計(jì)方法,求出一元線性回歸模型,然后根據(jù)自變量與因變量之間的關(guān)系,預(yù)測(cè)因變量的趨勢(shì)[1].進(jìn)行一元線性回歸預(yù)測(cè)時(shí),必須選用合適的統(tǒng)計(jì)方法估計(jì)模型參數(shù),并對(duì)模型及其參數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn).對(duì)于自變量x的一個(gè)給定值xp,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間.區(qū)間估計(jì)有2種類型:置信區(qū)間估計(jì)(confidence interval estimate)和預(yù)測(cè)區(qū)間估計(jì)(prediction interval estimate).利用回歸方程進(jìn)行預(yù)測(cè)時(shí),會(huì)出現(xiàn)因變量置信區(qū)間和因變量個(gè)別值的預(yù)測(cè)區(qū)間的誤用問(wèn)題.筆者試圖對(duì)二者關(guān)系進(jìn)行分析,同時(shí)闡明影響區(qū)間寬度的因素.
利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值xp,求出因變量y的平均值的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱為置信區(qū)間(confidence interval).因變量均值時(shí)的方差的估計(jì)值為
E(yp)在1-α置信水平下的置信區(qū)間為[2-3]
利用估計(jì)的回歸方程,對(duì)自變量的一個(gè)給定值x0,求出因變量y的個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測(cè)區(qū)間(prediction interval).因變量個(gè)別值的方差的估計(jì)值為
因變量個(gè)別值的預(yù)測(cè)區(qū)間為[3-4]
數(shù)據(jù)(見(jiàn)表1)源于臨近大學(xué)校園的10家餐館的樣本,xi是學(xué)生總數(shù)(單位:千人),yi是季度營(yíng)業(yè)額(單位:千美元).
3.1 確定估計(jì)回歸方程
n=10,經(jīng)計(jì)算可得
因此,建立的一元線性估計(jì)回歸方程為^y=60+5x.
3.2 判斷擬合優(yōu)度情況
若用估計(jì)回歸方程^y=60+5x來(lái)預(yù)測(cè)營(yíng)業(yè)額,則可以解釋總平方和中的90.27%,說(shuō)明回歸方程擬合度很好.樣本相關(guān)系數(shù)=(β1的符號(hào))表明x和y之間具有很強(qiáng)的正向線性關(guān)系.
3.3 顯著性檢驗(yàn)
3.3.1 回歸方程的顯著性檢驗(yàn)(線性關(guān)系的檢驗(yàn)) 提出假設(shè)H0,即學(xué)生總體與營(yíng)業(yè)額之間的線性關(guān)系不顯著.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F(見(jiàn)圖1),
因?yàn)?4.248 37>F0.01(1,8)=11.258 6,可知顯著水平為0.01時(shí),β1不等于0,所以拒絕原假設(shè),認(rèn)為所建立的線性回歸模型是顯著的.學(xué)生總體與營(yíng)業(yè)額之間線性關(guān)系顯著,即回歸方程線性關(guān)系顯著.
3.3.2 回歸系數(shù)的顯著性檢驗(yàn) 提出假設(shè)H0:β1=0(沒(méi)有線性關(guān)系),H1:β1≠0(有線性關(guān)系).計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t(見(jiàn)圖2),
對(duì)應(yīng)于顯著水平為0.01時(shí),自由度為n-2=10-2=8,雙尾檢驗(yàn)t值是t0.005(8)=3.355.因8.616 7>3.355,在顯著水平為0.01下,β1不等于0,故學(xué)生總體與營(yíng)業(yè)額之間存在顯著關(guān)系,表明自變量是影響因變量的一個(gè)顯著因素.
圖1 F分布,df1=1,df2=8的概率密度函數(shù)
圖2 T分布,df=8的概率密度函數(shù)
3.4 利用回歸方程進(jìn)行預(yù)測(cè)
3.4.1 因變量平均值的置信區(qū)間 若x=xp=10,點(diǎn)估計(jì)^yp=60+5×10=110,則
由(2)式得
即置信度為95%的因變量均值的置信區(qū)間為(98.582 991 48,121.417 008 5),學(xué)生數(shù)為10千名的學(xué)校,其營(yíng)業(yè)額的平均值有95%的可能位于98.583 0和121.417 0之間.
3.4.2 因變量個(gè)別值的預(yù)測(cè)區(qū)間 若x=xp=10,有^yp=60+5×10=110,則由(3)式可得
即位于有10千名學(xué)生的校園附近的單個(gè)餐館營(yíng)業(yè)額95%的預(yù)測(cè)區(qū)為(76.127 45,143.872 5).
圖3顯示顯著水平為0.05時(shí),自由度為8的雙尾檢驗(yàn)t概述密度函數(shù).由圖4可知,因變量個(gè)別值的預(yù)測(cè)區(qū)間總是要比因變量平均值的置信區(qū)間寬,這是因?yàn)樵趯?duì)單個(gè)響應(yīng)與響應(yīng)均值的預(yù)測(cè)中包括了更多的不確定性.因變量平均值的預(yù)測(cè)值與真實(shí)平均值有誤差,主要是受抽樣波動(dòng)影響;因變量個(gè)別值的預(yù)測(cè)值與真實(shí)個(gè)別值的差異,不僅受抽樣波動(dòng)影響,而且受隨機(jī)擾動(dòng)項(xiàng)的影響[5].
圖3 T分布,df=8的概率密度函數(shù)
圖4 均值置信區(qū)間帶和個(gè)別值的預(yù)測(cè)區(qū)間帶
討論了如何利用樣本數(shù)據(jù)建立回歸分析模型,并進(jìn)行相應(yīng)的顯著性檢驗(yàn),由估計(jì)回歸方程給出因變量均值的置信區(qū)間和因變量個(gè)別值的預(yù)測(cè)區(qū)間;應(yīng)用SPSS和MATLAB做出因變量均值的置信區(qū)間和因變量單個(gè)值的預(yù)測(cè)區(qū)間等相關(guān)圖形.綜上分析,影響區(qū)間寬度的因素有用于預(yù)測(cè)的xp與x-的差異程度、置信水平、數(shù)據(jù)的離散程度、樣本容量.區(qū)間寬度隨xp與x-的差異程度的增大而增大,xp與x-的差異程度越大預(yù)測(cè)精度越差;區(qū)間寬度隨置信水平的增大而增大;區(qū)間寬度隨離散程度的增大而增大;區(qū)間寬度隨樣本容量的增大而減小.
[1] 徐國(guó)祥.統(tǒng)計(jì)學(xué)[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2007.
[2] 龐 皓.計(jì)量經(jīng)濟(jì)學(xué)[M].北京:科學(xué)出版社,2007:48-54.
[3] [美]戴維·R·安德森.商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)精要(英文版)[M].第2版.北京:機(jī)械工業(yè)出版社,2005:364-422.
[4] RON LARSON,BESTY FARBER.基礎(chǔ)統(tǒng)計(jì)學(xué)(英文版)[M].第4版.北京:中國(guó)人民大學(xué)出版社,2010:330.
[5] [美]黙里.計(jì)量經(jīng)濟(jì)學(xué):現(xiàn)代方法:上(經(jīng)濟(jì)學(xué)精選教材·英文影印版)[M].北京:北京大學(xué)出版社,2009:175.
(責(zé)任編輯 向陽(yáng)潔)
Application of Confidence Intervals and Prediction Intervals of Linear Regression
ZHANG Lin-quan
(Guangdong Women’s Polytechnic College,Guangzhou 511450,China)
After describing the principle of confidence intervals and prediction intervals,this paper,which applies it to analyze the relationship between such two variables as student size and quarterly turnover,tests regression equation.And the result shows that there exists high degree of fitting between these two variables since there exists a positive linear relationship between the two variables(r=0.950 1)and a bout 90.27%of the variation in the quarterly turnover data is explained by student size;The paper offers not only confidence intervals for the mean of y and prediction intervals for an individual y by using estimated equation,but some relevant graphs as well.
regression analysis;confidence intervals;prediction intervals;student size;quarterly turnover
F222.1;O212.7
A
10.3969/j.issn.1007-2985.2013.06.005
1007-2985(2013)06-0015-04
2013-04-15
廣東省教育科學(xué)“十二五”規(guī)劃2012年度項(xiàng)目(2012JK078)
張林泉(1965-),男,廣東化州人,廣東女子職業(yè)技術(shù)學(xué)院副研究員,碩士,主要從事統(tǒng)計(jì)、數(shù)量經(jīng)濟(jì)學(xué)與數(shù)學(xué)教學(xué)研究.