劉佳
(淄博職業(yè)學(xué)院,山東淄博 255314)
回歸分析預(yù)測模型是研究變量間相關(guān)關(guān)系的一種數(shù)學(xué)模型,利用回歸方程估計(jì)因變量的值,是一種根據(jù)事物內(nèi)部因素變化的關(guān)系來預(yù)測事物未來趨勢的分析方法。本文對回歸分析模型做簡要介紹,并詳細(xì)討論了幾類常用的可線性化的曲線回歸分析模型。
回歸分析方法是研究變量間相互關(guān)系的一種定量預(yù)測方法,我們通過已觀測到的數(shù)據(jù)資料進(jìn)行分析,若已知變量之間存在因果關(guān)系,但由于各變量間關(guān)系受其他因素影響,使得變量之間的關(guān)系出現(xiàn)了不確定性,則這種不確定的相關(guān)關(guān)系,可以通過回歸分析方法進(jìn)行分析描述。
回歸分析方法主要有以下幾步,首先建立因變量與自變量之間的回歸方程,即建立模型,再次對模型合理性進(jìn)行分析,并診斷所建的模型是否符合該組數(shù)據(jù),最后利用回歸模型對因變量進(jìn)行預(yù)測。
設(shè)因變量為y,自變量有m個(gè)分量x1,x2,xm,因變量y與自變量之間的關(guān)系由兩部分組成,一部分是由自變量確定給出的,可表示為函數(shù)f(x1,x2,xm)的形式,另一部分由其他因素決定的,稱為隨機(jī)誤差,表示為ε,數(shù)學(xué)模型可以表示為y=f(x1,x2,xm)+ε,在該模型中,通??梢约僭O(shè)隨機(jī)誤差ε服從均值為零的正態(tài)分布[1],即E(ε)=0,D(ε)=σ2。若自變量是一個(gè),則回歸模型稱為一元回歸模型,若自變量有多個(gè),則回歸模型稱為多元回歸模型。
首先簡要介紹線性回歸模型,若因變量y與自變量x1,x2,xm之間存在線性關(guān)系:
其中β0,β1,……βm,σ2都是與x1,x2,xm無關(guān)的未知參數(shù),β0,β1,……βm稱為回歸系數(shù)。若得到n個(gè)獨(dú)立觀測的數(shù)據(jù)(yi,xi1,......,xim),i=1,2,......n,n>m,則得到
則線性回歸模型可表示為
利用回歸模型預(yù)測的基本思路是先根據(jù)自變量、因變量的觀測數(shù)值求出回歸系數(shù),從而建立回歸模型,再運(yùn)用模型計(jì)算出不同自變量所對應(yīng)的因變量的值?;貧w系數(shù)的求解主要應(yīng)用最小二乘思想。模型參數(shù)的估計(jì)值β0,β1,……βm應(yīng)使得預(yù)測值與實(shí)際觀測之差的平方和最小,記為預(yù)測值,也就是
則所求回歸系數(shù)應(yīng)使得
的值最小。利用矩陣?yán)碚摂?shù)值Q可表示為
可求得
由此建立線性回歸模型
回歸模型是否合理需要進(jìn)行檢驗(yàn)[2],常用的檢驗(yàn)方法有t檢驗(yàn),F(xiàn)檢驗(yàn),相關(guān)系數(shù)檢驗(yàn)等方法。
多元線性回歸模型是最為簡單的一種回歸模型。多數(shù)情況下,自變量與因變量呈非線性關(guān)系,此時(shí)應(yīng)用線性回歸模型進(jìn)行預(yù)測誤差較大。這就需要根據(jù)歷史觀測數(shù)據(jù)建立合理的回歸模型,下面介紹幾類常用的曲線回歸模型。
在進(jìn)行回歸分析之前若通過散點(diǎn)圖觀察到各自變量和因變量之間均呈線性關(guān)系,則可用線性回歸模型進(jìn)行預(yù)測分析,否則就需要考慮其他方法。常用的方法是將曲線線性化,對變量進(jìn)行代換,從而將曲線方程轉(zhuǎn)化為直線方程進(jìn)行分析。這里列舉幾類可以通過變量代換轉(zhuǎn)化為線性回歸模型的幾類曲線回歸分析方程。
(1)一元多項(xiàng)式回歸模型是一種常用的回歸模型,若通過散點(diǎn)圖觀察到變量間有較為明顯的高次函數(shù)關(guān)系,則可選用此模型。一元m次多項(xiàng)式回歸模型表示為:
y=β0+β1x+β2x2+......+βmxm+ε,ε為隨機(jī)誤差,β0,β1,……βm為回歸系數(shù)。
該模型實(shí)際是關(guān)于變量x,x2,......xm的線性回歸模型,利用最小二乘法依然可以計(jì)算出回歸系數(shù)。
(3)若變量之間聯(lián)系可能如y=β0β1x形式,其中β0>0,β1>0,則可取對數(shù)變換,得到lny=lnβ0+xlnβ1,這里變量lny與變量x呈線性關(guān)系,用最小二乘法可求解。類似的,若變量之間關(guān)系可能形如y=e(β0+β1x),也可通過對數(shù)變換,轉(zhuǎn)化成關(guān)于變量lny與變量x之間的線性關(guān)系,進(jìn)而可求解回歸系數(shù)。
下面以回歸方程y=e(β0+β1x)為例說明如何利用曲線線性化這一思想求解回歸系數(shù)。
例:給定一組觀測數(shù)據(jù)見表1,已知自變量x與因變量y成指數(shù)方程,試用y=e(β0+β1x)對下列數(shù)據(jù)進(jìn)行擬合。
表1 觀測數(shù)據(jù)
方程y=e(β0+β1x)兩端取對數(shù),得到lny=β0+β1x,這里變量lny與變量x成線性關(guān)系,記:
則線性回歸模型可表示為
求解回歸系數(shù)=(XTX)?1XTlnY=(β0,β1)T=(1.289.?0.35)T
因此求得回歸預(yù)測模型為y=e(1.289?0.35x)
總之,當(dāng)變量之間呈比較簡單的曲線關(guān)系時(shí),可以通過變量代換將曲線關(guān)系轉(zhuǎn)化為直線關(guān)系來進(jìn)行擬合,但是曲線直線化也是有一定困難的。變量代換可解決義部分的曲線擬合問題,直線回歸采用的是最小二乘法,它保證的是變量代換之后的殘差平方和最小,若轉(zhuǎn)化回原變量,并不一定就是最優(yōu)模型。
曲線關(guān)系較為復(fù)雜時(shí),通常不能通過變量代換法轉(zhuǎn)化為直線方程,此時(shí)不能再利用線性回歸模型進(jìn)行求解。這樣就需要尋找其他分析方法解決問題,非線性回歸分析可以有效解決部分問題。非線性回歸模型是指因變量y對回歸系數(shù)β0,β1,……βm是非線性的,而不是對自變量是非線性的[3]。此類模型求解難度較大,需要借助計(jì)算機(jī)軟件?;舅枷朐O(shè)法求得某回歸方程,使得各觀測值與模型方程的距離的平方和最小,此時(shí)回歸方程是曲線而不是直線。因回歸方程是曲線,計(jì)算回歸系數(shù)難度大,統(tǒng)計(jì)軟件SPSS中nlr過程可進(jìn)行非線性回歸模型的擬合。
本文介紹了多元線性回歸模型求解的基本思想,列舉了幾類通過變量代換可轉(zhuǎn)化為線性回歸模型的曲線回歸方程,詳細(xì)說明了變量代換的具體方法,并結(jié)合案例說明求解過程。