劉兆君
(山東工商學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,山東 煙臺 264005)
數(shù)據(jù)分析中的線性回歸分析模型一般包括均值回歸模型[1-3]與分位數(shù)回歸模型[4-8],這兩個模型各有特色,在實際預(yù)測中都有廣泛應(yīng)用[2-8]。均值回歸模型與分位數(shù)回歸模型的一般形式都是采用線性主要部分加隨機(jī)誤差次要部分,其中均值回歸模型對隨機(jī)誤差部分要求較高,為零均值同方差獨立正態(tài)分布;而分位數(shù)回歸模型對隨機(jī)誤差部分要求較低,是p分位數(shù)為零的獨立同分布。在進(jìn)行參數(shù)估計時,二者只追求線性主要部分與觀測值的不同形式的逼近:一個是最小平方和最小,一個是加權(quán)絕對誤差和最小,而不關(guān)心方差對參數(shù)估計的影響。事實上,方差對于線性主要部分與觀測值的不同形式的逼近是有影響的,自然會影響參數(shù)估計的結(jié)果。在這一點上,均值回歸模型是可以考慮方差對參數(shù)估計影響的,卻沒有做;而分位數(shù)回歸模型則根本放棄方差對參數(shù)估計的影響。在上述兩個模型中,自變量的系數(shù)都是常數(shù)。另外,上述兩種模型對因變量取值的預(yù)測,都是點估計,沒有給出估計的精確度與誤差范圍。對于均值回歸模型,雖然學(xué)者們也做過有關(guān)的區(qū)間估計研究,但只是一元線性回歸的內(nèi)容有些結(jié)果,且形式復(fù)雜,計算麻煩,沒有做到點估計與區(qū)間估計兼顧,難以滿足實際需求。針對上述分析的均值回歸模型與分位數(shù)回歸模型的特點,可以考慮建立正態(tài)系數(shù)線性回歸的區(qū)間估計模型,此模型以正態(tài)變量做自變量的系數(shù),將均值與方差統(tǒng)一考慮,利用機(jī)會約束優(yōu)化理論,構(gòu)造因變量優(yōu)化的點估計與區(qū)間估計,并利用計算機(jī)優(yōu)化軟件求解,得到因變量優(yōu)化的點估計與區(qū)間估計結(jié)果。實證分析表明,此模型簡單實用,能夠較好地滿足實際應(yīng)用需求。
設(shè)隨機(jī)變量與一般變量之間的線性關(guān)系式為:
其中x1,x2,...,xn為可以精確測量或可以控制的一般變量,Y是可觀測其值的隨機(jī)變量,α0,α1,...,αn是相互獨立的正態(tài)變量,假設(shè)αj~N(μj,σ2j),j=0,1,2,...,n。則有:
顯然:
對給定的置信度1-α,0<α<1,查N(0,1)分布表,得分位數(shù),其中Φ(x)表示標(biāo)準(zhǔn)正態(tài)分布函數(shù),使得:
整理得:
區(qū)間
稱為Y的置信度為1-α的置信區(qū)間。
為了獲得一定置信度1-α下,0<α<1,隨機(jī)變量Y的區(qū)間估計,本文做了m次獨立觀測試驗,得到m組獨立觀測樣本值:
將式(7)代入式(1)可得:
稱為正態(tài)系數(shù)n元線性回歸模型。
顯然,式(8)與式(9)中Yi的觀測值是yi,i=1,2,...,m。
在置信度1-α下,根據(jù)式(8)與式(9)做類似式(3)與式(4)的討論,可得:
區(qū)間
即為Yi的置信度為1-α的置信區(qū)間。
本文的目的就是要利用觀測樣本值式(7),估計未知參數(shù)μj,σj,j=0,1,2,...,n,得到估計值n,確定隨機(jī)變量Y的置信度1-α的置信區(qū)間。
n元線性方程:
稱為n元線性回歸方程。對于式(7)中的每一組一般變量的取值 (x1i,x2i,...,xni),由式(12)得:
稱為yi的回歸值或擬合值。
一個好的置信區(qū)間式(6),應(yīng)該滿足下列兩個原則:一是回歸值的誤差盡可能??;二是置信區(qū)間半徑盡可能小。
未知參數(shù)μj,σj,j=0,1,2,...,n,的估計值0,1,...,n,就應(yīng)該使置信區(qū)間式(6)滿足上述區(qū)間估計的兩個原則。
于是,構(gòu)造下列隨機(jī)規(guī)劃:
在給定置信度(1-α)m下,有下列機(jī)會約束規(guī)劃:
那么在給定置信度(1-α)m下,有下列等價的非線性規(guī)劃:
對于此多目標(biāo)非線性規(guī)劃,可以利用理想點方法轉(zhuǎn)化為單目標(biāo)的非線性規(guī)劃,并應(yīng)用LINGO 11優(yōu)化軟件,編程求解該單目標(biāo)非線性規(guī)劃,得到未知參數(shù)μj,σj,j=0,1,2,...,n,的估計值,從而確立隨機(jī)變量Y的置信度為1-α的置信區(qū)間:
置信區(qū)間式(23)給出了回歸值的帶有置信度的誤差區(qū)間,兼顧隨機(jī)變量Y的點估計與區(qū)間估計。
廢氣排放的預(yù)測與治理一直為人們所關(guān)注,能夠較準(zhǔn)確地預(yù)測未來廢氣排放的情況,對治理大氣污染至關(guān)重要。本文以某省工業(yè)廢氣排放量及各影響因素的統(tǒng)計數(shù)據(jù)[9](如下頁表1所示)為依據(jù),建立該省工業(yè)廢氣排放量與各影響因素的正態(tài)系數(shù)線性回歸區(qū)間估計模型,實現(xiàn)對該省工業(yè)廢氣排放量的區(qū)間估計。
表1 某省工業(yè)廢氣排放量及影響因子數(shù)據(jù)
假設(shè)Y表示廢氣排放量,y表示其取值,x1表示工業(yè)總產(chǎn)值,x2表示能耗,x3表示治理設(shè)備數(shù)。
設(shè)置信度1-α=0.95,在此置信度下建立廢氣排放量Y的正態(tài)系數(shù)線性回歸的區(qū)間估計模型。
由式(8)得:
在置信度(1-α)10=0.9510下,可以確定下列機(jī)會約束規(guī)劃:
在置信度0.9510下,建立下列等價的非線性規(guī)劃:
將表1中有關(guān)數(shù)據(jù)代入式(31),并利用LINGO 11編程求解,可得:
由此得到廢氣排放量Y與一般變量x1,x2,x3之間的線性關(guān)系式為:
且α0=-27.774 ,α1~N(0.98,0.0972),α2=1.021,α3~N(0.718,0.0242)。
線性回歸方程為:
廢氣排放量Y的置信度為0.95的置信區(qū)間為:
將回歸值與置信度0.95的置信區(qū)間的計算結(jié)果列表,并計算回歸值的平均相對誤差(如表2所示)。
表2 置信度0.95正態(tài)系數(shù)線性回歸區(qū)間估計效果
利用傳統(tǒng)最小二乘法確定的線性回歸方程[9]為:
估計的σ值為=3.246,有關(guān)回歸效果評價見表3所示。
表3 傳統(tǒng)線性回歸效果評價
從表2與表3的對比中可以發(fā)現(xiàn),正態(tài)系數(shù)線性回歸區(qū)間估計模型的回歸值的估計效果明顯優(yōu)于傳統(tǒng)的最小二乘法,并且還給出了每一年廢氣排放量Y的可能取值的置信區(qū)間,實現(xiàn)了點估計與區(qū)間估計的統(tǒng)一。對比式(34)與式(36)可以看出,不同的預(yù)測方法所認(rèn)定的各影響因素在廢氣排放量取值中的份量也是不同的:正態(tài)系數(shù)線性回歸區(qū)間估計模型認(rèn)定的各影響因素份量由高到低順序為:能耗x2、工業(yè)總產(chǎn)值x1、治理設(shè)備數(shù)x3;傳統(tǒng)的最小二乘法認(rèn)定的各影響因素份量由高到低順序為:工業(yè)總產(chǎn)值x1、能耗x2、治理設(shè)備數(shù)x3。很明顯,正態(tài)系數(shù)線性回歸區(qū)間估計模型有關(guān)份量順序的認(rèn)定更為合理,突出了主要因素“能耗”的作用,可以更有效地指導(dǎo)廢氣排放的治理工作。
正態(tài)系數(shù)線性回歸區(qū)間估計模型,具有下列明顯的特點:
其一,該模型充分利用了正態(tài)分布的信息,利用正態(tài)分布構(gòu)造置信區(qū)間,還充分利用了正態(tài)分布的方差在估計未知參數(shù)中的作用。其二,該模型目標(biāo)函數(shù)之一使用了最小一乘估計表達(dá)式,因此保持了最小一乘估計的一些優(yōu)點,如模型的“穩(wěn)健性”、預(yù)測的相對誤差小等。其三,模型將點估計與區(qū)間估計有機(jī)統(tǒng)一起來,既能給出因變量的點估計值,又能給出因變量取值的區(qū)間估計,增強了模型的實用性。其四,模型的系數(shù)為正態(tài)變量,它可以表示自變量在因變量隨機(jī)變化中所起到的作用。譬如在實證分析案例中,共有三個一般變量:x1表示工業(yè)總產(chǎn)值,x2表示能耗,x3表示治理設(shè)備數(shù)。在所得到的廢氣排放量Y與三個一般變量的線性關(guān)系式(33)中,x2的系數(shù)是常數(shù),這表明能耗只能引起廢氣排放量Y確定性變化:不會引起廢氣排放量Y隨機(jī)波動;而x1,x3的系數(shù)都分別為正態(tài)變量α1,α3,表明廢氣排放量Y是確定數(shù)量項與兩個正態(tài)變量的線性組合,而x1,x3則是廢氣排放量Y隨機(jī)性變化的確定性反映,能引起廢氣排放量Y的隨機(jī)變化。其五,模型允許異方差的存在,并且能求出每一組一般變量所對應(yīng)的正態(tài)分布的方差。最后要指出的是模型適合于因變量為正態(tài)分布的情況,本模型所使用的討論方法具有一般性,同樣適合于傳統(tǒng)的均值回歸模型。
對于線性隨機(jī)系統(tǒng)可能狀態(tài)的預(yù)測,已往的模型基本是傾向于點估計。利用多目標(biāo)優(yōu)化的思想,借助計算軟件,兼顧點估計與區(qū)間估計,全面優(yōu)化地解決線性隨機(jī)系統(tǒng)預(yù)測問題,是此模型的特點,使得人們不僅能夠獲得復(fù)雜線性隨機(jī)系統(tǒng)因變量取值的明確數(shù)量狀態(tài),還能統(tǒng)計推斷復(fù)雜線性隨機(jī)系統(tǒng)因變量取值的置信范圍,讓預(yù)測更加方便實用,可以較全面地滿足實際應(yīng)用中的各種需要。