正態(tài)系數(shù)線性回歸的區(qū)間估計模型

2018-12-03 11:39:10劉兆君

統(tǒng)計與決策 2018年21期

劉兆君

（山東工商學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院，山東煙臺 264005）

0 引言

數(shù)據(jù)分析中的線性回歸分析模型一般包括均值回歸模型[1-3]與分位數(shù)回歸模型[4-8]，這兩個模型各有特色，在實際預(yù)測中都有廣泛應(yīng)用[2-8]。均值回歸模型與分位數(shù)回歸模型的一般形式都是采用線性主要部分加隨機(jī)誤差次要部分，其中均值回歸模型對隨機(jī)誤差部分要求較高，為零均值同方差獨立正態(tài)分布；而分位數(shù)回歸模型對隨機(jī)誤差部分要求較低，是p分位數(shù)為零的獨立同分布。在進(jìn)行參數(shù)估計時，二者只追求線性主要部分與觀測值的不同形式的逼近:一個是最小平方和最小，一個是加權(quán)絕對誤差和最小，而不關(guān)心方差對參數(shù)估計的影響。事實上，方差對于線性主要部分與觀測值的不同形式的逼近是有影響的，自然會影響參數(shù)估計的結(jié)果。在這一點上，均值回歸模型是可以考慮方差對參數(shù)估計影響的，卻沒有做；而分位數(shù)回歸模型則根本放棄方差對參數(shù)估計的影響。在上述兩個模型中，自變量的系數(shù)都是常數(shù)。另外，上述兩種模型對因變量取值的預(yù)測，都是點估計，沒有給出估計的精確度與誤差范圍。對于均值回歸模型，雖然學(xué)者們也做過有關(guān)的區(qū)間估計研究，但只是一元線性回歸的內(nèi)容有些結(jié)果，且形式復(fù)雜，計算麻煩，沒有做到點估計與區(qū)間估計兼顧，難以滿足實際需求。針對上述分析的均值回歸模型與分位數(shù)回歸模型的特點，可以考慮建立正態(tài)系數(shù)線性回歸的區(qū)間估計模型，此模型以正態(tài)變量做自變量的系數(shù)，將均值與方差統(tǒng)一考慮，利用機(jī)會約束優(yōu)化理論，構(gòu)造因變量優(yōu)化的點估計與區(qū)間估計，并利用計算機(jī)優(yōu)化軟件求解，得到因變量優(yōu)化的點估計與區(qū)間估計結(jié)果。實證分析表明，此模型簡單實用，能夠較好地滿足實際應(yīng)用需求。

1 模型構(gòu)建

設(shè)隨機(jī)變量與一般變量之間的線性關(guān)系式為：

其中x1，x2，...，xn為可以精確測量或可以控制的一般變量，Y是可觀測其值的隨機(jī)變量，α0，α1，...，αn是相互獨立的正態(tài)變量，假設(shè)αj～N(μj，σ2j)，j=0，1，2，...，n。則有：

顯然：

對給定的置信度1-α，0＜α＜1，查N(0，1)分布表，得分位數(shù)，其中Φ(x)表示標(biāo)準(zhǔn)正態(tài)分布函數(shù)，使得：

整理得：

區(qū)間

稱為Y的置信度為1-α的置信區(qū)間。

為了獲得一定置信度1-α下，0＜α＜1，隨機(jī)變量Y的區(qū)間估計，本文做了m次獨立觀測試驗，得到m組獨立觀測樣本值：

將式（7）代入式（1）可得：

稱為正態(tài)系數(shù)n元線性回歸模型。

顯然，式（8）與式（9）中Yi的觀測值是yi，i=1，2，...，m。

在置信度1-α下，根據(jù)式（8）與式（9）做類似式（3）與式（4）的討論，可得：

區(qū)間

即為Yi的置信度為1-α的置信區(qū)間。

本文的目的就是要利用觀測樣本值式（7），估計未知參數(shù)μj，σj，j=0，1，2，...，n，得到估計值n，確定隨機(jī)變量Y的置信度1-α的置信區(qū)間。

n元線性方程：

稱為n元線性回歸方程。對于式（7）中的每一組一般變量的取值 (x1i，x2i，...，xni)，由式（12）得：

稱為yi的回歸值或擬合值。

一個好的置信區(qū)間式（6），應(yīng)該滿足下列兩個原則:一是回歸值的誤差盡可能??；二是置信區(qū)間半徑盡可能小。

未知參數(shù)μj，σj，j=0，1，2，...，n，的估計值0，1，...，n，就應(yīng)該使置信區(qū)間式（6）滿足上述區(qū)間估計的兩個原則。

于是，構(gòu)造下列隨機(jī)規(guī)劃：

在給定置信度(1-α)m下，有下列機(jī)會約束規(guī)劃：

那么在給定置信度(1-α)m下，有下列等價的非線性規(guī)劃：

對于此多目標(biāo)非線性規(guī)劃，可以利用理想點方法轉(zhuǎn)化為單目標(biāo)的非線性規(guī)劃，并應(yīng)用LINGO 11優(yōu)化軟件，編程求解該單目標(biāo)非線性規(guī)劃，得到未知參數(shù)μj，σj，j=0，1，2，...，n，的估計值，從而確立隨機(jī)變量Y的置信度為1-α的置信區(qū)間：

置信區(qū)間式（23）給出了回歸值的帶有置信度的誤差區(qū)間，兼顧隨機(jī)變量Y的點估計與區(qū)間估計。

2 實證

廢氣排放的預(yù)測與治理一直為人們所關(guān)注，能夠較準(zhǔn)確地預(yù)測未來廢氣排放的情況，對治理大氣污染至關(guān)重要。本文以某省工業(yè)廢氣排放量及各影響因素的統(tǒng)計數(shù)據(jù)[9]（如下頁表1所示）為依據(jù)，建立該省工業(yè)廢氣排放量與各影響因素的正態(tài)系數(shù)線性回歸區(qū)間估計模型，實現(xiàn)對該省工業(yè)廢氣排放量的區(qū)間估計。

表1 某省工業(yè)廢氣排放量及影響因子數(shù)據(jù)

假設(shè)Y表示廢氣排放量，y表示其取值，x1表示工業(yè)總產(chǎn)值，x2表示能耗，x3表示治理設(shè)備數(shù)。

設(shè)置信度1-α=0.95，在此置信度下建立廢氣排放量Y的正態(tài)系數(shù)線性回歸的區(qū)間估計模型。

由式（8）得：

在置信度(1-α)10=0.9510下，可以確定下列機(jī)會約束規(guī)劃：

在置信度0.9510下，建立下列等價的非線性規(guī)劃：

將表1中有關(guān)數(shù)據(jù)代入式（31），并利用LINGO 11編程求解，可得：

由此得到廢氣排放量Y與一般變量x1，x2，x3之間的線性關(guān)系式為：

且α0=-27.774 ，α1～N(0.98，0.0972)，α2=1.021,α3～N(0.718，0.0242)。

線性回歸方程為：

廢氣排放量Y的置信度為0.95的置信區(qū)間為：

將回歸值與置信度0.95的置信區(qū)間的計算結(jié)果列表，并計算回歸值的平均相對誤差（如表2所示）。

表2 置信度0.95正態(tài)系數(shù)線性回歸區(qū)間估計效果

利用傳統(tǒng)最小二乘法確定的線性回歸方程[9]為：

估計的σ值為=3.246，有關(guān)回歸效果評價見表3所示。

表3 傳統(tǒng)線性回歸效果評價

從表2與表3的對比中可以發(fā)現(xiàn)，正態(tài)系數(shù)線性回歸區(qū)間估計模型的回歸值的估計效果明顯優(yōu)于傳統(tǒng)的最小二乘法，并且還給出了每一年廢氣排放量Y的可能取值的置信區(qū)間，實現(xiàn)了點估計與區(qū)間估計的統(tǒng)一。對比式（34）與式（36）可以看出，不同的預(yù)測方法所認(rèn)定的各影響因素在廢氣排放量取值中的份量也是不同的：正態(tài)系數(shù)線性回歸區(qū)間估計模型認(rèn)定的各影響因素份量由高到低順序為：能耗x2、工業(yè)總產(chǎn)值x1、治理設(shè)備數(shù)x3;傳統(tǒng)的最小二乘法認(rèn)定的各影響因素份量由高到低順序為：工業(yè)總產(chǎn)值x1、能耗x2、治理設(shè)備數(shù)x3。很明顯，正態(tài)系數(shù)線性回歸區(qū)間估計模型有關(guān)份量順序的認(rèn)定更為合理，突出了主要因素“能耗”的作用，可以更有效地指導(dǎo)廢氣排放的治理工作。

3 正態(tài)系數(shù)線性回歸區(qū)間估計模型的特點

正態(tài)系數(shù)線性回歸區(qū)間估計模型，具有下列明顯的特點:

其一，該模型充分利用了正態(tài)分布的信息，利用正態(tài)分布構(gòu)造置信區(qū)間，還充分利用了正態(tài)分布的方差在估計未知參數(shù)中的作用。其二，該模型目標(biāo)函數(shù)之一使用了最小一乘估計表達(dá)式，因此保持了最小一乘估計的一些優(yōu)點，如模型的“穩(wěn)健性”、預(yù)測的相對誤差小等。其三，模型將點估計與區(qū)間估計有機(jī)統(tǒng)一起來，既能給出因變量的點估計值，又能給出因變量取值的區(qū)間估計，增強了模型的實用性。其四，模型的系數(shù)為正態(tài)變量，它可以表示自變量在因變量隨機(jī)變化中所起到的作用。譬如在實證分析案例中，共有三個一般變量：x1表示工業(yè)總產(chǎn)值，x2表示能耗，x3表示治理設(shè)備數(shù)。在所得到的廢氣排放量Y與三個一般變量的線性關(guān)系式（33）中,x2的系數(shù)是常數(shù)，這表明能耗只能引起廢氣排放量Y確定性變化：不會引起廢氣排放量Y隨機(jī)波動;而x1，x3的系數(shù)都分別為正態(tài)變量α1，α3，表明廢氣排放量Y是確定數(shù)量項與兩個正態(tài)變量的線性組合，而x1，x3則是廢氣排放量Y隨機(jī)性變化的確定性反映，能引起廢氣排放量Y的隨機(jī)變化。其五，模型允許異方差的存在，并且能求出每一組一般變量所對應(yīng)的正態(tài)分布的方差。最后要指出的是模型適合于因變量為正態(tài)分布的情況，本模型所使用的討論方法具有一般性，同樣適合于傳統(tǒng)的均值回歸模型。

4 結(jié)束語