基于加權(quán)L1極小化模型選擇線性回歸模型中的自變量求解

2015-02-18 04:57李立亞鄭桃云

統(tǒng)計與決策 2015年11期

李立亞,鄭桃云

（1.湖北第二師范學院數(shù)學與統(tǒng)計學院，武漢 430205；2.湖北中醫(yī)藥大學護理學院，武漢 430065）

1 問題的提出

在上述介紹中，我們了解了自變量選擇的幾個準則，以及幾種自變量選擇方法的基本思想。從中可以知道經(jīng)典的自變量選擇有局限性：自變量的所有可能子集構(gòu)成了2m-1個回歸方程，當可供選擇的自變量不太多時，用全局擇優(yōu)法可以求出一切可能的回歸方程，然后用幾個選元準則去挑選出最優(yōu)的方程，但是，當自變量的個數(shù)較多時，要求出所有可能的回歸方程是非常困難的。還有就是，根據(jù)不同的方法和準則，選出的最優(yōu)回歸模型也不一定相同，真正哪個回歸模型最優(yōu)，同樣面臨選擇的困難。逐步回歸法也有明顯的不足之處：前進法不能反映引進新的自變量后的變化情況，因為某個自變量開始可能是顯著的，但當引入其他自變量后它就變得不顯著了，但是也沒有機會將其剔除，即一旦引入，就是“終身制”的；后退法同樣存在類似的問題，一旦某個自變量被剔除，他就再也沒有機會重新進入回歸方程，而且一開始把全部自變量引入回歸方程，這樣計算量很大；即使是吸收了前進法和后退法的優(yōu)點，克服了它們的不足的最受歡迎的逐步回歸法，也有它的不完美的地方，即當自變量的個數(shù)達到幾百個，甚至更多上千萬個的時候，它也會慢慢失去其相對的優(yōu)越性，不能成為我們理想的線性回歸模型的選元方法。

本文主要采用?1極小化模型在線性回歸模型中自變量選擇上的應(yīng)用，即通過?1極小化理論和數(shù)據(jù)的稀疏性的應(yīng)用，從所有可能的回歸系數(shù)矩陣β中選出含零元最多的一個，那么線性回歸中對應(yīng)零元系數(shù)的自變量便可以舍去。這樣便大大的減少了自變量的個數(shù)，從而減輕了回歸的計算量并且能保持回歸模型的質(zhì)量。

2 利用?1極小化模型選擇線性回歸模型的自變量

2.1 普通最小二乘法的參數(shù)估計

在一個實際問題的線性回歸建模中，有m個可供選擇的自變量 x1，x2，…，xm，因變量為y，并對該問題進行n次觀測，所得數(shù)據(jù)為(X1，X2，…Xm，y)。其線性回歸模型為

其中，β0，β1，β2…βm是 m+1個未知參數(shù)，β0稱為回歸常數(shù)，β1，β2…βm稱為回歸系數(shù)，回歸系數(shù)代表了每個自變量對回歸模型所做貢獻的大小，系數(shù)越大，貢獻也越大；系數(shù)為零，沒有貢獻，則該自變量可以舍棄。ε是隨機誤差，我們假定誤差項ε服從正態(tài)分布，即ε～N(0，σ2)

用矩陣表示該線性回歸的一般式，令：

性回歸模型為：

其中X是一個n×(m+1)階矩陣。對該線性回歸模型用普通的最小二乘法計算參數(shù)估計值，即求使觀測值與回歸值的離差最小下的參數(shù)：

當（X'X）-1存在時，即可得回歸參數(shù)的最小二乘估計為：

2.2 ?1-minmization model

最小二乘法是用所有的自變量來做線性回歸，并沒有起到回歸選元的作用。而經(jīng)典的線性回歸選元方法，對自變量的個數(shù)較多時回歸效果并不好。如今人們發(fā)現(xiàn)可以通過?1極小化理論和數(shù)據(jù)的稀疏性來大大的減少自變量的個數(shù)且能保持回歸模型的質(zhì)量：要使線性回歸模型y=β0+β1x1+…+βmxm+ε簡單而高效，我們可以減少不必要的自變量來減輕計算量，由于回歸系數(shù)代表了每個自變量對回歸模型所做貢獻的大小，系數(shù)越大，貢獻也越大；系數(shù)為零，沒有貢獻，則該自變量可以舍棄。那么只要使自變量對應(yīng)的回歸系數(shù)估計值βi盡可能為零就可以達到此目的，即使參數(shù)估計值盡可能的稀疏。由?1極小化理論中信號的稀疏表示原理可知，即求

又因為?1最小范數(shù)在一定條件下和?0最小范數(shù)具有等價性，可得到相同的解。而且相較?0最小范數(shù)，?1最小范數(shù)更具有優(yōu)勢，它便于計算。由于?0最小范數(shù)是要求向量元素不為零的最小個數(shù)，它是一個NP難題，要求這個問題是很難的。而?1最小范數(shù)是要求向量元素之和的最小值，它將非凸化問題轉(zhuǎn)化為凸化問題來求最優(yōu)化求解，即將求?0范數(shù)的NP難題轉(zhuǎn)變?yōu)榍?1范數(shù)的線性問題來找到信號的逼近，針對極小化?1范數(shù)模型來提出線性規(guī)劃方法，這個問題的求解方法有很多，更便于計算。所以可以替換（2）如下：

2.3 加權(quán)?1-minmization model

（4）當收斂或?達到指定的最大迭代次數(shù)?max時終止程序。否則，增加?并回到第2步驟。

2.4 加權(quán)?1極小化模型選擇線性回歸模型的自變量

接下來將式子(6)轉(zhuǎn)變?yōu)橐粋€二次規(guī)劃形式，它是通過將所求變量β分為兩部分完成的，通常稱這兩部分為積極和消極的部分，設(shè)：

2.5 GPSR(稀疏重建的梯度投影)法求解二次規(guī)劃問題

（4）當執(zhí)行到給定的最大次數(shù)或有滿足的近似解

3 結(jié)果

3.1 仿真數(shù)據(jù)結(jié)果

用仿真方法來證實：加權(quán)?1極小化模型能有效地選擇線性回歸模型中的自變量。仿真數(shù)據(jù)從如下線性回歸模型產(chǎn)生：

在上述回歸模型中，所含參數(shù)的個數(shù)為100個，第2，3，5，7，9個參數(shù)不為0，其它參數(shù)均為0；殘差項服從均值為0，標準差為0.1的正態(tài)分布。假設(shè)自變量均是0-1之間的均勻分布的隨機數(shù)。利用Matlab自帶函數(shù)生產(chǎn)隨機數(shù)的方法，產(chǎn)生50組樣本值及每組樣本值相應(yīng)的殘差項，根據(jù)上述回歸模型，可計算相應(yīng)因變量的值。因變量的值如圖1所表示。

由這50組樣本數(shù)據(jù)和相應(yīng)的因變量的值，需要估計回歸分析模型中參數(shù)的值。明顯的，利用普通的線性回歸模型中的最小二乘法，因這些數(shù)據(jù)只能構(gòu)造50個線性方程，無法準確的估計真實的參數(shù)。然而，利用加權(quán)?1極小化模型，可以幾乎完美的估計出真實的參數(shù)。如圖二所表示。原因在于加權(quán)?1極小化模型，它除了利用數(shù)據(jù)提供的信息之外，還能有效的利用待估參數(shù)先驗信息，即稀疏性。而普通的線性回歸模型中的最小二乘法只能利用數(shù)據(jù)提供的信息。

圖1 為仿真產(chǎn)生的50組樣本值所對應(yīng)的因變量的值

圖2 L1極小化模型對線性回歸系數(shù)的有效性

該仿真模型結(jié)論表明：利用加權(quán)?1極小化方法求得的回歸系數(shù)估計值的非零個數(shù)，遠遠小于最小二乘法求出的個數(shù)，且它極為接近原先設(shè)定的較為稀疏的實際系數(shù)值，幾乎可以完全模擬出實際的自變量系數(shù)。由于回歸系數(shù)為零的自變量對因變量沒有任何貢獻，可以剔除，所以，該方法可以大大的減少自變量的個數(shù)，起到線性回歸選元的作用。

3.2 實驗數(shù)據(jù)結(jié)果

本文選取2009年《中國統(tǒng)計年鑒》我國30個省、市、自治區(qū)（西藏地區(qū)失業(yè)率數(shù)據(jù)缺失，因此從樣本中剔除西藏）2008年的數(shù)據(jù)。

現(xiàn)實生活中，影響一個地區(qū)居民消費的因素有很多，例如，一個地區(qū)的人均生產(chǎn)總值、收入水平、消費價格指數(shù)、生活必需品的花費等。本例選取9個解釋變量研究城鎮(zhèn)居民家庭平均每人全年的消費性支出y，解釋變量為：x1居民的食品花費，x2居民的服裝花費，x3居民的居住花費，x4居民的醫(yī)療花費，x5居民的教育花費，x6地區(qū)的職工平均工資，x7地區(qū)的人均GDP，x8地區(qū)的消費價格指數(shù)，x9地區(qū)的失業(yè)率。本例題以居民的消費性支出（元）為因變量，以如上9個變量為自變量，其中，自變量x1，x2單位為元，x9單位為%。文中利用加權(quán)?1極小化模型來這些對自變量作變量選擇，并用Matlab編寫程序。

β=[1.2083-0.5232，0-0，0.5550-0.3883，0-0，0-0，0.7376-0.5023，0.5147-0.3591，0-0，0-0]=[0.6851，0，0.1667，0，0，0.2353，0.1556，0，0]

其中，第2、4、5、8、9個回歸系數(shù)元素為零，則其對應(yīng)的自變量對因變量沒有任何影響，即可以剔除x2、x4、x5、x8、x9。所以，剩下的自變量 x1、x3、x6、x7為程序挑選的自變量，可建立最優(yōu)的線性回歸模型。即居民的食品花費，居民的居住花費，地區(qū)的職工平均工資，地區(qū)的人均GDP是建立線性回歸方程的最優(yōu)自變量，對所求因變量居民的消費性支出起到顯著的影響。

該結(jié)果與實際是非常相符合的。我們知道現(xiàn)今社會，大部分人們的消費支出都用在了衣食住行上，但并不是它們都很重要，因為人可以不趕潮流，不買新衣服，但卻不能不吃飯，不租房睡覺，所以，居民的食品花費（x1）和居民的居住花費（x3），對居民的消費性支出有很大的影響，而居民的服裝花費（x2）不及它們的影響程度。同時，只要人們好好對待自己的身體，養(yǎng)成良好的作息習慣，就可以避免大量的醫(yī)療花費；而且由于地方省市的經(jīng)濟大不相同，有的地方人們生活水平高，可以享受良好的教育環(huán)境，而有的地方人們食不果腹，接受教育無從談起，所以，居民的醫(yī)療花費（x4）和居民的教育花費（x5），對居民的消費性支出并沒有很大的影響。有工資就有錢來消費，人均GDP高的地方人們的生活水平就高一些，人們大多有錢用來消費，所以，地區(qū)的職工平均工資（x6）和地區(qū)的人均GDP（x7），是顯著的影響因素。而（x8）地區(qū)的消費價格指數(shù)和（x9）地區(qū)的失業(yè)率對不同的地區(qū)不盡相同，并不能成為顯著的影響因素。綜述所述，挑選居民的食品花費，居民的居住花費，地區(qū)的職工平均工資，地區(qū)的人均GDP為建立線性回歸方程的最優(yōu)自變量，是非常符合實際情況的。另外，我們比較了最小二乘法與加權(quán)?1極小化方法所得到的參數(shù)估計值，見下表。

表1 最小二乘與加權(quán)?1極小化模型得到的待估參數(shù)

可以看出利用加權(quán)極小化模型所得到的回歸系數(shù)估計值更為簡單，且更合理。表一中最小二乘法得到的回歸系數(shù)值都不為零，不能舍去任何自變量，并沒有起到線性回歸選元的作用，而且這些回歸系數(shù)并不是能很好的解釋因變量的變化。因為消費性支出是指用于家庭日常生活的全部支出，包括食品、衣著、居住、家庭設(shè)備用品及服務(wù)、醫(yī)療保建、交通和通信、娛樂教育文化服務(wù)、其他商品和服務(wù)八大類等，所以將居民的醫(yī)療花費（x4）和居民的教育花費（x5）的回歸系數(shù)定義為負數(shù)是不合理的。反觀加權(quán)極小化模型，它求得的回歸系數(shù)值更為稀疏，可以舍棄許多不必要的自變量，減少計算量，極為有效的挑選出顯著的影響因素，得到最優(yōu)線性回歸方程。

[1]何曉群，劉文卿.應(yīng)用回歸分析（第二版）.北京：中國人民大學出版社，2011.

[2]石光明.劉丹華.高大化.劉哲.林杰.王良君壓縮感知理論及其研究進展-ACTA Electronica Sinica 2009，37(5).

[3]Donoho D.Tsaig Y Extensions of Compressed Sensing[J].Signal Processing,2006，(3).

[4]Candes E J,Wakin M B,Boyd S P.Enhancing Sparsity by Reweighted?1Minimization[J].Journal of Fowrier Ana Lysis and Applications,2008,14(5).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡