線性EIV模型參數(shù)的LASSO估計(jì)方法

2022-03-01 05:21:04趙明清席甜甜

山東理工大學(xué)學(xué)報(自然科學(xué)版) 2022年3期

趙明清，席甜甜

(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院，山東青島 266590)

針對線性EIV模型參數(shù)的最優(yōu)估計(jì)問題，國內(nèi)外學(xué)者對其進(jìn)行了廣泛而深入的研究，先后提出了整體最小二乘(TLS)法和加權(quán)整體最小二乘(WTLS)法，并在此基礎(chǔ)上進(jìn)行了拓展性研究[1-10]。但以上研究只考慮了模型的擬合優(yōu)度，而忽略了其復(fù)雜度，這易導(dǎo)致過擬合現(xiàn)象，并因此會降低模型的泛化能力。為此，王樂洋等[11]在WTLS的基礎(chǔ)上添加參數(shù)向量的2-范數(shù)懲罰項(xiàng)，并做某種近似處理后得到了參數(shù)估計(jì)的解析解；Zhu等[12]在LS的基礎(chǔ)上添加隨機(jī)誤差矩陣的F-范數(shù)和參數(shù)向量的1-范數(shù)懲罰項(xiàng)，將單層優(yōu)化問題轉(zhuǎn)化為雙層優(yōu)化問題進(jìn)行求解，給出了具體的參數(shù)估計(jì)數(shù)值解算法，并在WTLS的基礎(chǔ)上添加參數(shù)向量的1-范數(shù)懲罰項(xiàng)，采用類似的技巧進(jìn)行了討論，但沒有給出其具體求解算法。本文基于結(jié)構(gòu)風(fēng)險最小化原則，提出線性EIV模型參數(shù)的LASSO估計(jì)(LE)方法，通過運(yùn)用該方法對2001—2017年我國個人衛(wèi)生支出占比影響因素的實(shí)證，與WTLS、LS兩種方法進(jìn)行對比分析，以說明LE方法的有效性。

本文所有數(shù)據(jù)處理均使用Python語言。

1 線性EIV模型參數(shù)的LASSO估計(jì)

線性EIV模型的矩陣形式為[7-10,13]

y-ey=(A-EA)β，

(1)

式中：y=(y1,y2,…,yn)T表示被解釋變量觀測值；ey=(e1,e2,…,en)T表示y的隨機(jī)誤差；A=(aij)n×(m+1)表示解釋變量觀測值矩陣；EA=(eij)n×(m+1)表示A的隨機(jī)誤差矩陣；β=(β0,β1,…,βm)T表示未知參數(shù)向量；eA=vec(EA)是將EA按列向量化后得到的列向量；隨機(jī)誤差向量

(2)

記

Q0=P-10,Q1=P-11，

(3)

式中：?表示矩陣的Kronecker積[14]；Py為y的權(quán)陣;PA為A的權(quán)陣;P0為A的列向量權(quán)陣;P1為A的行向量權(quán)陣。關(guān)于偽逆陣的求解見文獻(xiàn)[15]。

文獻(xiàn)[7]給出了該模型的WTLS數(shù)值解迭代算法。本文基于結(jié)構(gòu)風(fēng)險最小化原則[16]，借鑒LASSO回歸思想[17]，在所有數(shù)據(jù)加權(quán)殘差平方和(反映擬合優(yōu)度)的基礎(chǔ)上加上一個1-范數(shù)懲罰項(xiàng)(反映復(fù)雜度)，即為線性EIV模型參數(shù)的LASSO估計(jì)(LE)方法，模型如下：

(4)

式中μ≥0為懲罰參數(shù)。令

Φ(ey,eA,λ,β)=

2λT(y-ey-(A-EA)β)=

2λT(y-Aβ-ey+(βT?In)eA)，

(5)

又令

(6)

(7)

(8)

(9)

在式(9)中

r=(r0,r1,…,rj,…,rm)，

(10)

由式(6)、式(7)，得

ey=Qyλ，

(11)

eA=-(Q0?Q1)(β?In)λ=

-(Q0β?Q1)λ。

(12)

根據(jù)恒等式[7]

vec(HFGT)=(G?H)vec(F)，

(13)

并由式(12)，得

EA=-Q1λ(Q0β)T=-Q1λβTQ0。

(14)

將式(11)、式(12)代入式(8)，得

y-Aβ=ey-(βT?In)eA=

Qyλ+(βTQ0β?Q1)λ，

(15)

因此，有

λ=(Qy+(βTQ0β)Q1)-1(y-Aβ)。

(16)

將式(16)分別代入式(11)、式(14)，得

ey=Qy(Qy+(βTQ0β)Q1)-1(y-Aβ)，

(17)

EA=-Q1(Qy+(βTQ0β)Q1)-1(y-Aβ)βTQ0。

(18)

將式(16)、式(18)代入式(9)，得

(19)

式中：

v=(y-Aβ)T(Qy+(βTQ0β)Q1)-1Q1·

(Qy+(βTQ0β)Q1)-1(y-Aβ)。

(20)

由式(19)，得

β=(2AT(Qy+(βTQ0β)Q1)-1A-2vQ0)-1·

(2AT(Qy+(βTQ0β)Q1)-1y-μr),

(21)

式(21)是優(yōu)化問題(4)的最優(yōu)解所滿足的條件方程。令

U=2AT(Qy+(βTQ0β)Q1)-1A-2vQ0，

(22)

V=ββT，

(23)

W=2VAT(Qy+(βTQ0β)Q1)-1，

(24)

則式(21)可寫為

VUβ-Wy=-μVr，

(25)

考慮式(25)等號兩邊的第j個分量，有

(VUβ-Wy)j=-(μVr)j，j=0,1,…,m。

(26)

由以上分析，可以給出LE方法數(shù)值解的求解算法如下：

(1)取初始值v(0)=0，β(0)=N-1C，[N，C]=ATPy[A，y]，i=0，并給定迭代誤差允許范圍ε。

(2)計(jì)算第i+1次迭代β(i+1)：

①j=0

③如果intercept>yA，則rj=-1，否則如果intercept

⑤j=j+1

⑥如果j≤m，則轉(zhuǎn)②

(4)i=i+1，轉(zhuǎn)(2)。

(5)結(jié)束。

在實(shí)際應(yīng)用時，算法中的權(quán)陣通常賦予特殊形式[7]。

2 模型比較

本文利用LE方法對2001—2017年我國個人衛(wèi)生支出占比(y)的影響因素進(jìn)行分析，并與WTLS、LS兩種方法進(jìn)行比較，以進(jìn)一步驗(yàn)證本方法的有效性。

2.1 指標(biāo)體系構(gòu)建

我國個人衛(wèi)生支出占比的影響因素很多，根據(jù)相關(guān)文獻(xiàn)[19]，本文從衛(wèi)生總費(fèi)用、人口、政策、經(jīng)濟(jì)、醫(yī)療技術(shù)水平、醫(yī)療服務(wù)供給收入6個觀察點(diǎn)選取了12個指標(biāo)作為影響我國個人衛(wèi)生支出占比的因素，詳見表1。

表1 個人衛(wèi)生支出占比影響因素

2.2 數(shù)據(jù)獲取

本文所用的個人衛(wèi)生支出占比及其各影響因素指標(biāo)數(shù)據(jù)均來源于中國統(tǒng)計(jì)年鑒以及中國衛(wèi)生統(tǒng)計(jì)年鑒。其中，2001—2014年的14組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集，2015—2017年的3組數(shù)據(jù)作為測試數(shù)據(jù)集。

2.3 模型建立與對比分析

2.3.1 多重共線性診斷

本文對上述12個解釋變量做多重共線性診斷，結(jié)果見表2。由表2可以看出：9—13維度的特征值約等于0，并且其條件索引的值遠(yuǎn)大于10，說明解釋變量間存在較嚴(yán)重的多重共線性。

表2 多重共線性診斷

2.3.2 基于LE方法的建模

為計(jì)算方便，本文對權(quán)陣進(jìn)行了一定的簡化，即令

P0=diag(0,1,1,1,1,1,1,1,1,1,1,1,1)，

P1=I14，Py=I14。

給定ε=0.5×10-8，通過K-折交叉驗(yàn)證法[17](這里K=10)選取懲罰參數(shù)μ=0.002 6，參數(shù)估計(jì)結(jié)果為

0.123 0X4+0.000 2X7-0.036 2X8。

(27)

由此可知，12個指標(biāo)中7個指標(biāo)的系數(shù)已壓縮為0，其影響被完全忽略，僅留下5個指標(biāo)，還可以看出：政府衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、社會衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、城鎮(zhèn)人口比和嬰兒死亡率對個人衛(wèi)生支出占比都呈現(xiàn)負(fù)向影響；人均GDP對個人衛(wèi)生支出占比呈現(xiàn)正向影響。

2.3.3 對比分析

本文分別采用WTLS、LS兩種方法對回歸模型參數(shù)進(jìn)行估計(jì)，其結(jié)果為：

1.598 1X3-0.273 4X4-0.492 4X5-

0.086 0X6-0.000 3X7-0.009 1X8-

2.327 5X9+0.504 3X10+0.000 7X11+0.000 1X12，

(28)

1.548 9X3-0.261 4X4-0.466 5X5-

0.091 4X6-0.000 3X7-0.007 2X8-

2.327 5X9+0.519 2X10+0.000 7X11+0.000 1X12。

(29)

可以看出，在WTLS和LS兩種方法中，政府衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、社會衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、城鎮(zhèn)人口比、失業(yè)率、衛(wèi)生總費(fèi)用占GDP比例、人均GDP、嬰兒死亡率和每千人口床位數(shù)對個人衛(wèi)生支出占比都呈現(xiàn)負(fù)向影響；65歲及以上老年人口比、每千人口醫(yī)生數(shù)、城鎮(zhèn)人均純收入和農(nóng)村人均純收入對個人衛(wèi)生支出占比都呈現(xiàn)正向影響。

但是，WTLS和LS兩種方法的估計(jì)都存在系數(shù)正負(fù)號不符合實(shí)際的狀況，如人均GDP的系數(shù)為負(fù)，這與實(shí)際情況不符。因?yàn)殡S著人均GDP的增長，生活水平越來越好，人們更加注重身體健康，從而會促進(jìn)個人衛(wèi)生支出占比。該結(jié)果可能是由解釋變量間多重共線性的影響造成的。

根據(jù)上述三種估計(jì)方法所求的回歸方程對測試數(shù)據(jù)集進(jìn)行預(yù)測，并與實(shí)際數(shù)據(jù)進(jìn)行對比，結(jié)果見表3。顯然，LE方法得到的預(yù)測值更準(zhǔn)確。

表3 個人衛(wèi)生支出占比預(yù)測值與實(shí)際值對比

將本文提出的LE方法與WTLS、LS兩種方法進(jìn)行對比分析,結(jié)論如下：

1)LE方法全部系數(shù)正負(fù)號都符合實(shí)際，但在WTLS與LS兩種方法中，部分系數(shù)正負(fù)號不符合實(shí)際。

2)LE方法預(yù)測精度更高。LE、WTLS和LS相對于實(shí)際值的均方根誤差分別為0.169 7、0.571 7、0.806 6，可見LE方法的精度更高。

3)LE方法的擬合優(yōu)度更高。各方法的決定系數(shù)R2如下：WTLS的為0.990 4、LS的為0.960 5、LE的為0.999 1，可見LE的擬合效果更好。

3 結(jié)束語

本文提出了基于結(jié)構(gòu)風(fēng)險最小化原則的線性EIV模型參數(shù)的LE方法，并給出了其數(shù)值解的快速迭代算法。如果直接由條件方程設(shè)計(jì)求解算法，那么算法的效率不高，為此本文做了技術(shù)上的處理。另外，算法還考慮到了解的唯一性問題。為了說明該方法的有效性，本文結(jié)合實(shí)證與WTLS、LS兩種方法進(jìn)行了對比分析，結(jié)果表明： LE方法能夠進(jìn)行高維回歸系數(shù)壓縮，實(shí)現(xiàn)降維的目的，明顯提高預(yù)測精度，具有更強(qiáng)的泛化能力，達(dá)到更高的擬合優(yōu)度。這樣的結(jié)果和文獻(xiàn)[20]相比更理想。本文的研究還需要進(jìn)一步完善，如可以針對參數(shù)估計(jì)的統(tǒng)計(jì)性質(zhì)進(jìn)行深入探討等。