趙明清,席甜甜
(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)
針對線性EIV模型參數(shù)的最優(yōu)估計(jì)問題,國內(nèi)外學(xué)者對其進(jìn)行了廣泛而深入的研究,先后提出了整體最小二乘(TLS)法和加權(quán)整體最小二乘(WTLS)法,并在此基礎(chǔ)上進(jìn)行了拓展性研究[1-10]。但以上研究只考慮了模型的擬合優(yōu)度,而忽略了其復(fù)雜度,這易導(dǎo)致過擬合現(xiàn)象,并因此會降低模型的泛化能力。為此,王樂洋等[11]在WTLS的基礎(chǔ)上添加參數(shù)向量的2-范數(shù)懲罰項(xiàng),并做某種近似處理后得到了參數(shù)估計(jì)的解析解;Zhu等[12]在LS的基礎(chǔ)上添加隨機(jī)誤差矩陣的F-范數(shù)和參數(shù)向量的1-范數(shù)懲罰項(xiàng),將單層優(yōu)化問題轉(zhuǎn)化為雙層優(yōu)化問題進(jìn)行求解,給出了具體的參數(shù)估計(jì)數(shù)值解算法,并在WTLS的基礎(chǔ)上添加參數(shù)向量的1-范數(shù)懲罰項(xiàng),采用類似的技巧進(jìn)行了討論,但沒有給出其具體求解算法。本文基于結(jié)構(gòu)風(fēng)險最小化原則,提出線性EIV模型參數(shù)的LASSO估計(jì)(LE)方法,通過運(yùn)用該方法對2001—2017年我國個人衛(wèi)生支出占比影響因素的實(shí)證,與WTLS、LS兩種方法進(jìn)行對比分析,以說明LE方法的有效性。
本文所有數(shù)據(jù)處理均使用Python語言。
線性EIV模型的矩陣形式為[7-10,13]
y-ey=(A-EA)β,
(1)
式中:y=(y1,y2,…,yn)T表示被解釋變量觀測值;ey=(e1,e2,…,en)T表示y的隨機(jī)誤差;A=(aij)n×(m+1)表示解釋變量觀測值矩陣;EA=(eij)n×(m+1)表示A的隨機(jī)誤差矩陣;β=(β0,β1,…,βm)T表示未知參數(shù)向量;eA=vec(EA)是將EA按列向量化后得到的列向量;隨機(jī)誤差向量
(2)
記
Q0=P-10,Q1=P-11,
(3)
式中:?表示矩陣的Kronecker積[14];Py為y的權(quán)陣;PA為A的權(quán)陣;P0為A的列向量權(quán)陣;P1為A的行向量權(quán)陣。關(guān)于偽逆陣的求解見文獻(xiàn)[15]。
文獻(xiàn)[7]給出了該模型的WTLS數(shù)值解迭代算法。本文基于結(jié)構(gòu)風(fēng)險最小化原則[16],借鑒LASSO回歸思想[17],在所有數(shù)據(jù)加權(quán)殘差平方和(反映擬合優(yōu)度)的基礎(chǔ)上加上一個1-范數(shù)懲罰項(xiàng)(反映復(fù)雜度),即為線性EIV模型參數(shù)的LASSO估計(jì)(LE)方法,模型如下:
(4)
式中μ≥0為懲罰參數(shù)。令
Φ(ey,eA,λ,β)=
2λT(y-ey-(A-EA)β)=
2λT(y-Aβ-ey+(βT?In)eA),
(5)
又令
(6)
(7)
(8)
(9)
在式(9)中
r=(r0,r1,…,rj,…,rm),
(10)
由式(6)、式(7),得
ey=Qyλ,
(11)
eA=-(Q0?Q1)(β?In)λ=
-(Q0β?Q1)λ。
(12)
根據(jù)恒等式[7]
vec(HFGT)=(G?H)vec(F),
(13)
并由式(12),得
EA=-Q1λ(Q0β)T=-Q1λβTQ0。
(14)
將式(11)、式(12)代入式(8),得
y-Aβ=ey-(βT?In)eA=
Qyλ+(βTQ0β?Q1)λ,
(15)
因此,有
λ=(Qy+(βTQ0β)Q1)-1(y-Aβ)。
(16)
將式(16)分別代入式(11)、式(14),得
ey=Qy(Qy+(βTQ0β)Q1)-1(y-Aβ),
(17)
EA=-Q1(Qy+(βTQ0β)Q1)-1(y-Aβ)βTQ0。
(18)
將式(16)、式(18)代入式(9),得
(19)
式中:
v=(y-Aβ)T(Qy+(βTQ0β)Q1)-1Q1·
(Qy+(βTQ0β)Q1)-1(y-Aβ)。
(20)
由式(19),得
β=(2AT(Qy+(βTQ0β)Q1)-1A-2vQ0)-1·
(2AT(Qy+(βTQ0β)Q1)-1y-μr),
(21)
式(21)是優(yōu)化問題(4)的最優(yōu)解所滿足的條件方程。令
U=2AT(Qy+(βTQ0β)Q1)-1A-2vQ0,
(22)
V=ββT,
(23)
W=2VAT(Qy+(βTQ0β)Q1)-1,
(24)
則式(21)可寫為
VUβ-Wy=-μVr,
(25)
考慮式(25)等號兩邊的第j個分量,有
(VUβ-Wy)j=-(μVr)j,j=0,1,…,m。
(26)
由以上分析,可以給出LE方法數(shù)值解的求解算法如下:
(1)取初始值v(0)=0,β(0)=N-1C,[N,C]=ATPy[A,y],i=0,并給定迭代誤差允許范圍ε。
(2)計(jì)算第i+1次迭代β(i+1):
①j=0
③如果intercept>yA,則rj=-1,否則如果intercept ⑤j=j+1 ⑥如果j≤m,則轉(zhuǎn)② (4)i=i+1,轉(zhuǎn)(2)。 (5)結(jié)束。 在實(shí)際應(yīng)用時,算法中的權(quán)陣通常賦予特殊形式[7]。 本文利用LE方法對2001—2017年我國個人衛(wèi)生支出占比(y)的影響因素進(jìn)行分析,并與WTLS、LS兩種方法進(jìn)行比較,以進(jìn)一步驗(yàn)證本方法的有效性。 我國個人衛(wèi)生支出占比的影響因素很多,根據(jù)相關(guān)文獻(xiàn)[19],本文從衛(wèi)生總費(fèi)用、人口、政策、經(jīng)濟(jì)、醫(yī)療技術(shù)水平、醫(yī)療服務(wù)供給收入6個觀察點(diǎn)選取了12個指標(biāo)作為影響我國個人衛(wèi)生支出占比的因素,詳見表1。 表1 個人衛(wèi)生支出占比影響因素 本文所用的個人衛(wèi)生支出占比及其各影響因素指標(biāo)數(shù)據(jù)均來源于中國統(tǒng)計(jì)年鑒以及中國衛(wèi)生統(tǒng)計(jì)年鑒。其中,2001—2014年的14組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,2015—2017年的3組數(shù)據(jù)作為測試數(shù)據(jù)集。 2.3.1 多重共線性診斷 本文對上述12個解釋變量做多重共線性診斷,結(jié)果見表2。由表2可以看出:9—13維度的特征值約等于0,并且其條件索引的值遠(yuǎn)大于10,說明解釋變量間存在較嚴(yán)重的多重共線性。 表2 多重共線性診斷 2.3.2 基于LE方法的建模 為計(jì)算方便,本文對權(quán)陣進(jìn)行了一定的簡化,即令 P0=diag(0,1,1,1,1,1,1,1,1,1,1,1,1), P1=I14,Py=I14。 給定ε=0.5×10-8,通過K-折交叉驗(yàn)證法[17](這里K=10)選取懲罰參數(shù)μ=0.002 6,參數(shù)估計(jì)結(jié)果為 0.123 0X4+0.000 2X7-0.036 2X8。 (27) 由此可知,12個指標(biāo)中7個指標(biāo)的系數(shù)已壓縮為0,其影響被完全忽略,僅留下5個指標(biāo),還可以看出:政府衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、社會衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、城鎮(zhèn)人口比和嬰兒死亡率對個人衛(wèi)生支出占比都呈現(xiàn)負(fù)向影響;人均GDP對個人衛(wèi)生支出占比呈現(xiàn)正向影響。 2.3.3 對比分析 本文分別采用WTLS、LS兩種方法對回歸模型參數(shù)進(jìn)行估計(jì),其結(jié)果為: 1.598 1X3-0.273 4X4-0.492 4X5- 0.086 0X6-0.000 3X7-0.009 1X8- 2.327 5X9+0.504 3X10+0.000 7X11+0.000 1X12, (28) 1.548 9X3-0.261 4X4-0.466 5X5- 0.091 4X6-0.000 3X7-0.007 2X8- 2.327 5X9+0.519 2X10+0.000 7X11+0.000 1X12。 (29) 可以看出,在WTLS和LS兩種方法中,政府衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、社會衛(wèi)生支出占衛(wèi)生總費(fèi)用比例、城鎮(zhèn)人口比、失業(yè)率、衛(wèi)生總費(fèi)用占GDP比例、人均GDP、嬰兒死亡率和每千人口床位數(shù)對個人衛(wèi)生支出占比都呈現(xiàn)負(fù)向影響;65歲及以上老年人口比、每千人口醫(yī)生數(shù)、城鎮(zhèn)人均純收入和農(nóng)村人均純收入對個人衛(wèi)生支出占比都呈現(xiàn)正向影響。 但是,WTLS和LS兩種方法的估計(jì)都存在系數(shù)正負(fù)號不符合實(shí)際的狀況,如人均GDP的系數(shù)為負(fù),這與實(shí)際情況不符。因?yàn)殡S著人均GDP的增長,生活水平越來越好,人們更加注重身體健康,從而會促進(jìn)個人衛(wèi)生支出占比。該結(jié)果可能是由解釋變量間多重共線性的影響造成的。 根據(jù)上述三種估計(jì)方法所求的回歸方程對測試數(shù)據(jù)集進(jìn)行預(yù)測,并與實(shí)際數(shù)據(jù)進(jìn)行對比,結(jié)果見表3。顯然,LE方法得到的預(yù)測值更準(zhǔn)確。 表3 個人衛(wèi)生支出占比預(yù)測值與實(shí)際值對比 將本文提出的LE方法與WTLS、LS兩種方法進(jìn)行對比分析,結(jié)論如下: 1)LE方法全部系數(shù)正負(fù)號都符合實(shí)際,但在WTLS與LS兩種方法中,部分系數(shù)正負(fù)號不符合實(shí)際。 2)LE方法預(yù)測精度更高。LE、WTLS和LS相對于實(shí)際值的均方根誤差分別為0.169 7、0.571 7、0.806 6,可見LE方法的精度更高。 3)LE方法的擬合優(yōu)度更高。各方法的決定系數(shù)R2如下:WTLS的為0.990 4、LS的為0.960 5、LE的為0.999 1,可見LE的擬合效果更好。 本文提出了基于結(jié)構(gòu)風(fēng)險最小化原則的線性EIV模型參數(shù)的LE方法,并給出了其數(shù)值解的快速迭代算法。如果直接由條件方程設(shè)計(jì)求解算法,那么算法的效率不高,為此本文做了技術(shù)上的處理。另外,算法還考慮到了解的唯一性問題。為了說明該方法的有效性,本文結(jié)合實(shí)證與WTLS、LS兩種方法進(jìn)行了對比分析,結(jié)果表明: LE方法能夠進(jìn)行高維回歸系數(shù)壓縮,實(shí)現(xiàn)降維的目的,明顯提高預(yù)測精度,具有更強(qiáng)的泛化能力,達(dá)到更高的擬合優(yōu)度。這樣的結(jié)果和文獻(xiàn)[20]相比更理想。本文的研究還需要進(jìn)一步完善,如可以針對參數(shù)估計(jì)的統(tǒng)計(jì)性質(zhì)進(jìn)行深入探討等。2 模型比較
2.1 指標(biāo)體系構(gòu)建
2.2 數(shù)據(jù)獲取
2.3 模型建立與對比分析
3 結(jié)束語