項(xiàng)超,孫珂祎,呂鵬飛,王延新
(寧波工程學(xué)院 理學(xué)院,浙江 寧波315211)
隨著大數(shù)據(jù)時代的到來,在自然科學(xué)、人類學(xué)和工程學(xué)等領(lǐng)域的數(shù)據(jù)集越來越豐富,數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜。這些數(shù)據(jù)的主要特點(diǎn)是數(shù)據(jù)的維數(shù)很高,往往大于樣本量;并且隨著維數(shù)的增加,噪聲積累,存在虛假相關(guān)。范劍青指出高維回歸模型中系數(shù)存在稀疏性,即絕大部分解釋變量的系數(shù)為0,因此需要通過變量選擇的方法建立稀疏模型,以提高模型的解釋能力和參數(shù)估計的精確度。
變量選擇是從眾多變量中選擇重要的相關(guān)變量來達(dá)到穩(wěn)健建模的方法,傳統(tǒng)的變量選擇方法如最優(yōu)子集選擇、逐步回歸等方法在維數(shù)較高的情況下存在計算量大,變量選擇不穩(wěn)定等缺點(diǎn)[1-3]。近些年,統(tǒng)計學(xué)家們提出基于懲罰函數(shù)的正則化變量選擇方法。Tibshirani[4]提出的LASSO是一種最常用的稀疏化手段,主要在于它的可解釋性和預(yù)測的有效性,并且本身是凸優(yōu)化問題可以快速求得最優(yōu)解。但LASSO對較大系數(shù)的估計是有偏差的,并且不一定滿足oracle性質(zhì)[5],故Zou提出自適應(yīng)LASSO,自適應(yīng)LASSO是無偏估計[6]。高維數(shù)據(jù)經(jīng)常遇到變量之間的共線性問題,使得LASSO表現(xiàn)不夠理想,2009年,Zou和Hastie提出了彈性網(wǎng)(Elastic net)。此外各種非凸罰函數(shù)如SCAD[5]、MCP[8]、SICA[9]和EXP[10]等相繼被提出。
幸福是人類千百年來生生不息的追求,幸福生活與每個人的生存與發(fā)展息息相關(guān)。每個人對幸福感都有自己的衡量標(biāo)準(zhǔn),過上美好幸福的生活是廣大人民群眾的希望。何為“幸?!保腋J侨藗儗τ谏罡鱾€方面的滿足感,從馬斯洛需求層次理論來說,人的需求被分為生理需求、安全需求、社交需求、尊重需求和自我實(shí)現(xiàn)需求,只有這五大需求得以滿足,才能說的上真正意義上的幸福。目前,我國居民幸福感處于什么狀態(tài),哪些因素對人們的幸福感有影響,不同人之間幸福感是否有差異,都是圍繞幸福這一問題展開。如果能發(fā)現(xiàn)影響幸福感的共性,生活中將多一些樂趣;如果能找到影響幸福感的影響因素,便能優(yōu)化資源配置來提升國民的幸福感。
本文基于CGSS項(xiàng)目的公開數(shù)據(jù)的問卷調(diào)查結(jié)果,結(jié)合LASSO、SCAD和MCP罰構(gòu)建正則化Logistic回歸模型,研究幸福感的主要影響因素。
Logistic回歸模型是一種廣義的線性回歸模型,用來分類0-1問題,也就是預(yù)測結(jié)果是0還是1的分類問題。設(shè)yi和xi=(xi1,…,xip)分別是響應(yīng)變量和解釋變量,i=1,2,3,…,n,yi∈{1,0},同時假設(shè)yi和xij相互獨(dú)立,Logistic回歸可表示為:
其中
則Logistic回歸的對數(shù)似然函數(shù)為:
對于Logistic回歸模型,響應(yīng)變量yi∈{1,0},y的期望依賴于函數(shù)假設(shè)
基于懲罰函數(shù)的Logistic模型的一般框架為
文中對橢圓擬合法進(jìn)行了深入研究,針對其容易受到噪聲干擾和魯棒性差的問題,提出一種改進(jìn)的適合于紅外圖像的瞳孔定位算法,通過形態(tài)學(xué)運(yùn)算、斑點(diǎn)干擾去除等提高算法的抗干擾性。
Tibshirani[4]提出的Lasso是一種最常用的稀疏化手段,主要在于它的可解釋性和預(yù)測的有效性,并且本身是凸優(yōu)化問題可以快速求得最優(yōu)解。LASSO罰函數(shù)定義為
Fan和Li[5]指出一個好的罰函數(shù)應(yīng)該同時具備三種性質(zhì),即連續(xù)性、無偏性和稀疏性。但Lasso對較大系數(shù)的估計是有偏的,并且不一定滿足Oracle性質(zhì),故Fan和Li提出了SCAD罰函數(shù),SCAD罰函數(shù)如下:
其中,對于給定的λ>0,α>2,SCAD罰函數(shù)是分段函數(shù)形式,分別對應(yīng)常數(shù)、線性函數(shù)和二次函數(shù)。SCAD在區(qū)間(-∞,0)∪(0,+∞)上是連續(xù)可微的罰函數(shù),但在原點(diǎn)處是奇異的,并且在區(qū)間[-αλ,αλ]處的導(dǎo)數(shù)為0。
MCP估計與SCAD估計類似,MCP估計也具有連續(xù)性、無偏性和稀疏性等性質(zhì)。MCP罰函數(shù)如下[8]:
λ≥0決定懲罰的大小,α是影響懲罰范圍的調(diào)整參數(shù)。MCP罰函數(shù)滿足近似連續(xù)性,
本本文考慮利用坐標(biāo)下降算法[11]求解SCAD,MCP及LASSO估計問題。坐標(biāo)下降法是一種非梯度優(yōu)化算法,其基本思想為:在每步迭代中沿一個坐標(biāo)方向進(jìn)行線性搜索,與此同時固定其他坐標(biāo)方向,再循環(huán)使用不同坐標(biāo)方法從而達(dá)到目標(biāo)函數(shù)的局部極小值。
考慮目標(biāo)函數(shù)
W為關(guān)于加權(quán)函數(shù)的對角矩陣,其對角線上元素為
其中π由β(m)估計。
對于LASSO的坐標(biāo)下降步為
同理,對于SCAD罰的坐標(biāo)下降步為
其中α>1+1/vj。對于MCP罰為
其中α>1/vj。
基于上述,完整的罰Logistic回歸的坐標(biāo)下降算法如下(以SCAD罰為例):
Step 1.按遞增方式輸入一系列的λ值Λ={λ1,…,λL}和α值Г={α1,…,αk},并定義λL+1,使得
(ii)遞減k值
Step 3.遞減l
Step 4.對于所有的(λ,α)∈Λ×Г,返回解β^(λ,α)。
在上述算法中,對MCP估計,只需要將其中的gscad(zj,λ,α)換成gmcp(zj,λ,α)即可,而對于LASSO估計,不存在參數(shù)α,因此在上述算法中對于LASSO估計,不存在內(nèi)循環(huán)的問題,過程更簡潔。此外需要指出的是,在上述算法中設(shè)計正則化參數(shù)λ和α的選擇,本文利用交叉驗(yàn)證的方法選擇正則化參數(shù)。
本文數(shù)據(jù)來自中國人民大學(xué)中國調(diào)查與數(shù)據(jù)中心主持之“中國綜合社會調(diào)查(CGSS)”(2015)項(xiàng)目的公開數(shù)據(jù)的問卷調(diào)查結(jié)果,中國綜合社會調(diào)查為多階分層抽樣的截面面訪調(diào)查。數(shù)據(jù)具體包括個體的幸福感、性別、年齡、健康狀況、受教育程度、就業(yè)狀態(tài)、婚姻狀況、戶口、家庭社會經(jīng)濟(jì)地位等[12]。由于有些問卷數(shù)據(jù)無意義,所以處理后的有效數(shù)據(jù)是6 645行數(shù)據(jù)。數(shù)據(jù)的獲取平臺是阿里云天池平臺。
選取的預(yù)測變量總共有以上29項(xiàng),分為五項(xiàng)指標(biāo)。其中性別、所在省市、樣本類型、出生日期、民族屬于個人基本情況,宗教信仰、教育程度、用在社交上的空閑時間、用在放松休息上的空閑時間、用在學(xué)習(xí)上的休息時間屬于文化生活,個人年收入、住房面積、家庭年總收入、家庭人口、家庭經(jīng)濟(jì)狀況檔次、房產(chǎn)數(shù)量、汽車數(shù)量屬于經(jīng)濟(jì)生活,身高、體重、健康狀況、心情沮喪的頻繁程度屬于健康狀況,對當(dāng)今社會是否公平的評價、個人社會地位評價、工作經(jīng)歷及狀況、婚姻狀況、與同齡人相比的社會經(jīng)濟(jì)地位、與三年前經(jīng)濟(jì)社會地位相比發(fā)生的變化、對一些重要事情所持的觀點(diǎn)和看法與社會大眾一致次數(shù)屬于人際關(guān)系指標(biāo)。其中心情沮喪的頻繁程度從1到5取值,取值越大感到沮喪次數(shù)越少。
為討論問題的方便,響應(yīng)變量為幸福感指數(shù)(happiness)將此劃為兩個類別,沮喪程度為4和5時劃分為幸福,1-3時為不幸福?!安恍腋!焙汀靶腋!?,分別賦予對應(yīng)的數(shù)值0、1。數(shù)據(jù)概況以及部分?jǐn)?shù)據(jù)指標(biāo)如表1和表2所示。
表1 數(shù)據(jù)集概況
表2 數(shù)據(jù)集部分指標(biāo)賦值
為了建立模型和比較模型的預(yù)測效果,本文將數(shù)據(jù)集切分為訓(xùn)練集和測試集兩部分,訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)各占一半。從原始數(shù)據(jù)集隨機(jī)抽取50%的數(shù)據(jù)作為訓(xùn)練集,剩下的50%作為測試集,利用訓(xùn)練集數(shù)據(jù)建立模型,將測試集的數(shù)據(jù)代入建立好的模型中進(jìn)行預(yù)測,用于對模型預(yù)測準(zhǔn)確性的外推檢驗(yàn)。
利用全變量Logistic模型、LASSO-Logistic模型、SCAD-Logistic模型、MCP-Logistic模型對上述數(shù)據(jù)進(jìn)行實(shí)證分析,用訓(xùn)練集數(shù)據(jù)建立模型,變量選擇結(jié)果見表3。
根據(jù)表3的結(jié)果,從稀疏性角度看,Logistic全變量模型沒有剔除任何變量,結(jié)果顯示,對于全變量Logistic回歸模型,變量survey_type、gender、nationality、religion、income、floor_area、height_cm、socialize、learn、work_exper、family_income、car、marital的系數(shù)不顯著,反映出該模型包含了過多的解釋變量,使得模型復(fù)雜;LASSO-Logistic模型剔除了16個變量,選擇出13個變量;SCAD-Logistic模型剔除了15個變量,選擇出的變量一共為14個;MCP-Logistic模型剔除了16個變量,選擇出13個重要變量,相比全變量Logistic模型,Scad-logistic,LASSO-Logistic和MCP-Logistic模型變量的選擇更為簡潔,模型稀疏性好。
從解釋性角度看,LASSO-Logistic模型、SCAD-Logistic模型、MCP-Logistic模型在剔除的變量中,其中有15個共同的變量,說明本次研究這15個變量對這三個模型來說均為不重要變量;三個模型保留了12個共同的變量,進(jìn)一步說明了這12個指標(biāo)的重要性。事實(shí)上,宗教信仰、社會的公平性、身體健康狀況、社會地位、家庭地位、與同年齡人的社會經(jīng)濟(jì)地位都會對人們幸福感造成影響。宗教信仰為人們提供價值體系的支柱,對人們進(jìn)行心理調(diào)節(jié),在很大程度上,影響人們的幸福感。“家”是人內(nèi)心深處的根,家庭和諧是社會和諧的基礎(chǔ)與前提,家庭生活滿意度是個人幸福、家庭幸福乃至社會幸福的堅(jiān)實(shí)基石。公平、公正、公開的社會管理制度能夠最大限度的促進(jìn)個體自我價值的實(shí)現(xiàn),也會影響人們的幸福感。
表3 變量選擇和參數(shù)估計
表3 變量選擇和參數(shù)估計(續(xù))
根據(jù)訓(xùn)練集已經(jīng)建立好的模型,利用測試集數(shù)據(jù)分別測試全變量Logistic模型、LASSO-Logistic模型、SCAD-Logistic模型以及MCP-Logistic模型的預(yù)測準(zhǔn)確率,一般使用混淆矩陣來表示二分類問題預(yù)測結(jié)果可能出現(xiàn)的四種情況,準(zhǔn)確率為預(yù)測正確的樣本占總樣本的比重,表示模型整體的預(yù)測效果,準(zhǔn)確率越高表示模型的預(yù)測效果越好,表4給出了四個模型的準(zhǔn)確率,公式如下:
其中TP指的是樣本中原本是幸福,模型預(yù)測出幸福的個數(shù),TN是樣本中原本是不幸福,模型預(yù)測數(shù)不幸福的個數(shù),F(xiàn)P是樣本數(shù)據(jù)中是不幸福,模型預(yù)測出來是幸福的個數(shù),F(xiàn)N是樣本數(shù)據(jù)中原本是幸福的,模型預(yù)測出來是不幸福的個數(shù)。TP+FP+TN+FN為樣本總數(shù)。
根據(jù)表4可見,從模型預(yù)測準(zhǔn)確率上來比較LASSO-Logistic模型、SCAD-Logistic模型和MCPLogistic模型的準(zhǔn)確率要優(yōu)于全變量Logistic模型,準(zhǔn)確率高出5.56%,由于全變量模型保留
表4 模型預(yù)測準(zhǔn)確率比較
了所有變量,模型相對復(fù)雜,難以剔除一些不重要變量,有一定的過擬合現(xiàn)象,使得模型的準(zhǔn)確率低。MCP-Logistic模型的準(zhǔn)確率最高為82.15%,優(yōu)于SCAD-Logistic模型和LASSO-Logistic模型。MCPlogistic模型變量選擇更加稀疏,模型的可解釋性好、準(zhǔn)確率高。因此,從結(jié)果的稀疏性、可解釋性、準(zhǔn)確性三個方面綜合分析,本研究認(rèn)為正則化的Logistic模型更好,特別是MCP-Logistic模型更具優(yōu)勢。
本文結(jié)合LASSO、SCAD、MCP等罰方法和Logistic回歸,構(gòu)建了正則化Logistic模型,并利用該模型對幸福感指數(shù)數(shù)據(jù)進(jìn)行實(shí)證分析。結(jié)果表明,LASSO、SCAD、MCP方法選擇了更加稀疏的模型,并且選擇出12個共同的重要變量;其次在預(yù)測方面,這三種稀疏正則化模型具有更高的準(zhǔn)確度,準(zhǔn)確率相對于全模型高出近6%。