李亞男,仇麗霞,李合欣*,趙麗娟
(1山西醫(yī)科大學(xué)附屬人民醫(yī)院婦產(chǎn)科,太原 030012;2山西醫(yī)科大學(xué)統(tǒng)計(jì)學(xué)教研室;*通訊作者,E-mail:851245745@qq.com)
在分類資料影響因素的研究中,我們常采用SPSS軟件進(jìn)行l(wèi)ogistic回歸分析,如果應(yīng)變量為二分類變量,利用SPSS軟件binary logistic過程實(shí)現(xiàn),默認(rèn)應(yīng)變量賦值水平低者為參照水平且不可選擇,默認(rèn)分類自變量賦值最大者為參照水平[1],也可自行選擇賦值最低者為參照水平,采用向前、向后或逐步篩選的方法建立最優(yōu)的二值logistic回歸模型[2,3]。但如果應(yīng)變量是多項(xiàng)無序分類,SPSS軟件multi logistic過程不能對變量進(jìn)行篩選,只能建立全模型,而實(shí)際應(yīng)用中,希望建立最優(yōu)回歸模型;而且該過程參照水平的設(shè)置、結(jié)果的輸出都有別于二值logistic回歸過程,其參數(shù)的解釋難度更大[4,5]。本文利用山西省育齡人群二孩生育意愿的調(diào)查資料,建立無序多分類logistic回歸模型,闡述利用SPSS26.0軟件構(gòu)建最優(yōu)模型的建模策略及參數(shù)估計(jì)值的意義,為研究者提供SPSS軟件實(shí)現(xiàn)的策略和參數(shù)解釋的實(shí)例范本。
收集2020年9月至2020年11月運(yùn)用“問卷星”對山西省11個(gè)地市已育一孩的在婚、18-49周歲山西籍育齡人群二孩生育意愿及影響因素的調(diào)查數(shù)據(jù),其中,已育一孩的在婚育齡人群共1 282人,有二孩生育意愿的410人。將調(diào)查對象的人口學(xué)特征共10個(gè)指標(biāo)作為自變量(Xj),以二孩生育意愿作為因變量(Y1),變量賦值見表1,進(jìn)行無序多分類logistic回歸分析。
表1 已育一孩在婚育齡人群的二孩生育意愿及影響因素賦值
1.2.1 無序多分類的廣義logit模型 已育一孩在婚育齡人群的二孩生育意愿為:愿意、不確定、不愿意3個(gè)類別,以不愿意為參照,轉(zhuǎn)化為2個(gè)二值logistic回歸模型,稱為廣義logit模型,分別為:
β愿意0、β不確定0分別為對應(yīng)模型的常數(shù)項(xiàng),β愿意j、β不確定j分別為對應(yīng)模型各自變量的回歸系數(shù),實(shí)際應(yīng)用中,根據(jù)回歸系數(shù)的符號,定性地描述自變量與應(yīng)變量間的關(guān)系。
1.2.2 參照水平設(shè)置 由SPSS26.0軟件Multi logistic過程實(shí)現(xiàn),應(yīng)變量置于Dependent框中,默認(rèn)賦值最大者為參照水平,也可自行選擇,本文以賦值最小的不愿意生育二孩為參照水平;分類的自變量置于Factor框中,默認(rèn)賦值最大者為參照水平,無自行設(shè)置選項(xiàng),并以啞變量方式處理;變量賦值見表1。
1.2.3 建模策略 本例調(diào)查數(shù)據(jù)中,可能與二孩生育意愿有關(guān)的影響因素共10個(gè),我們希望建立與生育意愿有關(guān)的最優(yōu)模型,但SPSS軟件不能對變量篩選,因此,本文借助后退法的篩選變量的方法建立最優(yōu)模型[2],這也是手動操作易于實(shí)現(xiàn)的。首先建立包含10個(gè)自變量的全模型,在α=0.05水準(zhǔn)上,將P值最大的變量從模型中剔除,重新建立m-1個(gè)變量的模型,循環(huán)此過程,按照P值從大到小逐步向后剔除,直到其中一個(gè)廣義logit模型內(nèi)的變量在0.05水準(zhǔn)上有顯著性,本文只報(bào)告最后剔選的結(jié)果,中間過程不報(bào)告。
1.2.4 模型擬合效果評價(jià) Pearson卡方檢驗(yàn),當(dāng)P>0.05時(shí)認(rèn)為模型擬合效果好。
本次共調(diào)查1 282名已育一孩的在婚育齡人群,410人(32.0%)愿意生育二孩,582人(45.4%)不愿意,290人(22.6%)不確定。
由表2可知:調(diào)查對象的年齡、居住地、戶口性質(zhì)、文化程度、月收入、是否獨(dú)生子女及一孩的照顧者與二孩生育意愿有關(guān)。低于40歲已育一孩的在婚育齡人群,愿意生育二孩和不確定的比例大,40歲以上者不愿意生育二孩的比例大;農(nóng)村、農(nóng)業(yè)戶口、初高中文化水平、月收入低于2 000元及無固定月收入的育齡人群更愿意生育二孩;非獨(dú)生子女、一孩由爺爺、奶奶及保姆照顧的育齡人群二孩生育意愿更高;月收入4 001-6 000元、大學(xué)本科學(xué)歷的育齡人群二孩生育意愿最低;一孩由姥姥、姥爺照顧二孩生育意愿最低;性別、家庭模式及一孩的性別3個(gè)人口學(xué)特征其二孩生育意愿差異無統(tǒng)計(jì)學(xué)意義。
表2 1 282名已育一孩在婚育齡人群生育二孩的意愿比較
采用后退法建立無序多分類logistic回歸模型,由于本例樣本例數(shù)較大,首先將10個(gè)人口學(xué)因素建立全模型,在此基礎(chǔ)上,按照P值從大到小逐步向后剔除,直到其中一個(gè)廣義logit模型內(nèi)的變量在0.05水準(zhǔn)上有顯著性。
包含4個(gè)自變量的無序多分類廣義logit模型的似然比檢驗(yàn)χ2=168.703,P<0.001,說明該回歸模型有顯著性,擬合效果良好;模型擬合優(yōu)度Pearson的χ2=247.376,P=0.157,也顯示模型擬合優(yōu)度較好。由表3可知,調(diào)查對象的性別、戶口性質(zhì)、文化程度、是否獨(dú)生子女、家庭模式及一孩性別共6個(gè)變量被剔除模型,兩個(gè)廣義logit模型內(nèi)均不含這6個(gè)變量,即這6個(gè)變量不影響調(diào)查對象的二孩生育意愿。第一個(gè)廣義logit模型為愿意生育二孩的結(jié)果,包括年齡、居住地、月收入和一孩照顧者,即該4個(gè)變量與愿意生育二孩有關(guān)。第二個(gè)廣義logit模型為不確定生育二孩的結(jié)果,有顯著性的變量只有年齡和居住地。
表3 二孩生育意愿無序多分類Logistic回歸參數(shù)估計(jì)
以不愿意生育二孩為對照,愿意生育二孩的廣義logit模型輸出顯示:在α=0.05水準(zhǔn)上,年齡、居住地、月收入和一孩照顧者共4個(gè)變量均與愿意生育二孩有關(guān);與41-49歲高年齡段相比,26-30歲、31-35歲、36-40歲育齡人群愿意生育二孩的可能性分別是40-49歲育齡人群的1.893倍、2.827倍、3.395倍,而18-25歲組與40-49歲組無統(tǒng)計(jì)學(xué)差異;農(nóng)村的育齡人群愿意生育二孩的可能性是城鎮(zhèn)的2.331倍;月收入在2 000元以上的4個(gè)收入段的育齡人群愿意生育二孩的可能性分別是無固定月收入人群的44.1%,38.1%,34.3%和47.4%,而小于2 000元的低收入人群與無固定月收入人群愿意生育二孩的可能性無統(tǒng)計(jì)學(xué)差異,即低收入和無固定月收入者生育二孩的意愿更高。由爺爺奶奶照顧一孩的二孩生育意愿比自己照顧孩子的提高了46.9%??傊?26-40歲的3個(gè)年齡段、來自農(nóng)村、低收入和無固定月收入者、爺爺奶奶照顧一孩的人群生育二孩的意愿更高,分別比對照水平提高了89.3%、1.827倍、2.395倍、1.331倍、1.268倍、1.625倍、1.915倍、1.110倍、46.9%,基本波動在0.469-2.395倍間。
愿意生育二孩的廣義logit模型表達(dá)為:
logitP愿意/不愿意=-0.564+0.956X18-25歲+0.638X26-30歲+1.039X31-35歲+1.222X36-40歲+0.846X居住地-0.308X<2 000元-0.818X2 000~4 000-0.966X4 001~6 000-1.070X6 001~8 000-0.746X>8 000元+0.385X爺爺/奶奶-0.061X姥姥/姥爺+0.737X保姆
對于一名35歲的城鎮(zhèn)人口、其月收入為4 500元、自己照顧一孩,那么愿意生育二孩的logitP為:
logitP愿意/不愿意=-0.564+0.956×0+0.638×0+1.039×1+1.222×0+0.846×2-0.308×0-0.818×0-0.966×1-1.070×0-0.746×0+0.385×0-0.061×0+0.737×0=1.201
其愿意生育二孩的概率P=0.769。
以不愿意生育二孩為對照,不確定生育二孩的廣義logit模型輸出顯示:在α=0.05水準(zhǔn)上,年齡和居住地與不確定生育二孩有關(guān)。與41-49歲高年齡段相比,18-25歲、26-30歲、31-35歲、36-40歲育齡人群的二孩生育意愿不確定的可能性分別比41-49歲育齡人群高17.304倍、4.922倍、3.742倍和2.081倍,即年齡段越低,二孩生育意愿不確定的可能性越大。農(nóng)村育齡人群二孩生育意愿不確定性比城鎮(zhèn)高80.7%,或者說城鎮(zhèn)不愿意生育二孩的可能性更高。而月收入、一孩照顧者與不確定生育二孩的意愿無關(guān)。
不確定生育二孩的廣義logit模型表達(dá)為:
logitP不確定/不愿意=-1.866+2.907X18-25歲+1.779X26-30歲+1.556X31-35歲+1.125X36-40歲+0.592X居住地-0.013X<2 000元-0.282X2 000~4 000-0.557X4 001~6 000-0.270X6 001~8 000-0.378X>8 000元+0.232X爺爺奶奶+0.200X姥姥姥爺+0.016X保姆
注意:雖然不確定生育二孩的廣義logit模型中僅有年齡、居住地有顯著性,但模型的表達(dá)仍然要包含月收入和一孩照顧者這兩個(gè)沒有顯著性的參數(shù)估計(jì)結(jié)果。
對于一名45歲的農(nóng)村人口、無固定月收入、自己照顧一孩,那么不確定生育二孩的logitP為:
logitP不確定/不愿意=-1.866+2.907×0+1.779×0+1.556×0+1.125×0+0.592×1-0.013×0-0.282×0-0.557×0-0.270×0-0.378×0+0.232×0+0.200×0+0.016×0=-1.274
其不確定生育二孩的概率P=0.219。
利用SPSS軟件進(jìn)行無序多分類logistic回歸分析時(shí),可以借用后退法的思想對變量進(jìn)行篩選[6],即在全模型的基礎(chǔ)上,手動將P值最大的變量剔除模型,剩余變量重新建模,循環(huán)此過程,直到某一廣義logit模型內(nèi)各變量的P值小于或等于0.05,注意,此時(shí)其他廣義logit模型內(nèi)各變量不一定都具有顯著性。根據(jù)各廣義logit模型的回歸系數(shù)與OR值以及自變量的參照水平,對參數(shù)的實(shí)際意義進(jìn)行解釋;對于同時(shí)寫出各廣義logit模型,將多分類的自變量以啞變量[7]的形式代入模型計(jì)算預(yù)測概率。