冷原 劉宇翔 遲育涵
分組數(shù)據(jù)Logistic回歸是針對(duì)因變量為定性變量、自變量為分類變量的一種解決方案,加權(quán)最小二乘法可用來(lái)求解該方程,根據(jù)所有的數(shù)據(jù)分析,選取出險(xiǎn)次數(shù),車齡,使用性質(zhì),新車購(gòu)買價(jià),續(xù)保渠道5種因素為續(xù)保的影響因素,以是否續(xù)保為因變量,建立了影響汽車?yán)m(xù)保定性評(píng)價(jià)的分組數(shù)據(jù)Logistic回歸方程,進(jìn)行了回歸方程顯著性檢驗(yàn)和回歸系數(shù)顯著性檢驗(yàn),、最后對(duì)影響汽車?yán)m(xù)保率的因素進(jìn)行定性和定量分析。
數(shù)據(jù)缺失和組合補(bǔ)缺
在實(shí)際工作中, 數(shù)據(jù)的缺失是很正常的情況, 為此需要進(jìn)行數(shù)據(jù)補(bǔ)缺. 為了最大程度地保留原有的決策規(guī)則, 采取組合補(bǔ)缺方法, 即對(duì)缺失的數(shù)據(jù)用該屬性的所有可能的屬性去填, 這樣就形成了多條記錄。
算法介紹
在許多問(wèn)題中,所研究的因變量只有兩個(gè)可能結(jié)果,這樣的因變量可用虛擬變量來(lái)表示,虛擬變量的取值可為0和1。定性因變量回歸存在如下問(wèn)題:離散非正態(tài)誤差項(xiàng),零均值異方差性,回歸方程的限制。對(duì)于普通回歸所具有的上述問(wèn)題,并不能從根本上解決問(wèn)題。采用Logistic回歸可以解決這個(gè)問(wèn)題。假設(shè)要研究現(xiàn)象A發(fā)生的概率 ,并討論 的大小與哪些因素有關(guān)。但由于 對(duì) 的變化在 或 附近不是很敏感,故尋找一個(gè) 的函數(shù) ,使它在 或 附近變化幅度較大,同時(shí)希望 或 。取(1),稱(1)式為對(duì) 施行Logit變換。設(shè)影響 的變量有x ,則Logistic線性回歸模型可表達(dá)為
參數(shù)估計(jì)
設(shè)對(duì)影響 的自變量 觀測(cè)了 組結(jié)果,第 組中共觀測(cè)了 次,其中A發(fā)生了 次。當(dāng)樣本規(guī)模很大時(shí),就有可能計(jì)算其結(jié)果的相對(duì)頻數(shù) ,并以它作為本組事件發(fā)生的概率估計(jì)。即有
式中: 為第 個(gè)自變量在第 組中的取值; 為隨機(jī)誤差。由于對(duì)數(shù)發(fā)生比可以從分組數(shù)據(jù)計(jì)算,故這一回歸模型可以通過(guò)應(yīng)用普通最小二乘法(OLS)來(lái)計(jì)算。先將個(gè)體數(shù)據(jù)按自變量進(jìn)行分組,然后估計(jì)每組的事件概率,再將每組的事件概率估計(jì)轉(zhuǎn)換為對(duì)數(shù)發(fā)生比,并將之作為線性回歸模型的因變量,而這個(gè)線性回歸的自變量全都是分類變量。但(3)式存在異方差性,每組的殘差不僅依賴于本組的事件發(fā)生概率,還依賴于本組的觀測(cè)頻數(shù)。消除異方差性的方法通常有加權(quán)最小二乘法(WLS)、Box-Cox變換方法、方差穩(wěn)定性變換法。本文采用WLS方法進(jìn)行數(shù)據(jù)分析。在WLS估計(jì)模型中,所有的原始變量包括常數(shù)項(xiàng)都進(jìn)行加權(quán)轉(zhuǎn)換,權(quán)數(shù)為殘差項(xiàng)的標(biāo)準(zhǔn)誤差的倒數(shù)。數(shù)據(jù)轉(zhuǎn)換后的OLS模型為
式中: 為權(quán)數(shù); 是轉(zhuǎn)換后的殘差項(xiàng),具有同方差性。
數(shù)據(jù)分析
我們對(duì)所給的數(shù)據(jù)進(jìn)行歸納總結(jié),建立了合理的模型進(jìn)行分析。
我們用Logistic回歸的方法,對(duì)每一輛汽車是否續(xù)保的相關(guān)數(shù)據(jù)進(jìn)行分析和總結(jié),來(lái)獲得續(xù)保率和車險(xiǎn)(出險(xiǎn)次數(shù)),車齡,使用性質(zhì),購(gòu)買價(jià)格,承保渠道等多種因素之間線性和非線性的定量定性關(guān)系。模型中包含五個(gè)變量,分別是出險(xiǎn)次數(shù),車齡,新車購(gòu)買價(jià)格,使用性質(zhì),承保渠道。
采用SPSS11.5分析軟件中 Analyze→Regression→Binary Logistic…進(jìn)行回歸模型分析。回歸方法為向前逐步選擇引入法,即通過(guò)最大似然估計(jì)所得的似然比的概率作為引入變量的標(biāo)準(zhǔn),采取迭代法逐步計(jì)算,直到對(duì)數(shù)似然比不再變化為止。
結(jié)果分析
表 (6) 回歸系數(shù)分析
回歸系數(shù) 標(biāo)準(zhǔn)差. df 顯著水平
常數(shù)項(xiàng) -2.8932 0.0121 1 0.020
變量x1 0.7838 0.0023 1 0.000
變量x2 0.8934 0.021 1 0.085
變量x3 0.3442 0.0312 1 0.032
變量x4 0.4451 0.0212 0.023
變量x5 0.2312 0.0 0.032
這樣可以得到公式(3)中每個(gè)變量的系數(shù)。由上表可以看到,車齡對(duì)p的影響最大,第一步就被引入模型,其次是出現(xiàn)次數(shù)和使用性質(zhì)。隨后我們得到回歸結(jié)果,其參數(shù)估計(jì)以及其統(tǒng)計(jì)檢驗(yàn)如下表(表3),各系數(shù)統(tǒng)計(jì)量檢驗(yàn)的效果顯著。最后由方差分析表可以看出,所有因素的效應(yīng)都是顯著的,且由似然比看出,模型擬合是充分的.
因此綜合上述我們可以得到續(xù)保率與出險(xiǎn)次數(shù),車齡,購(gòu)買價(jià)格,使用性質(zhì),承保渠道之間的關(guān)系,從系數(shù)上我們可以看出,車齡對(duì)續(xù)保率的影響較大,其次是出險(xiǎn)次數(shù)。并可以看出各個(gè)因素中的相關(guān)因素之間的關(guān)系。并且通過(guò)模型回歸性檢驗(yàn),模型擬合是充分的,滿足條件的。
(第一作者單位:吉林大學(xué)經(jīng)濟(jì)學(xué)院;第二作者單位:廈門大學(xué)經(jīng)濟(jì)學(xué)院;第三作者單位:吉林大學(xué)數(shù)學(xué)學(xué)院)
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文