国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

變量選擇方法在醫(yī)療保險(xiǎn)賠付評(píng)估中的應(yīng)用

2014-01-01 02:49徐國(guó)盛趙曉兵
統(tǒng)計(jì)與信息論壇 2014年11期
關(guān)鍵詞:高維降維醫(yī)療保險(xiǎn)

徐國(guó)盛,趙曉兵

(浙江財(cái)經(jīng)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,浙江 杭州310018)

一、引 言

商業(yè)醫(yī)療保險(xiǎn)在社會(huì)醫(yī)療保障體系中占有重要地位,是公費(fèi)醫(yī)療保險(xiǎn)的有益補(bǔ)充。在醫(yī)療保險(xiǎn)中,醫(yī)療費(fèi)用的評(píng)估是保險(xiǎn)理賠的關(guān)鍵環(huán)節(jié)。在某些情況下,醫(yī)療費(fèi)用數(shù)據(jù)的分布具有一定的特殊性,如費(fèi)用數(shù)據(jù)是右偏態(tài)的,刪失和死亡事件時(shí)有發(fā)生等,這使醫(yī)療費(fèi)用的評(píng)估變得困難。

在國(guó)外,醫(yī)療費(fèi)用評(píng)估已成為當(dāng)下的研究熱點(diǎn),定量研究方法被廣泛采用。在國(guó)內(nèi),注重描述性分析和統(tǒng)計(jì)檢驗(yàn)的結(jié)合,楊馥等對(duì)陜西人身保險(xiǎn)市場(chǎng)需求進(jìn)行了描述性分析和相關(guān)統(tǒng)計(jì)檢驗(yàn)[1]。最近幾年,國(guó)外研究者提出了許多量化模型和量化方法來(lái)進(jìn)行醫(yī)療費(fèi)用的估計(jì)和預(yù)測(cè),如經(jīng)驗(yàn)似然方法、混合模型方法及廣義線性模型等。Moran等用廣義線性模型對(duì)醫(yī)療費(fèi)用數(shù)據(jù)進(jìn)行建模并預(yù)測(cè)[2]。在醫(yī)療費(fèi)用數(shù)據(jù)分析中,廣義線性模型是最常用的方法之一。其中的解釋變量可以用來(lái)預(yù)測(cè)未來(lái)的醫(yī)療保險(xiǎn)索賠額度,但如果費(fèi)用數(shù)據(jù)中含有太多的解釋變量,傳統(tǒng)的評(píng)估方法就不再適用。仇春涓和陳滔運(yùn)用廣義線性模型分析了四川和上海的一組醫(yī)療保險(xiǎn)數(shù)據(jù),在分析中假定了已知的聯(lián)系函數(shù),并針對(duì)二十多個(gè)解釋變量,主觀選擇了若干個(gè)變量納入模型分析[3]??紤]到上述方法的不足,趙曉兵和王偉偉采用了一種全新的模型和方法重新分析了這組數(shù)據(jù),即在非參數(shù)聯(lián)系函數(shù)的假設(shè)下,利用充分降維方法尋找高維解釋變量的線性組合,從而達(dá)到降維的目的[4]。但充分降維方法最大的缺陷是很難給予解釋變量的效應(yīng)一個(gè)直觀解釋,因?yàn)檫@個(gè)解釋需要結(jié)合解釋變量效應(yīng)的大小和正負(fù),并且和回歸函數(shù)有關(guān)。針對(duì)以上問(wèn)題,本文提出另外一種降維方法—變量選擇法,用來(lái)分析上述醫(yī)療費(fèi)用數(shù)據(jù)。變量選擇法與主成分分析和因子分析相比,考慮了響應(yīng)變量和解釋變量的關(guān)系,充分利用響應(yīng)變量的信息,該方法也是目前研究高維數(shù)據(jù)的熱點(diǎn)方法之一。與充分降維方法相比較,變量選擇法的最大優(yōu)點(diǎn)是可以給予解釋變量的效應(yīng)很直觀的解釋。

本文采用Lin的模型對(duì)醫(yī)療費(fèi)用數(shù)據(jù)進(jìn)行變量選擇[5]。Lin模型中可以假設(shè)聯(lián)系函數(shù)是非參數(shù)或者半?yún)?shù)的,再利用穩(wěn)健的變量選擇方法。但是本文主要關(guān)心的是變量選擇方法,所以仍然假設(shè)聯(lián)系函數(shù)是參數(shù)化的。這樣的模型有兩個(gè)特點(diǎn):一是可以允許高維附加信息的存在,二是可以給解釋變量的效應(yīng)直觀的解釋,這是充分降維無(wú)法達(dá)到的。

二、模型與方法

假設(shè)因變量為醫(yī)療保險(xiǎn)賠付金額Yi,i=1,2,…,n,解釋變量為影響醫(yī)療保險(xiǎn)賠付的因素,如性別,年齡,住院天數(shù),醫(yī)療費(fèi)用等)。由于醫(yī)療費(fèi)用數(shù)據(jù)通常具有偏態(tài)性,因此采用Lin提出的模型,其模型如下:

針對(duì)以上模型,變量選擇方法不僅可以達(dá)到降維目的,又能賦予模型良好的解釋性,成為目前廣泛使用的降維方法之一,具體如下:

LASSO變量選擇方法。LASSO是Tibshirani提出,該方法應(yīng)用絕對(duì)值函數(shù)作為懲罰項(xiàng),壓縮模型系數(shù),保留重要的變量[6]。在廣義線性模型中,響應(yīng)變量分布屬于指數(shù)分布族,密度為。其中,。記^是廣義線性模型的最大似然估計(jì),那么)的LASSO估計(jì)可由以下目標(biāo)函數(shù)得到[7]:

SCAD方法。Fan和Li提出了一種新的懲罰函數(shù)SCAD,它具有oracle性質(zhì)[8]。在SCAD方法中,對(duì)于所有的j,懲罰函數(shù)項(xiàng)不都是完全一致的。SCAD的懲罰函數(shù)為:

將目標(biāo)函數(shù)最小化就可以得到估計(jì)值^β。為了優(yōu)化計(jì)算,根據(jù)函數(shù)的單調(diào)性,構(gòu)造如下目標(biāo)函數(shù)進(jìn)行變量選擇:

LASSO算法。對(duì)于伽馬分布廣義線性模型,選擇的連接函數(shù)為,據(jù)此構(gòu)造目標(biāo)函數(shù):

使目標(biāo)函數(shù)達(dá)到最小,就可以得到經(jīng)過(guò)LASSO壓縮過(guò)的β估計(jì)值。根據(jù)函數(shù)近似逼近的方法,對(duì)目標(biāo)函數(shù)進(jìn)行逼近,進(jìn)而得到如下算法[9]:

Step 1:通過(guò)如下目標(biāo)函數(shù)求得無(wú)懲罰的估計(jì)

不斷重復(fù)Step 2,使相鄰兩次迭代之間的差異充分小。這樣,最終得到了β的LASSO估計(jì)。

SCAD算法。根據(jù)廣義線性模型的Gamma分布,構(gòu)造目標(biāo)函數(shù):

然后運(yùn)用SCAD算法計(jì)算,使目標(biāo)函數(shù)最小化,選擇影響醫(yī)療賠付的重要變量。在這里采用了one-step LLA算法[10]。在此方法中,借鑒了最小角回歸(LARS)的思想。

參數(shù)的選取。在LASSO算法中,根據(jù)BIC準(zhǔn)則選擇,借鑒 Wang和趙為華的做法是λj=0的無(wú)懲罰估計(jì)[9]。SCAD算法中,取 。同時(shí),對(duì),令,相應(yīng)的解釋變量被剔除。最終的解釋變量被選入模型。

三、數(shù)值模擬

運(yùn)用前文的Gamma廣義線性模型進(jìn)行模擬。Yi~Gamma分布的密度函數(shù)為:

且μi=E(yi),即:

例一:令β= (11,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)T并 且 用 正 態(tài) 分布產(chǎn)生隨機(jī)數(shù)構(gòu)成X,X是d×n矩陣,令d=30,n=50,100,150。

當(dāng)i=1時(shí),;當(dāng)時(shí),。運(yùn)用LASSO,SCAD方法對(duì)其進(jìn)行變量選擇。

通過(guò)表1可以看出,LASSO和SCAD方法對(duì)變量的選擇都很顯著,具有較強(qiáng)穩(wěn)定性。在小樣本下,變量選擇的效果依然很好。

表1 LASSO,SCAD變量選擇的表

表1 LASSO,SCAD變量選擇的表

LASSOSCAD β1 β2~β30 β1 β2~β30 n=5013.64504.0120(1.18)-(12.29)-n=10012.808010.4800(0.83)-(1.026)-n=15012.267010.4800(0.70)-(1.026) -

例二:取β= (17,-5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)T,X為d×n(d=40,n=50,100,150)矩陣,其中有。

通過(guò)表2與表3可以看出,對(duì)服從兩點(diǎn)分布的解釋變量進(jìn)行變量選擇,兩種方法都具有良好效果,但SCAD方法的穩(wěn)定性較強(qiáng)。在小樣本條件下,變量選擇效果仍然良好。

表2 LASSO變量選擇的表

表2 LASSO變量選擇的表

β1 β2 β3~β40 8530(0.16)(0.18)-n=1007.159-4.8810(0.13)(0.17)-n=1507.114-4.8840(0.17)(0.15)n=507.180-4.-

表3 SCAD變量選擇的表

表3 SCAD變量選擇的表

β1 β2 β3~β40 5180(1.40)(1.25)-n=1005.602-2.2230(1.16)(1.30)-n=1506.084-3.2510(1.03)(1.16)n=504.607-0.-

例三:令β= (5,5,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)T,并且用正態(tài)分布產(chǎn)生隨機(jī)數(shù)構(gòu)成X,X是d×n(d=50,n=50,100,150)矩陣,其中,。

由表4及表5可以看出,LASSO和SCAD方法對(duì)于變量的選擇作用都很顯著。隨著樣本的增大,CAD算法選擇依然精確,標(biāo)準(zhǔn)差逐漸減小,穩(wěn)定性增強(qiáng);LASSO方法隨著樣本的增大,標(biāo)準(zhǔn)差略微增大,但穩(wěn)定性依然比SCAD方法好。

表4 LASSO變量選擇的表

表4 LASSO變量選擇的表

β1 β2 β3 β4~β50 4550(0.88)(0.93)(1.01)-n=1004.7974.9144.8070(0.50)(0.44)(0.53)-n=1504.8644.9074.9050(0.50)(0.45)(0.53)n=504.6144.4824.-

表5 SCAD變量選擇的表

表5 SCAD變量選擇的表

β1 β2 β3 β4~β50 1340(2.52)(2.20)(3.19)-n=1001.7871.6211.8620(2.01)(1.76)(1.76)-n=1502.5482.2982.5200(1.73)(1.47)(1.50)n=500.1640.8341.-

下面針對(duì)變量選擇選出的變量,進(jìn)行系數(shù)的估計(jì)。同樣的,在樣本數(shù)為n=50,100,150的情況下分別求得最大似然估計(jì),得到的均值和標(biāo)準(zhǔn)差。

表6 選擇變量的的均值和標(biāo)準(zhǔn)差表

表6 選擇變量的的均值和標(biāo)準(zhǔn)差表

β1 β2 β3 688(2.43)(2.24)(2.29)n=1004.9505.1435.201(1.46)(1.42)(1.50)n=1505.0615.1074.943(1.20)(1.67)(1.07)n=504.8714.6134.

四、實(shí)例分析

在醫(yī)療保險(xiǎn)賠付研究中,人們常關(guān)心兩個(gè)變量,一是賠付金額,二是影響賠付的重要因素(變量)。識(shí)別因素在醫(yī)療保險(xiǎn)賠付中的效應(yīng)是一個(gè)基本的任務(wù)。利用前面的模型和方法來(lái)分析2008年某商業(yè)保險(xiǎn)公司在上海和四川兩地推廣的一種醫(yī)療保險(xiǎn)險(xiǎn)種的理賠數(shù)據(jù),尋找影響醫(yī)療保險(xiǎn)賠付的重要因素。由于該組數(shù)據(jù)被不同研究者分析過(guò),使用該組數(shù)據(jù)便于與其他研究者的結(jié)果進(jìn)行比較,進(jìn)一步顯示本文方法的有效性。其次,由于本文提出的模型和變量選擇方法較為簡(jiǎn)便,因此它在未來(lái)的醫(yī)療保險(xiǎn)賠付研究中具有廣泛的借鑒性。

仇春娟等根據(jù)經(jīng)驗(yàn)選出了重要變量,并進(jìn)行了實(shí)證,由于是根據(jù)經(jīng)驗(yàn)主觀選擇,并不能把所有關(guān)鍵信息納入決策,可能遺漏重要變量[3]。趙曉兵等運(yùn)用切片逆回歸達(dá)到了降維目的,充分考慮了高維附加信息,但模型缺乏良好的解釋性[4]。本文中使用同樣的廣義線性模型分析該數(shù)據(jù)。通過(guò)LASSO,SCAD變量選擇方法進(jìn)行變量選擇,不僅達(dá)到降維的目的,選擇出重要的解釋變量,保留關(guān)鍵信息,并且賦予模型更好的解釋性。

選取響應(yīng)變量是一份醫(yī)療保險(xiǎn)合同在一個(gè)固定保險(xiǎn)期內(nèi)的最終賠款額,即實(shí)賠金額。解釋變量為大部分可能的影響因素,共21個(gè)。

由表7可知,LASSO和SCAD選擇結(jié)果十分接近。通過(guò)LASSO選擇后,主要的解釋變量為醫(yī)院級(jí)別,賬單金額,護(hù)理費(fèi)。通過(guò)SCAD選擇后,主要的解釋變量是醫(yī)院級(jí)別,賬單金額,診療費(fèi)。接下來(lái)對(duì)選出變量的系數(shù)分別估計(jì)。采用極大似然法求解相應(yīng)的,如下表:

表7 基于LASSO和SCAD方法的^β

表8 LASSO選擇變量的系數(shù)表

表9 SCAD選擇變量的系數(shù)

據(jù)此,得到以下結(jié)論:

1.醫(yī)院級(jí)別。通過(guò)圖1可以看出,雖然第二等級(jí)的醫(yī)院箱體較第一等級(jí)的醫(yī)院箱體下降,可以認(rèn)為這是由于去第一等級(jí)醫(yī)院就診的樣本較少,不能反映總體性質(zhì)。總體上來(lái)看,醫(yī)院級(jí)別越高,實(shí)際賠償金額也增高。醫(yī)院級(jí)別的估計(jì)系數(shù)在LASSO方法和SCAD方法下分別為36.64,39.20,是正相關(guān)的,所以醫(yī)院級(jí)別是一個(gè)重要影響變量,這是與實(shí)際相符的。這一結(jié)果與仇春娟和趙曉兵的結(jié)論一致。

圖1 醫(yī)院等級(jí)箱型圖

2.住院時(shí)間。一般情況下,住院時(shí)間越長(zhǎng),賠付金額應(yīng)該越高。但是由于其他因素的影響,如放射費(fèi)用,手術(shù)費(fèi)用等,個(gè)體可能在較短的住院時(shí)間內(nèi)花費(fèi)較高費(fèi)用,進(jìn)而使住院時(shí)間的影響因素變得不顯著。這一結(jié)果與趙曉兵相同,而與仇春娟的不同。

3.年齡。該保險(xiǎn)數(shù)據(jù)是根據(jù)案件性質(zhì)(如疾病,意外傷害程度)進(jìn)行賠償,并且由于研究對(duì)象都是60歲以下,低齡兒童占有很大比重,所以年齡因素并不顯著。這一結(jié)果與兩位學(xué)者是相同的,也做了充分的解釋。

4.保障檔次。這與兩位學(xué)者的結(jié)果均不相同。一般情況下,保障檔次越高,賠付金額越高。在本文中的保險(xiǎn)數(shù)據(jù)中,大多數(shù)保障檔次為1檔,但由于案件或疾病的嚴(yán)重性,造成賠付較高。即使為更高的檔次,也因?yàn)榘讣男再|(zhì)并不是特別嚴(yán)重而使賠償金額較少。因此,保障檔次的影響并不顯著。

5.性別。變量選擇的結(jié)果說(shuō)明性別不是顯著因素。這與仇春娟的結(jié)論相同,與趙曉兵的不同。

6.賬單總金額。這一因素在兩位學(xué)者中都未被提及,但通過(guò)本文的變量選擇,卻成為重要的影響因素,因?yàn)樗税讣?yán)重程度等重要信息,賬單總金額較高,則說(shuō)明案件性質(zhì)嚴(yán)重,導(dǎo)致實(shí)賠金額較多。圖2是對(duì)賬單總金額和實(shí)際賠付金額所做的散點(diǎn)圖,并用局部回歸進(jìn)行擬合,核函數(shù)取高斯核K,窗寬h通過(guò)交叉驗(yàn)證選取,進(jìn)而來(lái)研究?jī)烧咧g的關(guān)系。

圖2 賬單金額的散點(diǎn)平滑圖

通過(guò)圖3可以看出,隨著賬單總金額的增加,實(shí)賠金額的增加是十分明顯的,并且,在LASSO方法和SCAD方法下,估計(jì)系數(shù)分別為39.20,36.17,具有較強(qiáng)的正相關(guān)性。因此,賬單金額是影響實(shí)際賠付的重要因素。

圖3 護(hù)理費(fèi)和診療費(fèi)的散點(diǎn)平滑圖

7.護(hù)理費(fèi)和診療費(fèi)。這兩個(gè)因素在兩位學(xué)者研究中未提到,但通過(guò)本文的變量選擇,成為重要的影響因素。在這里,對(duì)于具有相同護(hù)理費(fèi)或診療費(fèi)的個(gè)體,取其實(shí)賠金額的均值進(jìn)行作圖,用局部回歸進(jìn)行擬合,核函數(shù)取高斯核,窗寬h通過(guò)交叉驗(yàn)證選取。

通過(guò)圖4,發(fā)現(xiàn)護(hù)理費(fèi)和診療費(fèi)在一定程度上增加,說(shuō)明案件或疾病較為嚴(yán)重,引起醫(yī)療費(fèi)用較高,進(jìn)而造成實(shí)際賠付較高。從圖中可以看出,圖5(a)的橫坐標(biāo)范圍明顯大于圖5(b)的橫坐標(biāo)范圍,兩圖的縱坐標(biāo)范圍基本相同。因此,診療費(fèi)對(duì)實(shí)賠金額的正效應(yīng)較大,這也可以從估計(jì)系數(shù)上得出,護(hù)理費(fèi)和診療費(fèi)的估計(jì)系數(shù)分別為0.12,7.47??梢?jiàn),通過(guò)變量選擇選出了具有更好解釋性的變量,較Zhang Riquan采用的充分降維具有一定的優(yōu)勢(shì)[9]。

五、結(jié) 論

采用Lin的醫(yī)療費(fèi)用模型,運(yùn)用變量選擇(LASSO,SCAD)方法,解決了高維變量帶來(lái)的一系列問(wèn)題。運(yùn)用LASSO,SCAD選出了重要的影響變量,對(duì)選出的重要變量進(jìn)行系數(shù)的估計(jì),不僅達(dá)到了變量選擇的目的,保留了高維數(shù)據(jù)的附加信息,并且給予模型良好的解釋性。這就賦予估計(jì)系數(shù)一定的含義,同時(shí)不因?yàn)橹饔^原因遺漏重要的解釋變量。傳統(tǒng)的主成分分析和因子分析,僅僅就解釋變量的相關(guān)矩陣做譜分解,沒(méi)有考慮解釋變量和響應(yīng)變量之間的關(guān)系,而變量選擇充分考慮了這一關(guān)系,利用了響應(yīng)變量的信息。因此,本文給出了處理高維醫(yī)療費(fèi)用數(shù)據(jù)的一種有效方法。在本文中,主要研究的是醫(yī)療保險(xiǎn)的索賠額度,并沒(méi)有考慮索賠次數(shù)的問(wèn)題。另外,與其他文獻(xiàn)一樣,對(duì)響應(yīng)變量做了某種參數(shù)假設(shè),這也是變量選擇方法的一個(gè)主要局限。最近已經(jīng)有文獻(xiàn)討論穩(wěn)健變量選擇的半?yún)?shù)和非參數(shù)方法,以后我們也將考慮用穩(wěn)健變量選擇方法來(lái)分析醫(yī)療保險(xiǎn)索賠額度等相關(guān)問(wèn)題。

[1] 楊馥,劉珺.“十二五”期間陜西人身保險(xiǎn)市場(chǎng)需求變化研究[J].西安財(cái)經(jīng)學(xué)院學(xué)報(bào),2012(1).

[2] Moran J L,Solomon P J,Aaron P R.New Models for Old Questions:Generalized Linear Models for Cost Prediction[J].Journal of Evaluation in Clinical Practice,2007(3).

[3] 仇春娟,陳滔.商業(yè)醫(yī)療保險(xiǎn)損失分析:基于廣義線性模型的實(shí)證研究[J].應(yīng)用概率統(tǒng)計(jì),2012(4).

[4] 趙曉兵,王偉偉.高維附加信息下的商業(yè)醫(yī)療保險(xiǎn)費(fèi)用評(píng)估模型和方法[J].財(cái)經(jīng)論叢,2013(4).

[5] Lin D Y.Regression Analysis of Incomplete Medical Cost Data[J].Statistics in Medicine,2003(7).

[6] Tibshirani R.Regression Shrinkage and Selection via the Lasso[J].Journal of the Royal Statistical Society,1996(1).

[7] Zou Hui.The Adaptive Lasso and Its Oracle Properties[J].Journal of the american Statistical Association,2006(476).

[8] Fan Jianqing,Li Runze.Variable Selectionvia Nonconcave Penalized Likelihood And Its Oracle Properties[J].Journal of the American Statistical Association,2001(456).

[9] Zhang Riquan,Zhao Weihua,Liu Jicai.Robust Estimation and Variable Selection for Semiparametric Partially Linear Varying Coefficient Model Based on Modal Regression[J].Journal of Nonparametric Statistics,2013(2).

[10]Zou Hui,Li Runze.One-Step Sparse Estimates in Nonconcave Penalized Likelihood Models[J].The Annals of Statistics,2008(4).

猜你喜歡
高維降維醫(yī)療保險(xiǎn)
有向圖上高維時(shí)間序列模型及其在交通網(wǎng)絡(luò)中的應(yīng)用
混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降維打擊
高維洲作品欣賞
基于矩陣模型的高維聚類邊界模式發(fā)現(xiàn)
“三醫(yī)聯(lián)動(dòng)”下醫(yī)療保險(xiǎn)新走向
中國(guó)商業(yè)醫(yī)療保險(xiǎn)的增長(zhǎng)軌道
一種改進(jìn)的稀疏保持投影算法在高光譜數(shù)據(jù)降維中的應(yīng)用
降低醫(yī)療保險(xiǎn)拒付率
射阳县| 个旧市| 瑞金市| 封开县| 当涂县| 鄂托克前旗| 磐安县| 拉孜县| 弋阳县| 东源县| 青河县| 合肥市| 黄石市| 都匀市| 家居| 博野县| 宜都市| 长垣县| 宝丰县| 东海县| 大庆市| 依兰县| 苗栗县| 麻栗坡县| 武宣县| 临江市| 巴里| 扶余县| 临夏市| 阳山县| 馆陶县| 新宁县| 梁河县| 洞口县| 大厂| 涟水县| 奉节县| 共和县| 崇州市| 沙坪坝区| 竹溪县|