国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

相依有序數(shù)據(jù)下分層阿基米德Copula模型的研究

2022-06-29 09:47:30靜,關(guān)
關(guān)鍵詞:生成元阿基米德相依

田 靜,關(guān) 靜

(天津大學(xué) 數(shù)學(xué)學(xué)院,天津 300350)

有序多分類變量在社會(huì)學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)、環(huán)境、工業(yè)等各種領(lǐng)域中經(jīng)常出現(xiàn)。例如,在醫(yī)學(xué)領(lǐng)域中,是否患病為二分類變量(患病為1,健康為0),患病程度為多分類有序變量(重度貧血4、中度貧血3、輕度貧血2、正常1、血紅蛋白增高0);心理測(cè)試中,將人的壓力視為三分類的有序變量,0表示沒有,1表示輕度,2 表示重度;調(diào)查研究中,將人們對(duì)生活的滿意度、自我評(píng)價(jià)或健康等級(jí)等看作多分類(0,1,2,…)的有序變量。有序多分類變量在研究中引起許多統(tǒng)計(jì)學(xué)者的興趣。在對(duì)這類變量進(jìn)行相關(guān)性分析時(shí),相依變量的多元聯(lián)合分布建模是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。變量之間的相依關(guān)系往往具有復(fù)雜的結(jié)構(gòu),并受到嚴(yán)格的約束,這使得模型參數(shù)的可行性估計(jì)難以獲得。在所有的建模方法中,Copula模型已經(jīng)成為一種流行的數(shù)據(jù)建模方法[1-2]。它允許從邊緣分布中分離相依結(jié)構(gòu),從而成為一個(gè)靈活和強(qiáng)大的相依數(shù)據(jù)的分析工具。隨著Copula理論的不斷發(fā)展和壯大,Copula函數(shù)衍生出多種類型,常用的有橢圓Copula和阿基米德Copula[3]。橢圓Copula 族雖然也提供了靈活的相依結(jié)構(gòu),可以刻畫正相關(guān)和負(fù)相關(guān),但它們沒有封閉形式的聯(lián)合分布函數(shù)。因此,在高維情況下推導(dǎo)聯(lián)合概率時(shí)面臨著重復(fù)進(jìn)行高維積分的問題。阿基米德Copula函數(shù)族雖然避免了高維積分的問題,但是模型中變量的相關(guān)結(jié)構(gòu)是對(duì)稱可交換的,所有的隨機(jī)變量之間具有相同的相關(guān)性。這種假設(shè)在變量間的相依結(jié)構(gòu)非對(duì)稱時(shí)顯然表現(xiàn)出一定的局限性。為此,我們考慮使用分層(也稱為嵌套)的阿基米德Copula模型[4]。

Joe[4]首次提出了分層阿基米德Copula(HAC)模型,允許非對(duì)稱性和更多靈活性,可以很容易地納入許多已知的模型來(lái)處理廣泛的相依關(guān)系。HAC模型的基本思想是構(gòu)建阿基米德Copula的分層結(jié)構(gòu),即從底層開始將邊緣分布函數(shù)連結(jié)形成阿基米德Copula,逐級(jí)構(gòu)建,最后終止于頂層。變量間的相關(guān)性和描述其關(guān)系大小的Copula參數(shù)隨HAC層級(jí)的增加遞減。根據(jù)這種思想,Bernardi等[5]利用分層阿基米德Copula研究了投資組合中各風(fēng)險(xiǎn)的相關(guān)結(jié)構(gòu)在風(fēng)險(xiǎn)管理中的重要性。Wójcik 等[6]對(duì)分層阿基米德Copula 在巨災(zāi)風(fēng)險(xiǎn)上的應(yīng)用進(jìn)行了研究。Brechmann[7]推導(dǎo)了帶有阿基米德生成元的分層Kendall Copula的性質(zhì),并將其應(yīng)用于德國(guó)的股票收益。C?té和Genest[8]利用分層Copula來(lái)分析加拿大保險(xiǎn)公司8個(gè)汽車和財(cái)產(chǎn)保險(xiǎn)投資組合之間的關(guān)系,顯示了分層阿基米德Copula模型在精算領(lǐng)域的適用性,為風(fēng)險(xiǎn)聚合和資本分配提供了有效的方法。Deng 和Chaganty[9]利用分層阿基米德Copula 來(lái)探討家庭成員間患病與否的相關(guān)性,初步探索了針對(duì)二分類數(shù)據(jù)的HAC模型的構(gòu)建。Li和Lu[10]利用HAC來(lái)捕捉引起死亡的相互競(jìng)爭(zhēng)的病因之間的相依性,并評(píng)估了降低或消除癌癥致死率對(duì)預(yù)期壽命的影響,為保險(xiǎn)業(yè)務(wù)和養(yǎng)老金系統(tǒng)管理提供了重要的見解。Cossette等[11]構(gòu)造了保險(xiǎn)索賠頻率和索賠支出的分層阿基米德Copula模型,推導(dǎo)出評(píng)估保險(xiǎn)索賠總額的計(jì)算新方法,更好地構(gòu)建了集合風(fēng)險(xiǎn)的相依性模型。

從現(xiàn)有文獻(xiàn)來(lái)看,基于相依有序多分類變量的分層阿基米德Copula模型的研究較少,并且大部分HAC的建立仍是基于同一族的生成元,未能用不同族的生成元反映異質(zhì)性變量間的非對(duì)稱相關(guān)。鑒于此,本文利用組合HAC模型來(lái)分析有序多分類數(shù)據(jù)。首先通過潛變量建模得到有序邊際的邊緣概率模型,進(jìn)而構(gòu)造基于HAC的非對(duì)稱相依模型,并給出兩步極大似然估計(jì)法[12-13]來(lái)估計(jì)模型參數(shù)。然后通過Monte Carlo模擬來(lái)展示組合HAC在參數(shù)估計(jì)和模型擬合上的效果,并結(jié)合實(shí)際數(shù)據(jù)應(yīng)用來(lái)驗(yàn)證此模型在實(shí)際問題中的有效性。

1 潛變量建模

設(shè)Y是一個(gè)有序多分類的響應(yīng)變量,取值1,2,…,K。X是m維的解釋變量,Y*是連續(xù)的潛變量,并且與解釋變量有關(guān),

式中,β為m維的待估回歸參數(shù)。若存在K-1 個(gè)閾值rk(k=1,…,K-1)可以將Y*分成K個(gè)有序部分,就可由潛變量Y*得到有序響應(yīng)Y。不失一般性,設(shè)r0=-∞和rK=-∞,則有

式中,-∞<r1<…<rK-1<∞。顯然,當(dāng)K=2 時(shí),Y是一個(gè)二分類的響應(yīng)變量。

當(dāng)Y和X已知時(shí),可得有序閾值

為有序響應(yīng)Y的概率模型。

2 基于Copula 的多元有序模型

2.1 基于Copula 的多元有序聯(lián)合概率

由Copula函數(shù)的定義,一個(gè)t元CopulaC(u1,u2,…,ut)是一個(gè)邊緣分布均服從[0,1]均勻分布的多元累積分布函數(shù)。對(duì)j=1,2,…,t,令uj=Fj(Yj)為一元隨機(jī)變量Yj的分布函數(shù),則Y1,Y2,…,Yt的聯(lián)合分布函數(shù)為:

Sklar定理指出,若隨機(jī)變量Y1,Y2,…,Yt是連續(xù)的,則C是唯一的;否則,C由Ran(F1)×Ran(F2)×…×Ran(Ft)確定的域所決定,Ran(Fj)為Fj的值域。

設(shè)Y為有序向量,Y1,Y2,…,Yt之間存在相依關(guān)系。若的分布為Fj(j=1,2,…,t),則由式(3)易知每個(gè)Fj都對(duì)應(yīng)著一個(gè)潛變量和有序閾值,并且有

1)當(dāng)Fj=Φ為標(biāo)準(zhǔn)正態(tài)分布時(shí),

2)當(dāng)Fj為標(biāo)準(zhǔn)logistic分布時(shí),

命題1.設(shè)Y=(Y1,Y2,…,Yt)′為t個(gè)有序變量組成的向量,Y1,Y2,…,Yt之間存在相依關(guān)系且的分布為Fj(j=1,2,…,t)。聯(lián)合分布函數(shù)由Copula函數(shù)給出,則Y1,Y2,…,Yt的聯(lián)合概率密度函數(shù)為:

式中,I(ij)(j=1,2,…,t)由式(8)給出:

2.2 分層Archimedean Copula

當(dāng)異質(zhì)性變量間不再具有對(duì)稱的相依關(guān)系時(shí),Joe 所提出的分層Archimedean Copula 函數(shù)(HAC)模型[14]是一個(gè)很好的選擇。實(shí)際上,一個(gè)HAC函數(shù)是多個(gè)生成元函數(shù)的復(fù)合函數(shù),復(fù)合操作將內(nèi)部函數(shù)的輸出鏈接到外部函數(shù)的輸入,允許更加靈活的相關(guān)性的存在。HAC模型有完全嵌套和部分嵌套兩種,圖1中結(jié)構(gòu)A為完全嵌套HAC的結(jié)構(gòu),結(jié)構(gòu)B和結(jié)構(gòu)C為部分嵌套HAC的結(jié)構(gòu)。

圖1 不同HAC 的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure of different HACs

根據(jù)圖1,一個(gè)三維的完全嵌套的HAC定義為

式中:φ1、φ2可以是相同或不同的生成元函數(shù)。所對(duì)應(yīng)的Copula 函數(shù)的參數(shù)分別為θ1,θ2。令Yi=ki(i=1,2,3),則ui=。常用的生成元函數(shù)有Clayton,Gumbel和Frank等。

Savu和Trede[14]指出,構(gòu)造的HAC必須滿足:

1)對(duì)所有的j=1,2,必須完全單調(diào);

2)令ω=φj+1?滿足,其中

3)層次越高,所對(duì)應(yīng)的生成元函數(shù)的參數(shù)值越小,即θ2≤θ1。

在構(gòu)造HAC 時(shí)若使用單一類型的生成元函數(shù)顯然滿足上述條件,但若要利用不同生成元構(gòu)造HAC 應(yīng)首先對(duì)其存在性和合理性進(jìn)行驗(yàn)證。

2.3 參數(shù)估計(jì)

設(shè)Y=(Y1,Y2,…,Yt)′是t維相依有序向量,其相關(guān)結(jié)構(gòu)滿足完全嵌套的HAC。對(duì)j=1,2,…,t,潛變量的分布Fj滿足式(5)的定義。ηj=(αj,βj)′,其中αj=(αj,1,…,αj,K-1)′和βj分別為邊緣分布所對(duì)應(yīng)的類邊界截距和回歸參數(shù)。θ=(θ1,θ2,…,θt-1)′為Copula 模型中的相依參數(shù),并且θ1≥θ2≥…≥θt-1。對(duì)n個(gè)獨(dú)立同分布的隨機(jī)樣本Y1,Y2,…,Yn,邊緣分布和聯(lián)合分布所對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)為lj(Yij;ηj)=logfj(Yij;ηj) 和。采用兩步極大似然估法[13]來(lái)進(jìn)行參數(shù)估計(jì),在第1步,假設(shè)邊緣分布獨(dú)立,估計(jì)每個(gè)邊緣分布中的參數(shù)ηj:

第2步,當(dāng)邊緣分布中的參數(shù)固定在第一步的估計(jì)值時(shí),最大化Copula函數(shù)的對(duì)數(shù)似然函數(shù),求Copula函數(shù)中的相依參數(shù):

從而可得到參數(shù)的估計(jì)值。

3 數(shù)值模擬

在本節(jié)中,通過模擬研究來(lái)比較單一生成元和組合生成元構(gòu)造的三維完全嵌套的HAC模型(Frank,Gumbel 和Clayton)在參數(shù)估計(jì)上的效果。我們感興趣的參數(shù)是HAC 中的相依參數(shù)θ。為了便于參數(shù)的一致性比較,將所有的相依參數(shù)轉(zhuǎn)換成Kendall 秩相關(guān)系數(shù),分別計(jì)算每個(gè)模型下參數(shù)估計(jì)的偏差(BIAS),并給出參數(shù)估計(jì)的均方誤差(MSE)。取隨機(jī)變量間真實(shí)的Kendall 秩相關(guān)系數(shù)為τ=((Y1,Y2),Y3)′=(0.8,0.4)′。在模擬中,取樣本容量n為100,300,500,1 000,重復(fù)模擬1 000次。

3.1 模擬一

首先,模擬生成元函數(shù)取Frank,Gumbel和Clayton 3種單一類型時(shí)參數(shù)的估計(jì)效果。結(jié)果參見表1。

通過表1可以看出,隨著模擬次數(shù)的增加,BIAS逐漸減小,參數(shù)的估計(jì)值均向真實(shí)值靠攏,MSE也減小。此外,對(duì)于3 種不同的HAC 模型,F(xiàn)rank 族和Gumbel 族與Clayton 族相比在模擬樣本中能保持較好的、相對(duì)穩(wěn)定的結(jié)果。因此,在下一節(jié)模擬中可以選擇Frank族和Gumbel族2種生成元函數(shù)構(gòu)造HAC進(jìn)行分析。

表1 HAC 為單一生成元的偏差(BIAS)和均方誤差(MSE)數(shù)值結(jié)果Tab.1 BIAS and MSE of a single generator in HAC

3.2 模擬二

由上述結(jié)果可知,在構(gòu)造HAC時(shí)Frank族和Gumbel 族的結(jié)果較為穩(wěn)定,因此在組合HAC 中選擇這2種函數(shù)進(jìn)行構(gòu)造。在三維HAC 的第1 層選擇Frank、第2 層選擇Gumbel。根據(jù)Savu 和Trede[14]給出的構(gòu)造條件,此時(shí)

對(duì)于x>0,。滿足2.2 節(jié)中Savu 和Trede[14]的構(gòu)造條件,從而得到Frank-Gumbel-HAC(F-G-HAC)模型。同理,在三維HAC的第1層選擇Gumbel、第2層選擇Frank,得到的Gumbel-Frank-HAC(G-F-HAC)模型也滿足上述條件。分別擬合Frank-HAC,F(xiàn)-G-HAC,Gumbel-HAC,G-F-HAC 4種模型,利用赤池信息準(zhǔn)則(Akaike information criterion,AIC)和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)來(lái)比較不同模型的擬合效果,結(jié)果見表2。

根據(jù)AIC和BIC準(zhǔn)則可知,AIC值和BIC值越小,模型擬合效果越好。再結(jié)合表2的數(shù)值結(jié)果說明,在模擬生成的樣本中,F(xiàn)rank-HAC的擬合效果優(yōu)于F-GHAC;G-F-HAC 的擬合效果優(yōu)于Gumbel-HAC。而與Frank-HAC 相比,G-F-HAC 模型得到的AIC,BIC 均最小,擬合效果較優(yōu)。因此,應(yīng)用G-F-HAC 模型進(jìn)行實(shí)例數(shù)據(jù)的分析。

表2 4 種HAC 的擬合效果Tab.2 Comparison of generator combinations in HAC

4 實(shí)例數(shù)據(jù)應(yīng)用

本節(jié)將舉例說明HAC模型在分析自評(píng)健康等級(jí)數(shù)據(jù)中的適用性。研究不同地區(qū)自評(píng)健康狀況的相關(guān)性有助于了解居民健康狀況和醫(yī)療衛(wèi)生服務(wù)之間的關(guān)系,以及該地區(qū)的社會(huì)保障和醫(yī)療保障的發(fā)展情況,并為國(guó)家衛(wèi)生政策的制定,居民健康水平的改善提供有效信息。從經(jīng)驗(yàn)上來(lái)講,由于各地區(qū)醫(yī)療政策、生活環(huán)境、發(fā)展水平等的差異性,該相關(guān)結(jié)構(gòu)往往具有非對(duì)稱的特點(diǎn),HAC可以檢驗(yàn)這種假設(shè)。我們將該方法應(yīng)用于美國(guó)平民人口樣本的自評(píng)健康等級(jí)調(diào)查數(shù)據(jù)集(MEPS)[15],以檢驗(yàn)和量化不同地區(qū)自評(píng)健康狀況的非對(duì)稱相關(guān)結(jié)構(gòu),以及自評(píng)健康狀況與個(gè)人信息間的關(guān)系。MEPS是一套針對(duì)美國(guó)居民健康狀況和醫(yī)療服務(wù)的大規(guī)模調(diào)查。數(shù)據(jù)包括個(gè)人利用醫(yī)療服務(wù)的記錄,受訪者的自評(píng)健康狀況和個(gè)人詳細(xì)信息(人口統(tǒng)計(jì)特征、社會(huì)經(jīng)濟(jì)狀況、健康狀況、醫(yī)療保險(xiǎn)覆蓋范圍和就業(yè)情況等),以及可能影響健康狀況評(píng)估的其他信息。我們使用2008年的調(diào)查數(shù)據(jù)。研究考慮了美國(guó)中西部、西北部和南部的子樣本。最終的樣本包括1 500組數(shù)據(jù)。

4.1 數(shù)據(jù)分析

自我評(píng)估的健康狀況(響應(yīng)變量)是一個(gè)有序的分類結(jié)果,用1、2、3、4、5 分別代表優(yōu)秀、非常好、好、一般、差。表3顯示了自我評(píng)估健康狀況的頻率和百分比??梢钥闯?,大多數(shù)被抽樣的人認(rèn)為自己的健康狀況都在“一般”以上。除了自評(píng)健康狀況外,調(diào)查數(shù)據(jù)還包含了可能影響健康狀況評(píng)估的其他信息(解釋變量):X1-log(家庭收入)、X2-年齡、X3-受教育時(shí)間、X4-性別(0 代表男性,1 代表女性)、X5-有無(wú)慢性?。?代表無(wú),1代表有)、X6-是否就業(yè)(0代表否,1代表是)。解釋變量的樣本均值如表4所示。每個(gè)地區(qū)人數(shù)分布以及解釋變量的的差異性也證實(shí)了不同地區(qū)的異質(zhì)性。一般來(lái)說,5個(gè)類別之間提供了足夠的觀察結(jié)果,可以來(lái)檢驗(yàn)不同地區(qū)間的非對(duì)稱結(jié)構(gòu)。

表3 自我評(píng)估健康狀況的頻率分布Tab.3 Distribution of self-assessment health status

表4 解釋變量的樣本均值Tab.4 Sample mean of explanatory variables

4.2 模型結(jié)果

利用完全嵌套的G-F-HAC模型來(lái)研究3個(gè)地區(qū)間的真實(shí)相依結(jié)構(gòu)。選擇logit連接函數(shù)來(lái)對(duì)邊際分布建模。表5給出了邊緣分布和HAC模型的參數(shù)估計(jì)結(jié)果。

由表5可知,健康狀況與家庭收入、受教育時(shí)間呈正相關(guān),與年齡、性別、有慢性病呈負(fù)相關(guān)。這點(diǎn)與預(yù)期相符。一般來(lái)說,受教育時(shí)間越長(zhǎng),家庭收入越高,生活質(zhì)量越高,對(duì)健康的關(guān)注度也越高,從而健康狀態(tài)相對(duì)會(huì)越好。隨著年齡增長(zhǎng),患各種疾病的風(fēng)險(xiǎn)增加,并且女性由于生理結(jié)構(gòu)原因本身就有患相關(guān)疾病的風(fēng)險(xiǎn),慢性病的存在也會(huì)引發(fā)身體抵抗力的下降,因此健康狀況相對(duì)較差。從就業(yè)狀況上考慮,已就業(yè)居民會(huì)有各種的醫(yī)療保障,對(duì)健康狀況起到積極的影響,因此呈正相關(guān)。而在西北部該指標(biāo)相關(guān)系數(shù)為負(fù)數(shù),是因?yàn)樵摰貐^(qū)發(fā)展工業(yè)重工業(yè)較多,不利于身體健康,這點(diǎn)恰好體現(xiàn)出了不同地區(qū)間的差異性。由相依參數(shù)不同結(jié)果得到南部和中西部的相關(guān)性更強(qiáng),其次是西北部的結(jié)果。結(jié)合相關(guān)系數(shù)均為正值可知,3個(gè)地區(qū)存在著正相關(guān),非對(duì)稱相依結(jié)構(gòu)得到驗(yàn)證。非對(duì)稱相依結(jié)構(gòu)的研究對(duì)社會(huì)保障和醫(yī)療服務(wù)的發(fā)展具有重要意義。

表5 利用G-F-HAC 和logit 連接函數(shù)的參數(shù)估計(jì)結(jié)果Tab.5 Parameter estimation using G-F-HAC and logit link

5 結(jié)論

在有序多分類數(shù)據(jù)下,相依變量的相關(guān)性分析仍是一項(xiàng)復(fù)雜的任務(wù)。本文通過潛變量建模得到有序邊際的邊緣概率模型,進(jìn)而建立基于Frank Copula和Gumbel Copula組合的分層阿基米德Copula(HAC)非對(duì)稱相依結(jié)構(gòu)。本文提出的3維組合HAC結(jié)構(gòu)靈活,既避免了復(fù)雜的高維積分,又能刻畫非對(duì)稱相依,并且對(duì)依賴參數(shù)的約束也更簡(jiǎn)單,能描述更廣泛的相依關(guān)系。模擬研究表明了所提模型良好的統(tǒng)計(jì)性質(zhì)。實(shí)際數(shù)據(jù)的應(yīng)用也證明了該方法的有效性。在所提模型中,有序響應(yīng)變量的類別可以是二分類甚至多分類。因此,該模型也更容易推廣到高維模型。

猜你喜歡
生成元阿基米德相依
兩個(gè)奇質(zhì)數(shù)乘積長(zhǎng)度的二元二次剩余碼的冪等生成元
“阿基米德原理”知識(shí)鞏固
驗(yàn)證阿基米德原理
解讀阿基米德原理
家國(guó)兩相依
相守相依
構(gòu)造多維阿基米德Copula生成元的方法
兩類構(gòu)造阿基米德Copula 生成元的方法
阿基米德原理知多少
相依相隨
特別文摘(2016年18期)2016-09-26 16:43:49
九台市| 峨边| 沁阳市| 万宁市| 两当县| 蓝山县| 苏州市| 航空| 璧山县| 德州市| 唐海县| 夏津县| 芒康县| 阜平县| 肥乡县| 阿拉善右旗| 体育| 万荣县| 全南县| 湘潭县| 郧西县| 万宁市| 淄博市| 凌海市| 白沙| 安多县| 长沙市| 尚义县| 孟津县| 临猗县| 若尔盖县| 米泉市| 新丰县| 土默特左旗| 怀来县| 上林县| 宝坻区| 太和县| 徐闻县| 临武县| 清丰县|