国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模型平均方法的糖尿病病人生存時間預測研究

2021-12-22 13:28程云飛王淑影張亞男
長春工業(yè)大學學報 2021年5期
關(guān)鍵詞:權(quán)重變量預測

程云飛,王淑影,張亞男

(長春工業(yè)大學 數(shù)學與統(tǒng)計學院,吉林 長春 130012)

0 引 言

糖尿病是一種常見的內(nèi)分泌代謝性疾病,國際糖尿病聯(lián)盟在Diabetes Atlas上預測糖尿病患者數(shù)量將持續(xù)升高。糖尿病在中國是高發(fā)疾病,常伴有家族遺傳史,長期血糖控制不良將導致多種急性、慢性疾病并發(fā),使人體抵抗力變差,危及患者生命。由于無法根治,糖尿病的病癥只有及早發(fā)現(xiàn)、及早治療才能降低出現(xiàn)并發(fā)癥的隱患。因此,構(gòu)建糖尿病病人的生存時間預測模型,對提高糖尿病病人的生存質(zhì)量有著重要意義。

在實際研究中,針對某一領(lǐng)域的一個問題,通常可以建立多個模型,如何在所有可能的模型中選擇適合的模型是統(tǒng)計學界研究的核心問題之一。模型選擇的目標是從模型集合中選出估計或預測誤差較小的模型,如Akaike Information Criterion (AIC)、Bayes Information Criterion (BIC)、Focused Information Criterion (FIC)等。模型選擇方法在一定程度上解決了選擇較“優(yōu)”模型的問題,然而模型選擇過程中總是存在著不確定性,因此無法避免選擇很“差”模型的風險。對于模型選擇過程中存在的缺點,學者們進行了大量研究,近些年來,模型平均方法作為解決模型選擇不確定性的重要方法受到了廣泛關(guān)注。與模型選擇方法相比,模型平均方法的估計及預測并不依靠于單個模型,而是基于整個候選模型。Bates J等[1]將模型組合用于對航空需求的預測,研究肯定了組合預測的優(yōu)勢。目前,按照權(quán)重形式的不同,模型平均方法可以分為兩大類,分別為貝葉斯模型平均和頻率模型平均。最初的模型平均方法可以追溯到由Buckland S T等[2]提出的基于AIC和BIC兩種信息準則的Smoothed-AIC(S-AIC)和Smoothed-BIC(S-BIC)方法,它們也是最簡便、常用的方法。對于小樣本量的研究,Hua Liang[3]提出的OPT權(quán)重選擇方法具有良好的表現(xiàn)。張新雨等[4]介紹了幾種常用的模型平均方法,并將它們應用于中國糧食產(chǎn)量預測,且取得了較好的預測效果。朱容等[5]將模型平均方法應用于部分函數(shù)線性模型,并對肉類和玉米樣本的近紅外反射光譜數(shù)據(jù)集進行分析,結(jié)果表明,模型平均方法要比模型選擇方法的預測效果更好。

綜合以上國內(nèi)外文獻可以發(fā)現(xiàn),模型平均方法提高了估計及預測的穩(wěn)健性,為選擇模型提供了一種保障機制,降低了選擇很“差”模型的風險性[6]。在一定情況下,相較于模型選擇方法,模型平均方法在解決模型不確定和研究醫(yī)學方面預測問題上具有一定優(yōu)勢。因此,文中將模型平均方法應用于糖尿病病人的生存時間預測上。

1 基于模型平均方法的估計

文中考慮如下線性模型

(1)

式中:Yi——因變量;

Xi——p維必選協(xié)變量向量;

Zi——q維可選協(xié)變量向量;

β——p維回歸參數(shù);

γ——q維回歸參數(shù);

εi——隨機誤差項。

因此,模型中的待估參數(shù)為θ=(β′,γ′)′。

(2)

對其求極大值,參數(shù)的最大似然估計為

在醫(yī)學研究中,影響疾病預后生存時間的協(xié)變量往往有多個,將不同的協(xié)變量組合就能得到不同的模型,但在不同的模型里如何選擇出最優(yōu)模型是我們關(guān)注的重點。權(quán)衡模型復雜度與優(yōu)良性的標準,簡稱AIC;貝葉斯信息準則,簡稱BIC。兩者都是基于模型的信息量來遴選最優(yōu)模型,這兩種最常用的信息準則定義為

HIC=-2logl+F,

(3)

式中:HIC——表示AIC或者BIC;

l——模型的極大似然函數(shù);

F——懲罰項。

當F=2g時,式(3)為AIC表達式,當F=glog(n)時,式(3)為BIC表達式,其中g(shù)為未知參數(shù)個數(shù),n為樣本個數(shù)。

通常情況下,多元回歸模型通過擬合因變量與多個協(xié)變量估計模型中的參數(shù),單一模型選擇的過程中總是存在著不確定性,選擇的模型過于復雜或是過于簡單都會使得估計或者預測的方差偏大[7]。因此統(tǒng)計學家提出模型平均的思想。Buckland S T等[2]介紹了S-AIC和S-BIC兩種基于信息準則的組合權(quán)重方法,則組合權(quán)重為

(4)

式中:k——第k個模型;

K——模型集合中模型的數(shù)量;

HIC——表示AIC或BIC;

ωk——第k個模型所對應的權(quán)重。

假定X中有m1個必選協(xié)變量,Z中有m2個可選擇的協(xié)變量,因此模型集合中有N=2m2個子模型可供選擇。在實際研究中,某些模型不符合實際可以事先排除,所以至多考慮N≤2m2個子模型。首先假定OPT方法的權(quán)重形式,

(5)

M=In-X(X′X)-1X′,

因此,全模型下σ2的最小二乘估計為

將所有候選模型的估計與上述模型平均方法計算的權(quán)重平均起來,可得到Y(jié)i均值的組合估計

(6)

式中:k——第k個模型;

hk——上述模型平均方法估計的各候選模型估計權(quán)重。

2 實證分析

文中選取的數(shù)據(jù)為1971-1988年對128位糖尿病人隨訪研究的臨床數(shù)據(jù),數(shù)據(jù)來源于Ovid數(shù)據(jù)庫。所選的協(xié)變量有X1(患者被診斷出糖尿病時的年齡)、Z1(身體質(zhì)量指標(BMI))、Z2(心電圖讀數(shù)(ECG))、Z3(舒張壓與收縮壓之差(DBF-SBF))、Y(自基準檢查起的生存時間)。文中將2種模型選擇方法AIC、BIC,3種模型平均方法S-AIC、S-BIC、OPT應用到糖尿病數(shù)據(jù)集上。為了便于分析,對數(shù)據(jù)做標準化處理。根據(jù)以往糖尿病預后因素所做的研究,患者確診糖尿病時的年齡對自基準檢查起的生存時間有著顯著影響,故選定X1為必選協(xié)變量,其他3個協(xié)變量Z1、Z2和Z3為可選協(xié)變量,因此模型集合中有N=23=8個備選模型。例如,第1個模型只有必選協(xié)變量為Y=β1X1+ε,第2個模型包含可選協(xié)變量為Y=β1X1+γ1Z1+ε,以此類推,第8個模型包含必選協(xié)變量和所有可選協(xié)變量,即全模型為Y=β1X1+γ1Z1+γ2Z2+γ3Z3+ε,根據(jù)不同的加權(quán)方法將全部模型預測值加權(quán)平均,得到最后的預測結(jié)果。文中目的是根據(jù)試驗研究中的協(xié)變量數(shù)據(jù)預測糖尿病病人自基準檢查起的生存時間。

結(jié)合實例分析比較以上5種方法的預測效果,將糖尿病病人數(shù)據(jù)分為訓練集與測試集,將訓練集的樣本量設置為n1=90、100、110、120,測試集樣本量n-n1,樣本量為n=128,使用任意訓練集樣本進行回歸,得到未知參數(shù)估計,然后對測試集樣本進行預測,這個過程重復c=1 000,則最后得到的均方預測誤差(MSPE)為

(7)

計算5種方法MSPE的均值與中位數(shù),結(jié)果見表1。

表1 糖尿病病人生存時間的均方預測誤差

由表1可以得出,OPT模型平均方法得出預測值的MSPE均值與中位數(shù)比其他4種方法要小,說明OPT模型方法均方預測誤差較小,預測精度要優(yōu)于其他4種方法;S-AIC和S-BIC方法MSPE的均值與中位數(shù)都要比AIC和BIC方法要小,說明在糖尿病病人生存時間預測研究中,模型平均方法比模型選擇方法的預測精度更高。此外,兩種模型選擇方法的預測結(jié)果很接近,而S-AIC要略優(yōu)于S-BIC方法。

3 結(jié) 語

對1971-1988年128位糖尿病病人隨訪研究的臨床數(shù)據(jù)運用模型平均方法與模型選擇方法進行了病人生存時間的預測。通過對比5種方法的MSPE均值與中位數(shù)發(fā)現(xiàn),OPT方法的預測精度更高,S-AIC和S-BIC方法要優(yōu)于AIC和BIC方法。綜合比較,在對糖尿病病人的生存時間進行預測時,模型平均方法要優(yōu)于模型選擇方法。

根據(jù)文中研究結(jié)果可以發(fā)現(xiàn),模型平均方法在糖尿病病人生存時間的預測中取得了較好的效果,因此可以把模型平均方法運用到更多數(shù)據(jù)類型或模型中,如文中研究的是線性模型,在后期研究中可以將模型平均方法進一步擴展到部分線性模型中。

猜你喜歡
權(quán)重變量預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
權(quán)重望寡:如何化解低地位領(lǐng)導的補償性辱虐管理行為?*
選修2—2期中考試預測卷(A卷)
抓住不變量解題
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重擔當
權(quán)重漲個股跌 持有白馬藍籌
分離變量法:常見的通性通法
辰溪县| 扶余县| 浦东新区| 长垣县| 保德县| 望谟县| 奉新县| 安康市| 鹰潭市| 昭平县| 临洮县| 永年县| 淳安县| 阳江市| 湘潭市| 莱州市| 全椒县| 临海市| 江门市| 三门峡市| 商洛市| 桃园县| 咸阳市| 那坡县| 南宁市| 华安县| 盖州市| 榕江县| 丰城市| 曲周县| 东乡族自治县| 疏勒县| 金湖县| 阳山县| 卓尼县| 汽车| 吉林省| 长泰县| 北安市| 潜山县| 双城市|