定量縱向數(shù)據(jù)缺失值處理方法的模擬比較研究

2020-06-28 10:30陳麗嫦衡明莉陳平雁

中國(guó)衛(wèi)生統(tǒng)計(jì) 2020年3期

陳麗嫦衡明莉王駿陳平雁△

【提要】目的比較末次觀測(cè)結(jié)轉(zhuǎn)法(LOCF)、重復(fù)測(cè)量的混合效應(yīng)模型法(MMRM)、多重填補(bǔ)法(MI)在處理縱向缺失數(shù)據(jù)中的統(tǒng)計(jì)性能。方法以雙臂設(shè)計(jì)、4次訪視、3種訪視間相關(guān)程度為應(yīng)用背景，采用Monte Carlo模擬技術(shù)，產(chǎn)生模擬完整縱向數(shù)據(jù)后考慮兩種缺失比例和三種缺失機(jī)制，即完全隨機(jī)缺失(MCAR)、隨機(jī)缺失(MAR)和非隨機(jī)缺失(MNAR)的缺失數(shù)據(jù)集。以完整縱向數(shù)據(jù)的分析結(jié)果為基準(zhǔn)，評(píng)價(jià)不同處理方法的統(tǒng)計(jì)性能，包括Ⅰ類(lèi)錯(cuò)誤、檢驗(yàn)效能、組間療效差的估計(jì)誤差及其95%置信區(qū)間(95%CI)寬度。結(jié)果所有情況下，MMRM和MI均可控制Ⅰ類(lèi)錯(cuò)誤，檢驗(yàn)效能略低于完整數(shù)據(jù)；LOCF大多難以控制Ⅰ類(lèi)錯(cuò)誤，檢驗(yàn)效能變異較大。多數(shù)情況下MMRM和MI的點(diǎn)估計(jì)誤差較低，LOCF則表現(xiàn)不穩(wěn)定。所有情況下，MI的95%CI最寬，MMRM次之，LOCF最窄。結(jié)論 MCAR和MAR缺失機(jī)制下，MMRM與MI的統(tǒng)計(jì)性能相當(dāng)，受各種因素影響較有規(guī)律，可根據(jù)實(shí)際情況選擇其中一個(gè)作為主要分析。LOCF因填補(bǔ)方法的特殊性使得變異較小，精度較高，但其最大的缺陷是不夠穩(wěn)健且不能有效控制I類(lèi)錯(cuò)誤，需謹(jǐn)慎使用。基于MNAR缺失機(jī)制對(duì)缺失數(shù)據(jù)進(jìn)行敏感性分析以考察試驗(yàn)結(jié)果的穩(wěn)健性是必要的。

縱向數(shù)據(jù)在臨床試驗(yàn)中頗為常見(jiàn)，如對(duì)受試者做多個(gè)訪視點(diǎn)的重復(fù)觀察記錄?？v向數(shù)據(jù)如果存在缺失值會(huì)導(dǎo)致分析結(jié)果產(chǎn)生潛在偏倚[1-3]。目前，有關(guān)定量縱向數(shù)據(jù)缺失值的處理方法有多種，但哪種方法更具優(yōu)良特性尚無(wú)定論。本研究針對(duì)定量縱向數(shù)據(jù)缺失資料，采用模擬研究方法，考慮完全隨機(jī)缺失(missing completely at random，MCAR)、隨機(jī)缺失(missing at random，MAR)和非隨機(jī)缺失(missing not at random，MNAR)三種不同缺失機(jī)制，比較常用的四種缺失數(shù)據(jù)處理方法，即末次觀測(cè)結(jié)轉(zhuǎn)法(last observation carried forward，LOCF)、重復(fù)測(cè)量的混合效應(yīng)模型法(mixed model for repeated measurements，MMRM)、基于馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo，MCMC)的多重填補(bǔ)法和基于線性回歸的多重填補(bǔ)法在縱向缺失數(shù)據(jù)方面的統(tǒng)計(jì)性能。

原理與方法

1.末次觀測(cè)結(jié)轉(zhuǎn)法(LOCF)

LOCF屬于單一填補(bǔ)法，是指將最近一次的觀察數(shù)據(jù)填補(bǔ)缺失值。在所有缺失值填補(bǔ)完成后，形成一個(gè)完整的數(shù)據(jù)集，再按照既定的分析方法進(jìn)行分析。

2.重復(fù)測(cè)量的混合效應(yīng)模型(MMRM)

該方法為一般混合效應(yīng)回歸模型(general mixed-effects regression model,MRM)的一種特殊形式，由Mallinckrodt 等人在2001年定義[4]。MRM模型如下：

Yi=Xiβ+Ziνi+εi

(1)

其中，Yi為第i個(gè)受試者ni×1維反應(yīng)向量；Xi為ni×p維已知固定效應(yīng)設(shè)計(jì)矩陣；β為p×1維未知固定效應(yīng)參數(shù)；Zi為ni×r維已知隨機(jī)效應(yīng)設(shè)計(jì)矩陣；νi為r×1維隨機(jī)效應(yīng)參數(shù)，服從N(0,∑v)分布，εi為ni×1維隨機(jī)誤差，服從N(0,∑εi)分布。νi和εi相互獨(dú)立。故式(1)中，Yi服從均數(shù)為Xiβ，方差協(xié)方差矩陣為Zi∑vZ′i+∑εi的多元正態(tài)分布。

MMRM模型將組別、訪視時(shí)間以及二者的交互作為固定因素，受試者內(nèi)誤差作為隨機(jī)效應(yīng)。有研究表明，無(wú)論方差協(xié)方差矩陣的真實(shí)情況如何，受試者內(nèi)誤差采用非結(jié)構(gòu)化(unstructured,UN)的協(xié)方差矩陣可以控制Ⅰ類(lèi)錯(cuò)誤[5-6]。

3.多重填補(bǔ)

由Rubin[7]提出的多重填補(bǔ)法旨在解決調(diào)查研究中無(wú)響應(yīng)的情況，也適用于處理臨床研究的缺失值。該方法通過(guò)對(duì)每個(gè)缺失值填補(bǔ)多次，形成多個(gè)完整的數(shù)據(jù)集，對(duì)每個(gè)完整數(shù)據(jù)集按既定的分析方法處理后再使用統(tǒng)一的方法[8]進(jìn)行合并得出綜合的結(jié)論。

(1)馬爾可夫鏈蒙特卡羅(MCMC)[9]

(2)線性回歸法

根據(jù)已有觀測(cè)數(shù)據(jù)，建立缺失值與協(xié)變量的回歸方程，基于此方程，從參數(shù)的后驗(yàn)預(yù)測(cè)分布模擬出新的方程用于缺失值的填補(bǔ)。假設(shè)Yj是一個(gè)含有缺失值的連續(xù)性變量，建立回歸方程

(2)

模擬研究

1.完整數(shù)據(jù)模擬

根據(jù)一項(xiàng)治療黃斑水腫，以最后一個(gè)訪視點(diǎn)較基線的最佳矯正視力變化值為主要評(píng)價(jià)指標(biāo)的雙臂陽(yáng)性對(duì)照臨床試驗(yàn)結(jié)果，設(shè)置每組樣本量為160例，包括基線在內(nèi)有4個(gè)訪視點(diǎn)。假設(shè)觀測(cè)數(shù)據(jù)服從多元正態(tài)分布。設(shè)置四種療效變化模式，所有療效變化模式中，對(duì)照組4個(gè)訪視點(diǎn)均數(shù)為(57,57,60,62)。E0：兩組各時(shí)間點(diǎn)的總體均數(shù)相同；E00：兩組總體均數(shù)在第1和第4次訪視相同，在第2和第3次訪視不同，試驗(yàn)組4個(gè)訪視點(diǎn)均數(shù)為(57,58,61,62)；E1：總體均數(shù)兩組基線相同，試驗(yàn)組后3次訪視比對(duì)照組大，試驗(yàn)組4個(gè)訪視點(diǎn)均數(shù)為(57,62,63,66)；E11：總體均數(shù)兩組基線相同，試驗(yàn)組在第2和第3次訪視稍大于對(duì)照組，在第4個(gè)訪視點(diǎn)較對(duì)照組有更大的提高，試驗(yàn)組4個(gè)訪視點(diǎn)均數(shù)為(57,58,61,66)。上述4種療效變化模式中兩組的方差均相同，4個(gè)訪視點(diǎn)的方差為(100,110,130,130)；其相應(yīng)的相關(guān)陣如下：

其中C1、C2和C3分別代表各訪視點(diǎn)評(píng)價(jià)指標(biāo)具有低、中和高相關(guān)性。運(yùn)用SAS 9.4對(duì)以上12種組合各模擬生成2000個(gè)完整數(shù)據(jù)集。

2.缺失數(shù)據(jù)的構(gòu)造

根據(jù)三種缺失機(jī)制(MCAR、MAR、MNAR)，通過(guò)隨機(jī)刪除完整數(shù)據(jù)中的部分?jǐn)?shù)據(jù)構(gòu)造缺失數(shù)據(jù)。設(shè)定每個(gè)受試者均有基線后第一次測(cè)量，即僅可能在第3次和/或第4次訪視出現(xiàn)缺失值。缺失模式為單調(diào)缺失，即本次缺失后，往后訪視的數(shù)據(jù)一并缺失。

MCAR缺失機(jī)制下，假設(shè)每個(gè)訪視點(diǎn)的缺失獨(dú)立服從概率為p的二項(xiàng)分布。

MAR缺失機(jī)制下，假設(shè)某一訪視數(shù)據(jù)的缺失與缺失前一次的觀測(cè)結(jié)果有關(guān)，即

logit(p(yi=missing|y0,y1,…,yi-1))=a+byi-1

(3)

MNAR缺失機(jī)制下，假設(shè)某一訪視數(shù)據(jù)的缺失與本次測(cè)試結(jié)果有關(guān)，即

logit(p(yi=missing|y0,y1,…,yi-1))=a+byi

(4)

設(shè)定的缺失機(jī)制參數(shù)見(jiàn)表1，試驗(yàn)組約有10%～26%的缺失比例，對(duì)照組約有20%～26%的缺失比例，試驗(yàn)組缺失比例均比對(duì)照組低。若兩組缺失機(jī)制參數(shù)設(shè)定相同，則缺失比例接近，相差約為0%～5%；若兩組缺失機(jī)制參數(shù)設(shè)定不同，兩組相差10%～15%。

表1 缺失機(jī)制參數(shù)設(shè)定*

*：p代表二項(xiàng)分布的概率，a和b代表函數(shù)(3)、(4)的截距和斜率參數(shù)。

綜上，每個(gè)完整數(shù)據(jù)集均對(duì)應(yīng)構(gòu)造18種缺失數(shù)據(jù)集，即三種缺失機(jī)制(用M1、M2、M3表示)、三種相關(guān)陣(C1、C2、C3)和兩種缺失比例(用D0和D1分別表示相近和相差較大)。

3.缺失值處理方法

分別采用LOCF、MMRM、MCMC多重填補(bǔ)和回歸多重填補(bǔ)，對(duì)構(gòu)造的缺失數(shù)據(jù)進(jìn)行分析處理。LOCF填補(bǔ)后，將基線觀測(cè)值作為協(xié)變量進(jìn)行協(xié)方差分析，比較兩組主要評(píng)價(jià)指標(biāo)是否存在統(tǒng)計(jì)學(xué)差異。MMRM模型納入基線觀測(cè)值、組別、訪視點(diǎn)、訪視點(diǎn)和組別的交互作用作為固定效應(yīng)，受試者內(nèi)誤差作為隨機(jī)效應(yīng)(采用非結(jié)構(gòu)協(xié)方差矩陣)。MCMC和回歸法均進(jìn)行5次填補(bǔ)，對(duì)填補(bǔ)后的數(shù)據(jù)進(jìn)行協(xié)方差分析。本次研究還將對(duì)完整數(shù)據(jù)進(jìn)行協(xié)方差分析，以作為各方法比較的基準(zhǔn)。

4.評(píng)價(jià)指標(biāo)

評(píng)價(jià)指標(biāo)包括Ⅰ類(lèi)錯(cuò)誤、檢驗(yàn)效能，組間療效的估計(jì)誤差及其95%置信區(qū)間寬度。

結(jié) 果

1.Ⅰ類(lèi)錯(cuò)誤和檢驗(yàn)效能

如圖1所示，在所有設(shè)定情況中，MMRM以及多重填補(bǔ)法(MCMC、回歸法)均可控制Ⅰ類(lèi)錯(cuò)誤且變化平穩(wěn)。LOCF表現(xiàn)不穩(wěn)定，多數(shù)情況下難以控制Ⅰ類(lèi)錯(cuò)誤。

在所有設(shè)定情況中，MMRM的檢驗(yàn)效能略高于多重填補(bǔ)法(MCMC、回歸法)，但MMRM以及多重填補(bǔ)法的檢驗(yàn)效能均低于完整數(shù)據(jù)，其變化趨勢(shì)根據(jù)不同的相關(guān)系數(shù)矩陣和缺失比例情況與完整數(shù)據(jù)的變化基本相同。隨著相關(guān)系數(shù)的增加，檢驗(yàn)效能增大，兩組缺失比例差異的擴(kuò)大將降低檢驗(yàn)效能。LOCF在E1模式下的所有設(shè)定情況下，檢驗(yàn)效能略高于完整數(shù)據(jù)，E11模式下表現(xiàn)不穩(wěn)定，近一半情況下與完整數(shù)據(jù)相近，另一半情況下與MMRM和多重填補(bǔ)法相當(dāng)。

圖1 四種處理方法各種情況下的Ⅰ類(lèi)錯(cuò)誤及檢驗(yàn)效能**：M1、M2、M3分別代表完全隨機(jī)缺失、隨機(jī)缺失、非隨機(jī)缺失；C1、C2、C3分別代表三種相關(guān)系數(shù)矩陣；D0代表兩組缺失機(jī)制參數(shù)設(shè)置相同，缺失比例接近，D1表示兩組缺失機(jī)制參數(shù)設(shè)置不同，缺失比例相差較大(下同)。

2.組間療效差的估計(jì)誤差

組間療效差的估計(jì)誤差如圖2所示，在MCAR和MAR缺失機(jī)制下，多重填補(bǔ)法(MCMC、回歸法)的估計(jì)誤差較小，在0附近波動(dòng)；MMRM與多重填補(bǔ)法相近，但在部分MAR缺失機(jī)制下估計(jì)誤差稍大，會(huì)低估組間療效。療效變化模式、訪視點(diǎn)間相關(guān)性和兩組缺失比例對(duì)MMRM和多重填補(bǔ)法幾乎沒(méi)有影響。LOCF在MCAR和MAR缺失機(jī)制下的估計(jì)誤差較大且不穩(wěn)定，受療效變化模式的影響較大，在E11療效變化模式會(huì)高估療效，其余模式下低估療效；多數(shù)情況下，各訪視點(diǎn)之間的相關(guān)性減小和/或兩組缺失比例差距的增加會(huì)增大估計(jì)誤差。

圖2 四種處理方法各種情況下的組間療效估計(jì)誤差

在MNAR缺失機(jī)制下，MMRM和多重填補(bǔ)法表現(xiàn)一致，估計(jì)誤差隨著各訪視點(diǎn)相關(guān)性的增加以及兩組缺失比例的接近而減少。如果兩組的缺失比例接近，多數(shù)情況下，MMRM和多重填補(bǔ)法的估計(jì)誤差最小。療效變化模式對(duì)MMRM和多重填補(bǔ)法幾乎沒(méi)有影響。LOCF受到療效變化模式的影響較大，在E11療效變化模式下出現(xiàn)高估組間差異以及兩組缺失比例的增大反而降低組間療效估計(jì)誤差的情況。訪視點(diǎn)間相關(guān)性對(duì)其影響不大。

3.組間療效差估計(jì)的95%置信區(qū)間寬度

組間療效差估計(jì)的95%置信區(qū)間寬度如圖3所示，所有情況下，多重填補(bǔ)法的95%置信區(qū)間寬度最大，MMRM次之但與其相近，LOCF最窄。95%置信區(qū)間寬度均隨著相關(guān)系數(shù)的增強(qiáng)而變窄，缺失機(jī)制對(duì)其影響不大。MMRM和多重填補(bǔ)法兩種方法中，缺失比例差異的增加降低了兩組療效差值的95%置信區(qū)間寬度。

圖3 四種處理方法各種情況下的組間療效的95%置信區(qū)間寬度

討論

本文共設(shè)定四種療效變化模式，每種變化模式下根據(jù)三種缺失機(jī)制、三種各訪視點(diǎn)療效相關(guān)系數(shù)和兩種兩組缺失比例情況設(shè)定18種缺失數(shù)據(jù)集，對(duì)每種情形的三種缺失機(jī)制分別采用四種缺失值處理方法(LOCF、MMRM、MCMC、多重填補(bǔ)的回歸法)進(jìn)行處理分析。

LOCF法簡(jiǎn)單、容易理解，但多數(shù)情況下，Ⅰ類(lèi)錯(cuò)誤難以控制，檢驗(yàn)效能和估計(jì)誤差表現(xiàn)不穩(wěn)定，MAR和MNAR缺失機(jī)制增加其不穩(wěn)定性。訪視點(diǎn)之間相關(guān)系數(shù)的變化和兩組缺失比例變化相較于MMRM和多重填補(bǔ)法沒(méi)有固定規(guī)律的影響。這可能因?yàn)長(zhǎng)OCF受到療效變化模式影響更大，療效變化越不穩(wěn)定，估計(jì)誤差越大(因LOCF假設(shè)缺失值的填補(bǔ)值為最后一次觀測(cè)值的概率為100%，該假設(shè)同時(shí)降低了估計(jì)的變異)。多項(xiàng)研究也表明，LOCF方法不夠穩(wěn)健，降低了估計(jì)的變異，并不總是保守的[10-13]。在使用該方法時(shí)，需注意其前提假設(shè)的合理性，謹(jǐn)慎使用其作為主要分析。

MMRM的處理方法無(wú)需對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)，納入所有觀測(cè)的數(shù)據(jù)建模進(jìn)行分析，符合意向性原則，本方法在MCAR和MAR機(jī)制下各項(xiàng)統(tǒng)計(jì)性能優(yōu)異、穩(wěn)定，在Ⅰ類(lèi)錯(cuò)誤、檢驗(yàn)效能及置信區(qū)間寬度上表現(xiàn)優(yōu)于多重填補(bǔ)，亦有研究表明該方法統(tǒng)計(jì)性能優(yōu)于多重填補(bǔ)[14]。該方法對(duì)缺失機(jī)制的假設(shè)為MAR，相關(guān)系數(shù)越大和兩組缺失比例差異越小，估計(jì)誤差越小；相關(guān)系數(shù)越大和兩組缺失比例差異越大，置信區(qū)間寬度越窄；療效變化模式對(duì)其影響較小。根據(jù)模擬的結(jié)果，仍需注意以下兩點(diǎn)：(1) 由于MMRM中納入了各種固定效應(yīng)、組別和訪視的交互效應(yīng)，組別效應(yīng)的統(tǒng)計(jì)檢驗(yàn)并不與所關(guān)注的最后一個(gè)訪視點(diǎn)的點(diǎn)估計(jì)及其置信區(qū)間完全一致，反而受療效變化模式影響較大。(2) MNAR缺失機(jī)制下，估計(jì)誤差將增加，應(yīng)使用其他方法對(duì)偏離MAR缺失機(jī)制假設(shè)的情況進(jìn)行敏感性分析。

多重填補(bǔ)法對(duì)一個(gè)缺失數(shù)據(jù)填補(bǔ)多次，相較于其他方法考慮了填補(bǔ)數(shù)據(jù)的變異，缺失機(jī)制假設(shè)為MAR。本研究考察的MCMC和回歸法統(tǒng)計(jì)性能相近。考慮多重填補(bǔ)的方法置信區(qū)間最寬，變異程度的增加可能使得其在MAR缺失機(jī)制下，估計(jì)誤差略小于MMRM。有研究指出多重填補(bǔ)法高估變異程度[15]，填補(bǔ)和分析之間存在沖突[16]。在本研究中，多重填補(bǔ)法和MMRM性能相當(dāng)，可根據(jù)實(shí)際情況選擇其中一個(gè)作為主要分析，另一個(gè)作為敏感性分析。需要注意缺失機(jī)制對(duì)各種方法的影響，建議采用基于MNAR缺失機(jī)制下的其他分析方法，探索試驗(yàn)結(jié)果的穩(wěn)健性。

本研究雖然探索了四種方法在處理合計(jì)72種情形的效果，但療效變化模式、相關(guān)系數(shù)矩陣、各組缺失比例等參數(shù)設(shè)定并不能涵蓋所有的可能組合。本研究也未考慮具體的比較類(lèi)型(如非劣和等效性)，故本研究結(jié)論具有一定的局限性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

定量縱向數(shù)據(jù)缺失值處理方法的模擬比較研究

原理與方法

模擬研究

結(jié) 果

討 論

討論