国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

臨床研究中常用的統(tǒng)計方法和常見問題

2017-01-12 18:14黃橋黃笛靳英輝曾憲濤
關(guān)鍵詞:臨床試驗組間變量

黃橋,黃笛,靳英輝,曾憲濤

? 循證理論與實踐 ?

臨床研究中常用的統(tǒng)計方法和常見問題

黃橋1,黃笛1,靳英輝1,曾憲濤1

科學(xué)正確的統(tǒng)計方法是臨床研究得出正確可信結(jié)論的重要保證。本文簡要介紹了臨床研究中常用的統(tǒng)計學(xué)方法,分析其常見的問題。統(tǒng)計方法有描述性統(tǒng)計方法、推斷統(tǒng)計方法和輔助分析方法,推斷統(tǒng)計方法中介紹了一元定性資料的差異性檢驗、一元定量資料的差異性檢驗、相關(guān)分析和回歸分析、生存資料的分析和重復(fù)測量數(shù)據(jù)分析;輔助分析方法中介紹了樣本量估計和檢驗效能分析、匹配、敏感性分析、期中分析和自助法。常見問題有選擇合適的數(shù)據(jù)集、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤、組間可比性、協(xié)變量的選擇與調(diào)整、交互作用與亞組分析、多中心研究的問題和缺失值的處理。

臨床研究;臨床試驗;統(tǒng)計分析

開展臨床研究時,一般不會直接選擇目標(biāo)人群的總體進行研究,而是先根據(jù)合適的樣本量計算公式計算出足夠的樣本量,再采用合適的隨機抽樣方法進行抽樣調(diào)查,最后應(yīng)用統(tǒng)計學(xué)原理和方法進行從樣本到總體的假設(shè)檢驗和統(tǒng)計推斷。生物統(tǒng)計學(xué)則貫穿于臨床研究的整個階段:試驗設(shè)計(樣本量確定和隨機分組)、數(shù)據(jù)管理、統(tǒng)計分析計劃制定、試驗數(shù)據(jù)處理和統(tǒng)計分析報告。統(tǒng)計分析報告不僅用于科學(xué)論文的撰寫,而且還是取得新藥或器械等注冊申請的法規(guī)材料。只有進行科學(xué)合理的統(tǒng)計分析,才能根據(jù)臨床研究得出正確可靠的結(jié)論。為規(guī)范我國臨床研究的統(tǒng)計,2005年國家食品藥品監(jiān)督管理總局頒布了《化學(xué)藥物和生物制品臨床試驗的生物統(tǒng)計學(xué)技

術(shù)指導(dǎo)原則》[1],對生物統(tǒng)計學(xué)在臨床試驗的各個階段提出初步要求;2016年頒發(fā)了《藥物臨床試驗的生物統(tǒng)計學(xué)指導(dǎo)原則》[2],進一步細(xì)化和加強生物統(tǒng)計的內(nèi)容和職責(zé)。由此可見,生物統(tǒng)計學(xué)在臨床研究中起著不可或缺的核心作用和地位。本刊今年1~10期已對臨床研究相關(guān)的方針政策、理論知識和實踐工具等進行了介紹[3-12],本文主要總結(jié)臨床研究中常用的統(tǒng)計學(xué)方法,并對探討臨床研究中常見的統(tǒng)計問題。

1 臨床研究統(tǒng)計中的常用統(tǒng)計方法

1.1 描述統(tǒng)計方法描述統(tǒng)計一般在統(tǒng)計分析報告中首先進行匯報,且不可缺少。逐一對臨床研究和樣本人群的特征對應(yīng)的單變量進行概括描述,但不對總體特征進行推斷。在隨機對照試驗等涉及多組試驗中可作為基線特征可比性的參考。正確使用描述統(tǒng)計的前提是必須了解臨床研究中數(shù)據(jù)類型。對于定性變量(包括二分類變量、順序變量和名義變量),一般采用頻數(shù)和百分比描述,其中等級資料可采用中位數(shù)和四分位間距進行描述[13]。對于定量資料,先進行正態(tài)性檢驗,如果變量近似正態(tài)分布一般采用均數(shù)和標(biāo)準(zhǔn)差,偏態(tài)分布需采用中位數(shù)和四分位間距[14]。均值和標(biāo)準(zhǔn)差對離群值的比較敏感[15],在臨床試驗的統(tǒng)計匯報中,對主要結(jié)局指標(biāo)通常會采用多種形式進行綜合描述:均值、標(biāo)準(zhǔn)差、中位數(shù)、最小值和最大值或范圍、變異系數(shù)。對于包含時間的生存資料,對于小樣本或大樣本未分組的生存資料常采用Kaplan-Meier法,而對例數(shù)較多的分組資料采用壽命表法,對生存時間進行中位數(shù)及上下四分位間距的統(tǒng)計描述,同時繪制生存曲線直觀反映生存情況。

1.2 推斷統(tǒng)計方法

1.2.1 一元定性資料的差異性檢驗 單組設(shè)計的定性資料常用于樣本率的參數(shù)與總體的已知率之間差異性檢驗。例如對于有些無法設(shè)計對照組的臨床試驗,采用單組設(shè)計的目標(biāo)值法進行統(tǒng)計分析,常見于醫(yī)療器械臨床試驗[16]。資料整理構(gòu)成一維列表,基于數(shù)據(jù)的二項分布原理和總體進行比較,大樣本(n>30)時按近似正態(tài)分布基于Z分布進行計算,小樣本(n<30)時采用Clopper-Pearson精確法或Blyth-Still的二項式比例計算。在優(yōu)效、等效和非劣的實驗設(shè)計中,單個樣本的二項比例的可信區(qū)間的計算直接關(guān)系到結(jié)果,需要正確選擇方法[17]。

成組設(shè)計的定性資料中若響應(yīng)變量是二分類,則構(gòu)成常見的四格表。在橫斷面研究中根據(jù)不同的條件選擇卡方檢驗或Fisher精確檢驗,評價組間構(gòu)成比的差異。在病例-對照研究和隊列研究的四格表可用于計算OR和RR及其可信區(qū)間,同時采用Mantel-Haenszel卡方對OR和RR進行統(tǒng)計檢驗。在臨床試驗中,常用于安全性指標(biāo)(不良事件是否發(fā)生)發(fā)生率的組間評價,樣本例數(shù)較少時,直接指定Fisher精確檢驗。若響應(yīng)變量是多值有序變量,可采用Wilcoxon秩和檢驗(兩組)和Kruskal-Wallis檢驗(兩組以上)。若行和列的屬性構(gòu)成配對結(jié)構(gòu)時,可用McNemar檢驗或Kappa檢驗對一致性分布進行定性和定量的檢驗。若分組變量為有序多分類,而響應(yīng)變量為二分類時,除了可用卡方檢驗外,還可使用Cochran-Armitage趨勢檢驗來檢驗率和有序多分類變量之間是否存在線性趨勢。

1.2.2 一元定量資料的差異性檢驗 單組設(shè)計的定量資料和單組設(shè)計的定性資料的應(yīng)用范圍類似,但樣本估計的參數(shù)是均值或中位數(shù),根據(jù)正態(tài)性檢驗的結(jié)果選擇統(tǒng)計方法。符合正態(tài)分布時,采用單樣本t檢驗,均值的可信區(qū)間基于正態(tài)分布計算。不滿足正態(tài)分布時,采用符號秩檢驗,中位數(shù)的可信區(qū)間基于非參數(shù)方法計算[18]。

對于成組設(shè)計的定量資料,若兩組定量資料是配對關(guān)系,則計算差值后采用單組設(shè)計的統(tǒng)計方法。若組間的資料獨立,則需根據(jù)各組的正態(tài)分布檢驗和方差齊性檢驗選擇獨立樣本的t檢驗和Wilcoxon秩和檢驗(兩組),或方差分析和Kruskal-Wallis檢驗(兩組以上)。對于兩組以上的檢驗,如果差異有統(tǒng)計學(xué)意義,可能需要根據(jù)研究設(shè)計選擇合適的方法進行事后的兩兩比較分析。呈現(xiàn)結(jié)果時,需要呈現(xiàn)差異值(均值或中位數(shù))及其95%可信區(qū)間。t檢驗和方差分析可根據(jù)t分布或正態(tài)分布進行可信區(qū)間的估計。而非參數(shù)檢驗不基于概率分布,差值中位數(shù)的可信區(qū)間估計需采用Hodges-Lehmann估計或bootstrap估計。

1.2.3 相關(guān)分析和回歸分析 相關(guān)分析常用于衡量兩個變量之間的線性關(guān)系的強度和方向。如果滿足正態(tài)分布條件,可采用Pearson相關(guān)分析,否則采用Spearman非參數(shù)相關(guān)分析。對于數(shù)據(jù)中出現(xiàn)的離群值,Spearman相關(guān)分析的結(jié)果更穩(wěn)健。相關(guān)分析的結(jié)果描述的是兩個變量的相關(guān)關(guān)系,沒有時間順序,不能用于因果推斷。值得注意的是,對于兩個連續(xù)變量的一致性評價,不能采用相關(guān)分析,而應(yīng)采用Bland-Altman分析法[19]。

回歸分析在生物統(tǒng)計中占有非常重要的作用,可用于探究一個因變量與一個或多個自變量的關(guān)系,通過擬合的回歸系數(shù)直觀的定量解釋因變量隨著自變量變化的變化,從而評價自變量對因變量的獨立作用。在臨床研究中回歸分析主要用于影響因素的研究和預(yù)測模型的建立,在前瞻性研究設(shè)計中甚至可用于自變量和因變量之間因果關(guān)系推斷。根據(jù)自變量與因變量之間的關(guān)系可分為線性回歸和曲線回歸,根據(jù)連接函數(shù)的不同,可將線性回歸進一步分為一般線性回歸和廣義線性回歸。在臨床研究中常用的回歸分析是多重線性回歸(連續(xù)型變量)、Logistic回歸(二值變量、多值有序變量和多值名義變量,二項分布)、Poisson回歸(計數(shù)型變量,Poisson分布)、負(fù)二項回歸(計數(shù)型變量,負(fù)二項分布)和COX模型回歸(生存資料),在實際應(yīng)用中根據(jù)不同的結(jié)局指標(biāo)類型選擇合適的回歸模型。

此外,一些基礎(chǔ)統(tǒng)計方法和回歸分析之間可相互轉(zhuǎn)化,例如卡方分析和t檢驗僅能定性評價組間差異,回歸分析對自變量的統(tǒng)計檢驗和回歸系數(shù)擬合能定性定量的評價組間差異,回歸分析能提供更多的信息,所以在復(fù)雜的模型中推薦使用回歸分析。在臨床研究中對主要連續(xù)指標(biāo)會在實驗開始前測量,稱為基線值;在研究干預(yù)效果時,基線作為特殊的協(xié)變量必須要納入考慮,協(xié)方差分析是回歸分析和方差分析的結(jié)合,扣除基線值對因變量的影響之后,再研究分組的修正均值的差別,該方法在多重線性回歸中實現(xiàn)。在干預(yù)型臨床試驗中一般會設(shè)立對照組并進行試驗前后的測量,協(xié)方差分析僅能有效檢驗試驗后組間的差異,不能用差異來衡量干預(yù)效果,雙重差分方法使用越來越廣泛[20],其思想是實驗組前后的變化值減去對照組前后變化值得到真正的干預(yù)效應(yīng)。在回歸分析的操作中,將前后差值作為因變量,基線值作為協(xié)變量,分組變量作為分析因素,同時納入兩者的交互作用,得到各組的前后差值和組間的雙重差值,同時能對組間的差值進行差異性統(tǒng)計檢驗,定性定量的評價干預(yù)效果。

1.2.4 生存資料的分析 臨床研究的觀測結(jié)果需要做長期隨訪才能確定,所以評價影響因素或干預(yù)效果時,不僅需要分析感興趣的重點事件是否發(fā)生,還要考慮到達終點時經(jīng)歷的時間長短。生存分析是將終點事件是否發(fā)生和所經(jīng)歷的時間結(jié)合起來的統(tǒng)計分析方法。生存曲線的組間比較常采用的是Log-rank檢驗(對遠(yuǎn)期差異敏感)和Wilcoxon檢驗(對近期差異敏感)。生存資料的回歸分析可建立多個因素對生存資料的回歸模型,以便了解各個因素的獨立作用。一般可分為參數(shù)模型的回歸分析和半?yún)?shù)COX回歸分析。若確定生存資料服從某特定分布(Weibull分布、指數(shù)分布、對數(shù)正態(tài)分布或Gamma分布等),需使用相應(yīng)的參數(shù)模型擬合,能得到更準(zhǔn)確的結(jié)果。若生存資料的準(zhǔn)備分布無法獲得時,可采用COX等比例風(fēng)險模型,其不依賴特定分布的特點,在隨訪研究中得到非常廣泛的應(yīng)用。COX模型的使用需要滿足風(fēng)險等比例的前提假設(shè),對分類協(xié)變量可檢驗生存曲線是否交叉,對連續(xù)協(xié)變量需擬合偏殘差與生存時間的關(guān)系。若不滿足前提假設(shè),需采用含時依協(xié)變量的COX模型,此外某些協(xié)變量在隨訪過程會發(fā)生改變,也需要采用該模型進行分析[21]。一般的生存資料假定受試者在隨訪時間內(nèi)最多經(jīng)歷一次隨訪事件,然而受試者可能經(jīng)過多次相同或類似的結(jié)局事件(復(fù)發(fā)),針對該類生存資料需要采用Anderson-Gill強度模型,該模型假定每次事件類型相同且相互獨立[22]。

1.2.5 重復(fù)測量數(shù)據(jù) 在縱向資料中可能會對結(jié)局指標(biāo)進行多次測量,構(gòu)成重復(fù)測量的數(shù)據(jù),該實驗設(shè)計在臨床研究中應(yīng)用廣泛。由于數(shù)據(jù)的非獨立性,不滿足一般回歸的前提假設(shè),常用的統(tǒng)計方法有重復(fù)測量的方差分析、混合效應(yīng)模型和廣義估計模型。重復(fù)測量的方差分析的思想是總變異分解成個體內(nèi)變異和個體間變異,需要滿足正態(tài)性、方差齊性和球形的前提假設(shè),但數(shù)據(jù)中存在缺失時,分析會將存在缺失的研究對象數(shù)據(jù)全部刪除,有效樣本量大大降低?;旌闲?yīng)模型和廣義估計模型采用縱向數(shù)據(jù)格式,能有效利用樣本的信息,根據(jù)不同的協(xié)方差矩陣結(jié)構(gòu)保證分析結(jié)果更加準(zhǔn)確保守,同時能對時變因素進行多重比較[23,24]。所以針對重復(fù)測量數(shù)據(jù)應(yīng)主要采用混合效應(yīng)模型和廣義估計模型。混合效應(yīng)模型考慮隨機效應(yīng),是對個體水平值的估計,而廣義估計模型主要考慮固定效應(yīng),是對總體平均水平值的估計,在分析時根據(jù)需求選擇。

1.3 輔助統(tǒng)計方法

1.3.1 樣本量估計和檢驗效能分析 臨床研究不會選擇總體目標(biāo)人群而是選擇合適的具有代表性的樣本進行研究。根據(jù)假設(shè)檢驗原理,樣本過小,無法檢驗出真實存在的差別,得到的結(jié)論缺乏充分的依據(jù),樣本過大,會造成人力、物力和時間的不必要浪費,甚至?xí)驗橥度氩蛔愣鴮?dǎo)致研究質(zhì)量下降,此外臨床研究的對象大部分是人,而在研究過程中可能會對研究對象造成不同程度的損傷,所以正確估計樣本量是臨床研究中的非常重要的前提工作。樣本量的大小與很多因素有關(guān),如試驗設(shè)計類型、檢驗水準(zhǔn)、把握度、期望的效應(yīng)值和標(biāo)準(zhǔn)差等。選擇合適的參數(shù)并借用正確的計算公式,進行樣本量的估計。

檢驗效能,即把握度,是根據(jù)Ⅱ型錯誤概率(假陰性率)的大小決定。當(dāng)假設(shè)的統(tǒng)計檢驗結(jié)果為陰性時,不能拒絕原假設(shè),需要檢查樣本量和檢驗效能是否偏低,保證“陰性”結(jié)論的正確和可信。

1.3.2 匹配 在非隨機對照實驗中,由于沒有事先對研究對象進行隨機分配,某些已知或未在的重要混雜因素在組間分布可能不均勻,使得對比組間缺乏可比性,從而無法真實評價分組因素的真實作用。傳統(tǒng)控制混雜可使用回歸分析進行調(diào)整,但當(dāng)混雜因素過多時不太適用,近幾年匹配在大樣本的觀測性研究中得到廣泛應(yīng)用。常用的匹配方法有個體匹配、多元匹配和傾向得分。個體匹配是將協(xié)變量相等或相近的個體作為一對,這樣保證組間完全均衡,但是當(dāng)控制變量較多時,效率不高,在大樣本或協(xié)變量條件苛刻(基因研究)中使用。多元匹配是根據(jù)協(xié)變量之間的馬氏距離按照最近原則進行匹配。傾向得分是根據(jù)已知協(xié)變量計算研究對象進入研究組的概率,最常用的模型是Logistic模型和判別分析。傾向得分可直接作為協(xié)變量進行模型的調(diào)整校正,或根據(jù)傾向得分分層后進行分層分析。傾向性得分匹配根據(jù)傾向性得分進行匹配,是最常用的方法,一般指定卡鉗值進行最近匹配。

1.3.3 敏感性分析 敏感性分析常用于評估主要分析的結(jié)果和結(jié)論的穩(wěn)健性。在臨床研究,特別是臨床試驗中使用越來越多[25]。臨床研究的設(shè)計和分析?;谝欢ǖ募僭O(shè),如果假設(shè)不滿足可能會帶來一定影響,敏感性分析通過改變研究假設(shè)、統(tǒng)計分析方法和模型等方法來檢驗研究結(jié)論是否一致,常見場景有缺失值、離群值、研究方案違背、研究結(jié)局的不同定義、基線不均衡等。主要分析結(jié)果和敏感性分析的一致性能鞏固研究結(jié)論,使研究發(fā)現(xiàn)更可信。臨床試驗中,需在方案中提前定義,結(jié)論不一致時需討論并合理解釋。

1.3.4 期中分析 期中分析是指在臨床試驗中按照方案在研究結(jié)束前對有效性和安全性進行評價,常用于盡早確認(rèn)藥物的有效性、樣本量的重新估算和檢測試驗的安全性。若以有效性評價為目的時,多次期中分析(假設(shè)檢驗)會增加假陽性率,所以需要調(diào)整檢驗水準(zhǔn),常用的方法有O’Brien-Fleming法和Lan-Demets的α消耗函數(shù)法,前者要求每次分析時間間隔相等,后者沒有此要求而更靈活。期中分析一般要求獨立的第三方統(tǒng)計分析單位進行,并嚴(yán)格審核。

1.3.5 自助法 自助法(Bootstrap法)是以現(xiàn)有樣本為基礎(chǔ)再抽樣的隨機模擬方法,特別適用于難以用常規(guī)方法計算或分布未知的參數(shù)的可信區(qū)間估計和假設(shè)檢驗?;舅枷胧菑默F(xiàn)有樣本中有放回的抽樣,形成樣本量相同的新樣本,計算該樣本的參數(shù)。重復(fù)N次,得到N個樣本參數(shù),并計算樣本參數(shù)的標(biāo)準(zhǔn)誤用于假設(shè)檢驗,一般取2.5%~97.5%分位數(shù)作為該參數(shù)的可信區(qū)間。自助法要求原樣本具有代表性,例數(shù)不能太小,同時重復(fù)次數(shù)盡量取1000以上。

2 臨床研究統(tǒng)計中的常見問題

2.1 選擇合適的數(shù)據(jù)集是否正確選擇統(tǒng)計分析集會直接影響分析結(jié)果的可靠性。在臨床試驗實施中要保證所有受試者滿足納入排除標(biāo)準(zhǔn)、嚴(yán)格遵守試驗方案,并且沒有任何失訪和數(shù)據(jù)缺失是很難實現(xiàn)的。意向分析(ITT)原則要求納入所有隨機化后的受試者,按其隨機分到的組進行分析,保證組間的可比性,從而避免破壞隨機化而引入偏倚,使得統(tǒng)計學(xué)檢驗結(jié)果的可靠[26]。但在實際中可能會發(fā)生隨機化的受試者違反主要入組標(biāo)準(zhǔn),或未服用一次藥物,或隨機化沒有任何數(shù)據(jù),所有一般采用全分析集,它是最接近意向分析原則的理想受試者集。符合方案集納入對試驗方案依從性良好的受試者集,是全分析集的子集。ITT集/全分析集屬于“現(xiàn)實場景”,結(jié)果趨于保守,符合方案集屬于“理想場景”,結(jié)果傾向于有意義。我國國家藥品食品監(jiān)督總局和美國食品藥品監(jiān)督局對臨床試驗要求對ITT集/全分析集和符合方案集同時進行分析,如果兩者分析結(jié)果一致,可增加試驗結(jié)果的可信性,如果不一致,則需要進行解釋。另外,根據(jù)不同數(shù)據(jù)集的特性,對優(yōu)效、等效和非劣設(shè)計的臨床試驗中數(shù)據(jù)集的選擇要求有所不同,優(yōu)效試驗要求ITT集/全分析集作為主要分析集,而等效和非劣設(shè)計將符合方案集作為主要分析集。

2.2 標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)差(SD)和標(biāo)準(zhǔn)誤(SE)均用于測量變異程度。標(biāo)準(zhǔn)差屬于描述統(tǒng)計指標(biāo),主要衡量變量本身的離散程度。標(biāo)準(zhǔn)誤屬于推斷統(tǒng)計指標(biāo),是由抽樣導(dǎo)致的樣本統(tǒng)計量(如均值、標(biāo)準(zhǔn)差等)與總體參數(shù)或其他樣本統(tǒng)計量間的差異,反映研究的可信性和可靠性,常用于計算可信區(qū)間。兩者之間關(guān)系為 ,從關(guān)系可見,標(biāo)準(zhǔn)誤總會小于標(biāo)準(zhǔn)差,研究者可能會誤用標(biāo)準(zhǔn)誤來取代標(biāo)準(zhǔn)差進行統(tǒng)計描述,從而可能誤導(dǎo)讀者對結(jié)果的理解[27]。因此,需在描述統(tǒng)計和推斷統(tǒng)計中正確使用以上變異指標(biāo)。

2.3 組間可比性在隨機對照試驗中隨機化包括隨機選擇目標(biāo)總體重樣本和隨機分配受試者兩大部分,目的是保證樣本能很好的代表總體人群,同時組間具有最大程度的可比性??杀刃悦枋龈髟囼灲M之間除了處理因素不同外,其他非處理因素,如人口學(xué)特征和預(yù)后指標(biāo)等盡量能一致并均衡。假設(shè)檢驗是在一定檢驗水準(zhǔn)下對偶然性的檢驗,如果隨機化過程正常,任何觀測到不均衡可能只是一種偶然現(xiàn)象,此時對基線指標(biāo)進行組間比較的假設(shè)檢驗顯得不必要[28]。而在很多包含基線的組間比較的文獻中,很少報道有基線有統(tǒng)計學(xué)差異結(jié)果,這是不正常的。因此,如果能保證科學(xué)正確隨機化,在結(jié)果的第一部分我們僅需要使用表格呈現(xiàn)各組樣本的特征,在進行最終模型分析時,指標(biāo)是否組間均衡不應(yīng)作為納入?yún)f(xié)變量的標(biāo)準(zhǔn)。如果不均衡指標(biāo)可能是未知的預(yù)后影響因素,我們可以把協(xié)變量納入這些指標(biāo)進行敏感性分析。

2.4 協(xié)變量的選擇與調(diào)整有效性的評價除了受分組因素的影響外,可能受受試者的人群特征的影響,如性別、激素水平等,這些影響變量稱為協(xié)變量或混雜因素。為了避免偏倚得到合理的統(tǒng)計學(xué)推斷,必須在統(tǒng)計分析過程中校正與結(jié)局相關(guān)的協(xié)變量。對協(xié)變量的選擇一般有三種方法:第一種方法是基于協(xié)變量組間比較的假設(shè)檢驗,例如選擇P值小于0.2或0.1的協(xié)變量,該方法一直以來被很多研究者使用,正如前面組間可比性的差異來源偶然性的描述,該方法已受到很多質(zhì)疑而不再推薦使用。第二種方法是基于協(xié)變量對結(jié)局指標(biāo)的影響程度,檢驗協(xié)變量與結(jié)局指標(biāo)之間的相關(guān)分析,例如皮爾森相關(guān)系數(shù),選擇合適的系數(shù)界值選擇協(xié)變量,或者根據(jù)估計值改變策略(Change in estimation,CIE)計算添加或刪除某一協(xié)變量后關(guān)注變量的估計值(回歸系數(shù)、OR、HR等)的變化百分比,一般以全模型為標(biāo)準(zhǔn)采用后退法進行計算,例如:ΔOR=|ORi-ORfull|/ORfull,選擇變化百分比超過10%作為界值篩選協(xié)變量。第三種方法是基于前人研究基礎(chǔ)選擇已經(jīng)證實對結(jié)局指標(biāo)有影響的協(xié)變量。協(xié)變量的調(diào)整可在研究設(shè)計階段和統(tǒng)計分析階段實施。在隨機對照試驗中采用區(qū)組隨機法(一個協(xié)變量)、分層隨機法(一個或以上少數(shù)協(xié)變量)或最小化法的動態(tài)隨機法(多個協(xié)變量)保證關(guān)鍵協(xié)變量組間的均衡性,在病例-對照研究中采用匹配技術(shù)對兩組的進行精確或模糊匹配。統(tǒng)計分析時采用多因素回歸模型取代單因素分析方法,調(diào)整協(xié)變量不均衡帶來的偏倚,值得注意的是,研究設(shè)計階段的協(xié)變量也需要納入最終模型中。在確證性的臨床試驗中一般會在方案中規(guī)定納入哪些協(xié)變量,并提供相應(yīng)依據(jù),事先未規(guī)定校正的協(xié)變量,一般不進行校正。

2.5 交互作用與亞組分析交互作用是顯示不同變量之間對結(jié)局指標(biāo)的聯(lián)合效應(yīng),常體現(xiàn)為變量A對結(jié)局指標(biāo)的作用在變量B的不同水平下表現(xiàn)不同,一般可對效應(yīng)一致性檢驗或模型中的交互項的假設(shè)檢驗來判斷交互作用是否存在。

亞組分析是對交互作用的“剖析”,將數(shù)據(jù)集在變量B的不同水平分割形成亞組,分別對變量A的效應(yīng)進行分析,例如證實某種藥物有效后了解不同人群是否療效不同,或者總體療效無統(tǒng)計學(xué)意義,尋找可能有意義的亞組人群。亞組分析可分為預(yù)先定義和事后兩種情況。事后亞組分析一般屬于敏感性分析,評估結(jié)論的穩(wěn)健性,但臨床研究一般采取抽樣調(diào)查,樣本量有限,對總體效應(yīng)分析有足夠的檢驗效能,分亞組后樣本量減少,檢驗效能降低(Ⅱ類錯誤),同時,對同一效應(yīng)進行多次檢驗增加假陽性率(Ⅰ類錯誤),特別是當(dāng)總體效應(yīng)無統(tǒng)計學(xué)意義時[29,30]。在隨機分組實驗中,亞組分析會破壞隨機化的作用,結(jié)果解釋需謹(jǐn)慎。在臨床試驗中,若總體效應(yīng)無統(tǒng)計學(xué)意義時,發(fā)現(xiàn)某亞組有統(tǒng)計學(xué)意義,只能為下一步研究提供假設(shè)依據(jù),不能作為批準(zhǔn)藥物在該亞組人群中使用的依據(jù)。所以,亞組分析一般作為探索性分析,而不是驗證性分析。例如藥物效果,在不同特征的人群中可能有不同,預(yù)先定義的亞組分析能為臨床試驗提供更豐富的信息,需要在臨床試驗方案中提前聲明,并在計算樣本量和隨機化分組時考慮亞組變量的影響,確定研究的假設(shè)檢驗和統(tǒng)計方法,這樣結(jié)果才可信,才能為針對特定人群的藥物上市提供依據(jù)。

2.6 多中心研究的問題同一臨床研究在不同的研究地點或機構(gòu)同時進行,能在較短時間內(nèi)收集較多的樣本,提高效率,同時病例招募范圍比單中心廣,樣本更具代表性,提高研究結(jié)論的外推性,在新藥Ⅱ、Ⅲ期的臨床試驗常常采用該方法。多中心研究的樣本量和統(tǒng)計效能計算通?;诟髦行牡男?yīng)一致,然而各中心的研究條件可能不完全相同,對研究方案的理解可能存在一定偏差,結(jié)論可能不一致,差異較大時直接合并各中心資料進行統(tǒng)計會導(dǎo)致結(jié)論出現(xiàn)嚴(yán)重偏差。因此,在統(tǒng)計分析時必須考慮中心效應(yīng)是否存在,同時采用合適的統(tǒng)計方法扣除中心效應(yīng)再進行效應(yīng)分析。在臨床試驗中,還需要檢驗中心和治療分組是否存在交互作用,若存在則表明不同中心的效應(yīng)不同,統(tǒng)計分析結(jié)果的解釋需要非常謹(jǐn)慎,甚至可能需要重新進行臨床試驗。當(dāng)中心數(shù)較多,大部分中心的樣本量較少時,可以根據(jù)方案預(yù)先的規(guī)定合并部分中心或者統(tǒng)計分析時不考慮中心效應(yīng)。在同一個中心的研究對象有內(nèi)部相似性,在實際統(tǒng)計分析時更關(guān)注扣除中心效應(yīng)后分析結(jié)果,推薦使用能處理非獨立數(shù)據(jù)的多水平混合效應(yīng)模型,并在模型中納入相關(guān)的交互項。

2.7 缺失值的處理數(shù)據(jù)缺失在臨床研究中普遍存在,是潛在的偏倚來源。數(shù)據(jù)缺失的機制分為完全隨機缺失、隨機缺失和非隨機缺失三種機制。在統(tǒng)計分析時需正確處理缺失值,減少偏倚。缺失機制根據(jù)完整數(shù)據(jù)一般難以區(qū)分,所以常?;诓煌募僭O(shè)進行敏感性分析,檢驗結(jié)果的穩(wěn)定性。常用于處理數(shù)據(jù)缺失的方法有使用完整數(shù)據(jù)、缺失歸類和數(shù)據(jù)填補三種方法:①若采用完整病例時,實際樣本量減少,導(dǎo)致檢驗效能降低,同時缺失的數(shù)據(jù)可能與研究變量或結(jié)局指標(biāo)有關(guān),統(tǒng)計分析會得到偏倚結(jié)果。在隨機對照實驗組中刪除缺失樣本可能會破壞隨機性(樣本的代表性和組間可比性),同時也違背了意向分析的原則,所以忽略缺失值的方法一般僅在探索性研究中使用,在驗證性研究中可作為敏感性分析部分來檢驗結(jié)果的穩(wěn)定性。②缺失指示法是指將缺失值進行標(biāo)示,對于分類變量,將缺失值處理成獨立的一類屬性,對于連續(xù)變量,將缺失值設(shè)置為固定值,例如0,然后再添加一個1/0的標(biāo)示是否缺失的啞變量,在模型中同時納入。該方法能保留全部樣本,但可能會引入其他混雜。③數(shù)據(jù)填補可分為單次填補和多重填補,單次填補是對缺失值僅填補一次,常選擇末次訪視結(jié)轉(zhuǎn)、基線觀測值結(jié)轉(zhuǎn)、平均值填補、最差病例填補和最好病例填補等,單次填補沒有考慮缺失值的不確定性,低估或高估數(shù)據(jù)的變異,會導(dǎo)致估計值的標(biāo)準(zhǔn)誤過小或過大。多重填補為每個缺失值提供m個填補值,產(chǎn)生m個完整數(shù)據(jù)集,分別分析后再合并效應(yīng),該方法考慮缺失值的不確定性,提供無偏倚有效的估計,逐漸成為處理缺失值的標(biāo)準(zhǔn)[31]。此外,針對重復(fù)測量數(shù)據(jù)的缺失可以采用混合效應(yīng)模型或廣義估計模型,數(shù)據(jù)被轉(zhuǎn)化為縱向結(jié)構(gòu),保證每個病例的信息得到充分利用,可得到估計值的無偏估計[32]。

在實際統(tǒng)計實踐中,通常會選擇完整病例和多個填補方法的統(tǒng)計結(jié)果構(gòu)成敏感性分析,檢驗結(jié)果的一致性和可信性。盡管在統(tǒng)計分析階段可采用恰當(dāng)?shù)姆椒p少缺失帶來的影響,但應(yīng)在研究設(shè)計和數(shù)據(jù)收集階段減少缺失發(fā)生的可能性,例如統(tǒng)一培訓(xùn)或數(shù)據(jù)質(zhì)量審查,對于無法避免的缺失,應(yīng)詳細(xì)記錄缺失的原因,用于對結(jié)果的解釋,從根本上減少數(shù)據(jù)缺失的影響[33]。

3 結(jié)語

臨床研究能解決臨床問題,為疾病的預(yù)防、治療和預(yù)后提供寶貴的信息,是促進人類健康的基礎(chǔ)。只有科學(xué)正確的統(tǒng)計方法,才能保證臨床研究得出的結(jié)論盡可能正確可信。然而,從已發(fā)表的文獻及平日交流所獲取的信息來看,如何正確選取最優(yōu)的統(tǒng)計方法是當(dāng)前諸多研究者面臨的困惑。本文簡要總結(jié)介紹了臨床研究中常用到的統(tǒng)計方法以及分析了常見的問題,可以為讀者結(jié)合自己研究的設(shè)計類型、研究目標(biāo)、研究樣本量等信息合理選擇統(tǒng)計方法提供參考。

[1]國家食品藥品監(jiān)督管理總局. 《化學(xué)藥物和生物制品臨床試驗的生物統(tǒng)計學(xué)技術(shù)指導(dǎo)原則》(2005)[EB/OL]. Available from: http://www.sda.gov.cn/WS01/CL1616/83423.html.

[2]國家食品藥品監(jiān)督管理總局. 總局關(guān)于發(fā)布藥物臨床試驗的生物統(tǒng)計學(xué)指導(dǎo)原則的通告(2016年第93號)[EB/OL]. Available from: http://www.sda.gov.cn/WS01/CL0087/154780.html.

[3]魏萬林. 傳播臨床研究方法提升臨床研究質(zhì)量[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(1):1.

[4]鄔蘭,田國祥,王行環(huán),等. 臨床試驗的注冊及注冊平臺比較分析[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(2):129-34.

[5]翁鴻,任學(xué)群,王行環(huán),等. 臨床研究的選題原則及選題[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(3):257-60.

[6]翁鴻,尹慶鋒,王朝陽,等. 臨床研究方案設(shè)計要點之對照藥物的選擇[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(4):385-7.

[7]曾憲濤,朱婷婷,孟詳喻,等. 臨床研究設(shè)計方案要點之藥品上市后再評價研究不良事件的管理[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(5):520-2.

[8]桂裕亮,陳尊,田國祥,等. 臨床研究設(shè)計方案要點之臨床試驗方案設(shè)計的幾點思考[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(6):641-3.

[9]翁鴻,朱風(fēng)雷,田國祥,等. 臨床研究方案設(shè)計要點之構(gòu)建研究問題[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(7):769-11.

[10]黃笛,李賓,翁鴻,等. 臨床研究中的受試者懷孕、保險購買、方案違背及監(jiān)查員的誠信問題[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(8):897-9.

[11]耿輝,賀海蓉,曾憲濤,等. 多中心臨床數(shù)據(jù)采集系統(tǒng)REDCap系統(tǒng)應(yīng)用及架設(shè)[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(9):1025-8.

[12]曾憲濤,朱風(fēng)雷,任學(xué)群,等. 基于臨床科研一體化技術(shù)的臨床研究[J]. 中國循證心血管醫(yī)學(xué)雜志,2017,9(10):1164-9.

[13]Barkan H. Statistics in clinical research: Important considerations[J].Ann Card Anaesth,2015,18(1):74-82.

[14]Madadizadeh F,Ezati AM,Hosseini M. Common Statistical Mistakes in Descriptive Statistics Reports of Normal and Non-Normal Variables in Biomedical Sciences Research[J]. Iran J Public Health,2015,44(11):1557-8.

[15]Marino MJ. The use and misuse of statistical methodologies in pharmacology research[J]. Biochem Pharmacol,2014,87(1):78-92.

[16]成琪,劉玉秀,陳林,等. 單組臨床試驗?zāi)繕?biāo)值法的精確樣本含量估計及統(tǒng)計推斷[J]. 中國臨床藥理學(xué)與治療學(xué),2011,16(5):517-22.

[17]Pradhan V,Evans JC,Banerjee T. Binomial confidence intervals for testing non-inferiority or superiority: a practitioner's dilemma[J]. Stat Methods Med Res,2016,25(4):1707-17.

[18]Hahn GJ,Meeker WQ. Statistical Intervals: A Guide for Practitioners[M]. New York:John Wiley & Sons.,1991.

[19]陳卉. Bland-Altman分析在臨床測量方法一致性評價中的應(yīng)用[J]. 中國衛(wèi)生統(tǒng)計,2007,24(3):308-9.

[20]Dimick JB,Ryan AM. Methods for evaluating changes in health care policy:the difference-in-differences approach[J]. JAMA,2014,312 (22):2401-2.

[21]陶莊. 含時間相依協(xié)變量的Cox模型與SAS軟件實現(xiàn)[J]. 中國慢性病預(yù)防與控制,2008,16(4):430-1.

[22]Amorim LD,Cai J. Modelling recurrent events: a tutorial for analysis in epidemiology[J]. Int J Epidemiol,2015,44(1):324-33.

[23]王筱金,高爾生,樓超華. SAS中MIXED相對GLM對重復(fù)數(shù)據(jù)分析的優(yōu)勢[J]. 中國衛(wèi)生統(tǒng)計,2006,23(2):173-5.

[24]Ma Y,Mazumdar M,Memtsoudis SG. Beyond repeated-measures analysis of variance: advanced statistical methods for the analysis of longitudinal data in anesthesia research[J]. Reg Anesth Pain Med,2012,37(1):99-105.

[25]Thabane L,Mbuagbaw L,Zhang S,et al. A tutorial on sensitivity analyses in clinical trials: the what, why, when and how[J]. BMC Med Res Methodol,2013,13:92.

[26]Gupta S K. Intention-to-treat concept: A review[J]. Perspect Clin Res,2011,2(3):109-12.

[27]Carter RE. A standard error: distinguishing standard deviation from standard error[J]. Diabetes,2013,62(8):e15.

[28]Roberts C, Torgerson DJ. Understanding controlled trials:baseline imbalance in randomised controlled trials[J].BMJ,1999,319(7203):185.

[29]Lagakos SW. The challenge of subgroup analyses--reporting without distorting[J]. N Engl J Med,2006,354(16):1667-9.

[30]Wang R,Lagakos SW,Ware JH,et al. Statistics in medicine--reporting of subgroup analyses in clinical trials[J]. N Engl J Med,2007,357(21):2189-94.

[31]Pedersen AB,Mikkelsen EM,Cronin-Fenton D,et al. Missing data and multiple imputation in clinical epidemiological research[J]. Clin Epidemiol,2017,9:157-66.

[32]周倩,張晉昕. 含缺失值的重復(fù)測量資料分析在SPSS和SAS中的實現(xiàn)[J]. 循證醫(yī)學(xué),2013,13(2):120-3.

[33]Bell ML,Fiero M,Horton NJ,et al. Handling missing data in RCTs; a review of the top medical journals[J]. BMC Med Res Methodol,2014,14:118.

The common used statistic methods and common problems in clinical research


Huang Qiao*, Huang Di, Jin Yinghui, Zeng Xiantao.
*Center for Evidence-Based and Translational Medicine, Zhongnan Hospital of Wuhan University; Center for Evidence-Based and Translational Medicine, Wuhan University; Department of Evidence-Based Medicine and Clinical Epidemiology, The Second Clinical College, Wuhan University, Wuhan 430071, China.
Corresponding author: Zeng Xiantao, E-mail: zengxiantao1128@163.com

The scientific and appropriate statistical analysis is the important guarantee of correct and credible conclusion made from clinical studies. This article briefly introduce commonly used statistical methods and analyze common issues in clinical studies. Statistical methods include descriptive statistics, inference statistic and auxiliary statistics. Test of difference in one categorical variable or continuous variable, correlation and regression, analysis of survival data and repeated measured were presented as inference statistics. Sample size estimation and power analysis, matching, sensitivity analysis, interim analysis and bootstrap analysis were presents as auxiliary statistics.Finally, we discuss some common issues that are correct chose of data set for analysis, standard deviation and standard error, baseline comparison, selection and adjustment of covariates, interaction effect and subgroup analysis,multicenter study and dealing with missing data.

Clinical study; Clinical trial; Statistical analysis

R4

A

1674-4055(2017)11-1288-06

國家重點研發(fā)計劃專項基金(2016YFC0106300)

1430071 武漢,武漢大學(xué)中南醫(yī)院循證與轉(zhuǎn)化醫(yī)學(xué)中心·武漢大學(xué)循證與轉(zhuǎn)化醫(yī)學(xué)中心·武漢大學(xué)第二臨床學(xué)院循證醫(yī)學(xué)與臨床流行病學(xué)教研室

共同第一作者:黃笛

曾憲濤,E-mail:zengxiantao1128@163.com

10.3969/j.issn.1674-4055.2017.11.02

孫竹

猜你喜歡
臨床試驗組間變量
A case of conjunctival intraepithelial neoplasia with spheroidal degeneration: a clinicopathological study
美國特戰(zhàn)司令部參與抗衰藥臨床試驗 合成一百余種新型NAD+增強劑
尋求不變量解決折疊問題
品管圈在持續(xù)改進醫(yī)療器械臨床試驗全周期質(zhì)量控制中的應(yīng)用
復(fù)方血栓通膠囊對早期糖尿病腎病患者局部血流及微炎癥反應(yīng)的影響觀察
抓住不變量解題
參加臨床試驗,也要“順道”
做事如做藥
數(shù)據(jù)組間平均數(shù)、方差關(guān)系的探究
要背溝,不要“虎背熊腰”