哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150086) 李路路 侯 艷 吳 瑩 李 康
臨床試驗中等級資料的記分分析方法的適用性*
哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150086) 李路路 侯 艷 吳 瑩 李 康△
在臨床試驗中,經(jīng)常會遇到主要療效指標為等級的情況,如將臨床療效的評價結(jié)果分為“痊愈、顯效、有效、無效”幾個等級。對此,通??梢允褂脙煞N統(tǒng)計方法進行分析,一種分析方法是將結(jié)果“痊愈”和“顯效”合并,轉(zhuǎn)化成“愈顯率”二分類指標,然后對兩組率進行檢驗;另一種方法是對等級資料直接采用Wilcoxon-Mann-Whitney秩和檢驗[1]。前者對等級試驗結(jié)果進行了合并,可能會損失一定的信息,降低檢驗效能;而后一種方法只考慮到資料的分級情況,卻沒有考慮各等級之間的歸屬程度。為此,本文探討根據(jù)各等級歸屬程度的2×K等級資料的記分分析方法,并給出了這種方法的檢驗統(tǒng)計量。記分分析方法在基因表達數(shù)據(jù)分析中有應用[2-6],對于臨床試驗是否可以采用這種方法尚存在一定的爭議,主要問題是對不同級別打分具有一定的主觀性,分析結(jié)果的可靠性難以判斷。事實上,對于具體的臨床試驗,各級別之間的差別并非等距,例如很多情況“痊愈”和“顯效”的結(jié)果更為相近,如果把“有效”定義為有一定的改善,則“有效”和“無效”更為接近,因為很多疾病的發(fā)展具有一定的自限性。如果能夠從專業(yè)意義上對不同級別給定合適的分數(shù),在此基礎上進行統(tǒng)計檢驗更為合理,為此本文在介紹該方法的基礎上,通過模擬實驗和實例,探討使用該方法檢驗的準確性,并對其檢驗效能進行研究。
假設等級資料為2×K的列聯(lián)表形式,列聯(lián)表的行為處理因素Ti(i=1,2),列為等級療效指標Xk(k=1,…,K),nik表示在處理因素為i,療效為k的受試者例數(shù),ni表示接受處理因素i的受試者的例數(shù),其中n1=n11+…+n1K,n2=n21+…+n2K,n=n1+n2。現(xiàn)假設各療效屬于第k分類的歸屬度為wk(k=1,…,K)∈[0,1];則等級資料的記分分析方法的無效假設和備擇假設分別為
其中,π1k和π2k分別為兩處理組出現(xiàn)第k級療效的概率,這一假設相當于兩組得分的期望值相同。此時,模型對應的檢驗統(tǒng)計量為[3]
容易證明,在大樣本下Z近似服從標準正態(tài)分布。是處理組1為第k級療效時的概率估計是處理組2為第k級療效時的概率估計為第k級療效兩組合并概率估計值。當|Z|>Z1-α/2時,可在α(如α=0.05)檢驗水準上拒絕H0,得到兩組療效不同的結(jié)論。
1.Ⅰ類錯誤的控制
研究等級資料的記分分析方法對I類錯誤的控制情況。假設兩樣本均來自同一個總體X~N(0,1),將其按(-∞,-1.5],(-1.5,0],(0,1.5],(1.5,∞)分成四個等級[7],分別表示無效、有效、顯效、痊愈。樣本量分別為100例,進行2000次模擬實驗。表1是總體在正態(tài)分布下I類錯誤和給定得分w1,w2,w3,w4的關系。假設兩樣本均來自另一個總體lnX~N(0,0.5),將其按(0,0.25],(0.25,0.5],(0.5,1.5],(1.5,∞)分成四個等級,分別表示無效、有效、顯效、痊愈。樣本量分別為100例,進行2000次模擬實驗。表2是總體為對數(shù)正態(tài)分布下I類錯誤和w1,w2,w3,w4的關系。結(jié)果顯示,當w1=0,w4=1時,對于不同的w2,w3,在給定的檢驗水平下,I類錯誤會有所變化,但是均能很好地控制在設定的檢驗水平附近。
2.檢驗效能的變化情況
在評價指標為等級變量的臨床試驗中,可以將等級變量看作是由潛在連續(xù)變量分組后得到的變量,其分布可能是正態(tài)的,也可能是偏態(tài)的。當潛在變量服從正態(tài)分布時,構造X1~N(0,1),X2~N(Δ,1),X3~N(0,σ2)的三個總體,將其按(-∞,-1.5],(-1.5,0],(0,1.5],(1.5,∞)分成四個等級[7],分別表示無效、有效、顯效、痊愈。
表1 樣本來自的總體服從正態(tài)分布時記分分析方法對I類錯誤的控制情況(α=0.05)
表2 樣本來自的總體服從偏態(tài)分布時記分分析方法對I類錯誤的控制情況(α=0.05)
當潛在變量服從偏態(tài)分布時,構造lnX1~N(0,1),lnX2~N(Δ,1),lnX3~N(0,σ2)三個總體,將其按(0,0.25],(0.25,0.5],(0.5,1.5],(1.5,∞)分成四個等級,分別表示無效、有效、顯效、痊愈。模擬實驗按照正態(tài)、偏態(tài)兩種不同情況,考察方差相同、不同時兩總體位置變化的檢驗效能(圖1-圖6)。
從圖1(a)、1(b)和圖2(a)、2(b)可以看出,當兩樣本來自的總體方差相同時,隨著均值Δ的升高,記分分析方法和Wilcoxon秩和檢驗的檢驗效能都在升高,并且兩種方法的檢驗效能幾乎相同。
圖1 正態(tài)分布下隨著Δ的變化兩種方法檢驗效能的變化圖
從圖3(a)和圖3(b)可以看出,如果兩樣本來自的正態(tài)總體均值相同,方差不同,兩種方法都無法檢驗出來。從圖4(a)和圖4(b)可以看出,如果兩樣本來自的對數(shù)正態(tài)總體的均值相同、方差不同,當0<σ≤1時,Wilcoxon秩和檢驗的檢驗效能隨著方差的增加而降低,記分分析方法的檢驗效能隨著方差的增加是先增加后降低;當1<σ≤2時,隨著方差的增加,兩種方法的檢驗效能都在增加,但記分分析方法明顯比Wilcoxon秩和檢驗具有更高的檢驗效能。此外,可以看到記分分析方法的檢驗效能也和給定的各等級的得分有關。
圖2 對數(shù)正態(tài)分布下隨著Δ的變化兩種方法檢驗效能的變化圖
圖3 正態(tài)分布下隨著σ的變化兩種方法的檢驗效能變化圖
圖4 對數(shù)正態(tài)分布下隨著σ的變化兩種方法的檢驗效能變化圖
從圖5(a)、5(b)和圖6(a)、6(b)可以看出,如果兩樣本來自的總體方差不同,隨著Δ均值的增加,兩種方法的檢驗效能都有所增加,但是記分分析方法的檢驗效能明顯比Wilcoxon秩和檢驗的效能高。
欲比較某試驗藥物和對照藥物燈盞細辛注射液治療恢復期腦梗死(淤血阻滯證)的療效,采用平行對照、隨機、雙盲的方法進行臨床試驗研究,其中醫(yī)證候療效的評價指標為臨床控制、顯效、有效和無效,試驗數(shù)據(jù)見表3。
根據(jù)表3,用Wilcoxon秩和檢驗得到P=0.1023>0.05,不能拒絕原假設,即不能認為試驗藥的療效與對照藥的療效不同?,F(xiàn)用記分分析方法,由于“顯效”與“臨床控制”的臨床意義更為相近,“有效”與“無效”的臨床意義較為相近,因此對試驗結(jié)果“臨床控制、顯效、有效、無效”分別設置分值1、0.8、0.2、和0,記分分析方法對應的檢驗統(tǒng)計量Z=2.1392,P=0.0324<0.05,拒絕原假設,可以認為試驗藥和對照藥的療效不同,即得出試驗藥的療效優(yōu)于對照藥物的結(jié)論。
圖5 正態(tài)分布下隨著Δ的變化兩種方法檢驗效能的變化圖
圖6 對數(shù)正態(tài)分布下隨著Δ的變化兩種方法檢驗效能的變化圖
表3 試驗藥和對照藥療效的比較
1.本文提出使用記分分析方法對有序終點指標的臨床試驗數(shù)據(jù)進行分析,該方法不僅考慮到了有序資料的分級情況,同時按照不同等級之間的實際歸屬程度進行假設檢驗,能夠綜合數(shù)據(jù)結(jié)果和專業(yè)意義進行假設檢驗。
2.模擬實驗結(jié)果表明:在[0,1]之間對各等級進行打分,同時在大樣本情況下,無論如何設定分值,都能很好地控制Ⅰ類錯誤。另一方面,在兩組潛變量分布方差相同的情況下,記分分析的檢驗效能近似等于Wilcoxon秩和檢驗;而在兩組潛變量分布的方差不同時,記分分析的檢驗效能明顯高于傳統(tǒng)的Wilcoxon秩和檢驗。
3.記分分析需要事先根據(jù)專業(yè)知識對各等級設定分值,否則會給檢驗結(jié)果帶來一定的任意性,增加Ⅰ類錯誤的概率。為了避免爭議,這種方法最好應用于Ⅱ期探索性的臨床試驗研究,而在Ⅲ期確證性臨床試驗研究中則需要慎重使用。
1.Moses LE,Emerson,Hosseini H.Analyzing data from ordered categories.New England Journal of Medicine,1984,311:442-448.
2.Graubard BI,Korn EL.Choice of column scores for testing independence in ordered 2×K contingency tables.Biometrics,1987,43:471-476.
3.Gang Z.Analysis of Ordered Categorical Data:Two Score-Independent Approaches.Biometrics,2008,64:1276-1279.
4.Freidlin B,Zheng G,Li Z,et al.Trend tests for case-control studies of genetic markers:power,sample size and robustness.Human heredity,2009,53(3):146-152.
5.Slager SL,Schaid DJ.Case-control studies of genetic markers:Power and sample size approximations for Armitage′s test for trend.Human heredity,2001,52(3):149-153.
6.Cochran WG.Some methods for strengthening the commonχ2tests.Biometrics,1954,10(4):417-451.
7.王陵,夏結(jié)來,李嬋娟.單項有序二維表的統(tǒng)計分析方法比較.中國衛(wèi)生統(tǒng)計,2008,25(3):236-238.
(責任編輯:郭海強)
*國家青年自然科學基金(81102201);哈爾濱醫(yī)科大學伍連德青年基金(WLD-QN1105)
Δ通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn