付 蓉 蘇少飛 包 含 劉 丹 張慧敏 劉美娜
哈爾濱醫(yī)科大學公共衛(wèi)生學院 (150081)
基于項目反應(yīng)理論的治療質(zhì)量綜合評價最適樣本量的模擬研究*
付 蓉 蘇少飛 包 含 劉 丹 張慧敏 劉美娜△
哈爾濱醫(yī)科大學公共衛(wèi)生學院 (150081)
目的 驗證基于項目反應(yīng)理論模型的醫(yī)院疾病治療質(zhì)量評價有效性,探討保證模型有效性和測量精度的最適樣本量。方法 根據(jù)項目反應(yīng)理論中的雙參數(shù)logistic模型建立疾病治療質(zhì)量評價的潛變量模型,通過SAS模擬產(chǎn)生每家醫(yī)院對每個指標的反應(yīng)矩陣,模型中的參數(shù)估計采用貝葉斯估計的MCMC算法,利用秩相關(guān)系數(shù)及RMSE評價模型的有效性和測量精度。結(jié)果 在不同模擬試驗中,能力參數(shù)真值和估計值的秩相關(guān)系數(shù)均高于0.990。隨著指標數(shù)、醫(yī)院數(shù)和指標分母上限的增加,秩相關(guān)系數(shù)逐漸增大。隨著醫(yī)院數(shù)的增加,項目參數(shù)和能力參數(shù)的RMSE逐漸減小。當醫(yī)院數(shù)增至100時,無論指標數(shù)多少,RMSE均小于0.20,且趨于穩(wěn)定。結(jié)論 基于項目反應(yīng)理論模型的醫(yī)院疾病治療質(zhì)量評價合理有效。在保證模型測量精度前提下,疾病治療質(zhì)量綜合評價的最適樣本量為至少調(diào)查50家醫(yī)院,每家醫(yī)院每個指標的分母數(shù)在30~100范圍。當指標數(shù)不足8個時,可適當增加每個指標的分母數(shù)。
治療質(zhì)量 綜合評價 項目反應(yīng)理論 貝葉斯估計
隨著項目反應(yīng)理論(item response theory,IRT)的完善和計算機技術(shù)的發(fā)展,IRT的應(yīng)用由教育和心理測量拓展至其他許多領(lǐng)域,如人格測試、青少年違法行為、生存質(zhì)量研究等[1-3]。國外學者也將IRT引入醫(yī)院疾病的治療質(zhì)量評價[4-5],但其與教育測量不同:教育測量的對象是個體,治療質(zhì)量評價的對象是醫(yī)院。當只有一個評價對象時,教育測量只需收集一個被試者的信息,治療質(zhì)量評價需要收集一家醫(yī)院的多個患者信息;教育測量在二分制評分中,被試者對每個項目的反應(yīng)是1或0(正確或錯誤)。在治療質(zhì)量評價中,由于每個指標有其自身的適應(yīng)證和禁忌證,同一家醫(yī)院被調(diào)查的患者不一定適合使用所有指標。每個指標的定義包括分母和分子,分母是適合某個指標且沒有相應(yīng)禁忌證的患者數(shù),分子是適合該指標的患者中真正使用該指標的患者數(shù)。數(shù)據(jù)格式見表1,表中Nh表示第h家醫(yī)院調(diào)查的患者數(shù),nkh表示第h家醫(yī)院Nh個患者中適合使用第k個指標的患者數(shù)。ykh表示第h家醫(yī)院nkh個患者中實際使用第k個指標的患者數(shù),服從參數(shù)為nkh、pkh的二項分布,pkh為第h家醫(yī)院第k個指標使用的概率;教育測量中項目數(shù)少則數(shù)十個,多則上百個。治療質(zhì)量評價中指標是根據(jù)專家的知識和臨床實踐經(jīng)驗確定,為醫(yī)院治療質(zhì)量評價的標準。指標數(shù)因疾病而異且每個疾病的指標數(shù)一般不超過15個,如我國衛(wèi)生部醫(yī)政司建立心力衰竭和急性心肌梗死的指標各10個[6]。
目前為止,基于IRT的疾病治療質(zhì)量評價有效性的數(shù)據(jù)支持很少??紤]到治療質(zhì)量評價數(shù)據(jù)收集的難度,需要探討能保證模型有效性和測量精度的最適樣本量,即評價的醫(yī)院數(shù)和指標的分母數(shù)。本文將根據(jù)項目反應(yīng)理論中的雙參數(shù)logistic模型建立治療質(zhì)量評價的潛變量模型[7],通過模擬研究驗證IRT應(yīng)用于治療質(zhì)量評價的有效性,同時確定最適樣本量。
1.模型構(gòu)建
假設(shè)利用k個指標評價H家醫(yī)院某一疾病的治療質(zhì)量,第h家醫(yī)院每個指標的使用率由該家醫(yī)院一個不可觀測的潛變量(治療質(zhì)量)決定。第h家醫(yī)院第k個指標實際使用的患者數(shù)服從參數(shù)為nkh、pkh的二項分布:
ykh~B(nkh,pkh),k=1,2,…,K,h=1,2,…,H
(1)
pkh為第h家醫(yī)院第k個指標使用的概率,nkh為第h家醫(yī)院適合使用第k個指標的患者數(shù)。構(gòu)建第h家醫(yī)院第k個指標使用的概率pkh與該家醫(yī)院不可觀測的治療質(zhì)量θh的函數(shù)關(guān)系為:
logit(pkh)=β0k+β1kθh
(2)
該模型建立在雙參數(shù)logistic模型的基礎(chǔ)上,β0k和β1k分別為第k個指標的難度參數(shù)和區(qū)分度參數(shù),稱為項目參數(shù);潛變量θh為第h家醫(yī)院的治療質(zhì)量,稱為能力參數(shù)。
2.參數(shù)估計
公式(2)中有2k+h個待估參數(shù),本文利用貝葉斯估計的MCMC(markov chain monte carlo)算法進行參數(shù)估計。
1.模擬設(shè)計
醫(yī)院數(shù)H分別設(shè)為20,50,100,200和300;指標數(shù)K分別設(shè)為5,8,10和15;每家醫(yī)院每個指標的分母上限分別設(shè)為100,200和300,共60(5×4×3)種試驗。為減小隨機誤差,每種試驗重復10次。應(yīng)用SAS9.2模擬產(chǎn)生模型參數(shù)的真值,各參數(shù)設(shè)置如下:
能力參數(shù)θh~N(0,1),h=1,2,…,H,H=20,50,100,200,300
難度參數(shù)β0k~U(-1,1),k=1,2,…,K,K=5,8,10,15
區(qū)分度參數(shù)β1k~U(0,1),k=1,2,…,K,K=5,8,10,15
指標的分母nkh~U(a,b),k=1,2,…,K,h=1,2,…,H,H=20,50,100,200,300,a=30,b=100,200,300
為保證計算的指標使用率的穩(wěn)定性,文獻指出每家醫(yī)院每個指標的分母至少為30,因此將指標分母的下限設(shè)為30[8-9]。
根據(jù)公式(2),將產(chǎn)生的參數(shù)真值θh、β0k和β1k代入式中,得到每家醫(yī)院每個指標使用的概率pkh,再根據(jù)公式(1)和每家醫(yī)院每個指標的分母nkh,得到每家醫(yī)院每個指標的分子ykh。nkh和ykh構(gòu)成了治療質(zhì)量評價中每家醫(yī)院對每個指標的反應(yīng)矩陣。
2.軟件實現(xiàn)
3.評價標準
(1)秩相關(guān)系數(shù):治療質(zhì)量綜合評價的目的是將多個指標整合獲得醫(yī)院的綜合質(zhì)量得分,根據(jù)綜合質(zhì)量得分對醫(yī)院進行排序,因此綜合評價方法的選擇是區(qū)分醫(yī)院治療質(zhì)量優(yōu)劣的關(guān)鍵。利用秩相關(guān)系數(shù)評價能力參數(shù)θh真值和估計值的一致性,秩相關(guān)系數(shù)越接近1,真值和估計值的一致性越高。秩相關(guān)系數(shù)大于0.990可認為基于IRT的治療質(zhì)量綜合評價合理有效。
4.模擬結(jié)果
圖1A,當5個指標評價20家醫(yī)院的治療質(zhì)量,每家醫(yī)院每個指標的分母上限為100時,能力參數(shù)估計值和真值的秩相關(guān)系數(shù)最小,為0.9964。隨著醫(yī)院數(shù)和每家醫(yī)院每個指標分母上限的增加,秩相關(guān)系數(shù)逐漸增大。圖1B、C和D,當指標數(shù)分別為8、10和15個時,秩相關(guān)系數(shù)的變化趨勢與圖1A相似,且隨著指標數(shù)的增加,秩相關(guān)系數(shù)逐漸增大。秩相關(guān)系數(shù)在不同指標數(shù)間、不同醫(yī)院數(shù)間和不同指標分母上限間的差別均有統(tǒng)計學意義,P<0.0001。經(jīng)組間兩兩比較,當醫(yī)院數(shù)增至100家、每家醫(yī)院每個指標的分母上限增至200及指標數(shù)增至8個時,隨著醫(yī)院數(shù)、每家醫(yī)院每個指標的分母上限和指標數(shù)的繼續(xù)增加,秩相關(guān)系數(shù)的變化均無統(tǒng)計學意義。
不同試驗中項目參數(shù)和能力參數(shù)的RMSE見表2。無論指標數(shù)和每家醫(yī)院每個指標的分母上限多少,當醫(yī)院數(shù)為20時,區(qū)分度參數(shù)和能力參數(shù)的RMSE幾乎全部大于0.20;醫(yī)院數(shù)為50時,少數(shù)RMSE大于0.20。除指標數(shù)不影響難度參數(shù)β0的RMSE大小外,不同指標數(shù)間β1和θ的RMSE及不同醫(yī)院數(shù)間β0、β1和θ的RMSE差別均有統(tǒng)計學意義,P<0.0001。每家醫(yī)院每個指標的分母上限對β0、β1和θ的RMSE的大小沒有影響,P值分別為0.2373、0.9773和0.5977。不同醫(yī)院數(shù)間兩兩比較,當醫(yī)院數(shù)增至100時,隨著醫(yī)院數(shù)的繼續(xù)增加,β0和β1的RMSE改變均無統(tǒng)計學意義;醫(yī)院數(shù)增至200家時,隨著醫(yī)院數(shù)的繼續(xù)增加,θ的RMSE改變無統(tǒng)計學意義。
每家醫(yī)院每個指標的分母上限不影響項目參數(shù)和能力參數(shù)的估計,因此將不同指標分母的上限信息進行整合。不同醫(yī)院數(shù)和不同指標數(shù)的項目參數(shù)和能力參數(shù)RMSE見圖2。圖2A,只有5個指標時,隨著醫(yī)院數(shù)的增加,β0、β1和θ的RMSE逐漸減小。圖2B、C和D,當評價指標分別為8、10和15個時,β0、β1和θ的RMSE變化趨勢與圖2A相似,且隨著指標數(shù)的增加,醫(yī)院數(shù)越少RMSE越大。當醫(yī)院數(shù)增至100時,無論指標數(shù)多少,β0、β1和θ的RMSE均小于0.20,且趨于穩(wěn)定。
項目反應(yīng)理論認為被試者的某種相對穩(wěn)定的潛在特質(zhì)或能力水平支配其對項目作出正確反應(yīng)的概率,兩者之間的關(guān)系可以用一個單調(diào)遞增的函數(shù)表達[7,11]。在治療質(zhì)量評價中,被試者為醫(yī)院,每家醫(yī)院的治療質(zhì)量決定該家醫(yī)院指標的使用情況。本研究通過模擬試驗發(fā)現(xiàn),在不同指標數(shù)和不同指標分母上限的情況下,醫(yī)院數(shù)為20時,能力參數(shù)估計值和真值的秩相關(guān)系數(shù)均大于0.996;醫(yī)院數(shù)增至50時,秩相關(guān)系數(shù)均大于0.999。研究表明基于項目反應(yīng)理論的治療質(zhì)量綜合評價合理有效,該綜合評價方法能準確地區(qū)分醫(yī)院治療質(zhì)量的優(yōu)劣。在不同指標數(shù)和不同指標分母上限的情況下,醫(yī)院數(shù)增至50時,項目參數(shù)和能力參數(shù)的RMSE基本減小至0.20以下,達到項目反應(yīng)理論對測量精確性的要求。結(jié)合兩個評價標準的結(jié)果推斷,利用項目反應(yīng)理論模型評價醫(yī)院的治療質(zhì)量的最適樣本量為至少調(diào)查50家醫(yī)院,每家醫(yī)院每個指標的分母在30~100范圍。為保證模型更加有效,當評價的疾病指標數(shù)不足8個時,可適當增加每個指標的分母數(shù)。
每家醫(yī)院每個指標的分母數(shù)包含于每家醫(yī)院調(diào)查的患者數(shù),nkh≤Nh。在K個指標中,若一個指標僅適用于P%的患者,其余指標適用的患者比例高于P%,為保證每個指標的分母在30~100范圍,應(yīng)選擇研究期間內(nèi)患者數(shù)在(30~100)/P%范圍的醫(yī)院。例如4個指標分別適合于70%、50%、80%和60%的患者,則每家醫(yī)院調(diào)查的患者數(shù)應(yīng)為100/50%=200個,不足200個患者的醫(yī)院則調(diào)查該家醫(yī)院研究期間內(nèi)的所有患者,但也應(yīng)保證至少30/50%=60個患者。
本研究利用貝葉斯對模型參數(shù)估計時,各參數(shù)的先驗分布均設(shè)為正態(tài)分布。然而先驗分布的選擇在貝葉斯統(tǒng)計中至關(guān)重要,不同的先驗分布可能獲得不同的結(jié)論,下一步我們將研究先驗分布的設(shè)置對模型有效性以及測量精度的影響。
[1]Reise SP,Waller NG.Fitting the two-parameter model to personality data.Applied Psychological Measurement,1990,14: 45-58.
[2]Osgood DW,McMorris BJ,Potenza MT.Analyzing multiple-item measures of crime and deviance I: Item Response Theory Scaling.Journal of Quantitative Criminology,2002,18: 267-296.
[3]韓耀風,郝元濤,方積乾.項目反應(yīng)理論及其在生存質(zhì)量研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2006,23(6):562-565.
[4]Landrum MB,Bronskill SE,Normand SL.Analytic methods for constructing cross-sectional profiles of health care providers.Health Services Research and Outcomes Methodology,2000,1: 23-47.
[5]Shwartz M,Ren J,Pekoz EA,et al.Estimating a composite measure of hospital quality from the Hospital Compare database: differences when using a Bayesian hierarchical latent variable model versus denominator-based weights.Med Care,2008,46: 778-785.
[6]中國醫(yī)院協(xié)會.單病種質(zhì)量管理手冊.北京:科學文獻技術(shù)出版社,2008.
[7]李曉銘.項目反應(yīng)理論的模型.心理發(fā)展與教育,1989,2:27-32.
[8]Rollow W,Lied TR,McGann P,et al.Assessment of the Medicare quality improvement organization program.Ann Intern Med,2006,145: 342-353.
[9]Williams SC,Koss RG,Morton DJ,Loeb JM.Performance of top-ranked heart care hospitals on evidence-based process measures.Circulation,2006,114: 558-564.
[10]崔勝鵬.正態(tài)雙卵模型的Gibbs抽樣算法.哈爾濱工業(yè)大學理學碩士學位論文,2013,31.
[11]李曉銘.項目反應(yīng)理論的形成與基本理論假設(shè).心理發(fā)展與教育,1989,1:25-31.
(責任編輯:鄧 妍)
A Simulation Study on the Optimum Sample Size of Quality Assessment Based on Item Response Theory
Fu Rong,Su Shaofei,Bao Han,et al
(Department of Biostatistics,Harbin Medical University (150081),Harbin)
Objective To verify the validity of the assessment of quality of care based on item response theory model and to discuss the optimum sample size which ensured the validity and accuracy.Methods A latent model was developed according to the two-parameter logistic model and SAS was used to simulate the response matrix of compliance with each quality indicator at each hospital.Bayesian estimation was applied to estimate the parameters in the latent model withMCMCalgorithm.Spearman correlation coefficient andRMSEwere used to assess the validity and accuracy of model.Results In the different simulation trials,the spearman correlation coefficient between real and estimated value of ability parameter was all higher than 0.990.The spearman correlation coefficient increased gradually as the number of quality indicator,hospital and upper limit of denominator increased.TheRMSEof item parameter and ability parameter decreased gradually as the number of hospital increased and when the number of hospital increased to 100,all theRMSEwas smaller than 0.20 regardless of the number of quality indicator.Conclusion The assessment of quality of care based on item response theory model is valid.On the premise of ensuring the accuracy of model,the optimum sample size of quality assessment is at least 50 hospitals and the range of the denominator of each quality indicator at each hospital is from 30 to 100.When the number of quality indicator is less than 8,it should appropriately add the denominator of each quality indicator.
Quality of care;Synthetical evaluation;Item response theory;Bayesian estimation
國家自然科學基金項目(81273183);教育部博士點基金(20132307110028)
△通信作者:劉美娜;E-mail:liumeina369@163.com