付志慧, 山丹丹, 周 末, 王立柱
(1. 閩南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 福建 漳州 363000;2. 沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽(yáng) 110034;3. 福建省粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)驗(yàn)室, 福建 漳州 363000;4. 福建省數(shù)據(jù)科學(xué)與統(tǒng)計(jì)重點(diǎn)實(shí)驗(yàn)室, 福建 漳州 363000)
目前,大部分基于logistic項(xiàng)目反應(yīng)模型的MCMC[1-2](markov chain monte carlo)估計(jì)方法主要是利用MH(metropolis-hastings)算法[3]來(lái)實(shí)現(xiàn),然而,MH算法需要在生成馬氏鏈的每一步計(jì)算接受概率或拒絕概率,這樣會(huì)影響收斂速度。相對(duì)而言,由Gibbs抽樣方法產(chǎn)生的馬氏鏈上的值都會(huì)保留下來(lái),大大提高了收斂速度[4-5]。近年來(lái),很多學(xué)者研究了項(xiàng)目反應(yīng)模型的Bayes估計(jì)方法[6]。1995年,Chib[7]將Gibbs抽樣方法和MH算法相結(jié)合,對(duì)2PL模型和3PL模型(three-parameter logistic item response model)進(jìn)行比較,并給出了MCMC估計(jì)。在教育與心理測(cè)量領(lǐng)域,1992年,Albert[8]首次將Gibbs抽樣方法應(yīng)用于兩參數(shù)正態(tài)卵形模型中。1999年,Patz等[9]研究了MCMC在三參數(shù)IRT模型中的應(yīng)用,并討論了缺失數(shù)據(jù)問(wèn)題。然而,對(duì)于2PL模型,上述大部分抽樣方法都要結(jié)合MH算法,降低了估計(jì)效率和收斂速度。針對(duì)常用的廣義線性模型----logistic模型,2013年,Polson等[10]提出了一種新的基于Pólya-Gamma分布的數(shù)據(jù)增加抽樣方法。在此基礎(chǔ)上,2019年,Jiang[11]首次將該方法應(yīng)用到心理測(cè)量理論的2PL模型中,推導(dǎo)了基于Pólya-Gamma潛變量分布的Gibbs抽樣方法,其收斂速度和效率要優(yōu)于MH算法。
在項(xiàng)目反應(yīng)理論(item respond theory, IRT)[12]背景下,人們普遍認(rèn)為需要較大的樣本容量才能準(zhǔn)確估計(jì)模型參數(shù),這使得IRT在小樣本的情況下不太適用[13]。然而,貝葉斯分析的優(yōu)勢(shì)在于對(duì)模型參數(shù)假定合適的先驗(yàn)分布,從而對(duì)小樣本數(shù)據(jù)集也可以得出較準(zhǔn)確的參數(shù)估計(jì)結(jié)果。本文在隨機(jī)模擬實(shí)驗(yàn)部分進(jìn)一步驗(yàn)證了這一結(jié)論。具體地,本文通過(guò)模擬發(fā)現(xiàn),即使是對(duì)于相對(duì)較小的樣本量n=100,較長(zhǎng)的測(cè)驗(yàn)長(zhǎng)度I=40,得出的估計(jì)誤差也不是很高----區(qū)分度參數(shù)a的RMSE在0.2左右,難度參數(shù)b的RMSE在0.4左右。另外,在本文的模擬實(shí)驗(yàn)設(shè)置下,發(fā)現(xiàn)采用較精確的先驗(yàn)分布(N(0,1))可以得出比較準(zhǔn)確的估計(jì)結(jié)果。
假設(shè)有n個(gè)被試者,I個(gè)項(xiàng)目,yij表示第j個(gè)被試者回答第i個(gè)項(xiàng)目的得分,yij=1表示回答正確,yij=0表示回答錯(cuò)誤。令pij表示第j個(gè)被試者對(duì)第i個(gè)項(xiàng)目回答正確的概率, 2PL模型表達(dá)式為
其中:j=1,2,…,n;i=1,2,…,I;ai表示項(xiàng)目i的區(qū)分度參數(shù);θj表示第j個(gè)被試者的能力參數(shù);bi表示項(xiàng)目i的難度參數(shù)。
本文需要引進(jìn)潛變量分布----Pólya-Gamma分布,它是Gamma分布的無(wú)限混合。具體地,設(shè)X為一個(gè)隨機(jī)變量,其中b>0,c∈R為分布參數(shù),若
(1)
則稱X~PG(b,c)。
即wij|·~PG(1,ai(θj-bi))。其中:被試者j=1,2,…,n;項(xiàng)目i=1,2,…,I[11]。
從而得到各參數(shù)的滿條件分布,θj的滿條件分布為
bi的滿條件分布為
ai的滿條件分布為
本節(jié)主要針對(duì)2PL模型通過(guò)模擬實(shí)驗(yàn)對(duì)基于Pólya-Gamma的抽樣方法進(jìn)行敏感度分析??紤]的指標(biāo)有樣本容量(sample size)、測(cè)驗(yàn)長(zhǎng)度(test length)以及題目參數(shù)先驗(yàn)分布的選擇(prior specification),具體取值見表1 。
表1 模擬實(shí)驗(yàn)設(shè)計(jì)Table 1 Simulation experiment design
本文使用RMSE和BIAS來(lái)評(píng)估項(xiàng)目參數(shù)估計(jì)的準(zhǔn)確性,具體定義為
表2和表3分別得出了區(qū)分度參數(shù)a和難度參數(shù)b的估計(jì)結(jié)果。 所得結(jié)論總結(jié)如下:
表2 區(qū)分度參數(shù)a的RMSE和BIASTable 2 RMSE and BIAS of the discrimination parameter a
表3 難度參數(shù)b的RMSE和BIASTable 3 RMSE and BIAS of difficulty parameter b
1) 對(duì)于題目區(qū)分度參數(shù)a,隨著樣本容量n的增加,RMSE逐漸減小。具體地,在先驗(yàn)為N(0,1)I(a>0)、測(cè)驗(yàn)長(zhǎng)度I為20時(shí),被試個(gè)數(shù)n為100,300,500,1 000對(duì)應(yīng)的RMSE分別為0.267 5,0.200 0,0.139 5,0.091 5。同時(shí),隨著測(cè)驗(yàn)長(zhǎng)度I的增加,RMSE也逐漸減少。例如:在先驗(yàn)為N(0,1)I(a>0)、被試n為500時(shí),測(cè)驗(yàn)長(zhǎng)度I為10,20,40對(duì)應(yīng)的RMSE分別為0.144 0,0.139 5,0.139 3。
2) 同樣地,對(duì)于題目難度參數(shù)b,隨著樣本容量n的增加,RMSE也逐漸減小。具體地,在先驗(yàn)為N(0,1)、測(cè)驗(yàn)長(zhǎng)度I為20時(shí),被試個(gè)數(shù)n為100,300,500,1 000對(duì)應(yīng)的RMSE分別為0.335 0,0.321 0,0.257 5,0.179 0。同時(shí),隨著測(cè)驗(yàn)長(zhǎng)度I的增加,RMSE也逐漸減少。例如:在先驗(yàn)為N(0,1)、被試n為500時(shí),測(cè)驗(yàn)長(zhǎng)度I為10,20,40對(duì)應(yīng)的RMSE分別為0.322 0,0.257 5,0.213 0。
3) 在不同的先驗(yàn)假定下,隨著先驗(yàn)方差的增加,對(duì)應(yīng)參數(shù)的RMSE增大。具體地,對(duì)于區(qū)分度參數(shù)a,在先驗(yàn)為N(0,1)I(a>0)、測(cè)驗(yàn)長(zhǎng)度I為40時(shí),被試個(gè)數(shù)n為100,300,500,1 000對(duì)應(yīng)的RMSE分別為0.219 5,0.156 8,0.139 3,0.105 0。在先驗(yàn)為N(0,22)I(a>0)、測(cè)驗(yàn)長(zhǎng)度I為40時(shí),被試個(gè)數(shù)n為100,300,500,1 000對(duì)應(yīng)的RMSE分別為0.244 5,0.161 5,0.153 8,0.108 3。在先驗(yàn)為N(0,52)I(a>0)、測(cè)驗(yàn)長(zhǎng)度I為40時(shí),被試個(gè)數(shù)n為100,300,500,1 000對(duì)應(yīng)的RMSE分別為0.309 5,0.172 3,0.171 8,0.113 3。
4) 對(duì)于題目區(qū)分度參數(shù)a,BIAS的絕對(duì)值最高為0.165 5,最低為0.000 3。對(duì)于題目難度參數(shù)b,BIAS的絕對(duì)值最高為0.197 0,最低為0.003 5。這些偏差結(jié)果都是可以接受的。
本文主要針對(duì)2PL模型,對(duì)基于Pólya-Gamma分布的Gibbs抽樣方法進(jìn)行了模擬研究,分析了在不同實(shí)驗(yàn)設(shè)置下的估計(jì)效果。結(jié)果發(fā)現(xiàn),隨著樣本容量和測(cè)驗(yàn)長(zhǎng)度的增加,估計(jì)結(jié)果的精確性有所提高。同時(shí),在先驗(yàn)方差取值較小的情況下,得到的估計(jì)結(jié)果相對(duì)準(zhǔn)確。本文的模擬實(shí)驗(yàn)設(shè)置僅討論了樣本容量n為100,300,500,1 000的情況,對(duì)于較大的樣本容量,如n為5 000,10 000的情況并沒(méi)有考慮,這將作為我們下一步的研究?jī)?nèi)容。這種高效的Pólya-Gamma抽樣方法也可以應(yīng)用到3PL模型[14]及等級(jí)項(xiàng)目反應(yīng)[15]等多級(jí)評(píng)分模型中。