孟祥斌 陶 劍, 陳莎莉
(1東北師范大學(xué)教育學(xué)部; 2東北師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 應(yīng)用統(tǒng)計(jì)教育部重點(diǎn)實(shí)驗(yàn)室;3中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心東北師范大學(xué)分中心, 長春 130024)
近30年來, 隨著統(tǒng)計(jì)和計(jì)算機(jī)技術(shù)的飛速發(fā)展, 項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)的研究和應(yīng)用取得了長足的進(jìn)步。時(shí)至今日, 它已取代經(jīng)典測量理論成為測量學(xué)研究的核心內(nèi)容, 并在考試測評的諸多領(lǐng)域發(fā)揮著重要的作用。
在IRT中, 單維二值評分模型的理論和技術(shù)最為成熟, 應(yīng)用也最為廣泛。二值記分模型通常假設(shè)被試的潛在特質(zhì)參數(shù)與反應(yīng)的正確概率之間滿足Logistic函數(shù)或者Probit函數(shù)關(guān)系。這兩類模型在一定程度上是等價(jià)的, 但Logistic模型因其參數(shù)估計(jì)容易計(jì)算而廣受青睞, 成為IRT領(lǐng)域最為重要的一族模型。根據(jù)項(xiàng)目參數(shù)個(gè)數(shù)的不同, 常用的Logistic模型分為單參數(shù)、兩參數(shù)和三參數(shù)(1PL, 2PL和3PL)模型。模型包含的參數(shù)越多, 模型所描述的現(xiàn)象就越廣泛, 但參數(shù)估計(jì)對算法的要求也會越高。近年來, 隨著IRT理論體系的日趨完善, 測量學(xué)者們開始努力嘗試四參數(shù)Logistic (4-Parameter Logistic, 4PL)模型的理論與應(yīng)用研究。
四參數(shù)模型的構(gòu)想最早是由Barton和Lord在1981年提出的, 目的是為了考慮高能力被試作答失誤的可能, 他們建議在3PL模型的基礎(chǔ)上加入一個(gè)小于1的項(xiàng)目特征曲線上漸近線參數(shù)。最初該參數(shù)被限定為公共參數(shù), 與項(xiàng)目無關(guān)。隨后一些研究發(fā)現(xiàn)(Linacre, 2004; Rupp, 2003; Tavares, de Andrade,& Pereira, 2004; Waller &Reise, 2009)不同項(xiàng)目特征曲線的上漸近線是存在差異的, 上漸近線參數(shù)被定義為項(xiàng)目參數(shù)更加科學(xué)。于是, 4PL模型的表達(dá)式為,
長期以來, 4PL模型的發(fā)展速度都非常緩慢,一直沒有引起測量學(xué)界的廣泛關(guān)注。主要原因是4PL模型的參數(shù)估計(jì)沒有被很好解決, 難以滿足測試的實(shí)際需要, 進(jìn)而導(dǎo)致4PL模型的實(shí)際價(jià)值也沒有得到充分驗(yàn)證。近些年, 關(guān)于4PL模型的理論與應(yīng)用研究相繼取得一些突破性的研究成果, 例如,Linacre (2004)和Rupp (2003)對上漸近線參數(shù)的價(jià)值進(jìn)行了深入的討論, 并給出了參數(shù)估計(jì)的計(jì)算方法。Loken和Rulison (2010)給出了4PL模型參數(shù)貝葉斯估計(jì)的Markov chain Monte Carlo (MCMC)算法, 有效解決了4PL模型項(xiàng)目參數(shù)的標(biāo)定, 這對4PL模型的使用具有重要意義。Rulison和Loken (2009)驗(yàn)證了, 在計(jì)算機(jī)自適應(yīng)測試(computerized adaptive testing, 簡稱CAT)中, 使用4PL模型能夠提高被試潛在特質(zhì)參數(shù)估計(jì)的精度。隨后, Green(2011), Liao,Ho, Yen和Cheng (2012)、Yen, Ho, Liao, Chen和Kuo(2012)相繼從多方面對4PL模型在CAT環(huán)境中的應(yīng)用進(jìn)行了更為深入的研究, 所得結(jié)果均表明4PL模型要優(yōu)于傳統(tǒng)的3PL模型。Magis(2013)對4PL模型信息函數(shù)的性質(zhì)進(jìn)行了系統(tǒng)研究, 并給出一種信息函數(shù)最大值點(diǎn)的求解方法。此外, 在其它領(lǐng)域,4PL模型也有諸多成功地實(shí)踐, 如有興趣可查看以下文獻(xiàn)(Osgood, McMorris, &Potenza, 2002; Waller&Reise,2009; Tavares et al., 2004)。綜上所述, 無論是從方法論的角度, 還是基于實(shí)用性的目的, 4PL模型均具有極大的潛力和較高的應(yīng)用價(jià)值??梢灶A(yù)見, 隨著4PL模型理論體系的日趨完善, 它必將成為未來主流的IRT模型之一, 在心理和教育測量的諸多領(lǐng)域發(fā)揮著不可替代的作用。
潛在特質(zhì)參數(shù)的估計(jì)是IRT的主要內(nèi)容之一,常用的方法有以下3種:(1)極大似然估計(jì)(maximum likelihoodestimate, MLE); (2)后驗(yàn)期望估計(jì)(expected a posteriori estimate, EAPE); (3)最大后驗(yàn)概率估計(jì)(maximum a posterioriestimate, MAPE)。在實(shí)際應(yīng)用中, MLE和EAPE是最常用的兩種估計(jì)方法, 它們具備優(yōu)良的大樣本性質(zhì)。但是, 如果測試項(xiàng)目較少,將導(dǎo)致MLE和EAPE的效能降低, 難以保證估計(jì)的無偏性和準(zhǔn)確性。潛在特質(zhì)參數(shù)估計(jì)的無偏性對項(xiàng)目反應(yīng)模型的應(yīng)用非常重要, 如果參數(shù)估計(jì)的偏差較大, 將給進(jìn)一步更為深入的測評帶來嚴(yán)重誤差(Warm, 1989;Penfield& Bergeron, 2005; Magis, 2014)。針對MLE和EAPE的這一不足, Warm在1989年提出一種3PL模型潛在特質(zhì)參數(shù)的加權(quán)極大似然法,降低了估計(jì)的偏差。隨后, Wang和Wang (2001)以及Penfield和Bergeron (2005)分別在CAT和線性測試環(huán)境下, 把Warm的加權(quán)極大似然估計(jì)(weighted maximum likelihoodestimator, WMLE)推廣到廣義局部評分模型(generalized partial credit model, GPCM),并驗(yàn)證了WMLE的優(yōu)越性。
借鑒已有研究經(jīng)驗(yàn), 本文以4PL模型為研究對象, 對其潛在特質(zhì)參數(shù)的WMLE進(jìn)行研究。首先,根據(jù)4PL模型的結(jié)構(gòu)特點(diǎn), 給出加權(quán)函數(shù)的構(gòu)造公式。然后, 對加權(quán)極大似然方程的求解過程進(jìn)行推導(dǎo)。最后, 通過計(jì)算機(jī)模擬在不同測試條件下對4PL模型潛在參數(shù)的WMLE、MLE和EAPE的性質(zhì)進(jìn)行比較, 以驗(yàn)證WMLE的優(yōu)越性。希望通過本文的研究, 能夠?yàn)?PL模型的應(yīng)用提供科學(xué)而有效的參數(shù)估計(jì)技術(shù)。
這部分首先對4PL模型潛在特質(zhì)參數(shù)的MLE進(jìn)行簡要介紹; 然后, 引出4PL模型潛在特質(zhì)參數(shù)的WMLE并對相關(guān)計(jì)算過程進(jìn)行詳細(xì)推導(dǎo); 最后, 簡要給出4PL模型下潛在特質(zhì)參數(shù)EAPE的計(jì)算公式。
對方程(2)兩端取自然對數(shù)得到對數(shù)似然函數(shù),
因?yàn)樵摲匠虨榉蔷€性方程, 通常使用Newton-Raphson(N-R)迭代算法對其進(jìn)行求解。
l
表示加權(quán)似然函數(shù), 根據(jù)加權(quán)似然的定義有對方程(12)兩端取自然對數(shù)得對數(shù)加權(quán)似然函數(shù)為,
f
(θ
)必須且只需滿足以下等式條件,f
(θ
)是非常困難的, 而且滿足條件的f
(θ
)也不唯一, 但這并不會阻礙WMLE的求解。由方程(14)可知, 只要能夠推導(dǎo)出B
′(θ
),加權(quán)似然方程(14)隨之確定, 整個(gè)過程f
(θ
)是不必知道的。因此, 本研究首先要解決的問題是對4PL模型下的B
′進(jìn)行推導(dǎo), 然后再給出求解加權(quán)似然方程的N-R迭代算法。可以證明, 對于4PL模型有以下等式成立,
詳細(xì)證明過程請參見附錄。
根據(jù)方程(1)、(8)和(9)可得方程(16)的具體形式為,
I
(θ
)的定義有,最后, 將方程(17)和(18)代入方程(15),
對方程(19)和方程(4)進(jìn)行求和, 即可得到4PL模型的Warm加權(quán)似然方程(14),由于該方程過于繁瑣, 這里就不給出它的具體形式了。
本研究采用N-R算法對4PL模型能力參數(shù)的Warm加權(quán)似然方程進(jìn)行求解。根據(jù)定義, 4PL模型下方程(14)的N-R迭代公式如下,
其中,
EAPE與MLE相比, 優(yōu)勢是對于極端的反應(yīng)數(shù)據(jù)表現(xiàn)比較穩(wěn)定且容易計(jì)算, 不足是EAPE的偏差較大, 容易受到錯(cuò)誤先驗(yàn)信息的影響。一般來說,當(dāng)測試的項(xiàng)目數(shù)較少時(shí), 建議使用EAPE, 在項(xiàng)目數(shù)較多時(shí), MLE更受青睞。
在IRT中,θ
的先驗(yàn)分布通常選取為標(biāo)準(zhǔn)正態(tài)分布, 其密度函數(shù)記為φ
(θ
).根據(jù)定義, 標(biāo)準(zhǔn)正態(tài)先驗(yàn)下的EAPE的計(jì)算公式如下,θ
的后驗(yàn)概率密度函數(shù)。將方程(27)代入方程(26), 整理得
為了探明WMLE的具體表現(xiàn), 本次模擬通過設(shè)定不同的考試條件, 對WMLE、MLE和EAPE的偏度(bias)和返真性能進(jìn)行比較研究, 并對相關(guān)影響因素進(jìn)行分析。
θ
的真值取定為從?3.0到3.0以0.5為步長的間隔點(diǎn), 共計(jì)13個(gè)不同的能力值。測驗(yàn)長度n
和項(xiàng)目區(qū)分度參數(shù)a
是θ
估計(jì)的主要影響因素, 為了考查它們的影響,n
取定3個(gè)水平, 15, 30和50,a
也取定3個(gè)水平, 0.5, 1.0和2.0, 交叉組合共生成9種測試條件. 每種測試條件下, 除a
以外, 其它項(xiàng)目參數(shù)真值的選取方式如下:θ
值隨機(jī)抽取測試反應(yīng)向量1000組。然后, 計(jì)算每組反應(yīng)數(shù)據(jù)對應(yīng)的WMLE(θ
)、MLE(θ
)和EAPE(θ
). 需要強(qiáng)調(diào)的是, 如果隨機(jī)抽取了全是0或全是1的反應(yīng)向量, 應(yīng)予以刪除, 進(jìn)行重新抽取。這樣做的目的是為了使似然方程有解,即MLE(θ
)存在。最后, 為了比較3種估計(jì)方法的偏差和返真性能, 需要計(jì)算以下3種指標(biāo):平均偏差(mean error, ME)、絕對平均偏差(absolutemean error, ABME)和均方根誤差(rootmean squared error, RMSE ),
θ
,MLE()θ
和EAPE()θ
的ME和ABME隨θ
的變化曲線。經(jīng)仔細(xì)觀察, 可以發(fā)現(xiàn)以下現(xiàn)象:(1)如圖1所示, WMLE()θ
和EAPE(θ
)的ME具有相同的變化趨勢, 當(dāng)θ
小于0.0(測試中心)時(shí),它們的ME趨于正的, 即估計(jì)值比真值偏大; 當(dāng)θ
大于0.0時(shí), 它們的ME趨于負(fù)的, 即估計(jì)值比真值偏小。MLE()θ
的ME表現(xiàn)出恰恰相反的變化趨勢,0.0左側(cè)的θ
值對應(yīng)的ME趨于負(fù)的, 0.0右側(cè)的θ
值對應(yīng)的ME趨于正的。3種估計(jì)ME的變化趨勢與已有研究相吻合(Warm, 1989; Penfield & Bergeron,2005), 符合它們偏差的變化特點(diǎn)。(2)如圖2所示, 每種測試條件下, WMLE()θ
的ABME都是3種估計(jì)中最小的, 其次是MLE(θ
),EAPE()θ
的ABME最大。這說明WMLE()θ
的偏差最小(無偏性最佳), MLE()θ
的偏差其次(無偏性居中), EAPE()θ
的偏差最大(無偏性最差)。m
或a
的增加, 3種估計(jì)的ABME均表現(xiàn)出減小的趨勢, 并且它們的差異也隨之減小。例如, 當(dāng)a
=2.0,m
=50時(shí), 3種估計(jì)的ABME均是9種測試條件下最小的, 并且3種估計(jì)ABME的差異也是最小的。此外,m
和a
對MLE(θ
)和EAPE (θ
)的ABME影響非常顯著, 而對WMLE(θ
)的ABME影響微乎其微。甚至在m
和a
均較小的情況下, 例如, 當(dāng)a
=0.5,m
=15時(shí), WMLE(θ
)也沒有表現(xiàn)出較大的偏差。這說明, 相比于其它兩種估計(jì)方法,WMLE的無偏性受實(shí)際情況影響較小, 保持了很高的穩(wěn)定性。θ
的變化曲線. 經(jīng)仔細(xì)觀察, 可以發(fā)現(xiàn):θ
)的RMSE隨θ
的變化比較穩(wěn)定,即使對于極大或極小的θ
值, 它的RMSE也沒有出現(xiàn)很大幅度的增加, 當(dāng)m
較大時(shí), 它的RMSE曲線要更加平穩(wěn)。這說明對于大多數(shù)θ
值, WMLE(θ
)都表現(xiàn)出優(yōu)良的返真性能, 這對4PL模型的實(shí)際應(yīng)用非常有意義。EAPE(θ
)的RMSE隨θ
的變化也較為穩(wěn)定, 只是在m
=15的條件下, 它的RMSE變化較為顯著。相比之下, MLE()θ
的RMSE隨θ
的變化最為劇烈, 隨著θ
遠(yuǎn)離0.0, MLE()θ
的RMSE明顯增大, 返真性能明顯降低。圖1 九種測試條件下, WMLE、MLE和EAPE的ME變化曲線
圖2 九種測試條件下, WMLE、MLE和EAPE的ABME變化曲線
圖3 九種測試條件下, WMLE、MLE和EAPE的RMSE變化曲線
(3)隨著m
的增大, WMLE()θ
、MLE()θ
和EAPE()θ
的RMSE均表現(xiàn)出顯著減小的趨勢, 而且它們之間的差異也隨之減小。隨著a
的增加,EAPE()θ
和WMLE()θ
的RMSE表現(xiàn)為減小的趨勢,但MLE()θ
的RMSE的變化跟θ
的取值范圍有關(guān)。當(dāng)θ
在測試中心附近時(shí), MLE()θ
的RMSE隨的增加而減小, 否則, 隨a
的增加而增大。線性測試的特點(diǎn)、a
對測試信息量的影響以及MLE的大樣本性質(zhì),是導(dǎo)致這一現(xiàn)象的原因。根據(jù)MLE的大樣本性質(zhì)可知, MLE()θ
的精度完全由測試的信息量決定,在線性測試中,a
越大, 距離測試中心較近的θ
值的測試信息量越大, 而距離測試中心較遠(yuǎn)的θ
值的測試信息量越小。所以, 隨著a
的不同, MLE()θ
的RMSE表現(xiàn)出上述變化趨勢是符合MLE的性質(zhì)的。(4)與偏差的表現(xiàn)類似, 隨著測試情況的變化,WMLE()θ
的返真性能表現(xiàn)出較高的穩(wěn)定性, 受測試條件的影響很小, 另外兩種估計(jì)方法的返真性能的穩(wěn)定性相對較差, 易受考試實(shí)際情況影響。從實(shí)際應(yīng)用的角度看, 方法性質(zhì)的穩(wěn)定性很重要, 性質(zhì)穩(wěn)定的方法意味著更加安全, 所以應(yīng)更受青睞。本文基于Warm的加權(quán)極大似然估計(jì)理論提出了適用于4PL模型潛在特質(zhì)參數(shù)的WMLE。理論上, WMLE能夠保持較高的精度并降低潛在特質(zhì)參數(shù)估計(jì)的偏差, 這對IRT模型的應(yīng)用具有重要的意義。模擬研究的結(jié)果表明:與MLE和EAPE相比,WMLE表現(xiàn)出更加優(yōu)良的統(tǒng)計(jì)性質(zhì)。首先, WMLE的偏差要明顯小于MLE和EAPE; 其次, WMLE具有良好的返真性能, 保證估計(jì)具有較高的精度; 最后, WMLE的性質(zhì)(偏差和返真性能)對測試長度和項(xiàng)目區(qū)分度的變化表現(xiàn)出良好的穩(wěn)定性, 即使在測試長度較短或項(xiàng)目區(qū)分度較低的情況下, WMLE的性質(zhì)依然良好。相比之下, MLE和EAPE的穩(wěn)定性就要差一些, 測試長度對MLE有很大的決定作用,而項(xiàng)目區(qū)分度對EAPE的影響比較顯著。因此, 當(dāng)測試的項(xiàng)目不多時(shí), 不宜選用MLE, 當(dāng)測試項(xiàng)目的區(qū)分度不高時(shí), 需謹(jǐn)慎考慮選用EAPE。
在形式上, WMLE與MAPE完全一樣, 但WMLE并不要求權(quán)函數(shù)f
(θ
)是概率密度函數(shù), 所以WMLE與MAPE在理論上存在本質(zhì)的不同。近年來, Magis等一批學(xué)者對WMLE與MAPE的關(guān)系進(jìn)行了深入研究, 取得了一些重要結(jié)果。Warm (1989)證明了2PL模型的WMLE與Jeffreys先驗(yàn)下的MAPE (簡稱JMAPE)存在等價(jià)關(guān)系, 這一結(jié)論具有較高的學(xué)術(shù)價(jià)值, 也引起了人們的關(guān)注。Magis (2015)證明:在GPCM下這種等價(jià)關(guān)系依然成立。不過, Magis和Raiche (2012)的研究表明, 3PL模型的WMLE與JMAPE的等價(jià)關(guān)系不成立, 同水平θ
的WMLE值要比JMAPE值稍大一些。3PL模型的WMLE是否與其它先驗(yàn)下的MAPE存在等價(jià)關(guān)系, Magis的研究并未提及。4PL模型潛在特質(zhì)參數(shù)的WMLE與MAPE是何關(guān)系, 能否與某種先驗(yàn)下的MAPE等價(jià),是值得我們進(jìn)一步深入研究的問題。因?yàn)樵搯栴}比較復(fù)雜, 僅僅通過模擬比較難以得到一般性的結(jié)論,所以本文沒有對WMLE與MAPE的性質(zhì)進(jìn)行比較。此外, 本次模擬研究是在線性測試的環(huán)境下進(jìn)行的, 所得結(jié)論不能簡單的推廣到CAT。根據(jù)CAT的設(shè)計(jì)原理, 每個(gè)被試所作答的試卷都是為其“量身定做”的, 保證了測試中心與被試潛在特質(zhì)水平的距離最小。由圖3可知, 當(dāng)被試的潛在特質(zhì)水平與測試中心非常接近時(shí), EAPE表現(xiàn)出最好的返真性能??梢? 在CAT的環(huán)境下, 4PL模型的WMLE未必能具有與本研究類似的優(yōu)良性, 很有可能EAPE具有最佳效果。但這僅僅是一種預(yù)想, 具體情況有待被進(jìn)一步深入研究。
Baker, F. B., & Kim, S. H. (2004).Item response theory:Parameter estimation techniques
. New York: Marcel Dekker.Barton, M. A., & Lord, F. M. (1981). An upper asymptote for the three-parameter logistic item response model. InResearch Bulletin
(pp. 81–20).
Princeton, NJ: Educational Testing Service.Green, B. F. (2011). A comment on early student blunders on computer-based adaptive tests.Applied Psychological Measurement, 35
, 165–174.Liao, W. W., Ho, R. G., Yen, Y. C., & Cheng, H. C. (2012). The four-parameter logistic item response theory model as a robust method of estimating ability despite aberrant responses.Social Behavior and Personality, 40
, 1679–1694.Linacre, J. M. (2004). Discrimination, guessing and carelessness asymptotes: Estimating IRT parameters with Rasch.Rasch Measurement Transactions, 18
, 959–960.Loken, E., & Rulison, K. L. (2010). Estimation of a fourparameter item response theory model.British Journal of Mathematical and Statistical Psychology, 63
, 509–525.Magis, D. A. (2013). Note on the item information function of the four-parameter logistic model.Applied Psychological Measurement, 37
, 304–315.Magis, D. A. (2014). Accuracy of asymptotic standard errors of the maximum and weighted likelihood estimators of proficiency levels with short tests.Applied Psychological Measurement, 38
, 105–121.Magis, D. A. (2015). A note on weighted likelihood and Jeffreys modal estimation of proficiency levels in polytomous item response models.Psychometrika, 80
, 200–204.Magis, D. A., & Raiche, G. (2012). On the relationships between Jeffreys modal and weighted likelihood estimation of ability under logistic IRT models.Psychometrika, 77
, 163–169.Mathilda, D. T. (2003).IRT from SSI: BILOG-MG, MULTILOG,PARSCALE, TESTFACT
. Chicago, IL: Scientific Software International.Osgood, D. W., McMorris, B. J., & Potenza, M. T. (2002).Analyzing multiple-item measures of crime and deviance I:Item response theory scaling.Journal of Quantitative Criminology, 18
, 267–296.Penfield, R. D., & Bergeron, J. M. (2005). Applying a weighted maximum likelihood latent trait estimator to the generalized partial credit model.Applied Psychological Measurement, 29
, 218–233.Qi, S. Q., Dai, H. Q., & Ding, S. L. (2002).Principles of modern educational and psychological measurement
. Beijing: Higher Education Press.[漆書青, 戴海琦, 丁樹良. (2002).現(xiàn)代教育和心理測量學(xué)原理
. 北京: 高等教育出版社.]Rulison, K. L., & Loken, E. (2009). I’ve fallen and I can’t get up: Can high ability students recover from early mistakes in computerized adaptive testing?.Applied Psychological Measurement, 33
, 83–101.Rupp, A. A. (2003). Item response modeling with BILOG-MG and MULTILOG for Windows.International Journal of Testing, 3
, 365–384.Tavares, H. R., de Andrade, D. F., & Pereira, C. A. (2004).Detection of determinant genes and diagnostic via item response theory.Genetics and Molecular Biology, 27
, 679–685.Waller, N. G., & Reise, S. P. (2009). Measuring psychopathology with non-standard IRT models: Fitting the four parameter model to the MMPI. In S. Embretson& J. S. Roberts (Eds.),New directions in psychological measurement with modelbased approaches
(pp. 147–173). Washington, DC: American Psychological Association.Wang, S. D., & Wang, T. Y. (2001). Precision of Warm’s weighted likelihood estimates for a polytomous model in computerized adaptive testing.Applied Psychological Measurement, 25
, 317–331.Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory.Psychometrika, 54
, 427–450.Yen, Y. C., Ho, R. G., Liao, W. W., Chen, L. J., & Kuo, C. C.(2012). An empirical evaluation of the slip correction in the four parameter logistic models with computerized adaptive testing.Applied Psychological Measurement, 36
, 75–87.附錄
定理
:對于4PL模型(1), 有以下等式成立,證明
:根據(jù)方程(6)和(7)有,