[摘要]概述計算機自適應測驗的極大似然估計方法、極大后驗估計方法、期望后驗估計方法及其變式以及優(yōu)缺點。在CAT測試初始、中間、最終階段分別設計不同的能力估計方法并進行模擬研究。結果顯示,CAT的初始、中間、最終階段同時使用MLE或Biweight、EAPE-U(-4,4)方法,各個能力水平的被試均能被準確測量;CAT的初始、中間、最終階段中使用EAPE-N(0,1)方法或EAPE-N(0,2)方法,則高能力被試出現(xiàn)一定程度低估現(xiàn)象,低能力被試出現(xiàn)一定程度高估現(xiàn)象,而且所有被試的能力估計值呈現(xiàn)向能力量尺的中間靠攏的趨勢。
[關鍵詞]CAT;極大似然估計;極大后驗估計:期望后驗估計
[中圖分類號]G424.74[文獻標識碼]A
[文章編號]1673—1654(2023)02—056—012
項目基金本文為國家社會科學基金后期資助項目(編號:21FJKB021),江西省社會科學研究規(guī)劃項目(計算機化自適應測驗技術發(fā)展分析與實測應用,編號19JY02)的研究成果。
在計算機自適應測驗(computerized adaptive testing,CAT)的測試過程中,每一道試題在被試作答后,需要進行即時能力估計;在CAT測驗終止時,需要進行最終能力估計。能力估計是CAT測驗流程與測量技術的主要環(huán)節(jié)之一,以往研究者已提出了多種能力估計方法。張心和涂冬波概述了CAT常見的幾種能力估計方法,包括極大似然估計方法(maximum likelihood estimation,MLE)、極大后驗估計方法(expected a-posteriori estimation,EAPE)和期望后驗估計方法(maximum-a-posteriori estimation,MAPE)的基本原理及特點[1]。Wang概述了多位研究者對MLE、Owen方法、MAPE這幾種能力估計方法在紙筆測驗、CAT測驗情境下的比較研究[2];通過CAT模擬研究比較分析了MLE、Owen方法、EAPE、MAPE這四種能力估計方法,對其優(yōu)缺點進行了評論[3]。本文將在張心、Wang等的研究基礎上補充論述,重點論述MLE、EAPE、MAPE這三種能力估計方法的變式,概述以往研究者在CAT中分階段應用能力估計方法的思路。同時,設計模擬研究,分階段應用于CAT能力估計,對以上方法及其變式在CAT測試中的測量性能進行比較分析。
一、CAT常用能力估計方法及其變式
(一)MLE方法及其變式
Birnbaum最早在兩參數(shù)、三參數(shù)Logistic模型下采用極大似然估計方法來估計被試能力,這是IRT研究中被試能力估計的主要方法之一[4]。以往研究發(fā)現(xiàn),MLE方法是能力估計方法中偏差最小的[2]。但是MLE方法也存在不足:當被試作答全對或者全錯時,被試能力估計的似然方程會無法估計,這將使得CAT初始階段只能選題讓被試作答。李佳等提出了增加極端難度試題的改進MLE方法,即NMLE方法,增加一道區(qū)分度大、難度低的試題,且假設被試答對;增加一道試題區(qū)分度大、難度大的試題,且假設被試答錯[5]。李佳等的研究結果顯示,通過增加兩道試題,能夠改進MLE方法無法處理被試作答全對或全錯的情況,以及能力估計不收斂的問題。
(二)MAPE方法及其變式
MAPE方法及其變式實際上是在MLE方法的基礎上增加被試能力分布密度函數(shù)信息。Samejima將后驗分布f (θ)引入了MLE被試能力估計公式[11],將先驗概率密度乘以似然函數(shù)構建后驗分布并求極大值,因而被稱為極大后驗估計。MAPE本質上是MLE的進一步發(fā)展,是在MLE估計公式的基礎上結合貝葉斯后驗分布而形成的能力估計方法。Wang初步論述了MAPE方法的優(yōu)缺點[3]。MAPE方法的優(yōu)點是,在許多測驗情境下,被試群體能力量表的中段人數(shù)較多,而處于能力量表兩端的人數(shù)較少,MAPE可以利用后驗信息將被試能力估計值向能力量表的中部“聚集”,從而整體上減小了對每個被試的估計誤差。MAPE方法的缺點是,由于MAPE方法本質上是MLE方法的改進,MLE方法存在的缺點,MAPE方法可能都存在;而且,MAPE方法出現(xiàn)估計向先驗均值回歸的現(xiàn)象,可能會造成處于能力量尺兩端的被試在能力估計時出現(xiàn)偏差。
以往研究者在MAPE方法的基礎上,提出了多個變式,包括:Wang,et al.在MAPE方法中加入了Beta先驗分布參數(shù)α、β,以及設置u、l參數(shù),從而提出了無偏MAPE方法(EU-MAPE方法)[12];Sun等提出了MAPE的加權變式,即WMAPE方法[13];Magis等提出BME方法使用Jeffreys先驗分布,形成MAPE的變式方法即Jeffreys模型方法[14]。以上幾個MAPE方法的變式在理論與實踐研究中應用較少。
(三)EAPE方法及其變式
Bock和Mislevy闡述了EAPE方法具有多方面的優(yōu)點[10]:(1)EAPE方法在能力估計時不需進行迭代計算,計算過程簡潔;(2)EAPE方法不依賴于被試的先驗信息分布假設,使得EAPE方法能夠依據(jù)測驗經(jīng)驗,或實踐需要來進行估計;(3)對被試全對或全錯的作答得分情況也能進行能力估計,在CAT初始階段被試作答試題量很少時,可以使用EAPE方法得到相對準確的估計等。不過,在Bock和Mislevy的CAT模擬研究結果顯示,EAPE方法對高能力被試會出現(xiàn)一定程度的低估,而低能力被試出現(xiàn)一定程度的高估[16]。
EAPE方法的后驗分布不使用正態(tài)分布,使用某一指定后驗分布,就成為EAPE方法的變式方法。Rulison等、簡小珠的CAT研究中使用EAPE-N(0,2)方法(后驗分布均值為0,方差為2的EAPE方法)、EAPE-N(0,1)方法、EAPE-N(0,0.5)方法[17-18],由模擬結果可得,在CAT測試的后期階段,EAPE- N(0,2)方法的能力估計準確性要優(yōu)于EAPE-N(0,1)方法、EAPE- N(0,0.5)方法。一些研究者還使用了EAPE方法的其他變式,如Barrada等在分析多重曝光率控制的CAT模擬研究中,使用了EAPE-U(-4,4)能力估計方法,即后驗分布為均勻分布U(-4,4)[19];Chen在研究中使用能力估計方法EAPE-U(-4,4)、EAPE負偏態(tài)分布的方法[20]。
二、CAT分階段應用能力估計方法概述
近年來,一些研究者提出了能力估計方法的分階段應用思路,即在CAT的不同階段、或在不同測驗情境時使用不同能力估計方法,以改進或克服使用單一能力估計方法時的缺點與不足。CAT初始階段試題信息和被試作答信息都很少,此時試題的選擇往往采取試探性選擇方式,第一個試題往往是難度適中的試題,或者使用試題包方法,前三道試題均選擇難度適中的試題,待被試完成3道試題后再進行被試能力估計。目前,已有不少研究者進行了這方面的嘗試研究。例如,朱隆尹等提出將CAT測試分為前后兩個階段,即初步能力探查階段(試題數(shù)量為5題左右)和精確估計階段[21],并由模擬研究顯示,能力估計方法在這兩個不同的測試階段,其能力估計精度不同;張心的CAT模擬研究中,在前期和中期采用EAPE方法,后期采用WLE方法[22],并由模擬結果發(fā)現(xiàn),使用綜合能力估計方法的偏差Bias小于EAPE方法的偏差,而且綜合能力估計方法的RMSE與單純使用EAPE方法時差不多;蔡艷在研究中提出了改進的MLE法(簡記為R-MLE)[23],將EAPE方法與MLE方法相結合,即在CAT測試過程中,如果被試得滿分或0分則采用EAPE進行估計,否則采用MLE估計,這樣,從CAT的第2題開始就實現(xiàn)了對被試進行能力估計,并進行自適應選題,提高了CAT測試的效率,這種新方法是在彌補MLE方法不能估計“全得滿分或0分的被試”這一不足的基礎上提出來的。
在CAT測試的中間階段,van der Linden等認為,試題選擇策略與能力估計方法應該可以自由組合,而不是局限于早期CAT研究者的“自然”搭配。早期的自然搭配就是:MLE估計方法與最大項目信息量選題策略;Owen貝葉斯能力估計方法與基于后驗分布的項目選擇。
在CAT測試的最終能力階段,van der Linden等認為,最終的能力估計應該具有最優(yōu)的統(tǒng)計特性,此時,最終能力估計方法的主要功能不再是根據(jù)被試能力估計值來選擇下一道項目,而是以可能的最佳形式為考生提供一個有意義的能力估計與評價。
總之,以往研究者認為,為了更好地適應CAT測試過程,在不同的階段應該使用不同的能力估計方法。如前所述,朱隆尹等、張心、蔡艷等研究者分階段使用了不同的能力估計方法[21-23],但是,這些研究對CAT階段的劃分,以及對能力估計方法比較均不夠細化。本文根據(jù)CAT測試過程的特點,在CAT分三個階段采用不同能力的估計方法,并對這些方法及其變式進行比較,實現(xiàn)對各個能力層次被試的估計。
三、CAT分階段應用能力估計方法的模擬研究
(一)研究設計
題庫模擬與被試選擇。模擬生成一個理想的題庫,題庫題量為3000題,試題的區(qū)分度參數(shù)log(a)服從正態(tài)分布N(0,1),試題難度b參數(shù)服從U[-3,+3]。被試群體的模擬設計:在能力區(qū)間[-3,+3]之間,選取-2.7,-2.4,-2.1…. 2.1,2.4,2.7共19個被試能力水平作為CAT模擬的被試能力真值,以代表不同能力水平的被試。
測驗起點與測驗長度:在兩級記分兩參數(shù)Logistic模型下,CAT測試起點從能力量尺的中間0.0開始。CAT模擬測驗的長度為30題,即被試完成30題則終止測驗。
選題策略:主要依據(jù)最大信息量選題策略,以往對試題曝光率控制的CAT模擬研究表明,如果加入了復雜的選題策略算法,試題曝光率往往使得所有被試的被試能力估計值的測量精度下降。所以以往的有些CAT模擬研究中,為了排除試題曝光率控制所帶來的干擾,往往都沒有加入試題曝光率控制。同樣地,本文為了排除試題曝光率對測驗精度的影響與干擾,在CAT測驗模擬過程中沒有加入試題曝光率控制算法。
能力估計方法:在CAT三個階段采用不同能力估計方法。這里對van der Linder CAT三個階段進行了具體的描述與定義,具體如下:初始能力估計階段(初始階段)是指CAT測試過程中第1題至第3題,中間即時估計階段(中間階段)是指CAT測試過程中從第4題開始至測驗最后一道試題,最終能力估計階段(最終階段)是指CAT測試結束時,此時進行最后的能力估計與評價。
本研究所定義的CAT測試全過程包括CAT初始階段、中間階段,從第一題至最后一題,但不包括最終能力估計階段。
CAT測試的全過程,共設計8種CAT模擬情境:
1.測試全過程使用MLE方法,而且在初始階段前幾題時,如果被試全部答對則賦予最大值+3,全部答錯則賦予最小值-3。如果被試能力估計值收斂值大于3,則賦予+3;如果收斂于小于-3,則賦予-3;
2.測試全過程使用Biweight方法,在初始階段被試能力估計時的設定同第1種情境;
3.測試全過程使用EAPE-N(0,1)方法;
4.測試全過程使用EAPE-U(-4,+4)方法;
5.測試全過程中分段使用EAME方法的多個變式,即:前15題使用EAPE-N(0,1)方法,最后15題使用EAPE-U(-4,+4)方法;
6.測試全過程中分段使用能力估計方法,初始階段第1至3題使用EAPE-N(0,1)方法,中間階段第4至30題使用EAPE-U(-4,+4)方法;
7.測試全過程中分段使用能力估計方法,初始階段第1至3題使用EAPE-N(0,1)方法,中間階段第4至30題使用MLE方法;
8.測試全過程中分段使用能力估計方法,初始階段第1至3題使用EAPE-U(-4,+4)方法,中間階段第4至30題使用MLE方法。
第6、7、8CAT測試情境的過程設計,本質上是增加CAT初始階段(第1至3題)的設計,而且第1-3題使用EAPE-N(0,1)方法、EAPE-U(-4,+4)方法,是一些研究者認為,在CAT測試初始階段,由于作答試題數(shù)量少,被試作答信息少,使用MLE方法會出現(xiàn)能力估計不收斂或者無解的情況,包括van der Linden等也提出在CAT初始階段使用EAPE方法。
最終能力估計階段設計:在以上8種CAT測試過程的模擬情境下,當每一個被試在每一次模擬測驗結束時,根據(jù)被試在每一次模擬測驗作答得分情況分別使用5種能力估計方法進行估計。這5種能力估計方法為:MLE方法、MLE-Biweight方法和EAPE-N(0,1)方法、EAPE-N(0,2)方法、EAPE-U(-4,+4)方法。由于MAPE方法的測量精確性不如MLE方法,這里的模擬研究設計不使用MAPE方法及其變式。
評價指標:在每一個測驗情境下,19名被試中的每一名被試都進行5000次CAT測驗模擬作答過程。在每個測驗情境完成模擬后,分析每個被試的模擬返真性能Bias、RMSE、測驗SE。
(二)結果與分析
1.測試全過程使用MLE方法的模擬結果與分析
測驗全過程使用MLE方法,完成測驗模擬后,使用五種能力估計方法進行估計,對19名被試的模擬測驗結果的評價指標進行整理分析,詳見表1和圖1、圖2。
首先,由表1和圖1中各個被試的Bias可知,最終能力估計方法使用MLE、Biweight、EAPE-U(-4,4)方法時,19名被試的偏差在這三種方法上的偏差值的大小幾乎相同,而且都很小,偏差Bias都在0.02以內(nèi),說明這三種能力估計方法的測量屬性較好,能夠對各個能力層次水平的被試做出準確的測量。
其次,分析圖1中當最終能力估計方法為EAPE-N(0,1)、EAPE-N(0,2)方法時,這19名被試之間的偏差出現(xiàn)有規(guī)律的變化趨勢。在被試能力真值接近0時,其Bias值很?。欢辉嚹芰φ嬷禐?3或-3時,其Bias值相對較大。在圖1的左端,從中間能力真值為0的被試至左端能力真值為-2.7的被試,Bias絕對值隨著被試能力真值減小而逐漸增大,即測量準確性隨之越差;在圖1的右端,從中間能力真值為0的被試至右端的能力真值為2.7的被試,Bias隨著被試能力真值增大而逐漸增大,即測量準確性隨之越差。這表明,EAPE-N(0,1)、EAPE-N(0,2)方法在能力量尺兩端的測量準確性較差。為什么使用EAPE-N(0,1)方法、EAPE-N(0,2)方法時,中等能力被試的模擬返真性能要優(yōu)于高、低能力被試?這主要是EAPE-N(0,1)方法、EAPE-N(0,2)方法都是假設被試的能力分布為正態(tài)分布,在中等能力區(qū)間的密度大,因此,被試能力估計值存在“向中間靠攏”的傾向,即高、低能力被試的能力估計值容易向能力分布的平均值靠攏,因而使得被試能力估計值與被試能力真值產(chǎn)生較大偏差,即Bias和RMSE相對較大;而且這些高能力或低能力被試能力真值距離平均值0.0越遠,Bias和RMSE則越大。Mislevy等在CAT模擬研究中也得到了類似的結論,即在EAPE方法下,被試能力估計值容易向平均值靠攏[6]。
再次,橫向對比表1中的EAPE-N(0,1)、EAPEN(0,2)、EAPE-U(-4,4)三種方法下的Bias、RMSE值,發(fā)現(xiàn)這三種方法在低能力被試(以-2.1至-2.7為代表)和高能力被試(以2.1至2.7為代表)的Bias、RMSE值的絕對值依次減小,特別是EAPE-U(-4,4)方法下高能力、低能力被試Bias、RMSE的大小與其他能力水平被試的Bias、RMSE一樣,沒有EAPE-N(0,1)方法時被試能力估計值向能力量尺中間靠攏的現(xiàn)象。因此,在使用EPAE方法時,應該使用后驗分布為均勻分布的EAPE方法。
第三,由表1可知,從能力真值-2.7至2.7的19名被試,這五種能力估計方法的RMSE值都在0.170左右,而五種方法的總體RMSE為0.173-0.176之間??傮wRMSE這一數(shù)值,與前人Wang等(1998)研究的表2中的MLE方法,測驗長度30時RMSE值為0.17,基本一致。
最后,表1中RMSE指標與測驗SE指標值的大小基本上相同,RMSE、測驗SE均反映測驗的隨機誤差的大小。從前人研究Wang等(1998)以及本文的模擬研究結果中都可以發(fā)現(xiàn),RMSE指標與測驗SE指標值的大小很接近或相等,說明在各個能力水平被試的測量精度都比較一致。
2.第2~8測驗情境下的模擬研究結果與分析
在第2~8種測驗情境下進行CAT測驗模擬,并對測驗模擬結果進行整理分析,得到Bias、RMSE、測驗SE評價指標。第2~8種測驗情境的Bias情況如圖3至圖9所示。在各個測驗情境下的RMSE指標與Bias指標的變化趨勢近似一致:Bias偏大,則RMSE偏大;Bias偏小,則RMSE偏?。灰蚨韵翿MSE指標不用圖形表示。而且,由于測驗SE指標在各個能力層次水平的變化很小,如同表1的SE一樣,因而這里就不再用圖形展示。
首先,將圖3、圖5與圖1的情況放在一起進行分析,測驗的過程中使用Biweight方法、EAPE-U(-4,+4)方法時的Bias,與全過程使用MLE時的Bias的數(shù)值情況在各個層次被試能力水平上的數(shù)值大小基本一致,可以認為在CAT測試中,過程中能力估計使用MLE方法、Biweight方法、EAPE-U(-4,+ 4)方法,且最終能力估計方法也是這三種方法時,對被試能力估計的測量誤差是基本一致的,偏差接近于0。從表1的數(shù)值看,最終能力估計方法為MLE時,各個被試的Bias偏差小于0.015,這一數(shù)值與前人Wang等研究的表2中能力估計方法為MLE方法且測驗長度30時的Bias值0.016基本一致[3]。這說明在MLE、Biweight、EAPE-U(-4,4)方法下,CAT能對各個能力水平的被試實現(xiàn)準確的測量,即MLE、Biweight、EAPE-U(-4,4)對各個層次水平的被試都能實現(xiàn)無偏估計,換句話說,MLE、Biweight、EAPE-U(-4,4)方法是被試能力估計的無偏估計方法,這可視為以上能力估計方法應用于被試能力測量的一個優(yōu)點。
其次,在圖4中當CAT測試過程、最終階段的能力估計方法都使用EAPE-N(0,1)方法時,此時高能力被試和低能力被試的Bias(或Bias絕對值),與其他能力水平的被試相比,相對較大,而且比圖1中的最終能力估計方法使用EAPE-N(0,1)方法時,對應的高能力被試和低能力被試的Bias(或Bias絕對值)、RMSE還要大一些。也就是說,在CAT測試過程和最終能力估計階段時都使用EAPE-N(0,1)方法,高能力被試和低能力被試段的Bias(或Bias絕對值)、RMSE比較大,而中間能力被試的Bias(或Bias絕對值)、RMSE比較小。這意味著,中間階段和最終能力估計方法使用EAPE-N(0,1)方法有利于中等能力被試的測量,而不利于高能力被試或低能力被試的準確測量。這里圖4的研究結果,與Wang等研究文獻的圖3中EAPE的Bias值的曲線變化趨勢幾乎是一致的。然而,本文圖4的EAPE-N(0,1)方法中高能力、低能力被試的Bias值或絕對值,要小于Wang等的Bias值,這是由于Wang等模擬研究中題庫試題難度參數(shù)使用正態(tài)分布,而本文的題庫試題難度參數(shù)采取均勻分布,使得高能力、低能力被試在模擬測驗時有足夠難度合適的試題來進行測試,因而測量的準確性要高一些。
再次,將圖6、圖7、圖8與圖1對比分析,發(fā)現(xiàn)圖 6、圖7、圖8中在CAT初始階段、中間階段使用了EAPE-N(0,1)方法的變式,而最終能力估計方法使用EAPE-N(0,1)方法、EAPE-N(0,2)方法時的偏差Bias,與圖1中相對應的EAPE-N(0,1)方法、EAPEN(0,2)方法時的偏差Bias要相對大一些,也就是說,在CAT測試過程的初始階段使用了EAPE-N(0,1)方法,會對高能力被試、低能力被試的準確測量產(chǎn)生較大的影響,使得高能力被試、低能力被試的估計值向能力量尺中間聚攏。同時,分析圖7、圖8中在CAT初始階段前3題使用了EAPE-N(0,1)方法,而最終能力估計方法MLE方法、Biweight方法、EAPEU(-4,4)方法時的偏差Bias幾乎接近于0,這與圖1基本一致,說明最終能力估計使用MLE方法、Biweight方法、EAPE-U(-4,4)方法有助于糾正在CAT初始階段使用EAPE-N(0,1)方法造成的偏差影響。
最后,分析圖9并與圖1對比,發(fā)現(xiàn)圖9與圖1在各個能力估計方法上的偏差Bias大小幾乎一致,幾乎都是接近于0;而且,各個層次、能力水平的Bias的大小非常一致。在模擬過程中,具體跟蹤記錄分析所有被試在使用MLE方法時的每一步作答情況,均沒有發(fā)現(xiàn)MLE在能力估計時無解或不收斂的情況,也沒有發(fā)現(xiàn)MLE估計時出現(xiàn)多個極大值的情況。
總之,在CAT測試初始階段、中間階段和最終估計階段,MLE方法是能力估計方法中Bias、RMSE最小的,Bias幾乎接近0,即對各個層次被試能力水平的測量都是相對準確的;同時Biweight、EAPE-U(-4,4)方法的測量準確性與MLE方法幾乎一致。以往研究中也曾得出同樣的結論,Samejima(1993)通過假設推理[26],推論了MLE的偏差函數(shù)的性質,假定測驗所有試題的試題難度與能力估計值相當時,偏差為0;當被試能力水平比測驗的平均項目難度水平高,則偏差是正的;當能力水平低于平均項目難度水平,則偏差是負值。其他研究者通過紙筆測驗模擬,或者在CAT模擬測驗的研究結果也可得到同樣的結論。Wang等(1998)認為在適應性測驗形式下,被選擇的試題難度總是與被試能力水平相匹配,測驗平均難度與被試能力水平的差距會逐漸接近0,因此MLE是一種漸進無偏的能力估計方法[3]。
四、結論
在CAT測試全過程中,被試能力估計方法使用MLE、Biweight、EAPE-U(-4,4)方法,而且最終階段的能力估計方法為MLE、Biweight、EAPE-U(-4,4)方法時,此時這三種能力估計方法的Bias很小,幾乎接近0,這說明在MLE、Biweight、EAPE-U(-4,4)方法下,CAT能對各個能力水平的被試均實現(xiàn)準確的測量,這可以認為是計算機化適應性測驗應用于被試能力測量的一個重要理論依據(jù)之一。也就是說,MLE、Biweight、EAPE-U(-4,4)這三種方法是對被試能力估計的無偏估計。此研究結論與前人研究認為MLE方法是對被試能力無偏估計的這一觀點一致。
CAT測試全過程中,被試能力估計方法使用EAPE-N(0,1)方法或者EAPE-N(0,2)方法,而且最終能力估計方法為EAPE-N(0,1)方法或者EAPE-N(0,2)方法時,高能力被試會出現(xiàn)一定程度低估現(xiàn)象,低能力被試會出現(xiàn)一定程度高估現(xiàn)象,即高能力、低能力被試的能力估計值向中間靠攏的現(xiàn)象。此研究結論與前人研究觀點是一致的。而且,只要CAT初始階段中使用了EAPE-N(0,1)方法,就會使得高能力、低能力被試的Bias、RMSE相對變大。因此,CAT測試的初始階段、中間階段、最終階段都不建議使用EAPE-N(0,1)方法或者EAPE-N(0,2)方法??傊鶕?jù)CAT模擬研究結果,建議在CAT測試過程的初始階段、中間階段、最終階段時,使用MLE、Biweight、EAPE-U(-4,4)這三種方法中的一種,或者將這三種方法組合應用。
參考文獻:
[1]張心,涂冬波.計算機化自適應測驗中幾種常用能力估計方法的特性與評價[J].中國考試,2014,21(5):18-25.
[2] Wang T. The Precision of Ability Estimation Methods in Computerized Adaptive Testing [D]. University of Iowa,1995.
[3] Wang T,Vispoel W P. Properties of Ability Estimation Methods in Computerized Adaptive Testing [J]. Jorunal of Educational Measurement, 1998,35:109-135.
[4] Birnbaum A. Some Latent Ability Models and their Use in Inferring an Examinees Ability [M] // F. M. Lord,M R. Novick. Statistical Theories of Mental Test Scores. Reading,MA:AddisonWesley. 1968:392-479.
[5]李佳,丁樹良.計算機化自適應測驗中能力估計新方法[J].江西師范大學學報(自然科學版),2019,43(2):142-146.
[6] Mislevy R J,Bock R D. Biweight Estimates of Latent Ability[J]. Educational & Psychological Measurement,1982,42(3):725-737.
[7] Warm T A. Weighted Likelihood Estimation of Ability in Item Response Theory [J]. Psychometrika,1989,54(3):427-450.
[8] Schuster C,Yuan K. Robust Estimation of Latent Ability in Item Response Models [J]. Journal Of Educational And Behavioral Statistics,2011,36(6):720-735.
[9] Jones D H. Redescending M-Type Estimators of Latent Ability[R]. Program Statistics Research,Technical Report No. 82-30,1982.
[10]簡小珠,戴海琦.“CAT初始作答影響最終成績”的模擬分析與糾正[J].心理學探新,2016,36(03):276-280.
[11] Samejima F. Estimation of Latent Ability Using a Response Pattern of Graded Scores [J]. Psychometrik,1969,34:1-97.
[12] Wang,T.,Hanson,Bradley,A.,Lau,C. Reducing Bias in CAT TraitEstimation:AComparisonofApproaches[J].Applied Psychological Measurement,1999,23:263-278.
[13] Sun,S.,Tao,J.,Chang,H. H.,et al. Weighted Maximum-aPosterioriEstimationinTestsComposedofDichotomousand Polytomous Items [J]. Applied Psychological Measurement,2012,36(5):399-419.
[14] Magis,D.,& Ra?che,G. On the Relationships Between Jeffreys Model and Weighted Likelihood Estimation of Ability Under Logistic IRT Models [J]. Psychometrika,2012,77(1):163-169.
[15] Bock RD,Aitkin M. Marginal MaximumLikelihood Estimation of Item Parameters:Application of an EM Algorithm [J]. Psychometrika,1981,46(4):443-459.
[16] Bock R D,Mislevy R J. Adaptive EAP Estimation of Ability inaMicrocomputerEnvironment[J].AppliedPsychological Measurement,1982,6(4):431-444.
[17] Rulison K L,Loken E. Ive Fallen and I Cant Get Up:Can High Ability Students Recover From Early Mistakes in CAT? [J]. Applied Psychological Measurement,2009,33(2):83-101.
[18]簡小珠. IRT模型中c、γ參數(shù)對被試能力高估和低估現(xiàn)象的糾正[D].廣東廣州:華南師范大學,2011.
[19] Barrada J R,Abad F J,Veldkamp B P. Comparison of Methods for Controlling Maximum Exposure Rates in Computerized Adaptive Testing [J]. Methodology,2009,21:313-320.
[20] Chen S. The Comparison of Maximum Likelihood Estimation and Expected a Posteriori in CAT Using the Graded Response Model[J].國教學報(中國臺灣),1996,19:339-371.
[21]朱隆尹,丁樹良.CAT能力估計方法的比較研究[J].江西師范大學學報(自然科學版),2007,31(3):302-305.
[22]張心.CAT常用能力估計方法比較及其優(yōu)化:能力綜合估計方法開發(fā)[D].江西南昌:江西師范大學,2014.
[23]蔡艷.CAT中能力參數(shù)估計方法的改進:R-MLE估計法[J].心理學探新,2016,36(1):92-96.
[24] van der Linden W J,Pashley P J. Item Selection and Ability Estimation in Adaptive Testing [M] // van der Linden W J,Glas C A W. Elements of Adaptive Testing. Springer New York,2010.
[25] Dodd,B.,G. The Effect of Item Selection Procedure and Step Size on Computerized Adaptive Attitude Measurement Using the Rating Scale Model [J]. Applied Psychological Measurement,1990,14(4):355-366.
[26] Samejima F. The Bias Function of the Maximum Likelihood EstimateofAbilityfortheDichotomousResponseLevel[J]. Psychometrika,1993,58(2):195-209.
Comparison between Ability Estimation Methods under Computerized Adaptive Testing
Jian Xiaozhu
Department of Education,Guangxi Normal University,School of Education,Jinggangshan University,Jian,Jiangxi,343000
Abstract:This paper summarizes three main types of computerized adaptive testing(CAT)ability estimation methods,namely,maximum likelihood estimation method(MLE),maximum posterior estimation method(EAPE),expectation posterior estimation method(MAPE)and their variants,and discusses their advantages,disadvantages and applicable situations. In this paper,through CAT simulation design,different ability estimation methods are used in the CAT testing process and the final stage of CAT respectively,and the measurement attributes of the ability estimation methods in the CAT testing process are analyzed. It is found that under the methods of MLE,Biweight and EAPE-U(-4,4),CAT could achieve accurate measurement for all ability levels of the subjects. In the process of CAT test,when the ability estimation method of subjects is EAPE-N(0,1)or EAPE-N(0,2),and the final ability estimation method is EAPE-N(0,1)or EAPE-N(0,2),high-ability subjects will underestimate to a certain extent,the low-ability subjects overestimated to a certain extent,and the ability estimation was close to the middle. In addition,as long as EAPE-N(0,1)or EAPE-N(0,2)method is used in part of CAT stage,and other ability estimation methods such as MLE are used in other stages,the RMSE of intermediate ability subjects will be relatively small,while the RMSE of high-ability and low-ability subjects will be relatively large.
Key words:CAT,Maximum Likelihood Estimation,Expected A-Posteriori Estimation,Maximum-APosteriori Estimation
(責任編輯:吳茳)