李俊杰,鄭慧婧,康春花*
(1.北京師范大學中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875;2.浙江師范大學心理學院,浙江 金華 321004)
認知診斷計算機化自適應測驗(cognitive diagnostic computerized adaptive testing,CD-CAT)結(jié)合了認知診斷理論和CAT的雙重優(yōu)勢,相比傳統(tǒng)的測驗形式,它可以更精確、更迅速、更靈活地測量出被試的潛在知識狀態(tài)(knowledge state,KS),從而獲得被試在知識點上的掌握情況,為教育教學工作者提供有針對性的指導,促進學生的個性化發(fā)展.近年來,國內(nèi)外越來越多的研究者關(guān)注CD-CAT這一領(lǐng)域.
在對CD-CAT的眾多分類中,依據(jù)CD-CAT使用的診斷方法可將CD-CAT分為參數(shù)CD-CAT 和非參數(shù)CD-CAT.參數(shù)CD-CAT的診斷方法常用極大似然估計法(maximum likelihood estimation,MLE)、極大后驗估計法(maximum a posteriori,MAP)和期望后驗估計法(expected a posteriori,EAP).這3種方法都是在項目參數(shù)已知的條件下通過概率計算來估計被試的知識狀態(tài)(knowledge states,KS)或?qū)傩哉莆漳J?而非參數(shù)CD-CAT是采用更加簡單的有效距離判別法來估計被試的知識狀態(tài),在估計過程中不需要進行概率計算,進而也不需要知曉項目參數(shù),所依據(jù)的是理想反應和觀察反應之間的距離最小的原則,即與觀察反應之間距離最小的理想反應所對應的屬性掌握模式視為考生的知識狀態(tài).參數(shù)CD-CAT和非參數(shù)CD-CAT的結(jié)構(gòu)均包含5個部分:題庫、初始項目選擇方法、知識狀態(tài)或能力值的估計、選題策略和終止規(guī)則.目前參數(shù)CD-CAT已在選題策略[1-6]、屬性在線標定[7-9]和終止規(guī)則[10-11]等方面展開了相關(guān)的研究.相比于參數(shù)CD-CAT,非參數(shù)CD-CAT發(fā)展較晚,截至目前,非參數(shù)CD-CAT的研究主要集中在選題策略[12]方面.而大部分圍繞選題策略的非參數(shù)CD-CAT研究均是以定長(fixed-length)CAT的形式作為終止規(guī)則,即固定每次測驗的長度,在被試完成測驗后,根據(jù)被試的作答反應估計其知識狀態(tài).定長CAT雖然固定了測驗長度,施測較為方便,但對不同的被試會有不同的測量精度.一個更加合理的做法是,應該使CD-CAT形式的測驗對每個被試的測量精度相同,這也正是自適應測驗優(yōu)勢的體現(xiàn)[13].與定長CAT相對應的終止規(guī)則為變長(variable-length)CAT,變長CAT能夠使每個被試具有相同測量精度并由此終止測驗[14].相對于定長CAT,變長CAT更能體現(xiàn)出自適應的特點和優(yōu)勢,因此,開展這方面的研究非常有意義.總體來講,傳統(tǒng)CAT測驗終止規(guī)則可以歸納成2類:1)達到預設測驗信息量終止規(guī)則,即不斷施測項目直到測量標準誤差落在可接受范圍內(nèi),或測驗信息量達到某個預先設定的指標;2)最小信息量終止規(guī)則,即在剩余題庫中所有項目的項目信息量都低于某個預設水平[7].在參數(shù)CD-CAT中,C.L. Hsu等[10]在C. Tatsuoka[15]以最大后驗概率作為測驗終止條件的基礎(chǔ)上提出了變長CD-CAT的終止規(guī)則(本文將其稱為Hsu法).其研究結(jié)果表明:當固定屬性掌握模式在后驗概率分布中的最大后驗概率預設水平時,被試的模式判準率會隨著第2大后驗概率預設水平的降低而增大;當固定知識狀態(tài)后驗分布的第2大后驗概率預設水平時,被試的模式判準率會隨著最大后驗概率預設水平的升高而增大.參數(shù)CD-CAT的變長測驗終止規(guī)則的提出極大推動了變長參數(shù)CD-CAT發(fā)展.正如前文所述, C.L. Hsu等[10]對變長CD-CAT的終止規(guī)則是建立在后驗概率的基礎(chǔ)上的,而在非參數(shù)CD-CAT情境中,通常在題庫建設過程中標定題目的項目參數(shù),此時HSU法或Tatsuoka法將無法適用于非參數(shù)CD-CAT情境.那么,在非參數(shù)CD-CAT的體系內(nèi)有沒有類似參數(shù)后驗概率的指標可用于衡量某個屬性掌握是被試真實知識狀態(tài)的可能性呢?文獻[16]率先嘗試使用距離加權(quán)(dwac)結(jié)合理想反應的方式構(gòu)建了距離加權(quán)-理想作答選題方法(DWIR),并闡述了在測驗中隨著測驗長度的增加,更高可能性是被試的屬性掌握模式的dwac值越大,更低可能性是被試的屬性掌握模式的dwac值越小.
因此,本文首先借鑒變長參數(shù)CD-CAT的終止規(guī)則,隨后結(jié)合在文獻[16]提出的DWIR方法中距離加權(quán)(dwac)的指標開發(fā)2種非參數(shù)變長CD-CAT的終止規(guī)則:最大距離比例終止規(guī)則和距離比例雙重標準終止規(guī)則.
該模型因為僅涉及失誤和猜測2個參數(shù),所以真正實現(xiàn)了對認知診斷模型的簡化[17-18].其表達式為
其中ηij是一個二分變量,它表示被試i是否掌握了第j題所考查的全部屬性,gj表示第j題的猜測參數(shù)(guess parameter),其是未掌握該題所測全部屬性的被試答對這道題的概率,s表示第j題的失誤參數(shù)(slip parameter),其是掌握了該題所測全部屬性的被試答錯這道題的概率.
縮減的再參數(shù)化統(tǒng)一模型(reducedreparame-terized unified model,RRUM)是另一種常用的認知診斷模型[19-20].RRUM模型的表達式為
GP-DINA模型[21]是在涂冬波等[22]提出的P-
DINA模型上拓展而來的,GP-DINA的項目反應函數(shù)為
ηij=fx(aiq′jmj/(qjq′j)),
其中ηij是被試i在項目j上的理想得分,mj是項目j的滿分值,fx(·)是對被試的理想得分進行取整.
P(Xij=t|ai)=P*(Xij=t|ai)-P*(Xij=t+1|ai),
其中P*(Xij=t|ai)表示被試在題目j上得t分及t分以上的概率,t的取值范圍為0~mj(mj項目j的滿分值),P(Xij=t|ai)為屬性掌握模式ai的被試得t分的概率.
Xu Gongjun等[23]提出的Q-最優(yōu)準則的依據(jù)為:當考察在領(lǐng)域中的所有屬性(設共有K個)時一個測試所需的題量至少為K,即給出了使用最小測試長度K是識別所有屬性掌握模式的充要條件.特別是為了達到最小測試長度,在測試中的第1項應當只考察1個屬性,隨后的題目依次添加1個新屬性.應用Q-最優(yōu)準則選擇CD-CAT前K個題目的具體過程如下:
1)初始化題庫R(0);
2)為被試i從R(0)中隨機選題j,使得題目j的q向量qj=e1.通過刪除題目j來更新R(0),即R(0)=R(0)-{j};
3)被試作答題目j,并記錄反應向量yi;
5)對被試施測題目j′,通過y(k)=(yk-1,y(k))更新反應向量;
6)令k=k+1,重復步驟4)~步驟5)直至k=K.
文獻[16]基于理想作答反應構(gòu)建了非參CD-CAT選題策略,其核心思想是:依據(jù)不同屬性掌握模式在同一個題目上的理想反應存在差異來選擇能夠區(qū)分被試的估計屬性掌握模式與其他屬性掌握模式的題目.具體算法如下:
dwac=exp(max{da}-dac)/(exp(max(da)-min(da))),
DWIR方法選題過程:1)根據(jù)DWIR選題策略,計算題庫中剩余題目的DW值,并將在題庫中的最大DW值對應的多個題目組成待選題庫;2)從待選題庫中隨機選取一題對被試進行施測;3)重復1)、2)的步驟直至滿足測驗終止規(guī)則.
C. Tatsuoka[15]提出了變長CD-CAT的經(jīng)驗性準則,即當被試屬于某種知識狀態(tài)的后驗概率超過設定的標準時,測驗終止.
C.L. Hsu等[10]基于C. Tatsuoka的思想,進一步提出了雙重標準的變長CD-CAT終止規(guī)則,即當被試在某種知識狀態(tài)下的最大后驗概率P1st不低于某個預設水平(如0.7),并且第2后驗概率P2nd不高于某個預設水平(如0.1)時,測驗終止.
在Hsu方法中采用后驗概率作為終止測驗的精度指標,其原理是若某種屬性掌握模式的后驗概率越大則這種屬性掌握模式就越可能是被試的真實知識狀態(tài).已有研究[24-26]表明:與觀察反應的距離越小的理想反應所對應的屬性掌握模式越可能是被試真正的屬性掌握模式.文獻[16]采用距離權(quán)重的方式用于衡量每個屬性掌握模式是被試真實知識狀態(tài)的可能性,屬性掌握模式dwac越大的更有可能是被試的真正屬性掌握模式.不難看出,非參數(shù)的dwac同樣能夠作為終止測驗的精度指標,同時受C. Tatsuoka[15]啟發(fā),本文首先提出最大距離比例終止規(guī)則.最大距離比例d1st計算如下:
其中M為潛在的屬性掌握模式的種數(shù),m1為在M種潛在的屬性掌握模式中dw值最大所對應的屬性掌握模式.可以看出,m1的dw值占比越大,d1st的值將會越大.
最大距離比重終止規(guī)則:當被試屬于某種屬性掌握模式的最大距離比例d1st超過設定的標準時,測驗終止.
在文獻[15]的基礎(chǔ)上,C.L. Hsu等[10]提出了采用雙重標準的終止規(guī)則以進一步確保測量精度.因此,本文在非參數(shù)視角下的最大距離比例d1st基礎(chǔ)上進一步結(jié)合第2大距離比例d2nd,提出了距離比例雙重標準法.
準則1當最大距離比例d1st不小于預定值(如0.70)時,CD-CAT停止.
準則2當最大的非參數(shù)比例d1st不小于預定值(如0.70),并且第2大距離比例d2nd也不大于預定值(如0.10)時,CD-CAT停止.
在準則2中考慮d2nd,這可以有效避免2個競爭的屬性掌握模式.如假設d1st的預定值設置為0.60,使用準則1,當d1st達到0.60時,CD-CAT停止,此時d2nd可能仍然很高(如接近0.20).若是這樣,則會出現(xiàn)2個相互競爭的屬性掌握模式,這2個屬性掌握模式均有較高的可能性是被試的真實屬性掌握模式.解決這個問題的一種方法是將d1st的預定值從0.60增加到0.90,當CD-CAT只有對測驗結(jié)果非常有信心時,CD-CAT才會停止.有時候,這種程度的自信可能是不必要的.解決這個問題的另一種方法是將d2st設定一個標準,如只有當d1st不小于0.60且d2nd不大于0.20時,CD-CAT才能停止.盡管在理論上可以在第3種或其他d上設置另一種標準,但根據(jù)筆者的經(jīng)驗,考慮第1和第2大非參數(shù)比例就足夠了.
通過模擬研究檢驗MDRM和DRDSM在0-1計分情境中作為變長終止規(guī)則是否具有良好的性能.
該研究采用2選題方法(NPS、DWIR)×4測驗終止規(guī)則(Tatsuoka、Hsu、MDRM、DRDSM)×3題庫質(zhì)量(HD、LD、HyD)×2屬性掌握模式分布(均勻分布、多元正態(tài)分布)共48個條件生成數(shù)據(jù)進行模擬研究,其中選題方法為組內(nèi)變量,其余變量為組間變量.
終止標準設置:在MDRM和DRDSM中d1st包含2個水平(0.80和0.90);DRDSM的d2nd包含4個水平(1.00、0.20、0.10、0.05).在Tatsuoka和Hsu法中P1st同樣包含2個水平(0.80和0.90),Hsu法P2nd包含4個水平(1.00、0.20、0.10、0.05),在計算P1st和P2nd時,采用生成參數(shù)真值計算.
在題庫方面,研究參照Chang Yuanpei等[12]的研究設計思路,項目庫由J=300個項目組成,其中150項目遵守了DINA模型和其他150項目符合RRUM;高質(zhì)量題庫(HD)項目的猜測和滑動均服從均勻分布U(0.10,0.20),低質(zhì)量題庫(LD)項目的猜測和滑動均服從均勻分布U(0.20,0.30),混合質(zhì)量庫(HyD)項目的猜測和滑動均服從均勻分布U(0.05,0.25).在模擬研究中,以0.3的概率考察每個屬性生成題目的Q向量.
在模擬被試方面,模擬被試2 000人,分別服從2種屬性掌握模式分布.1)被試的屬性掌握模式由均勻分布(每個屬性掌握模式的概率為1/2K)生成;2)考生的知識狀態(tài)服從協(xié)方差為0.5的多元正態(tài)(MVN)分布[27].研究設定最大測驗長度為50題,若被試施測50題后仍未達到測驗終止的要求,則仍然終止測驗.
評價指標采用屬性掌握模式判準率:
其中Ri表示被試i的知識狀態(tài)估計與真值之間一致性,若一致則Ri=1,否則Ri=0,N為測驗總?cè)藬?shù).PC為考生知識狀態(tài)估計正確的比例,PC越大表明對被試整體知識狀態(tài)的估計越精確.
此外還有平均測驗長度(mean test length)和測驗長度的標準差(standard deviation).
在CD-CAT中采用Q-最優(yōu)準則進行初始選題,整個研究用R語言自編所有程序進行模擬驗證.
表1和表2呈現(xiàn)了在均勻分布下Tatsuoka法、Hsu法、MDRM、DRDSM在0-1計分情境下的表現(xiàn),由表1和表2可以發(fā)現(xiàn)MDRM是當DRDSM的d2nd=1時的特殊情況;Tatsuoka法是當Hsu法的P2nd=1時的特殊情況.整體而言,NPS和DWIR 在使用距離比例作為終止規(guī)則時的分類準確性比后驗概率終止規(guī)則更高,但測驗長度更長.可以發(fā)現(xiàn)距離比例終止規(guī)則與后驗概率終止規(guī)則類似,測驗終止條件越苛刻NPS和DWIR的分類準確性越高,不同的是MDRM和DRDSM分別受到的是d1st和d2nd的影響.在HD題庫條件下,d1st取值范圍為0.80~0.90,NPS和DWIR的屬性分類準確性從0.83增加至0.90,并且在d1st=0.80時,d2nd不同值的PC范圍為0.831~0.977,且隨著d2nd的減小而增大,在后驗概率終止規(guī)則下的PC為0.777~0.914.在HyD題庫條件下,NPS和DWIR采用MDRM和DRDSM終止測驗的PC的結(jié)果與HD題庫條件的結(jié)果相似,這說明在MDRM、DRDSM中距離比例d1st有后驗概率P1st相似的作用:在作為測驗終止條件時,減小d1st可以提高測驗的屬性分類準確性.距離比例d2nd與后驗概率P2nd有相似的作用:在作為測驗終止條件時,減小d2nd可以有效地提高測驗的屬性分類準確性.在LD題庫條件下,NPS和DWIR采用MDRM和DRDSM的屬性分類準確性與采用Tatsuoka法和Hsu法的結(jié)果相近,特別是當d2nd和P2nd減小到0.05時,NPS和DWIR在不同中終止規(guī)則條件下的分類準確性相差小于0.03,這說明:隨著測驗終止的條件愈發(fā)嚴苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗終止規(guī)則時取得的結(jié)果將與在采用后驗概率作為終止規(guī)則時取得的結(jié)果相同.
表1 在0-1計分和均勻分布條件下的屬性分類準確性
表2 在0-1計分和均勻分布條件下測試長度
表2(續(xù))
在測驗長度的使用方面,NPS和DWIR的平均測驗長度受到d1st、d2nd、P1st和P2nd的影響.總的來說,NPS和DWIR的測驗隨著d1st和P1st增大而變長,如在HD題庫條件下,d1st從0.80增至0.90,測驗長度增加約為2;P1st從0.80增至0.90,測驗長度增加約為3.NPS和DWIR的測驗隨著d2nd和P2nd減小而變長,如在HD題庫條件下,d2nd從1.00減至0.05,測驗長度增加約為12;P2nd從1.00減至0.05,測驗長度增加約為6.觀察表2可以發(fā)現(xiàn):在HyD題庫條件下的結(jié)果與在HD題庫條件的結(jié)果基本相似.在表2中,LD題庫的NPS和DWIR采用MDRM和DRDSM的測驗長度與采用Tatsuoka法和Hsu法的測驗長度相近,特別是當d2nd和P2nd的減小到0.05時,NPS和DWIR在不同中終止規(guī)則條件下的平均測驗長度相差小于3.在多元正態(tài)分布下的分類結(jié)果和題庫使用情況與在均勻分布下的均相同,這里不再呈現(xiàn).
通過模擬研究檢驗MDRM和DRDSM在混合計分情境中作為變長終止規(guī)則是否具有良好的性能.
在研究采用2選題方法(NPS、DWIR)×4測驗終止規(guī)則(Tatsuoka、Hsu、MDRM、DRDSM)×3題庫質(zhì)量(HD、LD、HyD)×2屬性掌握模式分布(均勻分布、多元正態(tài)分布)共48個條件生成數(shù)據(jù)進行模擬研究,其中選題方法為組內(nèi)變量,其余變量為組間變量.整個研究除題庫設置方面與上述研究不同,其他條件相同.
在題庫方面,題目數(shù)量為300,題目的最高分為3分.在高質(zhì)量題庫中題目的猜測參數(shù)和失誤參數(shù)均服從均勻分布U(0.10,0.20),且為隨機生成;在低質(zhì)量題庫中題目參數(shù)服從均勻分布U(0.20,0.30),且為隨機生成,混合質(zhì)量庫(HyD)項目的猜測和滑動均服從均勻分布U(0.05, 0.25).題目sj和gj分布根據(jù)文獻[21]的設定,sj單調(diào)遞增,gj單調(diào)遞減,將隨機生成3個sj按升序排列,3個gj按降序排列;在仿真研究中,屬性的層級關(guān)系為獨立性,在題庫中的題目平均分布到每種測量模式上(在5個屬性時,題庫有31種測量模式).
在CD-CAT中采用Q-最優(yōu)準則進行初始選題,整個研究R用語言自編所有程序進行模擬驗證.
表3和表4呈現(xiàn)了在均勻分布下Tatsuoka法、Hsu法、MDRM、DRDSM在混合計分情境下的表現(xiàn).整體而言,NPS和DWIR的研究結(jié)果與在0-1計分情境下的類似,在使用距離比例作為終止規(guī)則時的分類準確性比在后驗概率終止規(guī)則時的更高,但測驗長度更長.無論是距離比例終止規(guī)則還是后驗概率終止規(guī)則,均有:測驗終止條件越苛刻,NPS和DWIR的平均測驗長度越大,屬性分類準確性越高;不同的是MDRM和DRDSM分別受到的是d1st和d2nd的影響.同時,從不同題庫條件的結(jié)果中發(fā)現(xiàn):隨著測驗終止的條件愈發(fā)嚴苛,即d1st和P1st不斷增大或者d2nd和P2nd不斷減小,NPS和DWIR在Tatsuoka法和MDRM測驗終止規(guī)則條件下的屬性分類準確率不斷接近;Hsu法的結(jié)果和DRDSM終止條件下的結(jié)果不斷接近.此外,在多元正態(tài)分布下的分類結(jié)果和題庫使用情況與在均勻分布下的均相同,這里不再呈現(xiàn).
表3 在混合計分和均勻分布條件下的屬性分類準確性
表4 在混合計分和均勻分布條件下測試長度
目前大部分非參數(shù)CD-CAT的研究集中于定長終止條件,雖然定長CAT由于固定了測驗長度,所以施測較為方便,但是其對不同的被試會有不同的測量精度.一個更加合理的做法是, 應該使CD-CAT形式的測驗對每個被試的測量精度相同,這也正是自適應測驗的優(yōu)勢所在.為了發(fā)展變長非參數(shù)CD-CAT,本研究嘗試結(jié)合在DWIR方法中的距離權(quán)重構(gòu)建了2種非參數(shù)距離比例終止規(guī)則MDRM、DRDSM,隨后通過模擬研究將采用后驗概率終止規(guī)則的Tatsuoka法、Hsu法作為MDRM、DRDSM使用效果參照對象來驗證MDRM、DRDSM的性能.
2個模擬研究的結(jié)果均顯示:本文提出的2種非參數(shù)距離比例終止規(guī)則MDRM、DRDSM獲得的分類準確率比采用后驗概率終止規(guī)則的Tatsuoka法和Hsu法的分類準確率更高,但其代價則是需要更多的測驗題目.特別是在0-1計分的情境下MDRM、DRDSM規(guī)則所需的題目數(shù)量更多,這也可能與0-1計分的計分規(guī)則所提供的的信息更少有關(guān),此外,這也可能與研究的MDRM、DRDSM中的距離比例計算有關(guān).在MDRM、DRDSM規(guī)則下,雖然設置非參數(shù)距離比例d1st、d2nd與后驗概率P1st、P2nd相等,但是MDRM、DRDSM達到終止測驗的條件d1st、d2nd更加嚴苛,從而其需要更多的測驗題目,進而導致更高的分類準確率.這是在CAT情境中一直面臨的利益權(quán)衡問題[6-7,11,28].事實上,在MDRM和DRDSM規(guī)則下分類準確率的高低與測驗長度情況之間的利益權(quán)衡可通過研究設置給予實現(xiàn),當研究目的在于盡可能獲得更準確分類結(jié)果時,可增加在MDRM 規(guī)則下的d1st值,或者在DRDSM規(guī)則下增大d1st值和減小d2nd;反之,可以適當減少d1st值或者增大d2nd.最后研究也發(fā)現(xiàn):隨著測驗終止的條件愈發(fā)嚴苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗終止規(guī)則時的結(jié)果和在采用后驗概率作為終止規(guī)則時的結(jié)果逐漸接近.
本文通過2個模擬研究檢驗了MDRM和DRDSM在非參數(shù)CD-CAT中的使用性能,得出了如下結(jié)論:
1)2種非參數(shù)終止規(guī)則MDRM和DRDSM適用于在0-1計分和混合計分下的非參數(shù)CD-CAT測驗;
2)當研究目的在于盡可能獲得更準確分類結(jié)果時,可在MDRM規(guī)則下增加d1st值,或者在DRDSM規(guī)則下增大d1st值和減小d2nd;反之,可以適當減少d1st值或者增大d2nd;
3)測驗終止的條件愈發(fā)嚴苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗終止規(guī)則時的結(jié)果和在采用后驗概率作為終止規(guī)則時的結(jié)果逐漸接近.