胡 姍,丁樹良,程 艷,熊建華
(江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,江西南昌330022)
計(jì)算機(jī)自適應(yīng)測驗(yàn)(computerized adaptive test,CAT)是應(yīng)用項(xiàng)目反應(yīng)理論(item response theory,IRT)建立題庫,并由計(jì)算機(jī)根據(jù)被試能力水平自動(dòng)選擇測試題,最終對(duì)被試能力做出估計(jì)的一種新型測驗(yàn)方法.它最大的特點(diǎn)是“量體裁衣”,即根據(jù)被試的能力從題庫中選擇難度與能力相匹配的試題施測,獲得學(xué)生的最大信息,保證能力高的學(xué)生不會(huì)做到太容易的題,能力低的學(xué)生不會(huì)做到太難的題.CAT的實(shí)施必須解決以下4個(gè)方面的問題:(i)題庫建設(shè);(ii)選題策略;(iii)參數(shù)估計(jì);(iv)測試終止規(guī)則.目前CAT常用的選題策略是Lord提出的最大信息量選題法,實(shí)施這種選題策略會(huì)使區(qū)分高的項(xiàng)目曝光率過高,而區(qū)分度過低的項(xiàng)目則被擱置或極少使用.這種方法在測驗(yàn)效率方面雖然優(yōu)點(diǎn)突出(只需較少量題即可測出能力),但在題庫安全性方面的缺陷也比較明顯.針對(duì)Lord選題策略的不足,研究者們提出了按 a分層法[1]、按 b分塊按 a層法[2]和按 c分層法[3]等方法,相關(guān)文獻(xiàn)均稱這些選題策略能較好的增強(qiáng)CAT的安全性.
CAT的終止規(guī)則分為定長和不定長.定長是當(dāng)施測項(xiàng)目數(shù)累加到預(yù)設(shè)值時(shí)即終止測試,這樣就違背了自適應(yīng)的初衷.不定長則是按照測量標(biāo)準(zhǔn)誤差落入預(yù)設(shè)范圍內(nèi)即終止測試.由于不同項(xiàng)目所含信息量不同,因此能力不同的被試完成測驗(yàn)所需施測的項(xiàng)目及項(xiàng)目數(shù)也有所不同,于是測驗(yàn)的長度就會(huì)隨著被試的變化而變化,從而更好地體現(xiàn)出了CAT“因人施測”這個(gè)特點(diǎn),因此不定長CAT終止規(guī)則得到了研究者們的推崇和青睞.
采用按a分層法、按b分塊按a層法和按c分層法等方法選題策略后又產(chǎn)生了一個(gè)新的問題:分層終止規(guī)則如何制定.
要解決各層信息量分配問題,先考察CAT中測驗(yàn)信息量的計(jì)算方法,用單維3參數(shù)Logistic模型(3PLM),F(xiàn)isher信息量相當(dāng)于抽樣標(biāo)準(zhǔn)誤平方(即方差)的倒數(shù)[4],令 Kj(θ)={cj+exp[Daj(θ-bj)]·
其中 D 為量表因子,通常取為 1.7;aj、bj、cj分別為3PLM中題目j的區(qū)分度參數(shù)、難度參數(shù)和猜測參數(shù);θ為被試在CAT測驗(yàn)中的當(dāng)前的估計(jì)能力;Ij(θ)即能力為θ的被試在題目j上具有的信息量.
目前涉及分層終止規(guī)則的分配規(guī)則不多見,主要有比較(1 ∶1 ∶1 ∶1)、(1 ∶2 ∶3 ∶4)和(4 ∶3 ∶2 ∶1)3 種信息量分層比例,研究發(fā)現(xiàn)(1 ∶2 ∶3 ∶4)較好[5],王茜娟等采用此方法對(duì)按c-分層不定長CAT做出了研究[1].有人認(rèn)為各層信息量之比為I1∶I2∶… ∶Ik=12∶22∶… ∶k2的效果較理想[6-7].朱隆尹等[8]給出了3PLM下按a分層不定長CAT終止規(guī)則的2個(gè)新方案:
張華華等[2]對(duì)各層信息量的比例做出討論,分別為平均、遞增、遞減,并認(rèn)為遞增的方式較好.通過對(duì)上述終止規(guī)則的比較及實(shí)驗(yàn),發(fā)現(xiàn)遞增的分層確實(shí)相對(duì)效果更好,而且做實(shí)驗(yàn)得出1∶3∶5∶7的分層的方式比1∶2∶3 ∶4的分層效果好,文獻(xiàn)[5-6]中其實(shí)也是擴(kuò)大分層之間的比例,文獻(xiàn)[8]中也是對(duì)比例進(jìn)行調(diào)節(jié).但是并不是越大越好,通過對(duì)不同比例的方案進(jìn)行大量對(duì)比試驗(yàn),得出下面2種k層信息量分配新方案表現(xiàn)效果更好,具體公式為
本文把新的終止規(guī)則應(yīng)用到不同分層中,檢驗(yàn)實(shí)施的可行性.
模擬生成一批隨機(jī)數(shù),其數(shù)量為N,數(shù)值均服從標(biāo)準(zhǔn)正態(tài)分布,記為:θ~N(0,1),其中N為被試總?cè)藬?shù),本文均設(shè)定N=1000;θ為被試的能力真值.
用a、b、c,分別表示3PLM中的區(qū)分度參數(shù)、難度參數(shù)和猜測度參數(shù).若a服從對(duì)數(shù)正態(tài)分布,且0.2≤a≤2.5,記為lna~N(0,1)∧a∈[0.2,2.5];a服從0.2到2.5的均勻分布,記為 a~U(0.2,2.5);b服從標(biāo)準(zhǔn)正態(tài)分布,且-3≤b≤3,記為b~N(0,1)∧b∈[-3,3];b服從-3~3的均勻分布,記為b~U(-3,3);猜測參數(shù)c均服從α為5,β為17的貝塔分布,記為c~Beta(5,17).模擬生成包含a、b、c 3等參數(shù)的4個(gè)題庫,依次為題庫1、題庫2、題庫3、題庫4,題量均為m=1000,且c~Beta(5,17),其中:① 題庫 1 中a~U(0.2,2.5),b~U(-3,3);② 題庫2 中 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3];③ 題庫3 中 lna~N(0,1)∧a∈[0.2,2.5],b~U(-3,3);④ 題庫 4 中l(wèi)na~N(0,1)∧a ∈[0.2,2.5],b~N(0,1)∧b∈[-3,3].
根據(jù)當(dāng)前所選題目j的參數(shù)和被試i的能力真值 θi,計(jì)算其答對(duì)概率 Pij(θ),其中,Pij(θ)的計(jì)算公式因?yàn)槟P偷牟煌兴煌缡褂?PLM時(shí),其值可由下列公式算得:
其中D=1.7,區(qū)分度aj、難度bj和猜測度cj均為已知.同時(shí)模擬生成一個(gè)服從0到1均勻分布的隨機(jī)數(shù) r,記為r~U(0,1).當(dāng)r≤Pij(θ),則認(rèn)為被試正確作答題目j,得1分;否則得0分.
施測過程分為2個(gè)階段:能力粗估階段,從題庫中隨機(jī)抽取3道題讓被試作答,根據(jù)被試的作答反應(yīng),使用EAP方法估計(jì),得到被試的能力初值;精確施測階段,根據(jù)被試的能力初值,分別使用按a分層法和按b分塊a分層法選題,再根據(jù)被試的作答反應(yīng)使用EAP方法重估被試的能力值,再選題,如此反復(fù),直至滿足測驗(yàn)的終止規(guī)則.其中,測驗(yàn)中被試的得分根據(jù)其作答反應(yīng)獲取.
本文采用7個(gè)評(píng)價(jià)指標(biāo)[9-10]評(píng)價(jià)終止規(guī)則的優(yōu)劣:能力估計(jì)準(zhǔn)確性(Re)、選題策略穩(wěn)定性(Se)、項(xiàng)目調(diào)用均勻性(De)、人均用題數(shù)(Nf)、測驗(yàn)效率(Eff)、卡方統(tǒng)計(jì)量(χ2)、測驗(yàn)重疊率(Rt),其中 Eff越大越好外,其他均為越小越好.
實(shí)驗(yàn)1題庫均按a分層,分為4層,采用能力值與難度最匹配法選題,測驗(yàn)信息量取16,最大答題數(shù)為60,每個(gè)實(shí)驗(yàn)重復(fù)30次.所有CAT模擬實(shí)驗(yàn)均在Matlab 7.1下進(jìn)行.
根據(jù)下列4個(gè)表的實(shí)驗(yàn)數(shù)據(jù)顯示,新的終止規(guī)則,除了能力估計(jì)準(zhǔn)確性(Re)和選題策略穩(wěn)定性(Se)2個(gè)指標(biāo)與其他方案相當(dāng)外,其他指標(biāo)均遠(yuǎn)優(yōu)于其他方案,文獻(xiàn)[6-7]方案、文獻(xiàn)[8]方案總體效果相當(dāng).
表1 a~U(0.2,2.5),b~U(-3,3),c~Beta(5,17)實(shí)驗(yàn)結(jié)果
表2 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3?,c~Beta(5,17)實(shí)驗(yàn)結(jié)果
表3 lna~N(0,1)∧a∈[0.2,2.5],b~U[-3,3?,c~Beta(5,17)實(shí)驗(yàn)結(jié)果
表4 lna~N(0,1)∧a∈[0.2,2.5],b~N(0,1)∧b∈[-3,3?,c~Beta(5,17)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)2 題庫均按b分塊按a分層,分為4層,采用能力值與難度最匹配法選題,測驗(yàn)信息量取16,最大答題數(shù)為60,每個(gè)實(shí)驗(yàn)重復(fù)30次.所有CAT模擬實(shí)驗(yàn)均在Matlab 7.1下進(jìn)行.
由表5及表7知新方案1及2除了能力估計(jì)準(zhǔn)確性(Re)和選題策略穩(wěn)定性(Se)2個(gè)指標(biāo)與其他方案相當(dāng)外,其他指標(biāo)均遠(yuǎn)優(yōu)于其他方案.由表6及表8知新方案與文獻(xiàn)[8]方案相當(dāng),略優(yōu)于文獻(xiàn)[8]方案.綜上所述,新方案可行,且新方案1及2表現(xiàn)相當(dāng).
表5 a~U(0.2,2.5),b~U(-3,3);c~Beta(5,17)實(shí)驗(yàn)結(jié)果
表6 a~U(0.2,2.5),b~N(0,1)∧b∈[-3,3],c~Beta(5,17)實(shí)驗(yàn)結(jié)果
表7 lna~N(0,1)∧a∈[0.2,2.5],b~U(-3,3),c~Beta(5,17)實(shí)驗(yàn)結(jié)果
表8 lna~N(0,1)∧a∈[0.2,2.5],b~N(0,1)∧b∈[-3,3],c~Beta(5,17)實(shí)驗(yàn)結(jié)果
本文綜述分層化方法在安全性等方面的優(yōu)越性以后,陳述了幾種分層退出方案,提出了在0-1評(píng)分3PLM下的按a分層和按b分塊a分層方法的CAT中新的分層終止規(guī)則.通過2個(gè)實(shí)驗(yàn)對(duì)比,得出新的分層退出方案和已有方案相比,在人均用題數(shù)、測驗(yàn)效率、卡方統(tǒng)計(jì)量、測驗(yàn)重疊率等方面,都有優(yōu)勢,特別是與b分塊a分層相結(jié)合以后,除了Re和Se相當(dāng)外,其他指標(biāo)都比和a分層結(jié)合表現(xiàn)更好,對(duì)于提高題庫的安全性和測驗(yàn)效率方面有更好的表現(xiàn).新的分層退出方案如何推廣到多級(jí)評(píng)分模型下,值得探討.由于不定長的分層退出規(guī)則還處于探索階段,相關(guān)研究還比較薄弱,是否還有更好的分層退出方法,值得研究.
[1] Chang Huahua,Ying Zhiliang.A-stratifiedmultistage computerized adaptive testing[J].Applied Psychological Measurement,1999,25:211-222.
[2]Chang Huahua,Qian J,Ying Zhiliang.A-stratifiedmultistage CAT with b-blocking [J].Applied Psychological Measurement,2001,25:333-341.
[3]王茜娟,丁樹良,譚淵.按c-分層不定長CAT的研究[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2005,29(3):227-230.
[4]漆書青,戴海琦,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,2002.
[5]文劍冰,侯杰泰.A-stratified方法在不定長CAT中的應(yīng)用[R].第五屆華人社會(huì)心理與教育學(xué)術(shù)研討會(huì),2001.
[6]陳德枝.Samejima等級(jí)反應(yīng)模型下CAT選題策略比較研究[D].南昌:江西師范大學(xué),2004.
[7]戴海琦,陳德枝,丁樹良,等.多級(jí)評(píng)分題計(jì)算機(jī)自適應(yīng)測驗(yàn)選題策略比較[J].心理學(xué)報(bào),2006,38(5):778-783.
[8]朱隆尹,丁樹良,王茜娟.不定長CAT區(qū)分度分層終止規(guī)則研究[J].心理學(xué)探新,2008,28(4):80-84.
[9]程小揚(yáng),丁樹良,朱隆尹,等.等級(jí)評(píng)分模型下的最大信息量分層選題策略[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2012,36(5):446-451.
[10]劉珍,丁樹良,林海菁.基于GPCM的CAT選題策略比較 [J].心理學(xué)報(bào),2008,40(5):618-625.