單美靜,劉琴
摘 要:傳統(tǒng)的網(wǎng)絡(luò)考試組卷算法由于僅僅考慮考試范圍,以及試卷整體難度系數(shù),而從不考慮應(yīng)試者的能力水平,從而造成生成的部分試卷無(wú)法有效地達(dá)到測(cè)試應(yīng)試者能力水平的效果。項(xiàng)目反應(yīng)理論作為一種現(xiàn)代心理測(cè)試?yán)碚摚谠u(píng)估應(yīng)試者能力水平方面具有廣泛的應(yīng)用。本文基于項(xiàng)目反應(yīng)理論設(shè)計(jì)了一種能充分考慮應(yīng)試者能力水平的組卷算法,從而使得組成的試卷能夠達(dá)到命題老師的預(yù)期效果。實(shí)際應(yīng)用結(jié)果也表明,該算法是非常有效的。
關(guān)鍵詞:項(xiàng)目反應(yīng)理論;組卷算法;試題庫(kù)建設(shè)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
Research on the Test Paper Generating Algorithm Based on the Item Response Theory
SHAN Meijing,LIU Qin
(Institute of Information Science and Technology,East China University of Political Science and Law,Shanghai 201620,China)
Abstract:With the traditional network test paper generating algorithm,the scope and the overall difficulty coefficient of the test paper are the major considerations,but the ability of the examinee is neglected.Consequently,some generated test papers fail in assessing the examinee's ability.The item response theory,as a modern psychological testing theory,has been widely applied in assessing the ability of examinees.Based on the item response theory,the paper designs a test paper generating algorithm with a full consideration to the ability of examinees,so that teachers can achieve the expected effect with the generated papers.The practical application results show that the algorithm is very effective.
Keywords:item response theory;test paper generating algorithm;item bank construction
1 引言(Introduction)
試題庫(kù)建設(shè)作為高校課程建設(shè)的一個(gè)必選項(xiàng),具有非常重要的意義。首先,它是實(shí)現(xiàn)教改分離的重要前提,能夠客觀、公正地評(píng)價(jià)教師教學(xué)效果;其次,教師可以快捷地對(duì)試題進(jìn)行管理和維護(hù)更新,更全面地考察學(xué)生學(xué)習(xí)的效果;最后,試題庫(kù)建設(shè)還能夠減輕教師的負(fù)擔(dān)。然而,在很多高校,普遍存在著試題庫(kù)“重建設(shè)輕維護(hù)”“重建設(shè)輕使用”的問(wèn)題。究其原因,主要有以下幾點(diǎn):(1)很多高校老師認(rèn)為試題庫(kù)的組卷策略很難覆蓋到教學(xué)所需要考核的知識(shí)點(diǎn),在進(jìn)行自動(dòng)組卷后還需要進(jìn)行大量的人工干預(yù);(2)試題庫(kù)一旦建設(shè)好,其題目的難度基本保持不變,但是在授課過(guò)程中可能會(huì)出現(xiàn)面對(duì)不同專業(yè)的學(xué)生的學(xué)習(xí)狀態(tài)的情況,從而造成使用同一試題庫(kù)可能出現(xiàn)較高不及格率的風(fēng)險(xiǎn)。這些問(wèn)題的根本原因在于試題庫(kù)在建設(shè)過(guò)程中,組卷時(shí)未考慮到應(yīng)試者的能力水平,沒(méi)有進(jìn)行有效的私人定制。
項(xiàng)目反應(yīng)理論(Item Response Theory:IRT)[1]作為一種現(xiàn)代心理測(cè)試?yán)碚?,能夠指?dǎo)我們測(cè)試出應(yīng)試者的“潛在特質(zhì)”,即能力,從而能夠指導(dǎo)我們進(jìn)行測(cè)試試卷編制。項(xiàng)目反應(yīng)理論包含有兩個(gè)特性,一個(gè)是項(xiàng)目參數(shù)估計(jì)不變性,另一個(gè)是能力參數(shù)估計(jì)不變性。這兩個(gè)特性保證了利用項(xiàng)目反應(yīng)理論進(jìn)行測(cè)試的結(jié)果,不受所選的測(cè)試樣本影響,同時(shí)還能保證應(yīng)試者的能力估計(jì)與被測(cè)試的項(xiàng)目無(wú)關(guān)[2,3]。另外項(xiàng)目反應(yīng)理論還能幫助命題者在試題庫(kù)建設(shè)過(guò)程中,幫助命題者選擇與應(yīng)試者能力相匹配的題目組成試卷[4-6]。
2 項(xiàng)目反應(yīng)理論簡(jiǎn)介(Introduction of item response
theory)
項(xiàng)目反應(yīng)理論,有時(shí)也稱作潛在特質(zhì)理論或潛在特質(zhì)模型,在現(xiàn)代心理測(cè)試領(lǐng)域運(yùn)用非常廣泛,同時(shí)也廣泛應(yīng)用于教育測(cè)試領(lǐng)域。項(xiàng)目反應(yīng)理論的基本思想[7]是應(yīng)試者的某種潛在特質(zhì)與他們對(duì)項(xiàng)目的反應(yīng)(正確作答的概率)之間存在著一定的關(guān)系,并且這種關(guān)系可以通過(guò)數(shù)學(xué)模型表示出來(lái),從而可以通過(guò)構(gòu)建數(shù)學(xué)模型表示應(yīng)試者能力、項(xiàng)目參數(shù)以及正確作答的概率之間的關(guān)系。項(xiàng)目反應(yīng)理論在計(jì)算機(jī)自適應(yīng)測(cè)試中具有廣泛的應(yīng)用。項(xiàng)目反應(yīng)理論是建立在“能力單維性假設(shè)”“局部獨(dú)立性假設(shè)”和“項(xiàng)目特征曲線假設(shè)”三個(gè)基本假設(shè)基礎(chǔ)上。項(xiàng)目反應(yīng)理論可以根據(jù)應(yīng)試者回答問(wèn)題的情況,通過(guò)對(duì)測(cè)試項(xiàng)目特征曲線的運(yùn)算來(lái)推測(cè)應(yīng)試者的能力水平。項(xiàng)目反應(yīng)理論中所建立的測(cè)試項(xiàng)目一般包含三個(gè)參數(shù):區(qū)分度(Discriminative index)—a、難度(Difficulty index)—b和猜測(cè)系數(shù)(Guessing index)—c。根據(jù)構(gòu)建的數(shù)學(xué)模型所包含的參數(shù)不同,特征函數(shù)可分為僅包含難度參數(shù)的單參數(shù)模型、包含難度、區(qū)分度的雙參數(shù)模型,以及包含難度、區(qū)分度和猜測(cè)系數(shù)的三參數(shù)模型。endprint
Logistic模型作為項(xiàng)目反應(yīng)理論中最常用的模型,是伯恩鮑姆于1957年提出的一種二級(jí)評(píng)分IRT模型,它能夠很好地匹配被測(cè)試者的測(cè)試結(jié)果。與特征函數(shù)的分類類似,它也包含單參數(shù)、雙參數(shù)和三參數(shù)三種模型,其表達(dá)式分別為:
(1)
(2)
(3)
其中,為能力為的被測(cè)試者正確作答測(cè)試項(xiàng)目的概率;
D=1.702;
為應(yīng)試者能力估計(jì)值;
為測(cè)試項(xiàng)目的區(qū)分度,其值越大,則表明被選測(cè)試項(xiàng)目對(duì)被測(cè)試者的區(qū)分度越強(qiáng);
表示測(cè)試項(xiàng)目的難度(難易程度);
為測(cè)試項(xiàng)目的猜測(cè)系數(shù),其值越大,說(shuō)明不論應(yīng)試者能力高低,都容易猜對(duì)。
由于單參數(shù)、雙參數(shù)Logistic模型都是三參數(shù)Logistic模型的特例,所以我們下面以三參數(shù)Logistic模型的項(xiàng)目特征曲線(如圖1)為例,介紹計(jì)算機(jī)組卷過(guò)程中的項(xiàng)目特征曲線。
curve with different parameters
從圖1的曲線可以看出,當(dāng)應(yīng)試者的能力值時(shí),應(yīng)試者正確作答的概率為。若不考慮猜測(cè)系數(shù),則正確作答和錯(cuò)誤作答的概率皆為1/2。即對(duì)于能力值為的應(yīng)試者來(lái)說(shuō),所測(cè)試項(xiàng)目的難度適中。當(dāng)應(yīng)試者的能力值時(shí),將大于0.5,并且的值隨著應(yīng)試者的能力值的增大而趨近于1,即正確作答的概率越大;反之,應(yīng)試者的能力值越小,越接近于0,即正確作答的概率越小。項(xiàng)目特征曲線的陡峭程度會(huì)隨著的值而變化,的值越大則曲線越陡峭,隨應(yīng)試者能力值的變化就越敏感,即該項(xiàng)目更能區(qū)分應(yīng)試者的能力水平;當(dāng)增大時(shí),項(xiàng)目特征曲線右移,則說(shuō)明對(duì)于同一能力值的應(yīng)試者,難度越高的項(xiàng)目越難正確作答。
教育測(cè)量學(xué)研究表明,隨機(jī)選擇的大規(guī)模應(yīng)試者群體的基本心理素質(zhì)的分布服從正態(tài)分布,所以理論上講應(yīng)試者的能力取值范圍為(-∞,+∞),但在實(shí)際應(yīng)用中,為了計(jì)算方便,一般取值為(-3,3)。
3 組卷算法分析(Analysis on the test paper
generating algorithm)
有了三參數(shù)Logistic模型的理論基礎(chǔ),一方面我們就可以利用階段性考試測(cè)試出所有應(yīng)試者的能力水平,另一方面可以結(jié)合試題庫(kù)項(xiàng)目的難度、知識(shí)點(diǎn)分布、應(yīng)試者能力水平進(jìn)行組卷,從而使得考試結(jié)果滿足預(yù)期的正態(tài)分布以及預(yù)期目標(biāo)。綜上可知,基于項(xiàng)目反應(yīng)理論的組卷算法主要包括兩個(gè)部分:第一部分為應(yīng)試者能力水平的測(cè)試,第二部分為基于應(yīng)試者能力水平、知識(shí)點(diǎn)分布、預(yù)期結(jié)果的組卷算法。
算法3.1 應(yīng)試者能力水平評(píng)估算法
輸入:某試題庫(kù)及應(yīng)試者初始能力水平。
輸出:某應(yīng)試者的能力水平。
Step1:根據(jù)某種策略選擇一個(gè)項(xiàng)目開始測(cè)試;
Step2:由應(yīng)試者的作答情況評(píng)估應(yīng)試者的能力水平;
Step3:根據(jù)新的能力水平選擇一個(gè)合適的測(cè)試項(xiàng)目供應(yīng)試者作答;
Step4:根據(jù)作答情況重新估計(jì)能力水平。如果能力水平趨于穩(wěn)定(新的能力水平—舊能力水平<0.05),則結(jié)束;否則跳轉(zhuǎn)到Step3。
算法3.2 基于項(xiàng)目反應(yīng)理論的組卷算法
輸入:試卷知識(shí)點(diǎn)分布、預(yù)期成績(jī)分布。
輸出:試卷測(cè)試項(xiàng)目。
Step1:將所有應(yīng)試者按照能力水平由低到高排序;
Step2:根據(jù)考試成績(jī)將滿足正態(tài)分布的特點(diǎn),按照Logistic模型選擇預(yù)計(jì)80%應(yīng)試者正確作答概率在0.8以上的測(cè)試項(xiàng)目;
Step3:根據(jù)Logistic模型選擇對(duì)于10%較高能力應(yīng)試者作答概率在0.8以上的測(cè)試項(xiàng)目。
為了實(shí)現(xiàn)上述的應(yīng)試者能力水平測(cè)試以及組卷過(guò)程,有如下幾個(gè)問(wèn)題需要解決好。(1)測(cè)試項(xiàng)目參數(shù)的確定;(2)初始測(cè)試項(xiàng)目的選擇;(3)測(cè)試過(guò)程中應(yīng)試者能力水平的重新評(píng)估。
3.1 測(cè)試項(xiàng)目參數(shù)的確定
確定測(cè)試項(xiàng)目的三個(gè)參數(shù)是應(yīng)用項(xiàng)目反應(yīng)理論進(jìn)行組卷的前提。在實(shí)現(xiàn)過(guò)程中,我們采用的是應(yīng)用EM算法的邊緣極大似然估計(jì)法進(jìn)行參數(shù)估計(jì),以保證得出的測(cè)試項(xiàng)目參數(shù)具有參數(shù)不變性的特點(diǎn)。
3.2 初始測(cè)試項(xiàng)目的選擇
初始測(cè)試項(xiàng)目的選擇一般有如下幾種方法:
(1)假定應(yīng)試者具有中等水平的能力值,從而選擇難度中等的測(cè)試項(xiàng)目。
(2)若系統(tǒng)中保存有應(yīng)試者的能力水平,則根據(jù)此能力水平選擇合適的測(cè)試項(xiàng)目。
(3)由應(yīng)試者自己填寫初始能力值,系統(tǒng)再根據(jù)此值選取合適的測(cè)試項(xiàng)目。
3.3 應(yīng)試者能力水平的重新評(píng)估
在測(cè)試過(guò)程中,需要根據(jù)應(yīng)試者作答情況對(duì)其能力水平進(jìn)行評(píng)估。本文采取極大似然估計(jì)方法估計(jì)應(yīng)試者能力水平。其基本過(guò)程如下:
假定某應(yīng)試者對(duì)n個(gè)給定的客觀題的作答模式為:
其中取值1或0。若應(yīng)試者正確作答了第道客觀題,則取1,否則取0。以表示能力值為的應(yīng)試者正確作答第道客觀題的概率,即Logistic模型中的,由局部獨(dú)立性假設(shè)可計(jì)算其聯(lián)合概率為:
(4)
上式也稱為似然函數(shù),使(4)式達(dá)到最大值的即為的極大似然估計(jì)值。為了計(jì)算,我們對(duì)式(4)兩邊取自然對(duì)數(shù),得到對(duì)數(shù)型的似然函數(shù):
(5)
為了計(jì)算(5)式達(dá)到最大值時(shí)的,只要求解方程
(6)
從式(6)可以看出其是非線性的,不能直接求解。此時(shí),我們采用Newton-Raphson法進(jìn)行求解。
4 結(jié)論(Conclusion)
項(xiàng)目反應(yīng)理論在計(jì)算機(jī)自適應(yīng)測(cè)試中得到了廣泛應(yīng)用,但是在組卷算法方面的研究還不多。本文結(jié)合項(xiàng)目反應(yīng)理論在評(píng)估應(yīng)試者能力水平方面的優(yōu)勢(shì),結(jié)合考試范圍以及考試成績(jī)預(yù)期期望,設(shè)計(jì)了一種基于項(xiàng)目反應(yīng)理論的自動(dòng)組卷算法,該算法的采用能夠有效地達(dá)到因材施教的目的,通過(guò)在《線性代數(shù)》《數(shù)據(jù)結(jié)構(gòu)》等試題庫(kù)組卷中的應(yīng)用,較好地達(dá)到了預(yù)期目的。但此項(xiàng)工作的缺陷是測(cè)試項(xiàng)目只能是客觀題,如何在主觀題考核方面加以應(yīng)用還有待進(jìn)一步的研究。
參考文獻(xiàn)(References)
[1] Baker F.B.The basics of item response theory.Port smouth[M].NH: Heinemann,1985:1-74.
[2] Choi,Y.J.,Alexeev,N.,Cohen,A.S.Different item functioning analysis using a mixture 3-parameter logistic model with a covariate on the TIMSS 2007 mathematics test[J].International Journal of Testing,2015,15(3):239-253.
[3] Frick,H,Strobl,C.,Zeileis,A.Rash mixture models for DIF detection: A comparison of old and new score specifications[J].Educational and Psychological Measurement,2015,75(2):208-234.
[4] 劉鋒,郭維威,等.基于項(xiàng)目反應(yīng)理論的計(jì)算機(jī)自適應(yīng)測(cè)試算法的研究與實(shí)現(xiàn)[J].軟件,2014(7):28-32.
[5] 羅永蓮,賈玉芳.項(xiàng)目反應(yīng)理論在題庫(kù)建設(shè)中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2015(1):86-88.
[6] 于海霞,劉競(jìng)杰,王家騏.基于項(xiàng)目反應(yīng)理論自適應(yīng)考試系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].合肥學(xué)院學(xué)報(bào)(自然科學(xué)版),2010(3):44-48.
[7] 丘威,鐘治初,黃建妮,等.在線自適應(yīng)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2008,25(1):184-186.
作者簡(jiǎn)介:
單美靜(1979-),女,博士,副教授.研究領(lǐng)域:新型網(wǎng)絡(luò)犯罪和計(jì)算機(jī)取證.
劉 琴(1975-),女,副教授.研究領(lǐng)域:數(shù)據(jù)挖掘.endprint