国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于IRT框架采用Angoff法進(jìn)行合格標(biāo)準(zhǔn)設(shè)置的探索

2024-01-02 08:56:36楊觀惠王曉慧
考試研究 2023年4期
關(guān)鍵詞:學(xué)業(yè)水平考試

楊觀惠 王曉慧

[摘要]學(xué)業(yè)水平考試分界分?jǐn)?shù)的劃定關(guān)系到教育決策的科學(xué)性和公平性,涉及標(biāo)準(zhǔn)設(shè)定技術(shù)。為探究在項(xiàng)目反應(yīng)理論(IRT)框架下采用Angoff法進(jìn)行合格標(biāo)準(zhǔn)設(shè)置,以某地區(qū)初中學(xué)業(yè)水平考試某學(xué)科的模擬考數(shù)據(jù)為分析對(duì)象,將專家第三輪打分結(jié)果作為“最低合格能力考生”的作答數(shù)據(jù),與真實(shí)考生的數(shù)據(jù)匯總,進(jìn)行IRT參數(shù)估計(jì)。最終以“最低合格能力考生”能力分?jǐn)?shù)的平均值-0.85作為合格的分界分?jǐn)?shù),該合格分?jǐn)?shù)線的信息量為28.13,專家判斷與實(shí)際結(jié)果的Pearson相關(guān)系數(shù)為0.9,表明采用該方法進(jìn)行標(biāo)準(zhǔn)設(shè)定具有較高的質(zhì)量和推廣性。

[關(guān)鍵詞]標(biāo)準(zhǔn)設(shè)定;分界分?jǐn)?shù);合格分?jǐn)?shù)線;Angoff法;學(xué)業(yè)水平考試;IRT

[中圖分類號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A

[文章編號(hào)]1673—1654(2023)04—059—008

一、引言

隨著教育改革的深化,基礎(chǔ)教育階段各科目新版課標(biāo)都明確了學(xué)業(yè)水平考試的學(xué)業(yè)質(zhì)量水平,這為基于標(biāo)準(zhǔn)的教育考試提供了有利條件,使學(xué)業(yè)水平考試成為真正意義上的標(biāo)準(zhǔn)參照性測(cè)驗(yàn)。在考試實(shí)踐中對(duì)分界分?jǐn)?shù)的劃定鮮有體現(xiàn)基于標(biāo)準(zhǔn)的理念[1],這會(huì)影響考試結(jié)果的效度。目前常用的百分比法劃定分界分?jǐn)?shù)僅能提供學(xué)生在常模參照群體中的相對(duì)位置,無(wú)法提供說(shuō)明學(xué)生知識(shí)、能力的信息[2],考試結(jié)果僅能進(jìn)行常模參照性解釋,科學(xué)性和公平性難以保證。這也無(wú)法反映學(xué)校對(duì)課程標(biāo)準(zhǔn)的執(zhí)行情況,對(duì)教育教學(xué)的促進(jìn)作用有限,使學(xué)業(yè)水平考試的評(píng)價(jià)反饋?zhàn)饔煤徒逃O(jiān)測(cè)功能受到限制[3]。關(guān)于考試合格水平的標(biāo)準(zhǔn),我國(guó)傳統(tǒng)上用滿分的60%作為合格分?jǐn)?shù)線(簡(jiǎn)稱“60分法”),60分法由于簡(jiǎn)單直觀在校本考試和部分大規(guī)??荚囍羞\(yùn)用廣泛。60分法是一種考前標(biāo)準(zhǔn)設(shè)置方法,在考試之前,文件規(guī)定了60分(含)以上為合格,60分以下為不合格。通過(guò)命題階段的質(zhì)量控制技術(shù)[4],使剛剛合格考生的平均分接近總分的60%。若命題階段沒(méi)有做好命題質(zhì)量控制,則會(huì)影響考試效度,有的考試用60分法僅是沿襲這一習(xí)慣,實(shí)際并沒(méi)有與合格表現(xiàn)標(biāo)準(zhǔn)鏈接,沒(méi)有合理規(guī)劃試卷的難度結(jié)構(gòu),此時(shí)的60分就失去了意義,并不能代表達(dá)到合格水平。因此有些觀點(diǎn)認(rèn)為60分法僅是形式上的一致[5-6]。

標(biāo)準(zhǔn)參照測(cè)驗(yàn)的結(jié)果一般直接用于決策,如是否通過(guò)某項(xiàng)考核或能否獲得資格證,標(biāo)準(zhǔn)設(shè)置可為決策提供依據(jù)[7]。要科學(xué)地對(duì)學(xué)生進(jìn)行分類決策,標(biāo)準(zhǔn)的設(shè)置應(yīng)當(dāng)具有科學(xué)的依據(jù)和可操作的方法,能夠被學(xué)界和社會(huì)同時(shí)認(rèn)可與接受。探索合格標(biāo)準(zhǔn)設(shè)置方法有助于推動(dòng)考試科學(xué)化,同時(shí)有利于促進(jìn)學(xué)校認(rèn)真執(zhí)行課程標(biāo)準(zhǔn),保障學(xué)業(yè)質(zhì)量。

標(biāo)準(zhǔn)設(shè)置方法有很多,不同方法可能會(huì)產(chǎn)生不同的臨界分?jǐn)?shù),對(duì)考試結(jié)果的解釋也不同。在教育考試領(lǐng)域標(biāo)準(zhǔn)設(shè)置方法主要分為試題中心法和考生中心法[8],前者是基于標(biāo)準(zhǔn)的判斷,后者是基于常模的判斷。試題中心法包括Angoff法及其變式、標(biāo)簽法、Nedelsky法、Ebel法等;考生中心法包括臨界組法、對(duì)照組法等[9-10]。1971年提出的Angoff法是典型的試題中心法,也是最常用的標(biāo)準(zhǔn)設(shè)定方法,它的基本任務(wù)是界定各級(jí)別“最低能力考生”,對(duì)他們的表現(xiàn)標(biāo)準(zhǔn)達(dá)成共識(shí),然后據(jù)此逐題判斷各級(jí)別最低能力考生的得分情況[11]。若要確定合格分?jǐn)?shù)線,則需界定“最低合格能力考生”群體應(yīng)達(dá)到的合格水平表現(xiàn)標(biāo)準(zhǔn)。在劃定分?jǐn)?shù)的過(guò)程中將每一道試題與合格表現(xiàn)標(biāo)準(zhǔn)比對(duì),若試題的能力要求低于或等于合格表現(xiàn)標(biāo)準(zhǔn),那么“最低合格能力考生”應(yīng)得分;若試題的能力要求高于合格表現(xiàn)標(biāo)準(zhǔn),那么“最低合格能力考生”不得分。Angoff法的結(jié)果受專家的主觀性影響,一般需要多位專家對(duì)試題打分,至少經(jīng)過(guò)3輪打分直到估計(jì)值比較穩(wěn)定為止,以最后一輪的結(jié)果作為分界分?jǐn)?shù)[12]。由此可見,Angoff法在標(biāo)準(zhǔn)設(shè)定過(guò)程中將表現(xiàn)標(biāo)準(zhǔn)轉(zhuǎn)化為試題的分界分?jǐn)?shù),實(shí)現(xiàn)與學(xué)業(yè)標(biāo)準(zhǔn)的連接,用該方法得到的分界分?jǐn)?shù)可以有效地解釋學(xué)生的學(xué)業(yè)水平是否達(dá)到合格。該方法在最大程度上兼顧了科學(xué)性和可操作性,是國(guó)際上應(yīng)用最廣泛的標(biāo)準(zhǔn)設(shè)定方法[13],在我國(guó)主要運(yùn)用于職業(yè)資格考試和大規(guī)模語(yǔ)言考試對(duì)標(biāo)中[6-7,14-17]。

為貫徹基于標(biāo)準(zhǔn)的教育測(cè)量理念[2,18],本文運(yùn)用Angoff法和項(xiàng)目反應(yīng)理論(IRT)將每道試題的能力要求與“最低合格能力考生”的能力水平進(jìn)行對(duì)比判斷,探索一種與合格表現(xiàn)標(biāo)準(zhǔn)鏈接的標(biāo)準(zhǔn)設(shè)置方法。在命題完成后組織專家對(duì)試題進(jìn)行打分,該方法將Angoff法第三輪打分結(jié)果作為“最低合格能力考生”的作答反應(yīng)數(shù)據(jù),在IRT框架下估計(jì)“最低合格能力考生”的能力分?jǐn)?shù),以平均值作為合格的分界分?jǐn)?shù)θ0,并進(jìn)行分界分?jǐn)?shù)的信度分析[19-20]和一致性分析。在學(xué)業(yè)表現(xiàn)標(biāo)準(zhǔn)不變的情況下,不同年度的考試通過(guò)等值技術(shù)[1,14,21-23]可以使用相同的能力分?jǐn)?shù)作為合格分界分?jǐn)?shù),實(shí)現(xiàn)不同年度合格標(biāo)準(zhǔn)的穩(wěn)定性和可比性。

二、研究思路與方法

(一)研究思路

運(yùn)用Angoff法需要專家根據(jù)相應(yīng)的表現(xiàn)標(biāo)準(zhǔn)來(lái)判斷“最低合格能力考生”在每道試題上的作答表現(xiàn)。在判斷前,要確定該學(xué)科的水平標(biāo)準(zhǔn)。根據(jù)新版課程標(biāo)準(zhǔn),學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)是對(duì)學(xué)生學(xué)業(yè)成就表現(xiàn)的總體刻畫,是界定學(xué)科“最低合格能力考生”表現(xiàn)標(biāo)準(zhǔn)的依據(jù)。學(xué)科專家和評(píng)價(jià)專家運(yùn)用賦分得分法判斷出“最低合格能力考生”在每道試題上的得分;在IRT框架下估計(jì)“最低合格能力考生”的能力分?jǐn)?shù),并計(jì)算該能力分?jǐn)?shù)的信息量和信度作為分界分?jǐn)?shù)的質(zhì)量指標(biāo)。為驗(yàn)證標(biāo)準(zhǔn)設(shè)定的一致性,本研究對(duì)專家判斷和實(shí)測(cè)結(jié)果進(jìn)行相關(guān)分析[16]。

(二)研究方法

目前,我國(guó)初中學(xué)業(yè)水平考試的功能定位是“兩考合一”“兼顧畢業(yè)和升學(xué)”,具有標(biāo)準(zhǔn)參照考試和常模參照考試的性質(zhì)。單從升學(xué)角度看,標(biāo)準(zhǔn)設(shè)置獲得一個(gè)可信的合格分界分?jǐn)?shù)顯得尤為重要。本研究以某地區(qū)初中學(xué)業(yè)水平考試某學(xué)科的模擬考數(shù)據(jù)為研究對(duì)象,采用改良Angoff法工作流程[23]組織7位專家判斷“最低合格能力考生”在每道試題上的得分情況。每輪打分結(jié)束后進(jìn)行匯總,對(duì)差異較大的試題進(jìn)行討論,再進(jìn)行下一輪打分。以第3輪打分結(jié)果作為7位“最低合格能力考生”的作答反應(yīng)數(shù)據(jù),和真實(shí)考生的作答反應(yīng)數(shù)據(jù)匯總在一起。使用R語(yǔ)言IRT分析工具,對(duì)該測(cè)驗(yàn)的試題參數(shù)、考生能力分?jǐn)?shù)(θ)(包括“最低合格能力考生”的θ)進(jìn)行估計(jì)[24],計(jì)算不同能力分?jǐn)?shù)(θ)的信息量I(θ)、誤差Se(θ)和信度R(θ),并作圖反映該測(cè)驗(yàn)的測(cè)量特征。以7位“最低合格能力考生”的能力分?jǐn)?shù)的平均值作為合格的分界分?jǐn)?shù)θ0,在信息量和信度圖中呈現(xiàn)及解釋合格分?jǐn)?shù)線的位置及質(zhì)量指標(biāo)。一致性分析以分界分?jǐn)?shù)上下一個(gè)測(cè)量誤差范圍的學(xué)生作為實(shí)際合格邊界考生[25],計(jì)算專家判斷結(jié)果與實(shí)測(cè)結(jié)果的相關(guān)系數(shù)。

三、研究結(jié)果

(一)改良Angoff法賦分

在改良Angoff法工作流程后,讓專家根據(jù)合格水平的表現(xiàn)標(biāo)準(zhǔn)在設(shè)計(jì)的打分表上采用賦分得分法[12]判斷“最低合格能力考生”在每個(gè)試題上的得分,例如某道試題滿分分值為3分,若認(rèn)為“最低合格能力考生”能得2分,則賦2分。經(jīng)過(guò)三輪打分后,結(jié)果趨向穩(wěn)定。將7位專家第三輪打分的結(jié)果作為“最低合格能力考生”作答反應(yīng)數(shù)據(jù),如表1所示。從標(biāo)準(zhǔn)差數(shù)據(jù)可以看到,大部分試題專家判斷結(jié)果的內(nèi)部一致性較高。

(二)項(xiàng)目反應(yīng)理論分析

為確定測(cè)驗(yàn)的維度,通過(guò)SPSS對(duì)測(cè)驗(yàn)的各試題進(jìn)行因子分析,碎石圖如圖1所示,第一特征值為 9.027,第二特征值為1.901,比值大于3,可以認(rèn)為測(cè)驗(yàn)符合單維性假設(shè)[26]。

使用R語(yǔ)言對(duì)真實(shí)考生的應(yīng)答數(shù)據(jù)進(jìn)行模型擬合檢驗(yàn)。測(cè)驗(yàn)中前14道題為單選題,為0—1計(jì)分試題;T15-T17題為不定項(xiàng)選擇題,T18-T21題為簡(jiǎn)答題,屬于多級(jí)計(jì)分試題。因此對(duì)該測(cè)驗(yàn)分別檢驗(yàn)了單維等級(jí)反應(yīng)模型(簡(jiǎn)稱“GRM”)、單維分部評(píng)分模型(簡(jiǎn)稱“GPCM”)和單維混合模型[27](前14題采用 logistic三參數(shù)模型,3道不定項(xiàng)選擇題采用GRM,4道簡(jiǎn)答題采用GPCM)的擬合情況,結(jié)果如表2所示。根據(jù)相對(duì)擬合指標(biāo)值越小擬合性越好的原則[28]可知,混合模型擬合效果更好,因此根據(jù)該模型進(jìn)行后續(xù)分析。

對(duì)試題進(jìn)行局部獨(dú)立性檢驗(yàn)(Q3統(tǒng)計(jì)量)[24],結(jié)果如表3所示,Q3統(tǒng)計(jì)量的值均小于0.36,可知所有試題滿足局部獨(dú)立的假設(shè)。

將7位“最低合格能力考生”作答反應(yīng)數(shù)據(jù)和9895名真實(shí)考生的作答反應(yīng)數(shù)據(jù)匯總在一起,共同作為本文的數(shù)據(jù)分析對(duì)象。IRT分析框架可以在同一量尺上估計(jì)試題的難度和學(xué)生的能力,使用R語(yǔ)言可得到試題的難度、區(qū)分度和猜測(cè)參數(shù)(單選題)的估計(jì)值以及每位考生能力θ的估計(jì)值。其中,7位“最低合格能力考生”的能力分?jǐn)?shù)θ如表4所示,平均值為-0.85,以此作為合格的分界分?jǐn)?shù)θ0。計(jì)算測(cè)驗(yàn)信息量I(θ)、測(cè)量誤差Se(θ)和信度R(θ),并作圖反映該測(cè)驗(yàn)的測(cè)量特征,測(cè)驗(yàn)信息與誤差曲線如圖2所示,參考線對(duì)應(yīng)的θ為-0.85,測(cè)量誤差為0.19;測(cè)驗(yàn)信度曲線如圖3所示。

(三)一致性分析

為了檢驗(yàn)改良Angoff法專家賦分結(jié)果的有效性,計(jì)算專家判斷與實(shí)測(cè)難度(得分率)的相關(guān)性,以此作為標(biāo)準(zhǔn)設(shè)定的一致性證據(jù)。將能力分?jǐn)?shù)在分界分?jǐn)?shù)上下一個(gè)測(cè)量誤差(-0.85±0.19)范圍內(nèi)的被試看作實(shí)際合格邊界考生(簡(jiǎn)稱“實(shí)際合格組”),統(tǒng)計(jì)專家判斷的“最低合格能力考生”和實(shí)際合格組在每道題上的平均分、得分率和得分率絕對(duì)偏差,如表5所示。偏差較大的試題為T2、T6和T17,其余試題的判斷絕對(duì)偏差在0.11以內(nèi)。計(jì)算平均分與實(shí)際平均分(第3列與第5列)、得分率與實(shí)際得分率(第4列與第6列)的Pearson相關(guān)系數(shù),分別為0.98和0.90,p值為0.000(顯著相關(guān)),說(shuō)明專家判斷與實(shí)測(cè)結(jié)果高度一致。

四、討論

項(xiàng)目反應(yīng)理論中,信息量反映測(cè)驗(yàn)的質(zhì)量:信息量越大,對(duì)被試能力估計(jì)的誤差越小。對(duì)于標(biāo)準(zhǔn)參照測(cè)驗(yàn),應(yīng)在分界分?jǐn)?shù)及其附近有精確的估計(jì)和高區(qū)分的能力,信息量大于25表明測(cè)驗(yàn)質(zhì)量理想[19],因此可將分界分?jǐn)?shù)點(diǎn)的信息量作為標(biāo)準(zhǔn)標(biāo)定的質(zhì)量指標(biāo)。由圖2可知,分界分?jǐn)?shù)θ0的信息量I(-0.85)= 28.13,信度R(-0.85)=1-1/I=0.96,表明該分界分?jǐn)?shù)具有較高的測(cè)量精度和區(qū)分能力,采用該方法進(jìn)行標(biāo)準(zhǔn)設(shè)定的質(zhì)量較好。在表現(xiàn)標(biāo)準(zhǔn)不變的情況下,不同年份的考試通過(guò)等值技術(shù)可采用相同的能力分?jǐn)?shù)作為合格的分界分?jǐn)?shù),具有穩(wěn)定性和可比性,容易被社會(huì)接受。

目前,基礎(chǔ)教育階段新版課程標(biāo)準(zhǔn)中都明確了各學(xué)科學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn),為基于標(biāo)準(zhǔn)的教育與評(píng)價(jià)提供了有利條件??荚嚈C(jī)構(gòu)可以依據(jù)學(xué)業(yè)質(zhì)量水平開發(fā)標(biāo)桿卷,依據(jù)科學(xué)的標(biāo)準(zhǔn)設(shè)定方法劃定分界分?jǐn)?shù),在每年的測(cè)驗(yàn)編制中做好等值設(shè)計(jì),再通過(guò)等值處理將測(cè)驗(yàn)的分?jǐn)?shù)轉(zhuǎn)化為標(biāo)桿卷的能力分?jǐn)?shù),由此可依據(jù)標(biāo)桿卷的分界分?jǐn)?shù)進(jìn)行分類,避免頻繁進(jìn)行標(biāo)準(zhǔn)設(shè)定。

該合格標(biāo)準(zhǔn)設(shè)置方法目前僅使用模擬考數(shù)據(jù)進(jìn)行了檢驗(yàn),尚未推廣。一是Angoff法工作流程比較復(fù)雜;二是在分?jǐn)?shù)解釋時(shí),需要有一定的測(cè)量基礎(chǔ)才能夠理解。因此,若在實(shí)際中進(jìn)行推廣,需要對(duì)利益相關(guān)者進(jìn)行深入的科普和宣講,并且需要教育行政部門的支持和廣泛的社會(huì)認(rèn)同。

學(xué)業(yè)水平考試分界分?jǐn)?shù)的劃定關(guān)系到教育決策的公平性和科學(xué)性,分界分?jǐn)?shù)應(yīng)具有較高的信度。本研究通過(guò)Angoff法工作流程組織專家界定“最低合格能力考生”并逐題判斷他們?cè)诿康李}上的得分,以此作為“最低合格能力考生”的作答反應(yīng)數(shù)據(jù),將這些數(shù)據(jù)和真實(shí)考生的作答反應(yīng)數(shù)據(jù)匯總在一起,在IRT框架下進(jìn)行參數(shù)估計(jì)。從能力參數(shù)估計(jì)的結(jié)果獲得“最低合格能力考生”的能力分?jǐn)?shù)θ,以平均值-0.85作為合格的分界分?jǐn)?shù),對(duì)應(yīng)的信息量為28.13,表明分界分?jǐn)?shù)具有較高的信度。專家估計(jì)值與實(shí)測(cè)值的相關(guān)分析表明專家判斷與實(shí)際結(jié)果一致性較高,因此采用該方法進(jìn)行標(biāo)準(zhǔn)設(shè)定的質(zhì)量較好。該方法可推廣至多個(gè)等級(jí)分界分?jǐn)?shù)的劃定或其他標(biāo)準(zhǔn)參照性考試。此外,通過(guò)等值技術(shù)可實(shí)現(xiàn)不同年度合格標(biāo)準(zhǔn)的穩(wěn)定性,避免頻繁設(shè)定合格標(biāo)準(zhǔn)。

參考文獻(xiàn):

[1]羅瑩,韓思思.高考改革選考科目等級(jí)評(píng)定標(biāo)準(zhǔn)研究[J].教育科學(xué)研究,2018,(06):11-14.

[2] Tognolini Jim,Stanley Gordon,杜承達(dá).基于標(biāo)準(zhǔn)的評(píng)核:教育領(lǐng)域人力資本和能力提升的工具與方法[J].考試研究,2010,6(02):4-20.

[3]宋寶和,趙雪.高中學(xué)業(yè)水平合格性考試的設(shè)計(jì)及價(jià)值分析[J].中國(guó)考試,2019,(01):19-23.

[4]王曉華.基于標(biāo)準(zhǔn)的教育考試合格標(biāo)準(zhǔn)研究[J].教育科學(xué),2012,28(05):15-21.

[5]趙世明.科學(xué)確定專業(yè)人才資格考試的合格標(biāo)準(zhǔn)[J].中國(guó)人才,2007,(17):66-67.

[6]景匯泉,郭永松,孫寶志,等.考試合格標(biāo)準(zhǔn)設(shè)置的國(guó)內(nèi)外現(xiàn)狀[J].中國(guó)高等醫(yī)學(xué)教育,2007,(10):56-57.

[7]汪存友.科學(xué)設(shè)定職業(yè)資格考試合格標(biāo)準(zhǔn)[J].中國(guó)考試,2012,(04):43-47.

[8]余嘉元. Angoff方法有效性的檢驗(yàn)研究[J].教育研究與實(shí)驗(yàn), 2008,(01):54-57.

[9]李珍,辛濤,陳平.標(biāo)準(zhǔn)設(shè)定:步驟、方法與評(píng)價(jià)指標(biāo)[J].考試研究,2010,6(02):83-95.

[10]向冠春.標(biāo)準(zhǔn)設(shè)定與等級(jí)劃分[J].成人教育,2013,33(01):14-20.

[11]閔尚超.接受型語(yǔ)言考試與語(yǔ)言標(biāo)準(zhǔn)對(duì)接的效度問(wèn)題——一致性[J].現(xiàn)代外語(yǔ),2019,42(05):696-708.

[12]范士娟,王曉慧.上海市普通高中信息科技學(xué)業(yè)水平合格性考試合格標(biāo)準(zhǔn)劃分初探[J].考試研究,2020,(03):47-52.

[13]汪存友.ETS iSkills~(TM)測(cè)驗(yàn)的標(biāo)準(zhǔn)設(shè)定及其對(duì)NTET的啟示[J].電化教育研究,2012,33(02):59-64.

[14]汪存友.關(guān)于設(shè)定全國(guó)中小學(xué)教師教育技術(shù)水平考試合格標(biāo)準(zhǔn)的思考[J].中國(guó)遠(yuǎn)程教育,2013,(03):49-53.

[15]閔尚超,姜子蕓.校本聽力考試與《中國(guó)英語(yǔ)能力等級(jí)量表》對(duì)接研究[J].外語(yǔ)教學(xué),2020,41(04):47-51.

[16]張潔,王偉強(qiáng).接受型語(yǔ)言考試與語(yǔ)言標(biāo)準(zhǔn)對(duì)接的效度問(wèn)題——來(lái)自標(biāo)準(zhǔn)設(shè)定過(guò)程的證據(jù)[J].現(xiàn)代外語(yǔ),2019,42(05):684-695.

[17]何懼,何佳,安滔,等. Angoff法及其衍生方法在資格考試合格線設(shè)定中的比較研究[J].中國(guó)考試(研究版),2007,(06):23-26.

[18]雷新勇.學(xué)業(yè)標(biāo)準(zhǔn)——基于標(biāo)準(zhǔn)的教育改革必須補(bǔ)上的一環(huán)[J].上海教育科研,2009,(06):15-18.

[19]溫紅博,卜文娟,劉先偉.初中學(xué)業(yè)水平考試中固定比例法標(biāo)準(zhǔn)設(shè)定的信度分析[J].考試研究,2017,(05):55-63.

[20]江西師大現(xiàn)代教育和心理測(cè)量通用分析系統(tǒng)研制組,漆書青,周駿,等.用信息函數(shù)法對(duì)標(biāo)準(zhǔn)參照測(cè)驗(yàn)作質(zhì)量分析[J].心理與行為研究,2003,(01):34-39.

[21]楊志明.學(xué)業(yè)水平考試事后等值的概念、條件與設(shè)計(jì)[J].教育測(cè)量與評(píng)價(jià),2016,(11):4-8.

[22]楊志明.做好高中學(xué)業(yè)水平考試所必須的四項(xiàng)測(cè)量學(xué)準(zhǔn)備[J].中國(guó)考試,2017,(01):8-13.

[23]楊志明.高中學(xué)業(yè)水平考試等級(jí)設(shè)定的若干方法[J].教育測(cè)量與評(píng)價(jià),2016,(10):4-9.

[24]羅照盛.項(xiàng)目反應(yīng)理論基礎(chǔ)[M].北京師范大學(xué)出版社,2012.

[25]汪存友,余嘉元,張穎.調(diào)和Angoff法在設(shè)定執(zhí)業(yè)醫(yī)師資格考試分?jǐn)?shù)線中的應(yīng)用[J].中國(guó)考試,2011,(10):38-43.

[26] Slocum S L. Assessing Unidimensionality of Psychological Scales:Using Individual and Integrative Criteria from Factor Analysis[D]. University of British Columbia,2005.

[27]涂冬波,蔡艷,戴海琦,等.項(xiàng)目反應(yīng)理論新進(jìn)展:基于3PLM和GRM的混合模型[J].心理科學(xué),2011,34(05):1189-1194.

[28]單昕彤,譚輝曄,劉永,等.項(xiàng)目反應(yīng)理論中模型——資料擬合檢驗(yàn)常用統(tǒng)計(jì)量[J].心理科學(xué)進(jìn)展,2014,22(08):1350-1362.

Exploration of Qualified Standard Setting with Angoff Method Based on IRT Framework

Yang Guanhui Wang Xiaohui

Shanghai Municipal Educational Examinations Authority,Shanghai,200433

Abstract:Setting cut-off scores for the academic proficiency test is related to the scientificity and fairness of the educational decision-making,which involves standard setting techniques. This study explored the adoption of Angoff method for the qualified standard setting according to Item Response Theory(IRT),taking the mock test data of a subject in the junior high school proficiency test in a certain area as an example.The experts third round scoring results were used as the response data of the "minimum qualified candidates",and the data of real candidates were put together for parameter estimation by R. The average of the ability score of the "minimum qualified candidates" is -0.85. Taking it as the qualified cut score,the information content of this point is 28.13. Additionally,the Pearson correlation coefficient between expert judgment and actual result was 0.9. The results showed that this method had high quality in standard setting.

Key words:Standard Setting,Cut Score,Passing Score,Angoff Method,Academic Proficiency Test,IRT

(責(zé)任編輯:吳茳)

猜你喜歡
學(xué)業(yè)水平考試
法國(guó)普通業(yè)士考試研究述評(píng)
山重水復(fù)疑無(wú)路,柳暗花明又一村
教師·下(2017年2期)2017-04-17 04:30:00
江蘇省中等職業(yè)學(xué)校學(xué)業(yè)水平考試的實(shí)踐探索?鄢
淺談利用電腦閱卷提高教學(xué)效率
關(guān)注學(xué)考考綱變化 提高地理備考效率
學(xué)業(yè)水平考試背景下中等職業(yè)學(xué)校數(shù)學(xué)教學(xué)的幾點(diǎn)想法
考試周刊(2016年105期)2017-02-13 14:54:05
鄉(xiāng)土地理試題分析
高二年級(jí)學(xué)業(yè)水平考試信息技術(shù)學(xué)科復(fù)習(xí)課的選題策略
高中物理學(xué)業(yè)水平考試與內(nèi)容標(biāo)準(zhǔn)一致性研究及思考
考試周刊(2016年32期)2016-05-28 17:26:04
高中信息技術(shù)學(xué)業(yè)水平考試備考策略
政和县| 高青县| 亚东县| 思南县| 高清| 蒙山县| 金湖县| 白水县| 乐安县| 台江县| 神木县| 安多县| 平定县| 和林格尔县| 长宁县| 陆良县| 攀枝花市| 武强县| 元朗区| 铜川市| 汉寿县| 获嘉县| 达拉特旗| 姚安县| 三门峡市| 正阳县| 高雄市| 马山县| 高碑店市| 茂名市| 通道| 阿鲁科尔沁旗| 塘沽区| 株洲县| 得荣县| 罗城| 赤峰市| 闻喜县| 香格里拉县| 卓尼县| 福贡县|