李倩倩
摘 要: 本文利用南寧市某中學(xué)2013年秋季學(xué)期數(shù)學(xué)期末考試成績(jī),在經(jīng)典測(cè)量理論(CTT)范疇下探討了該次期末考試數(shù)學(xué)試卷的信度、效度、難度、區(qū)分度和成績(jī)分布情況,結(jié)果顯示,該試卷信度高、難度適中、區(qū)分效果好、知識(shí)覆蓋面廣,試卷質(zhì)量較高。
關(guān)鍵詞: 經(jīng)典測(cè)量理論 信度 難度 區(qū)分度
一、引言
教育測(cè)量與評(píng)價(jià)是教育研究領(lǐng)域中重要的組成部分,是學(xué)科教學(xué)活動(dòng)中科學(xué)管理的有效手段?!秶?guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》明確把提高教育質(zhì)量作為教育改革發(fā)展的核心任務(wù),并多次強(qiáng)調(diào)與教育質(zhì)量的監(jiān)測(cè)和評(píng)價(jià)相關(guān)的內(nèi)容[1]。顯然,在當(dāng)前教育制度下,各種筆試仍是一種重要而有效的教育質(zhì)量定量評(píng)價(jià)方式。試卷質(zhì)量自然影響對(duì)教育質(zhì)量的正確評(píng)價(jià),因此,針對(duì)筆試試卷的質(zhì)量分析顯得尤為重要。
試卷質(zhì)量的分析一般是利用經(jīng)典教育測(cè)量理論(CTT: Classical Test Theory)和項(xiàng)目反應(yīng)理論(IRT:Item Response Theory)進(jìn)行分析。
經(jīng)典測(cè)量理論又稱為真分?jǐn)?shù)理論,假定觀察分?jǐn)?shù)X與真分?jǐn)?shù)T線性相關(guān),即CTT的數(shù)學(xué)模型為X=T+E,其中,隨機(jī)誤差E服從均值為零的正態(tài)分布。該理論最重要的四個(gè)指標(biāo)正是反應(yīng)試卷是否真實(shí)可靠、準(zhǔn)確有效、難易適中、鑒別力強(qiáng)的信度、效度、難度和區(qū)分度等測(cè)驗(yàn)質(zhì)量指標(biāo)[2]。當(dāng)然,由于其比較依賴樣本、信度估計(jì)精度不高、難度和被試水平?jīng)]有定義在同一參照系上,同時(shí),無(wú)法回答總分相同的考生的真實(shí)能力有無(wú)差異等問(wèn)題,該理論也存在一定的局限性[3]。
項(xiàng)目反應(yīng)理論是一種新興的心理與教育測(cè)量理論。該理論的前提假設(shè)非常嚴(yán)格,主要包括單維性假設(shè)和局部獨(dú)立性假設(shè)[4]。主要方法是在利用參數(shù)模型的基礎(chǔ)上,利用項(xiàng)目特征曲線、試題信息函數(shù)進(jìn)行探討,同時(shí)利用EM算法,用邊際極大似然估計(jì)方法尋找項(xiàng)目參數(shù)的一致估計(jì)[5]。
本文主要利用南寧市某中學(xué)2013年秋季學(xué)期數(shù)學(xué)期末考試成績(jī),在經(jīng)典測(cè)量理論(CTT)范疇下探討該次期末考試數(shù)學(xué)試卷的信度、效度、難度、區(qū)分度和成績(jī)分布情況。通過(guò)試卷“四度一分布”了解試卷質(zhì)量,并反饋教學(xué)效果情況。
二、基于CTT的試卷質(zhì)量情況分析
1.成績(jī)分布情況
一般而言,一份好的試卷考試的成績(jī)都服從或近似服從正態(tài)分布,因此,考試成績(jī)的正態(tài)性是考察試卷質(zhì)量的一個(gè)首要指標(biāo)。檢驗(yàn)正態(tài)性的方法很多,常見的是利用直方圖和卡方檢驗(yàn)、K-S檢驗(yàn)。從參加本次考試的872人中隨機(jī)抽取387人的成績(jī)進(jìn)行檢驗(yàn),結(jié)果如圖1所示:
圖1 學(xué)生成績(jī)的直方圖
正態(tài)分布的K-S統(tǒng)計(jì)量顯著性概率P值為0.095>0.05,因此,這次考試學(xué)生成績(jī)服從正態(tài)分布。
2.信度
中學(xué)試卷中,選擇題分?jǐn)?shù)可簡(jiǎn)化為0,1得分情況來(lái)解釋,解答題和填空題可以看成非0,1記分的項(xiàng)目。因此,選擇題信度主要采用折半信度[斯皮爾曼-布朗(Spearman-Brown)公式、盧?。≧ulon)公式、弗拉納根(Flanagan)公式]和庫(kù)德-理查遜(Kuder-Richardson)信度(K-R20、K-R21公式)進(jìn)行分析[7]。填空題和解答題為非0、1記分的項(xiàng)目,采用克龍巴赫系數(shù)進(jìn)行統(tǒng)計(jì),結(jié)果如表1所示。
表1 試卷信度分析結(jié)果
結(jié)果表明,每種方法計(jì)算的選擇題信度都接近0.7,信度系數(shù)處于尚可使用范圍之內(nèi)。研究表明,對(duì)于標(biāo)準(zhǔn)化的大型測(cè)試題目信度要求一般要在0.9以上,而學(xué)校期末考試的信度在0.6以上即可接受[1]。選擇題、解答題的克龍巴赫系數(shù)為0.905,可以認(rèn)為填空題和解答題的信度非常好,綜合考慮,試卷整體信度是可信的。
3.效度
效度(validity)是指測(cè)驗(yàn)結(jié)果的有效性或準(zhǔn)確性,即通過(guò)測(cè)驗(yàn)?zāi)軌蛘_測(cè)量出它所要測(cè)量的屬性的程度[5]。測(cè)量的效度的種類很多,其中基于專家和教師對(duì)試題與所涉及的范圍進(jìn)行符合性判斷的邏輯判斷法的內(nèi)容效度使用較多。內(nèi)容效度是指測(cè)驗(yàn)內(nèi)容對(duì)所要測(cè)驗(yàn)的全部?jī)?nèi)容的代表性程度。但一次考試很難包含學(xué)生所學(xué)課程的所有內(nèi)容,因此只能選擇具有代表性的試題進(jìn)行考核,來(lái)了解學(xué)生的知識(shí)技能掌握情況[8]。
根據(jù)測(cè)量的目標(biāo)與內(nèi)容的雙向細(xì)分表,經(jīng)過(guò)該校7位一線數(shù)學(xué)教師(其中高級(jí)教師4位,中教一級(jí)2位,中教二級(jí)1位)不記名反饋信息來(lái)看,本次考試所設(shè)計(jì)的試題覆蓋了所要測(cè)內(nèi)容的主要方面,考查目標(biāo)清晰明確,題型和分?jǐn)?shù)結(jié)構(gòu)合理恰當(dāng),總體符合考試大綱和教學(xué)要求。
4.難度
試題難度是反映考題難易程度的指標(biāo),一般而言是按照答對(duì)人數(shù)的百分比確定的,是衡量試卷質(zhì)量的最主要的數(shù)量性指標(biāo),簡(jiǎn)單來(lái)說(shuō)可以利用測(cè)驗(yàn)分?jǐn)?shù)的分布情況和特征進(jìn)行觀測(cè),例如考察測(cè)驗(yàn)分?jǐn)?shù)的全距、零分、滿分、眾數(shù)、平均分?jǐn)?shù)等相關(guān)指標(biāo)進(jìn)行定性的判斷,也可以根據(jù)不同的情況,利用有關(guān)公示進(jìn)行精確計(jì)算。
一般而言,難度的取值范圍在[0,1]之間,取值越大,難度越小。難度在0.7以上的為比較容易的題,在0.4-0.7為中等難度的題,在0.4以下的則為較難的題或是難題。在實(shí)際教學(xué)中試卷難度水平的選擇,應(yīng)取決于測(cè)驗(yàn)的目的和試題的形式。如果測(cè)驗(yàn)是用于區(qū)分學(xué)生水平,那么應(yīng)該將試題或試卷的難度系數(shù)控制在0.5左右,各試題難度值在0.2-0.8,同時(shí)各題平均難度值在0.5左右是比較適宜的[5]。
對(duì)于采用0,1記分的選擇題,用通過(guò)率P、平衡猜測(cè)的校正公式CP和極端分組法計(jì)算各個(gè)試題的難度。
表2 選擇題的難度
對(duì)于非0,1記分的填空題、解答題和總分,用難度系數(shù)和極端分組法計(jì)算各個(gè)項(xiàng)目的難度。
表3 填空題、解答題的難度
結(jié)果顯示,就選擇題而言,三種計(jì)算方法的計(jì)算的難度差異不大,整體趨勢(shì)較一致,從三種公式的難度均值看,第1、2、5、6、7、8、9屬于難度較小的題目,3、4、10、11、12屬于難度中等偏上的題目,其中第4題難度最大,10,11,12三題難度也較大,選擇題總體難度為0.767,屬于比較容易,從試題編排上看,除個(gè)別題目外,整體趨勢(shì)是容易的題型放在前面,中等難度試題放在題型中間,較難試題放在題型后面,較合理。
對(duì)填空題和解答題而言,題目難度顯然大于選擇題,填空題總體難度均值為0.499,難度中等,解答題總體難度均值為0,472,屬于中等偏難程度,8道解答題的難易程度也和題目順序基本一致,越難的題目越在后面,符合數(shù)學(xué)試卷的一般規(guī)律。
從考試成績(jī)來(lái)看,難度系數(shù)為0.548,綜合選擇題、填空題、解答題三種類型的難度均值,整張?jiān)嚲黼y度均值為0.579,和總分難度系數(shù)接近,因此,可以判定該份試卷總體難度適中。
5.區(qū)分度
區(qū)分度是反映試題效用的一個(gè)主要參數(shù),同時(shí)也是試題對(duì)考生實(shí)際水平的鑒別能力,將不同層次的考生區(qū)分開來(lái)的統(tǒng)計(jì)量。若試題的測(cè)試結(jié)果是水平高的學(xué)生答對(duì)或者得高分,水平低的學(xué)生答錯(cuò)或者得低分,則認(rèn)為試題的區(qū)分能力強(qiáng)。一般而言,區(qū)分度在0.4以上為最佳效果,在0.3~0.39為合格,修改會(huì)更好,在0.2~0.29為勉強(qiáng),仍需耍修改,區(qū)分度在0.19以下為差,必須淘汰[6]。
對(duì)于0,1記分的選擇題,利用極端分組法、點(diǎn)二列相關(guān)計(jì)算各個(gè)試題的區(qū)分度。
表4 選擇題的區(qū)分度
對(duì)于連續(xù)記分的主觀性試題填空題、解答題和總分,用極端分組法和相關(guān)法計(jì)算各個(gè)項(xiàng)目的區(qū)分度。
表5 填空題、解答題以及試卷的區(qū)分度
注:試卷區(qū)分度是將各題區(qū)分度進(jìn)行加權(quán)平均計(jì)算的。
結(jié)果顯示,對(duì)于選擇題而言,總體看來(lái),整個(gè)選擇題中大部分題目的區(qū)分度都在0.4以上。通過(guò)極端分組法和點(diǎn)二列相關(guān)系數(shù)計(jì)算的區(qū)分度在大部分題目中相差不大。極個(gè)別題目有明顯差異,主要在于兩種方法考慮的視角不一致,就第1題而言,極端分組法的區(qū)分度指標(biāo)0.093,是利用高分組和低分組之間差異進(jìn)行計(jì)算的,兩者差異很小,說(shuō)明該題無(wú)論是高分組還是低分組都能完成,就區(qū)分能力而言屬于應(yīng)該淘汰的題目,但正是由于該題目在高低分組中完成率都較高,和總分的相關(guān)性自然就大,因此,點(diǎn)二列相關(guān)法計(jì)算出來(lái)該題的區(qū)分度較高。兩種方法計(jì)算的試卷區(qū)分度均在0.6以上,說(shuō)明該試卷區(qū)分能力強(qiáng),區(qū)分效果佳。
三、有關(guān)結(jié)論
事實(shí)上,該次試卷為全市統(tǒng)一考試題目,從一定程度上說(shuō)屬于“較大的標(biāo)準(zhǔn)化”考試題目。從上述分析可知,本次考試成績(jī)的分布直方圖并未凸顯畸形特征,基本上呈正態(tài)分布,單峰,稍微右偏。就四度而言,填空題、解答題的信度很好,但選擇題的信度適中。常見的提高測(cè)驗(yàn)信度主要有以下方式:一是適當(dāng)增加試題量;二是提高質(zhì)量,試題難度要適中,區(qū)分度大;三是調(diào)整試題編排順序,盡量做到先易后難。
測(cè)驗(yàn)的效度采用學(xué)科專家通過(guò)邏輯分析法進(jìn)行分析的,根據(jù)測(cè)量的目標(biāo)與內(nèi)容的雙向細(xì)分表,了解到試題覆蓋了所要測(cè)內(nèi)容的主要方面,考査目標(biāo)清晰明確,題型和分?jǐn)?shù)結(jié)構(gòu)合理恰當(dāng),總體符合考試大綱和教學(xué)要求。
試題的難度較合理,大部分選擇題難度偏低,其中第4、10兩題難度最大。而最后一道解答題的難度系數(shù)則過(guò)大。這和數(shù)學(xué)試卷利用最后一題作為壓軸題有密切關(guān)系。
試題的區(qū)分度方面反應(yīng)較好,但選擇題第1、2題和解答題最后一道題在兩種計(jì)算方法中差異很大??赡艿脑蛟谟诘?、2題屬于難度很低的送分題,因此區(qū)分度也不高,最后一道壓軸題屬于難度最大,很多學(xué)生放棄作答,因此存在這方面的問(wèn)題。
四、結(jié)語(yǔ)
考試是衡量教學(xué)效果的必要手段。隨著統(tǒng)計(jì)學(xué)及經(jīng)濟(jì)計(jì)量學(xué)邊緣的不斷擴(kuò)張,對(duì)于教學(xué)結(jié)果的評(píng)價(jià)越來(lái)越依賴于科學(xué)的理論和方法。教育評(píng)價(jià)技術(shù)方法中教育測(cè)量理論就是應(yīng)用教育統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)的,成為測(cè)評(píng)學(xué)生能力、考核教育效果的重要措施。利用SPSS測(cè)度考試的難易度、區(qū)分度、信度、效度等指標(biāo),不僅可以直觀、便捷分析考試結(jié)果,發(fā)現(xiàn)考試中的重要信息和規(guī)律,還可以為教學(xué)效果評(píng)估提供重要的考核指標(biāo)和模式。目前在教育教學(xué)及科研領(lǐng)域,人們采用科學(xué)的測(cè)評(píng)方法測(cè)度試卷科學(xué)性的嘗試并不多,尤其是一些規(guī)模較小的考試,這不利于教學(xué)質(zhì)量和教師素質(zhì)的提高,亦不利于考試學(xué)研究者開啟新的研究視域。應(yīng)該加強(qiáng)對(duì)試卷科學(xué)化測(cè)度的研究及實(shí)踐,使考試這一重要的教學(xué)環(huán)節(jié)日益走上科學(xué)化和規(guī)范化的軌道。
通過(guò)試卷質(zhì)量分析,不僅可以了解試卷情況,更可以利用試卷科學(xué)性測(cè)評(píng)的方式了解教師的教學(xué)效果,同時(shí)也可以通過(guò)建立試題庫(kù)、制定命題雙向細(xì)目表等方式,提高試卷質(zhì)量。
參考文獻(xiàn):
[1]《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要》關(guān)注教育質(zhì)量監(jiān)測(cè)[N].基礎(chǔ)教育質(zhì)量監(jiān)測(cè)信息簡(jiǎn)報(bào),教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)中心,2010,1.
[2]郭熙漢,何穗,趙東方.教學(xué)評(píng)價(jià)與測(cè)量[M].武漢:武漢大學(xué)出版社,2008.
[3]杜洪飛.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的比較研究[J].社會(huì)心理科學(xué),2006(6):15-17.
[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.
[5]何穗,吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[J].考試與招生,2012(08):49-53.
[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.
[7]吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[D].華中師范大學(xué)碩士學(xué)位論文,2012.
[8]洪冉.用數(shù)理統(tǒng)計(jì)方法分析試卷質(zhì)量[D].華中師范大學(xué)碩士學(xué)位論文,2012.
對(duì)填空題和解答題而言,題目難度顯然大于選擇題,填空題總體難度均值為0.499,難度中等,解答題總體難度均值為0,472,屬于中等偏難程度,8道解答題的難易程度也和題目順序基本一致,越難的題目越在后面,符合數(shù)學(xué)試卷的一般規(guī)律。
從考試成績(jī)來(lái)看,難度系數(shù)為0.548,綜合選擇題、填空題、解答題三種類型的難度均值,整張?jiān)嚲黼y度均值為0.579,和總分難度系數(shù)接近,因此,可以判定該份試卷總體難度適中。
5.區(qū)分度
區(qū)分度是反映試題效用的一個(gè)主要參數(shù),同時(shí)也是試題對(duì)考生實(shí)際水平的鑒別能力,將不同層次的考生區(qū)分開來(lái)的統(tǒng)計(jì)量。若試題的測(cè)試結(jié)果是水平高的學(xué)生答對(duì)或者得高分,水平低的學(xué)生答錯(cuò)或者得低分,則認(rèn)為試題的區(qū)分能力強(qiáng)。一般而言,區(qū)分度在0.4以上為最佳效果,在0.3~0.39為合格,修改會(huì)更好,在0.2~0.29為勉強(qiáng),仍需耍修改,區(qū)分度在0.19以下為差,必須淘汰[6]。
對(duì)于0,1記分的選擇題,利用極端分組法、點(diǎn)二列相關(guān)計(jì)算各個(gè)試題的區(qū)分度。
表4 選擇題的區(qū)分度
對(duì)于連續(xù)記分的主觀性試題填空題、解答題和總分,用極端分組法和相關(guān)法計(jì)算各個(gè)項(xiàng)目的區(qū)分度。
表5 填空題、解答題以及試卷的區(qū)分度
注:試卷區(qū)分度是將各題區(qū)分度進(jìn)行加權(quán)平均計(jì)算的。
結(jié)果顯示,對(duì)于選擇題而言,總體看來(lái),整個(gè)選擇題中大部分題目的區(qū)分度都在0.4以上。通過(guò)極端分組法和點(diǎn)二列相關(guān)系數(shù)計(jì)算的區(qū)分度在大部分題目中相差不大。極個(gè)別題目有明顯差異,主要在于兩種方法考慮的視角不一致,就第1題而言,極端分組法的區(qū)分度指標(biāo)0.093,是利用高分組和低分組之間差異進(jìn)行計(jì)算的,兩者差異很小,說(shuō)明該題無(wú)論是高分組還是低分組都能完成,就區(qū)分能力而言屬于應(yīng)該淘汰的題目,但正是由于該題目在高低分組中完成率都較高,和總分的相關(guān)性自然就大,因此,點(diǎn)二列相關(guān)法計(jì)算出來(lái)該題的區(qū)分度較高。兩種方法計(jì)算的試卷區(qū)分度均在0.6以上,說(shuō)明該試卷區(qū)分能力強(qiáng),區(qū)分效果佳。
三、有關(guān)結(jié)論
事實(shí)上,該次試卷為全市統(tǒng)一考試題目,從一定程度上說(shuō)屬于“較大的標(biāo)準(zhǔn)化”考試題目。從上述分析可知,本次考試成績(jī)的分布直方圖并未凸顯畸形特征,基本上呈正態(tài)分布,單峰,稍微右偏。就四度而言,填空題、解答題的信度很好,但選擇題的信度適中。常見的提高測(cè)驗(yàn)信度主要有以下方式:一是適當(dāng)增加試題量;二是提高質(zhì)量,試題難度要適中,區(qū)分度大;三是調(diào)整試題編排順序,盡量做到先易后難。
測(cè)驗(yàn)的效度采用學(xué)科專家通過(guò)邏輯分析法進(jìn)行分析的,根據(jù)測(cè)量的目標(biāo)與內(nèi)容的雙向細(xì)分表,了解到試題覆蓋了所要測(cè)內(nèi)容的主要方面,考査目標(biāo)清晰明確,題型和分?jǐn)?shù)結(jié)構(gòu)合理恰當(dāng),總體符合考試大綱和教學(xué)要求。
試題的難度較合理,大部分選擇題難度偏低,其中第4、10兩題難度最大。而最后一道解答題的難度系數(shù)則過(guò)大。這和數(shù)學(xué)試卷利用最后一題作為壓軸題有密切關(guān)系。
試題的區(qū)分度方面反應(yīng)較好,但選擇題第1、2題和解答題最后一道題在兩種計(jì)算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題,因此區(qū)分度也不高,最后一道壓軸題屬于難度最大,很多學(xué)生放棄作答,因此存在這方面的問(wèn)題。
四、結(jié)語(yǔ)
考試是衡量教學(xué)效果的必要手段。隨著統(tǒng)計(jì)學(xué)及經(jīng)濟(jì)計(jì)量學(xué)邊緣的不斷擴(kuò)張,對(duì)于教學(xué)結(jié)果的評(píng)價(jià)越來(lái)越依賴于科學(xué)的理論和方法。教育評(píng)價(jià)技術(shù)方法中教育測(cè)量理論就是應(yīng)用教育統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)的,成為測(cè)評(píng)學(xué)生能力、考核教育效果的重要措施。利用SPSS測(cè)度考試的難易度、區(qū)分度、信度、效度等指標(biāo),不僅可以直觀、便捷分析考試結(jié)果,發(fā)現(xiàn)考試中的重要信息和規(guī)律,還可以為教學(xué)效果評(píng)估提供重要的考核指標(biāo)和模式。目前在教育教學(xué)及科研領(lǐng)域,人們采用科學(xué)的測(cè)評(píng)方法測(cè)度試卷科學(xué)性的嘗試并不多,尤其是一些規(guī)模較小的考試,這不利于教學(xué)質(zhì)量和教師素質(zhì)的提高,亦不利于考試學(xué)研究者開啟新的研究視域。應(yīng)該加強(qiáng)對(duì)試卷科學(xué)化測(cè)度的研究及實(shí)踐,使考試這一重要的教學(xué)環(huán)節(jié)日益走上科學(xué)化和規(guī)范化的軌道。
通過(guò)試卷質(zhì)量分析,不僅可以了解試卷情況,更可以利用試卷科學(xué)性測(cè)評(píng)的方式了解教師的教學(xué)效果,同時(shí)也可以通過(guò)建立試題庫(kù)、制定命題雙向細(xì)目表等方式,提高試卷質(zhì)量。
參考文獻(xiàn):
[1]《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要》關(guān)注教育質(zhì)量監(jiān)測(cè)[N].基礎(chǔ)教育質(zhì)量監(jiān)測(cè)信息簡(jiǎn)報(bào),教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)中心,2010,1.
[2]郭熙漢,何穗,趙東方.教學(xué)評(píng)價(jià)與測(cè)量[M].武漢:武漢大學(xué)出版社,2008.
[3]杜洪飛.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的比較研究[J].社會(huì)心理科學(xué),2006(6):15-17.
[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.
[5]何穗,吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[J].考試與招生,2012(08):49-53.
[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.
[7]吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[D].華中師范大學(xué)碩士學(xué)位論文,2012.
[8]洪冉.用數(shù)理統(tǒng)計(jì)方法分析試卷質(zhì)量[D].華中師范大學(xué)碩士學(xué)位論文,2012.
對(duì)填空題和解答題而言,題目難度顯然大于選擇題,填空題總體難度均值為0.499,難度中等,解答題總體難度均值為0,472,屬于中等偏難程度,8道解答題的難易程度也和題目順序基本一致,越難的題目越在后面,符合數(shù)學(xué)試卷的一般規(guī)律。
從考試成績(jī)來(lái)看,難度系數(shù)為0.548,綜合選擇題、填空題、解答題三種類型的難度均值,整張?jiān)嚲黼y度均值為0.579,和總分難度系數(shù)接近,因此,可以判定該份試卷總體難度適中。
5.區(qū)分度
區(qū)分度是反映試題效用的一個(gè)主要參數(shù),同時(shí)也是試題對(duì)考生實(shí)際水平的鑒別能力,將不同層次的考生區(qū)分開來(lái)的統(tǒng)計(jì)量。若試題的測(cè)試結(jié)果是水平高的學(xué)生答對(duì)或者得高分,水平低的學(xué)生答錯(cuò)或者得低分,則認(rèn)為試題的區(qū)分能力強(qiáng)。一般而言,區(qū)分度在0.4以上為最佳效果,在0.3~0.39為合格,修改會(huì)更好,在0.2~0.29為勉強(qiáng),仍需耍修改,區(qū)分度在0.19以下為差,必須淘汰[6]。
對(duì)于0,1記分的選擇題,利用極端分組法、點(diǎn)二列相關(guān)計(jì)算各個(gè)試題的區(qū)分度。
表4 選擇題的區(qū)分度
對(duì)于連續(xù)記分的主觀性試題填空題、解答題和總分,用極端分組法和相關(guān)法計(jì)算各個(gè)項(xiàng)目的區(qū)分度。
表5 填空題、解答題以及試卷的區(qū)分度
注:試卷區(qū)分度是將各題區(qū)分度進(jìn)行加權(quán)平均計(jì)算的。
結(jié)果顯示,對(duì)于選擇題而言,總體看來(lái),整個(gè)選擇題中大部分題目的區(qū)分度都在0.4以上。通過(guò)極端分組法和點(diǎn)二列相關(guān)系數(shù)計(jì)算的區(qū)分度在大部分題目中相差不大。極個(gè)別題目有明顯差異,主要在于兩種方法考慮的視角不一致,就第1題而言,極端分組法的區(qū)分度指標(biāo)0.093,是利用高分組和低分組之間差異進(jìn)行計(jì)算的,兩者差異很小,說(shuō)明該題無(wú)論是高分組還是低分組都能完成,就區(qū)分能力而言屬于應(yīng)該淘汰的題目,但正是由于該題目在高低分組中完成率都較高,和總分的相關(guān)性自然就大,因此,點(diǎn)二列相關(guān)法計(jì)算出來(lái)該題的區(qū)分度較高。兩種方法計(jì)算的試卷區(qū)分度均在0.6以上,說(shuō)明該試卷區(qū)分能力強(qiáng),區(qū)分效果佳。
三、有關(guān)結(jié)論
事實(shí)上,該次試卷為全市統(tǒng)一考試題目,從一定程度上說(shuō)屬于“較大的標(biāo)準(zhǔn)化”考試題目。從上述分析可知,本次考試成績(jī)的分布直方圖并未凸顯畸形特征,基本上呈正態(tài)分布,單峰,稍微右偏。就四度而言,填空題、解答題的信度很好,但選擇題的信度適中。常見的提高測(cè)驗(yàn)信度主要有以下方式:一是適當(dāng)增加試題量;二是提高質(zhì)量,試題難度要適中,區(qū)分度大;三是調(diào)整試題編排順序,盡量做到先易后難。
測(cè)驗(yàn)的效度采用學(xué)科專家通過(guò)邏輯分析法進(jìn)行分析的,根據(jù)測(cè)量的目標(biāo)與內(nèi)容的雙向細(xì)分表,了解到試題覆蓋了所要測(cè)內(nèi)容的主要方面,考査目標(biāo)清晰明確,題型和分?jǐn)?shù)結(jié)構(gòu)合理恰當(dāng),總體符合考試大綱和教學(xué)要求。
試題的難度較合理,大部分選擇題難度偏低,其中第4、10兩題難度最大。而最后一道解答題的難度系數(shù)則過(guò)大。這和數(shù)學(xué)試卷利用最后一題作為壓軸題有密切關(guān)系。
試題的區(qū)分度方面反應(yīng)較好,但選擇題第1、2題和解答題最后一道題在兩種計(jì)算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題,因此區(qū)分度也不高,最后一道壓軸題屬于難度最大,很多學(xué)生放棄作答,因此存在這方面的問(wèn)題。
四、結(jié)語(yǔ)
考試是衡量教學(xué)效果的必要手段。隨著統(tǒng)計(jì)學(xué)及經(jīng)濟(jì)計(jì)量學(xué)邊緣的不斷擴(kuò)張,對(duì)于教學(xué)結(jié)果的評(píng)價(jià)越來(lái)越依賴于科學(xué)的理論和方法。教育評(píng)價(jià)技術(shù)方法中教育測(cè)量理論就是應(yīng)用教育統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)的,成為測(cè)評(píng)學(xué)生能力、考核教育效果的重要措施。利用SPSS測(cè)度考試的難易度、區(qū)分度、信度、效度等指標(biāo),不僅可以直觀、便捷分析考試結(jié)果,發(fā)現(xiàn)考試中的重要信息和規(guī)律,還可以為教學(xué)效果評(píng)估提供重要的考核指標(biāo)和模式。目前在教育教學(xué)及科研領(lǐng)域,人們采用科學(xué)的測(cè)評(píng)方法測(cè)度試卷科學(xué)性的嘗試并不多,尤其是一些規(guī)模較小的考試,這不利于教學(xué)質(zhì)量和教師素質(zhì)的提高,亦不利于考試學(xué)研究者開啟新的研究視域。應(yīng)該加強(qiáng)對(duì)試卷科學(xué)化測(cè)度的研究及實(shí)踐,使考試這一重要的教學(xué)環(huán)節(jié)日益走上科學(xué)化和規(guī)范化的軌道。
通過(guò)試卷質(zhì)量分析,不僅可以了解試卷情況,更可以利用試卷科學(xué)性測(cè)評(píng)的方式了解教師的教學(xué)效果,同時(shí)也可以通過(guò)建立試題庫(kù)、制定命題雙向細(xì)目表等方式,提高試卷質(zhì)量。
參考文獻(xiàn):
[1]《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要》關(guān)注教育質(zhì)量監(jiān)測(cè)[N].基礎(chǔ)教育質(zhì)量監(jiān)測(cè)信息簡(jiǎn)報(bào),教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)中心,2010,1.
[2]郭熙漢,何穗,趙東方.教學(xué)評(píng)價(jià)與測(cè)量[M].武漢:武漢大學(xué)出版社,2008.
[3]杜洪飛.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的比較研究[J].社會(huì)心理科學(xué),2006(6):15-17.
[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.
[5]何穗,吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[J].考試與招生,2012(08):49-53.
[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.
[7]吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[D].華中師范大學(xué)碩士學(xué)位論文,2012.
[8]洪冉.用數(shù)理統(tǒng)計(jì)方法分析試卷質(zhì)量[D].華中師范大學(xué)碩士學(xué)位論文,2012.