基于經(jīng)典測(cè)量理論的初中數(shù)學(xué)試卷質(zhì)量分析

2014-07-08 08:59李倩倩

考試周刊 2014年36期

李倩倩

摘要：本文利用南寧市某中學(xué)2013年秋季學(xué)期數(shù)學(xué)期末考試成績(jī)，在經(jīng)典測(cè)量理論（CTT）范疇下探討了該次期末考試數(shù)學(xué)試卷的信度、效度、難度、區(qū)分度和成績(jī)分布情況，結(jié)果顯示，該試卷信度高、難度適中、區(qū)分效果好、知識(shí)覆蓋面廣，試卷質(zhì)量較高。

關(guān)鍵詞：經(jīng)典測(cè)量理論信度難度區(qū)分度

一、引言

教育測(cè)量與評(píng)價(jià)是教育研究領(lǐng)域中重要的組成部分，是學(xué)科教學(xué)活動(dòng)中科學(xué)管理的有效手段?！秶?guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要（2010-2020年）》明確把提高教育質(zhì)量作為教育改革發(fā)展的核心任務(wù)，并多次強(qiáng)調(diào)與教育質(zhì)量的監(jiān)測(cè)和評(píng)價(jià)相關(guān)的內(nèi)容[1]。顯然，在當(dāng)前教育制度下，各種筆試仍是一種重要而有效的教育質(zhì)量定量評(píng)價(jià)方式。試卷質(zhì)量自然影響對(duì)教育質(zhì)量的正確評(píng)價(jià)，因此，針對(duì)筆試試卷的質(zhì)量分析顯得尤為重要。

試卷質(zhì)量的分析一般是利用經(jīng)典教育測(cè)量理論（CTT： Classical Test Theory）和項(xiàng)目反應(yīng)理論（IRT：Item Response Theory）進(jìn)行分析。

經(jīng)典測(cè)量理論又稱為真分?jǐn)?shù)理論，假定觀察分?jǐn)?shù)X與真分?jǐn)?shù)T線性相關(guān)，即CTT的數(shù)學(xué)模型為X=T+E，其中，隨機(jī)誤差E服從均值為零的正態(tài)分布。該理論最重要的四個(gè)指標(biāo)正是反應(yīng)試卷是否真實(shí)可靠、準(zhǔn)確有效、難易適中、鑒別力強(qiáng)的信度、效度、難度和區(qū)分度等測(cè)驗(yàn)質(zhì)量指標(biāo)[2]。當(dāng)然，由于其比較依賴樣本、信度估計(jì)精度不高、難度和被試水平?jīng)]有定義在同一參照系上，同時(shí)，無(wú)法回答總分相同的考生的真實(shí)能力有無(wú)差異等問(wèn)題，該理論也存在一定的局限性[3]。

項(xiàng)目反應(yīng)理論是一種新興的心理與教育測(cè)量理論。該理論的前提假設(shè)非常嚴(yán)格，主要包括單維性假設(shè)和局部獨(dú)立性假設(shè)[4]。主要方法是在利用參數(shù)模型的基礎(chǔ)上，利用項(xiàng)目特征曲線、試題信息函數(shù)進(jìn)行探討，同時(shí)利用EM算法，用邊際極大似然估計(jì)方法尋找項(xiàng)目參數(shù)的一致估計(jì)[5]。

本文主要利用南寧市某中學(xué)2013年秋季學(xué)期數(shù)學(xué)期末考試成績(jī)，在經(jīng)典測(cè)量理論（CTT）范疇下探討該次期末考試數(shù)學(xué)試卷的信度、效度、難度、區(qū)分度和成績(jī)分布情況。通過(guò)試卷“四度一分布”了解試卷質(zhì)量，并反饋教學(xué)效果情況。

二、基于CTT的試卷質(zhì)量情況分析

1.成績(jī)分布情況

一般而言，一份好的試卷考試的成績(jī)都服從或近似服從正態(tài)分布，因此，考試成績(jī)的正態(tài)性是考察試卷質(zhì)量的一個(gè)首要指標(biāo)。檢驗(yàn)正態(tài)性的方法很多，常見的是利用直方圖和卡方檢驗(yàn)、K-S檢驗(yàn)。從參加本次考試的872人中隨機(jī)抽取387人的成績(jī)進(jìn)行檢驗(yàn)，結(jié)果如圖1所示：

圖1 學(xué)生成績(jī)的直方圖

正態(tài)分布的K-S統(tǒng)計(jì)量顯著性概率P值為0.095>0.05，因此，這次考試學(xué)生成績(jī)服從正態(tài)分布。

2.信度

中學(xué)試卷中，選擇題分?jǐn)?shù)可簡(jiǎn)化為0，1得分情況來(lái)解釋，解答題和填空題可以看成非0，1記分的項(xiàng)目。因此，選擇題信度主要采用折半信度[斯皮爾曼-布朗（Spearman-Brown）公式、盧?。≧ulon）公式、弗拉納根（Flanagan）公式]和庫(kù)德-理查遜（Kuder-Richardson）信度（K-R20、K-R21公式）進(jìn)行分析[7]。填空題和解答題為非0、1記分的項(xiàng)目，采用克龍巴赫系數(shù)進(jìn)行統(tǒng)計(jì)，結(jié)果如表1所示。

表1 試卷信度分析結(jié)果

結(jié)果表明，每種方法計(jì)算的選擇題信度都接近0.7，信度系數(shù)處于尚可使用范圍之內(nèi)。研究表明，對(duì)于標(biāo)準(zhǔn)化的大型測(cè)試題目信度要求一般要在0.9以上，而學(xué)校期末考試的信度在0.6以上即可接受[1]。選擇題、解答題的克龍巴赫系數(shù)為0.905，可以認(rèn)為填空題和解答題的信度非常好，綜合考慮，試卷整體信度是可信的。

3.效度

效度（validity）是指測(cè)驗(yàn)結(jié)果的有效性或準(zhǔn)確性，即通過(guò)測(cè)驗(yàn)?zāi)軌蛘_測(cè)量出它所要測(cè)量的屬性的程度[5]。測(cè)量的效度的種類很多，其中基于專家和教師對(duì)試題與所涉及的范圍進(jìn)行符合性判斷的邏輯判斷法的內(nèi)容效度使用較多。內(nèi)容效度是指測(cè)驗(yàn)內(nèi)容對(duì)所要測(cè)驗(yàn)的全部?jī)?nèi)容的代表性程度。但一次考試很難包含學(xué)生所學(xué)課程的所有內(nèi)容，因此只能選擇具有代表性的試題進(jìn)行考核，來(lái)了解學(xué)生的知識(shí)技能掌握情況[8]。

根據(jù)測(cè)量的目標(biāo)與內(nèi)容的雙向細(xì)分表，經(jīng)過(guò)該校7位一線數(shù)學(xué)教師（其中高級(jí)教師4位，中教一級(jí)2位，中教二級(jí)1位）不記名反饋信息來(lái)看，本次考試所設(shè)計(jì)的試題覆蓋了所要測(cè)內(nèi)容的主要方面，考查目標(biāo)清晰明確，題型和分?jǐn)?shù)結(jié)構(gòu)合理恰當(dāng)，總體符合考試大綱和教學(xué)要求。

4.難度

試題難度是反映考題難易程度的指標(biāo)，一般而言是按照答對(duì)人數(shù)的百分比確定的，是衡量試卷質(zhì)量的最主要的數(shù)量性指標(biāo)，簡(jiǎn)單來(lái)說(shuō)可以利用測(cè)驗(yàn)分?jǐn)?shù)的分布情況和特征進(jìn)行觀測(cè)，例如考察測(cè)驗(yàn)分?jǐn)?shù)的全距、零分、滿分、眾數(shù)、平均分?jǐn)?shù)等相關(guān)指標(biāo)進(jìn)行定性的判斷，也可以根據(jù)不同的情況，利用有關(guān)公示進(jìn)行精確計(jì)算。

一般而言，難度的取值范圍在[0，1]之間，取值越大，難度越小。難度在0.7以上的為比較容易的題，在0.4-0.7為中等難度的題，在0.4以下的則為較難的題或是難題。在實(shí)際教學(xué)中試卷難度水平的選擇，應(yīng)取決于測(cè)驗(yàn)的目的和試題的形式。如果測(cè)驗(yàn)是用于區(qū)分學(xué)生水平，那么應(yīng)該將試題或試卷的難度系數(shù)控制在0.5左右，各試題難度值在0.2-0.8，同時(shí)各題平均難度值在0.5左右是比較適宜的[5]。

對(duì)于采用0，1記分的選擇題，用通過(guò)率P、平衡猜測(cè)的校正公式CP和極端分組法計(jì)算各個(gè)試題的難度。

表2 選擇題的難度

對(duì)于非0，1記分的填空題、解答題和總分，用難度系數(shù)和極端分組法計(jì)算各個(gè)項(xiàng)目的難度。

表3 填空題、解答題的難度

結(jié)果顯示，就選擇題而言，三種計(jì)算方法的計(jì)算的難度差異不大，整體趨勢(shì)較一致，從三種公式的難度均值看，第1、2、5、6、7、8、9屬于難度較小的題目，3、4、10、11、12屬于難度中等偏上的題目，其中第4題難度最大，10，11，12三題難度也較大，選擇題總體難度為0.767，屬于比較容易，從試題編排上看，除個(gè)別題目外，整體趨勢(shì)是容易的題型放在前面，中等難度試題放在題型中間，較難試題放在題型后面，較合理。

對(duì)填空題和解答題而言，題目難度顯然大于選擇題，填空題總體難度均值為0.499，難度中等，解答題總體難度均值為0，472，屬于中等偏難程度，8道解答題的難易程度也和題目順序基本一致，越難的題目越在后面，符合數(shù)學(xué)試卷的一般規(guī)律。

從考試成績(jī)來(lái)看，難度系數(shù)為0.548，綜合選擇題、填空題、解答題三種類型的難度均值，整張?jiān)嚲黼y度均值為0.579，和總分難度系數(shù)接近，因此，可以判定該份試卷總體難度適中。

5.區(qū)分度

區(qū)分度是反映試題效用的一個(gè)主要參數(shù)，同時(shí)也是試題對(duì)考生實(shí)際水平的鑒別能力，將不同層次的考生區(qū)分開來(lái)的統(tǒng)計(jì)量。若試題的測(cè)試結(jié)果是水平高的學(xué)生答對(duì)或者得高分，水平低的學(xué)生答錯(cuò)或者得低分，則認(rèn)為試題的區(qū)分能力強(qiáng)。一般而言，區(qū)分度在0.4以上為最佳效果，在0.3～0.39為合格，修改會(huì)更好，在0.2～0.29為勉強(qiáng)，仍需耍修改，區(qū)分度在0.19以下為差，必須淘汰[6]。

對(duì)于0，1記分的選擇題，利用極端分組法、點(diǎn)二列相關(guān)計(jì)算各個(gè)試題的區(qū)分度。

表4 選擇題的區(qū)分度

對(duì)于連續(xù)記分的主觀性試題填空題、解答題和總分，用極端分組法和相關(guān)法計(jì)算各個(gè)項(xiàng)目的區(qū)分度。

表5 填空題、解答題以及試卷的區(qū)分度

注：試卷區(qū)分度是將各題區(qū)分度進(jìn)行加權(quán)平均計(jì)算的。

結(jié)果顯示，對(duì)于選擇題而言，總體看來(lái)，整個(gè)選擇題中大部分題目的區(qū)分度都在0.4以上。通過(guò)極端分組法和點(diǎn)二列相關(guān)系數(shù)計(jì)算的區(qū)分度在大部分題目中相差不大。極個(gè)別題目有明顯差異，主要在于兩種方法考慮的視角不一致，就第1題而言，極端分組法的區(qū)分度指標(biāo)0.093，是利用高分組和低分組之間差異進(jìn)行計(jì)算的，兩者差異很小，說(shuō)明該題無(wú)論是高分組還是低分組都能完成，就區(qū)分能力而言屬于應(yīng)該淘汰的題目，但正是由于該題目在高低分組中完成率都較高，和總分的相關(guān)性自然就大，因此，點(diǎn)二列相關(guān)法計(jì)算出來(lái)該題的區(qū)分度較高。兩種方法計(jì)算的試卷區(qū)分度均在0.6以上，說(shuō)明該試卷區(qū)分能力強(qiáng)，區(qū)分效果佳。

三、有關(guān)結(jié)論

事實(shí)上，該次試卷為全市統(tǒng)一考試題目，從一定程度上說(shuō)屬于“較大的標(biāo)準(zhǔn)化”考試題目。從上述分析可知，本次考試成績(jī)的分布直方圖并未凸顯畸形特征，基本上呈正態(tài)分布，單峰，稍微右偏。就四度而言，填空題、解答題的信度很好，但選擇題的信度適中。常見的提高測(cè)驗(yàn)信度主要有以下方式：一是適當(dāng)增加試題量；二是提高質(zhì)量，試題難度要適中，區(qū)分度大；三是調(diào)整試題編排順序，盡量做到先易后難。

測(cè)驗(yàn)的效度采用學(xué)科專家通過(guò)邏輯分析法進(jìn)行分析的，根據(jù)測(cè)量的目標(biāo)與內(nèi)容的雙向細(xì)分表，了解到試題覆蓋了所要測(cè)內(nèi)容的主要方面，考査目標(biāo)清晰明確，題型和分?jǐn)?shù)結(jié)構(gòu)合理恰當(dāng)，總體符合考試大綱和教學(xué)要求。

試題的難度較合理，大部分選擇題難度偏低，其中第4、10兩題難度最大。而最后一道解答題的難度系數(shù)則過(guò)大。這和數(shù)學(xué)試卷利用最后一題作為壓軸題有密切關(guān)系。

試題的區(qū)分度方面反應(yīng)較好，但選擇題第1、2題和解答題最后一道題在兩種計(jì)算方法中差異很大?？赡艿脑蛟谟诘?、2題屬于難度很低的送分題，因此區(qū)分度也不高，最后一道壓軸題屬于難度最大，很多學(xué)生放棄作答，因此存在這方面的問(wèn)題。

四、結(jié)語(yǔ)

考試是衡量教學(xué)效果的必要手段。隨著統(tǒng)計(jì)學(xué)及經(jīng)濟(jì)計(jì)量學(xué)邊緣的不斷擴(kuò)張，對(duì)于教學(xué)結(jié)果的評(píng)價(jià)越來(lái)越依賴于科學(xué)的理論和方法。教育評(píng)價(jià)技術(shù)方法中教育測(cè)量理論就是應(yīng)用教育統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)的，成為測(cè)評(píng)學(xué)生能力、考核教育效果的重要措施。利用SPSS測(cè)度考試的難易度、區(qū)分度、信度、效度等指標(biāo)，不僅可以直觀、便捷分析考試結(jié)果，發(fā)現(xiàn)考試中的重要信息和規(guī)律，還可以為教學(xué)效果評(píng)估提供重要的考核指標(biāo)和模式。目前在教育教學(xué)及科研領(lǐng)域，人們采用科學(xué)的測(cè)評(píng)方法測(cè)度試卷科學(xué)性的嘗試并不多，尤其是一些規(guī)模較小的考試，這不利于教學(xué)質(zhì)量和教師素質(zhì)的提高，亦不利于考試學(xué)研究者開啟新的研究視域。應(yīng)該加強(qiáng)對(duì)試卷科學(xué)化測(cè)度的研究及實(shí)踐，使考試這一重要的教學(xué)環(huán)節(jié)日益走上科學(xué)化和規(guī)范化的軌道。

通過(guò)試卷質(zhì)量分析，不僅可以了解試卷情況，更可以利用試卷科學(xué)性測(cè)評(píng)的方式了解教師的教學(xué)效果，同時(shí)也可以通過(guò)建立試題庫(kù)、制定命題雙向細(xì)目表等方式，提高試卷質(zhì)量。

參考文獻(xiàn)：

[1]《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要》關(guān)注教育質(zhì)量監(jiān)測(cè)[N].基礎(chǔ)教育質(zhì)量監(jiān)測(cè)信息簡(jiǎn)報(bào)，教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)中心，2010，1.

[2]郭熙漢，何穗，趙東方.教學(xué)評(píng)價(jià)與測(cè)量[M].武漢：武漢大學(xué)出版社，2008.

[3]杜洪飛.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的比較研究[J].社會(huì)心理科學(xué)，2006（6）：15-17.

[4]Christine DeMars.Item Response Theory[M].London：Oxford University Press，2010.

[5]何穗，吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[J].考試與招生，2012（08）：49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs，N.J.， Prentice-Hall，1965.

[7]吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[D].華中師范大學(xué)碩士學(xué)位論文，2012.

[8]洪冉.用數(shù)理統(tǒng)計(jì)方法分析試卷質(zhì)量[D].華中師范大學(xué)碩士學(xué)位論文，2012.

5.區(qū)分度

對(duì)于0，1記分的選擇題，利用極端分組法、點(diǎn)二列相關(guān)計(jì)算各個(gè)試題的區(qū)分度。

表4 選擇題的區(qū)分度

對(duì)于連續(xù)記分的主觀性試題填空題、解答題和總分，用極端分組法和相關(guān)法計(jì)算各個(gè)項(xiàng)目的區(qū)分度。

表5 填空題、解答題以及試卷的區(qū)分度

注：試卷區(qū)分度是將各題區(qū)分度進(jìn)行加權(quán)平均計(jì)算的。

三、有關(guān)結(jié)論

試題的區(qū)分度方面反應(yīng)較好，但選擇題第1、2題和解答題最后一道題在兩種計(jì)算方法中差異很大。可能的原因在于第1、2題屬于難度很低的送分題，因此區(qū)分度也不高，最后一道壓軸題屬于難度最大，很多學(xué)生放棄作答，因此存在這方面的問(wèn)題。

四、結(jié)語(yǔ)

參考文獻(xiàn)：

[2]郭熙漢，何穗，趙東方.教學(xué)評(píng)價(jià)與測(cè)量[M].武漢：武漢大學(xué)出版社，2008.

[3]杜洪飛.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的比較研究[J].社會(huì)心理科學(xué)，2006（6）：15-17.

[4]Christine DeMars.Item Response Theory[M].London：Oxford University Press，2010.

[5]何穗，吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[J].考試與招生，2012（08）：49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs，N.J.， Prentice-Hall，1965.

[7]吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[D].華中師范大學(xué)碩士學(xué)位論文，2012.

[8]洪冉.用數(shù)理統(tǒng)計(jì)方法分析試卷質(zhì)量[D].華中師范大學(xué)碩士學(xué)位論文，2012.

5.區(qū)分度

對(duì)于0，1記分的選擇題，利用極端分組法、點(diǎn)二列相關(guān)計(jì)算各個(gè)試題的區(qū)分度。

表4 選擇題的區(qū)分度

對(duì)于連續(xù)記分的主觀性試題填空題、解答題和總分，用極端分組法和相關(guān)法計(jì)算各個(gè)項(xiàng)目的區(qū)分度。

表5 填空題、解答題以及試卷的區(qū)分度

注：試卷區(qū)分度是將各題區(qū)分度進(jìn)行加權(quán)平均計(jì)算的。

三、有關(guān)結(jié)論

四、結(jié)語(yǔ)

參考文獻(xiàn)：

[2]郭熙漢，何穗，趙東方.教學(xué)評(píng)價(jià)與測(cè)量[M].武漢：武漢大學(xué)出版社，2008.

[3]杜洪飛.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的比較研究[J].社會(huì)心理科學(xué)，2006（6）：15-17.

[4]Christine DeMars.Item Response Theory[M].London：Oxford University Press，2010.

[5]何穗，吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[J].考試與招生，2012（08）：49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs，N.J.， Prentice-Hall，1965.

[7]吳慧萍.基于教育測(cè)量理論的中學(xué)數(shù)學(xué)試卷質(zhì)量評(píng)價(jià)研究[D].華中師范大學(xué)碩士學(xué)位論文，2012.

[8]洪冉.用數(shù)理統(tǒng)計(jì)方法分析試卷質(zhì)量[D].華中師范大學(xué)碩士學(xué)位論文，2012.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于經(jīng)典測(cè)量理論的初中數(shù)學(xué)試卷質(zhì)量分析