胡霞
摘 ?要:針對現(xiàn)有試卷質(zhì)量科學(xué)性不足、分析指標不一、評價層次單一的特點,運用經(jīng)典測量理論(CTT)和SPSS軟件,探索多層次高校試卷質(zhì)量評價體系。以某高校《心理統(tǒng)計學(xué)》課程為例,從宏觀的學(xué)生成績分析、整體試卷分析,到中觀層面的題型、章節(jié)模塊、能力要求分析,再到微觀層面的試題分析,全面反映學(xué)生的成績與試卷質(zhì)量情況,并能根據(jù)分析的結(jié)果給師生的教與學(xué)提供有效的反饋,也為試題庫的修改和完善提供量化的參考依據(jù)。
關(guān)鍵詞:試卷質(zhì)量分析;經(jīng)典測量理論;宏觀;中觀;微觀
中圖分類號:G640 文獻標志碼:A 文章編號:2096-000X(2019)13-0056-03
Abstract: Aiming at the lack of scientific quality of the existing test papers, the different analytical indicators and the single evaluation level, the classical measurement theory (CTT) and SPSS software are used to explore the multi-level university test paper quality evaluation system.Taking a college psychology course as an example, from the macro student score analysis, the overall test paper analysis, to the meso-level questions, chapter modules, ability requirements analysis, and micro-level test analysis, the students are fully reflected. The results and the quality of the test papers, and can provide effective feedback to the teachers and students based on the results of the analysis, and provide a quantitative reference for the revision and improvement of the test questions library.
Keywords: test paper quality analysis; classical measurement theory; macro; meso; micro
引言
對于考試的監(jiān)控與評價是教學(xué)質(zhì)量管理的重要一環(huán)。目前學(xué)者們重點關(guān)注基礎(chǔ)教育階段的教育質(zhì)量監(jiān)測,著力建設(shè)國家教育質(zhì)量監(jiān)測體系來監(jiān)測學(xué)生的學(xué)業(yè)情況[1]。高等學(xué)校的校內(nèi)課程考試的監(jiān)控與分析是高校教育管理體制的重要組成部分,也是目前高校教學(xué)評價中心的重要工作內(nèi)容,高校教育質(zhì)量監(jiān)測和評價體系的構(gòu)建也是大勢所趨[2]。但目前高校教育質(zhì)量監(jiān)測體系中的考試質(zhì)量分析系統(tǒng)化研究比較匱乏,存在形式化和簡單化特點。本研究擬從宏觀、中觀、微觀三個層面,構(gòu)建多層次高校試卷質(zhì)量評價體系。
一、高校課程考試試卷質(zhì)量評價現(xiàn)狀
高校課程考試是以課程考試大綱規(guī)定的合格標準為參照的水平考試,某次考試后的分數(shù)不僅是評定學(xué)生學(xué)業(yè)成就的重要參照,也是評價教師教學(xué)效果和改進教學(xué)工作的主要依據(jù)。
筆者對搜集到的高校目前正在使用的考試試卷分析項目進行對比和剖析,發(fā)現(xiàn)絕大部分高校課程考試的試卷分析的內(nèi)容都是圍繞以下三個方面的內(nèi)容進行:一是課程教學(xué)基本情況介紹,包括課程名稱、任課教師、專業(yè)班級、考核方式等;二是考試成績總分的概況,包括總分平均數(shù)、最高分、最低分、及格率、分數(shù)段比例、直條圖等;三是對試卷質(zhì)量的主觀分析,如整體難度、與大綱符合程度、錯誤知識點分析等。少數(shù)學(xué)校基于經(jīng)典測量理論(CTT)對試卷質(zhì)量進行了量化分析,報告了試卷的正態(tài)性、整體難度值和整體區(qū)分度等[3,4]。
二、高校課程考試試卷質(zhì)量評價存在的問題
通過以上分析,目前高校考試試卷分析存在以下幾方面的問題:一是試卷分析的主觀化分析較多而量化信息較少;二是側(cè)重對考試結(jié)果的分析而忽略了對試卷本身命題質(zhì)量的分析;三是試卷整體情況的宏觀分析居多,題型分類、知識點分類和能力分類等中觀層面的分析和每一道試題的微觀分析極少。基于目前研究的不足,為提升高校教師的考試評價能力和素養(yǎng),本文基于CTT進行多層次高校課程考試試卷分析探索,為廣大高校教師進行科學(xué)的試卷分析提供一定的參考。
三、基于CTT理論的試卷質(zhì)量評價體系構(gòu)建
(一)學(xué)生成績統(tǒng)計分析模塊和試卷整體分析模塊
主要實現(xiàn)對成績的各個統(tǒng)計值的計算,如最高分、最低分、平均分、標準差、偏度、峰度、信度和效度等指標。旨在從宏觀層面了解學(xué)生分數(shù)的總體分布形態(tài)和試卷整體的科學(xué)化指標。
(二)試題類型、考查內(nèi)容及能力層級分析模塊
主要實現(xiàn)從試題類型、章節(jié)內(nèi)容和能力要求三個不同視角對試卷進行中觀層面的分析。采用難度分析和區(qū)分度分析指標,并將定量的分析結(jié)果定性化,向教師提出合理的建議。
(三)試題分析模塊
主要實現(xiàn)從微觀層面對單個試題的難度和區(qū)分度的分析。旨在通過一定的標準來判斷試題質(zhì)量的好壞,從而為下次組卷和試題庫建設(shè)提供一定的參考。
四、《心理統(tǒng)計學(xué)》課程試卷分析實例
(一)宏觀層面分析
宏觀層面的分析,這里主要對考生考試總分的集中趨勢、離散趨勢、分布形態(tài)、難度、信度等進行評估。通過表1可知,本次考試整體上較為容易,分數(shù)分布呈負偏態(tài),題目一致性程度較高。研究還發(fā)現(xiàn)入學(xué)前是理科的考生分數(shù)顯著高于入學(xué)前是文科的考生。
(二)中觀層面的分析
中觀層面的分析是從不同的角度對試題的屬性進行歸類,如按試題類型、章節(jié)內(nèi)容及能力要求來揭示學(xué)生對不同屬性類別題目的反應(yīng)特征[5]。從表2的結(jié)果中發(fā)現(xiàn),從題型的角度來分析,多選題的難度最大而簡答題的難度最小,填空題和多選題的區(qū)分度大而計算題的區(qū)分度小;從內(nèi)容角度來分析,“方差分析”部分的難度最大而“相關(guān)關(guān)系”和“統(tǒng)計圖表”的難度最小,緒論部分的區(qū)分度大而卡方檢驗部分區(qū)分度小;從能力角度來分析,需熟悉的題目難度小而需掌握的題目難度相對較大,區(qū)分度都較高。
(三)微觀層面的分析
試卷的質(zhì)量分析,還應(yīng)包括對構(gòu)成測驗的各個測驗題目進行質(zhì)量分析。進行微觀層面的分析是考生對具體測試題反應(yīng)的量化特征進行分析,不僅可以了解學(xué)生對每一題的掌握情況,還能對命題的質(zhì)量進行分析。如表3所示,填空題10、單選題5和6、判斷題2和9等題目非常容易,填空題13和多選題9、10較難。區(qū)分度低于0.2的項目都是鑒別力低的題目,特別是單選題2、6,填空題10、判斷題3等題目是消極區(qū)分,這些題目都不能很好地區(qū)分能力高和能力低的被試,需結(jié)合考點考慮是否刪除。
五、結(jié)束語
從宏觀層面來看,整體試卷難度值為77.40,分數(shù)分布呈負偏態(tài),綜合這兩個指標可以得出學(xué)生對試卷的總體掌握程度較好,相對來說高分段的學(xué)生偏多。另外內(nèi)部一致性信度較高(α=0.83),說明題目間在功能上一致性的程度較高。關(guān)于是否要報告信度及報告哪種信度可能因需而不同。有人認為高校期末考試還沒有像高考等考試那樣重要到計算信度的程度,但高校教師需要了解信度的知識,也需要了解內(nèi)部一致性信度不代表測驗的穩(wěn)定性和復(fù)本一致性[6]。關(guān)于效度如何報告和報告哪種效度,本研究認為高校課程考試可將形成性評價成績作為效標參照報告同時性效度。宏觀層面的研究還發(fā)現(xiàn)入學(xué)前是理科的學(xué)生成績顯著優(yōu)于入學(xué)前是文科的學(xué)生,提示我們在《心理統(tǒng)計學(xué)》授課過程中應(yīng)給予文科生更多的課前和課后輔導(dǎo)。
從中觀層面的題型來看,多選題的難度最大而簡答題的難度最小,填空題和多選題的區(qū)分度大而計算題的區(qū)分度小。多選題是綜合能力的考察且猜測的可能性小,少答、多答、錯答都不給分因此難度最大;簡答題諸如“談?wù)勚狈綀D和直條圖的區(qū)別與聯(lián)系”是課堂中只需識記的內(nèi)容因此難度最小;填空題和多選題能較好的區(qū)分能力高和能力低的被試。從中觀層面的內(nèi)容角度來分析,“方差分析”部分的難度最大而 “相關(guān)關(guān)系”和“統(tǒng)計圖表”的難度最小,“緒論”部分的區(qū)分度大而“卡方檢驗”部分區(qū)分度小?!胺讲罘治觥辈糠值慕y(tǒng)計學(xué)原理復(fù)雜且不同的實驗設(shè)計容易混淆因此難度較大,而“相關(guān)關(guān)系”和“統(tǒng)計圖表”掌握起來相對容易,“緒論”部分和“卡方檢驗”部分能較好的區(qū)分能力高和能力低的被試。從中觀層面的能力角度來分析,需熟悉的題目難度小而需掌握的題目難度相對較大,是因為要求掌握的知識點往往既是重點也是難點。
從微觀角度來分析,填空題13和多選題9、10較難。需要進一步分析是知識點難還是學(xué)生掌握得不夠好,如填空題13的知識點并不難,可能是學(xué)生還未掌握標準分數(shù)與百分等級的對應(yīng)關(guān)系而導(dǎo)致錯誤。區(qū)分度低甚至是消極區(qū)分的項目,不能很好的區(qū)分能力高和能力低的被試,根據(jù)美國測驗專家伊貝爾的標準,需考慮修改題目或予以刪除。對劣質(zhì)題目的刪除會優(yōu)化下一次組卷的質(zhì)量,對試題庫的完善也起到積極作用。
總之,本研究基于CTT從學(xué)生成績和試卷質(zhì)量兩個角度展開宏觀、中觀和微觀三個層次的全方位分析,能夠給教師和學(xué)生提供更多的評估信息,建立通暢的考試信息反饋機制[7]。由于CTT本身也存在著測驗及項目性能指標依賴樣本等缺點,項目反應(yīng)理論(IRT)等新的測量理論應(yīng)運而生,它能根據(jù)被試在各個項目上的實際作答反應(yīng),經(jīng)數(shù)學(xué)模型的運算統(tǒng)一估出被試的能力水平及項目的計量學(xué)參數(shù)[8],這是高校試卷質(zhì)量評價新的研究方向[9],有待我們進一步探索。
參考文獻:
[1]龐仙梅.高校教育質(zhì)量監(jiān)測與評價體系的構(gòu)建[J].中國成人教育,2018(22):54-56.
[2]王秀娜.大數(shù)據(jù)視角下的國家基礎(chǔ)教育質(zhì)量監(jiān)測[J].中小學(xué)信息技術(shù)教育,2018(11):9-10.
[3]王金權(quán),袁慧,丁書姝,等.衛(wèi)生統(tǒng)計學(xué)試卷分析及對教學(xué)改革的啟示[J].醫(yī)學(xué)理論與實踐,2018,31(07):1087-1088+1092.
[4]王軍,程晶晶,王加華,等.《食品生物化學(xué)》期末考試試卷分析與教改建議[J].廣東化工,2018,45(03):204-205.
[5]司俊峰.高校課程考試質(zhì)量評價統(tǒng)計分析模式研究——以《心理統(tǒng)計學(xué)》課程考試質(zhì)量評價為例[J].高師理科學(xué)刊,2007(02):113-117.
[6][美]詹姆斯·波帕姆.教師課堂教學(xué)評價指南(第五版)[M].重慶:重慶大學(xué)出版社,2015.
[7]邢維全.美國高??荚囋u價制度的特點及對我國的啟示[J].天津電大學(xué)報,2009,13(03):49-51.
[8]羅照盛.項目反應(yīng)理論[M].北京:北京師范大學(xué)出版社,2012.
[9]楊亮.基于項目反映理論的試卷質(zhì)量分析[J].長春大學(xué)學(xué)報,2011,21(04):64-67.