陳基
一個學期即將結束,老師們又將在期末的紙筆考試測驗后,對紙筆考試測驗的結果進行質量分析了。對考試測驗結果進行質量分析在教學和學業(yè)評價上有著重要的作用:有利于評價考試測驗的質量;有利于改進考試測驗工作;有利于改進教學工作。
但遺憾的是,課改至今,我們的質量分析還是沿用課改前的傳統(tǒng)經驗型質量分析。經驗型質量分析,是在設定紙筆考試試卷編制是沒有一點問題的基礎上進行的,僅憑成績的優(yōu)秀率和合格率,以及平均分和學生做題出現的狀況進行分析,從而得出教與學的優(yōu)劣和存在的問題。我們都知道,影響紙筆考試測驗結果的因素有三個:紙筆考試測驗卷的編制、教師的教學和學生的學習。而傳統(tǒng)經驗型質量分析是把“紙筆考試測驗卷的編制”這個影響紙筆考試測驗結果的因素剔除在外而進行的質量分析。因此,分析的結論是不科學的、不準確的,是無法實現質量分析在教學和學業(yè)評價上的重要意義的。
科學的考試測驗結果質量分析應該包括分析考試測驗卷編制的質量和分析教與學的情況,從而得出考試測驗結果質量分析的結論及教與學改進的意見。通常的步驟為:采集樣本──統(tǒng)計分析──作出結論和意見。
采集樣本。一個班人數不多,一般全部采集。一個年級或一個片區(qū),因人數多,根據教育教學統(tǒng)計的要求,隨機采集30%的樣本進行統(tǒng)計分析,基本可以說明問題了。
統(tǒng)計分析。需作的分析有:效度分析、信度分析、難度分析、區(qū)分度分析和試題編制技術規(guī)范的分析;需作的統(tǒng)計有:難度系數(通常用P表示)、區(qū)分度、全距(最高分與最低分的差距,通常用R表示)、各分數段百分比(該分數段人數/總人數)、平均分(全體得分之和/總人數)、標準差(表示學生成績水平的差異程度,通常用SD表示)。
在進行考試測驗結果質量分析之前,我們還要弄清該考試測驗的目的,因為目的不同,有些數據說明的問題就不同,直接影響到做出的結論和意見。
從分數解釋參照標準分,考試測驗可以分為目標參照評價模式和常模參照評價模式。目標參照評價模式又稱水平評價模式,它不以評定學生之間的差別為目的,而是以教學目標為評價標準,依據課程標準的教學目標和教科書編制試題來測量學生的學業(yè)成績,判斷學生是否達到了教學目標的要求,即是否“及格”。如升級考試、畢業(yè)考試、合格考試,不適用于甄選人才。常模參照評價模式則以評定學生之間的差別為目的,依據學生個人的成績在該次成績序列中所處的位置來評價和決定他的成績優(yōu)劣,不以是否“及格”為標準,不考慮他是否達到教學目標的要求。如高考、學科競賽,適用于甄選人才。由此可見,小學階段的所有考試測驗,都是目標參照評價模式,只判斷學生是否達到教學目標的要求,而不是甄別學生成績所處的位置。
進行考試測驗結果質量分析,首先要做的是對考試測驗的題目作效度分析、信度分析和試題編制技術規(guī)范的分析。
1.效度分析。這里的效度是指內容效度。所謂內容效度是指測驗能代表所欲測量的內容和引起預期反應的程度。拿語文課程舉例,“所欲測量的內容”是指語文課程內容,“預期反應”是指學生的行為活動,如對語文課程內容的記憶、理解和應用等。
內容效度的分析,一般由教師和專家對考試測驗內容進行判斷而定。
內容效度的判斷依據有兩個:(1)分析考試測驗編制依據的教科書和考試測驗對象學習的教科書的一致性程度;(2)比較考試測驗題目內容與課程標準教學目標和教科書呈示的課程內容的一致性程度。
分析測驗編制依據的教科書和考試測驗對象學習的教科書的一致性程度。在判斷內容效度時,首先考慮考試測驗編制者是根據什么教科書來編制的,是用來考試測驗誰的。如果兩者一致,那么,此考試測驗可期望獲得較高的內容效度。反之,此考試測驗的內容效度就低。如,小學語文教學考試測驗編制者根據人民教育出版社所編制的教科書出的題目,用來測驗學習語文社S版小學語文教科書的學生,由于這套題目不能代表語文社S版語文教科書內容,所以測驗的內容效度就低。
比較考試測驗題目內容與課程標準教學目標和教科書語文課程內容的一致性程度,這“一致性”包含內容的一致和水平的一致。如要求會認的字,就不能要求寫。這是內容上不一致,沒有效度。又如,使用人教版教科書的地區(qū),命題考試測驗修改病句、改寫成雙重否定句等題目內容,由于教科書語文課程內容中沒有這些內容,所以是沒有效度的。又如,陳述句與反問句的認識比較,其目標水平是認識這兩種句式以及了解它們在表情達意上的異同,就不能考試測驗這兩種句式的相互改寫,因為這是目標水平不一致,沒有效度。
2.信度分析。信度即考試測驗的可靠性,它是指對相同的應試者多次測驗結果的一致性的程度。如果在大體相同的條件下,幾次測驗得到了大體相同的結果,那么這個測驗的信度是較高的;反之信度較低。評估信度一般有下列幾種方法:(1)再測法;(2)復份法;(3)半分法。但是,這只是編制考試測驗題目的要求,那么,考試測驗結果質量分析應如何進行信度分析呢?由于高信度也是實現考試測驗效度高的一個必要條件,所以,我們可以從考試測驗題目的操作形式與考試測驗內容的操作形式是否一致來分析題目的信度。比如,用紙筆考試測驗卷考查口語交際和綜合性學習的題目,因口語交際和綜合性學習的教學目標或是一種能力,或是一種體驗性目標,只能在實踐過程中通過其他考查形式進行評價,所以,這類題目就失去了信度和效度了。又如,紙筆考試測驗試卷中的感情朗讀應該選擇用怎樣的語氣、情感的題目,也因感情朗讀是操作性的內容而失去了信度和效度。再如,題目“用自己的話概括短文的主要內容(在20個字以內)”,短文的主要內容按照教科書的要求,是將各部分的內容連起來表示,是不可能用20個字就能表達的,因此,這個題目也失去了信度和效度。
3.試題編制技術規(guī)范的分析。小學語文考試測驗卷的編制有一定的技術規(guī)范要求,以保證學生不受到別的因素的干擾,能正確答題。常見的不符合編制技術規(guī)范要求的有:題目內容有語法性、知識性的錯誤;題干導語講述不明確,指向不夠清楚;題型的編制不符合題型要求,如判斷題本身蘊含暗示性詞匯,選擇題的選項表述形式不一致或少于三項,填充題的語境不完整等。下面以某小學語文考卷的三道題為例談談(撇開效度和信度,僅就編制規(guī)范而言)。
例一:修改下面這段話中的病句、錯別字和標點方面的毛?。ㄔ谠渖闲薷模?。
題干導語中“病句”“錯別字”“標點”并列,犯了邏輯分類不當的錯誤,“病句”包含錯別字、標點符號錯用。
例二:“這一切,都得感謝浦東開發(fā)呢!”的“這一切”是指( )。選擇合適的答案把序號填在括號里。
1.“憐憐”改名為“歡歡”。
2.浦東的開發(fā)。
3.“我”家搬進了新公房,“我”有了玩具角,“憐憐”也就有了許多好伙伴,變成了“歡歡”。
該題犯了選項表述不一致的錯誤,選項3的句式與1、2明顯不同,易給學生暗示。
例三:按照詞語含義的深淺,把下面三個近義詞按照意思由淺到深的順序排列起來。(將數字填在括號內)
(1)擊?。?)擊退(3)擊潰
“詞語含義的深淺”“按照意思由淺到深的順序”這樣的導語對一個小學生的理解能力而言實在是太深奧了。
當對考試測驗的題目作了效度分析、信度分析和試題編制技術規(guī)范的分析后,考試測驗的題目符合了要求后,就可以進行難度分析和區(qū)分度分析了。
1.難度分析。難度是指一組考生對該題作答的困難程度,一般用難度系數(P)表示。難度是衡量試題質量的基本指標之一。
難度系數(P)=答對人數/總人數。如五年級某次語文測驗中概括各部分內容一題,已知參試人數為50,答對此題有24人。P=24/50=0.48。
如果是常模參照評價,難度系數P以0.5為適宜。P越大,說明此題難度越小;P越小,說明此題難度越大。該例P=0.48,小于常數0.5,說明有些難度。但如果是目標參照評價,不存在設置難度的問題,P=0.48則說明該試題偏離了水平評價的目標了。
2.區(qū)分度分析。區(qū)分度是表示試題區(qū)分能力大小的指標,即試題能把各個層次能力的學生區(qū)分開來的指標。區(qū)分度也是衡量試題質量的基本指標之一。
試題的區(qū)分度計算步驟如下:
(1)將參試學生的試卷按分數由高至低排列。
(2)將學生參試人數乘以0.27,小數點后四舍五入,取整數n。
(3) 取n個最高分數,組成上組,再取n個最低分數,組成下組。
(4)用該題上組答對人數減去下組答對人數,再除以n。
即:區(qū)分度=(上組答對人數-下組答對人數)/每組人數(n)。
如:某題參試學生總數為58人,n=58×0.27=15.66≈16,該題上組答對人數為8,下組答對人數為3,(8-3)/16=5/16=0.31,得出區(qū)分度為0.31。
一般區(qū)分度總在-1和1之間。如果是常模參照評價模式,如區(qū)分度大于0.3,說明此題能很好地區(qū)分出學生水平;如區(qū)分度大于0.2且小于0.29說明此題尚能區(qū)分出學生水平,需改進;如區(qū)分度小于0.19甚至為0的話,說明此題將淘汰或作較大修改。上例區(qū)分度為0.31,說明該題能很好地區(qū)分出學生水平。但如果是目標參照評價模式,則區(qū)分度就應該小于0.19或為0,因為這是目標參照評價模式的目的決定的,只檢驗學生是否達到教學目標,而不區(qū)分學生水平高低。
在這些分析的基礎上,排除了試卷的問題,就應該結合其他的統(tǒng)計數字,對教師教學行為和學生學習行為進行分析,找出問題的所在以改進教和學了。