侯躍平 關(guān)廣鵬
【摘要】由于目前教師、學校,甚至教育研究部門對學科測驗質(zhì)量分析存在誤區(qū),所以筆者提出,對中學化學教學評價過程中所使用的非標準化試卷的質(zhì)量分析時,首先要對試卷進行具體情況的分析,然后要收集試卷的統(tǒng)計數(shù)據(jù),而重要的是對測試題目的質(zhì)量分析(難度分析、區(qū)分度分析)和測驗的質(zhì)量分析(信度分析、效度分析)。
【關(guān)鍵詞】中學化學試卷;質(zhì)量分析;難度;區(qū)分度;信度;效度
中學化學試卷的質(zhì)量分析是中學化學教學評價的重要內(nèi)容,高質(zhì)量的中學化學試卷分析對提高中學化學教學質(zhì)量和提高化學試題的命題質(zhì)量具有特別重要的意義。同時,也是教育主管部門、教育研究部門獲取教育教學質(zhì)量信息、提出改進教學建議的重要途徑。
一、中學化學試卷的質(zhì)量分析存在誤區(qū)
據(jù)筆者調(diào)查了解,目前教師、學校,甚至市、縣教育研究部門的學科測驗質(zhì)量分析,僅僅是對學生考試成績的情況分析,也就是考試結(jié)果分析。這對于了解學生學習情況,鑒別學生學業(yè)成績、為改進教學、提高教學質(zhì)量提供反饋信息是非常重要的。但這種分析是建立在學科測驗(試卷)本身是沒有任何質(zhì)量問題的測量工具基礎之上的,嚴格講這只能稱為被試的質(zhì)量分析,而不能稱為試卷的質(zhì)量分析。特別是使用沒有經(jīng)過標準化的教師自編學科測驗時,在沒有對試卷這一測量工具的質(zhì)量進行有效的分析評價之前,對測試結(jié)果的分析是沒有意義的。
學科測驗質(zhì)量分析的方法包括定性分析和定量分析。從認識論角度講,人們對事物、現(xiàn)象的認識首先獲得一定的質(zhì)的認識,然后在此基礎上進一步去考察量,以求對事物的質(zhì)有更清晰、更準確的把握,這就是認識的深化與精細化。也就是說,定量分析的目的是為了精確地、深入地對事物、現(xiàn)象的質(zhì)的認識,這就要求必須正確理解、評價、解釋、運用在定量分析中所使用的各種統(tǒng)計指標。但據(jù)筆者調(diào)查了解,在目前的對非標準化學科測驗的質(zhì)量分析中,定性分析較多,定量分析較少。定性分析往往缺乏足夠的依據(jù),而在一些簡單的定量分析之后,相關(guān)指標的評價標準界定不明確,相關(guān)指標的解釋、理解不全面,指標的運用不充分。
二、對試卷的基本情況的分析
這項工作主要是分析試題范圍及知識點,試題性質(zhì)、題型及數(shù)量以及有關(guān)命題依據(jù)等方面的內(nèi)容。
1試題范圍及知識點
是否是在化學教材及課程標準要求的范圍內(nèi),覆蓋面如何。試題內(nèi)容是否源于課本,并根據(jù)學生生活背景知識適當拓寬加深,有無難題、偏題、怪題及超過課標要求的拔高。試題跨度是否注意到適當增加學科內(nèi)或者學科間知識的交叉滲透,體現(xiàn)綜合性特征。試題是否科學合理、比例是否恰當。文字、圖像、圖表、數(shù)據(jù)等信息資源是否準確。試題陳述是否科學準確、表達是否清晰,備選答案是否明確。試題之間是否具備獨立性,即相互間有無提示現(xiàn)象。試題是否注意到與社會實際和學生生活實際的聯(lián)系,注重對學生能力的考查。
2試題性質(zhì)、題型及數(shù)量
試題按性質(zhì)分為客觀性試題和主觀性試題。那么試卷中客觀性試題和主觀性試題各為多少道,分別為多少分。在目前,試題按題型(除高三模擬題外)一般分為選擇題(單選或多選)、填空題、簡答題、實驗探究與設計題、計算題等種類。試題數(shù)量指選擇題的備選答案數(shù)、填空題空格數(shù)、實驗探究與設計和計算題得分點數(shù)、回答要點數(shù),以及教材、課程標準和考試要點要求的知識涉及程度、知識點覆蓋面(%)。
3命題依據(jù)
是否依據(jù)教材及課程標準;是否對基礎知識、主干知識和基本能力的測試;是否關(guān)注探究過程和方法、聯(lián)系實際選取素材,這對“教”和“學”具有導向作用。
三、試卷的統(tǒng)計數(shù)據(jù)
中學化學試卷的統(tǒng)計數(shù)據(jù),可以按題型與按每道小題,進行全樣本分析或抽樣分析(隨機抽樣分析,樣本容量適中)除了要統(tǒng)計最高分、最低分、平均分、優(yōu)良率、及格率、錯誤率、得分率外,更主要的是要做好學生典型錯誤或創(chuàng)新解答統(tǒng)計及原因分析。在此只談一下選擇題的試題作答率的統(tǒng)計分析。
試題作答率是以全體受試學生中,每一個選項的作答人數(shù)占總?cè)藬?shù)的百分比值。每一選項的作答率,可以作為篩選或進一步修改不恰當?shù)脑囶}、以及分析學生作答情形之用,藉以了解學生是否有一些錯誤或迷失概念。
選擇題的結(jié)構(gòu)是由兩部分組成:包括題干與選項,題干就是問題本身;選項包括一個正確選項(最佳答案)和三個誘答選項。正確選項必須要能吸引較多具備該評量能力的受試者去選擇;而誘答選項則應具似真實性或合理性,會吸引較多不具備該評量能力者或是概念不正確者去選擇。選項的設計與選擇題題目的難易程度有密切關(guān)系。如某一試題有4個選項,正確選項A作答率為0.89,選項B作答率為0.11,顯示該選項具有誘答力,有約11%的學生有此錯誤概念;選項C及選項D作答率為0,顯示該選項不具有誘答力,或受試者沒有此錯誤概念,可考慮修改此選項。
四、測試題目的質(zhì)量分析
任何測驗都是由若干測驗題目構(gòu)成的。非標準化測驗的質(zhì)量分析,首先應該是對組成測驗的各個測驗題目進行質(zhì)量分析,只有保證了構(gòu)成測驗的所有試題的質(zhì)量達到規(guī)定的標準,才能保證一個測驗的整體質(zhì)量。測驗題目質(zhì)量分析的目的,首先是為了鑒定測驗題目,并為進一步修改測驗試題提供有效的依據(jù),前述的選擇題作答率統(tǒng)計就屬于此;其次,有助于提高老師編制測驗的技能和技巧,有助于建立測驗題庫;當然,最為重要的還是為了保證一個測驗的信度和效度。測驗題目的質(zhì)量分析主要包括題目的難度分析和區(qū)分度分析。
(一)、難度分析
難度又稱難易度、難度系數(shù)(P)是試題對學生知識和能力水平的適合程度的指標,是一個相對概念,難度的高低與被試者的水平直接相關(guān)。難度的取值范圍為0≤P≤1,P值愈大,表示該試題愈容易,愈多數(shù)學生答對該試題;P值愈小,表示該試題愈困難,愈少數(shù)學生答對該試題。
1難度的計算
對于二分法記分的客觀試題,通常以答對或通過該題目人數(shù)的百分比來表示難度:P=R/N(P:題目難度;N:全體被試人數(shù);R:答對或通過該題目的人數(shù))。
當被試人數(shù)較多時,可采用極端分組法,即先將被試按測驗總分從高到低排列,取總分最高的27%被試為高分組,總分最低的27%被試為低分組,分別計算高分組和低分組的通過率,然后再求題目的難度:P=(PH+PL)/N(PH、PL分別表示高分組和低分組的通過率)。
主觀題的難度一般用參加測試考生在該題的平均得分與該題分值之比,即P=X/K(X表示所有考生在該題的平均得分,K表示該得分值)。
試卷的平均難度:P=∑Pi/N(Pi代表每道題的難度值,N代表試卷的題目總數(shù))。也可用P=∑PiWi/W表示(Pi代表每道題目的難度值,Wi代表每道題目的分值,W代表試卷的總分值)。還可以用P=X/W表示(X為總平均分,W代表試卷的總分值,P代表試卷的平均難度)。
當被試人數(shù)較多時,也可采用極端分組法計算難度:P=(XH+XL-2NL)/2N(H-L)(XH、XL分別為高分組、低分組的總分;H、L分別為最高分、最低分;N為總?cè)藬?shù)的25%)。
2難度分析
難度分析的主要目的是為了鑒定、篩選和修改題目。題目的難度水平通常取決于測驗的目的、題目的形式以及測驗的性質(zhì)。一般情況下,測驗的平均難度要適中,應在0.50左右;如果測驗是為了了解被試在某方面知識、技能的掌握情況,可以不必過多地考慮試題的難度。
難度對于測驗的影響,首先表現(xiàn)在測驗分數(shù)的分布形態(tài)上。若測驗題目的難度普遍較大,則分數(shù)呈正偏態(tài)分布;若測驗題目難度普遍較小,則分數(shù)呈負偏態(tài)分布;只有當測驗題目的難度適中時,分數(shù)分布才呈近似正態(tài)分布。其次表現(xiàn)在測驗分數(shù)的離散程度上。太難或太易的測驗題目,都會導致測驗分數(shù)相對地集中在低分端或高分端,離散程度較??;當難度適中時,分數(shù)分布范圍大,離散程度較大。這是用標準差σ來表示的,因篇幅關(guān)系,在此不加贅述。
只有當分數(shù)的分布范圍較大時,測驗的信度才可能較高,反之信度較低??梢?,測驗題目的難度以集中在0.50左右為最佳,以集中在兩極端為最差。在非標準化學科測驗中,組成測驗的各試題的難度系數(shù)應當以0.50為均值(各個試題難度均勻分布在0.2~0.8之間為好),這樣有利于最大程度區(qū)分不同程度學生,使試題產(chǎn)生區(qū)分學生的最大效果,分數(shù)將呈正態(tài)分布,但允許有少量的高難度和低難度的測驗題目。
(二)、區(qū)分度分析
試題區(qū)分度又稱區(qū)分度指數(shù)(D),是衡量試題對不同知識和能力水平考生的鑒別程度的指標。具有良好區(qū)分度的測驗,實際水平高的該得高分,實際水平低的該得低分,它是評價試題質(zhì)量、篩選試題的主要指標和依據(jù)。
1區(qū)分度計算
鑒別指數(shù)法。對于二分法記分的客觀性試題,從總分分布的兩端各選擇27%的被試組成高分組和低分組,分別計算高分組和低分組的通過率,二者之差就是鑒別指數(shù):D=PH-PL。
主觀題的區(qū)分度,一般從總分分布的兩端各選擇27%的被試組成高分組和低分組,分別計算各組總分和測驗最高分、最低分。再按下面公式計算:D=(XH-XL)/N(H-L)(公式中各符號含義與難度計算時相同)。
其它復雜的計算,在此從略。
2區(qū)分度分析
如果一個題目的測試結(jié)果使水平高的考生答對(得高分),而水平低的考生答錯(得低分),它的區(qū)分就很強。鑒別指數(shù)是鑒別題目測量有效性的指標,鑒別指數(shù)越高,題目越有效。一般認為,鑒別指數(shù)在0.40以上的為很好;鑒別指數(shù)在0.30~0.39的為良好,修改會更好;鑒別指數(shù)在0.20~0.29的為尚可,仍需修改;鑒別指數(shù)在0.19以下的為差,必須淘汰。
任何一種測驗,其所有的測驗題目,都應該具有良好以上的區(qū)分度。否則,將無法保證測驗的有效性。
五、測驗的質(zhì)量分析
當由若干質(zhì)量達到要求的測試題目構(gòu)成一個測驗時,還必須對整個測驗的可靠性和有效性進行技術(shù)鑒定,這就是通常所說的試卷分析。試卷分析最根本的含義是指對試卷的質(zhì)量進行系統(tǒng)的分析,目的是評價作為鑒別學業(yè)成績的測量工具的質(zhì)量。對于標準化測驗來說,有一整套完整而成熟的質(zhì)量技術(shù)分析指標。非標準化測驗在測驗結(jié)束后,也可以通過抽樣的方法,借助這些指標來進行試卷的質(zhì)量分析,也就是要明確一個測驗的信度和效度。
(一)信度分析
信度是指測驗結(jié)果的穩(wěn)定性、一致性和可靠性的指標。信度是測量過程中隨機誤差大小的反映,如果信度低,則隨機誤差大,測驗的結(jié)果就會與真分數(shù)發(fā)生較大的偏差。一個成功的測驗必須具有較高的信度,也就是說,只要遵守操作規(guī)則,測驗的結(jié)果就不應該隨工具的使用者或使用時間、地點等因素的變化而發(fā)生較大變化。
測驗信度的種類較多。如反映測驗穩(wěn)定性的重測信度、檢驗等值性的復本信度以及描述內(nèi)部一致性的分半信度、同質(zhì)性信度等。在非標準化學科測驗的信度分析中,最適合使用的應該是分半信度。
分半信度是將一個測驗分成對等的兩半,然后分析同一組被試在兩個半份的一致性程度。計算分半信度的關(guān)鍵在于如何將一個測驗分成兩半,常用的分半方法有完全隨機分半、奇偶題目序號分半等。計算分半信度的方法,就是求被試在兩個半份測驗上得分的相關(guān)系數(shù),當然,由于只是半個測驗的信度,所以必須進行校正。校正公式為r=2r0/(1+r0)(r為信度,r0為兩個半卷上分數(shù)的相關(guān)系數(shù))。
測驗信度通常用來解釋個人測驗分數(shù)的意義,也可用來進行兩種測驗分數(shù)的比較分析。測驗信度高,說明測驗結(jié)果比較一致,測量工具具有穩(wěn)定性、一致性和等值性,被試的能力水平受被試狀態(tài)和施測環(huán)境變化的影響較??;若信度低,則說明測驗的隨機誤差較大,測驗結(jié)果不可靠。鑒別信度系數(shù)的高低,需要對計算的各種相關(guān)系數(shù)進行顯著性檢驗。
要提高測驗的信度,可適當增加測驗的長度,并使測驗中所有試題的難度系數(shù)接近正態(tài)分布,并控制在中等水平;必須保證測驗題目具有較高的區(qū)分度,并盡量使用同質(zhì)的測驗內(nèi)容題目;另外,還必須強調(diào)測驗評分的客觀性,并提高測驗程序的統(tǒng)一性。
(二)效度分析
效度指一個測驗實際測量的結(jié)果與所要測量的能力水平之間的吻合程度,是測驗的有效性或正確性的指標。效度是隨機誤差和系統(tǒng)誤差的綜合反映,效度的估計就是多方尋找證據(jù)來證明一個測驗有效性程度的過程。由于效度是就測量結(jié)果達到測量目的的程度而言的,所以測驗的效度估計在很大程度是取決于人們對測量目的的解釋。常見的解釋有三種:一是用測量的內(nèi)容來說明目的;二是用心理學上某種理論結(jié)構(gòu)來說明目的;三是用實際實效來說明目的。于是,就有內(nèi)容效度、結(jié)構(gòu)效度和實證效度之分。
在非標準化學科測驗的效度分析中,最適合使用的是內(nèi)容效度。
內(nèi)容效度指一個測驗實際測到的內(nèi)容與所要測的內(nèi)容之間的吻合程度,也即試卷內(nèi)容對于所要考查的課程內(nèi)容的代表性如何。估計內(nèi)容效度的核心問題,一是要測的內(nèi)容范圍是否明確,二是在明確的內(nèi)容范圍內(nèi)題目的取樣是否具有代表性。
確定內(nèi)容效度的方法主要是邏輯分析法。其工作思路是請有關(guān)專家對測試題目與原定內(nèi)容范圍的吻合程度作出判斷分析,所以又稱專家判斷法。這需要依據(jù)在編制測驗時制作的“化學學科雙向細目表”。
要提高測驗的效度,首先,要精心編制測驗試題,避免出現(xiàn)系統(tǒng)誤差;其次,要妥善組織測驗,控制好隨機誤差;第三,要合理處理好信度與效度的關(guān)系,信度不高的測驗不可能具有很高的測驗效度。
另外,還要做好被試團體的質(zhì)量分析和被試個體的質(zhì)量分析,因篇幅關(guān)系,在此從略。
綜上所述,非標準化學科測驗的質(zhì)量分析,可借助于標準化測驗的質(zhì)量分析指標體系,通過抽樣進行一定的定量分析,在此基礎上,對測驗所作的定性分析才有充分的依據(jù)。也只有在試卷的質(zhì)量分析基礎上,被試的質(zhì)量分析才有其實際意義。
(作者單位:遼寧省丹東市第二中學)