● 張金勇 何妃霞
教育測驗中學生能力水平與測驗項目難度的Rasch模型分析*
——個體能力與題目難度之間的對應關系
● 張金勇 何妃霞
本文以2011年貴陽市第八中學第一次高三英語高考模擬考試為例,使用Rasch分析軟件WINSTEPS對其進行分析,可以得出學生與學生、測驗項目與項目以及學生與測驗項目之間的關系。研究結果表明,該試題的內容覆蓋了所有能力水平的學生,且能夠較好地區(qū)分學生的能力水平。研究結果得出學生的能力水平略高于項目的難度水平,對樣本群體的測驗目標較明確;測驗中間的項目難度水平接近;測驗項目涵蓋的內容不夠;缺乏難度較大的項目。
Rasch模型;WINSTEPS;教育測驗;難度;能力水平
科學測評學生學業(yè)成就對于改進學校教學質量、公平評價學生、促進學生發(fā)展和教師專業(yè)發(fā)展具有重要意義。而科學測評學生學業(yè)成績,測驗項目與測評目標、學生能力相吻合非常關鍵。測驗項目的難度是測驗項目質量的重要指標,不僅直接關系到測驗的可靠性與準確度,而且還直接或間接地影響到學生的學習態(tài)度和學習行為。盡管考生的得分受到評分者的標準把握程度、項目特定等級的難度等因素的影響,但主要決定于考生的能力和測驗項目的難度。因此,如何使測驗項目與被測對象的能力水平一致,是教育測量與考試研究的重要課題。這里我們借助Rasch模型,運用實例在一個連續(xù)尺度上呈現(xiàn)教育測驗的結果,分析教育測驗質量,研究學生的能力水平和測驗項目難度、學生與學生、測驗項目與項目等之間的關系。本研究對試卷質量及考生能力分析具有一定的啟示和借鑒。
Rasch模型是丹麥數(shù)學家Georg Rasch(1960)提出的一種潛在特質模型,通過個體在題目上的表現(xiàn)來測量不可直接觀察的、潛在的變量,分析測試分數(shù)之間的差異。它可以同時估計項目難度和個體能力,是包含考生能力和項目難度層面的雙面模型。
近年來,國內外學者對Rasch模型的原理進行了較為深入的研究。這一模型以自然科學領域內的客觀測量為標桿,為社會科學領域內的測量建立起一套客觀標準,在教育和心理測量領域得到廣泛的應用,多集中于在CET、教師評分等級、學生學業(yè)成就估計、學生學業(yè)成績的分析等。如田清源(2006)認為Rasch模型對測驗中主觀評分的分析有重要影響,可以降低對學生成績估計的測量誤差[1];何蓮珍、張潔(2008)的研究結果顯示Rasch模型在CET口語考試、分數(shù)等值等研究中有重要作用[2];Michela Battauz,Ruggero Bellio,Enrico Gori(2008)認為通過結合 Rasch 模型和教師評分可以減少學生學業(yè)成就估計的誤差[3]。但大多數(shù)的研究不夠深入,在基礎教育中的應用研究也比較缺乏,尤其是在項目難度與考生能力水平分析方面不足。
Rasch模型有四個最基本的假設:一是每個個體有其特定的能力;二是每個項目有一個難度;三是每個項目的難度可以呈現(xiàn)在同一標度上;四是可以計算任何特定觀察分數(shù)反應概率數(shù)目之間的差異[4]。對于客觀測量,Rasch模型有兩個要求:一是對任何題目,能力高的個體應該比能力低的個體有更大可能作出正確回答;二是任何個體在容易題目上的表現(xiàn)應該始終好過在困難題目上的表現(xiàn)。[5]Rasch模型是一個理想化的數(shù)學模型,要求所收集的數(shù)據(jù)必須符合模型的先驗要求,才能實現(xiàn)客觀測量。如果數(shù)據(jù)與模型不擬合,就必須拒絕數(shù)據(jù),而不是模型[6]。
依據(jù)上述觀點,運用Rasch模型,可以估計測驗項目之間、學生之間以及測驗項目與學生之間的關系,可以在同一個圖形中使用等距的單位來描述個體和項目的潛在特質[7]。Rasch模型通過原始分數(shù)來計算學生的能力和項目的難度,把學生能力和項目難度的測量單位轉換為等距的logit。該模型中的能力參數(shù)與難度參數(shù)可以真正相互獨立地估計出來,且學生總分和項目總分是能力參數(shù)與難度參數(shù)的充分估計值。因此,Rasch模型可以為學生和項目建立一個等距分數(shù)。另外,Rasch模型對分布在中間的項目和學生的估計要比分布在邊緣的項目和學生更精確。Rasch模型通過學生對測驗項目的反應來測量個體的能力水平和測驗的難度水平。根據(jù)Rasch模型原理,學生答對特定項目的反應概率可以用個體能力與該題目難度的一個簡單函數(shù)來表示,即其中,Pni是考生正確作答項目i的概率,(1-Pni)是考生答錯項目i的概率,Bn是考生n的能力值,Di是項目i的難度。因此,個體能力和項目難度共同決定了個體對特定項目正確反應的概率。學生能力越高,對項目正確回答的概率越大。如果個體的能力等于項目的難度,那么正確回答的概率為0.5;如果個體的能力顯著大于項目難度,那么正確回答的概率接近1;相反,如果個體的能力小于項目難度,那么正確回答的概率接近0[8]。
本研究的樣本學校學生是貴州省貴陽市第八中學高三學生。研究數(shù)據(jù)來源于貴州省貴陽市第八中學高三學生第一次英語高考模擬考試。數(shù)據(jù)總數(shù)為643個,剔除無效數(shù)據(jù)12個,有效數(shù)據(jù)個數(shù)為631,數(shù)據(jù)有效率高達98%。用社會科學統(tǒng)計軟件包SPSS15.0對數(shù)據(jù)進行預處理,并用WINSTEPS3.38作Rasch分析。
圖1呈現(xiàn)了樣本學校學生的分數(shù)分布情況。其中橫坐標表示學生的得分率。圖1表明,大部分學生處在高分端,對知識的掌握較好,學生成績呈負偏態(tài)分布。
1.測驗項目的難度與學生能力水平整體近似正態(tài)分布,學生能力水平相對高于測驗項目的難度水平。
圖2中,橫軸右邊是模擬測驗項目難度的分布,左邊是學生能力水平的分布。圖2清晰地呈現(xiàn)了測驗項目難度和學生能力的分布形態(tài),都近似于正態(tài)分布。同時,還可知,學生能力與測驗項目之間的關系——橫軸原點處表示個體正確回答題目的概率為50%,能力在原點以上的學生對原點以下的項目正確回答的概率大于50%。從圖中可以看出學生的能力分布寬度大約為6.4個logit,項目難度的分布寬度約為5個logit,由此可以看出學生的能力水平相對高于測驗項目的難度水平。也就是說,作為高考的模擬測驗,其項目難度設計與學生的實際水平之間不太吻合,難度偏低,這樣就會使測驗的區(qū)分度降低。
2.測驗項目難度分布不均勻,試題便易,區(qū)分度較低
橫軸上部分清晰地呈現(xiàn)了65個項目之間的關系,項目間的距離代表項目之間的難易程度差異,越靠近頂端的項目難度越大,越靠近下端難度越小。同時項目之間的距離越近,說明項目的難度水平越接近,對學生的能力水平進行估計時誤差也較大。圖的左邊呈現(xiàn)學生能力的分布情況,越靠近圖的頂端,學生能力越強,對項目的答對率越高。頂端的項目適合那些能力水平較高的學生,下端的項目適合能力水平較低的學生。從圖2可以看出,模擬測驗中較難的題目偏少,容易的試題偏多,試題之間的難度水平差距不大,難度相近的試題分布較為集中,這樣就不能對高低不同能力水平的學生做出很好的區(qū)分,高考模擬測驗的有效性就不太高。
3.學生能力水平差別較大,能力水平與部分測驗項目呈負相關,測驗項目與測驗目標基本一致
表1 樣本學校高三學生RASCH模型項目信息表
表1中難度項目和學生能力測量的Rasch標準誤(第三列Rasch S.E)代表估計的不確定性。表中第二列代表學生在65道題目上答對的學生人數(shù)。Outfit MNSQ表示標準殘差的均方。一個項目的Outfit MNSQ值越大,表明個體能力水平和項目難度水平差異顯著時,能力水平高的學生答錯了簡單項目,能力水平低的學生正確回答了較難的項目,學生能力水平差別也較大,能力水平與回答題目呈現(xiàn)負相關。例如項目23是較容易的項目,但Outfit MNSQ值為1.21,表明一些高能力水平的學生未能對該項目作出正確回答;項目8是較難的項目,Outfit MNSQ值為1.33,說明一些低能力水平的學生正確回答了該項目。這兩種情況的試題都是測驗設計時不想出現(xiàn)的結果,教師需要對這樣的試題進行修改。Infit MNSQ表示加權后的殘差均方。對于一個特定項目,如果Infit MNSQ值較大,說明與項目難度水平接近的學生作答的方式與模型不一致,如項目7和項目35,但總體基本符合樣本學校學生的能力水平。從表1第六列可以看出,所有測驗項目的相關系數(shù)都是正向的,表明測驗項目與測驗目標基本一致,測量相同的潛在結構。
根據(jù) Rasch模型原理,Infit MNSQ和 Outfit MNSQ的理想值為1,但在實際項目分析中,Infit MNSQ和Outfit MNSQ值在0.5-1.5之間即可認為與模型擬合。此外,Rasch標準誤不超過±0.75也在可接受的范圍。從表1中的結果可以看出,測驗分數(shù)的Rasch分析表明,Rasch標準誤、Infit MNSQ以及Outfit MNSQ值均在可接受的范圍內,即可以對測驗項目和學生能力做出較全面、客觀的評價。
4.測驗項目難度接近,順序不清晰,對學生能力的估計不夠精確
圖3中用氣泡代表每個項目,氣泡的大小代表Rasch標準誤的比例。氣泡的比例越小,說明該測驗對學生能力水平的估計越精確;比例越大,對學生能力水平估計的誤差就越大。理想狀態(tài)下,測驗項目應靠近氣泡圖的中軸線。從圖中可以看出,許多氣泡重合了,表明項目的難度非常接近,從而導致項目順序不清晰。項目越簡單,學生的通過率越高,對學生能力的估計就不精確,代表項目的氣泡就越大,就不能對學生能力做出很好的估計和區(qū)分,如項目36、26、49等。位于氣泡圖左邊的項目,如25和51,兩個項目的Infit MNSQ和Outfit MNSQ值都小于1,說明與模型擬合比預期好,學生在測驗項目上的答對率高。位于氣泡圖右邊的項目,如 7、15、19、40 和 47,表明除了受到項目難度和學生能力水平的影響外,還受到較多外在因素的影響。圖中8、18、34和35都是很難的項目,它們的Outfit小于1.3,這可能是由于低能力的學生猜測正確造成的。
理想的測驗應該是測驗項目集中在學生能力分布周圍。通過Rasch模型分析,本測驗的項目難度水平與學生能力水平基本相當,但個體的能力水平略高于項目的難度水平。從表1中可以看出大多數(shù)測驗項目與測驗的目標接近,這說明大多數(shù)項目是有效的,該測驗能夠較好的測出預測的知識和技能。同分布在兩端的項目和學生相比,該測驗對分布在測驗中部項目難度和中等能力水平的學生做出的估計更精確。例如項目26,根據(jù)表1中的數(shù)據(jù),它的Rasch分析誤差最大,項目26的參數(shù)結果不如其他項目的估計結果精確,對學生的測驗目標也不夠明確。因此,根據(jù)分析結果,在設計測驗或建立題庫時,像26這樣的項目需要進一步的修改和探討,以便使其更具有針對性和有效性。
Maja Planinic,Lana Lvanjek,Ana Susac(2010)在一項研究中發(fā)現(xiàn),針對測驗的寬度不足以覆蓋樣本學生的能力范圍,測驗中部有許多項目的距離接近,測驗兩端沒有充足的項目,這時需要在測驗的兩端增加項目來提高測驗的效度。[9]依據(jù)這一研究結果,該測驗對于該樣本學生來說較簡單,需要在測驗的兩端增加一些項目,比如像8、18、35這樣的項目,刪除一些中間的項目,以便能夠更加精確的估計學生的能力。同時,也需要增加測驗的總體難度來提高測驗的上限。另外,該測驗中有些項目是重疊的,測量的內容是相同的,這就需要對試卷結構進行調整。調整時要根據(jù)學生能力分布的大致情況和測驗項目難度的分布情況,以及測驗目標,刪減或合并相同內容的題目,增加新內容,使測驗充分體現(xiàn)測驗目標,提高的內容效度。另外,可以針對學生實際掌握和運用知識的情況,進行教育教學調整,使教學更能適應學生的實際水平。因此,運用Rasch模型對測驗進行分析,不僅能夠對測驗分數(shù)做出比較全面的解釋,同時對測驗項目內容和學生的能力水平都提供了一個合理的評價依據(jù)。
客觀準確地估計出考生的能力水平是測評活動追求的最終目標,而測驗要達到理想的信度和效度,測驗項目的難度必須與被試的能力水平相匹配??偟膩砜矗摐y驗項目基本符合樣本學生的能力水平,但也存在幾個顯著的問題,如測驗中間的項目區(qū)分度不明顯、學生能力水平高于項目的難度水平、項目涵蓋的內容不夠、缺乏難度較大的項目等。這就要求高中教師在模擬考試中,要進行考試研究,側重于分析測驗項目的問題以及考試的實際能力,而不是側重于多次測量;進一步研究如何使試題既反映考生的真實水平,又反映測量目標,保證測驗的科學性和有效性。同時,Rasch分析的結果,可以使教師對學生的知識掌握水平有一個清晰的了解,為老師的教學和學生的學習提供一個導向,使得學習、教學和測驗的編制更有針對性,促進基礎教育改革的深入發(fā)展。
[1]田清源.主觀評分中多面Rasch模型的應用[J].心理學探新,2006,26(1):70-73.
[2]何蓮珍,張潔.多層面Rasch模型下大學英語四、六級口語考試(CET-SET)信度研究[J].現(xiàn)代外語,2008:31(4):388-437.
[3]Michela Battauz,Reggero Bellio,Enrico Gori.Reducing Measurement Error in Student Achievement Estimation[J].PSYCHOMETRIKA,2008,(2):289-234.
[4]Trevor G.Bond,ChristineM.Fox.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Lawrence Erlbaum Associates,2007.26.
[5]Wright,B.D.,&Stone,M.H.(1979).Best test design Chicago:MESA Press.
[6]晏子.心理科學領域內的客觀測量——Rasch模型之特點及發(fā)展趨勢[J].心理科學進展,2010,(18):1298-1305.
[7JDouglas H.Clements,Julie H.Sarama,Xiufeng H.Liu.Development of a measure of early mathematics achievement using the Rasch model:the Research-Based Early Maths Assessment[J].Educational Psychology,2008,(28):457-482.
[8][9]Maja Planinic,Lana Ivanjek,Ana Susac.Rasch modelbased analysis of the Force Concept Inventory[J].Phisics Education Research.2010,(6).
張金勇/貴州師范學院教育科學學院講師 何妃霞/貴州師范大學教育科學學院碩士研究生
*本研究為貴州省高等學校教學質量與教學改革工程重點項目“基于PBL理論改進心理教育測量教學改革研究”(項目批準號:黔高教發(fā)[2011]28-1)、貴州師范大學精品課程“心理測量”建設項目階段性成果。
(責任編輯:曾慶偉)