肖 月 桑芝芳
(蘇州大學(xué)物理科學(xué)與技術(shù)學(xué)院 江蘇 蘇州 215000)
Rasch模型是由丹麥數(shù)學(xué)與教育學(xué)家G. Rasch于1960年提出來的一個(gè)用來測(cè)量潛在特質(zhì)的概率模型.它成功地解決了經(jīng)典測(cè)量理論中被試樣本依賴、測(cè)量工具依賴以及被試能力參數(shù)與項(xiàng)目難度參數(shù)之間相互干擾等問題.在教育與心理測(cè)量學(xué)領(lǐng)域中,Rasch模型常常依據(jù)學(xué)生在測(cè)試上的表現(xiàn),間接測(cè)量出學(xué)生的潛在特質(zhì)——學(xué)科能力.
在Rasch模型中,被試能力,試題難度,以及被試給出正確答案的可能性之間的關(guān)系可以由方程式(1)來表達(dá)[1].如下
(1)
項(xiàng)目難度和被試的能力水平是Rasch模型中的兩大參數(shù).這兩個(gè)參數(shù)的估計(jì)是Rasch分析中非常重要的過程.一般采用的估計(jì)方法為極大似然估計(jì)法.其原理為在己知被試作答矩陣的情況下,找到一個(gè)數(shù)值,使參數(shù)估計(jì)的可能概率達(dá)到最大值,通過求取似然概率的最大值來估計(jì)出考生的能力水平和項(xiàng)目的難度.
Rasch模型是一個(gè)理想化的數(shù)學(xué)模型.它要求所收集的實(shí)證數(shù)據(jù)必須滿足事先規(guī)定的標(biāo)準(zhǔn)和結(jié)構(gòu),才能實(shí)現(xiàn)客觀測(cè)量[1].因此,Rasch模型通過提供未加權(quán)殘差均方(Outfit MNSQ)和加權(quán)殘差均方(Infit MNSQ)兩種形式的卡方擬合指標(biāo),來判斷所收集的實(shí)證數(shù)據(jù)是否符合該模型.
本文采用了Rasch研究中經(jīng)常使用的取值范圍,即Outfit MNSQ和Infit MNSQ值在0.5~1.5范圍內(nèi),說明擬合程度較好.Outfit ZSTD和Infit ZSTD分別是Outfit MNSQ和Infit MNSQ的標(biāo)準(zhǔn)化的形式,Outfit ZSTD和Infit ZSTD值在-2~2范圍內(nèi),說明擬合程度較好[2].在分析過程中,如果有試題的擬合程度不理想,我們不應(yīng)該直接刪除該試題而是認(rèn)真地審視該試題找出影響擬合度的因素[3].
本研究對(duì)某高中587名高三學(xué)生在一份高三物理試卷中客觀題的作答情況進(jìn)行分析.采用Excel對(duì)收集到的原始數(shù)據(jù)進(jìn)行處理和轉(zhuǎn)化,然后將處理后的數(shù)據(jù)導(dǎo)入WINSTEPS軟件,進(jìn)行Rasch分析,其中主要包括整體質(zhì)量檢驗(yàn)、懷特圖、單維性檢驗(yàn)、試題擬合度以及試題氣泡圖.
試題的總體統(tǒng)計(jì)情況如表1所示.
表1 試題的總體統(tǒng)計(jì)情況
由表1可知,試題難度為0.00;Infit MNSQ和Outfit MNSQ分別為1.00和1.32,Infit ZSTD和Outfit ZSTD分別為-0.10和0.10,均在理想值范圍內(nèi),說明本次數(shù)據(jù)與Rasch理想模型擬合程度較好;試題的信度(Reliability)為0.99(>0.7),表示試題具有較高的可信度;試題的區(qū)分度(Separation)為10.19(>2),顯示試題能夠?qū)Σ煌芰λ奖辉嚰右詤^(qū)分.
從內(nèi)容來看,試題強(qiáng)化了對(duì)物理基本概念與規(guī)律等知識(shí)的考查,主要涉及勻變速運(yùn)動(dòng)、圓周運(yùn)動(dòng)、動(dòng)能定理與機(jī)械能守恒、靜電場(chǎng)等知識(shí).突出考查學(xué)生對(duì)物理基本概念與規(guī)律的理解,有助于培養(yǎng)學(xué)生的物理觀念與科學(xué)思維.而且每個(gè)試題都具有明確的考查目標(biāo)和功能,能夠?qū)Σ煌降膶W(xué)生進(jìn)行區(qū)分.
因此,從定性和定量?jī)蓚€(gè)方面對(duì)客觀題進(jìn)行整體評(píng)估,結(jié)果顯示整體情況較好,可進(jìn)行后續(xù)分析.
Rasch模型將所收集的實(shí)證數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換,使其變?yōu)榈染鄶?shù)據(jù)(logit數(shù)據(jù)).然后將學(xué)生能力和試題難度的等距數(shù)據(jù)標(biāo)定在同一個(gè)量尺上,根據(jù)它們?cè)诹砍呱系南鄬?duì)位置,直接比較學(xué)生之間的能力高低,試題之間的難度大小,以及學(xué)生與試題之間的關(guān)系.
圖1顯示了學(xué)生能力和試題難度之間的對(duì)應(yīng)關(guān)系.其中,左邊部分表示學(xué)生能力的分布,每個(gè)#號(hào)代表7名學(xué)生,每個(gè)點(diǎn)表示1~6名學(xué)生,中間豎線是等距量尺,右邊部分表示試題難度的分布.從上往下,學(xué)生能力逐漸降低,試題難度逐漸減小.
由圖1可知,學(xué)生能力分布范圍約為5個(gè)logit,試題難度分布范圍約為6個(gè)logit.總體來看,學(xué)生能力平均值為1.61 logit,考試題難度平均值為0.00 logit,學(xué)生能力水平高于試題難度,說明試題難度偏低.試題難度沒有覆蓋到全體學(xué)生,特別是較高能力水平的學(xué)生.針對(duì)此類情況,需要適當(dāng)增加一些難度較大的試題,并相應(yīng)減少?zèng)]有學(xué)生能力水平對(duì)應(yīng)的難度較小的試題.
Rasch模型的假設(shè)之一,測(cè)量的潛在特質(zhì)是單維的,即學(xué)生在該測(cè)試中取得結(jié)果的好壞只與某一種潛在特質(zhì)有關(guān)(如知識(shí)、能力、性格特征等),本文通過Rasch模型提供的標(biāo)準(zhǔn)殘差對(duì)比圖,來鑒別該試題測(cè)量的潛在特質(zhì)是否是單維的.
圖1 懷特圖
圖2 標(biāo)準(zhǔn)殘差對(duì)比圖
圖2展示了試題的標(biāo)準(zhǔn)殘差對(duì)比圖,橫坐標(biāo)是試題難度(Item Measure),左側(cè)縱坐標(biāo)是試題與其他可能的因素之間的相關(guān)系數(shù)(Contrast Loading),坐標(biāo)系中的1~8為題號(hào).可以看到,1~7題的相關(guān)系數(shù)都在理想范圍[-0.4,0.4]內(nèi),具有單維性,以第3題為例進(jìn)行說明,并對(duì)超出理想范圍的第8題做進(jìn)一步分析.
【第3題】如圖3所示,車廂水平底板上放置質(zhì)量為M的物塊,物塊上固定豎直輕桿.質(zhì)量為m的球用細(xì)線系在桿上O點(diǎn).當(dāng)車廂在水平面上沿直線加速運(yùn)動(dòng)時(shí),球和物塊相對(duì)車廂靜止,細(xì)線偏離豎直方向的角度為θ,此時(shí)車廂底板對(duì)物塊的摩擦力為Ff、支持力為FN,已知重力加速度為g,則( )
圖3 第3題題圖
A.Ff=MgsinθB.Ff=Mgtanθ
C.FN=(M+m)gD.FN=Mg
在標(biāo)準(zhǔn)殘差對(duì)比圖中,本試題與其他可能的因素之間的相關(guān)系數(shù)為0.04.它通過連接體模型考查牛頓運(yùn)動(dòng)定律的運(yùn)用,學(xué)生先以小球?yàn)檠芯繉?duì)象,由牛頓第二定律推導(dǎo)出車廂運(yùn)動(dòng)的加速度;然后以物塊與小球整體為研究對(duì)象,通過力的分解求出水平方向與豎直方向上的力.在此過程中,并未涉及物理知識(shí)以外的其他潛在特質(zhì),具有單維性.
【第8題】如圖4所示,在水平放置的光滑接地金屬板中點(diǎn)正上方h高處,有一帶正電的點(diǎn)電荷Q,一表面絕緣、帶正電的小球(可視為質(zhì)點(diǎn),且不影響原電場(chǎng))以速度v0在金屬板上自左端向右端運(yùn)動(dòng),則( )
圖4 第8題題圖
A.小球先做減速后做加速運(yùn)動(dòng)
B.運(yùn)動(dòng)過程中小球的電勢(shì)能先減小后增大
通過Rasch分析,第8題難度為2.53 logit,只有34%的學(xué)生回答正確,是客觀題中最難的題目,擬合度在理想范圍內(nèi),能夠區(qū)分不同能力水平的學(xué)生,區(qū)分度較好.該試題考查了靜電平衡、力與運(yùn)動(dòng)以及功等知識(shí)點(diǎn),綜合性較強(qiáng).要求學(xué)生掌握靜電平衡導(dǎo)體特點(diǎn),以及能根據(jù)題圖電場(chǎng)線的分布,聯(lián)想到等量異種電荷.如若由于思維定勢(shì),學(xué)生沒有充分考慮到導(dǎo)體的放入,以及對(duì)之前所學(xué)知識(shí)不能情境遷移,則不能將題目信息與已有知識(shí)相匹配進(jìn)而推斷出正確答案.因此,除了學(xué)生的物理知識(shí),本試題還考查了學(xué)生的推理分析、比較、情境遷移等綜合能力.
表2統(tǒng)計(jì)了8道試題的擬合指標(biāo)統(tǒng)計(jì)情況,包括試題難度、未加權(quán)殘差均方(Outfit MNSQ)、加權(quán)殘差均方(Infit MNSQ)、以及PT測(cè)量中的相關(guān)系數(shù).
表2 試題的擬合情況統(tǒng)計(jì)表
根據(jù)擬合的數(shù)據(jù)來看,難度最大的題目為第8題,難度最小的題目為第1題.試題的加權(quán)殘差均方全都在[0.93,1.11]范圍內(nèi),未加權(quán)殘差均方大部分都在[0.64,1.17]范圍內(nèi),幾乎都在正常的取值范圍[0.5,1.5]內(nèi),表明試題的擬合程度較好.此外,相關(guān)系數(shù)表示試題與試題測(cè)量目標(biāo)的擬合程度,相關(guān)系數(shù)的最低可接受水平約為 0.03,相關(guān)系數(shù)越高,說明試題與試題的測(cè)量目標(biāo)越接近[4].從表格中發(fā)現(xiàn)所有試題的相關(guān)系數(shù)均處于可接受的水平.
圖5為試題的氣泡圖,直觀地展示每一道試題的測(cè)量誤差和擬合情況.圖中,縱軸表示試題難度,越靠近頂端,表示題目越難;橫軸表示試題與模型的擬合情況,用未加權(quán)殘差均方表示;每個(gè)氣泡的大小表示標(biāo)準(zhǔn)誤,氣泡越大,標(biāo)準(zhǔn)誤越大,測(cè)量的精確性越低.
圖5 氣泡圖
由圖5可知,2~8題的未加權(quán)殘差均方在[0.5,1.5]范圍內(nèi),結(jié)合表2的擬合程度統(tǒng)計(jì)表,表明大部分學(xué)生的反應(yīng)與預(yù)期一致,試題能夠較準(zhǔn)確地檢測(cè)出學(xué)生的能力水平,以第4題為例進(jìn)行說明,并對(duì)超出理想范圍的第1題做進(jìn)一步分析.
【第4題】國慶70周年閱兵展出了我國高超音速乘波體導(dǎo)彈——東風(fēng)-17,東風(fēng)-17突防能力強(qiáng),難以攔截,是維護(hù)祖國和平發(fā)展的有力武器.如圖6所示,設(shè)彈道上處于大氣層外的a點(diǎn)和處于大氣層內(nèi)的b點(diǎn)的曲率半徑之比為2∶1,導(dǎo)彈在a和b兩點(diǎn)的速度大小分別為3倍音速和12倍音速,方向均平行于其正下方的水平地面,導(dǎo)彈在a點(diǎn)所受重力為G,在b點(diǎn)受到空氣的升力為F.則( )
圖6 第4題題圖
A.F=33GB.F>33G
C.F=32GD.F<32G
第4題的未加權(quán)殘差均方為0.97,在理想范圍內(nèi),表明學(xué)生的作答情況符合模型的預(yù)期,即在本試題中,理解分析能力高的學(xué)生回答正確的概率大于能力低的學(xué)生.本試題以真實(shí)情境為背景,利用向心力知識(shí)解決實(shí)際問題.假設(shè)導(dǎo)彈在a和b點(diǎn)做圓周運(yùn)動(dòng),可以計(jì)算出升力F=33G,又從軌跡中得知導(dǎo)彈要做離心運(yùn)動(dòng),可得F>33G.62%的學(xué)生答對(duì)了此題,其中42%的學(xué)生能力水平值高于平均能力水平值,能力高的學(xué)生回答正確的概率大于能力低的學(xué)生.
【第1題】某質(zhì)點(diǎn)從靜止開始做勻加速直線運(yùn)動(dòng),已知第3 s內(nèi)通過的位移是x,則質(zhì)點(diǎn)運(yùn)動(dòng)的加速度為( )
通過Rasch分析,第1題難度為-3.49 logit,有98%的學(xué)生回答正確,是客觀題中最簡(jiǎn)單的題目.本試題只考查了勻變速直線運(yùn)動(dòng)公式的運(yùn)用,學(xué)生無論能力高低均能正確回答,學(xué)生的作答差異不大,沒有體現(xiàn)出必要的區(qū)分性.
本試題應(yīng)該創(chuàng)設(shè)真實(shí)的問題情境,讓學(xué)生應(yīng)用勻變速直線運(yùn)動(dòng)的物理知識(shí)解決生活中的實(shí)際問題.這樣才能考查學(xué)生是否真正理解所學(xué)知識(shí),同時(shí)也培養(yǎng)了學(xué)生分析問題、解決問題的能力,有效發(fā)展學(xué)生的物理學(xué)科核心素養(yǎng).
綜上所述,試題整體信度較高、區(qū)分度合理,能客觀地考查出學(xué)生分析問題的能力和水平.但是相對(duì)來說,缺乏考查高能力水平的試題,存在個(gè)別試題指標(biāo)與 Rasch模型不能很好擬合的情況,需要考慮做出調(diào)整.
Rasch模型具有許多分析功能,由于實(shí)際的測(cè)量情況不同,測(cè)量者應(yīng)該結(jié)合測(cè)量目標(biāo),選擇合理的Rasch模型對(duì)應(yīng)的分析功能對(duì)測(cè)試進(jìn)行分析.本文以一份高三物理試卷中客觀題為例,主要從整體質(zhì)量檢驗(yàn)、懷特圖、單維性檢驗(yàn)、試題擬合度以及試題氣泡圖等方面進(jìn)行質(zhì)量分析.如若教師想分析男、女生在作答試題上是否存在差異,可以使用Rasch模型的項(xiàng)目功能差異(Differential Item Functioning,DIF)進(jìn)行檢驗(yàn);對(duì)于考查多種潛在特質(zhì)的試題,教師可以使用多維度的Rasch模型進(jìn)行分析.多維度的Rasch模型并不是對(duì)Rasch模型的顛覆,而是對(duì)Rasch模型單維度要求的發(fā)展,它充分利用相關(guān)維度特質(zhì)(或相關(guān)分量表)所提供的有用信息,在保證測(cè)驗(yàn)信度、效度的同時(shí),提高目標(biāo)特質(zhì)測(cè)量的精確度、廣度和效率[1].
在分析過程中,如果有試題的擬合程度不理想,我們不應(yīng)該直接刪除該試題而是要認(rèn)真地審視該試題找出影響擬合度的因素,如考慮命題人員的初始意圖、測(cè)評(píng)目標(biāo)與要求等,再?zèng)Q定這類試題的去留.因?yàn)镽asch模型作為檢測(cè)工具,只能檢測(cè)出有問題的試題,對(duì)于如何處理這類試題,需要結(jié)合實(shí)際情況做出判斷.
本文以一份高三物理試卷中客觀題的質(zhì)量分析為例,介紹了Rasch模型在物理學(xué)業(yè)質(zhì)量評(píng)價(jià)中的應(yīng)用.研究表明試題整體質(zhì)量較好,信度較高,區(qū)分度合理,絕大多數(shù)試題達(dá)到了測(cè)量目標(biāo),能客觀地考查學(xué)生的能力水平.可以看出,中學(xué)教師編制該試題的能力水平較高,能夠客觀、準(zhǔn)確地評(píng)價(jià)學(xué)生的物理學(xué)業(yè)質(zhì)量.
Rasch模型的分析功能比較多,本文中所提及的功能只是Rasch模型可用于試卷質(zhì)量分析功能的一部分.因此在具體的應(yīng)用中,由于實(shí)際的測(cè)量情況不同,測(cè)量者應(yīng)該結(jié)合測(cè)量目標(biāo),選擇合理的Rasch模型對(duì)應(yīng)的分析功能對(duì)測(cè)試進(jìn)行分析[5].