江蘇省蘇州市滄浪新城第一實驗小學(xué)校 華艷秋
《教育部辦公廳關(guān)于加強義務(wù)教育學(xué)校考試管理的通知》(以下簡稱《通知》)明確指出,“義務(wù)教育學(xué)??荚嚸鎸Φ氖俏闯赡陮W(xué)生,主要發(fā)揮診斷學(xué)情教情、改進(jìn)加強教學(xué)、評價教學(xué)質(zhì)量等方面功能”,同時要求“大幅壓減考試次數(shù)”,要求“小學(xué)一二年級不進(jìn)行紙筆考試,義務(wù)教育其他年級由學(xué)校每學(xué)期組織一次期末考試”。這意味著期末試題的質(zhì)量將成為有效實現(xiàn)考試功能的關(guān)鍵因素,客觀、科學(xué)地分析期末試題質(zhì)量在學(xué)情診斷的有效性和教學(xué)質(zhì)量評價的真實性等方面都具有重要意義。通過查閱已有文獻(xiàn)發(fā)現(xiàn),一線教師對試題質(zhì)量研究的關(guān)注度較低。國內(nèi)已有的試題質(zhì)量研究大多聚焦于中學(xué)試題,小學(xué)段的試題質(zhì)量分析研究較少。因此,本文旨在探討運用Rasch模型分析小學(xué)段試題質(zhì)量的可行性,以期給廣大一線小學(xué)教師的試題開發(fā)及質(zhì)量分析工作提供助力。
當(dāng)前的試題質(zhì)量分析方法主要源于兩種理論:經(jīng)典測量理論(Classical Test Theory,CTT)和項目反應(yīng)理論(Item Response Theory,IRT)。經(jīng)典測量理論的弱假設(shè)、相對簡單的數(shù)學(xué)模型、簡單明了的數(shù)據(jù)統(tǒng)計方法等優(yōu)勢,使其得到了迅速發(fā)展和廣泛應(yīng)用。與此同時,它測量結(jié)果的順序性(ordinal)、天花板效應(yīng)、樣本依賴性等缺陷也給測量帶來了更多誤差。項目反應(yīng)理論作為一種非線性概率模型成功填補了經(jīng)典測量理論的不足,利用強假設(shè)克服了測量結(jié)果對樣本的依賴,實現(xiàn)等距(interval)測量。
Rasch模型認(rèn)為被試在回答任一試題時,回答正確的概率(P)與被試的能力估計值和試題難度之間的差距(Bn-Di)存在著某種函數(shù)關(guān)系。這一關(guān)系的函數(shù)表達(dá)式如下:
式中Bn表示被試n的能力估計值,Di表示試題i的難度值。那么式(1)表示的就是能力估計值為Bn的被試n在回答難度為Di的試題i時正確作答(X=1)的概率(P)。
筆者于2021年1月對S市某小學(xué)五年級學(xué)生進(jìn)行了整體取樣,學(xué)生獨立完成測試題并當(dāng)堂回收,得有效樣本119份,其中男生59人,女生60人。運用Excel 2010統(tǒng)計作答得分情況并采用Rasch模型分析軟件Winsteps3.72.0對數(shù)據(jù)統(tǒng)計結(jié)果進(jìn)行分析,分析質(zhì)量參數(shù)包括測量工具整體質(zhì)量分析、試題質(zhì)量分析和試題單維性分析。在此基礎(chǔ)上討論Rasch模型在小學(xué)段試題質(zhì)量分析中的應(yīng)用。
本次科學(xué)測試卷有五個大題共49個計分點,滿分50分。其中標(biāo)簽為“302”的試題為畫圖題,采用0,1,2多級計分,其余題目均為二級計分。
整體質(zhì)量分析主要包括區(qū)分度與信度(Separation and reliability)和個人能力-試題匹配度分析(Person-Item Match)兩個參數(shù)。測評量表的區(qū)分度與信度值包括試題區(qū)分度信度和樣本區(qū)分度信度兩部分。當(dāng)二者的區(qū)分度大于2或信度值(Cronbach's alpha)大于0.8時可以認(rèn)為試題的區(qū)分度與信度良好。個人能力-試題匹配度分析(Person-Item Match)參數(shù)表示試題難度值與個人能力估計值之間的匹配度。其中題目的難度估計值通常在-5logit~+5logit范圍之內(nèi)變化,需要將項目難度變化范圍與學(xué)生能力估計值的變化范圍進(jìn)行比較,力求題目難度能覆蓋不同能力估計值的學(xué)生,這一過程通常根據(jù)Wright圖(或“懷特圖”)分布來判斷。
試題標(biāo)準(zhǔn)誤差(S.E.)和試題擬合度(model-datafit)能較大程度地表現(xiàn)出單個試題的質(zhì)量。標(biāo)準(zhǔn)誤差表示對題目難度估計的準(zhǔn)確程度,誤差值越接近0,說明題目難度的logit分值精確度越高??山邮艿恼`差范圍通常在0~0.5之間。試題擬合度表示數(shù)據(jù)真實值與模型期望值之間的擬合關(guān)系,主要關(guān)注四個指標(biāo):加權(quán)后的平均殘差(Infit MNSQ),未加權(quán)的平均殘差(Outfit MNSQ),加權(quán)后的標(biāo)準(zhǔn)平均殘差(Infit ZSTD,加權(quán)t值),未加權(quán)的標(biāo)準(zhǔn)平均殘差(Outfit ZSTD,未加權(quán)t值)。其中對MNSQ的期待值為1,離1越遠(yuǎn)表明擬合度越不好。可接受的MNSQ范圍是0.7-1.3。對ZSTD的期待范圍是-2~+2之間。
質(zhì)量良好的測評工具應(yīng)當(dāng)是單維的。測評工具的單維性要求指所有試題所檢測的心理特質(zhì)只有一個,學(xué)生在測試中對試題做出響應(yīng)時不受其他潛在特質(zhì)(latent trait)的影響?;赗asch模型檢驗測評工具的單維性一般通過對殘差(MNSQ)進(jìn)行因子分析來判斷。
運用Winsteps3.72.0對119名學(xué)生的測試結(jié)果進(jìn)行分析,得到結(jié)果如表1所示(N=119)。
表1 整體質(zhì)量分析數(shù)據(jù)統(tǒng)計
Rasch模型中通常將試題難度估計值設(shè)為0,個人能力估計值隨著測試的不同而發(fā)生變化。檢驗結(jié)果顯示,本測試卷的個人能力估計值為1.99,這意味著本次測試對大多數(shù)學(xué)生來說是比較簡單的,同時說明該測試卷可能存在著對高水平學(xué)生能力區(qū)分度不高的問題。標(biāo)準(zhǔn)誤差均在0~0.5之間(學(xué)生能力值標(biāo)準(zhǔn)誤.09,試題難度標(biāo)準(zhǔn)誤.21),說明本次測試對學(xué)生能力和試題難度的估計較為準(zhǔn)確。
數(shù)據(jù)顯示四個擬合參數(shù)(Infit MNSQ,Infit ZSTD,Outfit MNSQ,Outfit ZSTD)均在期待范圍內(nèi),這表明本套試題整體擬合性良好,大部分試題具有較高的質(zhì)量。在區(qū)分度與信度方面,試題區(qū)分度表現(xiàn)良好(區(qū)分度3.73>2,信度.93>.8),個人區(qū)分度和信度略低于理想值(.79<.8),說明部分學(xué)生的能力估計值無法得到有效區(qū)分,這可能和試題難度偏低有關(guān)。
基于Rasch模型的測量,可以將順序的觀測數(shù)據(jù)轉(zhuǎn)化為線性的測量結(jié)果,實現(xiàn)真正的等值測量,這一優(yōu)勢體現(xiàn)在Wright圖中。
本次測量的Wright圖顯示試題難度分布廣泛且分散,說明不同難度題目的數(shù)量安排是基本合理的;與此同時,大部分學(xué)生能力值位于0以上,其中能力值為2logit值及以上的學(xué)生接近半數(shù),卻只有第11-2題用作區(qū)分;相應(yīng)的,能力值低于0的學(xué)生人數(shù)僅6人卻有大量試題與之對應(yīng)。說明本次測試中大部分試題難度較低,對一半以上的學(xué)生都不具備區(qū)分功能。這一分析結(jié)果與整體質(zhì)量分析數(shù)據(jù)中的信度值(.79<.8)實現(xiàn)了相互驗證。
具體試題的質(zhì)量分析包括對標(biāo)準(zhǔn)誤差(S.E.)、模型-數(shù)據(jù)擬合指數(shù)(model-data-fit)的分析,它們可以通過氣泡圖(bubble chart)的表現(xiàn)來加以確定。本次測驗結(jié)果的擬合度及誤差表現(xiàn)如圖1所示。圖中X軸表示未加權(quán)的平均殘差,期待范圍是-2~+2。該值大于2時表示該試題擬合度不足(underfit),小于-2時表示該試題過度擬合(overfit),均難以對學(xué)生的真實能力水平加以有效測量或區(qū)分。氣泡半徑的大小表明測量誤差的大小,半徑越大則誤差越大。從圖中可以看出,大部分試題的outfit ZSTD值介于-2到2之間,說明這些試題擬合性良好。但第2-4、3-2、11-2三個小題擬合不足而第7-5和7-3兩個小題過度擬合。測量誤差方面,大部分題目的測量誤差在允許范圍內(nèi),但仍有4個題目的測量誤差較大,分別是2-1、2-2、2-5、5-1,這意味著這些題目的測量結(jié)果的準(zhǔn)確性不足。造成不擬合或誤差大的原因很多,比如被試在考試過程中的偶然嘗試、作弊、創(chuàng)造性作答等,有待結(jié)合題目和作答情況進(jìn)一步進(jìn)行分析,此處不再展開敘述。
圖1 氣泡圖
為檢驗本次測量試題的單維性,采用因子分析的方法進(jìn)行檢驗,結(jié)果呈現(xiàn)在因子載荷分布圖中,如圖2所示。從圖中可以看出,大部分試題的因子載荷分布在-0.4~+0.4之間,符合單維性要求。但A、b、a三個小題的單維性表現(xiàn)不佳,查表得出分別對應(yīng)第7-2,5-2和第2-4小題。這表明這三個小題測試的心理特質(zhì)不止一個,有一個或多個因素影響了學(xué)生的作答情況。
圖2 因子載荷分布圖
綜上所述,本套測試卷基本滿足信效度和區(qū)分度要求,大部分試題與Rasch模型實現(xiàn)較好擬合,但試題整體難度較低,對中高能力水平的學(xué)生難以進(jìn)行區(qū)分。同時,部分試題的單維性和擬合性不佳,需要進(jìn)一步分析。ZSTD也接近-2。這意味著過多學(xué)生對這道題反應(yīng)一致,盡管有些學(xué)生的能力水平難以達(dá)到。因此,重復(fù)做第7題并沒有幫助學(xué)生改善他在測量中的表現(xiàn),因此無論是在日常練習(xí)還是質(zhì)量測評中,都盡量不要讓學(xué)生重復(fù)做同一個題目。另一方面,筆者認(rèn)為,Rasch模型的應(yīng)用能有效幫助一線教師提高自身的命題能力?!锻ㄖ诽岢?,要“不斷提高教師命題水平”。Rasch模型的擬合性分析和單維性分析能幫助教師篩選高質(zhì)量試題,為教師修改試題、提高試題質(zhì)量提供證據(jù)支撐;Wright圖分析則能幫助教師在命題時兼顧不同能力層次學(xué)生的需求,擴(kuò)大試題難度范圍,合理調(diào)整試題結(jié)構(gòu),使試卷具有更高的質(zhì)量,從而不斷提升教師的命題水平。
通過對S市某小學(xué)五年級科學(xué)期末試題進(jìn)行質(zhì)量分析可以發(fā)現(xiàn),Rasch模型對小學(xué)階段的試題質(zhì)量分析也能進(jìn)行有效評價。因此,運用Rasch模型進(jìn)行試題質(zhì)量分析能幫助教師分析測評結(jié)果的難度、信度、效度、區(qū)分度等。與此同時,Rasch模型能幫助教師篩選和鑒別高質(zhì)量的試題,為后續(xù)工作中測評工具的開發(fā)提供參考。
本次分析結(jié)果還帶給筆者更多啟示。一方面,原題在測量中并不能起到診斷或鞏固作用。如第7大題(包括7-1至7-5共5小題)是做過的原題,在測量中發(fā)現(xiàn),7-3和7-5題是過度擬合,而7-2和7-4的outfit