国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Rasch 模型在八年級數(shù)學(xué)學(xué)業(yè)測試卷質(zhì)量分析中的應(yīng)用

2020-08-08 02:09:12
教育測量與評價 2020年8期
關(guān)鍵詞:測試卷氣泡學(xué)業(yè)

張 迪

一、問題提出

數(shù)學(xué)學(xué)業(yè)評價既是衡量數(shù)學(xué)課程實(shí)施效果必不可少的手段, 也是學(xué)生數(shù)學(xué)學(xué)習(xí)的重要環(huán)節(jié)。 《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2011 年版)》(以下簡稱《課標(biāo)2011》)明確提出“學(xué)習(xí)評價的主要目的是為了全面了解學(xué)生數(shù)學(xué)學(xué)習(xí)的過程和結(jié)果,激勵學(xué)生學(xué)習(xí)和改進(jìn)教師教學(xué)”[1]。數(shù)學(xué)學(xué)業(yè)評價是否科學(xué)公正,關(guān)鍵在于采用的數(shù)學(xué)學(xué)業(yè)測試卷能否客觀、準(zhǔn)確地評估學(xué)生的數(shù)學(xué)能力水平。 因此,有必要采用科學(xué)有效的方法評估數(shù)學(xué)學(xué)業(yè)測試卷的質(zhì)量。

經(jīng)典測量理論(CTT)是教育領(lǐng)域中評估試卷質(zhì)量的主要方法,但它無法避免題目難度估計(jì)和學(xué)生能力估計(jì)的相互干擾,即在判斷題目難易時容易出現(xiàn)樣本依賴, 因而在估計(jì)學(xué)生能力時,容易產(chǎn)生測試依賴[2],這也使得其建立客觀評價尺度的初衷很難達(dá)到。近年來,Rasch 模型能克服樣本差異或測驗(yàn)難易而導(dǎo)致的測量客觀性不足的問題[3],因而逐漸被應(yīng)用于心理學(xué)、教育學(xué)領(lǐng)域。Rasch 模型的原理在于,特定個體對特定題目做出特定反應(yīng)的概率可以用個體能力與該題目難度的一個簡單函數(shù)來表示。[4]它通過對數(shù)轉(zhuǎn)換,將被試和題目在同一單維度標(biāo)尺上進(jìn)行標(biāo)定[5],從而使得題目與題目之間、 被試與被試之間,以及被試與題目之間可以直接進(jìn)行比較[4]。Rasch 模型的這一特點(diǎn)為心理學(xué)、教育學(xué)等學(xué)科進(jìn)行客觀性測量提供了行之有效的方法。 然而,到目前為止,國內(nèi)在學(xué)科學(xué)業(yè)測評中關(guān)于Rasch 模型的實(shí)際應(yīng)用并不多。

本研究試圖通過運(yùn)用Rasch 模型分析軟件Winsteps, 對一份八年級數(shù)學(xué)學(xué)業(yè)測試卷的質(zhì)量進(jìn)行分析,從單維性檢驗(yàn)、懷特圖、項(xiàng)目擬合度、氣泡圖等維度了解測試卷的整體質(zhì)量,以期為教師在設(shè)計(jì)高質(zhì)量的測試題中應(yīng)用Rasch 模型提供參考和借鑒。

二、研究方法

1.研究對象

本研究的數(shù)學(xué)學(xué)業(yè)測試卷以《課標(biāo)2011》為依據(jù), 借鑒PISA、TIMSS 等國際上較為成熟的大規(guī)模教育測評中數(shù)學(xué)學(xué)科測評的經(jīng)驗(yàn),從內(nèi)容維度(數(shù)與代數(shù)、圖形與幾何、統(tǒng)計(jì)與概率)和認(rèn)知維度(了解、理解和應(yīng)用)進(jìn)行試題設(shè)計(jì)。 本測試在關(guān)注學(xué)生數(shù)學(xué)知識與技能的同時,突出了對學(xué)生基本數(shù)學(xué)能力的要求。

本測試卷的前期開發(fā)過程嚴(yán)格按照科學(xué)規(guī)范的程序進(jìn)行。

第一步,對國內(nèi)外的相關(guān)測評項(xiàng)目開展充分調(diào)研,同時認(rèn)真研讀《課標(biāo)2011》,最終確定了試卷的測試框架、開發(fā)原則與理念,界定了測評工具的內(nèi)涵, 編制了測評工具的開發(fā)指南與細(xì)目表。

第二步,征集、研磨測試題目,對隨機(jī)選取的6 名學(xué)生進(jìn)行訪談, 并依據(jù)反饋意見對試題的內(nèi)容和結(jié)構(gòu)進(jìn)行修改和完善,第一次修改完成后對不少于30 名學(xué)生的班級進(jìn)行試測, 同時組織內(nèi)部專家對試題進(jìn)行評審,給出評審意見。

而隨后的300 人測試作為大規(guī)模數(shù)學(xué)學(xué)業(yè)水平測試工具開發(fā)的關(guān)鍵環(huán)節(jié),其結(jié)果可以為后續(xù)測試工具的分析與修訂提供科學(xué)的依據(jù),確保其符合測量學(xué)的要求,從而充分發(fā)揮每一道題目的測評作用。 因此,選擇對本測試卷進(jìn)行質(zhì)量分析具有一定的代表性。

該測試卷包含12 道客觀題、16 道主觀題(按照小題數(shù)量計(jì)數(shù)),題型分布如表1 所示。

本研究在北京市隨機(jī)選取304 名八年級學(xué)生,要求他們在90 分鐘內(nèi)完成試卷,取樣時盡量涵蓋數(shù)學(xué)學(xué)業(yè)水平高、中、低的學(xué)生。 我們將所有試卷當(dāng)場回收, 隨后對學(xué)生的作答情況進(jìn)行分析。

2.統(tǒng)計(jì)軟件

本研究先使用SPSS 20.0 軟件對收集的測試數(shù)據(jù)進(jìn)行單維性檢驗(yàn),再使用Winsteps 3.72.3軟件對測試數(shù)據(jù)進(jìn)行Rasch 模型分析。

三、 基于Rasch 模型的八年級數(shù)學(xué)學(xué)業(yè)測試卷質(zhì)量分析

1.單維性檢驗(yàn)

項(xiàng)目反應(yīng)理論 (item response theory,IRT)建立在單維性假設(shè)基礎(chǔ)之上。 Rasch 模型是基于IRT 模型提出的一個潛在特質(zhì)模型, 因此需要滿足單維性假設(shè),即被試在特定項(xiàng)目上的表現(xiàn)只取決于一種潛在特質(zhì)或能力,其他因素對被試表現(xiàn)的影響可以忽略不計(jì)。[6]本研究中的八年級數(shù)學(xué)學(xué)業(yè)測試卷考查的是學(xué)生的數(shù)學(xué)學(xué)業(yè)能力,因此我們假設(shè)整套試卷只包含一個維度,即學(xué)生的作答表現(xiàn)僅受所學(xué)的相關(guān)數(shù)學(xué)知識的影響,而不受其他因素的影響。 為了驗(yàn)證這一假設(shè),本研究采用SPSS 20.0 軟件對學(xué)生的測試數(shù)據(jù)進(jìn)行探索性因素分析。

表2 為KMO 檢驗(yàn)和Bartlett's 球形檢驗(yàn)結(jié)果。若KMO 值大于0.70 及Bartlett's 球形檢驗(yàn)顯著性p <0.01,則可以進(jìn)行探索性因素分析。[7]由表2 可知,KMO 值為0.90,Bartlett's 球形檢驗(yàn)顯著性p<0.001,因此可以進(jìn)行探索性因素分析。

表3 呈現(xiàn)的是采用主成分分析法提取出來特征根大于1 的因子解釋的總方差,圖1 為因子分析的碎石圖。 當(dāng)因素分析發(fā)現(xiàn)存在多個成分時,若成分1 與成分2 的特征根比值超過5,則說明該數(shù)據(jù)具有單維性。[8]由表3 可知,該測試卷有多個因子的特征根大于1 (即不只存在一個成分),成分1 的特征根為8.393,成分2 的特征根為1.626, 成分1 與成分2 的特征根比值超過5,說明該測試卷只受到一個因子的影響。

表1 八年級數(shù)學(xué)學(xué)業(yè)測試卷的題型分布

從圖1 可以看出,曲線在X 軸上僅一處出現(xiàn)明顯的彎折, 說明測試卷只受到一個因子的影響。 也就是說,本次測試中,學(xué)生的作答表現(xiàn)只受其掌握的數(shù)學(xué)知識的影響,符合Rasch 模型單維性假設(shè)的要求,可以進(jìn)行Rasch 模型分析。

表2 KMO 和Bartlett's 球形檢驗(yàn)結(jié)果

表3 解釋的總方差

圖1 碎石圖

2.懷特圖

Rasch 模型把學(xué)生能力與題目難度放在同一個水平尺(懷特圖)上,從而可以直觀清楚地比較學(xué)生能力與題目難度、學(xué)生與學(xué)生、題目與題目之間的關(guān)系及其差異。 圖2 的懷特圖(Wright map) 在同一標(biāo)尺上顯示了題目難度與學(xué)生能力水平間的對應(yīng)關(guān)系。 圖2 中的豎線為logit 刻度尺, 豎線左側(cè)表示學(xué)生能力水平的分布情況,每個# 號代表2 名學(xué)生, 每個點(diǎn)表示1 名學(xué)生,豎線右側(cè)為試卷所有題目的難度分布情況;豎線旁邊的字母M 是mean 的縮寫, 指平均水平,S 是one standard error 的縮寫,代表距離均值的1 個標(biāo)準(zhǔn)差,T 是two standard error 的縮寫, 代表距離均值的2 個標(biāo)準(zhǔn)差。 自上而下,學(xué)生的能力水平依次遞減,題目難度也逐漸降低。 學(xué)生之間的距離代表學(xué)生能力水平之間的差異,距離越近,差異越小;題目間的距離也如此。 處在同一位置的學(xué)生能力水平相等, 處在同一位置的題目難度相當(dāng)。 當(dāng)學(xué)生能力水平與題目難度越接近時,測試卷所獲得的學(xué)生數(shù)學(xué)學(xué)業(yè)表現(xiàn)的信息量越大,越能精確地估計(jì)出學(xué)生的能力水平。

圖2 題目難度與學(xué)生能力關(guān)系圖( 懷特圖)

從圖2 可以看出,該測試卷的試題難度分布范圍約為4.2 個logit,分布形式為正偏態(tài)分布;學(xué)生能力水平范圍寬度約為6.4 個logit, 分布形式為負(fù)偏態(tài)。 圖2 也清楚地呈現(xiàn)了試題難度的順序, 且試題難度基本都在-1.6 個logit 到1.5 個logit 之間,難度分布集中于中等難度,其中題目M8AO071 的難度最大,題目M8AS1611 的難度最低。 此外,學(xué)生能力水平范圍大于試題的難度分布范圍,試題沒有覆蓋從1.5 個logit 到4 個logit的高能力水平學(xué)生。

3.項(xiàng)目擬合和誤差統(tǒng)計(jì)

表4 呈現(xiàn)了運(yùn)用Winsteps 軟件進(jìn)行參數(shù)估計(jì)所得到的題目擬合指數(shù), 包括平均分(measure)、標(biāo) 準(zhǔn) 誤(S.E.)、infit 與outfit 的殘差均方以及相關(guān)系數(shù)(CORR.)。 其中,對于題目難度的估計(jì)按照自上而下逐漸降低的順序進(jìn)行排序。

outfit MNSQ 和infit MNSQ 這兩個擬合指標(biāo)都通過計(jì)算殘差得到, 前者是標(biāo)準(zhǔn)殘差的均方,對極端值較為敏感,后者是加權(quán)后的殘差均方, 對于題目難度與能力水平相當(dāng)?shù)臄?shù)據(jù)比較敏感。 outfit MNSQ 和infit MNSQ 值介于0 和正無窮大之間,其值為1時表示數(shù)據(jù)與模型完全擬合,通常情況下,MNSQ 值介于0.50 到1.50 之間表示數(shù)據(jù)與模型預(yù)期擬合程度是可接受的。[6]由表4可知:infit MNSQ 的取值范圍為0.77~1.45,表明所有題目與模型擬合得很好;outfit MNSQ 的 取 值 范 圍 為 0.37 ~1.98,M8AS1611、M8AO101、M8AO071 及M8AS142這4 道題目稍微偏離了0.50~1.50 的正常取值范圍, 與Rasch 模型預(yù)期結(jié)果的擬合程度不高, 說明被試的實(shí)際作答與模型的預(yù)測結(jié)果不一致, 能力水平高的學(xué)生與能力水平低的學(xué)生均可能答對或答錯這些題目。 除了這4 道題目,其余24 道題目都與模型擬合較好。

Rasch 標(biāo)準(zhǔn)誤反映的是題目測量被試能力水平的穩(wěn)定性,標(biāo)準(zhǔn)誤越小說明題目對學(xué)生能力水平估計(jì)的結(jié)果越穩(wěn)定。 由表4 可知,除了M8AS1611,其余27 道題目的誤差值均在0.10 左右,誤差估計(jì)值較小,說明試題對學(xué)生能力的估計(jì)是穩(wěn)定的,即試卷信度較高。

相關(guān)系數(shù)表示的是題目與題目測量目標(biāo)的接近程度,相關(guān)系數(shù)越高,表明題目與其測量目標(biāo)越接近。 從表4 可以發(fā)現(xiàn), 除了M8AO071、M8AO051 及M8AO101 的相關(guān)系數(shù)在0.20 左右,略低于可接受的最低值0.30, 其余25 道題目的相關(guān)系數(shù)都可以接受。

4.氣泡圖

氣泡圖可以更加直觀清晰地對每一道題目的測量誤差和擬合情況進(jìn)行分析。 圖3 中,每一個氣泡代表一個題目, 氣泡半徑大小表示Rasch標(biāo)準(zhǔn)誤,氣泡越小說明誤差越小,測量結(jié)果越精確; 氣泡位置表示題目outfit MNSQ 參數(shù)大小,氣泡越靠近氣泡圖的中軸線說明題目與模型擬合得越好;氣泡越靠近上方,說明它所代表題目的難度越大。 通過氣泡圖,研究者可以快速查找出不符合Rasch 模型的題目。

表4 題目擬合和誤差統(tǒng)計(jì)表

圖3 橫軸中的underfit(大于1.50)代表的是數(shù)據(jù)的變異量大于Rasch 模型的預(yù)期,overfit(小于0.50)表示的是數(shù)據(jù)的變異量小于Rasch 模型的預(yù)期。[9]從圖3 中可以看出,除了題目M8AO101、M8AO071 及M8AS142 非常靠近underfit,其余25道題目的outfit MNSQ 參數(shù)值都在0.50~1.50 范圍內(nèi), 表明絕大部分題目的數(shù)據(jù)變異量符合Rasch的預(yù)期。 另外,圖中有部分題目相互之間有重合,說明這些題目的難度水平相近。不僅如此,從圖3還 可 以 看 出:M8AO071 難 度 最 大,M8AS1611 難度最?。籑8AS1611 的氣泡位置與其他氣泡明顯分離,且氣泡大小大于其他氣泡,說明M8AS1611的標(biāo)準(zhǔn)誤較大,所測量結(jié)果的精確性較小,它可能沒有準(zhǔn)確估計(jì)出學(xué)生的能力水平。

四、結(jié)論與討論

圖3 氣泡圖

1.試卷整體質(zhì)量較高

本研究通過運(yùn)用Rasch 模型分析軟件Winsteps 對八年級數(shù)學(xué)學(xué)業(yè)測試卷質(zhì)量進(jìn)行了分析,從單維性檢驗(yàn)、懷特圖、項(xiàng)目擬合度、氣泡圖等方面了解和評價測試卷的整體質(zhì)量。

懷特圖反映出本次測試卷中,試題難度分布集中在中等難度,其中題目M8AO071 難度最大,題目M8AS1611 難度最小。 而學(xué)生能力水平范圍大于試題的難度分布,該測試題目相對于學(xué)生來說偏簡單,高能力水平的學(xué)生沒有相對應(yīng)難度的題目,故為了讓測試題也能對高能力水平學(xué)生進(jìn)行精確估計(jì),應(yīng)考慮在后期修訂測試卷時增加部分高難度題目。

從上述數(shù)據(jù)與Rasch 模型擬合的情況可以發(fā)現(xiàn): 所有題目的infit MNSQ 值均在正常范圍以內(nèi), 表明題目難度與學(xué)生的能力水平吻合較好,兩者都能得到比較精確的估計(jì); M8AS1611、M8AO101、M8AO071、M8AS142 這4 道 題 目 的outfit MNSQ 值稍微超過了正常的取值范圍,意味著學(xué)生在回答這4 道題目時,部分高能力水平的學(xué)生可能出于失誤沒有答對,而低能力水平學(xué)生卻可能因?yàn)椴聹y答對了。 除此之外,絕大部分題目均能與Rasch 模型很好地?cái)M合。

除了M8AS1611,其余題目的Rasch 誤差值都比較小,說明測試卷的信度較高,試題對學(xué)生能力估計(jì)比較穩(wěn)定。 結(jié)合懷特圖我們 發(fā) 現(xiàn),M8AS1611 是測試卷中最簡單的題目,但在這一檔難度沒有相應(yīng)能力的學(xué)生,除了兩名學(xué)生的能力值在這一標(biāo)尺之下,其余學(xué)生的能力水平均高于答對該題所需的能力水平。 這也說明,題目如果過于簡單,在估計(jì)學(xué)生能力水平時容易出現(xiàn)較大的誤差。

另外,除了少數(shù)幾道題目,本測試卷的題目與題目測量目標(biāo)之間的相關(guān)系數(shù)均在可接受的范圍,表明試卷絕大多數(shù)題目與整套題目測量目標(biāo)一致。

綜上所述,本研究中的這套八年級數(shù)學(xué)學(xué)業(yè)測試卷整體信度較高、難度適中,且有一定的區(qū)分度, 各項(xiàng)數(shù)據(jù)與Rasch 模型預(yù)期結(jié)果比較吻合,能客觀地考查出學(xué)生的能力水平。 但是相對來說, 本測試卷中缺乏考查高能力水平的題目,存在個別題目指標(biāo)與Rasch 模型不能很好擬合的情況, 需要在題目修訂時加以考慮并做出調(diào)整。

2.后期對擬合指標(biāo)不一致題目的處理

個別題目之所以出現(xiàn)與Rasch 模型預(yù)期結(jié)果不一致的情況,有時可能并不完全是題目本身的問題,高能力水平的學(xué)生可能因?yàn)樾睦?、環(huán)境等多種因素的影響而出現(xiàn)偶然性失誤,從而答錯了簡單的題目,低能力水平的學(xué)生也可能通過猜測并結(jié)合特殊的方法答對了有難度的題目。 因此,個別題目指標(biāo)與模型不吻合,并不是放棄該題或修訂該題的依據(jù)。 相反,命題人員應(yīng)重新審視這些擬合不好的題目,找出可能對指標(biāo)產(chǎn)生影響的其他因素[10],或者用這些指標(biāo)來查找異常的被試,而不應(yīng)將擬合指標(biāo)作為是否刪除題目的固定標(biāo)準(zhǔn)[3]。

本研究中,outfit MNSQ 值不擬合的題目有M8AS1611、M8AO101、M8AO071、M8AS142,其中,M8AS1611 標(biāo)準(zhǔn)誤稍大, 且為整卷中最簡單的題目。 M8AS1611 主要考查的是數(shù)與代數(shù)領(lǐng)域中的“用字母表示數(shù)”, 要求學(xué)生能根據(jù)圖中的規(guī)律,找到其中的簡單數(shù)量關(guān)系,由于本題屬于解答題4 個連貫性問題中的第一問, 對于學(xué)生后續(xù)作答起到了提示和鋪墊作用,命題人員在后期對它予以保留,但將其在細(xì)目表中的認(rèn)知領(lǐng)域從原來的“理解”水平修改為“了解”水平。 對于M8AO071,命題意圖是考查學(xué)生能否在實(shí)際情境下應(yīng)用勾股定理進(jìn)行計(jì)算,預(yù)估的認(rèn)知水平是“理解”。 由于該題處于underfit 區(qū)域, 命題人員經(jīng)過仔細(xì)審查,并結(jié)合訪談記錄,認(rèn)為很可能是由于題目本身為帶有實(shí)際情境的問題,雖然給出了清楚的圖示,但題干和設(shè)問的表述不夠清晰,讓部分學(xué)生對所提問題產(chǎn)生了誤解,從而作答錯誤。 據(jù)此,命題人員修改了題目表述,并保留此題。 M8AO101為概率與統(tǒng)計(jì)中的“抽樣與數(shù)據(jù)分析”問題,考查學(xué)生是否會用扇形統(tǒng)計(jì)圖直觀、 有效地描述數(shù)據(jù)。 命題人員針對不擬合的情況,對原題進(jìn)行了修改,將原有部分題干“下圖是八年級七班全班同學(xué)男生和女生的睡眠時間統(tǒng)計(jì)圖”中的“男生和女生”修改為“全班”,把原有的男生和女生分開的2 個睡眠時間統(tǒng)計(jì)圖修改為1 個圖, 名為“全班睡眠時間統(tǒng)計(jì)圖”,并將原有扇形圖的3 塊區(qū)域進(jìn)一步劃分為4 塊區(qū)域,同時修改相應(yīng)的選項(xiàng)。M8AS142 主要考查學(xué)生是否能從具體情境中抽象出數(shù)學(xué)問題并應(yīng)用概率知識構(gòu)建模型,命題人員從測試目標(biāo)的角度考慮,決定對本題不做修改,并予以保留。

五、總結(jié)與思考

1.結(jié)合測試目標(biāo),檢驗(yàn)測試題目是否符合Rasch 模型的適用條件

測量研究人員在運(yùn)用Rasch 模型進(jìn)行試卷質(zhì)量分析時,應(yīng)先明確測試目標(biāo),再判斷其是否符合Rasch 模型的適用條件。 若整卷是對單一數(shù)學(xué)能力的考查,則試卷應(yīng)符合單維性檢驗(yàn),確定所有題目考查目標(biāo)的一致性。 若整卷是為了測量學(xué)生多個維度的能力,如在數(shù)學(xué)測評中,同時考查學(xué)生的多種數(shù)學(xué)能力(運(yùn)算能力、證明能力、問題解決能力等), 則單維度Rasch 模型不再適用于整卷的質(zhì)量分析。 此時,研究者需要證明該測試工具是否包含多個維度, 就需要使用多維度Rasch 模型進(jìn)行多維性檢驗(yàn), 再對每個維度的題目單獨(dú)進(jìn)行單維性檢驗(yàn),驗(yàn)證每個維度內(nèi)部的題目與考查的維度目標(biāo)是否具有一致性。 可以說,多維度Rasch 模型是對Rasch 模型單維度要求的發(fā)展,它充分利用相關(guān)維度特質(zhì)(或相關(guān)分量表)所提供的有用信息,在保證測驗(yàn)信度、效度的同時,提高目標(biāo)特質(zhì)測量的精確度、廣度和效率。[4][11]

2.參考模型檢驗(yàn)數(shù)據(jù)與Rasch 模型指標(biāo)的擬合程度,增減題目以滿足評估要求

在運(yùn)用Rasch 模型進(jìn)行試卷質(zhì)量分析時,應(yīng)參考模型檢驗(yàn)數(shù)據(jù)與模型指標(biāo)的擬合程度,分析并找出試題中擬合程度不高的那些題目,然后結(jié)合測試的實(shí)際情況對這些題目的去留進(jìn)行判斷。通常, 測試中有的題目的擬合指標(biāo)不能達(dá)到Rasch 模型的預(yù)期,筆者認(rèn)為,對待這些指標(biāo)異常的題目, 不應(yīng)立即做出刪除此題的簡單判斷,而應(yīng)對學(xué)生進(jìn)行觀察與事后訪談,綜合考慮命題人員的初始意圖、測評目標(biāo)與要求等,再對這類題目的去留做出決定。

此外,每一份測評卷針對的都是特定的學(xué)生群體,在評估其質(zhì)量時應(yīng)經(jīng)過多輪測試,對擬合指標(biāo)進(jìn)行分析和驗(yàn)證時需考慮工具本身是否能夠覆蓋不同能力水平的學(xué)生群體,綜合考量后再決定是否增減題目,以滿足評估需要。 在本次測試中,針對測試卷題目的難度范圍沒有能夠覆蓋高水平學(xué)生的情況,命題人員在后期命題中適當(dāng)增加了一些難度較大的題目;為了保持相對穩(wěn)定的題量與內(nèi)容覆蓋等,他們替換了少量指標(biāo)不好和中等難度的題目,使得新的測試工具能夠更精確地測評高水平學(xué)生的能力。

3.借助Rasch 模型的其他功能,評估數(shù)學(xué)測試卷的公平性

測評的公平性問題也是測試工具開發(fā)值得考慮的問題, 并且越來越受到測試工具研發(fā)者、使用者和社會大眾的關(guān)注。 就數(shù)學(xué)學(xué)科而言,人們越來越重視學(xué)生數(shù)學(xué)核心素養(yǎng)的培養(yǎng),強(qiáng)調(diào)學(xué)生在情境化的數(shù)學(xué)內(nèi)容中,學(xué)會綜合運(yùn)用數(shù)學(xué)知識解決實(shí)際問題。 因此,數(shù)學(xué)學(xué)業(yè)水平測試也必須體現(xiàn)對學(xué)生數(shù)學(xué)核心素養(yǎng)的考查。 在數(shù)學(xué)測試工具的開發(fā)過程中,大部分題目在命制時應(yīng)考慮將數(shù)學(xué)問題置于情境之下。 通常情況下,男生和女生對于同一情境的熟悉程度未必是相同的,數(shù)學(xué)測試的公平性問題也由此產(chǎn)生。 為了讓最終開發(fā)完成的數(shù)學(xué)測評工具對所有學(xué)生都具有公平性,測試工具研發(fā)者可以在預(yù)測試的結(jié)果分析中采用Rasch 模型的項(xiàng)目功能差異(differential item functioning,DIF)進(jìn)行檢驗(yàn),進(jìn)而從公平性的角度為測試工具的進(jìn)一步修訂提供合理化的建議。

猜你喜歡
測試卷氣泡學(xué)業(yè)
檸檬氣泡水
欣漾(2024年2期)2024-04-27 15:19:49
艱苦的學(xué)業(yè)
SIAU詩杭便攜式氣泡水杯
新潮電子(2021年7期)2021-08-14 15:53:12
浮法玻璃氣泡的預(yù)防和控制對策
音樂提升學(xué)生學(xué)業(yè)表現(xiàn)
樹起學(xué)業(yè)擔(dān)當(dāng)之心
冰凍氣泡
35
一年級期末測試卷
嘉义市| 望江县| 蓝田县| 云龙县| 卫辉市| 东山县| 石景山区| 谢通门县| 衢州市| 临泽县| 公主岭市| 沐川县| 卢龙县| 大悟县| 蒲城县| 连南| 泽库县| 庄浪县| 永平县| 马龙县| 黄平县| 中方县| 同江市| 察隅县| 郓城县| 白水县| 新沂市| 康马县| 武义县| 江油市| 万全县| 梧州市| 汤原县| 宜春市| 共和县| 辽中县| 舟山市| 临安市| 神池县| 定远县| 玉环县|