高等漢語水平考試作文評(píng)分的調(diào)整——評(píng)分員殘項(xiàng)調(diào)整模型的應(yīng)用

2012-11-08 08:05李傳益

中國考試 2012年12期

李傳益

作文等主觀性試題的評(píng)分差異太大時(shí)需要組織評(píng)分員進(jìn)行重評(píng)，而采用傳統(tǒng)人工重評(píng)的方法費(fèi)時(shí)費(fèi)力，且仍然解決不了重評(píng)中存在的主觀性問題。那么，對(duì)于評(píng)分差異能否尋求另外的方法來解決？正如Lunz etal.（1990）所說：“由評(píng)分員個(gè)體差異所引起的評(píng)分差異我們是無法預(yù)先估計(jì)的，但是為了保證分?jǐn)?shù)的可靠性，我們需要對(duì)評(píng)分員的某些特征進(jìn)行數(shù)學(xué)上的客觀調(diào)整”。

本文嘗試用Longford介紹的調(diào)整評(píng)分員不一致項(xiàng)（殘項(xiàng)）的方法對(duì)評(píng)分員給出的差異較大的分?jǐn)?shù)進(jìn)行客觀、數(shù)學(xué)上的調(diào)整，希望這種調(diào)整方法能最大限度地減少評(píng)分誤差，使評(píng)分員給出的分?jǐn)?shù)盡量接近被試的能力，并能解決大規(guī)模標(biāo)準(zhǔn)化考試主觀評(píng)分人工復(fù)評(píng)中的主觀性問題。

1 Longford（1995）主觀評(píng)分信度研究方法

1.1 Longford（1995）分?jǐn)?shù)調(diào)整基本思想

在主觀題評(píng)分中，被試的表現(xiàn)可能要受到測(cè)驗(yàn)任務(wù)、被試自身水平以及評(píng)分員的影響。對(duì)此，Longford（1995）采用了一種方差分量模型，利用方差分量和收縮系數(shù)提供了有關(guān)被試真分?jǐn)?shù)和評(píng)分員評(píng)分的信息。它將被試、項(xiàng)目、評(píng)分員或評(píng)分組看成是影響真分?jǐn)?shù)的因素或側(cè)面，其中，評(píng)分員的變異有來自評(píng)分員自身的變異和評(píng)分員之間的變異，它們又都可以分解為嚴(yán)厲度方差和不一致性方差（殘項(xiàng)方差）。將影響被試能力的誤差總來源分解后，評(píng)分的質(zhì)量可以用評(píng)分員評(píng)分不一致的方差分量來描述，或者說是用評(píng)分員所估計(jì)的真分?jǐn)?shù)和被試的真實(shí)能力之間的差異，也叫均方誤差（Mean Squared Error，MSE）來評(píng)價(jià)。如果均方誤差太大，超過了一定的限度，就要對(duì)這種有差異的分?jǐn)?shù)進(jìn)行調(diào)整，模型中的收縮系數(shù)可以將均方誤差MSE減小到最低限度，其目的是為了減少由于評(píng)分員評(píng)分的不一致而造成的系統(tǒng)誤差。該方法除了探討影響真分?jǐn)?shù)變異的各種誤差來源外，在分?jǐn)?shù)調(diào)整方面更具優(yōu)勢(shì)?？梢哉f，該模型主要是針對(duì)主觀題評(píng)分問題提出來的，它不需要嚴(yán)格的前提假設(shè)，應(yīng)用簡單，適用性強(qiáng)；而且，該方法重在評(píng)價(jià)整個(gè)評(píng)分過程，關(guān)注的是單個(gè)評(píng)分員的評(píng)分行為，特別適用于大規(guī)模標(biāo)準(zhǔn)化考試的主觀題評(píng)分。另外，它的計(jì)算相對(duì)來說比較簡便，容易操作。

1.2 Longford（1995）殘項(xiàng)調(diào)整模型（UAdj scheme）

大規(guī)模標(biāo)準(zhǔn)化評(píng)分實(shí)踐中，每篇作文一般由兩名評(píng)分員評(píng)分，評(píng)分員的一些狀態(tài)（如情緒波動(dòng)、外界環(huán)境影響、疲勞程度等）會(huì)影響評(píng)分的準(zhǔn)確性。這些因素統(tǒng)稱為評(píng)分員評(píng)分的不一致項(xiàng)或殘項(xiàng)。

如果評(píng)分員本身或評(píng)分員之間存在著差異，他們的評(píng)分就會(huì)影響殘項(xiàng)方差，不能真正反映被試的能力。當(dāng)殘項(xiàng)方差σe2很大的時(shí)候，有必要對(duì)不一致性分?jǐn)?shù)進(jìn)行調(diào)整，以便更有效地估計(jì)被試的真分?jǐn)?shù)。這種殘項(xiàng)調(diào)整模型可用下式表示：

其中：αi為調(diào)整后的分?jǐn)?shù)；ui是使MSE最小的關(guān)于試題層面的調(diào)整系數(shù)，或叫收縮系數(shù)；yi，zjik和y將在下文介紹。

該模型依賴于對(duì)評(píng)分員的任務(wù)分配，也就是說依賴于評(píng)分員的工作量nji。Di，1中的整評(píng)分員評(píng)分殘項(xiàng)。，MSE的值最小。一般情況下，評(píng)分員的工作量大，其收縮系數(shù)就大，但其評(píng)分的MSE反而會(huì)減小；殘項(xiàng)方差大，收縮系數(shù)也大；而真分?jǐn)?shù)方差大，收縮系數(shù)就小。

1.3 方差、和的估計(jì)方法

三個(gè)平方和統(tǒng)計(jì)量的計(jì)算公式：

N=IK表示評(píng)分總次數(shù)，它可以分解為所有評(píng)分員工作量的和，即，N=n1+…+nj。

2 實(shí)驗(yàn)設(shè)計(jì)

2.1 實(shí)驗(yàn)材料

在本實(shí)驗(yàn)中，對(duì)參加2006年10月高等漢語水平考試（HSK）作文評(píng)分，但評(píng)分等級(jí)差異超過3級(jí)（不包括3級(jí)）最多的24名評(píng)分員所評(píng)的1 503份作文的分?jǐn)?shù)運(yùn)用殘項(xiàng)調(diào)整模型進(jìn)行調(diào)整。

2.2 殘項(xiàng)調(diào)整所用的工具

本實(shí)驗(yàn)中方差部分的計(jì)算用FOXPRO6.0自編程序完成；數(shù)據(jù)的分布和一致性分析及其相關(guān)圖表用SPSS11.0完成。

3 分?jǐn)?shù)調(diào)整及結(jié)果

分?jǐn)?shù)調(diào)整前，首先用公式（1-3）和公式（1-4）計(jì)算三個(gè)平方和以及方差的值，它們分別是SE=4451.00，=17383.18，ST=19924.52，=3.70，=0.84，=2.12。由于的值小于的值，因此可以說，此次評(píng)分的誤差主要是由于評(píng)分員的不一致性造成（Longford，1995）。

然后，根據(jù)公式（1-1）和公式（1-2）對(duì)評(píng)分等級(jí)超過3級(jí)的分?jǐn)?shù)進(jìn)行調(diào)整。表1列出了每位評(píng)分員分?jǐn)?shù)調(diào)整的相關(guān)參數(shù)的概要。

表1 評(píng)分員分?jǐn)?shù)調(diào)整相關(guān)參數(shù)概要

4 對(duì)調(diào)整后的分?jǐn)?shù)進(jìn)行檢驗(yàn)

為了對(duì)比分?jǐn)?shù)調(diào)整前后的情況，在表2中給出了分?jǐn)?shù)調(diào)整前后單樣本K-S檢驗(yàn)、卡方檢驗(yàn)以及斯皮爾曼和肯德爾等級(jí)相關(guān)數(shù)據(jù)。從表2可以看出，調(diào)整后的分?jǐn)?shù)較之調(diào)整前的分?jǐn)?shù)有了可觀的改善，調(diào)整后分?jǐn)?shù)的分布更接近正態(tài)。

分?jǐn)?shù)調(diào)整前后評(píng)分員評(píng)分的一致性程度見表3，這些數(shù)據(jù)充分說明分?jǐn)?shù)調(diào)整后評(píng)分員間的評(píng)分誤差大大減小。

表2 分?jǐn)?shù)調(diào)整前后評(píng)分員評(píng)分的數(shù)據(jù)檢驗(yàn)結(jié)果

表3 分?jǐn)?shù)調(diào)整前后評(píng)分員評(píng)分一致性表

5 結(jié)論

本研究利用Longford（1995）介紹的調(diào)整評(píng)分員評(píng)分殘項(xiàng)（不一致項(xiàng)）的方法，對(duì)高等漢語水平考試作文評(píng)分進(jìn)行了一次分?jǐn)?shù)調(diào)整實(shí)驗(yàn)，分?jǐn)?shù)調(diào)整后評(píng)分員評(píng)分的差異明顯減小，更接近被試真實(shí)水平的期望值，而且分?jǐn)?shù)的分布有了很大的改善，用這種方法代替?zhèn)鹘y(tǒng)人工重評(píng)的方法可以提高主觀題考試的信度，同時(shí)也可以提高評(píng)分的效率，它主要表現(xiàn)在以下幾個(gè)方面：

（1）通過對(duì)調(diào)整前后的分?jǐn)?shù)進(jìn)行正態(tài)分布和一致性檢驗(yàn)，發(fā)現(xiàn)調(diào)整以后的分?jǐn)?shù)的真分?jǐn)?shù)方差增大，殘項(xiàng)方差和均方誤差MSE都比分?jǐn)?shù)調(diào)整前減小。

（2）分?jǐn)?shù)調(diào)整前評(píng)分等級(jí)差超過（含）4級(jí)以上需要調(diào)整的作文共有243份，經(jīng)過殘項(xiàng)調(diào)整模型調(diào)整后的有效作文有216份①在進(jìn)行殘項(xiàng)調(diào)整時(shí)，實(shí)際上所有的243份作文的分?jǐn)?shù)都得到了調(diào)整，只是由于HSK作文評(píng)分量表沒有小數(shù)，在進(jìn)行四舍五入運(yùn)算時(shí)，有一部分調(diào)整分?jǐn)?shù)被舍去，因而有效的作文調(diào)整份數(shù)為216，這一點(diǎn)反映了該模型的保守性。，占總數(shù)的88.9%。分?jǐn)?shù)調(diào)整后，評(píng)分員之間的評(píng)分一致性顯著增強(qiáng)：等級(jí)差超過（包括）4級(jí)以上的作文只有92份，僅占總數(shù)的6.1%，這比分?jǐn)?shù)調(diào)整前降低了10.1%。

（3）評(píng)分員之間的評(píng)分差異經(jīng)過分?jǐn)?shù)調(diào)整后也大大縮小，評(píng)分更趨中，有差異的分?jǐn)?shù)大多都調(diào)整到了3級(jí)以內(nèi)（包括3級(jí)）。比如：被試302523200108的原始分?jǐn)?shù)等級(jí)是5級(jí)和9級(jí)，殘項(xiàng)調(diào)整模型調(diào)整的結(jié)果為6級(jí)和8級(jí)。

（4）評(píng)分員之間的相關(guān)系數(shù)改善了很多，分?jǐn)?shù)調(diào)整以后更服從正態(tài)分布。

應(yīng)用殘項(xiàng)調(diào)整模型以后，評(píng)分員的評(píng)分一致性顯著提高，但應(yīng)用該模型也存在一些不盡如意的地方：（1）進(jìn)行殘項(xiàng)調(diào)整后，仍有92份作文的等級(jí)差超過（含）4級(jí)；（2）有些作文的等級(jí)差比殘項(xiàng)調(diào)整前更大了。比如：分?jǐn)?shù)調(diào)整前，被試501525100087的評(píng)分等級(jí)為11級(jí)和7級(jí)，進(jìn)行殘項(xiàng)調(diào)整后，該被試的分?jǐn)?shù)等級(jí)為11級(jí)和6級(jí)。這種情況約占7%，雖然數(shù)量不多，但也影響到了分?jǐn)?shù)調(diào)整的質(zhì)量。造成這種情況的原因是評(píng)分員評(píng)分內(nèi)部不一致性造成的，這就要求評(píng)分員在評(píng)分時(shí)一定要保持內(nèi)部一致性，不要忽高忽低。

[1]Lunz，M.E.，Wright，B.D.，and Linacre，J.M.Measuring the impact of judge severity on examination scores.Applied Measurement in Education，1990（3）:331-345.

[2]Longford，T.Models for Uncertainty in Educational Testing.New York:Springer-Verlag New York，Inc.1995.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡