国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高等漢語水平考試作文評(píng)分的調(diào)整——評(píng)分員殘項(xiàng)調(diào)整模型的應(yīng)用

2012-11-08 08:05李傳益
中國考試 2012年12期
關(guān)鍵詞:真分?jǐn)?shù)方差調(diào)整

李傳益

作文等主觀性試題的評(píng)分差異太大時(shí)需要組織評(píng)分員進(jìn)行重評(píng),而采用傳統(tǒng)人工重評(píng)的方法費(fèi)時(shí)費(fèi)力,且仍然解決不了重評(píng)中存在的主觀性問題。那么,對(duì)于評(píng)分差異能否尋求另外的方法來解決?正如Lunz etal.(1990)所說:“由評(píng)分員個(gè)體差異所引起的評(píng)分差異我們是無法預(yù)先估計(jì)的,但是為了保證分?jǐn)?shù)的可靠性,我們需要對(duì)評(píng)分員的某些特征進(jìn)行數(shù)學(xué)上的客觀調(diào)整”。

本文嘗試用Longford介紹的調(diào)整評(píng)分員不一致項(xiàng)(殘項(xiàng))的方法對(duì)評(píng)分員給出的差異較大的分?jǐn)?shù)進(jìn)行客觀、數(shù)學(xué)上的調(diào)整,希望這種調(diào)整方法能最大限度地減少評(píng)分誤差,使評(píng)分員給出的分?jǐn)?shù)盡量接近被試的能力,并能解決大規(guī)模標(biāo)準(zhǔn)化考試主觀評(píng)分人工復(fù)評(píng)中的主觀性問題。

1 Longford(1995)主觀評(píng)分信度研究方法

1.1 Longford(1995)分?jǐn)?shù)調(diào)整基本思想

在主觀題評(píng)分中,被試的表現(xiàn)可能要受到測(cè)驗(yàn)任務(wù)、被試自身水平以及評(píng)分員的影響。對(duì)此,Longford(1995)采用了一種方差分量模型,利用方差分量和收縮系數(shù)提供了有關(guān)被試真分?jǐn)?shù)和評(píng)分員評(píng)分的信息。它將被試、項(xiàng)目、評(píng)分員或評(píng)分組看成是影響真分?jǐn)?shù)的因素或側(cè)面,其中,評(píng)分員的變異有來自評(píng)分員自身的變異和評(píng)分員之間的變異,它們又都可以分解為嚴(yán)厲度方差和不一致性方差(殘項(xiàng)方差)。將影響被試能力的誤差總來源分解后,評(píng)分的質(zhì)量可以用評(píng)分員評(píng)分不一致的方差分量來描述,或者說是用評(píng)分員所估計(jì)的真分?jǐn)?shù)和被試的真實(shí)能力之間的差異,也叫均方誤差(Mean Squared Error,MSE)來評(píng)價(jià)。如果均方誤差太大,超過了一定的限度,就要對(duì)這種有差異的分?jǐn)?shù)進(jìn)行調(diào)整,模型中的收縮系數(shù)可以將均方誤差MSE減小到最低限度,其目的是為了減少由于評(píng)分員評(píng)分的不一致而造成的系統(tǒng)誤差。該方法除了探討影響真分?jǐn)?shù)變異的各種誤差來源外,在分?jǐn)?shù)調(diào)整方面更具優(yōu)勢(shì)??梢哉f,該模型主要是針對(duì)主觀題評(píng)分問題提出來的,它不需要嚴(yán)格的前提假設(shè),應(yīng)用簡單,適用性強(qiáng);而且,該方法重在評(píng)價(jià)整個(gè)評(píng)分過程,關(guān)注的是單個(gè)評(píng)分員的評(píng)分行為,特別適用于大規(guī)模標(biāo)準(zhǔn)化考試的主觀題評(píng)分。另外,它的計(jì)算相對(duì)來說比較簡便,容易操作。

1.2 Longford(1995)殘項(xiàng)調(diào)整模型(UAdj scheme)

大規(guī)模標(biāo)準(zhǔn)化評(píng)分實(shí)踐中,每篇作文一般由兩名評(píng)分員評(píng)分,評(píng)分員的一些狀態(tài)(如情緒波動(dòng)、外界環(huán)境影響、疲勞程度等)會(huì)影響評(píng)分的準(zhǔn)確性。這些因素統(tǒng)稱為評(píng)分員評(píng)分的不一致項(xiàng)或殘項(xiàng)。

如果評(píng)分員本身或評(píng)分員之間存在著差異,他們的評(píng)分就會(huì)影響殘項(xiàng)方差,不能真正反映被試的能力。當(dāng)殘項(xiàng)方差σe2很大的時(shí)候,有必要對(duì)不一致性分?jǐn)?shù)進(jìn)行調(diào)整,以便更有效地估計(jì)被試的真分?jǐn)?shù)。這種殘項(xiàng)調(diào)整模型可用下式表示:

其中:αi為調(diào)整后的分?jǐn)?shù);ui是使MSE最小的關(guān)于試題層面的調(diào)整系數(shù),或叫收縮系數(shù);yi,zjik和y將在下文介紹。

該模型依賴于對(duì)評(píng)分員的任務(wù)分配,也就是說依賴于評(píng)分員的工作量nji。Di,1中的整評(píng)分員評(píng)分殘項(xiàng)。,MSE的值最小。一般情況下,評(píng)分員的工作量大,其收縮系數(shù)就大,但其評(píng)分的MSE反而會(huì)減小;殘項(xiàng)方差大,收縮系數(shù)也大;而真分?jǐn)?shù)方差大,收縮系數(shù)就小。

1.3 方差、和的估計(jì)方法

三個(gè)平方和統(tǒng)計(jì)量的計(jì)算公式:

N=IK表示評(píng)分總次數(shù),它可以分解為所有評(píng)分員工作量的和,即,N=n1+…+nj。

2 實(shí)驗(yàn)設(shè)計(jì)

2.1 實(shí)驗(yàn)材料

在本實(shí)驗(yàn)中,對(duì)參加2006年10月高等漢語水平考試(HSK)作文評(píng)分,但評(píng)分等級(jí)差異超過3級(jí)(不包括3級(jí))最多的24名評(píng)分員所評(píng)的1 503份作文的分?jǐn)?shù)運(yùn)用殘項(xiàng)調(diào)整模型進(jìn)行調(diào)整。

2.2 殘項(xiàng)調(diào)整所用的工具

本實(shí)驗(yàn)中方差部分的計(jì)算用FOXPRO6.0自編程序完成;數(shù)據(jù)的分布和一致性分析及其相關(guān)圖表用SPSS11.0完成。

3 分?jǐn)?shù)調(diào)整及結(jié)果

分?jǐn)?shù)調(diào)整前,首先用公式(1-3)和公式(1-4)計(jì)算三個(gè)平方和以及方差的值,它們分別是SE=4451.00,=17383.18,ST=19924.52,=3.70,=0.84,=2.12。由于的值小于的值,因此可以說,此次評(píng)分的誤差主要是由于評(píng)分員的不一致性造成(Longford,1995)。

然后,根據(jù)公式(1-1)和公式(1-2)對(duì)評(píng)分等級(jí)超過3級(jí)的分?jǐn)?shù)進(jìn)行調(diào)整。表1列出了每位評(píng)分員分?jǐn)?shù)調(diào)整的相關(guān)參數(shù)的概要。

表1 評(píng)分員分?jǐn)?shù)調(diào)整相關(guān)參數(shù)概要

4 對(duì)調(diào)整后的分?jǐn)?shù)進(jìn)行檢驗(yàn)

為了對(duì)比分?jǐn)?shù)調(diào)整前后的情況,在表2中給出了分?jǐn)?shù)調(diào)整前后單樣本K-S檢驗(yàn)、卡方檢驗(yàn)以及斯皮爾曼和肯德爾等級(jí)相關(guān)數(shù)據(jù)。從表2可以看出,調(diào)整后的分?jǐn)?shù)較之調(diào)整前的分?jǐn)?shù)有了可觀的改善,調(diào)整后分?jǐn)?shù)的分布更接近正態(tài)。

分?jǐn)?shù)調(diào)整前后評(píng)分員評(píng)分的一致性程度見表3,這些數(shù)據(jù)充分說明分?jǐn)?shù)調(diào)整后評(píng)分員間的評(píng)分誤差大大減小。

表2 分?jǐn)?shù)調(diào)整前后評(píng)分員評(píng)分的數(shù)據(jù)檢驗(yàn)結(jié)果

表3 分?jǐn)?shù)調(diào)整前后評(píng)分員評(píng)分一致性表

5 結(jié)論

本研究利用Longford(1995)介紹的調(diào)整評(píng)分員評(píng)分殘項(xiàng)(不一致項(xiàng))的方法,對(duì)高等漢語水平考試作文評(píng)分進(jìn)行了一次分?jǐn)?shù)調(diào)整實(shí)驗(yàn),分?jǐn)?shù)調(diào)整后評(píng)分員評(píng)分的差異明顯減小,更接近被試真實(shí)水平的期望值,而且分?jǐn)?shù)的分布有了很大的改善,用這種方法代替?zhèn)鹘y(tǒng)人工重評(píng)的方法可以提高主觀題考試的信度,同時(shí)也可以提高評(píng)分的效率,它主要表現(xiàn)在以下幾個(gè)方面:

(1)通過對(duì)調(diào)整前后的分?jǐn)?shù)進(jìn)行正態(tài)分布和一致性檢驗(yàn),發(fā)現(xiàn)調(diào)整以后的分?jǐn)?shù)的真分?jǐn)?shù)方差增大,殘項(xiàng)方差和均方誤差MSE都比分?jǐn)?shù)調(diào)整前減小。

(2)分?jǐn)?shù)調(diào)整前評(píng)分等級(jí)差超過(含)4級(jí)以上需要調(diào)整的作文共有243份,經(jīng)過殘項(xiàng)調(diào)整模型調(diào)整后的有效作文有216份①在進(jìn)行殘項(xiàng)調(diào)整時(shí),實(shí)際上所有的243份作文的分?jǐn)?shù)都得到了調(diào)整,只是由于HSK作文評(píng)分量表沒有小數(shù),在進(jìn)行四舍五入運(yùn)算時(shí),有一部分調(diào)整分?jǐn)?shù)被舍去,因而有效的作文調(diào)整份數(shù)為216,這一點(diǎn)反映了該模型的保守性。,占總數(shù)的88.9%。分?jǐn)?shù)調(diào)整后,評(píng)分員之間的評(píng)分一致性顯著增強(qiáng):等級(jí)差超過(包括)4級(jí)以上的作文只有92份,僅占總數(shù)的6.1%,這比分?jǐn)?shù)調(diào)整前降低了10.1%。

(3)評(píng)分員之間的評(píng)分差異經(jīng)過分?jǐn)?shù)調(diào)整后也大大縮小,評(píng)分更趨中,有差異的分?jǐn)?shù)大多都調(diào)整到了3級(jí)以內(nèi)(包括3級(jí))。比如:被試302523200108的原始分?jǐn)?shù)等級(jí)是5級(jí)和9級(jí),殘項(xiàng)調(diào)整模型調(diào)整的結(jié)果為6級(jí)和8級(jí)。

(4)評(píng)分員之間的相關(guān)系數(shù)改善了很多,分?jǐn)?shù)調(diào)整以后更服從正態(tài)分布。

應(yīng)用殘項(xiàng)調(diào)整模型以后,評(píng)分員的評(píng)分一致性顯著提高,但應(yīng)用該模型也存在一些不盡如意的地方:(1)進(jìn)行殘項(xiàng)調(diào)整后,仍有92份作文的等級(jí)差超過(含)4級(jí);(2)有些作文的等級(jí)差比殘項(xiàng)調(diào)整前更大了。比如:分?jǐn)?shù)調(diào)整前,被試501525100087的評(píng)分等級(jí)為11級(jí)和7級(jí),進(jìn)行殘項(xiàng)調(diào)整后,該被試的分?jǐn)?shù)等級(jí)為11級(jí)和6級(jí)。這種情況約占7%,雖然數(shù)量不多,但也影響到了分?jǐn)?shù)調(diào)整的質(zhì)量。造成這種情況的原因是評(píng)分員評(píng)分內(nèi)部不一致性造成的,這就要求評(píng)分員在評(píng)分時(shí)一定要保持內(nèi)部一致性,不要忽高忽低。

[1]Lunz,M.E.,Wright,B.D.,and Linacre,J.M.Measuring the impact of judge severity on examination scores.Applied Measurement in Education,1990(3):331-345.

[2]Longford,T.Models for Uncertainty in Educational Testing.New York:Springer-Verlag New York,Inc.1995.

猜你喜歡
真分?jǐn)?shù)方差調(diào)整
夏季午睡越睡越困該如何調(diào)整
概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
工位大調(diào)整
方差越小越好?
計(jì)算方差用哪個(gè)公式
最簡真分?jǐn)?shù)的個(gè)數(shù)
滬指快速回落 調(diào)整中可增持白馬
方差生活秀
真分?jǐn)?shù)與假分?jǐn)?shù)的質(zhì)疑與思考
真分?jǐn)?shù)不等式“a+mb+m>ab”