從寫作測(cè)驗(yàn)信度研究看開(kāi)放式測(cè)評(píng)的發(fā)展趨勢(shì)——概化理論的視角

2014-04-08 18:57:24馮瑞龍

海外華文教育 2014年2期

馮瑞龍朱宇

(北京師范大學(xué)香港浸會(huì)大學(xué)聯(lián)合國(guó)際學(xué)院，中國(guó)珠海519085;廈門大學(xué)海外教育學(xué)院，中國(guó)廈門361102)

一、引言

開(kāi)放式測(cè)評(píng)具有悠久的歷史。所謂開(kāi)放式測(cè)評(píng)指測(cè)驗(yàn)題目的正確答案并非唯一固定的，被試可以甚至被鼓勵(lì)作出基于自身理解的獨(dú)特解答。開(kāi)放式測(cè)評(píng)有著封閉式測(cè)評(píng)無(wú)法比擬的優(yōu)越性，因?yàn)楸辉噷?duì)其作答往往能向各種測(cè)評(píng)成績(jī)用家提供豐富的信息。這些信息可以被用于更好地理解被試被測(cè)評(píng)的知識(shí)、態(tài)度或能力，使測(cè)評(píng)的診斷性功能更加強(qiáng)化、更具個(gè)體性，并最終更好地達(dá)到通過(guò)測(cè)評(píng)幫助改善教學(xué)或幫助被試進(jìn)步的目標(biāo)。開(kāi)放式測(cè)評(píng)的這一優(yōu)點(diǎn)還使它在教育以外的多種測(cè)評(píng)中大有用武之地。但同時(shí)，開(kāi)放性測(cè)評(píng)與封閉式測(cè)評(píng)相比又有著自身的劣勢(shì)，除了評(píng)分/級(jí)標(biāo)準(zhǔn)難以厘定、過(guò)程費(fèi)力耗時(shí)之外，最嚴(yán)重的問(wèn)題恐怕就是其信度往往難以達(dá)到比較理想的水平了。而信度不僅是衡量測(cè)評(píng)質(zhì)量的兩個(gè)重要指標(biāo)之一，更是達(dá)至另一個(gè)指標(biāo)—效度的前提條件。在很大程度上，人們甚至可以說(shuō)，正是由于開(kāi)放式測(cè)評(píng)不夠嚴(yán)謹(jǐn)、科學(xué)，才導(dǎo)致了封閉式測(cè)評(píng)在近現(xiàn)代的產(chǎn)生與崛起。然而，隨著教育與心理測(cè)量領(lǐng)域理論與技術(shù)的不斷進(jìn)步，信度，這一曾經(jīng)威脅開(kāi)放式測(cè)評(píng)的生存與發(fā)展的瓶頸性問(wèn)題已經(jīng)不再是無(wú)法突破和解決的了。

本文即旨在通過(guò)比較信度理論當(dāng)前并存的三個(gè)主流學(xué)派，甄選最適合通過(guò)改進(jìn)測(cè)驗(yàn)設(shè)計(jì)提升測(cè)評(píng)信度的理論工具——概化理論，并在此基礎(chǔ)上梳理、述評(píng)近20年來(lái)概化理論用于指導(dǎo)寫作成績(jī)信度研究的案例，最后提出概化理論可進(jìn)一步發(fā)展和完善的方向。限于篇幅，本文無(wú)法全面回顧以概化理論為視角的開(kāi)放式測(cè)評(píng)信度研究，只能選取開(kāi)放式測(cè)評(píng)的一個(gè)典型代表。之所以選擇作文考試為開(kāi)放式測(cè)評(píng)的典型代表是因?yàn)樽魑倪@一考試形式歷史悠久、廣為人知，雖備受爭(zhēng)議但始終難以取代，因此可謂開(kāi)放式測(cè)評(píng)的常青藤式的代表。

開(kāi)放式測(cè)評(píng)能否有效提升信度，不僅關(guān)乎這種測(cè)評(píng)形式本身的命運(yùn)，同時(shí)還與測(cè)評(píng)界的趨勢(shì)性新潮流——真實(shí)性測(cè)評(píng)(authentic testing)的發(fā)展前途息息相關(guān)。可以說(shuō)，如果信度問(wèn)題不能找到有效解決途徑，開(kāi)放式測(cè)評(píng)就難以取得立足之地，真實(shí)性測(cè)評(píng)的崛起也就可能永遠(yuǎn)淪為紙上談兵。那信度理論當(dāng)今有哪些流派?其優(yōu)勢(shì)與劣勢(shì)各有哪些?這其中適合通過(guò)改善測(cè)評(píng)設(shè)計(jì)提升開(kāi)放式測(cè)評(píng)信度的理論是哪一個(gè)?這一理論指導(dǎo)下的研究現(xiàn)狀與動(dòng)向是怎樣的?所有這些問(wèn)題的解答，都要從信度流派的分析與比較開(kāi)始。

二、信度理論流派的簡(jiǎn)介與比較

(一)經(jīng)典測(cè)試?yán)碚?CTT)的信度觀

經(jīng)典測(cè)試?yán)碚搶⒃嚲碛^測(cè)分?jǐn)?shù)的信度定義為真分?jǐn)?shù)的方差與觀測(cè)分?jǐn)?shù)方差的比率。而觀測(cè)分?jǐn)?shù)的方差又等于真分?jǐn)?shù)的方差和誤差分的方差之和。由于真分?jǐn)?shù)是無(wú)法預(yù)知的，所以上述定義是無(wú)法用于直接測(cè)算測(cè)驗(yàn)信度的。然而，通過(guò)平行試卷或者重復(fù)施測(cè)等方法是可以估算該測(cè)驗(yàn)的信度值的，例如常用的克朗巴赫和重測(cè)信度指標(biāo)就是以這兩種方法計(jì)算測(cè)驗(yàn)信度的典型代表。

評(píng)卷員信度是經(jīng)典測(cè)試?yán)碚搶?duì)主觀評(píng)分的測(cè)驗(yàn)所能考察的一項(xiàng)重要指標(biāo)。經(jīng)典測(cè)試?yán)碚撏ǔ⒃u(píng)卷員信度分為評(píng)卷員間的一致性信度和評(píng)卷員內(nèi)部一致性信度兩種。

評(píng)卷員間一致性信度(即Inter-rater Reliability或Intraclass Correlation Coefficient，以下縮寫為ICC)描述的是同一組內(nèi)的個(gè)體在多大程度上具有一致性，能用于衡量多名評(píng)卷員對(duì)特定被試在給定測(cè)量上作答之主觀評(píng)分的近似程度。ICC最早被提出起于對(duì)皮爾遜相關(guān)系數(shù)的改進(jìn)。皮爾遜相關(guān)系數(shù)在估算時(shí)，考慮了配對(duì)組成員得分的排序，而這種排序在評(píng)卷員一致性的估算中是無(wú)意義通常也是無(wú)根據(jù)的。因此，在估計(jì)ICC時(shí)，將皮爾遜相關(guān)系數(shù)計(jì)算過(guò)程中分別計(jì)算的兩個(gè)測(cè)驗(yàn)的均值和標(biāo)準(zhǔn)差進(jìn)行了合并計(jì)算。為了解決實(shí)測(cè)數(shù)據(jù)中的數(shù)據(jù)缺失或每個(gè)被試不一定由同樣多的評(píng)卷員評(píng)分的問(wèn)題，上述ICC概念又得到進(jìn)一步發(fā)展演化(Wikipedia，2010)。ICC被定義為組間方差占總方差(組間方差與誤差項(xiàng)方差之和)的比重。而這些方差又是根據(jù)隨機(jī)效應(yīng)模型Yij=μ+αi +εij估算的。其中Yij表示第i個(gè)分?jǐn)?shù)組的第j個(gè)觀測(cè)到的得分，μ是所有分?jǐn)?shù)的均值，αi是第i個(gè)組內(nèi)所有分?jǐn)?shù)共享的隨機(jī)效應(yīng)，εij為第i個(gè)分?jǐn)?shù)組內(nèi)第j個(gè)觀測(cè)值的干擾項(xiàng)。

評(píng)卷員內(nèi)部一致性信度本質(zhì)是一種重測(cè)信度，表述的是給定評(píng)卷員對(duì)某被試前后兩次或以上主觀評(píng)分的一致性。其估算也可套用上述ICC的隨機(jī)效應(yīng)模型，只是在數(shù)據(jù)處理上需把評(píng)卷員分?jǐn)?shù)構(gòu)成的組別替換成由前后數(shù)個(gè)批次評(píng)分值形成的組別(Julius Sim＆Chris Wright，2000:335)。

(二)項(xiàng)目反應(yīng)理論(IRT)拉氏模型中的信度

Linacre(1989)在拉氏模型(George Rasch，1980)的基礎(chǔ)上發(fā)展出多面拉氏模型。它除了能估算獨(dú)立于樣本的被試能力和題目難度之外，還能用于延伸估算不同評(píng)卷員對(duì)評(píng)卷標(biāo)準(zhǔn)把握的松緊程度、同一評(píng)卷員在不同評(píng)分場(chǎng)次中評(píng)分的差別等等。

多面拉氏模型分析能夠提供每個(gè)層面的每個(gè)個(gè)體的內(nèi)、外擬合值。這些值的均值為1。當(dāng)內(nèi)、外擬合值取值在0.5至1之間時(shí)，測(cè)評(píng)是富有成效的。當(dāng)它們大于1.5小于2時(shí)，表明測(cè)評(píng)不夠精準(zhǔn)，但尚可接受。大于2時(shí)，測(cè)評(píng)結(jié)果是扭曲不可信的。

多面拉氏模型還可以用來(lái)計(jì)算區(qū)分性層面功能。這包括區(qū)分性項(xiàng)目功能，即某個(gè)被試群在某個(gè)題項(xiàng)上的作答模式與能力相當(dāng)?shù)钠渌辉嚾河酗@著差異;區(qū)分性閱卷員功能，即在被試能力相當(dāng)?shù)那疤嵯?，某個(gè)閱卷員對(duì)一個(gè)被試群體的打分明顯不同于其他閱卷員對(duì)該被試群體的評(píng)分(George Engelhard，2008);區(qū)分性被試功能，即在題目難度相同的前提下，被試個(gè)體在某個(gè)內(nèi)容領(lǐng)域題目上的得分與其在另外內(nèi)容領(lǐng)域題目上的得分有顯著差別 (George Johanson＆Abdalla Alsmadi，1998)。是否存在上述區(qū)分性層面功能是通過(guò)層面之間的交互作用的估值來(lái)判定的。每一個(gè)交互作用被相應(yīng)的區(qū)分性層面功能分析賦予一個(gè)偏差估計(jì)值，當(dāng)該值Z分?jǐn)?shù)的絕對(duì)值大于或等于2時(shí)，一般認(rèn)為該層面的區(qū)分性功能顯著。如果發(fā)現(xiàn)存在區(qū)分性項(xiàng)目功能則暗示所考察的測(cè)驗(yàn)題目可能有待改進(jìn);如區(qū)分性閱卷員功能顯著則提示該閱卷員打分可能出現(xiàn)了較大偏差;而顯著的區(qū)分性被試功能則能反映出考生個(gè)體對(duì)所測(cè)的具體知識(shí)或能力在掌握上的失衡狀態(tài)。

信度也是多面拉氏模型涉獵的范疇之一。使用拉氏模型的數(shù)據(jù)分析能提供兩個(gè)信度統(tǒng)計(jì)量，一個(gè)是取值范圍在0和1之間的分割指標(biāo)信度，另一個(gè)是取值范圍在1和正無(wú)窮之間的分割比。盡管拉氏模型對(duì)于每一個(gè)面的分析均能得到這兩種估值，但通常被試層面的這兩個(gè)估值越大越好，而其他層面的這兩個(gè)值則越小越好。因其他各層面中各要素帶來(lái)的差異性與被試能力無(wú)關(guān)。倘若這些層面各要素間的差異性較小則能反映測(cè)量有較高的一致性。但如果被試層面各要素(即每一個(gè)被試個(gè)體)之間差異性較小，反映的就是評(píng)卷員難以區(qū)分被試，因而屬于一種不理想的情況。

(三)概化理論(GT)的信度評(píng)估途徑

概化理論認(rèn)為被試觀測(cè)成績(jī)的方差是可以分解為多個(gè)方差分量的。這其中既包括人們希望通過(guò)寫作測(cè)試發(fā)現(xiàn)的因被試寫作水平的差異造成的寫作成績(jī)的方差分量(又稱為測(cè)量目標(biāo)方差)，也包括干擾因素造成的方差分量。采用概化理論的G研究數(shù)據(jù)分析技術(shù)能對(duì)這些方差分量進(jìn)行估算。測(cè)量目標(biāo)方差分量在寫作成績(jī)方差中所占的比重越大，寫作成績(jī)就越可靠。而為了提高寫作成績(jī)的可推廣性或可靠性，就需要通過(guò)控制降低比重大的數(shù)個(gè)干擾性方差分量，而D研究分析技術(shù)則能讓人們?cè)贕研究結(jié)果的基礎(chǔ)上了解改變干擾變量的數(shù)量，如改變?cè)u(píng)卷員、試題的數(shù)量或閱卷方案等會(huì)造成測(cè)試成績(jī)信度的何種變化，從而幫助確定能保證理想信度的最佳施測(cè)及評(píng)分措施。

概化理論在估算信度時(shí)，區(qū)分了常模參照與標(biāo)準(zhǔn)參照測(cè)試的信度系數(shù)。前者即所謂g系數(shù)，后者為Phi系數(shù)。這兩種系數(shù)在估算時(shí)均以測(cè)驗(yàn)對(duì)象為來(lái)源的方差為分子，該方差也是分母的兩個(gè)加和項(xiàng)之一。另一個(gè)加和項(xiàng)對(duì)于g系數(shù)而言是相對(duì)誤差項(xiàng)方差，指測(cè)驗(yàn)對(duì)象與G研究設(shè)計(jì)的各個(gè)層面的交互作用造成的方差分量之和。而對(duì)Phi系數(shù)而言，它是絕對(duì)誤差項(xiàng)方差，是除了測(cè)驗(yàn)對(duì)象方差分量以外的各個(gè)方差之和。

(四)信度流派的述評(píng)

經(jīng)典測(cè)量理論框架下的信度估算最大的優(yōu)點(diǎn)在于應(yīng)用經(jīng)典測(cè)量理論模型的前提條件較低，實(shí)測(cè)數(shù)據(jù)很容易滿足。缺點(diǎn)一是在于它無(wú)力估算被試能力方差之外的每一個(gè)方差分量，也就無(wú)法指認(rèn)需首先控制的一些方差因素，更無(wú)從對(duì)如何改善現(xiàn)有測(cè)量的信度提出測(cè)驗(yàn)設(shè)計(jì)方面的建議。另外，其估算值受具體使用的被試和試卷樣本影響非常大，是不能獨(dú)立于樣本的估值。

項(xiàng)目反應(yīng)理論的拉氏模型與經(jīng)典測(cè)試?yán)碚摰男哦扔^和概化理論信度理念最大的不同在于它的分析結(jié)果是獨(dú)立于具體樣本的。而且其著眼點(diǎn)更加細(xì)微。它對(duì)于信度的估值不是某個(gè)測(cè)驗(yàn)的整體信度，而是給出每一個(gè)層面的每一個(gè)要素的測(cè)量信度(分割指標(biāo)信度以及分割比)。若要改善信度，就可從改進(jìn)那些信度不理想的層面入手。比如，如果發(fā)現(xiàn)評(píng)卷員層面的信度指標(biāo)較低，且發(fā)現(xiàn)區(qū)分性評(píng)卷員功能顯著，就可以考慮如何合理篩選評(píng)卷員、改良評(píng)卷員培訓(xùn)或監(jiān)控評(píng)分過(guò)程與質(zhì)量。然而項(xiàng)目反應(yīng)理論的拉氏模型卻不能展示測(cè)驗(yàn)或評(píng)分因素的變動(dòng)會(huì)如何影響測(cè)驗(yàn)信度。

概化理論的信度分析結(jié)果雖然不能做到樣本獨(dú)立，而且無(wú)法獲取每一名被試或各影響因素每一個(gè)層次的信度指標(biāo)，但是卻能夠指認(rèn)對(duì)信度干擾較大的方差分量的來(lái)源，能夠通過(guò)全交叉的G研究推出試題因素、評(píng)卷因素層面的各種嵌套設(shè)計(jì)的方差分量估值，并且能夠通過(guò)D研究展示每一種設(shè)計(jì)下，各個(gè)層面數(shù)量的變化將會(huì)如何影響測(cè)驗(yàn)的信度。

最后值得一提的是上述三個(gè)理論指導(dǎo)的信度估值在數(shù)量上具有某種對(duì)應(yīng)關(guān)系。具體而言:在拉氏模型中被試層面的分割指標(biāo)信度與經(jīng)典測(cè)量理論中的克朗巴赫信度指標(biāo)是一樣的。而在概化理論中，單面設(shè)計(jì)(即將試題作為對(duì)測(cè)量造成干擾性變異的唯一層面)的g信度系數(shù)與傳統(tǒng)的克朗巴赫信度指標(biāo)一致。如果是多面概化理論模型，所得g信度系數(shù)將低于克朗巴赫信度，而在概化理論的各種設(shè)計(jì)中，用于評(píng)估標(biāo)準(zhǔn)參照的phi信度指標(biāo)又一定不會(huì)高于相應(yīng)設(shè)計(jì)的g信度指標(biāo)。

通過(guò)信度主要理論流派的比較發(fā)現(xiàn)，經(jīng)典測(cè)量理論中的信度系數(shù)是衡量評(píng)卷員信度的重要方法，但對(duì)考生變量、題目變量等其他可能影響測(cè)評(píng)信度的變量則無(wú)能為力(何蓮珍、閔尚超，2008)。項(xiàng)目反應(yīng)理論，特別是多面拉氏模型能根據(jù)統(tǒng)計(jì)分析調(diào)節(jié)評(píng)分人、寫作題目的難度以及寫作測(cè)評(píng)過(guò)程中其他變量對(duì)寫作成績(jī)信度的干擾，從而為獲得客觀、公平地測(cè)量寫作能力提供一個(gè)框架(George Engelhard，1992)。概化理論使測(cè)試使用者能以G研究估計(jì)出不同誤差來(lái)源的相對(duì)影響，并能在D研究中預(yù)測(cè)在某個(gè)特定的測(cè)試情況下提高信度的辦法(Lyle Bachman，1999)。項(xiàng)目反應(yīng)理論的多面拉氏模型長(zhǎng)于通過(guò)調(diào)整被試成績(jī)提高測(cè)驗(yàn)信度，而概化理論長(zhǎng)于通過(guò)測(cè)驗(yàn)設(shè)計(jì)和閱卷設(shè)計(jì)改善測(cè)評(píng)信度。提高寫作測(cè)評(píng)信度首先要提升測(cè)驗(yàn)和評(píng)卷質(zhì)量，而基于概化理論的信度研究是能為該環(huán)節(jié)提供重要參考的關(guān)鍵性文獻(xiàn)。本文限于篇幅，不再述評(píng)基于經(jīng)典測(cè)評(píng)理論和項(xiàng)目反應(yīng)理論的信度研究，而是集中論述近二十年國(guó)內(nèi)外以概化理論為指導(dǎo)的寫作測(cè)評(píng)研究，以期為漢語(yǔ)為外語(yǔ)的寫作測(cè)評(píng)試題和閱卷設(shè)計(jì)提供參考、借鑒。

三、基于概化理論(GT)的寫作測(cè)驗(yàn)信度研究述評(píng)

在教育測(cè)評(píng)領(lǐng)域，客觀題評(píng)分信度較為理想，然而其效度卻越來(lái)越為人質(zhì)疑甚至詬病，而主觀題雖然更符合真實(shí)測(cè)評(píng)的理念，效度也相對(duì)較高，但評(píng)分標(biāo)準(zhǔn)難以客觀把握、測(cè)驗(yàn)成績(jī)的可推廣性不理想?yún)s也是長(zhǎng)期困擾教育實(shí)踐者，并引發(fā)教育測(cè)評(píng)研究者關(guān)注與思考的一個(gè)難題。具體到寫作能力，直接測(cè)評(píng)(即以被試的寫作成品為評(píng)分依據(jù))雖屬傳統(tǒng)手段，但也是得到普遍認(rèn)可的最佳測(cè)量方法之一?，F(xiàn)將國(guó)內(nèi)外期刊論文數(shù)據(jù)庫(kù)近20年基于概化理論的寫作測(cè)評(píng)研究扼要述評(píng)如下，以期為日后相關(guān)研究提供一定的便利。

(一)關(guān)于寫作題型及題量

一次寫作測(cè)試只有一個(gè)題目，是人們司空見(jiàn)慣的現(xiàn)象，在中國(guó)則更是根深蒂固，由來(lái)已久。然而，近年已有多項(xiàng)研究結(jié)果表明增加寫作題目比增加評(píng)卷員能更有效地提高寫作成績(jī)的概化系數(shù)/可靠性。例如:Lee和Kantor(2007)用概化理論的分析工具對(duì)新一代托?？荚嚨淖x寫寫作、聽(tīng)寫寫作、單純寫作等新題型展開(kāi)的預(yù)示研究檢驗(yàn)了多種評(píng)分模式、作文題目數(shù)、評(píng)卷員人數(shù)對(duì)于寫作成績(jī)信度的影響。該研究發(fā)現(xiàn)為了提高成績(jī)的可靠性，增加作文題目數(shù)相較于增加每篇作文的評(píng)卷員是更有效率的作法。Gebril(2009)比較了讀寫和單寫成績(jī)的可推廣性。他分析了由三名評(píng)卷員評(píng)判的115名埃及大學(xué)生兩篇讀寫作文和兩篇單寫作文的整體性得分。結(jié)果表明讀寫任務(wù)同單寫任務(wù)的成績(jī)一樣可靠，但是如果只考一篇作文，寫作成績(jī)的可推廣性就大大降低。而Nie及其同事(2007)以概化理論評(píng)估了數(shù)學(xué)科的替代測(cè)評(píng)—心得寫作的質(zhì)量。29名大學(xué)生完成了給定的數(shù)個(gè)題目的心得寫作，并由2名評(píng)卷員按評(píng)分項(xiàng)目進(jìn)行打分。結(jié)果也表明增加題目數(shù)量比增加評(píng)卷員人數(shù)更有利于提升寫作成績(jī)的可靠性和概化系數(shù)。

還有研究者同時(shí)使用了概化理論以外的分析工具。如:Sudweeks等人(2004)的預(yù)示研究使用概化理論和多面拉氏模型同時(shí)估算了寫作評(píng)分潛在的誤差源和寫作成績(jī)的信度，并據(jù)此提出了改善評(píng)分過(guò)程的建議。結(jié)果顯示寫作題目以及被試與題目的交互作用比較高，而評(píng)卷員和考試場(chǎng)次造成的方差較低。這也意味著增加寫作題目是改善此項(xiàng)寫作測(cè)試成績(jī)可推廣性的有效途徑。

Schoonen(2005)以G研究估算了被試寫作水平、作文題目、評(píng)分的項(xiàng)目(內(nèi)容或語(yǔ)言運(yùn)用等)以及評(píng)分方式(整體性評(píng)分抑或分析性評(píng)分)的效應(yīng)，并通過(guò)結(jié)構(gòu)方程模型估算了寫作分?jǐn)?shù)的方差成份。該研究的被試是89名6年級(jí)學(xué)生，他們被要求寫四篇作文，每篇作文的內(nèi)容組織及語(yǔ)言運(yùn)用兩個(gè)方面被5名評(píng)卷員以整體和分析兩種方式評(píng)分。分析結(jié)果顯示寫作成績(jī)的可推廣性以及評(píng)卷員和寫作題目的效應(yīng)在很大程度上取決于評(píng)分方式與評(píng)分項(xiàng)目。整體而言，寫作題導(dǎo)致的方差要高于評(píng)卷員引入的方差。

在國(guó)內(nèi)，劉遠(yuǎn)我和張厚粲(1998)的研究雖然未發(fā)現(xiàn)寫作題目對(duì)測(cè)試成績(jī)可推廣性的效應(yīng)，但發(fā)現(xiàn)了不同文體對(duì)評(píng)分誤差有重要影響，議論文的評(píng)分誤差最大。羅娟、肖云南(2008)采用多元概化理論對(duì)出國(guó)留學(xué)生英語(yǔ)分班測(cè)試的30位受試的寫作水平進(jìn)行分析，測(cè)試有兩個(gè)寫作任務(wù)，任務(wù)1要求受試發(fā)揮想象力，根據(jù)提供的圖片自由編寫故事;任務(wù)2是受試較熟悉的話題作文，譬如講述自己的學(xué)習(xí)與生活經(jīng)歷、興趣愛(ài)好等。評(píng)分選用Jacobs等人1981年設(shè)計(jì)的二語(yǔ)作文評(píng)分量表“ESL Composition Profile”。研究結(jié)果表明兩個(gè)寫作任務(wù)的合成總分的評(píng)分信度較高。

可見(jiàn)，寫作題型和題量均是影響寫作成績(jī)可推廣性的要素。就題型而言，某些新題型如讀寫寫作或聽(tīng)寫寫作成績(jī)的可靠性并不低于傳統(tǒng)的單純寫作，考慮到這些題型更符合真實(shí)測(cè)評(píng)的原則，漢語(yǔ)寫作水平測(cè)試也可以借鑒采用此類題型為命題寫作的補(bǔ)充。而就所測(cè)的語(yǔ)體來(lái)看，對(duì)議論文的評(píng)分可能相對(duì)更主觀一些，其成績(jī)的可推廣性會(huì)相對(duì)稍差。綜合考慮被試的語(yǔ)言水平，或許在初、中級(jí)漢語(yǔ)寫作水平考試時(shí)，應(yīng)避免強(qiáng)制考生寫議論文體的作文。至于題量方面，所參考的文獻(xiàn)幾乎一致建議相關(guān)測(cè)評(píng)應(yīng)有兩道或者兩道以上的寫作試題，以保障被試寫作成績(jī)的可推廣性。

(二)關(guān)于評(píng)卷員

盡管上述研究都或多或少地表明增加評(píng)卷員恐怕不是提升寫作成績(jī)概化系數(shù)的有效手段，換言之，評(píng)卷員一般不是寫作成績(jī)方差的主要來(lái)源，但寫作評(píng)分過(guò)程中，不同評(píng)卷員對(duì)同一篇作文評(píng)分的差異還是引起了業(yè)內(nèi)一些學(xué)者的注意。例如:Johnson及其同事(2005)就以概化理論研究了多名評(píng)卷員評(píng)分如出現(xiàn)差異應(yīng)如何處理的問(wèn)題，處理該問(wèn)題的不同方法會(huì)對(duì)操作性評(píng)分的信效度產(chǎn)生不同影響。具體而言，Johnson及其同事比較了以評(píng)卷員的平均分為被試最終得分和通過(guò)討論獲得一致性評(píng)分兩種不同方法所得被試寫作成績(jī)的準(zhǔn)確度，并考慮了討論過(guò)程中是否會(huì)出現(xiàn)個(gè)別評(píng)卷員處于支配性地位的情形。研究結(jié)果表明，以計(jì)算平均分或者討論解決評(píng)分差異的效果并沒(méi)有顯著差距，兩者對(duì)于提高評(píng)分精確性均無(wú)太大幫助。在進(jìn)行整體性評(píng)分時(shí)，若以討論方式解決評(píng)分差異，相對(duì)更容易出現(xiàn)個(gè)別評(píng)卷員處于支配性地位的情況。

相較西方的研究，國(guó)內(nèi)的相關(guān)研究更多地發(fā)現(xiàn)了評(píng)卷員對(duì)于作文成績(jī)可推廣性的顯著效應(yīng)。例如，劉遠(yuǎn)我和張厚粲(1998)使用概化理論分析了6位評(píng)卷員對(duì)20名學(xué)生每人三種文體的作文進(jìn)行分析性評(píng)分的數(shù)據(jù)。結(jié)果表明在作文評(píng)分中，評(píng)卷員效應(yīng)最大，題目效應(yīng)不明顯。

此外，國(guó)內(nèi)的一些相關(guān)研究將評(píng)卷員的評(píng)卷經(jīng)驗(yàn)和語(yǔ)言學(xué)背景也考慮在評(píng)卷員效應(yīng)當(dāng)中。趙琪鳳(2010)以個(gè)案調(diào)查的方法對(duì)新老評(píng)卷員在HSK寫作測(cè)試的評(píng)卷員信度進(jìn)行考查，研究從2009年4月的HSK(高等)寫作測(cè)試評(píng)分的48組評(píng)卷員中隨機(jī)抽取了兩組(每組中一老一新兩名評(píng)卷員)，運(yùn)用概化理論對(duì)兩組的評(píng)分信度進(jìn)行了檢驗(yàn)，結(jié)果表明兩組的測(cè)驗(yàn)信度較高，同時(shí)了解到新老評(píng)卷員在對(duì)評(píng)分標(biāo)準(zhǔn)的把握中存在的差異。薄麗(2005)利用概化理論對(duì)有、無(wú)語(yǔ)言學(xué)背景的評(píng)卷員給20名被試高級(jí)漢語(yǔ)水平考試(HSK)寫作部分之作文評(píng)分的概化系數(shù)進(jìn)行了比較。該研究發(fā)現(xiàn)專業(yè)組評(píng)卷員評(píng)分的系統(tǒng)誤差明顯小于非專業(yè)組的。

實(shí)踐中，某語(yǔ)種的語(yǔ)言水平寫作測(cè)驗(yàn)的評(píng)卷員一般都經(jīng)過(guò)比較嚴(yán)格的篩選，并在正式閱卷前會(huì)進(jìn)行比較系統(tǒng)的評(píng)卷培訓(xùn)，因而上述研究發(fā)現(xiàn)的評(píng)卷員評(píng)分經(jīng)驗(yàn)、語(yǔ)言學(xué)背景的差異可能在實(shí)際的大尺度、高風(fēng)險(xiǎn)作文閱卷情境下未必會(huì)顯著影響被試作文成績(jī)的可推廣性。值得注意的是Johnson及其同事對(duì)倘若發(fā)生評(píng)卷員評(píng)分差異時(shí)不同處理方法的效果的研究。據(jù)他們的發(fā)現(xiàn)，以討論形成一致的最終評(píng)分和通過(guò)簡(jiǎn)單計(jì)算平均分作為最終評(píng)分對(duì)寫作成績(jī)可推廣性造成的影響并無(wú)較大差距。今后的研究可沿此方向展開(kāi)，倘若發(fā)現(xiàn)與前人一致，則大可沿用計(jì)算平均分的傳統(tǒng)評(píng)分方法。

(三)關(guān)于評(píng)分標(biāo)準(zhǔn)

評(píng)分標(biāo)準(zhǔn)是整體抑或分析性評(píng)分同樣也會(huì)影響寫作測(cè)驗(yàn)信度。劉婧(2006)的碩士學(xué)位論文搜集了40名被試HSK的寫作及評(píng)分?jǐn)?shù)據(jù)，對(duì)不同的寫作任務(wù)(如說(shuō)明文或議論文體裁)、評(píng)分方法(如整體評(píng)分或分析性評(píng)分)、評(píng)分項(xiàng)目(如內(nèi)容結(jié)構(gòu)或語(yǔ)言運(yùn)用)等影響作文分?jǐn)?shù)變異各因素的效應(yīng)及他們之間的復(fù)雜關(guān)系進(jìn)行了實(shí)證研究。研究發(fā)現(xiàn)寫作任務(wù)和評(píng)卷員因素效應(yīng)在很大程度上受評(píng)分方法和評(píng)分項(xiàng)目影響。姚琴宜等人(2008)對(duì)36名英語(yǔ)專業(yè)大學(xué)生英語(yǔ)作文評(píng)分結(jié)果的質(zhì)量進(jìn)行了分析，證實(shí)分項(xiàng)單項(xiàng)評(píng)分結(jié)果的可靠性高于整體評(píng)分結(jié)果，分項(xiàng)復(fù)合分?jǐn)?shù)的可靠性高于分項(xiàng)單項(xiàng)分?jǐn)?shù)的可靠性，同時(shí)揭示了傳統(tǒng)的信度系數(shù)對(duì)于評(píng)價(jià)評(píng)分結(jié)果的總體質(zhì)量是一個(gè)不恰當(dāng)?shù)闹笜?biāo)。類似的，李智(2009)也從不同寫作任務(wù)和評(píng)分模式出發(fā)，用概化理論分析了由4名評(píng)卷員評(píng)判的30名大學(xué)生英語(yǔ)分班測(cè)試的兩篇作文(一篇看圖寫作、一篇自由命題作文)的分項(xiàng)成績(jī)，認(rèn)為整體而言，分析性評(píng)分所得的寫作成績(jī)具有較高的信度。

羅娟、肖云南(2008)的研究則更進(jìn)一步比較了寫作分析性評(píng)分量表五個(gè)評(píng)分因子的評(píng)分信度，結(jié)果顯示:在寫作內(nèi)容、篇章結(jié)構(gòu)、詞匯使用這三個(gè)因子上的評(píng)分較為一致，相對(duì)而言，對(duì)語(yǔ)言表達(dá)的評(píng)分信度最高，而對(duì)書寫規(guī)范的評(píng)閱有待提高。薄麗的研究則向人們揭示了專業(yè)與非專業(yè)評(píng)卷員對(duì)分析性評(píng)分標(biāo)準(zhǔn)的理解與使用習(xí)慣的不同:在評(píng)分標(biāo)準(zhǔn)的理解與使用方面，專業(yè)評(píng)卷員更注重考生作文的語(yǔ)法、詞匯等方面，而非專業(yè)組評(píng)卷員則更看重作文內(nèi)容和連貫性等層面。

綜合這些研究發(fā)現(xiàn)，并結(jié)合當(dāng)前的寫作測(cè)評(píng)實(shí)踐，人們有更多理由選擇分析性評(píng)分標(biāo)準(zhǔn)來(lái)評(píng)判被試的寫作能力，這不僅因?yàn)樗軒?lái)較高的寫作成績(jī)信度，而且它所提供的評(píng)分信息可以被用于指導(dǎo)寫作評(píng)分實(shí)踐，從而降低對(duì)評(píng)分標(biāo)準(zhǔn)的主觀把握程度，增強(qiáng)評(píng)卷員信度，并最終達(dá)到進(jìn)一步提升寫作成績(jī)可推廣性的目標(biāo)。

(四)其他影響因素

評(píng)卷任務(wù)分配是近年業(yè)內(nèi)學(xué)者開(kāi)始關(guān)注的影響寫作成績(jī)可推廣性的又一個(gè)因素。針對(duì)115名被試兩篇讀寫作文和兩篇單寫作文的數(shù)據(jù)，Gebril(2010)所作的另一項(xiàng)分析結(jié)果發(fā)現(xiàn):讀寫成績(jī)同單寫成績(jī)一樣可靠且評(píng)卷員只判某種題型的作文(讀寫或單寫)與讓該組評(píng)卷員給兩種題型打分所得成績(jī)的可靠性也非常接近。由于此方面的研究數(shù)量還非常有限，人們有賴于后人對(duì)該問(wèn)題更多的探究，以期得到相對(duì)客觀、全面的理解和認(rèn)識(shí)。

此外，較之對(duì)題目導(dǎo)致的寫作成績(jī)方差的高度重視而言，由被試本身的一些特征造成的寫作成績(jī)的方差受到的關(guān)注相當(dāng)有限，且集中于第二語(yǔ)言或外語(yǔ)習(xí)得領(lǐng)域。例如:Solano-Flores和Li (2008)通過(guò)應(yīng)用概化理論發(fā)現(xiàn)對(duì)于英語(yǔ)學(xué)習(xí)者而言，被試、作文題以及題目本身的語(yǔ)言(母語(yǔ)或外語(yǔ))的交互作用是寫作成績(jī)最大的方差源。Huang(2008)用概化理論研究了加拿大ESL被試在省級(jí)英語(yǔ)考試寫作成績(jī)的方差源及信度。三年的數(shù)據(jù)分析結(jié)果發(fā)現(xiàn):ESL和英語(yǔ)為母語(yǔ)的被試的分?jǐn)?shù)變異不同。ESL被試作文成績(jī)的殘余方差成份比英語(yǔ)為母語(yǔ)的要高。某一年ESL被試能解釋的方差明顯小于英語(yǔ)為母語(yǔ)被試的，其ESL被試寫作成績(jī)的概化系數(shù)顯著低于英語(yǔ)為母語(yǔ)被試的。該文作者并據(jù)此質(zhì)疑了ESL被試所得寫作成績(jī)的公平性。

最后需要留意的是關(guān)于概化理論測(cè)量工具本身的可信程度的一項(xiàng)研究給人們的啟示。Gao和概化理論的代表性學(xué)者Brennan(2001)的論文通過(guò)分析若干年的聽(tīng)力和寫作數(shù)據(jù)研究了方差成份估算的抽樣差異性并評(píng)估了測(cè)量精確性估值的穩(wěn)定性。結(jié)果顯示方差成份的估算隨年份而有差異，并且G研究估算的測(cè)量精度在實(shí)際的D決策研究中可能無(wú)法完全兌現(xiàn)。但上述理論估值與實(shí)際測(cè)量值之間的差異并沒(méi)有大到令人有理由放棄能夠帶來(lái)諸多便利的理論估值方法。Gao和Brennan(2001)同時(shí)也指出，其研究的這些發(fā)現(xiàn)因?yàn)閮H僅來(lái)自一項(xiàng)研究，不能過(guò)度推廣到其他研究情境。他們建議在其他條件不變的情況下，盡量使用有代表性的大樣本進(jìn)行方差成份的估值，因?yàn)檫@樣可以提升測(cè)量估值的精確性。

四、結(jié) 論

一言以蔽之，寫作測(cè)評(píng)的成績(jī)不僅僅是被試寫作能力的反映，還包括施測(cè)和評(píng)價(jià)過(guò)程的諸多干擾因素帶來(lái)的影響，因此研究和改善寫作成績(jī)的可推廣性要從多角度思考，采用更合理的測(cè)量工具的同時(shí)提升測(cè)驗(yàn)本身的評(píng)價(jià)標(biāo)準(zhǔn)及其可操作性等多項(xiàng)措施以保證測(cè)評(píng)成績(jī)的可靠性。

縱觀教育測(cè)評(píng)題型的發(fā)展，存在著一個(gè)由主觀題/開(kāi)放題測(cè)評(píng)為主到數(shù)十年前以客觀題為主，近年又日益凸顯增加主觀題/開(kāi)放測(cè)評(píng)份量的趨勢(shì)。這一次對(duì)主觀/開(kāi)放題的回歸絕不是簡(jiǎn)單地重返起點(diǎn)，而是在教育測(cè)評(píng)理論與技術(shù)取得重大進(jìn)展的前提下，在對(duì)主觀題/開(kāi)放測(cè)驗(yàn)題的評(píng)判的可推廣性有了一定的保障，并日益得到改善條件下的螺旋推進(jìn)式回歸。在這一大背景下，寫作測(cè)驗(yàn)這一古老而又在衡量被試寫作能力方面有著難以取代之地位的主觀/開(kāi)放題，應(yīng)該而且能夠成為旨在提升主觀/開(kāi)放測(cè)評(píng)成績(jī)可靠性的研究的試驗(yàn)田。而概化理論憑其本身在分析方差成份方面的特長(zhǎng)及能夠指導(dǎo)測(cè)評(píng)設(shè)計(jì)的獨(dú)門秘笈，應(yīng)該而且能夠成為提升主觀/開(kāi)放測(cè)評(píng)質(zhì)量的利器。本文以研究述評(píng)的形式，回顧了近20年來(lái)以概化理論為指導(dǎo)、以提升寫作成績(jī)可推廣性為目標(biāo)的中、英文研究文獻(xiàn)，期望能通過(guò)梳理前人的研究發(fā)現(xiàn)，為日后的相關(guān)研究提供借鑒與參考的便利。

薄麗:《背景差異的兩類評(píng)卷員在HSK高等作文考試評(píng)分中的差異研究》，北京語(yǔ)言大學(xué)碩士學(xué)位論文，2005年。

何蓮珍、閔尚超:《寫作測(cè)試的主要實(shí)證研究方法及其發(fā)展趨勢(shì)》，《中國(guó)外語(yǔ)》，2008年第6期。

李智:《英語(yǔ)作文分析性評(píng)分的多元概化理論分析》，《湖南文理學(xué)院學(xué)報(bào)》(社會(huì)科學(xué)版)，2009年第2期。

劉婧:《運(yùn)用概化理論分析作文分?jǐn)?shù)的變異》，北京語(yǔ)言大學(xué)碩士學(xué)位論文，2006年。

劉遠(yuǎn)我、張厚粲:《概化理論在作文評(píng)分中的應(yīng)用研究》，《心理學(xué)報(bào)》，1998年第2期。

羅娟、肖云南:《基于多元概化理論的英語(yǔ)寫作評(píng)分誤差分析研究》，《中國(guó)考試》，2008年第5期。

喬治·恩舟赫爾德:《以多面Rasch模型測(cè)量寫作能力》，朱宇譯，《教育與考試》，2007年第4期。

姚琴宜、祁宗海、席仲恩:《作文整體評(píng)分與分析性評(píng)分結(jié)果的質(zhì)量比對(duì)》，《外語(yǔ)研究》，2008年第5期。

趙琪鳳:《HSK寫作測(cè)試評(píng)分信度考查——基于對(duì)新老評(píng)卷員的個(gè)案調(diào)查》，《中國(guó)考試》，2010年第10期。

Bachman，L.Fundamental considerations in language testing.Shanghai:Shanghai Foreign Language Education Press，1999.

Engelhard，Jr.，G.Differential Rater Functioning.Rasch Measurement Transactions，2008，21(3).

Gao，X.＆Brennan，R.L.Variability of estimated variance components and related statistics in a performance assessment.Applied Measurement in Education，2001，14(2).

Gebril，A.Bringing reading-to-write and writing-only assessment tasks together:A generalizability analysis.Assessing Writing，2010，15(2).

Gebril，A.Score generalizability of academic writing tasks:Does one test method fit it all?Language Testing，2009，26(4).

Huang，J.How accurate are ESL students＇holistic writing scores on large-scale assessments?——A generalizability theory approach.Assessing Writing，2008，13(3).

Johanson，G.＆Alsmadi，A.(1998).Differential Person Functioning.ED 420 691.

Johnson，R.，Penny，J.，Gordon，B.，Shumate，S.R.，＆Fisher，S.P.Resolving score differences in the rating of writing samples:Does discussion improve the accuracy of scores?Language Assessment Quarterly，2005，2(2).

Lee，Y.-W.＆Kantor，R.Evaluating prototype tasks and alternative rating schemes for a new ESL writing test through G-theory.International Journal of Testing，2007，7(4).

Linacre，J.M.Many-facet Rasch measurement.Chicago，IL:MESA Press，1989.

Nie，Y.，Yeo，S.M.＆Lau，S.Application of generalizability theory in the investigation of the quality of journal writing in mathematics.Studies in Educational Evaluation，2007，33(3-4).

Rasch，G.Probabilistic models for some intelligence and attainment tests(revised and expanded ed.).Chicago:The University of Chicago Press，1980.

Schoonen，R.Generalizability of writing scores:An application of structural equation modeling.Language Testing，2005，22(1).

Sim，J.＆Wright，C.Research in health care:concepts，designs and methods.Cheltenham，UK:Stanley Thornes，2000.http://books.google.com/books?id=vwjhgtUoNZIC＆pg=PA335＆lpg=PA335＆dq=%22estimate+of+Intra-rater +reliability%22＆source=bl＆ots=6FQUcpr6X5＆sig=fY5VEyJ_BqG54wSv0w61GVazYAM＆hl=en＆ei= It7LTIH2EYmAvgO0iZnMDw＆sa=X＆oi=book_result＆ct=result＆resnum=1＆ved=0CBIQ6AEwAA#v= onepage＆q=%22estimate%20of%20Intra-rater%20reliability%22＆f=false.2010-10-30.

Solano-Flores，G.＆Li，M.Examining the dependability of academic achievement measures for English language learners.Assessment for Effective Intervention，2008，33(3).

Sudweeks，R.R.，Reeve，S.＆Bradshaw，W.S.A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing.Assessing Writing，2004，9(3).

Wikipedia.Intraclass correlation.http://www.answers.com/topic/intraclass-correlation.2010-10-30.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡