馮瑞龍 朱 宇
(北京師范大學(xué)香港浸會(huì)大學(xué)聯(lián)合國(guó)際學(xué)院,中國(guó)珠海519085;廈門大學(xué)海外教育學(xué)院,中國(guó)廈門361102)
開(kāi)放式測(cè)評(píng)具有悠久的歷史。所謂開(kāi)放式測(cè)評(píng)指測(cè)驗(yàn)題目的正確答案并非唯一固定的,被試可以甚至被鼓勵(lì)作出基于自身理解的獨(dú)特解答。開(kāi)放式測(cè)評(píng)有著封閉式測(cè)評(píng)無(wú)法比擬的優(yōu)越性,因?yàn)楸辉噷?duì)其作答往往能向各種測(cè)評(píng)成績(jī)用家提供豐富的信息。這些信息可以被用于更好地理解被試被測(cè)評(píng)的知識(shí)、態(tài)度或能力,使測(cè)評(píng)的診斷性功能更加強(qiáng)化、更具個(gè)體性,并最終更好地達(dá)到通過(guò)測(cè)評(píng)幫助改善教學(xué)或幫助被試進(jìn)步的目標(biāo)。開(kāi)放式測(cè)評(píng)的這一優(yōu)點(diǎn)還使它在教育以外的多種測(cè)評(píng)中大有用武之地。但同時(shí),開(kāi)放性測(cè)評(píng)與封閉式測(cè)評(píng)相比又有著自身的劣勢(shì),除了評(píng)分/級(jí)標(biāo)準(zhǔn)難以厘定、過(guò)程費(fèi)力耗時(shí)之外,最嚴(yán)重的問(wèn)題恐怕就是其信度往往難以達(dá)到比較理想的水平了。而信度不僅是衡量測(cè)評(píng)質(zhì)量的兩個(gè)重要指標(biāo)之一,更是達(dá)至另一個(gè)指標(biāo)—效度的前提條件。在很大程度上,人們甚至可以說(shuō),正是由于開(kāi)放式測(cè)評(píng)不夠嚴(yán)謹(jǐn)、科學(xué),才導(dǎo)致了封閉式測(cè)評(píng)在近現(xiàn)代的產(chǎn)生與崛起。然而,隨著教育與心理測(cè)量領(lǐng)域理論與技術(shù)的不斷進(jìn)步,信度,這一曾經(jīng)威脅開(kāi)放式測(cè)評(píng)的生存與發(fā)展的瓶頸性問(wèn)題已經(jīng)不再是無(wú)法突破和解決的了。
本文即旨在通過(guò)比較信度理論當(dāng)前并存的三個(gè)主流學(xué)派,甄選最適合通過(guò)改進(jìn)測(cè)驗(yàn)設(shè)計(jì)提升測(cè)評(píng)信度的理論工具——概化理論,并在此基礎(chǔ)上梳理、述評(píng)近20年來(lái)概化理論用于指導(dǎo)寫作成績(jī)信度研究的案例,最后提出概化理論可進(jìn)一步發(fā)展和完善的方向。限于篇幅,本文無(wú)法全面回顧以概化理論為視角的開(kāi)放式測(cè)評(píng)信度研究,只能選取開(kāi)放式測(cè)評(píng)的一個(gè)典型代表。之所以選擇作文考試為開(kāi)放式測(cè)評(píng)的典型代表是因?yàn)樽魑倪@一考試形式歷史悠久、廣為人知,雖備受爭(zhēng)議但始終難以取代,因此可謂開(kāi)放式測(cè)評(píng)的常青藤式的代表。
開(kāi)放式測(cè)評(píng)能否有效提升信度,不僅關(guān)乎這種測(cè)評(píng)形式本身的命運(yùn),同時(shí)還與測(cè)評(píng)界的趨勢(shì)性新潮流——真實(shí)性測(cè)評(píng)(authentic testing)的發(fā)展前途息息相關(guān)。可以說(shuō),如果信度問(wèn)題不能找到有效解決途徑,開(kāi)放式測(cè)評(píng)就難以取得立足之地,真實(shí)性測(cè)評(píng)的崛起也就可能永遠(yuǎn)淪為紙上談兵。那信度理論當(dāng)今有哪些流派?其優(yōu)勢(shì)與劣勢(shì)各有哪些?這其中適合通過(guò)改善測(cè)評(píng)設(shè)計(jì)提升開(kāi)放式測(cè)評(píng)信度的理論是哪一個(gè)?這一理論指導(dǎo)下的研究現(xiàn)狀與動(dòng)向是怎樣的?所有這些問(wèn)題的解答,都要從信度流派的分析與比較開(kāi)始。
經(jīng)典測(cè)試?yán)碚搶⒃嚲碛^測(cè)分?jǐn)?shù)的信度定義為真分?jǐn)?shù)的方差與觀測(cè)分?jǐn)?shù)方差的比率。而觀測(cè)分?jǐn)?shù)的方差又等于真分?jǐn)?shù)的方差和誤差分的方差之和。由于真分?jǐn)?shù)是無(wú)法預(yù)知的,所以上述定義是無(wú)法用于直接測(cè)算測(cè)驗(yàn)信度的。然而,通過(guò)平行試卷或者重復(fù)施測(cè)等方法是可以估算該測(cè)驗(yàn)的信度值的,例如常用的克朗巴赫和重測(cè)信度指標(biāo)就是以這兩種方法計(jì)算測(cè)驗(yàn)信度的典型代表。
評(píng)卷員信度是經(jīng)典測(cè)試?yán)碚搶?duì)主觀評(píng)分的測(cè)驗(yàn)所能考察的一項(xiàng)重要指標(biāo)。經(jīng)典測(cè)試?yán)碚撏ǔ⒃u(píng)卷員信度分為評(píng)卷員間的一致性信度和評(píng)卷員內(nèi)部一致性信度兩種。
評(píng)卷員間一致性信度(即Inter-rater Reliability或Intraclass Correlation Coefficient,以下縮寫為ICC)描述的是同一組內(nèi)的個(gè)體在多大程度上具有一致性,能用于衡量多名評(píng)卷員對(duì)特定被試在給定測(cè)量上作答之主觀評(píng)分的近似程度。ICC最早被提出起于對(duì)皮爾遜相關(guān)系數(shù)的改進(jìn)。皮爾遜相關(guān)系數(shù)在估算時(shí),考慮了配對(duì)組成員得分的排序,而這種排序在評(píng)卷員一致性的估算中是無(wú)意義通常也是無(wú)根據(jù)的。因此,在估計(jì)ICC時(shí),將皮爾遜相關(guān)系數(shù)計(jì)算過(guò)程中分別計(jì)算的兩個(gè)測(cè)驗(yàn)的均值和標(biāo)準(zhǔn)差進(jìn)行了合并計(jì)算。為了解決實(shí)測(cè)數(shù)據(jù)中的數(shù)據(jù)缺失或每個(gè)被試不一定由同樣多的評(píng)卷員評(píng)分的問(wèn)題,上述ICC概念又得到進(jìn)一步發(fā)展演化(Wikipedia,2010)。ICC被定義為組間方差占總方差(組間方差與誤差項(xiàng)方差之和)的比重。而這些方差又是根據(jù)隨機(jī)效應(yīng)模型Yij=μ+αi +εij估算的。其中Yij表示第i個(gè)分?jǐn)?shù)組的第j個(gè)觀測(cè)到的得分,μ是所有分?jǐn)?shù)的均值,αi是第i個(gè)組內(nèi)所有分?jǐn)?shù)共享的隨機(jī)效應(yīng),εij為第i個(gè)分?jǐn)?shù)組內(nèi)第j個(gè)觀測(cè)值的干擾項(xiàng)。
評(píng)卷員內(nèi)部一致性信度本質(zhì)是一種重測(cè)信度,表述的是給定評(píng)卷員對(duì)某被試前后兩次或以上主觀評(píng)分的一致性。其估算也可套用上述ICC的隨機(jī)效應(yīng)模型,只是在數(shù)據(jù)處理上需把評(píng)卷員分?jǐn)?shù)構(gòu)成的組別替換成由前后數(shù)個(gè)批次評(píng)分值形成的組別(Julius Sim&Chris Wright,2000:335)。
Linacre(1989)在拉氏模型(George Rasch,1980)的基礎(chǔ)上發(fā)展出多面拉氏模型。它除了能估算獨(dú)立于樣本的被試能力和題目難度之外,還能用于延伸估算不同評(píng)卷員對(duì)評(píng)卷標(biāo)準(zhǔn)把握的松緊程度、同一評(píng)卷員在不同評(píng)分場(chǎng)次中評(píng)分的差別等等。
多面拉氏模型分析能夠提供每個(gè)層面的每個(gè)個(gè)體的內(nèi)、外擬合值。這些值的均值為1。當(dāng)內(nèi)、外擬合值取值在0.5至1之間時(shí),測(cè)評(píng)是富有成效的。當(dāng)它們大于1.5小于2時(shí),表明測(cè)評(píng)不夠精準(zhǔn),但尚可接受。大于2時(shí),測(cè)評(píng)結(jié)果是扭曲不可信的。
多面拉氏模型還可以用來(lái)計(jì)算區(qū)分性層面功能。這包括區(qū)分性項(xiàng)目功能,即某個(gè)被試群在某個(gè)題項(xiàng)上的作答模式與能力相當(dāng)?shù)钠渌辉嚾河酗@著差異;區(qū)分性閱卷員功能,即在被試能力相當(dāng)?shù)那疤嵯?,某個(gè)閱卷員對(duì)一個(gè)被試群體的打分明顯不同于其他閱卷員對(duì)該被試群體的評(píng)分(George Engelhard,2008);區(qū)分性被試功能,即在題目難度相同的前提下,被試個(gè)體在某個(gè)內(nèi)容領(lǐng)域題目上的得分與其在另外內(nèi)容領(lǐng)域題目上的得分有顯著差別 (George Johanson&Abdalla Alsmadi,1998)。是否存在上述區(qū)分性層面功能是通過(guò)層面之間的交互作用的估值來(lái)判定的。每一個(gè)交互作用被相應(yīng)的區(qū)分性層面功能分析賦予一個(gè)偏差估計(jì)值,當(dāng)該值Z分?jǐn)?shù)的絕對(duì)值大于或等于2時(shí),一般認(rèn)為該層面的區(qū)分性功能顯著。如果發(fā)現(xiàn)存在區(qū)分性項(xiàng)目功能則暗示所考察的測(cè)驗(yàn)題目可能有待改進(jìn);如區(qū)分性閱卷員功能顯著則提示該閱卷員打分可能出現(xiàn)了較大偏差;而顯著的區(qū)分性被試功能則能反映出考生個(gè)體對(duì)所測(cè)的具體知識(shí)或能力在掌握上的失衡狀態(tài)。
信度也是多面拉氏模型涉獵的范疇之一。使用拉氏模型的數(shù)據(jù)分析能提供兩個(gè)信度統(tǒng)計(jì)量,一個(gè)是取值范圍在0和1之間的分割指標(biāo)信度,另一個(gè)是取值范圍在1和正無(wú)窮之間的分割比。盡管拉氏模型對(duì)于每一個(gè)面的分析均能得到這兩種估值,但通常被試層面的這兩個(gè)估值越大越好,而其他層面的這兩個(gè)值則越小越好。因其他各層面中各要素帶來(lái)的差異性與被試能力無(wú)關(guān)。倘若這些層面各要素間的差異性較小則能反映測(cè)量有較高的一致性。但如果被試層面各要素(即每一個(gè)被試個(gè)體)之間差異性較小,反映的就是評(píng)卷員難以區(qū)分被試,因而屬于一種不理想的情況。
概化理論認(rèn)為被試觀測(cè)成績(jī)的方差是可以分解為多個(gè)方差分量的。這其中既包括人們希望通過(guò)寫作測(cè)試發(fā)現(xiàn)的因被試寫作水平的差異造成的寫作成績(jī)的方差分量(又稱為測(cè)量目標(biāo)方差),也包括干擾因素造成的方差分量。采用概化理論的G研究數(shù)據(jù)分析技術(shù)能對(duì)這些方差分量進(jìn)行估算。測(cè)量目標(biāo)方差分量在寫作成績(jī)方差中所占的比重越大,寫作成績(jī)就越可靠。而為了提高寫作成績(jī)的可推廣性或可靠性,就需要通過(guò)控制降低比重大的數(shù)個(gè)干擾性方差分量,而D研究分析技術(shù)則能讓人們?cè)贕研究結(jié)果的基礎(chǔ)上了解改變干擾變量的數(shù)量,如改變?cè)u(píng)卷員、試題的數(shù)量或閱卷方案等會(huì)造成測(cè)試成績(jī)信度的何種變化,從而幫助確定能保證理想信度的最佳施測(cè)及評(píng)分措施。
概化理論在估算信度時(shí),區(qū)分了常模參照與標(biāo)準(zhǔn)參照測(cè)試的信度系數(shù)。前者即所謂g系數(shù),后者為Phi系數(shù)。這兩種系數(shù)在估算時(shí)均以測(cè)驗(yàn)對(duì)象為來(lái)源的方差為分子,該方差也是分母的兩個(gè)加和項(xiàng)之一。另一個(gè)加和項(xiàng)對(duì)于g系數(shù)而言是相對(duì)誤差項(xiàng)方差,指測(cè)驗(yàn)對(duì)象與G研究設(shè)計(jì)的各個(gè)層面的交互作用造成的方差分量之和。而對(duì)Phi系數(shù)而言,它是絕對(duì)誤差項(xiàng)方差,是除了測(cè)驗(yàn)對(duì)象方差分量以外的各個(gè)方差之和。
經(jīng)典測(cè)量理論框架下的信度估算最大的優(yōu)點(diǎn)在于應(yīng)用經(jīng)典測(cè)量理論模型的前提條件較低,實(shí)測(cè)數(shù)據(jù)很容易滿足。缺點(diǎn)一是在于它無(wú)力估算被試能力方差之外的每一個(gè)方差分量,也就無(wú)法指認(rèn)需首先控制的一些方差因素,更無(wú)從對(duì)如何改善現(xiàn)有測(cè)量的信度提出測(cè)驗(yàn)設(shè)計(jì)方面的建議。另外,其估算值受具體使用的被試和試卷樣本影響非常大,是不能獨(dú)立于樣本的估值。
項(xiàng)目反應(yīng)理論的拉氏模型與經(jīng)典測(cè)試?yán)碚摰男哦扔^和概化理論信度理念最大的不同在于它的分析結(jié)果是獨(dú)立于具體樣本的。而且其著眼點(diǎn)更加細(xì)微。它對(duì)于信度的估值不是某個(gè)測(cè)驗(yàn)的整體信度,而是給出每一個(gè)層面的每一個(gè)要素的測(cè)量信度(分割指標(biāo)信度以及分割比)。若要改善信度,就可從改進(jìn)那些信度不理想的層面入手。比如,如果發(fā)現(xiàn)評(píng)卷員層面的信度指標(biāo)較低,且發(fā)現(xiàn)區(qū)分性評(píng)卷員功能顯著,就可以考慮如何合理篩選評(píng)卷員、改良評(píng)卷員培訓(xùn)或監(jiān)控評(píng)分過(guò)程與質(zhì)量。然而項(xiàng)目反應(yīng)理論的拉氏模型卻不能展示測(cè)驗(yàn)或評(píng)分因素的變動(dòng)會(huì)如何影響測(cè)驗(yàn)信度。
概化理論的信度分析結(jié)果雖然不能做到樣本獨(dú)立,而且無(wú)法獲取每一名被試或各影響因素每一個(gè)層次的信度指標(biāo),但是卻能夠指認(rèn)對(duì)信度干擾較大的方差分量的來(lái)源,能夠通過(guò)全交叉的G研究推出試題因素、評(píng)卷因素層面的各種嵌套設(shè)計(jì)的方差分量估值,并且能夠通過(guò)D研究展示每一種設(shè)計(jì)下,各個(gè)層面數(shù)量的變化將會(huì)如何影響測(cè)驗(yàn)的信度。
最后值得一提的是上述三個(gè)理論指導(dǎo)的信度估值在數(shù)量上具有某種對(duì)應(yīng)關(guān)系。具體而言:在拉氏模型中被試層面的分割指標(biāo)信度與經(jīng)典測(cè)量理論中的克朗巴赫信度指標(biāo)是一樣的。而在概化理論中,單面設(shè)計(jì)(即將試題作為對(duì)測(cè)量造成干擾性變異的唯一層面)的g信度系數(shù)與傳統(tǒng)的克朗巴赫信度指標(biāo)一致。如果是多面概化理論模型,所得g信度系數(shù)將低于克朗巴赫信度,而在概化理論的各種設(shè)計(jì)中,用于評(píng)估標(biāo)準(zhǔn)參照的phi信度指標(biāo)又一定不會(huì)高于相應(yīng)設(shè)計(jì)的g信度指標(biāo)。
通過(guò)信度主要理論流派的比較發(fā)現(xiàn),經(jīng)典測(cè)量理論中的信度系數(shù)是衡量評(píng)卷員信度的重要方法,但對(duì)考生變量、題目變量等其他可能影響測(cè)評(píng)信度的變量則無(wú)能為力(何蓮珍、閔尚超,2008)。項(xiàng)目反應(yīng)理論,特別是多面拉氏模型能根據(jù)統(tǒng)計(jì)分析調(diào)節(jié)評(píng)分人、寫作題目的難度以及寫作測(cè)評(píng)過(guò)程中其他變量對(duì)寫作成績(jī)信度的干擾,從而為獲得客觀、公平地測(cè)量寫作能力提供一個(gè)框架(George Engelhard,1992)。概化理論使測(cè)試使用者能以G研究估計(jì)出不同誤差來(lái)源的相對(duì)影響,并能在D研究中預(yù)測(cè)在某個(gè)特定的測(cè)試情況下提高信度的辦法(Lyle Bachman,1999)。項(xiàng)目反應(yīng)理論的多面拉氏模型長(zhǎng)于通過(guò)調(diào)整被試成績(jī)提高測(cè)驗(yàn)信度,而概化理論長(zhǎng)于通過(guò)測(cè)驗(yàn)設(shè)計(jì)和閱卷設(shè)計(jì)改善測(cè)評(píng)信度。提高寫作測(cè)評(píng)信度首先要提升測(cè)驗(yàn)和評(píng)卷質(zhì)量,而基于概化理論的信度研究是能為該環(huán)節(jié)提供重要參考的關(guān)鍵性文獻(xiàn)。本文限于篇幅,不再述評(píng)基于經(jīng)典測(cè)評(píng)理論和項(xiàng)目反應(yīng)理論的信度研究,而是集中論述近二十年國(guó)內(nèi)外以概化理論為指導(dǎo)的寫作測(cè)評(píng)研究,以期為漢語(yǔ)為外語(yǔ)的寫作測(cè)評(píng)試題和閱卷設(shè)計(jì)提供參考、借鑒。
在教育測(cè)評(píng)領(lǐng)域,客觀題評(píng)分信度較為理想,然而其效度卻越來(lái)越為人質(zhì)疑甚至詬病,而主觀題雖然更符合真實(shí)測(cè)評(píng)的理念,效度也相對(duì)較高,但評(píng)分標(biāo)準(zhǔn)難以客觀把握、測(cè)驗(yàn)成績(jī)的可推廣性不理想?yún)s也是長(zhǎng)期困擾教育實(shí)踐者,并引發(fā)教育測(cè)評(píng)研究者關(guān)注與思考的一個(gè)難題。具體到寫作能力,直接測(cè)評(píng)(即以被試的寫作成品為評(píng)分依據(jù))雖屬傳統(tǒng)手段,但也是得到普遍認(rèn)可的最佳測(cè)量方法之一?,F(xiàn)將國(guó)內(nèi)外期刊論文數(shù)據(jù)庫(kù)近20年基于概化理論的寫作測(cè)評(píng)研究扼要述評(píng)如下,以期為日后相關(guān)研究提供一定的便利。
一次寫作測(cè)試只有一個(gè)題目,是人們司空見(jiàn)慣的現(xiàn)象,在中國(guó)則更是根深蒂固,由來(lái)已久。然而,近年已有多項(xiàng)研究結(jié)果表明增加寫作題目比增加評(píng)卷員能更有效地提高寫作成績(jī)的概化系數(shù)/可靠性。例如:Lee和Kantor(2007)用概化理論的分析工具對(duì)新一代托??荚嚨淖x寫寫作、聽(tīng)寫寫作、單純寫作等新題型展開(kāi)的預(yù)示研究檢驗(yàn)了多種評(píng)分模式、作文題目數(shù)、評(píng)卷員人數(shù)對(duì)于寫作成績(jī)信度的影響。該研究發(fā)現(xiàn)為了提高成績(jī)的可靠性,增加作文題目數(shù)相較于增加每篇作文的評(píng)卷員是更有效率的作法。Gebril(2009)比較了讀寫和單寫成績(jī)的可推廣性。他分析了由三名評(píng)卷員評(píng)判的115名埃及大學(xué)生兩篇讀寫作文和兩篇單寫作文的整體性得分。結(jié)果表明讀寫任務(wù)同單寫任務(wù)的成績(jī)一樣可靠,但是如果只考一篇作文,寫作成績(jī)的可推廣性就大大降低。而Nie及其同事(2007)以概化理論評(píng)估了數(shù)學(xué)科的替代測(cè)評(píng)—心得寫作的質(zhì)量。29名大學(xué)生完成了給定的數(shù)個(gè)題目的心得寫作,并由2名評(píng)卷員按評(píng)分項(xiàng)目進(jìn)行打分。結(jié)果也表明增加題目數(shù)量比增加評(píng)卷員人數(shù)更有利于提升寫作成績(jī)的可靠性和概化系數(shù)。
還有研究者同時(shí)使用了概化理論以外的分析工具。如:Sudweeks等人(2004)的預(yù)示研究使用概化理論和多面拉氏模型同時(shí)估算了寫作評(píng)分潛在的誤差源和寫作成績(jī)的信度,并據(jù)此提出了改善評(píng)分過(guò)程的建議。結(jié)果顯示寫作題目以及被試與題目的交互作用比較高,而評(píng)卷員和考試場(chǎng)次造成的方差較低。這也意味著增加寫作題目是改善此項(xiàng)寫作測(cè)試成績(jī)可推廣性的有效途徑。
Schoonen(2005)以G研究估算了被試寫作水平、作文題目、評(píng)分的項(xiàng)目(內(nèi)容或語(yǔ)言運(yùn)用等)以及評(píng)分方式(整體性評(píng)分抑或分析性評(píng)分)的效應(yīng),并通過(guò)結(jié)構(gòu)方程模型估算了寫作分?jǐn)?shù)的方差成份。該研究的被試是89名6年級(jí)學(xué)生,他們被要求寫四篇作文,每篇作文的內(nèi)容組織及語(yǔ)言運(yùn)用兩個(gè)方面被5名評(píng)卷員以整體和分析兩種方式評(píng)分。分析結(jié)果顯示寫作成績(jī)的可推廣性以及評(píng)卷員和寫作題目的效應(yīng)在很大程度上取決于評(píng)分方式與評(píng)分項(xiàng)目。整體而言,寫作題導(dǎo)致的方差要高于評(píng)卷員引入的方差。
在國(guó)內(nèi),劉遠(yuǎn)我和張厚粲(1998)的研究雖然未發(fā)現(xiàn)寫作題目對(duì)測(cè)試成績(jī)可推廣性的效應(yīng),但發(fā)現(xiàn)了不同文體對(duì)評(píng)分誤差有重要影響,議論文的評(píng)分誤差最大。羅娟、肖云南(2008)采用多元概化理論對(duì)出國(guó)留學(xué)生英語(yǔ)分班測(cè)試的30位受試的寫作水平進(jìn)行分析,測(cè)試有兩個(gè)寫作任務(wù),任務(wù)1要求受試發(fā)揮想象力,根據(jù)提供的圖片自由編寫故事;任務(wù)2是受試較熟悉的話題作文,譬如講述自己的學(xué)習(xí)與生活經(jīng)歷、興趣愛(ài)好等。評(píng)分選用Jacobs等人1981年設(shè)計(jì)的二語(yǔ)作文評(píng)分量表“ESL Composition Profile”。研究結(jié)果表明兩個(gè)寫作任務(wù)的合成總分的評(píng)分信度較高。
可見(jiàn),寫作題型和題量均是影響寫作成績(jī)可推廣性的要素。就題型而言,某些新題型如讀寫寫作或聽(tīng)寫寫作成績(jī)的可靠性并不低于傳統(tǒng)的單純寫作,考慮到這些題型更符合真實(shí)測(cè)評(píng)的原則,漢語(yǔ)寫作水平測(cè)試也可以借鑒采用此類題型為命題寫作的補(bǔ)充。而就所測(cè)的語(yǔ)體來(lái)看,對(duì)議論文的評(píng)分可能相對(duì)更主觀一些,其成績(jī)的可推廣性會(huì)相對(duì)稍差。綜合考慮被試的語(yǔ)言水平,或許在初、中級(jí)漢語(yǔ)寫作水平考試時(shí),應(yīng)避免強(qiáng)制考生寫議論文體的作文。至于題量方面,所參考的文獻(xiàn)幾乎一致建議相關(guān)測(cè)評(píng)應(yīng)有兩道或者兩道以上的寫作試題,以保障被試寫作成績(jī)的可推廣性。
盡管上述研究都或多或少地表明增加評(píng)卷員恐怕不是提升寫作成績(jī)概化系數(shù)的有效手段,換言之,評(píng)卷員一般不是寫作成績(jī)方差的主要來(lái)源,但寫作評(píng)分過(guò)程中,不同評(píng)卷員對(duì)同一篇作文評(píng)分的差異還是引起了業(yè)內(nèi)一些學(xué)者的注意。例如:Johnson及其同事(2005)就以概化理論研究了多名評(píng)卷員評(píng)分如出現(xiàn)差異應(yīng)如何處理的問(wèn)題,處理該問(wèn)題的不同方法會(huì)對(duì)操作性評(píng)分的信效度產(chǎn)生不同影響。具體而言,Johnson及其同事比較了以評(píng)卷員的平均分為被試最終得分和通過(guò)討論獲得一致性評(píng)分兩種不同方法所得被試寫作成績(jī)的準(zhǔn)確度,并考慮了討論過(guò)程中是否會(huì)出現(xiàn)個(gè)別評(píng)卷員處于支配性地位的情形。研究結(jié)果表明,以計(jì)算平均分或者討論解決評(píng)分差異的效果并沒(méi)有顯著差距,兩者對(duì)于提高評(píng)分精確性均無(wú)太大幫助。在進(jìn)行整體性評(píng)分時(shí),若以討論方式解決評(píng)分差異,相對(duì)更容易出現(xiàn)個(gè)別評(píng)卷員處于支配性地位的情況。
相較西方的研究,國(guó)內(nèi)的相關(guān)研究更多地發(fā)現(xiàn)了評(píng)卷員對(duì)于作文成績(jī)可推廣性的顯著效應(yīng)。例如,劉遠(yuǎn)我和張厚粲(1998)使用概化理論分析了6位評(píng)卷員對(duì)20名學(xué)生每人三種文體的作文進(jìn)行分析性評(píng)分的數(shù)據(jù)。結(jié)果表明在作文評(píng)分中,評(píng)卷員效應(yīng)最大,題目效應(yīng)不明顯。
此外,國(guó)內(nèi)的一些相關(guān)研究將評(píng)卷員的評(píng)卷經(jīng)驗(yàn)和語(yǔ)言學(xué)背景也考慮在評(píng)卷員效應(yīng)當(dāng)中。趙琪鳳(2010)以個(gè)案調(diào)查的方法對(duì)新老評(píng)卷員在HSK寫作測(cè)試的評(píng)卷員信度進(jìn)行考查,研究從2009年4月的HSK(高等)寫作測(cè)試評(píng)分的48組評(píng)卷員中隨機(jī)抽取了兩組(每組中一老一新兩名評(píng)卷員),運(yùn)用概化理論對(duì)兩組的評(píng)分信度進(jìn)行了檢驗(yàn),結(jié)果表明兩組的測(cè)驗(yàn)信度較高,同時(shí)了解到新老評(píng)卷員在對(duì)評(píng)分標(biāo)準(zhǔn)的把握中存在的差異。薄麗(2005)利用概化理論對(duì)有、無(wú)語(yǔ)言學(xué)背景的評(píng)卷員給20名被試高級(jí)漢語(yǔ)水平考試(HSK)寫作部分之作文評(píng)分的概化系數(shù)進(jìn)行了比較。該研究發(fā)現(xiàn)專業(yè)組評(píng)卷員評(píng)分的系統(tǒng)誤差明顯小于非專業(yè)組的。
實(shí)踐中,某語(yǔ)種的語(yǔ)言水平寫作測(cè)驗(yàn)的評(píng)卷員一般都經(jīng)過(guò)比較嚴(yán)格的篩選,并在正式閱卷前會(huì)進(jìn)行比較系統(tǒng)的評(píng)卷培訓(xùn),因而上述研究發(fā)現(xiàn)的評(píng)卷員評(píng)分經(jīng)驗(yàn)、語(yǔ)言學(xué)背景的差異可能在實(shí)際的大尺度、高風(fēng)險(xiǎn)作文閱卷情境下未必會(huì)顯著影響被試作文成績(jī)的可推廣性。值得注意的是Johnson及其同事對(duì)倘若發(fā)生評(píng)卷員評(píng)分差異時(shí)不同處理方法的效果的研究。據(jù)他們的發(fā)現(xiàn),以討論形成一致的最終評(píng)分和通過(guò)簡(jiǎn)單計(jì)算平均分作為最終評(píng)分對(duì)寫作成績(jī)可推廣性造成的影響并無(wú)較大差距。今后的研究可沿此方向展開(kāi),倘若發(fā)現(xiàn)與前人一致,則大可沿用計(jì)算平均分的傳統(tǒng)評(píng)分方法。
評(píng)分標(biāo)準(zhǔn)是整體抑或分析性評(píng)分同樣也會(huì)影響寫作測(cè)驗(yàn)信度。劉婧(2006)的碩士學(xué)位論文搜集了40名被試HSK的寫作及評(píng)分?jǐn)?shù)據(jù),對(duì)不同的寫作任務(wù)(如說(shuō)明文或議論文體裁)、評(píng)分方法(如整體評(píng)分或分析性評(píng)分)、評(píng)分項(xiàng)目(如內(nèi)容結(jié)構(gòu)或語(yǔ)言運(yùn)用)等影響作文分?jǐn)?shù)變異各因素的效應(yīng)及他們之間的復(fù)雜關(guān)系進(jìn)行了實(shí)證研究。研究發(fā)現(xiàn)寫作任務(wù)和評(píng)卷員因素效應(yīng)在很大程度上受評(píng)分方法和評(píng)分項(xiàng)目影響。姚琴宜等人(2008)對(duì)36名英語(yǔ)專業(yè)大學(xué)生英語(yǔ)作文評(píng)分結(jié)果的質(zhì)量進(jìn)行了分析,證實(shí)分項(xiàng)單項(xiàng)評(píng)分結(jié)果的可靠性高于整體評(píng)分結(jié)果,分項(xiàng)復(fù)合分?jǐn)?shù)的可靠性高于分項(xiàng)單項(xiàng)分?jǐn)?shù)的可靠性,同時(shí)揭示了傳統(tǒng)的信度系數(shù)對(duì)于評(píng)價(jià)評(píng)分結(jié)果的總體質(zhì)量是一個(gè)不恰當(dāng)?shù)闹笜?biāo)。類似的,李智(2009)也從不同寫作任務(wù)和評(píng)分模式出發(fā),用概化理論分析了由4名評(píng)卷員評(píng)判的30名大學(xué)生英語(yǔ)分班測(cè)試的兩篇作文(一篇看圖寫作、一篇自由命題作文)的分項(xiàng)成績(jī),認(rèn)為整體而言,分析性評(píng)分所得的寫作成績(jī)具有較高的信度。
羅娟、肖云南(2008)的研究則更進(jìn)一步比較了寫作分析性評(píng)分量表五個(gè)評(píng)分因子的評(píng)分信度,結(jié)果顯示:在寫作內(nèi)容、篇章結(jié)構(gòu)、詞匯使用這三個(gè)因子上的評(píng)分較為一致,相對(duì)而言,對(duì)語(yǔ)言表達(dá)的評(píng)分信度最高,而對(duì)書寫規(guī)范的評(píng)閱有待提高。薄麗的研究則向人們揭示了專業(yè)與非專業(yè)評(píng)卷員對(duì)分析性評(píng)分標(biāo)準(zhǔn)的理解與使用習(xí)慣的不同:在評(píng)分標(biāo)準(zhǔn)的理解與使用方面,專業(yè)評(píng)卷員更注重考生作文的語(yǔ)法、詞匯等方面,而非專業(yè)組評(píng)卷員則更看重作文內(nèi)容和連貫性等層面。
綜合這些研究發(fā)現(xiàn),并結(jié)合當(dāng)前的寫作測(cè)評(píng)實(shí)踐,人們有更多理由選擇分析性評(píng)分標(biāo)準(zhǔn)來(lái)評(píng)判被試的寫作能力,這不僅因?yàn)樗軒?lái)較高的寫作成績(jī)信度,而且它所提供的評(píng)分信息可以被用于指導(dǎo)寫作評(píng)分實(shí)踐,從而降低對(duì)評(píng)分標(biāo)準(zhǔn)的主觀把握程度,增強(qiáng)評(píng)卷員信度,并最終達(dá)到進(jìn)一步提升寫作成績(jī)可推廣性的目標(biāo)。
評(píng)卷任務(wù)分配是近年業(yè)內(nèi)學(xué)者開(kāi)始關(guān)注的影響寫作成績(jī)可推廣性的又一個(gè)因素。針對(duì)115名被試兩篇讀寫作文和兩篇單寫作文的數(shù)據(jù),Gebril(2010)所作的另一項(xiàng)分析結(jié)果發(fā)現(xiàn):讀寫成績(jī)同單寫成績(jī)一樣可靠且評(píng)卷員只判某種題型的作文(讀寫或單寫)與讓該組評(píng)卷員給兩種題型打分所得成績(jī)的可靠性也非常接近。由于此方面的研究數(shù)量還非常有限,人們有賴于后人對(duì)該問(wèn)題更多的探究,以期得到相對(duì)客觀、全面的理解和認(rèn)識(shí)。
此外,較之對(duì)題目導(dǎo)致的寫作成績(jī)方差的高度重視而言,由被試本身的一些特征造成的寫作成績(jī)的方差受到的關(guān)注相當(dāng)有限,且集中于第二語(yǔ)言或外語(yǔ)習(xí)得領(lǐng)域。例如:Solano-Flores和Li (2008)通過(guò)應(yīng)用概化理論發(fā)現(xiàn)對(duì)于英語(yǔ)學(xué)習(xí)者而言,被試、作文題以及題目本身的語(yǔ)言(母語(yǔ)或外語(yǔ))的交互作用是寫作成績(jī)最大的方差源。Huang(2008)用概化理論研究了加拿大ESL被試在省級(jí)英語(yǔ)考試寫作成績(jī)的方差源及信度。三年的數(shù)據(jù)分析結(jié)果發(fā)現(xiàn):ESL和英語(yǔ)為母語(yǔ)的被試的分?jǐn)?shù)變異不同。ESL被試作文成績(jī)的殘余方差成份比英語(yǔ)為母語(yǔ)的要高。某一年ESL被試能解釋的方差明顯小于英語(yǔ)為母語(yǔ)被試的,其ESL被試寫作成績(jī)的概化系數(shù)顯著低于英語(yǔ)為母語(yǔ)被試的。該文作者并據(jù)此質(zhì)疑了ESL被試所得寫作成績(jī)的公平性。
最后需要留意的是關(guān)于概化理論測(cè)量工具本身的可信程度的一項(xiàng)研究給人們的啟示。Gao和概化理論的代表性學(xué)者Brennan(2001)的論文通過(guò)分析若干年的聽(tīng)力和寫作數(shù)據(jù)研究了方差成份估算的抽樣差異性并評(píng)估了測(cè)量精確性估值的穩(wěn)定性。結(jié)果顯示方差成份的估算隨年份而有差異,并且G研究估算的測(cè)量精度在實(shí)際的D決策研究中可能無(wú)法完全兌現(xiàn)。但上述理論估值與實(shí)際測(cè)量值之間的差異并沒(méi)有大到令人有理由放棄能夠帶來(lái)諸多便利的理論估值方法。Gao和Brennan(2001)同時(shí)也指出,其研究的這些發(fā)現(xiàn)因?yàn)閮H僅來(lái)自一項(xiàng)研究,不能過(guò)度推廣到其他研究情境。他們建議在其他條件不變的情況下,盡量使用有代表性的大樣本進(jìn)行方差成份的估值,因?yàn)檫@樣可以提升測(cè)量估值的精確性。
一言以蔽之,寫作測(cè)評(píng)的成績(jī)不僅僅是被試寫作能力的反映,還包括施測(cè)和評(píng)價(jià)過(guò)程的諸多干擾因素帶來(lái)的影響,因此研究和改善寫作成績(jī)的可推廣性要從多角度思考,采用更合理的測(cè)量工具的同時(shí)提升測(cè)驗(yàn)本身的評(píng)價(jià)標(biāo)準(zhǔn)及其可操作性等多項(xiàng)措施以保證測(cè)評(píng)成績(jī)的可靠性。
縱觀教育測(cè)評(píng)題型的發(fā)展,存在著一個(gè)由主觀題/開(kāi)放題測(cè)評(píng)為主到數(shù)十年前以客觀題為主,近年又日益凸顯增加主觀題/開(kāi)放測(cè)評(píng)份量的趨勢(shì)。這一次對(duì)主觀/開(kāi)放題的回歸絕不是簡(jiǎn)單地重返起點(diǎn),而是在教育測(cè)評(píng)理論與技術(shù)取得重大進(jìn)展的前提下,在對(duì)主觀題/開(kāi)放測(cè)驗(yàn)題的評(píng)判的可推廣性有了一定的保障,并日益得到改善條件下的螺旋推進(jìn)式回歸。在這一大背景下,寫作測(cè)驗(yàn)這一古老而又在衡量被試寫作能力方面有著難以取代之地位的主觀/開(kāi)放題,應(yīng)該而且能夠成為旨在提升主觀/開(kāi)放測(cè)評(píng)成績(jī)可靠性的研究的試驗(yàn)田。而概化理論憑其本身在分析方差成份方面的特長(zhǎng)及能夠指導(dǎo)測(cè)評(píng)設(shè)計(jì)的獨(dú)門秘笈,應(yīng)該而且能夠成為提升主觀/開(kāi)放測(cè)評(píng)質(zhì)量的利器。本文以研究述評(píng)的形式,回顧了近20年來(lái)以概化理論為指導(dǎo)、以提升寫作成績(jī)可推廣性為目標(biāo)的中、英文研究文獻(xiàn),期望能通過(guò)梳理前人的研究發(fā)現(xiàn),為日后的相關(guān)研究提供借鑒與參考的便利。
薄 麗:《背景差異的兩類評(píng)卷員在HSK高等作文考試評(píng)分中的差異研究》,北京語(yǔ)言大學(xué)碩士學(xué)位論文,2005年。
何蓮珍、閔尚超:《寫作測(cè)試的主要實(shí)證研究方法及其發(fā)展趨勢(shì)》,《中國(guó)外語(yǔ)》,2008年第6期。
李 智:《英語(yǔ)作文分析性評(píng)分的多元概化理論分析》,《湖南文理學(xué)院學(xué)報(bào)》(社會(huì)科學(xué)版),2009年第2期。
劉 婧:《運(yùn)用概化理論分析作文分?jǐn)?shù)的變異》,北京語(yǔ)言大學(xué)碩士學(xué)位論文,2006年。
劉遠(yuǎn)我、張厚粲:《概化理論在作文評(píng)分中的應(yīng)用研究》,《心理學(xué)報(bào)》,1998年第2期。
羅 娟、肖云南:《基于多元概化理論的英語(yǔ)寫作評(píng)分誤差分析研究》,《中國(guó)考試》,2008年第5期。
喬治·恩舟赫爾德:《以多面Rasch模型測(cè)量寫作能力》,朱宇譯,《教育與考試》,2007年第4期。
姚琴宜、祁宗海、席仲恩:《作文整體評(píng)分與分析性評(píng)分結(jié)果的質(zhì)量比對(duì)》,《外語(yǔ)研究》,2008年第5期。
趙琪鳳:《HSK寫作測(cè)試評(píng)分信度考查——基于對(duì)新老評(píng)卷員的個(gè)案調(diào)查》,《中國(guó)考試》,2010年第10期。
Bachman,L.Fundamental considerations in language testing.Shanghai:Shanghai Foreign Language Education Press,1999.
Engelhard,Jr.,G.Differential Rater Functioning.Rasch Measurement Transactions,2008,21(3).
Gao,X.&Brennan,R.L.Variability of estimated variance components and related statistics in a performance assessment.Applied Measurement in Education,2001,14(2).
Gebril,A.Bringing reading-to-write and writing-only assessment tasks together:A generalizability analysis.Assessing Writing,2010,15(2).
Gebril,A.Score generalizability of academic writing tasks:Does one test method fit it all?Language Testing,2009,26(4).
Huang,J.How accurate are ESL students'holistic writing scores on large-scale assessments?——A generalizability theory approach.Assessing Writing,2008,13(3).
Johanson,G.&Alsmadi,A.(1998).Differential Person Functioning.ED 420 691.
Johnson,R.,Penny,J.,Gordon,B.,Shumate,S.R.,&Fisher,S.P.Resolving score differences in the rating of writing samples:Does discussion improve the accuracy of scores?Language Assessment Quarterly,2005,2(2).
Lee,Y.-W.&Kantor,R.Evaluating prototype tasks and alternative rating schemes for a new ESL writing test through G-theory.International Journal of Testing,2007,7(4).
Linacre,J.M.Many-facet Rasch measurement.Chicago,IL:MESA Press,1989.
Nie,Y.,Yeo,S.M.&Lau,S.Application of generalizability theory in the investigation of the quality of journal writing in mathematics.Studies in Educational Evaluation,2007,33(3-4).
Rasch,G.Probabilistic models for some intelligence and attainment tests(revised and expanded ed.).Chicago:The University of Chicago Press,1980.
Schoonen,R.Generalizability of writing scores:An application of structural equation modeling.Language Testing,2005,22(1).
Sim,J.&Wright,C.Research in health care:concepts,designs and methods.Cheltenham,UK:Stanley Thornes,2000.http://books.google.com/books?id=vwjhgtUoNZIC&pg=PA335&lpg=PA335&dq=%22estimate+of+Intra-rater +reliability%22&source=bl&ots=6FQUcpr6X5&sig=fY5VEyJ_BqG54wSv0w61GVazYAM&hl=en&ei= It7LTIH2EYmAvgO0iZnMDw&sa=X&oi=book_result&ct=result&resnum=1&ved=0CBIQ6AEwAA#v= onepage&q=%22estimate%20of%20Intra-rater%20reliability%22&f=false.2010-10-30.
Solano-Flores,G.&Li,M.Examining the dependability of academic achievement measures for English language learners.Assessment for Effective Intervention,2008,33(3).
Sudweeks,R.R.,Reeve,S.&Bradshaw,W.S.A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing.Assessing Writing,2004,9(3).
Wikipedia.Intraclass correlation.http://www.answers.com/topic/intraclass-correlation.2010-10-30.