吳雪峰, 周 靜
(南京林業(yè)大學 外國語學院, 南京 210037)
基于多層面Rasch模型的英語寫作教師評分與同伴互評對比研究
吳雪峰, 周 靜
(南京林業(yè)大學 外國語學院, 南京 210037)
基于多層面Rasch模型,本文對比分析了大學生英語作文的教師評分與同伴互評的評分質(zhì)量,以及在寫作教學中引入同伴互評的可行性與必要性。研究表明:從總體寬嚴度、自身一致性等指標上看,教師評分員的評分質(zhì)量明顯高于學生評分員;但整體而言,兩類評分員的評分結(jié)果具有較高的一致性,這表明對于形成性評估的大學英語寫作測試而言,同伴互評可以作為教師評價的輔助性手段參與寫作教學與評估,從而有效提升評分效度,豐富教學手段,增強英語寫作教學效果。
英語寫作;多層面Rasch模型;教師評分;同伴互評
寫作是英語教學體系中的重要組成部分,但它具有高投入、低產(chǎn)出的特點。其原因在于在傳統(tǒng)的教與學的模式中,學生作為客體被動接受知識,參與度較低,積極性不高。單就英語寫作的評估方式而言,傳統(tǒng)的英語寫作教學評價體系過于單一,在課堂或測試環(huán)境下一般均采用教師打分作為寫作評估的主要甚至唯一模式。教師往往要耗費大量時間和精力評改學生作文,而許多學生對老師的批閱卻未能仔細研讀和消化,最終導致教學效果甚微,學生的英語寫作能力很難得到有效提高。
鑒于此,對英語寫作評分而言,有必要進一步提升學生或被試群體在寫作評估中的地位和參與程度。評價是學習過程中重要的一環(huán),可靠的評分能為教學提供診斷性反饋,為日常教學決策提供依據(jù)。讓學生參與評價過程,將同伴互評作為英語寫作教師評分的一種重要補充,有利于提高學生的自主性[1],不僅可以改變他們在評價中的被動角色,而且能讓他們從評價他人的作文中受到啟發(fā),從而在一定程度上促進自身寫作水平的提高。本研究旨在通過量化的方法對比分析教師評分和學生互評的評分質(zhì)量,探討在課堂環(huán)境下大學英語寫作課程引入同伴互評的可行性。
(一)國外研究
國外研究者對外語寫作評估進行了大量研究。教師評估被認為是寫作過程中最基本的組成要素,在二語寫作評估研究領域始終占據(jù)著中心位置。然而隨著高等教育的發(fā)展,國外研究者在外語寫作評估上的研究重心轉(zhuǎn)移到作文評改的替代方式上,不同形式的評分方式,尤其是同伴互評開始被引入大學英語寫作課堂。Azarnoosh[2]研究發(fā)現(xiàn):教師評分與學生互評之間沒有顯著差異;同伴互評的結(jié)果往往與教師評閱的結(jié)果之間存在較高的相關性。此外,同伴互評不僅可以讓學生相互評分,提高課堂環(huán)境下寫作評分的效率,還可以幫助學生獲得評改作文的寶貴經(jīng)驗,這也是一項非常重要的技能,使得學生在批閱過程中通過對比自己與他人寫作的異同,反思自身寫作中存在的問題,取長補短,從而不斷提升自己的英語寫作水平。
然而,盡管同伴互評存在上述優(yōu)勢,許多研究者仍然對英語寫作同伴互評的質(zhì)量及可靠性持懷疑態(tài)度。Freeman[3]認為學生所掌握的語言知識有限,不能完全發(fā)現(xiàn)和修改目的語中的錯誤,進而影響評分的可信度。Mangelsdorf[4]在實證研究中發(fā)現(xiàn),很多學生不信任同學的評議,認為同學沒有能力對自己的作品給出合理的評價。盡管一些英語基礎較好的學生能夠比較準確地理解和評判同伴作文,但大部分學生仍抱怨學生評分員給出的分數(shù)不夠“公平”。Sengupta[5]的調(diào)查則認為,在以應試為目的和強調(diào)語言準確性的環(huán)境中,學生對同伴互評的態(tài)度很冷淡,認為同伴互評不具有任何教育教學方面的價值。
(二)國內(nèi)研究
在國外大量相關研究涌現(xiàn)的同時,國內(nèi)對寫作評估模式的研究也取得一定進展。在傳統(tǒng)的大學英語寫作課堂中,教師評分被認為更具權威性。許多問卷調(diào)查和訪談結(jié)果顯示,學生對教師評閱的接受度最高,更傾向于接受教師評分[6]。中國的英語學習者非常重視教師的評語,他們普遍認為教師評改能夠有效幫助學生提高英語寫作水平[7]。然而,作文評改是“一種復雜的、易出誤差的認知過程”[8],教師若作為唯一的評閱者,極易導致評價偏差。因此,近年來,國內(nèi)不少研究者將重點放在了寫作評分的不同類型上,探討將同伴互評引入大學英語寫作課堂的可行性與有效性。
目前,學界對同伴互評在作文評閱中的可信度尚未達成共識。一部分研究表明,同伴互評是教師評閱的有益及有效補充,能激發(fā)學生進行作文自主修改活動的興趣,為學生創(chuàng)造較多的相互學習、共同提高的合作機會[9]。同伴互評和教師評分在評分結(jié)果上具有很高的一致性,只要設計合理、操作嚴謹,同伴評價可以作為一種有效的評價方式,融入寫作教學中。研究還發(fā)現(xiàn),總的來說同伴評估不受學生自身寫作水平的影響[10]。因此,同伴互評的準入門檻較低,受眾較廣,易于接受和操作。而王瑩[11]則認為,學生所掌握的語言知識較為有限,不能完全識別和糾正作文中的錯誤或不當之處,極大地影響了評分的信度,而教師評改效果較為明顯,受大部分學生歡迎。
由此可見,學界對同伴互評模式的信度、效度仍存在較大分歧,對這種評價模式能否引入教學還存在諸多爭議。此外,現(xiàn)有研究一般僅通過相關分析或T檢驗的方法檢測學生與教師在作文評分信度上的一致性,研究方法相對較為單一。此類定量研究只能檢測到不同種類評閱者間(如學生與教師之間)的交互信度,而無法檢測單個評分員自身評卷的穩(wěn)定性,即評卷者內(nèi)部信度。有鑒于此,本研究在傳統(tǒng)定量研究的基礎上增加多層面Rasch模型分析,采用FACETS軟件對比分析英語寫作教學中教師評分與同伴互評的評分質(zhì)量,探討同伴互評在實際教學中實施的可行性和可靠性。
(一)研究問題
本研究旨在回答下列兩個問題:
1. 學生評分與教師評分的評分質(zhì)量是否存在差異?
2. 學生評分員與教師評分員的評分結(jié)果是否具有一致性?
(二)研究對象
研究者首先選取9名學生作為同伴互評的研究對象,全部為南京某高校英語專業(yè)四年級學生,其中男生3人,女生6人,平均年齡為21.4歲,編號為 11~19。同時,研究者邀請了該校5名英語專業(yè)教師作為教師評分員參加此次研究,其中男性2人,女性3人;博士2人,碩士3人;教授1人,副教授2人,講師1人,助教1人。所有教師評分員編號為 21~25號。
(三)數(shù)據(jù)收集
實驗材料來自英語專業(yè)學生課堂上完成的命題作文。研究者從中隨機抽取5篇,復印14份,隱匿姓名并編上序號,采用英語專業(yè)四級考試(TEM4)寫作評分標準,將所有材料發(fā)放到教師評分員與學生評分員手中。為體現(xiàn)教師和學生評分的真實性,我們在評分前未對評分員進行相關培訓,所有評分員均依照TEM4評分標準對上述作文獨立進行分項式評分。
(四)數(shù)據(jù)分析
本研究運用SPSS 23.0及FACETS 3.58這兩個統(tǒng)計軟件對數(shù)據(jù)進行分析,共分2個步驟,分別用以回答本研究的兩個研究問題:1.運用多層面Rasch(MFRM)模型對比分析學生評分員與教師評分員的評分質(zhì)量;2.運用獨立樣本T檢驗比較學生評分員與教師評分員的評分結(jié)果。
MFRM是項目反應理論(Item Response Theory)模型之一,該模型可用于主觀試題的評分質(zhì)量分析。它基于隨機概率模型,將各層面中每一個體(考生、評分者、任務等)在共同的logit標尺上進行度量,并計算每個度量值的估算誤差、對模型的擬合程度以及每個層面之間可能的交互作用。由Linacre和Wright(1987-2004)開發(fā)的“FACETS”是基于MFRM的電腦軟件,可以對評分員的評分行為做出分析和解釋。鑒于MFRM的強大功能,越來越多的學者借助MFRM研究L2寫作評分問題。利用FACETS(Version 3.58),我們可以得到以下主要分析數(shù)據(jù)。
1.度量值(Measure):個體在共同標尺上的標度值。FACETS將所有層面中的每一個體的度量值都轉(zhuǎn)化為以logit為單位的統(tǒng)一度量值,便于各層面之間的比較和分析。
2.擬合統(tǒng)計量(Fit statistics):衡量每一個體的實際觀察值與模型預測值之間的擬合程度。包括加權均方擬合統(tǒng)計量(Infit Mean Square)和未加權均方擬合統(tǒng)計量(Outfit Mean Square)。后者更容易受到差異較大的數(shù)據(jù)影響,因此一般把前者作為判斷個體是否擬合模型的依據(jù)[12]。如果Infit MnSq 值為1,說明與模型預測完全符合。擬合值大于1表明數(shù)據(jù)與模型之間存在隨機偏差,而小于1則說明數(shù)據(jù)之間的差異小于模型預測的差異。
在評分員層面,一般認為若Infit取值在0.5~1.5的范圍內(nèi),可以認為評分員的穩(wěn)定性較高,低于0.5的項目為過度擬合,高于1.5為非擬合。也就是說,Infit MnSq值大于1.5,表明評分員之間一致性較低,而小于0.5時則說明評分員之間差異性太小,在評分過程中可能存在趨中或光環(huán)效應。同時,如果標準擬合數(shù)據(jù)(ZStd)絕對值小于2,表明評分員的評分行為符合Rasch模型。如果MnSq值大于1.5,且標準化值(Zstd)大于2,則表明評分員未能很好地使用各個分數(shù)段,評分的前后一致性較差。
3.分隔系數(shù)(Separation)和分隔信度(Reliability):衡量每個層面的個體之間的差異是否大于測量誤差,數(shù)值越大越說明該層面?zhèn)€體之間存在顯著的差異。一般分隔系數(shù)大于2時可以認為個體間有明顯差異[13]。分隔信度衡量個體之間存在顯著差異的程度。對于評分員來說,分隔系數(shù)和信度的值越大,則說明評分員之間的差異越大,評分的一致性越低。
(一)學生評分員評分質(zhì)量分析
1.整體分析
圖1是FACETS提供的學生評分員評分結(jié)果的總體情況。最左邊的縱列是logit量尺,是后面所有縱列參照的共同標準。第二列是考生能力的度量值,度量值越大,說明考生能力越強。第三列表示評分員的寬嚴度,評分員在量表上的位置越高,表示該評分員較其他評分員更嚴格;越低,則表示其評分更寬松。
圖1 學生評分員總層面圖
如圖1所示,14號評分員最嚴格(1.08 logit),12號評分員最寬松(-1.86 logit)。其他評分員均分布在±1.0 logit之間,表明大多數(shù)學生評分員之間的評分一致性較高。
2.評分員層面分析
表1為FACETS提供的9位學生評分員評分結(jié)果分析。評分寬嚴度仍然用洛基量尺測量。在評分過程中,我們希望評分員盡可能做到客觀,一般認為,評分寬嚴度在-2至+2之間為可接受范圍。如表1所示,9名學生評分員評分寬嚴度各有不同,而Rasch模型要求評分寬嚴度差異越小越好,這表明學生評分員在評分寬嚴度方面表現(xiàn)不夠理想。但所有評分員的logit值均分布在可接受范圍內(nèi)(±2 logits),平均寬嚴度為.00 logit,說明學生評分員的評分結(jié)果基本合理,可以接受。從整體來看,評分員的分隔指數(shù)(3.04)①顯示評分員的寬嚴度大致分為3個不同層次。此外,分隔信度(.81)、卡方檢驗值(chi-square =40.0)、sig值(=.00),這些數(shù)據(jù)都表明學生評分員之間存在明顯的寬嚴度差異。
從擬合情況來看,12、13、14、15、16號均符合擬合模型,可以認為大多數(shù)評分員具有較好的前后一致性,也就是說,大體上能把握較一致的寬嚴度;11號(Infit MnSq=2.24)為顯著非擬合,說明自身一致性較差,對評分標準的理解可能和其他評分員不一致,并且給出的分數(shù)沒有可預測性,缺乏信度;17、18、19號為過度擬合,說明可能存在趨中現(xiàn)象。
表1 學生評分員層面分析結(jié)果
Separation: 2.03; Reliability: .81; Fixed chi-square: 40.0; Significance: .00
(二)教師評分員評分質(zhì)量分析
1.總體分析
圖2是教師評分員評分結(jié)果總體情況。所有教師評分員寬嚴度均分布在-1到+1 logit之間,表明存在相當高的一致性。
2.評分員層面分析
表2為FACETS提供的5位教師評分員評分結(jié)果分析。教師評分員評分寬嚴度有所不同,但均分布在可接受范圍內(nèi)(±1 logits),平均寬嚴度為.00 logit。3位評分員略微寬松(logit值lt;0),21號(.68 logit)和25號(.68 logit)評分員最為嚴厲,24號評分員最為寬松(-.56 logit)。但最嚴格及最寬松教師評分員的logit值差僅為1.24 logit (.68logit~-.56 logit),遠小于學生評分員最嚴最寬之差(2.94 logit),這表明教師評分員在評分寬嚴度方面整體上優(yōu)于學生,內(nèi)部一致性程度更高。盡管分隔信度(.66)和卡方分析結(jié)果(χ2=14.4, p=.01) 表明教師評分員的評分嚴厲程度仍存在顯著差異,但所有教師評分員的寬嚴度logit值均分布在可接受范圍內(nèi)(±2 logits),平均寬嚴度為.00 logit,說明教師評分員的評分結(jié)果比較合理。
圖2 教師評分員總層面圖
表2 教師評分員層面分析結(jié)果
Separation: 1.38; Reliability: .66; Fixed chi-square: 14.4; Significance: .01
此外,卡方檢驗值(chi-square=40.0)和sig值(=.00)也表明評分員的評分嚴厲程度有顯著差異。教師評分員的分隔指數(shù)(2.17)顯示評分員的寬嚴度大致分為2個不同層次,而學生評分員則大致分為3個層次,這也從另一個層面證明了教師評分員在寬嚴度的把握方面優(yōu)于學生評分員。從擬合情況來看,21、22、24號均符合擬合模型,表明大多數(shù)評分員具有較好的前后一致性;23號(Infit MnSq=.29)、25號(Infit MnSq=.39)為過度擬合,說明這兩名評分員在評分過程中可能存在趨中現(xiàn)象。
綜上所述,教師評分員的評分寬嚴度差異小于學生評分員,其內(nèi)部一致性程度優(yōu)于學生評分員,相比較學生評分員而言,教師評分員在寫作評估中能夠更好地保持評分的一致性,給出更為客觀的分數(shù)。因此,教師評分員的評分質(zhì)量整體高于學生評分員,但Rasch模型數(shù)據(jù)顯示學生評分員的評分結(jié)果也具有一定的合理性,基本可以接受。
(三)學生與教師評分結(jié)果的對比
本文采用獨立樣本t檢驗的方法,從語言應用、思想內(nèi)容、總成績?nèi)齻€層面檢驗學生評分員與教師評分員在評分結(jié)果上的差異。
從表3可以看出,學生評分員與教師評分員在語言應用、思想內(nèi)容及總成績這3個層面均不存在顯著差異(p=.870;p=.550;p=.476),這表明兩組評分員在語言應用層面上的評分均無顯著性差異。
表3 獨立樣本t檢驗結(jié)果(α=.05)
Rasch模型的數(shù)據(jù)顯示學生與教師評分員的總體寬嚴度均在可接受范圍內(nèi)。然而,教師評分員的評分一致性要高于學生評分員,說明教師的評分質(zhì)量整體高于學生。從評分寬嚴度、自身一致性等指標來看,學生與教師評分員在評分質(zhì)量上存在一定差異。教師評分員與學生相比,對總體評分寬嚴度把握得更好,給出的分數(shù)更能夠反映考生的真實英語寫作水平,評分結(jié)果更具客觀性,評分質(zhì)量更高。這個結(jié)果也得到相關文獻的支持。較之教師評分,同伴互評的信度較低,學生評分員往往低估同學的作文質(zhì)量。導致這一現(xiàn)象的原因可能是學生的語言知識有限,語言技能還沒有完全成熟,知識體系不夠完備等,他們不能完全識別目的語寫作中存在的語言錯誤;對寫作內(nèi)容進行鑒定和評估也往往有失偏頗,進而影響其評分信度。盡管評分質(zhì)量整體低于教師評分,但學生評分員的評分寬嚴度仍在可接受范圍內(nèi),獨立樣本t檢驗結(jié)果表明,同伴互評與教師評分在各評分維度及總分方面均沒有顯著差異。Sadler amp; Good[14]的研究也表明,學生自評、學生互評及教師三者之間在評分結(jié)果上存在顯著的高相關性。眾所周知,大型考試中的作文評分,如高考,全國大學英語四、六級考試,全國高校英語專業(yè)四、八級考試等,對評分員的要求非常嚴格,評分員應最大限度地達到總體寬嚴度的一致和自身評分的一致,對考生的實際寫作能力做出盡可能公平、公正的評估。不過,日常課堂教學中的英語寫作練習有別于此類大型考試中的寫作項目,其評分過程中的誤差不會給學生帶來太嚴重影響,因此對評分員的要求可以適當放寬。而本文的研究也表明學生評分員基本能夠勝任課堂教學中的同伴互評工作,寫作評分中引入同伴互評是可行的。此外,同伴互評還可對英語寫作的教與學產(chǎn)生積極的反撥作用。
在同伴互評過程中,學生需要對評分標準進行研讀、學習和消化,這一過程可以幫助學生進一步明確寫作規(guī)范與要求,從而在今后的寫作中有意識地遵照評分標準進行寫作訓練。從某種程度上來說,同伴互評中的評分標準不僅直接用于教育測量,更是一種具有教學指導意義的工具。研究表明,使用評分標準對英語寫作進行同伴互評可以有效提升學生的英語寫作水平[14]。當然,要達到這一效果的基本前提就是學生對評分標準完全吃透和理解,教師也需主動提供必要的支持,起到應有的中介作用,對學生進行評分標準方面的培訓。文秋芳[15]指出,同伴互評狀態(tài)下教師應提供專業(yè)引領,在為學生評分員選擇典型樣本、帶領學生合作評價的基礎上再來實施同伴互評,從而確保同伴互評過程中評分標準使用的準確性與合理性。在同伴互評的實施過程中還應注意避免“只打分,不評析”的趨勢,鼓勵學生在評分后對自己的評分過程認真總結(jié),將自己的寫作文本與所評閱的文本進行對比,認清自己的優(yōu)勢與劣勢,從而取長補短,逐步提高自己的英語寫作水平。學生與學生之間也應當加強溝通,交流評分體會,并在此基礎上對英語寫作共同進行反思。
同伴評估在英語寫作教學中的運用并非十分廣泛,但學生參與評估被認為是基本有效、可靠的,有助于培養(yǎng)學生批判性思維能力、分析問題和解決問題的能力,因而完全可以作為一個重要的組成成分參與到英語寫作教學中來??紤]到教師評分員的語言基本功更為扎實,評分經(jīng)驗更加豐富等因素,在未來的基于課堂的寫作評分中,可以實行“教師評分為主,同伴互評為輔”的教師-學生合作評價模式,為學生創(chuàng)造更多的機會真正參與到課堂互動中來,改變他們一直以來的被動角色,培養(yǎng)主動修改作文和自主學習的本領。
綜上所述,在英語寫作測試與評估中,教師評分員的評分質(zhì)量顯著高于學生評分員,但后者的評分質(zhì)量也并非完全不可接受。基于多層面Rasch模型的量化研究表明,學生評分員在評分過程中整體上基本能做到客觀、合理,對于相同的寫作樣本,其評分結(jié)果與教師評分員相比并無顯著性差異。為提升寫作教學與評估的效率,增強學生的學習效果,同伴互評可以作為教師評價的輔助性手段參與到寫作教學中來,使寫作評分更加全面、合理、科學。本研究的不足之處在于樣本容量較小且樣本全部來自同一所高校,因此研究成果的推廣價值相對較小。在未來的研究中,可以擴大樣本容量,進行更廣范圍的研究。對于本研究中出現(xiàn)的極端案例,未來可通過問卷調(diào)查、訪談或有聲思維報告等其他定性研究方法進一步深入研究。
注釋:
①分隔指數(shù)的計算公式為(4G+1) / 3,其中 G 為分隔比率 (Myford amp; Wolfe,2004)
[1]Dheram, P. K. Feedback As a Two-bullock Cart: A Case Study of Teaching Writing[J]. ELT Journal, 1995, 49(2): 160-168.
[2]Azarnoosh, M. Peer Assessment in an EFL Context: Attitudes and Friendship Bias[J]. Language Testing in Asia, 2013, 3(11): 74-83.
[3]Freeman, M. Peer Assessment by Groups of Group Work[J]. Assessment amp; Evaluation in Higher Education, 1995, 20(3): 289-300.
[4]Mangelsdorf, K. Peer Reviews in the ESL Composition Classroom: What Do the Students Think?[J]. ELT Journal, 1992(3): 274-284.
[5]Sengupta, S. Peer Evaluation: ‘I Am Not the Teacher’[J]. ELT Journal, 1998, 52(1): 19-28.
[6]李奕華.基于動態(tài)評估理論的英語寫作反饋方式比較研究[J].外語界,2015(3):59-67.
[7]王俊菊.總體態(tài)度、反饋類型和糾錯種類——對大學英語教師作文書面反饋的探究[J].國外外語教學,2006(3):24-30.
[8]Cronbach, L. J. Essentials of Psychological Testing (5th ed.)[M]. New York: Haper and Row, 1990.
[9]莫俊華.同伴互評:提高大學生寫作自主性[J].解放軍外國語學院學報,2007(5):35-39.
[10]孫鑫,李秋菊.基礎英語寫作教學中自我、同伴及教師評估對比研究[J].中國外語,2015(1):75-81.
[11]王瑩.教師反饋和同伴反饋應用于大學英語寫作教學之對比研究[J].隴東學院學報,2012(1):133-137.
[12]李清華,孔文.TEM-4寫作新分項式評分標準的多層面Rasch模型分析[J].外語電化教學,2010(1):19-25.
[13]劉建達.評卷人效應的多層面Rasch模型研究[J].現(xiàn)代外語,2010(2):185-193.
[14]Sadler, P.M., amp; Good, E. The Impact of Self- and Peer-grading on Student Learning[J]. Educational Assessment, 2006,11(1): 1-31.
[15]文秋芳.師生合作評價:“產(chǎn)出導向法”創(chuàng)設的新評價形式[J].外語界,2016(5):37-43.
[責任編輯亦 筱]
2017-03-29
中國高等教育學會高等教育科學研究“十三五”規(guī)劃課題“泛在網(wǎng)絡時代大學英語碎片化學習中的認知障礙及對策研究”(16YB050);第八批教育部中國外語教育研究中心課題“基于泛在網(wǎng)絡的大學英語碎片化學習中的認知障礙及對策研究”(ZGWYJYJJ2016B56);江蘇高校哲學社會科學研究基金一般項目“糾正性反饋對英語書面表達復雜度的影響研究”(2015SJB033)
吳雪峰(1981 — ),男,江蘇南通人,博士研究生,講師,研究方向:語言測試;周靜 (1993 — ),女,江蘇宿遷人,研究方向:外語教學。
H319
A
1008-6390(2017)06-0085-06