訓練對同伴互評評分準確性的影響

2018-08-07 10:45李菲茗李曉菲黃亞平葉艷偉

中國遠程教育 2018年5期

李菲茗李曉菲黃亞平葉艷偉

【摘要】同伴互評在現今的網絡學習中不僅僅是一種評價策略，也成為學習活動的重要組成部分?；ピu的準確性能夠反映評價者的高階思維能力，即評價能力，同時有利于激發(fā)被評者對評價結果的認同和積極反應，如反思和修改。通過對以往研究進行梳理，將影響互評準確性的因素分為人際因素、評價者自身因素、作品因素和外在干預因素，并提出訓練作為外在干預因素是有助于提高評分準確性的積極因素。以浙江工業(yè)大學學生在“三維動畫設計與建?！闭n上開展網絡互評為例，進行對比實驗，著重研究互評中的訓練方式，同時考慮被評作品質量、評價維度及學習者自身因素等對評價者評分準確性的影響。研究發(fā)現：①練習加反饋的訓練方式在提高評分者評分準確性上優(yōu)于通常的范例式學習； ②作品質量、評價者的能力和學習風格對評分準確性也有顯著影響，但這些因素與訓練方式之間沒有交互作用。

【關鍵詞】同伴互評；評分準確性；互評影響因素；培訓方式；評價能力

【中圖分類號】 G423 【文獻標識碼】 A 【文章編號】 1009-458x（2018）5-0063-6

一、引言

由于MOOC等大規(guī)模在線開放課程的興起，原有網絡評價方式、評價標準受到挑戰(zhàn)（童小素， 2017），同伴互評逐漸成為這類學習形式中的一種有效評價方式，同時也成為學習活動的重要組成部分。同伴互評是指具有相同年級背景的學生在同一學習環(huán)境下以教師的角色對同一學習環(huán)境中同伴的學習成果或學習作品在作品水平、質量等方面進行評價（Topping， 1998）。在布魯姆的教學目標分類理論中，把學習者的評價能力歸結為教學目標認知領域的高階能力目標。同伴互評的評價方式以學習者為主，學習者積極參與，對于學習者提高評價能力、學習成績、學習動機（Hwang， 2014）、課堂參與度等具有非常有效的作用。

目前，關于同伴互評的研究主要集中在概念界定、互評活動開展平臺（Law， et al.， 2009）、互評活動開展流程模型（許濤， 2015；孫力，等， 2014）以及對其應用效果的研究（Liang & Tsai， 2010）。其中，在互評應用效果方面，現有研究皆以教學目標分類理論中學習者前四個方面（記憶、理解、應用、分析）教學目標的達成程度作為互評開展效果的最終考核標準，反而忽略了對更為高階的評價能力的衡量。目前鮮有研究表明，學習者通過同伴互評其評價能力也會有提高。僅僅以學習者成績提高與否作為研究的最終標準，不足以考量學習者評價能力的變化。評分準確性，一方面是反映評價者評價能力的一個重要指標，有助于學習者的自我評價（郭學品， 2011），另一方面有助于激發(fā)被評者的認同和積極的反應（如反思和修改），以及促進互評活動的良性循環(huán)。因此，本研究以反映學習者評價能力的評分準確性為考核指標，探究影響和提高評分準確性的相關因素。

有關學習者評分準確性影響因素的研究，可分為以下幾類：人際因素（如署名方式、互評者之間的利益關系）（舒存葉，等， 2015；殷寶媛，等， 2012）、評價者個人因素（如專業(yè)能力、性別、學習風格、認知風格）（陳茂慶，等， 2013）、外在干預（如訓練）。在這些因素中，多數因素是穩(wěn)定且不易改變的（如認知、學習風格），而培訓因素可以人為干預，且對準確性的提高起著關鍵和積極的作用。在以往的培訓研究中，培訓的方式分為以下幾類：①只提供評價標準和互評意義的講解（白麗茹， 2013）；②范例式學習（馬志強，等， 2014； Ferry， 2009），即提供有專家打分的范例供學習者學習；③試評練習（Guardado & Shi， 2007），用樣例進行練習和討論。在這些研究中我們發(fā)現：①范例式學習在研究中出現最多，而試評練習只有同伴間討論沒有專家反饋；②研究大多是在有培訓（某一種培訓方式）和無培訓之間進行對照比較，或者是培訓前后比較，無對照組。本研究將比較兩種培訓方式：“范例式學習”與“先試評練習再提供專家反饋”間的差異，培訓開始時對兩組同學均提供評價標準和互評意義的講解。除此之外，我們還將探究以往研究中不太被關注的作品因素（作品質量和作品的不同評價維度）以及評價者個人因素等對互評準確性的影響以及這些因素與培訓效果的交互作用。因此，文章的研究問題包括兩個層面：①哪種訓練方式、什么樣的作品及作品的哪些維度、什么樣的人評分準確性高？②什么樣的作品、作品的哪些維度、什么樣的人在哪種訓練方式上效果好，即這些因素與訓練方式之間有無交互作用？

由于互評中的人際因素比較復雜，而匿名互評可以有效避免人際因素對互評準確性的干擾。本研究通過匿名互評的方式控制人際因素，署名方式不作為研究的內容。同時，本研究聚焦于同伴互評中評價的準確性，所以以客觀評分為研究對象，主觀評價不納入本研究的范疇。

二、研究設計

（一）研究對象

本研究以浙江工業(yè)大學教育科學學院計算機師范專業(yè)“三維動畫設計與建?！闭n程中的64位本科三年級學生作為研究對象。專家由4位擁有豐富三維動畫建模經驗的研究人員和1位10年以上教學經驗的任課教師組成。

（二）研究流程

實驗共持續(xù)6周，分為三個階段。第一階段主要是獲取評分者個人因素變量進行匹配分組。第二階段在對實驗組和對照組進行統(tǒng)一的評分標準培訓后，給予不同的評價訓練。用于訓練的樣例作品由任課教師從上一學年同一課程中選出好、中、差三個學生作品：實驗組同學依據教師講解過的評分規(guī)則對這三個作品進行試評活動，而后收到專家評分反饋并與自己的打分進行對照；對照組同學直接收到帶有專家打分的三個相同作品，不參與試評活動。第三階段兩組同學對其他同學的期末作品進行互評。在超星網絡教學平臺上，采用匿名評價，通過它的“作業(yè)”功能隨機給每位同學分配兩份其他同學的作品，同時學生在平臺完成打分直接上傳。整個研究時間選在課程的最后6周，以便獲取足夠的平時作業(yè)成績。由于平時作業(yè)本身非常簡單，因此用作反映學習態(tài)度的指標，而非專業(yè)能力的指標。如圖1所示。

（三）研究變量和工具

1. 研究變量

本研究以學生的評分偏誤為因變量，評分偏誤越低，評分準確性越高。假設專家打分為真實分數，學生評分偏誤= 學生評分-專家評分 /專家打分，用專家打分作為權重，防止分數越高偏誤越大的可能，調整分數高低對偏誤估計的影響。主要自變量及控制變量如圖2所示。

2. 研究工具

（1）認知、學習風格測定工具：認知風格測量使用鑲嵌圖形檢驗方法。學習風格的測量使用Hwang等（2012）改編的《學習風格測定量表》。

（2）評價量表：主要借鑒了馬炅（2011）研究中的評價量表和浙江省大學生多媒體作品設計大賽相關評價標準，以及武漢市制定的《城市三維建模技術規(guī)范》（2008）中制作建筑模型的一些技術指標。最后，研究者根據教學大綱進行指標的再整理和審核，確定最終各維度的評價標準。通過4位專家對3個訓練作品打分的數據分析，所制定的量表各維度評分者間信度都在0.85以上。

（3）實驗數據使用SPSS 20.0軟件進行分析。

（四）研究分組

表1是根據性別、認知風格、學習風格等將參與實驗的64位學習者均勻地匹配到實驗組和對照組中，以確保兩組學生保持組間一致。在反映學習態(tài)度的平時成績上兩組之間也無顯著差異。

三、數據分析

（一）評價者自身因素的影響

通過獨立樣本T檢驗考察學習者的性別、認知風格以及學習風格在總分上對評分偏誤的影響，結果見表2。從性別上看，男生與專家間的評分差異低于女生；從認知風格上看，場獨立和場依存風格的評分者的評分偏誤無明顯差別；從學習風格上看，積極主動型和深思熟慮型之間無太大差異，感覺型低于直覺型，視覺型低于語言表達型，循序漸進型低于總體統(tǒng)覺型。但T檢驗顯示所有這些差異都不顯著。

相關分析表明，評分偏誤與評分者學習態(tài)度（平時作業(yè)得分）之間相關非常低，相關系數接近于0；而評分偏誤與評分者能力水平（期末作品成績）之間存在顯著的中等相關，相關系數為-.452（p<0.01），即代表評分者能力的自身作品成績越高，評分者評價他人作品的評分偏誤越低。當把所有上述因素作為自變量納入協(xié)方差模型（ANCOVA）中時，發(fā)現評分者能力水平（F=8.48， p=0.005）和評分者是循序漸進型還是總體統(tǒng)攬型的學習風格（F=5.35， p=0.024）對評分偏誤有顯著影響。評分者能力水平越高，評分偏誤越小，循序漸進型評分者的評分偏誤小于總體統(tǒng)攬型的評分者。另外，性別效應接近顯著（F=3.78， p=0.057），表現為男生優(yōu)于女生。

（二）互評作品因素的影響

期末作品總分上的評分偏誤為0.20，在各維度上評分偏誤差別不大。其中，在科學性維度上評分偏誤最低，為0.19；在創(chuàng)造性維度上評分偏誤最高，為0.21。在總分及各個維度上評分偏誤與被評作品的質量呈顯著的中等強度的負相關（-.42～-.64），也就是作品質量越高，評分偏誤越低。直接用學生評分減去專家評分，不取絕對值和不用專家評分做權重，通過圖3a和3b觀察在不同水平的作品上評分偏差的方向和分布。無論在訓練階段還是在最后的期末評分階段，高水平的作品其偏差在0分上下均勻分布，而中、低水平的作品評分偏差都在0分以上分布，也就是存在明顯的高估趨勢。其中，低水平作品評分偏差的分布范圍跨度最大。

（三）訓練效應及其與評分者個人因素和作品因素共同的影響

訓練因素對評分準確性的影響是本研究的核心問題。結果表明實驗組（練習+反饋）比對照組（范例學習：有反饋無練習）在總分和各維度上評分偏誤低0.05～0.09。獨立樣本T檢驗表明，在總分、科學性和技術性上實驗組的評分偏誤顯著低于對照組，其他方面兩組之間無顯著差異，說明訓練在科學性和技術性這兩個維度上對學生評價能力的提高效果最佳（見表3）。

將基于作品總分的評分者偏誤作為因變量，培訓效應作為主要自變量，將其他個人因素和作品質量作為控制變量同時納入協(xié)方差（ANCOVA）模型，結果表明，代表個人因素的循序漸進型vs.總體統(tǒng)攬型和評價者能力水平、代表作品因素的作品質量對評分偏誤有顯著影響。在控制以上變量的前提下，訓練方式的影響仍然顯著，并且訓練方式與以上變量之間不存在顯著的交互作用，因此交互項沒有列入最后的模型中（見表4）。具體來說，在評分準確性上，練習加反饋的訓練方式優(yōu)于范例學習；循序漸進型的學習風格優(yōu)于總體統(tǒng)攬型；評價者能力越高，評分準確性越高；被評作品質量越高，評分準確性越高。對于各種類型的評分者而言，專家反饋式的評分訓練效果都好于范例學習式的評分訓練。

四、討論

（一）評分者自身因素

本研究中的課程是“三維動畫設計與建?！?，評分者的專業(yè)能力越強，對于什么樣的作品才是優(yōu)秀作品的評價標準就越有深刻的認識和具體的理解，產生的評分偏誤就越少，表現出的評價能力就越強。另外一個影響因素來自于學習風格：學習風格為循序漸進型的評分者評分偏誤低于總體統(tǒng)攬型的評分者。學習風格理論認為：序列型學習風格的學習者習慣按線性步驟理解問題，每一步都合乎邏輯緊跟前一步（姚孝軍，等， 2010）?；ピu工作就是要根據一條條的評分規(guī)則和大綱，在每個維度上給每個項目打分，因此能夠一步步根據評分規(guī)則打分的評價者能做到評分更細致，因而更精準。

除此之外，其他三個學習風格類型、認知風格、性別和學習態(tài)度對評分的偏誤都無顯著影響。但其中呈現一定趨勢的是：男生的評分準確性優(yōu)于女生，視覺型學習風格優(yōu)于語言表達型。以往研究發(fā)現，男性在圖形或空間發(fā)散思維方面優(yōu)勢明顯，女性在言語發(fā)散思維方面占優(yōu)。本研究中的課程為設計類課程，視覺型學習者對作品的敏感性可能優(yōu)于語言表達型學習者，因此男生在評分準確性上更占優(yōu)勢。

（二）被評作品因素

從被評作品因素看，作品質量越低時評分偏誤越高，準確性越低。從偏誤的方向和分布來看，學生更傾向于對較差的作品給出高于實際水平的分數。雖然本研究是匿名評價，但學生評的都是本年級朝夕相處的同學，傾向于較寬松地打分，不給極端低的分值。在不同維度上的偏誤差別不明顯，相對來說，創(chuàng)新性維度偏誤最大，科學性維度偏誤最小。在而后與學生的訪談中，他們也提到創(chuàng)新性是比較難以把控的維度。這部分結果帶來的啟示是：在評分培訓中應該強調客觀公正評分（哪怕是低分）的意義，并鼓勵大家及時反映評分標準中不清晰和有難度的地方。

（三）訓練因素

與以往研究不同，本研究不是比較有無培訓的差異，而是比較“練習+反饋”和常用的范例學習這兩種培訓在效果上的差異。結果表明，實驗組（練習+反饋）確實比對照組（范例學習）在總分、科學性和技術性上評分偏誤更低，準確性更高。雖然在很多情景下（比如英語作文的互評），范例學習（直接提供專家評分的樣例供學生學習）有一定的效果且簡便易操作，但通過實際練習親身體驗并獲得反饋是更為深入的訓練，對于提高評分準確性更有效。同時，本研究在控制所有其他因素的情況下，通過協(xié)方差分析發(fā)現培訓效應顯著，且培訓效應跟其他顯著影響評分偏誤的變量（評分者能力水平、作品質量、循序漸進型vs.總體統(tǒng)攬型的學習風格）之間無顯著的交互作用。這表明這些因素雖然影響評分偏誤，但并不影響培訓的效果。

五、不足和后續(xù)研究展望

本研究著眼于同伴互評中訓練及其他因素對評分偏誤，即評分準確性的影響進行實證研究，為同伴互評實踐中如何控制評分偏誤、提高評分準確性提供了研究依據。研究也存在一些局限：盡管我們非常期望了解被評者收到同伴互評結果對作品進行改進后，作品質量的提升狀況和質量提升的程度與評分準確性之間的關系，但由于本研究中的互評是針對期末作品，學生收到互評反饋后沒有動機去改進作品，因此我們未能對這一問題進一步跟蹤。同時，由于本研究著眼于評分的準確性，所以整個研究只采用了客觀評分。而要跟蹤被評者對同伴互評結果的反應，特別是對于創(chuàng)作性的作品，除了客觀評分，給予開放式的點評和建議對于被評者改進作品的促進作用更大。因此，在后續(xù)研究中我們會增加開放式評語和互評反饋對被評者提高作品質量的作用的跟蹤研究，同時增加互評訓練和互評活動的次數，使其貫穿于整個課程中。

[參考文獻]

白麗茹. 2013. 基礎英語寫作同伴互評反饋模式的可行性及有效性檢驗[J]. 解放軍外國語學院學報，36（01）：51-56.

陳茂慶，李宏鴻，高惠蓉. 2013. 名著閱讀與同伴互評[J]. 外語教學理論與實踐，（01）：71-78.

郭學品，陳洪清，李翠白，等. 2011. 網絡學習自我評價探究[J]. 中國遠程教育（05）：70-72.

馬炅. 2011. 基于過程性評價的多媒體作品評價量規(guī)的設計與實踐[J]. 電化教育研究（02）：79-81，86.

馬志強，王雪嬌，龍琴琴. 2014. 基于同儕互評的在線學習評價研究綜述[J]. 遠程教育雜志，32（04）：86-92.

孫力，鐘斯陶. 2014. MOOC評價系統(tǒng)中同伴互評概率模型研究[J]. 開放教育研究，20（05）：83-90.

舒存葉，張海萍. 2015. 網絡環(huán)境下同伴評價影響因素的實證研究[J]. 電化教育研究，36（02）：89-93.

童小素，賈小軍. 2017. MOOC質量評價體系的構建探究[J]. 中國遠程教育（05）：63-71，80.

許濤. 2015. 慕課同伴互評模型設計研究[J]. 開放教育研究，21（02）：70-77.

姚孝軍，陳靜，楊亞敏. 2010. 英語學習者學習風格的實證研究[J]. 外語界（03）：43-50.

殷寶媛，劉俊強，于紀明. 2012. 同伴互評電子作品的影響因素分析[J]. 電化教育研究，33（12）：58-62.

武漢市國土資源和規(guī)劃局. 2008. 城市三維建模技術規(guī)范[Z]. 武漢：住房和城鄉(xiāng)建設部：6-7.

Law N. W.Y.， Lee Y.， van Aalst J. C. W.， Chan， C.K.K.， Kwan A.C.M.， Lu， J.， et al. （2009）. Using Web 2.0 technology to support learning， teaching and assessment in the NSS Liberal Studies subject. Hong Kong Teachers' Centre Journal，（8）：43-51.

Ferry C. （2009）. Online peer review to promote reader-writer interaction. TESOL Working Paper Series， 7（1）： 2-13.

Guardado M.， Shi L. （2007）. ESL students experiences of online peer feedback. Computers and Composition， 24（4）： 443-461.

Hwang， G. J.， Sung， H. Y.， Hung， C. M.， Huang， I.， Tsai， C. C. （2012）. Development of a personalized educational computer game based on students learning styles. Educational Technology Research and Development， 60（4）， 623-638.

Hwang， G. J.， Hung， C. M.， Chen， N. S. （2014）. Improving learning achievements， motivations and problem-solving skills through a peer assessment-based game development approach. Educational Technology Research and Development， 62（2）， 129-145.

Liang， J. C.， Tsai， C. C. （2010）. Learning through science writing via online peer assessment in a college biology course. The Internet and Higher Education， 13（4）， 242-247.

Topping， K. （1998）. Peer assessment between students in colleges and universities. Review of educational Research， 68（3）， 249-276.

作者簡介：李菲茗，博士，副教授，碩士生導師；李曉菲，碩士研究生；黃亞平，碩士，副教授；葉艷偉，碩士研究生。浙江工業(yè)大學教育科學與技術學院（310023）。

責任編輯單玲

中國遠程教育2018年5期

中國遠程教育的其它文章: 人工智能2.0與教育的發(fā)展; 德爾菲法及其在中國地平線項目中的應用; 全球成人學習發(fā)展的現狀與前景：基于可持續(xù)發(fā)展的視角; 數字轉型呼喚遠見卓識的領導才能：邁進學習者充當學習主人的時代; 協(xié)作式在線課程交互設計研究; MOOC教學視頻的優(yōu)化設計研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

訓練對同伴互評評分準確性的影響