批改網(wǎng)英語作文自動評分系統(tǒng)評分質量研究

2021-09-03 09:32:54高健民

哈爾濱學院學報 2021年7期

高健民

(浙江大學外國語言文化與國際交流學院，浙江杭州 310058)

寫作評估是外語教育中的重要一環(huán)。隨著計算機科學技術的發(fā)展，英語作文評分的方式也發(fā)生了巨大改變。系統(tǒng)自動評分的方式不僅彌補了人工評分成本高、效率低的局限，還提高了作文評分的信度，減輕了由于人工閱卷員評分標準不一致造成的偏頗。一些自動評分系統(tǒng)不僅可以給作文提供一個整體性的分數(shù)，還能同時呈現(xiàn)關于作文語言質量的反饋，這些優(yōu)點使得作文自動評分系統(tǒng)不僅被廣泛應用于各種英語考試中，許多英語教師也將其應用在課堂測試的評分上。然而，即使作文自動評分系統(tǒng)在評估學生的寫作能力方面有著很多優(yōu)勢，對其評分可靠性和有效性的爭論卻從未停止過。此外，由于這些評分系統(tǒng)往往缺乏評分過程上的透明性，直觀感受其評分效果十分困難。因此，對于作文自動評分系統(tǒng)評分質量的定量分析是十分重要的。

一、文獻綜述

從理論的角度，一些研究者提出了對于作文自動評分系統(tǒng)評分質量進行評估的必要性以及需要考慮的因素。例如，Xi系統(tǒng)性地提出了作文自動評分系統(tǒng)評分過程有效性的問題，主要對使用作文自動評分系統(tǒng)是否會引起構念無關因素或造成構念代表性不足的問題進行了討論，還指出研究系統(tǒng)自動評分結果與其他非測試得分類指標的一致性至關重要。[1]Deane也討論了采用系統(tǒng)自動評分方式對構念效度的影響，指出作文自動評分系統(tǒng)所能測量到的寫作技能是有限的。[2]

在實證研究方面，Weigle將考生在托?？荚?TOFEL)寫作任務中由e-rater這一自動評分系統(tǒng)給出的得分與考生對于自我寫作能力的自評分以及考生在非測試環(huán)境下完成的作文的得分進行了比較，最后發(fā)現(xiàn)這些得分之間存在中等強度的相關性。[3]Ramineni等人將GRE測試(美國研究生入學考試)中的考生作文作為語料，對人工評分和系統(tǒng)自動評分的預測效度進行了比較，結果發(fā)現(xiàn)兩者都能很好地預測考生在口語測試任務上的得分。[4]除了研究系統(tǒng)自動評分與其他測量寫作水平或整體語言水平指標的相關性之外，一些研究者還研究了系統(tǒng)自動評分與人工評分的一致性，這類研究的共同發(fā)現(xiàn)是自動評分與人工評分之間具有較高的一致性，并且這兩者的一致性接近不同閱卷員之間評分的一致性。[5-6]除此之外，還有許多針對不同自動評分系統(tǒng)的個案研究。[7]

通過對以往文獻的系統(tǒng)性梳理，本研究發(fā)現(xiàn)了在這一領域研究上的不足。首先，雖然很多研究都表明系統(tǒng)自動評分與人工評分有著高度的相關性，在Liu和Kunnan的研究中卻顯現(xiàn)了不同的結果。[8]而且這種一致性不應該被當作是衡量評分有效性的唯一指標，因為其僅能反映出系統(tǒng)自動評分的穩(wěn)定程度，并不能反映其全面評估考生寫作水平的能力；[9](P142-173)且以往研究往往割裂了分數(shù)與文本之間的聯(lián)系，沒能從作文本身語言特征的角度為系統(tǒng)自動評分質量的高低提供證據(jù)。其次，以往大多數(shù)研究都是國外研究者針對國外考試機構開發(fā)的自動評分系統(tǒng)所作的效度驗證，而國內這方面的研究比較少，且多為綜述性研究，[10-13]僅Qian等學者和何旭良針對國內的兩款主流自動評分系統(tǒng)，即iWrite和批改網(wǎng)的評分質量進行了實證研究。[14-15]由于國外大多數(shù)的自動評分系統(tǒng)在國內是無法使用的，而中國擁有龐大的英語學習群體，因此對國內主流作文自動評分系統(tǒng)評分質量的研究意義重大。

本研究選取了批改網(wǎng)作為研究對象，原因在于其較早得到了推廣，且可以被免費使用，有著龐大的受眾群體。對于批改網(wǎng)評分質量的研究不僅可以填補國內對于作文自動評分系統(tǒng)評分質量實證研究的空白，還能為廣大英語教師及學習者提供啟示?；诖?，本研究主要關注以下兩個問題：(1)批改網(wǎng)系統(tǒng)自動評分與人工評分的一致性如何？(2)批改網(wǎng)系統(tǒng)自動評分與文本語言特征(復雜度、準確性和流利度)的相關性如何？

二、研究方法

1.材料與被試

本研究所用的語料為國內某大學104名一年級學生的英語期末考試作文。這些學生都是非英語專業(yè)，并且來自兩個不同的大學英語平行班。該英語測試在課程結束時舉行，其中包含一項獨立寫作任務，寫作題目是分析一項社會問題。作文成績與學生的課程成績直接相關，因此可以確保所有學生都認真進行了作答。

2.評分過程

所有作文都是由一名任課教師和一名研究者共同批閱的，均具有豐富的閱卷經(jīng)驗。評分依據(jù)是全國大學生英語四級考試作文整體性評分量表(滿分15分)。在正式評分之前，兩位評分員就評分標準進行了討論，然后隨機抽取了25份作文進行了試評，在兩位評分員的評分達到高度一致后(r=0.86，p<0.01)，每位評分員分別對其余的作文進行了獨立評分。每篇作文最終的人工得分為兩個評分員評分的均值。由于批改網(wǎng)評分制為百分制，因此在系統(tǒng)批閱所有作文后，研究者將百分制分數(shù)轉化為了15分制的分數(shù)。

3.文本語言特征量化指標

在本研究中，研究者對文本語言特征進行了量化。復雜度方面由Coh-Metrix文本分析軟件進行量化。對于句法復雜度，本文從句子和短語層面選取了4個指標，即平均句長、從句數(shù)量、名詞短語密度及動詞短語密度。詞匯復雜度由篇章詞匯多樣性指標量化，因該指標對于文章長度最不敏感，即其不易受到不同文章長度的影響。[16]

準確性由文章錯誤率量化。錯誤類型的識別依據(jù)Bardovi-Harling和Bofman提出的標準。[17]兩位評分員首先對于隨機抽取的25篇作文進行了試編碼，即識別出作文中所有的語言錯誤。在評分員所識別出的錯誤數(shù)量達到高度一致后(r=0.89，p<0.05)，兩位評分員分別對剩余的作文進行編碼。文章錯誤率即語言錯誤總數(shù)占作文總詞數(shù)的比率，這種做法有利于使準確率的統(tǒng)計免受文章長度的影響。

作文的流利度由總詞數(shù)衡量。由于在測試環(huán)境下，考生答題時間上限是固定的，且根據(jù)以往觀察，考生在寫作任務上的用時不會有過大的差異，因此總詞數(shù)能夠在一定程度上衡量考生的寫作速率。

4.數(shù)據(jù)分析

對于第一個研究問題，研究者首先對批改網(wǎng)自動評分和人工評分進行了配對樣本t檢驗，以比較兩者在分數(shù)高低上的差異。然后，研究者對兩組分數(shù)做了一致性檢驗，具體指標包括精確一致性(分值完全相等)、臨近一致性(分值差異小于等于2分)和皮爾遜相關系數(shù)。對于第二個研究問題，研究者將批改網(wǎng)自動評分與作文文本語言特征的各項指標做了相關分析。

三、結果與討論

1.批改網(wǎng)自動評分與人工評分的一致性

據(jù)表1所示，批改網(wǎng)評分的平均值，最大值及最小值均高于人工評分，且配對樣本t檢驗的結果表明批改網(wǎng)評分與人工評分具有顯著差異(p<0.05)。這表明批改網(wǎng)評分要比人工評分更高。根據(jù)表2所示，批改網(wǎng)評分與人工評分的精確一致性和臨近一致性較低，且相關系數(shù)為0.41(p<0.01)，說明兩者僅存在著弱相關關系。

表1 批改網(wǎng)評分與人工評分的描述性統(tǒng)計

表2 批改網(wǎng)評分與人工評分的一致性統(tǒng)計

2.批改網(wǎng)評分與作文文本語言特征指標的相關性

表3列出了批改網(wǎng)評分與文本復雜度、準確度和流利度指標的相關系數(shù)?？梢?，批改網(wǎng)評分僅與句法復雜度中的名詞短語密度、詞匯復雜度指標以及流利度指標相關。其中，批改網(wǎng)評分僅與表示詞匯復雜度的篇章詞匯多樣性有強相關關系，相關系數(shù)為0.764，其余均為中等相關。

表3 批改網(wǎng)評分與文本語言特征指標的相關系數(shù)

3.討論

首先，批改網(wǎng)評分顯著高于人工評分，這一點與何旭良的研究結論完全一致。結合批改網(wǎng)評分與文本語言特征的相關性結果可知，批改網(wǎng)關注到的語言特征是有限的。而人工閱卷往往會從更多方面考慮作文質量，如寫作邏輯、內容質量、語言的地道性等，因此人工評分可能會比系統(tǒng)自動評分更加“苛刻”。其次，批改網(wǎng)評分與人工評分為弱相關關系，這一點與何旭良的研究結果相違背，推測其原因在于本研究中的作文樣本量更大。精確一致性和臨近一致性指標表明，兩者的評分并不總是完全一致的，這一發(fā)現(xiàn)與國外學者對于e-rater和My Access評分質量的研究結果不同，原因可能在于不同的自動評分系統(tǒng)在評分單位上有所差異。評分量表的全距越高，可能會導致作文之間分數(shù)差異更大，從而影響到精確一致性和臨近一致性的數(shù)值。但是從另一個角度看，這也在一定程度上表明批改網(wǎng)的評分質量仍有待提高。

批改網(wǎng)評分與文本語言特征的相關性說明，批改網(wǎng)系統(tǒng)評分可能更加關注作文在詞匯層面的表現(xiàn)，詞匯的多樣性以及名詞短語的使用都與批改網(wǎng)評分呈正相關關系。批改網(wǎng)評分沒能反映考生在句子組構層面的能力，原因可能是大一的非英語專業(yè)學生經(jīng)受的語言訓練比較少，沒有經(jīng)歷長期的浸入式英語學習，所以普遍在句法方面表現(xiàn)較差，不能與彼此之間拉開顯著的差距，而他們在相對容易學習的詞匯表達方面則能體現(xiàn)出更大的差距。此外，批改網(wǎng)評分也不能反映出作文的準確率，這可能是因為自動評分系統(tǒng)只能識別出句法和詞匯形態(tài)層面的錯誤，在識別如詞匯使用合理性及詞匯搭配方面的錯誤上不夠精確，這類錯誤的識別往往需要專業(yè)教師的判斷，因而其評分與人工進行統(tǒng)計的準確率沒能呈現(xiàn)統(tǒng)計學上的相關性。從另一方面來看，批改網(wǎng)系統(tǒng)在評分有效性上需要進一步優(yōu)化，提高其對句法特征和語言準確度方面的識別能力。最后，批改網(wǎng)評分與作文總詞數(shù)呈正相關，而總詞數(shù)往往與詞匯多樣性相關，尤其是對于那些詞匯量積累較大的考生來說，寫的詞數(shù)越多，越能體現(xiàn)他們的語言能力，因而會在批改網(wǎng)中得到更高的分數(shù)。同時，本研究中考生作文的體裁為議論文，文章的長度或許也與論證的充分性程度相關，關于批改網(wǎng)是否能夠識別這種高階的語言能力還需要更多的研究進行驗證。

四、結論

本研究中發(fā)現(xiàn)批改網(wǎng)評分與富有經(jīng)驗的評分員給出的評分之間的一致性較低，其主要與名詞短語密度、詞匯復雜度和總詞數(shù)相關，不能全面反映文本語言特征。這表明批改網(wǎng)作文自動評分系統(tǒng)作為一種教學輔助工具，僅可在有限的程度上幫助教師區(qū)別不同水平的作文。因此，僅依靠批改網(wǎng)評分對學生的作文質量進行評估是不正確的，仍然要對學生的作文進行多元反饋。學習者可以將其評分作為參考，并主要關注其在詞匯層面給出的建議。

本研究也存在幾點局限：首先，與大多數(shù)研究一樣，本研究中收集到的作文都屬于議論文體裁，這可能與測試中多使用議論文寫作任務的情況有關。但學生平時的寫作練習不僅局限于議論文體裁，所以未來研究可以用不同體裁的作文作為語料驗證本研究中的結論。其次，本研究中沒有考慮英語專業(yè)學生的作文。英語專業(yè)學生英語水平通常較高，其作文可能在句法復雜度方面的差異更加明顯，因而以英語專業(yè)學生的作文作為語料進行系統(tǒng)自動評分可能會產(chǎn)生與本研究不同的結果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

批改網(wǎng)英語作文自動評分系統(tǒng)評分質量研究

一、文獻綜述

二、研究方法

三、結果與討論

四、結論

四、結論