国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

批改網(wǎng)英語作文自動評分系統(tǒng)評分質量研究

2021-09-03 09:32:54高健民
哈爾濱學院學報 2021年7期
關鍵詞:復雜度一致性人工

高健民

(浙江大學 外國語言文化與國際交流學院,浙江 杭州 310058)

寫作評估是外語教育中的重要一環(huán)。隨著計算機科學技術的發(fā)展,英語作文評分的方式也發(fā)生了巨大改變。系統(tǒng)自動評分的方式不僅彌補了人工評分成本高、效率低的局限,還提高了作文評分的信度,減輕了由于人工閱卷員評分標準不一致造成的偏頗。一些自動評分系統(tǒng)不僅可以給作文提供一個整體性的分數(shù),還能同時呈現(xiàn)關于作文語言質量的反饋,這些優(yōu)點使得作文自動評分系統(tǒng)不僅被廣泛應用于各種英語考試中,許多英語教師也將其應用在課堂測試的評分上。然而,即使作文自動評分系統(tǒng)在評估學生的寫作能力方面有著很多優(yōu)勢,對其評分可靠性和有效性的爭論卻從未停止過。此外,由于這些評分系統(tǒng)往往缺乏評分過程上的透明性,直觀感受其評分效果十分困難。因此,對于作文自動評分系統(tǒng)評分質量的定量分析是十分重要的。

一、文獻綜述

從理論的角度,一些研究者提出了對于作文自動評分系統(tǒng)評分質量進行評估的必要性以及需要考慮的因素。例如,Xi系統(tǒng)性地提出了作文自動評分系統(tǒng)評分過程有效性的問題,主要對使用作文自動評分系統(tǒng)是否會引起構念無關因素或造成構念代表性不足的問題進行了討論,還指出研究系統(tǒng)自動評分結果與其他非測試得分類指標的一致性至關重要。[1]Deane也討論了采用系統(tǒng)自動評分方式對構念效度的影響,指出作文自動評分系統(tǒng)所能測量到的寫作技能是有限的。[2]

在實證研究方面,Weigle將考生在托??荚?TOFEL)寫作任務中由e-rater這一自動評分系統(tǒng)給出的得分與考生對于自我寫作能力的自評分以及考生在非測試環(huán)境下完成的作文的得分進行了比較,最后發(fā)現(xiàn)這些得分之間存在中等強度的相關性。[3]Ramineni等人將GRE測試(美國研究生入學考試)中的考生作文作為語料,對人工評分和系統(tǒng)自動評分的預測效度進行了比較,結果發(fā)現(xiàn)兩者都能很好地預測考生在口語測試任務上的得分。[4]除了研究系統(tǒng)自動評分與其他測量寫作水平或整體語言水平指標的相關性之外,一些研究者還研究了系統(tǒng)自動評分與人工評分的一致性,這類研究的共同發(fā)現(xiàn)是自動評分與人工評分之間具有較高的一致性,并且這兩者的一致性接近不同閱卷員之間評分的一致性。[5-6]除此之外,還有許多針對不同自動評分系統(tǒng)的個案研究。[7]

通過對以往文獻的系統(tǒng)性梳理,本研究發(fā)現(xiàn)了在這一領域研究上的不足。首先,雖然很多研究都表明系統(tǒng)自動評分與人工評分有著高度的相關性,在Liu和Kunnan的研究中卻顯現(xiàn)了不同的結果。[8]而且這種一致性不應該被當作是衡量評分有效性的唯一指標,因為其僅能反映出系統(tǒng)自動評分的穩(wěn)定程度,并不能反映其全面評估考生寫作水平的能力;[9](P142-173)且以往研究往往割裂了分數(shù)與文本之間的聯(lián)系,沒能從作文本身語言特征的角度為系統(tǒng)自動評分質量的高低提供證據(jù)。其次,以往大多數(shù)研究都是國外研究者針對國外考試機構開發(fā)的自動評分系統(tǒng)所作的效度驗證,而國內這方面的研究比較少,且多為綜述性研究,[10-13]僅Qian等學者和何旭良針對國內的兩款主流自動評分系統(tǒng),即iWrite和批改網(wǎng)的評分質量進行了實證研究。[14-15]由于國外大多數(shù)的自動評分系統(tǒng)在國內是無法使用的,而中國擁有龐大的英語學習群體,因此對國內主流作文自動評分系統(tǒng)評分質量的研究意義重大。

本研究選取了批改網(wǎng)作為研究對象,原因在于其較早得到了推廣,且可以被免費使用,有著龐大的受眾群體。對于批改網(wǎng)評分質量的研究不僅可以填補國內對于作文自動評分系統(tǒng)評分質量實證研究的空白,還能為廣大英語教師及學習者提供啟示?;诖?,本研究主要關注以下兩個問題:(1)批改網(wǎng)系統(tǒng)自動評分與人工評分的一致性如何?(2)批改網(wǎng)系統(tǒng)自動評分與文本語言特征(復雜度、準確性和流利度)的相關性如何?

二、研究方法

1.材料與被試

本研究所用的語料為國內某大學104名一年級學生的英語期末考試作文。這些學生都是非英語專業(yè),并且來自兩個不同的大學英語平行班。該英語測試在課程結束時舉行,其中包含一項獨立寫作任務,寫作題目是分析一項社會問題。作文成績與學生的課程成績直接相關,因此可以確保所有學生都認真進行了作答。

2.評分過程

所有作文都是由一名任課教師和一名研究者共同批閱的,均具有豐富的閱卷經(jīng)驗。評分依據(jù)是全國大學生英語四級考試作文整體性評分量表(滿分15分)。在正式評分之前,兩位評分員就評分標準進行了討論,然后隨機抽取了25份作文進行了試評,在兩位評分員的評分達到高度一致后(r=0.86,p<0.01),每位評分員分別對其余的作文進行了獨立評分。每篇作文最終的人工得分為兩個評分員評分的均值。由于批改網(wǎng)評分制為百分制,因此在系統(tǒng)批閱所有作文后,研究者將百分制分數(shù)轉化為了15分制的分數(shù)。

3.文本語言特征量化指標

在本研究中,研究者對文本語言特征進行了量化。復雜度方面由Coh-Metrix文本分析軟件進行量化。對于句法復雜度,本文從句子和短語層面選取了4個指標,即平均句長、從句數(shù)量、名詞短語密度及動詞短語密度。詞匯復雜度由篇章詞匯多樣性指標量化,因該指標對于文章長度最不敏感,即其不易受到不同文章長度的影響。[16]

準確性由文章錯誤率量化。錯誤類型的識別依據(jù)Bardovi-Harling和Bofman提出的標準。[17]兩位評分員首先對于隨機抽取的25篇作文進行了試編碼,即識別出作文中所有的語言錯誤。在評分員所識別出的錯誤數(shù)量達到高度一致后(r=0.89,p<0.05),兩位評分員分別對剩余的作文進行編碼。文章錯誤率即語言錯誤總數(shù)占作文總詞數(shù)的比率,這種做法有利于使準確率的統(tǒng)計免受文章長度的影響。

作文的流利度由總詞數(shù)衡量。由于在測試環(huán)境下,考生答題時間上限是固定的,且根據(jù)以往觀察,考生在寫作任務上的用時不會有過大的差異,因此總詞數(shù)能夠在一定程度上衡量考生的寫作速率。

4.數(shù)據(jù)分析

對于第一個研究問題,研究者首先對批改網(wǎng)自動評分和人工評分進行了配對樣本t檢驗,以比較兩者在分數(shù)高低上的差異。然后,研究者對兩組分數(shù)做了一致性檢驗,具體指標包括精確一致性(分值完全相等)、臨近一致性(分值差異小于等于2分)和皮爾遜相關系數(shù)。對于第二個研究問題,研究者將批改網(wǎng)自動評分與作文文本語言特征的各項指標做了相關分析。

三、結果與討論

1.批改網(wǎng)自動評分與人工評分的一致性

據(jù)表1所示,批改網(wǎng)評分的平均值,最大值及最小值均高于人工評分,且配對樣本t檢驗的結果表明批改網(wǎng)評分與人工評分具有顯著差異(p<0.05)。這表明批改網(wǎng)評分要比人工評分更高。根據(jù)表2所示,批改網(wǎng)評分與人工評分的精確一致性和臨近一致性較低,且相關系數(shù)為0.41(p<0.01),說明兩者僅存在著弱相關關系。

表1 批改網(wǎng)評分與人工評分的描述性統(tǒng)計

表2 批改網(wǎng)評分與人工評分的一致性統(tǒng)計

2.批改網(wǎng)評分與作文文本語言特征指標的相關性

表3列出了批改網(wǎng)評分與文本復雜度、準確度和流利度指標的相關系數(shù)??梢?,批改網(wǎng)評分僅與句法復雜度中的名詞短語密度、詞匯復雜度指標以及流利度指標相關。其中,批改網(wǎng)評分僅與表示詞匯復雜度的篇章詞匯多樣性有強相關關系,相關系數(shù)為0.764,其余均為中等相關。

表3 批改網(wǎng)評分與文本語言特征指標的相關系數(shù)

3.討論

首先,批改網(wǎng)評分顯著高于人工評分,這一點與何旭良的研究結論完全一致。結合批改網(wǎng)評分與文本語言特征的相關性結果可知,批改網(wǎng)關注到的語言特征是有限的。而人工閱卷往往會從更多方面考慮作文質量,如寫作邏輯、內容質量、語言的地道性等,因此人工評分可能會比系統(tǒng)自動評分更加“苛刻”。其次,批改網(wǎng)評分與人工評分為弱相關關系,這一點與何旭良的研究結果相違背,推測其原因在于本研究中的作文樣本量更大。精確一致性和臨近一致性指標表明,兩者的評分并不總是完全一致的,這一發(fā)現(xiàn)與國外學者對于e-rater和My Access評分質量的研究結果不同,原因可能在于不同的自動評分系統(tǒng)在評分單位上有所差異。評分量表的全距越高,可能會導致作文之間分數(shù)差異更大,從而影響到精確一致性和臨近一致性的數(shù)值。但是從另一個角度看,這也在一定程度上表明批改網(wǎng)的評分質量仍有待提高。

批改網(wǎng)評分與文本語言特征的相關性說明,批改網(wǎng)系統(tǒng)評分可能更加關注作文在詞匯層面的表現(xiàn),詞匯的多樣性以及名詞短語的使用都與批改網(wǎng)評分呈正相關關系。批改網(wǎng)評分沒能反映考生在句子組構層面的能力,原因可能是大一的非英語專業(yè)學生經(jīng)受的語言訓練比較少,沒有經(jīng)歷長期的浸入式英語學習,所以普遍在句法方面表現(xiàn)較差,不能與彼此之間拉開顯著的差距,而他們在相對容易學習的詞匯表達方面則能體現(xiàn)出更大的差距。此外,批改網(wǎng)評分也不能反映出作文的準確率,這可能是因為自動評分系統(tǒng)只能識別出句法和詞匯形態(tài)層面的錯誤,在識別如詞匯使用合理性及詞匯搭配方面的錯誤上不夠精確,這類錯誤的識別往往需要專業(yè)教師的判斷,因而其評分與人工進行統(tǒng)計的準確率沒能呈現(xiàn)統(tǒng)計學上的相關性。從另一方面來看,批改網(wǎng)系統(tǒng)在評分有效性上需要進一步優(yōu)化,提高其對句法特征和語言準確度方面的識別能力。最后,批改網(wǎng)評分與作文總詞數(shù)呈正相關,而總詞數(shù)往往與詞匯多樣性相關,尤其是對于那些詞匯量積累較大的考生來說,寫的詞數(shù)越多,越能體現(xiàn)他們的語言能力,因而會在批改網(wǎng)中得到更高的分數(shù)。同時,本研究中考生作文的體裁為議論文,文章的長度或許也與論證的充分性程度相關,關于批改網(wǎng)是否能夠識別這種高階的語言能力還需要更多的研究進行驗證。

四、結論

本研究中發(fā)現(xiàn)批改網(wǎng)評分與富有經(jīng)驗的評分員給出的評分之間的一致性較低,其主要與名詞短語密度、詞匯復雜度和總詞數(shù)相關,不能全面反映文本語言特征。這表明批改網(wǎng)作文自動評分系統(tǒng)作為一種教學輔助工具,僅可在有限的程度上幫助教師區(qū)別不同水平的作文。因此,僅依靠批改網(wǎng)評分對學生的作文質量進行評估是不正確的,仍然要對學生的作文進行多元反饋。學習者可以將其評分作為參考,并主要關注其在詞匯層面給出的建議。

本研究也存在幾點局限:首先,與大多數(shù)研究一樣,本研究中收集到的作文都屬于議論文體裁,這可能與測試中多使用議論文寫作任務的情況有關。但學生平時的寫作練習不僅局限于議論文體裁,所以未來研究可以用不同體裁的作文作為語料驗證本研究中的結論。其次,本研究中沒有考慮英語專業(yè)學生的作文。英語專業(yè)學生英語水平通常較高,其作文可能在句法復雜度方面的差異更加明顯,因而以英語專業(yè)學生的作文作為語料進行系統(tǒng)自動評分可能會產(chǎn)生與本研究不同的結果。

猜你喜歡
復雜度一致性人工
人工3D脊髓能幫助癱瘓者重新行走?
軍事文摘(2022年8期)2022-11-03 14:22:01
關注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
人工,天然,合成
人工“美顏”
哈哈畫報(2021年11期)2021-02-28 07:28:45
一種低復雜度的慣性/GNSS矢量深組合方法
求圖上廣探樹的時間復雜度
新型多孔鉭人工種植牙
某雷達導51 頭中心控制軟件圈復雜度分析與改進
长岛县| 壶关县| 浦北县| 巧家县| 吉水县| 和平区| 呈贡县| 当涂县| 麻栗坡县| 西乌珠穆沁旗| 宜兰县| 东明县| 丹巴县| 屏边| 广灵县| 平潭县| 揭阳市| 垦利县| 虎林市| 朝阳区| 罗平县| 乐安县| 隆化县| 靖西县| 朝阳市| 林芝县| 桓台县| 辽源市| 韩城市| 舒城县| 乃东县| 涿鹿县| 东至县| 卓尼县| 双鸭山市| 泸定县| 历史| 中西区| 屏山县| 桑日县| 牟定县|