楊麗萍 辛濤
摘要:寫作自動化評分是目前智慧教育方興未艾的研究領域,為緩解人工作文評分中存在的經濟與時間成本等巨大壓力提供了更加量化、及時和穩(wěn)健的方案。然而,當前寫作自動化評分模型大多是以特征值作為預測變量,擬合人工評分的分數預測模型。為了使寫作自動化評分與提高學生寫作能力的最終目標相匹配,寫作自動化評分體系的建構需從能力測量視角出發(fā),厘清測量范疇,突破寫作自動化評分向能力測量轉向的技術瓶頸。其中,需要解決的核心科學問題包括:(1)如何以寫作評價標準為依據,建立具備解釋性的特征體系,解決自動化評分與評價標準脫鉤的問題;(2)如何突破擬合人工評分的局限,從分數預測模型拓展到能力測量模型,探索寫作各能力維度的評估模型;(3)如何在實際應用中,在保證評分準確性的基礎上,系統(tǒng)化論證寫作自動化評分的信度與效度,強調跨子群體的公平性。為探索寫作自動化評分的有效建構與使用的合理路徑,今后的研究可以從自動化評分與人工評分的結合應用、寫作自動化評分的穩(wěn)定性和泛化性的檢驗、寫作能力發(fā)展的持續(xù)性以及測驗成績的可比性等方面推進。
關鍵詞:寫作自動化評分;能力測量;特征體系;評估模型;信度與效度
中圖分類號:G434? ?文獻標識碼:A? ? 文章編號:1009-5195(2021)04-0051-12? doi10.3969/j.issn.1009-5195.2021.04.006
基金項目:國家自然科學基金聯合基金重點支持項目“基于‘天河二號超級計算機的教育系統(tǒng)化監(jiān)控評估、智能決策仿真與應用研究”(U1911201);國家自然科學基金面上項目“中文寫作能力及其發(fā)展的自動化診斷研究”(32071093)。
作者簡介:楊麗萍,博士后,北京師范大學中國基礎教育質量監(jiān)測協同創(chuàng)新中心(北京 100875);辛濤(通訊作者),博士,教授,博士生導師,北京師范大學中國基礎教育質量監(jiān)測協同創(chuàng)新中心(北京 100875)。
一、引言
寫作是運用書面語言文字進行表達和交流思想感情的重要方式,是一種具有高度綜合性和創(chuàng)造性的言語能力。作文是評估學生寫作能力的重要載體。寫作自動化評分(Automated Essay Scoring,AES )指采用計算機程序對作文進行智能評分,最初目的是緩解人工評分的壓力。Page教授團隊于上世紀60年代開發(fā)了第一個寫作自動化評分系統(tǒng)PEG(Project Essay Grade)(Page,1966)。20世紀90年代以后,IEA(Intelligent Essay Assessor) (Landauer et al.,1998)、IntelliMetric(Elliot,2001)等寫作自動化評分系統(tǒng)相繼出現,并應用于各類大型考試中。例如,美國教育考試服務中心(Educational Testing Service,ETS)開發(fā)的電子評分員(Electronic Essay Rater,簡稱e-rater) (Burstein et al.,1998)被用于美國大學入學考試(American College Testing, ACT)、研究生入學考試 (Graduate Record Examination, GRE)、學術能力評估測試(Scholastic Assessment Test, SAT)、國際交流英語考試(Test of English for International Communication, TOEIC)、培生學術英語考試 (Pearson Test of English,PTE)、面向母語非英語者的英語能力考試(Test of English as a Foreign Language,TOEFL)和經企管理研究生入學考試(Graduate Management Admissions Test,GMAT) 等。在國內,梁茂成等(2007) 開發(fā)了面向英語二語學習者的作文評分系統(tǒng);彭恒利(2019)基于哈爾濱工業(yè)大學劉挺教授團隊對中文寫作自動化評分關鍵技術的研究,對“中國少數民族漢語水平等級考試”和“普通高等學校招生全國統(tǒng)一考試”的作文進行了寫作自動化評分與人工評分的對比研究。此外,一些寫作自動化評分系統(tǒng),例如,MY Access!TM(Elliot et al.,2004)、批改網(石曉玲,2012)等也被應用于低風險測驗和課堂學習過程中,最終目標是幫助學生提高寫作能力(Shermis et al., 2013)。
盡管人工智能與信息技術在寫作評分中的積極作用得到了廣泛認可,但在實踐中,尤其是在高利害考試中迫于自動化評分解釋性與有效性備受質疑,關于自動化評分體系測量的實質與合理性愈加成為學界關注的話題(Deane,2013; Attali,2015;Mayfield et al.,2020)。消除質疑首先要回答的問題是:寫作自動化評分究竟測量的是什么?雖然到目前為止學界就該問題的答案并未能達成共識,但是對AES的測量范疇,即構念效度的評估是不可忽視的(Rupp,2018)。一方面,雖然有研究者對目前AES的特征與寫作構念之間的關系進行了歸納(Chen et al., 2018),但囿于各學科研究的價值取向差異,目前AES的建構往往以取得較高的分數預測準確率為原則,或直接將寫作評價轉化為文本分類任務,難以清晰地反映作文評價標準與特征體系之間的關系,這使我們進一步有效評價寫作能力結構與能力發(fā)展受阻。另一方面,由于人工評分存在的各種問題,例如,趨中效應、評分環(huán)境與評分員對評分標準的理解差異等,人工評分本身的信度長久以來也備受質疑(趙海燕等, 2018)。在此背景下,人工評分是否可以作為AES建構與檢驗的完美效標是值得商榷的(Wolfe et al.,2018)。自從第一個AES系統(tǒng)提出以來,自動化評分在預測作文分數方面取得了巨大的進展,但是研究對象與研究目的比較單一,研究結果零散,缺乏在能力測量框架下對寫作評價標準、特征體系與分數預測建模的系統(tǒng)性研究。寫作自動化評分到底測量了寫作能力的哪些部分、AES建構的原則與依據是什么、在特征體系的構造與評分模型構建中有哪些關鍵技術亟待突破、能否實現有效且公平的測量等重要問題值得深入探討。
寫作自動化評分發(fā)展與應用的瓶頸催生研究理念與研究框架的創(chuàng)新。隨著心理測量學、自然語言處理(Natural Language Processing,NLP)和人工智能技術等跨學科研究合作的不斷深化,寫作自動化評分從評價表層文本質量拓展到測量寫作能力迎來了新的發(fā)展契機。寫作自動化評分應當以幫助學生提高寫作能力為最終目標,將人工智能新技術融入對學生寫作能力測量的完整教育評價框架中。自動化評分應明確寫作能力測量的范疇,既要實現對文本質量的分數預測,也要通過能力診斷推動寫作進階;評分特征既要對分數預測有貢獻,也要厘清其所涵蓋的寫作能力維度;評分結果既要保持與人工評分的一致性,也要避免人工評分中的偏誤,保證評分的公平性。本文基于寫作能力評價視角,從理論和實踐層面提出寫作自動化評分研究的新框架,以促進寫作自動化評分范式的改進,推動寫作自動化評分向深層寫作能力診斷轉變,保證在大規(guī)模與多元化情境下科學合理地開展寫作自動化評分。
二、寫作能力測量視角下AES的研究框架
1.AES測量的是什么
寫作能力是學生在長期學習過程中形成的一種相對固化的潛在能力,涉及不同層面的復雜認知過程和認知成分(Deane,2013)。圖1展示了寫作過程涉及的多種認知能力??v軸標簽為個體在寫作過程中需要處理的不同模式層面,從底層的語言層面(呈現、言語和語篇模式),上升到寫作背后隱含的想法層面(概念模式),這其中蘊含著作者在特定寫作情境下對社會現實的理解、合理化處理以及期望與讀者交流的意圖(社會模式)。橫向標簽是寫作過程中涉及的個體內隱的認知行為,包括解釋、考慮與產出。個體必須在寫作情境下形成自己的解釋體系,斟酌合理的寫作策略,運用語言知識謀篇布局、選擇體裁,最后利用熟悉的語言形式產出作品。每個單元代表一種認知能力元素,這些元素形成了一個單獨的連通的整體,即我們通常所說的寫作能力。個體在寫作過程中需要激活并協調這些能力元素。因此,合理的寫作評價應盡可能的覆蓋這些元素,而不是將其中一個或幾個單獨分離的元素作為寫作能力的替代。目前,現有的AES對學生在“概念模式”與“社會模式”層次的寫作認知過程測量很少,并且大多集中在寫作產出的言語或語篇層面(例如e-rater、 IntelliMetric、MY Access!TM等)。
基于情境的大數據時代可以利用的信息越來越多元,將文本質量評價結果與其他來源的證據(例如,眼動、log日志、光標與擊鍵記錄等過程性數據)相結合已是大勢所趨(Sinharay et al.,2019;Zhang et al.,2019),甚至人工評分也可以作為寫作能力證據的一部分。在確認想要評估的寫作能力范疇之后,需要更加細致的模型來測量寫作能力,而這些模型建構的目標甚至超越以人工評分為擬合對象的預測準確率。Yang等(2020)將作文映射為語義空間下的概念圖,對作文主旨觀點表現水平進行自動化評分,是作文評分從“語篇模式”層次拓展到“概念模式”層次的初步探索。隨著多情境大數據、在線學習、信息技術環(huán)境在教育評價的應用日趨成熟,寫作自動化評分的研究范式應從“文本證據”與“擬合評分”向“多元證據”與“能力診斷”逐漸轉變。
2.AES建構的依據、原則與過程
傳統(tǒng)的AES以文本質量為主要證據來源,教育和學科專家提出的 “作文評分規(guī)則”是目前AES建構的主要依據。評分規(guī)則反映了作文質量要評價的方面,描述了從哪些方面分幾個等級對作文進行評分以及每個等級作文質量的詳細說明。目前應用最廣泛的是美國教育學家提出的“六要素評分模型”(Six-Trait Scoring Model)(Spandel et al.,1980),列舉了“優(yōu)秀作文”要具備的6個要素,包括想法(Ideas)、內容 (Content)、語氣(Voice)、組織(Organization)、措詞(Word Choice)、句子流暢性(Sentence Fluency)和語言規(guī)范性(Convention),后來又增加了“呈現”(Presentation)要素,下文簡稱為“6+1模型”。該模型在美國、英國、法國等歐美國家應用廣泛,GRE和托??荚噷懽鞑糠值脑u分規(guī)則也是基于這一模型發(fā)展而來。王鶴琰(2016)、劉悅( 2018)對“6+1模型”進行了本土化的改編,但是中西方寫作評價標準存在不小的差異(王彥芳, 2015)。英語作文的寫作邏輯起點是“交際”,強調作文的邏輯性與流暢性;中文的作文評價更強調作者主觀意見表達,需要審題與立意,“中心思想”往往是中文作文最重要的評價屬性(魏小娜, 2009)。因此,面向中文寫作的自動化評分也應避免完全復制面向英文的AES建構方法。
以往的AES研究范式是以追求與人工評分的最大一致性為原則來尋找文本特征的最佳組合方案,如圖 2?;诮y(tǒng)計擬合的方法訓練模型,意味著在同一個測驗下,AES對每個題目的評分標準可能并不相同。這一方面造成AES的特征方案并不穩(wěn)定,評分內部一致性受到質疑;另一方面,隨著分類模型的復雜度增加,模型的概化性與解釋性變弱。更重要的是,對特征效度的忽視偏離了寫作能力測量的本質,難以進一步刻畫學生寫作能力的發(fā)展狀況。
上述問題的背后是寫作自動化評價的研究視角與研究范式的局限。當研究視角轉移到能力評價而不是分數預測時,寫作自動化評分不再是一個封閉的評分系統(tǒng),而需要通過科學的能力測量設計實現自動化評分的迭代與升級?;趯懽髂芰y量的自動化評分體系建構的基本思路是要厘清寫作能力的范疇,依據寫作能力評價標準策劃特征體系的建構途徑,進而建立可持續(xù)測量寫作能力的模型。
在寫作能力測量視角下,寫作自動化評分構建的依據應當從“作文評分規(guī)則”轉化為“寫作能力評價標準”。寫作能力標準應將寫作能力定義為能力測量框架下可以評估的結構??茖W的AES設計原則應以寫作能力評價標準為起點,在保證自動化評分與人工評分一致性的基礎上,厘清AES測量了寫作的哪些方面,并且對自動化評分的信度與效度進行全面檢驗,見圖 3?;谠撛瓌t, AES的研究框架與研究范式的突破應包括以下三個核心問題:第一,如何建立具備解釋性的特征體系,解決自動化評分與評價標準脫鉤的問題;第二,如何突破擬合人工評分的局限,從分數預測模型拓展到能力測量模型;第三,如何超越檢驗自動化評分的準確性,系統(tǒng)地論證自動化評分的信度與效度,保證評分的公平性。下文,筆者將嘗試對研究轉向中的上述三個核心研究問題進行梳理和論述。
三、如何建構可解釋性的特征體系
計算機并不能像人一樣來理解文章。傳統(tǒng)AES是從寫作文本中抽取特征來近似計算作文質量。采用計算語言特征預測作文總分(或某個特定評分維度分數)的過程是透明且靈活的,相較于人工評分策略的內隱性,基于穩(wěn)定的計算語言的特征體系能更好地控制要評價的構念 (Construct) (Bennett et al.,1998)。在一個AES系統(tǒng)中,特征之間建立起的組合與層級關系被稱為AES的特征體系,決定了AES對寫作能力測量的范圍與程度。
1.特征體系的類型
從教育測量的觀點出發(fā),對于同一個寫作評估項目,AES的建構應基于相同的作文評價標準并采用穩(wěn)定的特征體系,生成具有相近測量意義的分數。特征設計與想要測量的技能具有清晰的結構關系。當以文本質量為主要證據來源時,以“6+1模型”的建構依據為例,圖4是一個理想特征體系(Deane,2013)。然而,即使是在文本質量評價層面,傳統(tǒng)AES中的特征大多根據與人工評分的統(tǒng)計擬合確定,這導致特征體系并不穩(wěn)定。當我們需要提高模型的穩(wěn)定性與效度時,如何以評價標準為依據來構建穩(wěn)定的自動化評分標準特征體系就顯得格外重要。大多數寫作自動化評分系統(tǒng)與作文評分規(guī)則的關聯尚欠缺研究的證據支持,特征體系與評價標準相對分離。目前AES的評價內容大都集中在作文的語言規(guī)范、語法特征、語言結構和流暢性等語言形式層面。Crossley(2020)對于目前經常使用的特征與作文質量之間的關系進行了詳細闡述。雖然一些AES能夠提供語義層面的分析,但往往由于語義粒度過細(如詞語搭配錯誤)或過粗(如整篇文章詞語使用的相似度),難以捕捉作文的深層特質,也就無法向使用者提供更有利于改進寫作能力的寫作策略或技巧的反饋(McNamara,2015)。
根據特征體系的內部結構,本文將目前常見的計算語言特征體系概括為三種類型:無結構型、結構型和基于深度學習的內隱型,如圖 5所示。無結構型的特征體系中,原始計算語言特征被作為預測變量直接進入分數預測模型,這種方式在AES中最為常見(陳一樂,2016;Zhao et al.,2017;莫慕貞,2018)。其存在的問題是:(1)某個特征可能在一個方案中很重要,而在另一個方案中并不存在,甚至是負向的,這些差異會對AES的效度造成威脅;(2)容易導致對某個單獨特征的依賴,例如在對作文中心思想或內容進行打分時,我們并不希望過多依賴于“字數”這個特征來判斷作文的質量,雖然作文的長度與分數之間通常存在高相關,但它與要測量的屬性可能相關也可能完全無關 (Deane,2013)。鑒于無結構型特征體系的缺陷,研究者嘗試對某些相似意義的特征進行組合,找到直接影響作文質量或寫作某一屬性表現水平的“高級特征”,同時構建出原始特征與高級特征之間的層級關系,形成結構型特征體系。例如,e-rater(V.2.0)是典型的結構型特征體系(Attali et al.,2005),與e-rater (V.1.0) (Burstein et al.,1998)相比,最大的區(qū)別是使用了一組少量但有直觀測量意義的高級特征來預測作文分數。近年來,一些深度學習模型被直接用于AES領域以實現端到端的自動化評分。這類模型通常以文本為輸入,特征抽取過程完全內化,經過多次復雜變換后直接輸出作文分數或分類,形成基于深度學習的內隱型特征體系(Nadeem et al.,2019; Mayfield et al.,2020)。這類端到端 (End-to-End)模型雖然在一些任務中能取得較高的與人工評分的一致率(Mayfield et al.,2020),但評分過程與分數意義難以解釋與檢驗。目前采用深度學習模型對作文進行端到端的自動化評分的實際應用非常少,研究也未形成延續(xù)性。
基于上述分析,無論從計算語言特征體系對寫作能力的覆蓋程度來看,還是從特征體系的穩(wěn)定性來看,結構型特征體系都更適合發(fā)展出理想的特征體系。高級特征與評分標準中的屬性聯系更加緊密,有利于降低由于個別原始特征變化造成預測分數波動的可能,增強AES的穩(wěn)定性。在實際運用中,結構型特征體系更適合于原始文本特征、高級特征以及寫作屬性之間的關系容易辨識的情況,例如“某個語言錯誤—語法錯誤—語言規(guī)范性”的關系比“某原始文本特征—中心思想”的關系更容易確定,后者需要大量研究支持。
隨著AES特征體系從作文語言表層特征向內容與思想等深層屬性不斷深化,特征與能力各潛在維度或潛在屬性的關系結構更加復雜化。Chen等人(2018)總結了目前AES中采用的特征與寫作能力的各方面(類似于高級特征)之間的關系,發(fā)現從作文文本中抽取的原始計算語言特征對作文質量的影響是間接的,且粒度較細,一般不具有明顯的測量意義(例如“詞語搭配錯誤”);一些原始計算語言特征經過加權組合計算得到的“高級特征”通常有較為明確的測量意義(例如“語法錯誤”),與寫作潛在屬性的對應關系也更加明確(例如“語法錯誤”對應“語言規(guī)范性”屬性)。與容易受到寫作任務影響的淺層語言特征相比,這些潛在屬性能夠始終如一的描述寫作能力,揭示寫作活動中個體的寫作策略與心理特征?;跐撛趯傩詫懽髂芰Φ脑u價是一種普適性的客觀評價,是基于能力層面而非題目層面的通用評價(Attali et al.,2013)。
2.特征的構造方法
盡管大多數AES系統(tǒng)的細節(jié)并未公開,但從已發(fā)表的研究可以推斷,AES頗受爭議的一個重要原因是對作文質量的測量仍以語法和語義內容為主。目前最先進的AES系統(tǒng)或相關研究中,對語言規(guī)范、措辭等基于語言形式的測量較為成熟(Yoon et al.,2018),對流暢性、議論文的組織和結構有一定程度的測量(Limpo et al.,2017;Zupanc et al.,2017),對思想、立意、創(chuàng)新性等深層屬性的測量還遠遠不夠。
在語義方面,潛在語義分析(Latent Semantic Analysis,LSA) 和內容向量分析 (Content Vector Analysis,CVA)常被用來測量作文與高分作文的相似度(曹亦薇等,2007;Hao et al.,2014; Sakti et al.,2016)或識別作文是否“跑題”(Sakti et al.,2016;Liu,2017)。近年來有研究者采用開放信息抽取 (Open Information Extraction,OIE) 來判別作文中語義的關系信息 (Zupanc et al., 2017),能夠比較準確地判斷常識與語言邏輯的正誤。廣義潛在語義分析 (Generalized Latent Semantic Analysis,GLSA)、語義網絡 (Semantic Networks,SN)、模糊邏輯 (Fuzzy Logic,FL) 和描述邏輯 (Description Logic,DL) 等分析技術也被用來拓展作文中語義分析的結果 (Xu et al.,2017)。在主題研究中,潛在狄利克雷分布 (Latent Dirichlet Allocation,LDA)模型能夠對文本的內容進行無監(jiān)督聚類。作文內容的一致性與連貫性一般通過相鄰句子或段落之間實體詞的重疊或基于LSA或CVA語義相似度來計算(Shermis et al., 2013;Stab et al.,2014;Rahimi et al.,2015)?;谡撟C挖掘對議論文論點清晰度(Persing et al., 2013;Wachsmuth et al.,2016)、論證說服力(Persing et al.,2015;Wachsmuth et al.,2016)與作文的總分(Nguyen et al.,2018;Ke,2019)進行預測也是AES研究的熱點。隨著基于情境的大數據時代來臨,研究者認為基于過程性數據挖掘(劉紅云,2020)能得到更豐富的能力證據。近年來一種基于圖的作文表征方法被用于寫作評價中,通過將作文中出現的各種思想和概念表征為圖結構,形象、直觀地呈現出學生在寫作過程中的語義認知結構 (Nafa et al., 2016;陳志鵬,2017;Zupanc et al., 2017;高京堅等,2018; Maharjan et al.,2019)。該方法還能夠評估作者想法的發(fā)展(Somasundaran et al., 2016)。辛濤等(2020)將概念圖的全局結構與Word2Vec的局部語義信息進行融合,構造了評價中文作文主旨觀點與創(chuàng)新性的特征,表明基于復雜網絡(Ke et al.,2016)或概念圖(Maharjan et al., 2019)的特征能夠有效地預測文本的整體質量??偟膩碚f,現有研究中構造的特征較為零散,基于圖的深層特性與寫作能力之間的關系仍有待持續(xù)深入研究。
不可忽視的是,由于語言特性差異,在英文作文評價中占很大比重的基于語言形式的屬性(例如,語言規(guī)范、語法等)對中文作文質量的影響較為有限。面向中文寫作的自動化評分從最早基于字頻與詞頻的統(tǒng)計特征 (張晉軍等,2004)發(fā)展到識別作文中的修辭手法(鞏捷甫,2016; 付瑞吉等,2018)和篇章主題(劉明楊,2015)等方面的特征。吳恩慈和田俊華(2019) 對漢語寫作自動化評分中采用的關鍵自然語言處理技術與問題進行了詳細回顧;彭恒利(2019)總結了國內自動化評分技術在高利害考試中應用的情況與問題。面向中文的AES特征構造方法應根據中文語言特性,探索能夠捕捉中文寫作能力水平差異的多元特征的構造途徑與計算方法。
四、如何構建能力測量模型,突破擬合人工評分的局限
1.常見的分數預測模型與構建
目前AES評分模型大多是以特征值作為預測變量,擬合人工評分的分數預測模型。普遍的構建方法是將經過人工評分的作文分為訓練集與測試集,在訓練集上訓練模型參數,獲得特征的最優(yōu)權重,接著在測試集上預測作文分數。這個過程中采用的統(tǒng)計方法和訓練程序都影響著AES的實踐應用效果。
基于構建好的特征體系,特征的權重計算可以由多種方式來實現,最簡單的就是特征的加權平均,權重反映了特征對于分數預測的重要性。AES分數預測中最常見的統(tǒng)計模型是多元線性回歸模型。多元線性回歸是一種順序量表,得到的連續(xù)分數能夠反映作文質量的高低。國內針對大型考試的中文寫作自動化評分研究也大多采用多元線性回歸模型(陳一樂,2016)或經過優(yōu)化的回歸模型(Yao et al.,2019)。隨機森林 (Radom Forest)、支持向量機 (Support Vector Machines) 等常見的機器學習模型也被應用于作文評分任務中來提高作文分類準確率。深度學習模型往往能夠整合特征抽取與分數合成,輸入文本后直接輸出預測分數 (Zhao et al.,2017; Mayfield et al.,2020),準確率較高但解釋性弱。
在分數預測模型的參數確定后,自動化評分不會隨著時間變化而發(fā)生改變,即重測信度為1。這時應檢驗模型跨題目時特征權重的一致性與合理性。同一個測驗下,在多個寫作任務中表現不穩(wěn)定或不合理的特征權重會導致難以控制和解釋AES產出分數的意義。值得注意的是,由于計算機至少目前還不能真正模仿人工評分員在評分時的心理認知過程,基于各種數據驅動的統(tǒng)計方法獲得的最優(yōu)權重并不一定能反映評分員在評分過程中對作文特征的關注程度,因此,一些并不單一追求與人工評分一致性的特征權重賦值方法,例如專家事先標定、等權重、因素分析和信度最大化方法(Attali,2015)也會被用于非高利害考試或無事先標定分數的評分任務中。
在分數預測模型的建構中,訓練集中的作文組成決定了AES可以合理地推廣到哪些人群和寫作任務上。訓練集中的作文必須來自AES要使用的目標群體,根據訓練集中作文組成來源可以將分數預測模型分為題目模型與通用模型。如果在同一測驗中有多個不同版本的平行作文題目,那么,在評分的初期可以專門針對某個題目進行建模,抽取每個題目下500~2000篇作文構造特定題目的分數預測模型,這種模型稱為“題目模型”。相對地,從全部題目下的作文中抽取樣本構建的是“通用模型”。這時,同一個測驗中的所有作文題目都統(tǒng)一采用通用模型進行評分,提高了評分內部一致性,生成的分數具有相對穩(wěn)定的解釋意義。Ramineni等(2013)認為“通用模型”增強了自動化評分的標準化程度與可接受性,但是,當有新的題目加入時,需要重新訓練通用模型或對AES系統(tǒng)進行調整。
2.寫作能力測量模型的構建與發(fā)展方向
隨著心理測量與計算機等相關學科合作的不斷深化,寫作自動化評分的作用不應局限于評分上,而是要拓展到對學生的寫作能力水平進行評估或診斷上。
(1)能力的整體評價與分項評價
目前中文寫作評價中,單獨評價寫作能力某個特定方面的研究相對較少,大多數研究并未檢驗寫作分數與寫作能力之間的關系。大規(guī)??荚囍?,基于作文評分規(guī)則對作文打出總分,可看作是對寫作能力的整體估計。在另一些情境下,專門針對寫作能力的不同方面(例如,“中心思想”“創(chuàng)造性”等維度)制定評分標準并單獨評分屬于對寫作能力的分項評價。比如,Zedelius等人 (2019)通過一些客觀的計算語言特征來測量作文的創(chuàng)造性;徐建平等(2020)對學生寫作中的發(fā)散思維進行了自動化評分;Yang等(2020)基于概念圖的特征對中國8年級學生的作文主旨觀點的組織水平進行了自動化評價研究。針對作文某個特定維度的自動化評分能夠為學生改進寫作指明方向,是寫作評分發(fā)展的新趨勢。
為了揭示寫作能力的結構與發(fā)展,寫作自動化評分應當對寫作某個維度(或屬性)的測量從基于語言形式的表層屬性逐漸拓展到與寫作認知過程聯系更緊密的深層屬性上,給學生提供更有價值的反饋。AES研究應注重寫作能力各維度發(fā)展水平的測量,建構更加精細化和更具針對性的能力測量模型,提供潛在特質或屬性的評分或反饋,幫助改進寫作教學質量。
(2)寫作能力測量模型的構建
當聚焦于測量寫作能力的發(fā)展水平而不是作文文本之間的橫向對比(例如,某篇作文是6 或8 年級水平,而不是3分還是6分)時,應當使AES估計的能力分數標定在一個跨題目的標準化寫作發(fā)展量表(Standardized Writing Development Scales)上,這個量表上分數的高低應當反映學生寫作能力水平,從而對學生寫作能力進行可持續(xù)的測量與診斷。
寫作能力測量模型構建的研究目前剛剛起步。Raquel等(2014)采用一套診斷性英語語言追蹤系統(tǒng)評估一項大規(guī)模英語語言測驗的寫作部分,定期評估學生寫作水平;莫慕貞(2018)采用多面Rasch模型得到校準后的人工評分,采用多元線性回歸模型預測校準后的學生能力分數,回歸模型的解釋率R2為0.47;Uto等(2020)基于BERT預測IRT模型估計的學生寫作能力值,R2為0.56。由于寫作能力的發(fā)展在不同時期的進度并不相同,即使同為相差1分,在不同分數區(qū)間上所代表的寫作能力的差異很有可能并不相同。例如學生從1分上升到2分要比從5分上升到6分容易得多。因此,能力測量模型應建立等距量表,基于特征體系建立能力分數的測量模型。這個過程有兩個重要步驟:首先應當將不同評分員的打分標定在同一個能力量表上,從而減小人工評分的偏誤;其次,采用合理的特征體系中得到的特征值來估計寫作能力,建立能力測量模型。在這個能力量尺上,分數越高表明寫作能力越高,并且可以與其他測驗的能力分數進行鏈接。這方面的研究具有非常廣闊的探索空間與應用潛力。
五、如何論證AES的信度與效度
教育測量界不斷更新的信度與效度概念深深地影響著自動化測評工具的開發(fā)與應用。隨著人工智能技術的快速更新與迭代,各種自動化測評工具的信效度也被賦予融合時代特色的新含義。對于寫作自動化評分工具來說,信度與效度的論證應該包含一套完整的邏輯,僅僅呈現自動化評分與人工評分的相關是遠遠不夠的,需要更充分的研究來論證自動化評分與學生寫作能力之間的潛在關系,其意涵超越了對人工評分的復制,增強了自動化評分結果的合理性與解釋性。Attali等人 (2013) 提出了基于作文質量評價的AES信度與效度評價框架,該框架將AES的評估從預測準確性拓展到對AES中所采用特征的檢驗、自動化評分與人工評分的關系、跨樣本的穩(wěn)定性以及AES與其他測驗的關系四個方面,見圖 6?;趯懽髂芰y量與評價的視角,寫作自動化評分體系中所采用的特征的意義、AES與人工評分的關系以及跨樣本的穩(wěn)定性是最重要的信效度問題,分別對應著AES的測量構念、AES的有效性與公平性,是影響AES推廣與應用的關鍵問題。
1.特征的意義
作為對人工評分的補充或者替代,AES要能從建構原理上清楚地反映出是測量寫作能力的哪些方面。因此,當AES中引入一個新特征時,一個基本問題就是要考慮特征的解釋性。計算語言特征應呈現與我們預期相符的意義。
特征意義的證據應當來源于計算語言學等相關領域的基礎研究,或來源于語言學和認知研究中對于經典文學作品的分析。例如,第二語言習得的研究中,研究者發(fā)現了測量連貫性、詞匯和句法復雜性等多種計算語言特征( Jiang et al.,2019;解月,2020)。還有研究發(fā)現,TTR (Type-Token Ratio, 作文中相同的詞和所有詞的比例)指數反映了詞匯的復雜性和多樣性。特征之間的相關模式也為從原始文本特征合成高級特征的解釋性提供了一定支持,因素分析也可以用于考查AES特征體系的內部結構。如Attali等(2009)對e-rater得到的作文特征分數進行了探索性因素分析,結果表明e-rater的特征覆蓋了語言規(guī)范、語篇與措辭三個寫作評價維度。需要指出的是,在一些情境下有用的特征不一定適合于所有作文評分的情境。例如,閱讀可讀性指數雖然能有效估計閱讀難度,但是對預測作文評分的貢獻就很?。╖upanc et al., 2017)。語言特征與作文分數的相關也能在一定程度上辨識出特征對評分的貢獻,但需要同時考慮相關系數和偏相關系數,尤其是要將作文長度的影響納入分析。例如,“平均句子長度的負對數”與人工評分的相關為0.16,但在控制了作文長度后,與人工評分的相關為 -0.01(Attali, 2015)。
2.AES與人工評分的關系
傳統(tǒng)AES的準確性是通過自動化評分與人工評分的一致性來衡量。表 1呈現了目前AES需要滿足的與人工評分一致性的基本要求(Ramineni et al.,2013)。需要注意的是:首先,該標準依賴于人工評分的質量。如果人工評分的內部相關小于0.70,則對AES的建構更加不利,人工評分的低信度會影響AES的準確性。其次,由于自動化評分往往表現出比人工評分更小的變異(Bridgeman et al.,2017),這暗示著自動化評分很可能與人工評分員對作文的考慮并不相同。在實踐中應盡量保證自動化評分與人工評分者具有相同的變異度。
3.跨樣本的穩(wěn)定性
作為一種自動化評價工具,AES跨樣本評分的穩(wěn)定性以及對不同子群體的公平性風險不可忽視。例如,托??荚囍?,亞洲學生在“組織”上得分更高,語法和措辭得分較低,特征的相對權重方案將對不同種族群體的作文分數產生差異化的影響(Breyer et al., 2017; Kusner et al.,2017)。AES在不同子群體上評分準確性往往是有差異的(Attali et al., 2005;Bridgeman et al.,2012),這些差異可能會導致對某些子群體不公平(Ramineni et al.,2013)。在大規(guī)模高利害的考試中,尤其需要謹慎檢驗AES跨群體的評分穩(wěn)定性。例如,使用“標準化的平均分差別”來衡量不同子群體之間的準確性的差別,如果差異超過0.10或0.15個標準差則被標記為可能存在公平性問題(Ramineni et al.,2013)。
AES信度與效度的研究應當是比開發(fā)自動化評分系統(tǒng)更長久且更重要的工作。在信息環(huán)境與人工智能的輔助下,AES信度與效度的論證可以考慮更豐富的數據與試驗研究。例如,當寫作自動化評分的分數與外部測驗的相關相較人工評分與外部測驗的相關呈現出明顯不同的相關關系時(Attali,2015),意味著人工評分員和自動化評分系統(tǒng)評價的內容很可能存在較大差異,需要進一步分析差異來判斷評分的合理性。
六、寫作自動化評分的推進方向
令人鼓舞的是,當不以預測準確率為研究的方向時,在寫作能力測量的視閾下,AES所采用的特征不僅能夠為寫作能力等相關研究提供客觀量化的證據,同時也能為其他教育評價研究提供支持。AES從開發(fā)到使用并不是簡單的一蹴而就,而是科學與實踐在現實中互相促進與完善的長期過程。AES的研究同樣需要遵循這樣的推進路徑,同時需要權衡科學創(chuàng)新性與實踐滯后性的矛盾。為探索寫作自動化評分的有效建構與使用的合理路徑,今后的研究應注意:
第一,自動化評分與人工評分的結合應用。AES可以在人工評分的過程中對人工評分的質量進行監(jiān)控,或者作為一個特別的維度分數,為人工評分提供一個穩(wěn)定且量化的參考分數。
第二,寫作自動化評分的穩(wěn)定性和泛化性的檢驗。公平性一直是教育測量領域的重要概念,需要通過在不同寫作任務與不同學生樣本上的應用來完善與更新AES體系,為AES的使用提供更多的證據支持與合理的使用建議。
第三,寫作能力發(fā)展的持續(xù)性研究。合理的寫作能力測量模型能夠為學生的寫作能力以及潛在屬性發(fā)展提供追蹤研究的證據,揭示寫作能力的發(fā)展規(guī)律與不同子群體的寫作能力發(fā)展差異。
第四,測驗成績的可比性研究。當寫作能力與寫作題目參數被標定在同一量尺上時,通過題目參數的鏈接,能夠進一步建立寫作能力與其他語言能力(如閱讀)之間的關系。在大規(guī)??荚囍?,常常因評分員的背景與培訓差異導致對作文評分標準的把握不完全一致,而AES的優(yōu)勢在于,一旦建構好模型,它的評分結果不會隨著時間或地點的改變而波動。在此基礎上,能夠進行一些大膽的探索。例如,當寫作能力被標定在一個通用的寫作能力發(fā)展量尺上時,利用特征體系中比較穩(wěn)定的特征作為“錨”對人工評分的結果進行監(jiān)督或者矯正,或當AES用于不同測驗時,探索通過穩(wěn)定的特征對不同的寫作測驗分數進行鏈接的可能性。
七、結語
在教育評價領域,隨著人工智能在寫作教學與評價中日益廣泛的應用,寫作自動化評分的建構途徑與技術方法應當被納入能力測量的科學框架。本研究對寫作自動化評分測量的范疇和依據、特征體系與評分模型構建等重要問題進行闡述,有助于相關研究者在理解其研究價值的基礎上開展有針對性的創(chuàng)新與應用??梢钥闯觯山逃蜏y量學專家提出的寫作能力評價標準是AES建構的依據,在保證自動化評分與人工評分一致性的基礎上,以寫作全過程中多元化數據為證據來源,AES的特征體系應最大程度地覆蓋寫作能力的范疇。需要指出的是,AES的研究重點應當逐漸從分數預測的準確性轉向寫作能力測量的合理性上。對于AES跨題目的信度、跨群體的穩(wěn)定性以及由此產生的公平性等問題需要基于真實數據的大量研究與檢驗。作為大規(guī)模考試中寫作自動化評分體系建構項目的參與者,筆者深刻感受到,當前的寫作自動化評分距離“寫作能力自動評價”的目標仍有較大差距,該領域的研究仍處于探索階段,存在儲多挑戰(zhàn)。面向未來的大數據情境,AES的研究應重視計算機技術與教育測量研究的融合,同時注重與寫作能力發(fā)展等相關研究的相互促進與支持整合。
參考文獻:
[1]曹亦薇,楊晨(2007).使用潛語義分析的漢語作文自動評分研究[J].考試研究, (1):63-71.
[2]陳一樂(2016).基于回歸分析的中文作文自動評分技術研究 [D].哈爾濱:哈爾濱工業(yè)大學.
[3]陳志鵬(2017).基于詞分布的文本表示研究 [D].蘇州:蘇州大學.
[4]付瑞吉,王棟,王士進(2018).面向作文自動評分的優(yōu)美句識別[J].中文信息學報, 32(6):88-97.
[5]高京堅,張文彥,張凱(2018).句法謂詞的主題表現力研究[J].語言文字應用,(1):71-80.
[6]鞏捷甫(2016).面向語文作文自動評閱的修辭手法識別系統(tǒng)的設計與實現[D].哈爾濱:哈爾濱工業(yè)大學.
[7]梁茂成,文秋芳(2007).國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學,(5):18-24.
[8]劉紅云(2020).基于過程數據的合作問題解決能力測量模型的構建[Z]. 2020全球人工智能與教育大數據大會(北京).
[9]劉明楊(2015).高考作文自動評分關鍵技術研究[D].哈爾濱:哈爾濱工業(yè)大學.
[10]劉悅(2018).作文診斷量表的啟示研究[J].課程教育研究,(15):181-182.
[11]莫慕貞(2018).中文作文自動評分研究[Z].第十三屆海峽兩岸心理與教育測驗學術研討會(臺北).
[12]彭恒利(2019).計算機自動評分技術在高利害考試中應用的前景分析[J].內蒙古教育,(2):4-6,28.
[13]石曉玲(2012).在線寫作自動評改系統(tǒng)在大學英語寫作教學中的應用研究——以句酷批改網為例[J].現代教育技術,(10):67-71.
[14]王鶴琰(2016).基于“要素評價量表”的寫作教學內容研究——以上海市X學校為例[D].上海:上海師范大學.
[15]王彥芳(2015).中美作文命題與評分準則的比較[J].文學教育(上),(10):73-74.
[16]魏小娜(2009).中美作文評價標準比較[J].語文教學通訊,(1):59-60.
[17]吳恩慈,田俊華(2019).漢語作文自動評價及其關鍵技術——來自作文自動評價(AEE)的經驗[J].教育測量與評價,(8):45-54.
[18]解月(2020).二語寫作連貫研究綜述和展望[J].山東外語教學,(6):20-30.
[19]辛濤,楊麗萍(2020).基于概念圖的作文自動化評分探索[Z].2020全球人工智能與教育大數據大會(北京).
[20]趙海燕,辛濤,田偉(2018).主觀題評分中的評分者漂移及其傳統(tǒng)檢測方法[J].中國考試,(8):20-27.
[21]徐建平,段海燕,李露(2020).發(fā)散思維測驗的機器評分[Z]. 2020全球人工智能與教育大數據大會(北京).
[22]張晉軍,任杰(2004).漢語測試電子評分員實驗研究報告[J].中國考試,(10):27-32.
[23]Attali, Y., & Burstein, J. (2005). Automated Essay Scoring with e-rater? V.2[J/OL]. [2020-02-10]. https://files.eric.ed.gov/fulltext/EJ843852.pdf.
[24]Attali, Y. (2015). Reliability-Based Feature Weighting for Automated Essay Scoring[J]. Applied Psychological Measurement, 39(4):303-313.
[25]Attali, Y., Lewis, W., & Steier, M. (2013). Scoring with the Computer: Alternative Procedures for Improving the Reliability of Holistic Essay Scoring[J]. Language Testing, 30(1):125-141.
[26]Attali, Y., & Powers, D. (2009). Validity of Scores for a Developmental Writing Scale Based on Automated Scoring[J]. Educational and Psychological Measurement, 69(6):978-993.
[27]Bennett, D., & Parry, G. (1998). The Accuracy of Reformulation in Cognitive Analytic Therapy: A Validation Study[J]. Psychotherapy Research, 8(1):84-103.
[28]Breyer, F. J., Rupp, A. A., & Bridgeman, B. (2017). Implementing a Contributory Scoring Approach for the GRE? Analytical Witing Section: A Comprehensive Empirical Investigation(ETS Research Report No. RR-17-14)[R]. NJ: Princeton: Educational Testing Service.
[29]Bridgeman, B., & Ramineni, C. (2017). Design and Evaluation of Automated Qriting Evaluation Models: Relationships with Writing in Naturalistic Settings[J]. Assessing Writing, 34:62-71.
[30]Bridgeman, B., Trapani, C., & Attali, Y. (2012). Comparison of Human and Machine Scoring of Essays: Differences by Gender, Ethnicity, and Country[J]. Applied Measurement in Education, 25(1):27-40.
[31]Burstein, J. C., Kukich, K., & Wolff, S. et al. (1998). Computer Analysis of Essays[Z]// Paper Presented at the Annual Meeting of the National Council of Measurement in Education. IL: San Diego.
[32]Chen, L, Tao, J., & Ghaffarzadegan, S. et al. (2018). End-to-End Neural Network Based Automated Speech Scoring[C]// Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. IL: Calgary.
[33]Crossley, S. (2020). Linguistic Features in Writing Quality and Development: An Overview[J]. Journal of Writing Research, 11(3):415-443.
[34]Deane, P. (2013). On the Relation Between Automated Essay Scoring and Modern Views of the Writing Construct[J]. Assessing Writing, 18(1):7-24.
[35]Elliot, S. M. (2001). IntelliMetric: From Here to Validity[Z]// Paper Presented at the Annual Meeting of the American Educational Research Association. IL: Seattle.
[36]Elliot, S., M., & Mikulua, C. (2004). The Impact of MY Access!TM Use on Student Writing Performance: A Technology Overview and Four Studies[Z]// Paper Presented at the Annual Meeting of the American Educational Research Association (AERA). IL: San Diego.
[37]Hao, S., Xu, Y., & Peng, H. et al. (2014). Automated Chinese Essay Scoring From Topic Perspective Using Regularized Latent Semantic Indexing[Z]// Paper Presented at the 22nd International Conference on Pattern Recognition. IL: Calgary.
[38]Jiang, J., Bi, P., & Liu, H. (2019). Syntactic Complexity Development in the Writings of EFL Learners: Insights From a Dependency Syntactically-Annotated Corpus[J]. Journal of Second Language Writing, 46. doi:10.1016/j.jslw.2019.100666.
[39]Ke, X., Zeng, Y., & Luo, H. (2016). Autoscoring Essays Based on Complex Networks[J]. Journal of Educational Measurement, 53(4):478-497.
[40]Ke, Z. (2019). Automated Essay Scoring: Argument Persuasiveness[D]. Richardson: The University of Texas at Dallas.
[41]Kusner, M. J., Loftus, J., & Russell, C. et al. (2017). Counterfactual Fairness[M]// Guyon, U., von Luxburg, S., & Bengio, H. M. et al. (Eds.). Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems. IL: Long Beach.
[42]Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis[J]. Discourse Processes, 25:259-284.
[43]Limpo, T., Alves, R. A., & Connelly, V. (2017). Examining the Transcription-Writing Link: Effects of Handwriting Fluency and Spelling Accuracy on Writing Performance via Planning and Translating in Middle Grades[J]. Learning and Individual Differences, 53:26-36.
[44]Liu, L. (2017). A Comparative Study of Different Text Similarity Measures for Identification of Off-Topic Student Essays[J]. Boletin Tecnico/Technical Bulletin, 55(11):602-606.
[45]Maharjan N., & Rus V. (2019). A Concept Map Based Assessment of Free Student Answers in Tutorial Dialogues[M]// Isotani, S., Millán, E., & Ogan, A. et al. (Eds). Artifificial Intelligence in Education(AIED 2019). Lecture Notes in Computer Science, vol. 11625, Cham: Springer:244-257.
[46]Mayfield, E., & Black, A. (2020). Should You Fine-Tune BERT for Automated Essay Scoring?[C]//? Proceedings of the Fifteenth Workshop on Innovative Use of NLP for Building Educational Applications. IL: Seattle.
[47]McNamara, D. S. (2015). The Tool for the Automatic Analysis of Text Cohesion (TAACO): Automatic Assessment of Local, Global, and Text Cohesion[J]. Behavior Research Methods, 48(4):1227-1237.
[48]Nadeem F., Nguyen H., & Liu Y. et al. (2019). Automated Essay Scoring with Discourse-Aware Neural Models[C]// Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications. IL:Florence.
[49]Nafa, F., Khan, J. I., & Othman, S. et al. (2016). Discovering Bloom Taxonomic Relationships Between Knowledge Units Using Semantic Graph Triangularity Mining[C]// Proceedings of the 2016 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery. IL: Chengdu.
[50]Nguyen, H., & Litman D. (2018). Argument Mining for Improving the Automated Scoring of Persuasive Essays[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. IL:New Orleans.
[51]Page, E. B. (1966). The Imminence of Grading Essays by Computer[J]. Phi Delta Kappan, 48:238-243.
[52]Persing, I., & Ng, V. (2013). Modeling Thesis Clarity in Student Essays[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. IL: Sofia.
[53]Persing, I., & Ng, V. (2015). Modeling Argument Strength in Student Essays[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. IL: Beijing.
[54]Rahimi, E., Van den Berg, J., & Veen, W. (2015). Facilitating Student-Driven Constructing of Learning Environments Using Web 2.0 Personal Learning Environments[J]. Computers & Education, 81:235-246.
[55]Raquel, M., Lockwood, J., & Hamp-Lyons, L. (2014). Exploring the Use of an Automated Essay Scoring System for a Diagnostic Writing Test[C]// Proceedings of the 36th Language Testing Research Colloquium. IL: Amsterdam.
[56]Ramineni, C., & Williamson, D. M. (2013). Automated Essay Scoring: Psychometric Guidelines and Practices[J]. Assessing Writing, 18(1):25-39.
[57]Rupp, A. A. (2018). Designing, Evaluating, and Deploying Automated Scoring Systems with Validity in Mind: Methodological Design Decisions[J]. Applied Measurement in Education, 3:191-214.
[58]Sakti, E., & Fauzi, M. A. (2016). Comparative Analysis of String Similarity and Corpus-Based Similarity for Automatic Essay Scoring System on e-Learning Gamification[C]// Proceedings of the International Conference on Advanced Computer Science & Information Systems. IL: San Diego.
[59]Shermis, M. D., & Burstein, J. (2013). Handbook of Automated Essay Evaluation: Current Applications and New Directions[M]. London and New York: Routledge:1-12.
[60]Sinharay, S., Zhang, M., & Deane, P. (2019). Prediction of Essay Scores From Writing Process and Product Features Using Data Mining Methods[J]. Applied Measurement in Education, 32:116-137.
[61]Somasundaran, S., Riordan, B., & Gyawali, B. et al. (2016). Evaluating Argumentative and Narrative Essays Using Graphs[C]// Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. IL: Osaka.
[62]Spandel, V., & Stiggins, R. J. (1980). Direct Measures of Writing Skill: Issues and Applications[M]. Eugene, OR: Northwest Regional Educational Laboratory.
[63]Stab, D., Strobelt, H., & Rohrdantz, C. et al. (2014). Comparative Exploration of Document Collections: A Visual Analytics Approach[J]. Computer Graphics Forum, 33(3):201-210.
[64]Uto, M., & Okano, M. (2020). Robust Neural Automated Essay Scoring Using Item Response Theory[C]// Proceedings of the Artificial Intelligence in Education, 21st International Conference. IL: Morocco.
[65]Wachsmuth, H., Khatib, K., & Stein, B. (2016). Using Argument Mining to Assess the Argumentation Quality of Essays[C]// Proceedings of the 26th International Conference on Computational Linguistics. IL: Osaka.
[66]Wolfe, E. W., Ng, D., & Baird, J. A. (2018). A Conceptual Framework for Examining the Human Essay Rating Process[C]// Paper Presented at the Annual Meeting of the National Council on Measurement in Education. IL: New York.
[67]Xu, Y., Ke, D., & Su, K. (2017). Contextualized Latent Semantic Indexing: A New Approach to Automated Chinese Essay Scoring[J]. Journal of Intelligent Systems, 26(2):263-285.
[68]Yang, L., Xin, T., & Cao, C. (2020). Predicting Evaluations of Essay by Computational Graph-Based Features[J]. Frontiers in Psychology. 11. doi:10.3389/fpsyg.2020.531262.
[69]Yao, L, Haberman, S., & Zhang, M. (2019). Penalized Best Linear Prediction of True Test Scores[J]. Psychometrika, 84:186-211.
[70]Yoon, S.-Y., & Bhat, S. (2018). A Comparison of Grammatical Proficiency Measures in the Automated Assessment of Spontaneous Speech[J]. Speed Communication, 99:221-230.
[71]Zedelius, C. M., Mills, C., & Schooler, J. W. (2019). Beyond Subjective Judgments: Predicting Evaluations of Creative Writing from Computational Linguistic Features[J]. Behavior Research Methods, 51(2):879-894.
[72]Zhang, M., Zhu, M., & Deane, P. et al. (2019). Analyzing Editing Behaviors in Writing Using Keystroke Logs[C]// Proceedings of the 83th Annual Meeting of the Psychometric Society. IL: New York.
[73]Zhao, S., Zhang, Y., & Xiong, X. et al. (2017). A Memory-Augmented Neural Model for Automated Grading[C]//? Proceedings of the Fourth ACM Conference on Learning Scale. IL: Cambridge.
[74]Zupanc, K., & Bosni?, Z. (2017). Automated Essay Evaluation with Semantic Analysis[J]. Knowledge-Based Systems, 120:118-132.
收稿日期 2020-12-25責任編輯 汪燕
Aided Ability Measurement by Artificial Intelligence:
The Core Problems of Automatic Writing Scoring Research
YANG Liping, XIN Tao
Abstract: The automatic scoring of writing is an emerging research field in the current intelligent education, providing a more quantitative, real-time and robust scheme to alleviate the enormous pressure of economy and time cost in human rating. However, most current automatic writing scoring models take features as predictors to fit the measurement model of manual scoring. To match automatic essay scoring with the ultimate goal of improving students writing ability, the automatic scoring system should be constructed from the perspective of writing ability measurement, to clarify the range of measurement and break through the technical bottleneck of the shift from automatic essay scoring to ability evaluating. The core scientific problems that need to be addressed include: (1) How to establish an explicable feature system based on writing evaluation criteria, in order to solve the problem of decoupling between the automatic scoring and the evaluation standard; (2) How to break through the limitation of fitting for human scores to expand the score-prediction model to the ability-measurement model, and explore the evaluation model for each dimension of writing ability; (3) How to systematically demonstrate the reliability and validity of automatic writing scoring and emphasize the fairness across subgroups based on ensuring the accuracy of scoring in practice. In order to explore the effective construction and the reasonable path of using automatic writing scoring, future research can be advanced from such aspects as the combination of automatic scoring and manual scoring, the test of the stability and generalization of automatic writing scoring, the sustainability of writing ability development and the comparability of test scores.
Keywords: Automatic Writing Scoring; Ability Measurement; Feature System; Evaluation Model; Reliability and Validity