劉衛(wèi)忠 余力
摘要:分析研究當(dāng)前國(guó)內(nèi)外英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng)的研究成果,提出了一種基于鏈語(yǔ)法(Link Grammar)的能為學(xué)生提供實(shí)時(shí)訓(xùn)練的英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng)。系統(tǒng)首先通過(guò)依據(jù)Link Grammar對(duì)句子分析后的成本向量(cost vector)計(jì)算文章的語(yǔ)法權(quán)值,其次則利用文章核心詞、非核心詞熵值和有效句比例來(lái)對(duì)文章主題分檔,最后則是結(jié)合語(yǔ)法權(quán)值和主題分檔結(jié)果計(jì)算文章分?jǐn)?shù)。測(cè)試結(jié)果表明,10~15分段作文達(dá)到了88.9%的準(zhǔn)確率,說(shuō)明該系統(tǒng)在10~15分段作文具有較好的適應(yīng)性,同時(shí)系統(tǒng)的分析時(shí)間也能很好的滿足實(shí)時(shí)性的要求。
關(guān)鍵詞:自動(dòng)作文評(píng)分;鏈語(yǔ)法;信息熵;主題分檔;英語(yǔ)教學(xué)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)02-0284-04
作文自動(dòng)評(píng)分 (Automated Essay Scoring,AES)就是利用計(jì)算機(jī)技術(shù)對(duì)作文的語(yǔ)言、內(nèi)容等方面進(jìn)行評(píng)估與打分[1]。由于作文自動(dòng)評(píng)分具有諸如實(shí)用性、一致性等突出優(yōu)點(diǎn),近年來(lái)該方向的研究在國(guó)內(nèi)也逐漸得到外語(yǔ)教學(xué)界和自然語(yǔ)言處理界的重視,相關(guān)專家學(xué)者如梁茂成[2]和葛詩(shī)利、陳瀟瀟[3]等都做了大量的嘗試和研究。但與國(guó)外相比,國(guó)內(nèi)的相關(guān)研究具有明顯的探索性和探討性,研究的針對(duì)性和實(shí)用性較弱。目前國(guó)外在教育考試領(lǐng)域處于實(shí)用中的一些AES系統(tǒng)有Project Essay Grader(PEG)、Intelligent Essay Assessor(IEA)、E-rater等。但是,這些系統(tǒng)對(duì)于英語(yǔ)作為外語(yǔ)的考生的作文寫(xiě)作幫助和評(píng)分是否需要考慮不同的因素尚沒(méi)有透徹的研究[4]。
此外,盡管國(guó)外自動(dòng)作文評(píng)分研究取得了較好的評(píng)分效果,但這些研究主要是針對(duì)英語(yǔ)母語(yǔ)或者較高水平的英語(yǔ)作為外語(yǔ)的學(xué)習(xí)者的大規(guī)??荚噯我活}目作文評(píng)分,對(duì)于我國(guó)英語(yǔ)寫(xiě)作教學(xué)來(lái)說(shuō),更迫切需要的是一種能夠針對(duì)大多數(shù)學(xué)生英語(yǔ)寫(xiě)作水平,提供多題目實(shí)時(shí)訓(xùn)練的作文自動(dòng)評(píng)估和反饋系統(tǒng),這不僅能增加學(xué)生英語(yǔ)作文訓(xùn)練的機(jī)會(huì),同時(shí)也能減輕老師的批改負(fù)擔(dān)。而這也是本文研究的意義和目標(biāo)。
研究計(jì)算機(jī)自動(dòng)作文評(píng)分,首先要面對(duì)的就是評(píng)分標(biāo)準(zhǔn)的形式化問(wèn)題。當(dāng)前主要有兩種外語(yǔ)作文評(píng)分形式:分項(xiàng)評(píng)分和整體評(píng)分[5]。前者主要是利用機(jī)器學(xué)習(xí)的方法,從大樣本中提取某些有效評(píng)分特征及其權(quán)重用于未評(píng)分作文的評(píng)分,如國(guó)外E-rater的開(kāi)發(fā)人員提取文本特征建立回歸方程,進(jìn)行線性回歸,得到了與人工評(píng)分較高的相關(guān)度[6]。國(guó)內(nèi)的如梁茂成教授等[7]。而后者則是按照寫(xiě)作理論細(xì)化評(píng)分標(biāo)準(zhǔn),提取內(nèi)容和語(yǔ)言使用方面能夠形式化的評(píng)分特征,同時(shí)分配各特征在作文評(píng)分中的權(quán)重,如曾用強(qiáng)的過(guò)程化作文評(píng)估[8]以及葛詩(shī)利面向大學(xué)英語(yǔ)教學(xué)的通用計(jì)算機(jī)作文評(píng)分和反饋方法研究[9]。由于前者依賴于大樣本的機(jī)器學(xué)習(xí),因而不具有實(shí)時(shí)性和作文題目靈活多變的特點(diǎn)。因而本文采用后一種整體評(píng)分方法,從語(yǔ)法分析和主題內(nèi)容這兩個(gè)大的方面來(lái)研究和設(shè)計(jì)實(shí)時(shí)性的作文自動(dòng)評(píng)分系統(tǒng)。
1 語(yǔ)法分析
對(duì)外語(yǔ)寫(xiě)作者,即便是較高水平的外語(yǔ)寫(xiě)作者,如托??忌詣?dòng)作文評(píng)分與人工評(píng)分也會(huì)出現(xiàn)統(tǒng)計(jì)上的顯著性差異[10]。主要原因是傳統(tǒng)分析器的語(yǔ)言形式關(guān)注的往往是哪些符合語(yǔ)法,而不是哪些不合語(yǔ)法,因而在面對(duì)不合語(yǔ)法的輸入時(shí),傳統(tǒng)分析器顯得非常呆板。然而關(guān)鍵是不合語(yǔ)法規(guī)范的文章是很多的,特別是對(duì)于低水平的英語(yǔ)寫(xiě)作者,即作文中高頻率出現(xiàn)詞匯和句法方面錯(cuò)誤的漢英中介語(yǔ),傳統(tǒng)的語(yǔ)法分析器則會(huì)遇到更大的困難,并且其健壯性也面臨很大挑戰(zhàn)。用來(lái)解決健壯性問(wèn)題的方法之一是制定反映不合語(yǔ)法規(guī)范的稱之為“不良規(guī)則”的編碼規(guī)則[11]。
在本次研究中,所選擇的分析器是由D.Sleator和D.Temperley開(kāi)發(fā)的鏈語(yǔ)法分析器(Link Parser)[12]。鏈語(yǔ)法(Link Grammar)不是建立在樹(shù)結(jié)構(gòu)的基礎(chǔ)上,而是將語(yǔ)言知識(shí)完全落實(shí)到詞匯基礎(chǔ)上,通過(guò)詞語(yǔ)的鏈接(Link)屬性,來(lái)對(duì)句子進(jìn)行分析。在分析不合語(yǔ)法的輸入時(shí),鏈語(yǔ)法分析器能夠跨越句子中不合語(yǔ)法的單詞,找到后面的詞匯,并連接構(gòu)成有句法意義的詞對(duì),比如:主語(yǔ)+動(dòng)詞,動(dòng)詞+賓語(yǔ),介詞+賓語(yǔ),形容詞+狀語(yǔ)修飾語(yǔ),和助動(dòng)詞+動(dòng)詞等,因而鏈語(yǔ)法分析器具有很好的健壯性。
2 文章主題
主題打分主要從文章的單詞數(shù)量和文章切題程度兩方面來(lái)展開(kāi)。仿照人工評(píng)分時(shí)歸檔的思想,主題評(píng)分也按照分檔的思路進(jìn)行。針對(duì)文章詞數(shù)和文章內(nèi)容,主題評(píng)分的分檔分兩步完成:第一步通過(guò)文章的單詞數(shù)目來(lái)歸檔;第二步則是在第一步基礎(chǔ)上,通過(guò)文章核心詞熵值、非核心詞熵值、有效詞的比例這三個(gè)參數(shù)來(lái)對(duì)文章進(jìn)行降檔。
2.1 單詞數(shù)目歸檔
2.2 根據(jù)文章內(nèi)容降檔
文章內(nèi)容是否切題也是作文評(píng)分的重要方面。而作文主題作為作文自動(dòng)評(píng)分的重要依據(jù)之一,也引起了學(xué)者專家們的廣泛關(guān)注和研究。文秋芳(2007)的研究[13]更是表明“作文內(nèi)容能夠解釋作文總體質(zhì)量56%的差異”。雖然她的研究對(duì)象是中國(guó)英語(yǔ)專業(yè)學(xué)生,但也明確說(shuō)明了作文中主題的重要性。
經(jīng)過(guò)2.1節(jié)的單詞分檔完成后,進(jìn)一步需要通過(guò)能反映文章內(nèi)容的特征量給文章降檔。這里借鑒了信息論里的信息熵的概念來(lái)考量文章是否切題。Shannon指出,任何信息都存在冗余,冗余大小與信息中每個(gè)符號(hào)(數(shù)字、字母或單詞)的出現(xiàn)概率或者說(shuō)不確定性有關(guān)[14]。在信息世界,熵越高,則能體現(xiàn)越多的信息,熵越低,則意味著包含的信息越少。因而,信息熵能很好反映文本中所包含信息量的大小。人工閱卷時(shí),閱卷老師往往依據(jù)核心詞的數(shù)量以及分布來(lái)評(píng)判一片作文是否切題,即文本中是否包含了反映主題的足夠信息。因而,使用信息熵來(lái)模擬人工閱卷時(shí)對(duì)主題的評(píng)判是一種可行的嘗試。
依據(jù)人工評(píng)分模式以及大量測(cè)試分析,選擇了核心詞熵值、非核心熵值以及有效句子比例這三個(gè)因素來(lái)作為文章降檔的特征量。其中核心詞熵值主要體現(xiàn)了文章主要內(nèi)容是否圍繞題意展開(kāi),非核心詞熵值則反映了文章詞匯和內(nèi)容的豐富性,有效句比例則是考慮到核心詞分布區(qū)間的問(wèn)題。其中,非核心詞匯的熵值記為S1,核心詞匯的熵值記為S2,有效句子比例記為S3,這三個(gè)值各有一個(gè)閾值,如果S1小于對(duì)應(yīng)的閾值,記S1=0,否則S1=1。S2,S3以同樣方法取值,單詞數(shù)目記為W,文章所屬檔位記為D。經(jīng)過(guò)詞數(shù)分檔后,再經(jīng)過(guò)S1,S2,S3降檔。
4 測(cè)試結(jié)果與分析
針對(duì)本文設(shè)計(jì)的英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng),該文做了相應(yīng)的測(cè)試。測(cè)試樣本來(lái)源于學(xué)生英語(yǔ)聯(lián)考樣本,作文滿分為25分,從中隨機(jī)抽選了999份樣本進(jìn)行本次測(cè)試。樣本分布如表格3所示。
測(cè)試結(jié)果如表格4所示,其中準(zhǔn)確性測(cè)試計(jì)入相鄰分?jǐn)?shù),即上下相差4分的作文也計(jì)入準(zhǔn)確評(píng)分。
根據(jù)表4可以看出,不同分?jǐn)?shù)段的作文準(zhǔn)確率存在較大的差異,其中,10~15分段的作文準(zhǔn)確率最高,達(dá)到了88.9%,而20~25分段作文準(zhǔn)確率最低(35.6%),表明目前的評(píng)分算法并不能適應(yīng)各個(gè)分?jǐn)?shù)段的作文樣本。由于20~25分段作文屬于優(yōu)秀作文,此時(shí)除了語(yǔ)法和主題這兩個(gè)基本因素需要考量外,詞匯的考量,特別是高級(jí)詞匯的使用則也成為重要的評(píng)分依據(jù)。因而對(duì)于詞匯的分類和考量是需要進(jìn)一步完善的。
此外,從整體來(lái)看,作文評(píng)分的準(zhǔn)確率還不是很高,只有71.3%。一方面,Link Parser在分析句子時(shí)會(huì)引起一些誤判,從而導(dǎo)致語(yǔ)法權(quán)值受到了影響;另一方面,作文評(píng)分算法只考慮語(yǔ)法和文章主題兩個(gè)顯然是不夠的,還需要在詞匯使用、文章連貫性等方面進(jìn)行更多的研究和考量。
盡管上述算法整體準(zhǔn)確率不高,但是本次試驗(yàn)還是得到了比較有意義的結(jié)果。對(duì)于10~15分段作文達(dá)到了88.9%的準(zhǔn)確率,表示本次的研究方法對(duì)于該分?jǐn)?shù)段作文具有較好的適應(yīng)性;此外從平均每篇作文樣本的運(yùn)行時(shí)間來(lái)看,分析一篇作文需要2.3秒左右,這滿足現(xiàn)實(shí)情況下的實(shí)時(shí)評(píng)分的需求。
5 結(jié)束語(yǔ)
本文采用整體評(píng)分的形式,對(duì)我國(guó)學(xué)生英語(yǔ)作文自動(dòng)評(píng)分進(jìn)行了探索和研究,并得到了一些具有意義的結(jié)果,首先,對(duì)于10~15分段作文達(dá)到了88.9%的準(zhǔn)確率,表示研究方法對(duì)于該分?jǐn)?shù)段作文具有較好的適應(yīng)性;此外從平均每篇作文樣本的運(yùn)行時(shí)間來(lái)看,分析一篇作文需要2.3秒左右,這滿足現(xiàn)實(shí)情況下的實(shí)時(shí)評(píng)分的需求。當(dāng)然也發(fā)現(xiàn)了需要進(jìn)一步研究和解決的問(wèn)題。首先,針對(duì)Link Parser的誤判,需要通過(guò)有效的方式去減少這種誤判,可以通過(guò)修改Link Parser內(nèi)部的規(guī)則來(lái)適應(yīng)我國(guó)英語(yǔ)學(xué)習(xí)者的寫(xiě)作習(xí)慣,也可以通過(guò)對(duì)Link Parser結(jié)果的過(guò)濾來(lái)提高其評(píng)判的準(zhǔn)確性;其次,在語(yǔ)法和主題方面還需進(jìn)一步研究和發(fā)掘能反映中國(guó)學(xué)生英語(yǔ)寫(xiě)作水平的特征,如詞匯的分類、句子連貫性等,使整個(gè)評(píng)分系統(tǒng)更加的全面和豐富。
參考文獻(xiàn):
[1] Cheville J.Automated Scoring Technologies and the Rising Influence of Error[J].English Journal,2004,93(4):47-52.
[2][7] 梁茂成,文秋芳.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語(yǔ)電化教學(xué),2007(5):18-24.
[3]葛詩(shī)利,陳瀟瀟.中國(guó)EFL學(xué)習(xí)者自動(dòng)作文評(píng)分探索[J].外語(yǔ)界,2007(5):43-57.
[4] 韓寧.幾個(gè)英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng)的原理與評(píng)述[J].教育部考試中心,2009(3):38-44.
[5] 李志雪.如何更加客觀合理地給學(xué)生作文評(píng)分[J].Sino-US English Teaching, 2004, 1(11):61 -63.
[6] Valenti S,Neri F,Cucchiarelli A.An Overview of Current Researchon Automated Essay Grading[J].Journal of information Technology Edueation,2003(2):319-330.
[8]曾用強(qiáng).過(guò)程化的寫(xiě)作評(píng)估模式[J].福建外語(yǔ),2002(3):26-31.
[9] 葛詩(shī)利. 面向大學(xué)英語(yǔ)教學(xué)的通用計(jì)算機(jī)作文評(píng)分和反饋方法研究[D].北京:北京語(yǔ)言大學(xué),2008.
[10] 刁琳琳.英語(yǔ)本科生詞塊能力調(diào)查[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2004(4):35-38.
[11] Kathleen F McCoy, Christopher A Pennington,Linda Z.Suri.English error correction: A syntactic user model based on principled “mal-rule” scoring[C]//Proceedings of the Fifth International Conference on User Modeling,User Modeling, Inc,1996:59-66.
[12] Link Grammar [EB/OL].[2012-04-20].http://www.link.cs.cmu.edu/link/.
[13] 文秋芳.“作文內(nèi)容”的構(gòu)念效度研究[J].外語(yǔ)研究,2007(3):66-71.
[14] Shannon C E.A mathematical theory of communication[J].Bell System Technical Journal,1948(27):379-423,623-656.