肖靈云 侯開虎 戴洪濤
摘 ?要: 自動(dòng)評分方法是教育中實(shí)現(xiàn)計(jì)算機(jī)評分的一項(xiàng)研究,經(jīng)過歸結(jié)、分析國內(nèi)外自動(dòng)評分方法及最新的科研成果,完善對自動(dòng)評分方法的研究,便于快速學(xué)習(xí)和把握自動(dòng)評分方法,了解該領(lǐng)域的發(fā)展現(xiàn)狀及趨勢。經(jīng)過對過去該領(lǐng)域經(jīng)典文獻(xiàn)整理,分析不同自動(dòng)評分方法的運(yùn)用思想、優(yōu)劣勢,總結(jié)每種計(jì)算方法的側(cè)重點(diǎn)及最新的應(yīng)用進(jìn)展。本文從國內(nèi)外自動(dòng)評分方法兩方面進(jìn)行闡述,形成較為清晰的思路。指出基于自然語言處理的自動(dòng)評分方法為主流方法,基于深度學(xué)習(xí)的自動(dòng)評分方法(CNN、RNN、LSTM)將成為該領(lǐng)域的發(fā)展趨勢,有助于全面把握和深刻了解自動(dòng)評分方法的現(xiàn)狀和未來發(fā)展趨勢。
關(guān)鍵詞: 自動(dòng)評分方法;自然語言處理;深度學(xué)習(xí);CNN;RNN;LSTM
中圖分類號: TP391.41 ? ?文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.035
本文著錄格式:肖靈云,侯開虎,戴洪濤,等. 自動(dòng)評分方法研究現(xiàn)狀及趨勢[J]. 軟件,2019,40(6):153156
【Abstract】: The automatic scoring method is a study of computer scoring in education. It is based on the analysis of domestic and international automatic scoring methods and the latest scientific research results, perfecting the research on automatic scoring methods, facilitating rapid learning and grasping the automatic scoring method. To understand the development status and trends in this field. After reviewing the classic literatures in the past, analyze the application ideas, advantages and disadvantages of different automatic scoring methods, and summarize the focus of each calculation method and the latest application progress. This paper elaborates on two aspects of automatic scoring methods at home and abroad, and forms a clearer idea. It is pointed out that the automatic scoring method based on natural language processing is the mainstream method. The automatic scoring method based on deep learning (CNN, RNN, LSTM) will become the development trend in this field, which will help to fully grasp and deeply understand the current status and future of the automatic scoring method and development trend.
【Key words】: Automatic scoring method; Natural language processing; Deep learning; CNN; RNN; LSTM
0 ?引言
自動(dòng)評分技術(shù)就是借助于計(jì)算機(jī)和有關(guān)科學(xué)技術(shù)通過網(wǎng)絡(luò)平臺來輔助人工評分的一項(xiàng)技術(shù)。最近這些年,很多學(xué)者對各種評分方法的較為重視,特別是對主觀題的評分,利用自動(dòng)評分方法可以幫助閱卷者快速、準(zhǔn)確、公平公正的評分,以達(dá)到減少人力、物力、財(cái)力的目的。因此,全面把握和了解自動(dòng)評分的方法研究發(fā)展現(xiàn)狀及趨勢具有非常大的現(xiàn)實(shí)意義。目前,國內(nèi)外已經(jīng)實(shí)現(xiàn)了對英語作文的自動(dòng)評分,漢語考試中的單選題、多選題的批改技術(shù)也相當(dāng)成熟。而主觀題自動(dòng)評分方法由于涉及到人工智能、模式識別和自然語言理解等多方面的理論知識,因此,對比較多的主觀試題如名稱解釋題、簡答題、論述題等諸多問題的自動(dòng)評分方法還沒有取得令人非常滿意的理想結(jié)果。有些在技術(shù)上的問題仍然沒有得到很好的解決,所以,實(shí)現(xiàn)主觀試題自動(dòng)評分已經(jīng)成為在線考試系統(tǒng)中的一個(gè)技術(shù)重點(diǎn)和難點(diǎn)[1]。
主觀題可以分為長文本主觀題和短文本主觀題,長文本主觀題包括文檔、篇章,短文本主觀題包括簡答、論述。到目前為止,大多數(shù)自動(dòng)評分的方法主要是針對答案比較短的短文本的主觀題進(jìn)行評分。由于漢語具有獨(dú)特的特點(diǎn),其表達(dá)方式不僅多樣化,而且還具有復(fù)雜性,所以主觀題自動(dòng)評分方法涉及到文本語義理解的問題。國內(nèi)對于主觀題自動(dòng)評分的研究仍存在很多不明白的技術(shù)問題,主觀試題自動(dòng)評分方法仍不能很好的應(yīng)用于實(shí)踐當(dāng)中[1]。主觀題自動(dòng)評分不但可以排除閱卷人的主觀因素的作用,使得評分結(jié)果有據(jù)所依,客觀并有說服力。而且可以大大減輕閱卷者的負(fù)擔(dān),對主觀題自動(dòng)評分方法的研究具有很大的實(shí)用意義[1]。
1 ?國內(nèi)外自動(dòng)評分方法及其優(yōu)缺點(diǎn)
1.1 ?國外自動(dòng)評分方法
國外專注于研究主觀題自動(dòng)評分方法的時(shí)間相對國內(nèi)比較早,并取得了一系列的科技研究成果,其中針對短文本主觀題的自動(dòng)評分系統(tǒng)主要有 Auto Mark、ATM 等,針對長文本主觀題的主要有 PEG、IEA、E-rater等。PEG(Project Essay Grad) 系統(tǒng)主要運(yùn)用統(tǒng)計(jì)學(xué)原理知識把文章的淺層語言形式特征的相似度作為主要評分依據(jù),是一個(gè)規(guī)模比較大的作文評分系統(tǒng),被看作是自動(dòng)評分領(lǐng)域的開拓者[2]。由于沒有考慮文章的構(gòu)造內(nèi)容和語義信息,不能很好的理解文本內(nèi)容,因而該系統(tǒng)的效果不太好。
IEA(Intelligent ?Essay ?Assessor)是由Hearst[2]等人開發(fā)出的基于隱含語義分析技術(shù)(Latent Semantic Analysis, LSA)的作文評分系統(tǒng)。IEA既考慮了語義信息和文本內(nèi)容,又關(guān)注文本內(nèi)容的質(zhì)量,挖掘內(nèi)容的語義信息。LSA 沒考慮詞序,只能片面地反應(yīng)句子語義。IEA評分系統(tǒng)對社會科學(xué)、歷史學(xué)等說明性文章可以進(jìn)行評分,但對事實(shí)性文章不太適合,能夠計(jì)算大規(guī)模、詞量豐富的文本的相似度,但對短文本、詞量較少的文本其向量空間會存在很多孤立點(diǎn)。
E-Rater(Electronic Essay Rater)是為了評估GMAT 考試中的英文寫作能力而研發(fā)的計(jì)算機(jī)程序[3]。E-rater綜合應(yīng)用了NLP、矢量空間模型技術(shù)和統(tǒng)計(jì)學(xué)技術(shù),綜合考慮了文本的語言質(zhì)量、篇章結(jié)構(gòu)、內(nèi)容質(zhì)量,并進(jìn)行分析評估。該系統(tǒng)評分準(zhǔn)確性比較高,但它采用的整體評分的策略,不僅不能單純判斷正誤,而且不能對那些需要判別內(nèi)容正誤并給出分?jǐn)?shù)的自動(dòng)評分類問題進(jìn)行評分,并沒有較深入的判斷文章的中心思想,只能評價(jià)考生的寫作水平而不能判斷考生答案與題目是否很好的吻合。
Auto Mark 系統(tǒng)[2]通過事先為每個(gè)題目分別制定多個(gè)正確答案或錯(cuò)誤答案的評分模板,將考生答案逐一與模板匹配,判斷正確程度并給出分?jǐn)?shù),符合人的思維方式,意思表達(dá)到位即可,真正完成了基于語義、內(nèi)容的任何文本答案的自動(dòng)評分,為主觀題自動(dòng)評分技術(shù)的發(fā)展研究開拓了新思路。
ATM(Automated Text Marker)是一款針對有明確正誤之分、答案文本較為簡短的題目進(jìn)行計(jì)算機(jī)輔助評分的一種評分系統(tǒng)[2]。其針對開放式問題的任意文本答案的自動(dòng)匹配功能,主要利用NLP技術(shù),經(jīng)過語法預(yù)處理、句子的主要成分及相互關(guān)系進(jìn)行解析、匹配結(jié)果與標(biāo)準(zhǔn)答案幾個(gè)步驟計(jì)算出分?jǐn)?shù)。ATM取得了較大的突破,但該系統(tǒng)使用了語法和語義分析技術(shù),增加了實(shí)現(xiàn)該系統(tǒng)的難度。
1.2 ?國內(nèi)自動(dòng)評分方法
我國吸取和完善上述一些先進(jìn)的技術(shù)逐漸開始注重對自動(dòng)評分方法的研究,并應(yīng)用到實(shí)際生活中。目前國內(nèi)基于主觀題自動(dòng)評分的方法主要有:產(chǎn)生式規(guī)則;運(yùn)用動(dòng)態(tài)規(guī)劃方法改進(jìn)語句相似度的計(jì)算;模糊數(shù)學(xué)中單向貼近度;有限領(lǐng)域中文本自動(dòng)判讀技術(shù);字符串匹配的方法;文本相似度;空間模型技術(shù);統(tǒng)計(jì)學(xué)技術(shù);自然語言處理技術(shù)等。國內(nèi)學(xué)者將上述方法、或者其改進(jìn)方法、或上述方法相結(jié)合應(yīng)用于自動(dòng)評分系統(tǒng)中,并取得了一定的成績,但仍有諸多不足之處需要改進(jìn)。
將產(chǎn)生式規(guī)則思想應(yīng)用在考試評分方法中,可以實(shí)現(xiàn)一定程度上對非客觀試題的智能化評分閱卷,如計(jì)算機(jī)上機(jī)操作考試、語文和英語類等。通過定義產(chǎn)生式規(guī)則的分解和運(yùn)算,使得產(chǎn)生式規(guī)則的簡化和在關(guān)系數(shù)據(jù)庫中的存儲問題得到了很好的解決[4]。
諸多學(xué)者將模糊數(shù)學(xué)中貼近度理論或者將貼近度理論與句法分析相互結(jié)合,然后將其應(yīng)用于主觀題自動(dòng)評分系統(tǒng)中。通過研究分析閱卷者對主觀題評分流程的思維方式,依據(jù)得分點(diǎn)和貼近標(biāo)準(zhǔn)答案的程度來評分,能在一定程度上完成對主觀題的評分,使教師的工作量得到減少。但是此類計(jì)算方法比較簡單,沒有考慮語義、語序等問題對評分系統(tǒng)的作用,其評分精度不高。
李輝陽等人[5]經(jīng)過對有限領(lǐng)域中文本自動(dòng)判讀技術(shù)的研究,提出的可應(yīng)用于計(jì)算機(jī)輔助教學(xué)的基于關(guān)系的帶權(quán)匹配技術(shù)并獲得了成功,其實(shí)現(xiàn)的方法能夠?qū)唵握撌稣`進(jìn)行較好的判別,該方法在某種程度上模擬了老師閱卷過程,實(shí)現(xiàn)了計(jì)算機(jī)自動(dòng)批改列舉題、簡述題、簡答題等諸多主觀題,對主觀題自動(dòng)評分有一定的實(shí)際指導(dǎo)意義。張量等[6]用字符串匹配的方法開發(fā)了一種自動(dòng)批改技術(shù),主要是針對計(jì)算機(jī)基礎(chǔ)上機(jī)操作考試中的文字錄入題,該方法主要判斷學(xué)生所錄入的字?jǐn)?shù)、錯(cuò)錄、漏錄情況。
有些學(xué)者將作文評分過程看作是文本分類過程,通過決策樹分類器將文本分類。或者按照作文詞匯等的相似度通過文本聚類進(jìn)行分類,實(shí)現(xiàn)了英語作文自動(dòng)評分方法中文本聚類的應(yīng)用文。雖然采用梯度提升決策樹分類器的分類效果,但其方法特征不能充分反映作文特征,可擴(kuò)展性也不好。通過文本聚類將差異性較大的可能跑題的作文交由老師評閱,減少了教師工作量,并使作文批改的準(zhǔn)確性程度和老師的工作效率都得到了一定的提高。而基于向量空間模型的問答題智能化評分方法,其依據(jù)VSM將學(xué)生的答案及標(biāo)準(zhǔn)答案表示成特征向量的形式,然后計(jì)算其相似度,從而確定學(xué)生的得分。
主觀題自動(dòng)評分方法的好與壞,無非是體現(xiàn)在標(biāo)準(zhǔn)答案和考生試題答案之間的相似度程度上。在全面考慮了語義,語序,文本整體表達(dá)涵義之后,相似度高,則得分高,相似度低,則得分低。為此,諸多學(xué)者在如何提高文本相似度有關(guān)方面進(jìn)行了大量的科學(xué)分析研究。學(xué)者們充分將知識庫或詞典或兩者相結(jié)合引入到評分過程中,以便提高相似度計(jì)算的準(zhǔn)確性。然后再對計(jì)算得分的計(jì)算模型加以改進(jìn),計(jì)算出最后得分。經(jīng)過一系列的操作之后,評分結(jié)果與人工的評分結(jié)果更加接近。然而這種方法仍有缺陷,首先,詞庫覆蓋范圍不夠足夠大,再者,提取特征時(shí)有不足之處,還需要進(jìn)一步改進(jìn)。
隨著自然語言處理技術(shù)的日益成熟,對于自然語言處理技術(shù)將如何應(yīng)用于主觀題自動(dòng)評分中,諸多學(xué)者進(jìn)行了大量嘗試,并取得一些進(jìn)展。比如基于自然語言處理的智能評分方法,經(jīng)過改進(jìn)已有的文本相似度計(jì)算方法,提出了一種新的排序和劃分區(qū)間的評分方法。查看實(shí)驗(yàn)結(jié)果,表明該智能評分方法有效且可行。通過一些算法生成自然語言概念圖或概念網(wǎng),然后對目標(biāo)文本進(jìn)行預(yù)處理,再計(jì)算文本相似度,從而計(jì)算得分。在應(yīng)用自然語言處理技術(shù),可以與《知網(wǎng)》知識庫或《同義詞詞林》詞典相結(jié)合,以便更好的理解文本語義,從而提高評分準(zhǔn)確率。
2 ?自動(dòng)評分方法展望
由于漢語表達(dá)方式的多樣化和復(fù)雜性,國內(nèi)對于主觀題自動(dòng)評分的研究仍存在很多問題,到目前為止,并沒有很好的應(yīng)用于實(shí)踐的主觀題自動(dòng)評分方法[2]。主觀題的評分判斷涉及到自然語言的翻譯、理解及語義的匹配等,主觀題自動(dòng)評分方法涉及到的技術(shù)主要有文本的預(yù)處理、相似度計(jì)算、計(jì)算分?jǐn)?shù)等諸多個(gè)方面。主觀題自動(dòng)評分不單單是自然語言理解技術(shù)的一個(gè)很有意義的應(yīng)用,而且還依賴于NLP技術(shù)的研究發(fā)展[7]。
由于大數(shù)據(jù)以及計(jì)算力的提升,深度學(xué)習(xí)有了極大的突破,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法被引用到NLP算法中。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,可以自動(dòng)地學(xué)習(xí)合適的特征和多層次的表達(dá)與輸出。在NLP技術(shù)領(lǐng)域,主要在信息抽取、詞性標(biāo)注、命名實(shí)體識別、文本分析等研究方向都有成功的應(yīng)用。和傳統(tǒng)方式相比,深度學(xué)習(xí)的重要特性是,用詞向量來表示各種級別的元素。傳統(tǒng)的算法一般會用統(tǒng)計(jì)等方法去標(biāo)注,而深度學(xué)習(xí)會直接通過詞向量表示,然后通過深度網(wǎng)絡(luò)進(jìn)行自動(dòng)學(xué)習(xí)。目前,深度學(xué)習(xí)在自然語言處理中是比較流行的,其中算法包括:多層感知機(jī)、CNN、RNN、Seq2Seq等。
卷積神經(jīng)網(wǎng)絡(luò)[8](Convolu-tional Neural Network,CNN),是一種由輸入層、卷積層、池化層、全連接層、輸出層組成的前饋神經(jīng)網(wǎng)絡(luò),其具有良好的自學(xué)習(xí)能力和泛化能力,在短文本的表示和句子分類上也取得了一系列進(jìn)展。而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)不同,是一種能夠?qū)r(shí)序數(shù)據(jù)進(jìn)行精準(zhǔn)建模的網(wǎng)絡(luò)。而文本的獨(dú)特在于是典型的序列數(shù)據(jù),每個(gè)文字的出現(xiàn)都是依賴于前面的單詞和后面的單詞,所以循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本較為廣泛,近年來,RNN及其變種長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory ,LSTM)在NLP領(lǐng)域得到了廣泛應(yīng)用,例如在語言模型、句法分析、語意角色標(biāo)注等領(lǐng)域均有優(yōu)異的表現(xiàn)。LSTM是RNN的升級版本,從抽象的角度來看,LSTM保存了文本中的長期依賴信息。并通過對循環(huán)層的刻意設(shè)計(jì)來避免長期依賴的問題和梯度消失的問題。
3 ?結(jié)論
自動(dòng)評分方法,特別是主觀題自動(dòng)評分方法一直是完全實(shí)施考試信息化、教學(xué)信息化的瓶頸問題,研究的很多,但進(jìn)展較為緩慢,特別是應(yīng)用于實(shí)際的成果比較少,其主要原因是一些關(guān)鍵技術(shù)、核心技術(shù)還處在研究、發(fā)展階段[5],如:對自然語言的深入理解、模式的識別、人工智能技術(shù)的發(fā)展等。主觀題自動(dòng)評分方法主要是利用基于大數(shù)據(jù)分析的NLP技術(shù),按照評閱流程,可以分為分句、分詞、語言的預(yù)處理、分類計(jì)算、相似度比較計(jì)算等幾個(gè)環(huán)節(jié)。在前沿技術(shù)上,通過大數(shù)據(jù)分析技術(shù)的不斷發(fā)展和推動(dòng),進(jìn)一步完善主觀題自動(dòng)評分在教學(xué)信息化中的實(shí)際應(yīng)用將具有廣闊的前景和市場需求。近年來隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),自動(dòng)評分的準(zhǔn)確程度得到了顯著的提高。本文總結(jié)了以往研究中的經(jīng)典方法,并且對當(dāng)前主流的研究方法進(jìn)行總結(jié)分析。通過對自動(dòng)評分中大量的方法進(jìn)行梳理和歸納分析,主要將其分為國外經(jīng)典自動(dòng)評分方法、國內(nèi)自動(dòng)評分方法兩方面來介紹。其中,國內(nèi)的自動(dòng)評分方法主要包括產(chǎn)生式規(guī)則;基于動(dòng)態(tài)規(guī)劃方法對語句相似度進(jìn)行改進(jìn);模糊數(shù)學(xué)中單向貼近度;有限領(lǐng)域中文本自動(dòng)判讀技術(shù);字符串匹配、文本相似度;空間模型技術(shù);統(tǒng)計(jì)學(xué)技術(shù);自然語言處理技術(shù)等。其中基于自然語言處理技術(shù)的自動(dòng)評分方法主要包括:中文分詞、去停用詞、詞義消岐、詞性標(biāo)注與命名實(shí)體識別技術(shù)、句法分析、關(guān)鍵詞提取、文本向量化等。國內(nèi)外自動(dòng)評分方法具體如圖1所示。
目前應(yīng)用較多的是基于自然語言處理的自動(dòng)評分方法其中比較流行的深度學(xué)習(xí)算法有:多層感知機(jī)、CNN、RNN、Seq2Seq等。而基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的主觀題評分方法將成為未來的發(fā)展趨勢,具有較好的應(yīng)用前景。自動(dòng)評分方法與基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法相結(jié)合,通過深度網(wǎng)絡(luò)進(jìn)行自主學(xué)習(xí),提取文本特征,這將會帶領(lǐng)主觀題自動(dòng)評分方法邁向一個(gè)新的臺階。
本文對國內(nèi)外學(xué)者取得的進(jìn)展和最新成果進(jìn)行了總結(jié)歸納,形成了較為全面的分類體系,希望有助于全面把握和深入了解自動(dòng)評分方法的研究現(xiàn)狀和未來發(fā)展趨勢。
參考文獻(xiàn)
[1] 高思丹, 袁春風(fēng). 主觀試題的計(jì)算機(jī)自動(dòng)批改技術(shù)研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2004, 21(2): 181-185.
[2] RudnerL,GagneP.An Overview of Three Approaches to Scoring Written Essays by Computer[J]. Practical Assessment, 2001, 151(3): 501.
[3] Attali Y, Burstein J. AUTOMATED ESSAY SCORING WITH E-RATER?; V.2.0[J]. Journal of Technology Learning & Assessment, 2006, 4(2): i-21.
[4] 劉增鎖, 吳敬. 產(chǎn)生式規(guī)則在考試評分系統(tǒng)中的應(yīng)用研究 [J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2006, 16(7): 162-164.
[5] 李輝陽, 韓忠愿. 有限領(lǐng)域簡述文字的自動(dòng)判讀及其在CAI中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2002, 38(8): 76-78.
[6] 張量, 詹國華. 開放式、智能化計(jì)算機(jī)考核閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2001, 37(10): 108-110.
[7] 麥范金, 岳曉光, 趙子強(qiáng), 等. 基于自然語言處理的智能評分系統(tǒng)[J]. 桂林理工大學(xué)學(xué)報(bào), 2010, 30(3): 426-430.
[8] 劉亞軍, 徐易. 一種基于加權(quán)語義相似度模型的自動(dòng)問答系統(tǒng)[J]. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2004, 34(5): 609-612.
[9] LiB,YaoJM.Automated Essay Scoring Using Multi-classifier Fusion[C]//International Conference on Information & Management Engineering.2011.
[10] Kim Y. Convolutional neural networks for sentence classification[J]. ar Xiv preprint ar Xiv:1408.5882, 2014.
[11] Wang R, Wang X, Chi Z, et al. Chinese Sentence Similarity Measure Based on Words and Structure Information[J]. International Conference on Advanced Language Processing & Web Information Technology, 2008:27-31.
[12] Bin L, Ting L, Bing Q, et al. Chinese Sentence Similarity Computing Based on Semantic Dependency Relationship Analysis[J]. Application Research of Computers, 2003.
[13] Page, E. B. Computer grading of student prose [J], using modern concepts and software. Journal of Experimental Education, 62, 127–142.
[14] Thomas k. Launder, Darrell Latham, Peter Foltz, Automatic essay assessment [J], Assessment in Education, 2003, 2003(10), 295-308.
[15] Valenti S, Neri F and Cucchiarelli A. An Overview of Current Research on Automated Essay Grading[J]. Journal of Information Technology Education, 2003, 2: 319-330.
[16] Han, Na-Rae, Martin Chodorow, and Claudia Leacock. Detecting errors in English article usage by non-native speakers[J]. Natural Language Engineering, 2006. 12(1): 115-129.
[17] ]Rudner L M, Liang T. Automated essay scoring using Bayes' theorem[J]. The Journal of Technology, Learning and Assessment, 2002, 1(2).
[18] 張春英, 李春虎, 付其峰. 基于WV-CNN的中文文本語義相似度計(jì)算方法[J]. 華北理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 41(01): 123-132.