譚紅葉,午澤鵬,盧 宇,段慶龍,李 茹,張 虎
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 北京師范大學(xué) 未來(lái)教育高精尖創(chuàng)新中心,北京 100875;3. 北京師范大學(xué) 教育技術(shù)學(xué)院,北京 100875)
人工智能技術(shù)在教育領(lǐng)域的應(yīng)用得到國(guó)家和政府的高度重視。2017年國(guó)務(wù)院推出的《新一代人工智能發(fā)展規(guī)劃》明確指出: 利用智能技術(shù)加快推動(dòng)人才培養(yǎng)模式、教學(xué)方法改革,構(gòu)建包含智能學(xué)習(xí)、交互式學(xué)習(xí)的新型教育體系。2018年教育部印發(fā)《教育信息化2.0行動(dòng)計(jì)劃》,將“智慧教育創(chuàng)新發(fā)展行動(dòng)” 列為推動(dòng)教育信息化2.0發(fā)展的“八大行動(dòng)”之一。這充分說(shuō)明: 教育將全面進(jìn)入智慧教育時(shí)代。智慧教育主要包括教育大數(shù)據(jù)挖掘、教育知識(shí)圖譜構(gòu)建、教學(xué)過(guò)程智慧化、智慧教育平臺(tái)建設(shè)等技術(shù)[1]。自動(dòng)評(píng)分是智慧化教學(xué)過(guò)程中評(píng)價(jià)教學(xué)質(zhì)量的一個(gè)重要環(huán)節(jié)。該任務(wù)通過(guò)一定模型與算法對(duì)學(xué)生答案預(yù)測(cè)分值,不僅能減輕教師工作量,還能避免因主觀(guān)性引起的評(píng)分不一致問(wèn)題,是智慧教學(xué)中的一個(gè)研究熱點(diǎn)。
自動(dòng)評(píng)分主要包括作文自動(dòng)評(píng)分(automatic essay grading,AEG)與短答案自動(dòng)評(píng)分(automatic short answer grading,ASAG)[2]。其中,AEG側(cè)重質(zhì)量評(píng)價(jià),一般需要從立意、結(jié)構(gòu)、文采等方面對(duì)作文形成整體評(píng)分;而短答案問(wèn)題主要考察學(xué)生對(duì)特定知識(shí)(如: 科學(xué)概念或原理)的理解,因此ASAG更注重評(píng)價(jià)學(xué)生答案的正確程度。本文主要研究ASAG技術(shù)。
ASAG一般通過(guò)一定模型對(duì)學(xué)生答案與參考答案進(jìn)行對(duì)比,根據(jù)匹配程度預(yù)測(cè)其分值。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,該任務(wù)已取得一定進(jìn)展,但準(zhǔn)確率仍需進(jìn)一步提高。目前導(dǎo)致ASAG不準(zhǔn)確的原因主要有兩方面: ①學(xué)生答案多種多樣,預(yù)先給定的參考答案難以覆蓋所有可能答題情況。此外,還存在許多開(kāi)放程度高、不具有單一明確參考答案的問(wèn)題。例如,對(duì)于表1示例1的問(wèn)題,學(xué)生可以從故事情節(jié)、人物性格、寫(xiě)作特點(diǎn)、語(yǔ)言風(fēng)格等角度來(lái)回答。然而現(xiàn)實(shí)中對(duì)這類(lèi)問(wèn)題要么不提供參考答案,要么提供非常有限的參考答案,因此引起學(xué)生答題情況覆蓋度不高、自動(dòng)評(píng)分不準(zhǔn)確問(wèn)題; ②模型不能準(zhǔn)確刻畫(huà)學(xué)生答案與參考答案匹配情況。如表1示例2中,模型需要對(duì)二者進(jìn)行語(yǔ)義匹配,才能得到學(xué)生答案中“身高差不多的人數(shù)最多”與參考答案中“人數(shù)最為集中,且大家的身高相對(duì)接近”語(yǔ)義一致的判斷。
表1 短答案題目示例
本文采用基于聚類(lèi)與最大相似度方法選擇代表性學(xué)生答案重新構(gòu)建更完備的參考答案,盡可能覆蓋學(xué)生不同答題情況。在此基礎(chǔ)上,本文提出基于注意力機(jī)制(attention)的深度神經(jīng)網(wǎng)絡(luò)自動(dòng)評(píng)分模型,提升系統(tǒng)對(duì)學(xué)生答案與參考答案匹配的準(zhǔn)確刻畫(huà)。相關(guān)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果表明: 本文模型有效提升了自動(dòng)評(píng)分準(zhǔn)確率。
Page[3]于1966年開(kāi)始針對(duì)自然語(yǔ)言形式的答案進(jìn)行自動(dòng)評(píng)分研究。自此,研究者圍繞作文或短答案自動(dòng)評(píng)分進(jìn)行研究并取得了一定進(jìn)展。其中,ASAG的方法主要有三類(lèi): ①基于規(guī)則方法[4-6]。例如,Bachman等[4]根據(jù)參考答案生成正則表達(dá)式規(guī)則,每條規(guī)則與一個(gè)分?jǐn)?shù)相關(guān)聯(lián),當(dāng)學(xué)生答案與規(guī)則相匹配就獲得對(duì)應(yīng)分?jǐn)?shù)。由于規(guī)則獲取精度與表達(dá)能力有限,因此該方法泛化能力較差。②基于傳統(tǒng)機(jī)器學(xué)習(xí)方法,利用一定特征基于分類(lèi)或回歸模型預(yù)測(cè)分?jǐn)?shù)[7-9]。例如,Sultan等[7]使用基于對(duì)齊或嵌入式的文本相似度、詞項(xiàng)權(quán)重等特征構(gòu)建了隨機(jī)森林分類(lèi)器,在SemEval-2013評(píng)測(cè)數(shù)據(jù)集SCIENTSBANK上獲得55%的F測(cè)度值。③基于深度學(xué)習(xí)方法,無(wú)需人工設(shè)計(jì)特征,通過(guò)對(duì)數(shù)據(jù)進(jìn)行表示學(xué)習(xí),實(shí)現(xiàn)端到端的訓(xùn)練與輸出[10-11]。例如,Riordan等[11]使用CNN與LSTM構(gòu)成的神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)評(píng)分,獲得的效果比非神經(jīng)網(wǎng)絡(luò)方法好。
參考答案是自動(dòng)評(píng)分的重要依據(jù),對(duì)ASAG系統(tǒng)性能有重要影響,但目前對(duì)參考答案構(gòu)建的深入研究還較少。Marvaniya等[12]通過(guò)對(duì)人工評(píng)分的學(xué)生答案進(jìn)行聚類(lèi)、選擇與排序,獲得各個(gè)分?jǐn)?shù)對(duì)應(yīng)的代表性答案來(lái)構(gòu)成參考答案。實(shí)驗(yàn)表明,重新構(gòu)造的參考答案顯著提高了短答案評(píng)分的性能。還有研究關(guān)注如何處理學(xué)生答案以加速或簡(jiǎn)化評(píng)分過(guò)程。例如,Lan等[13]對(duì)學(xué)生答案聚類(lèi)后,在每個(gè)簇中選擇代表性樣例讓專(zhuān)家評(píng)分,然后再為同簇其他樣例自動(dòng)評(píng)分。
本文構(gòu)建參考答案后進(jìn)行自動(dòng)評(píng)分的思想很大程度受到了文獻(xiàn)[12]與文獻(xiàn)[13]的啟發(fā)。但本文與這些文獻(xiàn)的主要不同是: ①選擇代表性答案的方法不同。文獻(xiàn)[12]認(rèn)為參考答案應(yīng)該具有長(zhǎng)度較短、句法結(jié)構(gòu)良好的特點(diǎn),并按照該特點(diǎn)選擇代表性答案。由于判斷學(xué)生答案是否正確的依據(jù)不是長(zhǎng)度或句法結(jié)構(gòu),而是看其是否包含標(biāo)準(zhǔn)答案所需的關(guān)鍵概念,因此本文沒(méi)有對(duì)候選樣例進(jìn)行顯式建模,而是采用基于最大相似度方法選擇代表性答案; ②目的不同。文獻(xiàn)[13]選擇代表性答案目的是減少專(zhuān)家評(píng)分工作量,而本文目的是構(gòu)造更完備參考答案以覆蓋更多的學(xué)生答題情況; ③自動(dòng)評(píng)分模型不同。文獻(xiàn)[12]基于參考答案與學(xué)生答案的比較特征訓(xùn)練多元邏輯回歸分類(lèi)器進(jìn)行自動(dòng)評(píng)分。文獻(xiàn)[13]依據(jù)每個(gè)簇中的人工評(píng)分樣例,采取同簇同分?jǐn)?shù)的策略對(duì)未評(píng)分樣例進(jìn)行評(píng)分(或利用樣例屬于該簇概率調(diào)整分?jǐn)?shù))。本文是通過(guò)神經(jīng)網(wǎng)絡(luò)模型引入注意力機(jī)制來(lái)捕獲參考答案與學(xué)生答案的匹配信息進(jìn)行打分。
Bahdanau等人最早將注意力機(jī)制(attention mechanism,AM)引入基于編碼器-解碼器框架的神經(jīng)機(jī)器翻譯系統(tǒng)[14],解決輸入與輸出不能對(duì)齊的問(wèn)題。從此研究者針對(duì)各種NLP任務(wù)提出不同的AM方式,并取得很好的效果。因此,AM目前已成為神經(jīng)網(wǎng)絡(luò)架構(gòu)中一個(gè)重要概念。
AM可以從以下幾個(gè)視角進(jìn)行分類(lèi)[15]: ①按照AM是否捕獲多個(gè)輸入之間的關(guān)系,分為互注意力與自注意力(self-attention)機(jī)制。前者用來(lái)捕捉多個(gè)輸入之間關(guān)系;后者用來(lái)學(xué)習(xí)同一輸入序列中詞語(yǔ)之間關(guān)系; ②按照AM包含的層次,分為單層注意力(single-level attention)與多層注意力(multi-level attention)機(jī)制。其中多層AM用來(lái)獲取輸入的層次結(jié)構(gòu)信息。如: 文本存在詞語(yǔ)、句子、篇章層次結(jié)構(gòu); ③按照AM計(jì)算上下文向量所需信息量,分為全局注意力(global-attention)與局部注意力(local-attention)機(jī)制。全局AM是使用輸入序列所有隱藏狀態(tài)的加權(quán)平均值來(lái)構(gòu)建上下文向量;局部AM是在輸入序列的關(guān)注點(diǎn)周?chē)x擇一個(gè)窗口來(lái)創(chuàng)建上下文向量。
本文針對(duì)ASAG任務(wù)需要比較學(xué)生答案與參考答案的特點(diǎn),使用互注意力機(jī)制來(lái)捕獲兩者之間的關(guān)系。
由于學(xué)生答案具有多樣性,預(yù)先給定的參考答案難以覆蓋學(xué)生所有可能答題情況。針對(duì)該問(wèn)題,本文嘗試構(gòu)建更完備的參考答案,增強(qiáng)對(duì)答題情況的覆蓋能力。
如圖1所示,本文構(gòu)建參考答案包括兩個(gè)步驟: (1)基于聚類(lèi)獲取學(xué)生可能的答題情況。我們認(rèn)為: 聚類(lèi)后得到的每一個(gè)簇代表學(xué)生的一種答題情況。(2)在每個(gè)簇中選擇一個(gè)或多個(gè)代表性答案作為本簇代表構(gòu)建參考答案。
圖1 參考答案構(gòu)建示意圖
本文采用k-means聚類(lèi)方法對(duì)學(xué)生答案聚類(lèi)。其核心思想是: 對(duì)數(shù)據(jù)集D={x1,x2,…,xm},考慮所有可能的k個(gè)簇集合,目標(biāo)是找到一個(gè)簇集合{C1,C2,…,Ck},使得每一個(gè)樣本到其對(duì)應(yīng)簇的中心的距離的平方和E最小,具體如式(1)所示。
(1)
聚類(lèi)質(zhì)量的評(píng)價(jià)指標(biāo)有外部指標(biāo)和內(nèi)部指標(biāo)。外部指標(biāo)是計(jì)算聚類(lèi)結(jié)果與已有標(biāo)準(zhǔn)分類(lèi)結(jié)果的吻合程度。內(nèi)部指標(biāo)是利用數(shù)據(jù)集的固有特征來(lái)評(píng)價(jià)一個(gè)聚類(lèi)質(zhì)量。本文沒(méi)有對(duì)滿(mǎn)分答案進(jìn)行預(yù)先分類(lèi),因此采用內(nèi)部指標(biāo)評(píng)價(jià)聚類(lèi)效果。輪廓系數(shù)(silhouette coefficient)是一種常用的內(nèi)部評(píng)價(jià)指標(biāo),一般按照式(2)計(jì)算。
(2)
其中,si表示簇中第i個(gè)樣本的輪廓系數(shù),ai表示簇中第i個(gè)樣例到其他樣例的平均距離,bi表示簇中第i個(gè)樣例到其他樣例的最小距離。輪廓系數(shù)取值范圍為[-1,1]。當(dāng)簇內(nèi)樣本距離越近及簇間樣本距離越遠(yuǎn),其值越大,聚類(lèi)效果越好。
代表性答案指能夠代表學(xué)生答題情況的答案。本文選擇簇內(nèi)與其他樣例相似度最高的樣例作為代表性答案。該策略基于的假設(shè)是: 與其他樣例越相似的樣例越能代表簇成員。關(guān)鍵問(wèn)題是如何計(jì)算相似性。
由于簇內(nèi)樣本相似度已經(jīng)較大,繼續(xù)使用聚類(lèi)過(guò)程中的相似度(距離)計(jì)算公式,將不能很好區(qū)分簇內(nèi)樣本之間的差異。本文從詞語(yǔ)及句子長(zhǎng)度特征出發(fā),使用詞重疊度、句子長(zhǎng)度相似度來(lái)計(jì)算簇內(nèi)樣本x1與x2的相似度,按照式(3)進(jìn)行計(jì)算:
(3)
其中,α1、α2為權(quán)重參數(shù),二者之和為1,本文具體取值0.5;Loverlap表示學(xué)生答案x1與x2之間的重疊詞個(gè)數(shù);L1和L2分別表示x1和x2的詞數(shù)。
對(duì)簇內(nèi)任意兩個(gè)答案計(jì)算相似度后得到相似度矩陣M∈Rn×n,其中mij表示第i個(gè)答案xi與第j個(gè)答案xj的相似度。本文用vi表示答案xi對(duì)簇代表的程度,vi∈[0,1],vi越大表示答案xi的代表性越強(qiáng)。按照式(4)計(jì)算vi:
(4)
自動(dòng)評(píng)分任務(wù)可形式化為: 給定參考答案r,學(xué)生答案s,按照式(5)預(yù)測(cè)評(píng)分結(jié)果g。
g=argmaxP(g|r,s)
(5)
本文采用基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型(Att-Grader)進(jìn)行自動(dòng)評(píng)分。模型結(jié)構(gòu)如圖2所示,由編碼層、注意力層、輸出層三部分構(gòu)成。編碼層的輸入為學(xué)生答案與第i個(gè)參考答案ri(下文簡(jiǎn)寫(xiě)為r),該層對(duì)兩者進(jìn)行編碼,生成包含語(yǔ)義信息的向量集合;注意力層負(fù)責(zé)獲取參考答案與學(xué)生答案之間的匹配信息;輸出層利用CNN進(jìn)一步獲取局部特征并經(jīng)過(guò)計(jì)算后,輸出學(xué)生答案預(yù)測(cè)分值。
圖2 Att-Grader模型
計(jì)算注意力權(quán)重時(shí)需要共享由學(xué)生答案(Us)與參考答案(Ur)導(dǎo)出的相似度矩陣C∈RM×N,其中Cij表示參考答案中第i個(gè)詞與學(xué)生答案中第j個(gè)詞之間的相似度值,具體計(jì)算如式(8)所示。
(8)
在相似矩陣C的基礎(chǔ)上計(jì)算雙向注意力權(quán)重。
(1) 學(xué)生答案到參考答案的注意力權(quán)重(student-to-reference attention,S2R)。首先計(jì)算學(xué)生答案中的詞與參考答案中第i個(gè)詞的注意力權(quán)值為ai∈RM,計(jì)算公式如式(9)所示。
ai=softmax(Ci:)∈RM
(9)
然后計(jì)算學(xué)生答案中每個(gè)注意力向量,如式(10)所示。
(10)
其中,包含所有學(xué)生答案注意力向量的矩陣。
(11)
其中,K表示分值種類(lèi),P(y=k)表示學(xué)生答案在對(duì)應(yīng)分值上的概率,其中k=0,1,…,K-1。
本文使用Adam優(yōu)化算法[17]來(lái)最小化訓(xùn)練數(shù)據(jù)上的交叉熵?fù)p失函數(shù)[18]。損失函數(shù)如式(12)所示。
(12)
本文數(shù)據(jù)集來(lái)自某中學(xué)八年級(jí)期末考試試題及學(xué)生答卷,涉及數(shù)學(xué)、語(yǔ)文兩門(mén)課程。數(shù)據(jù)集中有2道數(shù)學(xué)題、3道語(yǔ)文題,分別對(duì)應(yīng)表2中的MATH1、MATH2與CRCC1到 CRCC3。其中,數(shù)學(xué)題是針對(duì)特定知識(shí)點(diǎn)的問(wèn)答題,語(yǔ)文題為閱讀理解問(wèn)答題,兩者相比,語(yǔ)文題對(duì)應(yīng)的學(xué)生答案多樣性程度更高。數(shù)據(jù)集具體信息如表2所示,學(xué)生答案均經(jīng)過(guò)兩位教師人工打分,QWKappa(QWK)值反映了兩個(gè)評(píng)分者評(píng)分一致性。
實(shí)驗(yàn)中利用80%數(shù)據(jù)作為訓(xùn)練集,20%作為測(cè)試集。
表2 數(shù)據(jù)集信息表
預(yù)處理。利用jieba分詞工具包進(jìn)行分詞并去除停用詞。針對(duì)低頻詞(詞頻<2)使用字符
聚類(lèi)算法選擇。本文比較了Birch(balanced iterative reducing and clustering using hierarchies)聚類(lèi)方法和k-means聚類(lèi)方法。兩者都通過(guò)機(jī)器學(xué)習(xí)工具包sklearn實(shí)現(xiàn)。Birch算法是一個(gè)綜合的層次聚類(lèi)算法,采用聚類(lèi)特征和聚類(lèi)特征樹(shù)進(jìn)行聚類(lèi)描述。我們?cè)诰垲?lèi)簇?cái)?shù)K分別為[3,6,9,12,15,18,21,24,27]的情況下比較了這兩種方法在語(yǔ)文數(shù)據(jù)集上的聚類(lèi)效果,采用輪廓系數(shù)的平均值為評(píng)價(jià)指標(biāo)。具體如圖3所示。
由圖3可知,k-means聚類(lèi)算法在語(yǔ)文數(shù)據(jù)集上(CRCC1-CRCC3)的輪廓系數(shù)均值遠(yuǎn)遠(yuǎn)高于Birch算法,因此本文選擇k-means作為聚類(lèi)算法對(duì)學(xué)生答案進(jìn)行聚類(lèi)。
圖3 聚類(lèi)方法的比較
聚類(lèi)簇?cái)?shù)的選擇。由圖4可知,k-means算法在數(shù)據(jù)集CRCC 1、CRCC2、CRCC3上的聚類(lèi)簇?cái)?shù)K分別為6、12、3時(shí),輪廓系數(shù)值較高,表明聚類(lèi)效果較好。
圖4 不同聚類(lèi)簇?cái)?shù)下的聚類(lèi)效果
相關(guān)參數(shù)。實(shí)驗(yàn)中采用的長(zhǎng)短時(shí)記憶模型LSTM、卷積神經(jīng)網(wǎng)絡(luò)CNN均利用Tensorflow深度學(xué)習(xí)框架實(shí)現(xiàn),Mini-batch值為32,學(xué)習(xí)率為0.001。每次迭代過(guò)程中損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化器選擇Adam-optimizer。詞向量利用Gensim工具包中Word2Vec工具構(gòu)建,詞向量維度設(shè)置為400。
4.3.1 自動(dòng)評(píng)分結(jié)果分析
本文選擇以下模型作為baseline:
KAGrader該模型由Yang等提出[19],使用了連續(xù)詞袋模型(CBOW)與長(zhǎng)短期記憶模型(LSTM),在漢語(yǔ)短答案自動(dòng)評(píng)分任務(wù)上取得了很好的效果。該模型采用的數(shù)據(jù)集與本文有重疊。
CNNCNN[16]是目前應(yīng)用范圍最廣的神經(jīng)網(wǎng)絡(luò)模型之一,許多學(xué)者利用其解決多種NLP任務(wù)并獲得很好效果[20-22]。
LSTM+CNNLSTM屬于遞歸神經(jīng)網(wǎng)絡(luò)(RNN),也是一種主要的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[23-24]。對(duì)于CNN與LSTM已有研究表明[25]: CNN擅長(zhǎng)提取位置不變特征, LSTM擅長(zhǎng)對(duì)序列中的單元建模,兩種模型可以為NLP任務(wù)提供相互補(bǔ)充的信息。因此本文將LSTM與CNN結(jié)合作為基線(xiàn)系統(tǒng),該模型恰好是本文Att-grader模型沒(méi)有使用attention的版本。實(shí)驗(yàn)中將學(xué)生答案向量作為輸入,經(jīng)過(guò)LSTM處理后,再經(jīng)過(guò)CNN處理,完成自動(dòng)評(píng)分任務(wù)。
本文使用準(zhǔn)確率(Acc)、QWKappa(QWK)作為評(píng)價(jià)指標(biāo),采用5重交叉驗(yàn)證的均值作為最終結(jié)果。具體自動(dòng)評(píng)分結(jié)果如表3所示。
表3 自動(dòng)評(píng)分實(shí)驗(yàn)結(jié)果表
從表3中可以看出,Att-Grader模型在數(shù)學(xué)數(shù)據(jù)集上表現(xiàn)明顯優(yōu)于其他三個(gè)baseline,這表明: 系統(tǒng)加入注意力機(jī)制與新構(gòu)建的參考答案后,不僅更好地捕獲了學(xué)生答案與參考答案的匹配情況,而且通過(guò)參考答案覆蓋了更多學(xué)生答題情況。同時(shí)也可看出LSTM+CNN表現(xiàn)優(yōu)于CNN,可能的原因?yàn)? LSTM與CNN結(jié)構(gòu)特點(diǎn)不同,為NLP任務(wù)提供互補(bǔ)的信息。這與研究者已經(jīng)得到的結(jié)論一致[20]。
從表3中還可以看出,在語(yǔ)文數(shù)據(jù)集上,Att-Grader模型的表現(xiàn)大部分時(shí)候優(yōu)于CNN與LSTM+CNN,只是在問(wèn)題3上的QWKappa指標(biāo)不如KAGrader??赡艿脑蚴? 問(wèn)題3開(kāi)放程度更高,利用滿(mǎn)分答案拓展的參考答案不能覆蓋學(xué)生的各種答題情況。因此需要進(jìn)一步針對(duì)開(kāi)放程度高的問(wèn)題研究如何選擇代表性答案來(lái)形成參考答案。
4.3.2 不同注意力機(jī)制對(duì)自動(dòng)評(píng)分的影響
本文在語(yǔ)文數(shù)據(jù)集上探討了不同注意力機(jī)制對(duì)系統(tǒng)性能的影響,具體結(jié)果如表4所示。其中,NoAttention表示Att-Grader模型沒(méi)有使用attention層;SelfAttention表示模型僅使用自注意力機(jī)制;CoAttention表示模型僅使用雙向互注意力機(jī)制;SelfCoAttention表示模型中既有自注意力機(jī)制又有雙向互注意力機(jī)制,即學(xué)生答案與參考答案分別先通過(guò)自注意力機(jī)制獲取內(nèi)部關(guān)鍵特征后,再通過(guò)互注意力獲得兩者的匹配信息。
表4 不同注意力機(jī)制下的自動(dòng)評(píng)分結(jié)果
由表4可以看出: 模型加入注意力機(jī)制后效果更好,表明注意力機(jī)制能有效提升自動(dòng)評(píng)分的性能。還可看出: CoAttention比SelfAttention以及SelfCoAttention效果都要好,可能的原因是目前數(shù)據(jù)規(guī)模較小,答案長(zhǎng)度較短且答題方式多樣,模型不能很好地學(xué)習(xí)出自身的重要概念。因此,在A(yíng)tt-Grader模型中,本文選擇效果更好的雙向互注意力機(jī)制。
4.3.3 代表性答案選擇對(duì)自動(dòng)評(píng)分的影響
本文以數(shù)據(jù)集CRCC 1作為測(cè)試樣例集,與隨機(jī)選擇滿(mǎn)分答案構(gòu)建的參考答案集進(jìn)行對(duì)比,具體實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同參考答案下的自動(dòng)評(píng)分結(jié)果
其中Att-Grader-1表示評(píng)分中僅使用預(yù)先提供的參考答案;Att-Grader-6(Random)表示使用隨機(jī)選擇方式構(gòu)建參考答案集來(lái)進(jìn)行評(píng)分;Att-Grader-6表示通過(guò)聚類(lèi)及代表性答案選擇的方式構(gòu)建的參考答案集來(lái)進(jìn)行評(píng)分。
可以看出: Att-Grader-6的評(píng)分效果在兩個(gè)評(píng)價(jià)指標(biāo)上均高于其他兩個(gè)。表明通過(guò)選擇代表性答案擴(kuò)展參考答案對(duì)自動(dòng)評(píng)分任務(wù)非常有效。
本文采用基于聚類(lèi)與最大相似度方法選擇代表性答案構(gòu)建更完備的參考答案,更多地覆蓋了學(xué)生答題情況。此外還提出基于互注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,刻畫(huà)參考答案與學(xué)生答案的匹配情況。實(shí)驗(yàn)結(jié)果表明: 本文所提方法有效提升了自動(dòng)評(píng)分效果。但是短答案自動(dòng)評(píng)分的準(zhǔn)確率,尤其是開(kāi)放程度高的短答案問(wèn)題的評(píng)分還有很大提升空間。未來(lái)我們將研究不同分值下代表性答案的選擇,旨在進(jìn)一步擴(kuò)充參考答案;同時(shí)還將從錯(cuò)誤發(fā)現(xiàn)等角度探索可解釋分值的實(shí)現(xiàn)策略。