邊 寧,韓先培,何 苯,孫 樂
(1. 中國科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;2. 中國科學(xué)院 軟件研究所 中文信息處理實(shí)驗(yàn)室,北京 100190)
考試自動答題任務(wù)是指利用標(biāo)準(zhǔn)化考試環(huán)境對問答系統(tǒng)進(jìn)行測試。普通高等學(xué)校招生全國統(tǒng)一考試(高考)是綜合評估人類知識和能力水平的標(biāo)準(zhǔn)化考試。其中,歷史科目部分的試題內(nèi)容涉及廣泛的歷史知識,注重考察學(xué)生運(yùn)用歷史學(xué)思維方法的能力以及發(fā)現(xiàn)、分析和解決問題的能力,對自動答題系統(tǒng)提出了更高的要求。本文針對我國高考?xì)v史科目部分,構(gòu)建能夠作答高考?xì)v史試題的自動答題系統(tǒng)。本文使用真實(shí)高考?xì)v史試題對答題系統(tǒng)進(jìn)行測試,從而更準(zhǔn)確地評估答題系統(tǒng)具備的能力,并且能夠在教育領(lǐng)域開展服務(wù)。
近年來,自動問答系統(tǒng)的研究取得了長足進(jìn)展。構(gòu)建自動問答系統(tǒng)的主要目的是滿足真實(shí)用戶的信息需求。與用戶提出的問題相比,歷史高考試題具有以下特點(diǎn): ①歷史高考試題的形式相對固定,包括選擇題和簡答題兩種題型,其中簡答題除問題之外,還帶有一段與問題相關(guān)的文字材料; ②歷史高考試題的目的是考察學(xué)生是否掌握歷史學(xué)科的相關(guān)知識和能力,因此作答歷史試題依賴大量歷史知識。這對構(gòu)建面向歷史科目高考的自動答題系統(tǒng)提出了新的挑戰(zhàn)。
在自動答題系統(tǒng)中融合知識的一個(gè)主要挑戰(zhàn)是知識具有上下文相關(guān)性: 對于一個(gè)問題,在知識庫存儲的大量知識中,只有少數(shù)知識與回答該問題相關(guān)。例如,針對“雅典和羅馬是西方古典文明的杰出代表,對后來西方的歷史和文化影響深遠(yuǎn),二者都有的政治制度是(答案: 司法陪審制)”這一題目,在知識庫中能夠找到大量與“雅典和羅馬的政治制度”相關(guān)的知識,但是其中只有關(guān)于“司法陪審制”的知識對作答該題有效。
針對從大規(guī)模知識庫中準(zhǔn)確尋找問題相關(guān)的有效知識這一挑戰(zhàn),本文設(shè)計(jì)了一種結(jié)合知識檢索與機(jī)器閱讀理解的知識融合自動答題系統(tǒng)。與Watson[1]等基于流水線結(jié)構(gòu)和語義解析的傳統(tǒng)自動答題技術(shù)相比,本系統(tǒng)綜合利用了知識檢索技術(shù)的相關(guān)排序能力和機(jī)器閱讀理解模型的知識定位能力,能夠有效地發(fā)現(xiàn)與問題相關(guān)的知識,從而增強(qiáng)自動答題的效果。具體地,系統(tǒng)首先利用文本檢索技術(shù)檢索與問題相關(guān)的知識文本,然后利用機(jī)器閱讀理解技術(shù)定位問題相關(guān)的知識片段,綜合文本和相關(guān)知識進(jìn)行答題。本文針對歷史高考中的選擇題和簡答題的題型和答案特點(diǎn),分別構(gòu)建了答題系統(tǒng)。
本文使用高考?xì)v史科目真實(shí)試卷和模擬試卷,以及標(biāo)準(zhǔn)的歷史科目高考真題數(shù)據(jù)集GH577[2]對本系統(tǒng)進(jìn)行測試,自動評分和人工評分的結(jié)果說明了本系統(tǒng)的有效性。消融實(shí)驗(yàn)的結(jié)果說明了知識檢索技術(shù)能夠有效檢索到問題相關(guān)的知識,并進(jìn)一步驗(yàn)證了本系統(tǒng)設(shè)計(jì)的合理性。本文還對系統(tǒng)回答錯(cuò)誤的原因進(jìn)行了分析。
基于知識的自動問答系統(tǒng)因其應(yīng)用價(jià)值高,受到研究人員的廣泛關(guān)注。與結(jié)構(gòu)化知識庫相比,文本知識更容易獲取,形式更加靈活?;谖谋局R的自動問答系統(tǒng)通常包括文本檢索模塊和機(jī)器閱讀理解模塊。Chen等人將機(jī)器閱讀理解模型與基于詞匹配的文檔檢索模塊相結(jié)合,構(gòu)建了開放域問答系統(tǒng)[3]。后續(xù)研究提出了基于低維稠密語義向量的文本檢索模型,使用神經(jīng)網(wǎng)絡(luò)將問題和文本知識表示為語義空間內(nèi)的向量,通過向量相似度更準(zhǔn)確地計(jì)算問題與文本知識的語義匹配程度[4-5]。但是,由于問答數(shù)據(jù)通常不標(biāo)注其所需知識的具體來源,該類文本檢索模型往往缺少直接的訓(xùn)練數(shù)據(jù),為檢索模型的訓(xùn)練帶來了困難。本文構(gòu)建的自動答題系統(tǒng)包括檢索模塊和機(jī)器閱讀理解模塊,使用了無須訓(xùn)練數(shù)據(jù)的BM25檢索模型,并針對歷史科目試題和知識庫的特點(diǎn)設(shè)計(jì)了檢索詞提取和檢索結(jié)果重排序機(jī)制。
機(jī)器閱讀理解(Machine Reading Comprehension,MRC)是問答任務(wù)的一種特殊形式。該任務(wù)要求計(jì)算機(jī)在閱讀指定文檔的基礎(chǔ)上,根據(jù)文檔的信息回答問題[6]。機(jī)器閱讀理解模型是基于文本知識的問答系統(tǒng)的核心模塊。機(jī)器閱讀理解模型不僅能夠匹配問題與文檔的語義,還能夠深層次地理解文檔,并結(jié)合背景知識進(jìn)行推理和總結(jié)。因此,本文選用機(jī)器閱讀理解模型作為自動答題系統(tǒng)的核心模塊之一,以增強(qiáng)系統(tǒng)理解和利用相關(guān)知識的能力。
目前主流的機(jī)器閱讀理解模型基于神經(jīng)網(wǎng)絡(luò)構(gòu)建。模型一般包括三個(gè)模塊: 編碼模塊、問題-文檔交互模塊和解碼模塊[7]。編碼模塊將問題和文檔分別轉(zhuǎn)換成語義表示,問題-文檔交互模塊在語義空間中建模問題與文檔的相互作用。近年來,BERT[8]等預(yù)訓(xùn)練語言模型取代了編碼和問題-文檔交互模塊,僅需要在語言模型的輸出之后增加一個(gè)任務(wù)特定的解碼模塊,并在閱讀理解數(shù)據(jù)集上微調(diào)訓(xùn)練,即可取得極大的性能提升。基于預(yù)訓(xùn)練語言模型的機(jī)器閱讀理解模型是目前的主流模型。解碼模塊根據(jù)語義表示預(yù)測答案。傳統(tǒng)機(jī)器閱讀理解模型主要關(guān)注答案抽取,即在文檔中預(yù)測答案字符串的開始和結(jié)束位置[9]。本文使用基于BERT的閱讀理解模型構(gòu)建自動答題系統(tǒng)。本文在近期關(guān)于選擇題閱讀理解的研究[10]基礎(chǔ)上,針對歷史科目試題中的選擇題和簡答題題型特點(diǎn),設(shè)計(jì)了計(jì)算候選答案概率的解碼模塊。
自動答題系統(tǒng)面對的是為人類設(shè)計(jì)的考試試題,與自動問答相比,考試試題對綜合運(yùn)用知識進(jìn)行推理的能力提出了更高的要求。2010年,IBM公司設(shè)計(jì)的Watson系統(tǒng)在知識競賽電視節(jié)目中戰(zhàn)勝了人類選手[1]。針對世界歷史選擇題任務(wù)[11-12],Wang等人構(gòu)建了流水線結(jié)構(gòu)的自動答題系統(tǒng),包括問題分析、命題生成、選項(xiàng)打分等流程[13]。Hosseini等人將題目轉(zhuǎn)換為結(jié)構(gòu)化表示,作答小學(xué)數(shù)學(xué)試題[14]。陳志剛等人結(jié)合語言模型和隱語義分析,構(gòu)建了面向初高中英語單選題的自動答題系統(tǒng)[15]。Wu等人利用機(jī)器閱讀理解模型構(gòu)建了醫(yī)師資格考試自動答題系統(tǒng)[16]。在我國高考方面,Cheng等人提出基于信息檢索的選擇題答題方法,通過比對候選答案與百科文檔的相關(guān)性選擇答案,并使用歷史科目試題進(jìn)行測試[2]。本文基于機(jī)器閱讀理解模型構(gòu)建自動答題系統(tǒng),利用閱讀理解模型自動學(xué)習(xí)從文檔中提取和利用相關(guān)知識的能力,增強(qiáng)自動答題的效果。
本文結(jié)合文本檢索技術(shù)與機(jī)器閱讀理解模型,構(gòu)建面向高考?xì)v史科目試題的自動答題系統(tǒng),系統(tǒng)框架如圖1所示。主要模塊的功能如下所述。
圖1 面向高考?xì)v史科目試題的自動答題系統(tǒng)框架
(1)檢索模塊: 根據(jù)題目提供的信息,從知識語料庫(包括教材文本和題庫文本)中檢索相關(guān)文本知識,將其作為機(jī)器閱讀理解的閱讀文檔。
(2)閱讀理解模塊: 融合題目和閱讀文檔的信息,評估各候選答案的正確性,計(jì)算候選答案的分?jǐn)?shù)(正確概率)。根據(jù)題目形式的不同,閱讀理解模塊分為選擇題閱讀理解模型和簡答題閱讀理解模型。
(3)集成模塊: 綜合閱讀理解模塊對各候選答案的分?jǐn)?shù)和檢索模型的檢索匹配度,對各候選答案進(jìn)行最終打分。
檢索模塊的功能是根據(jù)問題和候選答案(對于選擇題)或文本材料(對于簡答題),檢索與問題相關(guān)的文本知識,為閱讀理解模型回答問題提供知識依據(jù)。
檢索模塊的框架如圖2所示。對于選擇題,檢索模塊針對每個(gè)候選答案輸出一組檢索結(jié)果及其檢索匹配度,作為每個(gè)候選答案的支撐材料。對于簡答題,檢索模塊輸出與問題相關(guān)的知識句子,作為候選答案句子,供閱讀理解模塊挑選。
圖2 檢索模塊框架
具體地,本文首先構(gòu)建了高中歷史知識語料庫。為保證知識的準(zhǔn)確性和對知識點(diǎn)的覆蓋度,知識庫由教材文檔和練習(xí)題庫組成。
為準(zhǔn)確獲取回答問題所需的知識,檢索模塊以句子為單位進(jìn)行檢索。歷史教材等文本材料是對歷史知識的概括和總結(jié),往往一個(gè)句子表達(dá)一個(gè)完整的歷史知識點(diǎn),例如,“秦始皇首創(chuàng)的皇帝制度,一方面以皇位世襲顯示了權(quán)力的不可轉(zhuǎn)移,另一方面以皇權(quán)至上顯示了地位的不可僭越,這是中國古代專制制度的重要特征?!弊鞔饸v史題目依賴于具體、準(zhǔn)確的歷史知識點(diǎn),例如,“皇帝制度的特征”,因此以句子為單位進(jìn)行知識檢索,能夠準(zhǔn)確地檢索具體的歷史知識,避免段落中無關(guān)信息的干擾。具體地,對于題庫文本,檢索模塊將每一道題目及其正確答案視作一個(gè)句子;對于教材文本,檢索模塊根據(jù)標(biāo)點(diǎn)符號對每個(gè)段落進(jìn)行句子切分,并在每個(gè)句子的開頭拼接其所在段落的第一個(gè)句子(通常是概括整段內(nèi)容或觀點(diǎn)的總起句),以保證句子上下文信息完整。
輸入一道題目,檢索模塊第一步提取題目中的檢索詞: 首先使用帶有用戶詞典的分詞工具對題目進(jìn)行分詞,在去除停止詞后,將剩余的詞作為檢索詞。分詞使用的用戶詞典為歷史專有名詞表。檢索模塊提取的檢索詞還包括題目中的實(shí)體詞,實(shí)體詞用于對檢索結(jié)果進(jìn)行進(jìn)一步重排序。本文使用歷史專有名詞表進(jìn)行實(shí)體詞抽取。
隨后,各檢索模塊使用BM25算法計(jì)算檢索詞與文本知識之間的匹配度。
題庫文本檢索模塊以檢索匹配度最高的N條文本作為題庫文本檢索結(jié)果。因?yàn)轭}庫文本的質(zhì)量較高,所以不使用重排序。
對于教材文本,采用檢索-重排序的框架。首先,教材文本檢索模塊取匹配度最高的M條文本作為初步檢索結(jié)果,進(jìn)行重排序。重排序以題目中的實(shí)體詞為檢索詞,使用BM25算法計(jì)算匹配度,取匹配度最高的前N條文本作為教材文本檢索結(jié)果。使用實(shí)體詞進(jìn)行檢索可以排除題目中無關(guān)詞語的干擾,提高檢索結(jié)果的精準(zhǔn)性。
閱讀理解模塊根據(jù)問題和檢索模塊提供的文本知識,對每個(gè)候選答案打分。閱讀理解模塊基于目前先進(jìn)的預(yù)訓(xùn)練語言模型BERT[8]構(gòu)建。根據(jù)題目形式的不同,閱讀理解模塊分為選擇題閱讀理解模型和簡答題閱讀理解模型。
2.2.1 選擇題閱讀理解模型
對于選擇題求解,模型需要根據(jù)檢索模塊提供的相關(guān)知識,計(jì)算四個(gè)候選答案的正確概率。選擇題閱讀理解模型框架如圖3所示。
圖3 選擇題閱讀理解模型框架
首先,選擇題閱讀理解模塊的輸入為各候選答案對應(yīng)的文本序列。本文為每個(gè)候選答案構(gòu)造一個(gè)輸入序列,每個(gè)文本序列由“[CLS]+文本材料+[SEP]+問題+[SEP]+候選答案+[SEP]”組成。[CLS]字符是BERT模型的起始字符,[SEP]字符是BERT模型的分隔字符,用于分隔輸入序列中的各個(gè)部分。
隨后,預(yù)訓(xùn)練語言模型BERT對輸入文本進(jìn)行上下文建模,輸出文本的語義表示。本模塊中使用的語義表示由兩部分拼接而成,包括起始字符“[CLS]”的向量表示和輸入序列中各個(gè)字的表示向量的平均向量。
最后,閱讀理解模塊的輸出網(wǎng)絡(luò)根據(jù)文本表示向量,使用兩層全連接神經(jīng)網(wǎng)絡(luò)計(jì)算每個(gè)候選答案的概率,即輸出維度為1。輸出網(wǎng)絡(luò)隱含層維度為1 024,使用tanh()激活函數(shù)。各候選答案的概率使用Softmax歸一化,并使用交叉熵?fù)p失函數(shù)進(jìn)行模型訓(xùn)練。
2.2.2 簡答題閱讀理解模型
對于簡答題求解,模型需要從檢索模塊提供的文本知識中選擇能夠回答問題的句子,組成答案。簡答題閱讀理解模型的輸入為問題文本和各候選答案句子,輸出為各句子能夠回答問題的概率。簡答題閱讀理解模型框架如圖4所示。
圖4 簡答題閱讀理解模型框架
首先,預(yù)訓(xùn)練語言模型BERT對輸入的問題文本和候選答案句子分別進(jìn)行上下文建模,輸出問題文本表示向量q和候選答案句子表示向量ai,其中i為候選答案句子的序號。
隨后,使用由兩層全連接神經(jīng)網(wǎng)絡(luò)組成的匹配網(wǎng)絡(luò)計(jì)算每個(gè)候選答案句子與問題的匹配度,即候選句子成為問題答案的概率。神經(jīng)網(wǎng)絡(luò)的輸入為concat(q,ai,|q-ai|),即三個(gè)向量的拼接。與選擇題閱讀理解模型的輸出網(wǎng)絡(luò)類似,簡答題網(wǎng)絡(luò)的輸出維度為1,隱含層維度為512,使用tanh()激活函數(shù)。最后的輸出層使用Sigmoid()激活函數(shù)將輸出映射到0~1的范圍內(nèi)。
與選擇題的訓(xùn)練數(shù)據(jù)中直接標(biāo)注了正確答案不同,簡答題訓(xùn)練數(shù)據(jù)的參考答案是人工編寫的答案文本。這些答案文本往往無法在歷史知識語料庫中找到完全一致的句子。因此,為了獲得高質(zhì)量的簡答題閱讀理解模型訓(xùn)練數(shù)據(jù),本文采取遠(yuǎn)距離監(jiān)督的方法,根據(jù)人工編寫的參考答案文本將檢索得到的候選答案句子劃分為正例集合和負(fù)例集合。
具體地,首先根據(jù)簡答題問題和閱讀文檔,從語料庫中檢索一定數(shù)量的文本知識。然后,根據(jù)人工標(biāo)注的參考答案與各文本知識的相關(guān)性,對文本知識排序。本文使用F1值衡量該相關(guān)性。取排序后文本知識條目的前25%作為正例,其余為負(fù)例。
為了進(jìn)一步提高訓(xùn)練數(shù)據(jù)的質(zhì)量,本文設(shè)計(jì)了檢索詞迭代擴(kuò)展機(jī)制: 將人工標(biāo)注的參考答案和正例文本知識中的實(shí)體詞添加到檢索詞中,重新進(jìn)行檢索。該過程共迭代3輪。該機(jī)制有助于檢索系統(tǒng)檢索到與參考答案更相近的文本知識。
由于遠(yuǎn)距離監(jiān)督得到的訓(xùn)練數(shù)據(jù)包含噪聲,本文在模型訓(xùn)練時(shí)使用基于句子袋(bag of sentence)的訓(xùn)練方法。該方法常用于遠(yuǎn)距離監(jiān)督關(guān)系抽取模型的訓(xùn)練[17]。在訓(xùn)練時(shí),正例集合和負(fù)例集合同時(shí)輸入模型。本文使用注意力機(jī)制將正例集合中的多個(gè)正例的向量表示整合為一個(gè)正例表示,對負(fù)例集合也做相同的整合。整合后的正例和負(fù)例表示輸入匹配網(wǎng)絡(luò),計(jì)算其與問題的匹配度。模型的訓(xùn)練目標(biāo)是最大化整合的正例表示的概率并最小化整合的負(fù)例表示的概率,如式(1)所示。
L=-(log(P+)+log(1-P-))
(1)
其中,P+和P-為正例和負(fù)例的概率。
集成模塊的作用是使閱讀理解模塊對各候選答案的分?jǐn)?shù)與檢索模塊輸出的檢索匹配度互相補(bǔ)充,從而得到最終的候選答案概率。本模塊將各模型輸出的分?jǐn)?shù)視作不同的特征,組合成各候選答案的特征向量。本模塊使用兩層全連接網(wǎng)絡(luò)對候選答案的特征向量進(jìn)行打分,分?jǐn)?shù)使用Softmax做歸一化處理,并使用交叉熵?fù)p失函數(shù)訓(xùn)練。
對于選擇題,系統(tǒng)取概率最高的候選答案作為最終的答案。對于簡答題,系統(tǒng)取文本知識中概率最高的前K個(gè)句子作為答案。
高考?xì)v史科目考試題目形式: 本文使用北京市高考?xì)v史科目試題,試題由單項(xiàng)選擇題和簡答題兩種題型組成。每道選擇題包含4個(gè)選項(xiàng),其中只有一個(gè)正確答案。簡答題除問題之外,還提供了一段文本材料作為題目背景,通常要求結(jié)合文本材料的內(nèi)容回答問題。
(1)訓(xùn)練數(shù)據(jù): 本文共使用了約23萬道中學(xué)歷史練習(xí)題進(jìn)行模型訓(xùn)練,包括約19萬道選擇題和約4萬道簡答題。
(2)測試數(shù)據(jù): 本文以2016—2019年的4套北京高考?xì)v史科目試卷和由中學(xué)歷史老師編制的兩套歷史科目模擬測試卷為測試題目,每套題目滿分為100分。北京高考?xì)v史科目試卷每套包含選擇題12題(共48分)、簡答題5至6題(共52分)。歷史模擬測試卷每套包含選擇題15題(共48分)、簡答題5題(共52分)。為了與現(xiàn)有的歷史科目高考自動答題系統(tǒng)進(jìn)行比較,本文還使用了標(biāo)準(zhǔn)的GH577歷史科目高考數(shù)據(jù)集[2]開展測試,該數(shù)據(jù)集包含了577道真實(shí)的高考?xì)v史選擇題。
(3)知識語料庫: 包括題庫文本和教材文本。題庫文本由訓(xùn)練題庫構(gòu)造生成,其規(guī)則為“問題+正確答案”的字符串拼接,共約17萬條文本。教材文本知識取自人民教育出版社出版的初高中歷史統(tǒng)編教材、相關(guān)輔導(dǎo)書和中國百科大詞典的歷史部分。文本按照段落進(jìn)行切分,共約19萬條文本。
(4)系統(tǒng)評價(jià): 對于歷史試卷,本文使用答案得分作為自動答題系統(tǒng)的評價(jià)指標(biāo)。對于選擇題,本文根據(jù)標(biāo)準(zhǔn)答案進(jìn)行自動打分。對于簡答題,本文使用人工評價(jià)的答案分?jǐn)?shù),評價(jià)人員為教育行業(yè)從業(yè)人員。對于GH577數(shù)據(jù)集,本文使用答案正確率作為評價(jià)指標(biāo)。
(5)對比系統(tǒng): 本文對比了現(xiàn)有的歷史科目高考答題系統(tǒng),包括Cheng等人構(gòu)建的歷史科目考試自動答題系統(tǒng)[2]和Huang等人構(gòu)建的JEEVES系統(tǒng)[18]。其中,JEEVES系統(tǒng)是目前性能最優(yōu)的模型,包括聯(lián)合訓(xùn)練的檢索模型和閱讀理解模型。本文使用Huang等人[18]對GH577數(shù)據(jù)集劃分的開發(fā)集和測試集進(jìn)行測試,各114題,而Cheng等人[2]的性能為全部577道題目上的正確率。
(6)系統(tǒng)參數(shù)設(shè)置: 對于選擇題,檢索模塊輸出匹配度最高的題庫文本和教材文本各N=5條,其中教材文本檢索的重排序階段輸入M=20條文本。對于簡答題,檢索模塊輸出匹配度最高的100條教材文本和100條題庫文本。簡答題答案在長度不超過2 500個(gè)字符的情況下選取盡可能多的前K個(gè)句子。
本文在物理隔離、脫離互聯(lián)網(wǎng)、無人工干預(yù)的環(huán)境下進(jìn)行了實(shí)驗(yàn)。系統(tǒng)作答一套試卷所需時(shí)間約30分鐘。
實(shí)驗(yàn)結(jié)果顯示,本文構(gòu)建的歷史科目試題自動答題系統(tǒng)是有效的。表1展示了本文構(gòu)建的高考?xì)v史科目考試自動答題系統(tǒng)在測試試卷上的得分情況。本系統(tǒng)在多個(gè)測試卷上都能取得大于60分的成績,并且成績穩(wěn)定。在2018年北京市高考?xì)v史科目試卷上,本系統(tǒng)取得了69分的成績,在6套試卷中得分最高。表2對比了本文構(gòu)建的系統(tǒng)和現(xiàn)有的歷史高考自動答題系統(tǒng)在GH577數(shù)據(jù)集上的答案正確率。與目前性能最優(yōu)的JEEVES系統(tǒng)[18]相比,本文構(gòu)建的系統(tǒng)獲得了明顯的性能提升。
表1 高考?xì)v史科目考試自動答題系統(tǒng)得分
表2 高考?xì)v史科目考試自動答題系統(tǒng)在GH577數(shù)據(jù)集上的答案正確率 (單位: %)
消融實(shí)驗(yàn)的結(jié)果顯示,知識檢索模塊能夠有效檢索問題相關(guān)的知識。表3展示了不同檢索設(shè)置下的系統(tǒng)性能,以說明知識檢索對答題系統(tǒng)的重要性。其中無檢索指在閱讀理解模塊的輸入中不使用任何文本知識,僅使用題目和候選答案作為模型輸入。由表3可見,題庫檢索由于其文本質(zhì)量高,對性能提升的作用較大。在6套測試試卷中,僅使用題庫檢索的答題系統(tǒng)在兩套試卷上取得了與完整系統(tǒng)相同的答題性能,即題庫文本可覆蓋所需知識。而教材檢索由于受到文本噪聲影響,性能提升不明顯。此外,這兩種知識來源可有效互補(bǔ),以獲得更好的答題性能(即完整系統(tǒng))。如表3所示,在3套試卷上,完整系統(tǒng)取得了比僅使用題庫或教材檢索更高的答題性能。
表3 檢索模塊對自動答題系統(tǒng)選擇題得分的影響
上述實(shí)驗(yàn)結(jié)果說明,在自動答題系統(tǒng)中,高質(zhì)量的相關(guān)知識起到了重要作用,并且本文設(shè)計(jì)的知識檢索模塊是有效的。
實(shí)驗(yàn)結(jié)果顯示,以句子為單位進(jìn)行知識檢索是有效的。表4對比了以句子為單位、句子擴(kuò)展和以段落為單位進(jìn)行檢索情況下的選擇題答題性能。其中,句子擴(kuò)展指在句子檢索的基礎(chǔ)上,對于包含分句(按逗號劃分)數(shù)量少于閾值K的句子,拼接其前后句子,形成信息更豐富的句組進(jìn)行檢索。本文實(shí)驗(yàn)了K=2、3或4,拼接之前或之后句子的情況,表4中分?jǐn)?shù)為其中最優(yōu)結(jié)果。由實(shí)驗(yàn)結(jié)果可見,以擴(kuò)展句組為單位的檢索方式與以句子為單位檢索的答題性能相同,說明在歷史知識語料中,句子是一種完整、精準(zhǔn)的檢索單位。以句子為單位的檢索可以更準(zhǔn)確地檢索具體的歷史知識,避免段落中無關(guān)信息的干擾,因此其答題性能高于以段落為單位的檢索。
表4 檢索粒度對自動答題系統(tǒng)選擇題得分的影響
使用遠(yuǎn)距離監(jiān)督訓(xùn)練簡答題閱讀理解模型是有效的。本文測試了不使用遠(yuǎn)距離監(jiān)督,僅使用人工編寫的參考答案訓(xùn)練簡答題閱讀理解模型。由表5可見,使用遠(yuǎn)距離監(jiān)督的系統(tǒng)在歷史模擬測試卷上的答題性能優(yōu)于不使用遠(yuǎn)距離監(jiān)督的系統(tǒng)。該實(shí)驗(yàn)說明使用遠(yuǎn)距離監(jiān)督的方法能夠有效標(biāo)注檢索得到的候選答案句子,從而訓(xùn)練簡答題閱讀理解模型,提高模型的答題性能。
表5 簡答題閱讀理解模型遠(yuǎn)距離監(jiān)督訓(xùn)練對自動答題系統(tǒng)簡答題得分的影響
通過分析本系統(tǒng)在歷史試卷中回答錯(cuò)誤的27道選擇題,本文將系統(tǒng)回答錯(cuò)誤的題目主要類型進(jìn)行劃分,各類型例題見表6。除表6所列出的錯(cuò)誤類型和數(shù)量之外,另有3道回答錯(cuò)誤的題目難以歸入所劃分的類型。
表6 回答錯(cuò)誤的主要題目類型舉例
續(xù)表
(1) 復(fù)雜推理類問題,包括史實(shí)推理題和多步推理題。此類錯(cuò)誤題目在27道錯(cuò)誤題目中有12道。史實(shí)推理題需要模型從具體、多樣的史實(shí)描述中提煉抽象的歷史現(xiàn)象和結(jié)論,結(jié)合歷史背景知識,做出正確的回答。此類題目要求模型具有抽象歸納的能力。
多步推理題需要模型進(jìn)行復(fù)雜的多步推理。例如,表6中第2題,需要先推理出“此人”是“陳獨(dú)秀”,再根據(jù)相關(guān)知識選出正確答案。由于訓(xùn)練數(shù)據(jù)只提供了答題的最終結(jié)果,缺少對推理所需的中間結(jié)果的標(biāo)注,因此模型難以有效地學(xué)習(xí)多步推理的能力。
(2) 多模態(tài)、多語言類問題,包括圖表題和文言文題。此類錯(cuò)誤題目在27道錯(cuò)誤題目中有10道。
圖表題在同一個(gè)題目中同時(shí)包含自然語言模態(tài)和圖像模態(tài),因此需要對圖像、地圖、圖表等數(shù)據(jù)進(jìn)行語義理解和表示。圖表與自然語言有很大的差異,難以在同一個(gè)機(jī)器閱讀理解模型中進(jìn)行建模。
文言文題通常需要結(jié)合現(xiàn)代漢語和文言文進(jìn)行理解。文言文的句法和語義與現(xiàn)代漢語差異較大,需要分別進(jìn)行建模。
(3) 依賴常識知識的問題。此類錯(cuò)誤題目在27道錯(cuò)誤題目中有兩道。模型需要具備基本的歷史、地理和生活常識知識。例如回答表6中第5題所需要的常識是“騎馬是中國北方的習(xí)俗”?;诮滩奈臋n和練習(xí)題庫構(gòu)建的知識庫難以覆蓋這類常識知識。
本文針對高考?xì)v史科目試題的自動答題任務(wù),結(jié)合知識檢索技術(shù)與機(jī)器閱讀理解模型,構(gòu)建了高考?xì)v史科目試題自動答題系統(tǒng),并使用高考?xì)v史科目試題進(jìn)行了實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果顯示,本文設(shè)計(jì)的高考?xì)v史科目自動答題系統(tǒng)是有效的。本系統(tǒng)在高考?xì)v史科目考試中的答題性能可達(dá)到60分以上(滿分100分),并在GH577數(shù)據(jù)集上取得了優(yōu)于基線系統(tǒng)的答案正確率。消融實(shí)驗(yàn)的結(jié)果驗(yàn)證了知識檢索模塊能夠有效檢索問題相關(guān)的知識。進(jìn)一步的實(shí)驗(yàn)和分析說明了本系統(tǒng)設(shè)計(jì)的合理性。
經(jīng)過錯(cuò)誤分析,發(fā)現(xiàn)本系統(tǒng)還有一些不足: 本系統(tǒng)目前難以解決多模態(tài)、多語言類問題;部分題目依賴從具體描述到抽象概念的推理和多步推理,本系統(tǒng)使用的機(jī)器閱讀理解模型在這方面能力較弱;本系統(tǒng)使用的知識語料庫尚不完善,沒有覆蓋相關(guān)的歷史、地理和生活常識知識。后續(xù)可以從圖表和文言文題的針對性訓(xùn)練、增強(qiáng)推理能力和知識庫構(gòu)建等方面尋求解決方案。