宋澤宇 王笑月 張 虎* 李 茹,2
1(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 山西 太原 030006)2(山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 山西 太原 030006)
機(jī)器閱讀理解是自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要研究任務(wù),目標(biāo)是通過(guò)機(jī)器理解給定的相關(guān)材料和問(wèn)題實(shí)現(xiàn)自動(dòng)作答。機(jī)器閱讀理解任務(wù)主要有四種類型:完形填空、多項(xiàng)選擇、片段抽取和自由作答,其中選擇型閱讀理解由于其易構(gòu)建和易評(píng)價(jià)的特點(diǎn)受到越來(lái)越多學(xué)者的關(guān)注和研究。選擇型閱讀理解任務(wù)旨在結(jié)合相關(guān)材料和問(wèn)題從若干選項(xiàng)中選出正確的答案。
高質(zhì)量的機(jī)器閱讀理解任務(wù)對(duì)于評(píng)估機(jī)器理解人類語(yǔ)言的綜合水平具有重要的參考意義。在一些閱讀理解任務(wù)中,通過(guò)使用深度學(xué)習(xí)技術(shù),機(jī)器的答題效果已接近了可以與人類相媲美的程度,如MCTest[1]使用DCMN模型作答正確率達(dá)到了86.5%[2],SQuAD[3]數(shù)據(jù)集使用BERT模型F1值已達(dá)到93.2%[4]。其原因主要有三點(diǎn):① 解答難度設(shè)置較低。在某些閱讀理解任務(wù)中候選選項(xiàng)或答案的設(shè)置大多是從材料中直接截取相關(guān)實(shí)體或者文本片段,這導(dǎo)致大多數(shù)問(wèn)題僅僅以詞匹配或者文段匹配的方式就可以實(shí)現(xiàn)解答,無(wú)需深層的語(yǔ)義理解。② 數(shù)據(jù)質(zhì)量不高。有些數(shù)據(jù)集是通過(guò)眾包或者機(jī)器自動(dòng)生成的方式形成的,重復(fù)較多且局限性大。③ 文本主題類型單一。有些數(shù)據(jù)集僅涉及特定的領(lǐng)域文本,可應(yīng)用場(chǎng)景有限。然而,很多其他閱讀理解任務(wù)的實(shí)驗(yàn)表明機(jī)器仍不具備真正的語(yǔ)言理解能力,高考閱讀理解題作為我國(guó)普通高等院校招生考試語(yǔ)文科目中的一項(xiàng)測(cè)試內(nèi)容,旨在衡量考生中文閱讀理解綜合能力,涉及考察的文本主題范圍較廣,包括科技、歷史、生物、醫(yī)學(xué)和經(jīng)濟(jì)等領(lǐng)域,同時(shí)所有問(wèn)題和候選答案均由專家結(jié)合材料內(nèi)容精心設(shè)計(jì),因此在作答過(guò)程中對(duì)文本內(nèi)容的細(xì)節(jié)分析、歸納、總結(jié)和推理等能力均有較高的要求,對(duì)于評(píng)估現(xiàn)有模型的閱讀理解能力具有較高的參考價(jià)值。
在高考閱讀理解選擇題任務(wù)中,題干信息作為答案選擇的重要依據(jù),決定著答案與材料信息之間的語(yǔ)義關(guān)系,如圖1所示,示例一中的問(wèn)題要求選出與材料內(nèi)容語(yǔ)義保持一致的選項(xiàng),而示例二中的問(wèn)題則要求選出與材料內(nèi)容表述不符的選項(xiàng),題干要求會(huì)限定材料與正確答案的語(yǔ)義聯(lián)系,進(jìn)而影響答案的選擇,因此理解題干要求對(duì)于作答至關(guān)重要。現(xiàn)有高考閱讀理解任務(wù)作答方法研究大多仍在使用傳統(tǒng)機(jī)器學(xué)習(xí)方法,且更關(guān)注于選項(xiàng)和材料內(nèi)容之間的語(yǔ)義關(guān)聯(lián),而對(duì)問(wèn)題信息的關(guān)注度較低,同時(shí)研究范圍集中在數(shù)量較少的單一問(wèn)題類型高考數(shù)據(jù)中,方法普適性較差,如李茹等[5]針對(duì)高考真題中的觀點(diǎn)支持類選擇題提出的一種基于題干與選項(xiàng)一致性判別模型,郭少茹等[6]針對(duì)高考真題中的科技文類選擇題提出的基于多維度投票算法的句子語(yǔ)義相關(guān)度計(jì)算方法,關(guān)勇等[7]針對(duì)高考真題中的標(biāo)題選擇類問(wèn)題提出的標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型。常見(jiàn)的基于深度學(xué)習(xí)技術(shù)的閱讀理解方法通常直接將材料、題干和選項(xiàng)輸入深度學(xué)習(xí)模型,期望模型不僅能理解題干要求,還能分析選項(xiàng)與材料的語(yǔ)義相關(guān)性并進(jìn)一步選出最佳答案,這對(duì)深度學(xué)習(xí)模型的閱讀理解能力提出了較高的要求。
圖1 題干信息對(duì)答案選擇的影響示例
為進(jìn)一步探索高考閱讀理解選擇題任務(wù),本文搜集了近15年中國(guó)各省市高考語(yǔ)文真題和模擬試卷,經(jīng)過(guò)整理和篩查其中現(xiàn)代文閱讀理解的單項(xiàng)選擇題,最終形成了包含7 886個(gè)問(wèn)題的高考數(shù)據(jù)集,并結(jié)合問(wèn)題對(duì)材料和選項(xiàng)間語(yǔ)義關(guān)聯(lián)的不同要求,提出一種基于BERT和題干要素語(yǔ)義增強(qiáng)的高考閱讀理解自動(dòng)答題方法。該方法通過(guò)構(gòu)建問(wèn)題模板獲取題干中的關(guān)鍵要素信息,按照不同的題干要求劃分問(wèn)題類型并生成問(wèn)題標(biāo)簽,然后通過(guò)改寫題干內(nèi)容使問(wèn)題統(tǒng)一為選擇與材料信息語(yǔ)義最為接近的選項(xiàng),之后使用BERT模型對(duì)材料、題干和選項(xiàng)信息的語(yǔ)義一致性進(jìn)行分析,最終結(jié)合問(wèn)題標(biāo)簽信息挑選出答案。通過(guò)在高考數(shù)據(jù)集中的實(shí)驗(yàn),本文模型得到了有效驗(yàn)證。
早期比較著名的閱讀理解數(shù)據(jù)集如Who did what[8]、MCTest[1]、CNN/DailyMail[9]、SQuAD[3]和NewsQA[10]等受到了諸多研究者的關(guān)注,在一定程度上推動(dòng)了機(jī)器閱讀理解技術(shù)的發(fā)展,但是這些數(shù)據(jù)集中大多數(shù)問(wèn)題的答案通常是材料中的某個(gè)詞組或一段連續(xù)文本,其問(wèn)題難度相對(duì)較低,依靠簡(jiǎn)單的語(yǔ)義匹配方法即可得到很好的解答效果。近年來(lái),語(yǔ)義推理成為閱讀理解研究中的研究熱點(diǎn),出現(xiàn)了大量相關(guān)推理任務(wù)的數(shù)據(jù)集。這些數(shù)據(jù)集的提出代表著機(jī)器閱讀理解任務(wù)開(kāi)始不斷向真實(shí)場(chǎng)景下的復(fù)雜推理問(wèn)題方向發(fā)展,但其與真正復(fù)雜的綜合推理任務(wù)還有一定的差距。如TriviaQA數(shù)據(jù)集[11]的答案常常需要跨越多句獲取,而且問(wèn)題和相關(guān)的答案句子添加了一些句子結(jié)構(gòu)和詞匯的變化,使得問(wèn)答形式更貼近于真實(shí)生活,提升了作答難度,但其實(shí)并未涉及較多推理問(wèn)題。針對(duì)英語(yǔ)試卷閱讀理解題的大型數(shù)據(jù)集RACE[12]盡管包含有多步推理和全文總結(jié)等類型的復(fù)雜問(wèn)題,但由于大量簡(jiǎn)單的問(wèn)題的存在,無(wú)法準(zhǔn)確衡量現(xiàn)有模型在復(fù)雜語(yǔ)義理解場(chǎng)景下的真實(shí)閱讀理解水平。WikiHop[13]和Hotpot QA[14]數(shù)據(jù)集都是結(jié)合多文檔信息實(shí)現(xiàn)多步推理的任務(wù),在這兩種數(shù)據(jù)集中幾乎所有問(wèn)題的解答均需要推理能力,但大多數(shù)問(wèn)題僅在較少的推理步數(shù)內(nèi)即可完成作答,并未實(shí)現(xiàn)真正的多步推理。還有源自中國(guó)司法考試的JEC-QA數(shù)據(jù)集[15],數(shù)據(jù)內(nèi)容僅涉及法律領(lǐng)域的推理問(wèn)題,解答過(guò)程依賴于大量專業(yè)知識(shí)的理解和常識(shí)知識(shí)的運(yùn)用,這為推理問(wèn)題的研究帶來(lái)了新的挑戰(zhàn),但同時(shí)也限制了推理形式的多樣性。
關(guān)于機(jī)器閱讀理解的方法在國(guó)內(nèi)外已有較多研究。Richardson等[1]提出一種啟發(fā)式滑動(dòng)窗口和詞信息距離算法結(jié)合的方法在MCTest數(shù)據(jù)集中作答,通過(guò)簡(jiǎn)單的詞位置信息分析材料與選項(xiàng)的語(yǔ)義聯(lián)系。Narasimhan等[16]通過(guò)在聯(lián)合概率模型中加入篇章關(guān)系特征實(shí)現(xiàn)作答,實(shí)驗(yàn)結(jié)果得到有效提升。Mrinmaya等[17]使用文本蘊(yùn)含系統(tǒng),將問(wèn)題、選項(xiàng)和文章三者之間的關(guān)系轉(zhuǎn)換為文本蘊(yùn)含結(jié)構(gòu),從而實(shí)現(xiàn)答案的選取。Yin等[18]提出一種基于Attention[19]機(jī)制的CNN模型對(duì)問(wèn)題與選項(xiàng)的拼接序列和文章信息進(jìn)行語(yǔ)義匹配,進(jìn)而判斷答案。Wang等[20]結(jié)合雙向LSTM[21]和Attention機(jī)制對(duì)文章、問(wèn)題和選項(xiàng)三者信息進(jìn)行協(xié)同語(yǔ)義匹配,在RACE數(shù)據(jù)集中取得較好的效果。Jacob等[4]提出BERT預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)使用大規(guī)模文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,然后再對(duì)特定任務(wù)的小數(shù)據(jù)集微調(diào),從而降低了單個(gè)NLP任務(wù)的難度,在語(yǔ)言表征方面產(chǎn)生了深遠(yuǎn)的影響,在多項(xiàng)機(jī)器閱讀理解任務(wù)中取得了顯著的進(jìn)步。Yang等[22]針對(duì)BERT預(yù)訓(xùn)練模型無(wú)法同時(shí)引入上下文信息和處理長(zhǎng)文本的問(wèn)題進(jìn)行改進(jìn),提出了XLNet預(yù)訓(xùn)練模型,在多項(xiàng)機(jī)器閱讀理解任務(wù)中的作答效果超越了BERT模型。Lan等[23]提出一種輕量級(jí)的BERT預(yù)訓(xùn)練模型,即ALBERT,通過(guò)簡(jiǎn)化原版BERT模型的參數(shù)量,縮減預(yù)訓(xùn)練過(guò)程的時(shí)間,同時(shí)增大預(yù)訓(xùn)練數(shù)據(jù)量,在機(jī)器閱讀理解任務(wù)中得到了非常優(yōu)異的實(shí)驗(yàn)效果。
盡管深度學(xué)習(xí)技術(shù)在機(jī)器閱讀理解領(lǐng)域已取得長(zhǎng)足的進(jìn)展,但面向高考閱讀理解的相關(guān)研究技術(shù)仍相對(duì)落后,多數(shù)研究仍在使用傳統(tǒng)的自然語(yǔ)言處理和機(jī)器學(xué)習(xí)方法。李茹等[5]提出一種基于題干與選項(xiàng)語(yǔ)義一致性的判別模型,通過(guò)結(jié)合篇章對(duì)題干的相關(guān)度和對(duì)選項(xiàng)的支持度,定義了聯(lián)合打分機(jī)制,并加入句子相似度特征、反義匹配特征和否定特征三個(gè)語(yǔ)義特征來(lái)對(duì)篇章、問(wèn)題和選項(xiàng)三者的關(guān)系進(jìn)行建模,進(jìn)而判斷三者語(yǔ)義一致性,最終完成作答。郭少茹等[6]提出一種基于多維度投票算法的句子語(yǔ)義相關(guān)度計(jì)算方法,該方法采用投票算法的思想,將詞袋模型、HowNet、Word2Vector及漢語(yǔ)框架網(wǎng)(Chinese Frame Net,CFN)語(yǔ)義場(chǎng)景四種不同的語(yǔ)義相關(guān)性度量方法集成,對(duì)材料和選項(xiàng)進(jìn)行語(yǔ)義相關(guān)度分析,采用投票算法的思想進(jìn)行集成,最終選取到相關(guān)問(wèn)題的最佳選項(xiàng),所使用的數(shù)據(jù)為全國(guó)各省語(yǔ)文真題中的192道科技文類選擇題。關(guān)勇等[7]重點(diǎn)關(guān)注高考閱讀理解中標(biāo)題選擇類問(wèn)題,通過(guò)結(jié)合雙向LSTM模型構(gòu)建標(biāo)題與篇章要點(diǎn)的相關(guān)度矩陣,同時(shí)融入標(biāo)題結(jié)構(gòu)特征,最終選出與篇章最相關(guān)的標(biāo)題。
為進(jìn)一步探索深度學(xué)習(xí)技術(shù)在高考閱讀理解任務(wù)中的應(yīng)用情況,本文使用多種深度學(xué)習(xí)的方法解答高考閱讀理解選擇題,并通過(guò)分析高考閱讀理解選擇題數(shù)據(jù)的特點(diǎn),提出一種基于BERT和題干要素語(yǔ)義增強(qiáng)的高考閱讀理解自動(dòng)答題方法。
本文提出的基于BERT和題干要素語(yǔ)義增強(qiáng)的高考閱讀理解自動(dòng)答題方法(BQS)的模型整體架構(gòu)如圖2所示,主要包括三個(gè)部分:題干要素分析、材料與選項(xiàng)的語(yǔ)義一致性分析和答案選擇。首先在題干分析階段對(duì)題干內(nèi)容進(jìn)行分析,依據(jù)問(wèn)題中包含的關(guān)鍵要素信息生成問(wèn)題類型標(biāo)簽并通過(guò)改寫題干信息統(tǒng)一題干要求;然后在語(yǔ)義一致性分析階段結(jié)合BERT模型計(jì)算材料、問(wèn)題和選項(xiàng)三者之間的語(yǔ)義相關(guān)度;最終在答案選擇階段依據(jù)得到問(wèn)題標(biāo)簽和四個(gè)選項(xiàng)的語(yǔ)義相關(guān)度選擇最合適的選項(xiàng)作為答案。
圖2 基于BERT和題干要素語(yǔ)義增強(qiáng)的高考閱讀理解自動(dòng)答題方法的模型架構(gòu)
本文方法是一種基于BERT模型的深度學(xué)習(xí)方法,因此作答前需要對(duì)模型進(jìn)行訓(xùn)練。模型使用一個(gè)四元組Gi代表一組輸入,Ar表示模型的輸出,即模型最終預(yù)測(cè)的答案選項(xiàng)序號(hào),具體公式如式(1)和式(2)所示。
Gi=(P,Q,Oi,L)
(1)
Ar=Max(f(G1),f(G2),…,f(Gk))
(2)
式(1)中:P表示輸入的材料信息,Q表示相關(guān)問(wèn)題,Oi(i∈{1,2,…,k})表示選項(xiàng)信息,L(初始值為0)表示問(wèn)題類型標(biāo)簽。式(2)中:f(·)表示模型預(yù)測(cè)選項(xiàng)為正確答案的概率值,Max(·)表示選取最大值的序號(hào)。
在高考閱讀理解選擇題中,通過(guò)題干內(nèi)容中的一些關(guān)鍵要素信息可以直接分析出問(wèn)題考查的主題范圍以及正確答案與材料之間的語(yǔ)義關(guān)聯(lián)。以表1所示的問(wèn)題六為例,根據(jù)問(wèn)題描述,可以看出考查內(nèi)容主要圍繞材料中“生物多樣性危機(jī)”這一相關(guān)主題,同時(shí)依據(jù)題干中關(guān)鍵詞“不屬于”分析得出正確選項(xiàng)應(yīng)與材料中“生物多樣性危機(jī)”這一主題內(nèi)容的語(yǔ)義一致性關(guān)聯(lián)程度最低。
表1 高考閱讀理解問(wèn)題類別示例
按照題干內(nèi)容要求的不同,本文將正確答案與材料的語(yǔ)義聯(lián)系簡(jiǎn)單地劃分為兩類:一致和不一致,并以此定義問(wèn)題類別,具體問(wèn)題類別樣例如表1所示。對(duì)于不一致類問(wèn)題,本文整理如“不符合文意的一項(xiàng)”“不正確的一項(xiàng)是”“不屬于…的一項(xiàng)是”等包含否定詞的問(wèn)題形式模板來(lái)判斷,除此之外,均定義為一致類問(wèn)題。
在劃分問(wèn)題類型的同時(shí)生成問(wèn)題標(biāo)簽信息,并將不一致類問(wèn)題通過(guò)反義詞替換等操作改寫為一致類問(wèn)題,具體改寫示例如圖3所示。
圖3 問(wèn)題改寫示例
在題干要素分析階段,得到改寫后的新問(wèn)題和問(wèn)題標(biāo)簽信息,其形式化分析過(guò)程如式(3)所示。
(P,Q′,Oi,L′)=R(G)
(3)
式中:R(G)表示對(duì)原始輸入經(jīng)過(guò)題干要素分析處理后的操作;Q′表示經(jīng)過(guò)改寫后的新問(wèn)題;L′表示問(wèn)題標(biāo)簽,取值為1或-1,當(dāng)問(wèn)題為一致類問(wèn)題時(shí),L′=1,否則L′=-1。
本文模型以BERT模型結(jié)構(gòu)為基礎(chǔ),網(wǎng)上公開(kāi)的BERT-base預(yù)訓(xùn)練模型參數(shù)為模型初始化參數(shù),使用高考數(shù)據(jù)集進(jìn)行模型訓(xùn)練,最后通過(guò)訓(xùn)練好的模型計(jì)算得到材料與選項(xiàng)的語(yǔ)義相關(guān)度分?jǐn)?shù),完成語(yǔ)義一致性分析。在訓(xùn)練過(guò)程中,首先將改寫后的問(wèn)題Q′和選項(xiàng)Oi直接拼接,形成新的文本拼接序列C,然后將文章P和拼接序列C按照“[CLS]P[SEP]C[SEP]”的形式作為BERT模型的輸入序列,獲得BERT模型最后一層隱狀態(tài)序列的第一個(gè)Token即“[CLS]”的向量作為該選項(xiàng)與材料的語(yǔ)義一致性特征表示,最后經(jīng)過(guò)一個(gè)線性映射函數(shù)得到選項(xiàng)與材料的語(yǔ)義相關(guān)度分?jǐn)?shù),具體如式(4)-式(6)所示。
C=concat(Q′,Oi)
(4)
Bi=BERT(P,C)
(5)
Ri=WBi+b
(6)
式(5)中:Bi表示選項(xiàng)Oi與材料P語(yǔ)義一致性特征表示。式(6)中:Ri(i∈{1,2,…,k})表示選項(xiàng)Oi與材料P的語(yǔ)義相關(guān)度分?jǐn)?shù),W和b分別為模型訓(xùn)練時(shí)需要學(xué)習(xí)的權(quán)重和偏差參數(shù)。
由于在題干要素分析階段,不一致類問(wèn)題被統(tǒng)一改寫為一致類問(wèn)題,因此在模型訓(xùn)練過(guò)程中,不一致類問(wèn)題的答案也相應(yīng)由一個(gè)改為多個(gè)?;诖?本文將模型每條數(shù)據(jù)的損失值的計(jì)算當(dāng)作多標(biāo)簽任務(wù)損失值的計(jì)算。對(duì)于同一問(wèn)題下每個(gè)選項(xiàng),采用二元交叉熵函數(shù)計(jì)算選項(xiàng)的損失值,最終將所有選項(xiàng)的損失值求和計(jì)算平均值,作為每條數(shù)據(jù)的損失值,計(jì)算公式如式(7)和式(8)所示。
Si=sigmoid(Ri)
(7)
(8)
式(7)中:Si表示選項(xiàng)Oi是改寫后新問(wèn)題Q′對(duì)應(yīng)答案的概率值大小。式(8)中:yi取值為0或1,yi=0表示選項(xiàng)Oi不是問(wèn)題Q′的答案,yi=1表示選項(xiàng)Oi是問(wèn)題Q′的答案,L(Oi|P,Q′)表示選項(xiàng)Oi是問(wèn)題Q′正確答案的損失值。式(9)中:L(Ar|P,Q′)表示對(duì)于問(wèn)題Q′預(yù)測(cè)結(jié)果的整體損失值,是其對(duì)應(yīng)的多個(gè)選項(xiàng)的平均損失值。
選擇與材料語(yǔ)義相關(guān)性最大的選項(xiàng)還是最小的選項(xiàng)是由題干信息決定的,因此在得到同一個(gè)問(wèn)題下每個(gè)選項(xiàng)對(duì)材料的語(yǔ)義相關(guān)度分?jǐn)?shù)Ri后,需要結(jié)合題干要素分析階段得到的問(wèn)題標(biāo)簽L′,對(duì)語(yǔ)義相關(guān)度分?jǐn)?shù)進(jìn)行更新,強(qiáng)化對(duì)題干信息的理解,即對(duì)其大小順序進(jìn)行重排序。本文采用語(yǔ)義相關(guān)度分?jǐn)?shù)Ri與問(wèn)題標(biāo)簽L′相乘的方式進(jìn)行重排序,當(dāng)L′=1時(shí),原有一致性程度分?jǐn)?shù)大小不變,大小順序保持不變,當(dāng)L′=-1時(shí),原有一致性程度分?jǐn)?shù)均取反,大小順序?qū)崿F(xiàn)逆排序。具體如式(10)所示。
重排序后,選項(xiàng)Oi是正確答案的概率計(jì)算公式如式(11)所示。
在測(cè)試階段,本文選取概率值P(i|Q,P,Oi)最大的選項(xiàng)作為預(yù)測(cè)的答案。
現(xiàn)有的一些高考閱讀理解選擇題研究工作所使用測(cè)試數(shù)據(jù)較少且題型單一,難以準(zhǔn)確地評(píng)估當(dāng)前高考閱讀理解任務(wù)整體的研究進(jìn)展。因此,本文搜集了近15年中國(guó)各省市高考語(yǔ)文真題和模擬題,挑選其中的現(xiàn)代文閱讀理解單項(xiàng)選擇題,經(jīng)整理和篩選質(zhì)量較高的數(shù)據(jù),最終形成高考語(yǔ)文閱讀理解單項(xiàng)選擇題數(shù)據(jù)集,簡(jiǎn)稱高考數(shù)據(jù)集。同時(shí)在本文實(shí)驗(yàn)中,使用高考數(shù)據(jù)集完成模型的訓(xùn)練和測(cè)試。
高考數(shù)據(jù)集由7 886個(gè)問(wèn)題和3 179篇相關(guān)材料組成,每篇材料可能包含多個(gè)問(wèn)題,材料的主題內(nèi)容涉及科技、社會(huì)、生物、醫(yī)學(xué)、歷史、藝術(shù)和文化等多個(gè)領(lǐng)域,同時(shí)每個(gè)問(wèn)題有四個(gè)選項(xiàng),其中僅有一項(xiàng)為正確答案。本文設(shè)置每條數(shù)據(jù)由一篇材料、一個(gè)問(wèn)題、四個(gè)選項(xiàng)和一個(gè)正確答案組成,具體數(shù)據(jù)形式如圖4所示。
【2019年北京卷·高考真題】材料三:……多倫多、波士頓等城市里的白車軸草,為提高抗寒性而舍棄了釋放氰化物的能力。釋放氰化物可抵御來(lái)自食草動(dòng)物的威脅,但抗寒性會(huì)降低。而在市中心,城市高溫使得積雪極易消融,沒(méi)有了積雪的覆蓋,植物就難以抵御夜間冰凍?!瓎?wèn)題:根據(jù)材料三,下列理解不符合文意的一項(xiàng)是A、 白車軸草為抵御積雪的覆蓋而舍棄了釋放氰化物的能力,這與城市高溫有關(guān)。B、 哺乳動(dòng)物因夜行性增強(qiáng)而改變了習(xí)性,繁殖能力降低,這與人類的活動(dòng)有關(guān)。C、 城市白足鼠可能因?yàn)槌粤吮人_餅等食物,涉及消化的某種基因出現(xiàn)過(guò)度表達(dá)。D、 路燈吸引并聚集了大量的大型昆蟲(chóng),家蝠或因捕食它們而顱骨體積不斷增大。答案:A
本文按照約8∶1∶1的數(shù)據(jù)數(shù)量比例將高考數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,具體數(shù)量如表2所示。同時(shí)為了避免答案分布不均勻,本文通過(guò)調(diào)整選項(xiàng)位置,將訓(xùn)練集、驗(yàn)證集和測(cè)試集中的A、B、C、D四種不同答案類型比例均設(shè)置為1∶1∶1∶1。
表2 高考數(shù)據(jù)集數(shù)量劃分情況
為了驗(yàn)證本文方法的有效性,本文設(shè)置了一些較為常見(jiàn)的閱讀理解基線模型進(jìn)行對(duì)比,具體包括:
1) Co-Matching[20]使用雙向LSTM編碼器對(duì)文章、問(wèn)題和選項(xiàng)的詞向量表示分別進(jìn)行語(yǔ)義編碼,然后針對(duì)文章中每一句話的語(yǔ)義編碼,通過(guò)注意力機(jī)制使其分別與問(wèn)題、選項(xiàng)編碼進(jìn)行語(yǔ)義編碼交互并拼接起來(lái)。隨后,將每句話的拼接編碼按照在文章中的順序進(jìn)一步拼接,通過(guò)一層雙向LSTM解碼器,得到文章對(duì)選項(xiàng)支持度,最終選取支持度最高的一項(xiàng)作為正確答案。本文的模型實(shí)驗(yàn)使用網(wǎng)上預(yù)訓(xùn)練好的微博中文詞向量作為文章、問(wèn)題和選項(xiàng)的詞向量表示。
2) BERT[4]的核心是由多個(gè)雙向的Transformer[19]編碼器堆疊而成的,其優(yōu)勢(shì)在于獲取豐富的文本特征表示。本文結(jié)合其模型結(jié)構(gòu),使用網(wǎng)上公開(kāi)的BERT-base版本中文預(yù)訓(xùn)練模型參數(shù)為初始化參數(shù),通過(guò)高考數(shù)據(jù)集進(jìn)一步微調(diào),得到最終的BERT模型。
3) DCMN[2]通過(guò)使用BERT模型分別獲取材料、問(wèn)題和選項(xiàng)相關(guān)上下文的編碼表示,然后結(jié)合注意力機(jī)制,使材料、問(wèn)題和選項(xiàng)三者兩兩間進(jìn)行雙向的語(yǔ)義編碼交互,從而實(shí)現(xiàn)雙向匹配的閱讀理解策略,并且在多個(gè)閱讀理解任務(wù)中有一定的提升效果。本文實(shí)驗(yàn)中的DCMN模型是基于本實(shí)驗(yàn)的BERT模型進(jìn)行的復(fù)現(xiàn)。
4) BERT-wwm[24]考慮到中文和英文的差異性實(shí)現(xiàn)了對(duì)原始BERT模型的改進(jìn),在預(yù)訓(xùn)練階段通過(guò)全詞掩碼操作替代了原有的基于WordPiece的分詞方式,使得模型更適用于中文文本的處理。本文對(duì)該模型的實(shí)驗(yàn)初始化參數(shù)采用網(wǎng)上公開(kāi)的中文base版本。
5) XLNet[22]是一種自回歸語(yǔ)言模型,通過(guò)引入排列語(yǔ)言模型和Two-Stream自注意力機(jī)制,不僅解決了BERT模型在預(yù)訓(xùn)練和微調(diào)階段不一致的問(wèn)題同時(shí)實(shí)現(xiàn)了雙向上下文的建模。除此之外,模型還引入Transformer-XL[25]機(jī)制,解決了Bert模型輸入文本最大截?cái)嚅L(zhǎng)度限制的問(wèn)題。本文對(duì)該模型的實(shí)驗(yàn)初始化參數(shù)采用網(wǎng)上公開(kāi)的中文base版本。
6) ALBERT[23]是BERT預(yù)訓(xùn)練模型的一種精簡(jiǎn)改良版本,它通過(guò)兩種參數(shù)削減技術(shù)解決了BERT模型參數(shù)過(guò)大、訓(xùn)練過(guò)慢的問(wèn)題,同時(shí)提出一種句間連貫性預(yù)測(cè)任務(wù),使模型在語(yǔ)言層面學(xué)習(xí)到更細(xì)粒度的區(qū)分。本文對(duì)該模型的實(shí)驗(yàn)初始化參數(shù)采用網(wǎng)上公開(kāi)的中文tiny版本。
本文方法將Google官方公開(kāi)的中文BERT-base預(yù)訓(xùn)練模型作為初始化模型,使用高考訓(xùn)練集進(jìn)行模型的微調(diào),最終使用微調(diào)后的模型進(jìn)行答案的選擇。在微調(diào)過(guò)程中,epoch設(shè)置為6,學(xué)習(xí)率設(shè)為0.000 01,輸入的文本序列最大截?cái)嚅L(zhǎng)度設(shè)為450,batch size設(shè)為40。
3.4.1對(duì)比模型實(shí)驗(yàn)
本文分別使用Co-Matching、BERT、DCMN、BERT-wwm、XLNet、ALBERT和BQS(本文方法)在高考數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,以答題準(zhǔn)確率作為模型的評(píng)價(jià)指標(biāo),具體的實(shí)驗(yàn)結(jié)果如表3所示。
表3 各模型在高考數(shù)據(jù)集的實(shí)驗(yàn)情況(%)
從表3可以看出,本文方法在驗(yàn)證集和測(cè)試集中的答題準(zhǔn)確率都是最高的,其中驗(yàn)證集準(zhǔn)確率達(dá)到了42.13%,測(cè)試集準(zhǔn)確率達(dá)到了42.38%。與其他基線模型相比,作答準(zhǔn)確率提升了約10%。
同時(shí),依據(jù)表3數(shù)據(jù)可以發(fā)現(xiàn),對(duì)比實(shí)驗(yàn)中的幾種深度學(xué)習(xí)作答模型在高考閱讀理解任務(wù)中作答效果普遍較差,答題準(zhǔn)確率基本在30%左右,這表明現(xiàn)有的一些基于深度學(xué)習(xí)方法的閱讀理解模型在高考閱讀理解任務(wù)中的適用性較差。
3.4.2不同問(wèn)題類型的作答情況
為了探究本文方法在不同問(wèn)題類型中作答效果提升的具體情況,按照上述題干要素分析部分中定義的一致類問(wèn)題和不一致類問(wèn)題,將測(cè)試集劃分成兩部分,并分別使用本文模型作答,同時(shí)與BERT模型的作答情況進(jìn)行對(duì)比,其具體實(shí)驗(yàn)結(jié)果如表4所示。
表4 BERT與本文方法在測(cè)試集不同類問(wèn)題中的作答情況(%)
可以看出本文方法相比BERT模型在兩類問(wèn)題中的作答準(zhǔn)確率均有不同程度的提升,其中一致類問(wèn)題的準(zhǔn)確率提升了將近18百分點(diǎn),而不一致類問(wèn)題僅提升了約5百分點(diǎn)。本文方法將不一致類問(wèn)題全部改寫成一致類問(wèn)題,使模型在訓(xùn)練過(guò)程中更關(guān)注與材料語(yǔ)義相關(guān)度較高的選項(xiàng),更易于分析一致類問(wèn)題,因此一致類問(wèn)題的作答效果提升相對(duì)明顯。
顯然,盡管兩類問(wèn)題的作答效果均有所提升,但準(zhǔn)確率仍偏低。通過(guò)分析答題錯(cuò)誤的樣例,我們了解到本文方法僅從題干內(nèi)容的角度增強(qiáng)了材料與答案之間的語(yǔ)義一致性判斷,還有較多涉及語(yǔ)義推理和常識(shí)知識(shí)的問(wèn)題尚未得到有效解決。
3.4.3模型不同實(shí)驗(yàn)參數(shù)的影響
為進(jìn)一步驗(yàn)證本文方法的有效性,觀察不同實(shí)驗(yàn)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。本文分別選取模型輸入文本的最大截?cái)嚅L(zhǎng)度和訓(xùn)練輪數(shù)為主要影響參數(shù),在其他參數(shù)相同的情況下進(jìn)行訓(xùn)練,并分別在驗(yàn)證集和測(cè)試集中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5和圖6所示。
圖5 不同截?cái)嚅L(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響
圖6 不同訓(xùn)練輪數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
可以看出,不同參數(shù)確實(shí)會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成一定的影響,但總體來(lái)說(shuō),作答效果趨于穩(wěn)定,在驗(yàn)證集和測(cè)試集上的作答準(zhǔn)確率均在39%~43%之間,已遠(yuǎn)遠(yuǎn)超過(guò)其他對(duì)比實(shí)驗(yàn)?zāi)P偷淖鞔饻?zhǔn)確率,進(jìn)一步驗(yàn)證了本文方法在高考閱讀理解選擇題任務(wù)中的有效性。
3.4.4使用EDA方法增強(qiáng)高考數(shù)據(jù)的實(shí)驗(yàn)
為探索高考數(shù)據(jù)量對(duì)模型的影響,本文使用EDA方法[26]進(jìn)一步擴(kuò)充數(shù)據(jù),即通過(guò)同義詞替換、隨機(jī)插入、隨機(jī)替換和隨機(jī)刪除四種操作對(duì)訓(xùn)練集中的材料和選項(xiàng)進(jìn)行數(shù)據(jù)增強(qiáng)。最終,訓(xùn)練集由原先的6 310條數(shù)據(jù)增加至11 517條,之后使用本文方法重新訓(xùn)練模型并進(jìn)行測(cè)試。具體實(shí)驗(yàn)結(jié)果如表5所示。
表5 使用EDA方法增強(qiáng)數(shù)據(jù)的實(shí)驗(yàn)情況(%)
由表5可以看出,通過(guò)結(jié)合EDA數(shù)據(jù)增強(qiáng)方法,盡管訓(xùn)練數(shù)據(jù)增加將近一倍,但實(shí)驗(yàn)準(zhǔn)確率卻未能提高。由此分析可知高考數(shù)據(jù)集作答準(zhǔn)確率無(wú)法通過(guò)簡(jiǎn)單的數(shù)據(jù)增強(qiáng)方法得到有效提升,需要進(jìn)一步考慮擴(kuò)充后數(shù)據(jù)的質(zhì)量。
本文針對(duì)高考閱讀理解選擇題任務(wù),構(gòu)建了高考語(yǔ)文現(xiàn)代文閱讀理解單項(xiàng)選擇題數(shù)據(jù)集,并結(jié)合深度學(xué)習(xí)方法,提出了一種基于BERT和題干要素語(yǔ)義增強(qiáng)的高考閱讀理解自動(dòng)答題方法。該方法對(duì)高考數(shù)據(jù)題干信息采用模板匹配的方式進(jìn)行分析,獲取題干內(nèi)容的關(guān)鍵語(yǔ)義要素信息,并依據(jù)關(guān)鍵信息生成問(wèn)題標(biāo)簽,同時(shí)以改寫題干信息的方式統(tǒng)一題干要求,降低后續(xù)BERT模型在語(yǔ)義一致性分析階段的理解難度,使BERT模型在語(yǔ)義一致性分析階段更專注于材料與選項(xiàng)信息語(yǔ)義相關(guān)性程度的判斷,不需要關(guān)注題干對(duì)答案選擇的影響。實(shí)驗(yàn)結(jié)果表明,在作答高考閱讀理解選擇題任務(wù)時(shí),本文方法相比其他常見(jiàn)深度學(xué)習(xí)方法的作答準(zhǔn)確率更高,適用性更強(qiáng)。
盡管本文提出的模型在高考閱讀理解任務(wù)中取得了較好的作答效果,但是距離實(shí)現(xiàn)真實(shí)人類的作答效果仍有很大的差距。在高考閱讀理解數(shù)據(jù)中,答案信息不僅會(huì)涉及材料局部?jī)?nèi)容,也可能需要從材料整體內(nèi)容的角度考慮,并且需要結(jié)合邏輯推理的方法和常識(shí)知識(shí)進(jìn)行解答。因此在未來(lái)的高考閱讀理解研究工作中,需要深入挖掘復(fù)雜的語(yǔ)義推理關(guān)系,并結(jié)合常識(shí)知識(shí)強(qiáng)化材料、題干與選項(xiàng)的深層語(yǔ)義表示,這是目前機(jī)器閱讀理解研究的難點(diǎn),也是我們下一步要重點(diǎn)研究的內(nèi)容。