孫 付,李林陽,邱錫鵬,劉 揚(yáng),黃萱菁
(1. 復(fù)旦大學(xué) 計算機(jī)學(xué)院,上海 201210; 2. 流利說 硅谷人工智能實(shí)驗(yàn)室,美國 舊金山 94104)
機(jī)器閱讀理解在自然語言處理領(lǐng)域是一個具有挑戰(zhàn)性的任務(wù),其要求計算機(jī)能夠在閱讀文章內(nèi)容后回答與文章內(nèi)容相關(guān)的問題。得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展和SQuAD[1-2]數(shù)據(jù)集的提出,基于神經(jīng)網(wǎng)絡(luò)的端到端模型[3]在機(jī)器閱讀理解任務(wù)上取得了豐碩的成果。
SQuAD 1.1[1]的文章選自開放領(lǐng)域的維基百科,問題和答案通過人工標(biāo)注產(chǎn)生。SQuAD 1.1的局限性之一是每個問題在原文中都有正確的答案,因此模型只需要選擇文章中最相關(guān)的文本作為答案,而不必判斷原文中是否有此問題的答案。為了彌補(bǔ)SQuAD 1.1的不足,斯坦福大學(xué)將一些無法通過原文回答的人工標(biāo)注問題加入到SQuAD 1.1中,構(gòu)造了新的數(shù)據(jù)集SQuAD 2.0[2],如圖 1所示。新數(shù)據(jù)集要求機(jī)器閱讀理解系統(tǒng)能夠判斷哪些信息通過原文不能獲得。
圖1 SQuAD 2.0 示例
為了能夠處理無法回答的問題,模型需要在理解問題和原文后,判斷是否可以回答給定問題,如果可以回答,則確定答案范圍。已經(jīng)存在大量答案選擇方面的工作,因此該任務(wù)的主要挑戰(zhàn)在于如何可靠地判斷原文是否能夠回答給定的問題。
一種是Hu等人提出的引入答案驗(yàn)證程序的方法[4],先確定疑似答案,然后通過找到的疑似答案來確定問題是否可以回答。這種方法使用流水線式結(jié)構(gòu),需要答案選擇和答案判別兩個模型,兩個模型分別訓(xùn)練,找答案時獲取的信息除答案信息外,不能傳遞到答案判別模型中。
隨著大規(guī)模預(yù)訓(xùn)練語言模型[5-6]的提出,一些模型開始基于此類預(yù)訓(xùn)練模型處理機(jī)器閱讀理解問題,效果優(yōu)于現(xiàn)有模型,但是計算成本高,效率較低。
本文為了使用統(tǒng)一模型而不引入過多的參數(shù)和計算量處理機(jī)器閱讀理解問題,將帶有無法回答問題的機(jī)器閱讀理解任務(wù)分解為三個子任務(wù): 答案范圍選取、無答案指示和答案驗(yàn)證。由于這三個子任務(wù)是高度相關(guān)的,因此我們通過共享一些知識將具有無法回答問題的機(jī)器閱讀理解任務(wù)視為多任務(wù)學(xué)習(xí)問題[7]。
我們通過U-Net將三個子任務(wù)整合到一個統(tǒng)一的模型中: ①答案選擇器,用于預(yù)測問題的候選答案范圍; ②無答案指示器,當(dāng)問題無答案時避免答案選擇器選取文本; ③答案驗(yàn)證器,用候選答案信息輔助判斷問題是否可以回答。此外,我們還引入了一個U節(jié)點(diǎn),將問題和文章連接成一個序列,這大大提高了U-Net的簡潔性。U節(jié)點(diǎn)同時獲得問題和文章的信息,以判斷問題是否可以回答。SQuAD 2.0數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,U-Net有效預(yù)測了問題的不可回答性,F(xiàn)1分?jǐn)?shù)達(dá)到74.9,優(yōu)于所有提交的不基于BERT[5]、GPT[6]等的大規(guī)模預(yù)訓(xùn)練語言模型。在不需要判斷問題是否可以回答的“萊斯杯”中文軍事機(jī)器閱讀理解競賽中,我們的模型ROUGE-L得分90.0,BLEU-4得分83.4,其中BLEU-4得分優(yōu)于其他所有參賽模型得分。
U-Net對文本建模的方法與BERT類似,但BERT的U節(jié)點(diǎn)只能通過自注意力機(jī)制獲取信息,我們的模型采用多種方式獲取全局信息,顯得更加高效。模型基礎(chǔ)編碼組件采用LSTM[5]而不是Transformer[8],LSTM對于超參魯棒性更好,在不進(jìn)行預(yù)訓(xùn)練時,LSTM更容易收斂,且參數(shù)量更少。相比于BERT Large[5]340M的參數(shù)量只能通過高性能圖形處理器來處理數(shù)據(jù),我們的模型只需要10M參數(shù)即可獲得可靠的結(jié)果。
本文的貢獻(xiàn)可歸納如下:
(1) 將帶有無法回答問題的機(jī)器閱讀理解任務(wù)分解為三個子任務(wù),并用一個統(tǒng)一模型來解決這三個任務(wù);
(2) U-Net引入通過多種方式獲取信息的U節(jié)點(diǎn)來編碼問題和文章的公共信息,信息融合過程更合理;
(3) U-Net只需要BERT參數(shù)的1/34即可取得可靠的結(jié)果。
(4) U-Net不需要大規(guī)模預(yù)訓(xùn)練語言模型。
(5) U-Net在中英文數(shù)據(jù)集上均表現(xiàn)優(yōu)秀。
SQuAD是斯坦福大學(xué)發(fā)布的機(jī)器閱讀理解領(lǐng)域經(jīng)典且富有挑戰(zhàn)的數(shù)據(jù)集。
針對每個問題都有明確答案的SQuAD 1.1,研究機(jī)構(gòu)提出了一大批優(yōu)秀的端到端模型[3],這些模型的共同特點(diǎn)是由三個基礎(chǔ)組件構(gòu)成: 編碼層、交互層和指針網(wǎng)絡(luò)[9]。編碼層最初廣泛使用以GloVe[9]為代表的靜態(tài)詞向量,后來發(fā)展出來以Elmo[10]為代表的動態(tài)詞向量;交互層主要通過各種注意力機(jī)制實(shí)現(xiàn),用于信息的交互與融合;指針網(wǎng)絡(luò)則用于指示答案的開始和結(jié)束位置。當(dāng)前流行的BERT[5]比較特殊,BERT本身既是編碼層也是交互層,設(shè)計過程吸收了動態(tài)詞向量和交互層的優(yōu)點(diǎn)。
SQuAD 2.0中設(shè)置了一些根據(jù)提供的文章內(nèi)容不可回答的問題。最直觀的想法是采用Hu等人[11]提出的流水線式的解決方法,該方法首先使用在SQuAD 1.1中表現(xiàn)良好的模型查找問題的可能答案,然后用另一個分類模型判斷找到的可能答案是否能回答原問題。隨著人們對BERT[5]用法的研究,使用BERT處理SQuAD 2.0的做法開始出現(xiàn),這些方法均利用BERT的CLS節(jié)點(diǎn)對問題的可回答性進(jìn)行分類。本文提出的U-Net模型的U節(jié)點(diǎn)位置上與BERT的SEP節(jié)點(diǎn)相同,功能上具有BERT中CLS節(jié)點(diǎn)的部分功能。
本文的部分內(nèi)容使用英文非正式地發(fā)布在arxiv上,供以英語為母語的研究人員閱讀[12]。
本文可以將機(jī)器閱讀理解任務(wù)抽象表示為三元組(Q,P,A),其中Q=(q1,q2,…,qm)表示m個單詞的問題,P=(p1,p2,…,pn)表示n個單詞的文章,而A=prs:re是答案,其中rs和re表示答案在文章中的起點(diǎn)和終點(diǎn),目標(biāo)是估計條件概率P(A|Q,P)。
本文提出的U-Net模型的主要結(jié)構(gòu)如圖 2所示,將主要代碼開源在http://github.com/FudanNLP/UNet。U-Net包含四個主要模塊: 統(tǒng)一編碼模塊,多級注意力[13](multi-level attention)模塊,信息融合模塊和預(yù)測模塊(pointer)。我們首先將問題和文章的詞向量表示與U節(jié)點(diǎn)拼接在一起;再將它們的嵌入表示通過BiLSTM[14]對整個序列進(jìn)行編碼;再通過注意力機(jī)制進(jìn)行信息交互;然后,將詞向量信息及注意力機(jī)制產(chǎn)生的信息通過自注意力機(jī)制(self attention)[8]進(jìn)行融合;最后將融合后的信息送入預(yù)測模塊進(jìn)行多任務(wù)訓(xùn)練。在U-Net中,U節(jié)點(diǎn)(universal node)對于模型效果的提升起到至關(guān)重要的作用,我們在交互層將問題和文章分開編碼,并通過注意力機(jī)制將問題和文章的信息分別融合進(jìn)U節(jié)點(diǎn),在融合層通過自注意力機(jī)制融合文章和問題的全部信息,在統(tǒng)一編碼層、交互層和融合層中,雙向LSTM也會通過隱藏單元將問題和文章的信息傳遞給U節(jié)點(diǎn)。U-Net的U在這里有一個雙關(guān)的解釋,既是表達(dá)U(universal)節(jié)點(diǎn)在本模型中的獨(dú)特地位,也用于區(qū)分流水線式的模型,突出我們使用統(tǒng)一(universal)的模型來解決SQuAD 2.0中提出的問題。
圖2 U-Net模型結(jié)構(gòu)
下面將詳細(xì)描述我們的模型。
模型有一個U節(jié)點(diǎn),該節(jié)點(diǎn)的信息在預(yù)測問題Q是否可回答時發(fā)揮關(guān)鍵作用。我們希望該節(jié)點(diǎn)能夠?qū)W習(xí)文章和問題之間的相關(guān)性信息。U節(jié)點(diǎn)在詞嵌入階段放在問題和文章之間,用于連接問題和文章的表示,并在后面的交互階段被問題和文章共享,訓(xùn)練過程中使其擁有抽象的全局語義信息,而不僅僅是一個分割符。U節(jié)點(diǎn)在訓(xùn)練之前被隨機(jī)初始化成d維向量表示。
將問題表示、U節(jié)點(diǎn)表示和文章表示拼接在一起表示為V,如式(1)、式(2)所示。
我們用兩層雙向LSTM(BiLSTM)[10]對問題、U節(jié)點(diǎn)和文章的嵌入表示進(jìn)行處理,如式(3)、式(4)所示。
其中,Hl是第一個BiLSTM的輸出,表示低層語義信息,Hh是第二個BiLSTM的輸出,表示高層語義信息。
最后,我們將Hl和Hh連接在一起,并將它們傳遞給第三個BiLSTM,以獲得更全面信息的表示Hf,如式(5)所示。
令H=[Hl;Hh;Hf] 表示各層語義的融合信息。由于我們使用BiLSTM對信息進(jìn)行雙向的編碼,位于問題和文章之間的U節(jié)點(diǎn)即hm+1可以融合問題和文章信息。
為了充分融合問題和文章的語義信息,我們使用注意力機(jī)制[16](attention)來捕獲它們在不同級別上的相關(guān)性。在H上全部使用自注意力機(jī)制[8]效果稍差,因此本文設(shè)計的U-Net的交互層采用多層注意力機(jī)制。
我們首先將H分為兩段: 帶有U節(jié)點(diǎn)的文章表示Hp和帶有U節(jié)點(diǎn)的問題表示Hq,其中U節(jié)點(diǎn)由問題和文章共享,U節(jié)點(diǎn)在下式中表示為hm+1。
U節(jié)點(diǎn)共享可以使其處于特殊的地位,問題和文章的信息均可通過注意力機(jī)制發(fā)送到U節(jié)點(diǎn)上。
我們參考FusionNet[3],同樣設(shè)置三次注意力計算用于融合編碼層提供的不同級別的語義信息。以第一級為例,下面是計算方法。
首先計算問題和文章的相關(guān)性得分S,如式(8)所示。
其中,W1和W2是可學(xué)習(xí)的參數(shù)。
其中,“×”是按列相乘。
經(jīng)過交互層的信息交互,問題和文章產(chǎn)生交互信息。為了充分利用每個單詞的歷史信息,我們采納DenseNet[17]的做法,將歷史相關(guān)信息依次拼接起來作為下一層的輸入。
首先,通過BiLSTM對拼接起來的歷史信息進(jìn)行融合,獲得HA,如式(11)所示。
然后將原始的詞嵌入表示V和HA連接起來得到A,如式(2)所示。
其次,使用自注意力機(jī)制融合所有信息,如式(13)所示。
此時獲得的O是所有信息的最終融合表示。
我們將O分成OQ和OP兩部分,分別代表文章的融合信息,如式(15)、式(16)所示。
此時U節(jié)點(diǎn)表示(om+1)僅在文章表示OP中出現(xiàn),這是因?yàn)殛P(guān)于U節(jié)點(diǎn)的信息融合過程已經(jīng)完成,當(dāng)問題無法回答時,我們需要用U節(jié)點(diǎn)在文章表示中充當(dāng)無答案的占位符。
預(yù)測層接收文章OP和問題OQ的融合信息,最終預(yù)測下面三個任務(wù): ①答案選擇; ②無答案指示; ③答案驗(yàn)證。
首先,我們采納Match-LSTM[18]的做法將問題表示OQ壓縮為固定尺寸的表示cq,如式(17)所示。
2.4.1 答案選擇
當(dāng)問題可以回答時,采用指針網(wǎng)絡(luò)結(jié)構(gòu)[19]來指示答案在文章的開始和結(jié)尾位置。我們采用αi和βi計算開始和結(jié)束的概率,其中“∝”表示正比于,在這里對所有位置的值進(jìn)行歸一化處理以滿足其概率意義。
當(dāng)問題可回答時,我們不考慮U節(jié)點(diǎn),此時,i>0(i=0指示U節(jié)點(diǎn))。
當(dāng)問題可以回答時答案選擇的損失函數(shù)定義如式(20)所示。
其中,a和b是答案在原文中的開始和結(jié)束位置。
2.4.2 無答案判定
對于無法回答的問題,我們將答案選擇損失定義為,如式(21)所示。
其中,α0和β0對應(yīng)于U節(jié)點(diǎn)的位置,該位置在文章表示Op的最前面。
此外,由于在SQuAD 2.0中針對每個無法回答的問題都設(shè)置了一個疑似答案,因此我們引入一個額外損失來預(yù)測疑似答案的邊界。疑似答案指針與答案選擇部分具有相同的結(jié)構(gòu)。加入疑似答案選擇后的無答案判定損失函數(shù)如式(22)所示。
(22)
其中,α′和β′是疑似答案的概率分布,a*和b*是疑似答案的開始和結(jié)束位置。
2.4.3 答案驗(yàn)證
答案驗(yàn)證模塊用來判別問題是否可以回答,驗(yàn)證答案是否正確。與預(yù)測層類似,將文章中答案的開始和結(jié)束信息分別壓縮成固定維度的向量,如式(23)、式(24)所示。
然后,把U節(jié)點(diǎn)表示(om+1)與問題和文章的摘要拼接起來,如式(25)所示。
其中,F(xiàn)用于分類,以驗(yàn)證問題是否可以回答,如式(26)所示。
其中,σ是S形函數(shù),Wf是可學(xué)習(xí)的權(quán)重矩陣。
最終的答案驗(yàn)證部分的損失如式(27)所示。
LAV=-(δ·logpc+(1-δ)·(log(1-pc)))
(27)
其中,δ表示問題在文章中是否有答案,當(dāng)存在答案時取1,不存在答案時取0。
我們將三個損失函數(shù)同時訓(xùn)練,最終損失函數(shù)如式(28)所示。
其中,LA,LNA和LAV分別表示答案選擇、無答案判別和答案驗(yàn)證三個部分的損失函數(shù),這里的δ同樣表示是否存在答案,LA和LNA在一個實(shí)例中只有一個有效。
在測試階段,答案選擇器查找問題的潛在答案,而答案驗(yàn)證器則判斷問題是否可回答。如果答案驗(yàn)證器預(yù)測問題可以回答,則認(rèn)為答案選擇器提取的答案是合理的。
本文主要在SQuAD 2.0數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)以分析模型性能,并在第一屆“萊斯杯”中文軍事智能閱讀理解競賽中驗(yàn)證我們的模型。
2018年發(fā)布的機(jī)器閱讀理解數(shù)據(jù)集SQuAD 2.0[2]是由SQuAD 1.1[1]擴(kuò)充加入一些無法回答的問題而構(gòu)建的。這些問題無法僅憑文章內(nèi)容回答,但問題形式與可回答問題相同。將這些問題與可回答的問題區(qū)分開來是一項有挑戰(zhàn)的工作。
第一屆“萊斯杯”中文軍事智能閱讀理解競賽問題和文章形式與SQuAD 1.1類似,如圖 3所示,不存在不能回答的問題。
圖3 中文軍事智能閱讀理解競賽示例
我們使用Spacy處理問題和文章獲得其詞性(POS)和命名實(shí)體識別(NER)標(biāo)簽。作者使用12維的POS標(biāo)簽嵌入,使用8維的NER標(biāo)簽嵌入[15]。本文還引入3維詞級別匹配標(biāo)識: 問題和文章的詞是否精確匹配、忽略小寫之后是否匹配和詞原型是否匹配。
本文在SQuAD 2.0中使用100維GloVe預(yù)訓(xùn)練詞向量和1 024維Elmo詞向量,在中文閱讀理解競賽中只使用200維GloVe詞向量。模型中所有的LSTM都是雙向的,將隱藏層維度設(shè)置為125,注意力機(jī)制的隱藏層維度設(shè)置為250。
本文在所有層上添加了一個隨機(jī)丟棄層[20],其丟棄率為0.3。使用學(xué)習(xí)率為0.002的Adam[21]優(yōu)化器。在訓(xùn)練和測試過程中,對于超長文本,只截取文章的前400個詞、問題的前50個詞。
各個主流模型在SQuAD 2.0數(shù)據(jù)集上的表現(xiàn)如表 1所示,我們的模型EM與F1指標(biāo)均顯著高于除BERT外的所有模型,由于具有競賽性質(zhì),本文還報告了各個模型的集成學(xué)習(xí)效果,這里使用的集成學(xué)習(xí)方法為Bagging方法,隨機(jī)采樣訓(xùn)練集80%的數(shù)據(jù)訓(xùn)練6次模型,分別使用訓(xùn)練好的模型對測試集中的問題計算相應(yīng)答案,然后投票獲得最終結(jié)果。在“萊斯杯”中文軍事智能閱讀理解競賽中,由于不存在沒有答案的問題,我們在訓(xùn)練時只訓(xùn)練模型的答案選擇模塊,在競賽中我們的模型取得BLEU-4指標(biāo)第一、ROUGE-L指標(biāo)第四的成績,但由于其他參賽選手并未公開模型實(shí)現(xiàn)方法,故我們的實(shí)驗(yàn)對比開源的經(jīng)典模型,最終結(jié)果如表2所示。
表1 各模型在SQuAD 2.0上的表現(xiàn)
表2 各模型在第一屆“萊斯杯”中文軍事智能閱讀理解競賽上的表現(xiàn)
我們的模型在兩個機(jī)器閱讀理解數(shù)據(jù)集中均表現(xiàn)優(yōu)異,其中在中文軍事機(jī)器閱讀理解競賽中的表現(xiàn)與BERT相似,這可能是由于BERT預(yù)訓(xùn)練過程中并未遇到過大量的軍事語料,預(yù)訓(xùn)練與訓(xùn)練過程中的數(shù)據(jù)分布不匹配,使得BERT并未取得如在SQuAD這種通用領(lǐng)域數(shù)據(jù)集上如此明顯的優(yōu)勢,這種情況在罕見領(lǐng)域上表現(xiàn)會更加明顯。這說明基于傳統(tǒng)詞向量的方法在一些罕見領(lǐng)域更具有通用性。
本文還在SQuAD 2.0上對我們的模型做了消融試驗(yàn),用于測試模型中不同組件的作用,如表3所示。
表3 不同設(shè)置對U-Net性能的影響
當(dāng)我們不使用U節(jié)點(diǎn)對信息進(jìn)行匯總時,單模型的F1指標(biāo)下降2.6個百分點(diǎn),采用集成學(xué)習(xí)后也有2.4個百分點(diǎn)的下降,表明U節(jié)點(diǎn)在我們的模型中起到至關(guān)重要的作用。而U節(jié)點(diǎn)在做注意力計算時是否共享使用也對性能有一定影響。
在SQuAD 2.0數(shù)據(jù)集的訓(xùn)練集中,對于不可回答的問題提供了疑似答案,這對模型訓(xùn)練答案選擇模塊有幫助,如果在訓(xùn)練中不使用疑似答案,也會使單模型的F1指標(biāo)下降1.1個百分點(diǎn)。
如果交互層全部采用自注意力機(jī)制計算將使單模型F1值下降0.5%,這表明交互層的設(shè)計方式有助于模型學(xué)習(xí)到更多的信息。
SQuAD 2.0包含答案選擇和驗(yàn)證問題是否可以回答兩個任務(wù),通過實(shí)驗(yàn)驗(yàn)證,兩個任務(wù)在一起訓(xùn)練時如何相互影響,如表 4所示。EM*和F1*表示不考慮不可回答問題時的EM和F1分?jǐn)?shù)。當(dāng)Loss取L時表示同時訓(xùn)練答案選取和答案驗(yàn)證(判斷問題是否有答案)部分,當(dāng)Loss取LAV時表示只訓(xùn)練答案驗(yàn)證部分,當(dāng)Loss取LA時表示只訓(xùn)練答案選擇部分。
表4 任務(wù)之間相互影響實(shí)驗(yàn)
對于答案選擇任務(wù),我們發(fā)現(xiàn)聯(lián)合訓(xùn)練答案驗(yàn)證對其性能沒有幫助。但是在驗(yàn)證問題是否可回答時,聯(lián)合訓(xùn)練答案選擇部分比只訓(xùn)練驗(yàn)證部分準(zhǔn)確率提高13.1%,說明找答案過程對于判斷問題是否有答案有很大幫助,而這種優(yōu)勢是流水線式的模型所不具備的。
針對SQuAD 2.0中存在根據(jù)文章內(nèi)容回答不了的問題,本文提出了一個端到端的模型U-Net,該模型在SQuAD 2.0數(shù)據(jù)集上取得了除大規(guī)模預(yù)訓(xùn)語言模型如BERT外的最好結(jié)果,在“萊斯杯”中文軍事智能閱讀理解競賽的數(shù)據(jù)集上BLEU-4指標(biāo)得分優(yōu)于所有參賽模型。BERT需要巨大的計算資源才能完成計算,而我們的模型只需要BERT模型參數(shù)的1/34即可有效解決問題。
未來工作中,我們將充分挖掘U-Net的潛力,使其適用于所有的對于兩段文本建模的任務(wù),如自然語言推理、語義匹配等。當(dāng)前流行的基于大規(guī)模預(yù)訓(xùn)練語言模型的BERT類模型有其特有的優(yōu)勢,我們的輕量級模型擁有與BERT類似的模型結(jié)構(gòu),下一步將采納知識蒸餾[25]的方法,將BERT的知識蒸餾到U-Net中,以在更多的領(lǐng)域獲得更好的表現(xiàn)。