国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種融合圖結(jié)構(gòu)的閱讀理解答案預(yù)測方法*

2021-11-01 07:54譚紅葉屈保興
測試技術(shù)學(xué)報(bào) 2021年5期
關(guān)鍵詞:結(jié)點(diǎn)示例文本

譚紅葉,屈保興,李 茹

(山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)

0 引 言

機(jī)器閱讀理解(Machine Reading Comprehension,MRC),簡稱閱讀理解,是自然語言處理(Natural Language Processing, NLP)領(lǐng)域的一項(xiàng)重要任務(wù),該任務(wù)需要機(jī)器理解文本語義并回答相關(guān)問題. 近幾年,閱讀理解技術(shù)受到學(xué)術(shù)界和企業(yè)界的廣泛關(guān)注,并且在公開發(fā)布的眾多數(shù)據(jù)集的推動下取得了一系列進(jìn)展. 目前的閱讀理解方法主要基于深度學(xué)習(xí)框架. 如:Attentive Reader[1],Attention Sum Reader[2],BiDAF[3],R-Net[4],QANet[5]等模型都是利用多層神經(jīng)網(wǎng)絡(luò)體系架構(gòu)以迭代方式不斷加深對文章和問題的理解,并借助注意力機(jī)制使模型專注于文檔與問題相關(guān)的部分. 還有一些模型基于大規(guī)模預(yù)訓(xùn)練語言模型構(gòu)建,如基于BERT或XLNet的閱讀理解模型[6,7]. 預(yù)訓(xùn)練語言模型利用遷移學(xué)習(xí)的思想,在相關(guān)任務(wù)的大數(shù)據(jù)中預(yù)訓(xùn)練有效的模型,然后再遷移到目標(biāo)任務(wù)進(jìn)一步優(yōu)化,可大大提高模型的準(zhǔn)確率. 上述基于深度學(xué)習(xí)的模型在一些閱讀理解數(shù)據(jù)集上(如SQuAD[8])取得了很好的性能,但是,這些模型不能有效整合句子的句法結(jié)構(gòu)、句子間長距離的語義關(guān)系等信息,從而引起模型對問題和篇章理解不夠充分的局限. 圖 1 為一個機(jī)器閱讀理解示例,可以看出,機(jī)器需要基于句內(nèi)結(jié)構(gòu)對句子內(nèi)容進(jìn)行理解,同時還需理解句間關(guān)系才能對問題與篇章進(jìn)行建模,進(jìn)而正確回答所給問題.

圖 1 閱讀理解任務(wù)示例

受圖神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域獲得成功的啟發(fā),本文提出一種新的閱讀理解答案預(yù)測方法,該方法使用圖結(jié)構(gòu)建模句子內(nèi)部的句法結(jié)構(gòu)信息與句子之間的語義關(guān)系,同時與基于注意力機(jī)制獲得的問題與篇章的表示結(jié)合形成對篇章與問題更好的理解與表示. 同時,本文還結(jié)合閱讀理解任務(wù)涉及不同類型問題的特點(diǎn)(表1 所示為常見的3種問題類型),在模型中引入問題分類任務(wù),與問答任務(wù)形成多任務(wù)學(xué)習(xí)模型框架,進(jìn)一步優(yōu)化問題與文本表示. 本文在相關(guān)數(shù)據(jù)集上對所提模型進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文系統(tǒng)的性能超過了所有基線模型.

表1 閱讀理解任務(wù)常見問題類型示例

1 相關(guān)工作

1.1 閱讀理解

閱讀理解方法的發(fā)展變化與數(shù)據(jù)集的發(fā)展緊密相關(guān),主要經(jīng)歷了以下階段:

1) 基于規(guī)則方法的階段. 20世紀(jì)70年代,研究學(xué)者開始閱讀理解相關(guān)研究. 如:1977年,Lehnert[9]針對故事理解設(shè)計(jì)了基于手工編碼腳本的QUALM系統(tǒng). 90年代末,基于Hirschman發(fā)布的Remedia閱讀理解數(shù)據(jù)集,一些基于規(guī)則方法的系統(tǒng)被提出,如Deep Read系統(tǒng)[10]、Quarc系統(tǒng)[11],但這類模型僅可以處理淺層語言信息,且難以推廣到其他領(lǐng)域.

2) 基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的階段. 2013年后,在MCTest[12]與PROCESSBANK[13]數(shù)據(jù)集的支持下,一些基于傳統(tǒng)機(jī)器學(xué)習(xí)的模型被提出[14,15],它們大多基于最大間隔準(zhǔn)則來學(xué)習(xí)一個線性打分函數(shù)計(jì)算問題、選項(xiàng)與原文的相似度. 模型需要手工設(shè)計(jì)大量語言特征,如句法依存、共指消解、篇章關(guān)系、句子相似度等特征[16,17]. 但當(dāng)答案證據(jù)散布在整個文本時,從文本中構(gòu)建有效特征非常困難.

3) 基于深度學(xué)習(xí)方法的階段. 2015年后,隨著CNN/DailyMail[1]與SQuAD大規(guī)模閱讀理解數(shù)據(jù)集發(fā)布,以及深度學(xué)習(xí)領(lǐng)域的不斷創(chuàng)新與突破,閱讀理解方法開始轉(zhuǎn)為以深度學(xué)習(xí)技術(shù)為主. 如:Hermann等[1]提出基于注意力的LSTM模型Attentive Reader,Kadlec等[2]提出基于雙向GRU與Attention的模型Attention Sum Reader,Seo等[3]利用雙向注意力流網(wǎng)絡(luò)對問題和段落進(jìn)行編碼的閱讀理解模型BiDAF,Wang等[4]利用門控自匹配網(wǎng)絡(luò)獲得問題感知的整個文章的表示R-Net,Yu等[5]利用卷積和自我注意機(jī)制作為編碼器的構(gòu)造塊來表示問題和段落QANet,以及基于預(yù)訓(xùn)練語言模型BERT與XLNet的閱讀理解方法[6,7]. 基于深度學(xué)習(xí)的模型不需要手工構(gòu)建特征,避免了獲取語言特征帶來的噪聲;同時利用多層神經(jīng)網(wǎng)絡(luò)體系架構(gòu)以迭代方式不斷加深對文章和問題的理解,并借助注意力機(jī)制使模型專注于文檔中與問題相關(guān)的部分,因此在一些數(shù)據(jù)集上取得了很好的表現(xiàn),甚至接近或超過了人的預(yù)期表現(xiàn). 但研究表明,這些模型的語言理解與推理能力與人的預(yù)期還存在很大距離.

1.2 圖神經(jīng)網(wǎng)絡(luò)

圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNNs)最早由Scarselli等[18]提出,它擴(kuò)展了現(xiàn)有的神經(jīng)網(wǎng)絡(luò)來處理圖表示的數(shù)據(jù). 原始GNN只能處理最簡單的圖,該圖由帶有標(biāo)簽信息的結(jié)點(diǎn)和無向邊學(xué)習(xí)隱藏層表示來編碼圖的局部結(jié)構(gòu)和結(jié)點(diǎn)特征. 后來,不斷有一些GNN變體被提出,主要用于對不同類型的圖(如有向圖和異構(gòu)圖)進(jìn)行建模,以擴(kuò)展原始模型的表示能力解決不同領(lǐng)域問題. 如,Kipf等[19]在2017年提出圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCN),采用卷積操作進(jìn)行信息傳播運(yùn)算,實(shí)現(xiàn)對引文網(wǎng)絡(luò)和知識圖數(shù)據(jù)集的分類. Velickovic等[20]提出一種將注意機(jī)制融入信息傳播步驟的圖注意網(wǎng)絡(luò)(Graph Attention Networks,GAT),通過一種自注意機(jī)制關(guān)注節(jié)點(diǎn)鄰居來計(jì)算每個節(jié)點(diǎn)的隱藏狀態(tài).

圖神經(jīng)網(wǎng)絡(luò)用于自然語言處理中的許多任務(wù),如語義角色標(biāo)注[21]、句子關(guān)系提取[22]、文本分類[19,20]等. 還有學(xué)者將圖神經(jīng)網(wǎng)絡(luò)用于閱讀理解任務(wù). 如Ran等[23]提出一個閱讀理解模型NumNet,利用數(shù)字感知的圖神經(jīng)網(wǎng)絡(luò)比較信息,實(shí)現(xiàn)對問題和文章中的數(shù)字進(jìn)行數(shù)字推理;Ding等[24]提出一個多跳閱讀理解框架CogQA,該框架以認(rèn)知科學(xué)中的雙過程理論為基礎(chǔ),通過協(xié)同隱式提取模塊和顯式推理模塊,在迭代過程中逐步構(gòu)建認(rèn)知圖,并在認(rèn)知圖基礎(chǔ)上解答問題,該框架具體基于BERT和圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn).

與模型NumNet、CogQA類似的是,本文也將圖神經(jīng)網(wǎng)絡(luò)用于閱讀理解任務(wù),但與它們的不同之處在于:(1)任務(wù)類型不同. 模型NumNet、CogQA分別面向數(shù)字推理、多跳推理任務(wù),而本文面向的是更加通用的問題. (2)構(gòu)圖方式不同. 模型NumNet在構(gòu)圖中,將結(jié)點(diǎn)對應(yīng)問題與篇章中的數(shù)字、結(jié)點(diǎn)之間的邊反映數(shù)字之間的兩種關(guān)系:大于(>)、小于等于(≤). 模型CogQA構(gòu)建有向圖來對應(yīng)認(rèn)知圖,其中結(jié)點(diǎn)表示問題或篇章的實(shí)體,有向邊表示由前一結(jié)點(diǎn)到后一結(jié)點(diǎn)的聯(lián)想關(guān)系. 本文構(gòu)圖中,用結(jié)點(diǎn)對應(yīng)問題或篇章的實(shí)體,邊包括依存關(guān)系邊與詞性復(fù)現(xiàn)邊,反映句法結(jié)構(gòu)信息與句子間的語義關(guān)系.

2 本文方法

本文所提方法的模型框架如圖 2 所示,主要包括4個模塊:文本編碼與問題分類模塊、圖結(jié)構(gòu)模塊、交互模塊和答案預(yù)測模塊. 各模塊主要功能為:

圖 2 本文所提模型框架示意圖

1) 文本編碼與問題分類模塊:對輸入的問題和篇章進(jìn)行語義表示,并對問題進(jìn)行分類.

2) 圖結(jié)構(gòu)模塊:基于圖結(jié)構(gòu)對句法結(jié)構(gòu)與句子間的關(guān)系進(jìn)行建模,并形成圖表示.

3) 交互融合模塊:對圖表示與基于注意機(jī)制的表示進(jìn)行融合.

4) 答案預(yù)測模塊:預(yù)測所給問題的答案.

2.1 編碼與問題分類模塊

2.1.1 文本編碼模塊

該模塊對輸入文本進(jìn)行編碼,通過預(yù)訓(xùn)練模型BERT和Bi-direction 注意力機(jī)制來實(shí)現(xiàn).

模型采用預(yù)訓(xùn)練模型BERT的輸入方式:input=[CLS]+Q+[SEP]+D+[SEP],其中Q為問題,D為篇章,[SEP]為分隔符,[CLS]為整個輸入的聚合表示. 具體計(jì)算如式(1)所示

U=Bert(input),

(1)

為了加強(qiáng)模型對問題與篇章的理解,本文采用了類似于Seo 等[3]提出的雙向注意流模型來捕獲問題與篇章不同粒度的相關(guān)性,并更新問題與篇章的表示. 具體計(jì)算如式(2)所示

(2)

2.1.2 問題分類模塊

c=Concat(MeanPool(U),MaxPool(U)),

(3)

(4)

式中:wc、bc分別為權(quán)重與偏置,為可訓(xùn)練參數(shù).

2.2 圖結(jié)構(gòu)模塊

2.2.1 圖的構(gòu)建與初始化

構(gòu)建的圖可表示為G(E,A),其中E為圖的結(jié)點(diǎn)集合,k為圖結(jié)點(diǎn)的個數(shù),A為圖的邊集合.如果兩個結(jié)點(diǎn)之間有關(guān)系,則二者之間具有邊.

(5)

(6)

(7)

圖中的邊. 本任務(wù)涉及的邊有兩種:①句法關(guān)系邊. 當(dāng)一個句子中的兩個詞之間存在依存句法關(guān)系時,則兩個詞之間建立邊. 為了簡單,本文采用無向邊. ②共同詞性邊. 當(dāng)文本中的兩個詞具有相同詞性時,則兩詞之間建立連邊. 其中,句法關(guān)系邊依據(jù)依存關(guān)系對句子內(nèi)部結(jié)構(gòu)進(jìn)行建模,共同詞性邊通過詞性復(fù)現(xiàn)在句子之間建立關(guān)聯(lián). 詞匯復(fù)現(xiàn)是篇章中實(shí)現(xiàn)主題推進(jìn)與主題銜接的重要手段之一. 但由于機(jī)器閱讀理解任務(wù)中有時篇章比較短,重復(fù)詞比較少,因此,本文引入詞性關(guān)系邊,通過詞性的重復(fù)將不同句子關(guān)聯(lián)起來,同時也克服了圖稀疏的缺陷. 為了進(jìn)一步克服圖稀疏問題,我們還對依存關(guān)系進(jìn)行擴(kuò)展,將子節(jié)點(diǎn)僅依賴于父節(jié)點(diǎn)擴(kuò)展為子節(jié)點(diǎn)還依賴于父節(jié)點(diǎn)的父節(jié)點(diǎn),即兩層依存關(guān)系. 類似地,還可擴(kuò)展到三層、四層等多層依存關(guān)系.

當(dāng)兩個結(jié)點(diǎn)間有連邊時,其權(quán)重初始化為1. 圖中邊的確立過程如式(8)~式(10)所示

A=Adp∪Apos,

(8)

(9)

(10)

式中:Adp為依存關(guān)系邊集合,可以通過多層依存關(guān)系矩陣相乘得到;Apos為詞性關(guān)系邊集合.

2.2.2 圖注意神經(jīng)網(wǎng)絡(luò)

本文采用圖注意神經(jīng)網(wǎng)絡(luò)(GAT)來更新圖結(jié)點(diǎn)的表示. 首先,對圖結(jié)點(diǎn)做線性變換,通過加性注意力機(jī)制計(jì)算圖結(jié)點(diǎn)之間的注意力分?jǐn)?shù),并用LeakReLU做激活函數(shù),然后對每個圖結(jié)點(diǎn)所有邊的原始注意力分?jǐn)?shù)實(shí)現(xiàn)歸一化操作,得到注意力權(quán)重α,最后對所有相鄰節(jié)點(diǎn)的特征做基于注意力的加權(quán)求和來更新圖結(jié)點(diǎn). 具體計(jì)算為

(11)

(12)

(13)

(14)

2.3 交互融合模塊

該模塊對更新后的圖結(jié)點(diǎn)向量和文本表示向量進(jìn)行融合,具體采用Transformer[25]機(jī)制實(shí)現(xiàn):將向量表示映射為q、k、v,用縮放點(diǎn)積模型計(jì)算注意力得分,并基于多頭注意力機(jī)制將得到的結(jié)果進(jìn)行拼接,然后與最初的表示進(jìn)行殘差連接并進(jìn)行層歸一化. 具體實(shí)現(xiàn)為

(15)

H=Transformer(q,k,v),

(16)

式中:wq、wv、wv為線性變換矩陣;H∈Rl×d為融合圖結(jié)點(diǎn)和文本表示后得到的結(jié)果.

2.4 答案預(yù)測模塊

該模塊根據(jù)編碼模塊和交互模塊得到文本表示U與H進(jìn)行問題答案預(yù)測. 首先對兩部分表示進(jìn)行殘差連接,避免在多次迭代后梯度消失,然后進(jìn)行層歸一化[26],最后通過Softmax函數(shù)來預(yù)測文本作為答案的概率. 具體計(jì)算為

(17)

(18)

式中:Wa和ba分別為線性變換矩陣和偏置向量,為可訓(xùn)練參數(shù).

2.5 優(yōu)化函數(shù)

本文所提閱讀理解模型包括問題類型預(yù)測和答案預(yù)測兩部分,因此,損失函數(shù)包含兩部分

L=La+Lc,

(19)

(20)

Lc=-logPc(yc),

(21)

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集. 為了驗(yàn)證本文所提模型的有效性,選取更具挑戰(zhàn)性的“2020語言智能與智能技術(shù)評測”數(shù)據(jù)集DuReader-robust[27]作為實(shí)驗(yàn)數(shù)據(jù). 該數(shù)據(jù)集共包含15 K個樣本,其中的問題均為百度搜索中的真實(shí)用戶問題,文檔來自百度搜索結(jié)果中的普通網(wǎng)頁或百度知道中的問答頁面,涉及教育、交通、游戲、醫(yī)療等多個領(lǐng)域. 表2 給出了其中的3個示例. 示例1的問題為:“孕婦缺鐵對胎兒有什么影響?”,對應(yīng)的篇章為多個(每一段代表一個篇章),問題答案為2個,分別來自給定的前2個篇章中的片段,評測時模型只需給出其中一個答案即可. 示例2的問題為“喜歡你的票房?”,其中“喜歡你”是電影名,所給篇章包含多個數(shù)字,需要模型理解每個數(shù)字的意義才能正確答題. 示例3的問題為“漂洋過海來看你唐明和誰在一起?”,其中“漂洋過海來看你”為電視劇名,“唐明”為劇中人物名字,所給篇章包括多個人名,模型需要理解人名關(guān)系才能正確回答問題. 可以看出,DuReader-robust數(shù)據(jù)集比“2018閱讀理解技術(shù)競賽”中的DuReader數(shù)據(jù)集[28]更為復(fù)雜.

表2 Dureader-robust數(shù)據(jù)集示例

預(yù)處理. 實(shí)驗(yàn)中采用斯坦福發(fā)布的自然語言處理工具stanza[29]對數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注、依存句法分析等預(yù)處理.

參數(shù)設(shè)置. 模型實(shí)現(xiàn)時采用帶有權(quán)重衰減的自適應(yīng)動量估計(jì)算法(Adam Weight Decay Optimizer)作為優(yōu)化器來加快收斂. 主要參數(shù)設(shè)置:初始學(xué)習(xí)率為5e-5. 為防止過擬合,在模型多處添加了dropout網(wǎng)絡(luò),隱藏維度為768,最大輸入長度為384,doc_stride為128,圖結(jié)點(diǎn)數(shù)量為160. 實(shí)驗(yàn)訓(xùn)練批次大小為6,一共訓(xùn)練5輪.

3.2 實(shí)驗(yàn)結(jié)果

3.2.1 對比實(shí)驗(yàn)

實(shí)驗(yàn)中選取目前主流的閱讀理解模型作為基線模型與本文所提模型進(jìn)行對比. 選取的基線模型主要有:

BERT模型:這是由谷歌發(fā)布的預(yù)訓(xùn)練語言模型,該模型基于Transformer框架中的Encoder部分實(shí)現(xiàn),同時采用多個雙向轉(zhuǎn)換層和自注意機(jī)制來學(xué)習(xí)文本中詞之間的上下文關(guān)系. BERT在許多NLP任務(wù)(包括SQuAD閱讀理解任務(wù))上都有很好的表現(xiàn). 本文具體采用的是BERT-Base中文模型.

BERT_wwm模型[30]:該模型是對BERT模型的改進(jìn),將其中預(yù)訓(xùn)練任務(wù)中的掩碼語言模型(Masked LM)中的字掩蓋變成全詞掩蓋.

Roberta模型[31]:相比于BERT模型,該模型進(jìn)行了更長時間、更大批量、更多數(shù)據(jù)的訓(xùn)練,而且沒有采用下一句子預(yù)測的預(yù)訓(xùn)練任務(wù),動態(tài)改變應(yīng)用于訓(xùn)練數(shù)據(jù)的掩碼模式.

Albert模型[32]:該模型對BERT模型進(jìn)行壓縮,通過矩陣分解和跨層參數(shù)共享減少了參數(shù)量,加快了模型的訓(xùn)練速度.

Ernie模型(1.0)[33]:該模型是中文預(yù)訓(xùn)練語言模型. 實(shí)現(xiàn)時對預(yù)訓(xùn)練掩碼語言模型的任務(wù)進(jìn)行了改進(jìn),除了字掩蓋,還對詞、實(shí)體等語義單元進(jìn)行掩蓋,使模型可以學(xué)習(xí)完整概念的語義表示.

XLNet模型[7]:該模型為排列語言模型,綜合了自回歸模型和自編碼模型的優(yōu)點(diǎn),基于 transformer_xl 框架實(shí)現(xiàn). 該模型在20項(xiàng)任務(wù)上優(yōu)于BERT.

實(shí)驗(yàn)中采用的評價(jià)指標(biāo)為F1和EM(Exact Match),其中EM表示系統(tǒng)預(yù)測與真實(shí)答案之間的精確匹配度;F1表示單詞準(zhǔn)確率和召回率的調(diào)和平均值.

除了與baseline模型進(jìn)行對比,我們還對本文所提模型中圖結(jié)構(gòu)與問題分類任務(wù)對模型的影響做了研究. 實(shí)驗(yàn)結(jié)果如表3 所示.

表3 模型實(shí)驗(yàn)結(jié)果

表3 中,本文模型-DepEdge表示模型在圖中沒有考慮句法依存邊;本文模型-PosEdge表示模型在圖中沒有考慮詞性邊;本文模型-QClassification表示模型沒有引入問題分類任務(wù);本文模型-Graph表示模型中沒有融合圖結(jié)構(gòu);本文模型-QClassification-grgph表示模型既沒有融合圖結(jié)構(gòu)也沒有引入問題分類任務(wù). 從表3結(jié)果可以看出,本文所提方法在DuReader-robust數(shù)據(jù)集上取得了最好的結(jié)果,同時可以看出圖結(jié)構(gòu)與問題分類任務(wù)對模型性能的提升都有幫助. 其中,圖結(jié)構(gòu)對性能提升的幫助比問題分類模塊更大;圖結(jié)構(gòu)中,句法依存邊要比詞性邊的共現(xiàn)更大. 還可以看出,在所有baseline中,XLNet基線模型表現(xiàn)最好,說明模型中采用的自回歸與自編碼模型具有一定優(yōu)勢.

3.2.2 圖結(jié)構(gòu)消融實(shí)驗(yàn)

此外,還深入分析了對句法依存邊進(jìn)行不同擴(kuò)展以及不同詞性邊對系統(tǒng)性能的影響.

句法依存擴(kuò)展層數(shù)對性能的影響. 正如3.2節(jié)所述,為了緩解圖稀疏問題,我們對依存關(guān)系進(jìn)行擴(kuò)展,還分析了依存層數(shù)對實(shí)驗(yàn)結(jié)果的影響. 實(shí)驗(yàn)結(jié)果如圖 3 與表4 所示, 其中i_tu表示i層依存關(guān)系,可以看出,隨著依存關(guān)系層數(shù)的增加,系統(tǒng)性能提升,表明系統(tǒng)通過更多層的依存關(guān)系獲得更多詞匯之間的關(guān)系,對句子形成了更好的理解. 系統(tǒng)獲取6層依存關(guān)系構(gòu)圖時,F(xiàn)1值最高,系統(tǒng)獲取5層依存關(guān)系構(gòu)圖時,EM值最高. 結(jié)果說明,在一定依存關(guān)系層數(shù)后,模型已經(jīng)充分學(xué)習(xí)到了詞匯之間的依存關(guān)系.

(a) F1

(b) EM

表4 句法依存邊對系統(tǒng)性能的影響

詞性邊對系統(tǒng)性能的影響. 本文分析了不同詞性邊對系統(tǒng)性能的影響,具體實(shí)驗(yàn)結(jié)果如表5 所示,其中,Noun為名詞,Pnoun為專有名詞,Verb為動詞,Adj為形容詞,Pron為代詞,Num為數(shù)詞. 表5中,模型在名詞(包含專有名詞)邊的基礎(chǔ)上分別添加其他詞性邊進(jìn)行實(shí)驗(yàn),可以看出,當(dāng)系統(tǒng)中考慮所有詞性邊后,F(xiàn)1與EM均獲得最佳分值;系統(tǒng)添加不同詞性邊后,系統(tǒng)EM值都增加,但F1值有時會稍有下降(如添加代詞邊或動詞邊).

表5 詞性邊對系統(tǒng)性能的影響

表6 給出部分示例,這些示例本文模型可以正確回答,而BERT模型回答錯誤. 可以看出,通過不同的詞性邊,系統(tǒng)加強(qiáng)了句子之間的關(guān)聯(lián),形成了對句子語義與篇章更好的理解,因此模型給出了正確答案.

表6 結(jié)果示例

4 結(jié) 論

為了在閱讀理解模型中有效整合句法結(jié)構(gòu)、句子間長距離語義信息,本文嘗試?yán)脠D結(jié)構(gòu)對句子內(nèi)部的句法結(jié)構(gòu)與句子間的語義關(guān)系進(jìn)行建模,然后與基于注意力機(jī)制的表示進(jìn)行融合,最終形成對篇章與問題更好的理解與表示. 同時,本文還引入問題分類任務(wù),與閱讀理解問答任務(wù)形成多任務(wù)學(xué)習(xí)框架,進(jìn)一步優(yōu)化問題與文本的表示,使系統(tǒng)獲得了更好的答案預(yù)測準(zhǔn)確率. 相關(guān)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提方法取得了比基線模型更好的效果.

猜你喜歡
結(jié)點(diǎn)示例文本
基于八數(shù)碼問題的搜索算法的研究
2019年高考上海卷作文示例
常見單位符號大小寫混淆示例
在808DA上文本顯示的改善
常見單位符號大小寫混淆示例
基于doc2vec和TF-IDF的相似文本識別
“全等三角形”錯解示例
Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個數(shù)估計(jì)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本