国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)圖節(jié)點(diǎn)的圖神經(jīng)網(wǎng)絡(luò)多跳閱讀理解研究

2022-01-14 03:02歐陽(yáng)智杜逆索
計(jì)算機(jī)工程 2022年1期
關(guān)鍵詞:段落文檔實(shí)體

舒 沖,歐陽(yáng)智,杜逆索,,何 慶,魏 琴

(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025;2.貴州大學(xué)貴州省大數(shù)據(jù)產(chǎn)業(yè)發(fā)展應(yīng)用研究院,貴陽(yáng) 550025)

0 概述

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,機(jī)器閱讀理解(Machine Reading Comprehension,MRC)成為自然語(yǔ)言處理領(lǐng)域的熱門研究課題,受到了越來(lái)越多的關(guān)注。機(jī)器閱讀理解需要根據(jù)給定的上下文來(lái)回答與其相關(guān)聯(lián)的問(wèn)題,因此要求模型既要理解上下文的語(yǔ)義語(yǔ)境等信息,又要能夠識(shí)別出哪些信息與問(wèn)題相關(guān),從而進(jìn)行最終的問(wèn)題推斷。早期的機(jī)器閱讀理解工作[1-3]主要針對(duì)的問(wèn)題是答案在單個(gè)段落的單個(gè)句子或多個(gè)句子中。然而,在實(shí)際應(yīng)用中大量問(wèn)題的答案不能僅由單個(gè)段落進(jìn)行推斷,而應(yīng)由多個(gè)段落進(jìn)行整合后回答。因此,多段落閱讀理解的研究開始受到廣泛關(guān)注。

多段落推理的傳統(tǒng)方法主要是單獨(dú)對(duì)每個(gè)段落進(jìn)行答案抽取,最終輸出可能性最大的答案。CHEN 等[4]基于Wikipedia,采用文章檢索模塊提取與問(wèn)題相關(guān)的文章并切分成為段落,再利用文章閱讀模塊從提取文章的每個(gè)段落中進(jìn)行答案搜索。CLARK 等[5]從文檔中抽取多個(gè)段落,分別計(jì)算每一個(gè)段落的置信度分?jǐn)?shù),選擇置信度分?jǐn)?shù)最高的段落,從中進(jìn)行答案提取,在多個(gè)數(shù)據(jù)集中取得了不錯(cuò)的效果。萬(wàn)靜等[6]提出多段落排序BiDAF(PR-BiDAF)模型,通過(guò)對(duì)多個(gè)段落與問(wèn)題之間進(jìn)行相關(guān)度匹配,選取相關(guān)度最高的段落進(jìn)行答案提取。然而,這些方法都只是將段落看成單獨(dú)的個(gè)體,忽視了段落與段落間的關(guān)聯(lián),無(wú)法得到段落間更復(fù)雜的信息。

針對(duì)多段落之間的信息交互問(wèn)題,還需要一種可以更好地獲取段落與段落之間交互信息的方法,以實(shí)現(xiàn)多跳信息連接。吳睿智等[7-8]通過(guò)實(shí)驗(yàn)證明圖神經(jīng)網(wǎng)絡(luò)可以很好地運(yùn)用在自然語(yǔ)言處理任務(wù)中,并且能夠有效提升網(wǎng)絡(luò)性能。針對(duì)多跳問(wèn)題,基于圖神經(jīng)網(wǎng)絡(luò)的相關(guān)研究[9-11]主要通過(guò)構(gòu)建實(shí)體圖來(lái)聚合信息實(shí)現(xiàn)多跳閱讀理解。實(shí)體圖一般由多個(gè)節(jié)點(diǎn)以及節(jié)點(diǎn)之間相連的邊所構(gòu)成,而節(jié)點(diǎn)的選取則是模型取得優(yōu)良效果的關(guān)鍵。CHEN 等[12]通過(guò)抽取支撐文檔中的句子構(gòu)建多條推理鏈,將支撐文檔中的句子作為圖中的節(jié)點(diǎn),通過(guò)聚合句子中的相關(guān)信息進(jìn)行問(wèn)題推理回答。TU 等[13]抽取問(wèn)題中的實(shí)體與候選詞在文章中對(duì)應(yīng)的實(shí)體以及每個(gè)支撐文檔作為圖的節(jié)點(diǎn),構(gòu)建包含多種節(jié)點(diǎn)與邊關(guān)系的異質(zhì)文檔實(shí)體圖(HDE),在實(shí)體圖中聚合多粒度信息實(shí)現(xiàn)節(jié)點(diǎn)信息傳遞進(jìn)行答案推理。然而,聚合多種信息往往會(huì)導(dǎo)致實(shí)體圖中信息量過(guò)多,使得模型容易受到不相關(guān)信息的干擾。DE CAO 等[10]僅將在支撐文檔中出現(xiàn)過(guò)的候選詞作為實(shí)體,建立實(shí)體關(guān)系圖并通過(guò)候選詞節(jié)點(diǎn)之間的信息傳遞進(jìn)行問(wèn)題推理。CAO 等[14]在文獻(xiàn)[10]的基礎(chǔ)上引入雙向注意力機(jī)制用于問(wèn)題與候選詞節(jié)點(diǎn)之間的雙向信息交互,生成問(wèn)題感知節(jié)點(diǎn)表示用于最終結(jié)果推斷。這些方法相對(duì)提取的實(shí)體種類更少,雖然效率較高,但也會(huì)導(dǎo)致實(shí)體圖在初始階段缺乏關(guān)鍵信息,或是所得到的信息量不足,使得模型在推理過(guò)程中無(wú)法得到正確的結(jié)果。

現(xiàn)有研究在實(shí)體提取方面大多數(shù)基于簡(jiǎn)單的字符串匹配來(lái)查找文中的相關(guān)實(shí)體,這樣會(huì)使不少隱含在文中的實(shí)體無(wú)法被提取出來(lái),導(dǎo)致相關(guān)信息的缺失。此外,已有模型很少關(guān)注疑問(wèn)實(shí)體與候選詞實(shí)體之間的信息交互,而通常疑問(wèn)實(shí)體所在的支撐文檔包含的信息量會(huì)遠(yuǎn)遠(yuǎn)大于其他文檔,提取該支撐文檔中出現(xiàn)的所有疑問(wèn)實(shí)體作為新的節(jié)點(diǎn)類型加入到實(shí)體圖中,可以使得實(shí)體圖中包含更多與問(wèn)題相關(guān)聯(lián)的信息,從而使得模型可以更加準(zhǔn)確有效地得到最終的推斷結(jié)果。

本文提出基于改進(jìn)圖節(jié)點(diǎn)的圖神經(jīng)網(wǎng)絡(luò)多跳閱讀理解模型。首先,采用基于指代詞的實(shí)體提取方法進(jìn)行實(shí)體提取,增加更多的相關(guān)節(jié)點(diǎn)參與到實(shí)體圖中進(jìn)行信息傳遞。然后,將疑問(wèn)實(shí)體作為實(shí)體圖中新的節(jié)點(diǎn)類型,參與到圖卷積操作中豐富節(jié)點(diǎn)的種類。對(duì)于不能直接與候選詞節(jié)點(diǎn)相連的疑問(wèn)實(shí)體,提取出疑問(wèn)實(shí)體所在支撐文檔中的所有實(shí)體,將這些實(shí)體經(jīng)過(guò)篩選后,作為疑問(wèn)實(shí)體關(guān)聯(lián)實(shí)體參與到實(shí)體圖中進(jìn)行信息傳遞。通過(guò)將疑問(wèn)實(shí)體、關(guān)聯(lián)實(shí)體與候選詞實(shí)體相連使得疑問(wèn)實(shí)體間接與候選詞實(shí)體相連。最后,對(duì)實(shí)體圖中的節(jié)點(diǎn)進(jìn)行圖卷積操作,計(jì)算圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)輸出結(jié)果與問(wèn)題的雙向注意力,并通過(guò)與其他模型的對(duì)比實(shí)驗(yàn)驗(yàn)證本文模型的有效性。

1 本文模型

本文提出的基于改進(jìn)圖節(jié)點(diǎn)的圖神經(jīng)網(wǎng)絡(luò)多跳閱讀理解模型如圖1 所示,主要包括實(shí)體圖構(gòu)建模塊、上下文語(yǔ)義信息嵌入模塊、GCN 推理模塊、信息交互模塊、預(yù)測(cè)模塊等5 個(gè)模塊。

圖1 基于改進(jìn)圖節(jié)點(diǎn)的圖神經(jīng)網(wǎng)絡(luò)多跳閱讀理解模型框架Fig.1 Framework of multi-hop reading comprehension model based on graph neural network with improved graph nodes

1.1 實(shí)體圖構(gòu)建模塊

1.1.1 基于指代詞的實(shí)體提取方法

傳統(tǒng)字符串匹配提取實(shí)體的方法在實(shí)際提取實(shí)體的過(guò)程中,會(huì)導(dǎo)致大量相關(guān)實(shí)體的缺失。例如,英文人名中可能將名稱簡(jiǎn)寫或者是使用別名等,如問(wèn)題句“participant of juan rossell”,其 中“juan rossell”為疑問(wèn)實(shí)體,但是在支撐文檔中,“juan rossell”對(duì)應(yīng)的全名是“Juan Miguel Rossell Milanes”,如果此時(shí)采用傳統(tǒng)的字符串匹配方法直接進(jìn)行字符串匹配,那么將無(wú)法提取到這些實(shí)體或者遺失掉某些實(shí)體其他支撐文檔中的對(duì)應(yīng)實(shí)體。因此本文針對(duì)這一問(wèn)題,提出基于指代詞的實(shí)體提取方法,該方法從支撐文檔中提取出更多的相關(guān)實(shí)體,增加更多相關(guān)實(shí)體節(jié)點(diǎn)參與實(shí)體圖中進(jìn)行信息交互,使得實(shí)體圖可以包含更多的信息量,有利于最終的問(wèn)題推斷。

1.1.2 基于問(wèn)題關(guān)聯(lián)實(shí)體的實(shí)體圖構(gòu)建

通過(guò)基于指代詞的實(shí)體提取方法獲得在文章中所出現(xiàn)的候選詞節(jié)點(diǎn)與疑問(wèn)實(shí)體節(jié)點(diǎn),再用提取出的節(jié)點(diǎn)構(gòu)建實(shí)體圖,如圖2 所示。然而,在實(shí)際構(gòu)建實(shí)體圖的過(guò)程中,由于不是每個(gè)疑問(wèn)實(shí)體都能與候選詞實(shí)體相連,導(dǎo)致疑問(wèn)實(shí)體不能參與到最終的圖卷積網(wǎng)絡(luò)中,使得實(shí)體圖中缺乏包含問(wèn)題的關(guān)鍵信息。對(duì)于不能與候選詞實(shí)體相連的疑問(wèn)實(shí)體,提取出該疑問(wèn)實(shí)體所在支撐文檔中的所有實(shí)體,經(jīng)過(guò)篩選后作為疑問(wèn)實(shí)體關(guān)聯(lián)實(shí)體參與實(shí)體圖的構(gòu)建。通過(guò)加入新的節(jié)點(diǎn)類型使得疑問(wèn)實(shí)體節(jié)點(diǎn)與候選詞節(jié)點(diǎn)間接相連,從而使疑問(wèn)實(shí)體節(jié)點(diǎn)中的信息在實(shí)體圖中進(jìn)行信息傳遞,最終得到的實(shí)體圖如圖3 所示。

圖2 WikiHop 樣本實(shí)體圖構(gòu)建Fig.2 Construction of WikiHop sample entity graph

圖3 基于問(wèn)題關(guān)聯(lián)實(shí)體的實(shí)體圖構(gòu)建Fig.3 Construction of entity graph based on problem-related entities

實(shí)體圖中邊的定義如下:1)出現(xiàn)在同一支撐文檔中的實(shí)體相連;2)出現(xiàn)在不同文檔中,屬于同一個(gè)實(shí)體的節(jié)點(diǎn)相連。值得注意的是,這些邊都是無(wú)向邊,沒(méi)有在邊上賦予特殊的權(quán)值。通過(guò)構(gòu)建實(shí)體關(guān)系圖,將支撐文檔的上下文語(yǔ)義信息轉(zhuǎn)換成圖關(guān)系節(jié)點(diǎn)。最終得到N個(gè)節(jié)點(diǎn){Ni},1≤i≤N,這些節(jié)點(diǎn)都是通過(guò)上述邊的定義方式來(lái)進(jìn)行連接。

1.2 上下文語(yǔ)義信息嵌入模塊

通過(guò)使用ELMO 詞嵌入預(yù)處理模型[15]對(duì)提取到的候選詞實(shí)體、疑問(wèn)實(shí)體、疑問(wèn)實(shí)體關(guān)聯(lián)實(shí)體進(jìn)行編碼,得到這些實(shí)體節(jié)點(diǎn)與上下文語(yǔ)義相關(guān)的信息,從而將支撐文檔中所包含的信息轉(zhuǎn)化成文檔中各個(gè)實(shí)體節(jié)點(diǎn)的信息。此外,ELMO 模型還可以根據(jù)上下文特征動(dòng)態(tài)地調(diào)整詞嵌入,能夠有效地解決大規(guī)模文本數(shù)據(jù)集下一詞多義的現(xiàn)象。由于每個(gè)實(shí)體節(jié)點(diǎn)中可能包含的單詞數(shù)量不止一個(gè),因此對(duì)每個(gè)節(jié)點(diǎn)中所包含的單詞向量都進(jìn)行最大池化與平均池化操作,再將獲得的特征向量進(jìn)行拼接,得到最終的每個(gè)節(jié)點(diǎn)信息表示向量,如式(1)所示:

其中:dnode表示節(jié)點(diǎn)最終的特征向量;dmax-pool表示經(jīng)過(guò)最大池化操作后的節(jié)點(diǎn)特征向量;dmean-pool表示經(jīng)過(guò)平均池化操作后的節(jié)點(diǎn)特征向量。

1.3 GCN 推理模塊

通過(guò)將經(jīng)過(guò)上下文語(yǔ)義信息嵌入模塊編碼后的特征向量輸入至圖神經(jīng)網(wǎng)絡(luò)中,得到圖中節(jié)點(diǎn)的原始向量。由于每個(gè)節(jié)點(diǎn)都會(huì)與多個(gè)節(jié)點(diǎn)相連,因此要求節(jié)點(diǎn)有選擇性地獲取相鄰節(jié)點(diǎn)的信息,在進(jìn)行信息傳遞時(shí)可以在實(shí)體圖中傳遞最為相關(guān)的信息,模型采用門機(jī)制的圖卷積網(wǎng)絡(luò)(G-GCN)來(lái)進(jìn)行推理操作。

在圖神經(jīng)網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的信息按照式(2)進(jìn)行傳遞:

在各個(gè)節(jié)點(diǎn)進(jìn)行信息傳遞后,使用Sigmoid 激活函數(shù)對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行激活,如式(3)所示:

門機(jī)制使得節(jié)點(diǎn)在獲取其鄰居信息時(shí)更有選擇性,通過(guò)式(4)計(jì)算得到門更新單元,再把門更新單元代入式(5)可以得到使用門機(jī)制后的關(guān)系權(quán)重矩陣:

其中:flinear表示向量經(jīng)過(guò)一層全連接層后進(jìn)行線性轉(zhuǎn)換;表示門更新單元,用于更新同一個(gè)節(jié)點(diǎn)在圖神經(jīng)網(wǎng)絡(luò)中下一層隱藏層的權(quán)重矩陣。

基于門機(jī)制的GCN 節(jié)點(diǎn)信息傳遞如式(6)所示,因此在經(jīng)過(guò)門更新單元處理后,得到最終的節(jié)點(diǎn)隱藏層狀態(tài)。

其中:⊙表示矩陣對(duì)應(yīng)元素相乘。

在L層的圖卷積網(wǎng)絡(luò)中所有的參數(shù)都是共享的,每個(gè)節(jié)點(diǎn)的信息都會(huì)經(jīng)過(guò)L個(gè)節(jié)點(diǎn)的傳播,從而使節(jié)點(diǎn)完成L次跳躍的推理過(guò)程,并獲得這L次跳躍后的節(jié)點(diǎn)信息關(guān)系表示。

1.4 信息交互模塊

模型通過(guò)在問(wèn)題與節(jié)點(diǎn)的信息交互上使用雙向注意力機(jī)制,可以更好地獲取節(jié)點(diǎn)與問(wèn)題之間更多相互有關(guān)聯(lián)的信息,最大限度地豐富模型最終輸出向量的信息量。CAO 等[14]在BAG 模型中引入了雙向注意力機(jī)制,取得了不錯(cuò)的實(shí)驗(yàn)效果,證明了雙向注意力機(jī)制可以很好地運(yùn)用在圖神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)與問(wèn)題之間的信息交互。因此圖神經(jīng)網(wǎng)絡(luò)最終的輸出向量為Hl∈RM×d,初始節(jié)點(diǎn)特征向量為fl∈RM×d,M為節(jié)點(diǎn)數(shù)量,d為隱藏層維度,通過(guò)ELMO 編碼的問(wèn)題輸入向量為fq∈RN×d,N為問(wèn)題數(shù)量。通過(guò)式(7)求得相似度矩陣S∈RM×N:

其中:avg-1表示對(duì)flinear最后一維求平均值。

通過(guò)對(duì)問(wèn)題與圖神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行一次反向注意力運(yùn)算,得到節(jié)點(diǎn)-問(wèn)題的注意力表示,如式(8)所示:

其中:·表示矩陣相乘。

在得到節(jié)點(diǎn)-問(wèn)題的注意力表示后,計(jì)算問(wèn)題-節(jié)點(diǎn)的注意力表示,如式(9)所示:

其中:maxcol表示取相似度矩陣S中每一列的最大值,從而將相似度矩陣維度轉(zhuǎn)換為R1×N;dup(·)表示經(jīng)過(guò)M次復(fù)制后將S的維度轉(zhuǎn)換為RM×N。

最終將經(jīng)過(guò)這一模塊處理后的輸出向量輸入至預(yù)測(cè)模塊,進(jìn)行最后的答案預(yù)測(cè),如式(10)所示:

1.5 預(yù)測(cè)模塊

通過(guò)將最終信息交互模塊的輸出經(jīng)過(guò)兩層全連接層的轉(zhuǎn)換之后,得到每個(gè)節(jié)點(diǎn)作為答案的概率值,每個(gè)節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)候選詞,將每個(gè)候選詞所對(duì)應(yīng)的所有節(jié)點(diǎn)的概率相加,就是該候選詞作為答案的概率。由于答案選擇實(shí)際是一個(gè)多分類問(wèn)題,因此選擇多分類交叉熵?fù)p失函數(shù)作為模型的損失函數(shù),即:

當(dāng)答案預(yù)測(cè)正確時(shí)yi為1,否則為0,pi為預(yù)測(cè)候選詞所對(duì)應(yīng)的概率,如式(12)所示:

值得注意的是,由于在構(gòu)建實(shí)體圖時(shí)加入了很多非候選詞節(jié)點(diǎn),因此在實(shí)際計(jì)算答案概率時(shí)只會(huì)計(jì)算相關(guān)候選詞實(shí)體節(jié)點(diǎn)作為答案的概率,而不會(huì)計(jì)算疑問(wèn)實(shí)體節(jié)點(diǎn)與疑問(wèn)實(shí)體關(guān)聯(lián)實(shí)體節(jié)點(diǎn)作為答案的概率。

2 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文模型的有效性,在WikiHop 數(shù)據(jù)集的unmasked 版本中對(duì)其進(jìn)行驗(yàn)證測(cè)試。WikiHop 數(shù)據(jù)集是一個(gè)需要跨越多個(gè)文檔進(jìn)行多跳推理的閱讀理解數(shù)據(jù)庫(kù)。每一個(gè)WikiHop 的樣本有一個(gè)問(wèn)題Q,多個(gè)支撐文檔S={s1,s2,…,sn}和一個(gè)候選答案集C={c1,c2,…,cn},候選答案可以是單個(gè)單詞,也可以是多個(gè)單詞組成的名詞短語(yǔ),需要模型根據(jù)給定的問(wèn)題從中選出正確的答案。其中,訓(xùn)練集有43 738 條數(shù)據(jù),驗(yàn)證集有5 129 條數(shù)據(jù),測(cè)試集有2 451 條數(shù)據(jù),支撐文檔來(lái)自WikiReading[16]。

實(shí)驗(yàn)環(huán)境設(shè)置如下:操作系統(tǒng)為Ubuntu16.04,采用2 塊GTX Titan Xp 進(jìn)行數(shù)據(jù)并行處理,服務(wù)器運(yùn)行內(nèi)存為96 GB。在參數(shù)選擇上:ELMO 模型默認(rèn)選擇1 024 維;本文模型除了最終的輸出層神經(jīng)網(wǎng)絡(luò)維度為256 維外,其余的隱藏層維度均為512 維,圖卷積網(wǎng)絡(luò)層數(shù)L為5;訓(xùn)練集batch_size 設(shè)置為32,驗(yàn)證集batch_size 設(shè)置為16;初始學(xué)習(xí)率設(shè)置為2×10-4,為了防止模型過(guò)擬合,Dropout 設(shè)置為0.2。本文模型所需的實(shí)體圖數(shù)據(jù)與ELMO 詞向量嵌入均已在線下提前訓(xùn)練好,可以有效減少實(shí)際模型的訓(xùn)練時(shí)間。如表1 所示,實(shí)體圖中節(jié)點(diǎn)數(shù)量主要集中于小于500 這一區(qū)間,因此每個(gè)實(shí)體圖設(shè)置最大節(jié)點(diǎn)數(shù)為500。

表1 實(shí)體圖節(jié)點(diǎn)數(shù)量統(tǒng)計(jì)Table 1 Statistics of node number in entity graph

為驗(yàn)證本文模型的效能,分別通過(guò)在驗(yàn)證集和測(cè)試集上與基于圖神經(jīng)網(wǎng)絡(luò)的多跳閱讀理解模型(Entity-GCN[10]、MHQA-GRN[11]、HDE[13]、BAG[14]、Path-based GCN[17])、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的多跳閱讀理解模型(Coref-GRU[9]、EPAr18])、基于注意力機(jī)制的多跳閱讀理解模型(BiDAF[1]、CFC[19]、DynSAN[20])進(jìn)行比較,結(jié)果如表2 所示。由于本文模型是單模型,因此僅與已有單模型進(jìn)行比較,而不與融合模型進(jìn)行比較,評(píng)價(jià)指標(biāo)為準(zhǔn)確率。

表2 多跳閱讀理解模型準(zhǔn)確率比較Table 2 Comparison of accuracy of multi-hop reading comprehension models %

從表2 中的結(jié)果可以看出,與基于圖神經(jīng)網(wǎng)絡(luò)的多跳閱讀理解模型相比,本文模型在驗(yàn)證集中僅低于Path-based GCN 模型,但是在測(cè)試集上優(yōu)于所有基于GCN 的多跳閱讀理解模型,與其中準(zhǔn)確率最高的Path-based GCN 模型相比在驗(yàn)證集上提高了0.6 個(gè)百分點(diǎn),這表明了本文模型的可泛化性較強(qiáng)。在與其他非圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較時(shí),本文模型在驗(yàn)證集上準(zhǔn)確率僅低于DynSAN 模型,但在測(cè)試集上準(zhǔn)確率高出DynSAN 模型1.7 個(gè)百分點(diǎn)。以上比較結(jié)果表明:使用基于指代詞的實(shí)體提取方法提取出實(shí)體以構(gòu)建新型實(shí)體關(guān)系的實(shí)體圖可以有效地增加實(shí)體圖中所含的關(guān)鍵信息量,最終提升模型性能。

為驗(yàn)證本文模型中各模塊的有效性,在驗(yàn)證集上進(jìn)行模型消融實(shí)驗(yàn)來(lái)驗(yàn)證基于指代詞的實(shí)體提取方法與基于問(wèn)題關(guān)聯(lián)實(shí)體的實(shí)體圖構(gòu)建對(duì)于模型效果的影響,結(jié)果如表3 所示。由表3 中的結(jié)果可以看出:去除基于指代詞的實(shí)體提取模塊后,準(zhǔn)確率下降了1.9 個(gè)百分點(diǎn),說(shuō)明使用傳統(tǒng)方法在提取實(shí)體時(shí)會(huì)造成部分相關(guān)實(shí)體的缺失,導(dǎo)致模型推理效果下降;去除基于問(wèn)題關(guān)聯(lián)實(shí)體的實(shí)體圖模塊后,準(zhǔn)確率下降了1.5 個(gè)百分點(diǎn),證明了實(shí)體圖內(nèi)缺乏關(guān)鍵問(wèn)題信息會(huì)影響多跳推理的結(jié)果;去除GCN 模塊后,準(zhǔn)確率下降達(dá)到了4.8 個(gè)百分點(diǎn),說(shuō)明了圖卷積網(wǎng)絡(luò)能夠有效地促進(jìn)實(shí)體圖內(nèi)各個(gè)節(jié)點(diǎn)之間的信息交互;去除雙向注意力模塊后,準(zhǔn)確率下降了3.5 個(gè)百分點(diǎn),這證明了雙向注意力機(jī)制可以有效提升模型性能。

表3 多跳閱讀理解模型消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment for multi-hop reading comprehension models %

3 結(jié)束語(yǔ)

為解決實(shí)體圖內(nèi)缺乏關(guān)鍵問(wèn)題信息以及信息量冗余的問(wèn)題,本文提出基于改進(jìn)圖節(jié)點(diǎn)的圖神經(jīng)網(wǎng)絡(luò)多跳閱讀理解模型。采用基于指代詞的實(shí)體提取方法從支撐文檔中提取與問(wèn)題相關(guān)的實(shí)體,并將提取到的相關(guān)實(shí)體基于問(wèn)題關(guān)聯(lián)實(shí)體構(gòu)建實(shí)體圖。通過(guò)對(duì)圖節(jié)點(diǎn)進(jìn)行ELMO 編碼后使用G-GCN 模擬推理,最終計(jì)算推理信息與問(wèn)題信息的雙向注意力并進(jìn)行最終答案預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該模型相比現(xiàn)有多跳閱讀理解模型準(zhǔn)確率更高、泛化性能更強(qiáng)。后續(xù)將添加更多類型的節(jié)點(diǎn)和邊到實(shí)體關(guān)系圖中,使得實(shí)體關(guān)系圖可以包含更多的相關(guān)信息,進(jìn)一步增強(qiáng)模型推理能力。

猜你喜歡
段落文檔實(shí)體
淺談Matlab與Word文檔的應(yīng)用接口
趣味?讀寫練 答案
有人一聲不吭向你扔了個(gè)文檔
【短文篇】
心理小測(cè)試
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體書店步入復(fù)興期?
夏天,愛(ài)情的第四段落
Word文檔 高效分合有高招
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”