国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多階段時(shí)序和語義信息增強(qiáng)的問題生成模型*

2023-10-24 03:00:34周菊香周明濤甘健侯
關(guān)鍵詞:解碼段落語義

周菊香,周明濤,甘健侯,徐 堅(jiān)

(1.云南師范大學(xué)民族教育信息化教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;2.云南師范大學(xué)云南省智慧教育重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3.曲靖師范學(xué)院信息工程學(xué)院,云南 曲靖 655011)

1 引言

自然語言處理中的問題生成研究主要聚焦在給定的段落和提示答案,生成語法正確、語義相關(guān)、可回答的問題。最近幾年,由于問題生成在各個(gè)領(lǐng)域都具有廣泛應(yīng)用,引起了越來越多研究人員的關(guān)注。在問答領(lǐng)域[1]中,問題生成作為問答的互補(bǔ)任務(wù),可以通過生成大規(guī)模的問答訓(xùn)練語料庫,進(jìn)一步改善問答的質(zhì)量。在教育領(lǐng)域[2]中,問題生成可以幫助教師生成大量的閱讀練習(xí)題,輔助教師完成教學(xué)評(píng)估。在會(huì)話系統(tǒng)和聊天機(jī)器人[3]中,問題生成可以作為開始對(duì)話或請(qǐng)求反饋的重要組件。

現(xiàn)有的問題生成方法主要分為傳統(tǒng)的基于規(guī)則的問題生成方法和基于神經(jīng)網(wǎng)絡(luò)的問題生成方法2類。傳統(tǒng)的問題生成方法[2]直接利用啟發(fā)式規(guī)則將陳述句轉(zhuǎn)換為疑問句,其嚴(yán)重依賴手工制作的規(guī)則和模板,導(dǎo)致生成的問題具有很大的局限性。為了提高模型的泛化能力,降低手工標(biāo)注數(shù)據(jù)的成本,人們希望開發(fā)出一種完全端到端數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)問題生成工具。隨著深度學(xué)習(xí)的發(fā)展以及當(dāng)前計(jì)算機(jī)算力的提高,基于端到端的問題生成技術(shù)成為可能。

最近,提出了各種用于研究問題生成的神經(jīng)網(wǎng)絡(luò)模型[4-10],其成為了目前問題生成研究中最流行的一種方法。這些模型和方法多數(shù)借鑒了機(jī)器翻譯[11]、文本生成[12]和摘要生成[13]的序列到序列任務(wù)。然而,這類基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列問題生成模型,未使用圖神經(jīng)網(wǎng)絡(luò)編碼段落信息,很容易忽略隱藏在段落中的語義結(jié)構(gòu)信息。針對(duì)這一問題,有些研究人員提出使用圖到序列的問題生成模型[14-18],但仍然存在序列信息和語義結(jié)構(gòu)信息丟失的問題。因此,為了有效防止在編碼和解碼不同階段出現(xiàn)的不同程度的信息丟失問題,本文提出了一種基于多階段時(shí)序和語義信息增強(qiáng)的MS-SIE(Multi-Stage temporal and Semantic Information Enhancement)模型。該模型首先將編碼器不同階段的編碼語義信息進(jìn)行融合;然后將融合后的段落信息經(jīng)過雙向長短時(shí)記憶BiLSTM(Bi-directional Long Short-Term Memory)網(wǎng)絡(luò)[19]編碼,得到增強(qiáng)的段落語義信息;最后將增強(qiáng)的段落語義信息與解碼階段隱藏在先前生成的文本問題中的語義結(jié)構(gòu)信息相結(jié)合,減少了解碼過程中語義結(jié)構(gòu)信息的丟失,從而生成高質(zhì)量的問題。

本文主要工作如下:

(1)通過將編碼器不同階段的段落編碼語義信息進(jìn)行融合,有效解決了編碼階段段落信息丟失的問題。

(2)通過引入迭代圖神經(jīng)網(wǎng)絡(luò)IGNN(Iterative Graph Neural Network),將增強(qiáng)的段落語義信息與解碼階段隱藏在先前生成的文本問題中豐富的語義結(jié)構(gòu)信息相結(jié)合,進(jìn)一步提高了問題生成的質(zhì)量。

(3)提出MS-SIE模型,并在SQuAD(Stanford Question Answering Dataset)[20]和MS MARCO(MicroSoft MAchine Reading COmprehension)[21]數(shù)據(jù)集上進(jìn)行自動(dòng)評(píng)估和人工評(píng)價(jià),結(jié)果顯示其具有顯著優(yōu)勢(shì)。

2 相關(guān)工作

現(xiàn)有的問題生成方法主要集中在序列到序列的問題生成,主要使用循環(huán)神經(jīng)網(wǎng)絡(luò)研究端到端的自動(dòng)問題生成。Du等[4]首次研究端到端的問題生成,使用基于注意力機(jī)制[22]的編碼器-解碼器框架[23]解決現(xiàn)有手工編織規(guī)則的問題生成。然而,這些生成的問題多數(shù)不能從所給的文本中找到答案。因此,Zhou等[5]通過提取答案的豐富特征,然后將其融入段落級(jí)文本中,最終利用指針復(fù)制機(jī)制[24]有效地提高了生成問題的質(zhì)量。Zhao等[6]提出門控自注意力機(jī)制[25]和最大指針機(jī)制來改善問題生成。然而,這些方法和模型并未有效地編碼目標(biāo)答案,無法更好地與段落信息進(jìn)行交互。因此,Kim等[7]提出了一種答案分離的序列到序列模型,將段落信息和答案分開處理,以便更好地利用段落和答案信息。之后,Song等[8]設(shè)計(jì)了一個(gè)利用多視角匹配的編碼器捕獲目標(biāo)答案與段落之間的信息,并利用強(qiáng)化學(xué)習(xí)進(jìn)一步改善模型。段建勇等[9]提出了2種語義增強(qiáng)策略改善問題生成,并分別編碼段落和答案信息。Zeng等[10]對(duì)目標(biāo)答案進(jìn)行擴(kuò)展,并在解碼階段通過將信息熵的不確定評(píng)分引入集束搜索,提高了生成問題的質(zhì)量。以上研究都是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列問題生成,推動(dòng)了端到端問題生成方法的發(fā)展。

由于基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列問題生成只能捕獲段落的時(shí)序依賴關(guān)系,無法有效捕獲段落中的語義結(jié)構(gòu)信息。因此,Chen等[14]在編碼器階段引入靜態(tài)圖和動(dòng)態(tài)圖捕獲文本的語義結(jié)構(gòu)信息,并結(jié)合強(qiáng)化學(xué)習(xí)改善生成問題的質(zhì)量。胡月等[15]在解碼端利用圖Transformer[26]和BERT(Bidirectional Encoder Representation from Transformers)[27]2個(gè)編碼層加強(qiáng)文本語義表示,能夠獲取足夠多的背景信息,生成更加豐富且多樣化的問題。Fei等[16]在解碼階段引入圖神經(jīng)網(wǎng)絡(luò),有效解決了先前解碼階段段落語義結(jié)構(gòu)信息丟失問題。Ma等[17]通過設(shè)計(jì)一個(gè)答案感知的段落表示模塊整合段落中的信息,并利用圖神經(jīng)網(wǎng)絡(luò)增強(qiáng)文本段落信息。最近,李亞峰等[18]提出了雙圖交互機(jī)制用于研究問題生成。以上采用了圖到序列的模型研究問題生成,但是依然存在序列信息和語義結(jié)構(gòu)信息丟失的問題。

3 基于多階段時(shí)序和語義信息增強(qiáng)的問題生成模型MS-SIE

3.1 模型結(jié)構(gòu)

(1)

本文所提模型結(jié)構(gòu)如圖1所示。首先,在嵌入層融入多種段落信息的特征,增強(qiáng)段落中詞匯的語義表示信息;然后,利用循環(huán)神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)和對(duì)齊機(jī)制等多種編碼機(jī)制對(duì)段落和答案進(jìn)行編碼;接著,將多個(gè)階段編碼的詞嵌入向量進(jìn)行融合,輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí);最后,引入迭代圖神經(jīng)網(wǎng)絡(luò)解決解碼過程中語義結(jié)構(gòu)信息丟失問題。

3.2 基于多階段融合的編碼器

3.2.1 段落和答案的表示

段落中的單詞表示在問題生成中起著至關(guān)重要的作用。在實(shí)際場景中,利用段落的不同特征捕獲文本單詞之間的關(guān)聯(lián)信息,可以得到豐富的段落表示信息。段落語義信息的多種特征融合可以提供更深層次的語義信息,幫助模型全面理解文本段落。同時(shí),融合答案相關(guān)信息有助于模型更好地捕獲以答案為中心的語義信息,進(jìn)而提升問題生成的效果。

嵌入層融合的多種段落語義信息包括基于GloVe的答案單詞嵌入(Glove Word Embedding)、基于BERT的答案單詞嵌入(BERT Word Embedding)、NER Embedding、POS Embedding、CASE Embedding、BIO Embedding以及融合答案特征的段落嵌入(Deep Context-Answer Embedding)。答案語義信息包括基于GloVe的答案單詞嵌入和基于BERT的答案單詞嵌入,并通過以下過程得到:

其中,[;]表示拼接操作。

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

3.2.2 語義豐富的段落和答案表示

為了將得到的答案信息有效地與段落信息進(jìn)行結(jié)合,從而得到語義序列信息更豐富的段落表示。首先,利用注意力機(jī)制將段落和答案信息進(jìn)行對(duì)齊,得到融合答案信息的段落表示,如式(10)~式(12)所示:

(10)

(11)

(12)

然后,利用融合機(jī)制增強(qiáng)段落表示和被對(duì)齊的段落表示之間的交互,進(jìn)一步得到增強(qiáng)的段落單詞向量表示,如式(13)所示:

(13)

(14)

(15)

(16)

3.2.3 多階段信息融合和語義信息增強(qiáng)的段落和答案表示

經(jīng)過I次迭代后,節(jié)點(diǎn)嵌入可以捕獲其I跳鄰域內(nèi)的結(jié)構(gòu)信息。為了方便解釋節(jié)點(diǎn)嵌入的I次迭代更新過程,本文以迭代I次時(shí)節(jié)點(diǎn)的嵌入更新過程為例進(jìn)行描述。

首先,根據(jù)段落文本構(gòu)造一個(gè)圖結(jié)構(gòu)G=(V,E),然后采用均值聚合器將節(jié)點(diǎn)v(v∈V)的前向和后向鄰居分別聚合成前向聚合向量和后向聚合向量,如式(17)和式(18)所示:

(17)

(18)

其中,N├(v)和N┤(v)表示節(jié)點(diǎn)v的方向。

接著,使用融合操作來聚合前向和后向方向上的節(jié)點(diǎn)信息,并且聚合向量如式(19)所示:

(19)

其中,融合操作Fuse(·,·)表示對(duì)2個(gè)向量進(jìn)行門控操作,如式(20)和式(21)所示:

Fuse(x,y)=z⊙x+(1-z)⊙y

(20)

z=σ(Wz[x;y;x⊙y;x-y]+bz)

(21)

其中,Wz和bz是模型可訓(xùn)練的參數(shù),σ(·)是sigmoid函數(shù)。

(22)

在多次對(duì)段落編碼后,容易丟失段落中的序列信息和語義結(jié)構(gòu)信息。因此,本文通過將各個(gè)階段編碼的段落信息進(jìn)行融合,有效減少了編碼過程中的信息丟失問題,加強(qiáng)了段落的語義信息表示。接著,將融合后的段落信息輸入BiLSTM模型中進(jìn)行學(xué)習(xí),最終得到增強(qiáng)的段落單詞表示向量,具體如式(23)~式(26)所示:

(23)

(24)

(25)

(26)

3.3 引入IGNN的解碼器

本文模型的解碼部分采用類似于其他問題生成模型的結(jié)構(gòu)。解碼器是一個(gè)基于注意力機(jī)制的具有復(fù)制機(jī)制和覆蓋機(jī)制的單項(xiàng)循環(huán)神經(jīng)網(wǎng)絡(luò)與IGNN相結(jié)合的解碼器,用于降低隱藏在先前生成的問題單詞中的結(jié)構(gòu)信息和復(fù)制單詞對(duì)段落的影響。

解碼器的初始化:為了得到有效的上下文信息,使用2個(gè)多層感知器提取語義信息,然后將這些語義信息作為初始化解碼器的隱藏狀態(tài)s0和初始上下文向量c0,如式(27)和式(28)所示:

(27)

c0=s0

(28)

其中,tanh(·)表示激活函數(shù),Wt1和Wt2表示模型可訓(xùn)練的參數(shù),bt1和bt2表示偏置項(xiàng)。

角色標(biāo)簽:在解碼過程中,引入IGNN需要的角色標(biāo)簽,將角色標(biāo)簽信息添加到節(jié)點(diǎn)嵌入中。其中,角色標(biāo)簽的定義如式(29)所示:

(29)

(30)

(31)

其中,qt表示當(dāng)前解碼狀態(tài)下目標(biāo)問題的隱藏層狀態(tài)。

覆蓋機(jī)制:本文使用覆蓋向量來跟蹤解碼器的歷史信息。首先覆蓋向量ut被更新為ut=ut-1+αt,注意力分布αt中各項(xiàng)αt,j計(jì)算如式(32)所示:

αt,j=Softmax(et,j),j=1,2,…,n

(32)

et,j=VTtanh(Wssj+Wqqt+Wuut-1,j)

(33)

其中,Ws,Wq,Wu和VT表示模型可訓(xùn)練參數(shù),sj表示編碼器最終段落編碼的第j個(gè)向量。覆蓋向量可以被看作是段落單詞的非標(biāo)準(zhǔn)化分布,它記錄了每個(gè)單詞迄今為止從注意力機(jī)制接收到的覆蓋程度。

注意力分布αt是段落單詞的概率分布,并且用于產(chǎn)生上下文向量ct,如式(34)所示:

(34)

其中,M表示段落單詞的數(shù)量。

接著連接解碼器狀態(tài)qt和上下文向量ct,并將他們反饋到具有Softmax層的一層前饋神經(jīng)網(wǎng)絡(luò)FFNN(Feed Forward Neural Network)中,以獲得詞匯分布,如式(35)所示:

pvocab=Softmax(F[qt,ct])

(35)

復(fù)制機(jī)制:復(fù)制機(jī)制主要用于從詞匯表中生成一個(gè)單詞,或者從文章中復(fù)制一個(gè)單詞,以解決未登錄詞OOV(Out-Of-Vocabulary)問題。具體地,將注意力分布整合到詞匯分布中,以生成最終的概率分布來預(yù)測(cè)目標(biāo)問題的單詞w,如式(36)~式(38)所示:

P(w)=pgenpvocab(w)+(1-pgen)Pattn(w)

(36)

(37)

Pattn(w)=∑j:wj=wαt,j

(38)

其中,pgen是一個(gè)[0,1]的概率值,用于判斷是從詞匯表中生成單詞還是從源段落中復(fù)制單詞;pvocab是式(35)中所描述的詞匯分布向量;Pattn(w)是通過式(38)計(jì)算的。

3.4 聯(lián)合損失函數(shù)

本文通過使用交叉熵?fù)p失和覆蓋損失兩者結(jié)合的聯(lián)合損失函數(shù)進(jìn)行優(yōu)化,其覆蓋損失定義如式(39)所示:

covlosst=∑jmin(αt,j,ut-1,j)

(39)

聯(lián)合損失函數(shù)定義如式(40)所示:

(40)

在訓(xùn)練階段,使用教師強(qiáng)迫機(jī)制[31]緩解暴露偏差帶來的問題。該機(jī)制采用自回歸訓(xùn)練方式,將當(dāng)前時(shí)間步的輸入以0.75的概率替換成目標(biāo)序列值,進(jìn)而避免訓(xùn)練階段錯(cuò)誤的累計(jì),以0.25的概率將當(dāng)前時(shí)間步預(yù)測(cè)的目標(biāo)值作為下一個(gè)時(shí)間步的輸入,提高了本文所提模型的準(zhǔn)確度和自適應(yīng)能力。在測(cè)試階段,使用集束搜索生成問題,集束的大小設(shè)置為5。

4 實(shí)驗(yàn)設(shè)置

4.1 數(shù)據(jù)集

本文實(shí)驗(yàn)使用的數(shù)據(jù)集為SQuAD[20]和MS MARCO[21]。

SQuAD 1.1數(shù)據(jù)集由斯坦福大學(xué)創(chuàng)建,經(jīng)常被用于閱讀理解任務(wù)。數(shù)據(jù)中的文本從維基百科中抓取,包含大約10萬個(gè)問題。為了與其它論文和報(bào)告中的數(shù)據(jù)結(jié)果進(jìn)行公平對(duì)比,本文使用2個(gè)默認(rèn)的問題生成領(lǐng)域公認(rèn)的劃分方式。第1種劃分方式為:保留原始訓(xùn)練集的數(shù)據(jù)集,將驗(yàn)證集以1∶1的比例拆分為驗(yàn)證集和測(cè)試集。第2種劃分方式為:將原始數(shù)據(jù)集中的驗(yàn)證集作為測(cè)試集,將訓(xùn)練集以9∶1的比例拆分為訓(xùn)練集和驗(yàn)證集。

MS MARCO數(shù)據(jù)集是一個(gè)通過微軟的搜索引擎構(gòu)建的,大規(guī)模的英文閱讀理解數(shù)據(jù)集。該數(shù)據(jù)集由10萬個(gè)問題和答案對(duì)組成,答案是通過人工或從文本中抽取的方式得到。本文選擇該數(shù)據(jù)集的子集進(jìn)行研究,將原始驗(yàn)證集作為測(cè)試集,并隨機(jī)地以9∶1的比例將原始訓(xùn)練集劃分為訓(xùn)練集和驗(yàn)證集。

以上數(shù)據(jù)集中訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)如表1所示,其中數(shù)據(jù)集后引用的參考文獻(xiàn)分別包含了目前問題生成領(lǐng)域?qū)ν粋€(gè)數(shù)據(jù)集公認(rèn)的2種劃分方式。

4.2 評(píng)估指標(biāo)

本文實(shí)驗(yàn)主要采用BLEU(BiLingual Evaluation Understudy)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)和ROUGE-L指標(biāo)對(duì)生成的問題進(jìn)行自動(dòng)評(píng)估。

(1)BLEU[32]:該指標(biāo)基于n-gram思想,是一種基于準(zhǔn)確率的評(píng)估指標(biāo)。通過預(yù)測(cè)生成文本中的單詞出現(xiàn)在參考句子中的數(shù)量來衡量精度,其中BLEU-1(B1)、BLEU-2(B2)、BLEU-3(B3)、BLEU-4(B4)分別表示使用1,2,3,4個(gè)詞語進(jìn)行預(yù)測(cè)。

(2)METEOR[33]:該指標(biāo)是基于召回率的評(píng)價(jià)指標(biāo),通過考慮目標(biāo)文本中的同義詞、詞干等相關(guān)語義信息,來計(jì)算生成的句子和參考目標(biāo)的相似度。

(3)ROUGE-L[34]:該指標(biāo)是一種詞召回率的評(píng)價(jià)指標(biāo),主要是基于最長公共子序列統(tǒng)計(jì)參考文本和生成文本之間共現(xiàn)詞的次數(shù)。

4.3 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)基于Python 3.7和深度學(xué)習(xí)框架PyTorch 1.11實(shí)現(xiàn),在GPU上訓(xùn)練、驗(yàn)證和測(cè)試。硬件環(huán)境的配置為:Intel?/Ubuntu 18/NVIDIA?GeForce GTXTM3090/24 GB。

首先,使用固定的300維GloVe預(yù)訓(xùn)練詞嵌入向量訓(xùn)練SQuAD和MS MARCO數(shù)據(jù)集的詞匯表。其中,SQuAD數(shù)據(jù)集有70 000個(gè)單詞,MS MARCO有101 000個(gè)單詞,特殊字符使用〈UNK〉代替。本文段落和答案使用的BERT詞嵌入,主要為 BERT 模型的 24 層詞嵌入的輸出,通過對(duì)這些層的輸出進(jìn)行加權(quán)求和得到最終的表示,每個(gè)單詞是1 024維的BERT詞嵌入向量。為了防止過擬合,將0.4和0.3的丟棄概率值(Dropout)[35]應(yīng)用于BERT模型的每一層嵌入層和LSTM層的輸出。將BiLSTM的隱藏層維度設(shè)置為150,其它神經(jīng)網(wǎng)絡(luò)模型的隱藏層維度設(shè)置為300,答案位置信息的維度設(shè)置為3,GNN的跳數(shù)設(shè)置為3,覆蓋損失比λ設(shè)置為0.4。在訓(xùn)練期間,初始教師強(qiáng)迫概率設(shè)置為0.75,并增加到0.75*0.9999num,其中num是訓(xùn)練步驟。在測(cè)試過程中,設(shè)置集束搜索大小為5。本文使用Adam[36]作為優(yōu)化器,設(shè)置批次大小(Batch Size)為32,設(shè)置初始學(xué)習(xí)率為0.001。如果驗(yàn)證集的BLEU-4分?jǐn)?shù)在3輪訓(xùn)練后停止改善,將學(xué)習(xí)率降為原來的1/2。如果10輪訓(xùn)練后沒有任何改善,停止訓(xùn)練。

4.4 基線模型

實(shí)驗(yàn)采用的基線模型包括以下11種:

(1)NQG模型[4]:該模型首次將序列到序列模型與注意力機(jī)制相結(jié)合,是神經(jīng)網(wǎng)絡(luò)中經(jīng)典的問題生成模型。

(2)NQG++模型[5,10]:該模型延續(xù)了NQG模型的框架,但是在編碼階段引入了豐富的特征。

(3)S2sa-at-mp-gsa模型[6]:該模型在編碼階段引入門控自注意力機(jī)制,并在解碼階段采用注意力機(jī)制和最大指針生成器相結(jié)合的方式,解決了解碼階段詞匯重復(fù)問題。

(4)SEK-DAPQG模型[9]:該模型利用外部知識(shí)(基于義原知識(shí))和雙向注意力流機(jī)制研究問題生成。

(5)JQT-PMQG模型[37]:是一種融合問題類型和懲罰機(jī)制的問題生成模型。

(6)KE-BGINN模型[18]:該模型引入雙圖交互機(jī)制捕獲隱藏句法結(jié)構(gòu)信息,減少了段落信息的丟失。

(7)Graph2seq+RL+BERT模型[14]:該模型是一種基于強(qiáng)化學(xué)習(xí)的圖到序列模型。

(8)DAPQG模型[38]:該模型使用雙注意力機(jī)制研究段落級(jí)問題生成。

(9)Multi-stage Atte模型[39]:該模型利用多階段注意力機(jī)制,有效改善了段落的表達(dá)能力。

(10)EAN-QG模型[10]:該模型是一種可擴(kuò)展答案感知的網(wǎng)絡(luò)模型,并在解碼階段引入不確定性分?jǐn)?shù)對(duì)集束搜索進(jìn)行改進(jìn)。

(11)GA-Seq2Seq模型[17]:該模型是一種圖增強(qiáng)的序列到序列模型。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 自動(dòng)評(píng)估

本節(jié)將提出的模型在公共數(shù)據(jù)集上與上述多個(gè)模型進(jìn)行多組實(shí)驗(yàn)對(duì)比,結(jié)果如表2和表3所示,其中,“-”表示原始論文中未給出數(shù)據(jù),“*”表示原始論文代碼復(fù)現(xiàn)的數(shù)據(jù)結(jié)果,加粗字體數(shù)值表示所有對(duì)比模型中最優(yōu)的結(jié)果。

Table 2 Automatic evaluation of questions generate results on SQuAD datasets

Table 3 Questions generate results for automatic evaluation of MS MARCO datasets

表2為SQuAD數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比結(jié)果,在SQuAD數(shù)據(jù)集上,本文模型的BLEU-4達(dá)到了19.01%,與經(jīng)典NQG模型的相比提升了6.73%;GA-Seq2Seq模型由于其多階段編碼導(dǎo)致的語義信息丟失,與本文模型相比其BLEU-4降低了0.89%;與最新的KE-BGINN模型相比,本文模型的BLEU-4、METEOR和ROUGE-L分別高出了0.6%,0.65%和0.60%。與問題生成經(jīng)典模型以及先進(jìn)模型的多組對(duì)比結(jié)果表明,本文模型融合多階段的語義信息,可以有效減少編碼階段段落序列信息的丟失和語義結(jié)構(gòu)信息的丟失,同時(shí)在解碼階段引入IGNN,可以改善解碼過程中先前語義信息的丟失,從而提升生成問題質(zhì)量。

與此同時(shí),表3給出了數(shù)據(jù)集MS MARCO上的實(shí)驗(yàn)對(duì)比結(jié)果。同樣可以看到,本文模型的BLEU-1、BLEU-2、BLEU-3、BLEU-4和ROUGE-L均為最優(yōu),進(jìn)一步驗(yàn)證了本文模型的有效性。

5.2 人工評(píng)價(jià)

為了驗(yàn)證生成問題的質(zhì)量,本文還采用人工評(píng)價(jià)的方式,主要從流暢度、相關(guān)度和可回答性3個(gè)方面進(jìn)行評(píng)估。

(1)流暢度:生成的問句在語法語義方面是否符合語法規(guī)范,得分在1~5。

(2)相關(guān)性:生成的問句是否與輸入的段落內(nèi)容相關(guān),得分在1~5。

(3)可回答性:生成的問句是否可以根據(jù)文本回答,是否與所給的答案相符,使用0和1表示不可回答和可回答。

為了驗(yàn)證本文模型的有效性,首先從測(cè)試集中隨機(jī)選擇200個(gè)文本段落,然后分別使用GA-Seq2Seq模型和本文的模型生成相應(yīng)的問題,接著邀請(qǐng)3位英語相關(guān)專業(yè)的志愿者按照上述評(píng)判標(biāo)準(zhǔn)對(duì)生成的問題進(jìn)行人工評(píng)分,最后統(tǒng)計(jì)人工評(píng)分,具體的平均得分如表4所示。

Table 4 Manual evaluation results

從表4可以看出,本文提出的模型在流暢度、相關(guān)度和可回答性3個(gè)方面都具有更高的分?jǐn)?shù),說明相比于GA-Seq2Seq模型,本文提出的模型可以生成更準(zhǔn)確、語法流暢、可回答的問題。

5.3 消融實(shí)驗(yàn)

本節(jié)通過設(shè)計(jì)多組消融實(shí)驗(yàn)探究模型中的各個(gè)模塊對(duì)實(shí)驗(yàn)結(jié)果的影響。在原有所提模型MS-SIE的基礎(chǔ)上驗(yàn)證各個(gè)模塊的性能,修改后的模型具體如下:

(1)w/o MS:在編碼階段不使用多階段融合增強(qiáng)文本的序列語義信息和語法結(jié)構(gòu)信息,但在解碼階段使用迭代圖神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼。

(2)w/o IGNN:在解碼階段不使用迭代圖神經(jīng)網(wǎng)絡(luò),但在編碼階段使用多階段融合增強(qiáng)文本的序列語義信息和語法結(jié)構(gòu)信息。

(3)w/o Multi-Features:在編碼器輸入階段,不添加段落句子的POS、NER和CASE特征。

消融實(shí)驗(yàn)主要在SQuAD-split1數(shù)據(jù)集上進(jìn)行模型各個(gè)模塊的性能驗(yàn)證,具體實(shí)驗(yàn)結(jié)果如表5所示,加粗?jǐn)?shù)據(jù)為最優(yōu)結(jié)果。

Table 5 Results of ablation experiments on the SQuAD-split1 dataset

從表5可以看出,首先在編碼階段不使用MS時(shí),發(fā)現(xiàn)模型的各項(xiàng)指標(biāo)下降較多,表明MSC對(duì)模型的影響較大;在不使用IGNN時(shí),發(fā)現(xiàn)模型的各項(xiàng)指標(biāo)有所下降,表明本文引入的IGNN可以提高問題生成的質(zhì)量;在不使用段落中的多種特征情境下,模型的性能略微下降,表明段落的文本特征可以影響問題生成的質(zhì)量。

5.4 案例分析

本節(jié)從測(cè)試集中隨機(jī)抽取3個(gè)文本段落,然后分別使用GA-Seq2Seq模型和本文模型生成相應(yīng)的問題,用于分析生成問題的質(zhì)量。表6給出了本文提出的MS-SIE模型和GA模型生成的問題。句子1表明MS-SIE模型生成的問題與標(biāo)準(zhǔn)問題最為接近,而且使用本文模型生成的問題在語法和語義上更具優(yōu)勢(shì)。從句子2可以看出,MS-SIE模型生成的問題,具有更多的提示信息。句子3也表明MS-SIE模型在語法上更具優(yōu)勢(shì),GA模型生成的問題會(huì)出現(xiàn)語法錯(cuò)誤。此外,這些案例均表明MS-SIE模型可以生成與段落文本更相關(guān)的問題。因此,本文提出的MS-SIE模型確實(shí)可以有效改善生成問題的質(zhì)量。

Table 6 Cases in SQuAD Split1 dataset

6 結(jié)束語

為了有效改善段落編碼和解碼階段序列信息和語義結(jié)構(gòu)信息丟失的問題,本文提出了一種新穎的模型MS-SIE。首先,在編碼階段將多個(gè)階段編碼的段落信息進(jìn)行融合,輸入到BiLSTM;然后,在解碼階段引入迭代圖神經(jīng)網(wǎng)絡(luò),解決解碼階段序列信息和語義結(jié)構(gòu)信息丟失問題;最后,利用注意力機(jī)制捕獲段落的全局語義信息,結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量的問題。本文針對(duì)該模型進(jìn)行了相關(guān)實(shí)驗(yàn)和案例分析,在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均表明該模型可以有效提升生成問題的質(zhì)量。

未來,如何更進(jìn)一步提高生成問題的質(zhì)量,依然是一項(xiàng)重要的研究。可以從以下3個(gè)方面進(jìn)行改進(jìn):首先,可以考慮利用更優(yōu)的圖神經(jīng)網(wǎng)絡(luò)捕獲更多段落單詞之間的語義結(jié)構(gòu)信息;然后,針對(duì)解碼器部分,可以考慮結(jié)合多種解碼策略研究問題生成;最后,研究如何有效解決不同時(shí)間步重復(fù)生成目標(biāo)問題單詞的問題。

猜你喜歡
解碼段落語義
《解碼萬噸站》
【短文篇】
語言與語義
心理小測(cè)試
解碼eUCP2.0
中國外匯(2019年19期)2019-11-26 00:57:32
NAD C368解碼/放大器一體機(jī)
Quad(國都)Vena解碼/放大器一體機(jī)
夏天,愛情的第四段落
散文詩(2017年17期)2018-01-31 02:34:11
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
弄清段落關(guān)系 按圖索驥讀文
讀寫算(下)(2016年11期)2016-05-04 03:44:07
山阳县| 绍兴县| 桐梓县| 府谷县| 澄江县| 安图县| 介休市| 且末县| 万源市| 泗洪县| 北流市| 河间市| 安阳县| 习水县| 天祝| 宿州市| 新邵县| 岐山县| 朝阳区| 汝南县| 武山县| 通渭县| 兴义市| 遂宁市| 双柏县| 蒲江县| 老河口市| 宿州市| 中阳县| 米易县| 顺平县| 大方县| 即墨市| 民权县| 拉孜县| 石屏县| 根河市| 峨山| 太保市| 裕民县| 离岛区|