国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合預(yù)訓(xùn)練模型的中文知識(shí)圖譜問題生成方法

2021-03-13 06:00陳小平歐陽(yáng)昱劉輝舟
關(guān)鍵詞:解碼器編碼器圖譜

葉 子,陳小平,張 波,歐陽(yáng)昱,劉輝舟

1(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)

2(國(guó)網(wǎng)安徽省電力有限公司,合肥 230022)

1 引 言

近年來(lái),智能問答技術(shù)在諸多領(lǐng)域得到了廣泛應(yīng)用,例如教育、醫(yī)療和電力等[1].傳統(tǒng)問答系統(tǒng)由于缺乏知識(shí)和推理能力始終存在提升瓶頸,因此,基于知識(shí)庫(kù)的問答方法成為了研究問答技術(shù)的主流方向.

知識(shí)圖譜具有高效表達(dá)海量知識(shí)、深度知識(shí)推理、與領(lǐng)域知識(shí)高度關(guān)聯(lián)等優(yōu)勢(shì)[2],是知識(shí)問答的優(yōu)質(zhì)知識(shí)來(lái)源.然而,基于知識(shí)圖譜的問答技術(shù)目前尚處于起步階段,現(xiàn)有中文知識(shí)圖譜問答語(yǔ)料庫(kù)大多存在規(guī)模較小,質(zhì)量較差的問題,這嚴(yán)重制約了中文知識(shí)圖譜問答技術(shù)的發(fā)展.

問題生成是利用文本數(shù)據(jù)生成自然語(yǔ)言形式問題的一種技術(shù)[3].文本數(shù)據(jù)可以是結(jié)構(gòu)化的知識(shí)庫(kù)、句法樹等,也可以是篇章級(jí)文本或完整的問答語(yǔ)料.簡(jiǎn)單來(lái)說(shuō),問題生成是人工智能“主動(dòng)提問”的技術(shù),它的目標(biāo)是生成正確且多樣的問題.有了問題生成技術(shù),以中文知識(shí)圖譜三元組作為輸入生成對(duì)應(yīng)問題,可以生成中文知識(shí)圖譜問答訓(xùn)練語(yǔ)料.不僅如此,問題生成技術(shù)對(duì)自動(dòng)合成FAQ文檔,自動(dòng)輔導(dǎo)系統(tǒng)等應(yīng)用場(chǎng)景也具有重要意義.

現(xiàn)有的問題生成方法大多是基于規(guī)則的方法,這些方法對(duì)模板的質(zhì)量和數(shù)量要求較高,較為耗費(fèi)人力資源,泛化能力較弱,對(duì)大規(guī)模數(shù)據(jù)的處理能力有限.要彌補(bǔ)這些不足,需要問題生成模型充分獲取隱含在語(yǔ)料庫(kù)中的語(yǔ)法模式和特征,行之有效的方法是將預(yù)訓(xùn)練模型與問題生成模型進(jìn)行融合.預(yù)訓(xùn)練模型可以利用大規(guī)模語(yǔ)料訓(xùn)練詞語(yǔ)和句子的向量化表示,充分獲取語(yǔ)料中隱含的語(yǔ)義信息,最后根據(jù)特定任務(wù)設(shè)計(jì)微調(diào)方法得到結(jié)果.

本文提出一種融合預(yù)訓(xùn)練模型的中文知識(shí)圖譜問題生成方法,其創(chuàng)新性有3點(diǎn):1) 利用條件變分自編碼器解決預(yù)訓(xùn)練模型難以完成問題生成任務(wù)的問題;2) 提出一種融合預(yù)訓(xùn)練模型和編碼器-解碼器架構(gòu)的預(yù)編碼器-源編碼器-解碼器架構(gòu);3) 改進(jìn)了問題生成的答案編碼方法.

2 相關(guān)工作

現(xiàn)有的問題生成方法大多是基于規(guī)則的生成方法[4,5],這些方法可以較為穩(wěn)定的生成符合語(yǔ)法規(guī)則的問題,但是極度依賴于人工設(shè)定的規(guī)則或模板,擴(kuò)展性和泛化性能較差,很難生成大規(guī)模語(yǔ)料.

隨著機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步與發(fā)展,端到端的神經(jīng)網(wǎng)絡(luò)模型被更多地應(yīng)用在了文本生成領(lǐng)域.在問題生成任務(wù)上,Song等人[6]通過(guò)獲取網(wǎng)絡(luò)信息提出了用于生成領(lǐng)域問題的方法;Venugopal等人[7]提出了問題生成的難度建模方法;Kumar等人[8]對(duì)難度可控的復(fù)雜問題生成方法進(jìn)行了嘗試;除此之外,研究者們對(duì)篇章級(jí)的問題生成方法也有很多新的嘗試[9-11].這些方法具有較好的泛化能力,能夠完成大規(guī)模語(yǔ)料庫(kù)的文本生成問題,但缺點(diǎn)是生成的文本容易出現(xiàn)語(yǔ)法錯(cuò)誤,可讀性較差.

Liu等人[12]發(fā)現(xiàn),如果不對(duì)基于編碼器-解碼器模型(Seq2seq)的問題生成方法加以限制,容易生成語(yǔ)義不相關(guān)的問題.因此,他們將該方法與基于模板的問題生成方法進(jìn)行了結(jié)合,提出了一種基于模板的編碼器-解碼器模型(Template-based Seq2seq),兼顧了模型的泛化性能和問題生成的穩(wěn)定性.實(shí)驗(yàn)結(jié)果顯示這種方法較基線模型而言具有一定提升.然而這種方法始終沒有辦法完全脫離模板,相當(dāng)于犧牲了一部分效率換取生成問題的穩(wěn)定性.事實(shí)上,原始的編碼器-解碼器模型效果不佳是因?yàn)樗鼘?duì)語(yǔ)言的特征提取能力還較為有限,只有提升問題生成模型的語(yǔ)義理解能力才能真正脫離模板進(jìn)行大規(guī)模的問題生成.

原始的編碼器-解碼器模型存在并行能力較差,長(zhǎng)期信息會(huì)丟失的問題,而基于自注意力機(jī)制的Transformer模型[13]可以解決這些問題.一方面,該模型將序列中的任意兩個(gè)位置之間的距離縮小為一個(gè)常量,解決了長(zhǎng)期依賴的問題;另一方面,該模型的計(jì)算方式具有更好的并行性,計(jì)算速度更快.Transformer模型的整體架構(gòu)也是編碼器-解碼器模型,所以它可以很好地完成文本生成任務(wù).

以Transformer模型為基礎(chǔ),谷歌提出了基于雙向Transformer編碼器的預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)[14],這個(gè)模型的主要任務(wù)是預(yù)訓(xùn)練語(yǔ)言模型,其預(yù)訓(xùn)練任務(wù)有兩種,分別為掩藏詞語(yǔ)言模型訓(xùn)練(Masked LM,MLM)和預(yù)測(cè)下句(Next Sentence Prediction,NSP).預(yù)訓(xùn)練完成后,根據(jù)不同自然語(yǔ)言處理任務(wù)進(jìn)行微調(diào).BERT模型極大地提升了語(yǔ)言模型對(duì)語(yǔ)義信息的獲取能力,但是由于缺少解碼器部分,該模型處理文本生成問題的能力不是很強(qiáng).要利用BERT這種預(yù)訓(xùn)練模型來(lái)完成文本生成任務(wù),需要在BERT的下游接入解碼器,然而直接接入Transformer解碼器的效果并不理想.

Gupta等人[15]提出了一種基于變分自編碼器(Variational Autoencoder,VAE)[16]的文本生成框架,本文利用這種思想將BERT編碼器和Transformer解碼器進(jìn)行結(jié)合.

VAE是一種基于隱變量的生成式模型,它可以學(xué)習(xí)高維輸入的非線性表征.對(duì)于一個(gè)輸入x,VAE首先學(xué)習(xí)它的隱式表征z,使得輸入x可以通過(guò)z重構(gòu)得到.VAE可以得到z的后驗(yàn)分布qφ(z|x),這種后驗(yàn)分布一般是高斯分布N(μ(x),σ2(x)),其中參數(shù)φ={μ(x),σ2(x)}是輸入x的非線性變換,同時(shí)也是以x為輸入的前向神經(jīng)網(wǎng)絡(luò)的輸出部分.解碼器部分需要學(xué)習(xí)另一個(gè)分布pθ(x|z),指的是采樣z得到解碼后的x.學(xué)習(xí)該模型的損失函數(shù)為:

L(x;θ,φ)=Eqφ(z|x)[logpθ(x|z)]-KL(qφ(z|x)‖p(z))

(1)

其中第二項(xiàng)為兩個(gè)分布之間的KL散度.

公式(1)提供了模型的置信概率p(x|θ,φ)的下界,訓(xùn)練過(guò)程中需要最大化這個(gè)下界.將公式(1)中的隱變量分布局限在條件y下可得條件變分自編碼器(Conditional Variational Autoencoder,CVAE)[17],其損失函數(shù)如下:

L(x,y;θ,φ)=Eqφ(z|x,y)[logpθ(x|z,y)]
-KL(qφ(z|x,y)‖p(z))

(2)

3 融合預(yù)訓(xùn)練模型的中文知識(shí)圖譜問題生成模型

本文提出的模型結(jié)構(gòu)如圖1所示,主要分為預(yù)編碼器、源編碼器和解碼器3個(gè)部分.

圖1 融合BERT的問題生成模型結(jié)構(gòu)圖Fig.1 Question generation model with BERT

3.1 預(yù)編碼器

預(yù)編碼器是使用預(yù)訓(xùn)練模型的編碼器結(jié)構(gòu),其核心是BERT模型.

BERT模型的輸入是句子對(duì)的序列化表示,該序列中有兩個(gè)重要的標(biāo)記符[CLS]和[SEP].[CLS]是起始標(biāo)記符,它被用來(lái)綜合表示序列的最終隱狀態(tài),可用來(lái)進(jìn)行分類等.[SEP]標(biāo)記符是分隔標(biāo)記符,用來(lái)分隔序列中的兩個(gè)句子.

序列的向量化表示由詞向量,分隔向量和位置向量相加得到,其中詞向量是經(jīng)由訓(xùn)練得到的每個(gè)詞或標(biāo)記符的向量化表示,分隔向量用來(lái)區(qū)分某個(gè)詞或標(biāo)記符屬于句子A還是句子B,位置向量表示每個(gè)詞或標(biāo)記符的位置順序.

得到序列的向量化表示后,將進(jìn)行BERT模型最重要的兩個(gè)訓(xùn)練步驟:預(yù)訓(xùn)練和微調(diào).

3.1.1 預(yù)訓(xùn)練

BERT模型的預(yù)訓(xùn)練過(guò)程主要是在兩種不同的任務(wù)上進(jìn)行無(wú)監(jiān)督學(xué)習(xí),即MLM和NSP.

MLM的具體實(shí)現(xiàn)方式是在序列中隨機(jī)用[MASK]標(biāo)記符來(lái)替換15%的詞,然后根據(jù)未被替換的詞來(lái)預(yù)測(cè)被替換的詞.為了解決在訓(xùn)練過(guò)程出現(xiàn)[MASK]標(biāo)記符而下游任務(wù)中未出現(xiàn)該標(biāo)記符的問題,對(duì)于一個(gè)被替換的詞,有80%時(shí)間使用[MASK]標(biāo)記符進(jìn)行正常替換,有10%的時(shí)間用隨機(jī)詞進(jìn)行替換,剩下的10%時(shí)間保持該詞不變,最終將三者綜合后進(jìn)行預(yù)測(cè).

很多下游任務(wù)比如問答任務(wù)都需要語(yǔ)言模型理解不同句子之間的關(guān)系,所以BERT采用了NSP方法進(jìn)行訓(xùn)練.在訓(xùn)練過(guò)程中,對(duì)于句子A,它的下一句為B.有50%的時(shí)間B為A真實(shí)的下一句,標(biāo)記為“是下一句”(IsNext),其余的50%時(shí)間B是語(yǔ)料庫(kù)中其他的隨機(jī)一個(gè)句子,標(biāo)記為“不是下一句”(NotNext).

預(yù)訓(xùn)練過(guò)程需要大量語(yǔ)料和較強(qiáng)的算力,直接采用已有的開源預(yù)訓(xùn)練模型可以大大節(jié)約計(jì)算成本提高效率.因此,本文在實(shí)驗(yàn)部分直接采用了預(yù)訓(xùn)練好的中文BERT參數(shù)模型進(jìn)行使用.

3.1.2 微調(diào)

在微調(diào)過(guò)程中,我們將包括了頭實(shí)體、關(guān)系和尾實(shí)體的中文知識(shí)圖譜三元組x(o)={Eh,Er,Et}={tok1,tok2,…,tokn}與對(duì)應(yīng)問題x(p)={tok1,tok2,…,tokn}進(jìn)行拼接,預(yù)編碼器的輸入如圖2所示.和BERT模型一樣,頭部接入[CLS]標(biāo)記符.x(o)與x(p)用[SEP]進(jìn)行分隔,尾部接入結(jié)束符,得到序列S,輸入裝載BERT的預(yù)編碼器部分.

圖2 預(yù)編碼器的輸入表示Fig.2 Input representation of p-encoder

序列S進(jìn)行訓(xùn)練可得到T[CLS]∈H,它是訓(xùn)練后的綜合向量表示.然后,將T[CLS]作為輸入放入一個(gè)前向神經(jīng)網(wǎng)絡(luò),將該網(wǎng)絡(luò)的輸出維映射為2H,以輸出維為基準(zhǔn)等分為兩個(gè)張量,其中一個(gè)表示均值μ.由于方差大于等于0,需要對(duì)另一個(gè)張量施加Softplus激活函數(shù),表示標(biāo)準(zhǔn)差σ,從而得到分布z~N(μ,σ).

3.2 源編碼器

源編碼器是對(duì)知識(shí)圖譜三元組進(jìn)行編碼的模塊,采用的是Transformer的編碼器模型.源編碼器的輸入x(o)={Eh,Er,Et}={tok1,tok2,…,tokn}在答案編碼上有略微不同,將在3.5節(jié)中介紹.在源編碼器中,數(shù)據(jù)首先會(huì)經(jīng)過(guò)多頭的自注意力層.它會(huì)將數(shù)據(jù)分別輸入到h個(gè)自注意力層中進(jìn)行運(yùn)算,得到h個(gè)加權(quán)后的特征矩陣,然后按列進(jìn)行拼接并經(jīng)過(guò)一層全連接層后得到輸出.計(jì)算注意力值的公式為:

(3)

為了防止退化問題,模型中采用了殘差網(wǎng)絡(luò)[18]的短路方法將原有向量與經(jīng)過(guò)自注意力層的向量進(jìn)行相加并歸一化.

得到注意力值之后,它會(huì)被送入一個(gè)前向神經(jīng)網(wǎng)絡(luò),它共有兩層,第一層的激活函數(shù)是ReLU,第二層是一個(gè)線性激活函數(shù),可以表示為:

FFN(Z)=max(0,ZW1+b1)W2+b2

(4)

3.3 解碼器

解碼器部分采用的是Transformer的解碼器模型.因?yàn)榻獯a的過(guò)程一般為順序操作過(guò)程,所以Transformer采用了掩式的多頭注意力機(jī)制(Masked Multi-head Attention),也就是說(shuō)當(dāng)解碼第i個(gè)向量時(shí),解碼器只能看到第i-1及其之前的解碼結(jié)果.

在本文的問題模型中,我們將BERT模型得到的分布向量z與解碼得到的輸出o進(jìn)行拼接得到z′=[z;o]作為解碼器的輸入.這種方式相當(dāng)于預(yù)編碼器提前賦予了解碼器解碼的模式,但不給解碼器提供完整的目標(biāo)問題,所以我們將這種機(jī)制稱為半掩式的多頭注意力機(jī)制.

同樣地,半掩式多頭注意力層利用短路方式進(jìn)行向量的相加與歸一化,然后將注意力值輸入一個(gè)新的多頭注意力層.該層與編碼器的多頭注意力層的結(jié)構(gòu)完全一致,只需將輸入的V,K,替換為編碼器得到的V,K.類似地,將計(jì)算得到的注意力值輸入一個(gè)前向神經(jīng)網(wǎng)絡(luò).最后,進(jìn)行損失函數(shù)的計(jì)算.

3.4 損失函數(shù)

Gupta等人[15]給出了該生成模型的分布推導(dǎo)示意圖如圖3所示.

圖3 分布推導(dǎo)示意圖Fig.3 Distribution derivation

參考公式(2),可得到損失函數(shù)如下:

L(x(o),x(p);θ,φ)=Eqφ(z|x(o),x(p))[logpθ(x(p)|z,x(o))]
-KL(qφ(z|x(o),x(p))‖p(z))

(5)

事實(shí)上,公式(5)中的第一項(xiàng)代表了源編碼器和解碼器的損失,第二項(xiàng)代表了預(yù)編碼器的損失.要最大化這個(gè)下界,需要增大第一項(xiàng),減小第二項(xiàng).

第一項(xiàng)的計(jì)算最簡(jiǎn)單的方法是蒙特卡洛采樣,可將公式(5)重寫為:

(6)

然而使用蒙特卡洛采樣法采樣出的z方差較大,而且一般不可求導(dǎo).因此,需要使用其他方法進(jìn)行z的采樣.一種利用重參數(shù)法的方法是把z分成兩部分來(lái)求:一部分是預(yù)編碼器中的均值μ和標(biāo)準(zhǔn)差σ,另一部分是一個(gè)隨機(jī)的高斯噪聲ε.即zl=g(x(o),x(p),εl)=μ+σ⊙εl,其中εl~N(0,1).這種計(jì)算方式使得隨機(jī)的部分只由高斯分布決定,因此減少了方差,而且通過(guò)這種方式我們能夠計(jì)算均值μ和標(biāo)準(zhǔn)差σ的梯度用以更新.

第二項(xiàng)的計(jì)算就是計(jì)算KL散度.首先,KL散度是恒大于0的,它描述了兩個(gè)分布之間的差距,由于z是服從高斯分布的所以VAE預(yù)設(shè)p(z)服從N(0,1),這樣可以直接進(jìn)行計(jì)算.衡量?jī)蓚€(gè)高斯分布的差異可以通過(guò)它們的密度函數(shù)展開推導(dǎo)出,可得公式:

(7)

3.5 答案編碼

在知識(shí)圖譜問題生成任務(wù)中,問題的生成源為三元組x(o)={Eh,Er,Et}.其中,尾實(shí)體一般就是生成問題的答案.在圖2所示的例子中,“余華”是問題的答案.事實(shí)上,在問題生成任務(wù)中答案一般不會(huì)出現(xiàn)在問題中,所以如果直接把尾實(shí)體進(jìn)行編碼后訓(xùn)練容易使生成的問題中出現(xiàn)答案,從而降低生成問題的正確率.矛盾的是,答案中又包含了很多生成問題所需的知識(shí),例如“余華”是人物,人物與疑問詞“誰(shuí)”緊密相關(guān),完全去除答案又會(huì)降低語(yǔ)料中包含的語(yǔ)義信息的利用率.為了避免這種問題,原始的答案編碼方法是直接將答案替換為一個(gè)特定的標(biāo)記符進(jìn)行訓(xùn)練[19].

本文的問題生成模型中,預(yù)編碼器中輸入的三元組是帶有答案的,而在源編碼器中輸入的三元組用標(biāo)記符來(lái)替代答案,我們稱之為答案屏蔽.這樣可以讓問題生成模型在預(yù)編碼器中充分學(xué)習(xí)生成問題的模式,而又不會(huì)令答案影響真正生成的問題.

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

由于問題生成領(lǐng)域優(yōu)質(zhì)公開數(shù)據(jù)集較少,本文主要在NLPCC2017 KBQA任務(wù)提供的問答數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集包含了24479個(gè)三元組問題對(duì),其中訓(xùn)練集11687個(gè),驗(yàn)證集2922個(gè),測(cè)試集9870個(gè).

評(píng)價(jià)指標(biāo)主要有兩類,分別是機(jī)器指標(biāo)與人工指標(biāo).機(jī)器指標(biāo)沿用了機(jī)器翻譯中的通用評(píng)價(jià)指標(biāo)BLEU(BLEU-4),ROUGE(ROUTGE-4 F-measure);對(duì)于人工指標(biāo),本文隨機(jī)選擇了測(cè)試結(jié)果中的200個(gè)問題來(lái)人工評(píng)價(jià)這些問題是否是符合語(yǔ)法的,以語(yǔ)法正確的問題的比例作為指標(biāo).

在問題生成任務(wù)上,能否生成多種不同的問題也是一項(xiàng)重要的評(píng)價(jià)指標(biāo).因此,Liu等人[12]提出了多樣性(DIVERSE)作為評(píng)價(jià)指標(biāo).多樣性通過(guò)計(jì)算具有相同關(guān)系的三元組所生成的問題之間的相似度來(lái)進(jìn)行評(píng)價(jià),該指標(biāo)值越低說(shuō)明生成問題越不相似,多樣性越高,其計(jì)算公式為:

(8)

4.2 實(shí)驗(yàn)設(shè)置

預(yù)訓(xùn)練模型采用的是基于全詞遮罩(Whole Word Masking)技術(shù)的中文預(yù)訓(xùn)練模型BERT-wwm[20].該模型層數(shù)為12,隱藏單元為768,多頭注意力頭數(shù)為12,參數(shù)總量為110M.

本文對(duì)語(yǔ)料庫(kù)中的目標(biāo)問題進(jìn)行分詞作為輸入序列輸入問題生成模型,利用BERT模型表示詞向量,維度均為768.輸入的三元組序列長(zhǎng)度限定為15,目標(biāo)問題序列長(zhǎng)度限定為40,長(zhǎng)度不足的序列使用標(biāo)記符進(jìn)行補(bǔ)全.

我們將源編碼器與解碼器的編碼解碼模塊數(shù)設(shè)置為6,多頭注意力層的頭數(shù)為12.所有前向神經(jīng)網(wǎng)絡(luò)的隱藏單元數(shù)為2048.

我們?cè)O(shè)置批處理大小為32,學(xué)習(xí)率為1e-4,dropout保留率為0.9作為參數(shù)組合在測(cè)試集上進(jìn)行預(yù)測(cè),并與其他基線模型進(jìn)行對(duì)比.其他基線模型均使用默認(rèn)參數(shù).

實(shí)驗(yàn)采用的CPU為3.7GHz Intel Core i7,RAM為32GB,GPU為NVIDIA GTX2080Ti.

4.3 實(shí)驗(yàn)結(jié)果分析

4.3.1 質(zhì)量分析

實(shí)驗(yàn)比較了基于模板的方法,Seq2seq方法,基于模板的Seq2seq方法以及本文提出的融合預(yù)訓(xùn)練模型的問題生成方法.實(shí)驗(yàn)結(jié)果如表1所示,為方便展示,表中數(shù)據(jù)均為百分比結(jié)果.

表1 問題生成模型實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Performance of question generation models

實(shí)驗(yàn)結(jié)果表明,基于模板的方法在人工指標(biāo)和BLEU指標(biāo)上都有較好的表現(xiàn),出現(xiàn)這種情況可能有兩種原因:1)訓(xùn)練集與測(cè)試集的知識(shí)圖譜三元組具有較高的相似度,兩者之間的生成方式具有相同的模式;2)測(cè)試集的規(guī)模較小,所抽取的模板能夠生成大部分的問題.

較基于模板的方法而言,Seq2seq方法在ROUGE指標(biāo)上有略微提高,但BLEU指標(biāo)要低許多.這是因?yàn)樵嫉腟eq2seq方法還不能夠很好地獲取訓(xùn)練語(yǔ)料中的語(yǔ)義信息,也沒有如基于模板的方法一般的自然語(yǔ)言生成模式,所以也很難生成具有較高流暢度的問題.

基于模板的Seq2seq方法較前兩種方法在3個(gè)指標(biāo)上均有提升,主要原因是這種方法結(jié)合了前面兩種方法的優(yōu)勢(shì),既保證了生成的問題具有模板的限制,又增強(qiáng)了模型的泛化能力.但是這種模型還是沒有充分提取語(yǔ)料中的語(yǔ)義信息,很大程度上還是依賴于模板,提升較為有限.

本文提出的方法較所有模型在所有指標(biāo)上均取得了最優(yōu)效果.在ROUGE指標(biāo)上,較前3種方法而言,分別提升了9.12,8.55,3.85.ROUGE指標(biāo)評(píng)價(jià)了模型生成的問題的召回程度,這保證了知識(shí)圖譜三元組在真實(shí)問題中的體現(xiàn),說(shuō)明融合預(yù)訓(xùn)練模型的問題生成方法在語(yǔ)義理解能力上較前3種模型有提升;在BLEU指標(biāo)上,分別提升了0.90,2.37,0.39,提升較為有限的原因可能是測(cè)試數(shù)據(jù)集與訓(xùn)練集相似度較高,所以基于模板的兩種方法具有較高的BLEU值;在人工評(píng)價(jià)的200個(gè)生成問題中,符合語(yǔ)法的問題共有189個(gè),準(zhǔn)確率為94.5%,穩(wěn)定性較好,比前3種模型分別提升了7.5,11.0,2.0.

4.3.2 多樣性分析

根據(jù)公式(8)可以計(jì)算得到四種模型的DIVERSE值如表2所示:

表2 問題生成模型多樣性對(duì)比Table 2 DIVERSE of proposed models

為了減少誤差,計(jì)算多樣性的關(guān)系種類都是至少對(duì)應(yīng)3條或3條以上的三元組,共有505種.結(jié)果如表2所示,其中N=[3,4]表示包含3條或4條三元組的關(guān)系,共有406種,N≥5表示包含5條和5條以上三元組的關(guān)系,共有99組.

實(shí)驗(yàn)結(jié)果顯示,融合預(yù)訓(xùn)練模型的問題生成方法總體上能夠生成更加豐富多樣的問題,在N=[3,4]的問題集合中取得了最優(yōu)效果,但基于模板的Seq2seq方法在N>=5的問題集合中效果略好.出現(xiàn)這種情況可能有兩個(gè)原因:1) 實(shí)驗(yàn)的關(guān)系種類數(shù)量太少,存在偶然性;2) 這類關(guān)系一般性較強(qiáng),描述方式較為簡(jiǎn)單,如果不設(shè)計(jì)多樣的模板容易生成相似度較高的問題.

5 總結(jié)與展望

本文提出了一種融合預(yù)訓(xùn)練模型的中文知識(shí)圖譜問題生成方法.該方法以條件變分自編碼器為基礎(chǔ),利用BERT作為預(yù)編碼器,結(jié)合Transformer模型作為源編碼器和解碼器.該模型增強(qiáng)了問題生成模型的語(yǔ)義理解和表示能力,極大提高了泛化能力,為知識(shí)問答任務(wù)擴(kuò)充語(yǔ)料提供了一種新的思路.該方法在NLPCC2017 KBQA數(shù)據(jù)集上優(yōu)于其他現(xiàn)有中文知識(shí)圖譜問題生成方法,并且能夠生成更加具有多樣性的問題.

后續(xù)的工作主要是將該問題模型融合其他預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn)比較.還可以對(duì)答案編碼部分進(jìn)行改進(jìn),用命名實(shí)體識(shí)別方法標(biāo)注答案詞性,增強(qiáng)答案與疑問詞之間的聯(lián)系.

猜你喜歡
解碼器編碼器圖譜
基于ResNet18特征編碼器的水稻病蟲害圖像描述生成
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
“植物界大熊貓”完整基因組圖譜首次發(fā)布
WV3650M/WH3650M 絕對(duì)值旋轉(zhuǎn)編碼器
WDGP36J / WDGA36J編碼器Wachendorff自動(dòng)化有限公司
基于Beaglebone Black 的絕對(duì)式編碼器接口電路設(shè)計(jì)*
基于Android環(huán)境下的數(shù)據(jù)包校驗(yàn)技術(shù)分析
圖表
淺談SCOPUS解碼器IRD—2600系列常用操作及故障處理
做一個(gè)二進(jìn)制解碼器
精河县| 邻水| 富宁县| 尼勒克县| 祥云县| 上饶县| SHOW| 沅江市| 清徐县| 罗定市| 两当县| 保德县| 和政县| 宁武县| 三门峡市| 马公市| 敦化市| 泌阳县| 湖北省| 龙岩市| 五华县| 渑池县| 神农架林区| 仪陇县| 祁阳县| 安庆市| 温宿县| 慈利县| 霸州市| 兰州市| 建平县| 阿合奇县| 钟祥市| 海淀区| 阿拉善右旗| 竹北市| 扬中市| 如东县| 阜南县| 海盐县| 任丘市|