基于生成式對(duì)抗網(wǎng)絡(luò)的開(kāi)放式信息抽取

2021-02-25 03:37韓家寶王宏志

智能計(jì)算機(jī)與應(yīng)用 2021年10期

韓家寶，王宏志

（哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，哈爾濱 150001）

0 引言

信息抽取是自然語(yǔ)言處理領(lǐng)域內(nèi)的重要研究?jī)?nèi)容之一。研究目的是將文本結(jié)構(gòu)化，結(jié)構(gòu)化后的內(nèi)容可以是三元組的表示形式，也可以是多元關(guān)系的表示形式［1］。傳統(tǒng)的信息抽取方法側(cè)重于在語(yǔ)料庫(kù)上建立一套預(yù)定義的抽取范式［2-4］。因此，這些方法離不開(kāi)大量的人工參與，為了減少信息抽取中的人工參與，研究人員提出了開(kāi)放式信息抽取［5-6］，開(kāi)放式信息抽取不局限于一組與定義的目標(biāo)關(guān)系，而是提取文本中發(fā)現(xiàn)的所有類型關(guān)系。近年來(lái)，開(kāi)放式信息抽取取得了可觀的研究成果［4，7-20］，一系列的開(kāi)放式信息抽取系統(tǒng)陸續(xù)被應(yīng)用到各種工具當(dāng)中。這些系統(tǒng)普遍采用多種自然語(yǔ)言處理工具，因此也無(wú)一例外地面臨著錯(cuò)誤積累和傳播的問(wèn)題［21］。近期的工作多采用端到端的神經(jīng)網(wǎng)絡(luò)方法來(lái)進(jìn)行開(kāi)放式信息抽取的研究，這些方法雖然有效避免了錯(cuò)誤積累和傳播問(wèn)題，但卻沒(méi)有考慮到曝光偏差問(wèn)題，即：使用編碼器-解碼器架構(gòu)處理序列到序列問(wèn)題時(shí)，訓(xùn)練階段與測(cè)試階段所使用的數(shù)據(jù)不一致。

本文中，提出了基于生成式對(duì)抗網(wǎng)絡(luò)（GAN）［6，22］的模型來(lái)應(yīng)對(duì)開(kāi)放式信息抽取任務(wù)，GAN 模型不僅避免了傳統(tǒng)方法帶來(lái)的錯(cuò)誤累積和傳播問(wèn)題，還能很好地解決曝光偏差問(wèn)題［5，23-25］。此模型包含一個(gè)序列生成器，一個(gè)鑒別器。其中，序列生成器負(fù)責(zé)生成開(kāi)放式信息抽取的結(jié)果，鑒別器用于鑒定生成器的結(jié)果是否來(lái)自訓(xùn)練數(shù)據(jù)。文中也對(duì)一個(gè)大型的Open IE 基準(zhǔn)數(shù)據(jù)集進(jìn)行了研究，實(shí)驗(yàn)結(jié)果表明，該算法的性能優(yōu)于幾種常用的基準(zhǔn)。同時(shí)，也證實(shí)了本文提出的模型要比單一的編碼器-解碼器模型好得多。此外，性能上的明顯改進(jìn)也證實(shí)了GAN 模型在解決開(kāi)放信息抽取任務(wù)中的曝光偏差問(wèn)題上的有效性。

1 模型架構(gòu)

生成式對(duì)抗網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于計(jì)算機(jī)視覺(jué)等領(lǐng)域以及一些其他重要的領(lǐng)域［26-30］。 GAN 由2 個(gè)模塊組成，分別是：生成器G和鑒別器D，其目的旨在估計(jì)當(dāng)前輸入施工訓(xùn)練數(shù)據(jù)而不是從生成器中產(chǎn)生的概率。在開(kāi)放式信息抽取任務(wù)中使用GAN 模型的價(jià)值函數(shù)為：

其中，（x，y）表示訓(xùn)練實(shí)例；x表示輸入；y表示輸出；Pd表示數(shù)據(jù)分布；PG表示生成器的參數(shù)分布。

如式（1）目標(biāo)函數(shù)所述，鑒別器的學(xué)習(xí)目標(biāo)是確定當(dāng)前數(shù)據(jù)是來(lái)自訓(xùn)練數(shù)據(jù)、還是來(lái)自生成器的結(jié)果。生成器的訓(xùn)練目標(biāo)是產(chǎn)生與訓(xùn)練數(shù)據(jù)相當(dāng)?shù)慕Y(jié)果來(lái)混淆鑒別器。在實(shí)際的模型訓(xùn)練過(guò)程中，常用策略梯度［31］法來(lái)計(jì)算生成器的梯度。更新生成器參數(shù)模型前，先采樣候選答案并使用鑒別器來(lái)計(jì)算獎(jiǎng)勵(lì)分?jǐn)?shù)，繼而利用所得獎(jiǎng)勵(lì)分?jǐn)?shù)來(lái)計(jì)算生成器的梯度，再使用反向傳播算法來(lái)更新一代參數(shù)。在訓(xùn)練過(guò)程中，將訓(xùn)練數(shù)據(jù)中的序列和采樣后的候選序列分別作為鑒別器訓(xùn)練的正例和反例。為了解決鑒別器的過(guò)擬合問(wèn)題，使用MLE［32-34］提高生成器訓(xùn)練的穩(wěn)定性。

圖1 中展示了GAN 模型的整體架構(gòu)，該模型是由Transformer 模型構(gòu)成的序列生成器和CNN 模型構(gòu)成的鑒別器組成。

圖1 模型架構(gòu)Fig.1 Model architecture

1.1 序列生成器

對(duì)于序列生成器，編碼器結(jié)構(gòu)將輸入序列映射到高維空間中的向量表示，解碼器根據(jù)中間向量表示進(jìn)行解碼，與傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)不同，Transformer 模型不包含任何循環(huán)單元和卷積單元［35］。研究中，是通過(guò)正弦位置編碼來(lái)記錄單詞的相對(duì)位置，具體公式可寫(xiě)為：

其中，pos表示單詞的位置；i表示輸入句子的維度；d表示編碼器輸出的維度。在第一個(gè)編碼器和解碼器部分，位置編碼通過(guò)式（2）、式（3）進(jìn)行計(jì)算。第j個(gè)編碼器的輸出Se j是通過(guò)一個(gè)自注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)層進(jìn)行計(jì)算得到：

其中，Oe（j）表示第j個(gè)編碼器的注意力層的輸出；LN（·）表示的是歸一化層；表示的是編碼器的輸入；第j個(gè)解碼器的輸出是由一個(gè)編碼器-解碼器的注意力層EDATT（）產(chǎn)生的。此處需涉及的數(shù)學(xué)公式可寫(xiě)為：

其中，表示解碼器的輸入；表示第j個(gè)解碼器自注意力層的輸出；表示第j個(gè)編碼器的輸入；最后一個(gè)解碼器層的輸出Sd（n）被線性映射到V維的矩陣中，這里的V是輸出詞匯表的長(zhǎng)度。

1.2 對(duì)抗模型

對(duì)于給定的輸入序列x，鑒別器需要區(qū)分當(dāng)前結(jié)果是來(lái)自生成器的輸出y＾，還是來(lái)自訓(xùn)練數(shù)據(jù)中的實(shí)序列y。因此，研究使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)度量序列對(duì)（x，y）的匹配度。考慮到卷積神經(jīng)網(wǎng)絡(luò)具有逐層卷積和池化的功能，在該項(xiàng)任務(wù)中則有著獨(dú)特的優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)可以準(zhǔn)確地捕獲（x，y）在不同空間中的對(duì)應(yīng)關(guān)系，給出給定序列對(duì)（x，y），先通過(guò)簡(jiǎn)單地連接標(biāo)記為x和＄y＄的嵌入向量構(gòu)造2D表示。對(duì)于x中的第i個(gè)單詞xi和y中的第j個(gè)單詞yj，有以下特性映射：

基于這種2D 表示，這里的卷積窗口設(shè)置為3*3 大小，通過(guò)以下的類型f的特征映射來(lái)捕獲x與y的映射關(guān)系：

其中，σ（·）表示sigmoid激活函數(shù)，σ（x）＝1／（1+exp（- x）），再使用一個(gè)2*2 的窗口進(jìn)行池化操作：

在此基礎(chǔ)上，將提取的特征輸入到一個(gè)全連通層，利用上一層的sigmoid激活函數(shù)，求得訓(xùn)練數(shù)據(jù)中（x，y）的概率。該鑒別器的優(yōu)化目標(biāo)是以訓(xùn)練數(shù)據(jù)（x，y）為正例，序列生成器采樣數(shù)據(jù)為負(fù)例，以最小化二值分類的交叉熵?fù)p失為目標(biāo)。

訓(xùn)練目標(biāo)：生成器模型試圖生成一個(gè)高質(zhì)量的序列來(lái)欺騙鑒別器。對(duì)于鑒別器D，使用訓(xùn)練集和G生成的序列對(duì)D進(jìn)行訓(xùn)練。形式上D的目標(biāo)函數(shù)是使V（D，G）最大化：

對(duì)于序列生成器G，G的目標(biāo)是最大化期望獎(jiǎng)勵(lì)（D的概率），而不是直接最小化V（D，G），函數(shù)如下：

鑒別器的訓(xùn)練過(guò)程與傳統(tǒng)模式訓(xùn)練沒(méi)有區(qū)別，只需要向鑒別器提供發(fā)生器的輸出和訓(xùn)練數(shù)據(jù)。發(fā)生器的訓(xùn)練過(guò)程不同于鑒別器的訓(xùn)練過(guò)程，因?yàn)閺陌l(fā)生器的離散采樣結(jié)果y＾使得從鑒別器直接反向傳播誤差信號(hào)到發(fā)生器要較為困難，使V（D，G）對(duì)G的參數(shù)不可微。為此，研究中使用了enhance 算法來(lái)優(yōu)化生成器G。

2 實(shí)驗(yàn)

研究中使用了大型基準(zhǔn)數(shù)據(jù)集OIE2016［36］，包含3 200 個(gè)句子，共10 359 個(gè)提取、包含24 296 個(gè)句子，共56 662 個(gè)提取。為了驗(yàn)證本文提出方法的性能，仿真中使用了數(shù)個(gè)最先進(jìn)的基準(zhǔn)測(cè)試，包括OLLIE、ClausIE、Stanford OpenIE、PropS 和OPENIE4來(lái)與本文方法進(jìn)行比較。實(shí)驗(yàn)中，使用了2 個(gè)評(píng)價(jià)指標(biāo)，即：精確度和查全率。

2.1 模型參數(shù)

研究中利用keras-transformer 實(shí)現(xiàn)Adversarial-OIE。本次實(shí)驗(yàn)中使用了Tesla P100 GPU。該模型包括6 個(gè)編碼器和6 個(gè)解碼器、768 維的隱藏狀態(tài)和512 維的單詞嵌入。詞匯量有55 K 個(gè)。仿真時(shí)采用Relu作為注意激活函數(shù)和前饋激活，退出率設(shè)為0.05。同時(shí)選用Adam優(yōu)化了本文模型。對(duì)于對(duì)手D，CNN由2 個(gè)卷積+池化層、一個(gè)全連接層和一個(gè)softmax層組成，卷積窗口大小為3*3，池化窗口大小為2*2，特征大小為20，隱藏層的大小為20。

2.2 實(shí)驗(yàn)結(jié)果

在OIE2016 中的腳本作為本次研究的工具來(lái)評(píng)估精度和召回結(jié)果。仿真得到的精確率／召回率曲線如圖2 所示。在基準(zhǔn)測(cè)試集OIE2016 中，將本文提出的模型與許多基準(zhǔn)測(cè)試方法進(jìn)行了比較。從實(shí)驗(yàn)數(shù)據(jù)可以看出，與現(xiàn)有方法相比，本文方法在精度方面有明顯的優(yōu)勢(shì)。該模型的主要優(yōu)點(diǎn)就是端到端神經(jīng)網(wǎng)絡(luò)模型，避免了錯(cuò)誤傳播的問(wèn)題。

圖2 實(shí)驗(yàn)結(jié)果Fig.2 Experimental results

3 結(jié)束語(yǔ)

本文創(chuàng)新性地采用生成對(duì)抗網(wǎng)絡(luò)模型來(lái)處理開(kāi)放式信息抽取任務(wù)。研究中，將開(kāi)放式信息提取任務(wù)定義為序列到序列的任務(wù)。編碼-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型處理序列到序列的任務(wù)會(huì)導(dǎo)致暴露偏差問(wèn)題（由訓(xùn)練和推理過(guò)程中的文本生成不一致引起）。這種不一致性反映在推理和訓(xùn)練中使用的不同輸入上。在訓(xùn)練過(guò)程中，每個(gè)單詞輸入都來(lái)自于一個(gè)真實(shí)的樣本，但是當(dāng)前用于推理的輸入來(lái)自于上一個(gè)預(yù)測(cè)的輸出。采用生成對(duì)抗網(wǎng)絡(luò)模型可以有效地解決這一問(wèn)題。生成對(duì)抗網(wǎng)絡(luò)模型的再訓(xùn)練階段給每個(gè)單詞設(shè)定一個(gè)相應(yīng)的獎(jiǎng)勵(lì)，而非如同極大似然估計(jì)一樣來(lái)增加單詞出現(xiàn)的概率，如此就不會(huì)產(chǎn)生曝光偏差問(wèn)題。本文的模型盡可能地保證了鑒別器的可靠性。利用高質(zhì)量的鑒別器改進(jìn)了序列發(fā)生器。無(wú)需任何手工制作的模式和其他NLP 工具，序列生成器就可以生成精度更高的三元組。實(shí)驗(yàn)表明，該模型具有較好的性能。從實(shí)驗(yàn)結(jié)果不難看出GAN模型的不足。也就是說(shuō)，在一定的時(shí)間間隔內(nèi)，精度會(huì)迅速下降。究其原因則在于GAN 模型的對(duì)抗性訓(xùn)練不容易控制。在訓(xùn)練過(guò)程中，如果鑒別器模型有偏差，發(fā)生器模型就會(huì)被誤導(dǎo)，產(chǎn)生一個(gè)劣質(zhì)循環(huán)，這一偏差也會(huì)越來(lái)越大。最終，模型的性能會(huì)突然下降。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡