韓家寶, 王宏志
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)
信息抽取是自然語(yǔ)言處理領(lǐng)域內(nèi)的重要研究?jī)?nèi)容之一。 研究目的是將文本結(jié)構(gòu)化,結(jié)構(gòu)化后的內(nèi)容可以是三元組的表示形式,也可以是多元關(guān)系的表示形式[1]。 傳統(tǒng)的信息抽取方法側(cè)重于在語(yǔ)料庫(kù)上建立一套預(yù)定義的抽取范式[2-4]。 因此,這些方法離不開(kāi)大量的人工參與,為了減少信息抽取中的人工參與,研究人員提出了開(kāi)放式信息抽取[5-6],開(kāi)放式信息抽取不局限于一組與定義的目標(biāo)關(guān)系,而是提取文本中發(fā)現(xiàn)的所有類型關(guān)系。 近年來(lái),開(kāi)放式信息抽取取得了可觀的研究成果[4,7-20],一系列的開(kāi)放式信息抽取系統(tǒng)陸續(xù)被應(yīng)用到各種工具當(dāng)中。 這些系統(tǒng)普遍采用多種自然語(yǔ)言處理工具,因此也無(wú)一例外地面臨著錯(cuò)誤積累和傳播的問(wèn)題[21]。近期的工作多采用端到端的神經(jīng)網(wǎng)絡(luò)方法來(lái)進(jìn)行開(kāi)放式信息抽取的研究,這些方法雖然有效避免了錯(cuò)誤積累和傳播問(wèn)題,但卻沒(méi)有考慮到曝光偏差問(wèn)題,即:使用編碼器-解碼器架構(gòu)處理序列到序列問(wèn)題時(shí),訓(xùn)練階段與測(cè)試階段所使用的數(shù)據(jù)不一致。
本文中,提出了基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)[6,22]的模型來(lái)應(yīng)對(duì)開(kāi)放式信息抽取任務(wù),GAN 模型不僅避免了傳統(tǒng)方法帶來(lái)的錯(cuò)誤累積和傳播問(wèn)題,還能很好地解決曝光偏差問(wèn)題[5,23-25]。 此模型包含一個(gè)序列生成器,一個(gè)鑒別器。 其中,序列生成器負(fù)責(zé)生成開(kāi)放式信息抽取的結(jié)果,鑒別器用于鑒定生成器的結(jié)果是否來(lái)自訓(xùn)練數(shù)據(jù)。 文中也對(duì)一個(gè)大型的Open IE 基準(zhǔn)數(shù)據(jù)集進(jìn)行了研究,實(shí)驗(yàn)結(jié)果表明,該算法的性能優(yōu)于幾種常用的基準(zhǔn)。 同時(shí),也證實(shí)了本文提出的模型要比單一的編碼器-解碼器模型好得多。 此外,性能上的明顯改進(jìn)也證實(shí)了GAN 模型在解決開(kāi)放信息抽取任務(wù)中的曝光偏差問(wèn)題上的有效性。
生成式對(duì)抗網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于計(jì)算機(jī)視覺(jué)等領(lǐng)域以及一些其他重要的領(lǐng)域[26-30]。 GAN 由2 個(gè)模塊組成,分別是:生成器G和鑒別器D,其目的旨在估計(jì)當(dāng)前輸入施工訓(xùn)練數(shù)據(jù)而不是從生成器中產(chǎn)生的概率。 在開(kāi)放式信息抽取任務(wù)中使用GAN 模型的價(jià)值函數(shù)為:
其中,(x,y)表示訓(xùn)練實(shí)例;x表示輸入;y表示輸出;Pd表示數(shù)據(jù)分布;PG表示生成器的參數(shù)分布。
如式(1)目標(biāo)函數(shù)所述,鑒別器的學(xué)習(xí)目標(biāo)是確定當(dāng)前數(shù)據(jù)是來(lái)自訓(xùn)練數(shù)據(jù)、還是來(lái)自生成器的結(jié)果。 生成器的訓(xùn)練目標(biāo)是產(chǎn)生與訓(xùn)練數(shù)據(jù)相當(dāng)?shù)慕Y(jié)果來(lái)混淆鑒別器。 在實(shí)際的模型訓(xùn)練過(guò)程中,常用策略梯度[31]法來(lái)計(jì)算生成器的梯度。 更新生成器參數(shù)模型前,先采樣候選答案并使用鑒別器來(lái)計(jì)算獎(jiǎng)勵(lì)分?jǐn)?shù),繼而利用所得獎(jiǎng)勵(lì)分?jǐn)?shù)來(lái)計(jì)算生成器的梯度,再使用反向傳播算法來(lái)更新一代參數(shù)。 在訓(xùn)練過(guò)程中,將訓(xùn)練數(shù)據(jù)中的序列和采樣后的候選序列分別作為鑒別器訓(xùn)練的正例和反例。 為了解決鑒別器的過(guò)擬合問(wèn)題,使用MLE[32-34]提高生成器訓(xùn)練的穩(wěn)定性。
圖1 中展示了GAN 模型的整體架構(gòu),該模型是由Transformer 模型構(gòu)成的序列生成器和CNN 模型構(gòu)成的鑒別器組成。
圖1 模型架構(gòu)Fig.1 Model architecture
對(duì)于序列生成器,編碼器結(jié)構(gòu)將輸入序列映射到高維空間中的向量表示,解碼器根據(jù)中間向量表示進(jìn)行解碼,與傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)不同,Transformer 模型不包含任何循環(huán)單元和卷積單元[35]。 研究中,是通過(guò)正弦位置編碼來(lái)記錄單詞的相對(duì)位置,具體公式可寫(xiě)為:
其中,pos表示單詞的位置;i表示輸入句子的維度;d表示編碼器輸出的維度。 在第一個(gè)編碼器和解碼器部分,位置編碼通過(guò)式(2)、式(3) 進(jìn)行計(jì)算。 第j個(gè)編碼器的輸出Se j是通過(guò)一個(gè)自注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)層進(jìn)行計(jì)算得到:
其中,Oe(j)表示第j個(gè)編碼器的注意力層的輸出;LN(·) 表示的是歸一化層;表示的是編碼器的輸入;第j個(gè)解碼器的輸出是由一個(gè)編碼器-解碼器的注意力層EDATT() 產(chǎn)生的。 此處需涉及的數(shù)學(xué)公式可寫(xiě)為:
其中,表示解碼器的輸入;表示第j個(gè)解碼器自注意力層的輸出;表示第j個(gè)編碼器的輸入;最后一個(gè)解碼器層的輸出Sd(n)被線性映射到V維的矩陣中,這里的V是輸出詞匯表的長(zhǎng)度。
對(duì)于給定的輸入序列x,鑒別器需要區(qū)分當(dāng)前結(jié)果是來(lái)自生成器的輸出y^,還是來(lái)自訓(xùn)練數(shù)據(jù)中的實(shí)序列y。 因此,研究使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)度量序列對(duì)(x,y) 的匹配度。 考慮到卷積神經(jīng)網(wǎng)絡(luò)具有逐層卷積和池化的功能,在該項(xiàng)任務(wù)中則有著獨(dú)特的優(yōu)勢(shì)。 卷積神經(jīng)網(wǎng)絡(luò)可以準(zhǔn)確地捕獲(x,y) 在不同空間中的對(duì)應(yīng)關(guān)系,給出給定序列對(duì)(x,y),先通過(guò)簡(jiǎn)單地連接標(biāo)記為x和$y$的嵌入向量構(gòu)造2D表示。 對(duì)于x中的第i個(gè)單詞xi和y中的第j個(gè)單詞yj,有以下特性映射:
基于這種2D 表示,這里的卷積窗口設(shè)置為3*3 大小,通過(guò)以下的類型f的特征映射來(lái)捕獲x與y的映射關(guān)系:
其中,σ(·) 表示sigmoid激活函數(shù),σ(x)=1/(1+exp(- x)),再使用一個(gè)2*2 的窗口進(jìn)行池化操作:
在此基礎(chǔ)上,將提取的特征輸入到一個(gè)全連通層,利用上一層的sigmoid激活函數(shù),求得訓(xùn)練數(shù)據(jù)中(x,y) 的概率。 該鑒別器的優(yōu)化目標(biāo)是以訓(xùn)練數(shù)據(jù)(x,y) 為正例,序列生成器采樣數(shù)據(jù)為負(fù)例,以最小化二值分類的交叉熵?fù)p失為目標(biāo)。
訓(xùn)練目標(biāo):生成器模型試圖生成一個(gè)高質(zhì)量的序列來(lái)欺騙鑒別器。 對(duì)于鑒別器D,使用訓(xùn)練集和G生成的序列對(duì)D進(jìn)行訓(xùn)練。 形式上D的目標(biāo)函數(shù)是使V(D,G) 最大化:
對(duì)于序列生成器G,G的目標(biāo)是最大化期望獎(jiǎng)勵(lì)(D的概率),而不是直接最小化V(D,G),函數(shù)如下:
鑒別器的訓(xùn)練過(guò)程與傳統(tǒng)模式訓(xùn)練沒(méi)有區(qū)別,只需要向鑒別器提供發(fā)生器的輸出和訓(xùn)練數(shù)據(jù)。 發(fā)生器的訓(xùn)練過(guò)程不同于鑒別器的訓(xùn)練過(guò)程,因?yàn)閺陌l(fā)生器的離散采樣結(jié)果y^使得從鑒別器直接反向傳播誤差信號(hào)到發(fā)生器要較為困難,使V(D,G) 對(duì)G的參數(shù)不可微。 為此,研究中使用了enhance 算法來(lái)優(yōu)化生成器G。
研究中使用了大型基準(zhǔn)數(shù)據(jù)集OIE2016[36],包含3 200 個(gè)句子,共10 359 個(gè)提取、包含24 296 個(gè)句子,共56 662 個(gè)提取。 為了驗(yàn)證本文提出方法的性能,仿真中使用了數(shù)個(gè)最先進(jìn)的基準(zhǔn)測(cè)試,包括OLLIE、ClausIE、Stanford OpenIE、PropS 和OPENIE4來(lái)與本文方法進(jìn)行比較。 實(shí)驗(yàn)中,使用了2 個(gè)評(píng)價(jià)指標(biāo),即:精確度和查全率。
研究中利用keras-transformer 實(shí)現(xiàn)Adversarial-OIE。 本次實(shí)驗(yàn)中使用了Tesla P100 GPU。 該模型包括6 個(gè)編碼器和6 個(gè)解碼器、768 維的隱藏狀態(tài)和512 維的單詞嵌入。 詞匯量有55 K 個(gè)。 仿真時(shí)采用Relu作為注意激活函數(shù)和前饋激活,退出率設(shè)為0.05。 同時(shí)選用Adam優(yōu)化了本文模型。 對(duì)于對(duì)手D,CNN由2 個(gè)卷積+池化層、一個(gè)全連接層和一個(gè)softmax層組成,卷積窗口大小為3*3,池化窗口大小為2*2, 特征大小為20,隱藏層的大小為20。
在OIE2016 中的腳本作為本次研究的工具來(lái)評(píng)估精度和召回結(jié)果。 仿真得到的精確率/召回率曲線如圖2 所示。 在基準(zhǔn)測(cè)試集OIE2016 中,將本文提出的模型與許多基準(zhǔn)測(cè)試方法進(jìn)行了比較。 從實(shí)驗(yàn)數(shù)據(jù)可以看出,與現(xiàn)有方法相比,本文方法在精度方面有明顯的優(yōu)勢(shì)。 該模型的主要優(yōu)點(diǎn)就是端到端神經(jīng)網(wǎng)絡(luò)模型,避免了錯(cuò)誤傳播的問(wèn)題。
圖2 實(shí)驗(yàn)結(jié)果Fig.2 Experimental results
本文創(chuàng)新性地采用生成對(duì)抗網(wǎng)絡(luò)模型來(lái)處理開(kāi)放式信息抽取任務(wù)。 研究中,將開(kāi)放式信息提取任務(wù)定義為序列到序列的任務(wù)。 編碼-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型處理序列到序列的任務(wù)會(huì)導(dǎo)致暴露偏差問(wèn)題(由訓(xùn)練和推理過(guò)程中的文本生成不一致引起)。這種不一致性反映在推理和訓(xùn)練中使用的不同輸入上。 在訓(xùn)練過(guò)程中,每個(gè)單詞輸入都來(lái)自于一個(gè)真實(shí)的樣本,但是當(dāng)前用于推理的輸入來(lái)自于上一個(gè)預(yù)測(cè)的輸出。 采用生成對(duì)抗網(wǎng)絡(luò)模型可以有效地解決這一問(wèn)題。 生成對(duì)抗網(wǎng)絡(luò)模型的再訓(xùn)練階段給每個(gè)單詞設(shè)定一個(gè)相應(yīng)的獎(jiǎng)勵(lì),而非如同極大似然估計(jì)一樣來(lái)增加單詞出現(xiàn)的概率,如此就不會(huì)產(chǎn)生曝光偏差問(wèn)題。 本文的模型盡可能地保證了鑒別器的可靠性。 利用高質(zhì)量的鑒別器改進(jìn)了序列發(fā)生器。無(wú)需任何手工制作的模式和其他NLP 工具,序列生成器就可以生成精度更高的三元組。 實(shí)驗(yàn)表明,該模型具有較好的性能。 從實(shí)驗(yàn)結(jié)果不難看出GAN模型的不足。 也就是說(shuō),在一定的時(shí)間間隔內(nèi),精度會(huì)迅速下降。 究其原因則在于GAN 模型的對(duì)抗性訓(xùn)練不容易控制。 在訓(xùn)練過(guò)程中,如果鑒別器模型有偏差,發(fā)生器模型就會(huì)被誤導(dǎo),產(chǎn)生一個(gè)劣質(zhì)循環(huán),這一偏差也會(huì)越來(lái)越大。 最終,模型的性能會(huì)突然下降。