高建偉 萬(wàn)懷宇 林友芳
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044)(gaojianwei@bjtu.edu.cn)
作為自然語(yǔ)言處理領(lǐng)域中一個(gè)重要的基礎(chǔ)研究課題,關(guān)系抽取旨在從無(wú)結(jié)構(gòu)化的文本當(dāng)中預(yù)測(cè)出給定實(shí)體對(duì)之間的關(guān)系事實(shí).例如,從表1的第1行句子中,我們可以抽取出實(shí)體對(duì)Apple和Steve Jobs之間的關(guān)系是創(chuàng)始人.
Table 1 An Example of Sentences in a Bag Labeled by Distant Supervision
通常,大多數(shù)傳統(tǒng)的關(guān)系抽取模型[1-3]都采用有監(jiān)督學(xué)習(xí)的方法來(lái)進(jìn)行訓(xùn)練,然而這一過程往往需要大量的高質(zhì)量標(biāo)注樣本來(lái)進(jìn)行支撐,非常的耗費(fèi)人力.Mintz等人[4]提出使用遠(yuǎn)程監(jiān)督的方法來(lái)緩解缺乏訓(xùn)練數(shù)據(jù)的問題,該方法可以通過將知識(shí)圖譜(knowledge graph, KG)中的實(shí)體對(duì)與文本中相應(yīng)的實(shí)體對(duì)進(jìn)行對(duì)齊來(lái)自動(dòng)生成帶標(biāo)簽的訓(xùn)練樣本.關(guān)系抽取中的遠(yuǎn)程監(jiān)督是基于這樣的假設(shè)來(lái)定義的:若在給定KG中的2個(gè)實(shí)體之間存在關(guān)系事實(shí),那么我們認(rèn)為所有包含該相同實(shí)體對(duì)的句子都表達(dá)了對(duì)應(yīng)的關(guān)系.因此,遠(yuǎn)程監(jiān)督方法所具有的這種強(qiáng)有力的假設(shè)不可避免地會(huì)伴隨著錯(cuò)誤標(biāo)記的問題,從而導(dǎo)致了噪聲數(shù)據(jù)的產(chǎn)生.
因此,Riedel等人[5]提出了一個(gè)使用多示例學(xué)習(xí)(multi-instance learning, MIL)框架的方法來(lái)緩解噪聲數(shù)據(jù)的問題,這一方法提出了一種叫作“expressed-at-least-once”的假設(shè)來(lái)緩解先前約束較強(qiáng)的假設(shè)條件.該方法假設(shè),在所有包含相同實(shí)體對(duì)的句子當(dāng)中,至少有1個(gè)確實(shí)表達(dá)了它們的關(guān)系.在多示例學(xué)習(xí)框架當(dāng)中,關(guān)系抽取的目標(biāo)從句子級(jí)別變成了為包級(jí)別,其中每個(gè)包是由一組包含相同實(shí)體對(duì)的句子所組成的集合.此后,有許多研究者都受到該工作的啟發(fā),基于MIL框架開展了一系列的研究工作來(lái)提高模型選擇有效句子的能力[6-9].其中,Lin等人[9]提出的選擇性注意力框架使用注意力機(jī)制來(lái)為句子分配權(quán)重,從而能夠充分地利用所有句子中所包含的信息.近些年來(lái),基于選擇性注意力框架,提出了一系列新的關(guān)系抽取模型[10-13],它們大多使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)來(lái)作為句子編碼器,證明了這一結(jié)構(gòu)的穩(wěn)定性和有效性.
然而,盡管上述框架結(jié)構(gòu)被廣泛使用在遠(yuǎn)程監(jiān)督關(guān)系抽取領(lǐng)域,但是傳統(tǒng)特征抽取器卻忽略了廣泛存在于實(shí)體之間的知識(shí)信息,這導(dǎo)致所捕獲的特征有可能會(huì)誤導(dǎo)選擇有效句子的過程.例如,表1中句子“Steve Jobs was the co-founder and CEO of Apple.”和“Steve Jobs argued with Wozniak,the co-founder of Apple.”在句式結(jié)構(gòu)上非常相似.因此先前的模型會(huì)從這2個(gè)句子當(dāng)中捕獲到相似的特征(即認(rèn)為它們都表達(dá)了Steve Jobs和Apple是創(chuàng)始人的關(guān)系).在這樣的情況下,如果缺乏實(shí)體知識(shí)信息,模型就無(wú)法很好地辨別出正確的信息來(lái)生成有效的包級(jí)別的特征表示.
為了解決上述提到的問題,本文通過探索額外的實(shí)體知識(shí)提出了一種實(shí)體知識(shí)增強(qiáng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(entity knowledge enhanced neural network, EKNN).EKNN模型通過動(dòng)態(tài)地將實(shí)體知識(shí)與詞嵌入融合在一起,從而能夠使模型將更多的注意力集中在與句子中給定實(shí)體對(duì)有關(guān)的信息上,提高了模型在句子級(jí)別的表達(dá)能力.本文的主要貢獻(xiàn)有3個(gè)方面:
1) 提出了一種知識(shí)感知的詞嵌入方法,將實(shí)體中的2種知識(shí),即來(lái)自語(yǔ)料庫(kù)的語(yǔ)義知識(shí)和來(lái)自外部KG的結(jié)構(gòu)知識(shí)動(dòng)態(tài)地注入到詞嵌入中.
2) 在廣泛使用的“紐約時(shí)報(bào)”(New York Times, NYT)數(shù)據(jù)集[5]上評(píng)估了EKNN模型.實(shí)驗(yàn)結(jié)果表明,本文提出的模型在2個(gè)版本的NYT數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他最新模型.此外,通過額外的對(duì)比實(shí)驗(yàn)確認(rèn)了2個(gè)版本的數(shù)據(jù)集之間存在的差異.
3) 通過進(jìn)一步的消融實(shí)驗(yàn),分別探究了2種不同的知識(shí)在關(guān)系抽取任務(wù)當(dāng)中的有效性.
大多數(shù)有監(jiān)督的關(guān)系抽取模型[1-3]都會(huì)遇到標(biāo)注數(shù)據(jù)不足的問題,而手動(dòng)標(biāo)記大規(guī)模的訓(xùn)練數(shù)據(jù)既費(fèi)時(shí)又費(fèi)力.因此,有研究者提出了使用遠(yuǎn)程監(jiān)督的方法來(lái)自動(dòng)完成標(biāo)記訓(xùn)練數(shù)據(jù)的工作[4].盡管遠(yuǎn)程監(jiān)督在一定程度上緩解了人工標(biāo)注數(shù)據(jù)的困難,但仍然會(huì)伴隨著噪聲數(shù)據(jù)的問題.Riedel等人[5]和Hoffmann等人[6]都提出利用多示例學(xué)習(xí)的方法來(lái)緩解噪聲數(shù)據(jù)的問題,該方法不再使用單個(gè)句子作為樣本,而是將包含相同實(shí)體對(duì)的句子所組成的集合看作一個(gè)整體來(lái)作為樣本.
Fig. 1 The framework of our proposed neural architecture EKNN圖1 本文提出的EKNN模型架構(gòu)圖
傳統(tǒng)的關(guān)系抽取方法主要是基于人工設(shè)計(jì)的特征進(jìn)行的.近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型已經(jīng)被證明可以有效地捕獲句子中的語(yǔ)義特征,并且還避免了由人工特征所引起的誤差傳遞[14-16].Zeng等人[8]提出了分段池化卷積神經(jīng)網(wǎng)絡(luò)(piecewise convolutional neural network, PCNN)從句子中更充分地提取實(shí)體之間的文本特征,并選擇可能性最大的句子來(lái)作為包級(jí)別的表示.Lin等人[9]提出了一個(gè)選擇性注意力框架,該框架通過對(duì)集合內(nèi)的所有句子進(jìn)行加權(quán)求和來(lái)生成包級(jí)別的特征表示,這一框架也被之后的許多研究工作所廣泛地采用[11-13].Shang等人[17]則提出了一種基于深度聚類方法的關(guān)系抽取模型,通過無(wú)監(jiān)督的深度聚類方法來(lái)為噪聲句子重新生成可靠的標(biāo)簽,進(jìn)而緩解噪聲問題.此外,也有許多的工作嘗試?yán)脤?shí)體相關(guān)的外部信息來(lái)改善模型性能.Han等人[18]提出了一種用于降噪的聯(lián)合學(xué)習(xí)框架,該框架能夠在知識(shí)圖譜和文本之間的相互指導(dǎo)下進(jìn)行學(xué)習(xí).Hu等人[19]利用知識(shí)圖譜的結(jié)構(gòu)信息和實(shí)體的描述文本來(lái)選擇有效的句子進(jìn)行關(guān)系提取.然而,這些方法大多數(shù)都僅僅考慮將知識(shí)信息用于降噪,并沒有充分地利用實(shí)體知識(shí)中所蘊(yùn)含的豐富的信息.
因此,在本文中同時(shí)引入了結(jié)構(gòu)知識(shí)和語(yǔ)義知識(shí)來(lái)生成知識(shí)感知的詞嵌入向量.通過這樣的方法,知識(shí)信息可以更加深入地融合到模型中.
在本節(jié)中將介紹本文用于遠(yuǎn)程監(jiān)督關(guān)系抽取的EKNN模型的整體框架和細(xì)節(jié)描述.
給定一個(gè)實(shí)體對(duì)(hi,ti)及其實(shí)體對(duì)包Si,關(guān)系抽取的目的是預(yù)測(cè)實(shí)體對(duì)之間的關(guān)系ri.模型的總體框架如圖1(a)所示,主要有3個(gè)部分:
3) 選擇性注意力機(jī)制.給定實(shí)體對(duì)包Si中所有句子的語(yǔ)義上下文嵌入表示,包級(jí)別的特征表示通過注意力機(jī)制計(jì)算得到,最終用于預(yù)測(cè)關(guān)系類型.
關(guān)系抽取的目標(biāo)是預(yù)測(cè)2個(gè)實(shí)體之間的關(guān)系.因此,實(shí)體對(duì)中所包含的信息是非常重要的.在當(dāng)前的研究當(dāng)中,實(shí)體對(duì)中仍然還有很多隱含的信息尚未得到充分的利用.受這一想法的啟發(fā),本文引入了語(yǔ)義信息和結(jié)構(gòu)信息作為實(shí)體對(duì)的外部知識(shí),以此來(lái)豐富傳統(tǒng)的詞嵌入表示.
2.3.1 語(yǔ)義知識(shí)嵌入
詞嵌入技術(shù)由Hinton等人[20]首次提出,其目的是為了將詞語(yǔ)轉(zhuǎn)換為向量空間當(dāng)中的分布式向量表示,以捕獲詞語(yǔ)間的句法和語(yǔ)義特征.因此,本文采用詞嵌入作為語(yǔ)義信息的來(lái)源.給定一個(gè)實(shí)體對(duì)(hi,ti)及其詞嵌入(ehi,eti),將實(shí)體對(duì)的語(yǔ)義知識(shí)嵌入定義為
(1)
其中,ehi,eti∈2dw.
2.3.2 結(jié)構(gòu)知識(shí)嵌入
典型的知識(shí)圖譜通常是一個(gè)具有多種關(guān)系類型的有向圖,可以將其表示為一系列關(guān)系三元組(h,r,t)的集合[12].因此,知識(shí)圖譜通常會(huì)包含有豐富的結(jié)構(gòu)信息,可以將其看作本文結(jié)構(gòu)知識(shí)的來(lái)源.本文使用TransE[21]作為知識(shí)圖譜嵌入模型,以此來(lái)得到實(shí)體和關(guān)系的預(yù)訓(xùn)練嵌入向量.給定一個(gè)三元組(h,r,t)及其嵌入表示(h,r,t),TransE將關(guān)系r看作是從頭實(shí)體h到尾實(shí)體t的一種翻譯操作,如果(h,r,t)存在,則可以假設(shè)嵌入向量t應(yīng)該接近于h+r.因此,將實(shí)體對(duì)的結(jié)構(gòu)知識(shí)嵌入定義為
(2)
其中,hi,ti∈ds.
2.3.3 門控融合
為了能夠動(dòng)態(tài)地將實(shí)體對(duì)的知識(shí)與原始的詞嵌入融合在一起,本文使用門控機(jī)制來(lái)生成知識(shí)感知的詞嵌入表示.
(6)
(7)
(8)
(9)
(10)
(11)
其中,Wb1∈db×3dc,Wb2∈1×db是可學(xué)習(xí)參數(shù),db是超參數(shù).之后,可以通過上述注意力分?jǐn)?shù)來(lái)得到包級(jí)別的特征表示用于關(guān)系分類,其定義為
(12)
最終,特征r在經(jīng)過線性變換后被送入到Softmax分類器當(dāng)中.其計(jì)算公式定義為
(13)
其中,Mr是變換矩陣,br是偏置項(xiàng).同時(shí),與Lin等人[9]相同,本文在包級(jí)別的特征表示r上使用了dropout[22]來(lái)防止過擬合.
在訓(xùn)練階段,本文嘗試最小化交叉熵?fù)p失函數(shù):
(14)
其中,θ表示模型中的所有參數(shù),B=[S1,S2,…,S|B|]表示實(shí)體對(duì)包的集合,而[r1,r2,…,r|B|]則表示對(duì)應(yīng)的關(guān)系標(biāo)簽.本文中所有模型均使用隨機(jī)梯度下降(stochastic gradient descent, SGD)作為優(yōu)化算法.
在Riedel等人[5]公開的“紐約時(shí)報(bào)”NYT數(shù)據(jù)集上對(duì)本文的模型進(jìn)行了評(píng)估,該數(shù)據(jù)集是通過將Freebase中的關(guān)系與NYT語(yǔ)料庫(kù)進(jìn)行自動(dòng)地對(duì)齊而生成的,它在目前許多最新的遠(yuǎn)程監(jiān)督關(guān)系抽取研究工作當(dāng)中被廣泛使用.該數(shù)據(jù)集共包含53類關(guān)系和一個(gè)無(wú)關(guān)系NA標(biāo)簽,無(wú)關(guān)系標(biāo)簽表示2個(gè)實(shí)體之間沒有任何關(guān)系.值得一提的是,在當(dāng)前的許多研究工作當(dāng)中存在2個(gè)不同版本的NYT數(shù)據(jù)集,這是由于一次錯(cuò)誤的數(shù)據(jù)集發(fā)布所造成的(1)https://github.com/thunlp/NRE/commit/77025e5cc6b42bc1adf3ec46835101d162013659.這2個(gè)版本數(shù)據(jù)集之間的主要區(qū)別在于訓(xùn)練集部分不同,它們的測(cè)試集是相同的.具體而言,表2中列出了這2個(gè)數(shù)據(jù)集的一些數(shù)據(jù)統(tǒng)計(jì)情況.本文將這2個(gè)不同的訓(xùn)練集分別稱為train-570K和train-520K.從表2中可以看出,train-570K和測(cè)試集在實(shí)體對(duì)而非句子上存在交集,而train-520K是比較干凈的訓(xùn)練集,不存在交集.在交集部分,大多數(shù)實(shí)體對(duì)的標(biāo)簽為NA,這使得模型更容易區(qū)分標(biāo)簽為NA的樣本.因此可以推斷出,對(duì)于同一模型,使用train-570K數(shù)據(jù)集進(jìn)行訓(xùn)練的效果會(huì)高于train-520K數(shù)據(jù)集.
Table 2 Statistics of the NYT Dataset表2 NYT數(shù)據(jù)集統(tǒng)計(jì)情況
在評(píng)價(jià)指標(biāo)方面,本文遵循了目前主流的研究工作[4,9,13],在NYT測(cè)試集上使用精確率-召回率(P-R)曲線以及該曲線下面積(AUC)和Top-N精確度(P@N)來(lái)作為評(píng)估指標(biāo).
3.2.1 知識(shí)圖譜嵌入
本文使用FB40K[23]來(lái)作為我們的外部知識(shí)圖譜,它包含大約40 000個(gè)實(shí)體和1 318種關(guān)系類型.為了生成預(yù)訓(xùn)練的知識(shí)圖譜嵌入,使用OpenKE Toolkit[24]進(jìn)行訓(xùn)練,其中嵌入向量的大小ds=100,超參數(shù)margin=5,學(xué)習(xí)率設(shè)置為1,迭代輪數(shù)為500輪.值得注意的是,F(xiàn)B40K和測(cè)試集在實(shí)體對(duì)上沒有的任何交集.因此,在外部知識(shí)圖譜FB40K中不會(huì)包含任何出現(xiàn)在測(cè)試集中的實(shí)體對(duì).
3.2.2 參數(shù)設(shè)置
在實(shí)驗(yàn)中,通過網(wǎng)格法對(duì)超參數(shù)進(jìn)行了選擇,其中批量大小B∈{50,120,160},CNN卷積核個(gè)數(shù)dc∈{64,128,230,256},隱藏層db∈{256,512,690},平滑參數(shù)λ∈{30,35,40,45,50},其余參數(shù)則與前人工作[9,12-13]保持一致.同時(shí)采用了Lin等人[9]發(fā)布的50維的詞向量用于初始化設(shè)置.表3列出了在2個(gè)版本的訓(xùn)練集上進(jìn)行實(shí)驗(yàn)使用的所有超參數(shù)情況.此外,對(duì)于優(yōu)化算法,在train-570K和train-520K上分別使用學(xué)習(xí)率為0.1和0.2的mini-batch SGD算法進(jìn)行訓(xùn)練.
Table 3 Hyper-parameter Settings in Our Experiments表3 本實(shí)驗(yàn)中的超參數(shù)設(shè)置
3.2.3 基準(zhǔn)模型
為了對(duì)本文所提出的EKNN模型進(jìn)行評(píng)估,將其與當(dāng)前最新的基準(zhǔn)模型進(jìn)行了比較:PCNN+ATT[9]是最基礎(chǔ)的選擇性注意力模型;+HATT[12]采用層次注意力機(jī)制,在長(zhǎng)尾關(guān)系抽取上的效果有很大的提升;+BAG-ATT[13]分別使用包內(nèi)和包之間的注意力機(jī)制來(lái)緩解句子級(jí)別和包級(jí)別的噪聲;JointD+KATT[18]設(shè)計(jì)了一個(gè)聯(lián)合學(xué)習(xí)框架,通過知識(shí)圖譜和文本之間的相互指導(dǎo)學(xué)習(xí)來(lái)進(jìn)行降噪;RELE[19]通過知識(shí)圖譜的結(jié)構(gòu)化信息來(lái)指導(dǎo)標(biāo)簽嵌入(label embedding)的學(xué)習(xí)從而進(jìn)行降噪,提高了關(guān)系抽取的性能.此外,本文還與傳統(tǒng)的基于特征的模型進(jìn)行了對(duì)比,包括Mintz[4],MultiR[6],MIML[7]等.
從表4中所列出的P@N值結(jié)果中可以看出,對(duì)于CNN+ATT和PCNN+ATT,使用train-520K進(jìn)行訓(xùn)練的P@N要明顯低于使用train-570K進(jìn)行訓(xùn)練的P@N.這一實(shí)驗(yàn)結(jié)果與數(shù)據(jù)集上(表2)所觀察到的現(xiàn)象是一致的,即訓(xùn)練集和測(cè)試集之間的實(shí)體對(duì)存在交集可以在一定程度上提高模型在關(guān)系抽取任務(wù)上的性能.而對(duì)于當(dāng)前最先進(jìn)的研究方法,也使用train-520K重新進(jìn)行了訓(xùn)練.與上述實(shí)驗(yàn)結(jié)果相似,這些模型的結(jié)果在train-520K也出現(xiàn)了顯著的性能下降.而所提出的EKNN模型在2個(gè)訓(xùn)練集上進(jìn)行訓(xùn)練的結(jié)果也有所不同.但是與其他基準(zhǔn)方法相比,在train-570K和train-520K上分別進(jìn)行訓(xùn)練時(shí),本文的方法在P@N指標(biāo)上仍然要明顯地優(yōu)于其他方法.具體而言,在P@N均值這一指標(biāo)上,相比PCNN+ATT模型在2個(gè)訓(xùn)練集上分別提升了11.6%和5.0%.此外,與最優(yōu)的基準(zhǔn)模型+BAG-ATT相比,本文所提出的模型在2個(gè)訓(xùn)練集上也有著顯著的性能提升.上述結(jié)果證明了本文所提出的遠(yuǎn)程監(jiān)督關(guān)系抽取方法的有效性.
Table 4 P@N Values of Different Models on the Two Training Sets表4 各模型在2個(gè)訓(xùn)練集上的P@N值 %
此外,圖2和表5也分別展示了精確率-召回率(P-R)曲線和AUC的結(jié)果.從圖2中的P-R曲線可以看出,隨著召回率的提升,各模型的精確率出現(xiàn)了急劇的下降,這是由于遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的噪聲問題所導(dǎo)致的.而從表5中的AUC值還可以看出,對(duì)比train-570K上的結(jié)果,包括本文模型在內(nèi)的所有模型在train-520K下進(jìn)行訓(xùn)練都有不同程度的性能下降,這與表4中的P@N指標(biāo)的結(jié)果是一致的,也同樣驗(yàn)證了在3.1節(jié)中所作的分析.但是,對(duì)比最優(yōu)的基準(zhǔn)模型+BAG-ATT,本文的方法在train-520K上仍然有顯著提升,這進(jìn)一步證明了本文所提出模型的性能提升是穩(wěn)定且有效的.具體而言,本文在2個(gè)數(shù)據(jù)集上,+BAG-ATT的AUC指標(biāo)分別提高了0.12和0.05.
Fig. 2 Precision-recall curves of the proposed model and other baseline models圖2 本文模型與其他模型的精確率-召回率曲線
為了進(jìn)一步驗(yàn)證本文所提出的方法中不同模塊的有效性,本文進(jìn)行了充分的消融實(shí)驗(yàn),旨在探索什么樣的實(shí)體知識(shí)對(duì)于關(guān)系抽取任務(wù)更有價(jià)值.消融實(shí)驗(yàn)的P@N指標(biāo)結(jié)果在表4的6~8行列出,而精確率-召回率曲線和及其相應(yīng)的AUC值在圖3和表5的部分區(qū)域進(jìn)行展示.其中,w/o All表示去掉本文中設(shè)計(jì)的所有新模塊,相當(dāng)于最基礎(chǔ)的選擇性注意力模型[9].在接下來(lái)的分析當(dāng)中,可以將其作為基準(zhǔn)和其它模型進(jìn)行對(duì)比.
Fig. 3 Precision-recall curves for the ablation study圖3 消融實(shí)驗(yàn)的精確率-召回率曲線
Table 5 AUC Values of Different Models on the Two Training Sets
在本文提出的EKNN模型中,引入了2類實(shí)體知識(shí),分別為模型提供語(yǔ)義信息和結(jié)構(gòu)化信息.為了驗(yàn)證它們的有效性,設(shè)計(jì)了2個(gè)變種模型.具體而言,w/o Semantic和w/o Structure都表示丟棄其中一類知識(shí)而保留另一類.從結(jié)果當(dāng)中可以發(fā)現(xiàn),2類實(shí)體知識(shí)都可以豐富模型的表達(dá)能力,并顯著提高模型性能.以train-520K為例,假如去掉整個(gè)知識(shí)感知詞嵌入模塊(w/o All),P@N值和AUC指標(biāo)分別下降了4.8%和0.055.此外,通過對(duì)比w/o Semantic和w/o Structure這2個(gè)變種模型,可以了解到在關(guān)系抽取任務(wù)當(dāng)中結(jié)構(gòu)化信息比語(yǔ)義信息具有更大的價(jià)值,這是由于模型從結(jié)構(gòu)化數(shù)據(jù)中所學(xué)到的隱式嵌入具有更強(qiáng)的推理能力.
為了驗(yàn)證本文知識(shí)融合方法的有效性,本文與當(dāng)前主流的融合知識(shí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示:
Table 6 P@N Values of Different Knowledge Integration Methods
從實(shí)驗(yàn)結(jié)果中可以看出,所提出的實(shí)體知識(shí)感知的詞嵌入模塊擁有更加優(yōu)越的性能提升.這是由于JointD+KATT和RELE僅僅考慮了將知識(shí)信息用于模型訓(xùn)練和指導(dǎo)降噪的過程,而忽略了實(shí)體知識(shí)中所蘊(yùn)含的豐富表示.EKNN模型通過知識(shí)信息和詞嵌入表示融合的方式,更加深層次地將知識(shí)整合進(jìn)了模型,對(duì)實(shí)體知識(shí)進(jìn)行了更充分地利用,因而獲得了更好的性能表現(xiàn).
在實(shí)體知識(shí)感知的詞嵌入表示模塊當(dāng)中,超參數(shù)λ用于對(duì)知識(shí)融合的過程進(jìn)行平滑控制,圖4給出了不同的λ值對(duì)于模型性能的影響.從圖4中可以看出,當(dāng)λ值在40~45之間時(shí),模型中的實(shí)體知識(shí)和詞嵌入可以實(shí)現(xiàn)相對(duì)較好的融合效果,從而提升模型性能.
Fig. 4 The effect of hyperparameter λ on model performance圖4 超參數(shù)λ對(duì)模型性能的影響
本文提出了一種用于遠(yuǎn)程監(jiān)督關(guān)系抽取的神經(jīng)網(wǎng)絡(luò)模型EKNN.為了提高模型的表達(dá)能力,引入了2類實(shí)體知識(shí)(即語(yǔ)義知識(shí)和結(jié)構(gòu)知識(shí))來(lái)動(dòng)態(tài)地生成知識(shí)感知的詞嵌入.通過豐富的對(duì)比實(shí)驗(yàn),證明了本文的模型性能顯著優(yōu)于當(dāng)前最優(yōu)的方法.此外,本文還通過對(duì)比實(shí)驗(yàn)探究了“紐約時(shí)報(bào)”數(shù)據(jù)集上2個(gè)版本的訓(xùn)練數(shù)據(jù)之間的差異,結(jié)果表明,由于排除了數(shù)據(jù)集間的實(shí)體對(duì)交集,train-520K數(shù)據(jù)集比train-570K數(shù)據(jù)能夠更有效的反映模型性能.
作者貢獻(xiàn)聲明:高建偉負(fù)責(zé)模型設(shè)計(jì)以及文章的撰寫;萬(wàn)懷宇負(fù)責(zé)方法概念的提出文章的潤(rùn)色和審閱校對(duì);林友芳負(fù)責(zé)實(shí)驗(yàn)數(shù)據(jù)的管理、文章的潤(rùn)色和審閱校對(duì).