国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結合領域先驗詞匯的遠程監(jiān)督關系抽取模型

2022-09-07 03:20:08王會勇張曉明
計算機應用與軟件 2022年8期
關鍵詞:三元組先驗類別

王會勇 安 康 張曉明

(河北科技大學信息科學與工程學院 河北 石家莊 050000)

0 引 言

在領域知識圖譜構建過程中,概念或實體間的關聯(lián)關系發(fā)現(xiàn)是構建領域知識圖譜的重要基礎。但是,由于特定領域知識適用范圍小、知識結構較復雜、專業(yè)性較強等領域因素,使得領域知識圖譜構建難度較高,存在很多挑戰(zhàn),例如通用領域的關系抽取方法并不能完全適用于特定領域,數(shù)據(jù)標注過程人工參與程度較高。因此,針對特定領域的關系抽取研究具有重要的現(xiàn)實意義。

目前隨著關系抽取任務的研究,常采用深度學習方法通過對文本特征的判斷來進行關系分類,文本特征是關系抽取模型進行關系分類的重要特征。在關系抽取任務中,常通過改進模型來提取更多的特征信息,進而提高關系抽取效率,而且外部知識特征也逐漸被引入到關系抽取模型中輔助關系分類。例如Li等[1]提出了一種基于因果關系詞匯的因果關系抽取模型,模型會將表達因果關系的詞匯特征引入到卷積神經(jīng)網(wǎng)絡模型來輔助關系抽取任務,有效地利用先驗詞匯判別實體間的因果關系類別。因此,在特定領域中,基于外部知識的關系抽取模型可以充分利用領域知識和專家經(jīng)驗,為關系抽取提供豐富的先驗特征,提高特定領域關系抽取的效率。而且在關系抽取研究中,常采用Mintz等[2]提出的遠程監(jiān)督方法,遠程監(jiān)督方法的自動標注數(shù)據(jù)能力可以減少大量人工標注的代價,為特定領域缺少標注數(shù)據(jù)的困難提供了解決方案。

因此,本文基于Li等[1]的方法提出了基于先驗詞匯的分段池化卷積神經(jīng)網(wǎng)絡模型K-PCNN,利用領域的關系先驗詞匯輔助關系分類任務,并在Li等提出的因果關系抽取模型的基礎上拓展為多關系抽取。針對缺少標注數(shù)據(jù)的問題,采用了遠程監(jiān)督的方法進行關系數(shù)據(jù)自動標注。本文的主要貢獻如下:

(1) 提出一種基于先驗詞匯的分段池化卷積神經(jīng)網(wǎng)絡模型K-PCNN。該模型在卷積神經(jīng)網(wǎng)絡中引入各類關系的先驗詞匯知識特征,利用先驗詞匯特征幫助模型判別關系類型,加強關系分類能力,以提高關系抽取性能。

(2) 提出一種基于遠程監(jiān)督的領域數(shù)據(jù)標注方法,利用領域三元組知識以及領域文本語料,基于遠程監(jiān)督的自動標注方法進行領域數(shù)據(jù)集構建,并且以金屬材料領域為例,構建了金屬材料領域關系抽取數(shù)據(jù)集MMRE。所提出的構建數(shù)據(jù)集的方案也可以應用到其他缺乏關系標注數(shù)據(jù)的特定領域中,用于關系抽取模型的訓練和評估。

1 相關工作

1.1 關系抽取方法

關系抽取任務是構建知識圖譜的重要環(huán)節(jié),通過發(fā)現(xiàn)文本中實體對間的語義關系,為知識圖譜提供關系特征。目前常用的關系抽取方法有監(jiān)督學習方法、無監(jiān)督學習方法和半監(jiān)督學習方法。

監(jiān)督學習方法采用了深度學習模型,將關系抽取任務作為關系分類任務,常用的模型如卷積神經(jīng)網(wǎng)絡模型[3-5]和循環(huán)神經(jīng)網(wǎng)絡模型[6-8]。無監(jiān)督學習關系抽取方法是一種聚類方法,主要依據(jù)相同語義關系具有相同的上下文信息這一特征,通過上下文信息對實體關系進行聚類,例如Ma[9]采用了K-means聚類算法。半監(jiān)督學習方法包含基于BootStrapping的方法和Mintz等[2]提出的遠程監(jiān)督方法。其中基于BootStrapping的方法是依賴人工標注好的種子實例和模板,然后迭代抽取關系模板和更多實例,例如Gupta等[10]提出了基于高置信度評估的BootStrapping方法;遠程監(jiān)督方法假設一個句子中若包含一類關系涉及的實體對,則該句可以作為此類關系的訓練正例,這種自動標注方法大大減少了標注數(shù)據(jù)的人工成本,增加了大量的訓練樣本。

由于深度學習模型對于訓練數(shù)據(jù)的依賴,關系抽取任務需要大量的關系標注數(shù)據(jù)。以上方法中,監(jiān)督學習方法和基于BootStrapping的半監(jiān)督方法均需要標注大量的數(shù)據(jù);人工標注的方法會耗費大量人力,不能適用于專業(yè)性較強的特定領域;遠程監(jiān)督方法可以適用于特定領域,快速標注大量的領域數(shù)據(jù),為領域關系抽取模型提供訓練數(shù)據(jù)。

1.2 關系抽取模型

在關系抽取任務中,常通過對深度學習模型的改進來獲取更多的文本特征,例如,Zeng等[11]在卷積神經(jīng)網(wǎng)絡模型的基礎上,提出了一種根據(jù)實體對位置進行分段式最大池化的方法,可以獲得更多的文本特征,而且Zeng等[12]通過增加實體的位置信息和其他相關詞匯特征來提高關系預測準確率。Yan等[13]將句子的詞性特征、依存關系特征和短語語法樹特征進行融合,得到句子的特征表示,充分利用句子的語義信息,提高Text-CNN模型的抽取效率。Jia等[14]通過注意力機制發(fā)現(xiàn)表達關系類別的關系模式,利用發(fā)現(xiàn)的關系模式來實現(xiàn)關系抽取任務。Jat等[15]利用多種詞級注意力模型的互補特性來增強較長文本的句子表示能力,從而提升關系抽取性能。

以上的研究大多在文本特征的基礎上,繼續(xù)挖掘文本中所包含的重要特征,進而提高模型的關系抽取效率。但隨著自然語言處理的研究,外部知識賦能的模型逐漸被應用于關系抽取任務?;谕獠恐R的關系抽取模型可以把額外的知識特征作為輔助特征來判斷文本中的關系類別。例如Li等[1]利用因果關系的同義詞、近義詞作為關系先驗詞匯,利用先驗詞匯特征實現(xiàn)關系類別判斷,增加關系抽取能力。Zhang等[16]提出了一種基于知識庫的知識感知模型,并將傳統(tǒng)的關系抽取任務建模為關系檢索任務進行關系抽取。Zeng等[17]提出了基于關系路徑的關系抽取模型,借助中間實體和關系路徑來進行關系抽取。Nathani等[18]提出基于圖注意力模型的特征嵌入方法,通過獲取實體對在知識庫中相鄰實體和關系特征來增強特征表示。Vashishth等[19]利用了知識庫中實體類型和關系別名作為模型的附加信息,將附加信息作為關系抽取的軟約束,從而提升關系抽取性能。在特定領域中,采用基于外部知識特征的關系抽取方法能夠充分利用領域知識和專家經(jīng)驗,為關系抽取提供豐富的經(jīng)驗知識,從而提高關系抽取效率。

基于以上研究思路,本文采用了基于先驗知識的關系抽取方法,充分利用能夠表達關系類別的外部詞匯知識輔助領域關系抽取任務,并選擇具有良好學習能力的卷積神經(jīng)網(wǎng)絡模型作為特征提取模型。同時,利用遠程監(jiān)督方法的自動標注數(shù)據(jù)能力解決特定領域缺少標注數(shù)據(jù)的問題。

2 問題描述和概念定義

2.1 問題描述

領域關系抽取任務可以為知識圖譜的構建擴充三元組的數(shù)量,是發(fā)現(xiàn)實體對之間關系類別的重要過程。領域關系抽取任務的進行離不開領域關系抽取模型以及領域標注數(shù)據(jù)。因此,本文要解決的核心問題是領域先驗詞匯的獲取,以及將先驗詞匯特征應用于領域關系抽取模型,并為模型的訓練評估標注領域數(shù)據(jù)。本文通過獲取并利用已有的關系先驗詞匯為抽取模型提供外部特征信息,從而提高領域關系抽取效率;而且,有效利用領域文本語料及三元組為模型創(chuàng)建領域數(shù)據(jù)集,進行模型訓練評估。

2.2 概念定義

在定義相關概念之前,首先介紹本文中所使用的符號:三元組集合表示為T={T1,T2,…,Tn},Ti=,i=1,2,…,n,其中:h為頭實體,r為關系類型,t為尾實體;關系類別標簽集合表示為R={r1,r2,…,rn},ri∈R;詞匯集合表示為W={w1,w2,…,wn},其中wi為一個詞匯。

定義1關系先驗詞匯知識。本文采用了能夠描述關系類別的詞匯作為關系先驗詞匯。關系先驗詞匯知識是判斷文本所含關系類別的重要特征。先驗詞匯知識主要是從已有的詞匯知識庫、包含關系類別的文本語料、三元組中獲取,例如表1所示的Founder關系的先驗詞匯知識來源。

表1 Founder關系的先驗詞匯知識獲取來源

定義2領域關系抽取數(shù)據(jù)集RE。領域關系抽取數(shù)據(jù)集可表示為RE={(S1,r1),(S2,r2),…,(Sn,rn)},其中(Si,ri)為一組標注數(shù)據(jù)。Si=(si,hi,ti),其中:Si為一條標注實體對hi和ti的文本;si為未標注實體對的純文本;hi為頭實體;ti為尾實體;ri為標注的關系類別。

3 基于先驗詞匯的分段池化卷積神經(jīng)網(wǎng)絡模型

針對特定領域關系抽取任務,本文提出基于先驗詞匯的分段池化卷積神經(jīng)網(wǎng)絡模型K-PCNN。K-PCNN的模型結構如圖1所示,該模型主要包含兩個核心部分:基于先驗詞匯的卷積層(Convolution Layer with Priori Words)和分段池化層(Piecewise Max Pooling)。其中:模型的輸入為文本語句;Embedding Layer為模型嵌入層。最后是實現(xiàn)關系抽取的分類器。

基于先驗詞匯的卷積層是將關系先驗詞匯特征作為卷積神經(jīng)網(wǎng)絡的卷積核權重,利用關系先驗知識特征來識別文本中包含的關系類別。先驗詞匯知識特征是該模型進行關系分類的重要依據(jù),且先驗詞匯特征是用預訓練的詞向量進行向量表示,不需要在模型訓練時重新訓練。本文的模型中池化層采用了Zeng等[11]提出的分段池化,可以獲取更多的文本特征,減少降維過程的特征損失。

圖1 基于先驗詞匯的分段池化卷積神經(jīng)網(wǎng)絡模型

3.1 詞嵌入層

本文K-PCNN模型的輸入為一條帶有實體對的文本,例如圖1所示的輸入語句為:“Gold is found at Port_Phillip by a shepherd.”,其中:實體對是“Gold”和“Port_Phillip”;關系標簽為“FOUND”。K-PCNN模型的嵌入層是為了將模型的輸入文本嵌入到低維向量空間。本文采用了Word2vec模型,并利用領域數(shù)據(jù)集的文本進行預訓練,從而得到詞嵌入矩陣。根據(jù)詞嵌入矩陣,得到輸入文本的詞向量矩陣。例如,給定一個文本序列{w1,w2,…,wn},其中n為文本中單詞數(shù)量,根據(jù)詞嵌入矩陣,將文本序列轉換為詞向量序列{q1,q2,…,qn},qi∈Rd,d為詞向量維度,如式(1)所示。

qi=fWord2vec(wi)

(1)

式中:wi為文本序列中的單詞;qi為第i個單詞的詞向量表示;fWord2vec表示W(wǎng)ord2vec模型函數(shù)。

3.2 基于先驗詞匯的卷積層

基于先驗詞匯的卷積層將關系先驗詞匯特征作為卷積核參數(shù),即先驗詞匯的詞向量作為卷積核的權重參數(shù),進行卷積運算。利用先驗詞匯特征來辨別文本中包含的關系類別。因此,本節(jié)主要介紹關系類別先驗詞匯知識的獲取與應用。

先驗詞匯特征是關系分類的重要特征,關系先驗知識的豐富性有助于關系類別的判斷。WordNet[20]和FrameNet[21]兩個詞匯知識庫包含了大量的詞匯知識,可以為關系抽取提供重要的詞匯知識。除此之外,在領域數(shù)據(jù)集的語料文本中已經(jīng)包含了各個類別的文本信息,也是判斷關系類別的重要先驗知識。因此,本文利用詞匯知識庫和領域數(shù)據(jù)集來獲取相關詞匯知識,并通過專家對獲取的詞匯進行篩選,最終得到應用于模型的關系先驗詞匯。專家篩選是為了將表達關系類別的重要先驗詞匯篩選出來,領域專家掌握有大量領域知識及經(jīng)驗,能夠快速判斷關系類別的相關先驗詞匯,用于關系類別的判別。關系先驗詞匯的獲取及篩選流程如圖2所示。

圖2 關系先驗詞匯的獲取流程

先驗詞匯知識的獲取過程如下:

Step1從WordNet和FrameNet中獲取關系先驗詞匯。WordNet和FrameNet作為兩個詞匯知識庫,其中包含了較為完整的詞匯知識,并分別利用同義詞集和詞匯框架將詞匯之間鏈接起來。給定要進行抽取的關系類別標簽r,將關系類別標簽作為查詢關鍵詞,在WordNet和FrameNet中進行同義詞和近義詞的提取,獲得詞匯集合WWN和WFN,分別表示為:

WWN=fWordNet(r)

(2)

WFN=fFrameNet(r)

(3)

式中:fWordNet和fFrameNet分別為WordNet、FrameNet同義詞、近義詞提取函數(shù);WWN和WFN分別是從WordNet和FrameNet提取的關系類別r的相關詞匯集合。

Step2從領域數(shù)據(jù)集獲取關系先驗詞匯。領域數(shù)據(jù)集在本文中不僅作為關系抽取訓練集,也將用于抽取關系先驗詞匯。本文利用TF-IDF算法來提取數(shù)據(jù)集文本中的重要詞匯信息。給定數(shù)據(jù)集中該類關系的文本語句集合{s1,s2,…,sm},利用TF-IDF算法得到根據(jù)詞頻排序的語料詞匯集合WRE,表示為:

WRE=fTF-IDF({s1,s2,…,sm})

(4)

式中:fTF-IDF表示為TF-IDF算法函數(shù);WRE為利用TF-IDF算法得到的語料詞匯集合。

Step3專家篩選關系先驗詞匯。關系類別的相關詞匯詞集WWN、WFN和WRE包含了關系類別的一些相關詞匯,但是詞集的詞匯數(shù)量繁多需要進行篩選,得到能夠充分描述關系類別的先驗詞匯。篩選過程采用了專家人工篩選的方法,可以更為準確地保留關系類別的重要先驗詞匯知識,有助于模型對關系類別的分類能力,公式表示為:

Wpriori=fExpert(WWN,WFN,WRE)

(5)

式中:fExpert表示為專家篩選先驗詞匯過程;Wpriori為得到的關系類別的先驗詞匯集集合。

經(jīng)過以上方法得到先驗詞匯集Wpriori后,在進行模型分類前需要根據(jù)詞嵌入矩陣將先驗詞匯轉換為詞向量,得到先驗詞匯特征矩陣F,如式(6)所示。特征矩陣F將作為卷積層的卷積核權重進行模型訓練和分類。

F=fWord2vec(Wpriori)

(6)

式中:fWord2vec表示為Word2vec模型函數(shù);F為先驗詞匯特征矩陣。

卷積層可以包含有多個卷積核,因此不同關系類別的先驗詞匯特征矩陣將作為不同的卷積核權重進行卷積,多卷積核的應用能夠獲取不同的特征。若模型輸入一條語句{w1,w2,…,wn},其中n為單詞個數(shù);經(jīng)過嵌入層后得到詞向量序列{q1,q2,…,qn},qi∈Rd,其中d為詞向量維度;卷積核長度為k,卷積核權重矩陣為F,F(xiàn)∈Rk×d,則嵌入層的第i行到第j行矩陣qi:j與F卷積計算過程如下:

cj=Fqj-k+1:j

(7)

式中:cj為卷積計算得到的特征值,j∈[1,n+k-1]。卷積完成后得到特征圖為c∈Rn+k-1。

3.3 分段池化層

在卷積神經(jīng)網(wǎng)絡模型中,經(jīng)過卷積后得到的特征圖會通過池化層來降低維度大小,防止過擬合,并且可以保留重要的特征信息。池化層常用的設置為最大池化,即取特征值中的最大值。為了獲取更多的文本特征,Zeng等[11]提出了分段池化設置。分段池化是把卷積后的特征圖矩陣根據(jù)實體對的位置切割為三段,再進行最大池化的方法,如圖1中Piecewise Max Pooling部分。相比于普通的最大池化只獲得了一個特征值,分段池化將三段分別求最大池化,可以保留更多的特征信息。

在關系抽取模型中,模型輸入為一個文本序列,轉換為詞向量序列后進入卷積層,經(jīng)過卷積得到若干個特征圖{c1,c2,…,cm},ci∈Rn+k-1。若對其中一個個特征圖ci進行最大池化,得到池化后的結果僅為一個特征值pi,如式(8)所示。若把特征圖ci根據(jù)實體對位置進行分段處理,將ci分為三段{ci1,ci2,ci3},再分別對三段進行最大池化,便可得到三維向量pi=(pi1;pi2;pi3),如式(9)所示。

pi=max(ci)

(8)

pij=max(cij) 1≤i≤m,1≤j≤3

(9)

模型經(jīng)過卷積層和池化層后,得到的特征矩陣繼續(xù)在分類器中實現(xiàn)關系的分類。經(jīng)過卷積層和池化層后的特征矩陣包含了文本的重要特征以及關系類別特征,最終這些特征矩陣進入關系分類器利用Sigmoid函數(shù)實現(xiàn)關系分類。

4 基于遠程監(jiān)督的領域數(shù)據(jù)標注方法

特定領域關系抽取模型的訓練和評估離不開大量的標注數(shù)據(jù)。在特定領域中,傳統(tǒng)的人工標注方法需要大量的人工參與。因此,本文根據(jù)關系抽取模型的訓練數(shù)據(jù)需求,提出基于遠程監(jiān)督的數(shù)據(jù)標注方法,如圖3所示。該方法主要應用了遠程監(jiān)督的自動標注能力,利用特定領域的三元組知識和語料文本進行數(shù)據(jù)集構建。

圖3 領域數(shù)據(jù)標注流程

遠程監(jiān)督數(shù)據(jù)標注方法的具體實現(xiàn)是根據(jù)文本中是否存在實體對而進行關系標注的。因此,根據(jù)遠程監(jiān)督方法進行數(shù)據(jù)標注需要獲取領域三元組及領域語料文本。本文將數(shù)據(jù)標注過程設置為三部分:獲取領域語料文本,獲取領域三元組知識和領域數(shù)據(jù)標注。其中:Part1為從Web網(wǎng)頁中爬取領域文本;Part2為從DBpedia等知識庫獲取領域三元組知識;Part3為數(shù)據(jù)標注過程。

4.1 基于DBpedia與Wikipedia的領域語料與三元組抽取方法

Wikipedia是一個跨學科跨領域的百科全書,其中包含了大量的語料文本,而DBpedia是一個開放知識圖譜,包含了大量來自Wikipedia的三元組知識,并且與Wikipedia的資源相關聯(lián)。因此,本文依據(jù)DBpedia知識圖譜結構,在Wikipedia和DBpedia中抽取領域文本與領域三元組知識。

本節(jié)以金屬材料領域為例,介紹基于DBpedia與Wikipedia的領域語料與三元組抽取方法,并采用了Zhang等[22]提出的逐步提取策略(Stepwise Extraction Strategy,SES)。領域文本與三元組的抽取過程主要包含創(chuàng)建候選類別實體集合、抽取DBpedia中的領域三元組、抽取Wikipedia中的語料文本、迭代擴充四個步驟,抽取流程如圖4所示。領域語料文本及三元組抽取的具體步驟如下:

圖4 領域語料及三元組抽取流程

Step1創(chuàng)建候選類別實體集合Edbc。DBpedia中實體可以分為兩類:一類為表示類別的類別實體edbc,例如“dbc:Metals”;另一類為表示資源的資源實體edbr,例如“dbr:Iron”。候選類別實體集合Edbc是由人工初始化的一些金屬材料類別實體組成。

Step2抽取DBpedia中的領域三元組。根據(jù)DBpedia中類別實體和資源實體之間的關系類別“dct:subject”,可以從DBpedia API中獲取類別實體對應的資源實體,例如圖4中類別實體“dbc:Metals”根據(jù)三元組得到資源實體“dbr:Metal_theft”。然后,再利用DBpedia API獲取到資源實體的三元組集合。

Step3抽取Wikipedia中的領域語料文本。已知DBpedia的三元組知識均源于Wikipedia,并且每一個資源實體都通過“foaf:isPrimaryTopicOf”關系鏈接到相應的Wikipedia網(wǎng)頁資源,例如。因此,可以通過資源實體的相應鏈接獲取Wikipedia的描述文本。

Step4迭代擴充實體集合與語料文本。在DBpedia中資源實體與類別實體存在關系“dct:subject”,而類別實體之間存在包含關系“skos:broader”。因此,根據(jù)這兩類關系可以對初步得到的類別實體集合進行擴充,從而得到更多的領域語料文本和三元組。

領域語料文本及三元組抽取方法的具體實現(xiàn)算法如算法1所示。算法的輸入是候選類別實體集合Edbc,迭代次數(shù)k,算法結束后,將返回領域文本集合D與領域三元組集合T。

算法1領域語料文本及三元組抽取算法

輸入:Edbc,k。

輸出:D,T。

1.Edbr=?,D=?,T=?,j=0

2.ForeachedbcinEdbc

3.Ifj>kdo

4.break

9.j=j+1

10.ForeachedbrinEdbr

11.doc=fisprimarytopicof(edbr)

12.D=D∪{doc}

13.{trii|i∈Z+}=fDBpedia(edbr)

14.T=T∪{trii|i∈Z+}

17.j=j+1

18.EndFor

19.EndFor

20.ReturnD,T

圖5所示為根據(jù)算法1實現(xiàn)的實體擴充實例。以“dbc:Metals”為候選類別實體,可以通過“dct:subject”和“is skos:broader of”兩種關系,經(jīng)過兩次迭代即可獲得“dbc:Iron”等五種類別實體及其資源實體。

圖5 DBpedia領域實體迭代擴充示例

4.2 基于OpenIE與ReVerb的領域三元組擴充方法

經(jīng)過對Wikipedia和DBpedia中領域文本和三元組的抽取,可以得到領域文本集合與領域三元組集合。但是,在抽取的語料文本中仍然存在著許多DBpedia未包含的三元組知識。因此,為了獲取更多的三元組知識,本文提出基于OpenIE與ReVerb的領域三元組擴充方法,利用開放信息抽取工具OpenIE[23]與ReVerb[24],繼續(xù)抽取領域文本中所包含的三元組知識,擴充領域三元組集合。OpenIE與ReVerb是兩個重要的開放信息抽取模型,使用之前不需要提前指定關系,即可從句子中抽取三元組。領域三元組擴充方法的步驟主要分為兩步,過程如下:

(1) 三元組抽取。該步驟主要利用OpenIE和ReVerb兩種工具對從Wikipedia獲取的領域文本進行三元組抽取。

(2) 三元組篩選。篩選過程主要利用置信度來篩選出高置信度的三元組。置信度篩選利用了OpenIE與ReVerb的置信度評分進行篩選三元組,選取置信度高于0.8的三元組。如表2所示,兩種抽取工具對同一文本的抽取結果及三元組置信度評分。最后將篩選的三元組擴充到領域三元組集合,用于數(shù)據(jù)標注過程。

表2 OpenIE與ReVerb抽取三元組示例

4.3 基于遠程監(jiān)督的領域數(shù)據(jù)標注

基于上述方法,可以得到領域語料文本集合及三元組集合。利用得到的文本和三元組,就可以基于遠程監(jiān)督方法進行數(shù)據(jù)標注,標注示例如圖6所示。在數(shù)據(jù)標注前,首先將文本語料進行數(shù)據(jù)清洗,指代消解、分句等預處理,最終得到一系列文本語句;然后將得到的文本語句及三元組根據(jù)遠程監(jiān)督方法進行數(shù)據(jù)標注。遠程監(jiān)督方法對文本的標注依據(jù)是文本序列中是否存在三元組的實體對,若文本中存在實體對,則進行關系標注,表示為:

(10)

式中:s={w1,w2,…,wn},s表示待標注的文本序列,wi表示s中的單詞;h、r、t分別是三元組中的頭實體、關系類別和尾實體;Tag表示文本序列s對應的標簽,若h和t同時存在于s中,則標記為關系類別r,否則,標記為0。

圖6所示是以金屬材料領域為例的領域數(shù)據(jù)標注示例。圖6中實例1文本中包含了三元組中的頭實體與尾實體,則實例1文本可以被標注為“USED”關系標簽,作為正例樣本。通過這種遠程監(jiān)督的方法可以自動地將抽取的領域文本進行標注,得到可以用于模型訓練和評估的數(shù)據(jù)集MMRE(Metallic Material Relation Extraction)。

圖6 金屬材料領域數(shù)據(jù)標注示例

5 實 驗

5.1 實驗數(shù)據(jù)

由于領域缺少專有的關系抽取數(shù)據(jù)集,因此本文的實驗數(shù)據(jù)利用所提出的基于遠程監(jiān)督的領域數(shù)據(jù)標注方法進行自動標注,構建了金屬材料領域關系抽取數(shù)據(jù)集MMRE。并且,通過對三元組關系的篩選,選擇了其中四類主要實體關系,共包含了7 000多條標注文本,具體關系類別如表3所示。

表3 MMRE數(shù)據(jù)集包含的關系類別

除了領域數(shù)據(jù)集,本文還采用了關系抽取任務中廣泛應用的NYT[25]數(shù)據(jù)集進行模型的評估。NYT數(shù)據(jù)集共包含53種關系類別,本文從中選擇了4類關系進行評估實驗,具體的關系類別如表4所示。

表4 NYT數(shù)據(jù)集中的4種關系類別

5.2 評價指標

本文的關系抽取實驗采用了內部自動評測方法來評價關系抽取模型的性能,以F1值為評價標準對關系抽取效果進行綜合評估。除此之外,為了能清楚地了解模型對每一類關系的抽取效果,采用ROC評估曲線的AUC值對各類關系的抽取效果進行詳細評估。

ROC評估曲線主要表現(xiàn)為一種真正率與假正率之間的權衡。AUC值即ROC曲線與橫軸之間的面積,AUC值的計算表示為:

(11)

式中:M為某類關系的正例樣本數(shù)量;N為非此類關系的負例樣本數(shù)量;PT為正例樣本的預測概率;PF為負例樣本的預測概率;(PT,PF)為樣本對,即一個正例樣本與一個負例樣本的組合;I(PT,PF)為所有樣本對中,正例樣本的預測概率大于負例樣本的預測概率的個數(shù)。

5.3 實驗方法

在對關系抽取任務的研究中,本文選用了卷積神經(jīng)網(wǎng)絡作為關系抽取基礎模型。因此,為了提升模型泛化能力,防止過擬合現(xiàn)象,本文采用了模型正則化方法和數(shù)據(jù)擴增的方法,并且實驗過程中采用了K折交叉驗證的訓練方法。

在數(shù)據(jù)量有限、樣本不均衡等情況下,模型訓練會受到數(shù)據(jù)集的限制而不能達到最優(yōu)。Wei等[26]提出了一種數(shù)據(jù)增強技術(Easy Data Augmentation,EDA),該技術為小數(shù)據(jù)集的訓練提供了數(shù)據(jù)優(yōu)化方法,可以顯著提高模型性能并減少過擬合。同時,考慮到實驗標注數(shù)據(jù)中實體對位置不能隨意變換,不能隨機刪除或增加詞匯,因此,采用了EDA的同義詞替換和變換詞序的方法來增強MMRE數(shù)據(jù)集。

在MMRE數(shù)據(jù)集的基礎上,本文分別采用了EDA技術的同義詞替換和變換詞序方法,生成了兩個新的數(shù)據(jù)集:同義詞替換后的數(shù)據(jù)集MMRE_eda和原文本逆轉詞序后的數(shù)據(jù)集MMRE_rev。表5展示了增強后數(shù)據(jù)集樣本數(shù)量情況,其中:MMRE_ori是原始MMRE數(shù)據(jù)集;MMRE_all是MMRE_eda和MMRE_rev兩個數(shù)據(jù)集的集合。

表5 數(shù)據(jù)增強后的各個數(shù)據(jù)集情況

5.4 超參數(shù)設置

實驗過程中,為了提高模型的性能,本文以F1值為評價指標,從詞向量維度、文本序列長度方面判斷了兩種參數(shù)對實驗訓練過程F1值的影響。詞向量維度是模型將文本嵌入到向量空間時向量維度的大小,文本序列長度是指輸入文本轉換為詞向量序列時進行擴充或切割而得到的序列長度。

本文將詞向量維度范圍設置為100到400,數(shù)值間隔為50,文本序列長度范圍為200到500,數(shù)值間隔為50,利用網(wǎng)格搜索方法選取兩組參數(shù)中的最優(yōu)組合。實驗如圖7所示。

圖7 不同詞向量維度與不同詞序列長度參數(shù)組合實驗

圖7中橫軸為不同的詞向量維度,每個詞向量維度對應7個不同的詞序列長度。根據(jù)圖7中縱軸F1值可知,當詞向量維度為300且詞序列長度為300時,F(xiàn)1值最大,為最佳參數(shù)組合。其中,不同詞向量維度和不同詞序列長度分別對模型F1值的影響如圖8、圖9所示。

圖8 不同詞向量維度對模型F1值的影響

圖9 不同詞序列長度對模型F1值的影響

如圖8所示,當詞序列長度為300時,經(jīng)過7種不同詞向量維度的F1值對比可知,隨著詞向量維度增加,在300維時,F(xiàn)1值達到最高;并且在300維之后,隨著維度遞增,F(xiàn)1值逐漸減小。因此,最優(yōu)詞向量維度為300維。

如圖9所示,當詞向量維度為300時,隨著詞序列長度的不斷增加,F(xiàn)1值不斷上升,并在數(shù)值為300時,F(xiàn)1值達到最高點,因此實驗中文本在輸入層是統(tǒng)一采用的序列長度為300。

本文的超參數(shù)設置如表6所示。

表6 實驗超參數(shù)設置

5.5 關系分類實驗

(1) 綜合性能F1值評估。為了評價本文提出的K-PCNN模型在關系抽取任務的性能效果,本文選擇Zeng等[11]提出的PCNN模型的改進模型PCNNwWLA進行對比實驗。對比實驗分別在領域數(shù)據(jù)集和公共數(shù)據(jù)集上進行。表7為K-PCNN模型與PCNNwWLA模型的測試集F1值對比。

表7 測試集F1值對比

表7所示實驗結果顯示,在領域數(shù)據(jù)集和公共數(shù)據(jù)集的對比實驗中,K-PCNN的F1值均達到80以上,且均略高于PCNNwWLA模型。實驗結果分析可知,領域先驗詞匯特征的應用有助于提高模型關系分類能力,且數(shù)據(jù)增強后的數(shù)據(jù)集也提高了模型的分類效果,使得K-PCNN模型關系抽取性能略高于PCNNwWLA模型。表8為本文模型對金屬材料領域語料的關系預測實例。

表8 K-PCNN模型關系預測實例

(2) 關系類別的AUC值評估。在經(jīng)過數(shù)據(jù)增強方法得到的領域數(shù)據(jù)集上,K-PCNN模型對四類關系的預測能力以及四類關系的AUC平均值變化如圖10所示。

圖10 關系類別AUC的對比

可以看出,在MMRE_all數(shù)據(jù)集中四類關系的AUC均高于0.9,說明模型K-PCNN對各類關系都有較強的分類能力。并且,K-PCNN模型在增強后的數(shù)據(jù)集上對每類關系的分類性能均優(yōu)于原數(shù)據(jù)集,實驗說明了數(shù)據(jù)增強技術有助于提高模型的性能。

6 結 語

本文在特定領域關系抽取任務中,針對領域關系抽取任務缺少適用模型及缺少領域標注數(shù)據(jù)的兩個挑戰(zhàn),分別提出基于先驗詞匯的分段池化卷積神經(jīng)網(wǎng)絡模型K-PCNN和基于遠程監(jiān)督的領域數(shù)據(jù)標注方法。K-PCNN模型充分利用了關系先驗詞匯進行關系分類,將獲取的關系詞匯知識嵌入詞向量后,輸入到卷積神經(jīng)網(wǎng)絡模型作為外部知識特征輔助關系分類。并且,本文以金屬材料領域為例,創(chuàng)建了金屬材料領域關系抽取數(shù)據(jù)集,對模型的性能進行了評估。實驗數(shù)據(jù)表明,該模型具有較高的關系抽取能力,說明本文提出的關系抽取模型以及數(shù)據(jù)標注方法能夠在一定程度上解決特定領域關系抽取任務的問題,具有一定的現(xiàn)實意義。

雖然本文提出的基于先驗詞匯的關系抽取模型達到了較高的關系抽取性能,但是模型僅僅引入了能夠表達關系類別的先驗詞匯知識,不能充分利用其他的外部知識或特征來輔助關系分類;而且,由于對先驗詞匯的依賴性,該模型只能抽取一些具有明顯關系特征的關系類別,可抽取的關系類別有一定限制。因此,未來的工作將嘗試把先驗知識的范圍進行拓展,例如實體類別等外部知識;并通過擴展更多的先驗知識來增加可以抽取的關系類別。

猜你喜歡
三元組先驗類別
基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質檢算法*
特征標三元組的本原誘導子
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
關于余撓三元組的periodic-模
基于自適應塊組割先驗的噪聲圖像超分辨率重建
自動化學報(2017年5期)2017-05-14 06:20:44
服務類別
新校長(2016年8期)2016-01-10 06:43:59
基于平滑先驗法的被動聲信號趨勢項消除
先驗的廢話與功能的進路
東南法學(2015年2期)2015-06-05 12:21:36
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
灵台县| 仁怀市| 兴安盟| 汤阴县| 望江县| 桦南县| 河曲县| 陕西省| 彭泽县| 宜川县| 嘉荫县| 太保市| 庄河市| 惠东县| 沙雅县| 吉木萨尔县| 永福县| 蓝田县| 若尔盖县| 陇川县| 纳雍县| 比如县| 十堰市| 广汉市| 濮阳市| 咸丰县| 沭阳县| 晋城| 融水| 宾阳县| 邵武市| 锡林郭勒盟| 遵化市| 吉木乃县| 正安县| 宁强县| 玛纳斯县| 怀远县| 沂水县| 蒙山县| 桑植县|