姚飛楊,劉曉靜
(青海大學(xué) 計(jì)算機(jī)技術(shù)與應(yīng)用系,青海 西寧 810016)
實(shí)體關(guān)系抽取是自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要的基礎(chǔ)任務(wù),其目的是從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取形如<主體,關(guān)系,客體>的實(shí)體關(guān)系三元組。實(shí)體關(guān)系抽取任務(wù)是知識(shí)圖譜構(gòu)建、智能推薦、問(wèn)答系統(tǒng)等眾多自然語(yǔ)言處理任務(wù)的重要基礎(chǔ)工具[1]。因此,實(shí)體關(guān)系抽取任務(wù)準(zhǔn)確度的高低決定了自然語(yǔ)言處理領(lǐng)域下游任務(wù)效果的好壞。
實(shí)體關(guān)系抽取以流水線(xiàn)方法和聯(lián)合抽取方法這兩類(lèi)方法為主[2]。流水線(xiàn)方法將實(shí)體關(guān)系抽取分為命名實(shí)體識(shí)別和關(guān)系抽取這兩個(gè)獨(dú)立的任務(wù),先對(duì)實(shí)體進(jìn)行識(shí)別,再對(duì)實(shí)體之間的關(guān)系進(jìn)行抽取[3]。流水線(xiàn)方法中每個(gè)獨(dú)立的子任務(wù)都依賴(lài)前一個(gè)任務(wù)的結(jié)果作為當(dāng)前任務(wù)的輸入,這種方法存在著曝光偏差和誤差傳播等問(wèn)題[4]。與流水線(xiàn)方法相比,聯(lián)合抽取方法把三元組抽取看成一個(gè)整體任務(wù),可以進(jìn)一步利用兩個(gè)任務(wù)之間存在的潛在信息,從而獲得更好的抽取效果[5]。因此,聯(lián)合抽取方法成為了當(dāng)前實(shí)體關(guān)系抽取領(lǐng)域研究的主流方法。
雖然上述方法在中文實(shí)體關(guān)系抽取領(lǐng)域取得了較好的效果,但由于中文語(yǔ)言本身的特點(diǎn),存在嵌套實(shí)體的問(wèn)題,給實(shí)體之間的關(guān)系抽取帶來(lái)了挑戰(zhàn)。為了更好地獲取文本的上下文語(yǔ)義信息,同時(shí)更好地提取嵌套實(shí)體之間的關(guān)系信息,該文提出了RoBERTa-Effg-Adv的實(shí)體關(guān)系聯(lián)合抽取模型。與傳統(tǒng)關(guān)系三元組抽取方式不同,該模型采用實(shí)體關(guān)系五元組抽取思想,將關(guān)系抽取任務(wù)分為主客體識(shí)別,頭關(guān)系抽取和尾關(guān)系抽取,模型使用多頭識(shí)別嵌套實(shí)體的方式,可有效抽取中文文本中重疊三元組。模型結(jié)合PGD(Projected Gradient Descent)[6]對(duì)抗訓(xùn)練算法,有效提升了模型的抗擾動(dòng)能力。
該文是在中文領(lǐng)域中進(jìn)行的實(shí)體關(guān)系聯(lián)合抽取研究,聚焦瞿曇寺壁畫(huà)中涉及到的宗教領(lǐng)域中的命名實(shí)體識(shí)別與實(shí)體關(guān)系抽取。面向瞿曇寺壁畫(huà)領(lǐng)域的實(shí)體關(guān)系聯(lián)合抽取研究是瞿曇寺壁畫(huà)知識(shí)圖譜的建立和基于瞿曇寺壁畫(huà)知識(shí)圖譜的智能問(wèn)答系統(tǒng)研究的基礎(chǔ)任務(wù)。
主要貢獻(xiàn)如下:
(1)通過(guò)對(duì)專(zhuān)業(yè)書(shū)籍掃描和手工標(biāo)注數(shù)據(jù)等方式構(gòu)建了瞿曇寺壁畫(huà)領(lǐng)域的實(shí)體關(guān)系聯(lián)合抽取數(shù)據(jù)集。
(2)在自制的數(shù)據(jù)集和公開(kāi)的數(shù)據(jù)集上的實(shí)驗(yàn)證明,RoBERTa-Effg-Adv模型通過(guò)多頭識(shí)別嵌套實(shí)體,并將關(guān)系三元組拆分成五元組抽取,通過(guò)對(duì)抗訓(xùn)練提升模型魯棒性,在精確率、召回率和F1值指標(biāo)上表現(xiàn)較佳,驗(yàn)證了模型的有效性。
近年來(lái),深度學(xué)習(xí)的發(fā)展推動(dòng)了關(guān)系抽取方法的不斷進(jìn)步,基于深度學(xué)習(xí)的實(shí)體識(shí)別和關(guān)系抽取已成為主流研究手段[7]。早期,實(shí)體關(guān)系抽取以流水線(xiàn)的方式為主,即在命名實(shí)體識(shí)別已完成的基礎(chǔ)上再進(jìn)行實(shí)體之間關(guān)系的抽取任務(wù)。
Socher等人[8]在2012年將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到實(shí)體關(guān)系抽取領(lǐng)域中的關(guān)系分類(lèi),該方法利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)句進(jìn)行句法解析,經(jīng)過(guò)不斷迭代,從而得到句子的向量表示。這種方法有效地考慮了句子的句法結(jié)構(gòu)。除RNN關(guān)系分類(lèi)的方法外,Zeng等人[9]在2014年將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到關(guān)系抽取領(lǐng)域,利用卷積深度神經(jīng)網(wǎng)絡(luò)(CDNN)來(lái)提取文本語(yǔ)義特征。由于傳統(tǒng)的RNN無(wú)法處理長(zhǎng)期依賴(lài),以及存在梯度消失、梯度爆炸等問(wèn)題,Yan等人[10]在2015年提出了基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的句法依存分析樹(shù)的最短路徑方法進(jìn)行關(guān)系抽取研究。
流水線(xiàn)式的實(shí)體關(guān)系抽取方法中每個(gè)獨(dú)立的任務(wù)的輸入依賴(lài)于前一個(gè)任務(wù)的輸出,因此存在任務(wù)之間丟失信息,忽視了兩個(gè)子任務(wù)之間存在的關(guān)系信息[11],也可能會(huì)產(chǎn)生冗余信息等這些由誤差傳播引起的問(wèn)題。實(shí)體關(guān)系聯(lián)合抽取方式可以有效利用兩個(gè)任務(wù)之間的潛在信息,同時(shí)也避免誤差傳遞等問(wèn)題。Wei等人[12]在2019年提出一種基于聯(lián)合解碼的實(shí)體關(guān)系抽取模型CasRel。CasRel是層疊指針網(wǎng)絡(luò)結(jié)構(gòu),由編碼端和解碼端組成。編碼端使用BERT[13]模型對(duì)輸入數(shù)據(jù)進(jìn)行編碼,所獲取的字向量能夠利用詞與詞之間的相互關(guān)系有效提取文本中的特征;解碼端主要包括頭實(shí)體識(shí)別層、關(guān)系與尾實(shí)體聯(lián)合識(shí)別層。該模型會(huì)先對(duì)頭實(shí)體進(jìn)行識(shí)別,然后在給定關(guān)系種類(lèi)的條件下對(duì)尾實(shí)體進(jìn)行識(shí)別。CasRel模型存在曝光偏差問(wèn)題。Wang等人[14]在2020年提出一種單階段聯(lián)合提取模型TPLinker,該模型解決了曝光偏差和嵌套命名實(shí)體識(shí)別問(wèn)題。與CasRel模型不同,TPLinker模型用同一個(gè)解碼器對(duì)實(shí)體和關(guān)系進(jìn)行解碼,同時(shí)對(duì)實(shí)體和關(guān)系進(jìn)行抽取,保證了訓(xùn)練和預(yù)測(cè)的一致性。蘇劍林在2022年提出基于GlobalPointer[15]的實(shí)體關(guān)系聯(lián)合抽取模型GPLinker。GPLinker模型將實(shí)體關(guān)系三元組抽取轉(zhuǎn)變?yōu)閷?shí)體關(guān)系五元組(Sh,St,P,Oh,Ot)抽取,其中,Sh,St表示主實(shí)體的頭和尾,P表示關(guān)系,Oh,Ot表示尾實(shí)體的頭和尾。與TPLinker模型相比,GPLinker模型計(jì)算速度更快,而且顯存占用更少。饒東寧等人[16]在2023年提出一種基于Schema增強(qiáng)的中文實(shí)體關(guān)系抽取方法。該方法采用字詞混合嵌入的方式融合字與詞的語(yǔ)義信息來(lái)避免中文分詞時(shí)邊界切分出錯(cuò)所造成的歧義問(wèn)題,并利用指針標(biāo)注的方式解決關(guān)系重疊問(wèn)題。該方法通過(guò)提取出每個(gè)數(shù)據(jù)集的Schema進(jìn)行合并作為先驗(yàn)特征傳入模型中,以解決實(shí)體冗余及關(guān)系種類(lèi)遷移問(wèn)題[16]。
本研究制作了瞿曇寺壁畫(huà)領(lǐng)域的實(shí)體關(guān)系聯(lián)合抽取數(shù)據(jù)集REDQTTM(Relation Extraction Dataset of Qu Tan Temple Murals)。REDQTTM原始數(shù)據(jù)文本來(lái)自研究瞿曇寺壁畫(huà)的相關(guān)專(zhuān)業(yè)書(shū)籍,對(duì)這些書(shū)籍進(jìn)行掃描,并進(jìn)行光學(xué)字符識(shí)別(Optical Character Recognition,OCR),從而獲得機(jī)器可讀的語(yǔ)料庫(kù)。之后,按照預(yù)定義的實(shí)體和關(guān)系種類(lèi),使用標(biāo)注工具對(duì)這些文本進(jìn)行人工標(biāo)注。標(biāo)注工具選擇BRAT(Brat Rapid Annotation Tool)[17],BRAT是基于Linux的一款應(yīng)用于WebServer端的文本標(biāo)注工具。通過(guò)對(duì)文本進(jìn)行手工標(biāo)注,最終得到后綴名為ann的標(biāo)注文件。
實(shí)體在ann文件的格式由5列組成,第一列表示實(shí)體的編號(hào),第二列表示實(shí)體的預(yù)定義類(lèi)別,第三列表示實(shí)體在文本的開(kāi)始下標(biāo),第四列表示實(shí)體在文本的結(jié)束下標(biāo),最后一列表示該實(shí)體所對(duì)應(yīng)的文本。關(guān)系在ann文件的格式由4列組成,第一列表示關(guān)系的編號(hào),第二列表示關(guān)系的預(yù)定義類(lèi)別,第三列表示Subject實(shí)體的實(shí)體編號(hào),最后一列表示Object實(shí)體的實(shí)體編號(hào)。
REDQTTM總共包含了18種實(shí)體類(lèi)型。瞿曇寺壁畫(huà)中的神像體系主要有以下類(lèi)別,分別是佛像、菩薩像、祖師像(或稱(chēng)上師、尊者)、本尊像、護(hù)法神像和佛母像[18]。這些神像體系都包含在REDQTTM的實(shí)體類(lèi)別中。瞿曇寺壁畫(huà)對(duì)神像的刻畫(huà)十分詳細(xì),包括對(duì)神像的法器、服飾、坐騎、臺(tái)座等細(xì)節(jié)展示,這些在REDQTTM中都有對(duì)應(yīng)的實(shí)體種類(lèi)。表1給出了REDQTTM中部分預(yù)定義的實(shí)體種類(lèi)。
表1 部分實(shí)體類(lèi)型和舉例
REDQTTM中包含11種關(guān)系類(lèi)型。表2給出了REDQTTM中預(yù)定義的關(guān)系種類(lèi)。
表2 關(guān)系類(lèi)型和舉例
通過(guò)對(duì)ann文件進(jìn)行解析,最終得到本研究所需的數(shù)據(jù)集REDQTTM。REDQTTM分為訓(xùn)練集和測(cè)試集,三元組的比例為8∶2左右。如表3所示,REDQTTM同樣采用json格式,text字段表示輸入文本,predicate字段表示關(guān)系類(lèi)型,object_type字段表示object實(shí)體類(lèi)型,subject_type字段表示subject實(shí)體類(lèi)型,object字段表示object實(shí)體,subject字段表示subject實(shí)體。
表3 A sample data in REDQTTM dataset
該文提出的RoBERTa-Effg-Adv模型包括4個(gè)部分:RoBERTa-wwm-ext[19]編碼層,Efficient GlobalPointer[15]命名實(shí)體識(shí)別模塊,關(guān)系抽取模塊和對(duì)抗訓(xùn)練。模型整體結(jié)構(gòu)如圖1所示,RoBERTa-wwm-ext編碼層負(fù)責(zé)將輸入的文本轉(zhuǎn)化為詞向量,作為模型后續(xù)部分的輸入。在實(shí)體識(shí)別方面,使用Efficient GlobalPointer對(duì)主體和客體進(jìn)行抽取。在關(guān)系抽取方面,將關(guān)系實(shí)體三元組拆分成五元組來(lái)處理,利用Efficient GlobalPointer處理S(sh,oh|p),其中sh表示主實(shí)體的頭,oh表示尾實(shí)體的頭,p表示關(guān)系。對(duì)于嵌套命名實(shí)體識(shí)別,需要同時(shí)指定起點(diǎn)和結(jié)束位置。同理利用Efficient GlobalPointer處理S(st,ot|p),其中st表示主實(shí)體的尾,ot表示尾實(shí)體的尾。模型引入對(duì)抗訓(xùn)練來(lái)提升模型性能,對(duì)抗訓(xùn)練算法使用PGD對(duì)抗訓(xùn)練策略,該對(duì)抗訓(xùn)練算法采用“小步走,走多次”思想找到最優(yōu)策略。
圖1 模型整體結(jié)構(gòu)
編碼端主要負(fù)責(zé)將輸入文本轉(zhuǎn)化為詞向量,所獲取的詞向量能夠利用詞與詞之間的相互信息提取文本中的特征信息。BERT預(yù)訓(xùn)練模型的架構(gòu)為T(mén)ransformer[20]中的Encoder,是目前使用最廣泛的編碼端模型,但原始的BERT模型不是最佳選擇。文中編碼端使用RoBERTa-wwm-ext預(yù)訓(xùn)練模型,該模型是在RoBERTa[21]模型的基礎(chǔ)上做了一些優(yōu)化,相比BERT預(yù)訓(xùn)練模型,能達(dá)到更好的編碼效果。
(1)RoBERTa-wwm-ext預(yù)訓(xùn)練模型在預(yù)訓(xùn)練階段采用wwm(whole word masking)策略進(jìn)行mask,而B(niǎo)ERT模型是隨機(jī)進(jìn)行mask,采用wwm策略的效果更好,具體示例如表4所示。
表4 wwm策略和BERT原始策略
(2)RoBERTa-wwm-ext預(yù)訓(xùn)練模型取消了NSP(Next Sentence Prediction)任務(wù)。取消了NSP任務(wù)后,模型性能得到提升。
(3)RoBERTa-wwm-ext預(yù)訓(xùn)練模型采用更大的 Batch Size,這樣有助于提高性能。ext(extended data)表示增加了訓(xùn)練數(shù)據(jù)集的大小。
GlobalPointer將實(shí)體的首尾視為一個(gè)整體去識(shí)別。如圖2所示,在“欲界自在天女是一位出世間護(hù)法神”這句話(huà)中,對(duì)于實(shí)體類(lèi)型“佛母”,該類(lèi)型實(shí)體在文本中只有一個(gè),是“欲界自在天女”;對(duì)于實(shí)體類(lèi)型“稱(chēng)號(hào)”,該類(lèi)型實(shí)體共有兩個(gè),分別是“出世間護(hù)法神”和“護(hù)法神”,從這里可以看出,GlobalPointer可以識(shí)別嵌套類(lèi)型實(shí)體。綜上所述,假設(shè)待識(shí)別文本序列長(zhǎng)度為n,待識(shí)別實(shí)體個(gè)數(shù)為k,那么在該序列中會(huì)有n(n+1)/2個(gè)候選實(shí)體。在GlobalPointer中,命名實(shí)體識(shí)別任務(wù)可以看成“n(n+1)/2選k”的多標(biāo)簽分類(lèi)問(wèn)題。如果一共有m種實(shí)體類(lèi)型需要識(shí)別,那么可以看成m個(gè)“n(n+1)/2選k”的多標(biāo)簽分類(lèi)問(wèn)題。GlobalPointer是一個(gè)token-pair的識(shí)別模型,用一種統(tǒng)一的方式處理嵌套和非嵌套命名實(shí)體識(shí)別。
圖2 GlobalPointer多頭識(shí)別嵌套實(shí)體示意圖
定義:
(1)
式1作為從i到j(luò)的連續(xù)片段是類(lèi)型為α的實(shí)體的打分函數(shù)。其中,qi,α=wq,αhi+bq,α和ki,α=wk,αhi+bk,α是長(zhǎng)度為n的輸入t經(jīng)過(guò)編碼后得到的向量序列[h1,h2,…,hn]變換而來(lái)。得到用于識(shí)別第α種類(lèi)型實(shí)體所用的序列[q1,α,q2,α,…,qn,α]和[k1,α,k2,α,…,kn,α]。
Efficient GlobalPointer主要針對(duì)GlobalPointer參數(shù)利用率不高的問(wèn)題進(jìn)行改進(jìn),優(yōu)化了打分函數(shù),達(dá)到了降低GlobalPointer的參數(shù)量的效果。
(2)
對(duì)于抽取部分,所有實(shí)體類(lèi)型共享這部分參數(shù),所以在公式2的基礎(chǔ)上,記qi=wqhi,ki=wkhi,用[qi;ki]來(lái)代替hi以此進(jìn)一步地減少參數(shù)量,此時(shí)
(3)
得到的公式3作為Efficient GlobalPointer最終的打分函數(shù),相比于公式1來(lái)說(shuō),參數(shù)利用率得到提升,參數(shù)量也降低了。
GPLinker模型將實(shí)體關(guān)系三元組抽取轉(zhuǎn)變?yōu)閷?shí)體關(guān)系五元組(Sh,St,P,Oh,Ot)抽取,其中,Sh,St表示主實(shí)體的頭和尾,P表示關(guān)系,Oh,Ot表示尾實(shí)體的頭和尾。關(guān)系抽取流程如圖3所示。
圖3 關(guān)系抽取流程
S(sh,st,p,oh,ot)=S(sh,st)+S(oh,ot)+S(sh,oh|p)+S(st,ot|p)
(4)
模型訓(xùn)練時(shí),對(duì)于標(biāo)注的五元組讓公式4中S(sh,st),S(oh,ot),S(sh,oh|p)和S(st,ot|p)皆大于0,其他五元組這四項(xiàng)皆小于0。模型預(yù)測(cè)時(shí),枚舉所有可能的五元組,找出S(sh,st)>0,S(oh,ot)>0,S(sh,oh|p)>0和S(st,ot|p)>0的部分,取它們的交集部分。
S(sh,st)、S(oh,ot)分別是subject實(shí)體、object實(shí)體的首尾打分函數(shù),通過(guò)S(sh,st)>0,S(oh,ot)>0來(lái)得到所有的subject實(shí)體和object實(shí)體。至于函數(shù)S(sh,oh|p)和S(st,ot|p),則是predicate關(guān)系的匹配,S(sh,oh|p)表示以subject和object的首特征作為它們自身的表征來(lái)進(jìn)行一次匹配,考慮到存在嵌套實(shí)體,需要對(duì)實(shí)體的尾再進(jìn)行一次匹配,即S(st,ot|p)這一項(xiàng)。由于S(sh,st),S(oh,ot)是用來(lái)識(shí)別subject,object對(duì)應(yīng)的實(shí)體的,用一個(gè)Efficient GlobalPointer來(lái)完成;至于S(sh,oh|p),它是用來(lái)識(shí)別關(guān)系為p的(Sh,Oh)對(duì),也可以用Efficient GlobalPointer來(lái)完成,最后對(duì)于S(st,ot|p)這一項(xiàng),處理和S(sh,oh|p)原理相同。
對(duì)抗訓(xùn)練是一種引入噪聲的訓(xùn)練方式,可以對(duì)參數(shù)進(jìn)行正則化,提升模型的魯棒性和泛化能力[22]。對(duì)嵌入層的字向量添加一些較小的擾動(dòng),生成對(duì)抗樣本,將獲得的對(duì)抗樣本再反饋給模型,從而提升模型的抗擾動(dòng)能力。本研究使用的是PGD對(duì)抗訓(xùn)練算法。該算法通過(guò)多次迭代,以“小步走,走多次”的策略找到最優(yōu)策略,并且通過(guò)設(shè)置擾動(dòng)半徑來(lái)防止擾動(dòng)過(guò)大。擾動(dòng)項(xiàng)radv的計(jì)算公式如下:
radv=ε·g(x)/‖g(x)‖2
(5)
g(x)=?xL(θ,x,y)
(6)
其中,x表示輸入,y表示標(biāo)簽,θ表示模型參數(shù),ε表示擾動(dòng)半徑,L(θ,x,y)表示單個(gè)樣本的loss。
PGD算法步驟如下所示:
(1)計(jì)算x前向loss,然后反向傳播計(jì)算梯度并備份;
(2)對(duì)于每個(gè)步驟t:根據(jù)embedding層的梯度,計(jì)算其norm,然后根據(jù)公式計(jì)算出radv,再將radv累加到原始embedding的樣本上,即x+radv,得到對(duì)抗樣本;
(3)如果t不是最后一步,將梯度歸0,根據(jù)x+radv計(jì)算前后向并得到梯度;
(4)如果t是最后一步,恢復(fù)步驟1時(shí)的梯度值,計(jì)算最后的x+radv并將梯度累加到步驟1上,跳出循環(huán);
(5)將被修改的embedding恢復(fù)到步驟1時(shí)的值;
(6)根據(jù)步驟4時(shí)的梯度對(duì)模型參數(shù)進(jìn)行更新。
損失函數(shù)選擇稀疏版多標(biāo)簽分類(lèi)的交叉熵?fù)p失函數(shù)。P,N分別是正負(fù)類(lèi)的集合,A=P∪N,S為對(duì)應(yīng)的分?jǐn)?shù)。
(7)
(8)
實(shí)驗(yàn)在Linux集群環(huán)境下進(jìn)行,機(jī)器配置為5塊NVIDIA A100 80GB PCIe顯卡,代碼使用Python語(yǔ)言編寫(xiě)。
實(shí)驗(yàn)主要參數(shù)設(shè)置如表5所示。
表5 實(shí)驗(yàn)主要參數(shù)設(shè)置
為了驗(yàn)證文中方法的有效性,先后在REDQTTM和DuIE[23]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中DuIE的訓(xùn)練集含有173 108條句子,驗(yàn)證集含有21 639條語(yǔ)句。
使用精確率(Precision)、召回率(Recall)和F1值作為評(píng)估模型性能的指標(biāo)。其中,精確率是模型預(yù)測(cè)正確的關(guān)系三元組數(shù)與預(yù)測(cè)出的三元組總數(shù)的比值;召回率則是模型預(yù)測(cè)正確的關(guān)系三元組數(shù)與實(shí)際三元組數(shù)的比值;F1值是精確率和召回率的調(diào)和平均值,可以對(duì)模型的整體性能進(jìn)行綜合評(píng)價(jià)。Precision,Recall和F1值的計(jì)算方式如公式9~11所示。
(9)
(10)
(11)
其中,TP表示正例預(yù)測(cè)為正例的數(shù)量,FP表示負(fù)例預(yù)測(cè)為正例的數(shù)量,FN表示正例預(yù)測(cè)為負(fù)例的數(shù)量。
該文選擇多個(gè)基線(xiàn)模型在REDQTTM數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),這些模型包括CasRel模型、PRGC模型、TPLinker模型和GPLinker模型。
(1)CasRel:一種基于聯(lián)合解碼的實(shí)體關(guān)系抽取模型。該模型首先對(duì)頭實(shí)體進(jìn)行識(shí)別,然后在給定關(guān)系種類(lèi)的條件下對(duì)尾實(shí)體進(jìn)行命名實(shí)體識(shí)別。
(2)PRGC[24]:基于潛在關(guān)系和全局對(duì)應(yīng)關(guān)系的實(shí)體關(guān)系抽取模型,將關(guān)系抽取分解為關(guān)系判斷、實(shí)體抽取和主客體對(duì)齊三個(gè)任務(wù)。
(3)TPLinker:一種單階段聯(lián)合提取模型,該模型解決了曝光偏差和嵌套命名實(shí)體識(shí)別問(wèn)題。TPLinker模型保證了訓(xùn)練和預(yù)測(cè)的一致性,因其用同一個(gè)解碼器對(duì)實(shí)體和關(guān)系進(jìn)行解碼,同時(shí)對(duì)實(shí)體和關(guān)系進(jìn)行抽取。
(4)GPLinker:基于GlobalPointer的實(shí)體關(guān)系聯(lián)合抽取模型。GPLinker模型將實(shí)體關(guān)系三元組抽取轉(zhuǎn)變?yōu)閷?shí)體關(guān)系五元組(Sh,St,P,Oh,Ot)抽取。GPLinker模型有著計(jì)算速度快、顯存占用少等優(yōu)點(diǎn)。
從表6可以看出,在REDQTTM數(shù)據(jù)集上,提出的方法無(wú)論是在Precision,還是在Recall和F1上都是最優(yōu)的。相比GPLinker模型,在Precision上提高了2.4百分點(diǎn),在Recall上提高了0.9百分點(diǎn),在F1上提高了1.6百分點(diǎn)。可見(jiàn),提出的方法在瞿曇寺壁畫(huà)實(shí)體關(guān)系聯(lián)合抽取任務(wù)上取得了較好的效果。
表6 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證各個(gè)模塊的有效性,在REDQTTM數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。-RoBERTa-wwm-ext表示不使用此預(yù)訓(xùn)練模型,改為使用BERT;-Pgd表示不使用對(duì)抗訓(xùn)練;-Efficient GlobalPointer表示不使用此模塊,改用GlobalPointer。實(shí)驗(yàn)結(jié)果如表7所示,去掉各模塊后的性能都有所下降,驗(yàn)證了各模塊的有效性。
表7 消融實(shí)驗(yàn)結(jié)果
將相關(guān)文本輸入到模型,抽取文本中的實(shí)體關(guān)系三元組。表8展示了模型對(duì)關(guān)系三元組的抽取效果。三元組的抽取是建立瞿曇寺壁畫(huà)領(lǐng)域知識(shí)圖譜的關(guān)鍵步驟。
表8 三元組抽取結(jié)果部分示例
文中模型在DuIE訓(xùn)練集上訓(xùn)練,在驗(yàn)證集上進(jìn)行評(píng)估。MultiR[25]、CoType[26]、指針標(biāo)注模型[27]、FETI[28]、CasRel、字詞混合模型[29]和BSCRE[30]模型的實(shí)驗(yàn)結(jié)果來(lái)自禹克強(qiáng)等人[30]的實(shí)驗(yàn)結(jié)果,如表9所示。
表9 DUIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
從表9中可以看出,該文提出的方法相較于禹克強(qiáng)等人提出的BSCRE模型,在DuIE訓(xùn)練集上,Precision,Recall和F1值分別提高了0.7百分點(diǎn),3.7百分點(diǎn)和2.2百分點(diǎn)。驗(yàn)證了RoBERTa-Effg-Adv模型在其它中文領(lǐng)域的實(shí)體關(guān)系聯(lián)合抽取任務(wù)的有效性。
該文自建了瞿曇寺壁畫(huà)領(lǐng)域的實(shí)體關(guān)系聯(lián)合抽取數(shù)據(jù)集REDQTTM,其中包含18種實(shí)體類(lèi)型和11種關(guān)系類(lèi)型。針對(duì)瞿曇寺壁畫(huà)領(lǐng)域的實(shí)體關(guān)系聯(lián)合抽取任務(wù),提出了一種實(shí)體關(guān)系聯(lián)合抽取模型RoBERTa-Effg-Adv,其編碼端使用RoBERTa-wwm-ext預(yù)訓(xùn)練模型,并采用Efficient GlobalPointer對(duì)命名實(shí)體進(jìn)行識(shí)別,總體上使用實(shí)體關(guān)系五元組策略進(jìn)行實(shí)體關(guān)系聯(lián)合抽取。再結(jié)合對(duì)抗訓(xùn)練,提升模型整體的魯棒性。由于該數(shù)據(jù)集包含的實(shí)體關(guān)系數(shù)量較少,后期會(huì)增加更多的預(yù)定義實(shí)體關(guān)系類(lèi)別和數(shù)量來(lái)擴(kuò)充數(shù)據(jù)集,也會(huì)在該實(shí)體關(guān)系聯(lián)合抽取的基礎(chǔ)上,開(kāi)展建立瞿曇寺壁畫(huà)領(lǐng)域的知識(shí)圖譜、基于瞿曇寺壁畫(huà)知識(shí)圖譜的智能問(wèn)答等研究。