李代祎,李忠良,嚴(yán) 麗
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106)
實(shí)體和關(guān)系抽取[1]是信息抽取(Information Extraction,IE)的兩個(gè)重要子任務(wù),旨在從非結(jié)構(gòu)化文本數(shù)據(jù)中檢測(cè)出實(shí)體的同時(shí),識(shí)別出實(shí)體之間的語(yǔ)義關(guān)系,最終將非結(jié)構(gòu)化的數(shù)據(jù)自動(dòng)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù).因此,構(gòu)建一個(gè)具有高效、穩(wěn)定性能的實(shí)體關(guān)系聯(lián)合抽取模型,將非結(jié)構(gòu)化文本數(shù)據(jù)自動(dòng)、精確和全面地轉(zhuǎn)化為符合大眾需求的結(jié)構(gòu)化數(shù)據(jù),可以在減少人工成本的同時(shí),更加高效地處理海量數(shù)據(jù)和構(gòu)建大規(guī)模知識(shí)圖譜[2].同時(shí),實(shí)體關(guān)系聯(lián)合抽取模型可以為許多的自然語(yǔ)言處理(Natural Language Processing,NLP)應(yīng)用提供基礎(chǔ)的技術(shù)支持,具有較高的實(shí)際應(yīng)用價(jià)值和經(jīng)濟(jì)效益.
近年來(lái),為了有效解決手動(dòng)特征工程問(wèn)題,基于深度學(xué)習(xí)[3,4]的實(shí)體關(guān)系抽取方法取得了較好的研究成果.基于深度學(xué)習(xí)的流水線抽取方法[5-9]主要將命名實(shí)體識(shí)別和關(guān)系抽取作為兩個(gè)單獨(dú)的任務(wù)完成,這些方法盡管可以自動(dòng)獲取文本深度特征,且模型靈活,但是卻不能有效解決錯(cuò)誤傳播的問(wèn)題.而基于深度學(xué)習(xí)的聯(lián)合抽取方法[10-21]主要的目的是同時(shí)實(shí)現(xiàn)句子中實(shí)體的識(shí)別和實(shí)體對(duì)間關(guān)系的抽取,這些方法盡管可以有效利用實(shí)體和關(guān)系之間的關(guān)聯(lián)信息,大大提高了模型的性能.但是許多聯(lián)合抽取模型將實(shí)體對(duì)間的關(guān)系作為實(shí)體對(duì)上的離散函數(shù),這些方法會(huì)因?yàn)橛?xùn)練樣本數(shù)據(jù)的不足造成參與共享同一實(shí)體的多種關(guān)系很難被正確的識(shí)別,從而導(dǎo)致無(wú)法有效解決多三元組重疊問(wèn)題(如圖1所示).
圖1 三元組重疊實(shí)例
綜上所述,基于深度學(xué)習(xí)的聯(lián)合實(shí)體關(guān)系抽取模型大都將關(guān)系視為分配給實(shí)體對(duì)的離散標(biāo)簽,從而造成關(guān)系分類成為一個(gè)難題,主要原因有:1)關(guān)系類別分布不平衡,造成所識(shí)別的實(shí)體對(duì)中,大多數(shù)沒(méi)有提取出有效的關(guān)系;2)當(dāng)多個(gè)關(guān)系共享同一個(gè)實(shí)體時(shí),如果沒(méi)有足夠的訓(xùn)練樣本,關(guān)系分類器很難判斷出實(shí)體參與的關(guān)系.因此,本文構(gòu)建了一個(gè)新的實(shí)體關(guān)系聯(lián)合抽取模型,通過(guò)該模型來(lái)解決三元組重疊問(wèn)題.具體地,該模型將關(guān)系建模為頭實(shí)體映射到句子中相對(duì)應(yīng)尾實(shí)體的函數(shù).假設(shè)頭實(shí)體表示為s,關(guān)系表示為r和尾實(shí)體表示為o.本文的方法不是學(xué)習(xí)關(guān)系分類器f(s,o)→r,而是采用類似文獻(xiàn)[20,21]中的標(biāo)記方案fr(s)→o.具體地,先識(shí)別出頭實(shí)體s,然后根據(jù)s語(yǔ)義信息和位置信息抽取出每一種特定關(guān)系r下對(duì)應(yīng)的尾實(shí)體o,如果沒(méi)有給定關(guān)系的尾實(shí)體,則返回空,表示給定的頭實(shí)體和關(guān)系沒(méi)有三元組.具體過(guò)程分為兩步:首先,確定一個(gè)句子中所有可能的頭實(shí)體;然后,對(duì)于每個(gè)頭實(shí)體,應(yīng)用特定的二進(jìn)制標(biāo)記來(lái)標(biāo)識(shí)所有可能的關(guān)系和相應(yīng)的尾實(shí)體.本文的主要貢獻(xiàn)如下:
1)將BERT預(yù)訓(xùn)練模型引入到頭實(shí)體的識(shí)別中,構(gòu)建了一個(gè)實(shí)體識(shí)別模型BERT-BiLSTM-ATT.該模型可以根據(jù)字符的上下文信息獲取字符的語(yǔ)義信息,并且通過(guò)BiLST-ATT獲取句子中最重要的語(yǔ)義信息.
2)為了有效利用句子中包含頭實(shí)體的語(yǔ)義信息,構(gòu)建了一種條件正則化方法對(duì)編碼序列做歸一化處理.該方法可以有效地將頭實(shí)體的語(yǔ)義信息整合到句子特征中.
3)為了有效解決三元組重疊問(wèn)題,設(shè)計(jì)了一個(gè)針對(duì)特定關(guān)系的尾實(shí)體標(biāo)記模型BiLSTM-ATT.該標(biāo)記模型可以有效識(shí)別特定關(guān)系下給定頭實(shí)體對(duì)應(yīng)的所有可能尾實(shí)體.
實(shí)體和關(guān)系提取是構(gòu)建大規(guī)模知識(shí)庫(kù)的一個(gè)重要步驟,可以為許多的NLP應(yīng)用提供基礎(chǔ)的技術(shù)支持.當(dāng)前,有兩個(gè)主要的框架被廣泛用于解決實(shí)體識(shí)別及其關(guān)系的提取問(wèn)題.一種是流水線方法,另一種是聯(lián)合抽取方法.
流水線方法[5-9]是將此實(shí)體關(guān)系抽取任務(wù)視為兩個(gè)獨(dú)立的任務(wù),主要通過(guò)兩個(gè)獨(dú)立的步驟完成關(guān)系三元組的抽?。?)通過(guò)命名實(shí)體識(shí)別(Named entity recognition,NER)技術(shù)[22],識(shí)別出句子中包含的所有實(shí)體;2)然后利用關(guān)系抽取(Relation extraction,RE)技術(shù)對(duì)識(shí)別出的實(shí)體對(duì)進(jìn)行關(guān)系分類[23].由于基于統(tǒng)計(jì)的流水線抽取方法過(guò)度依賴人工特征,耗時(shí)費(fèi)力.因此,基于神經(jīng)網(wǎng)絡(luò)的流水線抽取方法近年來(lái)被廣泛研究.例如,Xu等人[5]構(gòu)建了一種SDP-LSTM關(guān)系抽取模型,通過(guò)融入依存句法樹(shù)的結(jié)構(gòu)信息提高模型準(zhǔn)確率;Chan等人[6]構(gòu)建了一種新的算法,通過(guò)句法語(yǔ)義結(jié)構(gòu)信息提高關(guān)系抽取模型的性能;Zhou等人[7]構(gòu)建了一個(gè)Att-BiLSTM關(guān)系抽取模型,可以有效獲取句子中最重要的語(yǔ)義特征;Lin等人[8]構(gòu)建了基于注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)相融合的關(guān)系抽取方法,有效較低了關(guān)系的錯(cuò)誤標(biāo)記;Peng等人[9]通過(guò)優(yōu)化損失函數(shù),有效提高了模型的準(zhǔn)確率.
盡管基于深度學(xué)習(xí)的流水線抽取方法取得了顯著的成果,但是流水線方法往往存在錯(cuò)誤傳播問(wèn)題,且忽略了兩個(gè)任務(wù)之間的相關(guān)性.實(shí)體識(shí)別的準(zhǔn)確率直接影響關(guān)系抽取模型的性能,實(shí)體的錯(cuò)誤識(shí)別往往會(huì)導(dǎo)致抽取的關(guān)系無(wú)效.為了解決上述問(wèn)題,本文構(gòu)建了一個(gè)新的實(shí)體關(guān)系聯(lián)合抽取模型,該模型包含頭實(shí)體識(shí)別和與頭實(shí)體具有相應(yīng)關(guān)系的尾實(shí)體識(shí)別.
基于流水線的實(shí)體關(guān)系抽取模型過(guò)度依賴NLP工具,且大多需要人工提取特征,從而影響模型性能.例如,需要額外的數(shù)據(jù)預(yù)處理工作、NLP工具的性能可以直接影響模型抽取結(jié)果和計(jì)算復(fù)雜性增加.
為了解決上述問(wèn)題,基于深度學(xué)習(xí)的聯(lián)合抽取方法引起越來(lái)越多研究者的關(guān)注.例如.Gupta等人[10]提出了一種多任務(wù)遞歸神經(jīng)網(wǎng)絡(luò)(TF-MTRNN)模型,將實(shí)體識(shí)別和關(guān)系抽取任務(wù)轉(zhuǎn)化為表格填充問(wèn)題,并對(duì)兩個(gè)任務(wù)之間的相關(guān)性進(jìn)行建模;Miwa等人[11]構(gòu)建了一個(gè)端到端的實(shí)體關(guān)系抽取中,使得實(shí)體識(shí)別和關(guān)系抽取之間相互影響;Adel等人[20]構(gòu)建了一個(gè)基于深度學(xué)習(xí)實(shí)體關(guān)系抽取模型,可以識(shí)別給定句子的兩個(gè)候選實(shí)體的類型和它們之間的關(guān)系.Zheng等人[12]提出一種新的標(biāo)注方案,將聯(lián)合抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注問(wèn)題.Katiyar等人[13]構(gòu)建了基于RNN改進(jìn)的實(shí)體關(guān)系聯(lián)合抽取模型,該模型根據(jù)指針網(wǎng)絡(luò)的實(shí)體指針和關(guān)系指針結(jié)合注意力機(jī)制找出來(lái)兩個(gè)實(shí)體的關(guān)系.Bekoulis等人[14]構(gòu)建了一個(gè)基于RNN的實(shí)體關(guān)系抽取模型,該模型在不使用依存句法樹(shù)特征的情況下有效提取出句子中實(shí)體及實(shí)體對(duì)之間的關(guān)系.Dai等人[15]構(gòu)建了一個(gè)基于PA-LSTM的聯(lián)合抽取模型,可以根據(jù)查詢位置直接標(biāo)記實(shí)體和關(guān)系,并獲取了較好的結(jié)果.Sun和Fu等人[16,17]都是利用圖神經(jīng)網(wǎng)絡(luò)(GCN)構(gòu)建了一個(gè)端到端的關(guān)系抽取模型,通過(guò)關(guān)系加權(quán)的方法來(lái)學(xué)習(xí)實(shí)體和關(guān)系之間的交互.Nayak等人[18]提出一種編碼器-解碼器體系結(jié)構(gòu)的實(shí)體關(guān)系聯(lián)合抽取方法來(lái)抽取實(shí)體及實(shí)體間的關(guān)系,取得了較好的結(jié)果.盡管這些方法有效解決手動(dòng)特征工程問(wèn)題,但是不能有效地解決同一句子中多個(gè)關(guān)系共享相同實(shí)體的三元組重疊問(wèn)題,從而由于實(shí)體對(duì)的冗余造成關(guān)系分類器性能的下降[19].
為了有效解決多關(guān)系三元組重疊問(wèn)題,Yu等人[20]提出了一種新的分解策略,利用span的標(biāo)記方案將聯(lián)合抽取任務(wù)分解為兩個(gè)相互關(guān)聯(lián)的子任務(wù)(HE抽取和TER抽取);Wei等人[21]提出了一種新的級(jí)聯(lián)二元標(biāo)注框架CasRel,將三元組的抽取任務(wù)轉(zhuǎn)換為主實(shí)體、關(guān)系和對(duì)象實(shí)體3個(gè)級(jí)別的問(wèn)題.本文在Yu和Wei等人研究的基礎(chǔ)上,構(gòu)建了一個(gè)新的基于BERT的中文實(shí)體關(guān)系聯(lián)合抽取模型.該模型引入了BERT預(yù)訓(xùn)練模型[24],有效獲地獲取了句子中重要的語(yǔ)義信息.同時(shí),通過(guò)條件正則化方法對(duì)編碼序列做歸一化處理,有效地將頭實(shí)體的語(yǔ)義信息整合到句子信息中.最后,設(shè)計(jì)了一個(gè)針對(duì)特定關(guān)系的尾實(shí)體標(biāo)記模型,可以有效識(shí)別特定關(guān)系下給定頭實(shí)體對(duì)應(yīng)的所有可能尾實(shí)體.
本文提出了一個(gè)基于BERT的中文實(shí)體關(guān)系聯(lián)合抽取模型(整體框架如圖2所示),主要分為頭實(shí)體識(shí)別模塊和關(guān)系及其尾實(shí)體識(shí)別模塊.首先,該模型通過(guò)引入的BERT預(yù)訓(xùn)練模型獲取包含上下文信息的中文字符特征,不僅解決了因中文分詞錯(cuò)誤而造成的誤差傳播問(wèn)題,同時(shí)也充分考慮到了中文句子的全局信息.其次,構(gòu)建了一種條件正則化方法對(duì)編碼序列做歸一化處理,可以有效地將頭實(shí)體的語(yǔ)義信息整合到句子信息中.最后,通過(guò)構(gòu)建的BiLSTM-ATT模型完成頭實(shí)體的識(shí)別以及針對(duì)特定關(guān)系的尾實(shí)體抽取.
圖2 基于BERT的中文實(shí)體關(guān)系聯(lián)合抽取框架
在NLP領(lǐng)域,詞嵌入技術(shù)可以將詞映射到低維空間,有效地解決了文本特征稀疏的問(wèn)題,從而使語(yǔ)義相似的詞在空間中的距離更近.傳統(tǒng)的詞向量嵌入方法有one-hot、word2vec和Elmo等預(yù)訓(xùn)練的語(yǔ)言模型,大多僅僅對(duì)單獨(dú)的詞表征,因此很難準(zhǔn)確地表示詞的多義性.然而,BERT模型可以依據(jù)上下文信息,通過(guò)無(wú)監(jiān)督的方式表征單個(gè)中文字符,從而有效地解決多義詞的表征問(wèn)題.
如圖3所示,在BERT模型中,多層雙向transformers被用作編碼器,每個(gè)單元由前饋神經(jīng)網(wǎng)絡(luò)(feed-forward)和多頭注意機(jī)制組成,因此每個(gè)字符的表征可以融合其左右兩邊的信息.注意機(jī)制的功能是計(jì)算輸入句子中的每個(gè)字符權(quán)重,以獲得句子中字符之間的關(guān)聯(lián)度,然后調(diào)整權(quán)重系數(shù)矩陣以獲得單個(gè)字符的向量表示.具體的計(jì)算見(jiàn)公式(1):
圖3 基于transformers的編碼器結(jié)構(gòu)
(1)
其中,Q,K和V分別表示輸入的字向量矩陣;dk表示輸入向量的維度;QKT表示輸入字符向量之間的關(guān)系計(jì)算.Transforms的計(jì)算采用了多頭注意機(jī)制,通過(guò)多個(gè)線性變換對(duì)進(jìn)行投影,以增強(qiáng)模型捕獲不同位置特征的能力.具體計(jì)算結(jié)果見(jiàn)公式(2)和式(3):
MultiHead(Q,K,V)=Concat(head1,head2,…,headk)W0
(2)
(3)
其中,W0表示模型的附加權(quán)重矩陣,主要用于獲取不同的空間位置信息.同時(shí),為了解決深度學(xué)習(xí)中的退化問(wèn)題,在Transforms編碼單元中加入了殘差網(wǎng)絡(luò)和歸一化層.具體的計(jì)算見(jiàn)公式(4)和式(5):
(4)
FFN(Z)=max(0,ZW1+b1)W2+b2
(5)
其中,在公式(4)中α和β表示學(xué)習(xí)參數(shù),μ和σ表示輸入層的均值和方差.假設(shè)自我注意機(jī)制的結(jié)果表示為Z,偏差項(xiàng)表示為b.最后,全連通前饋網(wǎng)絡(luò)(FNN)的表示如公式(5)所示.
詞嵌入:通過(guò)BERT模型獲得輸入句子的嵌入向量.假設(shè)給定輸入的句子S=[w1,w2,…,wn]∈Rn×d,那么最后輸出的句子表示為:
E=[e1,e2,…,en]=BERT([w1,w2,…,wn])∈Rn×d
(6)
其中,句子中每個(gè)字符用w表示;每個(gè)字符對(duì)應(yīng)的嵌入向量用e表示.
(7)
其中,n表示句子長(zhǎng)度,d表示維度.為了有效地關(guān)注特定時(shí)間下輸入序列中的重要特征,本文在BilSTM模型的基礎(chǔ)上引入了注意力機(jī)制[26](如圖4所示).通過(guò)對(duì)輸入序列中不同字符賦予不同的權(quán)重,有選擇地突出關(guān)鍵詞的重要性.例如,給定的句子“吳京是電影《戰(zhàn)狼》的導(dǎo)演”,其中“吳京”和“戰(zhàn)狼”是頭尾實(shí)體,實(shí)體中的各個(gè)字之間關(guān)系密切,而與句子中其它的字符關(guān)系較弱.顯然,各個(gè)字符對(duì)頭實(shí)體的識(shí)別作用是不一樣的.因此,本文通過(guò)對(duì)每個(gè)字符分配不同的權(quán)重來(lái)提高頭實(shí)體的識(shí)別準(zhǔn)確率.
圖4 嵌入注意力機(jī)制的BiLSTM模型
注意力層:注意力計(jì)算如圖4所示,詳細(xì)步驟如下:
首先,對(duì)目標(biāo)字符與輸入序列中的所有字符進(jìn)行相似性計(jì)算.假設(shè)兩個(gè)字符間的注意力權(quán)重為αi,t,其含義為第t個(gè)目標(biāo)字符與第i個(gè)輸入字符之間的相似性.具體的計(jì)算見(jiàn)公式(8)和式(9):
(8)
(9)
其中,ui,t被定義為余弦定理,其值越大,表明xi和xt的相似性越強(qiáng).w表示加權(quán)點(diǎn)乘.
其次,采用獲取的注意力權(quán)重為αi,t與BiLSTM的輸出進(jìn)行加權(quán)求和,獲到第t個(gè)包含上下文信息的全局向量Ct.
(10)
最后,將全局向量Ct與BiLSTM編碼層的輸出ht進(jìn)行合并,然后將合并后的向量[C:ht]通過(guò)激活函數(shù)獲得注意力權(quán)重輸出.具體的計(jì)算見(jiàn)公式(11):
Zt=tanh(W[Ct·ht])
(11)
頭實(shí)體解碼層:針對(duì)頭實(shí)體識(shí)別,本文采用二進(jìn)制標(biāo)記(0/1)來(lái)識(shí)別頭實(shí)體的開(kāi)始和結(jié)束位置,即該標(biāo)記表明當(dāng)前的位置是否是頭實(shí)體的開(kāi)始或結(jié)束.
通過(guò)對(duì)BiLSTM-ATT編碼層輸出的結(jié)果進(jìn)行兩次標(biāo)注,識(shí)別出句子所包含的所有可能的頭實(shí)體S.使用兩次標(biāo)注,主要原因是一個(gè)頭實(shí)體可能是由多個(gè)連續(xù)的字符構(gòu)成.因此,很難通過(guò)一次標(biāo)注將表示同一個(gè)實(shí)體的不同字符正確標(biāo)注,所以,本文采用兩次標(biāo)注的方法,分別對(duì)頭實(shí)體的開(kāi)始位置和結(jié)束位置進(jìn)行正確標(biāo)注,具體的方法如見(jiàn)公式(12)和公式(13):
Ps-start(t)=Sigmoid(Ws-startZt+bs-start)
(12)
Ps-end(t)=Sigmoid(Ws-endZt+bs-end)
(13)
其中,Ps-start(t)和Ps-end(t)分別表示將時(shí)刻輸出序列中的token識(shí)別為頭實(shí)體的開(kāi)始和結(jié)束位置的概率.如果概率超過(guò)設(shè)置的閾值,則相應(yīng)位置的token標(biāo)注為1,否則將其被標(biāo)注偽0.Ws-start和Ps-end表示可訓(xùn)練的權(quán)重,bs-start和bs-end表示偏置向量,Sigmoid表示相應(yīng)的激活函數(shù).
關(guān)系和尾實(shí)體解碼層:為了有效識(shí)別出句子中的尾實(shí)體,本文在頭實(shí)體識(shí)別的基礎(chǔ)上,針對(duì)所有的關(guān)系進(jìn)行尾實(shí)體的識(shí)別.首先,考慮BiLSTM-ATT編碼層的輸出特征向量,獲取包含上下文信息的序列特征向量;其次,通過(guò)條件正則化方法對(duì)編碼序列做歸一化處理,有效地將頭實(shí)體的語(yǔ)義信息整合到句子信息中.最后,將頭實(shí)體特征融入序列特征中,通過(guò)構(gòu)建的標(biāo)注模型對(duì)關(guān)系和尾實(shí)體進(jìn)行識(shí)別.具體的步驟如下所述:
1)BERT編碼層:BiLSTM-ATT編碼層與3.3節(jié)中相同,通過(guò)BERT模型獲取輸入序列的特征向量(如公式(6)所示),該序列特征將用于同頭實(shí)體特征相結(jié)合.
2)條件正則化層:圖像處理中流行的條件批量正則化(Condition batch normalization)是將現(xiàn)有正則化方法中的和變量轉(zhuǎn)化為輸入條件的函數(shù),目的是讓生成的結(jié)果可以由條件控制[27].同樣的,在BERT模型中,主要的正則化方法是層正則化.因此,相應(yīng)的β和γ變量成為輸入條件的函數(shù),以控制Transformer模型的生成行為.條件正則化(Conditional layer normalization,CLN)的具體框架如圖5所示.
圖5 條件正則化的框架
本文以文本中頭實(shí)體的編碼向量為條件,將其通過(guò)層正則化融合進(jìn)變量β和γ中,從而將頭實(shí)體的語(yǔ)義信息整合到文本中.在同一層中,所有隱藏單元條件正則化的統(tǒng)計(jì)信息計(jì)算如下:
(14)
其中,E表示文本通過(guò)BERT學(xué)習(xí)后的融合上下文特征的序列向量;C表示目標(biāo)條件特征.條件正則化方法中的參數(shù)γ表示添加目標(biāo)條件后的比例因子,β表示添加目標(biāo)條件后的偏置向量.
3)關(guān)系和尾實(shí)體解碼層:針對(duì)每個(gè)頭實(shí)體,本文采用二進(jìn)制標(biāo)記(0/1)來(lái)識(shí)別每種關(guān)系下對(duì)應(yīng)的尾實(shí)體,即該標(biāo)記表明當(dāng)前的位置是否是尾實(shí)體的開(kāi)始或結(jié)束.
該模塊可以有效識(shí)別出頭實(shí)體對(duì)應(yīng)的關(guān)系以及相關(guān)的尾實(shí)體.首先,通過(guò)BERT模型獲得包含上下文信息的序列特征.其次,通過(guò)條件正則化方法有效融合頭實(shí)體的向量特征.最后,同3.3節(jié)中頭實(shí)體解碼層的方法相同,針對(duì)每一種關(guān)系,識(shí)別出與頭實(shí)體相關(guān)的尾實(shí)體.具體的方法如下所示:
(15)
(16)
針對(duì)頭實(shí)體和尾實(shí)體的標(biāo)記任務(wù)中,本文采用二進(jìn)制標(biāo)記(0/1)來(lái)預(yù)測(cè)頭實(shí)體和尾實(shí)體的開(kāi)始和結(jié)束位置.實(shí)際上這個(gè)任務(wù)可以認(rèn)為是個(gè)二分類問(wèn)題,因此本文使用二分類交叉熵的改進(jìn)版focal loss作為損失函數(shù).同時(shí),通過(guò)對(duì)樣本數(shù)據(jù)的分析發(fā)現(xiàn),標(biāo)簽為“1”的樣本較多,而標(biāo)簽為“0”的較少,樣本數(shù)據(jù)不均衡.使用focal loss作為損失函數(shù)對(duì)正負(fù)樣本進(jìn)行懲罰,通過(guò)提高預(yù)測(cè)值以避免候選項(xiàng)為空的情況,可以有效處理數(shù)據(jù)樣本不平衡問(wèn)題.頭實(shí)體識(shí)別的損失函數(shù)見(jiàn)公式(17)~公式(19):
(17)
(18)
(19)
其中,pt表示對(duì)標(biāo)簽為“1”類別的估計(jì);α表示增加的權(quán)重參數(shù),兩者的具體定義見(jiàn)公式(20)和公式(21):
(20)
(21)
同樣地,針對(duì)尾實(shí)體識(shí)別的損失函數(shù)見(jiàn)公式(22)~公式(24):
(22)
(23)
(24)
由于抽取尾實(shí)體信息時(shí),融入了頭實(shí)體的相關(guān)特征,因此總體的損失函數(shù)定義為頭實(shí)體和尾實(shí)體識(shí)別的損失函數(shù)相加.
實(shí)驗(yàn)數(shù)據(jù)集:在實(shí)驗(yàn)中,本文使用3種公開(kāi)的信息抽取數(shù)據(jù)集:1)百度提供的關(guān)系抽取數(shù)據(jù)集DuIE[28],該數(shù)據(jù)集的主要來(lái)源是百度百科和百度新聞,包含近43萬(wàn)三元組;2)中文醫(yī)學(xué)信息抽取數(shù)據(jù)集CMeIE[29],該數(shù)據(jù)集的主要來(lái)源是兒科疾病和百種常見(jiàn)疾病,包含近7.5萬(wàn)三元組;3)NYT是一個(gè)英文新聞?wù)Z料關(guān)系抽取數(shù)據(jù)集,通過(guò)遠(yuǎn)程監(jiān)督方式生成.3種數(shù)據(jù)集的具體統(tǒng)計(jì)分析如表1所示.
表1 數(shù)據(jù)集統(tǒng)計(jì)分析
其中,數(shù)據(jù)集DuIE包含近17萬(wàn)條中文句子和50種預(yù)定義關(guān)系類型.數(shù)據(jù)樣例為{"object_type": "人物","predicate": "演員","object": "吳京","subject_type": "電影","subject": "戰(zhàn)狼"};數(shù)據(jù)集CMeIE包含近2.8萬(wàn)條中文句子和53種預(yù)定義關(guān)系類型,數(shù)據(jù)樣例為{"Combined": true,"predicate": "放射治療","subject": "慢性胰腺炎","subject_type": "疾病","object": {"@value": "外照射"},"object_type": {"@value": "其他治療"}}.數(shù)據(jù)集NYT采用Zeng 等人[30]發(fā)布的數(shù)據(jù)集,包含近6萬(wàn)條句子,24種預(yù)定義關(guān)系類型.
評(píng)估指標(biāo):本文通過(guò)常用的實(shí)體關(guān)系抽取評(píng)估指標(biāo)對(duì)構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型進(jìn)行性能評(píng)估,主要有精確率(P)、召回率(R)和F1衡量值.
(25)
其中,TP表示正確預(yù)測(cè)三元組的個(gè)數(shù);FP表示錯(cuò)誤預(yù)測(cè)為三元組的個(gè)數(shù);FN表示真實(shí)三元組沒(méi)被正確預(yù)測(cè)的個(gè)數(shù).在本文中構(gòu)建的是聯(lián)合抽取模型,因此當(dāng)頭實(shí)體、關(guān)系和尾實(shí)體全部預(yù)測(cè)正確,才確定為三元組被正確預(yù)測(cè).
參數(shù)設(shè)置:本文通過(guò)模型訓(xùn)練和參考相關(guān)文獻(xiàn)中的工作,選擇實(shí)體關(guān)系聯(lián)合抽取模型的最優(yōu)超參數(shù)值.目前,有兩種預(yù)訓(xùn)練語(yǔ)言模型:BERT-Base和BERT-Large,兩者的區(qū)別重要在于參數(shù)量的不同.根據(jù)實(shí)驗(yàn)室硬件條件,實(shí)驗(yàn)中本文選擇BERT-Base模型來(lái)獲取包含上下文信息的序列特征向量.同時(shí),采用嵌入注意力機(jī)制的BiLSTM模型來(lái)獲取文本句子中的局部特征和全局特征;使用Adam[31]優(yōu)化算法獲取合適的學(xué)習(xí)率.模型中具體的參數(shù)值如表2所示.
表2 超參數(shù)值選擇
實(shí)驗(yàn)環(huán)境:在實(shí)驗(yàn)中,本文采用深度學(xué)習(xí)中的Pytorch框架.同時(shí),模型訓(xùn)練和測(cè)試主要在AMD Ryzen 2700X (64GB)CPU和NVidia RTX2080Ti (11GB)GPU上完成.
在本文研究中,為了驗(yàn)證本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型是有效且穩(wěn)定的,在DuIE數(shù)據(jù)集、CMeIE數(shù)據(jù)集和NYT數(shù)據(jù)集上分別對(duì)所提出的模型和當(dāng)前較好的方法進(jìn)行了對(duì)比實(shí)驗(yàn).
Attention-BiLSTM:在BiLSTM中嵌入注意力機(jī)制,可以有效捕獲句子中較為重要的關(guān)鍵字信息,從而有效獲得輸入句子的局部特征和全局特征.
CopyMTL[32]: CopyMTL是在CopyRE模型基礎(chǔ)上的一種改進(jìn)該模型.首先,在編碼層主要采用BiLSTM模型捕獲句子的全局信息,構(gòu)建句子的特征向量.其次,在解碼層主要采用Attention_LSTM模型對(duì)關(guān)系,頭實(shí)體和尾實(shí)體依次進(jìn)行預(yù)測(cè)識(shí)別.
WDec[18]:該模型提出了一種編碼器-解碼器體系結(jié)構(gòu)的實(shí)體關(guān)系聯(lián)合抽取方法,有效解決了句子中三元組重疊問(wèn)題,提高了實(shí)體關(guān)系聯(lián)合抽取模型的性能.
Seq2UMTree[30]:該模型是在CasRel模型[21]基礎(chǔ)上的改進(jìn),在解碼層采用樹(shù)形結(jié)構(gòu)來(lái)對(duì)句子中實(shí)體關(guān)系進(jìn)行聯(lián)合抽取,有效解決了數(shù)據(jù)中標(biāo)簽不平衡問(wèn)題.
MHS[33]: 該模型是一個(gè)實(shí)體關(guān)系聯(lián)合抽取模型,沒(méi)有額外的手工特征和外部工具.通過(guò)CRF層將實(shí)體識(shí)別任務(wù)和關(guān)系抽取任務(wù)轉(zhuǎn)換為一個(gè)多頭選擇問(wèn)題,有效提高了實(shí)體關(guān)系聯(lián)合抽取模型的性能.
CasRel[21]:該模型是一種新的級(jí)聯(lián)二元標(biāo)注框架,將三元組的抽取任務(wù)轉(zhuǎn)換為主實(shí)體、關(guān)系和對(duì)象實(shí)體三個(gè)級(jí)別的問(wèn)題.同時(shí),將關(guān)系抽取看做是兩個(gè)實(shí)體的映射關(guān)系,有效解決了句子三元組重疊問(wèn)題.
FETI[34]:該模型在編碼層采用BiLSTM模型捕獲輸入句子的全局特征.然后,在解碼層采用樹(shù)形結(jié)構(gòu)進(jìn)行句子中實(shí)體和關(guān)系的聯(lián)合抽取,有效提高了模型性能.
在DuIE數(shù)據(jù)集上,本文提出的基于BERT的實(shí)體關(guān)系聯(lián)合抽取模型與上述基線模型的性能比較如表3所示.
表3 不同模型在DuIE數(shù)據(jù)集上的結(jié)果
如表3所示,將本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型與現(xiàn)有的幾種基線模型在DuIE數(shù)據(jù)集生進(jìn)行性能對(duì)比,基于BERT的實(shí)體關(guān)系聯(lián)合抽取模型的性能顯著提高.例如,本文提出的中文實(shí)體關(guān)系聯(lián)合抽取模型在DuIE數(shù)據(jù)集上獲得了最高的平均F1值(79.2%),R值(77.8%)和P值(80.6%).它比FETI基線模式的平均F1值高出約3.0%.此外,通過(guò)對(duì)比發(fā)現(xiàn),實(shí)體關(guān)系聯(lián)合抽取模型明顯優(yōu)于傳統(tǒng)的流水線方法(Attention-BiLSTM),主要原因是流水線的方法存在錯(cuò)誤的傳播.同時(shí),實(shí)驗(yàn)結(jié)果還表明,CasRel方法將關(guān)系轉(zhuǎn)換為頭實(shí)體映射到尾實(shí)體的函數(shù),可以準(zhǔn)確識(shí)別出句子中更多的實(shí)體.本文在CasRel方法的基礎(chǔ)上構(gòu)建了基于BERT的中文實(shí)體關(guān)系聯(lián)合抽取模型,不僅充分考慮到了句子中中文字符的上下文信息,而且還更好地解決了中文句子中三元組重疊的問(wèn)題,從而有效提高了模型的實(shí)體關(guān)系抽取能力,可以準(zhǔn)確提取出更多有效的三元組信息.
在CMeIE數(shù)據(jù)集上,本文提出的基于BERT的實(shí)體關(guān)系聯(lián)合抽取模型與上述基線模型的性能比較如表4所示.
表4 不同模型在CMeIE數(shù)據(jù)集上的結(jié)果
如表4所示,將本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型與現(xiàn)有的幾種基線模型在CMeIE數(shù)據(jù)集上進(jìn)行性能對(duì)比.測(cè)試結(jié)果表明,本文構(gòu)建的中文實(shí)體關(guān)聯(lián)合抽取模型在CMeIE數(shù)據(jù)集上是有效的,獲得了49.8%的精確率、47.5%的召回率和48.6%的F1值.同時(shí),從實(shí)驗(yàn)結(jié)果顯然可以看出實(shí)體關(guān)系聯(lián)合抽取模型要優(yōu)于傳統(tǒng)的流水線模型.此外,通過(guò)實(shí)驗(yàn)結(jié)果分析,本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型在CMeIE醫(yī)學(xué)關(guān)系抽取數(shù)據(jù)集的性能提升較少,主要原因可能是本文采用的BERT模型是通過(guò)在大規(guī)模通用語(yǔ)料上訓(xùn)練學(xué)習(xí)后獲取的,而CMeIE數(shù)據(jù)集是中文醫(yī)學(xué)領(lǐng)域標(biāo)準(zhǔn)的關(guān)系抽取數(shù)據(jù)集.因此,BERT模型可能在該醫(yī)學(xué)領(lǐng)域數(shù)據(jù)上表征較差,任務(wù)之間的錯(cuò)誤傳播較多,從而造成較多三元組的錯(cuò)誤抽取.
在NYT數(shù)據(jù)集上,本文提出的基于BERT的實(shí)體關(guān)系聯(lián)合抽取模型與上述基線模型的性能比較如表5所示.
表5 不同模型在NYT數(shù)據(jù)集上的結(jié)果
如表5所示,將本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型與現(xiàn)有的幾種基線模型在NYT英文關(guān)系抽取數(shù)據(jù)集上進(jìn)行性能對(duì)比.測(cè)試結(jié)果表明,本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型的在英文關(guān)系抽取語(yǔ)料上也獲得較好的結(jié)果,在NYT數(shù)據(jù)集上獲得了最高的平均F1值(89.9%)和P值(91.3%).此外,通過(guò)分析表5中的結(jié)果可以得出以下結(jié)論:1)本文構(gòu)建的聯(lián)合抽取方法優(yōu)于流水線方法(Attention-BiLSTM),主要原因是流水線方法存在錯(cuò)誤傳播,且沒(méi)有考慮實(shí)體識(shí)別和關(guān)系抽取之間的內(nèi)在關(guān)聯(lián);2)本文借鑒了CasRel模型的全局指針網(wǎng)絡(luò)解碼思路,構(gòu)建了基于BERT的中文實(shí)體關(guān)系聯(lián)合抽取模型.結(jié)果表明本文模型性能優(yōu)于CasRel和FETI等聯(lián)合抽取模型,主要原因是本文模型不僅充分考慮到了句子中中文字符的局部信息和全局信息,而且在識(shí)別關(guān)系和尾實(shí)體時(shí)有效利用了頭實(shí)體的相關(guān)信息.
為了分析本文構(gòu)建的實(shí)體關(guān)系聯(lián)合抽取模型中各個(gè)模塊的貢獻(xiàn),在DuIE數(shù)據(jù)集上做了相關(guān)消融實(shí)驗(yàn).各個(gè)基線模型的性能指標(biāo)結(jié)果如表6所示.
表6 不文模型中各個(gè)模塊的作用
BERT模塊:在實(shí)體關(guān)系聯(lián)合抽取模型中引入BERT,主要為了獲取包含上下文信息的句子表征.
BiLSTM-ATT:將訓(xùn)練好的句子向量輸入到BiLSTM-ATT模塊中,可以獲取句子中最重要的全局語(yǔ)義信息.
條件層正則化:通過(guò)條件層正則化方法對(duì)編碼序列做歸一化處理,可以有效地將頭實(shí)體的語(yǔ)義信息整合到句子信息中.
為了驗(yàn)證提出實(shí)體關(guān)系聯(lián)合抽取模型中各個(gè)模塊的作用,將其與相應(yīng)的基線模型進(jìn)行了比較.表6中的結(jié)果表明本文提出的模型具有更好的性能.將BERT層疊加到經(jīng)典基線模型上,并將ATT嵌入BiLSTM中,模型的性能得到了顯著的提高.同時(shí),通過(guò)條件正則化方法將頭實(shí)體的語(yǔ)義信息整合到句子信息中,進(jìn)一步提高了模型的性能.
為了研究不同句子長(zhǎng)度對(duì)本文提出的實(shí)體關(guān)系聯(lián)合抽取模型的影響程度.首先,將DuIE的測(cè)試集中句子的長(zhǎng)度分為5個(gè)類別;其次,通過(guò)構(gòu)建的模型對(duì)測(cè)試集上的句子進(jìn)行實(shí)體和關(guān)系抽取,并統(tǒng)計(jì)結(jié)果(如圖6所示).統(tǒng)計(jì)結(jié)果表明本文構(gòu)建的模型在長(zhǎng)句子上的實(shí)體關(guān)系抽取結(jié)果明顯比短句子上的差.分析認(rèn)為原因有兩點(diǎn):1)短文本中包含的實(shí)體和關(guān)系數(shù)量比長(zhǎng)文本中的少,錯(cuò)誤識(shí)別的可能性?。?)通過(guò)二進(jìn)制指針網(wǎng)絡(luò)標(biāo)注序列.由于目標(biāo)實(shí)體詞明顯比非目標(biāo)實(shí)體詞要少許多,因此導(dǎo)致標(biāo)注的類別不均衡(標(biāo)簽0比標(biāo)簽1要多得多).同時(shí),隨著句子長(zhǎng)度的增加,類別的不均衡現(xiàn)象會(huì)更嚴(yán)重.
圖6 模型在不同句子長(zhǎng)度下的性能
傳統(tǒng)的實(shí)體關(guān)系抽取方法依賴于專業(yè)的領(lǐng)域知識(shí)和大量的人工參與來(lái)提取特征.同時(shí),在中文實(shí)體關(guān)系抽取任務(wù)中也存在更多挑戰(zhàn),如多義現(xiàn)象和沒(méi)有邊界標(biāo)識(shí)符的漢語(yǔ)詞等.為了解決這些問(wèn)題,本文提出了一個(gè)新的實(shí)體關(guān)系聯(lián)合抽取模型.首先,通過(guò)構(gòu)建的BERT-BiLSTM-ATT模型識(shí)別句子中包含的所有頭實(shí)體;然后,以頭實(shí)體的BERT編碼向量作為條件,通過(guò)構(gòu)建的條件正則化方法將頭實(shí)體的語(yǔ)義信息整合到句子信息中.最后,通過(guò)構(gòu)建的BiLSTM-ATT模型完成句子中關(guān)系和尾實(shí)體的識(shí)別.同時(shí),為了討論本文提出的中文實(shí)體關(guān)系聯(lián)合抽取模型的有效性,使用DuIE數(shù)據(jù)集、CMeIE數(shù)據(jù)集和NYT數(shù)據(jù)集作為模型性能評(píng)估的數(shù)據(jù)集.通過(guò)與最近的一些研究結(jié)果相比,本文提出的模型取得了良好的效果.
本文提出的模型的主要優(yōu)勢(shì)在于,它可以對(duì)中文字符的上下文信息進(jìn)行學(xué)習(xí),從而獲得融合上下文語(yǔ)義信息的句子表征,這使得該模型的性能優(yōu)于其他基線.同時(shí),注意機(jī)制被嵌入到BiLSTM模型中,可以增強(qiáng)句子中重要特征的提取.此外,本文的新框架不再將關(guān)系視為離散的標(biāo)簽,而是將關(guān)系建模為頭實(shí)體映射到句子中尾實(shí)體的函數(shù),這有效解決了三元組重疊問(wèn)題,從而進(jìn)一步提高中文實(shí)體關(guān)系聯(lián)合抽取模型的性能.下一步的工作是研究特定領(lǐng)域下中文實(shí)體關(guān)系抽取的構(gòu)建方法,并測(cè)試所提出的模型在多領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)中的有效性和泛化能力.