国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于實(shí)體對(duì)分類的聯(lián)合抽取模型

2023-05-11 08:58朱天佑王路濤邊靖宸陳振宇李繼偉陳思宇劉普凡雷曉宇鄧艷紅
軟件導(dǎo)刊 2023年4期
關(guān)鍵詞:三元組解碼實(shí)體

朱天佑,王路濤,李 博,邊靖宸,陳振宇,李繼偉,陳思宇,劉普凡,雷曉宇,鄧艷紅

(1.國(guó)家電網(wǎng)有限公司大數(shù)據(jù)中心,北京 100053;2.北京中電普華信息技術(shù)有限公司,北京 100089)

0 引言

隨著國(guó)家電網(wǎng)有限公司數(shù)字化轉(zhuǎn)型的不斷深入,從海量業(yè)務(wù)數(shù)據(jù)中提取有效信息是強(qiáng)化數(shù)據(jù)賦能業(yè)務(wù)的關(guān)鍵[1]。實(shí)體關(guān)系三元組提取可從給定文本中提取(頭實(shí)體、關(guān)系、尾實(shí)體)形式的所有關(guān)系三元組,其提取能力對(duì)知識(shí)挖掘、信息提取、圖譜的構(gòu)建與自動(dòng)維護(hù)至關(guān)重要。目前,pipeline 與聯(lián)合抽取方案被廣泛應(yīng)用于實(shí)體關(guān)系抽取任務(wù)。隨著各種基線模型被陸續(xù)提出,三元組抽取能力與準(zhǔn)確度不斷提升。

1 相關(guān)研究

(1)pipeline 方案在實(shí)體關(guān)系抽取研究初期,研究人員嘗試了分而治之的策略。首先提取給定文本的實(shí)體,即命名實(shí)體識(shí)別(Named Entity Recognition,NER)[2]子任務(wù),然后確定實(shí)體間的關(guān)系,即關(guān)系分類(Relation Classification,RC)[3]子任務(wù)。經(jīng)典的NER 模型采用線性統(tǒng)計(jì)策略,例如隱馬爾可夫模型(Hidden Markov Models,HMM)[4]、條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)[5]等。后期,Lample等[6]提出循環(huán)神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)相結(jié)合的結(jié)構(gòu),Chiu等[7]采用BiLSTM-CNN 的架構(gòu),其已被成功應(yīng)用于NER 子任務(wù)。

早期,關(guān)系分類任務(wù)大多基于統(tǒng)計(jì)方法。例如,Kambhatla[8]提出一種使用最大熵模型結(jié)合不同的詞匯、句法和語(yǔ)義特征構(gòu)建分類模型。Zhou 等[9]采用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行關(guān)系分類。后期,采用深度學(xué)習(xí)方法。例如,Santos 等[10]提出CR-CNN 模型,該方法將每個(gè)詞分為詞向量和位置向量?jī)刹糠?,?jīng)過(guò)卷積獲得整個(gè)句子的向量表示,在SemEval-2010 Task 8 數(shù)據(jù)集上F1-score 為84.1%,優(yōu)于當(dāng)時(shí)最好的非深度學(xué)習(xí)方法。

雖然,pipeline 方案具有易于執(zhí)行、組件靈活配置等優(yōu)點(diǎn)[11],但忽略了實(shí)體和關(guān)系間相互依存、不可分割的事實(shí),可能會(huì)導(dǎo)致最終識(shí)別結(jié)果出現(xiàn)誤差傳播、泛化性能差等問(wèn)題。

(2)聯(lián)合提取方案。實(shí)體關(guān)系聯(lián)合提取方法建立了任務(wù)間的關(guān)聯(lián),在一定程度上規(guī)避了基于pipeline 方法存在的問(wèn)題,引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。根據(jù)不同的特征提取方式,聯(lián)合抽取方法可分為基于特征工程和基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取?;谔卣鞴こ痰穆?lián)合抽取需要根據(jù)數(shù)據(jù)特點(diǎn)設(shè)計(jì)特征。Kate 等[12]提出一個(gè)卡片金字塔圖表示文本中的實(shí)體及其關(guān)系。Li 等[13]提出一種基于分段的解碼器,以增量方式聯(lián)合提取實(shí)體及其關(guān)系。雖然在簡(jiǎn)單文本抽取中基于特征工程的抽取方法取得了不錯(cuò)的效果,但該方法需要依賴其他自然語(yǔ)言處理(Natural Language Processing,NLP)工具,人工成本消耗巨大,并需要具備大量的領(lǐng)域?qū)I(yè)知識(shí)。于是,深度學(xué)習(xí)工具被引入聯(lián)合抽取模型中,通過(guò)基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法規(guī)避了復(fù)雜的人工抽取特征。

基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取方法自動(dòng)抽取數(shù)據(jù)包含的特征,Miwa 等[14]首次采用基于神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系聯(lián)合抽取方式,通過(guò)共享序列層和詞嵌入層信息將實(shí)體對(duì)映射到對(duì)應(yīng)的關(guān)系,實(shí)現(xiàn)了兩個(gè)子任務(wù)間的交互,但難以高效解決關(guān)系重疊等問(wèn)題,如圖1所示。

Fig.1 Example sentences with overlapping relationships圖1 關(guān)系重疊例句

關(guān)系重疊包含實(shí)體對(duì)重疊(Entity Pair Overlap,EPO)和單個(gè)實(shí)體重疊(Single Entity Overlap,SPO)。目前,解決關(guān)系重疊類型的三元組抽取,提升模型性能是研究重點(diǎn)。Yuan 等[15]采用基于關(guān)系的注意力機(jī)制優(yōu)化句子特征表示,將關(guān)系提取映射到實(shí)體對(duì)的方式實(shí)現(xiàn)聯(lián)合抽取,在一定程度解決了關(guān)系重疊問(wèn)題,但基于關(guān)系識(shí)別出實(shí)體的難度較大,不利于泛化。隨著預(yù)訓(xùn)練語(yǔ)言模型的普及,較新的研究方法包含基于Bert 編碼器的級(jí)聯(lián)模型[16]。Wang等[17]考慮了聯(lián)合提取中token 對(duì)鏈接的問(wèn)題,提出一種新的握手token 方法,但解碼方式設(shè)計(jì)復(fù)雜。Zheng 等[18]提出將任務(wù)分解為關(guān)系判斷、實(shí)體提取、主客對(duì)齊3 個(gè)子任務(wù),但不可避免會(huì)產(chǎn)生誤差傳播問(wèn)題。Shang 等[19]提出單模塊單步框架優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),但仍然存在訓(xùn)練耗時(shí)長(zhǎng)、占用內(nèi)存較大的問(wèn)題。

綜上,盡管現(xiàn)有方法極大提升了實(shí)體關(guān)系的交互程度,但忽略了三元組提取過(guò)程中各元素的緊密相關(guān)度,并在處理關(guān)系重疊問(wèn)題時(shí)召回率較低。針對(duì)上述聯(lián)合抽取模型存在的關(guān)系重疊、模型性能差、模型結(jié)構(gòu)復(fù)雜等問(wèn)題,本文從新視角出發(fā),嘗試從分類后的頭尾實(shí)體對(duì)跨度中直接解碼出事實(shí)三元組。與文獻(xiàn)[17]采用的基于預(yù)測(cè)實(shí)體引導(dǎo)的復(fù)雜解碼器不同,直接對(duì)三元組整體結(jié)構(gòu)進(jìn)行建模,專注于從文本中提取實(shí)體與關(guān)系,以充分捕捉三元組各元素間的依賴關(guān)系,而非采用傳統(tǒng)方法中基于某個(gè)元素來(lái)提取出其他元素的方式。

本文模型將初始文本送入預(yù)訓(xùn)練語(yǔ)言模型Roberta,獲取文本token(經(jīng)語(yǔ)言模型分詞處理后的單詞標(biāo)記)嵌入表示。然后,基于關(guān)系枚舉文本token,獲得文本的token 對(duì)序列,并使用文本卷積神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)整合token 對(duì)序列,獲得其嵌入表示。接下來(lái),采用分類器預(yù)測(cè)文本頭尾實(shí)體的token 對(duì)標(biāo)簽。最后,基于關(guān)系和頭尾實(shí)體的token 對(duì)跨度解碼出事實(shí)三元組。該模型在基于遠(yuǎn)程監(jiān)督方法生成的公共數(shù)據(jù)集NYT 上進(jìn)行實(shí)驗(yàn),取得了良好效果,其綜合性能指標(biāo)F1-score 達(dá)到92.1%,并且文本中包含的實(shí)體嵌套、關(guān)系重疊和多三元組情況準(zhǔn)確度較高,證明了該框架在應(yīng)對(duì)關(guān)系重疊三元組等復(fù)雜場(chǎng)景時(shí)的有效性。

2 模型構(gòu)建

基于實(shí)體對(duì)分類的聯(lián)合抽取模型從文本分類后的頭尾實(shí)體token 對(duì)跨度中直接解碼出事實(shí)三元組,該模型由4部分組成為:①文本詞嵌入層,通過(guò)預(yù)訓(xùn)練語(yǔ)言模型Roberta 編碼得到輸入文本S={w1,w2,…wn}中單詞wi的嵌入表示;②枚舉并整合token 對(duì)表示層,將文本詞嵌入層獲得的token 嵌入兩兩組合成(vi,vj),重新編碼token 對(duì),并為每種關(guān)系構(gòu)建一組token 對(duì)表示;③分類層,對(duì)每個(gè)類別的token 對(duì)嵌入表示進(jìn)行標(biāo)簽預(yù)測(cè),確定每種關(guān)系中每組token 對(duì)的所屬類別;④解碼層,根據(jù)分類層中對(duì)token 對(duì)所屬類別的判斷及token 對(duì)的分類標(biāo)簽,解碼出事實(shí)三元組。模型總體結(jié)構(gòu)如圖2所示。

Fig.2 Network structure of joint extraction model based on entity pair classification圖2 基于實(shí)體對(duì)分類的聯(lián)合抽取模型網(wǎng)絡(luò)結(jié)構(gòu)

2.1 任務(wù)定義

給定一條文本S={w1,w2,…wN},N表示該文本共有N個(gè)詞語(yǔ);預(yù)定義關(guān)系表示為R={r1,r2,…rK},K表示共有K種預(yù)定義關(guān)系。

實(shí)體關(guān)系聯(lián)合抽取的目標(biāo)是識(shí)別文本S中所有可能的事實(shí)三元組T(S)={(hi,ri,ti)=1,hi,ti∈E,ri∈R},其中hi表示文本S的頭實(shí)體,ti表示文本S的尾實(shí)體,E表示實(shí)體集,ri∈R表示預(yù)定義的關(guān)系,L表示文本S中三元組的個(gè)數(shù)。

2.2 文本詞嵌入層

模型最底層為詞嵌入層,該層將輸入的文本詞匯編碼為嵌入向量,本文使用預(yù)訓(xùn)練語(yǔ)言模型Roberta[20]進(jìn)行編碼。模型輸入序列S={w1,w2,…wN},由于Roberta 對(duì)單詞使用BPE 標(biāo)記器進(jìn)行標(biāo)記,可能會(huì)將一個(gè)完整的單詞切分為幾個(gè)token 片段,因此文本S輸入Roberta 后將得到token級(jí)別的嵌入向量表示,具體數(shù)學(xué)表達(dá)式為:

其中,vi∈Rd,d為經(jīng)過(guò)Roberta 表示后獲得的token 級(jí)別的嵌入向量維度。

2.3 基于關(guān)系的枚舉token對(duì)表示層

使用文本編碼器Roberta 將文本S編碼為token 嵌入后,將每條文本的token 兩兩組合,形成token 對(duì)。從文本內(nèi)容的第一個(gè)token 枚舉到最后一個(gè)token,以獲得文本中所有token 的兩兩組合,形成token 對(duì),即。其中,m表示文本S的token 數(shù)量,vi、vj表示token。

然而,真實(shí)的組合過(guò)程需將token 對(duì)應(yīng)的嵌入兩兩組合,以獲得token 對(duì)的長(zhǎng)度為m2,因此對(duì)內(nèi)存空間消耗較高。本文模型采用向后組合的方式,即token 對(duì)的組合只需要后一個(gè)token 的索引位于前一個(gè)token 索引的后方即可,通過(guò),j>i表示一組token 對(duì),得到組合token對(duì)的長(zhǎng)度為m,其中m表示一條文本S中的token數(shù)量。如圖3 所示,該圖展示了文本首先被Roberta 劃分為token 后,被兩兩組合為token 對(duì)的過(guò)程。

接下來(lái),將token 對(duì)的嵌入表示相連接,首先采用文本卷積提取的token 嵌入連接后特征,然后利用多層感知機(jī)(Multi-Layer Perceptron,MLP)方式重新整合嵌入表示。

Fig.3 Token pair combination form圖3 token對(duì)組合形式

其中,?表示激活函數(shù),Wv表示可訓(xùn)練的參數(shù)矩陣,Conv表示采用卷積,bv表示可訓(xùn)練的偏置。經(jīng)過(guò)上述訓(xùn)練得到token 對(duì)的嵌入表示。

本文模型通過(guò)基于關(guān)系和邊界token 確定實(shí)體,因此將每種關(guān)系得到的組合token 對(duì)復(fù)制兩份,一份代表“HBto-TB”,另一份代表“HE-to-TE”。其中,HB(Head Entity to Begin Token)表示頭實(shí)體的開(kāi)始token,TB(Tail Entity to Begin Token)表示尾實(shí)體的開(kāi)始token,這一組token 對(duì)嵌入表示將被用來(lái)預(yù)測(cè)每種關(guān)系中頭尾實(shí)體對(duì)應(yīng)的Begin tokens。例如,圖3 中('The'+'?social')('The','?energy')是關(guān)系'guarantee'和'provide'的“HB-to-TB”矩陣將要預(yù)測(cè)輸出的內(nèi)容?!癏E-to-TE”中HE(Head Entity to End Token)表示頭實(shí)體的結(jié)束token,TE(Tail Entity to End Token)表示尾實(shí)體的結(jié)束token,這一組token 對(duì)嵌入表示將被用來(lái)預(yù)測(cè)每種關(guān)系中頭尾實(shí)體對(duì)應(yīng)的End tokens。例如,圖3中('?grid'+'?development')('?grid','?electricity')為關(guān)系'guaranentee'和'provide'的“HE-to-TE”矩陣將要預(yù)測(cè)輸出的內(nèi)容。

2.4 分類層

經(jīng)過(guò)基于關(guān)系的token 對(duì)表示可得到K×2 個(gè)組合token 對(duì)表示,其中K表示預(yù)定義的關(guān)系數(shù)量,直觀而言就是枚舉所有可能的(vi,rk,vj),j>i三元組組合。將這些組合token 對(duì)送入兩個(gè)分類器,如式(3)、式(4)所示。通過(guò)一個(gè)分類器分類“HB-to-TB”矩陣,另一個(gè)分類器分類“HE-to-TE”矩陣,使用分類器獲得“HB-to-TB”和“HE-to-TE”矩陣的token 對(duì)標(biāo)簽。

由于上述采用的是向后組合token 對(duì)的方式,因此會(huì)發(fā)生預(yù)測(cè)頭實(shí)體位于尾實(shí)體后方的情況,受聯(lián)合預(yù)測(cè)模型編碼方式啟發(fā)[17],本文模型將token 對(duì)標(biāo)簽設(shè)計(jì)為0、1、2,如圖4所示。

Fig.4 Examples of classification labels圖4 分類標(biāo)簽示例

以“HB-to-TB”的token 對(duì)分類為例,0 表示該token 對(duì)不屬于特定關(guān)系下頭尾實(shí)體對(duì)的開(kāi)始token 對(duì);1表示該token 對(duì)屬于特定關(guān)系實(shí)體對(duì)的開(kāi)始token 對(duì);2 表示該token對(duì)屬于特定關(guān)系實(shí)體對(duì)的開(kāi)始token 對(duì),但該token 對(duì)中頭實(shí)體位于文本S后方,尾實(shí)體位于文本S前方。圖4 中('?social','The')并不存在圖3 描述的token 對(duì)組合,因此token 對(duì)“HB-to-TB”矩陣的('The','?social'),在contains關(guān)系下對(duì)應(yīng)位置標(biāo)簽被預(yù)測(cè)為2,通過(guò)該策略使得其在(vi,rk,vj),j>i的情況下仍能枚舉到頭實(shí)體位于尾實(shí)體后方。

2.5 解碼層

解碼層根據(jù)分類層預(yù)測(cè)的token 對(duì)標(biāo)簽及特定關(guān)系進(jìn)行解碼。具體的,由于每種關(guān)系均會(huì)被預(yù)測(cè)出兩組矩陣“HB-to-TB”“HE-to-TE”,因此根據(jù)“HB-HE”的token 跨度解碼出頭實(shí)體,根據(jù)“TB-TE”的token 跨度解碼出尾實(shí)體。此外,提取該關(guān)系類型便可解碼出對(duì)應(yīng)的事實(shí)三元組,具體解碼策略步驟如圖5所示。

由圖5 可見(jiàn),該解碼策略可自然處理具有關(guān)系重疊情況的三元組。具體的,針對(duì)實(shí)體對(duì)重疊情況,對(duì)于不同關(guān)系預(yù)測(cè)出相同的“HB-to-TB”和“HE-to-TE”矩陣標(biāo)簽解碼出實(shí)體對(duì)相同、關(guān)系不同的三元組。針對(duì)單個(gè)實(shí)體重疊情況,當(dāng)兩個(gè)三元組包含相同關(guān)系時(shí),針對(duì)同一種關(guān)系預(yù)測(cè)的“HB-to-TB”“HE-to-TE”矩陣標(biāo)簽token 對(duì)中'HB''HE'相同,或'TB''TE'相同,同樣可解碼出正確的三元組,但該方式可能會(huì)發(fā)生預(yù)測(cè)實(shí)體冗余的情況。針對(duì)頭尾實(shí)體重疊情況,例如(Bejing city,city name,Bejing),雖然預(yù)測(cè)出的“HB-to-TB“相同、“HE-to-TE“不同,但仍能被正確解碼。

Fig.5 Decoding strategy steps圖5 解碼策略步驟

2.6 損失函數(shù)

由于該模型需要訓(xùn)練兩個(gè)分類器,一個(gè)預(yù)測(cè)實(shí)體對(duì)的開(kāi)始token,另一個(gè)預(yù)測(cè)實(shí)體對(duì)的結(jié)束token,因此損失通常由這兩部分構(gòu)成,他們均采用交叉熵方式計(jì)算損失訓(xùn)練損失函數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文選用由遠(yuǎn)程監(jiān)督產(chǎn)生的公共數(shù)據(jù)集NYT[22]驗(yàn)證模型的有效性,該數(shù)據(jù)集包含56 195 個(gè)訓(xùn)練文本,5 000 個(gè)驗(yàn)證文本,5 000 個(gè)測(cè)試文本。由于NYT 數(shù)據(jù)集中文本通常包含多個(gè)關(guān)系三元組和重疊模式,因此非常適合評(píng)估模型的提取能力。

本文根據(jù)關(guān)系三元組的不同重疊模式,將NYT 數(shù)據(jù)集分為正常數(shù)據(jù)(Normal)、實(shí)體對(duì)重疊數(shù)據(jù)(EPO)和單個(gè)實(shí)體重疊數(shù)據(jù)(SEO),如表1所示。

Table 1 Dataset information表1 數(shù)據(jù)集信息

表2 展示了NYT 測(cè)試集中三元組數(shù)量統(tǒng)計(jì)。本文遵循實(shí)體關(guān)系聯(lián)合抽取模型常用的評(píng)價(jià)指標(biāo),采用標(biāo)準(zhǔn)的微精確率(Micro Precision)、召回率(Recall)和F1-score 作為評(píng)估指標(biāo)量化模型優(yōu)劣。

Table 2 Statistics of the number of triads in the NYT test set表2 NYT測(cè)試集三元組數(shù)量統(tǒng)計(jì)

3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

本文實(shí)驗(yàn)在顯存為32GB 的Tesla V100 GPU 上訓(xùn)練,基于pytorch 1.12.0 機(jī)器學(xué)習(xí)庫(kù)。預(yù)訓(xùn)練語(yǔ)言模型使用Huggingface transformers 庫(kù)中的Roberta(Roberta-base)獲取詞嵌入表示,生成詞嵌入維度為768 維。訓(xùn)練集batch size 大小設(shè)置為24,學(xué)習(xí)率設(shè)置為5e-5,參數(shù)通過(guò)Adam 算法優(yōu)化,并使用余弦退火方法調(diào)整學(xué)習(xí)率,最大長(zhǎng)度設(shè)置為80。模型共訓(xùn)練了50 個(gè)epoch,保存在驗(yàn)證集上F1-score 最高的模型,在測(cè)試集上測(cè)試輸出結(jié)果。

3.3 結(jié)果評(píng)估與分析

為驗(yàn)證本文模型的有效性,將其與TPLinker 模型[17]、CasRel 模型[21]、CopyRE 模型[22]、GraphRel 模型[23]等4 種基線模型進(jìn)行比較。目前,最新的研究方法為PRGC[18]模型,研究過(guò)程中嘗試復(fù)現(xiàn)該模型,但由于其占用系統(tǒng)內(nèi)存過(guò)大,未能較好復(fù)現(xiàn)出該模型的應(yīng)有效果,雖然該模型雖取得了最好效果,但內(nèi)存量占用過(guò)大、訓(xùn)練效率較低,因此未作為本文的比較模型。上述基線模型在NYT 數(shù)據(jù)集上的結(jié)果均來(lái)自官方結(jié)果,如表3所示。

由此可見(jiàn),本文模型相較于GraphRel、CasRel、CopyRE,在精確率、召回率和F1-score 方面均存在較大提升。具體的,在精確率方面分別提升30.2%、27.3%、1.5%;在召回率方面分別提升36.5%、33.1%、3.6%;在F1-score 方面分別提升33.4%、30.2%、2.5%。

本文模型相較于TPLinker 模型,在召回率、F1-score 方面分別提升0.6%、0.3%。盡管TPLinker捕獲了三元組依賴關(guān)系,在精確率上略高于本文模型,但存在解碼策略設(shè)計(jì)復(fù)雜、參數(shù)量大等問(wèn)題。本文模型以犧牲微小精確率為代價(jià),設(shè)計(jì)了更簡(jiǎn)單、快速的解碼策略,可同時(shí)提取具有實(shí)體嵌套、關(guān)系重疊等情況的三元組。

Table 3 Comparison of effects of different models in NYT dataset表3 不同模型在NYT數(shù)據(jù)集效果比較 (%)

為驗(yàn)證模型處理一條文本中包含多個(gè)三元組的性能,本文在NYT 測(cè)試集8 種子集中,對(duì)模型在關(guān)系重疊模式下的三元組提取的性能進(jìn)行實(shí)驗(yàn)驗(yàn)證,并與CopyRE、GraphRel、CasRel、TPLinker 這4 種基線模型進(jìn)行比較,如表4所示。

由表4 可知,隨著文本中三元組數(shù)量增加,CopyRE、GraphRel 模型的預(yù)測(cè)能力明顯下降。當(dāng)2≤N<5 時(shí),Cas-Rel、TPLinker 預(yù)測(cè)能力呈增長(zhǎng)趨勢(shì);當(dāng)N≥5 時(shí),CasRel、TPLinker 預(yù)測(cè)能力呈遞減趨勢(shì);當(dāng)2≤N<5 時(shí),本文模型預(yù)測(cè)能力呈遞增趨勢(shì);當(dāng)N≥5時(shí),本文模型相較于基線模型效果最好;當(dāng)N≥2 時(shí),本文模型相較于4 種基線模型,在F1-score 方面均有所提升;當(dāng)N=4 時(shí),F(xiàn)1-score 分別提升42.7%、41.2%、2.1%、0.2%,且在EPO、SEO 情形下的效果更優(yōu),這得益于本文模型的解碼策略能充分抽取文本包含多三元組的情況。綜上,本文模型相較于4 種基線模型能更好地處理關(guān)系重疊問(wèn)題。

Table 4 Performance comparison of model processing multiple triples and relational overlapping triples表4 模型處理多三元組及關(guān)系重疊三元組性能比較

3.4 模型健壯性分析

為分析模型在不同應(yīng)用場(chǎng)景下的健壯性,對(duì)本文方法進(jìn)行案例分析,如圖6 所示。該圖展示了模型對(duì)初始文本中包含Normal、EPO、SPO 和多三元組情況的提取能力。

Fig.6 Model processing text multiple triples case圖6 模型處理文本多三元組案例

由圖6 可見(jiàn),“Text1””Text2”均包含4 組三元組?!癟ext1”基本事實(shí)欄中第2、4 組三元組既為EPO 類型,又為SPO 類型;第1、2 組三元組為SPO 類型三元組;第3 組為Normal 類型三元組。“Text2”中三元組均既為EPO 類型,又為SPO 類型的三元組。在模型預(yù)測(cè)欄中可見(jiàn)本文模型對(duì)于“Text 1”預(yù)測(cè)正確3 組,但在”Text1”中將三元組(Bobby Fischer,nationality,Iceland)預(yù)測(cè)為(Fischer,nationality,Iceland),原因可能是模型未能較好地捕捉頭實(shí)體的跨度,還需進(jìn)一步完善模型實(shí)體跨度獲取方案?!癟ext2”全預(yù)測(cè)正確。通過(guò)實(shí)驗(yàn)證明,本文模型在處理不同長(zhǎng)度文本、不同三元組模式時(shí)的魯棒性更強(qiáng)。

4 結(jié)語(yǔ)

本文針對(duì)實(shí)體關(guān)系聯(lián)合抽取中普遍存在的實(shí)體嵌套、關(guān)系重疊及事實(shí)三元組各元素相互依存關(guān)系的問(wèn)題,提出基于實(shí)體對(duì)分類的聯(lián)合抽取模型。首先采用實(shí)體對(duì)分類方式獲得token 對(duì)預(yù)測(cè)標(biāo)簽;然后對(duì)頭尾實(shí)體token 對(duì)解碼,同時(shí)抽取出三元組的實(shí)體和關(guān)系。實(shí)驗(yàn)表明,該模型采用實(shí)體對(duì)分類方式可充分捕獲三元組各元素間的依賴關(guān)系,有效解決了實(shí)體嵌套、關(guān)系重疊等問(wèn)題。

未來(lái),將進(jìn)一步優(yōu)化模型訓(xùn)練效率,將模型應(yīng)用于電網(wǎng)電力行業(yè)等亟需構(gòu)建新場(chǎng)景業(yè)務(wù)領(lǐng)域知識(shí)圖譜中,以充分發(fā)揮這些領(lǐng)域知識(shí)的價(jià)值。

猜你喜歡
三元組解碼實(shí)體
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
《解碼萬(wàn)噸站》
特征標(biāo)三元組的本原誘導(dǎo)子
解碼eUCP2.0
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
關(guān)于余撓三元組的periodic-模
NAD C368解碼/放大器一體機(jī)
Quad(國(guó)都)Vena解碼/放大器一體機(jī)
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
柯坪县| 色达县| 阜新| 嘉荫县| 临猗县| 贡觉县| 滁州市| 黄龙县| 建始县| 谢通门县| 天门市| 额敏县| 永修县| 永仁县| 尼勒克县| 泉州市| 汉川市| 贡觉县| 大同县| 宣城市| 东方市| 分宜县| 额济纳旗| 安达市| 伊通| 巴东县| 额尔古纳市| 仁化县| 广丰县| 库尔勒市| 孝感市| 大城县| 枝江市| 武乡县| 湛江市| 漾濞| 台州市| 红原县| 米易县| 尼玛县| 札达县|