中文重疊關(guān)系抽取的動態(tài)分層級聯(lián)標記模型

2024-01-01 00:00:00張利張歡歡袁玉波

華東理工大學(xué)學(xué)報(自然科學(xué)版) 2024年3期

摘要：構(gòu)建了動態(tài)分層級聯(lián)標記中文重疊關(guān)系抽?。≧WG-LSA）模型：首先基于預(yù)訓(xùn)練語言模型和gated 機制構(gòu)建了動態(tài)字詞融合特征學(xué)習(xí)模型（RWG），有效避免了主體標記模塊的特征缺失和無法并行計算等問題；其次引入動態(tài)權(quán)局部自注意力（LSA），自主學(xué)習(xí)到主體層面的語義特征；最后在有效融合了輸入序列的全局和主體局部特征的基礎(chǔ)上，實現(xiàn)RWG-LSA 模型對文本中實體對和關(guān)系的抽取。在SKE 中文數(shù)據(jù)集上的實驗表明，本模型對重疊關(guān)系抽取有顯著效果，F(xiàn)1 值達到了82.44%。

關(guān)鍵詞：文本挖掘；中文重疊關(guān)系抽取；動態(tài)字詞融合；預(yù)訓(xùn)練語言模型；gated 機制；局部自注意力機制

中圖分類號：TP391.1 文獻標志碼：A

在文本數(shù)據(jù)爆炸式增長的今天，如何從海量文本數(shù)據(jù)中挖掘出重要信息成為自然語言處理領(lǐng)域的主流方向，關(guān)系抽取是其中的一項重要方式。關(guān)系抽取任務(wù)是從非結(jié)構(gòu)化文本數(shù)據(jù)中抽取出結(jié)構(gòu)（主體、關(guān)系、客體）的三元組數(shù)據(jù)，以此表達實體以及實體間的語義關(guān)系。由三元組數(shù)據(jù)作為基本構(gòu)成單元的知識圖譜和智能問答系統(tǒng)，可以協(xié)助司法案件處理、企業(yè)合同智能管理等方面的相關(guān)人員更好地掌握信息情報、識別相關(guān)風(fēng)險，實現(xiàn)智能化輔助決策。因此，關(guān)系抽取作為這些下游任務(wù)的數(shù)據(jù)來源，具有較高的應(yīng)用價值和研究價值。

目前，聯(lián)合抽取實體和關(guān)系的方法是關(guān)系抽取中的主流方法。許多新穎的聯(lián)合抽取方法被提出[1-2]，其效果優(yōu)于基于流水線[1] 的方法。然而，大多數(shù)現(xiàn)有的方法并不能有效處理實體間存在重疊語義關(guān)系的情況?，F(xiàn)有的解決關(guān)系重疊問題的聯(lián)合抽取方法大致可分為3 種：（1）基于分層級聯(lián)標記的方法通常使用二進制（0/1）標記序列來確定主體的開始和結(jié)束標記，以及每種關(guān)系下客體的開始和結(jié)束標記。Wei 等[3]基于BERT[4]（Bidirectional Encoder Representationsfrom Transformers）提出分層級聯(lián)標記（CasRel）的方式解決關(guān)系重疊問題，在數(shù)據(jù)集NYT 和WebNLG 上取得了顯著效果；Ren 等[5] 針對關(guān)系類別不均衡的問題，構(gòu)建了基于BERT 和交叉熵損失的置信度閾值的級聯(lián)標記模型（ConCasRTE）。（2）基于表格填充的方法為每種關(guān)系維護一個擁有該關(guān)系的實體開始位置和結(jié)束位置的表。Wang等[6] 采用單階段標記對鏈接（TPLinker）方式實現(xiàn)關(guān)系表填充，并解決了暴露偏差問題。（3）基于Seq2Seq 的方法將三元組視為序列數(shù)據(jù)，按一定順序生成三元組。Zeng等[7] 按照先生成關(guān)系再生成實體的順序，提出了復(fù)制機制（CopyRE）解決關(guān)系重疊問題；Nayak 等[8] 針對復(fù)制機制無法識別完整實體的缺點改進解碼方式，一種方法以字逐個預(yù)測，即WDec（ Word-based Decoding），另一種方法是解碼生成實體頭尾位置，即PNDec（ PointerNetwork-based Decoding）。除上述方法外，F(xiàn)u 等[9] 還引入圖卷積網(wǎng)絡(luò)（Graph Convolutional Network，GCN）將文本建模作為關(guān)系圖來預(yù)測每個實體對的潛在關(guān)系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中文重疊關(guān)系抽取的動態(tài)分層級聯(lián)標記模型