国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CHIP 2020評測任務(wù)2概述:中文醫(yī)學(xué)文本實體關(guān)系抽取

2022-08-02 05:15:46甘子發(fā)昝紅英關(guān)同峰李雯昕朱田恬穗志方陳清財
中文信息學(xué)報 2022年6期
關(guān)鍵詞:三元組評測類別

甘子發(fā),昝紅英,4,關(guān)同峰,4,李雯昕,4,張 歡,朱田恬,穗志方,陳清財,4

(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871;3. 哈爾濱工業(yè)大學(xué)(深圳),廣東 深圳 518000;4. 鵬城實驗室,廣東 深圳 518052)

0 引言

隨著生物醫(yī)學(xué)領(lǐng)域研究的不斷發(fā)展,產(chǎn)生了越來越多的生物醫(yī)學(xué)文獻(xiàn)。研究人員的醫(yī)學(xué)知識儲量與其閱讀的文獻(xiàn)數(shù)量密切相關(guān),但普通的研究人員難以盡數(shù)閱讀現(xiàn)有的大量文獻(xiàn),因此對生物醫(yī)學(xué)文獻(xiàn)中有價值的信息進(jìn)行提取和挖掘就受到越來越多研究者的關(guān)注。

信息抽取是自然語言處理的一項重要課題,其基本任務(wù)就是從原始的非結(jié)構(gòu)化文本中抽取指定類型的實體、關(guān)系和事件等事實信息,并輸出有意義的結(jié)構(gòu)化信息,以用于智能問答、信息檢索等。信息抽取包括命名實體識別、實體關(guān)系抽取和事件抽取等子任務(wù),本文關(guān)注于實體關(guān)系抽取。近年來許多學(xué)者在實體關(guān)系抽取領(lǐng)域開展了深入研究,以從非結(jié)構(gòu)化的文本中抽取有效信息并服務(wù)于下游子任務(wù)。由中文自然語言句子或句子集合組成的醫(yī)學(xué)教材、臨床實踐以及電子病歷數(shù)據(jù)等均為非結(jié)構(gòu)化的醫(yī)學(xué)文本,醫(yī)學(xué)領(lǐng)域的實體關(guān)系抽取便是從非結(jié)構(gòu)化醫(yī)學(xué)文本中識別出醫(yī)學(xué)實體,并確定實體對之間關(guān)系事實的過程。

CHIP 2020主題為“數(shù)據(jù)和知識驅(qū)動的醫(yī)療AI”。會議共享評測的任務(wù)2聚焦于“中文醫(yī)學(xué)文本實體關(guān)系抽取”,希望能通過深度學(xué)習(xí)及其他算法促進(jìn)中文醫(yī)學(xué)文本實體關(guān)系抽取的相關(guān)研究。評測任務(wù)的數(shù)據(jù)總共包括28 008條經(jīng)過人工標(biāo)注實體關(guān)系的中文醫(yī)學(xué)文本,以及預(yù)先定義好的53種實體關(guān)系類別標(biāo)簽(schema),其由11種醫(yī)學(xué)實體類別和44種關(guān)系類別組合而成。任務(wù)要求: 給定一條真實的中文醫(yī)學(xué)文本,模型需要返回其可能包含的實體關(guān)系三元組(triple),每個三元組由主實體(subject)、關(guān)系(predicate)及客實體(object)組成。評測任務(wù)最終排名指標(biāo)為微平均F1值,示例數(shù)據(jù)如表1所示。

表1 評測任務(wù)數(shù)據(jù)示例

1 相關(guān)工作

1.1 實體關(guān)系抽取研究進(jìn)展

實體關(guān)系抽取是自然語言處理的一項重要子任務(wù),有著重要的研究價值和廣泛的應(yīng)用前景。隨著醫(yī)學(xué)領(lǐng)域信息化的發(fā)展,醫(yī)學(xué)文本的實體關(guān)系抽取在提取結(jié)構(gòu)化信息、輔助診斷等方面發(fā)揮著重要作用。中文醫(yī)學(xué)文本實體關(guān)系抽取任務(wù)的數(shù)據(jù)來源廣泛,包括醫(yī)學(xué)教材、臨床實踐、電子病歷等,通常由非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本組成。實體關(guān)系抽取有多種實現(xiàn)方法,而根據(jù)設(shè)計思想的差異,實體關(guān)系抽取方法可以分為流水線方法和聯(lián)合抽取方法[1]。

1.1.1 流水線方法

流水線方法是指將實體關(guān)系抽取分為兩步來實現(xiàn),分別為命名實體識別(named entity recognition,NER)和關(guān)系抽取(relation extraction,RE),但第2步的關(guān)系抽取依賴于第1步的命名實體識別,若第1步出現(xiàn)錯誤,第2步則必定受到影響,因此流水線方法存在誤差傳遞問題。Soares等[2]將關(guān)系語句到表示關(guān)系的定長向量的映射定義為函數(shù),并測試了關(guān)系編碼器的不同架構(gòu)對關(guān)系抽取效果的影響,最后其提出的關(guān)系抽取預(yù)訓(xùn)練任務(wù)空白匹配(matching the blanks,MTB)讓模型在少樣本關(guān)系抽取任務(wù)上的效果有明顯的提升。Zhong等[3]則通過對實體和關(guān)系分別進(jìn)行編碼,使得其結(jié)果超越了之前的所有聯(lián)合抽取模型,并提出了一種新穎且有效的近似方法,只需精度略微下降便可實現(xiàn)8~16倍的推斷提速。

1.1.2 聯(lián)合抽取方法

聯(lián)合抽取方法則采用參數(shù)共享[4-5]或統(tǒng)一標(biāo)注方案[6]實現(xiàn)聯(lián)合編碼來解決流水線方式的誤差傳遞問題,Zeng等[4]將醫(yī)學(xué)文本中的實體關(guān)系三元組分為正常、實體對重疊、單實體重疊三個類別,為了解決絕大多數(shù)方法只能關(guān)注于正常三元組而少有能考慮到其他類別三元組的問題,提出了使用復(fù)制機(jī)制(copy mechanism)的基于序列到序列(seq2seq)的端到端(end2end)模型,該模型可以聯(lián)合抽取文本中任意類別的關(guān)系事實。Fu等[5]提出在實體關(guān)系抽取方法中,有三個方面的問題: 實體識別和關(guān)系抽取的端到端聯(lián)合模型、對重疊關(guān)系的預(yù)測、關(guān)系尤其是重疊關(guān)系之間的相互作用,這三個方面仍有待在一個統(tǒng)一的框架內(nèi)得到充分處理,為此Fu等提出了關(guān)系圖模型(GraphRel),該模型是第一個處理關(guān)系抽取中上述全部三個關(guān)鍵方面的神經(jīng)端到端聯(lián)合模型。Wei等[6]為了解決實體重疊的問題,提出了一個新的級聯(lián)二元標(biāo)注框架(cascade binary tagging framework,CASREL),不同于之前的方法,其將關(guān)系當(dāng)作離散標(biāo)簽,該框架將關(guān)系建模成從句子中的主實體映射到客實體的函數(shù),由此來解決重疊問題。

1.2 中文醫(yī)學(xué)文本的實體關(guān)系類別研究

知識圖譜的構(gòu)建與融合一直受到研究者的關(guān)注,奧德瑪?shù)萚7]、昝紅英等[8]利用自然語言處理技術(shù)與文本挖掘技術(shù),構(gòu)建了中文醫(yī)學(xué)知識圖譜(Chinese medical knowledge graph,CMeKG),CMeKG包括疾病、藥物、醫(yī)療程序及身體等實體,并描述了100余萬個概念關(guān)系實例及屬性三元組,并針對疾病、藥物、醫(yī)療程序及身體等各類醫(yī)學(xué)概念進(jìn)行細(xì)化描述,定義了各類概念的關(guān)系描述框架,其將實體分為12大類,并定義了實體間的12個關(guān)系類型,為此后的醫(yī)學(xué)知識圖譜研究奠定了基礎(chǔ),同時也為中文醫(yī)學(xué)文本的實體關(guān)系類別研究提供了參考。昝紅英等[9]在醫(yī)學(xué)領(lǐng)域?qū)<业闹笇?dǎo)下制定了適合兒科學(xué)的命名實體和實體關(guān)系的標(biāo)注體系及詳細(xì)標(biāo)注規(guī)范;融合國內(nèi)外相關(guān)醫(yī)學(xué)標(biāo)準(zhǔn)資源,利用標(biāo)注工具對298余萬字兒科醫(yī)學(xué)文本中實體及實體關(guān)系進(jìn)行機(jī)器預(yù)標(biāo)注、人工標(biāo)注及人工校對,構(gòu)建了面向兒科疾病的醫(yī)學(xué)實體及關(guān)系語料庫。在前者的基礎(chǔ)上,Guan等[10]參考國內(nèi)外權(quán)威的醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語集,搜集多種來源的醫(yī)學(xué)文本資料,包括常見疾病的臨床實踐、醫(yī)學(xué)教材《兒科學(xué)》、《臨床兒科學(xué)》等來源的醫(yī)學(xué)文本,通過對部分語料進(jìn)行預(yù)標(biāo)注并對標(biāo)注結(jié)果進(jìn)行分析,與醫(yī)學(xué)專家共同研究評估,總結(jié)出了11種實體類別和44種關(guān)系類別,并由此制定出中文醫(yī)學(xué)信息抽取數(shù)據(jù)集(Chinese medical information extraction,CMeIE)的語料標(biāo)注規(guī)范,以及實體和關(guān)系描述體系規(guī)范。

中文醫(yī)學(xué)文本的實體關(guān)系類別研究可以優(yōu)化實體關(guān)系設(shè)計,并有效促進(jìn)醫(yī)學(xué)知識圖譜的構(gòu)建與融合。2018年瑞金醫(yī)院人工智能輔助構(gòu)建知識圖譜大賽公布了600份與糖尿病相關(guān)的學(xué)術(shù)論文和糖尿病臨床指南,以及定義好的11種關(guān)系類別,旨在通過糖尿病相關(guān)的教科書、研究論文來做糖尿病文獻(xiàn)挖掘并構(gòu)建糖尿病知識圖譜。其中排名第1的模型結(jié)合Zeng等[11]與Zhou等[12]的優(yōu)點并做出改進(jìn),其F1值達(dá)到了0.787。隨著實體關(guān)系抽取技術(shù)的不斷發(fā)展,中文醫(yī)學(xué)文本的實體關(guān)系類別研究與醫(yī)學(xué)知識圖譜研究也在不斷相互促進(jìn),共同發(fā)展。此次CHIP 2020評測任務(wù)2聚焦于中文醫(yī)學(xué)文本的實體關(guān)系抽取任務(wù),希望能驗證基于深度學(xué)習(xí)算法的實體關(guān)系抽取技術(shù),促進(jìn)中文醫(yī)學(xué)文本實體關(guān)系抽取的研究。

2 評測數(shù)據(jù)

CHIP 2020評測任務(wù)2的數(shù)據(jù)集為CMeIE數(shù)據(jù)集,該數(shù)據(jù)集為公開數(shù)據(jù)集,可用于科學(xué)研究。CMeIE數(shù)據(jù)集的數(shù)據(jù)來源廣泛,包括常見疾病的臨床實踐、醫(yī)學(xué)教材《兒科學(xué)》、《臨床兒科學(xué)》等來源的醫(yī)學(xué)文本。醫(yī)學(xué)教材均在國家衛(wèi)生部指導(dǎo)下由專業(yè)醫(yī)生編寫,是極其權(quán)威和可靠的。臨床實踐則是根據(jù)具體的臨床情況,系統(tǒng)化制定的以幫助醫(yī)生和患者選擇恰當(dāng)治療手段的醫(yī)學(xué)指南,具有結(jié)構(gòu)規(guī)范、內(nèi)容豐富和更新及時的特點。該數(shù)據(jù)集共有11種實體類別和44種關(guān)系類別,并且對每種類別都定義了描述信息和標(biāo)注規(guī)范。標(biāo)注團(tuán)隊在對醫(yī)學(xué)文本進(jìn)行標(biāo)注之前,將其以篇章為單位分為若干份,每一份都由兩名標(biāo)注者獨(dú)立進(jìn)行標(biāo)注,對于標(biāo)注結(jié)果不一致和不確定的情況,由專家討論后確定最終結(jié)果。標(biāo)注完成后對醫(yī)學(xué)文本進(jìn)行分句,每一條醫(yī)學(xué)文本以及其中包含的實體關(guān)系三元組為一條數(shù)據(jù)。本文使用F1值衡量數(shù)據(jù)集的標(biāo)注一致性[13],實體和關(guān)系的F1值分別達(dá)到了0.85和0.82。

CMeIE數(shù)據(jù)集包含11種實體類別、44種關(guān)系類別、28 008條醫(yī)學(xué)文本和85 282個三元組。數(shù)據(jù)集分為4部分,其中,訓(xùn)練集包含14 399條數(shù)據(jù),驗證集包含3 585條數(shù)據(jù),測試集1包含4 482條數(shù)據(jù),測試集2包含5 602條數(shù)據(jù)。該數(shù)據(jù)集有著各關(guān)系類別數(shù)據(jù)量分布不均衡的特點,整體上呈現(xiàn)長尾分布。44種關(guān)系類別中,臨床表現(xiàn)關(guān)系的三元組有22 932個,而病理生理關(guān)系的三元組只有60個,詳細(xì)信息如表2所示。

表2 訓(xùn)練集、驗證集、測試集1、測試集2中三元組在各關(guān)系類型上的數(shù)量分布情況

3 評測結(jié)果

評測任務(wù)2的訓(xùn)練集、驗證集以及測試集1于2020年7月20日發(fā)布后,參賽隊伍搭建并訓(xùn)練各自的模型,每支參賽隊伍每天可提交一次在測試集1上的結(jié)果,系統(tǒng)會及時根據(jù)參賽隊伍提交的結(jié)果更新排名。測試集2于2020年9月28日發(fā)布,每支參賽隊伍在測試集2公布期間每天可提交一次結(jié)果。最終結(jié)果根據(jù)各參賽隊伍在測試集2上的微平均F1值進(jìn)行排名。評測任務(wù)2于2020年10月15日截止,至截止日期總共174支隊伍參加評測任務(wù),共計515人,其中,105支隊伍來自科研院校等機(jī)構(gòu),64支隊伍來自企業(yè),5支隊伍為個人報名。最終51支隊伍提交了測試集1的結(jié)果,17支隊伍提交了測試集2的結(jié)果。根據(jù)參賽規(guī)則,參賽隊伍的評測方法和結(jié)果,由評測組織者進(jìn)行學(xué)術(shù)評測研究分析。

3.1 評估指標(biāo)

評測使用的評價指標(biāo)包括精確率(Precision,P)、召回率(Recall,R)和F1值。最終排名以F1值為基準(zhǔn)。本次評測任務(wù)使用微平均的方式計算精確率、召回率和F1值,即不分類別地統(tǒng)計全部的三元組進(jìn)行計算。計算如式(1)~式(3)所示。

其中,n為測試集2中的句子個數(shù),最終根據(jù)F1值進(jìn)行排名。

3.2 方法分析

采用預(yù)訓(xùn)練語言模型,結(jié)合實體關(guān)系抽取框架,然后針對抽取任務(wù)進(jìn)行微調(diào),最后對多個模型進(jìn)行融合是解決中文醫(yī)學(xué)文本實體關(guān)系抽取任務(wù)的主流策略。預(yù)訓(xùn)練語言模型一般在大規(guī)模文本語料庫上進(jìn)行預(yù)訓(xùn)練,以獲得豐富的語義表示信息,并可以在給定任務(wù)文本上進(jìn)行微調(diào)。本文對前三名隊伍的方法進(jìn)行分析。

參賽隊伍使用了多種預(yù)訓(xùn)練語言模型。前三名的隊伍均使用了強(qiáng)力優(yōu)化變換器雙向編碼表征模型(robustly optimized BERT pretraining approach,RoBERTa)[14]以及面向漢語理解的神經(jīng)語境表征模型(neural contextualized representation for Chinese language understanding,NEZHA)[15]。排名第1的隊伍另外使用了變換器雙向編碼表征模型(bidirectional encoder representations from transformers,BERT)[16],排名第3的隊伍另外使用了高效替代令牌檢測分類編碼器(efficiently learning an encoder that classifies token replacements accurately,ELECTRA)[17]。

參賽隊伍使用了多種機(jī)器學(xué)習(xí)算法與預(yù)訓(xùn)練語言模型融合進(jìn)行實體關(guān)系的抽取。排名第1的隊伍采用了3種訓(xùn)練策略: ①使用層疊式指針網(wǎng)絡(luò)先識別主實體,再基于主實體感知抽取不同關(guān)系類型下的客實體,并對其做出了改進(jìn),如訓(xùn)練時針對不同主實體構(gòu)建其對應(yīng)的訓(xùn)練集、引入conditional LarerNorm對主實體的表征進(jìn)行感知、改進(jìn)BERT的分詞器以更好地提取英文專有名詞等;②將實體關(guān)系抽取任務(wù)看作多頭選擇(multi-head selection)[18]問題,將編碼層由長短時記憶網(wǎng)絡(luò)模型(long short-term memory,LSTM)[19]改為BERT等預(yù)訓(xùn)練模型,并使用條件隨機(jī)場(conditional random field,CRF)[20]或指針網(wǎng)絡(luò)作為關(guān)系分類器;③基于注意力機(jī)制(attention mechanism)[21]對第2種策略進(jìn)行改進(jìn),將BERT最后兩層編碼進(jìn)行雙仿射變換(biaffine)計算[22]得到多頭矩陣,同時引入[CLS]進(jìn)行全局編碼。上述三種策略中,第3種策略取得了最好的效果?;谏鲜龅娜N算法策略,排名第1的隊伍使用K折交叉驗證(K-fold cross validation)構(gòu)建了模型融合策略;將原始數(shù)據(jù)集(訓(xùn)練集+驗證集)劃分為5折進(jìn)行交叉驗證,并采用了4種不同的預(yù)訓(xùn)練語言模型。

排名第2的隊伍主要采用指針網(wǎng)絡(luò)結(jié)合預(yù)訓(xùn)練模型預(yù)測主實體、客實體及關(guān)系,并用conditional LayerNorm或注意力機(jī)制融合主實體向量與字符向量。對于單個模型,其優(yōu)化方案有采樣更多主實體、融合BERT模型多層表征、通過融合專業(yè)名詞的邊界信息以及拼接詞嵌入向量進(jìn)行詞匯增強(qiáng)、分別對主實體預(yù)測和客實體預(yù)測的分?jǐn)?shù)加乘方以加快收斂、指數(shù)移動平均(exponential moving average,EMA)、動態(tài)調(diào)整學(xué)習(xí)率等。對于多個模型,其使用了K折交叉驗證進(jìn)行模型融合。

排名第3的隊伍使用了兩種不同的策略: ①使用層疊式指針網(wǎng)絡(luò),并輔以不同訓(xùn)練方案,如每個數(shù)據(jù)實例隨機(jī)采樣一個主實體、每個實例采樣所有主實體或采用不同句長以得到更豐富的三元組抽取結(jié)果;②在第1種策略的基礎(chǔ)上引入NER進(jìn)行多任務(wù)訓(xùn)練: 在BERT的編碼層之后連接CRF,采用序列標(biāo)注方法進(jìn)行實體識別。對于多個模型,其同樣使用了K折交叉驗證進(jìn)行模型融合。

數(shù)據(jù)預(yù)處理可以讓模型更好地提取和學(xué)習(xí)到文本中的表示特征,提高模型的泛化能力和預(yù)測能力。在此次任務(wù)中,數(shù)據(jù)集已經(jīng)去除過重復(fù)數(shù)據(jù)。為了提升模型訓(xùn)練效果,參賽隊伍均對過長的文本進(jìn)行了截斷處理。排名第2和第3的隊伍均使用了不同句長的數(shù)據(jù)進(jìn)行訓(xùn)練以得到更豐富的預(yù)測結(jié)果。排名第3的隊伍還使用訓(xùn)練好的模型預(yù)測醫(yī)學(xué)文本中的實體得到偽標(biāo)簽(pseudo-label)以達(dá)到數(shù)據(jù)增強(qiáng)的目的。

3.3 結(jié)果分析

對17支隊伍提交的測試集2的評測結(jié)果進(jìn)行分析,F(xiàn)1值的平均數(shù)為0.551 5,最大值為0.648 6,最小值為0.276 0,中位數(shù)為0.566 2。排名前三的隊伍提交的各自最優(yōu)的結(jié)果信息如表3所示,包括參賽單位、方法描述和F1值。

表3 排名前三參賽隊伍的系統(tǒng)結(jié)果

圖1為排名前三的隊伍提交結(jié)果在測試集2中各關(guān)系類別上的表現(xiàn),縱坐標(biāo)表示各類別上的F1值,橫坐標(biāo)表示44種中文醫(yī)學(xué)文本關(guān)系類別,并按照F1值從高到低對類別進(jìn)行排序。各隊伍對“多發(fā)季節(jié)”和“同義詞”這兩種關(guān)系類別的三元組抽取效果最好,所有隊伍結(jié)果的F1值都超過了0.8,主要原因是“多發(fā)季節(jié)”的客實體特征明顯,大多包含“秋冬季”“春秋”等詞匯,而“同義詞”的主實體和客實體相似性和關(guān)聯(lián)性較強(qiáng)?!扒旨爸車M織轉(zhuǎn)移的癥狀”抽取效果最差,三支隊伍的成績均為0.0,這主要是因為“侵及周圍組織轉(zhuǎn)移的癥狀”這一關(guān)系類別包含的三元組數(shù)量極少,而且其與包含三元組數(shù)量最多的“臨床表現(xiàn)”存在實體對重疊的問題,這導(dǎo)致系統(tǒng)難以識別這一關(guān)系類別。

圖1 排名前三的隊伍分別在 44 種關(guān)系類別上的F1值

結(jié)合各關(guān)系類別的數(shù)據(jù)量和相關(guān)實體特征信息分析,可以發(fā)現(xiàn)實體具有特征明顯的獨(dú)特性詞匯、主客實體相似性和關(guān)聯(lián)性較強(qiáng)以及數(shù)據(jù)量大的實體關(guān)系類型抽取效果較好,而數(shù)據(jù)稀疏、沒有明顯特征信息的實體關(guān)系類型則抽取效果較差。模型表現(xiàn)好的實體關(guān)系類別,如“多發(fā)季節(jié)”“同義詞”“鑒別診斷”及“多發(fā)地區(qū)”,一般其三元組的實體特征信息明顯、辨識性強(qiáng),這可以幫助模型表現(xiàn)出好的抽取效果。抽取效果差的實體關(guān)系類型,如“侵及周圍組織轉(zhuǎn)移的癥狀”“預(yù)后狀況”“相關(guān)(轉(zhuǎn)化)”及“發(fā)病機(jī)制”,由于實體沒有明顯的特征信息、主客實體的相似性和關(guān)聯(lián)性不強(qiáng)以及數(shù)據(jù)量少,因此抽取效果較差。

在各實體關(guān)系類別中,存在關(guān)系重疊的問題,在這種情況下,數(shù)據(jù)量和實體特征的獨(dú)特性對實體關(guān)系抽取效果的影響被擴(kuò)大,數(shù)據(jù)量少且實體特征不明顯的實體關(guān)系抽取效果大大降低,如“侵及周圍組織轉(zhuǎn)移的癥狀”。

結(jié)合不同隊伍的系統(tǒng)方案分析,發(fā)現(xiàn)在抽取效果好的實體關(guān)系類別中,各系統(tǒng)方案的性能差別不大,在抽取效果差的實體關(guān)系類別中,各系統(tǒng)方案的性能開始有了差異。因此提升在這些實體特征不明顯、實體間相似性和關(guān)聯(lián)性不強(qiáng)以及數(shù)據(jù)量少的實體關(guān)系類別上的抽取效果,對模型總體抽取效果的提升具有明顯的幫助。本次評測任務(wù)2中排名前三的隊伍均使用了多模型融合并結(jié)合各類機(jī)器學(xué)習(xí)算法的方案。排名第1的隊伍使用基于注意力機(jī)制改進(jìn)的多頭選擇策略,在抽取效果好的類別上的F1值略優(yōu)于其他兩支隊伍,但在抽取效果較差的類別上的F1值卻遜于其他兩支隊伍更多,不過因為抽取效果好的類別一般數(shù)據(jù)量較大,所以總體上其預(yù)測正確的三元組數(shù)量更多,其微平均F1值更好。

4 結(jié)語

中國健康信息處理會議(CHIP 2020)共享評測任務(wù)2為中文醫(yī)學(xué)文本實體關(guān)系抽取,總共開放了28 008條醫(yī)學(xué)文本、預(yù)先定義好的11種實體類型和44種關(guān)系類型。共有174支隊伍參加了評測任務(wù),其中17支隊伍提交了最終結(jié)果。排名第1的模型微平均F1值達(dá)到了0.648 6,其使用了將BERT等預(yù)訓(xùn)練模型和多頭選擇機(jī)制融合的抽取策略。參賽隊伍均使用了預(yù)訓(xùn)練模型,結(jié)合神經(jīng)網(wǎng)絡(luò)模型和各種抽取框架,然后針對實體關(guān)系抽取任務(wù)進(jìn)行微調(diào),最后對各個模型的結(jié)果進(jìn)行集成以提升整個模型的效果。結(jié)果分析顯示,排名前三的模型表現(xiàn)很接近,微平均F1值在0.63~0.65之間。排名第1的隊伍F1值較后兩支隊伍高出了0.01左右,但不同類別的實體關(guān)系抽取結(jié)果差異較大,數(shù)據(jù)量大、實體特征明顯以及實體關(guān)聯(lián)性強(qiáng)的實體關(guān)系類別抽取效果明顯較好。本次CHIP 2020共享評測任務(wù)2同時也為中文醫(yī)學(xué)文本實體關(guān)系抽取任務(wù)提供了可供參考的數(shù)據(jù)集和實驗結(jié)果。在未來的工作中,如何提升模型在數(shù)據(jù)量較少的小類別以及關(guān)系重疊三元組上的表現(xiàn),仍是提高中文醫(yī)學(xué)文本實體關(guān)系抽取模型性能的關(guān)鍵。

猜你喜歡
三元組評測類別
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
次時代主機(jī)微軟XSX全方位評測(下)
次時代主機(jī)微軟XSX全方位評測(上)
關(guān)于余撓三元組的periodic-模
攻坡新利器,TOKEN VENTOUS評測
Canyon Ultimate CF SLX 8.0 DI2評測
中國自行車(2017年1期)2017-04-16 02:54:06
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
陆丰市| 郓城县| 三门县| 龙海市| 高碑店市| 中阳县| 瑞丽市| 高邮市| 德格县| 廊坊市| 抚州市| 栾川县| 封开县| 哈尔滨市| 阳山县| 景宁| 新乡县| 永州市| 武穴市| 邵阳市| 台前县| 大洼县| 三都| 阳城县| 布尔津县| 土默特左旗| 泗水县| 乡宁县| 万山特区| 浮梁县| 靖远县| 芜湖市| 斗六市| 聊城市| 景谷| 凤城市| 许昌县| 商丘市| 吉首市| 江安县| 汉寿县|