国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CHIP2019評測任務1概述: 臨床術語標準化任務

2021-04-29 11:10:34黃源航焦曉康湯步洲陳清財
中文信息學報 2021年3期
關鍵詞:原詞評測術語

黃源航,焦曉康,湯步洲,3,陳清財,3,閆 峻,

(1.哈爾濱工業(yè)大學 計算機科學與技術學院,廣東 深圳 518055;2.醫(yī)渡云(北京)技術有限公司,北京 100191;3.鵬城實驗室,廣東 深圳 518055)

0 引言

隨著信息技術的快速發(fā)展,計算機技術在醫(yī)療領域得到了廣泛的應用。如何利用計算機相關技術處理海量的臨床醫(yī)療數據是諸多學者一直在研究的熱點問題。其中,臨床術語標準化是臨床醫(yī)療信息處理領域的一個重要研究方向。

臨床上,由于醫(yī)療人員的記錄風格存在差異,關于同一種診斷、手術、藥品、檢查、化驗、癥狀等往往會有成百上千種不同的寫法。比如,在中文臨床醫(yī)療文本中,“先天性脊柱側彎”可以表述為“先天性脊柱側凸”,也可以表述為“先天性脊柱側彎畸形”;在英文臨床醫(yī)療文本中,“heart attack”“MI”和“myocardial infarction”都可以代表“心肌梗塞”的含義。臨床術語標準化就是要為臨床上各種不同表述找到對應的標準表述。有了術語標準化的基礎,研究人員才可以對臨床醫(yī)療文本進行后續(xù)的統計分析。目前部分醫(yī)療機構采用人工方式將臨床術語手動規(guī)范化為標準術語,但是由于臨床術語專業(yè)性較強,并且表述方式過于多樣,這種方式對工作人員專業(yè)知識要求較高,所需人力成本巨大,得到的標準化結果也往往不夠準確。

第五屆中國健康信息處理會議(CHIP2019)組織了與中文臨床醫(yī)療信息處理相關的三項評測任務,其中評測任務1為臨床術語標準化任務。該評測任務鼓勵參賽者使用計算機技術對中文電子病歷中挖掘出的真實手術實體進行語義標準化,即給定一手術原詞,將其自動映射為手術詞表中對應的手術標準詞。本次評測數據集由醫(yī)渡云(北京)技術有限公司提供,其中的手術原詞全部來自真實醫(yī)療數據。訓練數據由專業(yè)人員依據《ICD9-2017協和臨床版》手術詞表對手術原詞進行了人工標注,將手術原詞手動映射為手術詞表里的手術標準詞,標注樣例如表1所示,其中多個標準詞用“##”分隔。參賽隊伍需要構建系統將測試數據中的手術原詞映射到給定手術詞表里的手術標準詞。本次評測以準確率(accuracy)作為評估指標。最終,排名第一的參賽隊伍提交結果的準確率為94.83%。本文將對此次評測任務中的數據、各支隊伍的提交結果以及評價指標進行分析和總結。

表1 CHIP2019評測任務1標注數據樣例

1 相關工作

臨床術語表述方式的不統一給醫(yī)療信息的整合、交換和共享等工作帶來了諸多障礙。因此,開展臨床術語標準化的相關研究有助于推動醫(yī)療領域數字化、信息化建設,實現高效率的全社會醫(yī)療資源共享。國外對于臨床醫(yī)學術語標準化的探索起步較早,目前已經做了許多研究工作。MetaMap是美國國立醫(yī)學圖書館建立的一個實現生物醫(yī)學文本到一體化醫(yī)學語言系統(unified medical language system,UMLS)概念映射的在線工具,它能標記出生物醫(yī)學文本所包含的UMLS超級敘詞表(Metathesaurus)中的醫(yī)學概念。Aronson[1]對MetaMap的文本映射基本原理進行了描述,即對于醫(yī)療文本,MetaMap使用基于規(guī)則的方法,通過計算文本中的名詞短語與檢索Metathesaurus得到的候選詞之間的匹配程度來查找并返回與此文本相關的Metathesaurus概念。然而,這種簡單的字符串匹配方法對數據要求較高,泛化能力不強。Leaman等人[2]提出了一個利用機器學習方法對醫(yī)療文本中的疾病名稱進行標準化的模型DNorm。DNorm模型使用機器學習中的文檔對排序學習(pairwise learning to rank)技術對文本中發(fā)現的疾病名稱和知識庫中的實體概念進行相似度打分并排序,最終返回分數最高的候選概念或能夠在詞表中完全匹配的候選概念作為疾病名稱標準化后的標準概念。DNorm當時在公開數據集NCBI上達到了最好的效果,但該模型在計算相似度時并沒有深入挖掘文本中所包含的語義信息。隨著深度學習技術的發(fā)展和計算性能的大幅提升,神經網絡被廣泛應用于醫(yī)療信息處理領域。Limsopatham和Collier[3]提出使用卷積神經網絡(convolutional neural network,CNN)或者長短期記憶網絡[4](long short-term memory,LSTM)對社交媒體中的文本進行編碼,把每個醫(yī)學概念看作一個類別,將編碼后的文本表示經過分類器映射到對應的醫(yī)學概念上。這是深度學習技術首次被應用到醫(yī)學術語標準化任務中,相比傳統的字符串匹配或者機器學習方法,深度學習技術能夠更好地利用文本中所包含的語義信息。近些年來,國際上組織了多個與臨床術語標準化相關的評測任務,比如CLEF(Conference and Labs of the Evaluation Forum)eHealth 2017[5]、eHealth 2018[6]和eHealth 2019[7]中的多語言信息抽取任務,SMM4H(social media mining for health)2019[8]中的藥物副作用抽取以及標準化任務,BioNLP(Biomedical Natural Language Processing Workshop)2019[9]中的藥品和化學實體標準化子任務。

由于我國醫(yī)療信息化發(fā)展進程相對滯后,且醫(yī)療術語相關編碼體系建設起步較晚,目前國內關于中文臨床術語標準化開展的研究較少。CHIP2019評測任務1是國內首個聚焦于中文臨床術語標準化工作的評測,旨在利用前沿的深度學習和自然語言處理技術,推動臨床術語標準化的相關研究工作。

2 評測數據

CHIP2019評測任務1數據集中包含的所有手術原詞均是來自三甲醫(yī)院的真實醫(yī)療數據,由醫(yī)渡云(北京)技術有限公司提供。訓練集和驗證集中分別包含了4 000條和1 000條手術原詞,對每條手術原詞以《ICD9-2017協和臨床版》 手術詞表為標準進行了標注,形成<原始詞,標準詞>對。《ICD9—2017協和臨床版》 手術詞表為層級結構,層級越深,標準詞表述越具體,因此對于手術原詞,標注原則為盡量查找層級深的標準詞,無法準確對應標準詞時再查找上級標準詞。

測試集中包含了2 000條手術原詞,要求參賽者給出其對應的手術標準詞。表2展示了評測數據集的具體統計信息。除了訓練集、驗證集和測試集,此次評測還提供了《ICD9-2017協和臨床版》手術詞表,里面包含了9 867個手術標準詞。

表2 CHIP2019評測任務1數據集統計信息

訓練集、驗證集和測試集的數據分布基本保持一致。長度不超過20的手術原詞在訓練集中占比約為94%,在驗證集和測試集中將近95%,可以看出此次評測數據集中的手術原詞均為短文本。由于訓練集、驗證集和測試集里面出現的手術標準詞均來自《ICD9-2017協和臨床版》手術詞表,因此手術標準詞長度分布和手術詞表基本一致。由于數據集中的每條手術原詞可能對應多個手術標準詞,如手術原詞“經皮腎鏡碎石取石術(左側)”對應的手術標準詞為“經皮腎鏡碎石術(PCNL)”和“經皮腎鏡取石術”。這也是本次評測任務的難點之一。在訓練集、驗證集和測試集中,只對應一個手術標準詞的手術原詞占比大約為95%,即大部分手術原詞對應單個標準詞。關于數據集中手術原詞對應手術標準詞個數的具體統計信息如圖1所示。

圖1 CHIP2019評測任務1手術原詞對應標準詞個數統計信息

3 評估指標

CHIP2019評測任務1以準確率(accuracy,A)作為最終評估標準。本任務中,準確率定義:給出正確的手術原詞加手術標準詞的組合除以待預測手術原詞的總數。具體計算如式(1)所示。

(1)

對于測試集中的第i條手術原詞,預測出的手術標準詞集合為Pi,真實對應的手術標準詞集合為Gi,N是測試集中手術原詞的個數。需要說明的是,計算Pi和Gi的交集時,遵循嚴格匹配原則,即預測出的手術標準詞必須與手術原詞真實對應的某個手術標準詞完全匹配,否則不屬于交集。

4 評測結果

CHIP2019評測任務規(guī)定每支參賽隊伍最多提交三份結果,取準確率最高值作為該支隊伍的最終結果。本次評測共收到了47份提交結果,其中準確率最高為94.83%,最低為35.11%,平均值為79.75%。表3為對評測任務1排名前十參賽隊伍系統的簡要描述,包括所使用的技術方法簡述以及是否使用外部資源(此評測任務允許使用公開數據資源和選手個人/組織的內部資源,不允許執(zhí)行任何人工標注)。

表3 CHIP2019評測任務1排名前十隊伍系統信息

可以看出,本次評測排名前十的大部分參賽隊伍都使用了預訓練語言模型BERT[10](bidirectional encoder representation from transformers),證明了利用大規(guī)模語料進行預訓練得到的語言模型在自然語言處理領域的有效性。除了“GR-hwj”和“SXDX-djj”兩支隊伍,其余八支隊伍均將標準化任務當成了文本相似度任務進行處理。本質上,臨床術語標準化任務是語義相似度匹配任務的一種。但是由于原詞表述方式過于多樣,并且標準詞詞表通常規(guī)模較大,單一的匹配模型很難獲得很好的效果。部分隊伍除了文本匹配模塊,還加入了篩選匹配候選詞模塊,即通過相似度計算等手段為每個手術原詞篩選若干手術標準詞作為匹配候選,再將<手術原詞,手術標準詞>對輸入到文本匹配模型進行關系判斷。相似度計算是較為常見的篩選候選方法,“YZS-cwf”采用多標簽分類模型獲取匹配候選;“ALBB-cms”引入信息檢索技術,使用檢索工具Lucene得到匹配候選;“ZKYF-xl”借鑒了生成模型的思想,利用Transformer[11]訓練了端到端的翻譯模型輔助相似度計算?!癎R-hwj”將臨床術語標準化任務分別當作生成問題和分類問題進行處理,融合了生成模型和分類模型的結果。“SXDX-djj”則完全將臨床術語標準化任務當作生成問題,以Seq2Seq[12]模型為基礎構建系統進行標準詞預測。

測試集中一共有2 000條手術原詞,其中1 901條手術原詞對應單個手術標準詞,99條手術原詞對應多個手術標準詞。表4是評測任務1排名前十隊伍的系統在測試集上的評估結果,每列結果最高數值已加粗表示。其中“Acc”為在測試集整體2 000條數據集上計算的準確率結果,“Acc-single”為在測試集中對應單個手術標準詞的1 901條手術原詞上計算的準確率結果?!癆cc-multiple”則是在測試集中對應多個手術標準詞的99條手術原詞上計算的準確率結果??梢钥闯觯捍舜卧u測排名前十隊伍對于單個手術標準詞的預測準確率較高,前五支隊伍均接近0.9或者達到0.9以上,前十隊伍中“Acc-single”最高值與最低值之差為0.217 0。對于對應多個手術標準詞的情況,前十隊伍系統預測結果比對應的單個手術標準詞差,最高值為0.888 9,最低值為0.491 3,二者相差0.3976,說明各支隊伍系統在預測多個手術標準詞時性能差異相對較大。

表4 CHIP2019評測任務1排名前十隊伍系統評估結果

針對測試集中的2 000條手術原詞,其中前十支隊伍均沒有預測正確的手術原詞,一共有52條,可以將這些手術原詞看作系統普遍預測錯誤的數據樣例。通過分析這些數據樣例,發(fā)現不易準確預測的手術原詞可以主要歸為以下三類:

(1)手術原詞對應多個手術標準詞,這與上文展示的各支隊伍對于多標準詞的預測結果相符。

(2)手術原詞對應的標準詞在訓練集出現次數很少甚至沒有出現過,這給模型的訓練增加了難度,模型無法準確地學習到這些標準詞的相關信息。

(3)手術原詞對應的手術標準詞在手術詞表中有相似的標準詞,模型在預測時難以有效地分辨這些相似標準詞的區(qū)別。

5 結語

臨床術語標準化是醫(yī)療信息處理領域中的一個重要研究方向。在如今互聯網、大數據迅速發(fā)展的時代背景下,術語標準化有助于整合和利用規(guī)模龐大的、分散的、非結構化的醫(yī)療信息數據。隨著人工智能的興起,自然語言處理相關技術的應用逐漸滲透到醫(yī)療領域。如何利用自然語言處理等深度學習技術處理臨床術語標準化問題,是CHIP2019評測任務1關注的重點。

本文是對CHIP2019評測任務1的簡要概述。本次評測吸引了來自企業(yè)、高校和研究機構的56支隊伍報名參加,一共接收了47組結果,最高準確率達到了94.83%。參賽隊伍大多數以預訓練語言模型BERT為基礎構造了系統。相比于未引入預訓練模型的系統,這些以預訓練語言模型為基礎的系統取得了較好的標準化效果。大多數系統對于對應單標準詞的手術原詞預測效果較好,對于對應多標準詞的手術原詞預測效果相對較差。通過分析預測錯誤的數據,總結了出錯的主要類型,這是臨床術語標準化任務的主要難點,也是未來研究工作中應該關注的重點。

猜你喜歡
原詞評測術語
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
三姐妹
攻坡新利器,TOKEN VENTOUS評測
當成語中的“心”變成“薪”
Canyon Ultimate CF SLX 8.0 DI2評測
中國自行車(2017年1期)2017-04-16 02:54:06
說“長”道“短”
完形填空微技能導練
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發(fā)展趨勢
磐安县| 白银市| 铅山县| 崇左市| 天柱县| 汕头市| 平顶山市| 五台县| 博湖县| 长宁县| 德兴市| 武鸣县| 张掖市| 新营市| 建德市| 涟源市| 郑州市| 郎溪县| 垦利县| 广安市| 招远市| 新平| 南投市| 和政县| 波密县| 进贤县| 应用必备| 巴青县| 漳州市| 若尔盖县| 克什克腾旗| 刚察县| 黄骅市| 德州市| 咸阳市| 乐东| 苏州市| 鹤峰县| 禹城市| 高唐县| 杭锦后旗|