国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)療多模態(tài)信息抽取技術(shù)評測數(shù)據(jù)集概述*

2022-02-28 04:53:05雷健波李作峰
醫(yī)學(xué)信息學(xué)雜志 2022年12期
關(guān)鍵詞:決策樹語義醫(yī)療

宗 輝 雷健波 李作峰

(同濟(jì)大學(xué) 上海200092) (北京大學(xué)醫(yī)學(xué)信息學(xué)中心 北京100091) (武田中國創(chuàng)新孵化器 上海 200126)

夏靜波 陳漠沙

(華中農(nóng)業(yè)大學(xué)信息學(xué)院 武漢 430070) (阿里巴巴 杭州 310000)

王曉玲 常德杰 康 波

(華東師范大學(xué) 上海 200062) (北京環(huán)球醫(yī)療救援 北京 100020) (醫(yī)渡云(北京)技術(shù)有限公司 北京 100191)

李 姣 湯步洲

(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京 100020) (哈爾濱工業(yè)大學(xué)(深圳)鵬城實(shí)驗(yàn)室 深圳518055)

1 引言

隨著醫(yī)院信息化的普及,醫(yī)療健康領(lǐng)域得到飛速發(fā)展,積累了海量且類型多樣的醫(yī)學(xué)數(shù)據(jù),例如發(fā)表文獻(xiàn)、醫(yī)療指南、醫(yī)學(xué)教材、檢驗(yàn)數(shù)據(jù)、影像圖片、醫(yī)療發(fā)票、在線醫(yī)典百科、掃描報(bào)告圖像等[1-2]。這些數(shù)據(jù)以文本、表格、圖像等多模態(tài)形式存在,是進(jìn)行臨床決策支持、診療路徑解釋、智慧醫(yī)院建設(shè)的重要資源[3-4]。

第八屆中國健康信息處理會議(China Conference on Health Information Processing, CHIP 2022)是中國中文信息學(xué)會(Chinese Information Processing Society of China, CIPS)醫(yī)療健康與生物信息處理專業(yè)委員會開展的以“信息處理技術(shù)助力探索生命之奧秘、提高健康之質(zhì)量、提升醫(yī)療之水平”為主旨的年度會議。CHIP是中國健康信息處理領(lǐng)域的重要會議,是世界各地學(xué)術(shù)界、企業(yè)界和政府部門的研究人員和從業(yè)人員分享創(chuàng)意,進(jìn)一步推廣領(lǐng)域研究成果和經(jīng)驗(yàn)的重要平臺。中國健康信息處理會議自2018年以來每年都組織技術(shù)評測[5-8]。本次CHIP 2022技術(shù)評測圍繞疾病主題,探索信息數(shù)字化技術(shù)、基因關(guān)聯(lián)信息、癥狀體征檢查知識、診療決策樹構(gòu)建和診斷自動編碼等研究內(nèi)容,公布了5項(xiàng)任務(wù): “面向‘基因-疾病’的關(guān)聯(lián)語義挖掘”“醫(yī)療因果實(shí)體關(guān)系抽取”“醫(yī)療文本診療決策樹抽取”“光學(xué)字符識別(Optical Character Recognition, OCR)醫(yī)療清單發(fā)票”和“臨床診斷編碼”。

本文從醫(yī)療多模態(tài)信息抽取的角度梳理上述數(shù)據(jù)集,希望能為研究者提供一套測試技術(shù)、算法和系統(tǒng)的高質(zhì)量數(shù)據(jù)集,為中國健康信息處理相關(guān)研究提供參考。

2 醫(yī)療多模態(tài)信息抽取技術(shù)評測數(shù)據(jù)集介紹

2.1 面向“基因-疾病”的關(guān)聯(lián)語義挖掘數(shù)據(jù)集

2.1.1 數(shù)據(jù)集構(gòu)建情況 在海量科學(xué)文獻(xiàn)中,基因與疾病的關(guān)聯(lián)機(jī)理通過突變和各類生物分子對象及其觸發(fā)詞進(jìn)行描述,自然語言處理技術(shù)為自動挖掘這一隱性知識提供了可能,也為健康醫(yī)學(xué)信息的自動化處理提供了解決方案。為了從文獻(xiàn)中挖掘基因與疾病的關(guān)聯(lián)語義知識,研究者基于PubMed摘要文本構(gòu)建了活躍基因注釋語料庫(Active Gene Annotation Corpus, AGAC)[9]。該數(shù)據(jù)集注釋了8類觸發(fā)詞實(shí)體,涵蓋從分子水平到細(xì)胞水平的生物學(xué)現(xiàn)象和過程。實(shí)體類型包括5類生物概念實(shí)體(突變、相互作用、通路、分子生理活性、細(xì)胞生理活性)和3類調(diào)控概念實(shí)體(正調(diào)控、負(fù)調(diào)控、調(diào)控)。此外,AGAC還通過主事和致事兩個(gè)語義關(guān)系來描述主題和因果關(guān)系,從而呈現(xiàn)句子的語義信息。AGAC數(shù)據(jù)集主要包含3個(gè)特點(diǎn),分別為數(shù)據(jù)不平衡、選擇性注釋和潛在主題注釋?;谠摂?shù)據(jù)集,科研人員可以提取阿爾茨海默癥關(guān)鍵基因,研究抗癲癇藥物重定位,挖掘冠狀病毒病理知識。

2.1.2 子任務(wù)分析 在CHIP 2022評測中,任務(wù)1包括3個(gè)子任務(wù):觸發(fā)詞實(shí)體識別、語義角色識別、“基因-調(diào)控類型-疾病”三元組關(guān)系抽取。每個(gè)子任務(wù)的訓(xùn)練集包含250篇文獻(xiàn),測試集包含2 000篇文獻(xiàn)。子任務(wù)1是傳統(tǒng)意義下的命名實(shí)體識別任務(wù),用以識別12類與“基因-疾病”有關(guān)的分子對象及其觸發(fā)詞實(shí)體,包括疾病(disease)、基因(gene)、蛋白質(zhì)(protein)、酶(enzyme)、突變(variation)、分子活性(molecular physiological activity)、互作(interaction)、通路(pathway)、細(xì)胞活性(cell physiological activity)、調(diào)控(regulation)、正調(diào)控(positive regulation)、負(fù)調(diào)控(negative regulation)。子任務(wù)2是一個(gè)語義角色標(biāo)注任務(wù),語義角色包括ThemeOf和CauseOf。該子任務(wù)捕捉實(shí)體之間的語義依賴關(guān)系,用以構(gòu)建“基因-疾病”關(guān)聯(lián)。子任務(wù)3是一個(gè)三元組抽取任務(wù),針對“基因-疾病”的關(guān)聯(lián)機(jī)理調(diào)控類型進(jìn)行相關(guān)語義的抽取,可利用子任務(wù)1和子任務(wù)2所獲得的觸發(fā)詞和語義角色,挖掘其背后的深層語義。調(diào)控類型包含4種對突變基因的語義描述,即功能喪失、功能獲得、功能調(diào)節(jié)和功能的復(fù)合變化。

2.2 中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集

2.2.1 數(shù)據(jù)集應(yīng)用價(jià)值 現(xiàn)代醫(yī)療強(qiáng)調(diào)解釋性,醫(yī)生在診斷、治療和評估上都要以患者為中心,突出醫(yī)療的因果關(guān)系?;ヂ?lián)網(wǎng)搜索引擎和線上問診平臺中含有大量醫(yī)學(xué)問答知識和診療信息,通過文本挖掘技術(shù)和深度學(xué)習(xí)技術(shù),從中抽取醫(yī)療因果關(guān)系,構(gòu)建因果關(guān)系解釋網(wǎng)絡(luò)和醫(yī)療因果知識圖譜,可以提升診療結(jié)果的邏輯性和可解釋性,也能有效改善患者就醫(yī)體驗(yàn)。而目前國內(nèi)外尚無醫(yī)學(xué)因果解釋和推理方向的公開數(shù)據(jù)集。

2.2.2 數(shù)據(jù)集構(gòu)建情況 研究者構(gòu)建了首個(gè)中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集(Chinese Medical Causal Dataset, CMedCausal)。數(shù)據(jù)來源于線上問診和醫(yī)典百科,均為網(wǎng)上公開問診數(shù)據(jù),未涉及患者隱私信息。該數(shù)據(jù)集標(biāo)注了文本中出現(xiàn)的醫(yī)學(xué)概念片段和醫(yī)學(xué)概念片段之間的關(guān)系。其中,醫(yī)學(xué)概念片段即為臨床發(fā)現(xiàn),內(nèi)容限定在以疾病為中心的文本,也包括實(shí)驗(yàn)室檢驗(yàn)結(jié)果和檢查結(jié)果。數(shù)據(jù)集定義了3類關(guān)鍵的醫(yī)學(xué)因果解釋推理關(guān)系:因果關(guān)系、條件關(guān)系和上下位關(guān)系。數(shù)據(jù)集標(biāo)注人員包括1名醫(yī)學(xué)專家、1名人工智能算法專家和8名醫(yī)學(xué)專業(yè)學(xué)生,標(biāo)注工作通過阿里巴巴夸克內(nèi)部的標(biāo)注平臺完成。該數(shù)據(jù)集由9 153段醫(yī)學(xué)文本組成,總計(jì)79 244對實(shí)體關(guān)系。

2.3 醫(yī)療文本診療決策樹抽取數(shù)據(jù)集

2.3.1 數(shù)據(jù)集應(yīng)用價(jià)值 臨床決策支持系統(tǒng)旨在輔助臨床醫(yī)務(wù)人員更加高效地做出臨床診療。臨床診療可以看作是一個(gè)根據(jù)不同條件進(jìn)行判斷,然后做出不同決策的過程。這種臨床診療過程可以被建模為診療決策樹,診療決策樹是由條件節(jié)點(diǎn)和決策節(jié)點(diǎn)組成的樹型結(jié)構(gòu),條件節(jié)點(diǎn)表示需要做出的條件判斷,決策節(jié)點(diǎn)表示需要做出的診療決策。診療決策規(guī)則是指將給定條件與醫(yī)療決策聯(lián)系起來,幫助醫(yī)生、患者和其他利益相關(guān)者對特定臨床問題做出適當(dāng)?shù)墓芾?、選擇和決定。這些決策規(guī)則可以建模為診療決策樹。目前,診療決策樹的構(gòu)建往往依賴于醫(yī)學(xué)專家的人工標(biāo)注,這種方式耗時(shí)費(fèi)力,且新知識難以及時(shí)融入臨床決策支持系統(tǒng)[10]。通過智能化的信息抽取技術(shù)從龐大且快速積累的醫(yī)學(xué)文本中精確提取診療決策樹是一個(gè)可行的解決方案,但目前缺乏可用于模型構(gòu)建的公開可用數(shù)據(jù)集。

2.3.2 數(shù)據(jù)集構(gòu)建情況 針對上述問題,研究者構(gòu)建了醫(yī)療文本診療決策樹數(shù)據(jù)集(Medical Text to Medical Decision Tree Dataset, Text2DT),用于從醫(yī)療文本中抽取診療決策樹任務(wù)。Text2DT數(shù)據(jù)集來源于權(quán)威醫(yī)療機(jī)構(gòu)出版的臨床實(shí)踐指南和人民衛(wèi)生出版社出版的臨床醫(yī)學(xué)教科書。數(shù)據(jù)集標(biāo)注人員包括2名醫(yī)學(xué)專家和6名相關(guān)領(lǐng)域研究人員。Text2DT數(shù)據(jù)集包含400例文本-決策樹對。三元組是診療決策樹的主要組成部分,共有6種關(guān)系,即臨床表現(xiàn)、治療藥物、治療方案、用法用量、基本情況、禁用藥物。診療決策樹的深度從2層到5層。一般而言,在三元組抽取完成后,需要進(jìn)一步生成樹結(jié)構(gòu),從而將信息串聯(lián)形成一個(gè)完整的決策流程。Text2DT的任務(wù)目標(biāo)是從給定的醫(yī)療文本抽取出診療決策樹。診療決策樹表示簡化的決策過程,即根據(jù)條件判斷的不同結(jié)果做出下一個(gè)條件判斷或決策。

2.4 醫(yī)療材料OCR要素提取數(shù)據(jù)集

2.4.1 數(shù)據(jù)集應(yīng)用價(jià)值 在醫(yī)療和保險(xiǎn)行業(yè)存在大量紙質(zhì)文檔形式的醫(yī)療數(shù)據(jù),如就診病歷、繳費(fèi)發(fā)票等。這些數(shù)據(jù)中含有豐富的信息,具有很高的商業(yè)和科研價(jià)值。目前這些數(shù)據(jù)通過業(yè)務(wù)人員手動錄入的方式進(jìn)行登記。光學(xué)字符識別和自然語言處理等人工智能技術(shù)的發(fā)展及其在生產(chǎn)生活中各種相關(guān)應(yīng)用的普及,為醫(yī)療紙質(zhì)材料的信息自動化抽取提供了新的思路。這種智能化的解決方案一般包括兩個(gè)步驟,首先通過計(jì)算機(jī)視覺領(lǐng)域的目標(biāo)檢測和目標(biāo)識別等算法將紙質(zhì)掃描材料進(jìn)行文本化;然后通過自然語言處理領(lǐng)域的信息抽取算法將這些文本信息結(jié)構(gòu)化。此外,與傳統(tǒng)方法不同,這些基于人工智能技術(shù)的新穎解決方案需要充足的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,而缺乏高質(zhì)量的標(biāo)注數(shù)據(jù)是相關(guān)研究發(fā)展的最大障礙。

2.4.2 數(shù)據(jù)集情況介紹 醫(yī)療材料OCR要素提取數(shù)據(jù)集(Medical Material OCR Feature Extraction Dataset, MedOCR)是當(dāng)前最新的數(shù)據(jù)集,共包括1 700張醫(yī)療材料圖片。其中出院小結(jié)340張、購藥發(fā)票340張、門診發(fā)票340張、住院發(fā)票680張。數(shù)據(jù)集的原始數(shù)據(jù)來源于互聯(lián)網(wǎng),并經(jīng)過了嚴(yán)格的人工審核,為每類數(shù)據(jù)都定義了特定提取屬性。出院小結(jié)包含8個(gè)屬性,購藥發(fā)票包含8個(gè)屬性,門診發(fā)票包含34個(gè)屬性,住院發(fā)票包含37個(gè)屬性。MedOCR數(shù)據(jù)集采用準(zhǔn)確率作為評測指標(biāo),只有屬性的預(yù)測值和標(biāo)注值完全一致才判定為識別正確。這些來自于真實(shí)生活場景中的醫(yī)療材料圖片質(zhì)量不一、顏色清晰度各異,且含有各種干擾信息,對當(dāng)前大多數(shù)模型都具有挑戰(zhàn)性。該數(shù)據(jù)集樣本量充足、類型多樣,有望推動醫(yī)療信息處理領(lǐng)域針對圖片文檔進(jìn)行信息抽取研究的發(fā)展。

2.5 臨床診斷編碼數(shù)據(jù)集

2.5.1 疾病分類與手術(shù)操作分類編碼發(fā)展情況 疾病分類與手術(shù)操作分類編碼是對患者疾病診斷和治療信息的加工過程,是病案信息管理的重要環(huán)節(jié)。病案編碼已成為醫(yī)院科學(xué)化、信息化管理的重要依據(jù)之一,在評估醫(yī)療質(zhì)量與醫(yī)療效率、設(shè)計(jì)臨床路徑方案、重點(diǎn)學(xué)科評價(jià)、醫(yī)院評審、疾病診斷分級、傳染病報(bào)告、醫(yī)療付款、合理用藥監(jiān)測等方面的應(yīng)用越來越廣泛、越來越深入。在諸多分類方案中,國際上最有影響力且最為普及的是國際疾病分類(International Classification of Diseases,ICD)。ICD是世界衛(wèi)生組織制定的國際統(tǒng)一的疾病分類方法,是目前國際上通用的疾病分類方法。中國也推出了《疾病分類與代碼國家臨床版2.0》和《手術(shù)操作分類代碼國家臨床版2.0》,并在部分醫(yī)院中得到了應(yīng)用。

2.5.2 數(shù)據(jù)集構(gòu)建情況 在CHIP 2022評測中發(fā)布的臨床診斷編碼任務(wù)數(shù)據(jù)集,主要目標(biāo)是針對中文電子病歷進(jìn)行診斷編碼。給定一次就診的相關(guān)診斷信息(包括入院診斷、術(shù)前診斷、術(shù)后診斷、出院診斷),以及手術(shù)名稱、藥品名稱、醫(yī)囑名稱,要求給出其對應(yīng)的國家臨床版2.0標(biāo)準(zhǔn)詞。該數(shù)據(jù)集中所有就診數(shù)據(jù)均來自于真實(shí)醫(yī)療數(shù)據(jù),并以《疾病分類與代碼國家臨床版2.0》詞表為標(biāo)準(zhǔn)進(jìn)行標(biāo)注。其中訓(xùn)練數(shù)據(jù)2 700條,測試數(shù)據(jù)337條。數(shù)據(jù)集以準(zhǔn)確率作為最終評估指標(biāo)。

3 結(jié)語

醫(yī)療信息化的發(fā)展催生了海量且類型多樣的多模態(tài)數(shù)據(jù)。本文介紹了中國健康信息處理會議評測任務(wù)發(fā)布的5項(xiàng)數(shù)據(jù)集,包括基于“基因-疾病”的關(guān)聯(lián)語義挖掘數(shù)據(jù)集、中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集、醫(yī)療文本診療決策樹抽取數(shù)據(jù)集、醫(yī)療材料OCR要素提取數(shù)據(jù)集、臨床診斷編碼數(shù)據(jù)集。這些數(shù)據(jù)集有望為各種技術(shù)、算法以及系統(tǒng)的評估和實(shí)施提供有力的支撐和參考。未來將繼續(xù)補(bǔ)充類型更

加豐富的數(shù)據(jù),如影像數(shù)據(jù)、組學(xué)數(shù)據(jù)等,使醫(yī)療健康多模態(tài)大數(shù)據(jù)在真實(shí)世界研究中發(fā)揮應(yīng)用價(jià)值。

猜你喜歡
決策樹語義醫(yī)療
語言與語義
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
京張醫(yī)療聯(lián)合的成功之路
我們怎樣理解醫(yī)療創(chuàng)新
基于決策樹的出租車乘客出行目的識別
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
醫(yī)療扶貧至關(guān)重要
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
天全县| 吉林市| 庆城县| 宝丰县| 长汀县| 长兴县| 清徐县| 渑池县| 曲松县| 曲周县| 吉水县| 铜梁县| 都兰县| 应用必备| 兴宁市| 甘肃省| 沙河市| 微博| 兰坪| 酉阳| 晴隆县| 八宿县| 日喀则市| 岚皋县| 吉木乃县| 乌兰县| 平果县| 保定市| 舞钢市| 五家渠市| 通山县| 昭苏县| 温州市| 牟定县| 阿拉善盟| 辰溪县| 疏勒县| 抚顺县| 武乡县| 尚志市| 龙口市|