国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文醫(yī)學(xué)知識(shí)圖譜研究及應(yīng)用進(jìn)展

2022-10-16 05:50范媛媛李忠民
計(jì)算機(jī)與生活 2022年10期
關(guān)鍵詞:醫(yī)學(xué)知識(shí)本體圖譜

范媛媛,李忠民

中南大學(xué) 生命科學(xué)學(xué)院,長(zhǎng)沙410013

受語義網(wǎng)(semantic web)概念的啟發(fā),Google公司于2012 年提出了知識(shí)圖譜(knowledge graph,KG),目的是為了提高搜索引擎的效率和精確度,提供更好的搜索質(zhì)量和用戶體驗(yàn)。隨后,這一概念得到了傳播并廣泛應(yīng)用于電商、金融、教育和醫(yī)療等行業(yè)中,推動(dòng)人工智能從感知智能向認(rèn)知智能跨越。知識(shí)圖譜是一種用圖模型來描述知識(shí)和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法,它吸收了本體和語義網(wǎng)在知識(shí)組織和表達(dá)方面的理念,以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,使得知識(shí)更易于在計(jì)算機(jī)之間和計(jì)算機(jī)與人之間交換、流通和加工。目前,國內(nèi)外已經(jīng)涌現(xiàn)出一大批通用知識(shí)圖譜,如DBpedia、Freebase、Yago、CN-DBpedia、Zhishi.me以及OpenKG等都很有代表性。由于通用知識(shí)圖譜具有規(guī)模大、領(lǐng)域?qū)?、知識(shí)廣、技術(shù)成熟等特點(diǎn),在綜合性搜索引擎和常識(shí)性智能問答方面已經(jīng)得到了廣泛應(yīng)用。因此,研究人員將目光逐漸聚焦到領(lǐng)域知識(shí)圖譜的構(gòu)建及應(yīng)用上。

在衛(wèi)生信息化進(jìn)程不斷深入、醫(yī)學(xué)數(shù)據(jù)規(guī)模指數(shù)增長(zhǎng)的背景下,知識(shí)圖譜作為機(jī)器認(rèn)識(shí)世界的基石,無疑會(huì)在醫(yī)學(xué)人工智能的實(shí)現(xiàn)上發(fā)揮重要的作用。早期與醫(yī)學(xué)知識(shí)圖譜相關(guān)的研究成果已有許多,國外有一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS)、醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(systematized nomenclature of medicine-clinical terms,SNOMED-CT)和生物醫(yī)學(xué)領(lǐng)域語義數(shù)據(jù)集成平臺(tái)(linked life data)等,國內(nèi)則有中文一體化醫(yī)學(xué)語言系統(tǒng)(Chinese unified medical language system,CUMLS)、中醫(yī)藥學(xué)語言系統(tǒng)(traditional Chinese medicine language system,TCMLS)等。有關(guān)醫(yī)學(xué)知識(shí)圖譜近期的研究成果如何,筆者對(duì)近五年的綜述文獻(xiàn)進(jìn)行了梳理,發(fā)現(xiàn)國外學(xué)者比較關(guān)注知識(shí)圖譜構(gòu)建技術(shù)的發(fā)展,傾向于將基因組學(xué)的內(nèi)容也納入醫(yī)學(xué)知識(shí)圖譜中,側(cè)重知識(shí)圖譜在用藥推薦、新藥發(fā)現(xiàn)等方面的應(yīng)用。國內(nèi)學(xué)者通常從知識(shí)圖譜架構(gòu)、技術(shù)及在醫(yī)療服務(wù)中的應(yīng)用場(chǎng)景等方面展開綜述,也有學(xué)者用文獻(xiàn)計(jì)量學(xué)的方法探討了中文醫(yī)學(xué)知識(shí)圖譜研究熱點(diǎn)的變化。縱觀現(xiàn)有的綜述文獻(xiàn),少有學(xué)者關(guān)注通用技術(shù)在中文醫(yī)學(xué)知識(shí)圖譜構(gòu)建方面的研究進(jìn)展,也少有學(xué)者對(duì)中文醫(yī)學(xué)知識(shí)圖譜已有的研究和應(yīng)用成果進(jìn)行系統(tǒng)梳理。因此,本研究將從以下三方面對(duì)中文醫(yī)學(xué)知識(shí)圖譜的研究現(xiàn)狀進(jìn)行綜述:(1)對(duì)醫(yī)學(xué)知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)進(jìn)行梳理,發(fā)現(xiàn)新的技術(shù)進(jìn)展以及難點(diǎn);(2)從醫(yī)學(xué)本體構(gòu)建、全科醫(yī)學(xué)知識(shí)圖譜構(gòu)建和單病種醫(yī)學(xué)知識(shí)圖譜構(gòu)建三方面對(duì)中文醫(yī)學(xué)知識(shí)圖譜已有的研究成果進(jìn)行總結(jié),以便學(xué)者尋找新的研究方向;(3)對(duì)中文醫(yī)學(xué)知識(shí)圖譜已有的應(yīng)用成果進(jìn)行梳理,并探討未來新的應(yīng)用場(chǎng)景。

在CNKI、PubMed、WOS、Elsevier 以及谷歌學(xué)術(shù)等數(shù)據(jù)庫中,采用“知識(shí)圖譜(knowledge graph)”“知識(shí)表示(knowledge representation)”“知識(shí)抽?。╧nowledge extraction)”“知識(shí)融合(knowledge fusion)”“知識(shí)推理(knowledge reasoning)”與“醫(yī)學(xué)(medicine)”“醫(yī)療(medical)”“疾?。╠isease)”進(jìn)行組配檢索,文獻(xiàn)類型選擇非綜述,時(shí)間跨度限近五年,同時(shí)利用追溯法對(duì)重要文獻(xiàn)的引文進(jìn)行擴(kuò)展檢索,共檢索出472篇文獻(xiàn)。對(duì)外文文獻(xiàn)進(jìn)行初步的整理和歸納后,發(fā)現(xiàn)除英文之外還有針對(duì)印尼語、阿拉伯語、瑞典語和西班牙語等語種的醫(yī)學(xué)命名實(shí)體識(shí)別研究,但未涉及醫(yī)學(xué)知識(shí)圖譜構(gòu)建及應(yīng)用。因此本文僅保留代表知識(shí)圖譜技術(shù)進(jìn)展的經(jīng)典文獻(xiàn)以及相關(guān)度較高的醫(yī)學(xué)知識(shí)圖譜中英文文獻(xiàn)進(jìn)行綜述。

1 知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)

知識(shí)圖譜的構(gòu)建指通過從大量的結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等元素繪制成圖譜,并選擇合理高效的方式進(jìn)行存儲(chǔ)。根據(jù)知識(shí)圖譜的邏輯結(jié)構(gòu)可將知識(shí)圖譜劃分為兩個(gè)層次:模式層和數(shù)據(jù)層。模式層存儲(chǔ)的是用于規(guī)范實(shí)體、屬性和關(guān)系,經(jīng)過提煉的知識(shí),通常借助本體庫來管理,指導(dǎo)數(shù)據(jù)層的構(gòu)建;數(shù)據(jù)層存儲(chǔ)的則是以三元組為基本表達(dá)單元的一系列具體事實(shí)。正是由于這一邏輯結(jié)構(gòu),知識(shí)圖譜衍生出了自頂向下和自底向上兩種構(gòu)建方式,前者常用于領(lǐng)域知識(shí)圖譜的構(gòu)建,后者常用于通用知識(shí)圖譜的構(gòu)建。

無論何種知識(shí)圖譜構(gòu)建方式,都涉及知識(shí)表示、知識(shí)抽取、知識(shí)融合以及知識(shí)推理這些關(guān)鍵技術(shù),即需要首先確定知識(shí)表示模型,然后對(duì)不同來源的數(shù)據(jù)選擇不同的手段進(jìn)行知識(shí)抽取,利用知識(shí)融合和知識(shí)推理技術(shù)提升知識(shí)圖譜的質(zhì)量,最后根據(jù)具體的應(yīng)用場(chǎng)景設(shè)計(jì)不同的知識(shí)訪問與知識(shí)呈現(xiàn)方式。具體流程如圖1 所示。本文從知識(shí)圖譜的全生命周期出發(fā),對(duì)知識(shí)圖譜關(guān)鍵技術(shù)的研究進(jìn)行分析。

1.1 知識(shí)表示

知識(shí)表示是對(duì)現(xiàn)實(shí)世界的一種抽象表達(dá),知識(shí)必須經(jīng)過合理的表示才能被計(jì)算機(jī)處理。從圖1可以看到,知識(shí)表示主要有符號(hào)表示和向量表示兩種形式。

圖1 知識(shí)圖譜構(gòu)建流程Fig.1 Construction process of knowledge graph

以符號(hào)邏輯為基礎(chǔ)的知識(shí)表示方法主要包括產(chǎn)生式表示法、框架表示法、語義網(wǎng)絡(luò)表示法等,由于這幾種方法都缺少嚴(yán)格的語義理論模型和形式化的語義定義,Baader等提出了描述邏輯語言以提升知識(shí)表示的能力,進(jìn)而滿足復(fù)雜程度更高的推理需要。在Tim Berners-Lee提出語義網(wǎng)概念后,業(yè)界需要一套標(biāo)準(zhǔn)語言來描述Web的各種信息。W3C就以描述邏輯為基礎(chǔ)提出了資源描述框架(resource description framework,RDF)、RDF 模式(resource description framework schema,RDFS)和網(wǎng)絡(luò)本體語言(Web ontology language,OWL)來規(guī)范互聯(lián)網(wǎng)中的知識(shí)表示,使信息可以被計(jì)算機(jī)應(yīng)用程序讀取并理解。

由于符號(hào)化的表示無法滿足計(jì)算的需要,向量化表示很快成為了知識(shí)表示的主流形式,即將語義信息表示為稠密、低維、實(shí)值向量,通過計(jì)算習(xí)得自然語言中的復(fù)雜語義模式,以解決知識(shí)圖譜面臨的計(jì)算效率低和結(jié)構(gòu)稀疏等問題。自Word2vec問世以來,以深度學(xué)習(xí)為代表的知識(shí)表示學(xué)習(xí)(knowledge graph representation learning,KRL)研究獲得廣泛關(guān)注。在Word2Vec 的啟發(fā)下,Bordes 等提出了翻譯模型TransE,許多學(xué)者在這一經(jīng)典模型上進(jìn)行研究和改進(jìn),先后提出了TransH、TransD、TransR和TransG等基于復(fù)雜關(guān)系建模的知識(shí)表示模型。國外有學(xué)者對(duì)不同的知識(shí)表示模型在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用進(jìn)行了研究,在關(guān)系抽取和鏈接預(yù)測(cè)任務(wù)中,利用TransE 進(jìn)行嵌入表示的效果都優(yōu)于其他常用的知識(shí)表示模型。隨著知識(shí)表示和知識(shí)外延的擴(kuò)充,越來越多的知識(shí)表示模型不斷被提出,如Deep-Walk、Node2Vec以及SDNE(structural deep network embedding)等。

針對(duì)知識(shí)表示學(xué)習(xí)在中文醫(yī)學(xué)數(shù)據(jù)上的應(yīng)用,國內(nèi)學(xué)者也進(jìn)行了研究。Zhao等在其研究中使用TransE 模型對(duì)中文電子病歷中的醫(yī)學(xué)實(shí)體進(jìn)行分布式表示,實(shí)驗(yàn)結(jié)果表明向量表示確實(shí)有利于挖掘醫(yī)學(xué)知識(shí)之間的關(guān)系,并有利于推理計(jì)算。Li等還基于TransH 模型提出了一種將知識(shí)三元組的不確定性引入到翻譯學(xué)習(xí)算法中的增強(qiáng)模型PrTransH,并利用該模型學(xué)習(xí)中文疾病實(shí)體的嵌入向量,對(duì)從電子病歷中抽取到的疾病實(shí)體進(jìn)行聚類,完成了實(shí)體排序任務(wù),實(shí)驗(yàn)證明該模型在中文表示學(xué)習(xí)方面優(yōu)于TransH。沈思等以中文腫瘤期刊全文為研究對(duì)象,用主題詞嵌入表示模型(topic word embedding,TWE)進(jìn)行詞向量和主題向量的詞嵌入表示,然后基于孿生神經(jīng)網(wǎng)絡(luò)模型進(jìn)行相似度計(jì)算,實(shí)驗(yàn)結(jié)果表明嵌入主題層面的語義信息有利于挖掘中文醫(yī)學(xué)文本中的關(guān)聯(lián)知識(shí)。

與國外研究相比,中文醫(yī)學(xué)知識(shí)表示的研究大多采用單一模型,缺乏對(duì)不同模型的對(duì)比研究,也未見針對(duì)中文醫(yī)學(xué)知識(shí)表示的新模型提出。但現(xiàn)有的研究也證實(shí)了知識(shí)表示學(xué)習(xí)能有效提升計(jì)算機(jī)對(duì)中文醫(yī)學(xué)文本的處理能力,未來仍值得深入研究。

1.2 知識(shí)抽取

知識(shí)抽取是實(shí)現(xiàn)自動(dòng)化構(gòu)建知識(shí)圖譜的重要技術(shù),其目的在于從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識(shí)提取并存入知識(shí)圖譜中。由圖1 可以看出,知識(shí)抽取包括了實(shí)體抽取、關(guān)系抽取和屬性抽取,其中實(shí)體抽取和關(guān)系抽取最為關(guān)鍵。

實(shí)體抽取又稱命名實(shí)體識(shí)別,常用的方法有基于詞典及規(guī)則的方法、基于統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)的方法?;谠~典及規(guī)則的方法需要事先編制詞典或制定規(guī)則,雖精確度高,但召回率低?;诮y(tǒng)計(jì)模型的方法則過分依賴人工標(biāo)注語料的質(zhì)量。由于缺乏中文標(biāo)注語料,現(xiàn)有研究多在國外的公開語料GENIA 和BioCreative 大賽的語料庫上進(jìn)行?;谏疃葘W(xué)習(xí)的方法直接以文本中的詞向量作為輸入,可以有效地減少模型對(duì)人工標(biāo)注數(shù)據(jù)的依賴,目前在命名實(shí)體識(shí)別方面的研究較多。

由于上述三種方法均存在一定的局限性,就有學(xué)者對(duì)混合實(shí)體抽取方法進(jìn)行了探索。栗偉等提出了機(jī)器學(xué)習(xí)與規(guī)則結(jié)合的方法對(duì)醫(yī)學(xué)實(shí)體進(jìn)行抽取,以中文電子病歷為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),取得了不錯(cuò)的結(jié)果。2016 年,Lample等開創(chuàng)性地提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)與條件隨機(jī)場(chǎng)(conditional random fields,CRF)模型相結(jié)合的實(shí)體抽取方法,并在實(shí)驗(yàn)中取得了與傳統(tǒng)統(tǒng)計(jì)方法最好結(jié)果相近的結(jié)果,很快這種模型就成為了學(xué)界研究的熱點(diǎn)。國內(nèi)許多學(xué)者在此模型的基礎(chǔ)上結(jié)合不同的詞向量預(yù)訓(xùn)練模型進(jìn)行中文醫(yī)學(xué)實(shí)體識(shí)別工作都取得了較好的結(jié)果。在不同的預(yù)訓(xùn)練模型中,基于Transformer 的雙向編碼器表示模型(bidirectional encoder representations from transformers,BERT)能很好地處理中文醫(yī)學(xué)文本中常見的一詞多義問題,因此BERT-BiLSTM-CRF 模型在中文醫(yī)學(xué)實(shí)體識(shí)別中得到了更廣泛的應(yīng)用。當(dāng)學(xué)界聚焦于基于深度學(xué)習(xí)的實(shí)體抽取時(shí),Ramachandran等提出了基于詞典和深度學(xué)習(xí)混合的命名實(shí)體識(shí)別方法。他們?cè)谘芯恐袠?gòu)建了醫(yī)學(xué)詞典,依據(jù)詞典對(duì)文本進(jìn)行標(biāo)注,用標(biāo)注數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型,再用詞典驗(yàn)證模型識(shí)別的結(jié)果。利用該混合方法進(jìn)行生物醫(yī)學(xué)文獻(xiàn)命名實(shí)體識(shí)別,準(zhǔn)確率比基線模型提升了約0.15。

關(guān)系抽取一般是在實(shí)體抽取完成之后,通過從文本中抽取實(shí)體之間的關(guān)聯(lián)關(guān)系,將識(shí)別出的一系列離散實(shí)體聯(lián)系起來。早期的關(guān)系抽取方法大多基于模板匹配實(shí)現(xiàn),由領(lǐng)域?qū)<沂止ぞ帉懩0?,從文本中匹配具有特定關(guān)系的實(shí)體。但由于人工構(gòu)建的模板數(shù)量有限,覆蓋范圍較小,在系統(tǒng)中召回率普遍不高,因此學(xué)界開始嘗試采用基于監(jiān)督學(xué)習(xí)的關(guān)系抽取方法,包括最大熵方法、核函數(shù)方法和特征工程方法等,這些方法本質(zhì)上還是依賴標(biāo)注數(shù)據(jù)對(duì)統(tǒng)計(jì)模型進(jìn)行訓(xùn)練從而實(shí)現(xiàn)關(guān)系抽取。為了能進(jìn)一步減少模型訓(xùn)練對(duì)標(biāo)注數(shù)據(jù)的依賴,基于弱監(jiān)督學(xué)習(xí)的關(guān)系抽取方法也逐漸成為了學(xué)界的一大研究熱點(diǎn)。目前比較有代表性的模型有Ji等提出的基于句子級(jí)注意力和實(shí)體描述的神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型(attention piecewise convolutional neural networks,APCNNs)以及Feng等基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提出的強(qiáng)化學(xué)習(xí)關(guān)系分類模型(convolutional neural networks reinforcement learning,CNN-RL),還有Carlson等提出的一種基于Bootstrap 算法的半監(jiān)督學(xué)習(xí)方法等。

目前中文醫(yī)學(xué)實(shí)體抽取的研究常用基于深度學(xué)習(xí)的方法。曹春萍等使用BioCreative V 大賽的語料庫與數(shù)據(jù)庫進(jìn)行實(shí)體關(guān)系抽取,針對(duì)長(zhǎng)文本中存在核心實(shí)體關(guān)系不精確的問題,提出了雙向簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)與帶注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型,實(shí)驗(yàn)驗(yàn)證該模型在化學(xué)物質(zhì)與疾病的關(guān)系抽取中具有良好表現(xiàn)。丁澤源等利用公開的英文生物醫(yī)學(xué)標(biāo)注語料,結(jié)合翻譯技術(shù)和人工標(biāo)注方法構(gòu)建了中文生物醫(yī)學(xué)實(shí)體關(guān)系語料,然后使用結(jié)合注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)抽取實(shí)體間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,該方法可以準(zhǔn)確地從中文文本中抽取生物醫(yī)學(xué)實(shí)體及實(shí)體間關(guān)系。此外,高峰等在BiGRU-2ATT 模型之上融合了關(guān)系發(fā)現(xiàn)詞算法,將關(guān)系發(fā)現(xiàn)詞作為模型的額外特征輸入對(duì)診療關(guān)系進(jìn)行抽取,有效提升了模型性能。武小平等根據(jù)中文語義中主要以詞而不是字為基本單位的特點(diǎn),提出了改進(jìn)的基于全詞掩膜的BERT-CNN 模型。這兩項(xiàng)實(shí)驗(yàn)均提升了中文語料關(guān)系抽取的性能,但所用數(shù)據(jù)集均為學(xué)者自主構(gòu)建,難免影響模型的可移植性。

1.3 知識(shí)融合

知識(shí)圖譜中的數(shù)據(jù)由于來源不同常存在異構(gòu)現(xiàn)象,導(dǎo)致了知識(shí)質(zhì)量的參差不齊。知識(shí)融合就是通過映射和匹配使不同來源的知識(shí)在同一框架規(guī)范下進(jìn)行整合、消歧和加工。知識(shí)融合對(duì)提升知識(shí)圖譜的質(zhì)量、知識(shí)復(fù)用以及實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源之間的語義互通都具有重要意義。知識(shí)融合的主要任務(wù)包括實(shí)體對(duì)齊和實(shí)體消歧。

知識(shí)在不同的數(shù)據(jù)源中常出現(xiàn)多元共指現(xiàn)象,實(shí)體對(duì)齊就是用于解決異構(gòu)數(shù)據(jù)中的實(shí)體沖突、指向不明等不一致問題。傳統(tǒng)的實(shí)體對(duì)齊方法主要依賴眾包技術(shù)或者利用維基百科的信息框等結(jié)構(gòu)良好的模式進(jìn)行。由于人工成本較高且難以大規(guī)模應(yīng)用,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的實(shí)體對(duì)齊方法的研究很快就在學(xué)界興起。決策樹算法很早就被用來解決實(shí)體對(duì)齊問題,近年仍有學(xué)者在此算法上結(jié)合知識(shí)嵌入進(jìn)行深入探索。深度學(xué)習(xí)方面,國內(nèi)學(xué)者李文娜等利用TransE 模型表示實(shí)體的結(jié)構(gòu)信息,利用BERT 模型表示實(shí)體的語義信息,并據(jù)此設(shè)計(jì)了聯(lián)合語義表示模型完成了不同知識(shí)庫之間的實(shí)體對(duì)齊任務(wù)。Zhang等提出了一種基于語義和結(jié)構(gòu)嵌入的相關(guān)性預(yù)測(cè)方法(semantic&structure embeddings-based relevancy prediction,S2ERP),該方法在使用BERT 模型獲取實(shí)體語義嵌入的同時(shí)使用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)獲取術(shù)語庫中實(shí)體同義詞和下位詞的結(jié)構(gòu)嵌入,從而完成電子病歷與知識(shí)庫之間的實(shí)體對(duì)齊。

實(shí)體對(duì)齊解決了同義異名的問題,而實(shí)體消歧則用來解決不同知識(shí)庫之間實(shí)體的同名異義問題。實(shí)體消歧的核心思想就是聚類,關(guān)鍵在于如何定義實(shí)體對(duì)象與指稱項(xiàng)之間的相似度。較為常用的一種方法為詞袋模型,將當(dāng)前實(shí)體指稱項(xiàng)周邊的詞構(gòu)建成特征向量,利用余弦相似度進(jìn)行比較從而完成聚類。然而這種方法沒有考慮上下文的語義信息,在性能上就會(huì)有一定的損失,而后就有學(xué)者提出了基于語義上下文相似度的實(shí)體消歧方法?,F(xiàn)有的研究大多依賴外部知識(shí)庫進(jìn)行實(shí)體消歧,如Han 和Zhao選擇以維基百科作為背景知識(shí),將各詞條之間的關(guān)聯(lián)關(guān)系融合進(jìn)了實(shí)體指稱項(xiàng)的相似度計(jì)算中,提升了實(shí)體消歧的效果。王靜等基于DBpedia 知識(shí)庫生成候選實(shí)體指稱,再利用概率模型計(jì)算實(shí)體上下文和實(shí)體指稱上下文之間的相似度,選取相似度最大的實(shí)體作為目標(biāo)實(shí)體,完成生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)中的實(shí)體消歧并在實(shí)驗(yàn)中取得了83%的準(zhǔn)確率。為了減少實(shí)體消歧對(duì)外部資源的依賴,Duque等開發(fā)了一個(gè)實(shí)體消歧系統(tǒng),先以PubMed 上下載的文獻(xiàn)摘要為數(shù)據(jù)源,采用無監(jiān)督的方法自動(dòng)構(gòu)建知識(shí)圖譜,然后使用PageRank 算法進(jìn)行詞義消歧。在深度學(xué)習(xí)技術(shù)方面,Vretinaris等對(duì)圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)模型進(jìn)行了改進(jìn),將來自醫(yī)學(xué)知識(shí)庫的領(lǐng)域知識(shí)引入到查詢圖中,并在負(fù)采樣過程引入了生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN),以避免梯度消失的問題,從而獲得更好的性能,有效解決了醫(yī)學(xué)領(lǐng)域的實(shí)體消歧問題。

知識(shí)融合對(duì)醫(yī)學(xué)知識(shí)圖譜質(zhì)量的提升具有重要意義,然而目前中文醫(yī)學(xué)知識(shí)融合的研究相對(duì)較少,高效且可擴(kuò)展性強(qiáng)的中文醫(yī)學(xué)知識(shí)融合算法仍有待深入研究。

1.4 知識(shí)推理

知識(shí)推理指通過計(jì)算從圖譜中已有的實(shí)體關(guān)系中挖掘出隱含信息。知識(shí)圖譜也正是由于具備可推理性而廣泛應(yīng)用于不同領(lǐng)域的具體業(yè)務(wù)中。傳統(tǒng)的知識(shí)推理方法有基于描述邏輯推理、基于規(guī)則推理與基于案例推理等。Bousquet等使用DAML(DARPA agent markup language)+OIL(ontology inference layer)描述邏輯語言對(duì)監(jiān)管活動(dòng)醫(yī)學(xué)詞典(medical dictionary for regulatory activities,MedDRA)執(zhí)行術(shù)語推理來改進(jìn)藥物警戒系統(tǒng)中的信號(hào)檢測(cè)。Chen等采用基于規(guī)則推理的方法開發(fā)了糖尿病診斷系統(tǒng)以提供用藥建議。由于案例推理與醫(yī)療診斷具有極高的相似性,符合醫(yī)學(xué)專家求解新問題的思維過程,在醫(yī)學(xué)領(lǐng)域的應(yīng)用更為廣泛,國內(nèi)相關(guān)研究也較多。沈亞誠和舒忠梅提出了患者病歷的多元式表示法,并結(jié)合歸納索引法與最近鄰法構(gòu)建了基于病歷的案例推理系統(tǒng)。Ping等提出了基于多重測(cè)量值的案例推理方法(multiple measurements case-based reasoning,MMCBR)來建立肝癌復(fù)發(fā)預(yù)測(cè)模型,該模型綜合患者在一定時(shí)間序列的多個(gè)測(cè)量指標(biāo)來進(jìn)行案例匹配,實(shí)驗(yàn)表明模型性能優(yōu)于單測(cè)量值的案例推理。陳延雪等以醫(yī)療領(lǐng)域的突發(fā)事件為主體,結(jié)合基于規(guī)則和基于案例的推理方法構(gòu)建了醫(yī)療應(yīng)急響應(yīng)決策支持系統(tǒng)。

隨著知識(shí)數(shù)量的激增以及復(fù)雜程度的不斷加深,傳統(tǒng)知識(shí)推理方法表現(xiàn)出了學(xué)習(xí)能力不足、準(zhǔn)確率較低等缺陷,因而基于神經(jīng)網(wǎng)絡(luò)的推理和基于圖的推理很快引起學(xué)界的關(guān)注。英文醫(yī)學(xué)知識(shí)推理在這方面已有一定的研究積累,相關(guān)工作包括利用圖神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)功能,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行藥物組合預(yù)測(cè),判斷患者當(dāng)前用藥的合理性等。此外,Woensel等研究了如何基于知識(shí)圖譜推理出電子病歷中缺失的字段。中文醫(yī)學(xué)知識(shí)推理方面較有代表性的研究有陳德華等將臨床數(shù)據(jù)的時(shí)序特征融入到知識(shí)推理中,通過構(gòu)建基于LSTM 的序列增量學(xué)習(xí)層,以端到端的方式提取三元組時(shí)序特征,實(shí)現(xiàn)了對(duì)糖尿病時(shí)序知識(shí)圖譜的鏈接預(yù)測(cè),為臨床決策提供更具價(jià)值的參考。Gong等提出了一種安全藥物推薦框架,將藥物推薦分解為一個(gè)考慮臨床診斷和藥物不良反應(yīng)的鏈接預(yù)測(cè)過程,為患者提供最佳的藥物推薦。利用深度學(xué)習(xí)技術(shù)對(duì)知識(shí)圖譜進(jìn)行推理計(jì)算有利于對(duì)知識(shí)進(jìn)行挖掘,以提升知識(shí)的利用價(jià)值,未來需對(duì)深度學(xué)習(xí)在中文醫(yī)學(xué)知識(shí)推理方面的應(yīng)用進(jìn)行深入探索。

通過對(duì)知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)進(jìn)行梳理,可以發(fā)現(xiàn)近年來深度學(xué)習(xí)方法在醫(yī)學(xué)知識(shí)圖譜構(gòu)建中的使用得到了學(xué)者的廣泛研究,其中知識(shí)表示和知識(shí)抽取方面的相關(guān)研究較多,而知識(shí)融合和知識(shí)推理方面的研究則較為欠缺。就中文醫(yī)學(xué)知識(shí)圖譜而言,突出的問題在于公開的中文醫(yī)學(xué)標(biāo)注語料較少,許多學(xué)者在研究中仍使用英文數(shù)據(jù)集或自行構(gòu)建數(shù)據(jù)集,這會(huì)因標(biāo)注數(shù)據(jù)的差異影響技術(shù)的泛化,阻礙技術(shù)的深入研究。此外,隨著客觀世界知識(shí)量的不斷累積以及知識(shí)圖譜規(guī)模的不斷擴(kuò)大,實(shí)體間的關(guān)系也逐漸趨于復(fù)雜,如何提升深度學(xué)習(xí)模型的算力以及精確度仍是醫(yī)學(xué)知識(shí)圖譜走向應(yīng)用的一大挑戰(zhàn),因此深度學(xué)習(xí)在醫(yī)學(xué)知識(shí)融合與推理方面的研究潛力還有待挖掘。

2 醫(yī)學(xué)知識(shí)圖譜構(gòu)建

通用知識(shí)圖譜知識(shí)覆蓋范圍廣且數(shù)據(jù)量大,通常采用自底向上的方式構(gòu)建,自動(dòng)化程度較高。醫(yī)學(xué)知識(shí)圖譜屬于領(lǐng)域知識(shí)圖譜,構(gòu)建的關(guān)鍵技術(shù)與通用知識(shí)圖譜存在共性,但構(gòu)建流程則有所區(qū)別。領(lǐng)域知識(shí)圖譜構(gòu)建的流程如圖2所示,其中模式層對(duì)后續(xù)領(lǐng)域知識(shí)的獲取和組織有著重要的指導(dǎo)意義。

圖2 領(lǐng)域知識(shí)圖譜構(gòu)建流程Fig.2 Construction process of domain knowledge graph

由于醫(yī)學(xué)領(lǐng)域具有相對(duì)完備的知識(shí)體系,而且醫(yī)學(xué)知識(shí)具有術(shù)語多樣、結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng)且應(yīng)用場(chǎng)景容錯(cuò)率低等特點(diǎn),由醫(yī)學(xué)專家參與構(gòu)建的醫(yī)學(xué)本體對(duì)醫(yī)學(xué)知識(shí)圖譜模式層的構(gòu)建極具參考價(jià)值,也對(duì)醫(yī)學(xué)知識(shí)圖譜的快速發(fā)展起到了很大的促進(jìn)作用。本文將從醫(yī)學(xué)本體構(gòu)建、全科醫(yī)學(xué)知識(shí)圖譜構(gòu)建和單病種醫(yī)學(xué)知識(shí)圖譜構(gòu)建三個(gè)角度對(duì)中文醫(yī)學(xué)知識(shí)圖譜構(gòu)建的相關(guān)工作進(jìn)行總結(jié)。

2.1 醫(yī)學(xué)本體構(gòu)建

本體這一概念最早來源于哲學(xué)領(lǐng)域,后在知識(shí)工程領(lǐng)域作為知識(shí)組織的一種形式被廣泛使用。本體指利用基本術(shù)語表達(dá)領(lǐng)域知識(shí),確定領(lǐng)域內(nèi)共同認(rèn)可的概念和概念間的關(guān)系,以用于領(lǐng)域內(nèi)不同主體之間的交流與知識(shí)共享的形式化規(guī)范說明。目前本體采用國際通用的形式化語言O(shè)WL 來規(guī)范描述領(lǐng)域的概念及其語義關(guān)系,使得這些知識(shí)可被人機(jī)共同理解,從而解決了人機(jī)之間、機(jī)器之間信息傳遞和交流的障礙。本體作為一種重要的知識(shí)組織方法,為醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜構(gòu)建工作提供了堅(jiān)實(shí)基礎(chǔ),生物醫(yī)學(xué)領(lǐng)域也一直處于本體研究的前列。國外成熟的醫(yī)學(xué)本體包括SNOMED-CT、基因本體(gene ontology,GO)、疾病本體(disease ontology,DO)和人類表型本體(human phenotype ontology,HPO)等。近年來,仍有不少學(xué)者在進(jìn)行這些權(quán)威本體的改良細(xì)化研究,也有學(xué)者通過參考或復(fù)用它們來構(gòu)建專科疾病本體,如Shepherd等基于SNOMED-CT 構(gòu)建了一個(gè)本體并將其作為邊界對(duì)象,以解決照顧慢性病患者的多學(xué)科衛(wèi)生保健小組成員之間的語義互操作鴻溝。國內(nèi)也有學(xué)者對(duì)醫(yī)學(xué)本體構(gòu)建進(jìn)行了積極的探索。牟冬梅等基于SNOMED-CT 和形式概念分析構(gòu)建了甲狀腺疾病本體,并利用該本體對(duì)電子病歷進(jìn)行標(biāo)注,驗(yàn)證了其有用性。李曉瑛等復(fù)用了UMLS 和SNOMED-CT 中的語義關(guān)系,并結(jié)合從文獻(xiàn)中獲取的疾病與藥物之間的治療關(guān)系,構(gòu)建了呼吸系統(tǒng)腫瘤本體。任慧玲等構(gòu)建了中醫(yī)疾病本體,并完成了與ICD-11 中文版的語義映射,為中醫(yī)疾病分類統(tǒng)計(jì)的規(guī)范化和標(biāo)準(zhǔn)化奠定了基礎(chǔ)。

由于國內(nèi)還尚未形成權(quán)威的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn),目前學(xué)者大多參考UMLS、SNOMED-CT 以及MeSH(medical subject headings)詞表等國際權(quán)威術(shù)語構(gòu)建中文醫(yī)學(xué)本體。近年來,國內(nèi)也有機(jī)構(gòu)致力于中文醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化的研究并取得了一定成效,如開放醫(yī)療與健康聯(lián)盟(open medical and healthcare alliance,OMAHA)于2019 年在HiTA 知識(shí)服務(wù)平臺(tái)上發(fā)布了“七巧板”醫(yī)學(xué)術(shù)語集;中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所于2020 年在BioPortal 平臺(tái)公開了他們的研究成果——精準(zhǔn)醫(yī)學(xué)本體(precision medicine ontology,PMO),這都為中文醫(yī)學(xué)領(lǐng)域知識(shí)圖譜的構(gòu)建工作提供了極富價(jià)值的參考。

2.2 全科醫(yī)學(xué)知識(shí)圖譜構(gòu)建

全科醫(yī)學(xué)知識(shí)圖譜旨在搜集各類醫(yī)學(xué)知識(shí),通常包含大量的疾病、癥狀、檢查、治療、用藥等多方面的實(shí)體及語義關(guān)系,通過對(duì)這些數(shù)據(jù)進(jìn)行分析和整合構(gòu)建成知識(shí)圖譜,為醫(yī)學(xué)領(lǐng)域的智能化發(fā)展提供幫助。

開放資源是早期全科醫(yī)學(xué)知識(shí)圖譜構(gòu)建的主要數(shù)據(jù)來源,Lin等以公共醫(yī)療網(wǎng)站上爬取的數(shù)據(jù)和醫(yī)院的電子臨床數(shù)據(jù)為數(shù)據(jù)源,搭建了MED-Ledge系統(tǒng),該系統(tǒng)可對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行有效的處理和分析,并繪制成知識(shí)圖譜以支持各種真實(shí)的醫(yī)療保健應(yīng)用。劉燕等和魏自強(qiáng)等以垂直性醫(yī)療網(wǎng)站中的醫(yī)學(xué)知識(shí)為數(shù)據(jù)基礎(chǔ)構(gòu)建了醫(yī)療知識(shí)圖譜,并對(duì)其應(yīng)用進(jìn)行了探討。此外,Shi等還利用某城市衛(wèi)生信息系統(tǒng)中的醫(yī)療服務(wù)數(shù)據(jù)構(gòu)建了一個(gè)語義健康知識(shí)圖譜,以便從這些離散的醫(yī)療文本數(shù)據(jù)中挖掘有價(jià)值的信息,使醫(yī)療信息系統(tǒng)中積累的數(shù)據(jù)得以充分利用。近年來,不斷積累的電子病歷數(shù)據(jù)也引起了學(xué)界的廣泛關(guān)注,其中有些學(xué)者就利用電子病歷構(gòu)建了知識(shí)圖譜,為臨床決策提供支持。聶莉莉等還以權(quán)威的醫(yī)學(xué)文獻(xiàn)和書籍為數(shù)據(jù)源,在醫(yī)學(xué)專家的幫助下梳理了呼吸系統(tǒng)常見疾病及其癥狀之間的關(guān)系,以“疾病-癥候-特征”為模型構(gòu)建了呼吸系統(tǒng)醫(yī)療診斷知識(shí)圖譜。阮彤等利用上海曙光醫(yī)院已有的中醫(yī)臨床知識(shí)庫作為數(shù)據(jù)基礎(chǔ),利用文本信息抽取和關(guān)系數(shù)據(jù)轉(zhuǎn)換(database to RDF,D2R)等信息技術(shù),通過領(lǐng)域?qū)<覙?gòu)建的模式層將疾病庫、癥狀庫、中草藥庫和方劑庫進(jìn)行了融合,構(gòu)建了一個(gè)中醫(yī)藥知識(shí)圖譜。

全科醫(yī)學(xué)知識(shí)圖譜的構(gòu)建是醫(yī)學(xué)數(shù)據(jù)向知識(shí)化轉(zhuǎn)變的重要嘗試,不同渠道的醫(yī)學(xué)信息的積累也使得全科醫(yī)學(xué)知識(shí)圖譜的規(guī)模不斷擴(kuò)大。目前,中文全科醫(yī)學(xué)知識(shí)圖譜相關(guān)研究已有一定的積累,但如何提升數(shù)據(jù)的質(zhì)量以滿足醫(yī)學(xué)具體應(yīng)用場(chǎng)景的需求仍是亟待解決的關(guān)鍵問題。

2.3 單病種醫(yī)學(xué)知識(shí)圖譜構(gòu)建

由于醫(yī)學(xué)應(yīng)用場(chǎng)景對(duì)知識(shí)精確度要求較高,全科醫(yī)學(xué)知識(shí)圖譜在數(shù)據(jù)精度方面的缺陷導(dǎo)致了其應(yīng)用的局限性。近年來許多學(xué)者展開了對(duì)單病種醫(yī)學(xué)知識(shí)圖譜構(gòu)建的研究。單病種醫(yī)學(xué)知識(shí)圖譜往往以某一疾病為核心節(jié)點(diǎn),通過梳理該疾病的臨床指南構(gòu)建某疾病的知識(shí)模型,再結(jié)合一系列技術(shù)手段完成知識(shí)圖譜的構(gòu)建。

目前單病種知識(shí)圖譜涉及的疾病種類已經(jīng)非常豐富,如Weng等提出一種基于語義分析的醫(yī)學(xué)知識(shí)圖譜自動(dòng)構(gòu)建框架,并基于此框架利用886 例高血壓患者病歷構(gòu)建了高血壓知識(shí)圖譜。糖尿病知識(shí)圖譜的構(gòu)建也有學(xué)者進(jìn)行了研究。精神疾病方面,Huang等依據(jù)UMLS 的概念層級(jí)和醫(yī)學(xué)術(shù)語對(duì)從科研文獻(xiàn)、臨床指南、維基百科和電子病歷中獲取的抑郁癥相關(guān)數(shù)據(jù)進(jìn)行了整合,構(gòu)建了抑郁癥知識(shí)圖譜,并開發(fā)了相應(yīng)的系統(tǒng)對(duì)圖譜進(jìn)行管理和更新。馬歡歡則基于癲癇患者的電子病歷構(gòu)建了癲癇知識(shí)圖譜。此外,還有Chai利用某三甲醫(yī)院的甲狀腺疾病患者的電子病歷,結(jié)合醫(yī)院已有的知識(shí)庫進(jìn)行甲狀腺疾病相關(guān)實(shí)體和關(guān)系的抽取,構(gòu)建了甲狀腺疾病知識(shí)圖譜,并采用樣例數(shù)據(jù)測(cè)試了其輔助診斷的可用性。Fang等從電子病歷和醫(yī)學(xué)網(wǎng)站(尋醫(yī)問藥網(wǎng)、百度百科和春雨醫(yī)生)中抽取了垂體腺瘤相關(guān)信息,在臨床專家的幫助下構(gòu)建了垂體腺瘤知識(shí)圖譜,為臨床決策提供支持。另外,慢性腎臟病、心血管疾病以及近年突發(fā)的新冠肺炎,均有學(xué)者在其知識(shí)圖譜構(gòu)建及應(yīng)用方面進(jìn)行了研究。然而中文的單病種醫(yī)學(xué)知識(shí)圖譜大多針對(duì)較常見的疾病,國外已經(jīng)有學(xué)者對(duì)罕見病知識(shí)圖譜的構(gòu)建與應(yīng)用展開了研究,這也是中文醫(yī)學(xué)知識(shí)圖譜未來值得研究的方向。

近年來,中文醫(yī)學(xué)知識(shí)圖譜構(gòu)建的研究成果不斷增加并呈現(xiàn)以下特點(diǎn):一是圖譜構(gòu)建的數(shù)據(jù)來源趨于多樣化,包括科研文獻(xiàn)、臨床指南、醫(yī)療百科、電子病歷等;二是圖譜類型從全科醫(yī)學(xué)知識(shí)圖譜發(fā)展到單病種醫(yī)學(xué)知識(shí)圖譜,且涉及的疾病種類日益豐富,在應(yīng)用層面也取得了較好的成果。然而中文醫(yī)學(xué)知識(shí)圖譜的研究仍存在一些難點(diǎn)和挑戰(zhàn)。首先,醫(yī)學(xué)本體對(duì)醫(yī)學(xué)知識(shí)圖譜的構(gòu)建具有重要的指導(dǎo)意義,然而目前國內(nèi)尚未形成權(quán)威的中文醫(yī)學(xué)術(shù)語,不同研究采用的知識(shí)結(jié)構(gòu)并不統(tǒng)一,這阻礙了現(xiàn)有醫(yī)學(xué)知識(shí)圖譜的融合,不利于研究的深入。其次,現(xiàn)有的中文單病種醫(yī)學(xué)知識(shí)圖譜大多針對(duì)常見病和多發(fā)病,如何利用知識(shí)圖譜輔助罕見病的診斷和治療也是未來亟待解決的問題。

3 醫(yī)學(xué)知識(shí)圖譜應(yīng)用

通用知識(shí)圖譜的應(yīng)用方向在醫(yī)學(xué)領(lǐng)域大都適用,但醫(yī)學(xué)知識(shí)圖譜也因醫(yī)學(xué)領(lǐng)域的不同業(yè)務(wù)而延伸出了更廣泛的應(yīng)用場(chǎng)景,本文將對(duì)醫(yī)學(xué)知識(shí)圖譜在語義搜索、決策支持、智能問答及其他方面的應(yīng)用進(jìn)行分析。

3.1 語義搜索

Google 提出知識(shí)圖譜時(shí)就是用于優(yōu)化搜索引擎的檢索質(zhì)量,通過語義關(guān)系分析為用戶匹配更精確的檢索結(jié)果,并將結(jié)果結(jié)構(gòu)化地展示給用戶。

在醫(yī)學(xué)領(lǐng)域也有許多專用的搜索引擎,美國的在線健康網(wǎng)站Healthline 就是一個(gè)基于知識(shí)庫的醫(yī)學(xué)信息搜索引擎,用戶可以利用疾病名稱、癥狀名稱、藥物名稱和治療手段等字段進(jìn)行檢索,還可以查詢當(dāng)?shù)氐尼t(yī)院和醫(yī)生信息等,涵蓋的醫(yī)學(xué)信息非常全面。國內(nèi)主流的醫(yī)學(xué)搜索引擎有搜狗明醫(yī)、尋醫(yī)問藥網(wǎng)、春雨醫(yī)生、醫(yī)脈通等,還有一些客戶端產(chǎn)品,如騰訊醫(yī)典、科大訊飛與學(xué)習(xí)強(qiáng)國聯(lián)合推出的訊飛健康平臺(tái)等,這些平臺(tái)都在使用知識(shí)圖譜相關(guān)技術(shù)來優(yōu)化其語義搜索功能。

中文醫(yī)學(xué)知識(shí)圖譜在語義搜索方面的應(yīng)用也有一些代表性的研究:其一為于彤等開發(fā)的一個(gè)大型語義搜索平臺(tái)TCMSearch,該平臺(tái)融入了語義視圖和基于領(lǐng)域本體的語義索引,可以為領(lǐng)域?qū)<姨峁└悄艿男畔z索服務(wù);另外一項(xiàng)則是中國中醫(yī)科學(xué)院的賈李蓉等開發(fā)的中醫(yī)藥學(xué)語言系統(tǒng),該系統(tǒng)中也使用了包含12 萬余個(gè)概念、60 萬余個(gè)術(shù)語以及127 萬余個(gè)語義關(guān)系的中醫(yī)藥知識(shí)圖譜,通過在檢索系統(tǒng)中嵌入“知識(shí)卡片”以及一個(gè)“知識(shí)地圖”展示系統(tǒng),將中醫(yī)領(lǐng)域的概念進(jìn)行可視化展示。近年來,有學(xué)者在搜索的基礎(chǔ)上進(jìn)行了擴(kuò)展研究。Wang等開發(fā)了一個(gè)基于知識(shí)的醫(yī)學(xué)信息檢索系統(tǒng),不僅從UMLS 中提取信息作為背景知識(shí)庫以優(yōu)化搜索結(jié)果,還對(duì)該系統(tǒng)在醫(yī)學(xué)臨床決策和個(gè)性推薦等方面的應(yīng)用進(jìn)行了研究。劉崇從尋醫(yī)問藥網(wǎng)和39 健康網(wǎng)等網(wǎng)站采集數(shù)據(jù)構(gòu)建了醫(yī)學(xué)知識(shí)圖譜,并開發(fā)了醫(yī)療知識(shí)搜索系統(tǒng)。該系統(tǒng)可借助知識(shí)圖譜理解用戶的意圖,以更直觀、精確的方式返回用戶所需的醫(yī)療知識(shí),還能向用戶推薦相關(guān)的社區(qū)問答鏈接供用戶查閱。

3.2 決策支持

知識(shí)圖譜可以實(shí)現(xiàn)對(duì)各類醫(yī)學(xué)知識(shí)的關(guān)聯(lián)與整合,通過一定規(guī)則的邏輯推理從已有的知識(shí)中得出一些新的結(jié)論,為用戶制定決策提供支持。目前醫(yī)學(xué)知識(shí)圖譜在臨床診療決策支持、藥物研發(fā)決策支持和應(yīng)急響應(yīng)決策支持方面均有應(yīng)用。

國外醫(yī)學(xué)知識(shí)圖譜早期在臨床診療決策支持方面的應(yīng)用較多,近年來的研究集中在了藥物研發(fā)方面,如利用知識(shí)圖譜實(shí)現(xiàn)藥物重定位或揭示藥物之間的相互作用,為藥物研發(fā)提供決策支持。此外,Gentile等利用藥物說明書構(gòu)建了知識(shí)圖譜,通過對(duì)藥物說明書進(jìn)行解析并與知識(shí)圖譜進(jìn)行匹配,能快速識(shí)別并標(biāo)注出新版說明書中變更的字段,為藥物審查人員提供決策支持,提升審查效率。

中文醫(yī)學(xué)知識(shí)圖譜的應(yīng)用主要還是集中在臨床診療決策支持上,如王昊奮等將其構(gòu)建的醫(yī)學(xué)知識(shí)圖譜應(yīng)用于上海林康醫(yī)療信息技術(shù)有限公司的醫(yī)療質(zhì)量與患者安全輔助監(jiān)控系統(tǒng)中,檢測(cè)抗生素的不合理使用情況。Zhao開發(fā)了一個(gè)臨床決策支持系統(tǒng),該系統(tǒng)可以持續(xù)監(jiān)測(cè)患者的生命體征參數(shù),并在幾個(gè)級(jí)別上計(jì)算風(fēng)險(xiǎn)分級(jí),結(jié)合知識(shí)圖譜識(shí)別患者存在的風(fēng)險(xiǎn),以便醫(yī)護(hù)人員及時(shí)做出干預(yù)。除了此類面向醫(yī)護(hù)人員的決策支持研究,也有學(xué)者在其研究中考慮了患者的需求。武家偉等利用互聯(lián)網(wǎng)開放數(shù)據(jù)構(gòu)建了“疾病-癥狀”知識(shí)圖譜,并融合深度學(xué)習(xí)技術(shù)設(shè)計(jì)實(shí)現(xiàn)了問診推薦系統(tǒng),在患者查詢疾病相關(guān)問題時(shí)可以為其推薦合適的醫(yī)生和醫(yī)院,以便患者做進(jìn)一步的診斷和治療。

此外,中文醫(yī)學(xué)知識(shí)圖譜在醫(yī)療突發(fā)事件應(yīng)急響應(yīng)方面的應(yīng)用也有研究。根據(jù)醫(yī)療突發(fā)事件知識(shí)圖譜可以推理實(shí)際救援的資源調(diào)配方案,輔助應(yīng)急決策者做出更高效的決策措施。

3.3 智能問答

智能問答系統(tǒng)可以通過自然語言處理技術(shù)理解用戶的提問,從海量數(shù)據(jù)中查詢用戶所需的答案并反饋給用戶?;卺t(yī)學(xué)知識(shí)圖譜開發(fā)智能問答系統(tǒng)可以幫助患者實(shí)現(xiàn)自查自診,緩解醫(yī)護(hù)人員人手不足的壓力。

Watson 機(jī)器人是最早在醫(yī)學(xué)領(lǐng)域應(yīng)用的智能問答平臺(tái),而后諸多學(xué)者開始對(duì)醫(yī)學(xué)智能問答系統(tǒng)展開研究。鄭懿鳴等構(gòu)建了中醫(yī)藥知識(shí)圖譜,并基于自然語言處理技術(shù)開發(fā)了智能問答系統(tǒng),然而該系統(tǒng)僅針對(duì)疾病和癥狀提供用藥推薦,問答類型過于單一。王繼偉等在其開發(fā)的智能問答系統(tǒng)中使用了基于共享層的卷積神經(jīng)網(wǎng)絡(luò)與詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)結(jié)合的混合算法,以保證系統(tǒng)能準(zhǔn)確地獲取用戶輸入的問句類型并匹配最接近的模板,從而實(shí)現(xiàn)更豐富的問答交互。此外,針對(duì)單病種的智能問答系統(tǒng)也有學(xué)者研究,如田迎等從抑郁癥論文摘要中抽取其知識(shí)三元組,構(gòu)建了抑郁癥知識(shí)圖譜,并采用模板匹配的方法開發(fā)了抑郁癥智能問答系統(tǒng)。在新冠肺炎持續(xù)肆虐的當(dāng)下,也有學(xué)者開發(fā)了新冠肺炎智能問答系統(tǒng),既有助于民眾獲取最新疫情信息以避免恐慌,也能幫助疫情防控相關(guān)部門的咨詢?nèi)藛T緩解壓力。

除以上應(yīng)用場(chǎng)景之外,Gopez等還基于醫(yī)保政策構(gòu)建了知識(shí)圖譜,用于輔助醫(yī)保審查,減少醫(yī)保欺詐事件的發(fā)生。黃智生等還將知識(shí)圖譜用于微博平臺(tái)進(jìn)行自殺監(jiān)控預(yù)警。也有學(xué)者對(duì)臨床指南的圖譜化表示進(jìn)行了嘗試。

4 總結(jié)與展望

醫(yī)學(xué)知識(shí)圖譜的研究將不斷推進(jìn)海量醫(yī)學(xué)數(shù)據(jù)的智能化處理,推動(dòng)醫(yī)學(xué)智能化的腳步。本文通過對(duì)醫(yī)學(xué)知識(shí)圖譜的關(guān)鍵技術(shù)、構(gòu)建及應(yīng)用進(jìn)行分析,發(fā)現(xiàn)中文醫(yī)學(xué)知識(shí)圖譜的研究存在醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化程度不高、標(biāo)注語料缺乏、技術(shù)研究不夠深入以及應(yīng)用場(chǎng)景有局限性等問題,現(xiàn)對(duì)中文醫(yī)學(xué)知識(shí)圖譜未來的研究方向做出以下展望。

(1)中文醫(yī)學(xué)術(shù)語的標(biāo)準(zhǔn)化問題需進(jìn)一步研究。標(biāo)準(zhǔn)的醫(yī)學(xué)術(shù)語不僅能從模式層上指導(dǎo)醫(yī)學(xué)知識(shí)圖譜的構(gòu)建,還能促進(jìn)現(xiàn)有醫(yī)學(xué)知識(shí)圖譜的融合,以實(shí)現(xiàn)醫(yī)學(xué)知識(shí)的互聯(lián)互通,這對(duì)中文醫(yī)學(xué)知識(shí)圖譜的研究和應(yīng)用有著重要意義。其次,中文醫(yī)學(xué)標(biāo)注語料的研究及共享將成為新的發(fā)展方向。醫(yī)學(xué)領(lǐng)域語料標(biāo)注需要耗費(fèi)大量的人力、物力,而醫(yī)學(xué)知識(shí)圖譜的研究又依賴高質(zhì)量的標(biāo)注語料。在保證數(shù)據(jù)質(zhì)量的前提下,未來學(xué)界和業(yè)界應(yīng)該更注重中文醫(yī)學(xué)標(biāo)注語料的研究和共享,以減少研究成本,提升研究效率。

(2)人工智能技術(shù)在醫(yī)學(xué)知識(shí)圖譜構(gòu)建中的應(yīng)用需更加深入,特別是加強(qiáng)深度學(xué)習(xí)在中文醫(yī)學(xué)知識(shí)融合和知識(shí)推理方面的研究,通過提升模型的性能及泛化能力,形成中文醫(yī)學(xué)知識(shí)圖譜構(gòu)建的技術(shù)體系或通用平臺(tái),以滿足更多研究工作的需要。此外,在知識(shí)表示和知識(shí)抽取方面,不同語種在語言結(jié)構(gòu)和表達(dá)上的差異理論上會(huì)對(duì)深度學(xué)習(xí)模型的效果造成一定的影響,未來可以從語言學(xué)的角度對(duì)中文特征進(jìn)行深入分析,探索針對(duì)中文醫(yī)學(xué)知識(shí)表示和抽取的新技術(shù)。

(3)中文醫(yī)學(xué)知識(shí)圖譜未來需要探索更廣闊的應(yīng)用前景。隨著互聯(lián)網(wǎng)中醫(yī)學(xué)數(shù)據(jù)的不斷積累,醫(yī)學(xué)知識(shí)圖譜的可用價(jià)值已經(jīng)遠(yuǎn)遠(yuǎn)超出了疾病知識(shí)的查詢和輔助診斷,藥物研發(fā)、臨床指南的圖譜化以及突發(fā)公共衛(wèi)生事件的應(yīng)對(duì)等都將是未來醫(yī)學(xué)知識(shí)圖譜值得探索的應(yīng)用場(chǎng)景。

猜你喜歡
醫(yī)學(xué)知識(shí)本體圖譜
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
眼睛是“本體”
繪一張成長(zhǎng)圖譜
一種基于社會(huì)選擇的本體聚類與合并機(jī)制
圖表
思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
加強(qiáng)班級(jí)凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
主動(dòng)對(duì)接你思維的知識(shí)圖譜
新環(huán)境下《解剖學(xué)》教學(xué)資源開發(fā)探討分析
衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識(shí)的實(shí)踐
丰原市| 伊川县| 无棣县| 延吉市| 黄浦区| 大城县| 昭通市| 包头市| 高密市| 道孚县| 浮山县| 弋阳县| 中山市| 冕宁县| 巴青县| 石泉县| 青海省| 苏尼特左旗| 武冈市| 湘潭市| 临沭县| 乌拉特前旗| 阿坝| 平山县| 韶山市| 包头市| 衡南县| 漾濞| 大余县| 孟村| 曲阜市| 顺平县| 招远市| 高密市| 监利县| 大英县| 酒泉市| 汾西县| 吴堡县| 河池市| 文登市|