譚玲,鄂海紅,匡澤民,宋美娜,劉毓,陳正宇,謝曉璇,李峻迪,范家偉,王晴川,康霄陽
1. 北京郵電大學,北京 100876;2. 首都醫(yī)科大學附屬北京安貞醫(yī)院,北京 100029
人工智能的發(fā)展已經進入快車道,作為新一輪科技革命和產業(yè)變革的重要驅動力量,人工智能技術正在深入各行各業(yè),悄無聲息地改變著人們日常生活的方方面面[1]。知識圖譜是由谷歌(Google)公司在2012年提出的一個概念,本質上是語義網的知識庫。知識圖譜由節(jié)點和邊組成,節(jié)點表示實體,邊表示實體與實體之間的關系,這是最直觀、最易于理解的知識表示和實現(xiàn)知識推理的框架,奠定了第三代人工智能研究的基礎[1]。
目前,醫(yī)學是知識圖譜應用較廣的垂直領域之一,也是目前國內外人工智能領域研究的熱點。醫(yī)學知識圖譜在臨床診斷、治療、預后等方面均可發(fā)揮較大的作用。高效地將知識圖譜應用于醫(yī)學領域將給人類的醫(yī)療衛(wèi)生帶來革命性的變化[1]。由于醫(yī)學領域數(shù)據(jù)的特殊性,醫(yī)學知識圖譜的構建也面臨不少機遇與挑戰(zhàn)。
本文對醫(yī)學知識圖譜構建的關鍵技術及應用進行了全面的梳理,對各類公共數(shù)據(jù)集、處理醫(yī)學問題的特異性難點及現(xiàn)有解決辦法進行了綜述。通過閱讀本文,可以了解醫(yī)學知識圖譜的發(fā)展現(xiàn)狀、未來發(fā)展方向以及面臨的挑戰(zhàn),便于醫(yī)學知識圖譜研究者參照對比,加快醫(yī)學知識圖譜領域的研究及臨床落地應用。
本文主要按照醫(yī)學知識圖譜構建的流程來闡述,主要框架如圖1所示。
圖1 醫(yī)學知識圖譜構建框架
網絡上文本數(shù)據(jù)的爆炸式增長,以及對本體需求的增加,促進了語義網絡的發(fā)展,使得基于文本的本體自動構建成為一個非常有前途的研究領域。文本本體學習是一種以機器可讀形式(半)自動地從文本中提取和表示知識的過程。本體被認為是在語義網絡上以更有意義的方式表示知識的主要基石之一。
萬維網聯(lián)盟(World Wide Web Consortium,W3C)將本體論定義為用于描述和表示知識領域的術語。本體是一個數(shù)據(jù)模型,它表示一組概念以及一個域中這些概念之間的關系。
本體構建可以定義為從頭創(chuàng)建本體或重用現(xiàn)有本體以豐富或填充現(xiàn)有本體的迭代過程。構建本體的過程包括以下6個任務:
● 指定一個域以創(chuàng)建定義良好的術語和概念;
● 識別域中的關鍵術語、概念及其關系;
● 建立或推斷描述域結構屬性的規(guī)則和公理;
● 使用支持本體的表示語言(如資源描述框架(resource description framework,RDF)、資源描述框架模式(resource description framework schema,RDFS)或網絡本體語言(Web ontology language,OWL))對構建的本體進行編碼(表示);
● 將構建的本體與現(xiàn)有本體結合(如果現(xiàn)有本體可用);
● 通過使用通用和特定的評估度量來評估構建的本體[2]。
隨著對許多醫(yī)學本體構建研究的深入,目前醫(yī)學本體庫的構建主要存在以下難點。
首先應該盡可能減少在本體構建過程中的人為干預。目前實現(xiàn)本體構建過程的完全自動化是不現(xiàn)實的,怎樣減少人為干預是目前醫(yī)學本體構建的一個難點和熱點。2018年,Mazen A等人[3]提出了一種新的本體自動生成框架,即鏈接開放數(shù)據(jù)項目授權的生物醫(yī)學本體自動生成(linked open data approach for automatic biomedical ontology generation,LOD-ABOG)方法。與現(xiàn)有框架相比,參考文獻[3]的評估結果顯示,大多數(shù)本體生成任務的結果有所改善。該參考文獻提出的LOD-ABOG框架表明,現(xiàn)有的LOD源和技術是一個很有前途的解決方案,可以在更大程度上實現(xiàn)生物醫(yī)學本體生成和關系提取過程的自動化。另外,與現(xiàn)有的框架在本體開發(fā)過程中需要領域專家的參與不同,該參考文獻提出的方法只要求領域專家在本體構建周期結束時參與到本體的改進中。
2019年,Lytvyn V等人[4]提出了從自然文本中提取知識的方法和算法(包括一個基于本體引入的概念、關系、謂詞和規(guī)則的多層次過程),建立了一種基于本體的本體開發(fā)方法,該方法利用現(xiàn)有本體對文本文檔進行分析,構建了命名和本體術語體系。這使得本體開發(fā)過程自動化成為可能。
再者,由于醫(yī)學信息的特殊性,對醫(yī)學信息的匿名化處理在本體構建過程中也是一個難點。2017年,Polsley S等人[5]提出一種可識別被映射到本體論術語的受保護健康信息(protected health information,PHI)的方法,臨床專家使用數(shù)百份醫(yī)學文獻對該方法進行了評價,F(xiàn)1分數(shù)達98.8%,在后續(xù)處理中保留語義信息具有一定的前景。但該方法仍有較大的局限性,需要不斷地進行優(yōu)化。
醫(yī)學本體較常用的數(shù)據(jù)集主要有以下幾種,見表1。
表1 醫(yī)學本體常用的數(shù)據(jù)集
首先,由于醫(yī)學數(shù)據(jù)的多樣性,在設計醫(yī)學本體構建系統(tǒng)時,無論是來自小的靜態(tài)文本集合的數(shù)據(jù),還是萬維網上的海量異構數(shù)據(jù),都需要進行數(shù)據(jù)轉換。目前,針對此問題的文獻較少,有待后續(xù)研究的推進。
其次,醫(yī)學的臨床數(shù)據(jù)會不斷變化,如何根據(jù)患者的當前情況創(chuàng)建動態(tài)的最佳保護服務,為患者提供個性化的實時醫(yī)療護理也是醫(yī)學實體構建過程中的一大問題[6]。
命名實體識別(named entity recognition,NER)又稱專名識別,指識別文本中具有特定意義的實體(主要包括人名、地名、機構名、專有名詞等)。通常包括兩部分:一是識別實體邊界;二是確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),因此識別實體邊界相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,實體邊界的識別更加困難。
與傳統(tǒng)的命名實體識別相比,醫(yī)學名詞實體一般比較長,長實體名詞常常包含多個名詞實體,造成醫(yī)學實體邊界識別的難度較大。此外,醫(yī)學名詞存在大量的同義詞替換、縮寫以及一詞多義現(xiàn)象,加大了確定實體類別的難度。
針對醫(yī)學實體中大量同義詞替換以及大量縮寫的問題,2020年Kato T等人[7]提出了一種共享和學習標簽組件嵌入的方法,通過對英語和日語細粒度NER進行實驗,證明了該方法比標準序列標記模型性能更好,特別是在低頻標簽情況下。
為了解決醫(yī)學名詞實體較長、識別邊界困難的問題,2020年,Tan C Q等人[8]提出了邊界感知的神經網絡模型來預測實體的類別信息。該模型可以先定位出實體的位置, 然后在對應的位置區(qū)間內進行實體類型的預測。在公開的嵌套NER數(shù)據(jù)集上,該模型取得了超越以往方法的效果,并在預測上取得了更快的速度。
另外,大多數(shù)NER系統(tǒng)只處理平面實體,忽略了內部嵌套實體,導致無法捕獲底層文本中的細粒度語義信息。為了解決這個問題,2018年Ju M Z等人[9]提出了一種新的神經模型,通過動態(tài)疊加平面NER層來識別嵌套的實體。模型將長短時記憶(long short term memory,LSTM)層的輸出合并到當前的平面NER層中,為檢測到的實體構建新的表示,并將它們提供給下一個平面NER層。模型動態(tài)地堆加平面NER層,直到沒有提取任何外部實體。該模型針對特定數(shù)據(jù)集(具有多種類別和嵌套的實體)具有較好的實驗效果。
對于醫(yī)學實體中常見的一詞多義現(xiàn)象,2019年Pham T H等人[10]在細粒度NER任務中進行了多任務學習和語境化單詞表征的有效性研究,并研究了多任務序列標記的不同參數(shù)共享方案、神經語言模型學習和不同單詞表示設置下的學習。最終得到的最佳模型不需要任何額外的人工操作來創(chuàng)建數(shù)據(jù)和設計特征,F(xiàn)1分數(shù)達到83.35%。Luo Y等人[11]提出了一個增加了上下文表示層次的模型:句子級表示和文檔級表示。在句子級,考慮到單個句子中單詞的不同貢獻,通過標簽嵌入注意機制來增強從獨立的雙向長短時記憶(bidirectional long short term memory,BiLSTM)學習到的句子表征。在文檔級,采用鍵值存儲網絡記錄對上下文信息相似度敏感的單個單詞的文檔感知信息。在基準測試的實驗結果數(shù)據(jù)集(CoNLL-2003和Ontonnotes 5.0英語數(shù)據(jù)集,CoNLL-2002西班牙語數(shù)據(jù)集)上獲得了最先進的結果。
醫(yī)學命名實體識別較常用的數(shù)據(jù)集主要有以下幾種,見表2。
表2 醫(yī)學命名實體識別常用的數(shù)據(jù)集
(1)多類別實體在不同語境、不同詞性、不同類別下的應用
語言的博大精深、豐富多彩正是語言的魅力所在,但對于機器來說,豐富多彩的語言使語言的使用規(guī)則變得更加復雜,很難歸納和總結。將機器語言變得更加智能,理解多類別的實體在不同語境、不同詞性及不同類別下的應用是一個重要的研究方向。
(2)嵌套實體的研究
在醫(yī)學領域中,實體嵌套的現(xiàn)象非常常見,絕大部分醫(yī)學長實體中會存在實體嵌套,如何更有效地識別實體嵌套是醫(yī)學命名識別實體領域必須面對且具有重要意義的問題。
(3)實體識別與實體關系抽取的結合
輸入一個句子,通過實體識別和關系抽取聯(lián)合模型,直接得到有關系的實體三元組。這可以克服實體識別模塊的錯誤引起的錯誤傳播,重視兩個子任務之間存在的關系,使信息抽取任務完成得更加準確高效,但同時也可能會有更復雜的結構,因此如何用更簡單的結構實現(xiàn)實體識別和實體關系抽取的結合將是之后的研究重點。
實體關系抽取是指從一個句子中抽取出關系三元組,主要目的是從文本中識別實體并抽取實體之間的語義關系。實體關系抽取解決了原始文本中目標實體之間的關系分類問題,它也是構建復雜知識庫系統(tǒng)的重要步驟,如文本摘要、自動問答、機器翻譯、搜索引擎、知識圖譜等。隨著近年來信息抽取的興起,實體關系抽取進一步得到廣泛的關注和深入的研究。
與一般的實體關系抽取相比,生物醫(yī)學領域語料庫的建設很復雜,且需要大量的人力、物力,對參與人員的專業(yè)背景要求高,因此使用僅有的醫(yī)學知識來自動構建大規(guī)模的語料庫對于醫(yī)學實體關系的抽取十分重要。此外,醫(yī)學實體之間普遍存在重疊關系,這給關系抽取的準確性帶來較大的干擾?,F(xiàn)有的醫(yī)學關系抽取方法大多需要復雜的特征工程,越來越多的學者采用深度學習方法進行關系的抽取,但大多采用的是流水線的方法,沒有充分利用實體信息,且容易導致錯誤的傳遞。最后,醫(yī)學關系的跨度較大,句子級的抽取不能滿足要求。
為了自動構建大規(guī)模的語料庫,2019年Li Y等人[12]提出了一種全新的輕量級神經網絡框架來解決遠程監(jiān)督關系抽取問題,以彌補以往選擇的不足,使用《紐約時報》(New York Times,NYT)數(shù)據(jù)集進行實驗,結果表明該方法在AUC和Top-n精度指標方面都達到了較先進的性能。2020年He Z Q等人[13]設計了一個新的狀態(tài)表示形式,它考慮了句子嵌入、關系嵌入以及所選的正向實例的嵌入,該方法解決了遠程監(jiān)督方法中的錯誤標簽問題,同時提升了詞袋水平的關系提取效果。Chen D Y等人[14]提出了通過多代理強化學習模型來重新標記噪聲訓練數(shù)據(jù),并共同提取實體和關系的新方法。他們在兩個真實的數(shù)據(jù)集上對該方法進行了評估,結果證明,該方法可以顯著提高提取器的性能,并實現(xiàn)有效的學習。
針對醫(yī)學實體間普遍存在重疊關系這一問題,2019年Zeng D J等人[15]重新研究了基于復制機制的關系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取實體和關系的多任務學習復制模型(copy mechanism for multi-task learning,CopyMTL)。該模型利用多任務的學習框架來識別多詞實體,通過提高實體識別精度來提升關系抽取的效果,從而達到了較理想的效果。2020年Nayak T等人[16]提出了使用編碼器-解碼器體系結構共同提取實體和關系的方法。該方法使用一種用于關系元組的表示方案,使解碼器能夠像機器翻譯模型那樣一次生成一個單詞,并且仍然可以找到句子中存在的所有元組,它們具有不同長度的完整實體名稱,并且具有重疊的實體。對NYT數(shù)據(jù)集進行的實驗表明,該方法明顯優(yōu)于所有以前的模型。
為了減少深度學習方法關系抽取中錯誤的傳遞,2019年Eberts M等人[17]提出了一種混合模型,包括基于轉換器的編碼層、LSTM實體檢測模塊、基于強化學習的關系分類模塊。實驗結果表明,與基線方法相比,該混合模型在關系和實體提取方面表現(xiàn)更好。2019年Bansal T等人[18]提出了一個新的模型——同時神經實體-關系連接器(simultaneous neural entityrelation linker,SNERL)。首先使用自注意力機制來捕獲文本中每個實體提及的上下文表示;然后使用這些上下文表示來預測提及水平的實體分布和提及對水平的關系分布;最后針對每個提及對,將這些預測概率進行組合,并合并到文檔級別,以獲得預測關系三元組的最終概率。實驗結果表明,SNERL模型在CDT和CDR這兩個生物醫(yī)學數(shù)據(jù)集上的表現(xiàn)達到了最優(yōu)的效果,并且可以大大改善系統(tǒng)的整體召回率,同時避免了級聯(lián)錯誤。
針對醫(yī)學關系跨度大的問題,2020年Nan G S等人[19]提出潛在結構優(yōu)化(latent structure refinement,LSR)模型,以端到端的方式構造一個文檔級圖譜來推理句間關系,通過迭代優(yōu)化策略,模型能夠動態(tài)構建潛在結構,以改善整個文檔中的信息聚合。該模型在生物醫(yī)學領域的兩個文檔級關系抽取數(shù)據(jù)集上取得了較好的效果。
醫(yī)學實體關系抽取較常用的數(shù)據(jù)集主要有以下幾種,見表3。
表3 醫(yī)學實體關系抽取常用的數(shù)據(jù)集
(1)加強語料庫建設
相對于無監(jiān)督學習方法,有監(jiān)督學習方法有更好的準確性和穩(wěn)定性,而構建良好的語料庫是有監(jiān)督學習方法得以開展的關鍵前提。
(2)利用聯(lián)合學習方法更好地提取文本中的關系
現(xiàn)有的聯(lián)合學習方法大多存在不同的問題,例如不能很好地識別醫(yī)學文本中的重疊嵌套關系,但是聯(lián)合學習方法可以充分利用實體與關系之間的交互信息,且普遍證明比流水線方法更有效,因此應該著力提升聯(lián)合學習方法中識別重疊嵌套關系的能力,使聯(lián)合學習方法更有效。
(3)實現(xiàn)跨句子或文檔級關系抽取
醫(yī)學文本中的關系往往不在一個句子中,而是跨句子的,因此關系抽取模型不應該僅僅滿足于句子級的抽取,應該進行更廣范圍的關系抽取。
(4)解決遠程監(jiān)督學習的問題,提升遠程監(jiān)督的效果
醫(yī)學領域語料庫較小,遠程監(jiān)督方可以有效地解決這個問題,但是遠程監(jiān)督方法中存在錯誤標簽等問題,會影響模型效果。未來可以著重解決遠程監(jiān)督中的錯誤標簽問題,使用遠程監(jiān)督方法可以省去人工標注數(shù)據(jù)的工作。
實體對齊是判斷多源異構數(shù)據(jù)中的實體是否指向真實世界同一對象的過程。如果多個實體表征同一個對象,則在這些實體之間構建對齊關系,同時對實體包含的信息進行融合和聚集。由于目前將實體對齊應用于醫(yī)學領域的研究文章較少,因此本節(jié)主要介紹實體對齊,而不是醫(yī)學實體對齊。
(1)綜合利用知識圖譜的多種信息,如關系三元組、屬性三元組、摘要等
傳統(tǒng)的實體對齊任務直接將實體進行對齊,由于沒有考慮到與實體相關的背景信息(如關系三元組、屬性三元組、摘要等),實體對齊任務準確率不高,容易出現(xiàn)較多的噪聲和錯誤數(shù)據(jù),利用背景信息進行實體對齊是目前研究的一個難點。
2020年,E H H等人[20]嘗試將關系和屬性三元組結合起來進行實體對齊。采用參數(shù)共享聯(lián)合方法和基于翻譯的知識嵌入方法將它們聯(lián)合嵌入。實驗結果表明,該方法對實體對齊任務有明顯的改進。Munne R F等人[21]提出了一種基于嵌入的實體對齊方法。針對實體對齊任務,提出了一種匯總與屬性嵌入的聯(lián)合方法。當實體具有較少的屬性或關系結構,無法捕獲實體的有意義的表示時,實體摘要嵌入會很有用。他們在真實世界的數(shù)據(jù)集上進行了實驗,結果表明,所提方法顯著優(yōu)于當時最先進的實體對齊模型。
(2)多語言知識圖譜的實體對齊
隨著信息全球化的進一步發(fā)展,一種語言的知識圖譜已經不能滿足信息的溝通與交流,因此多語言知識圖譜間的實體對齊方法是計算機研究的必然趨勢。
2020年,Chen M H等人[22]提出了一種新的模型JEANS,在一個共享的嵌入方案中聯(lián)合表示多語種的知識圖譜和文本語料庫,并試圖通過文本附帶的監(jiān)督信號來改善實體對齊效果。在基準數(shù)據(jù)集上的實驗結果表明,JEANS在伴隨監(jiān)督的實體對齊方面有很好的改善,并且顯著地優(yōu)于只提供知識圖譜內部信息的最新方法。KANG S Z等人[23]利用本體提出了一種基于TransC的嵌入模型。該模型首先采用TransC和參數(shù)共享模型,將知識圖譜中的所有實體和關系映射到一個基于對齊實體集的共享低維語義空間,然后迭代地使用重新初始化和軟對齊策略來執(zhí)行實體對齊。實驗結果表明,與基準算法相比,該模型能有效地融合本體信息,取得了較好的效果。
(3)數(shù)據(jù)異構實體對齊
醫(yī)學知識的表現(xiàn)方式復雜多樣,在數(shù)據(jù)異構的知識圖譜之間進行實體對齊也是當前研究的一個難點。
針對不同類型實體的對齊,2020年,Zhu Q等人[24]提出了一個集合圖譜網絡——多類型實體對齊的集合圖神經網絡(collective graph neural network for multitype entity alignment,CG Mualign)。與以前的工作不同,CG Mualign聯(lián)合對齊不同類型的實體,集中利用鄰域信息并概括未標記的實體類型。在真實世界知識圖譜百萬計的實體實驗中,該方法的實體對齊效果超過了現(xiàn)有的方法。但是,該方法的運行效率沒有超過當前最先進的深度學習方法。
針對鄰域結構的非同構性,Sun Z Q等人[25]提出了一種新的知識圖譜對齊網絡AliNet,旨在以端到端的方式減輕鄰域結構的非同構性。該方法采用一種注意機制來突出有用的遠距離鄰居,并減少噪聲,然后使用門控機制控制直接鄰域信息和遠程鄰域信息的聚合。他們進一步建議使用關系損失來重新定義實體表示,并對5個實體對準數(shù)據(jù)集進行了詳細的研究和分析,證明了AliNet的有效性。
針對知識圖譜之間的結構異構性,Wu Y T等人[26]采用一種新的圖譜采樣策略來識別面向實體對齊的信息最豐富的鄰居,利用基于交叉圖譜注意力的匹配機制,聯(lián)合比較兩個實體的區(qū)分子圖,以實現(xiàn)穩(wěn)健的實體對齊。在3個實體比對數(shù)據(jù)集上進行的大量實驗表明,該方法可以在更困難的情況下很好地估計鄰域相似度,顯著優(yōu)于12種現(xiàn)有方法。
(4)大規(guī)模知識圖譜間的實體對齊
在信息化高速發(fā)展的今天,數(shù)據(jù)達到了空前規(guī)模,這對技術提出了更多的挑戰(zhàn),大規(guī)模知識圖譜間的實體對齊也成為研究難點和重點。
2019年,Zhang F J等人[27]將兩個有上億級別節(jié)點的網絡——AMiner和微軟學術進行了對齊,這項研究綜合利用了LSTM、灰色神經網絡(gray neural network,GNN)、哈希等技術,能夠高效處理多種類型的節(jié)點以及不同類型的信息,并且使對齊效果達到了可以應用的級別(總體F1分數(shù)為96.81%)。
2020年,F(xiàn)lamino J等人[28]提出了一個可解決大規(guī)模對齊問題的多步驟通道。在這個通道中,引入了具有魯棒時間屬性的可伸縮特征提取,并使用了聚類算法,以便在圖上找到相似節(jié)點的分組。這些特征和它們的集群被輸入一個通用的對齊階段,在數(shù)百萬個可能的匹配中準確地識別伙伴節(jié)點。實驗結果表明,該管道可以處理大數(shù)據(jù)集,在內存限制下實現(xiàn)高效的運行。
實體對齊較常用的數(shù)據(jù)集主要有以下幾種,見表4。
表4 實體對齊常用的數(shù)據(jù)集
目前醫(yī)學實體對齊研究尚處于起步階段,根據(jù)醫(yī)學數(shù)據(jù)的特點,醫(yī)學實體對齊未來的研究方向主要包括以下方面。
● 醫(yī)學實體存在較多同義詞、縮略詞,導致實體對齊的精確性受到影響,但是醫(yī)療領域要求的精度非常高,使得在醫(yī)療領域實現(xiàn)實體對齊這項工作的開展和進行非常艱難,這將是之后醫(yī)療領域需要重點解決的問題。
● 數(shù)據(jù)質量良莠不齊,存在數(shù)據(jù)壁壘。由于不同醫(yī)療知識庫的構建目的和方式不同,數(shù)據(jù)質量不一,并且不同醫(yī)療機構的數(shù)據(jù)一般不能互相開放,如何打破數(shù)據(jù)壁壘,解決可能存在的相似重復數(shù)據(jù)、孤立數(shù)據(jù)、數(shù)據(jù)時間力度不一致等問題,是未來的一個重點研究方向。
● 醫(yī)療數(shù)據(jù)龐大復雜,標簽數(shù)據(jù)有限,且醫(yī)學數(shù)據(jù)精度要求高,需要領域專家手工對數(shù)據(jù)進行操作,這是一個耗費極大的工程。如何在較少的標簽數(shù)據(jù)中進行訓練,實現(xiàn)高效的實體對齊,也是后續(xù)研究要關注的問題。
由于語言表達的多樣性、歧義性以及上下文關聯(lián),語言理解面臨巨大的挑戰(zhàn)。語言理解主要包括語法解析、語義解析和特定的知識表示或其中的某個片段。而在知識圖譜中主要涉及的技術即實體理解或實體鏈接技術,將現(xiàn)實世界中的知識映射到現(xiàn)有知識圖譜中的實體,進而用現(xiàn)有知識圖譜進行表示,達到理解的目的。在實體鏈接任務中輸入的是實體的指代和上下文以及待鏈接的知識庫,輸出的是指代所對應的知識庫中的實體。
實體鏈接(或實體規(guī)范化、實體消歧)指將文本中的短語(提及范圍)映射到結構化源(如知識庫)中的概念。提及范圍通常是一個詞或短語,描述一個單一的、連貫的概念。
(1)聯(lián)合在命名實體識別和實體鏈接中建模
在知識庫構建中,實體識別是實體鏈接的前提,實體識別可為實體鏈接提供更多有效的信息。實體鏈接與實體識別聯(lián)合學習可減少工作量。實體識別與實體鏈接任務聯(lián)合解決既能提高命名實體識別的性能,也能提高實體鏈接的性能,是當前研究的重點和難點。
2017年,Lou Y X等人[29]提出了一種基于轉換的聯(lián)合疾病實體識別與規(guī)范化模型,將輸出構造過程轉化為一個漸進的狀態(tài)轉換過程,允許使用非局部特征。實驗表明,與其他方法分開執(zhí)行任務相比,聯(lián)合框架實現(xiàn)了更高的性能。與其他先進的方法相比,該方法更具優(yōu)勢。
2019年,Zhao S D等人[30]提出了一個新的具有顯式反饋策略的深層神經多任務學習框架,用于聯(lián)合實體識別和實體規(guī)范化建模。該方法利用多任務學習對兩個任務進行一般表示,在保持任務之間相互支持的同時,成功地將跨體系結構的任務轉換為并行的多任務設置。實驗結果表明,在兩個公開的醫(yī)學文獻數(shù)據(jù)集上,該方法比當時最先進的方法表現(xiàn)得更好。
2020年,Luo Z H等人[31]開發(fā)了pyMeSHSim軟件包,這是一個用于生物醫(yī)學文本挖掘的集成、輕量級和數(shù)據(jù)豐富的Python包。作為第一個一站式醫(yī)學主題詞(medical subject heading,MeSH)工具包,它集成了生物NER、規(guī)范化和比較功能。pyMeSHSim嵌入了一個自制的數(shù)據(jù)集,其中包含主標題(main heading,MH)、補充概念記錄(supplementary concept record,SCR)及其在MeSH中的關系?;谠摂?shù)據(jù)集,pyMeSHSim實現(xiàn)了4種基于信息內容的算法和一種基于圖譜的算法,可用于度量兩個網格術語之間的語義相似度。結果表明,使用pyMeSHSim識別的網絡術語和以前手工識別的網絡術語的語義相似度高達0.89~0.99。PyMeSHSim有望在生物信息學、計算生物學和生物醫(yī)學研究中作為一種強大的工具得到廣泛的應用。
(2)醫(yī)學實體語義模糊
基于研究和醫(yī)學文獻分析發(fā)現(xiàn),相同疾病名可能以多種不同的形式出現(xiàn),比如同義詞替換(如“腦中風”“腦卒中”)、疾病名稱前的簡短描述修飾語(如“大面積心臟病發(fā)作”),這些均會造成醫(yī)學實體語義的復雜多變。近年來針對這個問題的實體鏈接研究較多。
2017年,Cho H等人[32]聯(lián)合解析同義詞和縮寫詞的領域特定詞典及基于神經網絡算法組合的大量未標注數(shù)據(jù),該聯(lián)合方法的精確度顯著提高。
2018年,Gorrell G等人[33]提出了一個新的系統(tǒng)Bio-YODIE。Bio-YODIE有兩個主要的組成部分,首先,資源準備步驟將運行時所需的UMLS和其他信息資源處理為高效的形式,盡可能多地提前完成工作,以盡量減少運行時的處理;其次,流程本身對文檔進行了注釋,這些文檔包括UMLS概念唯一標識符以及來自UMLS的其他相關信息。基于文本工程的通用結構(general architecture for text engineering,GATE),YODIE最初是一個通用的域系統(tǒng),引用了DBpedia。Bio-YODIE是該系統(tǒng)的生物醫(yī)學版本,它繼承了一般領域的研究歷史。與MetaMapLite的不同之處在于, 消除歧義是Bio-YODIE中的優(yōu)先事項。Bio-YODIE已被集成到CogStack中,并在大規(guī)模臨床應用中得到廣泛應用。
2019年,Wright D[34]提出了一個深度連貫模型NormCo,它考慮了實體提及的語義,以及單個文檔中提及的主題連貫性。NormCo在兩個疾病標準化語料庫上的預測質量和效率方面優(yōu)于當時最先進的基線方法,并且至少在準確性和標記文檔的F1分數(shù)方面表現(xiàn)同樣出色。
2019年,Mondal I等人[35]提出了一種基于候選知識庫條目與疾病描述相似度的排序方法,探討了域內子詞級信息處理疾病規(guī)范化任務的能力。該方法利用由疾病描述m、陽性候選qp、陰性候選qni組成的三元組(qp,m,qni)進行候選排序,引入了一個穩(wěn)健的、可移植的候選生成方案,該方案不使用手工編制的規(guī)則。在標準基準NCBI疾病數(shù)據(jù)集上的實驗結果表明,該系統(tǒng)在很大程度上優(yōu)于先前的方法。
2020年,Zhu M等人[36]提出了一種潛在類型實體鏈接模型LATTE,該模型通過對實體提及和實體的潛在細粒度類型信息進行建模來改進實體鏈接。與以前直接在實體提及和實體之間執(zhí)行實體鏈接的方法不同,LATTE在沒有直接監(jiān)督的情況下聯(lián)合執(zhí)行實體對齊和潛在的細粒度類型學習。大量的實驗結果表明,該模型比幾種先進的技術具有顯著的性能改進。
(3)公開醫(yī)學數(shù)據(jù)集較小
在醫(yī)學領域,對數(shù)據(jù)進行標簽標注是一項費時費力的大工程。因此目前所有的實體鏈接公開數(shù)據(jù)集都是小規(guī)模的,如何在小規(guī)模數(shù)據(jù)集上進行高質量的實體鏈接是目前研究的一個難點。
2017年,Rajani N F等人[37]提出使用精確聚焦的輔助特征來克服醫(yī)學領域的這些挑戰(zhàn),這些輔助特征可以從少量數(shù)據(jù)中形成分類邊界。該模型優(yōu)于多個基線水平,并在多個醫(yī)學數(shù)據(jù)集上更新了最優(yōu)結果。
醫(yī)學實體鏈接較常用的數(shù)據(jù)集主要有以下幾種,見表5。
表5 醫(yī)學實體鏈接常用的數(shù)據(jù)集
(1)別名實體候選生成問題
在醫(yī)學領域中相同的語義往往可以有多種不同的叫法,醫(yī)學實體的多詞同義現(xiàn)象十分普遍,在判斷別名實體時很難將所有對應實體的候選實體全部找出,導致實體鏈接的準確率下降,因此解決別名實體候選生成是未來的研究重點。
(2)不完整數(shù)據(jù)集的實體鏈接
在實體鏈接中,實體、實體的類別信息、關系信息以及上下文信息對實體對齊非常重要,醫(yī)學數(shù)據(jù)經常存在數(shù)據(jù)不完整的情況,使得實體鏈接效果不是很好,通過僅有的實體相關信息進行鏈接是醫(yī)學領域實體對齊面臨的又一大挑戰(zhàn)。
(3)基于多種語言的實體對齊
目前實體鏈接系統(tǒng)主要針對的是英文語料,中文或者其他語言的鏈接系統(tǒng)非常缺乏。中文以及其他語言與類似英語的語言不同,使得實體鏈接難度增加。對于中文和其他語言的實體鏈接系統(tǒng),也需要重點研究。
現(xiàn)有知識圖譜數(shù)據(jù)的存儲方式主要分為兩種:基于關系模型的存儲方式和基于圖模型的存儲方式。
基于關系模型的知識圖譜存儲方式包括三元組表、水平表、屬性表、垂直劃分、六重索引和DB2RDF。
目前,基于圖數(shù)據(jù)庫的知識圖譜存儲方法是學術界研究的主流。圖數(shù)據(jù)庫的優(yōu)點在于其天然能表示知識圖譜結構,圖中的節(jié)點表示知識圖譜的對象,圖中的邊表示知識圖譜的對象關系。其最大的優(yōu)點是可以用來處理復雜的關系問題,提供完善的圖查詢語言,支持各種圖挖掘算法。采用圖數(shù)據(jù)庫存儲知識圖譜,能有效利用圖數(shù)據(jù)庫中以關聯(lián)數(shù)據(jù)為中心的數(shù)據(jù)表達、存儲和查詢。基于圖模型的存儲方式見表6。
表6 基于圖模型的存儲方式
知識圖譜的存儲方式應考慮其后續(xù)的使用效率,應根據(jù)自己的應用場景、數(shù)據(jù)情況來具體設計。可參考表7選擇最適用的存儲方式。
表7 知識圖譜存儲方式比較
基于醫(yī)學知識圖譜更側重于實體之間的關系(例如藥物-疾病、疾病-表征、藥物-藥物及藥物-表征)的特點,醫(yī)學知識圖譜的存儲基本采用圖數(shù)據(jù)庫,其中應用最廣泛的為Neo4j系統(tǒng)。曹明宇等人[38]開發(fā)的基于知識圖譜的原發(fā)性肝癌知識問答系統(tǒng)、吳嘉敏[39]構建的肺癌知識圖譜都將Neo4j作為知識圖譜的存儲系統(tǒng)。Deng W等人[40]利用Neo4j圖形數(shù)據(jù)庫構建醫(yī)學圖譜,包含醫(yī)院科室、疾病和癥狀之間的關系,并基于圖譜提供醫(yī)學指導。
張崇宇[41]提出了基于知識圖譜的醫(yī)療自動問答系統(tǒng),考慮到知識庫問答應用中知識存儲與檢索的效率問題,采用三元組表示與圖數(shù)據(jù)庫存儲(Neo4j)以及JSON表示與鍵值對文檔型數(shù)據(jù)庫存儲(MongoDB)兩種形式的混合數(shù)據(jù)庫存儲的方式對構建的臨床醫(yī)療知識圖譜進行表示和存儲。同時,通過對醫(yī)療實體進行歸一化處理,將標準化后的實體作為節(jié)點存儲到知識圖譜中。
(1)復雜關系的可視化
在醫(yī)學知識中,實體之間的關系經常是錯綜復雜的,這使得將復雜關系能夠更好地可視化成為研究的一個難點。
當前,新的蛋白質和基因序列的數(shù)量呈爆炸式增長,這使得對其生物學特性的有效表征和分析變得越來越復雜。2019年,Hu G M等人[42]提出了一個基于網絡的圖數(shù)據(jù)庫工具SeQuery,通過整合序列結構和功能信息,直觀地可視化蛋白質組/基因組網絡。用GPCR2841數(shù)據(jù)集進行的序列測試表明,SeQuery能正確識別查詢到的100個蛋白質序列中的99個。SeQuery非常適用于其他生物網絡,可以通過添加更多的生物數(shù)據(jù)庫來擴展SeQuery。
(2)用戶友好的查詢方式
知識圖譜的存儲是為了讓用戶更好地使用和查詢知識,讓用戶的查詢更簡單便捷一直是知識圖譜存儲的關鍵和難點。
結直腸癌(colorectal cancer,CRC)是常見的癌癥類型之一,它的發(fā)生與基因和細胞表觀遺傳機制的放松有關。2017年,Balaur I等人[43]提出了圖數(shù)據(jù)庫EpiGeNet,用于存儲和查詢在結直腸癌發(fā)生的不同階段觀察到的分子事件(遺傳和表觀遺傳)之間的條件關系。EpiGeNet增強了探索與結直腸癌進展相關的研究方面的查詢能力,EpiGeNet框架提供了更好的管理和可視化數(shù)據(jù)的能力,特別是針對結直腸癌的發(fā)生和發(fā)展的分子事件。
基因組技術的最新進展使得從結核分枝桿菌分離物中產生大量成本效益高的“組學”數(shù)據(jù)成為可能,然后可以通過許多異構的公開可用的生物數(shù)據(jù)庫共享這些數(shù)據(jù)。盡管碎片化管理很有用,但它對研究人員聯(lián)合查詢利用數(shù)據(jù)的能力產生了負面影響。2020年,Lose T等人[44]提出了抗結核病NeoDB(一個整合的結核分枝桿菌經濟學知識庫)?;贜eo4j,將標簽屬性圖模型綁定到合適的本體,從而創(chuàng)建抗結核病NeoDB??菇Y核病NeoDB使研究人員能夠通過鏈接著名的生物數(shù)據(jù)庫和發(fā)表文獻中的結核分枝桿菌變體數(shù)據(jù)來執(zhí)行復雜的聯(lián)合查詢。
(3)認證和加密形式的安全保障
隱私是醫(yī)院在發(fā)布涉及個人敏感信息的數(shù)據(jù)時應保留的一個重要因素。研究尋求在不侵犯個人信息保密性的情況下向公眾發(fā)布數(shù)據(jù)的解決方案。對數(shù)據(jù)進行處理,可以在維護基本信息的同時安全地發(fā)布數(shù)據(jù)。2020年,Saranya K等人[45]提出了一種基于事務圖的自適應概率安全處理方法,用于醫(yī)療環(huán)境中的安全處理。該方法首先為每個用戶交互生成交互圖,并在此基礎上估計每個交互項的收斂性和偏差測度。基于這些值,該方法計算了一個概率矩陣,并在這個矩陣的基礎上生成本體。實驗結果表明,所提方法可以產生有效的安全處理和數(shù)據(jù)發(fā)布結果。
● 醫(yī)療數(shù)據(jù)類型種類繁多,現(xiàn)有圖數(shù)據(jù)庫系統(tǒng)支持過多數(shù)據(jù)組織的形式,但不清楚在一些情景中哪個是最好的。如何根據(jù)數(shù)據(jù)的不同選擇合適的系統(tǒng)和圖模型是未來一個很重要的問題。
● 醫(yī)療數(shù)據(jù)大多獨立分布在不同的醫(yī)療機構,數(shù)據(jù)的分布式存儲對醫(yī)療數(shù)據(jù)的存儲與分析至關重要。目前還沒有為圖數(shù)據(jù)庫開發(fā)拓撲感知或路徑感知的數(shù)據(jù)分布方案,特別是在最近提出的數(shù)據(jù)中心、高性能計算網絡拓撲和路徑體系結構的背景下。因此,未來數(shù)據(jù)的分布式處理將是一個亟待解決的問題。
● 很少有研究使用不同類型的硬件結構、加速器和硬件相關設計(如FPGA、與網絡接口卡相關的設計、硬件交互等),但這對于大規(guī)模醫(yī)療數(shù)據(jù)的存儲也是不可缺少的重要一環(huán)。
醫(yī)學知識圖譜與問答系統(tǒng)的融合是目前極具挑戰(zhàn)性的研究方向,同時也是典型的應用場景?;谥R圖譜的醫(yī)療問答系統(tǒng)可以快速響應醫(yī)患用戶提出的問題,并給出準確、有效的解答。下面將從問答系統(tǒng)的實現(xiàn)方法、實際應用、關鍵挑戰(zhàn)3個方面進行闡述分析。
(1)實現(xiàn)方法
本文參考了近3年的研究進展,總結出醫(yī)療領域基于知識圖譜的問答系統(tǒng)主要有兩種實現(xiàn)方法:檢索式和生成式。其中,檢索式主要面向系統(tǒng)構建的知識圖譜,生成式主要面向系統(tǒng)收集的問答庫數(shù)據(jù),表8列出了可用于構建基于知識圖譜的醫(yī)療問答系統(tǒng)的數(shù)據(jù)來源。
表8 基于知識圖譜的醫(yī)療問答系統(tǒng)使用的數(shù)據(jù)來源
檢索式方法就是將用戶的問句轉化為知識庫的查詢語句,再將查詢的結果轉化成自然語言返回給用戶,其一般流程由語義提取、問題匹配以及答案查詢3個部分組成,如圖2所示。
圖2 檢索式方法的一般流程
語義提取指從用戶提出的問句中提取出涉及的醫(yī)學實體、關系等語義信息,主要包括實體識別和關系抽取兩部分,可以采用詞典匹配、傳統(tǒng)機器學習、神經網絡甚至平臺工具(如哈爾濱工業(yè)大學語言云平臺)等方法。參考文獻[46]基于自定義詞典的Jieba分詞匹配獲得問句中的實體。
參考文獻[47]中的DIK-QA系統(tǒng)使用BiLSTM-CRF神經網絡模型抽取問句中的醫(yī)療實體,并在該模型中引入注意力機制,以提高實體識別的準確度。參考文獻[48]借助哈爾濱工業(yè)大學語言云平臺的LTPParser接口進行句法分析,將結果與詞庫內的實體進行比對,從而獲取比對成功的實體和關系。
問題匹配旨在識別問句的意圖,將問題進行分類,匹配預先制定的問題模板,一般采用匹配算法、TextCNN分類算法、SVM分類器等方法。Huang M X等人[47]采用AC多模式匹配算法將問句匹配到不同的問題類型上。
參考文獻[38]結合術語頻率-逆文檔頻率(term frequency–inverse document frequency,TFIDF)算法和word2vec詞向量生成句子向量,匹配最相似的問題模板,根據(jù)模板的語義及問題中的實體到知識圖譜中檢索答案。參考文獻[49-50]均采用TextCNN分類算法實現(xiàn)問句類型的分類。謝剛等人[51]利用支持向量機模型對問題進行主題分類和意圖識別。
答案查詢即根據(jù)問題模板將問題轉化成查詢語句,然后在知識圖譜中查詢問題的答案,主要通過查詢語句直接檢索答案或者通過推理規(guī)則得出答案。曹明宇等人[38]使用Cypher語言在Neo4j圖形數(shù)據(jù)庫中查詢答案。參考文獻[48]根據(jù)問題模板生成完整的SPARQL語言,并在甲狀腺知識圖譜內進行查詢。Bo L等人[52]使用Elasticsearch查詢語言,配合簡單的輔助推理算法,給用戶匹配相關癥狀,搜索可能的疾病,并推薦適當?shù)脑\斷方法。
而生成式方法則利用相關模型,根據(jù)輸入的問題生成答案或者直接檢索問答庫,其既需要醫(yī)療領域問答對語料數(shù)據(jù),也需要知識圖譜的實體及關系數(shù)據(jù),主要采用神經網絡進行模型訓練。參考文獻[53]使用基于LSTM的Seq2Seq模型構建答案生成模型。參考文獻[54]將記憶神經網絡作為智能問答的算法模型,將知識庫的知識存儲在模型中,可在網絡中直接調用。
(2)實際應用
雖然我國醫(yī)療問答系統(tǒng)起步較晚,但國內已有不少科技公司在市面上推出自主研發(fā)的醫(yī)療問答系統(tǒng)。如諾華制藥攜手騰訊合作推出的“護心小愛(AI)”,該平臺以微信小程序為載體,通過對話機器人為心衰患者提供針對常規(guī)醫(yī)療問題及日常生活問題的答疑解惑,以及科學的健康資訊。再如北京慧醫(yī)明智科技有限公司旗下的“慧醫(yī)大白”,其使用知識圖譜、語義理解和對話管理等技術手段,通過與用戶進行多輪問答,了解用戶的具體病癥,最終提供健康評估和健康行為建議。
而在問答系統(tǒng)起步較早的國外市場,最出名的面向醫(yī)學領域的智能問答系統(tǒng)是IBM的“沃森醫(yī)生(Dr. Watson)”,其學習了海量的醫(yī)療數(shù)據(jù),包括領域內的頂尖文獻、診斷報告、電子病歷甚至醫(yī)學影像等醫(yī)療信息,利用自身龐大的知識庫為患者提出的醫(yī)學問題提供最佳的答案。
(3)關鍵挑戰(zhàn)
目前,國內醫(yī)療問答系統(tǒng)的研究發(fā)展仍然存在許多的挑戰(zhàn),下面列舉了3個主要的關鍵挑戰(zhàn)。
一是針對非醫(yī)學專業(yè)人員的信息需求問題,由于他們的醫(yī)學專業(yè)知識不強,無法準確描述具體問題,在獲取答案時會存在一定程度的困難。
二是中文領域問答系統(tǒng)研究不足,主要體現(xiàn)在3個方面:①缺乏高質量醫(yī)學領域的語料資源;②國內醫(yī)學名詞術語標準化還存在整體規(guī)劃缺乏、權威術語標準數(shù)量不足以及更新不及時等問題;③構建中文領域的醫(yī)學智能問答系統(tǒng)的工具和方法不成熟。
三是醫(yī)療問答準確性問題,提高問答系統(tǒng)的準確性仍然是研究的熱門方向。
(1)簡介
醫(yī)學上的用藥推薦與一般的推薦算法不同,一般的推薦算法是根據(jù)用戶的歷史記錄,利用數(shù)學算法推測出用戶可能的需求,已被廣泛應用于電商等互聯(lián)網場景。而用藥推薦則是基于循證醫(yī)學的原則,結合患者的具體患病情況以及醫(yī)學專業(yè)知識,推薦適合的用藥方案。一般的推薦算法的推薦結果對準確率的容忍度較高,即使部分推薦結果與用戶需求不符,也能夠接受。但用藥推薦在實際應用中要求達到百分之百的準確率,即藥品一定能夠起到作用,且不能產生不良反應或藥品間的相互作用。
知識圖譜能夠更加清晰準確地表達疾病與藥品之間的適應關系以及藥品間的相互作用,基于知識圖譜的用藥推薦與其他人工智能方法相比,能夠取得更好的效果。目前基于知識圖譜的用藥推薦研究進展與其他基線水平相比有所提升,但還無法達到實際應用的要求。
(2)方法
目前醫(yī)療用藥推薦系統(tǒng)使用的方法主要有以下兩種。
第一種是圖卷積網絡的方法,即在圖上使用卷積神經網絡。2018年Shang J Y等人[55]通過一個存儲模塊將藥物相互作用(drug-drug interaction,DDI)的知識圖譜集成為一個圖形卷積網絡,并將縱向患者向量建模作為查詢,該方法在所有有效性度量方面都優(yōu)于所有基線方法,并且在現(xiàn)有電子健康記錄(electronic health record,EHR)數(shù)據(jù)中實現(xiàn)了3.60%的DDI率降低(即推薦藥品之間有相互作用的概率降低3.6%)。2019年,Wang S S等人[56]提出了一種針對藥物組合預測(medicine combination prediction,MCP)的圖卷積強化學習模型。其將MCP任務轉換為無序馬爾可夫決策過程(Markov decision process,MDP)問題,并設計了一個深度強化學習機制來學習藥物之間的相關性和不良相互作用。相比于GAMENet,CompNet在Jaccard和F1分數(shù)標準上分別提高了3.74%、6.64%。2020年,Kwak H等人[57]構造了一個藥物疾病圖譜,使用圖神經網絡學習節(jié)點表示,根據(jù)學習到的節(jié)點表示來預測藥物節(jié)點和疾病節(jié)點是否具有藥物不良反應(adverse drug reaction,ADR)關系。與其他算法相比,該模型的接受者工作特征曲線下的面積(area under curve of receiver operating characteristic,AUROC)和精度-召回率曲線下的面積(area under curve of precision recall curve,AUPRC)性能分別提高到0.795和0.775。
第二種是知識圖譜嵌入的方法,包括將實體和關系轉化為連續(xù)的向量空間,從而簡化操作,同時保留知識圖譜的原有的結構。2017年Wang M等人[58]構建了患者-疾病-藥品圖譜,將其嵌入低維空間后,進行用藥推薦。首先構建疾病和藥品圖譜,通過EHR分別連接疾病和藥品圖譜,形成兩個二分圖,通過患者數(shù)據(jù)將兩個二分圖連接起來,并構建了一個高質量的異構圖,該方法的預測準確度(即Jaccard系數(shù))、藥物相互作用發(fā)生率、冷啟動(即沒有患者數(shù)據(jù)時的使用)、臨床專家評分均高于基線水平。2019年Wang X Y等人[59]構建了疾病-藥品圖譜,將其嵌入低維空間后,進行用藥推薦,并提出一種基于知識圖譜嵌入增強主題模型(knowledge graph enhanced topic model,KGETM)的中藥推薦模型。在中藥基準數(shù)據(jù)集上的實驗結果表明,該方法優(yōu)于當時最新的方法,中藥知識圖嵌入在中藥推薦中有很好的應用前景。
(3)研究方向
醫(yī)學知識圖譜在用藥推薦系統(tǒng)應用領域的未來研究方向主要有以下幾方面。
① 構建完整的醫(yī)學知識圖譜。人類對疾病與藥品的認識是動態(tài)變化的,結合疾病、癥狀、藥品、藥品間的相互作用及患者的臨床數(shù)據(jù)、患病的時間序列信息等,構建一個完整的醫(yī)學動態(tài)知識圖譜,確保知識的完整性、準確性和時效性。
② 知識圖譜嵌入學習是將實體和關系映射到低維連續(xù)向量空間的表示方法,在保留知識圖譜結構信息的同時,還能夠改善數(shù)據(jù)稀疏問題,提高計算效率,因此在進行后續(xù)用藥推薦任務之前,先對知識圖譜進行表示學習是很有必要的。
③ 考慮到構建動態(tài)醫(yī)學知識圖譜的必要性,而目前大多數(shù)知識嵌入表示研究建立在靜態(tài)的知識圖譜上,如何對動態(tài)知識圖譜進行有效的知識表示是一個待解決的問題。將圖時空網絡與動態(tài)知識圖譜相結合的知識嵌入表示用于用藥推薦是一個頗具價值的研究方向。
構建醫(yī)療領域的知識圖譜,可以從海量數(shù)據(jù)中提煉出醫(yī)療知識,并合理高效地對其進行管理、共享及應用,這對當今的醫(yī)療行業(yè)具有重要意義,也是很多企業(yè)和研究機構的研究熱點。本文對醫(yī)學知識圖譜構建過程中的研究熱點、現(xiàn)有技術、挑戰(zhàn)及未來發(fā)展方向進行了綜述,具體見表9。醫(yī)學知識圖譜將知識圖譜與醫(yī)學知識結合,定會推進醫(yī)學數(shù)據(jù)的自動化與智能化處理,為醫(yī)療行業(yè)帶來新的發(fā)展契機。醫(yī)學知識圖譜未來總的發(fā)展方向應該體現(xiàn)以下幾個方面。
表9 醫(yī)學知識圖譜構建關鍵技術及研究進展匯總
(1)多語言醫(yī)學知識圖譜
國內外醫(yī)學知識的相互融合促進更有利于醫(yī)學領域的發(fā)展,而實現(xiàn)不同國界醫(yī)學知識的相互溝通和交流,多語言醫(yī)學知識圖譜技術是關鍵,這會成為未來醫(yī)學知識圖譜發(fā)展的一個重要趨勢。
(2)大規(guī)模多模態(tài)多源醫(yī)學知識庫
受到多方面因素的影響,現(xiàn)有的醫(yī)學知識圖譜規(guī)模大多有局限,表現(xiàn)方式也較為單一,大多以文本和圖數(shù)據(jù)的形式呈現(xiàn),但聲音、影像、圖片等也蘊含大量的醫(yī)學信息,在醫(yī)學臨床中也存在大量的醫(yī)療影像、X光等多模態(tài)信息,醫(yī)學知識的來源也可以來自書本、文獻、網頁、視頻等。因此未來醫(yī)學知識圖譜研究的一個熱點是構建大規(guī)模多模態(tài)多源的醫(yī)學知識庫[60]。
(3)基于時空特性的知識演化和多粒度知識推理
研究基于深度學習與邏輯推理相互約束的大規(guī)模多粒度知識推理模型與方法,研制基于本體、規(guī)則與深度學習相結合的大規(guī)模知識推理系統(tǒng),使其能夠對包含10億級RDF三元組的知識庫和萬級規(guī)則進行推理,平均響應時間在秒級,并具有良好的可伸縮性。在此基礎上,研究基于時空特性的知識演化模型與預測方法,研制知識演化系統(tǒng),使其能夠實時地對知識庫進行更新,平均響應時間為秒級。