李宏偉 嚴(yán)武
“十四五”規(guī)劃中提出:加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國,培育壯大人工智能、大數(shù)據(jù)、云計(jì)算等新興數(shù)字產(chǎn)業(yè),加快構(gòu)建數(shù)字技術(shù)輔助決策機(jī)制,提高基于高頻大數(shù)據(jù)精準(zhǔn)動(dòng)態(tài)監(jiān)測預(yù)測預(yù)警水平,提升大數(shù)據(jù)等現(xiàn)代化技術(shù)手段輔助治理能力,推進(jìn)大數(shù)據(jù)智能化平臺建設(shè)。臨床大數(shù)據(jù)中存儲(chǔ)了豐富的患者信息,包括患者電子健康記錄、過去診療結(jié)果、此次診斷說明、用藥方案等。這些信息提供了患者完整的健康狀況和其他有價(jià)值的信息[1-2]。隨著信息系統(tǒng)的發(fā)展,醫(yī)院的臨床大數(shù)據(jù)也越來越龐大,研究這些信息可以為疾病關(guān)聯(lián)、輔助診療、用藥推薦等帶來重大進(jìn)步。然而,目前大多數(shù)臨床數(shù)據(jù)都是以自然語言形式記錄,以結(jié)構(gòu)化如診斷代碼、實(shí)驗(yàn)室結(jié)果等,或非結(jié)構(gòu)化如臨床記錄、進(jìn)展記錄等格式進(jìn)行存儲(chǔ),研究人員很難對其進(jìn)行統(tǒng)計(jì)分析和處理。隨著信息技術(shù)的發(fā)展,需要開發(fā)一種強(qiáng)大的信息管理工具來收集和分析龐大的臨床數(shù)據(jù)。
知識圖譜用于描述現(xiàn)實(shí)中存在的各種概念和實(shí)體及它們之間的復(fù)雜關(guān)系,目的在于提升其搜索引擎的性能,優(yōu)化用戶在搜索過程中的體驗(yàn)。由于當(dāng)前的自然語言處理方法還不夠完善,知識圖譜的構(gòu)建往往需要付出很大的代價(jià),完全自動(dòng)化的構(gòu)建方式難以得到較為準(zhǔn)確的知識圖譜[3-4]。針對臨床大數(shù)據(jù)已經(jīng)提出了幾種從醫(yī)療記錄的自由文本部分提取實(shí)體的提取系統(tǒng)和方法[5-6]。目前,在生物醫(yī)學(xué)領(lǐng)域廣泛使用的工具是cTAKES[7]和MetaMap[8]。cTAKES和MetaMap 都使用統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System, UMLS)來提取和標(biāo)準(zhǔn)化醫(yī)學(xué)概念,提取醫(yī)療實(shí)體,如疾病分類、疾病診斷、藥物等。cTAKES 結(jié)合了基于規(guī)則和機(jī)器學(xué)習(xí)技術(shù)從臨床分布式數(shù)據(jù)中提取信息,以順序執(zhí)行組件的方式來處理臨床文本。MetaMap 將生物醫(yī)學(xué)文本映射到統(tǒng)一醫(yī)學(xué)語言系統(tǒng)中的概念,結(jié)合自然語言處理和混合方式,發(fā)現(xiàn)文本中提到的敘詞表和生物醫(yī)學(xué)文獻(xiàn)的半自動(dòng)和全自動(dòng)索引。臨床大數(shù)據(jù)的數(shù)量正以指數(shù)速度增長,如何高效地構(gòu)建領(lǐng)域內(nèi)準(zhǔn)確的知識圖譜是亟需解決的一大難題。為了解決這一難題,本文著重于提出一個(gè)有效的流程來處理龐雜的醫(yī)療數(shù)據(jù),并構(gòu)建一個(gè)可靠的醫(yī)學(xué)知識庫。
針對臨床大數(shù)據(jù)中廣泛分布的實(shí)體,本文設(shè)計(jì)和實(shí)現(xiàn)了臨床分布式大數(shù)據(jù)知識圖譜的構(gòu)建架構(gòu)和流程。知識圖譜構(gòu)建框架見圖1,包括數(shù)據(jù)獲取、實(shí)體抽取、關(guān)系抽取、實(shí)體對齊、本體構(gòu)建、圖譜構(gòu)建和展示。
圖1 知識圖譜構(gòu)建框架
數(shù)據(jù)抽取是指從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提取,形成知識(鏈接數(shù)據(jù))并存入知識圖譜。醫(yī)學(xué)文本的數(shù)量正以指數(shù)速度增長,如何從眾多的醫(yī)療文本中準(zhǔn)確提取醫(yī)療實(shí)體,如疾病分類、疾病診斷、藥物等以及其間的關(guān)系是構(gòu)建高質(zhì)量圖譜的關(guān)鍵。醫(yī)療知識抽取按要素類型分為實(shí)體抽取、關(guān)系抽取和屬性抽取。
本文采取自頂向下和自底向上相結(jié)合的方法來構(gòu)建醫(yī)療知識圖譜。自頂向下的構(gòu)建方法是以本體作為知識圖譜的模式層,通過構(gòu)建醫(yī)療領(lǐng)域本體,為知識圖譜的構(gòu)建提供概念支撐。本體構(gòu)建的過程比較繁瑣,見圖2。本文醫(yī)療本體的構(gòu)建過程是通過人工構(gòu)建方法實(shí)現(xiàn)的,并選擇當(dāng)前使用范圍最廣泛的本體編輯器Protégé 本體構(gòu)建工具構(gòu)建醫(yī)療本體。
圖2 醫(yī)療本體示例
由于醫(yī)學(xué)數(shù)據(jù)種類繁雜,存儲(chǔ)方式不一,醫(yī)療格式和標(biāo)準(zhǔn)不同,經(jīng)常涉及交叉領(lǐng)域等特點(diǎn),導(dǎo)致醫(yī)學(xué)領(lǐng)域與其他領(lǐng)域在知識表示方面有所差異,同時(shí)也給醫(yī)學(xué)領(lǐng)域的知識表示帶來極大的挑戰(zhàn)。本文采用W3C 提出的資源描述框架(Resource Description Frame, RDF)作為知識表示的模型,以便更為豐富地描述和表達(dá)網(wǎng)絡(luò)資源的內(nèi)容與結(jié)構(gòu),更有效地實(shí)現(xiàn)知識圖譜的存儲(chǔ)。
由于真實(shí)世界中的知識信息可以表達(dá)成一系列的RDF 三元組,其構(gòu)成形式為<主語,謂語,賓語>,其中主語實(shí)體和賓語實(shí)體表示圖模型中的節(jié)點(diǎn),謂語為關(guān)系,表示圖模型中的邊。例如給定醫(yī)療中的描述信息“胃癌多表現(xiàn)為右上腹部劍下疼痛不適且胃竇糜爛性炎癥”,可以使用RDF 三元組表示為<胃癌,表現(xiàn),右上腹部劍下疼痛不適>和<胃癌、表現(xiàn)、胃竇糜爛性炎癥>。
由于醫(yī)學(xué)知識圖譜數(shù)據(jù)模型的圖特性,面對大規(guī)模知識庫數(shù)據(jù)時(shí),基于關(guān)系數(shù)據(jù)模型、對象數(shù)據(jù)模型等傳統(tǒng)管理方式難以同時(shí)滿足低數(shù)據(jù)冗余與高查詢性能這兩個(gè)要求。若以圖方式管理醫(yī)學(xué)知識庫數(shù)據(jù),不僅可以避免知識庫邏輯數(shù)據(jù)模型與物理數(shù)據(jù)模型之間的轉(zhuǎn)換,而且可利用成熟的圖算法優(yōu)化知識庫數(shù)據(jù)查詢,例如最短路徑尋找、N 度關(guān)系查找等。
目前主要的原生圖數(shù)據(jù)庫有Neo4j、Dgraph 等。Neo4j 是一個(gè)嵌入式、基于磁盤的、支持完整事務(wù)的數(shù)據(jù)庫。Neo4j 重點(diǎn)在于解決擁有大量連接的傳統(tǒng)關(guān)系數(shù)據(jù)庫在查詢時(shí)出現(xiàn)的性能衰退問題。Dgraph是一個(gè)可擴(kuò)展的、分布式的、低延遲圖形數(shù)據(jù)庫。Dgraph 的目標(biāo)是提供生產(chǎn)水平的規(guī)模和吞吐量,可以在超過TB 的結(jié)構(gòu)數(shù)據(jù)里進(jìn)行操作。本文采用基于Dgraph 分布式圖數(shù)據(jù)庫來構(gòu)建和部署醫(yī)療的知識存儲(chǔ),保障知識的存儲(chǔ)性能,以支撐后續(xù)應(yīng)用。
本文選用Dgraph 圖數(shù)據(jù)庫作為醫(yī)療信息的存儲(chǔ)方式。首先根據(jù)構(gòu)建好的醫(yī)學(xué)領(lǐng)域本體創(chuàng)建圖數(shù)據(jù)庫模式層,通過遍歷數(shù)據(jù)、創(chuàng)建實(shí)體、創(chuàng)建實(shí)體與實(shí)體的關(guān)系并添加實(shí)體屬性完成信息存儲(chǔ)。
知識圖譜將復(fù)雜的信息處理成結(jié)構(gòu)化表示的知識,所表示的知識可以通過圖形繪制而展現(xiàn)出來,為信息的檢索提供便利。
本文將所有經(jīng)過處理的醫(yī)療RDF 三元組存入Dgraph 分布式圖數(shù)據(jù)庫來構(gòu)建和部署醫(yī)療的知識存儲(chǔ)。Dgraph 的數(shù)據(jù)導(dǎo)入遵循W3C 標(biāo)準(zhǔn)RDF 格式。如圖3 所示,在圖的場景下表示相當(dāng)于uid=0x2609a的節(jié)點(diǎn)的name 邊指向了字符串“直腸癌”,在關(guān)系數(shù)據(jù)庫的場景相當(dāng)于更新記錄的name 字段為“直腸癌”。與“直腸癌”節(jié)點(diǎn)關(guān)聯(lián)的關(guān)系有“掛號”“并發(fā)癥”和“常用藥品”關(guān)系,與此關(guān)系關(guān)聯(lián)的節(jié)點(diǎn)分別是“腫瘤科”“腸梗阻”和“卡培他濱片”等。
圖3 醫(yī)療知識圖譜可視化示意
隨著導(dǎo)入到Dgraph 中的數(shù)據(jù)量逐漸增加,節(jié)點(diǎn)數(shù)量逐步增多,節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系也越來越復(fù)雜。見圖4。
圖4 更復(fù)雜的知識圖譜可視化示意
為了能將圖譜進(jìn)行更廣泛的應(yīng)用,研究將圖譜中的實(shí)體和關(guān)系表示為一個(gè)向量,進(jìn)而方便進(jìn)行語義計(jì)算。見圖5。
圖5 圖譜中的實(shí)體與關(guān)系研究方法
將上述基于醫(yī)學(xué)知識的圖譜與真實(shí)世界圖譜進(jìn)行融合,研究圖譜融合相關(guān)技術(shù),并將該融合知識圖譜應(yīng)用于臨床其他決策系統(tǒng)。
在知識圖譜中,醫(yī)生可以輸入我院任意一個(gè)疾病進(jìn)行搜索,系統(tǒng)將會(huì)匹配并找到其相關(guān)的子類目診斷并進(jìn)行合并統(tǒng)計(jì),在疾病數(shù)據(jù)關(guān)系圖譜中,將會(huì)展示與當(dāng)前搜索的疾病詞相關(guān)的主要關(guān)鍵詞(第一級節(jié)點(diǎn)),并且繼續(xù)透出與之相關(guān)的主要關(guān)鍵詞(第二級節(jié)點(diǎn)),同時(shí)一并關(guān)聯(lián)顯示該疾病的相關(guān)伴隨診斷以及所有的檢查、檢驗(yàn)、用藥、手術(shù)和癥狀情況作為其他節(jié)點(diǎn),鼠標(biāo)移動(dòng)至節(jié)點(diǎn)和分支時(shí),可以顯示相應(yīng)百分比和節(jié)點(diǎn)詳細(xì)信息。
我院抽取了16 個(gè)臨床業(yè)務(wù)系統(tǒng)近25 年的數(shù)據(jù),建立患者主索引并對醫(yī)療信息歸一化處理,建立格式化字段8 000 余個(gè),并支持對非結(jié)構(gòu)化數(shù)據(jù)自我編輯,在此基礎(chǔ)上,對我院所有疾病進(jìn)行了知識圖譜的展示。目前醫(yī)生通過知識圖譜建立科研項(xiàng)目60余個(gè),并在此基礎(chǔ)上產(chǎn)出SCI 等科研期刊論文10 余篇。知識圖譜使用大數(shù)據(jù)挖掘及數(shù)據(jù)可視化技術(shù)可幫助臨床醫(yī)生更好地從既往真實(shí)病歷數(shù)據(jù)中發(fā)現(xiàn)臨床價(jià)值和科研價(jià)值,給科研提供了很多醫(yī)學(xué)相關(guān)性思路和靈感。
應(yīng)用場景1:在知識圖譜中搜索“糖尿病”,將以圖形方式顯示出我院所有醫(yī)療數(shù)據(jù)中與“糖尿病”最相關(guān)的幾個(gè)診斷、檢查、用藥、檢驗(yàn)、手術(shù)和癥狀等二級節(jié)點(diǎn),鼠標(biāo)停留在任意一個(gè)節(jié)點(diǎn)上時(shí),會(huì)顯示我院同時(shí)具有“糖尿病”和該節(jié)點(diǎn)的病例數(shù),在二級節(jié)點(diǎn)外面還會(huì)關(guān)聯(lián)出“糖尿病”和此二級節(jié)點(diǎn)最相關(guān)的癥狀、檢驗(yàn)和檢查等三級節(jié)點(diǎn),以此類推到四級節(jié)點(diǎn)。
應(yīng)用場景2:在場景1 的基礎(chǔ)上,統(tǒng)計(jì)疾病特征分布,以圖表形式展示出與“糖尿病”相關(guān)的年齡、性別、用藥手術(shù)、檢驗(yàn)和檢查分布,以及與“糖尿病”相關(guān)的排名前10 的伴隨診斷和癥狀。
應(yīng)用場景3:在場景1 的基礎(chǔ)上,統(tǒng)計(jì)疾病指標(biāo)趨勢,以圖表形式展示出與“糖尿病”相關(guān)的近1年的門診人次、急診人次、入院人次、平均住院日、手術(shù)例數(shù)、手術(shù)TOP、檢驗(yàn)TOP、檢查TOP 等疾病指標(biāo)趨勢情況。
此外,我們在知識圖譜的基礎(chǔ)上對接了萬方和PUBMED 文獻(xiàn)數(shù)據(jù)庫,根據(jù)知識圖譜的算法實(shí)現(xiàn)了“研究熱點(diǎn)趨勢河流圖”和“作者圖譜”。
研究熱點(diǎn)趨勢圖以文庫中近10 年相關(guān)疾病研究中各個(gè)不同重要TOPIC 的河流圖為依據(jù),并且每個(gè)TOPIC 下的keywords 能夠進(jìn)行點(diǎn)擊后查看搜索后的具體文獻(xiàn)情況。使用熱點(diǎn)趨勢圖研究疾病,優(yōu)先選擇用戶本身的主要診療疾病,其次選擇用戶所在科室的主要診療疾病,若用戶本身和科室都沒有診療疾病,則選擇醫(yī)院的主要診療疾病作為顯示內(nèi)容??蒲袩狳c(diǎn)趨勢圖最多顯示用戶的前3 個(gè)疾病對應(yīng)的近10 年文獻(xiàn)研究熱點(diǎn),為用戶提供熱點(diǎn)走勢,使其了解專業(yè)領(lǐng)域發(fā)展情況,為科研提供思路和啟發(fā)。見圖6。
圖6 研究熱點(diǎn)趨勢
作者圖譜是根據(jù)用戶診療數(shù)據(jù)中的擅長疾病進(jìn)行推薦的,并計(jì)算該疾病下萬方數(shù)據(jù)庫中文獻(xiàn)的作者分布情況。首先,根據(jù)作者發(fā)表的文獻(xiàn)數(shù)量及作者之間的合作關(guān)系,統(tǒng)計(jì)并繪制出該疾病下萬方數(shù)據(jù)庫中排在前10 名的作者(以大氣泡圓圈展示);其次會(huì)計(jì)算其他作者的文獻(xiàn)數(shù)量與合作關(guān)系,從而繪制該疾病下完整的作者圖譜。另外,在知識圖譜右側(cè)區(qū)域,展示了文獻(xiàn)發(fā)表數(shù)量前5 名的作者最近發(fā)表的3 篇文獻(xiàn),以方便文獻(xiàn)的查找。見圖7。
圖7 作者圖譜
本研究設(shè)計(jì)并實(shí)現(xiàn)了臨床大數(shù)據(jù)知識圖譜的構(gòu)建架構(gòu)和流程,詳細(xì)描述了醫(yī)療知識圖譜的構(gòu)建方法,包括知識獲取、知識表示、知識存儲(chǔ)和知識可視化等,并提供了可視化的醫(yī)療信息查詢和展示頁面。此外,本研究也為如何構(gòu)建知識圖譜提供了技術(shù)支持,具有較大的實(shí)用性,且所采取的方法通用,可以用于其他垂直領(lǐng)域的知識圖譜構(gòu)建流程。主要貢獻(xiàn)包括以下方面。①設(shè)計(jì)和實(shí)現(xiàn)了臨床分布式大數(shù)據(jù)知識圖譜的構(gòu)建架構(gòu)和流程,并提供可視化的醫(yī)療信息查詢和展示頁面。②描述了臨床大數(shù)據(jù)知識圖譜的構(gòu)建方法,包括知識獲取、知識表示、知識存儲(chǔ)和知識可視化等,其方法通用,也可以用于其他垂直領(lǐng)域。③目前領(lǐng)域知識與機(jī)器學(xué)習(xí)結(jié)合的主流方式是以深度學(xué)習(xí)為基礎(chǔ),知識作為前處理、后處理手段或作為深度學(xué)習(xí)目標(biāo)函數(shù)的約束。但這在醫(yī)療場景并不適用,因可解釋性、個(gè)性化診斷等需求反而要以符號邏輯為基礎(chǔ),以基于數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)為補(bǔ)充。鑒于此,我們提出了以臨床指南為基礎(chǔ)構(gòu)建基礎(chǔ)決策框架,針對知識轉(zhuǎn)換為決策模型后存在的問題提出了使用基于數(shù)據(jù)的模型對其進(jìn)行補(bǔ)充、細(xì)化和強(qiáng)化,最終形成可解釋、準(zhǔn)確率高、知識和數(shù)據(jù)雙驅(qū)動(dòng)的決策模型。
本研究所提出的方法尚有一些待進(jìn)一步改進(jìn)之處,如目前展示的只是一些基礎(chǔ)疾病指標(biāo),未來需要基于更智能的算法挖掘更多的疾病指標(biāo)和相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行智能分析及實(shí)現(xiàn)價(jià)值的自動(dòng)發(fā)掘,構(gòu)建知識圖譜中基于遠(yuǎn)程監(jiān)督的實(shí)體識別、基于神經(jīng)網(wǎng)絡(luò)的實(shí)體鏈接等更復(fù)雜的技術(shù)來增加知識的準(zhǔn)確率和覆蓋范圍等。
總體來講,基于臨床分布式大數(shù)據(jù)的知識圖譜,使用大數(shù)據(jù)挖掘及數(shù)據(jù)可視化技術(shù)可幫助臨床醫(yī)生更好地從既往的真實(shí)病例數(shù)據(jù)中發(fā)現(xiàn)臨床價(jià)值和科研價(jià)值,形象、深刻地展示醫(yī)療數(shù)據(jù)之間的關(guān)鍵聯(lián)系,為大數(shù)據(jù)輔助決策提供關(guān)鍵技術(shù)支撐,也適用于大數(shù)據(jù)精準(zhǔn)動(dòng)態(tài)監(jiān)測預(yù)測預(yù)警,提升大數(shù)據(jù)等現(xiàn)代化技術(shù)手段輔助治理能力,符合國家“十四五”規(guī)劃對加強(qiáng)健康衛(wèi)生醫(yī)療科技的要求。