王永博,劉郝弦,高 曠,陳沐坤,任相穎,饒映月,王詩淳,李緒輝,黃 橋,閻思宇,朱 彥,靳英輝
1.武漢大學(xué)中南醫(yī)院循證與轉(zhuǎn)化醫(yī)學(xué)中心(武漢 430071)
2.武漢大學(xué)計(jì)算機(jī)學(xué)院(武漢 430071)
3.湖北中醫(yī)藥大學(xué)針灸骨傷學(xué)院 (武漢 430061)
4.中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所(北京 100700)
臨床實(shí)踐指南是針對(duì)患者的特定臨床問題,基于系統(tǒng)評(píng)價(jià)的證據(jù),在比較不同干預(yù)措施利弊的基礎(chǔ)上,形成的旨在為患者提供最佳醫(yī)療服務(wù)的推薦意見[1],一般由醫(yī)學(xué)組織或是政府機(jī)關(guān)發(fā)布。目前國內(nèi)外針對(duì)指南數(shù)字智能化有兩個(gè)關(guān)鍵問題:一是如何將基于自然語言的非結(jié)構(gòu)化文本指南轉(zhuǎn)換成基于計(jì)算機(jī)語言的結(jié)構(gòu)化電子指南;二是如何進(jìn)行知識(shí)抽取、表示、融合、推理和問答,使得計(jì)算機(jī)能有效理解并高效執(zhí)行結(jié)構(gòu)化的指南[2-4]。知識(shí)圖譜是采用語義技術(shù)形式表達(dá)的系統(tǒng)化、結(jié)構(gòu)化、集成化的特定領(lǐng)域知識(shí)[5]。因此,基于知識(shí)圖譜技術(shù),將指南的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成圖數(shù)據(jù)庫以進(jìn)行存儲(chǔ)及搜索是值得研究的[6]。當(dāng)前指南知識(shí)圖譜的研究主要關(guān)注從臨床問題到推薦意見的內(nèi)容,鮮有涉及指南基本信息及方法學(xué)內(nèi)容,如指南的目標(biāo)人群、指南使用者、證據(jù)收集過程、推薦意見形成過程、證據(jù)質(zhì)量等級(jí)與推薦意見分級(jí)標(biāo)準(zhǔn)、利益沖突等。呈現(xiàn)指南的基本信息及方法學(xué)內(nèi)容對(duì)促進(jìn)指南的客觀、公正、透明具有重要作用。此外,通過知識(shí)圖譜將指南的基本信息及方法學(xué)內(nèi)容與指南的臨床問題和推薦意見進(jìn)行整合,更有利于增強(qiáng)知識(shí)圖譜的完整性。通過對(duì)指南的結(jié)構(gòu)、知識(shí)及知識(shí)間的關(guān)系進(jìn)行規(guī)范化的表示,發(fā)掘指南通用性的結(jié)構(gòu)框架,并通過建模表征,將純文本的指南轉(zhuǎn)換為機(jī)器可理解的結(jié)構(gòu)化指南,可極大提高指南相關(guān)術(shù)語的規(guī)范性和一致性,避免不同信息源指南的語義異構(gòu),為進(jìn)一步指南數(shù)據(jù)挖掘和知識(shí)服務(wù)奠定基礎(chǔ)。前期作者團(tuán)隊(duì)以《中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)》[7]為例,通過系列文章介紹了基于該指南臨床問題到推薦意見的知識(shí)圖譜構(gòu)建過程[8-10]。本文則基于該指南提出了指南基本信息、背景和方法在知識(shí)圖譜中的建模表征方法,旨在豐富完善指南知識(shí)圖譜構(gòu)建,為指南數(shù)字智能化奠定基礎(chǔ),為進(jìn)一步促進(jìn)指南的實(shí)施與推廣提供參考。
《中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)》(以下簡稱為“非肌層浸潤性膀胱癌指南”)包含發(fā)表文獻(xiàn)所有要素,分別是中英文標(biāo)題、摘要、關(guān)鍵詞、背景、方法、結(jié)果、討論、參考文獻(xiàn)、利益沖突說明等,詳情請(qǐng)見原文[7]。
本研究對(duì)解析出的指南基本信息、背景和方法相關(guān)內(nèi)容的知識(shí)結(jié)構(gòu)進(jìn)行梳理、歸納,結(jié)合專家意見設(shè)置各概念間的層級(jí)關(guān)系,據(jù)此對(duì)指南基本信息、背景和方法內(nèi)容進(jìn)行結(jié)構(gòu)化組織。
1.2.1 概念結(jié)構(gòu)表設(shè)計(jì)
本研究采用綜合法的構(gòu)建方式。模式層的設(shè)計(jì)思路及方法已在系列文章的第二篇[8]進(jìn)行描述,此處不做贅述。本研究整理出非肌層浸潤性膀胱癌指南中關(guān)于指南的基本信息、背景和方法相關(guān)內(nèi)容對(duì)應(yīng)本體的多級(jí)概念層次結(jié)構(gòu),如表1所示。其中概念的定義參考臨床研究與指南相關(guān)書籍[11-13],以及醫(yī)學(xué)相關(guān)本體,如生物醫(yī)學(xué)研究本體(ontology for biomedical investigations,OBI)、信息工具本體(information artifact ontology,IAO)與通用醫(yī)學(xué)科學(xué)本體(ontology for general medical science, OGMS),并通過多次專家咨詢修訂而來。
表1 指南本體概念結(jié)構(gòu)表(指南基本信息、背景和方法內(nèi)容)Table 1.Conceptual structure for guideline ontology (Basic information, background and method content of the guideline)
續(xù)表1
續(xù)表1
續(xù)表1
續(xù)表1
1.2.2 語義關(guān)系設(shè)計(jì)
實(shí)現(xiàn)指南結(jié)構(gòu)的概念整合需使以上不同層級(jí)的概念在語義上產(chǎn)生關(guān)聯(lián)。本研究設(shè)計(jì)了核心概念之間的主要語義關(guān)系(見表2),主要包含臨床實(shí)踐指南中的指南基本信息、背景、方法部分。
表2 指南本體設(shè)計(jì)中語義關(guān)系表(指南基本信息、背景和方法內(nèi)容部分)Table 2.Semantic relationships in guideline ontology(Basic information, background and method content of the guideline)
續(xù)表2
續(xù)表2
本研究基于三元組數(shù)據(jù)模型構(gòu)建數(shù)據(jù)層,揭示指南中各類醫(yī)學(xué)實(shí)體間的關(guān)聯(lián),通過鏈接實(shí)體,形成臨床實(shí)踐指南知識(shí)圖譜。
例如,對(duì)于指南基本信息,實(shí)體1為“中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)基本信息”,實(shí)體1所屬概念為“臨床實(shí)踐指南基本信息”,而實(shí)體1指向?qū)嶓w2的關(guān)系為“出版日期” “出版社”“出版地”“狀態(tài)”“指南類型”“學(xué)科分類”“中文標(biāo)題”等,實(shí)體2則對(duì)應(yīng)為“2019年7月”“現(xiàn)代泌尿外科雜志”“中國”“已出版”“疾病治療指南”“泌尿外科學(xué)”“中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)”等,實(shí)體2所屬概念對(duì)應(yīng)為“日期”“組織機(jī)構(gòu)”“地點(diǎn)”“指南狀態(tài)”“指南類型”“醫(yī)學(xué)學(xué)科”“文本”等。指南基本信息、背景和方法內(nèi)容的數(shù)據(jù)層(實(shí)體和關(guān)系)設(shè)計(jì)如表3所示。
表3 三元組關(guān)系示例(指南基本信息、背景和方法內(nèi)容部分)Table 3.Example of a triplet relationship (Basic information, background and method content of the guideline)
續(xù)表3
續(xù)表3
續(xù)表3
基于抽取的三元組數(shù)據(jù)模型,設(shè)計(jì)導(dǎo)入的醫(yī)學(xué)節(jié)點(diǎn)和關(guān)系節(jié)點(diǎn),使用Python將CSV文件導(dǎo)入Neo4j,對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。
若想獲取所有和《中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)》直接相連接的實(shí)體及相應(yīng)的關(guān)系,則輸入cypher語句:
match p=(:臨床實(shí)踐指南{name:'中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)'})--( ) return p
隨著圖數(shù)據(jù)規(guī)模的日益增大,大圖上的子圖搜索問題變得更為重要[14]。以問題為例,后臺(tái)代碼演示數(shù)據(jù)庫檢索:
問題1:對(duì)于指南:“非肌層浸潤性膀胱癌指南的發(fā)布日期?”,查詢?cè)窂绞牵?a:臨床實(shí)踐指南)-[:發(fā)布日期]->(b)。
輸入cypher語句:
Match (a:`臨床實(shí)踐指南` {name:"中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)"}) -[ ]-> ( )-[:發(fā)布日期]-> (b) return b
則可得到圖1-A的結(jié)果,即非肌層浸潤性膀胱癌指南的發(fā)布日期為“2019年7月”。
圖1 臨床實(shí)例驗(yàn)證Figure 1.Validation of clinical examples
問題2:對(duì)于指南:“中國非肌層浸潤性膀胱癌治療與監(jiān)測循證臨床實(shí)踐指南(2018年標(biāo)準(zhǔn)版)的證據(jù)質(zhì)量與推薦意見分級(jí)標(biāo)準(zhǔn)來源是?”,查詢?cè)窂绞牵?a:臨床實(shí)踐指南)-[b:證據(jù)質(zhì)量與推薦意見分級(jí)標(biāo)準(zhǔn)]->(c)。
輸入cypher語句:
Match (a:`臨床實(shí)踐指南`) -[*]-> (b:`證據(jù)質(zhì)量與推薦意見分級(jí)標(biāo)準(zhǔn)`) -[*]-> (c:URL) return c.name
則可得到圖1-B的結(jié)果,即非肌層浸潤性膀胱癌指南的證據(jù)質(zhì)量與推薦意見分級(jí)標(biāo)準(zhǔn)是按照EAU-非肌層浸潤性膀胱癌指南使用的標(biāo)準(zhǔn)進(jìn)行評(píng)估的。
本研究以非肌層浸潤性膀胱癌臨床實(shí)踐指南為例,提出并構(gòu)建了指南知識(shí)圖譜中指南的基本信息、背景和方法呈現(xiàn)方法,其多級(jí)概念架構(gòu)及數(shù)據(jù)層(實(shí)體和關(guān)系部分)設(shè)計(jì)方法也可為其他疾病指南的知識(shí)圖譜構(gòu)建提供參考。本課題組在實(shí)際操作中應(yīng)用多級(jí)概念層初步構(gòu)建了該知識(shí)圖譜,發(fā)現(xiàn)其可合理表達(dá)指南中的概念與語義關(guān)系。但該方法仍存在諸多不足。
首先,較少的層級(jí)結(jié)構(gòu)雖然可確保輸入知識(shí)圖譜的數(shù)據(jù)質(zhì)量,但仍需臨床工作者和工程師對(duì)臨床實(shí)踐指南進(jìn)行整理和總結(jié)。本研究主要針對(duì)指南的基本信息、背景和方法進(jìn)行建模表征,在概念層設(shè)計(jì)中,考慮到與其他本體的映射,使用了統(tǒng)一規(guī)范的醫(yī)學(xué)術(shù)語指標(biāo)體系增強(qiáng)指南計(jì)算機(jī)化中知識(shí)表達(dá)的規(guī)范性和互操作性。對(duì)于部分語義關(guān)系設(shè)計(jì)的指向概念,綜合參考和借用現(xiàn)有的醫(yī)學(xué)本體,權(quán)衡信息涵蓋粒度和實(shí)用性,某些指向概念無需進(jìn)一步區(qū)分,直接使用“文本”“數(shù)字”等數(shù)值類型的屬性來表示。后續(xù)需從多部不同類型的指南、臨床路徑和書籍中盡可能系統(tǒng)檢索出與指南相關(guān)的不同的實(shí)例,并盡可能羅列出每個(gè)概念層下所包含的術(shù)語,討論每個(gè)實(shí)例應(yīng)該歸類到哪些概念層中。若某些實(shí)例無法歸類到當(dāng)前的概念層中,則需考慮增加層級(jí)結(jié)構(gòu)或歸類到新的概念層中,且后續(xù)工作中還需參考一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)、醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)、醫(yī)學(xué)系統(tǒng)命名法——臨床術(shù)語(Systematized Nomenclature of Medicine—Clinical Terms,SNOMED CT)等術(shù)語集補(bǔ)充類和類的層級(jí)體系及添加新的概念層。
其次,語義間關(guān)系的建立也需反復(fù)推敲,后續(xù)可借鑒UMLS等語義關(guān)系網(wǎng),并結(jié)合專家論證,補(bǔ)充或修正語義關(guān)系,包括逆向關(guān)系、繼承關(guān)系和反向繼承關(guān)系等。此外,概念及語義之間關(guān)系的編碼組織方式也需進(jìn)一步研究。
最后,在指南中方法學(xué)部分最為重要的內(nèi)容之一——證據(jù)質(zhì)量與推薦意見分級(jí)標(biāo)準(zhǔn)的建模表征中,對(duì)于證據(jù)質(zhì)量與推薦意見分級(jí)標(biāo)準(zhǔn)類型,本研究參考GRADE及中醫(yī)藥相關(guān)證據(jù)質(zhì)量與推薦意見分級(jí)體系,考慮不同的證據(jù)質(zhì)量與推薦意見分級(jí)體系共有的特征和區(qū)別進(jìn)行建模表征,兩級(jí)概念層設(shè)計(jì)為依據(jù)研究設(shè)計(jì)的分級(jí)標(biāo)準(zhǔn)、依據(jù)研究設(shè)計(jì)及質(zhì)量的分級(jí)標(biāo)準(zhǔn)和依據(jù)證據(jù)體的分級(jí)標(biāo)準(zhǔn)。對(duì)于相同的臨床問題,在不同指南中采用不同的分級(jí)體系并同時(shí)給出了相應(yīng)的證據(jù)質(zhì)量等級(jí)與推薦意見,此時(shí)需通過專家論證,討論不同體系的證據(jù)質(zhì)量對(duì)應(yīng)關(guān)系,如GRADE證據(jù)質(zhì)量等級(jí)對(duì)應(yīng)美國衛(wèi)生保健和質(zhì)量機(jī)構(gòu)(Agency for Healthcare Research and Quality,AHRQ)中的證據(jù)質(zhì)量等級(jí),賦予相應(yīng)的權(quán)重,則在多個(gè)指南的知識(shí)圖譜融合中,檢索相同的臨床問題時(shí),可將推薦意見按照證據(jù)質(zhì)量等級(jí)高低的順序進(jìn)行排序呈現(xiàn),從而體現(xiàn)圖數(shù)據(jù)庫的優(yōu)勢(shì)。
綜上所述,本文以非肌層浸潤性膀胱癌臨床實(shí)踐指南為例,提出的指南基本信息、背景和方法知識(shí)圖譜框架設(shè)計(jì),可以為指南數(shù)字智能化奠定基礎(chǔ),有利于推動(dòng)指南的實(shí)施、推廣與傳播。