国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識(shí)圖譜:一種系統(tǒng)性構(gòu)建因果圖的方法

2022-07-14 05:48白永梅孫華鴿
關(guān)鍵詞:醫(yī)學(xué)知識(shí)三元組圖譜

白永梅 孫華鴿 杜 建

(1.北京大學(xué)醫(yī)學(xué)部醫(yī)學(xué)技術(shù)研究院,北京 100191;2.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國(guó)家研究院,北京 100191;3. 北京大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院,北京 100191;4.墨爾本大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,澳大利亞墨爾本 3010)

隨機(jī)對(duì)照試驗(yàn)(randomized controlled trial,RCT)是流行病學(xué)研究中進(jìn)行因果推斷的金標(biāo)準(zhǔn),但由于時(shí)間效率、設(shè)計(jì)/實(shí)施難度、倫理等問(wèn)題,在無(wú)法實(shí)施RCT的情況下,需要使用觀察性數(shù)據(jù)(如電子健康檔案、隊(duì)列或生物樣本庫(kù))進(jìn)行因果建模[1]?;谟^察性研究揭示暴露-結(jié)局之間因果關(guān)系的重要前提是,識(shí)別與暴露-結(jié)局相關(guān)的所有協(xié)變量(包括混雜變量、中介變量、對(duì)撞變量、工具變量)以及變量之間的復(fù)雜路徑關(guān)系,以在因果建模中更科學(xué)地進(jìn)行變量調(diào)整。目前指導(dǎo)因果建模的主要工具是有向無(wú)環(huán)圖(directed acyclic graphs,DAG,也稱因果圖)[2]。DAG可以使研究假設(shè)更加明確,最大限度識(shí)別混雜因素[3]。DAG側(cè)重于確定因果推斷中主要的偏倚來(lái)源——混雜偏倚[4]??茖W(xué)的因果關(guān)系推斷策略制定必須建立在對(duì)所研究問(wèn)題涉及的先驗(yàn)知識(shí)體系的整體認(rèn)識(shí)和把握基礎(chǔ)之上,但目前DAG的繪制主要依賴研究者的文獻(xiàn)檢索結(jié)果和專家經(jīng)驗(yàn),對(duì)于同一研究問(wèn)題要么不交代所基于的因果圖,要么研究者各自繪制因果圖,具有局部性,在不同的研究者之間存在異質(zhì)性和非標(biāo)準(zhǔn)化,在一定程度上影響了因果推斷的科學(xué)性以及干預(yù)措施的真實(shí)效果。流行病學(xué)研究領(lǐng)域也在呼吁要構(gòu)建系統(tǒng)性、標(biāo)準(zhǔn)化、可共享的混雜因素全球知識(shí)庫(kù),并在觀察性研究中報(bào)告所采用的因果圖,以提高研究質(zhì)量、透明性和可重復(fù)性[5]。使全球范圍內(nèi)分散的研究整合起來(lái),為制定有效的健康干預(yù)策略提供高質(zhì)量科學(xué)證據(jù)。為解決目前DAG繪制的局部性、異質(zhì)性和非標(biāo)準(zhǔn)化問(wèn)題,本文從跨學(xué)科角度,將因果圖定義為研究問(wèn)題涉及概念(頭概念和尾概念)及其所有第三方變量之間的復(fù)雜知識(shí)圖譜。科技文獻(xiàn)是先驗(yàn)知識(shí)最直接的體現(xiàn),由科技文獻(xiàn)生成的知識(shí)圖譜本身就是對(duì)知識(shí)之間復(fù)雜關(guān)系的可視化表示,其中包含大量已經(jīng)被證實(shí)的科學(xué)機(jī)制。從科技文獻(xiàn)中識(shí)別這些機(jī)制,將其轉(zhuǎn)換成可計(jì)算的形式,可以為構(gòu)造復(fù)雜問(wèn)題的解決模型提供支撐。利用科學(xué)文獻(xiàn)中的知識(shí)主張抽取并整合成因果圖,可為系統(tǒng)性生成因果圖提供新的思路。本文嘗試綜述流行病學(xué)、計(jì)算機(jī)科學(xué)、生物醫(yī)學(xué)信息學(xué)領(lǐng)域?qū)υ搯?wèn)題的研究進(jìn)展,以期引入跨學(xué)科視角,提高因果圖的產(chǎn)生效率和使用價(jià)值,推動(dòng)因果圖在觀察性研究因果建模和機(jī)制解釋中的應(yīng)用。

1 因果圖的基本結(jié)構(gòu)

因果推斷屬于一整套推理框架,可以與統(tǒng)計(jì)學(xué)、心理學(xué)、機(jī)器學(xué)習(xí)等研究模型相銜接。因果推斷的方法主要分為兩大流派:一種是基于估計(jì)方程的統(tǒng)計(jì)學(xué)方法,一種是基于圖網(wǎng)絡(luò)的計(jì)算機(jī)方法;第二種方法是通過(guò)圖網(wǎng)絡(luò)將不同研究之間進(jìn)行連接,從而實(shí)現(xiàn)RCT研究的再利用[6]。1999年,Greenland等[7]提出了應(yīng)用于流行病學(xué)研究的因果圖方法,主要用于區(qū)分混雜因素。后期該理論衍生出DAG。

以疫苗(暴露)和不良反應(yīng)事件(結(jié)局)為例,當(dāng)“暴露”和“結(jié)局”之間的關(guān)系未經(jīng)過(guò)控制該因素的RCT研究時(shí),該因素與“暴露”和“結(jié)局”之間有以下3種關(guān)系[8]:(1)當(dāng)該因素同時(shí)影響“暴露”和“結(jié)局”時(shí),該因素可能是“暴露”和“結(jié)局”之間的混雜因素。(2)當(dāng)“暴露”通過(guò)該因素影響“結(jié)局”時(shí),該因素可能是中介變量。(3)當(dāng)“暴露”和“結(jié)局”同時(shí)作用于該因素時(shí),該因素可能是對(duì)撞因子(圖1)。

圖1 因果圖中的基本結(jié)構(gòu)Fig.1 Basic structures in causal graphsA:confounder;B:mediator;C: collider.

1.1 混雜變量

來(lái)自電子健康病歷(electronic health records,EHR)和公開(kāi)數(shù)據(jù)庫(kù)的臨床和治療數(shù)據(jù)為臨床和流行病學(xué)研究帶來(lái)了新的機(jī)會(huì),但由于數(shù)據(jù)庫(kù)存在的局限性,使其研究容易產(chǎn)生偏倚,混雜偏倚是最常見(jiàn)的偏倚類別(63.2%)[9]。在醫(yī)學(xué)研究當(dāng)中,混淆變量在很大程度上威脅著結(jié)論的可靠性,在DAG構(gòu)建后,通過(guò)后門(mén)準(zhǔn)則來(lái)判斷explore和outcome之間的關(guān)系,其中“explore→outcome”為前門(mén)路徑,“explore←confounder→outcome”為后門(mén)路徑,常采用協(xié)變量校正、分層、匹配等方法來(lái)控制混雜,在阻斷所有后門(mén)路徑后,前門(mén)路徑不成立,則證明confounder存在[10]。傳統(tǒng)統(tǒng)計(jì)模型分析時(shí),常通過(guò)自變量之間的共線性來(lái)進(jìn)行變量相關(guān)性篩選,但往往根據(jù)自變量對(duì)結(jié)果變量的影響程度來(lái)確定自變量納入排除的情況,整個(gè)判斷過(guò)程是無(wú)向的。而DAG中可以清晰地看到所有潛在的混雜變量、通過(guò)關(guān)系的指向排除collider變量,為模型調(diào)整提供清晰的指引。

2021年Malec等[11]的研究通過(guò)從文獻(xiàn)中提取的結(jié)構(gòu)化的醫(yī)學(xué)知識(shí)——三元組構(gòu)建知識(shí)圖譜,以發(fā)現(xiàn)潛在的“混雜因素”,將“候選”混雜因素合并到統(tǒng)計(jì)和因果圖模型當(dāng)中,利用已有的知識(shí)衍生發(fā)現(xiàn)“因果關(guān)系”,根據(jù)發(fā)現(xiàn)的新增混雜因素調(diào)整原有的Logistic回歸模型中的變量,比較變量調(diào)整前后的模型可解釋性,即通過(guò)相關(guān)研究中的數(shù)據(jù)假設(shè)檢驗(yàn)和已經(jīng)報(bào)道的效應(yīng)值來(lái)進(jìn)行驗(yàn)證。

1.2 中介變量

中介變量往往反映了作用機(jī)制。例如“藥物對(duì)心臟病發(fā)作的預(yù)防作用是由它對(duì)血壓水平的調(diào)節(jié)來(lái)介導(dǎo)的”。“介導(dǎo)”一詞往往是中間變量的提示詞和觸發(fā)詞。這句話其實(shí)編碼了一個(gè)簡(jiǎn)單的因果模型:“藥物→血壓→心臟病發(fā)作”。在這個(gè)例子中,藥物降低了血壓水平,進(jìn)而降低了心臟病發(fā)作的風(fēng)險(xiǎn)。所以,可以從醫(yī)學(xué)文本中抽取因果主張。鏈?zhǔn)浇Y(jié)構(gòu)(圖1B所表示的結(jié)構(gòu))中可能存在工具變量(instrumental variable,IV),IV指在鏈?zhǔn)浇Y(jié)構(gòu)中與隨機(jī)擾動(dòng)項(xiàng)不相關(guān)、與結(jié)局變量不相關(guān),但可以通過(guò)影響explore來(lái)影響outcome的變量[12]。

1.3 封閉式發(fā)型和開(kāi)放式發(fā)現(xiàn)

在因果主張的抽取過(guò)程中,基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)(literature-based discovery, LBD)將獨(dú)立在文獻(xiàn)中的知識(shí)通過(guò)邏輯關(guān)系進(jìn)行連接,最后達(dá)到發(fā)現(xiàn)“未被發(fā)現(xiàn)的已知知識(shí)”的目的,如一組文獻(xiàn)報(bào)告了A和B的關(guān)系,另一組完全不同的文獻(xiàn)報(bào)告了B和C的關(guān)系,則提示A和C可能存在相關(guān)關(guān)系,這樣的發(fā)現(xiàn)是有待驗(yàn)證的新知識(shí)[13-14],在判斷A和C的關(guān)系是否獨(dú)立于條件B的時(shí)候,通常采用D-分離來(lái)檢驗(yàn)A和C關(guān)系的獨(dú)立性。在“斯旺森雷諾氏病-魚(yú)油”關(guān)系抽取示例中,雷諾氏病是起始術(shù)語(yǔ),血液黏度、血小板聚集和血管反應(yīng)性是連接術(shù)語(yǔ),魚(yú)油是目標(biāo)術(shù)語(yǔ)[14]。

LBD通過(guò)統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System, UMLS)來(lái)實(shí)現(xiàn),有兩種主要模式:封閉式發(fā)現(xiàn)和開(kāi)放式發(fā)現(xiàn),也分別稱為雙節(jié)點(diǎn)搜索和單節(jié)點(diǎn)搜索[13]。在封閉式發(fā)現(xiàn)中,LBD 的目標(biāo)是幫助解釋起始詞和目標(biāo)詞之間的假設(shè)聯(lián)系。最終結(jié)果是一組連接術(shù)語(yǔ),描述了起始術(shù)語(yǔ)和目標(biāo)術(shù)語(yǔ)如何相關(guān)(例如血液黏度、血小板聚集和血管反應(yīng)性)。在開(kāi)放式發(fā)現(xiàn)中,LBD 有助于找到與起始術(shù)語(yǔ)隱含關(guān)聯(lián)的新概念[15]。這些新的聯(lián)系可以提供新的見(jiàn)解,例如治療疾病或緩解癥狀的物質(zhì)(例如魚(yú)油),如圖2所示。這兩種范式不是排他性的,使用開(kāi)放發(fā)現(xiàn)生成的假設(shè)可以使用封閉發(fā)現(xiàn)生成的假設(shè)來(lái)解釋。此外,無(wú)論哪種情況,LBD 的最終目標(biāo)都是相同的——從文獻(xiàn)中隱含的知識(shí)中產(chǎn)生假設(shè)。Knowledge discovery是數(shù)據(jù)驅(qū)動(dòng)的,是計(jì)算科學(xué)家的主要工作;Scientific discovery是實(shí)驗(yàn)驅(qū)動(dòng)的,是實(shí)驗(yàn)科學(xué)家的主要工作。正如基于LBD得到的“斯旺森雷諾氏病-魚(yú)油”的推斷在臨床研究中得到了驗(yàn)證。

在大規(guī)模LBD研究中,2019年Nordon等[16]提出通過(guò)自動(dòng)構(gòu)建醫(yī)療數(shù)據(jù)之間的圖譜來(lái)進(jìn)行間接因果關(guān)系的發(fā)現(xiàn),其數(shù)據(jù)來(lái)源于2 700萬(wàn)篇PubMed的醫(yī)學(xué)摘要和150萬(wàn)條電子病歷記錄(electronic medical record, EMR)數(shù)據(jù)分別構(gòu)建網(wǎng)絡(luò)圖,通過(guò)EMR中每位患者的主要診斷根據(jù)國(guó)際疾病分類(International Classification of Diseases, ICD)生成的疾病“相關(guān)性”圖譜,用來(lái)自文獻(xiàn)(先驗(yàn)知識(shí))的疾病共病因果圖對(duì)EMR文本生成的圖譜進(jìn)行修剪,專家對(duì)兩個(gè)圖合并結(jié)果打分來(lái)判斷其制作的圖譜精度,研究者稱該方法較其他研究而言精度顯著提高。該團(tuán)隊(duì)的另一項(xiàng)研究[17]則通過(guò)因果圖路徑來(lái)進(jìn)行候選藥物的生成和優(yōu)先排序,使用醫(yī)療記錄和生物醫(yī)學(xué)文獻(xiàn)中的因果線索來(lái)確定潛在藥物的新用途。

單節(jié)點(diǎn)搜索旨在幫助正在尋找新假設(shè)的研究者,雙節(jié)點(diǎn)搜索能夠幫助確定現(xiàn)有假設(shè)中最有可能的那個(gè)假設(shè)(圖2)。

圖2 封閉式發(fā)現(xiàn)和開(kāi)放式發(fā)現(xiàn)Fig.2 Closed discovery and open discovery

雙節(jié)點(diǎn)搜索策略的重要性體現(xiàn)在:(1)已經(jīng)有了將A和C關(guān)聯(lián)起來(lái)的假設(shè)(或初步實(shí)驗(yàn)發(fā)現(xiàn)),但沒(méi)有任何已發(fā)表的文章對(duì)其進(jìn)行了明確介紹,通過(guò)雙節(jié)點(diǎn)搜索來(lái)探索兩個(gè)實(shí)體之間的作用機(jī)制。

(2)在討論A的文章集和討論C的文章集之間進(jìn)行雙節(jié)點(diǎn)搜索,并尋找共有的B詞,此時(shí)B詞可能為A和C的中介變量。

(3)目的是對(duì)B詞列表進(jìn)行排序以找出最相關(guān)和最可能的鏈接,并研究A與C相關(guān)聯(lián)的可能機(jī)制。

2 因果圖的構(gòu)建技術(shù)

2.1 NLP技術(shù)作為基礎(chǔ)技術(shù)

自然語(yǔ)言處理(natural language processing, NLP)技術(shù)是基于以往研究[18]構(gòu)建因果圖必不可少的基礎(chǔ)技術(shù),核心在于從醫(yī)學(xué)文本中生成結(jié)構(gòu)化三元組。SemRep、集成網(wǎng)絡(luò)和動(dòng)態(tài)推理匯編器(integrated network and dynamical reasoning assembler, INDRA)等工具為醫(yī)學(xué)文本關(guān)系的抽取提供了基礎(chǔ)。SemRep使用語(yǔ)言學(xué)原理和UMLS的知識(shí)基礎(chǔ)處理 PubMed 文章的摘要和題目,并從中提取語(yǔ)義關(guān)系。INDRA作為本文描述的方法和軟件工具,描述了生物機(jī)制之間的關(guān)系,包含特定基因的所有已知信息,其類別遵循繼承層次結(jié)構(gòu),所有語(yǔ)句類型都繼承于父類語(yǔ)句[19]。

筆者團(tuán)隊(duì)基于美國(guó)國(guó)立衛(wèi)生研究院SemMedDB數(shù)據(jù)庫(kù)研發(fā)了結(jié)構(gòu)化醫(yī)學(xué)知識(shí)體系平臺(tái),實(shí)現(xiàn)從文獻(xiàn)內(nèi)提取結(jié)構(gòu)化醫(yī)學(xué)知識(shí),包含超過(guò)9 400萬(wàn)條三元組及超過(guò)2億條支持語(yǔ)句等元數(shù)據(jù)。相比其他平臺(tái),能夠?qū)崿F(xiàn):(1)實(shí)體中英文映射;(2)中間變量的查詢;(3)響應(yīng)速度快,查詢用時(shí)較少;(4)可直接下載逗號(hào)分隔值(comma-separated values,CSV)格式的三元組。結(jié)構(gòu)化醫(yī)學(xué)知識(shí)體系平臺(tái)當(dāng)前可以實(shí)現(xiàn)4個(gè)方面的應(yīng)用:(1)三元組檢索,在搜索框中輸入關(guān)鍵詞,可返回與該關(guān)鍵詞相關(guān)的所有結(jié)構(gòu)化醫(yī)學(xué)知識(shí)三元組(圖3A);(2)三元組路徑推斷,依據(jù)輸入的關(guān)鍵詞X和Y,從結(jié)構(gòu)化醫(yī)學(xué)知識(shí)數(shù)據(jù)庫(kù)中檢索X作用于Y的路徑中的中間元素Z,返回X-Z-Y這一醫(yī)學(xué)知識(shí)路徑相關(guān)的所有醫(yī)學(xué)知識(shí)三元組(圖3B);(3)依據(jù)輸入的PubMed文章ID,返回從該篇文章標(biāo)題和摘要中提取的所有結(jié)構(gòu)化醫(yī)學(xué)知識(shí)三元組(圖3C);(4)三元組及相關(guān)句檢索,依據(jù)輸入關(guān)鍵詞,返回包含該關(guān)鍵詞的所有相關(guān)句以及結(jié)構(gòu)化醫(yī)學(xué)知識(shí)三元組(圖3D)。

圖3 結(jié)構(gòu)化平臺(tái)應(yīng)用示例Fig.3 Examples of structured platform applications

2.2 將知識(shí)圖譜轉(zhuǎn)化為因果圖

目前,因果推斷(相對(duì)于相關(guān)性分析)是基于大數(shù)據(jù)的觀察性研究的主要方法,因果圖常通過(guò)DAG整合大量先驗(yàn)知識(shí)將復(fù)雜的因果關(guān)系可視化,已成為合理制定因果推斷策略的重要工具。然而目前針對(duì)具體研究問(wèn)題的因果圖的構(gòu)建主要依賴專家知識(shí)和經(jīng)驗(yàn),存在兩個(gè)問(wèn)題:一是僅從研究問(wèn)題涉及的關(guān)鍵詞出發(fā)的文獻(xiàn)檢索策略不同導(dǎo)致先驗(yàn)知識(shí)獲取的召回率和準(zhǔn)確率在不同的研究者之間存在異質(zhì)性,無(wú)法反映從整個(gè)醫(yī)學(xué)知識(shí)體系出發(fā)的系統(tǒng)性,無(wú)法實(shí)現(xiàn)標(biāo)準(zhǔn)化;二是目前構(gòu)建的DAG多為淺層的變量之間的直接路徑關(guān)系,無(wú)法反映變量之間復(fù)雜的間接路徑關(guān)系。這引發(fā)了對(duì)系統(tǒng)化構(gòu)建DAG的呼吁[20]。本文嘗試從跨學(xué)科角度,將因果圖定義為研究問(wèn)題涉及概念(頭概念和尾概念)及其所有第三方變量之間的復(fù)雜網(wǎng)絡(luò)(圖1),為系統(tǒng)化構(gòu)建DAG提供新策略。

系統(tǒng)構(gòu)建因果圖的方法有兩種:一是將知識(shí)圖譜修剪為因果圖。首先從醫(yī)學(xué)文本中利用自然語(yǔ)言處理技術(shù)抽取“概念-關(guān)系-概念”三元組,然后將不同的醫(yī)學(xué)文本生成的三元組整合起來(lái),充分利用基于LBD進(jìn)展,首先構(gòu)建圍繞特定問(wèn)題的概念知識(shí)圖譜,進(jìn)而利用圖算法(路徑發(fā)現(xiàn)算法、D-分離等)將知識(shí)圖譜修剪為因果圖。二是將基于人群-干預(yù)/暴露-對(duì)照-結(jié)果(population-interventions/exposure-comparisons-outcomes,PI/ECO)框架的證據(jù)結(jié)論合成為因果圖。通過(guò)文獻(xiàn)檢索和判讀,將證據(jù)的結(jié)論轉(zhuǎn)化為DAG,然后將多個(gè)證據(jù)的結(jié)論綜合為集成的DAG,以系統(tǒng)構(gòu)建根據(jù)已有證據(jù)確定納入的變量以及變量之間的關(guān)系。

在醫(yī)學(xué)研究[21]中,系統(tǒng)構(gòu)建DAG分為以下幾個(gè)步驟:(1)將每個(gè)研究的結(jié)論“映射”到DAG中;(2)利用若干因果推理原則,系統(tǒng)地評(píng)估這些DAG中的因果結(jié)構(gòu),并予以相應(yīng)糾正;(3)生成的DAG將被合成為一個(gè)或多個(gè)“綜合DAG”。當(dāng)前可以進(jìn)行知識(shí)可視化的工具非常多,通過(guò)這些工具可以將現(xiàn)有知識(shí)轉(zhuǎn)化為知識(shí)圖譜或圖數(shù)據(jù)庫(kù),用于知識(shí)的查詢、推理和可視化。如Neo4j、GraphDB、protégé、NetworkX包等。

基于國(guó)內(nèi)外相關(guān)研究[22-24],本研究發(fā)現(xiàn)計(jì)算機(jī)科學(xué)的知識(shí)圖譜和因果推斷中的DAG結(jié)合起來(lái)的研究逐步興起,通過(guò)分解因果圖來(lái)消除混淆變量。在此基礎(chǔ)上,通過(guò)統(tǒng)計(jì)學(xué)計(jì)算來(lái)進(jìn)行因果推斷,如傾向性評(píng)分(propensity score, PS)分配來(lái)均衡組間“混雜因素”的影響[22],差分法(difference in difference,DID)來(lái)比較暴露前后的差異[23],邊際結(jié)構(gòu)模型(marginal structural models,MSMs)允許在存在時(shí)間依賴性混雜的情況下估計(jì)時(shí)變暴露對(duì)結(jié)果的因果影響[24],2021年的研究[25]表明在連續(xù)性變量可以通過(guò)生成對(duì)抗去混雜(generative adversarial de-confounding, GAD)的算法來(lái)消除連續(xù)效果估計(jì)中的混雜因素。

3 因果圖構(gòu)建示例

EpiGraphDB(https://epigraphdb.org/)是一個(gè)由英國(guó)布里斯托大學(xué)綜合流行病學(xué)研究所開(kāi)發(fā)的圖數(shù)據(jù)庫(kù),其中包含了眾多生物醫(yī)學(xué)和流行病學(xué)關(guān)系,與可被應(yīng)用在健康數(shù)據(jù)科學(xué)中的分析平臺(tái)[26]。當(dāng)今,關(guān)于人類表型、風(fēng)險(xiǎn)因素、分子特征和治療干預(yù)的豐富數(shù)據(jù)資源為健康科學(xué)提供了新的發(fā)展機(jī)遇,而如何更好地利用這些資源則需要不同數(shù)據(jù)集間的協(xié)調(diào)與整合。作為一個(gè)數(shù)據(jù)平臺(tái),EpiGraphDB中集成了因果、觀察或遺傳特征關(guān)系、文獻(xiàn)挖掘獲得的關(guān)系、生物學(xué)途徑、蛋白質(zhì)互作、藥物靶標(biāo)等資源,以支持風(fēng)險(xiǎn)因素、疾病關(guān)系等的數(shù)據(jù)挖掘。EpiGraphDB中包含了由文獻(xiàn)證據(jù)構(gòu)建的圖譜常被應(yīng)用在健康數(shù)據(jù)科學(xué)研究中。文獻(xiàn)圖譜的底層數(shù)據(jù)來(lái)源于美國(guó)國(guó)立衛(wèi)生研究院的標(biāo)準(zhǔn)化語(yǔ)義數(shù)據(jù)庫(kù)SemMedDB[27],該數(shù)據(jù)庫(kù)中包含有PubMed中所有語(yǔ)句轉(zhuǎn)化、映射出的語(yǔ)義三元組,即將自然語(yǔ)言標(biāo)準(zhǔn)化為主語(yǔ)-謂語(yǔ)-賓語(yǔ)的形式,并與UMLS標(biāo)準(zhǔn)詞表對(duì)應(yīng),形成了可被應(yīng)用于基于文獻(xiàn)發(fā)現(xiàn)等方向的大型知識(shí)資源庫(kù)。而EpiGraphDB中的文獻(xiàn)圖譜使用三元組作為節(jié)點(diǎn),連接三元組所屬的PubMed文獻(xiàn)節(jié)點(diǎn)。查詢時(shí)可通過(guò)直接搜索三元組中的主語(yǔ)或賓語(yǔ),獲得所有相關(guān)的三元組及有三元組出現(xiàn)過(guò)的PubMed文獻(xiàn),同時(shí)還可以限制謂語(yǔ)類型,獲得更精確的查詢結(jié)果。除了在網(wǎng)頁(yè)上直接檢索各個(gè)圖譜中的數(shù)據(jù),EpiGraphDB還提供API、R語(yǔ)言包、Cypher等檢索方法。通過(guò)獲取到的三元組,可以構(gòu)建更有指向性的知識(shí)因果圖等,用來(lái)輔助健康數(shù)據(jù)科學(xué)的研究。

因果圖在醫(yī)學(xué)研究[28-30]中主要以DAG為主,通過(guò)證據(jù)綜合的方法來(lái)構(gòu)建DAG可以將每個(gè)研究的結(jié)論都映射到DAG當(dāng)中,通過(guò)網(wǎng)絡(luò)圖中基本結(jié)構(gòu)的因果推斷原則系統(tǒng)評(píng)價(jià)DAG中的結(jié)論,并予以適當(dāng)糾正。如當(dāng)前研究[31]通過(guò)DAG識(shí)別殘疾和心電圖結(jié)果之間的混雜變量,通過(guò)Logistic回歸模型調(diào)整證明了統(tǒng)計(jì)學(xué)相關(guān)的因素為“混雜變量”。2021年的研究[32]發(fā)現(xiàn),來(lái)自Scopus、Medline和Embase等數(shù)據(jù)庫(kù)在1999-2017年間發(fā)表的出版物中,提及DAG和DAGitty的文獻(xiàn)中有62%提供了DAG,48%報(bào)告了他們所提供的DAG的調(diào)整集。近些年來(lái)多項(xiàng)研究基于“知識(shí)圖譜”批量構(gòu)建不同文獻(xiàn)中得到的結(jié)論之間的聯(lián)系。Riseberg等[30]將暴露為“金屬混合物”、結(jié)局為“心臟代謝”的系統(tǒng)綜述結(jié)果進(jìn)行匯總,構(gòu)建DAG來(lái)確定潛在的混雜因素,并通過(guò)統(tǒng)計(jì)學(xué)模型來(lái)進(jìn)行調(diào)整?;谠撗芯窟M(jìn)展,筆者團(tuán)隊(duì)通過(guò)SemRep工具進(jìn)行了新型冠狀病毒肺炎(COVID-19)相關(guān)三元組的提取,并導(dǎo)入Neo4j進(jìn)行知識(shí)圖譜構(gòu)建,將不同文獻(xiàn)的結(jié)論連接起來(lái)。通過(guò)查詢“疫苗→不良反應(yīng)事件”的路徑,其中三元組源于“托珠單抗→抑制→C反應(yīng)蛋白”來(lái)源于PMID號(hào)為32531257的出版物(圖4),三元組“C反應(yīng)蛋白→更易于發(fā)生→呼吸衰竭”源于PMID號(hào)為34102804、32628003的出版物,從而構(gòu)成完整的托珠單抗和呼吸衰竭之間的路徑,使托珠單抗、呼吸衰竭、停止生命三個(gè)實(shí)體之間形成包含中介因子的完整路徑。

圖4 因果圖構(gòu)建示例Fig.4 Example of causal graph construction

4 總結(jié)與展望

通過(guò)基于醫(yī)學(xué)知識(shí)構(gòu)建知識(shí)圖譜的方法,極大提高了臨床研究的二次利用率,相對(duì)于傳統(tǒng)DAG構(gòu)建或循證醫(yī)學(xué)研究,因果圖的構(gòu)建極大提高了效率和信息召回率,且能夠?qū)崿F(xiàn)作用機(jī)制的建立和查詢。

目前,LBD 是一個(gè)成熟的領(lǐng)域,具有不同的范式和系統(tǒng)設(shè)計(jì),尋求自動(dòng)化或半自動(dòng)化的方式從現(xiàn)有文獻(xiàn)中發(fā)現(xiàn)新的知識(shí),可以在孤立的文獻(xiàn)之間建立聯(lián)系,增加跨學(xué)科信息共享??茖W(xué)出版物的海量劇增凸顯了LBD的重要性,它對(duì)加速知識(shí)獲取和研究發(fā)展進(jìn)程非常有益。

綜上所述,與專家根據(jù)已有知識(shí)和經(jīng)驗(yàn)構(gòu)建DAG相比,通過(guò)信息學(xué)/數(shù)據(jù)科學(xué)系統(tǒng)基于LBD構(gòu)建DAG主要分為以下幾個(gè)步驟:(1)通過(guò)NLP技術(shù)來(lái)處理醫(yī)學(xué)文本中已經(jīng)存在的醫(yī)學(xué)知識(shí),將其結(jié)構(gòu)化,在這個(gè)過(guò)程中可以使用超級(jí)敘詞表來(lái)進(jìn)行醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化映射;(2)通過(guò)計(jì)算機(jī)技術(shù)將結(jié)構(gòu)化的醫(yī)學(xué)知識(shí)轉(zhuǎn)化為可視化、可查詢的知識(shí)圖譜和圖數(shù)據(jù)庫(kù);(3)根據(jù)EMR、現(xiàn)有研究中的檢驗(yàn)結(jié)果、設(shè)計(jì)RCT研究、專家審核、統(tǒng)計(jì)分析等方法來(lái)對(duì)知識(shí)圖譜中的“路徑查詢”結(jié)果進(jìn)行驗(yàn)證。

用圖模型來(lái)高度概括因果關(guān)系可以實(shí)現(xiàn)既往研究的二次利用,建立研究之間的間接聯(lián)系[4]。基于知識(shí)圖譜構(gòu)建因果圖的相關(guān)研究仍然存在數(shù)據(jù)來(lái)源單一、多數(shù)據(jù)庫(kù)融合性不足等問(wèn)題。當(dāng)構(gòu)建圖譜的數(shù)據(jù)來(lái)源局限于文獻(xiàn)、EMR、數(shù)據(jù)庫(kù)或臨床試驗(yàn)時(shí),所得到的醫(yī)學(xué)實(shí)體之間的因果關(guān)系會(huì)存在召回率低、準(zhǔn)確率低、僅表達(dá)相關(guān)性、可解釋性差等缺點(diǎn)。數(shù)據(jù)庫(kù)來(lái)源單一的情況則難以實(shí)現(xiàn)“基因-藥物-臨床研究-人群”多層面、可解釋性強(qiáng)的因果推斷路徑構(gòu)建。在今后的研究當(dāng)中,可以考慮將不同層面的數(shù)據(jù)庫(kù)作為信息來(lái)源,如“基因數(shù)據(jù)庫(kù)”“臨床試驗(yàn)數(shù)據(jù)庫(kù)”“EMR”“出版物”等,通過(guò)自然語(yǔ)言處理技術(shù)構(gòu)建醫(yī)學(xué)實(shí)體之間的三元組,增強(qiáng)數(shù)據(jù)重復(fù)利用的價(jià)值,通過(guò)“基因-藥物-臨床研究-人群”等多層面的數(shù)據(jù)連接,來(lái)提高醫(yī)學(xué)知識(shí)的可解釋性。

利益沖突所有作者聲明無(wú)利益沖突。

作者貢獻(xiàn)聲明白永梅:論文撰寫(xiě)、數(shù)據(jù)分析;孫華鴿:數(shù)據(jù)收集和抽取;杜建:研究設(shè)計(jì)和論文指導(dǎo)。

猜你喜歡
醫(yī)學(xué)知識(shí)三元組圖譜
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
時(shí)序知識(shí)圖譜的增量構(gòu)建
繪一張成長(zhǎng)圖譜
關(guān)于余撓三元組的periodic-模
一個(gè)時(shí)態(tài)RDF存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
圖表
基于Spark的分布式并行推理算法①
思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
加強(qiáng)班級(jí)凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
主動(dòng)對(duì)接你思維的知識(shí)圖譜
安阳县| 乌鲁木齐县| 个旧市| 盐城市| 博野县| 佛坪县| 昭觉县| 蓝山县| 辽阳县| 永善县| 江都市| 灵宝市| 西充县| 精河县| 盐山县| 霞浦县| 林周县| 平罗县| 浙江省| 莲花县| 天长市| 海安县| 于都县| 剑河县| 云梦县| 莒南县| 建宁县| 通河县| 彰武县| 龙陵县| 平安县| 巧家县| 平顺县| 罗田县| 长顺县| 手机| 凤台县| 奉节县| 武汉市| 孝感市| 肥城市|