關(guān)陟昊 單治易 林紫洛 楊雪梅 唐小利
(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
我國是世界上老年人口最多的國家,老年與共病密切相關(guān),60歲以上居民中有75.8%被1種以上慢性病困擾[1]。共病與日益增加的不良健康結(jié)果相關(guān),如死亡率高、殘疾、生活質(zhì)量差、住院以及醫(yī)療資源和支出增加[2]。疾病防治重在預(yù)防,我國大力推進(jìn)的健康中國戰(zhàn)略核心在于“治未病”這一預(yù)防理念。如果能夠發(fā)現(xiàn)疾病共患的關(guān)聯(lián)規(guī)律、預(yù)測(cè)潛在的共病關(guān)系,對(duì)臨床診療方案有效制定和國家醫(yī)療資源合理配置具有參考意義。
共病這一概念最早由美國Feinstein A R提出,英文表達(dá)形式為“comorbidity”,是指患有所研究的某種索引疾病的患者同時(shí)還伴發(fā)其他疾病[3]。本研究中所指共病為多種疾病同時(shí)發(fā)生在同一機(jī)體內(nèi)的現(xiàn)象,包括并發(fā)癥、合并癥和繼發(fā)癥等。目前國內(nèi)外關(guān)于共病的醫(yī)學(xué)研究主要分為兩個(gè)方向,分別是共病模式研究和共病預(yù)測(cè)研究。醫(yī)學(xué)領(lǐng)域的“疾病關(guān)聯(lián)”多指疾病與病因的關(guān)聯(lián),包括:宿主病因,即基因、蛋白、通路等組學(xué)角度的病因[4-5];環(huán)境病因,即社會(huì)、物理、化學(xué)等流行病學(xué)角度病因[6]。因此相比于“疾病關(guān)聯(lián)”,“共病”一詞更適合描述疾病之間的關(guān)聯(lián)關(guān)系。
共病模式研究目的是了解調(diào)查人群的共病患病現(xiàn)狀,挖掘常見高發(fā)共病組合或共現(xiàn)關(guān)系較強(qiáng)的疾病診斷集群[7]。共病模式研究較為成熟,但多基于共現(xiàn)和統(tǒng)計(jì)分析思想,提取、描述能力較強(qiáng),預(yù)測(cè)能力較弱,研究重點(diǎn)在于挖掘常見疾病之間關(guān)聯(lián)關(guān)系、發(fā)現(xiàn)高頻疾病組合,以達(dá)到疾病預(yù)警、共病防治的目的。
2.3.1 研究策略 隨著自然語言處理和網(wǎng)絡(luò)分析技術(shù)發(fā)展,共病預(yù)測(cè)正在成為共病研究中重要研究方向。目前國內(nèi)外已有大量關(guān)于共病預(yù)測(cè)的相關(guān)研究成果,研究策略主要包括以下3個(gè)方面。一是從生物信息學(xué)角度:基于高通量基因組學(xué)、蛋白組學(xué)數(shù)據(jù),利用生物信息學(xué)方法,從基因表達(dá)角度計(jì)量疾病間關(guān)聯(lián)關(guān)系,進(jìn)而預(yù)測(cè)可能共現(xiàn)的疾病[8]。二是從臨床醫(yī)學(xué)角度:基于電子病歷數(shù)據(jù),提取疾病共現(xiàn)關(guān)系,根據(jù)疾病在真實(shí)世界中的共現(xiàn)頻次和關(guān)聯(lián)網(wǎng)絡(luò)特點(diǎn)預(yù)測(cè)未出現(xiàn)的并發(fā)疾病[9]。三是從情報(bào)學(xué)角度:基于臨床病例構(gòu)建共病網(wǎng)絡(luò),適用于挖掘發(fā)病率較高的常見病共病關(guān)系[10-11],但對(duì)于發(fā)病率非常低的罕見病,可能不會(huì)在所研究的臨床病例樣本中出現(xiàn),也可能被多次誤診[12]。解決上述問題的方法之一是使用嚴(yán)謹(jǐn)準(zhǔn)確的科學(xué)文獻(xiàn)數(shù)據(jù),生物醫(yī)學(xué)文獻(xiàn)包含科研人員對(duì)疾病的明確表述。
2.3.2 基于知識(shí)網(wǎng)絡(luò)的相關(guān)研究 大量的文獻(xiàn)集聚使研究內(nèi)容彼此之間的關(guān)系呈現(xiàn)為一種高度復(fù)雜性的網(wǎng)絡(luò),研究人員可以通過知識(shí)網(wǎng)絡(luò)對(duì)相關(guān)隱性知識(shí)進(jìn)行挖掘[13]。Xu R、Li L和Wang Q[14]將兩個(gè)疾病概念在同一個(gè)句子中的共現(xiàn)視為具有共患風(fēng)險(xiǎn)的疾病對(duì),通過提取疾病概念對(duì)建立疾病風(fēng)險(xiǎn)網(wǎng)絡(luò),該數(shù)據(jù)集隨后被一些學(xué)者[15-16]用于共病網(wǎng)絡(luò)研究,這說明基于語義模型提取共病關(guān)系是可行的。但是從文本挖掘角度來說,共現(xiàn)關(guān)系并不能完整體現(xiàn)概念間基于文獻(xiàn)建立的關(guān)聯(lián),因?yàn)楦拍畛嗽谕黄恼轮泄餐嬖?,還會(huì)通過文獻(xiàn)間引用建立關(guān)聯(lián),被稱為實(shí)體計(jì)量學(xué)。Song M、Kang K和An J Y[17]對(duì)比基于共現(xiàn)和基于引用構(gòu)建的實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),提出基于引用關(guān)系構(gòu)造的網(wǎng)絡(luò)能夠發(fā)現(xiàn)更為多樣但鏈接關(guān)系較弱的關(guān)聯(lián),而利用基于共現(xiàn)關(guān)系構(gòu)造的網(wǎng)絡(luò)可以得到更高準(zhǔn)確率。由此可知在實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)造過程中,基于引用提取的關(guān)系偏重于“全”,基于共現(xiàn)提取的關(guān)系偏重于“準(zhǔn)”,將二者融合起來可能會(huì)達(dá)到“全”和“準(zhǔn)”的平衡。國內(nèi)外已有基于單一關(guān)系(共現(xiàn)或是引用)進(jìn)行潛在關(guān)系發(fā)現(xiàn)的研究成果,并沒有將二者結(jié)合的先例。
2.3.3 鏈路預(yù)測(cè) 其作為分析復(fù)雜網(wǎng)絡(luò)的有效手段,是指如何通過已知網(wǎng)絡(luò)節(jié)點(diǎn)以及網(wǎng)絡(luò)結(jié)構(gòu)等信息,預(yù)測(cè)網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個(gè)節(jié)點(diǎn)之間產(chǎn)生連接的可能性,在共病預(yù)測(cè)領(lǐng)域已有廣泛應(yīng)用,但都局限于從共現(xiàn)層面提取共病關(guān)系,忽略了實(shí)體間通過引用行為建立的關(guān)聯(lián)。
2.3.4 創(chuàng)新研究路徑 為解決以上問題,本研究探討將共現(xiàn)與引用關(guān)系相結(jié)合的潛在共病關(guān)系發(fā)現(xiàn)方法。以糖尿病領(lǐng)域?yàn)槔?,通過時(shí)間切片方法說明所提方法的優(yōu)越性,并對(duì)該領(lǐng)域的共病組合進(jìn)行預(yù)測(cè),提出未來可能的共病組合,結(jié)合相關(guān)文獻(xiàn)分析疾病間有可能發(fā)生關(guān)聯(lián)的途徑。
本研究選用文獻(xiàn)數(shù)據(jù)作為研究對(duì)象,基于語義模型和實(shí)體計(jì)量學(xué)提取共病關(guān)系構(gòu)建共病網(wǎng)絡(luò),利用鏈路預(yù)測(cè)算法計(jì)算網(wǎng)絡(luò)結(jié)構(gòu)特征指標(biāo),選取預(yù)測(cè)效果最好的指標(biāo)進(jìn)行共病關(guān)系的預(yù)測(cè)。本研究設(shè)計(jì)4個(gè)步驟:數(shù)據(jù)收集、共病關(guān)系提取、共病網(wǎng)絡(luò)構(gòu)建以及共病關(guān)系預(yù)測(cè),見圖1。
PubMed數(shù)據(jù)庫是美國國立醫(yī)學(xué)圖書館(National Library of Medicine,NLM)開發(fā)的免費(fèi)文獻(xiàn)檢索系統(tǒng),提供生物醫(yī)學(xué)文摘信息及相關(guān)數(shù)據(jù)鏈接。本研究旨在發(fā)現(xiàn)可以為臨床診療與疾病預(yù)防提供參考的共病組合,因此選取數(shù)據(jù)庫中時(shí)效性較強(qiáng)的文獻(xiàn)類型。Colil數(shù)據(jù)庫是日本學(xué)者基于PubMed Central Open Access Subset(PMC-OAS)全文本構(gòu)建的生物醫(yī)學(xué)領(lǐng)域引用語句數(shù)據(jù)庫[18],本研究選取Colil數(shù)據(jù)庫獲取文獻(xiàn)對(duì)應(yīng)的施引語句。
3.3.1 主謂賓(Subject-Predicates-Object,SPO)結(jié)構(gòu)提取 使用SemRep工具提取文獻(xiàn)摘要中的共病對(duì),SemRep是NLM基于統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)開發(fā)的從生物醫(yī)學(xué)文本中抽取語義三元組的工具,這個(gè)三元組被稱為語義謂詞。語義謂詞由主語、賓語和它們之間的關(guān)系組成,形成SPO三元組。利用SemRep工具從下載的MEDLINE摘要數(shù)據(jù)中抽取語義三元組,通過限制實(shí)體類型為“dsyn”(疾病或綜合征);限制語義類型為“COMPLICATES”(并發(fā))、“ASSOCIATED_WITH”(與…相關(guān)聯(lián))、“CAUSES”(引起)、“AFFECTS”(影響)、“PREDISPOSES”(誘發(fā))、“MANIFESTATION_OF”(現(xiàn)象表達(dá))、“PRECEDES”(先于…發(fā)生)、“COEXISTS_WITH”(與…同時(shí)發(fā)生)可以篩選出具有共病關(guān)系的疾病對(duì)[14]。
3.3.2 引用語句實(shí)體提取 MetaMap是NLM開發(fā)的醫(yī)學(xué)實(shí)體抽取工具,可以將生物醫(yī)學(xué)文本與UMLS敘詞表中的概念匹配起來。使用MetaMap工具識(shí)別施引語句中的醫(yī)學(xué)實(shí)體,通過限制實(shí)體類型為疾病或綜合征(disease or syndrome)可以篩選出施引語句中所包含的疾病實(shí)體。例如PMID為33450530的文獻(xiàn)的施引語句中包含的疾病實(shí)體為“Diabetes Mellitus”,假設(shè)該篇文獻(xiàn)摘要中包含的疾病實(shí)體為“Ketoacidosis”和“Asthma”,那么基于引用關(guān)系建立的共病對(duì)為“Diabetes Mellitus-Ketoacidosis”和“Diabetes Mellitus-Asthma”。
對(duì)抽取出的共病關(guān)系進(jìn)行數(shù)據(jù)清洗,首先排除Disease、Syndrome、Disorder等無意義的泛指概念[19]。同一種疾病可能有不同表達(dá)方式,例如妊娠性糖尿病可能被表達(dá)為gestational diabetes或diabetes during pregnant。因此要對(duì)提取出的疾病概念做消歧處理。具體而言是將實(shí)體列表導(dǎo)入德溫特?cái)?shù)據(jù)分析平臺(tái)(Derwent Data Analyzer,DDA)通過人工建立敘詞表的方式完成清洗工作。對(duì)基于共現(xiàn)的共病關(guān)系和基于引用的共病關(guān)系做取并集處理,得到完整共病網(wǎng)絡(luò)。
表1 鏈路預(yù)測(cè)指標(biāo)及計(jì)算公式
3.5.2 模型評(píng)價(jià)指標(biāo) AUC是常用的準(zhǔn)確性評(píng)估指標(biāo),表示預(yù)測(cè)的正例排S在負(fù)例前面的概率[21],選取AUC作為模型評(píng)價(jià)的指標(biāo)。
3.5.3 預(yù)測(cè)方法有效性驗(yàn)證 由于共病網(wǎng)絡(luò)形成是具有時(shí)序性的,因此預(yù)測(cè)方法的有效性可通過時(shí)間切片方法進(jìn)行驗(yàn)證,即將第1年至第n-1年數(shù)據(jù)作為訓(xùn)練集,第n年的數(shù)據(jù)作為測(cè)試集。為比較基于共現(xiàn)關(guān)系的方法、基于引用關(guān)系的方法和本研究所提出的方法在預(yù)測(cè)新共病關(guān)系方面的性能差異,分別對(duì)這3種方法對(duì)應(yīng)的共病網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測(cè)并用AUC評(píng)估模型的預(yù)測(cè)性能。
從兩個(gè)維度收集數(shù)據(jù),一是獲取2016-2020年P(guān)ubMed數(shù)據(jù)庫中糖尿病相關(guān)文獻(xiàn),二是通過Colil數(shù)據(jù)庫獲取這些文獻(xiàn)的引用語句。在PubMed中檢索糖尿病相關(guān)文獻(xiàn),時(shí)間限定為2016-2020年,共收集到213 199篇文獻(xiàn)和對(duì)應(yīng)的1 024 427條引用語句。
基于引用關(guān)系提取的唯一疾病實(shí)體數(shù)量大約是基于共現(xiàn)關(guān)系提取的唯一疾病實(shí)體數(shù)量的5倍,二者交集占前者的4%、占后者的23%。在共病對(duì)數(shù)量方面,兩種方法提取出的重復(fù)疾病對(duì)數(shù)量為40對(duì),占基于共現(xiàn)方法提取數(shù)量的3%,占基于引用方法提取數(shù)量的2‰,可以看出僅基于共現(xiàn)或基于引文不能獲取完整的共病網(wǎng)絡(luò),這說明將二者結(jié)合是有意義的,見表2、圖2。
表2 基于共現(xiàn)、基于引用和融合后網(wǎng)絡(luò)的疾病和關(guān)系數(shù)量
各項(xiàng)指標(biāo)均大于0.5,說明在糖尿病的共病網(wǎng)絡(luò)中邊不是隨機(jī)產(chǎn)生的,可以利用鏈路預(yù)測(cè)算法對(duì)未來共病網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。整合后的網(wǎng)絡(luò)在各項(xiàng)預(yù)測(cè)指標(biāo)上總體優(yōu)于僅基于共現(xiàn)和僅基于引用構(gòu)建的網(wǎng)絡(luò),說明整合后的網(wǎng)絡(luò)能夠很好地描述糖尿病領(lǐng)域的共病現(xiàn)象,將二者結(jié)合是有意義的。其中基于隨機(jī)游走的Cos指標(biāo)預(yù)測(cè)效果最好,見表3。因此利用基于隨機(jī)游走的Cos指標(biāo)對(duì)全部數(shù)據(jù)進(jìn)行預(yù)測(cè),列出了相似度最高的前10條邊,即最有可能產(chǎn)生連邊的疾病對(duì),見表4。
表3 鏈路預(yù)測(cè)各指標(biāo)的AUC值
表4 相似度最高的前10個(gè)疾病對(duì)
通過查找表中所列疾病的相關(guān)文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)疾病對(duì)之間的發(fā)病機(jī)制存在關(guān)聯(lián)。針對(duì)部分疾病組合進(jìn)行解讀和說明。mobius syndrome-chronic granulomatous disease:Mobius綜合征是一種罕見的出生缺陷[22],其致病基因之一與B細(xì)胞的存活有關(guān)[23]。慢性肉芽腫是一類基因突變引起的免疫缺陷病[24]。這兩種疾病均在患者幼年起病,影響免疫系統(tǒng)正常功能。edema disease-navajo neurohepatopathy:納瓦霍神經(jīng)肝病多發(fā)于嚴(yán)重金屬污染地區(qū)[25],而體內(nèi)累積過多重金屬會(huì)對(duì)神經(jīng)、血液、消化等系統(tǒng)造成損害,水腫可能這些基礎(chǔ)疾病的結(jié)果。這兩種疾病的發(fā)病可能都與患者居住環(huán)境有關(guān)。lipoidosis-class Ⅲ malocclusion:類脂蛋白沉積癥是指透明蛋白樣物質(zhì)沉積在皮膚、黏膜及內(nèi)臟而引起的疾病,牙齒發(fā)育異常是常見的并發(fā)癥[26]。三類牙錯(cuò)合是頜骨大小與牙齒大小不成比例的臨床表征之一。二者均在幼年發(fā)病并進(jìn)行性發(fā)展,到患者成年時(shí)期自然靜止,且都與口腔黏膜異常有關(guān)。lupus renal disease-hypotestosteronism:狼瘡性腎病患者體內(nèi)的促炎細(xì)胞因子升高會(huì)影響脂類代謝,這是低膽固醇血癥的病因之一[27]。狼瘡性腎病和低膽固醇血癥均與細(xì)菌、病毒感染以及免疫系統(tǒng)的異常炎性反應(yīng)有關(guān)。綜上疾病間可能通過癥狀、生活環(huán)境、發(fā)病時(shí)期等途徑產(chǎn)生關(guān)聯(lián)。疾病之間的關(guān)聯(lián)并非偶然,患者當(dāng)前所患疾病可能是另一種疾病的危險(xiǎn)因素,發(fā)現(xiàn)共病的共同機(jī)制對(duì)疾病的早期干預(yù)和防控措施制定具有一定意義。
本研究利用實(shí)體提取技術(shù)和復(fù)雜網(wǎng)絡(luò)分析方法,從生物醫(yī)學(xué)文獻(xiàn)中提取疾病實(shí)體并根據(jù)語義和引用關(guān)系構(gòu)建共病對(duì),融合實(shí)體共現(xiàn)與引用關(guān)系,構(gòu)建共病網(wǎng)絡(luò),運(yùn)用鏈路預(yù)測(cè)方法對(duì)潛在疾病組合進(jìn)行預(yù)測(cè),為疾病的病因、病理、治療等方面研究提供新的參考方向。研究不足之處在于:受鏈路預(yù)測(cè)算法限制,只能預(yù)測(cè)網(wǎng)絡(luò)中已有節(jié)點(diǎn)間的新鏈接,不能預(yù)測(cè)網(wǎng)絡(luò)中尚未出現(xiàn)的節(jié)點(diǎn)間的鏈接;受科研條件和專業(yè)知識(shí)的限制,僅能通過已發(fā)表的文獻(xiàn)解釋潛在疾病組合間產(chǎn)生關(guān)聯(lián)的可能途徑,未能通過一定實(shí)驗(yàn)手段進(jìn)行驗(yàn)證。