,
精準(zhǔn)醫(yī)學(xué)是生物技術(shù)、信息技術(shù)和多種前沿技術(shù)在醫(yī)學(xué)臨床實踐的交匯融合應(yīng)用,是醫(yī)學(xué)科技發(fā)展的前沿方向,實施精準(zhǔn)醫(yī)學(xué)已經(jīng)成為推動全民健康的國家發(fā)展戰(zhàn)略。2011年美國國家研究理事會提出“精準(zhǔn)醫(yī)學(xué)”概念,隨著相關(guān)技術(shù)發(fā)展以及對該理念的重視,2015年美國將“精準(zhǔn)醫(yī)學(xué)計劃”提升為國家戰(zhàn)略之一。精準(zhǔn)醫(yī)學(xué)的有效實施不僅可以提高國民健康和醫(yī)療水平,也可以更好地優(yōu)化國家醫(yī)療資源分配,同時推動相關(guān)學(xué)科和技術(shù)的快速發(fā)展及相關(guān)產(chǎn)業(yè)的發(fā)展,進而產(chǎn)生巨大市場空間。因此,精準(zhǔn)醫(yī)學(xué)研究已經(jīng)成為各國的科技戰(zhàn)略制高點。2015年,我國科技部召開了“國家精準(zhǔn)醫(yī)療戰(zhàn)略專家會議”,成立了中國精準(zhǔn)醫(yī)療戰(zhàn)略專家組,計劃將在2030年前投入600億元,用于我國精準(zhǔn)醫(yī)學(xué)研究。2016年3月,科技部官網(wǎng)公布了《科技部關(guān)于發(fā)布國家重點研發(fā)計劃精準(zhǔn)醫(yī)學(xué)研究等重點專項2016年度項目申報指南的通知》。至此,精準(zhǔn)醫(yī)療在中國已經(jīng)上升為“國家戰(zhàn)略”。復(fù)旦大學(xué)有幸成為精準(zhǔn)醫(yī)學(xué)重點專項中的首席單位。
精準(zhǔn)醫(yī)學(xué)研究集合現(xiàn)代醫(yī)學(xué)和生物學(xué)科技發(fā)展的知識與技術(shù),代表現(xiàn)代醫(yī)學(xué)的發(fā)展趨勢以及臨床實踐發(fā)展方向。精準(zhǔn)醫(yī)學(xué)的核心思想是通過對大樣本、海量數(shù)據(jù)進行整合分析,構(gòu)建能夠揭示個體疾病分子機制的知識網(wǎng)絡(luò),由此針對病人的基因組和其他個體特點進行預(yù)防和治療。隨著生物醫(yī)學(xué)領(lǐng)域研究的飛速發(fā)展,生物醫(yī)學(xué)數(shù)據(jù)呈指數(shù)級增長,導(dǎo)致科研人員和醫(yī)生難以從海量生物醫(yī)學(xué)數(shù)據(jù)中發(fā)現(xiàn)高質(zhì)量、可用性的知識。
自從人類基因組計劃以來,測序技術(shù)和質(zhì)譜技術(shù)等各類組學(xué)技術(shù)的飛速發(fā)展,推動了基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組和代謝組等海量生命科學(xué)組學(xué)數(shù)據(jù)的指數(shù)級增長[1-2]。一方面,機器學(xué)習(xí)和人工智能技術(shù)的發(fā)展大幅提升了醫(yī)學(xué)信息學(xué)和生物信息學(xué)的發(fā)展,因此生物醫(yī)學(xué)數(shù)據(jù)的應(yīng)用方式也發(fā)生了改變。高通量實驗技術(shù)的突破,直接把生物醫(yī)學(xué)數(shù)據(jù)從PB(PetaByte)時代推升到多維度數(shù)據(jù)融合的EB(ExaByte)時代。另一方面,人群隊列研究、分子流行病學(xué)研究產(chǎn)生了大量的數(shù)據(jù),從分子、細胞、組織、器官、個體等多層面描述的多維度數(shù)據(jù),匯總海量真實世界數(shù)據(jù)(Real World Data)[3-4],這些廣泛的數(shù)據(jù)構(gòu)成了復(fù)雜的高維度生物醫(yī)學(xué)大數(shù)據(jù)。
目前生物醫(yī)學(xué)數(shù)據(jù)具有數(shù)量巨大、增長迅速、質(zhì)量控制困難、來源廣泛繁雜、內(nèi)涵豐富、非標(biāo)準(zhǔn)化、非結(jié)構(gòu)化和數(shù)據(jù)相對分散等特點,從而導(dǎo)致難以挖掘生物醫(yī)學(xué)大數(shù)據(jù)的潛在高價值。面對海量的生物醫(yī)學(xué)數(shù)據(jù),亟需構(gòu)建精準(zhǔn)醫(yī)學(xué)知識庫,全面獲取各類生物醫(yī)學(xué)文本信息和組學(xué)數(shù)據(jù),在標(biāo)準(zhǔn)、統(tǒng)一的語義網(wǎng)絡(luò)下,通過挖掘、關(guān)聯(lián)等技術(shù),從海量信息中高效準(zhǔn)確地發(fā)現(xiàn)知識,為研究和臨床決策提供充分可靠的依據(jù),最終實現(xiàn)精準(zhǔn)預(yù)防、精準(zhǔn)診斷和精準(zhǔn)治療的目標(biāo)。
因此,構(gòu)建能夠?qū)A繑?shù)據(jù)進行分析并提供可靠知識的精準(zhǔn)醫(yī)學(xué)知識庫,成為精準(zhǔn)醫(yī)學(xué)研究和臨床應(yīng)用發(fā)展的關(guān)鍵環(huán)節(jié)。
隨著精準(zhǔn)醫(yī)學(xué)的發(fā)展,生物醫(yī)學(xué)知識庫成為生物醫(yī)學(xué)領(lǐng)域研究的熱點。美國國立生物醫(yī)學(xué)中心開發(fā)了基于位點變異-基因-疾病的知識庫ClinVar(https://www.ncbi.nlm.nih.gov/clinvar/)[5],歐洲生物信息研究所先后開發(fā)了蛋白質(zhì)相互作用數(shù)據(jù)庫IntAct(https://www.ebi.ac.uk/intact/)[6]、生物學(xué)通路知識庫Reactome (https://reactome.org/)[7]、生物相關(guān)的化學(xué)實體數(shù)據(jù)庫ChEBI(https://www.ebi.ac.uk/inc/tool/chebi.html)、生化反應(yīng)的數(shù)學(xué)模型數(shù)據(jù)庫BioModels(http://www.ebi.ac.uk/biomodels-main/)和基因本體數(shù)據(jù)庫Gene Ontology (http://www.geneontology.org/) 等,西班牙國家生物技術(shù)中心開發(fā)了以基因為中心、基于PubMed 文獻摘要的在線文本知識挖掘服務(wù)平臺 Information Hyperlinked over Proteins(iHOP),并將其用于提供基因間關(guān)聯(lián)挖掘和分析。與此同時,一些公司也開展了生物醫(yī)學(xué)知識庫的開發(fā),代表性平臺有GeneGo(https://portal.genego.com/)、IPA(http://www.ipa-world.org/)和Pathway Studio(http://www.pathwaystudio.com/)。它們通過自然語言處理技術(shù)從文本中提取信息和知識,同時聘請專業(yè)人士進行判讀,保證知識的可靠性。IBM和微軟等公司依托其在人工智能及信息處理技術(shù)等方面的強大優(yōu)勢,研發(fā)了醫(yī)學(xué)知識智能檢索、查詢和相關(guān)分析工具,代表性產(chǎn)品有Watson腫瘤治療和臨床應(yīng)用系統(tǒng)、微軟Microsoft Health系統(tǒng)[8]。 IBM Watson是一種數(shù)據(jù)分析軟件,可以自動化分析、預(yù)測分析和可視化分析,但是需要數(shù)據(jù)預(yù)處理、統(tǒng)計概念理解和領(lǐng)域?qū)I(yè)知識[8]。
以上產(chǎn)品或平臺為生物醫(yī)學(xué)研究和藥物開發(fā)提供了高效廣泛的解決方案,覆蓋了從藥物發(fā)現(xiàn)到新藥申請,再到臨床試驗和臨床輔助診斷等生物醫(yī)學(xué)各個方面。總的來說,以基因為中心,描述基因-基因、基因-疾病、基因-位點關(guān)聯(lián)的知識庫越來越多,其對精準(zhǔn)醫(yī)學(xué)的巨大價值也得到了廣泛的認同。
我國生物醫(yī)學(xué)知識庫建設(shè)也已經(jīng)起步,主要是基于單一信息來源的醫(yī)學(xué)知識庫建設(shè)。以文獻知識庫為代表的醫(yī)學(xué)知識庫廣泛服務(wù)于臨床研究機構(gòu)和臨床醫(yī)生,如以文獻知識庫為代表的中國生物醫(yī)學(xué)知識庫 (中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所)、中國疾病知識總庫CDD(軍事科學(xué)院圖書館 )、中國醫(yī)院知識總庫CHKD(中國知網(wǎng))以及臨床診療知識庫(萬方醫(yī)學(xué)網(wǎng))[9]?!爸袊t(yī)院知識總庫”和“中國疾病知識總庫”是擁有多檢索入口、分組和排序、庫間引文鏈接、知識網(wǎng)絡(luò)等功能的全文知識庫[10]?!爸袊膊≈R總庫”,不僅面向臨床醫(yī)藥學(xué)專業(yè)人員,而且兼顧普通大眾;萬方醫(yī)學(xué)網(wǎng)是完善的臨床診斷的知識庫,提供以疾病、癥狀、檢查、藥品、指南和病例報告為基礎(chǔ)整合的知識點,方便醫(yī)生查找相關(guān)知識及病例,輔助醫(yī)生臨床診斷[10]。以上醫(yī)學(xué)知識庫為臨床診療和研究提供的知識服務(wù)源于可直接利用的知識,但是沒有進行知識識別和知識推理。近年來隨著知識庫構(gòu)建和知識圖譜技術(shù)的發(fā)展,各種基于臨床病歷和??茖2≈委煹膶n}知識庫的完善,以及專業(yè)醫(yī)學(xué)知識庫對臨床輔助診斷應(yīng)用的重要性凸顯,具備知識推理和發(fā)現(xiàn)的醫(yī)學(xué)知識庫成為了研究熱點。
此外,還有一些自主構(gòu)建的知識庫,如復(fù)旦大學(xué)和上海生物信息技術(shù)研究中心完成的“面向基層醫(yī)療基于循證醫(yī)學(xué)的知識庫系統(tǒng)”、中國人民解放軍軍事醫(yī)學(xué)研究院構(gòu)建的肝癌知識庫、浙江大學(xué)開發(fā)的個性化合理用藥系統(tǒng)和智能診療協(xié)議推薦系統(tǒng)等。但是這些知識庫還需要在數(shù)據(jù)完備、標(biāo)準(zhǔn)共享等方面進行完善,從而與國際接軌。值得注意的是,目前尚無針對中國人群的生物醫(yī)學(xué)知識庫,也沒有與GeneGo、IPA等比肩的應(yīng)用平臺,掣肘我國精準(zhǔn)醫(yī)學(xué)發(fā)展。為了打破國外生物醫(yī)學(xué)知識庫的壟斷,更好地為中國精準(zhǔn)醫(yī)學(xué)提供支撐,以復(fù)旦大學(xué)為首的團隊擬在國家重點研發(fā)項目中利用標(biāo)準(zhǔn)的語義網(wǎng)絡(luò),獲取完整全面的精準(zhǔn)醫(yī)學(xué)信息,并運用先進的知識發(fā)現(xiàn)技術(shù),構(gòu)建統(tǒng)一的、開放共享的、高效準(zhǔn)確的精準(zhǔn)醫(yī)學(xué)知識庫,從而服務(wù)于中國精準(zhǔn)醫(yī)學(xué)。
復(fù)旦大學(xué)承擔(dān)的隸屬于國家重點研發(fā)項目的精準(zhǔn)醫(yī)學(xué)項目“疾病研究精準(zhǔn)醫(yī)學(xué)知識庫構(gòu)建”主要針對精準(zhǔn)醫(yī)學(xué)知識數(shù)據(jù)量龐大、數(shù)據(jù)類型復(fù)雜、資源分布不均衡、利用程度低下等問題,立足我國多層次的精準(zhǔn)醫(yī)學(xué)知識庫體系和安全穩(wěn)定可操作的生物醫(yī)學(xué)大數(shù)據(jù)共享平臺的建設(shè)需求。其主要目標(biāo)是面向惡性腫瘤、心腦血管疾病等全疾病譜,整合生物醫(yī)學(xué)本體和多類型醫(yī)學(xué)文本資源,融合多層次生物信息數(shù)據(jù),加工和分析海量異構(gòu)異源生物醫(yī)學(xué)本體和生物信息資源,分析生物通路和網(wǎng)絡(luò)特征,構(gòu)建規(guī)范化、結(jié)構(gòu)化、自動更新和多維自動化與人工審編的精準(zhǔn)醫(yī)學(xué)知識庫體系,形成對精準(zhǔn)醫(yī)學(xué)研究和臨床應(yīng)用的關(guān)鍵支撐。開發(fā)的精準(zhǔn)醫(yī)學(xué)知識庫體系填補了國內(nèi)空白,打破了國際壟斷,將為針對健康和疾病人群的精準(zhǔn)醫(yī)學(xué)研究和臨床應(yīng)用提供多層次支撐。
集成深度索引、相關(guān)性挖掘、重要性標(biāo)注、新穎度分析等挖掘工具,集大規(guī)模文獻整合分析與知識發(fā)現(xiàn)于一體,實現(xiàn)精準(zhǔn)醫(yī)學(xué)知識的抽提、注釋、聚類、關(guān)聯(lián)及分析,開展基于數(shù)據(jù)關(guān)聯(lián)和可視化的精準(zhǔn)醫(yī)學(xué)知識利用技術(shù)研究,實現(xiàn)基于生物醫(yī)學(xué)語義和本體的全文檢索、文本識別、關(guān)鍵詞分析等功能。從海量的組學(xué)數(shù)據(jù)和臨床數(shù)據(jù)出發(fā),對生物醫(yī)學(xué)知識進行跨庫融合,并通過大數(shù)據(jù)網(wǎng)絡(luò)特征分析技術(shù)、模型特征提取技術(shù)等生物信息學(xué)手段與工具的開發(fā),利用知識圖譜構(gòu)建與擴展技術(shù)的應(yīng)用,構(gòu)建“基因-通路-疾病-癥狀-診療-藥物”的精準(zhǔn)醫(yī)學(xué)知識圖譜,形成面向精準(zhǔn)醫(yī)學(xué)的疾病相關(guān)生命組學(xué)知識庫體系。進一步開發(fā)知識網(wǎng)絡(luò)和知識圖譜的多維自動注釋流程,建立協(xié)同審編平臺,形成精準(zhǔn)醫(yī)學(xué)知識庫。最后,開發(fā)可交互、定制、擴展、自動更新的工作流技術(shù)體系,在“精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)平臺”上實現(xiàn)精準(zhǔn)醫(yī)學(xué)知識庫的檢索、展示、管理與共享,以及面向科研與臨床不同需求的知識庫應(yīng)用。匯集大規(guī)模文本挖掘、疾病相關(guān)生命組學(xué)、第三方知識庫等證據(jù)源形成的知識,構(gòu)建精準(zhǔn)醫(yī)學(xué)知識整合模型,實現(xiàn)精準(zhǔn)醫(yī)學(xué)知識的自動化注釋,并研究開放式的精準(zhǔn)醫(yī)學(xué)知識人工審編技術(shù),建成多證據(jù)源整合的疾病相關(guān)精準(zhǔn)醫(yī)學(xué)知識庫體系,開發(fā)檢索與展示功能,搭建精準(zhǔn)醫(yī)學(xué)知識庫管理與共享平臺。
構(gòu)建精準(zhǔn)醫(yī)學(xué)本體和語義網(wǎng)絡(luò),建立精準(zhǔn)醫(yī)學(xué)文本知識網(wǎng)絡(luò)。 通過跨庫融合、大數(shù)據(jù)網(wǎng)絡(luò)特征分析、模型特征抽取等手段,整合多種生物信息數(shù)據(jù),構(gòu)建和擴展精準(zhǔn)醫(yī)學(xué)知識圖譜。整合精準(zhǔn)醫(yī)學(xué)知識網(wǎng)絡(luò)和知識圖譜,建立面向文本和組學(xué)數(shù)據(jù)自動注釋與融合的流程,基于多維度的證據(jù)進行人工審編,形成精準(zhǔn)醫(yī)學(xué)知識庫;對接“精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)平臺”,實現(xiàn)個性化檢索、展示和自動更新,支撐面向精準(zhǔn)醫(yī)學(xué)的知識服務(wù)。具體研究內(nèi)容分為以下5部分。
3.3.1 精準(zhǔn)醫(yī)學(xué)本體和語義網(wǎng)絡(luò)構(gòu)建
借鑒 ICD-10、MeSH、UMLS 等生物醫(yī)學(xué)本體,建成涵蓋組學(xué)、疾病、癥狀、藥物等科技詞表和本體的規(guī)范精準(zhǔn)醫(yī)學(xué)語義關(guān)系,形成標(biāo)準(zhǔn)化、結(jié)構(gòu)化的精準(zhǔn)醫(yī)學(xué)知識模型。設(shè)計并建立精準(zhǔn)醫(yī)學(xué)知識組織框架,集多來源醫(yī)學(xué)知識組織系統(tǒng)為一體的建設(shè)方案和技術(shù)路線,開展精準(zhǔn)醫(yī)學(xué)領(lǐng)域術(shù)語采集,實施精準(zhǔn)醫(yī)學(xué)領(lǐng)域術(shù)語遴選與清洗,對遴選的精準(zhǔn)醫(yī)學(xué)領(lǐng)域術(shù)語進行評價并進行結(jié)構(gòu)轉(zhuǎn)化。
開發(fā)精準(zhǔn)醫(yī)學(xué)本體協(xié)同加工系統(tǒng),實現(xiàn)多來源的異構(gòu)異型詞表導(dǎo)入與關(guān)聯(lián)、詞表和本體的可視化與交互式編輯,研發(fā)復(fù)雜本體的概念歸并、同義關(guān)系相似度計算、不同概念間語義相關(guān)度計算和語義推理工具,為構(gòu)建并維護疾病相關(guān)組學(xué)本體和語義網(wǎng)絡(luò)提供有效工具。開發(fā)精準(zhǔn)醫(yī)學(xué)本體和語義網(wǎng)絡(luò)共享服務(wù)接口,形成標(biāo)準(zhǔn)化、結(jié)構(gòu)化的精準(zhǔn)醫(yī)學(xué)本體元數(shù)據(jù)集,為知識庫建設(shè)提供靈活調(diào)用和模塊式集成方式。
3.3.2 精準(zhǔn)醫(yī)學(xué)文本挖掘與知識網(wǎng)絡(luò)構(gòu)建
開展國際公開文獻、專利、臨床試驗、藥品監(jiān)管等海量多源異構(gòu)文本資源的采集、加工和規(guī)范化研究,建立精準(zhǔn)醫(yī)學(xué)文本資源數(shù)據(jù)庫,實現(xiàn)全文檢索、關(guān)鍵詞分析和自動更新。根據(jù)系統(tǒng)構(gòu)建的精準(zhǔn)醫(yī)學(xué)本體元數(shù)據(jù)集,定義醫(yī)學(xué)文本的實體識別與關(guān)聯(lián)抽取標(biāo)注規(guī)范,開展工具標(biāo)注與人工修正研究,構(gòu)建更大規(guī)模、更高質(zhì)量的精準(zhǔn)醫(yī)學(xué)文本訓(xùn)練語料庫?;谌诤显~性信息、生物實體識別文本表示,利用海量的未標(biāo)注生物醫(yī)學(xué)文本訓(xùn)練詞向量,自動學(xué)習(xí)更抽象更有效的特征,構(gòu)建高性能的實體識別模型。
利用深度學(xué)習(xí)的方法和已建成的精準(zhǔn)醫(yī)學(xué)實體關(guān)聯(lián)語料庫,采取卷積神經(jīng)網(wǎng)絡(luò)進行實體語義關(guān)聯(lián)抽取。利用相關(guān)性挖掘、高維聚類分析和關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建技術(shù),實現(xiàn)面向精準(zhǔn)醫(yī)學(xué)的大規(guī)模文獻整合分析與知識發(fā)現(xiàn),并應(yīng)用于惡性腫瘤、心腦血管疾病等全疾病譜。
3.3.3 精準(zhǔn)醫(yī)學(xué)知識圖譜的構(gòu)建
通過收集、組織、整理與疾病發(fā)生、發(fā)展、治療和預(yù)后相關(guān)的基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀遺傳組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)等多組學(xué)數(shù)據(jù)的國際生物醫(yī)學(xué)數(shù)據(jù)庫和來源于大型臨床機構(gòu)的臨床數(shù)據(jù),利用跨庫知識融合技術(shù),初步構(gòu)建涵蓋“基因-通路-疾病-癥狀-診療-藥物”關(guān)聯(lián)關(guān)系的精準(zhǔn)醫(yī)學(xué)知識圖譜。開展基于知識圖譜的自動化補全技術(shù),填補知識關(guān)聯(lián)缺失值,完成精準(zhǔn)醫(yī)學(xué)知識圖譜的第一層擴展。針對生物醫(yī)學(xué)大數(shù)據(jù)形成的網(wǎng)絡(luò)或模型,開發(fā)生物信息學(xué)算法,利用網(wǎng)絡(luò)特征分析、模型特征提取,預(yù)測生物醫(yī)學(xué)大數(shù)據(jù)的關(guān)聯(lián)性,完成精準(zhǔn)醫(yī)學(xué)知識圖譜的第二層擴展。開展數(shù)億級別的海量知識圖譜查詢和檢索技術(shù)研究,構(gòu)建基于生物信息學(xué)的精準(zhǔn)醫(yī)學(xué)知識圖譜,發(fā)展生物信息學(xué)通路和注釋知識體系,對接搭建的大型開源生物通路數(shù)據(jù)庫和系統(tǒng)生物學(xué)數(shù)據(jù)分析挖掘平臺。
3.3.4 精準(zhǔn)醫(yī)學(xué)知識自動化注釋與人工審編
開發(fā)面向精準(zhǔn)醫(yī)學(xué)知識庫構(gòu)建的基礎(chǔ)數(shù)據(jù)接口與ETL 工具集,整合大規(guī)模文本挖掘、疾病相關(guān)生命組學(xué)、第三方知識庫等來源的精準(zhǔn)醫(yī)學(xué)知識,研究基因、蛋白、遺傳變異、疾病、表型、藥物等維度的實體異構(gòu)知識的數(shù)據(jù)整合模型,研究不同證據(jù)源的精準(zhǔn)醫(yī)學(xué)知識熱度和質(zhì)量評價算法。開發(fā)精準(zhǔn)醫(yī)學(xué)知識自動化注釋軟件,選擇代表性的疾病組織專家進行知識的人工審編,構(gòu)建小規(guī)模、高質(zhì)量的精準(zhǔn)醫(yī)學(xué)知識庫。
開發(fā)開放式的精準(zhǔn)醫(yī)學(xué)社區(qū)平臺,構(gòu)建面向知識發(fā)現(xiàn)的全疾病譜精準(zhǔn)醫(yī)學(xué)知識庫,建立多證據(jù)源融合的精準(zhǔn)醫(yī)學(xué)知識數(shù)據(jù)索引,提供基因、蛋白、遺傳變異、疾病、表型和藥物等不同維度的高效檢索和篩選服務(wù),為用戶提供直觀友好和易懂可讀的知識展示。研發(fā)基于同質(zhì)和異質(zhì)的知識網(wǎng)絡(luò)的知識發(fā)現(xiàn)方法,支持文本挖掘、生命組學(xué)和第三方知識的開放式注釋等證據(jù)源的回溯。
3.3.5 精準(zhǔn)醫(yī)學(xué)知識庫管理與共享平臺研發(fā)
對接“精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)平臺”,研發(fā)知識庫信息資源管理系統(tǒng),實現(xiàn)精準(zhǔn)醫(yī)學(xué)知識庫信息資源的管理和分類展示,為各種知識庫應(yīng)用提供訪問入口。開發(fā)可交互、定制、擴展、更新的工作流技術(shù)服務(wù)體系,整合項目產(chǎn)出的知識庫工具,實現(xiàn)科研數(shù)據(jù)的處理、分析以及對接知識庫服務(wù)。以基因、蛋白質(zhì)為核心,研發(fā)基于精準(zhǔn)醫(yī)學(xué)知識庫的通路和網(wǎng)絡(luò)的結(jié)果展示、重要成份標(biāo)注、功能注釋和精細化作圖等技術(shù)。面向醫(yī)學(xué)基礎(chǔ)研究和臨床實踐需求,開發(fā)個性化的知識推送系統(tǒng)和開放性的知識庫應(yīng)用接口(API)服務(wù),覆蓋典型的精準(zhǔn)醫(yī)學(xué)知識查詢。研究精準(zhǔn)醫(yī)學(xué)知識臨床轉(zhuǎn)化關(guān)鍵技術(shù),在臨床機構(gòu)建立典型應(yīng)用示范。
3.4.1 構(gòu)建復(fù)雜生物醫(yī)學(xué)本體集成與標(biāo)準(zhǔn)化的精準(zhǔn)醫(yī)學(xué)知識模型
利用Protégé 等本體構(gòu)建工具框架和本體映射技術(shù),集成復(fù)雜生物醫(yī)學(xué)本體對現(xiàn)有的生物醫(yī)學(xué)領(lǐng)域本體進行規(guī)范化,實現(xiàn)多來源詞表的統(tǒng)一存儲與關(guān)聯(lián)。面向本體中多類概念以及復(fù)雜語義關(guān)系,采用詞匯級、短語級精準(zhǔn)醫(yī)學(xué)詞匯的映射算法,實現(xiàn)疾病、基因、蛋白質(zhì)、藥物、環(huán)境、通路等術(shù)語的概念歸并。
標(biāo)準(zhǔn)化的精準(zhǔn)醫(yī)學(xué)知識模型構(gòu)建則是通過開發(fā)精準(zhǔn)醫(yī)學(xué)概念、屬性、語義關(guān)系和唯一標(biāo)識符控制工具,系統(tǒng)構(gòu)建并維護疾病相關(guān)組學(xué)本體和語義網(wǎng)絡(luò)。借鑒數(shù)據(jù)交換、知識表示存儲的國內(nèi)外行業(yè)標(biāo)準(zhǔn),形成標(biāo)準(zhǔn)化、結(jié)構(gòu)化的精準(zhǔn)醫(yī)學(xué)本體元數(shù)據(jù)集,實現(xiàn)精準(zhǔn)醫(yī)學(xué)本體和語義網(wǎng)絡(luò)共享和接口調(diào)用。
3.4.2 構(gòu)建精準(zhǔn)醫(yī)學(xué)文本實體識別和語義關(guān)聯(lián)抽取模型
構(gòu)建生物醫(yī)學(xué)文本實體識別模型。針對傳統(tǒng)詞袋模型存在的維度高、數(shù)據(jù)稀疏、忽略詞序信息等問題,提出基于融合詞性信息、生物實體識別文本表示,利用海量的未標(biāo)注生物醫(yī)學(xué)文本訓(xùn)練詞向量,學(xué)習(xí)詞語間豐富的內(nèi)部關(guān)聯(lián);利用結(jié)合狀態(tài)轉(zhuǎn)移概率的雙向長短期記憶LSTM 神經(jīng)網(wǎng)絡(luò),自動學(xué)習(xí)更抽象更有效的特征,構(gòu)建高性能的生物醫(yī)學(xué)文本實體識別模型。
構(gòu)建生物醫(yī)學(xué)文本語義關(guān)聯(lián)抽取模型。針對現(xiàn)有詞向量大都基于線性詞序的上下文關(guān)系,忽略實體關(guān)系抽取中重要的句法信息的問題,提出基于句法詞向量的文本表示方法,將其輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過深度學(xué)習(xí)模型學(xué)習(xí)有效的特征,提升實體關(guān)系抽取的性能。
3.4.3 構(gòu)建基于生物信息學(xué)的精準(zhǔn)醫(yī)學(xué)知識圖譜
精準(zhǔn)醫(yī)學(xué)知識圖譜的自動化補全研究。依據(jù)精準(zhǔn)醫(yī)學(xué)知識圖譜的子結(jié)構(gòu)特征與相關(guān)生物醫(yī)學(xué)資料的關(guān)系,利用人工和機器學(xué)習(xí)兩種方法,基于對應(yīng)模板提取相應(yīng)知識點,自動填補知識關(guān)聯(lián)缺失值,彌補人工構(gòu)建知識圖譜的局限性。
基于生物信息學(xué)的生物數(shù)據(jù)關(guān)聯(lián)挖掘研究。基于分類、回歸分析、時間序列分析、聚類、關(guān)聯(lián)分析和序列分析等生物數(shù)據(jù)挖掘方法,尋找生物組學(xué)數(shù)據(jù)與臨床診斷、疾病分型、預(yù)后分析、藥物開發(fā)等醫(yī)學(xué)研究與實踐的關(guān)聯(lián)關(guān)系,并將以上關(guān)系以特殊標(biāo)記屬性值的形式補充在精準(zhǔn)醫(yī)學(xué)知識圖譜中。
構(gòu)建基于生物信息學(xué)的精準(zhǔn)醫(yī)學(xué)知識圖譜。針對生物醫(yī)學(xué)概念識別的異構(gòu)特征,如類別相似度、語義相似度和圖結(jié)構(gòu)相似度,歸并分散的知識,增強對生物醫(yī)學(xué)概念的多層面理解。通過知識的跨庫融合實現(xiàn)從單純的知識庫整合到知識圖譜網(wǎng)絡(luò)構(gòu)建的跳躍。
3.4.4 構(gòu)建精準(zhǔn)醫(yī)學(xué)知識自動化注釋與人工審編
多證據(jù)源的知識整合技術(shù)。精準(zhǔn)醫(yī)學(xué)知識來源多樣,既有來自采用大規(guī)模自動挖掘得到的基于文本的知識和基于疾病相關(guān)生命組學(xué)數(shù)據(jù)挖掘得到的知識,也有來自第三方的經(jīng)過審編的知識。不同來源的知識可能存在沖突,需要對證據(jù)源進行有效的整合。
建立開放式的精準(zhǔn)醫(yī)學(xué)知識審編社區(qū)。精準(zhǔn)醫(yī)學(xué)知識可以按照基因、蛋白、疾病等實體來組織,也可以按照文本資源來組織。2個角度的組織方式都支持對知識的評價和糾錯機制,引導(dǎo)外部志愿者改進知識質(zhì)量。
精準(zhǔn)醫(yī)學(xué)知識庫檢索與展示技術(shù)。采用MongoDB 的NoSQL 技術(shù),將不同證據(jù)源的知識模型優(yōu)化為簡單的以鍵值對為核心的分布式結(jié)構(gòu),并引入高效的非結(jié)構(gòu)化文本資源的搜索引擎Solr,提高數(shù)據(jù)檢索性能和擴充性能,滿足知識庫檢索和展示的需求。
3.4.5 構(gòu)建精準(zhǔn)醫(yī)學(xué)知識庫的管理與共享系統(tǒng)
精準(zhǔn)醫(yī)學(xué)知識庫管理共享平臺基礎(chǔ)架構(gòu)?;陂_源Galaxy 框架進行二次開發(fā)構(gòu)建工作流體系,通過自動化數(shù)據(jù)處理和人機交互數(shù)據(jù)處理方式實現(xiàn)數(shù)據(jù)庫更新。
精準(zhǔn)醫(yī)學(xué)知識分析和精細作圖體系構(gòu)建。借鑒Reactome 等在知識分析和精細作圖體系方面的優(yōu)勢,對標(biāo)GeneGo/IPA,搭建對通路信息進行分析和可視化的工作平臺。
精準(zhǔn)醫(yī)學(xué)知識庫推送和應(yīng)用接口(API)的開發(fā)和應(yīng)用示范。針對典型精準(zhǔn)醫(yī)學(xué)知識需求,利用WebService 開發(fā)以JSON/XML 等標(biāo)準(zhǔn)發(fā)布數(shù)據(jù)的應(yīng)用接口(API),并基于此建立個性化、智能化的知識訂閱和自動推送機制,支撐精準(zhǔn)醫(yī)學(xué)臨床決策支持并開展精準(zhǔn)醫(yī)學(xué)知識庫臨床評測。
本項目預(yù)期建成面向疾病研究的精準(zhǔn)醫(yī)學(xué)知識庫體系。該體系具有標(biāo)準(zhǔn)規(guī)范、開放共享、用戶友好、動態(tài)更新等特點,并可作為國家標(biāo)準(zhǔn)來促進疾病精準(zhǔn)醫(yī)學(xué)研究成果的知識管理。在此過程中,將取得 “一個標(biāo)準(zhǔn)”“一個庫”“一個平臺”3大成果。
3.5.1 精準(zhǔn)醫(yī)學(xué)本體和語義表示標(biāo)準(zhǔn)
參照國際上通用的ICD-10 分類法及UMLS、MeSH 等生物醫(yī)學(xué)主題詞表和本體,建成涵蓋組學(xué)、疾病、癥狀、藥物等的科技詞表和本體,構(gòu)建精準(zhǔn)醫(yī)學(xué)語義網(wǎng)絡(luò)和知識模型,形成標(biāo)準(zhǔn)規(guī)范、系統(tǒng)全面的精準(zhǔn)醫(yī)學(xué)本體和語義網(wǎng)絡(luò)標(biāo)準(zhǔn)。
3.5.2 精準(zhǔn)醫(yī)學(xué)知識庫
根據(jù)系統(tǒng)構(gòu)建的本體和語義網(wǎng)絡(luò),針對海量的多源異構(gòu)文本和生物信息數(shù)據(jù),利用自然語言處理、深層索引、相關(guān)性挖掘等技術(shù)進行數(shù)據(jù)整合、關(guān)聯(lián)抽取,形成“精準(zhǔn)醫(yī)學(xué)文本知識網(wǎng)絡(luò)”和“基于生物信息學(xué)的精準(zhǔn)醫(yī)學(xué)知識圖譜”。通過自動注釋和審編,并結(jié)合重要性標(biāo)注和新穎性分析,實現(xiàn)文本與組學(xué)數(shù)據(jù)的融合和知識發(fā)現(xiàn),最終形成涵蓋多證據(jù)源的,面向惡性腫瘤、代謝系統(tǒng)疾病、呼吸系統(tǒng)疾病、心腦血管疾病、免疫性疾病、神經(jīng)精神類疾病等疾病的,覆蓋科學(xué)研究和臨床應(yīng)用等需求的,可實現(xiàn)證據(jù)分級與回溯功能的精準(zhǔn)醫(yī)學(xué)知識庫。
3.5.3 精準(zhǔn)醫(yī)學(xué)知識庫管理與共享平臺
該平臺將以網(wǎng)站的形式呈現(xiàn),支持面向精準(zhǔn)醫(yī)學(xué)知識發(fā)現(xiàn)的檢索、展示和分析功能(對標(biāo)GeneGO 和IPA),提供不少于20個用于知識抽提、文本挖掘、信息展示和精細作圖等的軟件工作流技術(shù)服務(wù)體系,支持面向用戶定制的知識推送,提供面向科研和臨床等多種場景的應(yīng)用接口。本平臺將部署在“精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)平臺”的服務(wù)器和云端,穩(wěn)定支持1000人以上并發(fā)使用,且具有自動更新功能。本平臺將通過“精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)平臺”向本專項所有項目推廣、開放、共享。
精準(zhǔn)醫(yī)學(xué)知識庫(Precision Medicine knowledgebase application,PMapp)以知識地圖的形式全面整合了45個數(shù)據(jù)庫(圖1),其主要框架包括基因及其產(chǎn)物、生物信號通路和分子網(wǎng)絡(luò)、致病變異以及藥物4個部分(圖2)。
在第一部分中,PMapp收存了20 656個編碼人類基因和38 943個非編碼人類基因,178 562個RNA以及111 716個蛋白質(zhì)。這些基因及其代謝產(chǎn)物構(gòu)成了PMapp實體存儲庫的主要部分。至2017年底,第二部分已經(jīng)集成21個信號通路/網(wǎng)絡(luò)數(shù)據(jù)庫,其中包含13個主要相互作用類別、22種生物效應(yīng)、28種修飾和1個實驗注釋。
整個常規(guī)通路和網(wǎng)絡(luò)總共涵蓋31 264個生物實體(節(jié)點)和1 804 000個相機作用(邊),包含13種不同的作用關(guān)系(表1)。致病變異方面,PMapp收集了5 738 719種致病變異,源自18 022個基因,對應(yīng)10 725種疾病。
除此之外,9 746種藥物和其對應(yīng)的78 664個靶標(biāo)的信息也被收錄在PMapp中,包含561 180個藥物-藥物,1 191個藥物-食物,5 118個藥物-酶,以及1 839種藥物-轉(zhuǎn)運體等相互作用。PMapp在本體方面實施面向精準(zhǔn)醫(yī)學(xué)的重大疾病本體體系結(jié)構(gòu)、知識表示模型和精準(zhǔn)醫(yī)學(xué)術(shù)語庫的構(gòu)建。精準(zhǔn)醫(yī)學(xué)詞匯規(guī)模達到300萬,整合了57部生物醫(yī)學(xué)領(lǐng)域詞表、術(shù)語3 879 621個、概念1 052 512個。完成精準(zhǔn)醫(yī)學(xué)本體的語義概念映射,精準(zhǔn)醫(yī)學(xué)本體覆蓋2個重大疾病領(lǐng)域,本體之間的語義關(guān)系包含疾病-基因-藥物。完成精準(zhǔn)醫(yī)學(xué)本體構(gòu)建,精準(zhǔn)醫(yī)學(xué)本體包括類57 746個、語義關(guān)系92 個,涵蓋人類表型、疾病、化學(xué)物質(zhì)與藥物、細胞機制、分子機制、遺傳機制6大醫(yī)學(xué)領(lǐng)域,完成2~3個重大疾病精準(zhǔn)醫(yī)學(xué)本體建設(shè)。
圖1 PMapp完成54個不同領(lǐng)域的數(shù)據(jù)庫數(shù)據(jù)收集和整理
圖2 精準(zhǔn)醫(yī)學(xué)知識庫的主要框架
Pathway TypeEdge TypeDirectionalityEdge No.Signaling PathwaySR: Signaling RegulationDirected172 765ER: Expression RegulationDirected122 786CAI: Complex Assembly InteractionUndirected177 227TR: Transport RegulationDirected7 296TRc: Transport Regulation chemicalDirected3 285ca: x chemical affects PDirected469 519RNAi: RNA interferenceDirected317 556TechPPITechPPI: Technical Protein-Protein InteractionUndirected316 437Metabolic Pathwaysp: metabolic reaction sE→pF→Directed14 428sE: metabolic reaction sE→pF→Directed22 480Ep: metabolic reaction sE→pF→Directed21 334EE: metabolic reaction sE→pF→Directed154 975rw: x reacts with yUndirected3 912
目前PMapp網(wǎng)站集成了項目產(chǎn)出的本體和術(shù)語資源以及數(shù)據(jù)庫資源,搭建了精準(zhǔn)醫(yī)學(xué)知識庫檢索網(wǎng)站,可以檢索基因、藥物等主要精準(zhǔn)醫(yī)學(xué)概念。在基因展示頁面中,對基因基本信息、GO 注釋信息、蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)相互作用、關(guān)聯(lián)藥物、關(guān)聯(lián)疾病等分別做了顯示。因此, PMapp是面向科學(xué)研究的,可以進行通路/網(wǎng)絡(luò)精細做圖、通路分析和智能檢索的系統(tǒng)。
此外,PMapp將無縫銜接本體富集分析等已有的分析工具,對標(biāo)IPA基本的工作流分析體系,可以實現(xiàn)對組學(xué)數(shù)據(jù)的差異基因分析,并給出火山圖等圖表;也會在系統(tǒng)中整合基因本體、通路本體、疾病本體、Mesh 本體 以及本項目產(chǎn)出的綜合本體等資源數(shù)據(jù),對數(shù)據(jù)進行本體注釋及富集分析,并提供可呈現(xiàn)上下層級關(guān)系的本體樹圖形及表格多樣化的結(jié)果展示。
針對用戶關(guān)注或感興趣的組學(xué)數(shù)據(jù)或基因列表,本系統(tǒng)可為用戶提供一系列的注釋信息,比如本體、分子網(wǎng)絡(luò)等。將要實現(xiàn)的本體表格和DAG樹狀結(jié)構(gòu)的展示以及分析功能,對標(biāo)IPA/GeneGO 的精準(zhǔn)醫(yī)學(xué)知識庫通路分析展示系統(tǒng)的通路展示和分析。通過搜索頁面找到需要的通路,然后通過網(wǎng)絡(luò)展示頁面顯示通路分子成份之間的關(guān)系,也可以對網(wǎng)絡(luò)進行編輯和聚類分析等。
在這個過程中,項目團隊首先針對精準(zhǔn)醫(yī)學(xué)知識庫如PharmGKB 提供了一種新的知識查詢服務(wù)。目前最大的問題是現(xiàn)有的標(biāo)準(zhǔn)化知識訪問協(xié)議通常都是基于標(biāo)準(zhǔn)術(shù)語系統(tǒng)和編碼來檢索的,而目前臨床數(shù)據(jù)通常不太具備這樣的數(shù)據(jù)質(zhì)量。后續(xù)需要改進中文術(shù)語的標(biāo)準(zhǔn)化編碼查詢服務(wù),以滿足知識精準(zhǔn)查詢的需求,實現(xiàn)PMapp雙重角色,即為針對健康和疾病人群的精準(zhǔn)醫(yī)學(xué)研究和臨床應(yīng)用提供多層次支撐。
實現(xiàn)精準(zhǔn)醫(yī)學(xué)的核心,是結(jié)合多維度的臨床、影像和多組學(xué)數(shù)據(jù),利用深度學(xué)習(xí)、自然語言處理、多組學(xué)整合分析等方法,研發(fā)面向疾病風(fēng)險預(yù)測、早期診斷、精準(zhǔn)治療、療效評估和預(yù)后監(jiān)控的精準(zhǔn)醫(yī)療臨床決策支持系統(tǒng),為精準(zhǔn)醫(yī)學(xué)臨床應(yīng)用轉(zhuǎn)化提供有效途徑,從而實現(xiàn)疾病精準(zhǔn)預(yù)防、精準(zhǔn)檢測和精準(zhǔn)診療的目標(biāo)。
通過知識庫的構(gòu)建和完善,完成多學(xué)科協(xié)作、貫通診療全過程的精準(zhǔn)醫(yī)療臨床決策支持系統(tǒng)。該系統(tǒng)具備多模態(tài)信息融合、影像組學(xué)聯(lián)合分析、深度學(xué)習(xí)決策模型集成、多尺度決策硬件加速和多環(huán)節(jié)全景式分析等能力,可實現(xiàn)覆蓋多學(xué)科及完整就醫(yī)閉環(huán)流程的精準(zhǔn)醫(yī)療輔助決策,依托大型綜合性醫(yī)院驗證推廣,將明顯提高惡性腫瘤、代謝系統(tǒng)疾病、呼吸系統(tǒng)疾病、心腦血管疾病、免疫性疾病、神經(jīng)精神類疾病和罕見疾病等重大疾病的醫(yī)療水平和防治效益。