文圖/《中國(guó)醫(yī)藥科學(xué)》記者 費(fèi) 菲
臨床科研必須經(jīng)歷繁雜的過(guò)程,而大數(shù)據(jù)時(shí)代給研究者帶來(lái)挑戰(zhàn)的同時(shí),也為臨床科研創(chuàng)造了極好的條件和機(jī)遇。如何利用大數(shù)據(jù)讓臨床醫(yī)生快速獲得高質(zhì)量的臨床數(shù)據(jù)?怎樣幫助醫(yī)生進(jìn)行數(shù)據(jù)分析,助力臨床科研計(jì)劃或項(xiàng)目?為回答這些問(wèn)題,積極應(yīng)對(duì)生物醫(yī)學(xué)大數(shù)據(jù)研究的挑戰(zhàn),中國(guó)科學(xué)院心理研究所生物信息研究室主任、研究員王晶近年來(lái)以主要精力創(chuàng)新開(kāi)展了生物醫(yī)學(xué)大數(shù)據(jù)整合和數(shù)據(jù)挖掘研究。一方面為便于臨床醫(yī)生更好地分析和理解生物醫(yī)學(xué)大數(shù)據(jù),致力于開(kāi)發(fā)生物信息學(xué)最新的應(yīng)用工具和方法,主導(dǎo)開(kāi)發(fā)了一系列(18 個(gè))具有國(guó)際影響力的疾病組學(xué)數(shù)據(jù)分析工具和方法,獲得軟件著作權(quán)10 項(xiàng),截至目前該系列工具的累計(jì)訪問(wèn)用戶逾6.4 萬(wàn)人,累計(jì)頁(yè)面訪問(wèn)量逾1980 萬(wàn)次;另一方面通過(guò)與臨床醫(yī)生的合作,重點(diǎn)開(kāi)展了神經(jīng)系統(tǒng)和免疫相關(guān)的多種疾病遺傳信息的挖掘與分子機(jī)制研究,取得了較好的研究成果。日前,王晶研究員對(duì)近年來(lái)實(shí)驗(yàn)室取得的研究成果從三個(gè)方面作了詳盡的介紹。
提到大數(shù)據(jù),就不能不提到人類基因組計(jì)劃(Human Genome Project,HGP)。人類的遺傳物質(zhì)是DNA,它的總和就是人類基因組,人體估計(jì)有6~10萬(wàn)個(gè)基因,由大約30 億對(duì)堿基組成,分布在細(xì)胞核的23 對(duì)染色體中。堿基是人類遺傳物質(zhì)的基本組成成分,它們由ATCG 共4 種堿基不斷交替組成。1990 年10 月,國(guó)際人類基因組計(jì)劃正式啟動(dòng)。目的是測(cè)定人類染色體包含的30 億個(gè)堿基對(duì)組成的核苷酸序列,繪制人類基因組圖譜,辨識(shí)其載有的基因及其序列,從而破譯人類遺傳信息。
□王晶:大數(shù)據(jù)的廣泛應(yīng)用是傳統(tǒng)醫(yī)學(xué)模式向“精準(zhǔn)醫(yī)學(xué)”轉(zhuǎn)變的前提
我國(guó)于1999 年9 月獲準(zhǔn)加入人類基因組計(jì)劃,在這一項(xiàng)目啟動(dòng)時(shí),正攻讀博士的王晶,有幸參與到該項(xiàng)目中。當(dāng)時(shí)中國(guó)參與的部分占到人類基因組的整體序列的1%,也就是3 號(hào)染色體上的3000 萬(wàn)個(gè)堿基對(duì),使中國(guó)成為繼美、英、日、德、法之后第6 個(gè)國(guó)際人類基因組計(jì)劃參與國(guó),也是參與這一計(jì)劃的唯一發(fā)展中國(guó)家。我國(guó)稱為1%基因組計(jì)劃或北京區(qū)域計(jì)劃。王晶那時(shí)的主要工作是對(duì)中國(guó)負(fù)責(zé)的基因組測(cè)序區(qū)域進(jìn)行進(jìn)一步的數(shù)據(jù)解析和注釋。后與國(guó)際同道一起將研究結(jié)果發(fā)表在2003 年的《自然》(Nature)雜志上??梢哉f(shuō),人類基因組計(jì)劃開(kāi)啟了基因組學(xué)的先河。隨后,各種基因組學(xué)計(jì)劃蓬勃興起,如千人基因組計(jì)劃、DNA 元素百科全書(shū)(ENCODE)項(xiàng)目,提供了完整的人類遺傳多態(tài)性圖譜以及DNA 功能元件的注釋,而且,包括腫瘤相關(guān)研究等多個(gè)組學(xué)計(jì)劃為今天的研究提供了非常豐富的數(shù)據(jù)資源。時(shí)至今日,圍繞生命中心法則,研究者們已在基于芯片/高通量測(cè)序的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀組、代謝組等研究領(lǐng)域積累了大量數(shù)據(jù),包括單細(xì)胞水平基因型和表型研究、人類健康相關(guān)微生物群落研究等,為開(kāi)展疾病相關(guān)的研究提供了非常寶貴的財(cái)富。
王晶研究員以組學(xué)研究的全基因組關(guān)聯(lián)分析(Genome wide association study,GWAS)為 例,談 到了近年來(lái)她所觀察到的基因組學(xué)研究趨勢(shì)和發(fā)展。GWAS 是指在人類全基因組范圍內(nèi)找出存在的序列變異,即單核苷酸多態(tài)性(SNP),從中篩選出與疾病相關(guān)的單核苷酸多態(tài)性位點(diǎn)。2000 年初起至今,GWAS 已歷經(jīng)10 多年的發(fā)展,雖面對(duì)二代測(cè)序技術(shù)的挑戰(zhàn),但目前GWAS 仍不失為解析疾病遺傳機(jī)制的一種非常有效的方法,受到研究者的青睞。
回顧從2007 年至2017 年的10 年間,一個(gè)明顯的趨勢(shì)是,GWAS 研究發(fā)表文章的數(shù)量出現(xiàn)持續(xù)攀升,GWAS 的研究投入和樣本量日益增多。不少GWAS研究采用了極大的樣本量來(lái)進(jìn)行分析,如一些研究采用的GWAS 研究樣本數(shù)量甚至超過(guò)了10 萬(wàn)例。王晶認(rèn)為,雖然樣本數(shù)量和實(shí)際研究發(fā)現(xiàn)之間的確存在正相關(guān)性,越大的樣本量帶來(lái)越多的發(fā)現(xiàn),然而也有相當(dāng)一部分GWAS 研究樣本數(shù)量不足5000 例,提示我們用適當(dāng)?shù)臉颖玖客ㄟ^(guò)一些方法也可以找到疾病相關(guān)的新基因和新的發(fā)現(xiàn)。分析目前逐年遞增的疾病研究數(shù)量和種類可以看到,GWAS 對(duì)很多疾病仍在貢獻(xiàn)大量未知的知識(shí)和信息。
王晶研究員通過(guò)對(duì)人類不同染色體上不同疾病組發(fā)現(xiàn)的遺傳變異分布的最新統(tǒng)計(jì)發(fā)現(xiàn),截至2019 年6 月,全球通過(guò)GWAS 研究已鑒定出超過(guò)9 萬(wàn)種變異(P<5×10-8)與疾病相關(guān)。而在2018 年進(jìn)行同一統(tǒng)計(jì)時(shí),與特定表型相關(guān)的遺傳變異位點(diǎn)還只有6 萬(wàn)多個(gè),短短一年時(shí)間GWAS 研究飛速進(jìn)步,使人類對(duì)疾病的認(rèn)識(shí)不斷深入。
對(duì)已鑒定出來(lái)的疾病相關(guān)的遺傳變異位點(diǎn)作進(jìn)一步分析發(fā)現(xiàn),通過(guò)GWAS 研究或ENCODE 等系列研究,越來(lái)越多的免疫系統(tǒng)相關(guān)疾病的遺傳病位點(diǎn)被報(bào)道。一方面在生物學(xué)研究領(lǐng)域,從基因組、轉(zhuǎn)錄組、蛋白組、表觀組等各組學(xué)領(lǐng)域會(huì)產(chǎn)生大量數(shù)據(jù);另一方面,在醫(yī)療大數(shù)據(jù)領(lǐng)域,醫(yī)生為患者診療的過(guò)程中也積累了海量的數(shù)據(jù),同時(shí)在不同層面的醫(yī)學(xué)領(lǐng)域也積累了越來(lái)越多的大數(shù)據(jù)。目前的趨勢(shì)是將生物和醫(yī)學(xué)大數(shù)據(jù)電子化,通過(guò)組建數(shù)據(jù)庫(kù)將這些數(shù)據(jù)進(jìn)行有效整合和管理,以便后期采用一些先進(jìn)方法(如深度學(xué)習(xí)等)更好地分析數(shù)據(jù)。
具體分為四類:首先是以患者為中心的數(shù)據(jù)。包括患者的基本數(shù)據(jù)、入出轉(zhuǎn)數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)、醫(yī)學(xué)管理、經(jīng)濟(jì)數(shù)據(jù)等,成為醫(yī)療信息的主要來(lái)源,占比最高,達(dá)到90%。這類數(shù)據(jù)的特點(diǎn)是完整性、結(jié)構(gòu)化、標(biāo)準(zhǔn)化有待提高??杉?xì)分為三類信息:一是病歷,包括病史、診斷結(jié)果/路徑、用藥等信息;二是傳統(tǒng)檢測(cè),包括影像、生化、免疫、聚合酶鏈?zhǔn)椒磻?yīng)(PCR)等;三是新興檢測(cè)(基因測(cè)序等)。
其次是醫(yī)藥研發(fā)領(lǐng)域產(chǎn)生的大量醫(yī)藥研發(fā)數(shù)據(jù)。這部分?jǐn)?shù)據(jù)約占4%,特點(diǎn)是具有較好的完整性、機(jī)構(gòu)化和標(biāo)準(zhǔn)化??杉?xì)分為兩類信息:醫(yī)藥研發(fā)數(shù)據(jù),從臨床前、Ⅰ~Ⅲ臨床、Ⅳ期臨床、上市后大量人群中進(jìn)行療效跟蹤獲得的臨床測(cè)試數(shù)據(jù);科研數(shù)據(jù),主要是科研進(jìn)展的報(bào)道。
第三是患者數(shù)據(jù)。這部分?jǐn)?shù)據(jù)約占6%,在完整性、結(jié)構(gòu)化、標(biāo)準(zhǔn)化方面尚存不足。可細(xì)分為兩類:體征類的健康管理數(shù)據(jù);網(wǎng)絡(luò)醫(yī)療行為數(shù)據(jù)。
第四是支付數(shù)據(jù)??杉?xì)分為三類:患者支付記錄;報(bào)銷、賠付記錄;醫(yī)療機(jī)構(gòu)、流通廠商醫(yī)藥等支付記錄。
王晶研究員接著介紹了生物信息學(xué)的相關(guān)內(nèi)容。2000 年人們對(duì)生物信息學(xué)(Bioinformatics)這一概念還較為陌生。這一學(xué)科是伴隨人類基因組計(jì)劃的誕生而產(chǎn)生的,旨在將學(xué)科進(jìn)行交叉,運(yùn)用數(shù)學(xué)、計(jì)算機(jī)等技術(shù),通過(guò)開(kāi)發(fā)工具與方法,對(duì)生物學(xué)和醫(yī)學(xué)領(lǐng)域產(chǎn)生的大量數(shù)據(jù)進(jìn)行深入分析的一門多學(xué)科交叉學(xué)科。也正是這一年,作為國(guó)家生物信息學(xué)專業(yè)首批培養(yǎng)的博士,王晶參與到人類基因組計(jì)劃等項(xiàng)目中,從此與基因組研究結(jié)緣,十多年來(lái)圍繞這一領(lǐng)域開(kāi)展了一系列的工作。
生物信息學(xué)的核心有兩點(diǎn)。第一是進(jìn)行數(shù)據(jù)的整合和管理。目的是為了應(yīng)用好這些海量的大數(shù)據(jù)(Big Data),將之變成真正有用的知識(shí)(knowledge),這是生物信息學(xué)的本質(zhì)。作為一門工具性學(xué)科,生物信息學(xué)本身在疾病各個(gè)方面的研究中已成為不可或缺的一部分,目前在各高校都設(shè)置了相關(guān)專業(yè)。面對(duì)生物學(xué)和醫(yī)學(xué)數(shù)據(jù)激增的時(shí)代,大數(shù)據(jù)的廣泛應(yīng)用與生物信息學(xué)技術(shù)的不斷進(jìn)步,成為實(shí)現(xiàn)傳統(tǒng)醫(yī)學(xué)模式向“精準(zhǔn)醫(yī)學(xué)”轉(zhuǎn)變的必要前提和核心動(dòng)力,為未來(lái)更深入的疾病研究提供幫助。海量數(shù)據(jù)的不斷產(chǎn)生,表現(xiàn)為多層面、多維度以及高異質(zhì)性的特點(diǎn),尤其是遺傳學(xué)數(shù)據(jù)有時(shí)會(huì)受到人群背景的影響,有時(shí)很多遺傳性的研究結(jié)果很難被復(fù)制。
第二是一些從疾病數(shù)據(jù)本身的特性帶來(lái)的挑戰(zhàn)。很多疾病尤其是復(fù)雜疾病,如風(fēng)濕免疫、自身免性疾病都是多基因共同作用的,是基因和環(huán)境共同影響導(dǎo)致疾病的發(fā)生和發(fā)展。從疾病和數(shù)據(jù)的維度看,在今天雖然擁有了海量的數(shù)據(jù),也不斷涌現(xiàn)越來(lái)越多的數(shù)據(jù)分析方法和技術(shù),但我們?nèi)砸媾R的一個(gè)很大的挑戰(zhàn)是,如何更好地用好這些數(shù)據(jù)。運(yùn)用生物信息學(xué)研究的第一步是對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行有效整合,建立好數(shù)據(jù)之間的邏輯關(guān)系,這是最基礎(chǔ)的一步。目的是為了更好地對(duì)生物醫(yī)學(xué)大數(shù)據(jù)進(jìn)行挖掘和應(yīng)用,通過(guò)這些技術(shù)和管理真正把數(shù)據(jù)變成知識(shí),在數(shù)據(jù)挖掘的過(guò)程中獲得一些新的發(fā)現(xiàn)。當(dāng)然這些發(fā)現(xiàn)只是一些分析結(jié)果,最終還要與實(shí)驗(yàn)科學(xué)結(jié)合,從而幫助我們更好地理解復(fù)雜疾病的遺傳機(jī)制,在這一過(guò)程中找到可以用于臨床轉(zhuǎn)化的各種靶點(diǎn)或生物標(biāo)志物。
近年來(lái),王晶實(shí)驗(yàn)室的主要工作是使用生物信息學(xué)策略開(kāi)展復(fù)雜疾病遺傳機(jī)制的研究,開(kāi)發(fā)的工具和方法主要聚焦于三個(gè)方面。
第一個(gè)方面是,深入挖掘GWAS 數(shù)據(jù),進(jìn)行基于生物通路的分析。迄今為止已發(fā)表了4000 多篇GWAS 研究的論文。王晶認(rèn)為,GWAS 研究產(chǎn)生的大量數(shù)據(jù)所具有的含義被低估了,在這個(gè)過(guò)程中可以產(chǎn)生更多發(fā)現(xiàn)。幾年來(lái),王晶實(shí)驗(yàn)室在這一方面開(kāi)發(fā)的工 具 有:i-GSEA4GAWS(2010 年)、i-GSEA4GAWS v2(2015 年)、ICSN Pathway(2011 年)、BEST(剛上線)。
具體來(lái)看GWAS 研究數(shù)據(jù)的深度挖掘。全基因組關(guān)聯(lián)學(xué)習(xí)(GWAS)是一種對(duì)全基因組范圍內(nèi)的常見(jiàn)遺傳多態(tài)性(主要是單核苷酸多態(tài)性-single nucleotide polymorphisms,SNPs)進(jìn)行總體關(guān)聯(lián)分析的方法,適用于包括精神疾?。╩ental disorder)在內(nèi)的復(fù)雜疾病的研究。GWAS 研究往往會(huì)報(bào)道一些統(tǒng)計(jì)意義上與疾病顯著相關(guān)的遺傳變異位點(diǎn),但GWAS 所報(bào)道的部分不過(guò)是冰山一角,只是那些在統(tǒng)計(jì)意義上最為顯著的一部分,大量數(shù)據(jù)是蘊(yùn)藏在海平面之下的并未被報(bào)道,但這些數(shù)據(jù)也是具有生物學(xué)意義的。除了顯著相關(guān)的一些基因或遺傳位點(diǎn),還有大量的基因可能是微效或弱效的,但這些微效基因組合后的多基因共同作用,對(duì)疾病的發(fā)生將有很高的貢獻(xiàn)度。即是說(shuō),傳統(tǒng)全基因組關(guān)聯(lián)學(xué)習(xí)(GWAS)數(shù)據(jù)分析方法對(duì)SNP/基因進(jìn)行獨(dú)立分析,忽略了復(fù)雜疾病的多基因聯(lián)合效應(yīng)。為解決上述問(wèn)題,近年來(lái)基于通路(pathway)的研究原則被引入到GWAS 數(shù)據(jù)分析,檢測(cè)包含多個(gè)基因的通路和性狀的關(guān)聯(lián)。王晶實(shí)驗(yàn)室開(kāi)展的工作旨在深入挖掘海平面下的通過(guò)GWAS 研究產(chǎn)生的這些海量數(shù)據(jù)有哪些信息值得借鑒和思考。
基于上述觀點(diǎn),王晶課題組成功開(kāi)發(fā)了基于通路的GWAS 數(shù)據(jù)網(wǎng)絡(luò)分析平臺(tái)(i-GSEA4GWAS,簡(jiǎn)稱i-GSEA)和工具,通過(guò)網(wǎng)絡(luò)服務(wù)的方式供全球各國(guó)相關(guān)研究工作者使用(i-GSEA4GWAS,URL:http://gsea4gwas.psych.ac.cn。
開(kāi)發(fā)i-GSEA 平臺(tái)的核心是基于生物通路的分析(PBA),主要解決的科學(xué)問(wèn)題是鑒別與疾病表型相關(guān)的通路(生物學(xué)功能和機(jī)制)/基因集。識(shí)別哪些生物過(guò)程和疾病是相關(guān)的,以進(jìn)一步研究和揭示疾病致病機(jī)理,進(jìn)而去識(shí)別SNP 或基因的組合效應(yīng)?!巴贰痹趶V義上指包括細(xì)胞功能、代謝過(guò)程、生物合成、遺傳信息處理、疾病相關(guān)因素等在內(nèi)的一系列的生物過(guò)程。應(yīng)用方法主要是開(kāi)發(fā)了一系列的工具,從第一個(gè)版本的i-GSEA4GAWS(2010 年)到第二個(gè)、第三個(gè)版本。這一系列工具是以數(shù)據(jù)在線分析平臺(tái)的形式呈現(xiàn)的,研究者可以到網(wǎng)站上免費(fèi)使用。截至目前,該系列工具的累計(jì)訪問(wèn)用戶逾6.4 萬(wàn)人,累計(jì)頁(yè)面訪問(wèn)量逾1980 萬(wàn)次。
開(kāi)發(fā)i-GSEA 4GWAS 系列工具的目的是為了研究GWAS 數(shù)據(jù),尤其是冰山下還未被系統(tǒng)挖掘的數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義。開(kāi)發(fā)這一系列工具具體來(lái)講是回答三個(gè)問(wèn)題:第一,統(tǒng)計(jì)顯著的SNP 是否為致病SNP;第二,識(shí)別SNP 或基因之間的組合效應(yīng),它們作為一個(gè)整體是如何導(dǎo)致疾病的發(fā)生發(fā)展;第三,鑒別與疾病表型相關(guān)聯(lián)的通路,提出可能的生物學(xué)機(jī)制。目的是建立起SNP、基因和通路之間的聯(lián)系。這是王晶實(shí)驗(yàn)室開(kāi)發(fā)的第一個(gè)系列的工具。她與美國(guó)洛克菲勒大學(xué)遺傳統(tǒng)計(jì)系主任Jurg Ott.教授一起合作,共同探索了傳統(tǒng)遺傳學(xué)領(lǐng)域的連鎖分析策略。與既往以過(guò)濾為主的測(cè)序數(shù)據(jù)分析方式不同,連鎖分析能提供遺傳位點(diǎn)與疾病之間相關(guān)性的統(tǒng)計(jì)學(xué)證據(jù),與目前全基因組測(cè)序分析有機(jī)結(jié)合,可進(jìn)一步提升全基因組測(cè)序數(shù)據(jù)在基因注釋方面的準(zhǔn)確度和效率。
另一方面,著重研究遺傳變異的調(diào)控功能。王晶實(shí)驗(yàn)室也開(kāi)發(fā)了一系列工具以幫助更好地分析遺傳變異的調(diào)控功能,包括MethyCancer 研究(2008年)、rSNPBase(2014 年)、rVarBase(2016 年)、rSNPBase3.0(2018 年)。
基因組的編碼區(qū)也被稱為編碼序列或CDS(coding DNA sequence),只占非常小的部分,不足2%;而基因組的大量區(qū)域都是非編碼區(qū)DNA,占98%。研究結(jié)果顯示,人類基因組內(nèi)的非編碼DNA 至少80%是有生物活性的,而非之前認(rèn)為的“垃圾”DNA(junk DNA)。非編碼區(qū)域在疾病的發(fā)生發(fā)展中發(fā)揮著非常重要的作用,而且GWAS 所報(bào)道的絕大多數(shù)顯著位點(diǎn)都是位于非編碼區(qū)(Non-coding region),開(kāi)發(fā)一系列的在線分析工具,旨在回答位于非編碼區(qū)的這些遺傳變異位點(diǎn)到底是如何行使它們調(diào)控功能的問(wèn)題,每個(gè)工具較前面開(kāi)發(fā)的工具在數(shù)據(jù)范圍、分析功能方面都有了進(jìn)一步提升。比如,第一個(gè)開(kāi)發(fā)的工具是對(duì)全基因組范圍SNP 的調(diào)控功能進(jìn)行注釋,提供很多實(shí)驗(yàn)證實(shí)的SNP 和實(shí)驗(yàn)證據(jù)等;第二個(gè)工具在第一個(gè)基礎(chǔ)之上涵蓋了更多的類型,除了常見(jiàn)的SNP 還包括拷貝數(shù)異常(CNV)等結(jié)構(gòu)變異;第三個(gè)工具除了可提供單個(gè)遺傳變異的調(diào)控功能分析外,為SNP 在怎樣的表觀遺傳調(diào)控網(wǎng)絡(luò)里發(fā)揮作用提供疾病分子機(jī)制的假說(shuō)和生物學(xué)機(jī)制,旨在幫助我們更好理解這些SNP 的調(diào)控功能。
王晶實(shí)驗(yàn)室通常進(jìn)行的分析是通過(guò)GWAS 或目標(biāo)區(qū)域的關(guān)聯(lián)分析,通過(guò)新一代測(cè)序技術(shù)(NGS)采集樣本信息并找到顯著關(guān)聯(lián)的變異,通過(guò)這些工具進(jìn)一步分析其生物學(xué)意義。比如,針對(duì)單個(gè)變異去分析其調(diào)控功能包括具體的實(shí)驗(yàn)性參數(shù);再比如,組織細(xì)胞的表達(dá)類型等,依據(jù)分析結(jié)果設(shè)計(jì)分子功能實(shí)驗(yàn)驗(yàn)證方案。在另一層面提供表觀遺傳學(xué)圖譜,可能參與哪些表達(dá)調(diào)控網(wǎng)絡(luò),為在怎么樣的背景下導(dǎo)致疾病的發(fā)生提供疾病的分子假說(shuō),目的是通過(guò)對(duì)數(shù)據(jù)的進(jìn)一步分析為后續(xù)的實(shí)驗(yàn)科學(xué)驗(yàn)證工作提供更多的啟示。
王晶實(shí)驗(yàn)室新近開(kāi)發(fā)的來(lái)易統(tǒng)平臺(tái)包含了常用的6 大類醫(yī)學(xué)統(tǒng)計(jì)方法,旨在助力廣大醫(yī)學(xué)研究者更方便地進(jìn)行各種醫(yī)學(xué)統(tǒng)計(jì)分析,開(kāi)展更深入的科學(xué)研究。很多年輕臨床醫(yī)生是疾病診治方面的專家,在科研工作中需要花大量時(shí)間學(xué)習(xí)統(tǒng)計(jì)方面的知識(shí),而這恰恰是王晶研究員非常熟悉的領(lǐng)域,因此她帶領(lǐng)團(tuán)隊(duì)開(kāi)發(fā)了新的醫(yī)學(xué)統(tǒng)計(jì)平臺(tái),便于臨床醫(yī)生查閱醫(yī)學(xué)領(lǐng)域發(fā)表的文章。當(dāng)用戶按照指定的格式輸入科研數(shù)據(jù),平臺(tái)可智能地推薦一些方法便于用戶進(jìn)行分析,最后產(chǎn)生的圖表都是文章發(fā)表最常用的格式。這項(xiàng)工作可以為臨床研發(fā)小工具,幫助用戶在日常工作中節(jié)約更多時(shí)間關(guān)注科研問(wèn)題。
再一方面,在整合疾病數(shù)據(jù)的基礎(chǔ)上開(kāi)展更進(jìn)一步的數(shù)據(jù)挖掘工作。這種數(shù)據(jù)整合和分析的方法適用于各種復(fù)雜疾病,以認(rèn)知相關(guān)的一些腦疾病為例,目前腦疾病數(shù)據(jù)散落在不同的文章、網(wǎng)站或大項(xiàng)目中,數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程,是通過(guò)收集并對(duì)這些數(shù)據(jù)進(jìn)行有效利用的思路和方法。近年來(lái)王晶實(shí)驗(yàn)室在這一方面開(kāi)發(fā)的工具有:ADHD gene(2011 年)、MK4MDD(2012 年)、BDgene(2013 年)、CS-DEGs(2014 年)、PTSDgene(2017年)。王晶實(shí)驗(yàn)室開(kāi)發(fā)這一系列工具的核心思路是找到致病的關(guān)鍵基因或遺傳變異,了解它們是如何影響蛋白質(zhì)功能或功能RNA 的表達(dá),最終導(dǎo)致生物學(xué)系統(tǒng)的功能改變和疾病的發(fā)生及發(fā)展。該系列工具的累及訪問(wèn)用戶逾17 萬(wàn)人,累計(jì)頁(yè)面訪問(wèn)量逾1800 萬(wàn)次。
王晶實(shí)驗(yàn)室開(kāi)展了兒童多動(dòng)癥、抑郁癥、雙向情感障礙、疾病遺傳環(huán)境的交互作用以及創(chuàng)傷后應(yīng)激等腦疾病領(lǐng)域的分析和研究,分析的方法和研究思路主要是圍繞單一疾病的遺傳性分析、多層面數(shù)據(jù)的整合和多種疾病的交叉分析兩個(gè)方面。由于很多疾病是共病存在,可以通過(guò)疾病的共病機(jī)制分析、疾病的遺傳與環(huán)境的交互分析及數(shù)據(jù)整合和數(shù)據(jù)挖掘,幫助醫(yī)生找到更多的思路和啟示。
例如,創(chuàng)傷后應(yīng)激障礙(post-traumatic-stressdisorder,PTSD),也被稱為“創(chuàng)傷后壓力癥候群”,是指經(jīng)歷創(chuàng)傷性事件后的心理精神反應(yīng)。PTSD 在人群中存在差異性表現(xiàn),部分人無(wú)明顯異常表現(xiàn),部分人則可能導(dǎo)致心理精神的嚴(yán)重創(chuàng)傷,這是因?yàn)檫z傳因素在PTSD 的發(fā)生發(fā)展中發(fā)揮了重要作用。2016 年Benjet C 等報(bào)道,一項(xiàng)關(guān)于全球創(chuàng)傷事件暴露的流行病學(xué)研究表明,70%的受訪者至少報(bào)告了一例創(chuàng)傷事件,但其中只有少數(shù)人發(fā)展成為PTSD,造成這些心理精神不同反應(yīng)的重要原因之一是遺傳易感性差異。王晶實(shí)驗(yàn)室開(kāi)發(fā)了首個(gè)創(chuàng)傷后應(yīng)激障礙遺傳學(xué)數(shù)據(jù)庫(kù)PTSDgene。該數(shù)據(jù)庫(kù)從多個(gè)層面較為全面地綜述了PTSD 的遺傳學(xué)研究現(xiàn)狀(基因、GXE),為后續(xù)的研究提供了廣泛而可靠的數(shù)據(jù)集。同時(shí),通過(guò)深入的數(shù)據(jù)挖掘與分析,得到了PTSD 潛在的新候選基因,為驗(yàn)證研究提供了新的視角。該數(shù)據(jù)庫(kù)整合了國(guó)際研究組織進(jìn)行的不同研究發(fā)表的各類遺傳學(xué)數(shù)據(jù),整合后建立了數(shù)據(jù)評(píng)分矩陣,提供最值得關(guān)注的熱點(diǎn)基因,在這一基礎(chǔ)上應(yīng)用前述的開(kāi)發(fā)工具和方法進(jìn)行數(shù)據(jù)的進(jìn)一步挖掘,除了已報(bào)道的基因之外,還有一些未知的、新的研究熱點(diǎn)有待進(jìn)一步認(rèn)識(shí)和發(fā)現(xiàn)。
王晶實(shí)驗(yàn)室與臨床專家合作,在2013 年與40 多家臨床單位合作開(kāi)展了世界上首個(gè)針對(duì)原發(fā)性干燥綜合征(pSS)的全基因組關(guān)聯(lián)研究(GWAS)分析,很幸運(yùn)僅使用5622 例的樣本便找到了兩個(gè)新的基因。研究分為1845 例病例和3777 例健康對(duì)照(均為中國(guó)漢族人)兩組,由生物信息主導(dǎo)的三階段實(shí)驗(yàn)設(shè)計(jì),在7q11.23 鑒別出新的原發(fā)性干燥綜合征易感基因:GTF2IRD1 和GTF2I。該研究成為2013 年《自然-遺傳學(xué)》(Nature Genetics)雜志當(dāng)期的研究亮點(diǎn)。文章發(fā)表時(shí)還未能找到GTF2IRD1 和GTF2I 與自身免疫疾病是否相關(guān)的證據(jù),當(dāng)時(shí)找到的研究證據(jù)僅表明這兩個(gè)新的基因與威廉氏癥候群(Williams Syndrome)中的神經(jīng)認(rèn)知缺損密切相關(guān)。但令人驚喜的是,在后續(xù)研究中,GTF2I-GTF2IRD1 位點(diǎn)被證實(shí)與多種自身免疫性疾病相關(guān),2018 年在國(guó)內(nèi)神經(jīng)科專家的研究中,該基因還被發(fā)現(xiàn)與視神經(jīng)脊髓炎譜系疾病相關(guān)。由此可知,GTF2IRD1 和GTF2I 基因在免疫系統(tǒng)和神經(jīng)系統(tǒng)兩個(gè)領(lǐng)域都發(fā)揮著重要的作用,值得研究者進(jìn)一步深入探究其功能。
王晶實(shí)驗(yàn)室還使用i-GSEA4GWAS 平臺(tái)對(duì)雙向情感障礙(bipolar disorder)的GWAS 數(shù)據(jù)進(jìn)行了分析,并發(fā)現(xiàn)了可能的疾病相關(guān)通路/基因集。該項(xiàng)研究得到了中國(guó)科學(xué)院心理研究所青年科學(xué)基金和北京市科學(xué)技術(shù)委員會(huì)北京市科技新星計(jì)劃(A 類)的資助。該研究成果發(fā)表在生物信息學(xué)頂級(jí)雜志Nucleic Acids Research(影響因子6.878)。
2017 年,王晶實(shí)驗(yàn)室和臨床醫(yī)師合作開(kāi)展了一項(xiàng)注意缺陷多動(dòng)障礙(ADHD,即兒童多動(dòng)癥)GWAS 研究,文章已刊于精神疾病頂級(jí)國(guó)際學(xué)術(shù)期刊《分子神經(jīng)病學(xué)》雜志。這項(xiàng)GWAS 研究是國(guó)際首個(gè)ADHD執(zhí)行抑制功能的兩階段全基因組關(guān)聯(lián)分析研究。兒童多動(dòng)癥這一疾病的表型非常復(fù)雜,很難用疾病作為表型來(lái)進(jìn)行GWAS 研究,所以這項(xiàng)研究選擇了從內(nèi)表型的角度出發(fā),在中國(guó)漢族兒童ADHD 患者中開(kāi)展。研究鑒定出在ADHD 的多動(dòng)-沖動(dòng)行為中,MICALL2 是與ADHD 執(zhí)行抑制相關(guān)的新的易感基因。這一新基因的功能在斑馬魚(yú)中也得到了驗(yàn)證。進(jìn)一步證實(shí)了神經(jīng)發(fā)育基因在ADHD 的致病機(jī)制中可能發(fā)生作用。研究發(fā)現(xiàn)注意缺陷多動(dòng)障礙(ADHD)新基因MICALL2,執(zhí)行抑制功能受損是ADHD 患者的核心缺陷。
王晶研究員認(rèn)為,遺傳學(xué)研究或進(jìn)行基礎(chǔ)研究的目的是為了更好的臨床轉(zhuǎn)化和應(yīng)用。目前很多公司都提供各種形式的基因檢測(cè)?;驒z測(cè)可涵蓋各個(gè)領(lǐng)域,涉及非常廣泛的應(yīng)用,從疾病的不同階段,包括人類從出生到衰老各個(gè)不同階段都可以開(kāi)展相應(yīng)的一些基因檢測(cè)項(xiàng)目?;驒z測(cè)廣泛應(yīng)用于多種疾病的診療,包括風(fēng)險(xiǎn)預(yù)測(cè)(病原體核酸檢測(cè)、產(chǎn)前檢測(cè))、輔助診斷(單基因遺傳?。⒂盟幹笇?dǎo)(復(fù)雜疾病患病風(fēng)險(xiǎn)、腫瘤)和治療干預(yù)(藥物基因組)。
遺傳病的基因檢測(cè)最核心的部分是回答三個(gè)問(wèn)題,第一個(gè)問(wèn)題是應(yīng)該檢測(cè)什么基因;第二個(gè)問(wèn)題是用何種方法和技術(shù)平臺(tái)進(jìn)行基因檢測(cè);第三個(gè)問(wèn)題最為重要,是如何解讀這些基因檢測(cè)結(jié)果。
首先來(lái)看第一個(gè)問(wèn)題:遺傳病的發(fā)現(xiàn)應(yīng)該檢測(cè)什么基因?人類基因組序列大約有2 萬(wàn)個(gè)基因,除了編碼序列(CDS)外,非編碼區(qū)的新調(diào)控功能元件不斷被發(fā)現(xiàn),確定合適的檢測(cè)范圍或檢測(cè)對(duì)象對(duì)臨床非常重要。目前,在遺傳病領(lǐng)域開(kāi)展的檢測(cè)主要分為兩種。第一種,已報(bào)道的基因是與疾病顯著相關(guān),但機(jī)制尚不明確。例如,關(guān)聯(lián)研究發(fā)現(xiàn),HLA-Cw06 陽(yáng)性主要與1 型銀屑病、點(diǎn)滴型銀屑病和銀屑病關(guān)節(jié)炎顯著相關(guān),可作為這類疾病的診斷標(biāo)志物。APOE e4 與阿爾茲海默?。ˋD)的患病風(fēng)險(xiǎn)升高顯著相關(guān),與其他生物指標(biāo)一起用于AD 診斷,其作用機(jī)制尚不十分明確。第二種,基因致病路徑清晰。遵循基因突變—蛋白質(zhì)功能或表達(dá)變化—代謝物變化—疾病表型的路徑。例如,HLA DQ2/DQ8 在麩質(zhì)敏感性腸病的致病中起重要作用,直接參與重要復(fù)合物的呈遞。TPMT 參與硫唑嘌呤的代謝途徑,其突變可導(dǎo)致毒性物質(zhì)累積引起不良反應(yīng)。以上研究的目的是從發(fā)現(xiàn)基因與疾病的關(guān)聯(lián)到最終確定作用機(jī)制。很多基因與疾病的關(guān)聯(lián)尚未確定作用機(jī)制,也有相當(dāng)多的基因由于與疾病顯著相關(guān)已開(kāi)展了相應(yīng)的檢測(cè)項(xiàng)目。
王晶研究員統(tǒng)計(jì)了已在臨床得到廣泛應(yīng)用的基因檢測(cè)項(xiàng)目:以自身免疫性疾病為例,檢測(cè)方法主要是基因芯片、實(shí)時(shí)定量基因擴(kuò)增熒光檢測(cè)系統(tǒng)(qPCR)、一代測(cè)序等,在輔助診斷方面有強(qiáng)直性脊柱炎(基因指標(biāo) HLA-B27)、類風(fēng)濕關(guān)節(jié)炎{基因指標(biāo)HLA-DRB1 基因共同表位(SE)}、銀屑病(基因指標(biāo)HLA-Cw06)、白塞氏?。ɑ蛑笜?biāo)HLA-B51)、麩質(zhì)敏感性腸?。ɑ蛑笜?biāo)HLA-DQ2/DQ8)。用藥指導(dǎo)有別嘌呤醇(基因指標(biāo)HLA-B*5801)、硫唑嘌呤(基因指標(biāo)TPMT、NUDT15)、甲氨蝶呤(基因指標(biāo)MTHFR)。
以神經(jīng)系統(tǒng)遺傳代謝性疾病為例,其發(fā)病原因復(fù)雜且種類多、治療困難,始終是困擾著神經(jīng)病學(xué)家的難題。根據(jù)在線人類孟德?tīng)栠z傳數(shù)據(jù)庫(kù)(OMIM)的數(shù)據(jù)統(tǒng)計(jì),基因檢測(cè)在神經(jīng)系統(tǒng)遺傳病的診斷中具有重要作用。人類已被發(fā)現(xiàn)的5000 多種單基因病中,神經(jīng)系統(tǒng)遺傳病或綜合征約占所有遺傳病的50%以上,主要臨床表現(xiàn)為神經(jīng)系統(tǒng)癥狀體征卻歸為神經(jīng)系統(tǒng)遺傳病或綜合征的還有300 多種。
神經(jīng)系統(tǒng)單基因遺傳病具有高度遺傳異質(zhì)性和臨床變異性,各類疾病的病種間可能有一些重疊,疾病譜也復(fù)雜多樣。檢測(cè)方法主要是多重連接探針擴(kuò)增(MLPA)、片段分析(FA)、基因測(cè)序、二代測(cè)序(NGS)的基因panel 檢測(cè)、基因芯片、qPCR、一代測(cè)序等。神經(jīng)系統(tǒng)單基因遺傳病主要包括杜氏肌營(yíng)養(yǎng)不良(基因指標(biāo)DMD,檢測(cè)方法MLPA)、強(qiáng)直性肌營(yíng)養(yǎng)不良 { 基因指標(biāo)DMPK、ZNF9;檢測(cè)方法為片段分析(FA)}、脊髓小腦共濟(jì)失調(diào) { 基因指標(biāo)ATXN1、ATXN2、ATXN3等;片段分析(FA)}、肯尼迪?。顾柩铀杓∥s癥,KD){ 基因指標(biāo)AR;片段分析(FA)}、亨廷頓病舞蹈癥(HD),{ 基因指標(biāo)HTT;片段分析(FA)}、脊肌萎縮癥(SMA){基因指標(biāo)SMN1、SMN2;檢測(cè)方法是多重連接探針擴(kuò)增(MLPA)}、腓骨肌萎縮癥(CM5){基因指標(biāo)PMP22;檢測(cè)方法是基因組DNA 多重連接探針擴(kuò)增(MLPA)}、常染色體顯性遺傳病合并皮質(zhì)下梗死和白質(zhì)腦病(CADASIL){基因指標(biāo)NOTCH3;基因測(cè)序}、MELAS 綜合征(線粒體基因突變;基因測(cè)序)、早發(fā)型阿爾茲海默?。ɑ蛑笜?biāo)APP、PSEN1、PSEN2;基因測(cè)序)、多種疾病組合{Gene panel,二代測(cè)序(NGS)的基因panel 檢測(cè)}。多基因病/復(fù)雜疾病以阿爾茲海默病為例,基因指標(biāo)為APOE,檢測(cè)方法有基因芯片、實(shí)時(shí)定量基因擴(kuò)增熒光檢測(cè)系統(tǒng)(qPCR)、一代測(cè)序技術(shù)等。
其次也是很關(guān)鍵的問(wèn)題——怎么進(jìn)行基因檢測(cè)?根據(jù)不同的變異類型和特點(diǎn),應(yīng)采取相應(yīng)的遺傳檢測(cè)的實(shí)驗(yàn)方法,如一代測(cè)序技術(shù)、二代測(cè)序(NGS)的基因panel 檢測(cè)以及近年來(lái)逐漸在臨床得到應(yīng)用的三代測(cè)序方法等。針對(duì)特定的變異類型選擇合適的檢測(cè)方法進(jìn)行相應(yīng)的檢測(cè)。比如,少量單堿基變異或小插入缺失(PCR、一代測(cè)序)、中等通量的單堿基變異或小插入缺失(基因芯片、二代測(cè)序的基因panel 檢測(cè))、高通量單堿基變異或小插入缺失(二代測(cè)序的基因panel 檢測(cè))、短串聯(lián)序列重復(fù)數(shù)變異(PCR+毛細(xì)管電泳)、已知大片段插入缺失/重復(fù){MLPA、熒光原位雜交(FISH)}、未知大片段插入缺失/重復(fù)(高測(cè)序深度的二代測(cè)序)
最后也是最困難的一個(gè)環(huán)節(jié)是,如何解讀基因檢測(cè)數(shù)據(jù)?生物信息成為二代測(cè)序技術(shù)在臨床應(yīng)用的關(guān)鍵。標(biāo)準(zhǔn)化的分析流程、數(shù)據(jù)質(zhì)控體系的建立、全方位的變異注釋對(duì)檢測(cè)結(jié)果的正確解讀十分重要。從二代測(cè)序各環(huán)節(jié)的難度來(lái)看,數(shù)據(jù)分析難度系數(shù)最大(69%)。
基因檢測(cè)數(shù)據(jù)的解讀主要包括兩個(gè)部分。一是有別于傳統(tǒng)檢測(cè)技術(shù),對(duì)基因檢測(cè),尤其是通過(guò)二代測(cè)序技術(shù)開(kāi)展的基因檢測(cè),檢測(cè)實(shí)驗(yàn)結(jié)束往往只完成了檢測(cè)流程的一半,實(shí)驗(yàn)數(shù)據(jù)通常要經(jīng)過(guò)生物信息的分析(bioinformatics)或遺傳解讀,才能形成明確的檢測(cè)結(jié)果。經(jīng)過(guò)遺傳解讀幫助臨床醫(yī)師更好地理解檢測(cè)的結(jié)果和報(bào)告。二是遺傳解讀需要兩方面專家的努力,一方面是解讀遺傳報(bào)告的專家能提供真正對(duì)臨床有幫助、有指導(dǎo)意義的解讀,另一方面臨床醫(yī)生也需要在過(guò)程中不斷加深對(duì)于遺傳報(bào)告解讀的理解,需要這兩方面的雙向互動(dòng)才能真正將基因檢測(cè)運(yùn)用到臨床實(shí)踐中。
王晶研究員總結(jié),我們正處在大數(shù)據(jù)時(shí)代,面臨著海量的數(shù)據(jù),不同維度、層面給研究工作帶來(lái)很大的挑戰(zhàn);但也因?yàn)榇髷?shù)據(jù)的出現(xiàn),實(shí)現(xiàn)了傳統(tǒng)實(shí)驗(yàn)科學(xué)或假設(shè)驅(qū)動(dòng)的研究和以數(shù)據(jù)啟動(dòng)為基礎(chǔ)的研究?jī)煞N研究思路的并行,為研究帶來(lái)了極大的機(jī)遇。2016 年A Tebani 發(fā)表在Int J Mol SCI的文章指出,多組學(xué)數(shù)據(jù)和臨床數(shù)據(jù)一起構(gòu)成了“系統(tǒng)醫(yī)學(xué)”,組合成從DNA到蛋白質(zhì),從細(xì)胞到機(jī)體再到群體的一個(gè)完整脈絡(luò)。但最核心問(wèn)題和挑戰(zhàn)是如何將這些數(shù)據(jù)系統(tǒng)化,建立數(shù)據(jù)之間的邏輯聯(lián)系,以及用何種方法更好地分析這些數(shù)據(jù)。目前王晶實(shí)驗(yàn)室主要完成的工作是以數(shù)據(jù)驅(qū)動(dòng)為主(數(shù)據(jù)驅(qū)動(dòng)是通過(guò)分析數(shù)據(jù)指導(dǎo)進(jìn)一步的實(shí)驗(yàn)的設(shè)計(jì)和驗(yàn)證),未來(lái)將借助深度學(xué)習(xí)等技術(shù)的不斷進(jìn)步和在臨床領(lǐng)域的應(yīng)用,將生物學(xué)和醫(yī)學(xué)臨床數(shù)據(jù)進(jìn)行整合。比如,應(yīng)用方向之一是通過(guò)基礎(chǔ)研究和臨床數(shù)據(jù)的充分整合,采用合適的人工智能方法進(jìn)行臨床表型的預(yù)測(cè)或開(kāi)發(fā)智能輔助診斷的系統(tǒng),幫助臨床醫(yī)生去更好地認(rèn)識(shí)疾病,開(kāi)展臨床相關(guān)的實(shí)踐。
當(dāng)下人工智能已在很多領(lǐng)域得到了應(yīng)用,主要的趨勢(shì)是在圖形、圖像、文本、數(shù)值等綜合數(shù)據(jù)領(lǐng)域,尤其是在圖形圖像領(lǐng)域。期待在未來(lái)人工智能能帶來(lái)更多的思路和啟迪。王晶研究員總結(jié),在數(shù)據(jù)集中的時(shí)代,目前實(shí)驗(yàn)室的研究思路主要是數(shù)據(jù)驅(qū)動(dòng)的研究,未來(lái)在基因檢測(cè)或疾病機(jī)制的研究和數(shù)據(jù)解讀將成為非常重要的部分,同時(shí)實(shí)驗(yàn)室已開(kāi)展了與人工智能技術(shù)相關(guān)的研究,期待未來(lái)借助于人工智能技術(shù)的發(fā)展,能開(kāi)發(fā)出更多更好的技術(shù)和方法,為推動(dòng)疾病相關(guān)的診療進(jìn)步提供助力,造福于人民。
專家小傳
王晶,研究員,博士生導(dǎo)師?,F(xiàn)任中國(guó)科學(xué)院心理研究所生物信息研究室主任。2000 年獲上海交通大學(xué)學(xué)士學(xué)位,2005 年獲北京大學(xué)生物信息學(xué)博士學(xué)位,同年被聘為中國(guó)科學(xué)院基因組研究所副研究員,2008 年6 月入選中國(guó)科學(xué)院心理研究所特聘研究員、博士生導(dǎo)師。王晶研究員的研究領(lǐng)域是生物信息學(xué)工具方法開(kāi)發(fā)和生物數(shù)據(jù)分析與挖掘、復(fù)雜疾病的遺傳機(jī)制研究及基因組的結(jié)構(gòu)與功能探索。她致力于開(kāi)發(fā)和應(yīng)用生物信息學(xué)方法,探索復(fù)雜疾?。ㄖ饕P(guān)注精神類疾病、自身免疫性疾?。┑姆肿舆z傳機(jī)制,為疾病的早期診斷提供科學(xué)依據(jù)。迄今為止,王晶研究員已在《自 然》(Nature)、《科 學(xué)》(Science)、《自 然-遺傳學(xué)》(Nature Genetics)、《生物精神病學(xué)》(Biological Psychiatry)、《核酸研究》(Nucleic Acids Research)等國(guó)際知名雜志發(fā)表論文73 篇,發(fā)表文章累計(jì)影響因子逾630 分,累計(jì)引用超過(guò)8000 次。以第一作者/通訊作者發(fā)表的影響因子>10 的論文15 篇,曾主持和參與國(guó)家自然科學(xué)基金重大研究計(jì)劃和創(chuàng)新群體項(xiàng)目,科技部863、973 項(xiàng)目,歐盟第六框架項(xiàng)目(EU-FP6),中國(guó)科學(xué)院知識(shí)創(chuàng)新工程方向項(xiàng)目等多項(xiàng)科研項(xiàng)目。她主導(dǎo)開(kāi)發(fā)了一系列(18 個(gè))具有國(guó)際影響力的疾病組學(xué)數(shù)據(jù)分析工具和方法,獲得軟件著作權(quán)10 項(xiàng),并得到業(yè)界人士的廣泛應(yīng)用。