張學(xué)工 江瑞 汪小我 古槿 陳挺
【作者單位:清華大學(xué)自動化系,計算機(jī)科學(xué)與技術(shù)系,生命科學(xué)學(xué)院,教育部生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室生物信息學(xué)研究部,清華大學(xué)數(shù)據(jù)科學(xué)研究院醫(yī)療健康大數(shù)據(jù)研究中心】
從生物大數(shù)據(jù)到知識大發(fā)現(xiàn):十年進(jìn)展與未來展望
張學(xué)工 江瑞 汪小我 古槿 陳挺
15年前,2001年2月15日《Nature》雜志發(fā)表了長達(dá)62頁的論文《人類基因組的初始測序與分析》,標(biāo)志著歷時十幾年、耗資約27億美元的人類基因組計劃初步完成,人類對生命科學(xué)的探索進(jìn)入了一個新的時代。在人類基因組計劃開始初期,還有人懷疑花費(fèi)如此巨大的人力物力獲取人類基因組數(shù)據(jù)是否有價值,但這種懷疑很快被打破,以DNA測序、基因芯片、生物信息學(xué)算法等為代表的大規(guī)模生物數(shù)據(jù)獲取與處理技術(shù),迅速登上了生命科學(xué)的核心舞臺,數(shù)據(jù)成為生命科學(xué)研究的基本資源。2005年7月,《Science》雜志在紀(jì)念創(chuàng)刊125周年之際刊登了125個最具挑戰(zhàn)性的科學(xué)問題,其中一個重要的問題就是,怎樣才能從生物數(shù)據(jù)的海洋中獲得生物學(xué)的大圖景(How will big pictures emerge from a sea of biological data?)。文章指出,基于海量生物學(xué)數(shù)據(jù)的系統(tǒng)生物學(xué)研究被認(rèn)為是獲得對復(fù)雜生命系統(tǒng)全面認(rèn)識的必由之路,將對生物醫(yī)學(xué)尤其是理解疾病的風(fēng)險因素產(chǎn)生巨大作用。但是,人們尚不知道,這種數(shù)學(xué)、工程學(xué)與生物學(xué)高度交叉的研究以及迅速提升的計算能力,是否能夠?qū)ι墓ぷ鳈C(jī)理帶來深入的、高度結(jié)構(gòu)化的全面認(rèn)識。又一個十年過去了,在這十年里,生物數(shù)據(jù)的獲取和分析技術(shù)都取得了突飛猛進(jìn)的發(fā)展,我們有必要重新審視一下當(dāng)初提出的這個挑戰(zhàn),回顧人類朝向用數(shù)據(jù)去理解生命奧秘這一目標(biāo)所邁出的步伐。
在過去的十年里,生物和醫(yī)學(xué)領(lǐng)域一個引人矚目的發(fā)展,是新一代測序技術(shù)的快速發(fā)展和由此帶來的一系列應(yīng)用。21世紀(jì)初完成的人類基因組計劃,全世界幾十個實(shí)驗(yàn)室合作花費(fèi)了十幾年時間,耗資近30億美元。2005年開始,以大規(guī)模并行測序?yàn)樘攸c(diǎn)的第二代測序技術(shù)得到了突飛猛進(jìn)的發(fā)展,以單分子實(shí)時測序?yàn)樘攸c(diǎn)的第三代測序技術(shù)也迅速崛起,到目前為止,很多測序機(jī)構(gòu)已經(jīng)能夠用1000美元以下的成本完成一個人的全基因組測序。已經(jīng)有人開始大膽地預(yù)測,測序一個人的基因組的成本將會降到一百美元以下。
新一代測序技術(shù)的發(fā)展,為現(xiàn)代生命科學(xué)研究帶來了多方位的革命,數(shù)據(jù)成為很多研究的核心。一方面,完成基因組測序的物種數(shù)目迅速增加;另一方面,對人群的遺傳多樣性的研究也進(jìn)一步深入。千人基因組計劃(1000 Genomes Project)已經(jīng)完成,大量全外顯子測序計劃迅速開展,在各種公共數(shù)據(jù)庫中已經(jīng)積累了至少2504個人類個體的全基因組數(shù)據(jù)、涉及1302002個個體的全基因組關(guān)聯(lián)分析(GWAS)數(shù)據(jù)(http://www. ncbi.nlm.nih.gov/gap/)、涉及60706個個體的全外顯子測序數(shù)據(jù)(http:// exac.broadinstitute.org/)等。美國2015年啟動精準(zhǔn)醫(yī)學(xué)計劃,擬針對癌癥采集一百萬人規(guī)模的基因組數(shù)據(jù)。人們對人類遺傳多樣性的研究,已經(jīng)從集中在對人群中發(fā)生頻率5%以上的遺傳多態(tài)性位點(diǎn)的研究,擴(kuò)展到對發(fā)生頻率在1%甚至0.1%的遺傳多態(tài)性位點(diǎn)的研究。
新一代測序技術(shù)的應(yīng)用遠(yuǎn)遠(yuǎn)不止于對基因組DNA序列的測序,而是通過與其他多種技術(shù)的結(jié)合深入到分子和系統(tǒng)生物學(xué)的各個方面。通過反轉(zhuǎn)錄進(jìn)行RNA測序,已經(jīng)迅速成為繼基因芯片之后研究轉(zhuǎn)錄組的主要技術(shù)手段,為研究基因表達(dá)、基因的選擇性剪接和非編碼基因提供了有效手段。通過與染色質(zhì)免疫沉降技術(shù)結(jié)合的ChIP-Seq技術(shù),可以高分辨率獲取轉(zhuǎn)錄因子等DNA結(jié)合蛋白在基因組上的結(jié)合位點(diǎn),為解讀復(fù)雜的基因轉(zhuǎn)錄調(diào)控系統(tǒng)打開了一個重要缺口;可以獲得各種組蛋白修飾的全基因組圖譜,揭示組蛋白修飾對基因轉(zhuǎn)錄、組織特異性表達(dá)等的組合調(diào)控作用。通過對RNA結(jié)合蛋白的抓取,CLIP-Seq技術(shù)可以獲得RNA轉(zhuǎn)錄后調(diào)控因子在RNA上的結(jié)合位點(diǎn),精確揭示RNA調(diào)控,通過亞硫酸鹽測序(Bisulfite-Seq),可以對全基因組范圍內(nèi)的DNA甲基化進(jìn)行高分辨率檢測。通過染色質(zhì)構(gòu)象捕獲技術(shù)(3C,Hi-C)及其擴(kuò)展技術(shù),可以獲得基因組三維結(jié)構(gòu)和長程相互作用等。這些技術(shù),很多已經(jīng)發(fā)展到能夠?qū)蝹€細(xì)胞或少量細(xì)胞進(jìn)行觀測,出現(xiàn)了單細(xì)胞DNA測序、單細(xì)胞RNA測序、單細(xì)胞基因組和RNA聯(lián)合測序等單細(xì)胞測序技術(shù),為精細(xì)研究干細(xì)胞發(fā)育和分化、癌癥發(fā)生發(fā)展等重要過程中的細(xì)胞異質(zhì)性提供了有效的研究手段。與此同時,以單分子實(shí)時測序?yàn)榇硖攸c(diǎn)的第三代測序技術(shù)也在不斷發(fā)展和走向成熟,通過第三代測序技術(shù),不但能夠直接讀取很長的DNA或RNA片段,還能夠通過實(shí)時的DNA合成過程中的動態(tài)數(shù)據(jù)推斷DNA修飾,為同時讀取基因組序列和表觀遺傳修飾信息開辟了新的道路。
這些新技術(shù)的發(fā)展,使得各種基因組學(xué)、表觀基因組學(xué)、轉(zhuǎn)錄組學(xué)和微生物群落宏基因組學(xué)數(shù)據(jù)迅速增加。2008年啟動的千人基因組計劃到2015年已經(jīng)完成,在其最新的數(shù)據(jù)中已包含了來自26個人種2504個個體的全基因組數(shù)據(jù),世界各國啟動了多個目標(biāo)在幾十萬到上百萬人的全基因組測序計劃。在美國NCBI用于存儲公開的測序數(shù)據(jù)的數(shù)據(jù)庫SRA中,到2016年數(shù)據(jù)總量已經(jīng)達(dá)到5×1015堿基的數(shù)量級。
隨著測序通量的提高和測序成本的降低,外顯子組測序技術(shù)和全基因組測序技術(shù)在解析人類疾病致病遺傳因素的研究中獲得了廣泛應(yīng)用。外顯子組測序通過捕獲和富集外顯子區(qū)域DNA再進(jìn)行高通量測序來檢測發(fā)生在蛋白質(zhì)編碼區(qū)的遺傳變異,具有成本相對較低、靈敏度高、可解釋性強(qiáng)等優(yōu)點(diǎn),不僅是鑒定罕見疾病致病遺傳因素最有效的策略,還被成功應(yīng)用于復(fù)雜疾病易感基因的研究和臨床診斷中?;谕怙@子組測序技術(shù),目前已成功檢測了導(dǎo)致米勒綜合征、兒童自閉癥、肌萎縮性側(cè)索硬化(漸凍人)、精神分裂癥、心血管疾病、糖尿病、關(guān)節(jié)炎]等疾病的多個致病遺傳變異。
全基因組測序通過對個人DNA序列進(jìn)行擴(kuò)增和高通量測序來檢測所有可能的遺傳變異,具有覆蓋面廣的優(yōu)點(diǎn),不僅可以檢測大量的單核苷酸變異,還能檢測插入刪除位點(diǎn)、結(jié)構(gòu)變異位點(diǎn)和拷貝數(shù)變異片段。隨著測序成本的快速降低,全基因組測序已經(jīng)被越來越廣泛地應(yīng)用于遺傳疾病的研究中。這種基于全基因組測序的遺傳學(xué)研究,目前已在混合性軟骨瘤病、腓側(cè)肌萎縮等罕見疾病以及嬰兒癲癇性、自閉癥等常見疾病的致病機(jī)理研究上取得顯著進(jìn)展。
除了科研應(yīng)用,外顯子組測序和全基因組測序作為遺傳學(xué)檢測的重要手段,近兩年來已開始被應(yīng)用于基因檢測以輔助臨床診斷。
隨著基因組研究的快速發(fā)展,近年來基因編輯技術(shù)得到了多項(xiàng)重要突破,人們對基因組信息的研究從“只讀模式”開始邁向“讀寫模式”。以TALE和CRISPR/Cas為代表的基因組編輯方法極大地改變了人們研究功能基因組尤其是哺乳動物基因功能的方式。以CRISPR系統(tǒng)為例,它最早被發(fā)現(xiàn)是一種細(xì)菌中用于抵抗外來噬菌體病毒的一種獲得性免疫機(jī)制。通過改造后的CRISPR/Cas系統(tǒng)在人工設(shè)計合成的特異性sgRNA引導(dǎo)下,通過RNA與DNA的堿基配對,可以定點(diǎn)切割基因組DNA,從而可以定點(diǎn)導(dǎo)致目標(biāo)基因功能失活,或在特定位置插入外源基因序列。應(yīng)用這一技術(shù),通過對胚胎細(xì)胞基因組編輯實(shí)現(xiàn)對動物甚至人的基因組進(jìn)行人工改寫已經(jīng)成為可能,這項(xiàng)技術(shù)因此受到科學(xué)家和全社會的廣泛關(guān)注。但實(shí)際上,基因編輯技術(shù)的應(yīng)用非常廣泛,比如,人們將這種方法與DNA芯片合成及測序技術(shù)相結(jié)合,開發(fā)出了功能強(qiáng)大的高通量基因功能篩選方法?;舅悸窞獒槍γ恳粋€基因人工設(shè)計若干個能敲除該基因的sgRNA序列。利用基因芯片的寡核苷酸序列并行合成技術(shù),在芯片上一次性合成10萬余種的不同DNA序列,每種DNA序列編碼一種特定的sgRNA。通過克隆建立攜帶這些編碼sgRNA序列的質(zhì)粒文庫,用慢病毒包裝后感染目的細(xì)胞。通過調(diào)整病毒感染的效能,可以使得每個被感染細(xì)胞平均只攜帶一種sgRNA編碼序列,即該細(xì)胞內(nèi)只有這種sgRNA對應(yīng)的基因被敲除。這樣通過細(xì)胞群體中含有的sgRNA編碼序列的高通量測序,就可以知道帶有這種特定基因敲除的細(xì)胞在群體中所占的比例。比較使用不同藥物作用下細(xì)胞群體中攜帶各種sgRNA編碼序列比例的變化,經(jīng)統(tǒng)計學(xué)模型計算,就可以知道攜帶哪些類型基因敲除的細(xì)胞其增殖速率相對較快(較慢),從而推測這些基因在該種藥物作用下促進(jìn)(抑制)細(xì)胞增殖。這種方法可以用來高通量篩選在特定因素或藥物作用下的靶點(diǎn)和功能基因,大大加快了人們對藥物靶點(diǎn)基因的篩選能力。
以DNA序列合成、組裝以及基因組編輯等為代表的合成生物學(xué)新技術(shù)為我們定量研究基因網(wǎng)絡(luò)的調(diào)控機(jī)理提供了新的途徑和思路。例如,我們可以利用熒光蛋白等報告基因構(gòu)建人工合成的基因線路并將其植入細(xì)胞內(nèi),如同傳感器一樣來感知分子濃度的變化,實(shí)現(xiàn)對細(xì)胞狀態(tài)的實(shí)時定量觀測。由于人工合成基因線路具有可控、可調(diào)的特點(diǎn),通過改變?nèi)斯せ蚓€路的作用方式和強(qiáng)度,可以幫助我們理解不同的參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)對基因調(diào)控的影響,從而建立定量的數(shù)學(xué)模型來描述分子調(diào)控的本質(zhì)規(guī)律。例如,我們將系統(tǒng)生物學(xué)建模分析與合成生物學(xué)實(shí)驗(yàn)相結(jié)合,建立了microRNA調(diào)控的數(shù)學(xué)模型,構(gòu)建對應(yīng)的合成基因線路并植入細(xì)胞中模擬microRNA靶基因的競爭性調(diào)控效應(yīng),證實(shí)了靶RNA和microRNA濃度對競爭性調(diào)控效應(yīng)的閾值現(xiàn)象,發(fā)現(xiàn)了microRNA的靶位點(diǎn)結(jié)合能力對競爭性調(diào)控效應(yīng)強(qiáng)度影響的函數(shù)關(guān)系,闡述了microRNA通路和RNAi通路競爭效應(yīng)的不對稱性,并從理論上提出了RNAi技術(shù)的改進(jìn)方向,為理解復(fù)雜的microRNA調(diào)控系統(tǒng)和未來用RNAi技術(shù)有效設(shè)計疾病基因靶向治療等提供了理論基礎(chǔ)。又如,通過這樣“以建而學(xué)”的方式,研究人員提出了艾滋病病毒(HIV)潛伏和激活的隨機(jī)模型,為治療HIV的藥物研發(fā)提供了新的線索;提出了解析調(diào)控網(wǎng)絡(luò)中直接與間接相互作用的數(shù)學(xué)理論工具;以及實(shí)現(xiàn)了對微小RNA噪聲調(diào)控效應(yīng)的觀測和建模,等等。
癌癥是人類健康的重大威脅,最新統(tǒng)計數(shù)據(jù)表明我國每年新發(fā)癌癥病例數(shù)將高達(dá)約430萬,死亡人數(shù)約280萬。近年來,基于組學(xué)技術(shù)的生物醫(yī)學(xué)大數(shù)據(jù)極大地促進(jìn)了癌癥的分子分型、分子標(biāo)志物和藥物靶點(diǎn)等方面的研究進(jìn)展,也為揭示癌癥的分子機(jī)制提供了大量新的線索。臨床醫(yī)學(xué)實(shí)踐中對癌癥的診療主要是在器官、組織層面,隨著腫瘤生物學(xué)的研究進(jìn)展,人們認(rèn)識到要更好地實(shí)現(xiàn)癌癥診療,必須深入到細(xì)胞、生物分子等多個層次去理解其生物學(xué)的機(jī)制。以癌癥基因組圖譜(the cancer genome altas,TCGA)為代表的大規(guī)模癌癥基因組學(xué)研究,希望用組學(xué)技術(shù)對多種癌癥發(fā)生的分子變異進(jìn)行系統(tǒng)的刻畫,目前TCGA已完成約30種癌癥約15000例臨床樣本的多組學(xué)檢測,并對乳腺癌、大腸癌、肺癌等常見癌癥開展了系統(tǒng)的描述,繪制了癌癥分子變異圖譜(http://cancergenome.nih.gov/)。癌癥基因組學(xué)研究還有更大的目標(biāo),就是希望從分子變異角度對癌癥進(jìn)行重新分類定義。
癌癥分子生物學(xué)與基因組學(xué)等方向的研究表明, 不同組織來源的癌癥有很多共同的生物學(xué)基礎(chǔ), 如持續(xù)增殖、基因組不穩(wěn)定、免疫逃逸等[40]。人們提出了泛癌癥(pancancer)的概念:尋找泛癌癥的分子變異可更好地找到驅(qū)動腫瘤發(fā)生發(fā)展的共同的生物學(xué)機(jī)制,也能對不同類型的癌癥提供更系統(tǒng)的理解;從信息的角度考慮,將不同癌癥類型的分子數(shù)據(jù)放在一起可顯著提高樣本數(shù)量,有利于發(fā)現(xiàn)低頻的具有驅(qū)動作用的分子變異。
基因組學(xué)對癌癥臨床實(shí)踐也有重要的貢獻(xiàn),近年來癌癥靶向藥物的快速研發(fā),使得基于分子變異的癌癥精準(zhǔn)分型成為當(dāng)前精準(zhǔn)醫(yī)學(xué)的核心。比如,針對BRAF-V600E突變的靶向藥對結(jié)腸癌、黑色素瘤等多種癌癥類型的突變攜帶患者均具有很好的療效;近年來的明星藥物,作用于免疫檢驗(yàn)點(diǎn)(immune check point)PD1/PD-L1通路的抑制劑,對具有豐富新生抗原(neoantigen)的多種癌癥有明顯抑制作用。一項(xiàng)基于大規(guī)模組學(xué)數(shù)據(jù)的計算分析表明,利用分子分型,可將已通過臨床實(shí)驗(yàn)的靶向藥物潛在受益人群從5.9%擴(kuò)展到40.2%。除了靶向藥物,基因組學(xué)數(shù)據(jù)對常用化療藥也有一定的預(yù)測作用。
基因組學(xué)和系統(tǒng)生物學(xué)基礎(chǔ)研究的迅速發(fā)展、基因組檢測技術(shù)的快速普及,使得生物大數(shù)據(jù)在臨床醫(yī)學(xué)上的大規(guī)模應(yīng)用成為一個重要的發(fā)展趨勢。人類基因組計劃的一個主要初衷,就是為復(fù)雜疾病的研究建立基礎(chǔ)。在“向癌癥宣戰(zhàn)計劃”和“人類基因組計劃”這兩個美國政府主導(dǎo)生物醫(yī)學(xué)發(fā)展的科學(xué)計劃之后,2015年1月20日,美國總統(tǒng)奧巴馬宣布啟動“精準(zhǔn)醫(yī)學(xué)計劃”,致力于通過對健康記錄和基因組信息進(jìn)行整合分析,實(shí)現(xiàn)對癌癥等疾病的個性化治療。2016年3月16日,中國政府正式啟動國家重點(diǎn)研發(fā)計劃精準(zhǔn)醫(yī)學(xué)研究重點(diǎn)專項(xiàng),旨在通過整合臨床表型、生命組學(xué)、影像組學(xué)等生物醫(yī)學(xué)大數(shù)據(jù),實(shí)現(xiàn)對腫瘤、罕見病、慢性病的個性化防診治,從整體上提高我國的醫(yī)學(xué)水平。隨著大規(guī)模組學(xué)數(shù)據(jù)的積累,可以期待我們對癌癥的認(rèn)識將會更加系統(tǒng)、深入,癌癥的精準(zhǔn)分型與用藥將在臨床上得到更加廣泛的應(yīng)用。
人體的健康不但取決于人自身的細(xì)胞和基因,在人體體內(nèi)和體表多個部位存在著大量微生物, 它們是人體不可或缺的重要伙伴甚至是組成部分,與人體健康密切相關(guān)。據(jù)估計,這些微生物細(xì)胞總量可能比人自身細(xì)胞總數(shù)多出一個數(shù)量級,而它們所包含的遺傳物質(zhì)總量則比人類基因組高2~3個數(shù)量級。從這個意義上,人體并不是單個物種的獨(dú)立個體,而是由人和眾多共生微生物組成的一個復(fù)雜生態(tài)系統(tǒng)。
人體各部位上的微生物是一個復(fù)雜的群落,通常被稱作“微生物組”(microbiome或microbiota)。一個微生物群落中往往包含成百上千種微生物,其中多數(shù)很難分離和培養(yǎng),最有效的研究手段是對其中全部遺傳物質(zhì)進(jìn)行混合的DNA測序,稱作元基因組或宏基因組(metagenome)測序。有人把這個系統(tǒng)中來自微生物的遺傳信息總和稱作我們的“第二基因組”。近十年來,隨著第二代高通量測序技術(shù)快速發(fā)展,宏基因組測序成為微生物組研究的主流方法,大量數(shù)據(jù)不斷產(chǎn)生,人們在此基礎(chǔ)上發(fā)現(xiàn)了很多關(guān)于微生物組構(gòu)成與宿主健康狀態(tài)之間的關(guān)聯(lián),比如,肥胖和營養(yǎng)性疾病與微生物組的關(guān)系,口腔疾病、消化道疾病、糖尿病、癌癥甚至是神經(jīng)發(fā)育類疾病與微生物組之間的關(guān)系,等等。同時,人們已開始對微生物組與人類代謝系統(tǒng)、免疫系統(tǒng)之間的相互作用機(jī)理展開研究,并嘗試把改造微生物組構(gòu)成作為干預(yù)某些疾病的手段。
為了理解微生物組的基本規(guī)律,多個國家和地區(qū)設(shè)立了多個科學(xué)計劃,系統(tǒng)獲取來自人體多個部位的微生物組數(shù)據(jù),試圖建立人類微生物組基本圖譜。在歐洲的EBI宏基因組數(shù)據(jù)庫中,已經(jīng)包含了來自全球632個微生物組項(xiàng)目的10418個宏基因組和1025個宏轉(zhuǎn)錄組的數(shù)據(jù)樣本。這些進(jìn)展充分說明了微生物組對人類健康有重要作用,同時也揭示出宏基因組數(shù)據(jù)的高度復(fù)雜性和現(xiàn)有數(shù)據(jù)分析方法的局限和不足。2015年底,《Science》和《Nature》雜志上分別發(fā)表評述,呼吁對微生物組及其信息學(xué)進(jìn)行更系統(tǒng)和深入的研究。2016年5月,美國啟動了國家微生物組計劃,對人體、植物、土壤、海洋和大氣中的微生物組開展大規(guī)模深入研究(https://www.whitehouse. gov/the-press-office/2016/05/12/factsheet-announcing-national-microbio me-initiative)。
進(jìn)入21世紀(jì)以來,生物醫(yī)學(xué)大數(shù)據(jù)的種類、性質(zhì)和內(nèi)容都在不斷拓展,如何通過這些大數(shù)據(jù)獲得出對生命理解的大圖景,這不僅是《Science》雜志的提問,更是整個科技界乃至全社會的提問。回顧這短暫的十幾年,我們欣慰地看到,不論是生物信息學(xué)與系統(tǒng)生物學(xué)對生命基本規(guī)律的認(rèn)識,還是合成生物學(xué)對生命的改造,還是精準(zhǔn)醫(yī)學(xué)對人類疾病的控制和干預(yù)能力上,都得到了快速的發(fā)展。但是,生命是高度復(fù)雜的系統(tǒng),人們對它的認(rèn)識仍處在從局部走向全面的過程中,對于生命個體發(fā)育、疾病、生命的演化、生命與非生命構(gòu)成的生態(tài)系統(tǒng)等等,人們的認(rèn)識仍然剛剛開始。獲取大量和多尺度的生物學(xué)和醫(yī)學(xué)大數(shù)據(jù)并加以智能處理與挖掘,是加快這一認(rèn)識過程的重要路徑。
以高通量測序技術(shù)為代表的組學(xué)大數(shù)據(jù)已經(jīng)為生物學(xué)研究帶來巨大變革。隨著這些技術(shù)的進(jìn)步,還將不斷催生新的衍生技術(shù),從不同角度和不同層次解析基因的表達(dá)調(diào)控過程。例如,以單分子測序和單細(xì)胞檢測為代表的新技術(shù),將使我們能在前所未有的精細(xì)尺度上解析生命過程。而隨著這些組學(xué)實(shí)驗(yàn)成本的快速下降,未來除了獲取更多的樣本外,另一個重點(diǎn)是對研究對象在不同的時間尺度上獲取更多的觀測數(shù)據(jù),例如跟蹤疾病的整個發(fā)生發(fā)展過程。這將為探索生物復(fù)雜現(xiàn)象的全貌和疾病的發(fā)生機(jī)理提供重要的基礎(chǔ)。
但是,我們也必須清醒地認(rèn)識到,這些數(shù)據(jù)中包含了巨大的寶藏,但要有效地挖掘出這些寶藏,還需要大量艱苦的生物信息學(xué)與系統(tǒng)生物學(xué)理論、方法與技術(shù)研究,人們可以用越來越低的成本獲得測序數(shù)據(jù),而對數(shù)據(jù)的分析任務(wù)卻變得越來越繁重和充滿挑戰(zhàn)。數(shù)據(jù)本身并不能產(chǎn)生知識,只有有效地對數(shù)據(jù)進(jìn)行處理、分析和挖掘,才能發(fā)揮出數(shù)據(jù)的價值。值得高興的是,近十幾年來,在組學(xué)數(shù)據(jù)大發(fā)展的同時,信息科學(xué)領(lǐng)域中以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)和大數(shù)據(jù)計算和存儲技術(shù)都有了突飛猛進(jìn)的發(fā)展,將統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)計算與生物組學(xué)大數(shù)據(jù)有效地結(jié)合起來,為我們探索生命的奧秘開拓了廣闊的天地。
應(yīng)當(dāng)看到,以基因組學(xué)數(shù)據(jù)為代表的生物組學(xué)大數(shù)據(jù),只是與生命相關(guān)的大數(shù)據(jù)中的一部分,還有很多其他類型的生物大數(shù)據(jù),例如近年來代謝組學(xué)和蛋白質(zhì)組學(xué)都取得了重要進(jìn)展。從人類醫(yī)療健康角度看,更多的和更普遍的數(shù)據(jù)是各種表型和生理、病理數(shù)據(jù). 隨著信息技術(shù)在日常醫(yī)療健康領(lǐng)域中的應(yīng)用日益普及,以電子病歷、醫(yī)學(xué)影像資料和新近發(fā)展的各種可穿戴設(shè)備所記錄的日常生理數(shù)據(jù)為核心的醫(yī)療大數(shù)據(jù),包含了更大量的信息。但是,這些信息的采集是日常醫(yī)療實(shí)踐和健康體檢過程中積累起來的,具有結(jié)構(gòu)化程度弱、噪聲大、不同醫(yī)院甚至不同科室之間技術(shù)銜接不佳等問題,而數(shù)據(jù)來源和分布上比通過實(shí)驗(yàn)設(shè)計采集的數(shù)據(jù)具有更大的自發(fā)性和隨意性,對數(shù)據(jù)處理和分析的方法都提出了新的要求。實(shí)現(xiàn)醫(yī)院內(nèi)部信息管理系統(tǒng)的互聯(lián)互通和數(shù)據(jù)整合,進(jìn)而從政府層面對地區(qū)乃至全國的海量醫(yī)院管理數(shù)據(jù)進(jìn)行深度挖掘,已經(jīng)在醫(yī)療政策、醫(yī)保管理等領(lǐng)域展現(xiàn)出迫切需求和極大的潛在價值。通過大數(shù)據(jù)技術(shù)手段整合各種生物組學(xué)大數(shù)據(jù),以及臨床表型、影像組學(xué)、醫(yī)院管理、公共衛(wèi)生等醫(yī)學(xué)大數(shù)據(jù),再使用統(tǒng)計分析、自然語言處理、影像分析、深度學(xué)習(xí)與模式識別、智能搜索推薦等人工智能技術(shù)對這些數(shù)據(jù)進(jìn)行深度挖掘,將使生物和醫(yī)療大數(shù)據(jù)早日邁向造福于人民健康的知識大發(fā)現(xiàn),這必將成為人類醫(yī)療健康事業(yè)發(fā)展的必由之路。?
【作者單位:清華大學(xué)自動化系,計算機(jī)科學(xué)與技術(shù)系,生命科學(xué)學(xué)院,教育部生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室生物信息學(xué)研究部,清華大學(xué)數(shù)據(jù)科學(xué)研究院醫(yī)療健康大數(shù)據(jù)研究中心】
(摘自《科學(xué)通報》2016年第36期)
責(zé)任編輯:吳曉麗