陳晰
重構人類基因進化歷史,對于研究并預防遺傳疾病具有重要意義。哈佛大學來自中國的留學生李揚首創(chuàng)了CLIME統(tǒng)計算法,依托大數(shù)據(jù)時代巨大的公共基因組數(shù)據(jù),通過分析不同物種的DNA序列之間的關系,快速準確重構了2萬人的基因進化歷史,為推動生物醫(yī)學研究發(fā)展做出巨大貢獻。
李揚于1988年出生于北京。2011年赴美留學,師從華人著名統(tǒng)計學家劉軍教授,2016獲哈佛大學統(tǒng)計學博士學位。他在統(tǒng)計學中主要的研究方向是通過統(tǒng)計建模,利用大規(guī)模的基因組學數(shù)據(jù)預測人類基因的功能,從而推動生物醫(yī)學的研究。他的論文刊登在世界著名學術刊物如Cell, PLoS Computational Biology, Journal of the American Statistical Association, Nature Methods, Proceeding of National Academy of Science等,同時還為全球714個實驗室提供了6,000余次在線分析。其中,10余家實驗室通過使用CLIME算法應用得到了新的科學成果。
人類基因組中大概有2萬個基因,然而目前科學界只對其中不到50%的基因有所了解,另外50%的基因并不清楚他們在人體中起到什么作用。但就是這些未知基因的功能,卻左右著人類的遺傳疾病。
李揚告訴記者,根據(jù)達爾文的進化論,不同的高級物種可能是從少數(shù)的幾個低級物種進化而來,通過分析不同物種的DNA序列之間的關系,就可以重構每個人類基因的進化歷史。在大數(shù)據(jù)時代,巨大的公共基因組數(shù)據(jù)量給研究者提供了一個良好的契機,CLIME算法正是基于這種思想,并基于嚴格的數(shù)學統(tǒng)計模型而發(fā)明的。
CLIME的統(tǒng)計模型是根據(jù)統(tǒng)計學中著名的隱馬爾科夫模型(Hidden Markov Model)對人類基因在進化過程中的產(chǎn)生和消失進行數(shù)學建模。通過這個模型,CLIME分析出每個人類基因的進化歷史,同時進一步使用貝葉斯混合模型(Bayesian mixture model),并使用馬爾科夫鏈采樣算法(Markov chain Monte Carlo)把進化模型相似的基因進行聚類。因為D N A測序數(shù)據(jù)量巨大,統(tǒng)計分析算法往往需要很長的計算時間。李揚在CLIME中提出了一個動態(tài)規(guī)劃(Dynamic Programming)算法,使CLIME可以在短時間內(nèi)高效完成計算。
在實際應用中,CLIME算法使用了138個物種(包含動物、植物、單核生物等)的基因序列數(shù)據(jù),重構了2萬個人類基因的進化歷史,把進化歷史相似的基因進行聚類。目前,哈佛大學已經(jīng)建立了CLIME 算法分析網(wǎng)站www.gene-clime. org,該網(wǎng)站在全球范圍內(nèi)被研究者廣泛使用,已經(jīng)為全球714個實驗室提供了6,000余次在線分析,在線提供的人類基因組進化模型的分析結(jié)果已經(jīng)被下載超過51萬余次。此外,全球有10余家實驗室通過使用CLIME算法,并應用于他們的數(shù)據(jù)上得到了新的科學成果。
芬蘭科學院院士、赫爾辛基大學Anu Wartiovaara教授近期在Cell Metabolism上發(fā)表論文,詳細研究了細胞代謝中幾個重要基因的作用。在此文中,Wartiovaara教授實驗室的研究人員使用了CLIME算法,對幾個重要的細胞代謝基因進行分析,并得出了幾個基因之間相關性的分析。Wartiovaara教授提到:“CLIME算法是李揚對學術界的一個重要貢獻,CLIME算法的在線分析網(wǎng)站不僅僅我的研究小組的研究人員經(jīng)常使用,同時也是被國際上很多研究人員經(jīng)常使用的工具”。
對于未來的研究方向,李揚表示,隨著科技發(fā)展,各個領域各個行業(yè)的數(shù)據(jù)量都在迅猛增長,每天會出現(xiàn)不同來源、不同形式、包含不同信息的數(shù)據(jù)。而通過數(shù)據(jù)來發(fā)掘有用的信息,幫助人類社會發(fā)展是當今社會的一個重要問題。因此,自己下一步將重點研究在高緯度下,如何從眾多的變量中選擇出最有預測能力的變量。
《中華兒女》:請簡單介紹一下統(tǒng)計學和生物統(tǒng)計學?
李揚:統(tǒng)計學可以算是應用數(shù)學的一個分支。統(tǒng)計學不是簡單的收集和整理數(shù)據(jù),而是通過概率模型來對數(shù)據(jù)進行分析,從數(shù)據(jù)中提取有用的信息的系統(tǒng)學科。統(tǒng)計學的研究方法包含廣泛。人們除了使用應用數(shù)學外,還需要了解和使用計算機科學中的很多算法來分析實際的數(shù)據(jù)。統(tǒng)計學在生物、經(jīng)濟、金融、社會學方面發(fā)揮很大的作用。生物統(tǒng)計學是現(xiàn)代統(tǒng)計學中最早的應用之一。大約100年前,英國的Fisher , Pearson, Galton等人發(fā)明出了一整套統(tǒng)計分析的理論框架,他們將統(tǒng)計學應用在分析遺傳學、生物學和農(nóng)業(yè)科學等學科中觀測到的數(shù)據(jù)。比如Galton在研究遺傳學數(shù)據(jù)中,分析了孩子和父親身高的數(shù)據(jù)。他發(fā)現(xiàn)孩子身高會有向父輩身高均值回歸的現(xiàn)象,并發(fā)明了線性回歸方法來解釋這些數(shù)據(jù)。現(xiàn)代統(tǒng)計學已經(jīng)在各科學的研究和各行業(yè)的生產(chǎn)實踐中得到極為廣泛的應用。
《中華兒女》:統(tǒng)計學和生物統(tǒng)計學為何現(xiàn)在如此受到人們的關注?
李揚:現(xiàn)在是一個數(shù)據(jù)爆炸的時代。隨著科學技術的發(fā)展,各個行業(yè)都在變得更加電子化和定量化,都在生成“大數(shù)據(jù)”。這些大數(shù)據(jù)雖然包含很多的信息,但是這些信息都隱藏在數(shù)據(jù)中,并不是直觀表現(xiàn)在外在的。引用我的導師劉軍教授的話,大數(shù)據(jù)是“原油”而不是“石油“。我們需要使用系統(tǒng)的方法來分析數(shù)據(jù),從數(shù)據(jù)中提取有用的信息。統(tǒng)計學通過建立定量模型來揭示大數(shù)據(jù)中的復雜關系,通過這些模型預測未來結(jié)果并發(fā)現(xiàn)潛在的科學機制?,F(xiàn)今各大科技公司都有數(shù)據(jù)科學(Data Science)部門,招聘了很多數(shù)據(jù)科學家(Data Scientist)來分析數(shù)據(jù),提高產(chǎn)品的使用體驗,更好的為客戶服務。例如說在線打車公司Uber和Lyft都雇傭了大量的數(shù)據(jù)科學家,分析海量的用戶打車數(shù)據(jù),建立統(tǒng)計模型。這些統(tǒng)計模型可以預測每個城市人口活動的分布,實現(xiàn)對出租車的精確調(diào)度。統(tǒng)計學中另一個重要的研究領域被稱為“因果推斷”,它在生物統(tǒng)計學中有極大的影響。因果推斷研究如何從數(shù)據(jù)中推斷出因果關系。比如一個制藥公司研制出了一種新藥,需要進行臨床實驗判斷這個新藥是否比老的藥更有效果。在實驗中采集各種數(shù)據(jù),通過統(tǒng)計分析來判斷這個新藥是否有效。
《中華兒女》:可以簡單介紹一下你的研究工作嗎?
李揚:我的研究方向是整合生物基因組大數(shù)據(jù),建立統(tǒng)計模型,來預測人類基因的功能。人類基因組中含有大概2萬個基因,然而我們只對其中不到50%的基因有所了解。另外50%的基因我們根本不知道他們是在人體中起到什么作用。對于現(xiàn)在很多的疾病,我們知道他們是遺傳疾病,但我們并不知道這些疾病是由于哪個基因產(chǎn)生了變異。所以預測這些未知基因的功能就是一個很重要的問題。
我的研究方向是通過統(tǒng)計方法,建立人類基因的進化模型,分析出哪些基因是共同進化的。我們的研究之前,人們大致上知道共同進化的基因很有可能是相同功能的,但是一直缺乏一個系統(tǒng)的統(tǒng)計方法去預測兩個基因的共同進化。我研究了這個問題,提出了使用了隱馬爾科夫模型(Hidden Markov Model)對基因進化進行建模,并使用馬爾科夫鏈采樣算法(Markov chain Monte Carlo)把進化模型相似的基因進行聚類。這個模型很成功,我們的論文發(fā)表在了Cell雜志上。我們在論文里使用了138個物種(包含動物、植物、單核生物等)的基因序列數(shù)據(jù),重構了2萬個人類基因的進化歷史。通過把進化歷史相似的基因進行聚類,我們對幾千個人類功能未知基因的功能做出了功能預測,論文發(fā)表之后有美國、芬蘭、澳大利亞、日本等國家的實驗室對我們的預測結(jié)果做了生物實驗驗證,都得到了正面的結(jié)果。我的另一個工作是用統(tǒng)計方法整合基因表達大數(shù)據(jù),通過預測基因的共同表達來發(fā)現(xiàn)基因和基因之間的關系。我們知道基因是需要通過轉(zhuǎn)錄表達成mRNA在細胞中發(fā)揮功能。兩個基因的mRNA表達如果有高度的相關性,說明這兩個基因很有可能發(fā)揮相關的作用。之前學術界已經(jīng)有多算法來從數(shù)據(jù)中發(fā)現(xiàn)基因的共同表達,但是這些算法都有一個共同的問題,就是它們都是使用一個數(shù)據(jù)集來尋找共同表達。一個數(shù)據(jù)集往往數(shù)據(jù)噪音很大,而且你關心的基因不一定在這個數(shù)據(jù)集中有表達。所以,我們提出了一個新的基于貝葉斯(Bayesian)模型的統(tǒng)計算法,整合了3000多個在美國國家衛(wèi)生院(National Institute of Health)公共數(shù)據(jù)平臺上的數(shù)據(jù)集。通過整合這樣規(guī)模的大數(shù)據(jù),在預測基因的共同表達上這個新的算法顯著比以前的算法有更高的準確性。在論文中,我們通過預測的基因共同表達找到了很多關聯(lián)基因,我們的合作者還通過生物實驗驗證了其中的一些預測。哈佛大學為這個新的統(tǒng)計算法建立了網(wǎng)站(www. gene-clic.org),這個網(wǎng)站有很高的訪問量。
《中華兒女》:能否談一下統(tǒng)計學未來的發(fā)展方向?
李揚:我認為統(tǒng)計學在未來會越來越多的注重于應用。以前統(tǒng)計學中很多研究是建立各種各樣的數(shù)學理論。這些理論建立了統(tǒng)計學的基礎,推動了統(tǒng)計算法的發(fā)展?,F(xiàn)在我們要做的就是把這些統(tǒng)計方法應用到更廣泛的場景中去。在這方面,統(tǒng)計學家們要增加和計算機科學家們的合作?,F(xiàn)在很火的機器學習是統(tǒng)計學和計算機的交叉學科,他的很多核心方法是統(tǒng)計學的理論,不過更側(cè)重于應用。通過使用計算機科學的大規(guī)模算法,機器學習把統(tǒng)計學應用到更大的數(shù)據(jù)集和更多的問題中去。對于未來我認為統(tǒng)計學和計算機科學會走的越來越近,統(tǒng)計學家會使用越來越大規(guī)模的計算平臺,計算機科學家也會越來越多的學習統(tǒng)計理論來指導他們的數(shù)據(jù)分析。在未來這個以數(shù)據(jù)和電子設備驅(qū)動的時代,統(tǒng)計學必然會發(fā)揮越來越大的作用。