郭毅可,楊 氙(1.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海00444;.倫敦帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所,倫敦SW7 AZ)
精確醫(yī)學(xué)與大數(shù)據(jù)
郭毅可1,2,楊氙2
(1.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444;2.倫敦帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所,倫敦SW7 2AZ)
為了實(shí)現(xiàn)精確醫(yī)學(xué),需要采集和分析大量數(shù)據(jù)來(lái)量化每個(gè)病人.首先討論了從分子層面到鏈路層面的數(shù)據(jù),同時(shí)闡述了使用醫(yī)療圖像數(shù)據(jù)的必要性.不同數(shù)據(jù)類(lèi)型雖然需要有不同的預(yù)處理方式,但是在預(yù)處理完成后,通??梢允褂猛ㄓ玫姆椒▽?duì)這些數(shù)據(jù)進(jìn)行分析,如分類(lèi)和網(wǎng)絡(luò)分析.從研究問(wèn)題的角度討論了多種分別用于解答不同復(fù)雜度問(wèn)題的研究方法.這些由簡(jiǎn)單到復(fù)雜的問(wèn)題包括關(guān)聯(lián)性檢測(cè)、歸類(lèi)分析、構(gòu)建分類(lèi)器、獲得網(wǎng)絡(luò)連接和動(dòng)態(tài)模型構(gòu)建.
精確醫(yī)學(xué);大數(shù)據(jù);分析方法
未來(lái)人們到醫(yī)院看病時(shí),可能會(huì)看到基于自己獨(dú)特分子信息和生理狀態(tài)的計(jì)算機(jī)仿真?zhèn)€體.使用仿真?zhèn)€體,醫(yī)生可以為每個(gè)病人設(shè)計(jì)最適合的治療方案.精確醫(yī)療這門(mén)學(xué)科致力于研究每位患者的疾病易感性、生物學(xué)基礎(chǔ)和對(duì)藥物的反應(yīng),從而定制治療措施.這是醫(yī)療研究領(lǐng)域的一個(gè)重大轉(zhuǎn)變,意味著疾病的診斷和治療將基于對(duì)病人各種分子層面的大數(shù)據(jù)、臨床數(shù)據(jù)、生理學(xué)數(shù)據(jù)的研究和挖掘.對(duì)各種類(lèi)型的大數(shù)據(jù)進(jìn)行挖掘需要提出相應(yīng)的分析方法.例如,為了找到DNA中哪些位點(diǎn)的突變與疾病有關(guān),需要進(jìn)行全基因組關(guān)聯(lián)分析.在對(duì)不同數(shù)據(jù)類(lèi)型提出相應(yīng)分析方法的同時(shí),還需要研究如何對(duì)不同數(shù)據(jù)中提取的信息進(jìn)行整合.圖1展示了一種用不同分子數(shù)據(jù)對(duì)疾病進(jìn)行預(yù)測(cè)的流程[1].圖1(a)列出了分子(由L表示)及其對(duì)應(yīng)的測(cè)量值(由X表示);圖1(b)分析了這些分子的相關(guān)作用,圖中的點(diǎn)表示分子,邊表示分子的關(guān)聯(lián);圖1(c)進(jìn)一步學(xué)習(xí)了這些分子濃度的交叉分布(非獨(dú)立分布),如多元正態(tài)分布,從而為疾病診斷提供可行性.
圖1 用不同分子數(shù)據(jù)對(duì)疾病進(jìn)行預(yù)測(cè)的示例Fig.1 Examples of disease prediction with different molecular data
圖2 用預(yù)測(cè)模型對(duì)癌癥病人是否應(yīng)接受術(shù)前化療的預(yù)測(cè)流程圖Fig.2 Flowchart of prediction model of whether cancer patient should accept preoperative chemotherapy or not
下面用一個(gè)在醫(yī)療診斷中的實(shí)例來(lái)說(shuō)明綜合應(yīng)用不同類(lèi)型大數(shù)據(jù)的必要性.圖2呈現(xiàn)了如何預(yù)測(cè)術(shù)前化療能否對(duì)腎母細(xì)胞瘤(nephroblastoma)進(jìn)行有效抑制[2].在這個(gè)預(yù)測(cè)流程中用到了臨床數(shù)據(jù)、醫(yī)療圖像、分子數(shù)據(jù)等來(lái)構(gòu)建預(yù)測(cè)模型(oncosimulator).在臨床實(shí)驗(yàn)中,新病人會(huì)被隨機(jī)分入兩組:A組的病人將接受現(xiàn)有的術(shù)前化療;B組的病人將根據(jù)預(yù)測(cè)模型接受治療.在B組,如果模型預(yù)測(cè)腫瘤因化療而萎縮,則醫(yī)生會(huì)對(duì)病人進(jìn)行術(shù)前化療;反之,病人將會(huì)直接進(jìn)行手術(shù)而不必忍受術(shù)前化療的風(fēng)險(xiǎn)和痛苦.對(duì)比這兩個(gè)不同實(shí)驗(yàn)組的結(jié)果,可以顯示出基于大數(shù)據(jù)建立預(yù)測(cè)模型的益處[2].然而,要完成這樣一個(gè)預(yù)測(cè)流程需要應(yīng)用大量的數(shù)學(xué)分析方法.
1.1分子數(shù)據(jù)的應(yīng)用
為了實(shí)現(xiàn)精確醫(yī)學(xué),需要綜合應(yīng)用各種各樣的分子數(shù)據(jù).典型的數(shù)據(jù)類(lèi)型包括基因序列、基因表達(dá)(可由Microarray或者RNA-seq技術(shù)來(lái)測(cè)量)和蛋白質(zhì)表達(dá)(可由質(zhì)譜儀來(lái)測(cè)量).不同的數(shù)據(jù)可描述生物系統(tǒng)的不同方面,通過(guò)對(duì)這些大數(shù)據(jù)進(jìn)行分析,可以找到特定病理狀態(tài)的生物標(biāo)記或建立基本診斷模型.
下面以Ubiopred1UbiopredstandsforUnbiasedBIOmarkersinPREDictionofrespiratorydiseaseoutcomes. http://www.europeanlung.org/en/projects-and-research/projects/u-biopred/home項(xiàng)目為例來(lái)展現(xiàn)分子數(shù)據(jù)在精確醫(yī)學(xué)中的應(yīng)用.Ubiopred項(xiàng)目采集上千個(gè)重癥哮喘病人的樣本和臨床數(shù)據(jù),用以找到重癥哮喘的亞型.疾病亞型的識(shí)別會(huì)大大增加治療的準(zhǔn)確性,這也是精確醫(yī)學(xué)的一個(gè)重要研究課題.Ubiopred項(xiàng)目生成了多種組學(xué)數(shù)據(jù)(omics),包括基因組學(xué)、測(cè)序和轉(zhuǎn)錄組學(xué)、蛋白組學(xué)、脂肪和代謝組學(xué).與此同時(shí),其他一些類(lèi)型的數(shù)據(jù)如組織學(xué)、形態(tài)學(xué)、臨床和病歷也都一一采集.基于這些數(shù)據(jù)可以得到一個(gè)完善的重癥哮喘分型模型.
圖3展現(xiàn)了Ubiopred項(xiàng)目的研究流程:步驟一,首先采集大量的成人和兒童重癥哮喘病人樣本,這些樣本可用于進(jìn)行橫向和縱向研究;步驟二,使用各種類(lèi)型的大數(shù)據(jù),運(yùn)用系統(tǒng)生物學(xué)方法生成一個(gè)生物標(biāo)記的掌?。╤andprint)來(lái)對(duì)病人進(jìn)行亞型分類(lèi);步驟三,生物標(biāo)記掌印的準(zhǔn)確性將由疾病的進(jìn)展和惡化程度來(lái)驗(yàn)證;步驟四,用動(dòng)物模型和體外人體模型來(lái)修正生物標(biāo)記的掌印.步驟二是項(xiàng)目的核心部分,該步驟在很大程度上依賴(lài)于對(duì)各種大數(shù)據(jù)的分析和挖掘.可以說(shuō),如果沒(méi)有這些大數(shù)據(jù),則很難對(duì)重癥哮喘進(jìn)行準(zhǔn)確而又全面的分型.
1.2從分子層面到鏈路層面的研究
在Ubiopred項(xiàng)目中生成的生物標(biāo)記掌印包括一些基因、蛋白質(zhì)、脂肪和其他分子.可以將這些生物標(biāo)記掌印映射到生物鏈路上以了解哪些鏈路對(duì)疾病分型起作用.通過(guò)對(duì)這些生物鏈路的分析可以進(jìn)一步理解不同亞型的病理.計(jì)算機(jī)仿真模型可以模擬不同亞型背后的生物過(guò)程,在建模過(guò)程中需要使用采集自縱向研究的時(shí)序數(shù)據(jù).圖4解釋了從分子層面到生物鏈路層面的整個(gè)研究過(guò)程.在更高層面進(jìn)行研究對(duì)于精確醫(yī)學(xué)有著重要的意義,這是因?yàn)橥ㄟ^(guò)分子的相互作用才能完成復(fù)雜的生物過(guò)程.因此需要同時(shí)全面地研究各種不同種類(lèi)分子的行為和表達(dá),而最為直接的方法就是將它們映射到鏈路上.
1.3醫(yī)學(xué)圖像的應(yīng)用
除了分子數(shù)據(jù)外,醫(yī)學(xué)圖像數(shù)據(jù)同樣也可以用于精確醫(yī)學(xué)中對(duì)疾病進(jìn)行診斷.最常見(jiàn)的醫(yī)學(xué)圖像包括核磁共振(magnetic resonance imaging,MRI)、電子計(jì)算機(jī)斷層掃描(computed tomography,CT)、正電子發(fā)射斷層顯像(positron emission computed tomography,PET)和超聲波.這些醫(yī)學(xué)圖像數(shù)據(jù)可以提供病人的一些重要特征,如解剖結(jié)構(gòu)、組織形態(tài)及分布.從這些圖像數(shù)據(jù)中提取出對(duì)醫(yī)生有用的信息用于診斷需要使用多種分析方法.隨著越來(lái)越多創(chuàng)新技術(shù)和方法的提出,可以期待在不久的將來(lái),醫(yī)療圖像數(shù)據(jù)將廣泛應(yīng)用于疾病診斷模型中.
圖3 Ubiopred項(xiàng)目的研究流程Fig.3 Research process of Ubiopred project
在精確醫(yī)學(xué)研究中需要回答各種問(wèn)題,而每種問(wèn)題都需要有相應(yīng)的分析方法.圖5列舉了精確醫(yī)學(xué)研究中會(huì)遇到的一些典型研究問(wèn)題及其示例.這些研究問(wèn)題從簡(jiǎn)單到復(fù)雜,需要采用不同的分析方法.例如,一個(gè)最典型的問(wèn)題就是找到哪些分子(如基因、蛋白質(zhì)、脂肪)在用藥前后的表達(dá)產(chǎn)生了顯著變化,這時(shí)只需要進(jìn)行相對(duì)簡(jiǎn)單的顯著性檢測(cè)就可得到答案.如果想進(jìn)一步找到哪些分子的變化是相關(guān)的,就需要再進(jìn)行相關(guān)性檢測(cè).然而,在很多研究中僅僅進(jìn)行顯著性和相關(guān)性檢測(cè)還不夠,常常需要進(jìn)行更多的研究來(lái)深入了解復(fù)雜的數(shù)據(jù).所以,往往會(huì)用到一些更復(fù)雜的分析方法,如機(jī)器學(xué)習(xí).例如,聚類(lèi)算法可用來(lái)尋找潛在的數(shù)據(jù)組群,分類(lèi)算法可用來(lái)進(jìn)行數(shù)據(jù)擬合.如果想進(jìn)一步了解復(fù)雜系統(tǒng)的機(jī)理,則需要使用網(wǎng)絡(luò)構(gòu)建方法(如構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)和基因調(diào)控網(wǎng)絡(luò))來(lái)獲得分子間的相互關(guān)系.為了解釋系統(tǒng)的動(dòng)態(tài)變化,還需要運(yùn)用數(shù)學(xué)建模的方法來(lái)獲得動(dòng)力學(xué)模型.這些都需要采集大量的縱向數(shù)據(jù),并且使用不同的分析方法來(lái)尋找合適的參數(shù)以擬合時(shí)間數(shù)據(jù).下面簡(jiǎn)單介紹一下用于五種典型問(wèn)題的分析方法.
圖4 從分子層面到生物鏈路層面的研究過(guò)程Fig.4 Research procedure from molecular level to biological pathway level
2.1關(guān)聯(lián)性檢測(cè)(detecting associations)
一個(gè)典型的研究問(wèn)題就是找到哪些變量與反應(yīng)量有關(guān).例如,全基因組關(guān)聯(lián)分析(genomewide association study,GWAS)就是要尋找哪些基因突變與表型有關(guān).又比如在基于事件觸發(fā)的fMRI分析中,要找到哪些腦區(qū)域與外部刺激相關(guān)聯(lián).這里用X=[x1,x2,···,xN]表示變量,用Y表示反應(yīng)量.如果不考慮其他變量的影響,只獨(dú)立判斷第n個(gè)變量xn與Y的關(guān)系,那么可以采取多種成對(duì)比較方法,如皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)法[4]、斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman's correlation coefficient)法[5],以及基于互信息(mutual information)法演變出的最大信息系數(shù)(maximal information coefficient)法[6].
如果考慮變量之間的相互影響,那么就需要同時(shí)檢測(cè)所有的變量X與Y的關(guān)系.可以構(gòu)建如下線(xiàn)性模型[7]:
式中,Y為一個(gè)P×1的向量;β為一個(gè)N×1的向量,包含了需要預(yù)測(cè)的相關(guān)性;∈~N(0,σ2I)為一個(gè)噪聲向量,其中σ2是噪聲的方差.當(dāng)P>N時(shí),估算β的一個(gè)典型方法就是最小二乘(least square)法.最小二乘法基于最小化殘差平方和(residual sum of squares),可以得到β的一個(gè)無(wú)偏估計(jì)值,即β=(X′X)-1X′Y.當(dāng)P<N時(shí),可以采用另一種方法——Lasso(least absolute shrinkage^and selection operator).該方法可以看成是在最小二乘法上加了一個(gè)限制條件[8-9]:
式中,λ為調(diào)控參數(shù),‖·‖1表示l1-norm.可以采用多種優(yōu)化方法求解式(2),如二次規(guī)劃法和凸優(yōu)化法[10-15].除了Lasso方法外,還可以采用最小角回歸法(least angle regression)[16]和稀疏貝葉斯學(xué)習(xí)(sparse Bayesian learning)[17].需要指出的是,Lasso方法通過(guò)l1-norm對(duì)β的解的稀疏性進(jìn)行控制,在稀疏貝葉斯學(xué)習(xí)中β的稀疏性則是由給定的稀疏先驗(yàn)分布來(lái)實(shí)現(xiàn)的.
圖5 在精確醫(yī)學(xué)研究中的典型研究類(lèi)型及相應(yīng)問(wèn)題示例Fig.5 Typical research types and related questions in precision medicine research
2.2歸類(lèi)分析(identifying groups)
歸類(lèi)分析是為了找到數(shù)據(jù)潛在的構(gòu)造而將相似樣本歸為一組的一類(lèi)分析方法.歸類(lèi)分析在精確醫(yī)學(xué)中有著極其重要的作用.例如,在尋找哮喘病和乳腺癌的亞型研究[18-19]中,就運(yùn)用了多種歸類(lèi)方法作用在多種分子數(shù)據(jù)上(例如DNA甲基化(methylation)和mRNA表達(dá)數(shù)據(jù)).概括地說(shuō),歸類(lèi)算法可以分為兩類(lèi):最典型的一類(lèi)就是聚類(lèi)算法,如層次聚類(lèi)(hierarchical clustering)法[20]、k-means聚類(lèi)法[21]和混合模型(mixture models)法[22];另一類(lèi)是基于信號(hào)處理的方法,這類(lèi)方法將數(shù)據(jù)分成獨(dú)立的成分,如主成分分析(principle component analysis)方法.
2.3構(gòu)建分類(lèi)器(constructing classifiers)
通常使用機(jī)器學(xué)習(xí)的方法來(lái)構(gòu)建分類(lèi)器.分類(lèi)器可用來(lái)預(yù)測(cè)病人是否患病或患了哪種亞型的病.構(gòu)建分類(lèi)器的算法有很多種,包括線(xiàn)性分類(lèi)算法(如線(xiàn)性判別分析(Fisher's linear discriminant)[23]、邏輯回歸(logistic regression)[24]、樸素貝葉斯(naive Bayesian)[25]、支持向量機(jī)(support vector machine,SVM)[26]、決策樹(shù)(decision trees)[27]、神經(jīng)網(wǎng)絡(luò)(neural networks)[28]和相關(guān)向量機(jī)(relevance vector machine)[29].很難說(shuō)哪種算法一定優(yōu)于其他算法,因?yàn)閷?duì)于不同的數(shù)據(jù)需要通過(guò)比較各種算法的性能來(lái)選擇最適合的算法.而算法的性能可以通過(guò)以下方法來(lái)評(píng)估:赤池信息量準(zhǔn)則(Akaike information criterion)[30]、貝葉斯信息準(zhǔn)則(Bayesian information criterion)[31]、貝葉斯因子[32]和交叉驗(yàn)證(cross-validation)[33],其中交叉驗(yàn)證法的使用非常廣泛,其基本思想是將原始數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,然后用訓(xùn)練集來(lái)構(gòu)建分類(lèi)器,并用驗(yàn)證集來(lái)驗(yàn)證.
在選定分類(lèi)算法的同時(shí),使用哪些特征(feature)來(lái)構(gòu)建分類(lèi)器也是一個(gè)重要的問(wèn)題.這需要保證選定的特征具有穩(wěn)定性,也就是在數(shù)據(jù)受到一定微小擾動(dòng)的情況下,這些特征還是會(huì)被一致地選出.文獻(xiàn)[34-37]討論了特征穩(wěn)定性的問(wèn)題.文獻(xiàn)[38]提出的方法在取得特征穩(wěn)定性的同時(shí),還保證了分類(lèi)器的預(yù)測(cè)準(zhǔn)確性,該方法在尋找疾病的生物標(biāo)記中得到應(yīng)用.
2.4獲得網(wǎng)絡(luò)連接(deriving connectivity)
網(wǎng)絡(luò)的定義[39]是由點(diǎn)和點(diǎn)的兩兩連接組成的邊的集合,這里認(rèn)為網(wǎng)絡(luò)連接(connectivity)是邊的集合.獲得網(wǎng)絡(luò)連接在精確醫(yī)學(xué)中有著重要意義,比如可以通過(guò)網(wǎng)絡(luò)連接獲知分子的相互關(guān)系.如果不考慮邊的方向性,可以直接使用兩兩相關(guān)性檢測(cè)和互信息的方法來(lái)推斷邊的存在.需要指出的是,這些方法會(huì)推斷出一些非直接關(guān)聯(lián)的邊(indirect link),這是由關(guān)聯(lián)的傳遞性造成的[40].所以,一些研究致力于抑制非直接關(guān)聯(lián)的邊的生成,包括偏相關(guān)系數(shù)(partial correlation)法[41-43]、ICOV[44-45]和網(wǎng)絡(luò)去卷積(network deconvolution)法[40,46].在推斷邊的存在性的同時(shí),如果還需要推斷邊的方向性,可以使用以下方法:基于圖模型來(lái)判斷信息流的方法[47-48]、LiNGAM(linear,non-Gaussian,acyclic causal models)法[49]及其變形[50]、基于向量自回歸模型的格蘭杰因果關(guān)系(Granger causality)法[51]、Patel's條件依賴(lài)法[52]及廣義同步(generalised synchronisation)法[53].文獻(xiàn)[54]比較了上述算法的性能,發(fā)現(xiàn)性能最優(yōu)的3個(gè)算法是偏相關(guān)系數(shù)法、ICOV和貝葉斯網(wǎng)絡(luò)法.
2.5動(dòng)態(tài)模型構(gòu)建(building dynamic model)
動(dòng)態(tài)模型可以使人們更好地了解生物過(guò)程的機(jī)理.從時(shí)序數(shù)據(jù)中推測(cè)動(dòng)態(tài)模型是一項(xiàng)具有挑戰(zhàn)性的工作.目前已有多種推測(cè)方法,文獻(xiàn)[55]從8個(gè)角度來(lái)討論了這些推測(cè)方法,即反問(wèn)題(inverse problems)、優(yōu)化問(wèn)題(optimisation)、系統(tǒng)與控制理論(systems and control theory)、化學(xué)反應(yīng)網(wǎng)絡(luò)理論(chemical reaction network theory)、貝葉斯統(tǒng)計(jì)(Bayesian statistics)、物理學(xué)方法(physics)、信息理論(information theory)和機(jī)器學(xué)習(xí)(machine learning).下面將從其中3個(gè)主要方向進(jìn)行討論.
從優(yōu)化角度來(lái)看,模型推測(cè)可以看作以目標(biāo)函數(shù)為預(yù)測(cè)值和真實(shí)值差別的優(yōu)化問(wèn)題.如果該優(yōu)化問(wèn)題是凸的,可以采用凸優(yōu)化方法[56]來(lái)尋找目標(biāo)函數(shù)的最小點(diǎn);如果該優(yōu)化問(wèn)題不是凸的,則很容易得到一個(gè)局域最小點(diǎn)而非全局最小點(diǎn).已有一些算法嘗試解決這種非凸問(wèn)題,如全局優(yōu)化[57].但是全局優(yōu)化面臨的問(wèn)題就是算法復(fù)雜度會(huì)隨著問(wèn)題維度急速上升.
從系統(tǒng)與控制理論的角度來(lái)看,模型推測(cè)可以看作將估計(jì)參數(shù)轉(zhuǎn)變?yōu)闋顟B(tài)變量的過(guò)程[58-59].一個(gè)典型的算法就是卡爾曼濾波器(Kalman filter)[60].卡爾曼濾波器作為一個(gè)遞歸預(yù)測(cè)器,利用當(dāng)前得到的新信息調(diào)整上一步得到的預(yù)測(cè)值.擴(kuò)展卡爾曼濾波器(extended Kalman filter)和無(wú)損卡爾曼濾波器(unscented Kalman filter)已被用于構(gòu)建信號(hào)傳導(dǎo)網(wǎng)絡(luò)[61-62].但是該方法的一個(gè)缺點(diǎn)就是對(duì)算法中初始值的設(shè)定非常敏感.
從貝葉斯統(tǒng)計(jì)角度來(lái)看,模型推測(cè)可以看作運(yùn)用貝葉斯定理通過(guò)最大似然(likelihood)來(lái)推測(cè)參數(shù)的概率分布.對(duì)于復(fù)雜的概率模型,計(jì)算似然非常困難,所以通常需要運(yùn)用近似貝葉斯計(jì)算(approximate Bayesian computation)[63].近似貝葉斯計(jì)算包括蒙特卡羅抽樣(Monte Carlo rejection sampling)、馬爾科夫鏈蒙特卡羅(Markov chain Monte Carlo)[64]、序貫蒙特卡羅(sequential Monte Carlo)[65].另外,還可以考慮采用變分貝葉斯(variational Bayes)方法和Type-Ⅱ的方法[66].
本研究討論了大數(shù)據(jù)在精確醫(yī)學(xué)中的作用,重點(diǎn)提到的數(shù)據(jù)類(lèi)型包括分子層面數(shù)據(jù)、鏈路數(shù)據(jù)和醫(yī)學(xué)圖像數(shù)據(jù).通過(guò)對(duì)大數(shù)據(jù)進(jìn)行分析來(lái)回答不同的研究問(wèn)題需要相應(yīng)地使用不同的分析方法.重點(diǎn)討論了以下5種研究問(wèn)題,由簡(jiǎn)單到復(fù)雜依次為關(guān)聯(lián)性檢測(cè)、歸類(lèi)分析、構(gòu)建分類(lèi)器、獲得網(wǎng)絡(luò)連接、動(dòng)態(tài)模型構(gòu)建.對(duì)于每種研究問(wèn)題都列舉了一些典型的分析方法,這些分析方法可以交叉使用在不同領(lǐng)域和不同數(shù)據(jù)類(lèi)型上.通過(guò)對(duì)大數(shù)據(jù)的分析,相信在不久的將來(lái)就可以實(shí)現(xiàn)精確醫(yī)學(xué),以此對(duì)每個(gè)病人提供最適合的醫(yī)療方案.
[1]WINSLOW R L,TRAYANOVA N,GEMAN D,et al.Computational medicine:translating models to clinical care[J].Sci Transl Med,2012,4(158):158rv11.
[2]COVENEY P,D′IAZ-ZUCCARINI V,HUNTER P,et al.Computational biomedicine[C]// Computational Biomedicine.2014:296.
[3]WOLKENHAUER O.Why model?[J].Front Physiol,2014,5:1-5.
[4]PEARSON K.Note on regression and inheritance in the case of two parents[J].Proc R Soc London,2006,58(1):240-242.
[5]PENG H,LONG F,DING C.Feature selection based on mutual information:criteria of maxdependency[C]//IEEE Trans Pattern Anal.2005:1226-1238.
[6]RESHEF D N,RESHEF Y A,F(xiàn)INUCANE H K,et al.Detecting novel associations in large data sets[J].Science,2011,334(6062):1518-1524.
[7]FREEDMAN D.Statistical models:theory and practice[M].Cambridge:Cambridge University Press,2005.
[8]TIBSHIRANI R.Regression selection and shrinkage via the Lasso[J].Journal of the Royal Statistical Society B,1994,58:267-288.
[9]CHEN S S,DONOHO D L,SAUNDERS M A.Atomic decomposition by basis pursuit[J].SIAM Journal on Scientific Computing,1998,20(1):33-61.
[10]BECKER S R,CAND`ES E J,GRANT M C.Templates for convex cone problems with applications to sparse signal recovery[J].Math Program Comput,2011,3(3):165-218.
[11]BOYD S.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Found Trends Mach Learn,2010,3(1):1-122.
[12]BECKER S,BOBIN J,CAND`ES E J.NESTA:a fast and accurate first-order method for sparse recovery[J].SIAM J Imaging Sci,2011,4(1):1-39.
[13]BECK A,TEBOULLE M.A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J].SIAM J Imaging Sci,2009,2(1):183-202.
[14]FRIEDMAN J,HASTIE T,H¨OFLING H,et al.Pathwise coordinate optimization[J].Annals of Applied Statistics,2007,1(2):302-332.
[15]KING R,MORGAN B J T,GIMENEZ O,et al.Bayesian analysis for population ecology[M].Boca Raton:CRC Press,2010.
[16]EFRON B,HASTIE T,JOHNSTONE I,et al.Least angle regression[J].Ann Stat,2004,32(2):407-499.
[17]TIPPING M E.Bayesian inference:an introduction to principles and practice in machine learning[J].Lecture Notes in Computer Science,2004,3176:41-62.
[18]WU W,BLEECKER E,MOORE W,et al.Unsupervised phenotyping of Severe Asthma Research Program participants using expanded lung data[J].J Allergy Clin Immunol,2014,133(5):1280-1288.
[19]MOORE W C,MEYERS D A,WENZEL S E,et al.Identification of asthma phenotypes using cluster analysis in the Severe Asthma Research Program[J].Am J Respir Crit Care Med,2010,181(4):315-323.
[20]HASTIE T,TIBSHIRANI R F.The elements of statistical learning[M].New York:Springer,2009.
[21]HARTIGAN J A,WONG M A.Algorithm AS 136:a k-means clustering algorithm[J].Appl Stat,1979,28(1):100.
[22]JENSEN D R.Mixture models:theory,geometry and applications[J].Journal of Statistical Planning and Inference,1997,59(1):179-181.
[23]FISHER R.The use of multiple measurements in taxonomic problems[J].Ann Eugen,1936,7(2):179-188.
[24]COx D R.The regression analysis of binary sequences(with discussion)[J].J Roy Stat Soc B,1958,20:215-242.
[25]RISH I.An empirical study of the naive Bayes classifier[C]//IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence.2001:1-6.
[26]CORTES C,VAPNIK V.Support-vector networks[J].Mach Learn,1995,20(3):273-297.
[27]QUINLAN J R.Simplifying decision trees[J].International Journal of Man-Machine Studies,1987,27(3):221-234.
[28]BISHOP C M.Neural networks for pattern recognition[J].J Am Stat Assoc,1995,92:482.
[29]TIPPING M E.Sparse Bayesian learning and the relevance vector machine[J].Journal Mach Learn Res,2001,1(3):211-244.
[30]AHO K,DERRYBERRY D,PETERSON T.Model selection for ecologists:the worldviews of AIC and BIC[J].Ecology,2014,95(3):631-636.
[31]SCHWARZ G.Estimating the dimension of a model[J].The Annals of Statistics,1978,6(2):461-464.
[32]TONI T,STUMPF M P H.Simulation-based model selection for dynamical systems in systems and population biology[J].Bioinformatics,2010,26(1):104-110.
[33]YANG X,GUO Y,SKIPP P,et al.Automating mass spectrometry proteomics analysis[C]//Fourth International Conference on Bioinformatics and Computational Biology.2012.
[34]ABEEL T,HELLEPUTTE T,VAN DE PEER Y,et al.Robust biomarker identification for cancer diagnosis with ensemble feature selection methods[J].Bioinformatics,2009,26(3):392-398.
[35]ZUCKNICK M,RICHARDSON S,STRONACH E A.Comparing the characteristics of gene expression profiles derived by univariate and multivariate classification methods[J].Stat Appl Genet Mol Biol,2008,7(1):Article7.
[36]AHMED I,HARTIKAINEN A L,J¨ARVELIN M R,et al.False discovery rate estimation for stability selection:application to genome-wide association studies[J].Stat Appl Genet Mol Biol,2011,10(1):1-20.
[37]ALExANDER D H,LANGE K.Stability selection for genome-wide association[J].Genet Epidemiol,2011,35(7):722-728.
[38]KIRK P,WITKOVER A,BANGHAM C R M,et al.Balancing the robustness and predictive performance of biomarkers[J].J Comput Biol,2013,20(12):979-989.
[39]NEWMAN M E J.Networks:an introduction[M].Oxford:Oxford University Press,2010.
[40]BARZELB,BARAB′ASIAL.Networklinkpredictionbyglobalsilencingofindirect correlations[J].Nat Biotechnol,2013,31(8):720-725.
[41]DE LA FUENTE A,BING N,HOESCHELE I,et al.Discovery of meaningful associations in genomic data using partial correlation coefficients[J].Bioinformatics,2004,20(18):3565-3574.
[42]HEMELRIjK C K.A matrix partial correlation test used in investigations of reciprocity and other social interaction patterns at group level[J].Journal of Theoretical Biology,1990,143(3):405-420.
[43]VEIGA D F T,VICENTE F F R,GRIVET M,et al.Genome-wide partial correlation analysis of Escherichia coli microarray data[J].Genet Mol Res,2007,6(4):730-742.
[44]FRIEDMAN J,HASTIE T,TIBSHIRANI R.Sparse inverse covariance estimation with the graphical lasso[J].Biostatistics,2008,9(3):432-441.
[45]VAROqUAUx G,GRAMFORT A,POLINE J B,et al.Brain covariance selection:better individual functional connectivity models using population prior[C]//Advances in Neural Information Processing Systems.2010:2334-2342.
[46]FEIZI S,MARBACH D,M′EDARD M,et al.Network deconvolution as a general method to distinguish direct dependencies in networks[J].Nat Biotechnol,2013,31(8):726-733.
[47]WEIGT M,WHITE R A,SZURMANT H,et al.Identification of direct residue contacts in proteinprotein interaction by message passing[J].Proc Natl Acad Sci,2009,106(1):67-72.
[48]JORDAN M I,WAINWRIGHT M J.Graphical models,exponential families,and variational inference[M]//Foundations and Trends in Machine Learning.Boston:Now Publishers Inc,2008:1-305.
[49]SHIMIZU S.A linear non-Gaussian acyclic model for causal discovery[J].J Mach Learn Res,2006,7:2003-2030.
[50]HYVARINEN A,SMITH S M.Pairwise likelihood ratios for estimation of non-Gaussian structural equation models[J].J Mach Learn Res,2013,14:111-152.
[51]GRANGER C W J.Investigating causal relations by econometric models and cross-spectral methods[J].Econometrica,1969,37(3):424-438.
[52]PATEL R S,BOWMAN F D,RILLING J K.A Bayesian approach to determining connectivity of the human brain[J].Hum Brain Mapp,2006,27:267-276.
[53]DAUWELS J,VIALATTE F,MUSHA T,et al.A comparative study of synchrony measures for the early diagnosis of Alzheimer's disease based on EEG[J].Neuroimage,2010,49(1):668-693.
[54]SMITH S M,MILLER K L,SALIMI-KHORSHIDI G,et al.Network modelling methods for FMRI [J].Neuroimage,2011,54(2):875-891.
[55]VILLAVERDE A F,BANGA J R.Reverse engineering and identification in systems biology:strategies,perspectives and challenges[J].J R Soc Interface,2014,11(91):20130505.
[56]BOYD S,VANDENBERGHE L.Convex optimization[M].Cambridge:Cambridge University Press,2004.
[57]GOUNARIS C,F(xiàn)LOUDAS C.A review of recent advances in global optimization[J].J Glob Optim,2009,45(1):3-38.
[58]SUN X,JIN L,XIONG M.Extended Kalman filter for estimation of parameters in nonlinear state-space models of biochemical networks[J].PLoS One,2008,3(11):e3758.
[59]FEY D,F(xiàn)INDEISEN R,BULLINGER E.Parameter estimation in kinetic reaction models using nonlinear observers facilitated by model exten[J].Ifac World Congress Seoul Korea,2008,17(1):313-318.
[60]WELCH G,BISHOP G.An introduction to the Kalman filter[J].In Pract,2006,7(1):1-16.
[61]LILLACCI G,KHAMMASH M.Parameter estimation and model selection in computational biology[J].Plos Computational Biology,2010,6(3):e1000696.
[62]QUACH M,BRUNEL N,D'ALCH′E-BUC F.Estimating parameters and hidden variables in nonlinear state-space models based on ODEs for biological networks inference[J].Bioinformatics,2007,23(23):3209-3216.
[63]BEAUMONT M A,ZHANG W,BALDWIN J D.Approximate Bayesian computation in population genetics[J].Genetics,2002,162(4):2025-2035.
[64]SISSON S A,F(xiàn)AN Y,TANAKA M.Sequential Monte Carlo without likelihoods[J].Proc Natl Acad Sci,2007,104(6):1760-1765.
[65]TONI T,WELCH D,STRELKOWA N,et al.Approximate Bayesian computation scheme for parameter inference and model selection in dynamical systems[J].J R Soc Interface,2009,6:187-202.
[66]MURPHY K P.Machine learning:a probabilistic perspective[M].Cambridge:MIT Press,1991.
Precision medicine and big data
GUO Yike1,2,YANG Xian2
(1.School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China;2.Data Science Institute,Imperial College London,London SW7 2AZ,UK)
To achieve precision medicine,collecting and analysing various big data are needed to quantify individual patients.This paper first discusses the need of using data from molecular level to pathway level and also incorporating medical imaging data.Different preprocessing methods should be developed for different data type,while some postprocessing steps for various data types,such as classification and network analysis,can be done by a generalized approach.From the perspective of research questions,this paper then studies methods for answering five typical questions from simple to complex.These questions are detecting associations,identifying groups,constructing classifiers,deriving connectivity and building dynamic models.
precision medicine;big data;analysis methods
TP 311.13
A
1007-2861(2016)01-0017-11
10.3969/j.issn.1007-2861.2015.05.015
2016-01-12
郭毅可(1962—),男,教授,博士生導(dǎo)師,博士,研究方向?yàn)榇髷?shù)據(jù).E-mail:y.guo@imperial.ac.uk
上海大學(xué)學(xué)報(bào)(自然科學(xué)版)2016年1期