劉 壯 張 悅
(中國醫(yī)科大學《中國衛(wèi)生統(tǒng)計》雜志 沈陽 110122)
20世紀80年代末人類基因組計劃啟動,基因組學測序數(shù)據(jù)迅猛增加,隨之興起生物信息學這門新的交叉學科。伴隨生物學和醫(yī)學的迅速發(fā)展,特別是人類基因組計劃的順利推進,產(chǎn)生海量生物學數(shù)據(jù),特別是生物分子數(shù)據(jù)積累速度在不斷快速增加[1-2]。由此產(chǎn)生的數(shù)據(jù)具有豐富內(nèi)涵,隱藏著很多生物學知識。如何充分利用這些數(shù)據(jù),通過合理分析和處理揭示其內(nèi)涵,獲得對人類有意義的信息,為生物學科研工作者帶來挑戰(zhàn)。
包含基因組信息獲取、處理、存儲、分配、分析和解釋的所有方面,是基因組學研究不可分割的一部分;是當下自然科學和技術(shù)科學領域中“基因組”、“信息結(jié)構(gòu)”和“復雜性”這3個重大科學問題的有機結(jié)合[3-5]。生物信息學研究是為了揭示基因組信息結(jié)構(gòu)的復雜性及遺傳語言的根本規(guī)律,人類在認識自身的基礎上可以豐富和發(fā)展現(xiàn)有的生物學和信息科學,推動學科群發(fā)展,使其成為自然科學中多學科交叉的新領域。
2.2.1 概述 從20世紀20年代起,統(tǒng)計學理論與方法日益廣泛地被生物醫(yī)學研究工作者所應用。隨著流行病學、基因組學、蛋白質(zhì)組學、代謝組學等學科迅猛發(fā)展,促使統(tǒng)計學與這些學科的交叉融合,對醫(yī)學統(tǒng)計學研究人員提出很多實踐中的新課題。為解決這些新課題,統(tǒng)計學家在對經(jīng)典統(tǒng)計理論研究和認識的基礎上不斷探索和發(fā)展統(tǒng)計新理論和新方法。醫(yī)學統(tǒng)計學研究內(nèi)容主要包括3個方面:統(tǒng)計設計、統(tǒng)計分析和其他復雜分析方法。
2.2.2 統(tǒng)計設計 包括對資料收集、整理和分析全過程的設想和安排。在設計前,研究者必須明確的重要問題包括研究目的、研究總體、研究對象、研究內(nèi)容、樣本量、干預措施和研究結(jié)果等。在研究設計的構(gòu)思過程中還應注意幾個關(guān)鍵問題,例如抽樣方法、控制偏倚和設置對照方法等。
2.2.3 統(tǒng)計分析 主要包括統(tǒng)計描述和統(tǒng)計推斷兩個部分。統(tǒng)計描述是指用合適的統(tǒng)計圖表或統(tǒng)計方法對數(shù)據(jù)資料的分布狀態(tài)、數(shù)量特征和隨機變量之間關(guān)系進行估計和測定。統(tǒng)計推斷是指在一定的可信程度下由樣本信息推斷總體特征,包括由樣本統(tǒng)計指標(統(tǒng)計量)來推斷總體相應指標(參數(shù)),即參數(shù)估計;由樣本差異來推斷總體之間是否可能存在差異,即假設檢驗。
在理論統(tǒng)計研究方面,涉及各種概率分布研究、分布偏差的有效性推定以及綜合評價方法與理論的研究;在應用統(tǒng)計研究方面,涉及綜合評價方法及其應用、統(tǒng)計預測理論與模型研究、各種多元統(tǒng)計方法及其應用的研究、生存時間與生存質(zhì)量的研究、計算機輔助診斷與治療模型的研究等。對于這些方面,醫(yī)學統(tǒng)計學都有相應統(tǒng)計分析方法。
生物信息學中的許多分析方法基本原理都是醫(yī)學統(tǒng)計學方法的應用和拓展[6-7]。目前生物信息學中常見的問題有序列相似性分析、基因表達分析、基因轉(zhuǎn)錄調(diào)控網(wǎng)絡分析和序列結(jié)構(gòu)與模式識別分析等,本文將介紹這4類問題中統(tǒng)計方法的應用情況。
3.2.1 概述 在分子生物學研究中,對于待研究的堿基序列或由此翻譯得到的氨基酸序列,往往需要在數(shù)據(jù)庫搜索到具有一定相似性的同源序列,以推測該未知序列可能屬于哪個基因家族,具有哪些生物學功能。序列比較結(jié)果一般要經(jīng)過統(tǒng)計學檢驗才能判斷是否具有顯著意義[8]。
3.2.2 Monte Carlo仿真法 將序列中的符號隨機改變后再在同樣條件下計算新的配準得分,重復約100次后計算樣本配準得分的均值和標準差,常被用來判斷一對序列配準得分值的統(tǒng)計顯著性。在隨機序列配準積分符合正態(tài)分布的假設下,結(jié)果顯著性由配準得分高于均值多少個標準差的數(shù)目(Z值)決定。當Z值為3.1、4.3和5.2SD單位時,配準積分的隨機出現(xiàn)概率分別是10-3、10-5和10-7。通常認為當Z值>5SD時,兩個被比較的序列在進化上相關(guān);當Z值在3~5SD之間時,如果兩者在其他方面有相類似的證據(jù)可表明兩者同源;當Z值<3SD時,表示兩者不同源。
3.2.3 Karlin-Altschul公式 由于各得分隨機變量是在大量分值數(shù)據(jù)中的最大值(最優(yōu)配準),正態(tài)性假設不盡合理,因此Karlin和Altschul提出計算BLAST得分顯著性的Karlin-Altschul公式。Vingron和Watterman將此公式推廣為適用于計算局部配準得分統(tǒng)計顯著性的公式,將序列長度作為其一個參數(shù)。對兩個序列a、b,BLAST發(fā)現(xiàn)的高分區(qū)匹配域稱為HSPs(high scoring pairs)ai…ai+k與bj…bj+k。最佳HSP得分H(a,b)超過閾值t的概率為:
P(H(a,b)>t)≈1-e-rnmpt
(1)
式中r和p可以通過解一個方程或直接計算得到,m、n分別是兩個序列的長度。式(1)反映HSPs得分高于閾值t的數(shù)目近似為Poisson分布。
3.2.4 非重疊局部亞優(yōu)化配準(Non-overlapping Local Suboptimal Alignment,NOLSA) 那些使局部Smith-Waterman配準的期望分值隨著被比較序列的長度而呈對數(shù)關(guān)系增長的罰分稱為強gap罰分。在強gap罰分的情況下,Karlin-Altschul公式近似適用于局部配準分析。Waterman和Eggert提出NOLSA算法,其中任何一對已經(jīng)在一種配準中使用過的殘疾不再在接下去的較小得分的配準中使用。此算法在每次進行新的次優(yōu)配準時不必重新計算整個動態(tài)規(guī)劃矩陣,只需重做上一次配準的一個領域,得到的次優(yōu)配準間的依賴性較低。最優(yōu)NOLSA是Smith-Waterman配準。記ω(t)表示分支不小于閾值t的NOLSAs數(shù)目,可以用Waterman-Eggert算法計算NOLSAs,直到第1個NOLSA分值 P(ω(t)>t)≈1-e-rnmpt (2) 3.3.1 概述 隨著生命科學進入后基因組時代,基因芯片技術(shù)所面臨的挑戰(zhàn)早已不再是基因表達芯片本身,而是在于發(fā)展實驗設計方法以對基因表達進行時空全面探索[9]。數(shù)據(jù)分析與挖掘?qū)ζ鋪碚f是最大挑戰(zhàn)。基因芯片表達實驗產(chǎn)生海量數(shù)據(jù),隱藏著豐富信息,通過數(shù)據(jù)統(tǒng)計或可視化方法可以發(fā)現(xiàn)新的知識。聚類分析是目前運用最多的一種表達數(shù)據(jù)分析方法。一塊基因芯片上往往載有成千上萬個基因,一次實驗可同時檢測這些基因的表達情況。應用同一種芯片在不同條件下(如不同時間、細胞等)進行基因表達實驗,搜集表達數(shù)據(jù),將原始數(shù)據(jù)放在一起,生成一個數(shù)據(jù)表格。表格每一行代表一個基因,每一列代表在不同實驗條件下得到的基因表達強度。表格中每一行數(shù)據(jù)可作為一個向量,聚類分析是將這些向量按照相似程度進行歸類。 3.3.2 分層聚類分析[10-11]在分層聚類情況下,數(shù)據(jù)被看作是一種二元樹結(jié)構(gòu),在最高層上所有數(shù)據(jù)同屬于一個類。其原理與樹的分叉結(jié)構(gòu)相似,類被一分為二,相似的類被保留在同一個子類中,不相似的類則被分開。在進行聚類分析時,從類的每個元素出發(fā)將類的集合分為只含有兩個類的一組二元類對合集。每個時間中一個類對被合二為一,這樣類的數(shù)目就減少一個,連續(xù)向后進行此過程,最終得到樹圖的數(shù)據(jù)分層結(jié)構(gòu)。 3.3.3 K-Means聚類[12]在數(shù)據(jù)劃分上不考慮類的分層結(jié)構(gòu)問題。將R矩陣的P列數(shù)組聚為K個類,具體方法如下:(1)隨機將R1,R2,…,RP分配到K個類中。(2)計算K個類的重心Y1,Y2,…,YK。(3)按照由1到P的順序計算R1,R2,…,RP到重心Y1,Y2,…,YK間的距離,Ri將分配到距離最近的類中。(4)如果Ri被分配到一個新的類中,則重新計算兩個受影響的類的重心。(5)重復步驟(3),直到不再有新的類劃分出現(xiàn)。 3.4.1 概述 基因芯片表達數(shù)據(jù)不僅可用于分析基因表達的時空規(guī)律、研究基因功能,還可用于分析基因間的相互關(guān)系和基因轉(zhuǎn)錄調(diào)控網(wǎng)絡。單一基因表達結(jié)果受其他基因影響,而這個基因同時能影響其他基因表達,這種相互影響、制約的關(guān)系構(gòu)成復雜基因表達調(diào)控網(wǎng)絡?;蛘{(diào)控網(wǎng)絡的研究意義在于通過建立基因轉(zhuǎn)錄調(diào)控網(wǎng)絡統(tǒng)計模型,對某個物種或組織的全部基因的表達關(guān)系進行整體分析和研究,分析基因間相互作用。 3.4.2 布爾網(wǎng)絡模型 一種以有向圖為基礎的離散系統(tǒng),是基因調(diào)控分析中最簡單的一種模型。在此模型中每個基因只有兩種狀態(tài),“開”表明基因轉(zhuǎn)錄表達,形成基因產(chǎn)物;“關(guān)”則表明基因未轉(zhuǎn)錄?;蜷g的相互關(guān)系可表示為: (3) 即如果基因A表達,而且基因B不表達,則基因C表達,其網(wǎng)絡圖,見圖1。在布爾網(wǎng)絡模型中各個基因狀態(tài)的集合是整個系統(tǒng)的狀態(tài),當系統(tǒng)從一個狀態(tài)轉(zhuǎn)換為另一個狀態(tài)時,各基因下一時刻的狀態(tài)由其連接輸入機器布爾規(guī)則確定。布爾規(guī)則用“真值表”的形式表示,當基因A和基因B處于不同狀態(tài)時,基因C的狀態(tài)隨之發(fā)生變化,見表1。 圖1 布爾網(wǎng)絡模型 表1 基因C真值 3.4.3 線性組合模型 一種連續(xù)網(wǎng)絡模型,在此模型中假設基因之間的相互作用是線性的,一個基因的表達值是若干個其他基因表達值的加權(quán)和。線性組合模型可表示為: Xi(t+△t)=∑WijXj(t) (4) 其中Xi(t+△t)是基因i在t+△t時刻的表達水平,Xj(t)是基因j在t時刻的表達水平,為Wij代表基因j的表達水平對基因i的影響。在這種基因相互關(guān)系表達形式中還可以增加其他數(shù)據(jù)項,以模擬基因調(diào)控的真實情況。 結(jié)構(gòu)復雜的蛋白質(zhì)實際上是由一些相同或不同的結(jié)構(gòu)域締結(jié)而成,每一結(jié)構(gòu)域承擔一定功能,各結(jié)構(gòu)域協(xié)同作用體現(xiàn)了蛋白質(zhì)總的生物學功能。測定大量的蛋白質(zhì)結(jié)構(gòu)可簡化為對數(shù)量、殘基數(shù)目較少的結(jié)構(gòu)域結(jié)構(gòu)測定,了解它們?nèi)绾谓M裝成完整的蛋白質(zhì),需要發(fā)展新的檢索結(jié)構(gòu)域的模式匹配方法。頻率表法最先用于核酸序列特殊信號的模式識別,隨后逐漸應用于蛋白質(zhì)結(jié)構(gòu)域的模式匹配分析中。由于蛋白質(zhì)的結(jié)構(gòu)域通常由幾十個或幾百個殘基組成,屬于同一類結(jié)構(gòu)域的序列的類似性可能很小。結(jié)構(gòu)域保守區(qū)決定了結(jié)構(gòu)域的同源,因此其存在確定了結(jié)構(gòu)域的存在,可以用結(jié)構(gòu)域的保守順序直接分析蛋白質(zhì)與蛋白質(zhì)超家族的類似性,增加檢測敏感性。 作為連接生命科學和信息科學的新興學科,生物信息學發(fā)展前景廣闊。而統(tǒng)計學作為生物信息學分析的重要工具,可以探查和提取數(shù)據(jù)之間的因果關(guān)系,揭示數(shù)據(jù)內(nèi)涵,從而獲得更多有價值的信息。本文通過介紹序列相似性分析、基因表達分析、基因轉(zhuǎn)錄調(diào)控網(wǎng)絡分析和序列結(jié)構(gòu)與模式識別分析中統(tǒng)計學方法的應用,為科研人員學習系統(tǒng)的生物分析技術(shù)提供理論依據(jù)。3.3 基因表達
3.4 基因轉(zhuǎn)錄調(diào)控網(wǎng)絡
3.5 序列結(jié)構(gòu)與模式識別
4 結(jié)語