王冬
摘要:DNA甲基化(DNA methylation)是最早發(fā)現(xiàn)的表觀遺傳修飾途徑之一,差異甲基化的研究與單親遺傳病、腫瘤的發(fā)生、組織的老化等生物過程密切相關。DNA差異區(qū)域的識別研究可分為兩類:針對芯片測序數(shù)據(jù)的定長區(qū)域研究和亞硫酸氫鹽高通量測序數(shù)據(jù)的不定長區(qū)域研究,后者的研究因其所求區(qū)域精度較高,近年來更受關注。該文給出了基于統(tǒng)計學的一些現(xiàn)有的定長與不定長區(qū)域識別方法,簡述各種方法的原理和步驟,并作出一定的分析。
關鍵詞:DNA甲基化;差異;識別;統(tǒng)計學
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2014)24-5744-02
1 生物背景
生物信息學(Bioinformatics)是研究生物信息的收集、處理、存儲、分析、解釋等各方面的學科,利用應用數(shù)學、信息學、統(tǒng)計學以及計算機技術等方法研究生物學的問題。當前的生物信息學主要是分子生物學和信息技術(尤其是互聯(lián)網(wǎng)技術)的結合。DNA是組成染色體的主要化學成分,同時也是組成基因的材料。DNA也被稱為“遺傳分子”。 表觀遺傳是指DNA序列不發(fā)生變化,但基因表達卻發(fā)生了可遺傳的改變。這種改變是細胞內除了遺傳信息以外的其他可遺傳物質發(fā)生的改變,且這種改變在發(fā)育和細胞增殖過程中能穩(wěn)定遺傳。DNA甲基化(DNA methylation)是最早發(fā)現(xiàn)的表觀遺傳修飾途徑之一,DNA的甲基化可引起基因的失活。
DNA甲基化在各類生物體個體、組織、細胞中是普遍存在的,但在不同個體、組織、細胞之間,甲基化水平也是具有差異性的。即便是針對同一個體的同一段DNA區(qū)域,不同的組織和細胞間的DNA甲基化水平也存在著大量的差異。
一般來講,我們所說的DNA差異甲基化區(qū)域即是指這樣的DNA區(qū)域:同一個體的同一段DNA堿基序列上,不同樣本(器官、組織、細胞等)之間的DNA甲基化程度存在較大差異的DNA序列。而DNA差異甲基化與單親遺傳病、腫瘤的發(fā)生、個體的老化、細胞的分化密切相關。深入研究DNA差異甲基化,與有性生殖、衰老、惡性腫瘤的發(fā)生的關系,不但有助于闡明基因印跡調控的內在機制, 同時也將提高相關疾病的臨床診斷和治療水平。
根據(jù)原始實驗數(shù)據(jù)測序方法的不同,DNA甲基化差異區(qū)域的識別大致可分為針對芯片測序的基于定長區(qū)域的方法和針對二代測序的基于定長區(qū)域的方法。
2 基于定長區(qū)域的方法研究
芯片測序數(shù)據(jù)的特點是出現(xiàn)較早,成本較低,非單堿基精度等。基于定長區(qū)域的方法主要針對芯片測序數(shù)據(jù),首先將芯片測序數(shù)據(jù)進行預處理為如下形式(圖1) ,再使用下文所述方法進行差異分析。
Hansen等人提出了曲線平滑的方法,其基本原理為對甲基化水平曲線進行平滑,來降低實驗數(shù)據(jù)由測序深度造成的誤差,然后在修正曲線的基礎上進行差異統(tǒng)計量的計算。而平滑的基本思路是取一定比例的局部數(shù)據(jù),在這部分點中擬合多項式回歸曲線。而局部數(shù)據(jù)的每個點有不同的權值,離要擬合的點越近,權重就越高,相反,權重就越低。
蘇建忠等人提出了熱點延展的方法,是利用延展思路針對計數(shù)法思想的改進?;舅悸肥菍γ總€樣本尋找連續(xù)的高甲基化或低甲基化位點,將甲基化模式相似的那些相鄰位點連接成熱點區(qū)域,并對熱點區(qū)域進行延伸,得到所求的差異區(qū)域。其熱點的尋找方式為尋找長度至少大于100個有效CG堿基對的連續(xù)區(qū)域,區(qū)域內所有位點都是屬于高甲基化類或者低甲基化類的。
通過實際試驗分析,三種方法中,泵獵取和熱點延展的方法表現(xiàn)了更好的統(tǒng)計差異特征,
而利用曲線平滑的過程可以有效地降低測序深度不足帶來的誤差。
4 結束語
通過上面的介紹,我們分析了一些現(xiàn)有的定長與不定長區(qū)域DNA甲基化差異區(qū)域識別方法,明確了DNA甲基化差異區(qū)域的基本研究流程,簡單介紹了各方法分析差異的基本思路和原理。針對現(xiàn)有的方法,仍舊有某些方面可以進行改進,比如如何更有效地降低原始試驗數(shù)據(jù)的誤差,如何對所求得的區(qū)域進行有價值的篩選等等,這值得進一步的探討。
參考文獻:
[1] 薛京倫.表觀遺傳學——原理、技術與實踐[M].上海:上海科學技術出版社, 2006.
[2] 李巍.生物信息學導論[M].鄭州大學出版社,2004:170.
[3] 王翼飛,史定華.生物信息學—智能化算法及其應用[M].化學工業(yè)出版社,2006.
[4] 董玉瑋,侯進慧,朱必才,等表觀遺傳學的相關概念和研究進展[J].生物學雜志, 2005,22(1):1-3.
[5] Rakyan V K, Down T A, Thorne N P,et al. An integrated resource for genome-wide identification and analysis of human tissue-specific differentially methylated regions (tDMRs). Genome Res., 2008(18):1518—1529.
[6] Fan S, Zhang X. CpG island methylation pattern in different human tissues and its correlation with gene expression.Biochem. Biophys. Res. Commun, 2009( 383):421-425.
[7] Eckhardt F, Lewin J, Cortese R. et al.DNA methylation profiling of human chromosomes 6, 20 and 22. Nat. Genet, 2006(38):1378-1385.
[8] Zhang Y, Liu H, et al. QDMR: a quantitative method for identification of differentially methylated regions by entropy. Nucleic Acids Res , 2011,39(9): 58.
[9] Lister R, Pelizzola M, Dowen R H,et al.Human DNA methylomes at base resolution show widespread epigenomic differences.Nature, 2009(462):315-322.
[10] Serre D, Lee B H, Ting A H.MBD-isolated Genome sequencing provides a high-throughput and comprehensive survey of DNA methylation in the human genome. Nucleic Acids Res., 2010(38):391-399.