楊 怡, 楊佳怡, 高運(yùn)華, 董蓮華, 楊靖亞
(1.上海海洋大學(xué)食品學(xué)院,上海201306;2.中國計(jì)量科學(xué)研究院前沿計(jì)量科學(xué)中心,北京100029)
表觀遺傳學(xué)是在DNA序列不發(fā)生改變的情況下,基因表達(dá)可遺傳性改變的一門遺傳分支學(xué)科,主要表現(xiàn)在DNA甲基化、組蛋白修飾和非編碼RNA[1]。其中DNA甲基化是人們深入研究的最重要的表觀遺傳機(jī)制,在許多關(guān)鍵的生物學(xué)過程中發(fā)揮著重要作用[2,3]?;跍y序的DNA甲基化分析為描繪比較完整的DNA CpG圖譜奠定了基礎(chǔ)。在過去的幾十年里,大量DNA甲基化測量技術(shù)的涌現(xiàn)使基因組甲基化分析研究得到了極大的發(fā)展。但是由于缺乏評(píng)估基因組甲基化準(zhǔn)確性的相關(guān)研究,目前尚不明確基因組甲基化特異性是否如通常識(shí)別序列所暗示的那樣精確。因此,本文對(duì)DNA甲基化測量技術(shù)的進(jìn)展以及甲基化測量的準(zhǔn)確評(píng)估所存在的問題展開討論,以期為基因組甲基化測量的準(zhǔn)確可比性提供可能的解決方案。
DNA甲基化是DNA的一種天然修飾方式,具有多態(tài)性、隨年齡變化[4]、組織特異性[5]、親源特異性[6]等特點(diǎn)。其主要是指通過甲基轉(zhuǎn)移酶(DNA methyltransferases,DNMTs)將S-腺苷甲硫氨酸(S-Adenosylmethionine,SAM)提供的甲基轉(zhuǎn)移到DNA的胞嘧啶(C)或腺嘌呤(A)上,對(duì)DNA進(jìn)行修飾而發(fā)生的一系列表觀遺傳現(xiàn)象[7]。研究發(fā)現(xiàn)有不同的DNA甲基化修飾,如5-甲基胞嘧啶(5-mC)、5-羥甲基胞嘧啶(5-hmC)和N6-甲基腺嘌呤(6mA)等,其中最為常見且研究最充分的堿基甲基化是5-mC[8~10]。DNA的甲基化可以調(diào)節(jié)基因活性并影響許多關(guān)鍵過程,如染色質(zhì)結(jié)構(gòu)、細(xì)胞分化、DNA構(gòu)象和轉(zhuǎn)錄調(diào)控[11]。因此,DNA的甲基化也是實(shí)現(xiàn)基因沉默和基因印記的重要途徑。
DNA甲基化的測量就是用于區(qū)分DNA序列中的C和5-mC的能力。檢測基因組DNA甲基化水平的方法有很多種,根據(jù)目的的不同可分為全基因組和特定位點(diǎn)的DNA甲基化水平測量[12]。但大多數(shù)DNA甲基化測量技術(shù)均是基于PCR方法,即模板是經(jīng)亞硫酸氫鹽處理過的DNA,根據(jù)需求選擇引物進(jìn)行測量。在這里,根據(jù)采用其技術(shù)類型的不同分為3大類[13]:基于甲基化敏感限制性內(nèi)切酶(methylation sensitive restriction enzymes,MRE)的測量、基于亞硫酸氫鹽的測量和基于親和富集方法的測量。表1中,對(duì)本文所列舉的方法進(jìn)行了歸納對(duì)比,后文將對(duì)重點(diǎn)關(guān)注的測量技術(shù)原理以及優(yōu)缺點(diǎn)進(jìn)行簡要介紹。
表1基于測序的DNA甲基化分析方法對(duì)比表Tab.1 Comparison table of DNA methylation analysis methods based on sequencing
MRE是一組只針對(duì)非甲基化DNA片段的酶(如BstU l、Hpa ll、Not l)[13]。根據(jù)這一特性將其應(yīng)用于DNA甲基化的測量,主要原理是利用MRE識(shí)別且切割未甲基化C位點(diǎn),假設(shè)未甲基化DNA完全裂解,不能被擴(kuò)增;甲基化DNA不會(huì)被消化從而保持完整,通過DNA擴(kuò)增來確定基因組甲基化[14]。該方法測定條件溫和、操作簡單快速。不足之處在于:一是引入了識(shí)別位點(diǎn)偏差,分辨率相對(duì)較差,并且存在消化不完全而造成的假陽性;二是酶只能識(shí)別特定的位點(diǎn),即識(shí)別CpG位點(diǎn)(CCGG)之前的C,不能完全并且準(zhǔn)確地反應(yīng)甲基化全貌。Sun[14]等使用了一種新型的GlaI,其能結(jié)合等溫指數(shù)擴(kuò)增反應(yīng)(isothermal exponential amplification reaction,EXPAR)測量出特異性DNA甲基化。GlaI以極好的選擇性切割甲基化的靶位點(diǎn),而保留未甲基化DNA,這與MRE特性完全相反,而暴露出來的甲基化DNA末端片段觸發(fā)EXPAR,放大了其高效信號(hào)。因此,GlaI-EXPAR對(duì)測量DNA甲基化具有高度特異性和靈敏性的特點(diǎn),彌補(bǔ)了傳統(tǒng)基于MRE的測量造成假陽性結(jié)果的缺陷。然而,GlaI也是一種酶,也只能識(shí)別特定的DNA甲基化靶點(diǎn),不能準(zhǔn)確的反映出的全基因組范圍的甲基化狀態(tài)。
3.2.1 亞硫酸氫鹽測序(BSP)
亞硫酸氫鹽測序(bisulfite sequencing PCR,BSP)是目前公認(rèn)的主流DNA甲基化測量技術(shù)之一,是評(píng)估DNA甲基化的“金標(biāo)準(zhǔn)”技術(shù)。該方法首先是由亞硫酸氫鹽處理DNA,使未甲基化的C化學(xué)轉(zhuǎn)化為胸腺嘧啶(T),而甲基化的C保持不變;進(jìn)而PCR擴(kuò)增,對(duì)PCR產(chǎn)物測序,比較測序結(jié)果與未處理序列。因?yàn)镃只來源于5-mC,由此可確定DNA序列中甲基化位點(diǎn)[15,16]。此法可對(duì)目的基因的每一個(gè)CpG甲基化位點(diǎn)精準(zhǔn)定位,但樣本的準(zhǔn)備過程過于繁瑣,并且需要純度較高的DNA以避免殘余的蛋白質(zhì)對(duì)亞硫酸氫鹽的轉(zhuǎn)化造成干擾。
BSP是對(duì)特定位點(diǎn)DNA甲基化的測量,不能測量出全基因組DNA的甲基化。因此,基于二代測序的全基因組甲基化測序(whole genome bisulfite sequencing,WGBS)隨之問世, 它結(jié)合了亞硫酸氫鹽轉(zhuǎn)化和高通量測序,提供了單堿基分辨率的全覆蓋,以隨機(jī)的方式覆蓋人類基因組中超過90%的CpGs[17],但需達(dá)到一定的測序深度才能保證覆蓋范圍和水平。簡化代表性亞硫酸氫鹽測序(reduced representation bisulfite sequencing,RRBS)是另一種在單堿基分辨率下分析DNA甲基化的技術(shù),它結(jié)合了MRE(如MspI)對(duì)基因組DNA進(jìn)行消化、制備文庫和亞硫酸氫鹽處理的測序,以豐富CpG含量較高的區(qū)域[17]。RRBS的優(yōu)勢在于增加了基因組特定區(qū)域的測序深度,降低了成本以及基因組數(shù)據(jù)量;缺點(diǎn)是不能測量全基因組范圍內(nèi)DNA甲基化[17,18]。
為了解決WGBS和RRBS的局限性,Bonora等[18]開發(fā)了一種新的方法,即甲基化敏感性限制酶亞硫酸氫鹽測序(methylation-sensitive restriction enzyme bisulfite sequencing,MREBS),降低了RRBS的測序要求,且顯著擴(kuò)大了基因組中CpG位點(diǎn)的覆蓋范圍。其基本原理是:利用3種MRE(如HpaII(CCGG),HinP1I(GCGC)和AciI(CCGC))并行消化DNA非甲基化區(qū)域,基于MRE-seq讀圖覆蓋率與切割位點(diǎn)附近的DNA甲基化水平之間的反比關(guān)系,直接測量其側(cè)翼區(qū)域的DNA甲基化水平。
3.2.2 甲基化特異性PCR(MSP)
甲基化特異性PCR(methylation-Specific PCR,MSP)是由Herman于1996年首次提出的一種針對(duì)特定位點(diǎn)DNA甲基化的測量技術(shù)[19]。其主要原理是DNA片段由亞硫酸氫鹽處理后,根據(jù)目的基因修飾前后的改變分別設(shè)計(jì)出非甲基化特異性引物和甲基化特異性引物,隨后目的基因經(jīng)PCR擴(kuò)增,根據(jù)自身甲基化情況將結(jié)果通過瓊脂糖凝膠電泳圖像顯現(xiàn)出來。若甲基化引物擴(kuò)增出條帶,則該位點(diǎn)發(fā)生甲基化;若無甲基化引物擴(kuò)增條帶,則該位點(diǎn)沒有發(fā)生甲基化。因此,該方法操作簡便快捷且特異性高。由于需要設(shè)計(jì)引物,所以只能對(duì)已知序列和部分甲基化DNA進(jìn)行測量[16,20]。
Fackler等[21]創(chuàng)建了一種定量多重甲基化特異性PCR(quantitative multiplex methylation-specific PCR,QM-MSP)的技術(shù),具有靈敏性強(qiáng)且能定量多重分析DNA甲基化水平的特點(diǎn)。該方法的特殊之處在于運(yùn)用了兩步PCR方法:第一步反應(yīng)是基因特異性引物在其PCR反應(yīng)中能同時(shí)多重?cái)U(kuò)增同一基因的甲基化和非甲基化拷貝,不依賴于甲基化擴(kuò)增步驟中產(chǎn)生的擴(kuò)增產(chǎn)物;第二步反應(yīng)是可以使用實(shí)時(shí)PCR和兩個(gè)獨(dú)立的熒光團(tuán)通過標(biāo)準(zhǔn)曲線對(duì)第一步反應(yīng)的擴(kuò)增片段進(jìn)行定量,以測量同一孔中每個(gè)基因的甲基化/未甲基化DNA。
數(shù)字PCR(digital PCR,dPCR)是可以對(duì)單個(gè)DNA分子進(jìn)行計(jì)數(shù)且對(duì)核酸進(jìn)行絕對(duì)定量的第三代PCR技術(shù)。Cui等[22]開發(fā)了一種基于微孔芯片dPCR的甲基熒光分析法(MethyLight)測量DNA甲基化。與14種傳統(tǒng)定量PCR相比,dPCR達(dá)到了93.3%的最高檢出率。因此,dPCR是一種很有潛質(zhì)的測量DNA甲基化的工具。其主要原理是:通過微液滴化,將其隨機(jī)分配至微反應(yīng)單元中,PCR循環(huán)擴(kuò)增和讀取后,根據(jù)泊松分布來進(jìn)行絕對(duì)定量[22]。該方法靈敏度強(qiáng)、精準(zhǔn)度高且重復(fù)性好,但液滴的控制和讀出需要專門的設(shè)備,這增加了程序的成本,并限制了其廣泛應(yīng)用。
3.2.3 變性高效液相色譜(DHPLC)
變性高效液相色譜(denaturing high-performance liquid chromatography,DHPLC)是一種常用于檢測基因突變位點(diǎn)的新型檢測技術(shù)。Deng[23]等將發(fā)生甲基化的多個(gè)CpG位點(diǎn)作為多位點(diǎn)突變,首次利用DHPLC測量DNA甲基化。其主要原理是:DNA甲基化的差異是通過監(jiān)測部分變性條件下亞硫酸氫鹽處理的DNA擴(kuò)增產(chǎn)物的保留時(shí)間來揭示的。也就是說,序列中所有CpG位點(diǎn)完全甲基化導(dǎo)致PCR產(chǎn)物的G/C含量增加,進(jìn)而需要更高的熔融溫度,從而增加了在DHPLC分析中保留的時(shí)間。但單個(gè)異常甲基化的CpG位點(diǎn)不能被精準(zhǔn)定位。如果發(fā)生不完全CpG島甲基化,MSP和MRE-seq測定的非甲基化的結(jié)果可能就沒有意義了,而DHPLC則將目標(biāo)基因的所有CpG位點(diǎn)甲基化狀態(tài)顯現(xiàn)了出來。因此,此方法只適用于CpG島甲基化模式的篩選[24,25]。
3.2.4 質(zhì)譜檢測(mass spectrometry,MS)
質(zhì)譜檢測(mass spectrometry,MS)是由亞硫酸氫鹽處理的DNA,經(jīng)PCR擴(kuò)增并且轉(zhuǎn)錄成單鏈RNA分子后被特異性地裂解成堿基,利用基質(zhì)輔助激光解吸電離飛行時(shí)間質(zhì)譜法(matrix assisted laser desorption ionization-time of flightmass spectrometry,MALDI-TOF-MS)進(jìn)行質(zhì)譜分析,檢測出原DNA甲基化的胞嘧啶位點(diǎn)的方法[16,25,26]。因?yàn)樵趤喠蛩釟潲}處理過程中,未甲基化的C轉(zhuǎn)化為U將產(chǎn)生堿基特異性切割產(chǎn)物,而這些產(chǎn)物能反映潛在的甲基化模式,所以可以很容易地用MALDI-TOF-MS進(jìn)行分析,進(jìn)而測量出甲基化位點(diǎn)。Suchiman等[27]開發(fā)了一種基于質(zhì)譜的亞硫酸氫鹽測序技術(shù)平臺(tái),即EpiTYPER?。它能對(duì)100~600個(gè)堿基對(duì)的基因組區(qū)域進(jìn)行甲基化檢測,在很大程度上以單核苷酸分辨率對(duì)甲基化水平進(jìn)行定量測量,實(shí)現(xiàn)了定量和高通量的區(qū)域特異性DNA甲基化分析。因此,該方法特別適合大規(guī)?;蛘呷蚪MDNA甲基化的研究驗(yàn)證。
3.2.5 甲基化敏感熔解曲線分析(MS-HRM)
甲基化敏感熔解曲線分析(methylation-sensitive high-resolution melting,MS-HRM)是一種檢測單核苷酸變異的新型技術(shù),具有靈敏性高、特異性強(qiáng)且更為有效的特點(diǎn)[28]。它為臨床研究中篩選基因甲基化案例提供了敏感性和快速性,主要原理是基因組DNA經(jīng)亞硫酸氫鹽處理后,保留了甲基化DNA中CG堿基對(duì),未甲基化DNA中CG堿基對(duì)則轉(zhuǎn)變成了AT堿基對(duì),通過熔解曲線分析,CG含量越高的雙鏈DNA螺旋的熔融溫度(Tm)越高,進(jìn)而檢測出特定位點(diǎn)的DNA甲基化水平[29]。通過對(duì)熔解溫度及峰型的分析,可以區(qū)分基因組甲基化的程度,包括完全甲基化、部分甲基化和未甲基化。因此,該方法可以區(qū)分甲基化中極其微小的差距,缺點(diǎn)是不能測量出基因組甲基化的堿基序列。MS-HRM靈敏性高的原因:一是特別設(shè)計(jì)的引物可以與甲基化等位基因互補(bǔ),因此可在未甲基化背景下檢測出低至(0.1~1)%的甲基化等位基因;二是特定的退火溫度可以使這些引物能夠同時(shí)對(duì)甲基化和未甲基化等位基因進(jìn)行退火,所以提高了測量的靈敏度[30]。MS-HRM的高靈敏度已經(jīng)被證實(shí)可用于無創(chuàng)檢測膀胱癌患者尿液、結(jié)直腸癌患者糞便以及乳腺癌患者頰粘膜中的癌癥生物標(biāo)記物[30]。
3.2.6 焦磷酸測序(PSQ)
焦磷酸測序(pyrosequencing,PSQ)是一種邊合成邊測序的實(shí)時(shí)DNA序列分析技術(shù)[31]。其被用來分析DNA甲基化模式,首先是將基因組DNA經(jīng)亞硫酸氫鹽處理,使其未甲基化C轉(zhuǎn)化,保持甲基化C不變,PCR擴(kuò)增后,DNA甲基化水平就是CT單堿基多態(tài)性位點(diǎn)中等位基因C的頻率[32]。此方法反應(yīng)過程直接,且絕對(duì)定量甲基化水平,操作簡便、特異性高;不足之處在于檢測CpG數(shù)量有限[32]。Reed等[33]于2010年首次對(duì)BSP和PSQ進(jìn)行評(píng)估,通過實(shí)驗(yàn)檢測和量化各種藥物敏感性和耐藥性基因組啟動(dòng)子的甲基化狀態(tài),結(jié)果表明BSP和PSQ均能檢測到DNA的低甲基化和混合甲基化,但BSP檢測強(qiáng)甲基化DNA更為敏感。
3.2.7 甲基化芯片測序( Methy-chip-seq)
甲基化芯片測序(methylation chip sequencing, Methy-chip-seq)是一種基于亞硫酸氫鹽或酶處理DNA序列雜交的信號(hào)探測技術(shù)[16]。其主要原理是:基因組DNA經(jīng)過亞硫酸氫鹽處理,將未甲基化C變成U,保持甲基化C不變,然后再將U轉(zhuǎn)化成A,最后進(jìn)行芯片雜交,根據(jù)熒光信號(hào)來確定某一位點(diǎn)的甲基化水平[16]。該方法可以進(jìn)行跨物種甲基化片段測量,且不需要基因組序列信息,可歸屬于全基因組甲基化測量技術(shù);但芯片雜交要求設(shè)備昂貴,數(shù)據(jù)處理依賴生物信息學(xué)知識(shí)。Wu等[34]設(shè)計(jì)了一個(gè)基于微流控芯片的新型的dPCR裝置,將甲基化測量的dPCR過程集成在一個(gè)芯片上,能在低至1%甲基化基因的樣品中成功測量到甲基化,檢測限為0.52%。該方法不僅靈敏度高、特異性強(qiáng)且重復(fù)性好,芯片還降低了dPCR的成本,簡化了dPCR的過程,不需要專門的dPCR設(shè)備,屬于甲基化的全芯片測量。
3.3.1 甲基化DNA免疫共沉淀測序(MeDIP-seq)
甲基化DNA免疫共沉淀測序(methylated DNA immunoprecipitation sequencing, MeDIP-seq)是一種經(jīng)濟(jì)高效的用于基因組特異性和全基因組分析的方法[35]。最先是由Weber等[36]提出,設(shè)計(jì)原理是:首先將雙鏈DNA超聲波處理并變性后得到片段單鏈DNA,然后使用抗5-mC的單克隆抗體來富集選擇大小(通常為150~300 bp)的甲基化DNA片段,并對(duì)富集片段進(jìn)行建庫、測序和分析,以測量CpG和非CpG甲基化。隨后,有研究者在此基礎(chǔ)上進(jìn)行方案優(yōu)化,提出了能在輸入DNA量為50~5,000 ng范圍內(nèi)顯示出可比的特異性(>97%)和富集(>100倍)以及在5 GB測序時(shí)達(dá)到飽和的方案[37,38]。該方法的優(yōu)點(diǎn)是:不經(jīng)過亞硫酸氫鹽處理,所獲得的數(shù)據(jù)量較小,降低了數(shù)據(jù)處理難度的同時(shí)也提高了該方法的性價(jià)比;缺點(diǎn)是不能確定富集片段中每個(gè)位點(diǎn)的胞嘧啶甲基化狀況和無法實(shí)現(xiàn)單堿基分辨率,同時(shí)測量不出絕對(duì)的甲基化水平,只適合樣本間的相對(duì)比較,該抗體只能在單鏈DNA中捕獲5-mC[39]。當(dāng)然,研究的步伐永不停歇。Jia等[40]開發(fā)了一種名為MB-seq的新型DNA甲基化基因組分析技術(shù),這是一種結(jié)合MeDIP-seq和亞硫酸氫鹽轉(zhuǎn)化的新穎DNA甲基化組分析技術(shù),可以精確檢測5-mC位點(diǎn)并以單堿基分辨率確定其DNA甲基化水平,并且成本較低。它只需要7~8 Gbp的數(shù)據(jù)來測量具有足夠覆蓋范圍和測序深度的人類甲基化組,加速了人類疾病中DNA甲基化機(jī)制的解碼過程。
3.3.2 甲基結(jié)合結(jié)構(gòu)域捕獲測序(MBD-seq)
甲基結(jié)合結(jié)構(gòu)域捕獲測序(methyl-binding protein sequencing,MBD-seq)的原理與MeDIP-seq極其相似,區(qū)別在于將抗5-mC的單克隆抗體富集甲基化DNA片段替換成特異性結(jié)合甲基化DNA的MBD蛋白富集[41,42]。MBD之所以能用于DNA甲基化分析是其能特異性結(jié)合甲基化DNA。因此,基因組DNA的MBD沉淀與大規(guī)模平行測序相結(jié)合,可以實(shí)現(xiàn)對(duì)多個(gè)樣本的高通量分析,且不會(huì)引起序列偏倚[43]。MBD分離的基因組測序(MBD-isolated genome sequencing,MiGS)特異性高,靈敏性強(qiáng)且高通量,適合于研究全基因組DNA甲基化模式,既能有效地測量已知的DNA甲基化水平又可鑒定許多新型DNA甲基化位點(diǎn)。它結(jié)合了MBD2蛋白的重組甲基CpG結(jié)合域?qū)谆疍NA的沉淀,并通過大規(guī)模平行測序儀對(duì)分離的DNA進(jìn)行測序,以鑒定基因組規(guī)模上的差異甲基化區(qū)域[41]。
3.4.1 基于單分子納米孔技術(shù)的甲基化測量
納米孔測序(nanopore sequencing,Na-seq)是一種可以直接測量DNA甲基化修飾的新興的第三代測序技術(shù)。其主要原理是:基因組DNA經(jīng)過外切酶消化成單鏈DNA分子,在電泳作用下,不同堿基(A、T、C、G、5-mC等)的化學(xué)性質(zhì)差異在穿越納米通道時(shí),會(huì)引起不同變化的電流信號(hào),最后可以通過測序儀快速讀出堿基類型[44]。簡而言之,納米孔測量基因組甲基化就是根據(jù)穿過蛋白孔的離子電流變化來確定DNA甲基化位點(diǎn)[45,46]。該方法從成本和時(shí)間上看,具有無法比擬的優(yōu)越性,同時(shí)還具有靈敏度高、特異性強(qiáng)且重復(fù)性好的特點(diǎn)。因此,納米孔測序技術(shù)可能會(huì)成為未來發(fā)展的主流方向。
3.4.2 基于單分子實(shí)時(shí)測序的甲基化測量
單分子實(shí)時(shí)合成測序(single molecule real time sequencing,SMRT)是由FJusberg等[47]提出利用DNA聚合酶進(jìn)行邊合成邊收集熒光信號(hào)的方法進(jìn)而測序的第三代測序技術(shù)。它是最新開發(fā)的方法,通過對(duì)模板鏈復(fù)制來獲得序列信息[48]?;驹砣缦拢簩⒋郎yDNA片段化,使其兩端連接發(fā)夾接頭形成閉合的環(huán)狀單鏈模板(稱其為SMRTbell),DNA聚合酶捕獲文庫DNA序列[49],錨定在零模波導(dǎo)孔底部(zero-mode waveguides,ZMWs),4色熒光標(biāo)記的dNTP與DNA模板堿基配對(duì),形成聚合酶-引物-SMRTbell復(fù)合物,通過其熒光信號(hào)的顏色和脈沖間隔時(shí)間獲得酶動(dòng)力學(xué)信息,從而直接檢測DNA模板上的核苷酸修飾,包括甲基化[50]。該方法的優(yōu)勢在于單分子測序,不需要PCR擴(kuò)增,覆蓋高CpGs區(qū)域,延長了測序讀長,最大限度地保持了聚合酶的活性;劣勢在于:錯(cuò)誤率較高(可達(dá)15%),且出錯(cuò)隨機(jī)。目前已經(jīng)通過提高酶的活性、增加測序的深度等手段極大地降低了隨機(jī)錯(cuò)誤率。
DNA甲基化是腫瘤診斷的理想標(biāo)志物[51~53],但是如果DNA甲基化測量結(jié)果不可靠,將會(huì)嚴(yán)重影響其在臨床中的應(yīng)用,因此DNA甲基化測量結(jié)果的準(zhǔn)確性評(píng)估非常關(guān)鍵。由于不同實(shí)驗(yàn)室的設(shè)備、人員、操作等方面存在很大差異,導(dǎo)致測量結(jié)果在不同實(shí)驗(yàn)室、不同平臺(tái)間測定結(jié)果的比較性不高,為此國際計(jì)量局物質(zhì)量咨詢委員會(huì)于2005年、2009年和2014年分別組織了3次關(guān)于DNA甲基化的測量比對(duì)。由主導(dǎo)實(shí)驗(yàn)室韓國標(biāo)準(zhǔn)科學(xué)研究院(Korea Research Institute of Standards and Science,KRISS)協(xié)同不同國家計(jì)量機(jī)構(gòu)之間進(jìn)行國際比較研究。在對(duì)人工合成的DNA樣品中總甲基胞嘧啶含量定量測量和CCQM P94.2的細(xì)胞周期蛋白依賴性激酶抑制劑2A(cyclin-dependent kinase inhibitor 2A,CDKN2A)基因DNA甲基化定量測量的國際比對(duì)研究中,各機(jī)構(gòu)實(shí)驗(yàn)平臺(tái)分別采用不同的方法(如毛細(xì)管電泳法、MALDI-TOF-MS、序列測定技術(shù)、熔點(diǎn)法、液相色譜同位素稀釋質(zhì)譜法和MRE-seq等)進(jìn)行測量,然而,不同實(shí)驗(yàn)室之間的測量結(jié)果與KRISS所設(shè)定的參考值存在差異[54,55]。差異的來源可能是實(shí)驗(yàn)室之間的設(shè)備、人員操作存在問題,也可能是采用的測量方法原理的不同導(dǎo)致對(duì)甲基化測量的特異性和靈敏度存在差異。期間,仍有研究學(xué)者為了研究DNA甲基化檢測方法的準(zhǔn)確度和靈敏性,分別采用BSP和PSQ兩種檢測方法來檢測和量化各種藥物敏感性和耐藥性基因組啟動(dòng)子的甲基化狀態(tài),結(jié)果表明BSP和PSQ均能檢測到DNA的低甲基化和混合甲基化,但BSP檢測強(qiáng)甲基化DNA更為敏感[33]。由于缺乏與DNA甲基化有關(guān)的參考分析系統(tǒng)來進(jìn)行準(zhǔn)確性評(píng)估,DNA甲級(jí)化測量結(jié)果的可信度需要進(jìn)一步驗(yàn)證。因此,急需建立一套規(guī)范的目標(biāo)基因甲基化測量分析流程或研制出甲基化測量標(biāo)準(zhǔn)物質(zhì),以減少甲基化測量中的假陽性或假陰性結(jié)果的產(chǎn)生,提高目標(biāo)基因甲基化相關(guān)疾病診斷的準(zhǔn)確性。
隨著研究的深入,大量基因組檢測技術(shù)浮出于世,應(yīng)用于一定范圍的同時(shí)也取得相應(yīng)的成就。但基因組甲基化測序技術(shù)非常復(fù)雜,包括樣本的制備、建庫和測序,以及生物信息學(xué)分析算法和軟件等。每個(gè)步驟都會(huì)引入不確定性,導(dǎo)致最后獲得結(jié)果可靠性降低。因此,急需建立評(píng)估基因組甲基化分析流程或模型。
Simpson等[45]在納米孔檢測胞嘧啶甲基化的實(shí)驗(yàn)中設(shè)計(jì)了由PCR擴(kuò)增的基因組DNA作為完全未甲基化的陰性對(duì)照和由CpG甲基轉(zhuǎn)移酶(CpG methyltransferase,M.Sssl)處理的基因組DNA作為完全甲基化的陽性對(duì)照,但該酶是否可以完全將其進(jìn)行甲基化尚不清楚;隨后,利用大腸桿菌數(shù)據(jù)訓(xùn)練的隱馬爾可夫模型(hidden markov model,HMM)和對(duì)數(shù)似然比對(duì)陰陽性對(duì)照樣本的每個(gè)位點(diǎn)進(jìn)行甲基化調(diào)用,評(píng)估甲基化調(diào)用的準(zhǔn)確性,發(fā)現(xiàn)使用納米孔R(shí)7.3數(shù)據(jù)的甲基化位點(diǎn)的準(zhǔn)確率為83%,使用R9數(shù)據(jù)的準(zhǔn)確率為87%。由此可見,不同的芯片產(chǎn)生的結(jié)果存在差異,這也表明了基因組甲基化準(zhǔn)確性評(píng)估的重要性。然而,由于訓(xùn)練數(shù)據(jù)集的限制,HMM無法識(shí)別非CpG甲基化或甲基化和未甲基化的混合物。隨后Rand等[46]建立了一個(gè)更完整的檢測甲基化位點(diǎn)調(diào)用準(zhǔn)確性的模型,稱其為HMM-HDP。它是由HMM和層次狄利克雷過程(hierarchical dirichlet processes,HDP)組成,除了訓(xùn)練并記憶1 784個(gè)典型堿基的6-聚體離子流分布,還要訓(xùn)練2 868個(gè)新的具有甲基化堿基的6-聚體離子流分布,通過單鏈上正確甲基化調(diào)用的比例來衡量每次讀取的準(zhǔn)確性。結(jié)果表明,HMM-HDP對(duì)pUC19質(zhì)粒和大腸桿菌的納米孔R(shí)9數(shù)據(jù)在基因組水平上的準(zhǔn)確率為86%~95%。McIntyre等[56]提出一種新的核酸修飾呼叫器(稱其MCaller),并結(jié)合國際空間站(international space station,ISS)所生成的樣本DNA甲基化的正交PacBio數(shù)據(jù),用其測量信號(hào)和預(yù)期信號(hào)的偏差作為特征模型訓(xùn)練且測試二元分類器,利用訓(xùn)練后的4種分類器(神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、樸素貝葉斯和邏輯回歸)檢測小鼠、大腸桿菌MG1655K12和λ噬菌體三種基因組DNA的等摩爾混合物數(shù)據(jù)中的6 mA,在15倍或更高的覆蓋率下,它們在基因組水平上達(dá)到了94%的準(zhǔn)確率。Ni等[44]開發(fā)了一種深度學(xué)習(xí)方法,稱為深度信號(hào)(DeepSignal),他們利用pUC19質(zhì)粒的5-mC和6 mA數(shù)據(jù)集對(duì)DeepSignal進(jìn)行檢驗(yàn),均獲得比HMM更高的讀數(shù)水平和基因組水平的準(zhǔn)確率。為了進(jìn)一步評(píng)估DeepSignal的性能,還使用大腸桿菌和人類的CpG甲基化(5-mC)數(shù)據(jù)集進(jìn)行測試,在5倍覆蓋率下,它們在基因組水平上的準(zhǔn)確率超過90%。以上基于模型的方法中,經(jīng)過對(duì)模型的優(yōu)化改進(jìn),其結(jié)果均能提高基因組甲基化測量的可行性和準(zhǔn)確性。但它們需要進(jìn)行大量的先前訓(xùn)練數(shù)據(jù)集,因此不能測量不同類型的基因組甲基化修飾,特別是人為引入的修飾。
Stoiber等[57]使用一種可實(shí)現(xiàn)基因組序列可視化的軟件包(Nanoraw)來解析帶有基因組甲基化位置的原始納米孔信號(hào)。其原理主要是使用改良DNA測序(modified DNA sequencing, MoD-seq)對(duì)天然的和匹配的擴(kuò)增DNA樣本進(jìn)行納米孔測序(其中利用擴(kuò)增來產(chǎn)生未甲基化修飾的DNA)。Nanoraw通過堿基檢出、錯(cuò)誤校正等處理這些數(shù)據(jù),并在全基因組范圍內(nèi)比較重新處理的原始信號(hào),從而識(shí)別出甲基化修飾的堿基。為了評(píng)估Nanoraw的準(zhǔn)確性及可行性,Mann等[58]通過MoD-seq的曼-惠特尼U檢驗(yàn)(Mann-Whitney U-test)對(duì)大腸桿菌中由7個(gè)不同純化甲基酶構(gòu)建的已知目標(biāo)位點(diǎn)的基因組甲基化進(jìn)行測量,結(jié)果表明它們在基因組水平上的準(zhǔn)確率為(84~90)%。Liu等[59]開發(fā)了一種名為NanoMod的新型計(jì)算工具,其使用從納米孔長讀長測序技術(shù)產(chǎn)生的原始電信號(hào)來測量基因組甲基化。主要原理是:用含甲基化堿基和不含甲基化堿基的兩組讀數(shù)作為NanoMod的輸入,然后進(jìn)行堿基檢出,錯(cuò)誤校正和檢驗(yàn)已知位置的信號(hào),從而測量出甲基化修飾的堿基。他們根據(jù)已公布的大腸桿菌甲基化數(shù)據(jù)集對(duì)結(jié)合了柯爾莫哥洛夫-斯米爾諾夫檢驗(yàn)(Kolmogorov-Smirnov test,K-S test)[60]的NanoMod進(jìn)行準(zhǔn)確性評(píng)估,其結(jié)果表明在基因組水平上的準(zhǔn)確率為70%。這兩種基于統(tǒng)計(jì)的方法都能在沒有進(jìn)行先前訓(xùn)練數(shù)據(jù)集的情況測量甲基化水平。與基于模型的方法相比,基于統(tǒng)計(jì)的方法測量的準(zhǔn)確率較低。
科學(xué)合理的分析流程或模型的建立,依賴于準(zhǔn)確可靠的基因組甲基化標(biāo)準(zhǔn)物質(zhì)或標(biāo)準(zhǔn)數(shù)據(jù)集,通過使用標(biāo)準(zhǔn)物質(zhì)或標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行質(zhì)控和參數(shù)的訓(xùn)練優(yōu)化,得到的流程或模型才能可靠。然而在基因組甲基化標(biāo)準(zhǔn)物質(zhì)方面的研究除上述團(tuán)隊(duì)外,目前還沒有更多的報(bào)道。對(duì)于全基因組甲基化標(biāo)準(zhǔn)物質(zhì)的準(zhǔn)確定值是其中的難點(diǎn)和關(guān)鍵所在,這也是我們在未來的研究中需要攻克的難題。
分析基因組中DNA的甲基化對(duì)理解其在正常的生物學(xué)功能和腫瘤疾病中的影響至關(guān)重要。DNA的甲基化改變可以為腫瘤疾病的診斷和治療提供一條重要的途徑,而且準(zhǔn)確可靠的甲基化檢測結(jié)果對(duì)疾病早期診斷、發(fā)病風(fēng)險(xiǎn)評(píng)估、療效評(píng)價(jià)以及復(fù)發(fā)預(yù)測具有重要的意義?,F(xiàn)今DNA甲基化的檢測方法有全基因組分析的方法,如第三代測序技術(shù),已經(jīng)被用來評(píng)估大部分的甲基化基因組;以及以亞硫酸氫鹽為基礎(chǔ)的方法,如典型的BSP、PSQ等,已經(jīng)建立了許多不同的定量方法來繪制DNA表觀基因的單堿基分辨率圖譜。DNA甲基化的檢測方法眾多,各有優(yōu)劣,應(yīng)多方比較,結(jié)合實(shí)際情況后選取。
隨著生物技術(shù)的發(fā)展,DNA甲基化測量技術(shù)勢必會(huì)不斷更新,未來可能會(huì)開發(fā)出具有更高準(zhǔn)確性和更高靈敏度的甲基化測量技術(shù)。然而,對(duì)現(xiàn)有甲基化測量技術(shù)和未來新技術(shù)的可靠性和準(zhǔn)確性評(píng)估,是使其能否得到更廣泛的臨床應(yīng)用的關(guān)鍵。這就需要攻克基因組甲基化標(biāo)準(zhǔn)物質(zhì)的定值關(guān)鍵技術(shù),開發(fā)準(zhǔn)確可靠的基因組甲基化標(biāo)準(zhǔn)物質(zhì),用來評(píng)價(jià)不同檢測方法的準(zhǔn)確性,保證檢測結(jié)果的可靠性。