王紫薇,李成濤,劉希玲
1.蘇州大學(xué)基礎(chǔ)醫(yī)學(xué)與生物科學(xué)學(xué)院法醫(yī)學(xué)系,江蘇 蘇州 215123;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點實驗室 司法部司法鑒定重點實驗室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺,上海 200063
DNA 甲基化是一種重要的表觀遺傳修飾形式,主要是指基因組DNA 上的胞嘧啶C-5 號碳原子在DNA 甲基轉(zhuǎn)移酶的作用下,以共價鍵結(jié)合的方式獲得一個甲基基團,從而形成5-甲基胞嘧啶的化學(xué)修飾過程。DNA 甲基化在動、植物基因組中廣泛存在,可隨DNA 復(fù)制遺傳給子代,且其修飾模式對基因調(diào)控、轉(zhuǎn)座子沉默及基因印記至關(guān)重要[1-3]。
研究[4-7]表明,個體年齡與DNA 甲基化水平顯著相關(guān)。這類與年齡相關(guān)的DNA 甲基化位點被稱為年齡相關(guān)甲基化位點(age-related CpG site,AR-CpG)。通過對AR-CpG 甲基化水平的測定可實現(xiàn)對個體年齡的推斷,其預(yù)測精度較高,因而具有較高的法醫(yī)學(xué)應(yīng)用價值[8]。國內(nèi)學(xué)者針對中國漢族人群也開展了一些探索性研究并構(gòu)建了相應(yīng)的DNA 甲基化年齡推斷模型[9-13],其中PAN 等[11]研究構(gòu)建的模型年齡覆蓋范圍較廣且精度較高。
目前絕大多數(shù)DNA 甲基化檢測方法都是在亞硫酸氫鹽處理基因組DNA 的基礎(chǔ)上進行的,其基本原理是將非甲基化的胞嘧啶脫氨基轉(zhuǎn)化為尿嘧啶,而甲基化胞嘧啶不受影響,在后續(xù)PCR 過程中將尿嘧啶轉(zhuǎn)化為胸腺嘧啶,繼而將化學(xué)修飾差異轉(zhuǎn)化為序列差異信息。相較于PAN 等[11]所用的多重甲基化SNaPshot 技術(shù),焦磷酸測序通過酶級聯(lián)化學(xué)發(fā)光反應(yīng)可對單個CpG 位點的甲基化程度同時進行定性和定量分析,其精確度和可重復(fù)性相對較高且檢測周期短[14]。目前已有商業(yè)化試劑盒能夠完成焦磷酸測序,且從亞硫酸氫鹽轉(zhuǎn)化的DNA 起始量到上樣量的靈敏性、穩(wěn)定性均有研究[15-16]。除此之外,隨著高通量測序技術(shù)的發(fā)展,多重目的區(qū)域甲基化富集測序技術(shù)可以獲得目標(biāo)區(qū)域內(nèi)所有甲基化胞嘧啶的甲基化數(shù)據(jù),能精確計算甲基化程度且可同時對大量樣本進行多區(qū)域DNA 甲基化水平的并行檢測和分析[17]。
已有DNA 甲基化年齡推斷模型大多依托單一檢測技術(shù)或單一人群構(gòu)建,對于其是否適用于其他檢測技術(shù)或其他人群仍需進一步研究。為了探討PAN等[11]開發(fā)的DNA 甲基化年齡推斷模型在中國華東漢族人群中的可重復(fù)性以及是否適用于焦磷酸測序和多重目的區(qū)域甲基化富集測序平臺,本研究基于該模型[11]中包含的AR-CpG 位點,使用焦磷酸測序和基于下一代測序(next-generation sequencing,NGS)的多重目的區(qū)域甲基化富集測序技術(shù)在中國華東漢族人群中進行檢測,評估該模型在不同人群以及不同技術(shù)平臺中的年齡推斷效率,探索血液年齡推斷模型在不同DNA 甲基化檢測技術(shù)下用于法醫(yī)學(xué)年齡推斷的適用性。
本研究實驗對象來自中國華東地區(qū)48 例漢族無關(guān)個體,其中男性24 例,女性24 例,年齡覆蓋范圍為3~86 歲且年齡分布均勻(表1)。志愿者本人或其監(jiān)護人均在采集外周血樣本前簽署知情同意書。以上樣本的采集和使用均已獲得司法鑒定科學(xué)研究院倫理委員會批準(zhǔn)(審批號2022-5)。
表1 48 例樣本的年齡和性別組成Tab.1 Age and gender composition of the 48 samples(例)
使用QIAamp?DNA Blood Mini 試劑盒(德國Qiagen 公司),參照試劑盒操作說明對48 例外周血樣本進行DNA 提取,使用Qubit?2.0 熒光計、Qubit?ds-DNA HS Assay 試劑盒(美國Thermo Fisher Scientific公司)對DNA 進行定量。
使用EpiTect Fast Bisulfite 試劑盒(德國Qiagen公司),參照操作說明以每例樣本400 ng 的DNA 為起始量進行亞硫酸氫鹽轉(zhuǎn)化,得到轉(zhuǎn)化后的DNA 溶液,并使用QubitTMssDNA 檢測試劑盒(美國Invitrogen 公司)進行濃度測定,置于-20 ℃條件下保存。
參考文獻[11]中選取的6 個甲基化位點,使用Pyro-Mark Assay Design 2.0 軟件(德國Qiagen 公司)對位點進行引物設(shè)計。CpG 位點及引物信息如表2 所示。按照PyroMark PCR 試劑盒(德國Qiagen 公司)操作說明,以10 ng 轉(zhuǎn)化后的DNA 為起始量進行PCR 擴增:95 ℃ 15 min;94 ℃ 30 s,56 ℃ 30 s,72 ℃ 30 s,循環(huán)45 次;72 ℃ 10 min。
表2 6 個AR-CpG 的引物信息Tab.2 Primer information of 6 AR-CpG
基于焦磷酸測序數(shù)據(jù),對同一個樣本的6 對引物進行3 次重復(fù)實驗。在PyroMark?Q48 自動焦磷酸測序軟件(德國Qiagen 公司)上進行程序設(shè)置,包括測序序列的生成和測序樣本的相關(guān)信息。使用軟件中的內(nèi)部質(zhì)量控制設(shè)置進行質(zhì)量控制,并設(shè)置3 個重復(fù)樣本,按照默認(rèn)參數(shù)進行甲基化位點分析。將10 μL PCR 產(chǎn)物、測序引物和測序用試劑PyroMark?Q48 Advanced CpG Reagents(德國Qiagen 公司)按照儀器操作提示分別加入PyroMark?Q48(德國Qiagen 公司)中,待程序運行結(jié)束,導(dǎo)出測序結(jié)果。將焦磷酸測序結(jié)果文件導(dǎo)入軟件,軟件自動進行CpG 數(shù)據(jù)分析。導(dǎo)出內(nèi)含測序峰圖和目的位點的甲基化水平信息的測序結(jié)果文件。
使用1.4 節(jié)所得PCR 產(chǎn)物,將同一樣本的多個位點產(chǎn)物混合,利用TruSeq?Nano DNA Library Prep試劑盒(美國Illumina 公司)進行文庫構(gòu)建,向各個樣本添加特異性分子標(biāo)簽,再將所有樣本進行混合,接著進行文庫瓊脂糖凝膠純化回收,經(jīng)過文庫質(zhì)量檢驗和定量后,進行樣本混合,在NovaSeq 6000 測序系統(tǒng)(美國Illumina 公司)上采用單端150 bp 測序模式進行文庫測序。測序數(shù)據(jù)使用TrimGalore v0.6.1 軟件(https://github.com/FelixKrueger/TrimGalore/releases)進行質(zhì)量控制并去除測序接頭序列。經(jīng)過質(zhì)量控制后的測序數(shù)據(jù)通過Bismark v0.23.1 軟件(https://github.com/FelixKrueger/Bismark/releases)比對到“bismark genome preparation”處理后的參考基因組[從UCSC(www.genome.ucsc.edu)上下載]上。此后,使用Bismark v0.23.1 軟件進行甲基化信息提取,并對唯一比對reads 比例值、平均測序深度進行測序質(zhì)量評估。
將焦磷酸測序、NGS 技術(shù)所得DNA 甲基化水平代入年齡推斷公式[11]中計算個體的DNA 甲基化年齡并將其與個體真實年齡比較。
由1.5節(jié)、1.6節(jié)所得DNA甲基化水平,使用Graph-Pad Prism v8.4.3 軟件(美國GraphPad Software 公司,http://www.graphpad-prism.cn)進行皮爾遜相關(guān)性分析,檢驗6個AR-CpG 在2種檢測技術(shù)下所測甲基化水平與樣本年齡之間的皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,r),使用配對t檢驗對同一位點2種檢測方法的結(jié)果進行差異性分析,檢驗水準(zhǔn)α=0.05。
將DNA 甲基化水平代入年齡推斷模型[11]中計算DNA 甲基化年齡,參照文獻[11]對樣本年齡分組,計算不同年齡段以及不同性別模型中預(yù)測年齡的誤差。使用GraphPad Prism v8.4.3 軟件對推測的DNA 甲基化年齡與真實年齡的誤差進行比對,包括與年齡的r、R2、平均絕對誤差(median absolute deviation,MAD)、均方根誤差(root mean square error,RMSE)等,使用秩和檢驗對預(yù)測年齡和真實年齡進行誤差計算,以±5 歲的誤差評估推斷預(yù)測年齡的準(zhǔn)確性。
6 個位點在3 次重復(fù)實驗中的變異系數(shù)在0.003 0(CpG4)~0.062 9(CpG2),提示焦磷酸測序技術(shù)的可重復(fù)性好。
對于NGS 測序數(shù)據(jù),通過將NGS 測序數(shù)據(jù)與參考基因組比對,其唯一比對reads 比例在72.4%~83.1%。此外,6 個位點在不同樣本中的reads 數(shù)范圍為3 850~194 170條,其平均測序深度為8 414×(CpG4)~114 549×(CpG6)。
對于每一個CpG 位點,得到焦磷酸測序和NGS 在不同樣本中的DNA甲基化水平與樣本年齡的r值,并與文獻[11]中相關(guān)參數(shù)進行對比。根據(jù)表3可以看出,CpG位點DNA 甲基化水平與年齡的r在不同檢測平臺存在一定差別。同時,將焦磷酸測序與NGS 在不同位點上的結(jié)果進行配對t檢驗,得到CpG1 的P值為0.000 8,CpG2~4 的P值均小于0.000 1,CpG5 的P值為0.000 1,只有CpG6的P值為0.101 1。
表3 CpG位點DNA甲基化水平與年齡的皮爾遜相關(guān)系數(shù)Tab.3 Pearson correlation coefficient between DNA methylation levels of CpG sites and chronological ages
基于兩種平臺預(yù)測的DNA 甲基化年齡與真實年齡的r均高于0.90(圖1),其中焦磷酸測序技術(shù)的r為0.92,R2為0.85,MAD、RMSE 分別為4.81、6.26 歲;NGS技術(shù)的r為0.91,R2為0.84,MAD 和RMSE 分別為4.41、6.72 歲。焦磷酸測序和NGS 預(yù)測的年齡與個體真實年齡之間的配對秩和檢驗顯示,差異無統(tǒng)計學(xué)意義(P值分別為0.538 3 和0.809 3)。
圖1 樣本年齡與使用焦磷酸測序和NGS 檢測技術(shù)所得推斷年齡的散點圖Fig.1 The scatterplot of chronological ages and predicted ages detected by pyrosequencing and NGS
不同年齡段下的年齡推斷誤差結(jié)果如表4所示:幼兒和中青年人群(≤39歲)年齡推斷相對更準(zhǔn)確;>60 歲人群中年齡推斷誤差增加,其中基于焦磷酸測序推斷誤差±5 歲的個體比例不足50.00%,在NGS 技術(shù)及文獻[11]中分別為54.00%和67.50%。
表4 不同年齡階段年齡推斷誤差比較Tab.4 Age prediction errors in different age groups (n=12)
性別分組結(jié)果(表5)顯示,基于男性年齡推斷模型在NGS技術(shù)下年齡推斷的MAD為3.50歲,對應(yīng)焦磷酸測序技術(shù)下MAD為5.00歲,而基于SNaPshot技術(shù)的文獻[11]中的男性樣本組中MAD 為4.18 歲;基于女性年齡推斷模型在NGS技術(shù)下年齡推斷的MAD為5.31歲,對應(yīng)焦磷酸測序技術(shù)下MAD 為4.74 歲,而基于SNaPshot技術(shù)的文獻中女性樣本組中MAD為4.30歲。
表5 不同性別年齡推斷模型下預(yù)測年齡的比較Tab.5 Comparison of predicted ages based on gender specific age prediction model
本研究探討了依據(jù)SNaPshot 構(gòu)建的針對中國漢族人群的年齡推斷模型[11]在焦磷酸測序和NGS 技術(shù)下用于中國華東漢族人群年齡預(yù)測的適用性。在PAN 等[11]的研究中,使用多重甲基化SNaPshot 技術(shù)針對中國漢族人群檢測了310 份年齡為2~86 歲的血液樣本,其模型包含6 個CpG 位點,其中與年齡相關(guān)性最高的是cg19283806(r為-0.870 4),相關(guān)性最低的是cg04208403(r為0.535 5)。使用支持向量回歸(support vector regression,SVR)和逐步回歸算法構(gòu)建DNA 甲基化年齡推斷模型后,在驗證組其年齡推斷MAD 分別為4.56 歲和4.71 歲[11]。在本研究中,不論用焦磷酸測序還是NGS 技術(shù),6 個CpG 位點均與年齡之間具有相關(guān)性。此外,基于PAN 等[11]逐步回歸算法構(gòu)建的模型,使用焦磷酸測序和NGS 技術(shù)在中國華東漢族人群用于年齡推斷的MAD 分別為4.81 歲和4.41 歲。由此可以看出,通過重新設(shè)計引物實現(xiàn)了PAN 等[11]的研究中的DNA 甲基化年齡推斷模型在焦磷酸測序和NGS 技術(shù)中的有效轉(zhuǎn)化。
總體來看,基于PAN 等[11]的研究中的SNaPshot 技術(shù)以及本研究中的焦磷酸測序和NGS 技術(shù)估計的DNA 甲基化年齡與個體真實年齡的MAD 多小于5歲,在3 種技術(shù)下檢測到的CpG 位點與年齡的相關(guān)性以及預(yù)測年齡的誤差除了受不同年齡段和性別影響之外,還可能存在其他因素。首先,由于本研究與PAN等[11]的研究中用的樣本來源不一樣,樣本來源人群對AR-CpG 可能會存在一定的影響,如CpG1(chr17:44,390,358)在本研究中與年齡的相關(guān)性r為-0.705 7(焦磷酸測序)和-0.726 1(NGS),而在法國人群中只有0.464[18];CpG6(cg19283806)在本研究中與年齡的相關(guān)性r為-0.848 4(焦磷酸測序)和-0.839 4(NGS),而在韓國人群的研究中為-0.906 1[19],在法國人群中為-0.672[18]。因此,本研究觀察到的CpG 位點與年齡的相關(guān)性與PAN 等[11]研究中的不一致可能與樣本來源不一樣有關(guān),這是由于DNA 甲基化水平會受環(huán)境、個體差異的影響[20-21]。其次,PAN 等[11]的研究證實了性別對DNA 甲基化年齡推斷的影響。性別因素也可能是影響三組數(shù)據(jù)的原因之一。至于基于不同性別開發(fā)的DNA 甲基化年齡推斷是否能更精準(zhǔn)地推斷年齡還值得進一步探討。
此外,本研究發(fā)現(xiàn)CpG 位點的甲基化水平還可能受到檢測平臺的影響。為驗證這一點,本研究對比了焦磷酸測序和NGS 技術(shù)兩種測序技術(shù)的結(jié)果,在對同一位點的DNA 甲基化水平的測定結(jié)果分析后,在6 個CpG 位點中,除了CpG6(P=0.101 1)外,其余5 個DNA甲基化水平在兩種檢測技術(shù)中表現(xiàn)出的差異均具有統(tǒng)計學(xué)意義(配對t檢驗),但從對單個位點的差異趨勢來看,并未得到NGS 技術(shù)或焦磷酸測序技術(shù)檢測的DNA 甲基化水平明顯更高或更低的結(jié)論。代入模型后,對預(yù)測年齡的配對秩和檢驗結(jié)果提示,兩種檢測方法均可用于甲基化年齡預(yù)測,但同時應(yīng)注意兩種技術(shù)檢測的甲基化水平存在一定差異。對于NGS 技術(shù)而言,盡管本研究中不同CpG 位點在樣本中的測序深度均在3 000×之上,不同位點在不同樣本中的測序深度并非完全一致,這可能與多樣本混樣不均有關(guān)。
值得注意的是,本研究發(fā)現(xiàn),>60 歲人群的甲基化水平與整體變化趨勢的離散更明顯,焦磷酸測序在該年齡組的MAD 值為6.67 歲,使用NGS 技術(shù)在該年齡組的MAD 為4.66 歲。同時按照原文獻中對預(yù)測年齡的評估方法,以5 歲的誤差對各年齡段的預(yù)測效果進行對比,盡管基于NGS 技術(shù)有67.00% >60 歲個體其預(yù)測年齡與真實年齡的差異在5 歲以內(nèi),但高于其他組的誤差(2.80~3.74 歲),提示年齡推斷模型在高齡樣本中用于年齡推斷有一定局限性。
受本研究樣本量較小及樣本來源、年齡分布與原始研究不同的影響,雖存在一定的偶然因素,與原模型的對比未必準(zhǔn)確。從法醫(yī)學(xué)實踐的角度來看,在保證模型預(yù)測準(zhǔn)確性的前提下,焦磷酸測序操作和分析時間短,更適用于小樣本實驗。目前,對于AR-CpG的篩選仍多依靠高通量測序,本研究雖樣本量有限,但仍能為基于DNA 甲基化的年齡推斷模型的應(yīng)用提供一定依據(jù)。