李姍飛,彭付端,王建寧,仲建軍,趙慧,王玲,李永久,劉凡,李彩霞,豐蕾
(1.山西醫(yī)科大學法醫(yī)學院,山西 太原 030001;2.公安部物證鑒定中心 現(xiàn)場物證溯源技術國家工程實驗室 法醫(yī)遺傳學公安部重點實驗室,北京 100038;3.中國科學院北京基因組研究所,北京 100101;4.臨猗縣公安局,山西 臨猗 044100;5.德州市公安局,山東 德州 253012)
在法醫(yī)學應用中,個體年齡推斷一直是法醫(yī)學研究的重點和難點。通過確定案件嫌疑人的年齡范圍,可以縮小調查范圍,為案件偵查提供重要的線索和證據(jù)[1-2]。當前推斷個體年齡主要是通過檢測骨骼、牙齒等骨性指征,運用法醫(yī)人類學模型進行年齡推斷[3-4]。在法醫(yī)學鑒定案件中,法醫(yī)人類學方法由于骨骼檢材的缺失而受限。近年來的研究表明,生物分子標志物可用于年齡推斷。已有研究人員針對線粒體DNA的損傷[5]、端??s短[6]、T細胞重排[7]以及蛋白質的改變,如天冬氨酸消旋[8]和晚期糖基化終末產(chǎn)物[9]與年齡的相關性進行研究,但是利用這些生物分子標志物進行年齡推斷的準確性和實用性都相對較低,不適用于法醫(yī)學檢驗[10]。在近期的法醫(yī)學年齡推斷研究過程中,發(fā)現(xiàn)血液DNA中的部分甲基化位點包含了豐富的年齡信息生物標志物。DNA甲基化是一種重要的表觀遺傳修飾[11-12],與衰老之間存在密切的相關性[13],DNA甲基化在機體生長、發(fā)育和衰老過程中存在著動態(tài)變化過程?;蛐酒拖乱淮鷾y序技術的出現(xiàn),促進了全基因組范圍的甲基化檢測,基因組DNA甲基化總體水平隨年齡增加而降低,部分位點的甲基化水平卻隨年齡增加而升高,并且發(fā)現(xiàn)特定位點的DNA甲基化與年齡呈現(xiàn)線性相關性,可據(jù)此構建年齡推斷模型預測個體年齡[14-19]。本研究通過系統(tǒng)研究甲基化位點與年齡的相關性,建立基于DNA甲基化的中國北方漢族男性年齡推斷算法模型。
根據(jù)知情同意原則,采集河南、山東、北京共476份漢族男性(年齡15~75歲,根據(jù)采集人員提供的戶口出生年月及采集日期確定樣本年齡)無關個體的新鮮外周靜脈血,其中國家人類遺傳資源共享服務平臺(YCZYPT[2017]01-3)176份、中國典型人群法醫(yī)分子畫像人群隊列研究(2017JB025)150份、本課題組采集150份。盡量每個年齡樣本都選取,并盡可能保持每個年齡段樣本量大致相同,且樣本在河南、山東、北京3個地區(qū)都有分布,保證模型的適用性。不同年齡段樣本人數(shù)見表1。
表1 各年齡段樣本人數(shù) (N=476)
為驗證模型對血斑的適用性和重復性,隨機選取15份山東血液樣本,各取100 μL涂在FTA血樣采集卡上制作成血斑樣本,室溫放置3個月后提取DNA。外周靜脈血按照QIAampDNA Blood Midi試劑盒(100)(德國Qiagen公司)說明書提取血液DNA;血斑樣本按照MagAttract M48 DNA Manual試劑盒(200)(1064605,德國Qiagen公司)說明書提取血斑DNA,使用NanoDrop 2000c分光光度計(美國Thermo Scientific公司)對DNA濃度進行定量。
結合現(xiàn)有文獻和基于前期研究[1,18,20-29]篩選位點,從中選擇21個與年齡高度相關的位點,每個位點所在的序列都從UCSC genome browser(https://genome.ucsc.edu/)中下載,選擇距離目標胞嘧啶-磷酸-鳥嘌呤(cytosine-phosphate-guanine,CpG)位點上下游各約200 bp的長度,共401 bp長度DNA片段,并下載DNA片段,使用美國Agena公司的Agena Bioscience EpiDesigner(http://www.epidesigner.com/)在線軟件進行引物設計,引物解鏈溫度(melting temperature,Tm)約為60℃。
取 1 μg全基因組 DNA,按照 EZ DNA MethylationTM試劑盒(美國Zymo Research公司)說明書進行重亞硫酸鹽處理,轉化條件:95℃ 30s,50℃ 15min;20個循環(huán)。20 μL水洗脫獲得轉化后的DNA。同時設置兩個對照:完全甲基化的DNA和完全未甲基化的DNA(甲基化程度分別為100%和0%)。
PCR擴增體系5μL,包括1μL重亞硫酸鹽轉化后DNA,1.37μL不含RNA酶的水,0.5μL 10×PCR緩沖液,0.09 μL PCR酶,0.04 μL dNTP混合物,2.0 μL引物混合物包括上下游引物(1μmol/L)。熱循環(huán)參數(shù):95℃ 4min;94℃ 20s,56℃ 30s,72℃ 60s,45個循環(huán);72℃ 3min。多余的核苷酸將在下步純化反應中被除去,純化體系為2μL,包括1.7μL不含RNA酶的水和0.3 μL 1.7 U/μL蝦堿性磷酸酶(shrimp alkaline phosphatase,SAP)。然后,孵化 37℃ 20 min,85℃5 min。純化后,用1.5%的瓊脂糖凝膠跑膠,取3 μL SAP產(chǎn)物,上樣緩沖液2 μL,120 V電壓電泳30 min。下一步進行轉錄和T裂解,體系為不含RNA酶的水3.15 μL,5×T7 RNA和DNA聚合酶緩沖液0.89 μL,T裂解轉錄混合物0.24 μL,二硫蘇糖醇(100 mmol/L)0.22μL,T7 RNA和DNA聚合酶0.44μL,核糖核酸酶A(10 mg/mL) 0.06 μL,純化產(chǎn)物2 μL。37℃孵育3 h。最后每個樣本中再加入43 μL不含RNA酶的水和6mg清潔樹脂并且在混勻儀上旋轉15min,以離心力10 000×g離心6 min,用MassARRAY系統(tǒng)(美國Agena Bioscience公司)進行檢測。
對15份制作血斑的血液樣本進行2次重復性驗證時,分別進行2次重亞硫酸鹽轉化并進行后續(xù)的PCR擴增及質譜檢測,以保證所有步驟都進行2次重復。
分析與計算使用R軟件(R-3.4.2),對大批量樣本檢測結果通過K最近鄰方法(K-nearest neighbor,K-NN)補缺(最近的10個位點)。對數(shù)據(jù)補缺用R軟件中DMwR軟件包中“impute”函數(shù),為了評估數(shù)據(jù)補缺后,最終數(shù)據(jù)分析結果是否仍然可信,選擇352份沒有缺失值的樣本,每次設置不同比例的缺失值,然后進行K-NN方法補缺驗證試驗,再用補缺失后的值與真實值進行相關性分析,用Pearson相關系數(shù)評估補缺的可靠性,模擬的結果與實際結果有很強的關聯(lián)性,表明經(jīng)過補缺之后數(shù)據(jù)結果可信,反復1000次,求平均值。在實驗中隨機將缺失閾值設為10%、20%、30%、40%和50%(表2)5個階段,K-NN補缺方法推薦的臨界閾值是20%[30],因此在本研究中也以20%定為最大缺失閾值進行數(shù)據(jù)補缺,進而獲得可靠的DNA甲基化數(shù)據(jù)。用“cor”函數(shù),選擇與年齡相關的甲基化位點,將Pearson相關系數(shù)設為|r|>0.5,選出與年齡相關的80個甲基化位點。然后用赤池信息量準則(Akaike information criterion,AIC)結合多元線性回歸方法,設置P<0.005,進一步篩選出與年齡高度相關的22個DNA甲基化位點。運用“l(fā)m”函數(shù)及“step”函數(shù)擬合多元線性回歸方程并求出最優(yōu)模型,最后利用“drop”函數(shù)并結合相關性有統(tǒng)計學意義(P<0.005)的指標,篩選出與年齡高度相關的8個CpG位點[位點信息通過Genome Browser Gateway獲?。ā癏uman Assembly”選為 GRCh38,https://genome.ucsc.edu/cgi-bin/hgGateway?redirect=manual&source=genome.ucsc.edu)],并得出與年齡相關的多元線性回歸模型。將篩選出與年齡高度相關的8個CpG位點的甲基化值(x)代入到年齡預測回歸模型中,得到相應的預測年齡,并利用“plot”函數(shù)畫出預測年齡與實際年齡的散點圖。運用留一法交叉驗證方法評估模型,352份樣本數(shù)據(jù),每次留下一個樣本作為驗證樣本,其余樣本重新訓練模型,這個步驟一直持續(xù)到每個樣本都被當作一次驗證樣本,用留一法評估模型時運用“boot”軟件包中“c”函數(shù)。將352份樣本按實際年齡大小排列,每10歲分為一組,求每個樣本的預測年齡,并進一步計算出每個年齡段人數(shù)的平均絕對偏差(mean absolute deviation,MAD)值。用109份樣本對年齡推斷模型進行驗證,將CpG位點的甲基化值代入到年齡推斷模型中,求出109份樣本的MAD值,驗證模型的準確性。本研究檢測了15份血液DNA樣本,及相對應室溫存放3個月的血斑樣本,通過SPSS 17.0,采用配對t檢驗比較15份血液樣本與血斑樣本在8個CpG位點甲基化結果的差異。將CpG位點的甲基化值代入到年齡預測模型中求出相應的預測年齡,年齡預測誤差及15份樣本的MAD值。進行重復性驗證時,將2次重復性實驗的8個CpG位點的甲基化值代入年齡預測方程求出2次重復性實驗的預測年齡和MAD值。
表2 K-NN補缺方法的準確性評價
為了篩選出適合推斷中國北方漢族男性年齡的DNA甲基化位點,本研究以EpiTYPER技術平臺為基礎,結合文獻[1,18,20-29]中已報道的及前期工作積累的血液中與年齡相關的21個位點,檢測了476份男性血液樣本檢測了21個擴增片段內的153個CpG位點。其中352份沒有缺失值的樣本作為訓練集構建年齡推斷模型,通過分析年齡與153個CpG位點DNA甲基化值之間的相關性,從153個候選位點中篩選出80個與中國北方漢族男性年齡相關的DNA甲基化位點,然后運用AIC進一步篩選CpG位點,結果篩選出22個與年齡相關的CpG位點。以P<0.005為條件最終篩選出8個與年齡高度相關的CpG位點,位于7個基因片段上(表3)。
352份樣本作為訓練集,基于這8個CpG位點(x1~x8),建立了年齡(y)推斷模型:
R2=0.93,MAD=2.69歲,其MAD的95%置信區(qū)間為[2.39,2.98],該年齡推斷模型可以用于解釋93%的年齡變化(圖1)。
表3 篩選出8個年齡高度相關的甲基化位點
圖1 年齡推斷模型的預測年齡與實際年齡散點圖
留一法交叉驗證顯示,MAD為2.76歲(圖2)。6個年齡組的分析顯示(表4),MAD值從小到大依次為45~<55歲、15~<25歲、35~<45歲、25~<35歲、55~<65歲、65~75歲。本研究建立的基于8個CpG位點的年齡預測模型,在年輕組(15~<25歲)和年長組(65~75歲)中,±5年的預測準確性分別為87.50%和78.90%,±6年的預測準確性分別為91.76%和86.24%。
運用109份樣本作為驗證集,對年齡預測模型進行驗證,其MAD值為3.80歲(圖3)。
圖2 預測年齡與實際年齡的留一法驗證散點圖
表4 不同年齡段的平均絕對偏差(N=352)
圖3 109份樣本驗證散點圖
15份血液樣本與相應的血斑樣本的8個CpG位點甲基化值(表5)配對樣本t檢驗結果顯示,在CpG1和CpG5,血液與血斑樣本之間差異有統(tǒng)計學意義(P<0.05),其余6個CpG位點的血液與血斑樣本之間差異無統(tǒng)計學意義(P>0.05)。使用建立的年齡推斷模型,在血液樣本和血斑樣本中預測年齡與實際年齡之間的MAD值分別為4.08歲和3.99歲。15份血液樣本和血斑樣本的年齡推斷誤差最小為0.20歲和0.93歲,最大誤差為9.84和10.12歲。
為了驗證結果的重復性,對上述15份血液DNA樣本,基于模型中的8個位點和相同的實驗方法,重復2次試驗,3次結果的MAD值分別為4.08、4.68和3.93歲,MAD值波動范圍在1歲之內,基于8個位點建立的年齡預測模型結果的重復性相對較好。
表5 血液樣本與血斑樣本在8個CpG位點的甲基化值(n=15,±s)
表5 血液樣本與血斑樣本在8個CpG位點的甲基化值(n=15,±s)
注:1)與血液樣本比較,P<0.05
血斑0.36±0.071)0.55±0.07 0.21±0.04 0.78±0.08 0.23±0.041)0.20±0.05 0.52±0.10 0.49±0.09位點CpG1 CpG2 CpG3 CpG4 CpG5 CpG6 CpG7 CpG8血液0.38±0.06 0.55±0.06 0.20±0.05 0.78±0.09 0.25±0.03 0.21±0.06 0.57±0.10 0.48±0.07
年齡推斷一直在法醫(yī)學領域備受關注。眾多研究報道顯示[1,2,22],DNA 甲基化作為年齡預測分子標記,在法醫(yī)學應用中具有許多獨特的優(yōu)勢。目前,大多研究[19-22]都是以歐美人群為研究對象。本研究基于EpiTYPER技術平臺,檢測了476份漢族男性樣本,運用多元線性回歸方法和AIC方法構建年齡推斷模型(R2=0.93,MAD=2.69歲)。AIC是建立在熵的概念基礎上,衡量統(tǒng)計模型擬合優(yōu)良性的一種標準,可以作為模型選擇的一種方法,也可以權衡所估計模型的復雜度和此模型擬合數(shù)據(jù)的優(yōu)良性,AIC越小,結果越好。該模型的8個CpG位點中,CpG1、CpG3、CpG5、CpG6、CpG8與年齡成正相關,隨著年齡的增長,DNA甲基化程度逐漸增加;CpG2、CpG4、CpG7與年齡呈負相關,隨著年齡的增長DNA甲基化呈現(xiàn)去甲基化狀態(tài)。位于6號染色體的ELOVL2基因被證明與年齡具有高度關聯(lián)性[18,20-21],TRIM59[20]、PDE4C[21]、Clorf132[20-21]、CSNK1D[19]、RASSF5[19]基因上DNA甲基化水平都被證明與年齡具有關聯(lián)性,這些位點應用于不同的年齡推斷模型中。此外,chr17:21452808[29]位置上DNA甲基化水平也被證明與年齡具有關聯(lián)性。
本研究建立的基于8個CpG位點的年齡預測模型,隨著年齡段的增加,預測準確性出現(xiàn)相應的下降,MAD值大體上逐漸增大,在年輕組(15~<25歲)MAD值為2.42歲,在年長組(65~75歲)MAD值最大為3.87歲,該實驗結果與前期已經(jīng)報道過的結果[1,21]一致。
HANNUM等[18]基于甲基化芯片數(shù)據(jù)建立了基于71個CpG位點的年齡預測模型,在訓練集和驗證集該模型的MAD值分別為3.9歲和4.9歲。WEIDNER等[22]報道了基于3個CpG位點的年齡預測模型,在訓練集和驗證集中MAD值分別為5.4歲和3.9歲。ZBIECPIEKARSKA等[20]建立了基于5個CpG位點的年齡預測模型,在訓練集中MAD為3.4歲,在男性和女性樣本中其MAD值有稍微的差別,分別為3.7歲和3.0歲。在驗證集中MAD為3.9歲,在男性和女性樣本中其MAD值略有差別,分別為4.0歲和3.7歲,±5年的預測準確性為72%。PARK等[1]報道的基于3個CpG位點的年齡預測模型,在訓練集和驗證集的MAD值分別為3.16歲和3.35歲,±6年的預測準確度在<60歲分組中為77.30%,在年老組(>60歲)為57.30%。與上述研究建立的模型相比,本研究建立的年齡預測模型準確度較高。
此外,模型利用的樣本是新鮮血液檢測出的數(shù)據(jù),而實際檢材中往往難以獲得大量血液樣本,更多的是血斑,因此需要評估血液與血斑之間是否存在顯著差異,這在實際應用中有重要的意義。本研究檢測了15份血液樣本DNA和相對應的室溫存放3個月的血斑DNA,MAD值分別為4.08歲和3.99歲,CpG1和CpG5的甲基化值差異有統(tǒng)計學意義,其余6個CpG位點之間差異無統(tǒng)計學意義。血液樣本與血斑樣本的年齡預測誤差范圍在0~10.12歲,預測誤差相對較小。關于血斑樣本的模型優(yōu)化,需增加血斑樣本檢測數(shù)量,驗證該模型是否適用于血斑樣本。另外,15份血液樣本進行了3次重復實驗,3次結果的MAD值相差不大,證明年齡預測模型具有較強的穩(wěn)定性和重復性。由于建立年齡預測模型時僅使用了我國3個地區(qū)的樣本,對其他地區(qū)樣本適用性需要進一步驗證。
本研究運用多元線性回歸方法建立的基于8個與年齡高度相關的DNA甲基化位點的年齡預測模型,可以作為法醫(yī)學應用中年齡預測的一種可靠又有效的方法。年齡的正確推斷可為案件提供更多更準確的偵查線索,縮小案件的偵查范圍,有利于案件的快速偵破。
(感謝公安部物證鑒定中心閔建雄研究員為本研究提出非常有價值的建議。)