(公安部物證鑒定中心 現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室 法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室 北京市現(xiàn)場(chǎng)物證檢驗(yàn)工程技術(shù)研究中心,北京 100038)
基于骨骼形態(tài)等體質(zhì)人類(lèi)學(xué)方法可以推斷樣本的族群來(lái)源,但該技術(shù)很難用于血斑、精斑等斑跡類(lèi)或者毀損嚴(yán)重的骨骼等物證的檢測(cè)?,F(xiàn)代遺傳學(xué)研究已經(jīng)勾畫(huà)出一幅人類(lèi)起源、進(jìn)化、遷移和融合圖,揭示出人群之間的遺傳差異和群體遺傳結(jié)構(gòu)。以往相關(guān)研究[1-4]促進(jìn)了DNA族群地域推斷(biogeographic ancestry inference)技術(shù)的誕生,即檢測(cè)不同人群之間具有遺傳分布差異的位點(diǎn)判斷DNA供者所屬的族群地域,這種差異位點(diǎn)被稱(chēng)為祖先信息位點(diǎn)(ancestry informative marker,AIM)。
根據(jù)膚色、毛發(fā)顏色和形態(tài)、面貌等體貌特征,人類(lèi)學(xué)研究通常將人類(lèi)群體大致劃分為東亞黃種人(蒙古人種)、歐洲白種人(高加索人種)和非洲黑種人(尼格羅人種),棕色人種(澳大利亞人種)通常被包括在黑色人種內(nèi)[5]。與五大洲相對(duì)應(yīng)的五分法也是比較普遍的分類(lèi)法,即蒙古人種、高加索人種、尼格羅人種、澳大利亞人種、印第安人種[6-7]。線(xiàn)粒體DNA和Y染色體DNA等遺傳學(xué)研究證實(shí)現(xiàn)代人類(lèi)的祖先晚期智人在7~10萬(wàn)年前走出非洲,經(jīng)南線(xiàn)為主的路線(xiàn)逐漸擴(kuò)散和遷移到各個(gè)大陸[6-8]。由于遺傳漂變、適應(yīng)性進(jìn)化、遷移混合、古DNA滲入等因素,形成了不同地域人群的遺傳結(jié)構(gòu)和體貌特征。人類(lèi)基因組中99.9%的序列相同,微小差異形成了世界各地人群的地理特異性。絕大多數(shù)的遺傳差異發(fā)生在群體內(nèi)部,大洲之間人群的遺傳差異高于大洲內(nèi)部人群之間的遺傳差異[9]?;诙檀?lián)重復(fù)(shorten tandem repeat,STR)和單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)的研究表明,世界人群的遺傳結(jié)構(gòu)與地理分布明顯相關(guān)[10-12],隨著地理距離的增加,等位基因頻率的差異逐漸加大,即不同族群之間沒(méi)有絕對(duì)的邊界。但是這種漸變分布存在不連續(xù)性,往往與地理、語(yǔ)言和宗教等的隔絕具有一致性,故而形成了不同地域人群的遺傳亞結(jié)構(gòu)[9]。
1973年,NEEL首次提出人群“私有”遺傳變異(“private”genetic variants)的概念[13],STR、SNP、插入/缺失(insertion/deletion,InDel)和微單倍型(microhaplotype)等具有人群特異性的遺傳標(biāo)記陸續(xù)被報(bào)道[14-16]。由于STR突變率較高,不是最理想的祖先信息標(biāo)記,SNP、InDel是目前選擇AIM的主要遺傳標(biāo)記。檢測(cè)少量的AIM即可實(shí)現(xiàn)洲際人群的遺傳推斷,洲際人群內(nèi)部的進(jìn)一步區(qū)分則需更多的AIM。但是位點(diǎn)數(shù)目并非越多越好,遺傳距離不同的族群,位點(diǎn)篩選標(biāo)準(zhǔn)和參考數(shù)據(jù)集不同,需采用不同位點(diǎn)組合從洲際到亞人群逐層推斷。目前,國(guó)內(nèi)外文獻(xiàn)報(bào)道了大量族群推斷體系,區(qū)分度為3~5個(gè)洲際人群(如東亞、歐洲、非洲等)[17],其中,34-SNP[18]、27-SNP[19]、31-SNP[20]等基于聚合酶鏈反應(yīng)-毛細(xì)管電泳(polymerase chain reactioncapillary electrophoresis,PCR-CE)平臺(tái)(以下簡(jiǎn)稱(chēng)為“PCR-CE平臺(tái)”)建立了適合法醫(yī)學(xué)應(yīng)用的檢測(cè)體系,靈敏度達(dá)到皮克級(jí),適于各種現(xiàn)場(chǎng)生物檢材,檢測(cè)時(shí)間約7 h。InDel是一種二態(tài)的長(zhǎng)度多態(tài)性遺傳標(biāo)記(如46-InDel[21]、21-InDel[22]等),約3h可以完成PCRCE平臺(tái)檢測(cè)。耶魯大學(xué)KIDD教授實(shí)驗(yàn)室基于KOSOY等[23]研究的128-SNP等位點(diǎn)篩選出55-SNP[24],實(shí)現(xiàn)了撒哈拉以南非洲、北非、西南亞、歐洲、南亞、東亞、大洋洲、美洲印第安人群的區(qū)分。美國(guó)Thermo Fisher Scientific、美國(guó) Illumina等公司[25-26]采納 Seldin 128-SNP[23]、Kidd 55-SNP等位點(diǎn)構(gòu)建了下一代測(cè)序(next generation sequencing,NGS)檢測(cè)體系或者芯片檢測(cè)體系。
1.3.1 東亞人群遺傳結(jié)構(gòu)研究
東亞人口占全球人口的22%,是研究人類(lèi)源流歷史及民族演化的重要地區(qū)之一,“非洲起源說(shuō)”認(rèn)為現(xiàn)代人到達(dá)東亞的時(shí)間為5~6萬(wàn)年前[27-28]。Y-SNP、mtDNA和常染色體SNP等研究均表明東亞人群存在明顯的南北分化,北方人群由于受到來(lái)自中亞和歐洲遺傳成分的影響,呈現(xiàn)東西走向的變化趨勢(shì),南北方人群遺傳的差異以長(zhǎng)江為地理分界[29-32]。漢族具有混合特征,呈現(xiàn)明顯的南北分化,漢族人群與當(dāng)?shù)厣贁?shù)民族之間的遺傳差異小于南北方漢族之間的遺傳差異。南北方人群的遺傳成分對(duì)當(dāng)前南方漢族人群基因庫(kù)的貢獻(xiàn)具有性別偏向性,北方人群的父系遺傳成分和南方人群的母系遺傳成分分別構(gòu)成了現(xiàn)代南方漢族人群基因庫(kù)的主體[33]。東亞人群分屬漢藏語(yǔ)系、苗瑤語(yǔ)系、侗臺(tái)語(yǔ)系、南亞語(yǔ)系、南島語(yǔ)系及阿爾泰語(yǔ)系等[34],東亞人群的遺傳結(jié)構(gòu)與族源歷史和語(yǔ)言結(jié)構(gòu)具有對(duì)應(yīng)關(guān)系,同一語(yǔ)系人群有聚類(lèi)傾向[29,35]。
南亞語(yǔ)系、侗臺(tái)語(yǔ)系和苗瑤語(yǔ)系人群分別對(duì)應(yīng)于中國(guó)歷史記載的南方的百濮、百越和南蠻人群[36-37]。漢藏語(yǔ)系中的漢語(yǔ)族人群以黃河中下游的古代華夏族為主體,逐漸融合周?chē)渌褡逍纬蒣36]。藏緬語(yǔ)族起源于甘肅、寧夏和青海等中國(guó)西北的氐羌人群,沿藏彝走廊大規(guī)模遷移至西藏、云南等中國(guó)西南地區(qū),經(jīng)歷了與南方人群的基因融合[38]。其中,藏族人群的基因庫(kù)中保留了新石器時(shí)代中國(guó)北方人群的遺傳成分(氐羌人群)和舊石器時(shí)代定居青藏高原的人群的遺傳組分(Y-SNP的D-M174和mtDNA的M16、A10等)[39-41]。在藏族人群中,發(fā)現(xiàn)EPAS1、EGLN1等高原適應(yīng)基因[42-43]。EPAS1基因高原適應(yīng)單倍型在藏族人群的頻率為72.32%,在平原地區(qū)人群的頻率小于2.5%[44]。阿爾泰語(yǔ)系屬于北方人群,蒙古語(yǔ)族和滿(mǎn)通古斯語(yǔ)族起源于中國(guó)東北古代少數(shù)民族[45]。突厥語(yǔ)族人群主要分布在中國(guó)西北地區(qū),南方起源的單倍群O、C、D、N的頻率占Y染色體所有單倍群頻率的64.36%,表明在中國(guó)西北人群中東亞的Y染色體譜系占主導(dǎo)地位[46]。日本、韓國(guó)人群的語(yǔ)系歸屬存在爭(zhēng)議,日本人群的二元遺傳結(jié)構(gòu)模式被廣泛接受,即繩文人和彌生人的遺傳混合[47-48]。漢族、日本、朝鮮人群的遺傳結(jié)構(gòu)存在差異,也存在基因流[49]。
1.3.2 東亞人群的DNA族群推斷研究
目前,針對(duì)法醫(yī)學(xué)應(yīng)用的東亞人群推斷體系研究報(bào)道較少。使用前述報(bào)道的洲際人群推斷體系,東亞人群的北亞類(lèi)型(亞洲北部)、南亞類(lèi)型(長(zhǎng)江以南至東南亞)和東亞類(lèi)型(蒙古高原至長(zhǎng)江以北)往往表現(xiàn)為一種遺傳主成分。LI等[50]針對(duì)法醫(yī)學(xué)應(yīng)用篩選了74個(gè)位點(diǎn),并分別構(gòu)建了基于微流控芯片和CE平臺(tái)的檢測(cè)體系,DNA模板用量為納克級(jí),該體系可實(shí)現(xiàn)北非、西南亞與歐洲人群的區(qū)分以及北亞、東南亞與東亞人群的區(qū)分,其中北方漢族和南方漢族分別表現(xiàn)出北亞和東南亞人群的遺傳混合。WANG等[49,51]篩選出南北方漢族人群以及漢族、朝鮮和日本人群相關(guān)的祖先信息位點(diǎn)。YUASA等[52]研究發(fā)現(xiàn)了67個(gè)可能源自繩文人的日本人群特異SNP位點(diǎn),其中rs3778922(GALNT11)、rs76162918(H19)和rs2285715(PLA2G12A)在日本人群中的特異性最高。
常用流程包括AIM的篩選與評(píng)估、復(fù)合檢測(cè)體系構(gòu)建、參考人群分型庫(kù)建立、推斷算法和軟件設(shè)計(jì)、體系和算法的驗(yàn)證評(píng)估等。
常用統(tǒng)計(jì)學(xué)指標(biāo)如下:
δ值是兩個(gè)群體之間等位基因頻率的差值,δ值越大代表該位點(diǎn)在兩個(gè)群體之間的頻率差異越大,通用公式如下[14]:
δ≥0,k為該位點(diǎn)的等位基因數(shù),px和qx分別代表等位基因x在群體p和群體q中的頻率。如果遺傳標(biāo)記位點(diǎn)為雙等位基因,δ值計(jì)算的簡(jiǎn)化公式為:
其中px和py是群體x和y中的一個(gè)等位基因p的頻率,qx和qy是群體x和y中的另一個(gè)等位基因q的頻率。
Wright’sFst是群體遺傳學(xué)中衡量群體間分化程度的一個(gè)重要指標(biāo)[53],也叫做固定指數(shù)(fixation index)。當(dāng)一個(gè)大的群體分化成相互隔離的數(shù)個(gè)亞群以后,與未分化之前相比,總體雜合度會(huì)降低。Fst值的大小反應(yīng)了每個(gè)位點(diǎn)的等位基因頻率在不同群體間的變化程度,F(xiàn)st值越大,該位點(diǎn)在不同人群間的等位基因頻率差別越大。取值范圍為0~1,0表示沒(méi)有群體分化,1表示完全隔離,而實(shí)際觀察到的值往往遠(yuǎn)小于1。在Hardy-Weinberg平衡的前提下:
式中,Ht為總?cè)后w的雜合度(total heterozygosity),Hs為亞群體的平均雜合度(average subpopulations heterozygosity)。
In值(informativeness for assignment)[54]也是常用的衡量AIM位點(diǎn)信息量的指標(biāo),信息量與Fst值類(lèi)似[20]。計(jì)算公式如下:
式中,Q為人群,取值i=1-K;J為等位基因,取值j=1-N。
SNP為雙等位基因j=1-2,公式變形為:
2.2.1 族群聚類(lèi)分析
基于貝葉斯的model-based聚類(lèi)方法,通過(guò)SNP、STR等遺傳標(biāo)記的分型數(shù)據(jù)來(lái)推測(cè)群體的聚類(lèi)群組,并把每個(gè)個(gè)體分配到這些群組中,如果某個(gè)體有混合遺傳成分,則被分配到兩個(gè)或更多群組中。通過(guò)分析可以獲知每個(gè)人群和個(gè)體的群組成分構(gòu)成或者祖先成分(ancestry component)。使用Structure軟件可以評(píng)估AIM位點(diǎn)達(dá)到的人群區(qū)分度,并確定最穩(wěn)定的群組數(shù)目,即K值[55]。DISTRUCT或CLUMPAK(http://clumpak.tau.ac.il/index.html)可將結(jié)果繪制成圖。
2.2.2 主成分分析
主成分分析(principal component analysis,PCA)是從多個(gè)指標(biāo)之間的相互關(guān)系入手,利用降維思想通過(guò)少數(shù)幾個(gè)主成分來(lái)揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),從原始變量中導(dǎo)出少數(shù)幾個(gè)主成分,使他們盡可能多地保留原始變量的信息。每個(gè)主成分原始數(shù)據(jù)的線(xiàn)性組合,僅代表一部分變量,第一主成分代表了最多的信息量,其次是第二主成分、第三主成分等。在人群遺傳結(jié)構(gòu)分析中,一般使用多個(gè)遺傳標(biāo)記的等位基因頻率進(jìn)行分析,每個(gè)遺傳標(biāo)記作為一種指標(biāo),把所有遺傳位點(diǎn)揭示出的主要人群結(jié)構(gòu)反映出來(lái),通常選擇前三個(gè)主成分,以PC1-PC2、PC1-PC3二維的形式展現(xiàn)。
此外,反映人群間遺傳距離的系統(tǒng)進(jìn)化樹(shù)分析也可評(píng)估AIM位點(diǎn)對(duì)人群的區(qū)分度。位點(diǎn)的篩選與評(píng)估是一個(gè)逐步減少位點(diǎn)和評(píng)估的過(guò)程。
篩選到AIM后需構(gòu)建復(fù)合檢測(cè)體系,才可用于法醫(yī)現(xiàn)場(chǎng)生物物證的檢測(cè)。檢測(cè)體系需滿(mǎn)足微量DNA檢測(cè)需求。Sanger測(cè)序、NGS等技術(shù)是序列檢測(cè)的金標(biāo)準(zhǔn),但對(duì)于法醫(yī)學(xué)應(yīng)用而言,仍需構(gòu)建便捷靈敏的復(fù)合檢測(cè)體系,目前常用技術(shù)包括單堿基延伸結(jié)合毛細(xì)管電泳檢測(cè)技術(shù)、單堿基延伸結(jié)合質(zhì)譜檢測(cè)技術(shù)、等位基因特異PCR、基因芯片等。
決定DNA族群推斷體系的區(qū)分度和準(zhǔn)確性的關(guān)鍵因素之一是參考人群庫(kù)的選擇和使用。篩選到AIM位點(diǎn)后,評(píng)估確定人群區(qū)分度,然后選擇每個(gè)人群成分較高的個(gè)體作為參考人群庫(kù)樣本。對(duì)于未知個(gè)體,檢測(cè)獲得AIM位點(diǎn)分型之后,通過(guò)參考人群庫(kù)的分型和頻率數(shù)據(jù)計(jì)算樣品的群體匹配概率(matching probability,MP)、群體似然比(likelihood ratio,LR)、多元邏輯回歸(multivariate logistic regression,MLR)、祖先成分(ancestry component),繪制個(gè)體的族群歸類(lèi)圖(classification of unknown individual),即可推斷樣品的族群來(lái)源[56-57]。
案件偵查前期推斷涉案人員的族群地域,有助于確定偵查方向,縮小嫌疑人排查范圍,協(xié)助案件定性,降低工作量,提高效率,已經(jīng)逐步在案件中應(yīng)用。SUN等[58]利用27-plex SNP族群推斷技術(shù)對(duì)1例骨骼樣本進(jìn)行檢測(cè),并推斷出該樣本來(lái)自歐洲族群的可能性最大。由于該技術(shù)方法較新,實(shí)驗(yàn)技術(shù)沒(méi)有在法醫(yī)學(xué)實(shí)驗(yàn)室普及,實(shí)驗(yàn)結(jié)果仍需要法醫(yī)遺傳學(xué)專(zhuān)業(yè)人士提供解讀,因此應(yīng)用范圍仍然局限于部分地區(qū)及機(jī)構(gòu)。另外,對(duì)于美國(guó)等移民國(guó)家,族群來(lái)源推斷技術(shù)有助于了解人員的家族來(lái)源,23andme、Ancestry、Parabon等商業(yè)化公司為社會(huì)大眾提供相關(guān)的收費(fèi)服務(wù)。國(guó)內(nèi)也有類(lèi)似商業(yè)公司提供消費(fèi)檢測(cè)服務(wù),提供祖源推斷結(jié)果。
但法醫(yī)族群推斷研究技術(shù)體系目前仍存在如下不足:(1)大量的洲際人群區(qū)分AIM組合包含的位點(diǎn)和檢測(cè)的人群各有差異,缺乏統(tǒng)一的位點(diǎn)組合和全球普適的參考人群庫(kù),也缺乏國(guó)際公認(rèn)的評(píng)價(jià)標(biāo)準(zhǔn)。(2)東亞人群尤其是我國(guó)人群精細(xì)區(qū)分體系急需研究。(3)DNA族群推斷反映的是樣本的遺傳結(jié)構(gòu)特點(diǎn),與省份、民族等民眾熟知的信息并不完全對(duì)應(yīng),而偵查辦案人員大多不了解群體遺傳學(xué),結(jié)果解析是目前面臨的問(wèn)題之一。未來(lái)DNA族群地域推斷技術(shù)將向技術(shù)的標(biāo)準(zhǔn)化、區(qū)分的精細(xì)化等方向發(fā)展,伴隨宏基因組、表觀基因組等技術(shù)的發(fā)展,將會(huì)篩選出大量地域、飲食等相關(guān)的遺傳標(biāo)記,多遺傳標(biāo)記綜合應(yīng)用將會(huì)更全面精細(xì)地刻畫(huà)個(gè)體的族群和地域來(lái)源。
總之,法醫(yī)族群推斷研究技術(shù)體系是法醫(yī)遺傳學(xué)重要的研究方向之一,是從傳統(tǒng)的“比對(duì)識(shí)別”向新型“主動(dòng)偵查”模式邁出的重要一步。未來(lái)結(jié)合DNA表型特征刻畫(huà)和家族搜索等技術(shù)形成新一代法醫(yī)DNA技術(shù)體系,將全面提升法醫(yī)DNA在“刻畫(huà)搜索和提供線(xiàn)索”方面的能力,為涉外反恐、跨區(qū)域犯罪、冷案積案等疑難案件的偵破提供科技支撐。