劉楊,孫昌春,馬咪,王玲,趙雯婷,馬泉,季安全,劉京,李彩霞
研究報告
74-plex SNPs復(fù)合檢測體系在中國人群中的族群推斷研究
劉楊1,2,孫昌春1,2,馬咪2,3,王玲2,趙雯婷2,馬泉2,季安全2,劉京2,李彩霞1,2
1. 山西醫(yī)科大學(xué),太原 036000 2. 公安部物證鑒定中心,法醫(yī)遺傳學(xué)公安部重點實驗室,現(xiàn)場物證溯源技術(shù)國家工程實驗室,北京 100038 3. 新疆生產(chǎn)建設(shè)兵團(tuán)第七師公安局,奎屯 833200
使用一組祖源SNP可以分析某人群的遺傳成分,推斷某個體的族群來源。本課題組前期篩選出74個SNP位點實現(xiàn)了撒哈拉以南的非洲、北非、歐洲、美洲、大洋洲、南亞、西南亞、東亞、東北亞和東南亞等10個地理區(qū)域人群的推斷,并基于MassARRAY質(zhì)譜分析技術(shù)構(gòu)建了74-plex SNPs復(fù)合檢測體系。本研究利用該體系對14個中國人群1371份樣本進(jìn)行基因分型,驗證評估該體系對中國人群的區(qū)分能力和法醫(yī)學(xué)應(yīng)用效能。首先,基于全球57個人群3628份個體構(gòu)建參考人群分型庫,采用Structure分析和等位基因頻率熱圖等方法進(jìn)行人群區(qū)分能力評估;然后,選取千人基因組計劃中3個人群(不包含在參考人群分型庫中)及本實驗室檢測的14個人群共計1654個體作為測試數(shù)據(jù)集,通過似然比和族群成分等統(tǒng)計分析,評估該體系對實際樣本的族群來源推斷能力。結(jié)果表明,DNA的量最低為1.5 ng時,74個SNP均可正確判型,適用于微量檢材的檢測;該體系對全球10個地理區(qū)域人群有區(qū)分能力,針對測試人群中歐洲、美洲、南部非洲個體族群來源推斷的準(zhǔn)確率為95.4%、不排除率為1.06%,東亞個體推斷的準(zhǔn)確率為71.0%、不排除率為17.9%,東南亞個體推斷的準(zhǔn)確率66.4%、不排除率為 33.3%。該方法可以為實際案件偵察提供線索。
法醫(yī)遺傳學(xué);祖源SNP;族群推斷;中國人群
DNA供者的族群地域分析不僅對于生物醫(yī)藥、人類遷移進(jìn)化等研究有重要參考價值,而且在法 庭科學(xué)領(lǐng)域也具有重要應(yīng)用價值,近年來被廣泛關(guān)注[1~4]。當(dāng)犯罪嫌疑人遺留在現(xiàn)場生物檢材的STR (short tandem repeat, STR)數(shù)據(jù)與DNA數(shù)據(jù)庫或者某個嫌疑人沒有比中時,如果能夠?qū)ι餀z材來源人的族群、地域進(jìn)行推斷,將有助于鎖定嫌疑人范圍,促進(jìn)案件定性和明確偵查方向。通過測序技術(shù)獲得個人基因組上的祖源SNP (ancestry informative SNPs, AISNPs)分型信息,比較這些SNP分型數(shù)據(jù)與參考族群的相似性,可以計算族源成分,推斷其族群來源[5~9]。
目前報道了大量洲際人群區(qū)分的AISNPs體系[10~14]。本課題組前期篩選出的74個SNP位點能夠?qū)崿F(xiàn)全球10個地理區(qū)域人群(撒哈拉以南的非洲、北非、歐洲、美洲、大洋洲,南亞、西南亞、東亞、東北亞、東南亞)的區(qū)分[15],且基于質(zhì)譜技術(shù)構(gòu)建了74-plex SNPs復(fù)合檢測體系[16],實現(xiàn)了東亞人群的南北方遺傳成分的進(jìn)一步區(qū)分。但是,尚未進(jìn)行該復(fù)合檢測體系的性能驗證及大規(guī)模樣本的驗證。本文利用74-plex SNPs復(fù)合檢測體系對14個中國人群1371份樣本進(jìn)行基因分型,并對74-plex SNPs復(fù)合檢測體系進(jìn)行了體系性能驗證和大規(guī)模樣本的區(qū)分能力驗證。本研究的成果可進(jìn)一步豐富我國人群的AISNPs位點的數(shù)據(jù),進(jìn)而為中國不同語系人群特異性位點的篩選打下基礎(chǔ),并且可以為案件提供偵查線索。
參考數(shù)據(jù)庫參照前期文獻(xiàn)報道[17],共計57個人群3628份個體。另外選取千人基因組3個人群(不包含在參考數(shù)據(jù)庫中)和本實驗室檢測的14個中國人群,共17個人群1654份個體作為測試樣本。基于參考數(shù)據(jù)庫進(jìn)行族群來源推斷,評估體系在實際樣本中的族群來源區(qū)分能力。本實驗室樣本均來源于國家科技資源共享服務(wù)平臺計劃項目(編號:YCZYPT[2017]01-3)。測試人群樣本詳細(xì)信息見表1。本實驗室檢測的所有樣本對象均簽署知情同意書及自述其詳細(xì)族群信息。本研究已通過公安部物證鑒定中心倫理委員會的審查批準(zhǔn)。
靜脈血樣本DNA的提取采用德國QIAGEN公司QIAamp?DNA Blood Midi試劑盒;用NanoDrop 2000C分光光度計(Thermo Scientific公司,美國)進(jìn)行定量。用18.2MΩ去離子滅菌水調(diào)整濃度至5~ 10 ng/μL備檢。
74個SNP位點源于本課題組前期篩選[15],基于MassARRAY質(zhì)譜檢測平臺構(gòu)建了復(fù)合檢測體系[16],74個SNP位點在3個反應(yīng)孔中檢測,SNP位點信息見表2。
PCR復(fù)合擴(kuò)增及純化:PCR復(fù)合擴(kuò)增反應(yīng)體系為5 μL,PCR反應(yīng)條件:95℃ 2 min,95℃ 30 s,56℃ 30 s,72℃ 1 min,循環(huán)45次,最后延伸72℃ 5 min。純化反應(yīng)體系為7 μL,充分振蕩混勻后37℃孵育40 min,85℃ 5 min滅活酶活性。
單堿基延伸反應(yīng):采用9 μL體系, 94℃ 30 s;94℃ 5 s,(52℃ 5 s和80℃ 5 s,循環(huán)5次),共40個循環(huán);然后72℃ 3 min。
樹脂純化:延伸后的體系加15 mg的Clean Resin樹脂進(jìn)行脫鹽純化。將Clean Resin樹脂平鋪到樹脂板中,將干燥后的樹脂倒入延伸產(chǎn)物板中,封膜,低速垂直旋轉(zhuǎn)25 min使樹脂與反應(yīng)物充分接觸,3000 r/min離心5 min使樹脂沉入孔底部。
表1 測試人群樣本信息表
表2 每個反應(yīng)孔中的SNP位點信息
芯片點樣和質(zhì)譜檢測:用點樣儀(MassARRAYTM Nanodispenser RS1000,美國Agena公司)把純化后的樣本點到帶有基質(zhì)的芯片上(8~15 nL)。然后用質(zhì)譜檢測分析儀(MassARRAYTM Analyzer,美國Agena公司)進(jìn)行分型檢測[18]。用TYPER 4.0軟件對分型結(jié)果進(jìn)行分析。
分型準(zhǔn)確性驗證:選取5份樣本:9947A、B0242、LCX、QEF、U144送至生工生物工程有限公司進(jìn)行Sanger測序,驗證本研究檢測體系的基因分型與測序結(jié)果一致性。
靈敏度驗證:將10 ng/μL標(biāo)準(zhǔn)品9947做濃度梯度稀釋,15 μL體系中DNA 模板最終量分別為30、15、6、3、1.5和0.6 ng。使用構(gòu)建的74-plex SNPs復(fù)合檢測體系進(jìn)行擴(kuò)增和基因分型,每個濃度重復(fù)3次,用于驗證該檢測體系的靈敏度。
1.6.1 Structure分析
針對全球10大區(qū)域人群分型數(shù)據(jù)庫,用Structure 2.3.4[19]軟件進(jìn)行族群成分分析(=3-10,run=15, 10000 burnins,10000 MCMC), 分析各人群的遺傳結(jié)構(gòu)。使用Clumpak軟件繪制Structure結(jié)果人群聚類圖,相似度的閾值設(shè)置為0.9。
1.6.2 等位基因頻率熱圖分析
用Genepop軟件(http://www.genepop.curtin.edu. au/genepop_op5.html)計算每個位點的等位基因頻率,使用R v3.0.1軟件繪制等位基因頻率熱圖。
1.6.3 群體匹配概率和似然比
用DNA族群推斷系統(tǒng)軟件(DAA)[20]計算17個人群1654份測試樣本的群體匹配概率(AMP)和似然比(LR),當(dāng)LR>10時,AMP排第一位的人群為未知個體的來源族群,當(dāng)LR≤10時,AMP排序前兩位人群均不排除。
1.6.4 箱形圖分析
用Structure軟件分析17個人群1654份測試樣本的族群成分(=10, run=15),基于每個個體族群成分的最大值、最小值、中位數(shù)和兩個四分位數(shù),用EXCLE2016軟件繪制箱線圖展示每個個體族群成分的分布。
分型準(zhǔn)確性驗證:5份測序樣本共獲得370個SNP分型數(shù)據(jù),經(jīng)對比測序結(jié)果與本研究復(fù)合檢測體系所獲得的基因分型100%一致。
靈敏度驗證:使用構(gòu)建的74-plex SNPs復(fù)合檢測體系檢測模板量為30~0.6 ng的9947。3次重復(fù)結(jié)果均顯示,DNA模板量最低為1.5 ng時74個位點等位基因均可正確判型(圖1)。
2.2.1 Structure族群成分分析結(jié)果
圖2展示了全球57個人群3628個個體的Structure分析結(jié)果(=3~10),圖中展示的是每個值多次運算結(jié)果中的最主要的聚類模式。當(dāng)=10時,57個人群被聚類為撒哈拉以南的非洲、北非、西南亞、歐洲、南亞、東亞、東北亞、東南亞、大洋洲和美洲等10個區(qū)域。
2.2.2 等位基因頻率熱圖
基于57個人群在74個SNP位點的等位基因頻率分布,繪制等位基因頻率聚類熱圖(圖3)。通過圖3可以找出人群特異SNP位點,例如rs10108270、rs2986742、rs7238445和rs451722聚類在一起,且它們在南非人群中的頻率明顯高于其他人群,說明這些位點分型是南非人群特異位點。57個人群在熱圖的左側(cè)聚為10簇,分別為撒哈拉以南的非洲、北非、歐洲、美洲、大洋洲、南亞、西南亞、東亞、東北亞和東南亞。
圖1 DNA模板量為1.5 ng的分型結(jié)果
本文使用17個人群1654份個體作為測試數(shù)據(jù)集評估74-plex SNPs復(fù)合檢測體系的族群來源推斷能力,驗證體系在實際樣本中的應(yīng)用效能。所有測試樣本均不包括在參考數(shù)據(jù)庫中。
2.3.1 似然比
對已知來源的1654份樣本基于參考數(shù)據(jù)庫進(jìn)行隨機(jī)人群匹配概率計算,基于似然比進(jìn)行族群來源的統(tǒng)計如表3。對測試人群整體的推斷準(zhǔn)確率為74%,不排除率為19%,錯誤率為7%。針對測試人群中歐洲、美洲、南部非洲個體族群來源推斷的準(zhǔn)確率為95.4%,不排除率為1.06%;東亞個體推斷的準(zhǔn)確率為71.0%,不排除率為17.9%,錯誤率為11.1%;東南亞個體推斷的準(zhǔn)確率66.4%,不排除率為33.3%,錯誤率為0.2%。
2.3.2 族群成分
對已知來源的1654份樣本基于參考數(shù)據(jù)庫使用Structure 2.3.4軟件計算其族群成分(=10, run=10)。統(tǒng)計每個人群的平均族群成分見表3,所有樣本的族群成分繪制箱線圖(圖4,A和B)。表3可見內(nèi)蒙古蒙古族(MIC)、達(dá)斡爾族(DIC)、和鄂溫克族(EIC)人群的東北亞成分的平均值分別為0.56、0.45和0.31;東亞成分為0.31、0.42和0.56。西藏藏族(CTT)和青海土族(TUQ)人群以東北亞成分為主,分別為0.78和0.63。青海漢族(CHQ)表現(xiàn)為東北亞和東亞成分的混合,族群成分平均值分別0.46和0.41。青島漢族(CHL)和河南漢族(CHN)人群的以東亞成分為主,族群成分平均值分別為0.61和0.65。廣西漢族(HGC)、廣東客家漢族(HCM)和廣東漢族(CHG)等中國南方漢族人群中東亞成分的平均值分別為0.31、0.38和0.49;東南亞成分的平均值分別為0.6、0.53和0.45。廣西京族(KGC)、廣西侗族(DGC)和云南傣族(CDY)等中國南方少數(shù)民族以東南亞成分為主,3個人群東南亞成分的平均值均大于0.6。
圖2 74 SNPs的57人群Structure分析結(jié)果
值是指運行Structure分析時,用戶假定全部群體分為幾個亞群, 每個亞群在圖中用一個單獨顏色表示, 圖中展示的是每個值多次運算結(jié)果中的最主要的聚類模式, 例如:當(dāng)=3時,15次運算中有13次結(jié)果中的祖先成分模式為圖2中所示模式。
本課題組前期建立了針對3大洲際人群(亞、歐、非)的27-plex SNPs和五大洲際人群的28-plex SNPs,實現(xiàn)了洲際人群的區(qū)分及其遺傳結(jié)構(gòu)的分析,但對洲際人群內(nèi)部亞人群的進(jìn)一步區(qū)分效力不足。而近年來,相關(guān)研究已經(jīng)逐步從洲際群體鑒別過渡到亞人群的鑒別研究,如Phillips的“MAPlex”體系[21]使用164個遺傳標(biāo)記實現(xiàn)了非洲、中東、歐洲、南亞、東亞、美洲、大洋洲人群的區(qū)分,但該組位點沒有實現(xiàn)東亞人群的進(jìn)一步細(xì)分;Sun等[22]的12個multi-indels推斷體系實現(xiàn)了喀拉拉人(Keralites)、老撾人(Laotians)、日本人(Japanese)、漢族(Han)和中國藏族(Chinese Tibetan)人群的區(qū)分。本研究體系實現(xiàn)了東南亞、東亞與東北亞人群的進(jìn)一步區(qū)分,以及北非、西南亞與歐洲人群的進(jìn)一步區(qū)分,且構(gòu)建了適用于法醫(yī)現(xiàn)場生物物證的檢測體系,在實際應(yīng)用中,可以使案件現(xiàn)場遺留的生物物證的族群來源進(jìn)一步細(xì)化。在下一步研究中可以借鑒12個Multi- indels推斷體系[22]等相關(guān)研究中的位點,構(gòu)建更加精細(xì)的針對東亞人群的區(qū)分體系。
圖3 74個SNPs的57個人群等位基因頻率熱圖
顏色的深淺代表SNP位點的基因頻率在不同群體中的相似性和差異性,紅色表示最高等位基因頻率,藍(lán)色表示最低等位基因頻率。
5份樣本的Sanger測序結(jié)果與本研究的74-plex SNPs復(fù)合檢測體系檢測的SNP分型100%一致。靈敏度結(jié)果顯示,模板量最低為1.5 ng時74個位點等位基因均可正確判型,適用于微量檢材的檢測。該體系尚未進(jìn)行檢材適應(yīng)性、組織統(tǒng)一性的驗證,后期需要進(jìn)行該兩項的測試。
本研究是基于全球十個區(qū)域57個人群為參考數(shù)據(jù)庫進(jìn)行族群來源分析,與本課題組2016年研究的61個參考人群相比做了以下優(yōu)化:(1)增加了維吾爾族(CUX)和錫伯族(CXX),以評估該體系在新疆人群中的區(qū)分能力;(2)為避免人群樣本數(shù)量不均一帶來的結(jié)果偏差,將樣本量較少且遺傳結(jié)構(gòu)相近的群體進(jìn)行了合并,(比如,歐洲人群中的TSI和GRK人群合并為TSG,南亞人群中的KER、THT和KCH人群合并為IND,大洋洲人群中的MLY、SMO和MCR人群合并為MSM,美洲人群中的GHB和QUE人群合并為GHQ)。
表3 測試樣本的族群推斷結(jié)果
括號中的數(shù)字表示每個人群對應(yīng)族群成分的平均值。
用該體系對57個人群進(jìn)行族群成分分析(圖2),結(jié)果表明該體系可以對全球十大區(qū)域人群進(jìn)行區(qū)分。當(dāng)=3時,可以對亞洲、歐洲、非洲進(jìn)行明確區(qū)分,維吾爾族(CUX)、東北亞的漢特(KTY)等混合人群的遺傳成分呈現(xiàn)在歐洲和東亞族群成分的連續(xù)分布,當(dāng)=4時,可以看出維吾爾族與漢特人群混合成分的差異,前者是歐洲(0.49)和東亞(0.44)成分的混合,而后者主要是歐洲(0.60)和美洲成分(0.31)的混合,這在實際應(yīng)用中,有助于混合人群的進(jìn)一步準(zhǔn)確區(qū)分。隨著值增加,先后在美洲、南亞、東南亞、北非、大洋洲、東北亞、西南亞出現(xiàn)新的族群成分,=10時,該體系可以對全球十大區(qū)域人群有較好的區(qū)分效力。地中海沿岸人群由于存在著廣泛的基因交流,北非和西南亞人群當(dāng)=10時才可以進(jìn)行區(qū)分,并且南歐一些人群如由意大利和希臘人組成的TSG人群,有較多的西南亞成分。
通過圖3可以找出人群特有的SNP位點,例如rs10108270, rs2986742, rs7238445和rs451722聚類在一起,且它們在南非人群中的頻率明顯高于其他人群,說明這些位點是南非人群特異?;蝾l率分布熱圖對所有人群的聚類結(jié)果與Structure分析=10時的結(jié)果基本相同,二者可以相互印證。
圖4 基于17個測試人群1654個體的族群成分的箱線圖
本研究使用17個人群1654份個體作為測試數(shù)據(jù)集,計算其隨機(jī)人群匹配概率、似然比和族群成分,結(jié)果見表3和圖4。在所有測試樣本中預(yù)測準(zhǔn)確率較高的人群是遺傳結(jié)構(gòu)比較單純的人群,如非洲尼日利亞人(ESN)的準(zhǔn)確率為100%,歐洲芬蘭人(FIN)準(zhǔn)確率為100%,說明該體系對實際樣本的區(qū)分能力較為穩(wěn)定。
我國地處東亞,是一個多民族國家,中國南北方地區(qū)的一些少數(shù)民族人群在當(dāng)?shù)亻L期居住過程中形成了獨特的體貌特征,隨著戰(zhàn)爭、遷徙、通婚、融合等現(xiàn)象不斷發(fā)生,不同人群之間出現(xiàn)基因交流,各地的漢族與當(dāng)?shù)氐纳贁?shù)民族之間出現(xiàn)基因交流與融合,人群之間的差異是漸變的,中國地域人群的遺傳結(jié)構(gòu)復(fù)雜性在本研究測試人群中得到證實。
地處中國北方的達(dá)斡爾族(DIC)、鄂溫克族(EIC)及蒙古族(MIC)人群是東胡后裔且都屬于阿爾泰語系,在長期遷徙進(jìn)化過程中與漢族人的基因交流等原因,部分個體被推斷為東北亞人群或東亞和東北亞人群的混合[23,24](表3)。比如EIC-19號樣本的AMP第一位人群為東北亞,與第二位人群的LR值大于10,該樣本的東亞成分為0.55,東北亞成分為0.25,分析EIC-19號樣本來源人遺傳成分為東亞和東北亞人群混合。青海土族(TUQ)是鮮卑支系吐谷渾人后裔,在歷史進(jìn)程中不斷吸收融合了羌、藏、漢、蒙古等民族的成分[25],本研究中,基于似然比統(tǒng)計TUQ的23名個體被推斷為東北亞或者東亞和東北亞的混合(見表3),比如TUQ-71號樣本,AMP第一位人群為東北亞,與第二位人群的LR值大于10,其東北亞成分為0.94,推斷為東北亞,該結(jié)果與其歷史起源相符。143名西藏藏族(CTT)個體中112名表現(xiàn)出大于0.7的東北亞遺傳成分,其原因可能是藏緬語族人群的北方起源,杜若甫等[26]和Gayden等[27]對藏族常染色體遺傳標(biāo)記的研究證明了其北方起源。
漢族是中國的主體民族,源于北方古老的華夏部落[28,29],前期研究表明漢族人群具有混合特征,基于常染色體SNP頻率的主成分分析呈現(xiàn)明顯的南北分化[30]。圖4A可以看出漢族人群自北向南表現(xiàn)出:北方成分逐漸減少,南方成分逐漸增多的趨勢。表3的似然比統(tǒng)計結(jié)果中青海漢族(CHQ)、山東青島漢族(CHL)和河南漢族(CHN)中國北方漢族人群的樣本被推斷為東亞人群的比例分別為74.0%、90.4%和81.3%,證明其對中國北方漢族人群推斷的準(zhǔn)確率較高。廣西漢族(HGC)、廣東客家漢族(HCM)和廣東漢族(CHG)等中國南方漢族人群表現(xiàn)東亞和東南亞成分的混合,與自秦以來漢族人群的南遷及在遷徙過程中不斷與南方少數(shù)民族交流融合等現(xiàn)象相符[31]。
廣西京族(KGC)[32]約在16世紀(jì)初從越南的涂山等地遷來中國,和陸續(xù)遷來的漢族、壯族等各族人群進(jìn)行了基因交流[33],廣西侗族(DGC)和云南傣族(CDY)起源于南方的百越族[34,35]。在本研究中,KGC、DGC和CDY人群的族群成分以東南亞為主,混有一定比例的東亞成分(表3)?;谒迫槐鹊慕y(tǒng)計結(jié)果中部分個體被推斷為東亞或者東亞和東南亞的混合,比如DGC-28號樣本AMP第一位人群為東亞,與第二位人群的LR值大于10,其東亞成分為0.64,東南亞成分為0.17,族群推斷為東亞和東南亞人群的混合,這可能與它們在歷史進(jìn)程中與漢族通婚、基因融合等有關(guān)。另外,民族是文化層面的概念,不同民族人群長期遷移與融合,族群推斷結(jié)果可能出現(xiàn)與戶籍登記不符的情況。在實際案件應(yīng)用中,應(yīng)綜合分析似然比和族群成分。
綜上所述,本研究前期基于質(zhì)譜檢測平臺構(gòu)建的74-plex SNPs復(fù)合檢測體系在模板DNA量最低為1.5 ng時均可正確判型,適用于微量檢材的檢測。該體系實現(xiàn)了全球十個區(qū)域人群的區(qū)分,對東亞人群的南北方遺傳成分可以進(jìn)一步區(qū)分。檢測結(jié)果可為案件提供更加詳細(xì)的偵查線索。
[1] Tishkoff SA, Kidd KK. Implications of biogeography of human populations for 'race' and medicine., 2004, 36(11 Suppl): S21–S27.
[2] Li JZ, Absher DM, Tang H, Southwick AM, Casto AM, Ramachandran S, Cann HM, Barsh GS, Feldman M, Cavalli-Sforza LL, Myers RM. Worldwide human relationships inferred from genome-wide patterns of variation., 2008, 319(5866): 1100–1104.
[3] Hellenthal G, Busby GBJ, Band G, Wilson JF, Capelli C, Falush D, Myers S. A genetic atlas of human admixture history., 2014, 343(6172): 747–751.
[4] Sudmant PH, Mallick S, Nelson BJ, Hormozdiari F, Krumm N, Huddleston J, Coe BP, Baker C, Nordenfelt S, Bamshad M, Jorde LB, Posukh OL, Sahakyan H, Watkins WS, Yepiskoposyan L, Abdullah MS, Bravi CM, Capelli C, Hervig T, Wee JT, Tyler-Smith C, van Driem G, Romero IG, Jha AR, Karachanak-Yankova S, Toncheva D, Comas D, Henn B, Kivisild T, Ruiz-Linares A, Sajantila A, Metspalu E, Parik J, Villems R, Starikovskaya EB, Ayodo G, Beall CM, Di Rienzo A, Hammer MF, Khusainova R, Khusnutdinova E, Klitz W, Winkler C, Labuda D, Metspalu M, Tishkoff SA, Dryomov S, Sukernik R, Patterson N, Reich D, Eichler EE. Global diversity, population stratification, and selection of human copy-number variation., 2015, 349(6253): aab3761.
[5] Phillips C. Forensic genetic analysis of bio-geographical ancestry., 2015, 18: 49–65.
[6] Santos C, Phillips C, Oldoni F, Amigo J, Fondevila M, Pereira R, Carracedo á, Lareu MV. Completion of a worldwide reference panel of samples for an ancestry informative Indel assay., 2015, 17: 75–80.
[7] Halder I, Shriver M, Thomas M, Fernandez JR, Frudakis T. A panel of ancestry informative markers for estimating individual biogeographical ancestry and admixture from four continents: utility and applications., 2010, 29(5): 648–658.
[8] Kosoy R, Nassir R, Tian C, White PA, Butler LM, Silva G, Kittles R, Alarcon-Riquelme ME, Gregersen PK, Belmont JW, De La Vega FM, Seldin MF. Ancestry informative marker sets for determining continental origin and admixture proportions in common populations in America., 2010, 30(1): 69–78.
[9] Nievergelt CM, Maihofer AX, Shekhtman T, Libiger O, Wang X, Kidd KK, Kidd JR. Inference of human continental origin and admixture proportions using a highly discriminative ancestry informative 41-SNP panel., 2013, 4(1): 13.
[10] Frudakis T, Venkateswarlu K, Thomas MJ, Gaskin Z, Ginjupalli S, Gunturi S, Ponnuswamy V, Natarajan S, Nachimuthu PK. A classifier for the SNP-based inference of ancestry., 2003, 48(4): 771–782.
[11] Phillips C, Salas A, Sánchez JJ, Fondevila M, Gómez-Tato A, álvarez-Dios J, Calaza M, de Cal MC, Ballard D, Lareu MV, Carracedo A. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs., 2007, 1(3–4): 273–280.
[12] Wei YL, Wei L, Zhao L, Sun QF, Jiang L, Zhang T, Liu HB, Chen JG, Ye J, Hu L, Li CX. A single-tube 27-plex SNP assay for estimating individual ancestry and admixture from three continents., 2015, 130(1): 27–37.
[13] Wei L, Wei YL, Sun QF, Wang YY, Li CX. The development of a 27-plex SNP multiplex system., 2016, 31(1): 13–17.魏麗, 魏以梁, 江麗, 孫啟凡, 王英元, 李彩霞. 27-plex SNPs復(fù)合擴(kuò)增檢測體系構(gòu)建與應(yīng)用評價. 中國法醫(yī)學(xué)雜志, 2016, 31(1): 13–17.
[14] Jiang L, Sun QF, Ma Q, Zhao WT, Liu J, Zhao L, Ji AQ, Li CX. Optimization and validation of analysis method based on 27-plex SNP panel for ancestry inference., 2017, 39(2): 166–173.江麗, 孫啟凡, 馬泉, 趙雯婷, 劉京, 趙蕾, 季安全, 李彩霞. 27-plex SNP種族推斷方法的優(yōu)化及驗證. 遺傳, 2017, 39(2): 166–173.
[15] Li CX, Pakstis AJ, Jiang L, Wei YL, Sun QF, Wu H, Bulbul O, Wang P, Kang LL, Kidd JR, Kidd KK. A panel of 74 AISNPs: Improved ancestry inference within Eastern Asia., 2016, 23: 101–110.
[16] Ma M, Liu J, Hu S, Zhang T, Zhou H, Feng BQ, Liu HB, Li B, Li CX. The validation study of 74-plex SNP assay for ancestry inference., 2019, 34(4): 324–329.馬咪, 劉京, 胡勝, 張濤, 周浩, 馮保強(qiáng), 劉海渤, 李蓓, 李彩霞. 74重SNP族群來源推斷體系準(zhǔn)確性驗證研究. 中國法醫(yī)學(xué)雜志, 2019, 34(4): 324–329.
[17] Ren P, Liu J, Zhao H, Fan XP, Xu YC, Li CX. Construction of a rapid microfluidic-based SNP genotyping (MSG) chip for ancestry inference., 2019, 41: 145–151.
[18] Clendenen TV, Rendleman J, Ge W, Koenig KL, Wirgin I, Currie D, Shore RE, Kirchhoff T, Zeleniuch-Jacquotte A. Genotyping of single nucleotide polymorphisms in DNA isolated from serum using sequenom MassARRAY technology., 2015, 10(8): e0135943.
[19] Falush D, Stephens M, Pritchard JK. Inference of population structure using multilocus genotype data: dominant markers and null alleles., 2007, 7(4): 574–578.
[20] Liu J, Li S, Jang L, Zhao L, Zhao WT, Feng L, Liu HB, Ji AQ, Li CX. DNA Ancestry Analyzer: an automatic program for ancestry inference of unknown individuals., 2018, 22(1): 3–7, 41.劉京, 李盛, 江麗, 趙蕾, 趙雯婷, 豐蕾, 劉海渤, 季安全, 李彩霞. 對于未知來源個體進(jìn)行族群推斷的自動分析系統(tǒng). 生命科學(xué)研究, 2018, 22(1): 3–7, 41.
[21] Phillips C, McNevin D, Kidd KK, Lagacé R, Wootton S, de la Puente M, Freire-Aradas A, Mosquera-Miguel A, Eduardoff M, Gross T, Dagostino L, Power D, Olson S, Hashiyada M, Oz C, Parson W, Schneider PM, Lareu MV, Daniel R. MAPlex - A massively parallel sequencing ancestry analysis multiplex for Asia-Pacific populations., 2019, 42: 213–226.
[22] Sun K, Yun LB, Zhang C, Shao CC, Gao TZ, Zhao ZQ, Hou YP, Xie JH, Tang QQ. Evaluation of 12 Multi-InDel markers for forensic ancestry prediction in Asian populations., 2019, 43: 102155.
[23] Xu Y, Zhang XL, Zhang QC, Cui YQ, Zhou H, Zhu H. Genetic relationship between ancient Khitan and modern Daur., 2006, 44(6): 997–1000.許月, 張小雷, 張全超, 崔銀秋, 周慧, 朱泓. 古代契丹與現(xiàn)代達(dá)斡爾遺傳關(guān)系分析. 吉林大學(xué)學(xué)報(理學(xué)版), 2006, 44(6): 997–1000.
[24] Zhu H. The ethnic type and related issues of the Khitay., 1991(2): 36–41.朱泓. 契丹族的人種類型及其相關(guān)問題. 內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 1991, (2): 36–41.
[25] Fan H. Relationship among 28 Chinese populations in western and southern of China based on STR loci., 2006.范浩. 應(yīng)用STR位點研究中國西、南部28個民族群體族源關(guān)系. 昆明醫(yī)學(xué)院, 2006.
[26] Du R, Xiao C, Cavalli-Sforza LL. Genetic distances between Chinese populations calculated on gene frequencies of 38 loci., 1997, 40(6): 613–621.
[27] Gayden T, Mirabal S, Cadenas AM, Lacau H, Simms TM, Morlote D, Chennakrishnaiah S, Herrera RJ. Genetic insights into the origins of Tibeto-Burman populations in the Himalayas., 2009, 54(4): 216–223.
[28] Zhao YB, Yu CC, Zhou H. Study on the origin and development of the Han Chinese., 2012, 33(4): 45–49.趙永斌, 于長春, 周慧. 漢族起源與發(fā)展的遺傳學(xué)探索. 吉林師范大學(xué)學(xué)報(自然科學(xué)版), 2012, 33(4): 45–49.
[29] Huang YZ. The historical migration of the Han population and the color pattern of the southern Han folk songs, 1989(4): 36–48.黃允箴. 漢族人口的歷史遷徙與南方漢族民歌的色彩格局. 中國音樂學(xué), 1989, (4): 36–48.
[30] Xu SH, Yin XY, Li LS, Jin WF, Lou HY, Yang L, Gong XH, Wang HY, Shen YP, Pan XD, He YG, Yang YJ, Wang Y, Fu WQ, An Y, Wang JC, Tan JZ, Qian J, Chen XL, Zhang X, Sun YF, Zhang XJ, Wu BL, Jin L. Genomic dissection of population substructure of Han Chinese and its implication in association studies., 2009, 85(6): 762–774.
[31] Wang YS. Historical evolution of the Han population and its survival area., 2010, (6): 3–7.王躍生. 漢族人口及其生存區(qū)域的歷史演變. 歷史教學(xué)(下半月刊), 2010, (6): 3–7.
[32] Mo L, Wang CL. Analysis on the characteristics of Guangxi Jing population., 1990, (3): 17–22.莫龍, 王春林. 廣西京族人口特點淺析. 廣西民族研究, 1990, (3): 17–22.
[33] Jin TB, Gao Y, Chen T, Yan HX, Li SB. Genetic relationships of 15 populations of Guangxi province., 2004, 25(5): 422–424, 429.金天博, 高雅, 陳騰, 閻春霞, 李生斌. 廣西地區(qū)15個不同民族人群的群體遺傳學(xué)關(guān)系. 西安交通大學(xué)學(xué)報 (醫(yī)學(xué)版), 2004, 25(5): 422–424, 429.
[34] Tang JP, Yu X, Jiang FH, Yu XJ. Analyzing population differentiation between Hall and other population of Guangxi., 2008, 31(6): 409–412.唐劍頻, 于昕, 蔣豐慧, 于曉軍. 廣西漢族群體與其他群體的群體差異分析. 國際遺傳學(xué)雜志, 2008, 31(6): 409–412.
[35] Qian YP. Rearch on genetic diversity of five Yunnan ethnic groups in China[Dissertation]., 1999.錢亞屏, 中國云南5個民族的遺傳多樣性研究[學(xué)位論文]. 中國協(xié)和醫(yī)科大學(xué), 1999.
The ancestry inference of Chinese populations using 74-plex SNPs system
Yang Liu1,2, Changchun Sun1,2, Mi Ma2,3, Ling Wang2, Wenting Zhao2, Quan Ma2, Anquan Ji2, Jing Liu2, Caixia Li1,2
A panel of ancestry informative SNPs (AISNPs) can be used to analyze the genetic components of a population and infer the ancestral origin of a DNA sample. Previously, we have selected a 74-AISNPs panel and used it to infer the ancestry of unknown individuals in the following ten geographical regions: Sub-Saharan Africa, North Africa, Europe, Pacific, Americas, Southwest Asia, South Asia, North Asia, East Asia and Southeast Asia. We have also established a 74-plex SNPs assay based on SEQUENOM system. In the present study, we genotyped 1371 individuals from 14 populations of China using this multiplex assay, and validated its ability to infer the ancestry in Chinese populations. Firstly, based on the reference database of 3628 individuals from 57 world populations, Structure and Heatmap were employed to evaluate the population differentiation capacity. The training data include 1654 individuals from 14 Chinese populations and 3 populations from 1K Genome, which are not included in the reference database. Then the likelihood ratio and ancestry components were analyzed for individual ancestry assignment using the 74-plex SNPs. The minimum amount of DNA required for a full genotype of the 74 SNPs is 1.5 ng, which is applicable for forensic analysis. The results demonstrate that this system can be used in differentiating the population from ten geographical regions. The ancestry inference accuracy for EUR/SAFR/AME population is 95.4%, 71.0% for East Asia and 66.4% for Southeast Asia respectively. The ancestry inference inclusive rate for EUR/SAFR/AME population is 1.06%, 17.9% for East Asia and 33.3% for Southeast Asia respectively. The results suggest that this method can be used in forensic investigations of criminal cases.
forensic genetics; AISNPs; ancestry inference; Chinese populations
2019-11-13;
2020-01-13
國家自然科學(xué)基金項目(編號:81772027),國家重點研發(fā)計劃資(編號:2017YFC0803501),國家科技資源共享服務(wù)平臺計劃項目(編號:YCZYPT[2017]01-3)和中央公益類基本科研業(yè)務(wù)費專項資金項目(編號:2017JB025,2017JB026,2019JB011)資助[Supported by the National Natural Science Foundation of China (No.81772027), National Key R&D Program of China (No. 2017YFC0803501), National Science and Technology Resources Sharing Service Platform Project (No. YCZYPT[2017]01-3) and Fundamental Research Funds for Institute of Forensic Science (Nos. 2017JB025, 2017JB026, 2019JB011)]
劉楊,碩士研究生,研究方向:法醫(yī)學(xué)。E-mail: 1979227825@qq.com
李彩霞,博士,主任法醫(yī)師,研究方向:法醫(yī)遺傳學(xué)。E-mail: licaixia@tsinghua.org.cn
劉京,碩士,主檢法醫(yī)師,研究方向:法醫(yī)遺傳學(xué)。E-mail: biojing@yeah.net
10.16288/j.yczz.19-252
2020/2/10 16:00:49
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20200210.1533.002.html
(責(zé)任編委: 賴江華)