国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于全基因組數(shù)據(jù)的AI-SNPs篩選及大陸次級(jí)區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異研究

2021-11-01 10:29:50王浩宇胡渝涵曹悅巖朱強(qiáng)黃雨果李茜張霽
遺傳 2021年10期
關(guān)鍵詞:代表性遺傳群體

王浩宇,胡渝涵,曹悅巖,朱強(qiáng),黃雨果,李茜,張霽

研究報(bào)告

基于全基因組數(shù)據(jù)的AI-SNPs篩選及大陸次級(jí)區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異研究

王浩宇,胡渝涵,曹悅巖,朱強(qiáng),黃雨果,李茜,張霽

四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,成都 610041

在涉及多群體樣本的醫(yī)學(xué)研究中,群體遺傳結(jié)構(gòu)差異是不容忽視的影響因素之一。利用族源信息單核苷酸多態(tài)性遺傳標(biāo)記(ancestry-informative single nucleotide polymorphism, AI-SNP),通過分析群體遺傳成分、推斷個(gè)體遺傳背景并對(duì)群體樣本進(jìn)行預(yù)篩選,可以有效降低群體遺傳結(jié)構(gòu)差異對(duì)醫(yī)學(xué)研究影響。鑒于已發(fā)表的研究多為解析大陸間、大陸次級(jí)區(qū)域間的群體遺傳結(jié)構(gòu)差異,本研究擬基于千人基因組計(jì)劃(GRCh37.p13)中東亞五群體:日本東京群體(Japanese in Tokyo, JPT)、北京漢族(Han Chinese in Beijing, CHB)、南方漢族(Southern Han Chinese, CHS)、西雙版納傣族(Chinese Dai in Xishuangbanna, CDX)、越南京族(Kinh in Ho Chi Minh City, KHV)的數(shù)據(jù),以F值為標(biāo)準(zhǔn)篩選AI-SNP并分析大陸次級(jí)區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異。結(jié)果表明,研究涉及的東亞群體可分為三簇:JPT、CHB和CHS、CDX和KHV。利用AI-SNP可成功解析個(gè)體的遺傳背景,而群體代表性遺傳成分占比超過80%的個(gè)體具有良好的群體代表性。本研究表明,基于F值篩選一組AI-SNP用于核驗(yàn)樣本遺傳背景、篩選群體代表性樣本的方法在降低大陸次級(jí)區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異對(duì)群體相關(guān)醫(yī)學(xué)研究的影響中具有實(shí)際應(yīng)用價(jià)值。

族源信息遺傳標(biāo)記;單核苷酸多態(tài)性;東亞群體;遺傳結(jié)構(gòu)差異

不同群體間遺傳結(jié)構(gòu)的差異受到種群遷移、隔離、混合等人口學(xué)因素,以及基因突變、重組、自然選擇、隨機(jī)遺傳漂變等遺傳學(xué)因素影響[1,2]。涉及群體的醫(yī)學(xué)領(lǐng)域研究中,往往需考慮由群體遺傳結(jié)構(gòu)差異帶來的影響。如關(guān)聯(lián)分析中,需排除與目標(biāo)基因無關(guān)、由群體間結(jié)構(gòu)差異導(dǎo)致的等位基因頻率差異,才能提供標(biāo)記與疾病間的真實(shí)關(guān)聯(lián)[3,4]。而明確藥物反應(yīng)相關(guān)基因變異[5]在群體中的差異則有利于針對(duì)不同人群進(jìn)行靶向藥物的篩選并提供精準(zhǔn)個(gè)性化用藥建議。此外,族源信息遺傳標(biāo)記也被法醫(yī)遺傳學(xué)家用于生物樣本的生物地理起源推斷,并用于案件偵破[6]。

在排除群體結(jié)構(gòu)差異對(duì)醫(yī)學(xué)研究的影響時(shí),需對(duì)納入研究的個(gè)體和生物樣本進(jìn)行遺傳背景分析以核驗(yàn)聲明血統(tǒng)和實(shí)際血統(tǒng)的一致性,并選擇具有群體代表性的樣本進(jìn)行后續(xù)研究。常用的遺傳背景分析工具包括基因芯片[7]、全基因組測(cè)序[8]和使用族源信息遺傳標(biāo)記(ancestry informative marker, AIM)[9]。盡管基因組測(cè)序可得到最精確的分析結(jié)果,但其數(shù)據(jù)分析量巨大且成本較高。在當(dāng)前大數(shù)據(jù)時(shí)代下,諸如國(guó)際基因組樣本資源庫(kù)(The International Genome Sample Resource, IGSR)[10]中千人基因組計(jì)劃(1000 Genomes Project)[11]、人類基因組多樣性計(jì)劃(Human Genome Diversity Project)等數(shù)據(jù)庫(kù)提供了大量不同人群的基因組參考數(shù)據(jù)。依托于公開數(shù)據(jù)庫(kù)的大規(guī)模數(shù)據(jù),以AIM為基礎(chǔ)的族源分析可解析個(gè)體遺傳背景,并作為應(yīng)用基因芯片或全基因組測(cè)序前進(jìn)行群體代表性樣本預(yù)篩選的有效手段[12]。

分析個(gè)體遺傳背景常用的方法包括主成分分析(principal component analysis, PCA)[13]、基因組控制(genomic control)[14]及結(jié)構(gòu)化關(guān)聯(lián)(structured associa-tion)[15]等。PCA分析是校正全基因組關(guān)聯(lián)研究中群體分層的標(biāo)準(zhǔn)方法,但對(duì)如東亞群體這類遺傳結(jié)構(gòu)復(fù)雜的群體敏感性較差[16]。STRUCTURE[17]、ADMIXTURE[18]等結(jié)構(gòu)化關(guān)聯(lián)方法可依據(jù)族源成分和等位基因頻率提供個(gè)體族源的最大似然估計(jì),STRUCTURE還提供了基于相關(guān)等位基因頻率的混合祖先模型用于復(fù)雜遺傳結(jié)構(gòu)群體的分析。同時(shí),預(yù)篩選僅分析一組AIM,避免了結(jié)構(gòu)化關(guān)聯(lián)方法難以計(jì)算大型數(shù)據(jù)集的缺點(diǎn)[19],故結(jié)構(gòu)化關(guān)聯(lián)方法可在樣本預(yù)篩選中發(fā)揮關(guān)鍵作用。

族源推斷分析最初多以區(qū)分大陸群體為目標(biāo)[20]。近來也有不少研究者針對(duì)大陸內(nèi)特定區(qū)域群體的區(qū)分開發(fā)了多類次級(jí)體系。以亞洲為例,主要包括亞洲內(nèi)次級(jí)區(qū)域群體[21]、大陸次級(jí)區(qū)域內(nèi)群體與全球其他群體區(qū)分[22]、亞洲內(nèi)次級(jí)區(qū)域群體間的區(qū)分[23]和國(guó)家內(nèi)民族的區(qū)分[24],而大陸次級(jí)區(qū)域內(nèi)群體間區(qū)分的相關(guān)研究則相對(duì)較少[25]。由于大陸次級(jí)區(qū)域內(nèi)群體間遺傳結(jié)構(gòu)的相似性,以及人口遷移、通婚帶來的基因流動(dòng)等因素,此類區(qū)分最為困難,但也是最為必要的。

本研究擬以F值大小為標(biāo)準(zhǔn),從千人基因組計(jì)劃東亞五群體的數(shù)據(jù)中篩選一組AIM對(duì)東亞五個(gè)群體進(jìn)行群體結(jié)構(gòu)分析,從各個(gè)群體中找到具有群體代表性的個(gè)體。并以結(jié)果評(píng)估使用AIM方法對(duì)遺傳結(jié)構(gòu)復(fù)雜群體中個(gè)體遺傳背景的解析能力,為其實(shí)際應(yīng)用于核實(shí)樣本的聲明血統(tǒng)和實(shí)際血統(tǒng)、準(zhǔn)確排除群體遺傳結(jié)構(gòu)對(duì)群體相關(guān)醫(yī)學(xué)研究的影響提供理論依據(jù)和方法參考。

1 材料與方法

1.1 研究對(duì)象

本研究使用的東亞五個(gè)群體共504個(gè)無關(guān)個(gè)體均來自千人基因組計(jì)劃第三階段(GRCh37.p13)數(shù)據(jù)庫(kù)(http://www.1000genomes.org)[11],包括104個(gè)日本東京(Japanese in Tokyo, JPT)個(gè)體、103個(gè)中國(guó)北京漢族(Han Chinese in Beijing, CHB)個(gè)體、105個(gè)中國(guó)南方漢族(Southern Han Chinese, CHS)個(gè)體、93個(gè)中國(guó)西雙版納傣族(Chinese Dai in Xishuangbanna, CDX)個(gè)體和99個(gè)越南胡志明市京族(Kinh in Ho Chi Minh City, KHV)個(gè)體。

1.2 位點(diǎn)篩選

基于千人基因組數(shù)據(jù)庫(kù)(GRCh37.p13)的整體數(shù)據(jù),使用VCFtools[26]篩選1~22號(hào)常染色體上最小等位基因頻率大于0.01、>0.05閾值下滿足Hardy- Weinberg平衡的二等位基因SNP。按Weir和Cocker-ham等[27]的方法計(jì)算東亞五個(gè)群體兩兩之間,即10個(gè)群體對(duì)中所有保留SNP的F值。本研究保留F> 0.05的SNP,并使用VCFtools進(jìn)行同染色體上的連鎖不平衡計(jì)算。目前在族源推斷體系中加入連鎖不平衡位點(diǎn)是否會(huì)對(duì)體系區(qū)分具體群體的效能產(chǎn)生影響尚無定論,但研究者們?cè)谶M(jìn)行AIM篩選時(shí)會(huì)避免使用強(qiáng)連鎖不平衡的基因座[21]。此外,STRUCTURE軟件也建議在體系中盡可能只使用弱連鎖不平衡的位點(diǎn)[28]。因此本研究進(jìn)行連鎖不平衡計(jì)算時(shí)根據(jù)前人經(jīng)驗(yàn)將閾值設(shè)置為2>0.2,并將檢測(cè)窗口設(shè)置為50 Mb。當(dāng)一個(gè)位點(diǎn)與任意位點(diǎn)滿足2>0.2時(shí),將它們分為同一連鎖不平衡組,否則分至弱連鎖不平衡組。

1.3 數(shù)據(jù)集構(gòu)建

基于前述分組結(jié)果,10個(gè)群體對(duì)分別建立數(shù)據(jù)集。各個(gè)群體對(duì)的每個(gè)連鎖不平衡組中僅保留F值最高的SNP,將連鎖不平衡組中篩選出來的SNP與該弱連鎖不平衡組合并后確定最終的數(shù)據(jù)集A1~A10。

各數(shù)據(jù)集分別從F值最高的10個(gè)SNP開始,使用Snipper在線分析應(yīng)用套件進(jìn)行分析(后簡(jiǎn)稱為Snipper分析)。自該體系開始,每次按F值大小逐步順序增加10個(gè)SNP并進(jìn)行Snipper分析。為了保證結(jié)果的穩(wěn)定性,此步驟將持續(xù)到連續(xù)三組體系(如分別由60、70、80個(gè)SNP組成的體系)均能將兩個(gè)群體的個(gè)體均正確分配至原所屬群體,也即分配正確率達(dá)到100%時(shí)停止。經(jīng)STRUCTURE分析和PCA分析驗(yàn)證后,認(rèn)為該三組體系中的第一組(上述例子中由60個(gè)SNP組成的體系)所包含的SNP數(shù)是完全區(qū)分該群體對(duì)所需的最少SNP數(shù)。基于此結(jié)果,本研究篩選了包含盡可能多SNP(975個(gè))的數(shù)據(jù)集B分析東亞五個(gè)群體的遺傳結(jié)構(gòu)。在篩選數(shù)據(jù)集B時(shí),綜合考慮了SNP的如下信息:在10個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù)、在各數(shù)據(jù)集中對(duì)應(yīng)的F值大小、F值在該數(shù)據(jù)集中的排序、是否涉及較難區(qū)分的群體(數(shù)據(jù)集內(nèi)SNP數(shù)目較少或SNP的F值普遍較低)等因素。

依據(jù)數(shù)據(jù)集B的STRUCTURE分析結(jié)果,篩選群體代表性遺傳成分占個(gè)體總遺傳成分分別達(dá)到70%~80% (C7)、80%~90% (C8)和90% (C9)以上的個(gè)體作為數(shù)據(jù)集C,各數(shù)據(jù)集內(nèi)群體則按照群體編號(hào)(如數(shù)據(jù)集C7中JPT編號(hào)為JPT7)。對(duì)數(shù)據(jù)集C進(jìn)行STRUCTURE分析和PCA分析,驗(yàn)證篩選群體代表性個(gè)體的可靠性、評(píng)估群體代表性遺傳成分占比對(duì)判斷群體代表性個(gè)體的影響。

1.4 群體遺傳結(jié)構(gòu)分析

使用STRUCTURE v2.3.4[17]基于相關(guān)等位基因頻率的混合祖先模型對(duì)每個(gè)數(shù)據(jù)集進(jìn)行群體基因結(jié)構(gòu)分析,數(shù)據(jù)集A1~A10設(shè)置=2,數(shù)據(jù)集B、C設(shè)置=2~7,均運(yùn)行10次。利用STRUCTURE HARVESTER[29]計(jì)算最佳值,CLUMPP v.1.1.2[30]和Distruct v.1.1[31]用于構(gòu)建結(jié)果圖。Python腳本用于基于個(gè)體基因型的PCA分析和結(jié)果圖構(gòu)建。Snipper 2.5在線貝葉斯二分類分析應(yīng)用套件(http:// mathgene.usc.es/snipper/)用于基于訓(xùn)練集和測(cè)試集的交叉驗(yàn)證計(jì)算,各群體訓(xùn)練集和測(cè)試集的個(gè)體均按7∶3的比例隨機(jī)設(shè)置,每組體系重復(fù)三次,最終測(cè)試集的結(jié)果取均值。

2 結(jié)果與分析

2.1 數(shù)據(jù)集A、B中SNP概況

數(shù)據(jù)集A1~A10中SNP的F值分布情況見表1。F值最高的20個(gè)SNP分別來自A3(JPT-CDX,12個(gè))、A4(JPT-KHV,3個(gè))、A2(JPT-CHS,3個(gè))和A6(CHB-CDX,2個(gè));而F值最小的20個(gè)SNP均來自A5(CHB-CHS)。除A3(JPT-CDX)、A4(JPT-KHV)中SNP的F值主要分布于0.15~0.25外,其余數(shù)據(jù)集內(nèi)絕大多數(shù)SNP的F值均小于0.15,其中A5(CHB-CHS)所有SNP的F值均小于0.15。

數(shù)據(jù)集B中975個(gè)SNP在染色體上的分布情況如圖1所示,整體分布較為均勻。來自1號(hào)染色體和6號(hào)染色體的SNP最多,分別為109個(gè)和95個(gè),而來自22號(hào)染色體的SNP最少,為12個(gè)。此外,本研究也統(tǒng)計(jì)了此975個(gè)SNP在10個(gè)群體對(duì)中出現(xiàn)的情況,結(jié)果如圖2所示。975個(gè)SNP中,大多數(shù)SNP只在一個(gè)(470/975)、兩個(gè)(296/975)或三個(gè)(132/975)群體對(duì)中出現(xiàn),只有極少數(shù)SNP在五個(gè)及以上(25/975)群體對(duì)中出現(xiàn)。其中rs11850206和rs28558239在除了CHS-KHV以外的九個(gè)群體對(duì)中均有出現(xiàn),rs28498529則在除了JPT-CHB、CHS-KHV、CDX-KHV以外的七個(gè)群體對(duì)中出現(xiàn)。此三個(gè)SNP均來自于14號(hào)染色體。

表1 數(shù)據(jù)集A中SNP的FST值分布情況

圖1 數(shù)據(jù)集B中SNP在染色體上的分布情況

圖2 數(shù)據(jù)集B中SNP在10個(gè)群體對(duì)中出現(xiàn)次數(shù)的分布情況

此外,本研究將數(shù)據(jù)集B與部分此前研究東亞群體遺傳結(jié)構(gòu)差異的文獻(xiàn)[21,23,25]所使用的SNP進(jìn)行了比較,發(fā)現(xiàn)數(shù)據(jù)集B未包含此三文獻(xiàn)中報(bào)道的任一SNP。

2.2 東亞五群體的遺傳結(jié)構(gòu)差異分析

對(duì)數(shù)據(jù)集A1~A10進(jìn)行Snipper交叉驗(yàn)證分析,測(cè)試集分配完全正確所需最少SNP數(shù)結(jié)果見表2。群體對(duì)中個(gè)體祖先分配完全正確所需的最少位點(diǎn)數(shù)可反映出群體兩兩之間遺傳關(guān)系的遠(yuǎn)近。結(jié)果表明JPT-CDX、JPT-KHV群體對(duì)最易區(qū)分,而CHB-CHS、CHS-KHV、CDX-KHV較難區(qū)分。各群體對(duì)中的群體與STRUCTURE計(jì)算得到的聚類高度符合,而PCA分析中各個(gè)群體對(duì)均能在使用最少位點(diǎn)數(shù)時(shí)分別聚類且彼此分離(結(jié)果未列出)。

使用數(shù)據(jù)集B對(duì)東亞五群體進(jìn)行STRUCTURE分析的結(jié)果如圖3所示。值設(shè)置為2~7,STRUCTURE HARVESTER計(jì)算得到的最佳K值為3。各個(gè)K值下JPT均表現(xiàn)出與其余群體不同的遺傳成分。在最佳值時(shí),各群體均表現(xiàn)為混合遺傳成分,975 SNPs可將東亞五群體分為三簇:JPT一簇、CHB和CHS一簇、CDX和KHV一簇,其中CHB和CHS還可依據(jù)遺傳成分的比例區(qū)分。自=4開始,CDX和KHV也表現(xiàn)出主要遺傳成分的差異,這一差異在=5時(shí)更加顯著。而自=6開始,各群體混合遺傳成分中的主要遺傳成分各不相同,即主要遺傳成分可與STRUCTURE計(jì)算得到的聚類匹配,可據(jù)此將五個(gè)群體分為五簇。

使用數(shù)據(jù)集B對(duì)東亞五群體進(jìn)行PCA分析的結(jié)果如圖4所示。前三個(gè)主成分分別占總方差的3.21%、2.12%、1.36%。JPT、CHB、CDX群體的個(gè)體緊密聚集,而CHS、KHV群體的聚類較分散。整體上,JPT、CHB、CHS之間較為接近,其可與互相接近的CDX、KHV區(qū)分。PC1維度可進(jìn)一步將JPT與CHB、CHS區(qū)分,其中CHB和CHS個(gè)體相互重疊,表明二者的遺傳關(guān)系十分接近(圖4),而PC3維度可將CDX和KHV區(qū)分(圖4B)。

2.3 東亞五群體代表性個(gè)體篩選及分析

以數(shù)據(jù)集B進(jìn)行STRUCTURE分析時(shí)=6的結(jié)果為參考,按1.3的方法判斷五個(gè)群體的群體代表性遺傳成分并構(gòu)建數(shù)據(jù)集C (表3)。數(shù)據(jù)集C中共包括317個(gè)個(gè)體,JPT中群體代表性遺傳成分占總體遺傳成分超過70%的個(gè)體最多,達(dá)93%,其次是CDX和KHV,分別為78%和59%,CHB和CHS均未超過50%。JPT、CDX、KHV的篩選個(gè)體中大部分群體代表性遺傳成分占比超過80%,CHB和CHS只有較少個(gè)體的群體代表性遺傳成分占比超過90%。

表2 數(shù)據(jù)集A中兩兩群體完全區(qū)分所需最少SNP數(shù)

圖3 975 SNPs (數(shù)據(jù)集B)的東亞五群體STRUCTURE分析結(jié)果

圖4 975 SNPs (數(shù)據(jù)集B)的東亞五群體PCA分析結(jié)果

各顏色代表群體:JPT(藍(lán)色),CHB(紅色),CHS(橙色),CDX(綠色),KHV(黃色)。A:975 SNPs的東亞五群體PCA分析(PC1-PC2),PC1=3.21%,PC2=2.12%;B:975 SNPs的東亞五群體PCA分析(PC1-PC3),PC1=3.21%,PC3=1.36%。

表3 數(shù)據(jù)集C中C7、C8、C9組個(gè)體數(shù)目

使用數(shù)據(jù)集B的975個(gè)SNP對(duì)篩選個(gè)體進(jìn)行STRUCTURE分析的結(jié)果如圖5所示。在各個(gè)值下,篩選個(gè)體均表現(xiàn)為混合遺傳成分。計(jì)算得到的最佳值為4,此時(shí)篩選出的個(gè)體可被分為四簇:JPT一簇、CHB和CHS一簇、CDX一簇、KHV一簇。自=5開始,317個(gè)個(gè)體可被分為五簇,各簇幾乎都完全由其主要遺傳成分組成,且其比例隨著群體代表性遺傳成分占比的增加而增加,但占比達(dá)到80%后趨于穩(wěn)定。STRUCTURE的結(jié)果表明體系能夠很好地區(qū)分篩選出的個(gè)體,即篩選個(gè)體能有效代表其所屬群體。此外,群體代表性遺傳成分占比更高的個(gè)體具有更強(qiáng)的群體代表性。

將數(shù)據(jù)集C7、C8、C9在前述PCA分析中分別高亮表示的結(jié)果如圖6所示。在全部個(gè)體中,篩選個(gè)體之間區(qū)分度更高,并隨著個(gè)體的群體代表性遺傳成分增加而增強(qiáng)。數(shù)據(jù)集C7(圖6A)和C8(圖6B)中的五個(gè)群體聚類為四簇,數(shù)據(jù)集C7中僅JPT和CHB、CHB和CHS的個(gè)體仍有少部分重疊,數(shù)據(jù)集C8中僅有個(gè)別CHB、CHS的個(gè)體重疊。群體代表性遺傳成分增加至90%以上后(圖6C)五個(gè)群體可分別單獨(dú)聚類。

圖5 975 SNPs的數(shù)據(jù)集C STRUCTURE分析結(jié)果

圖6 975 SNPs的數(shù)據(jù)集C PCA分析結(jié)果

數(shù)據(jù)集C7、C8、C9中個(gè)體分別依次標(biāo)記為彩色,各數(shù)據(jù)集以外的個(gè)體標(biāo)記為灰色。各顏色代表群體:JPT(藍(lán)色),CHB(紅色),CHS(橙色),CDX(綠色),KHV(黃色)。前三個(gè)主成分分別為:PC1=3.21%,PC2=2.12%,PC3=1.36%。A:標(biāo)記數(shù)據(jù)集C7;B:標(biāo)記數(shù)據(jù)集C8;C:標(biāo)記數(shù)據(jù)集C9。

依據(jù)上述STRUCTURE分析和PCA分析結(jié)果,本研究認(rèn)為群體代表性遺傳成分超過個(gè)體總遺傳成分80%的個(gè)體具有很好的群體代表性,可用于排除群體結(jié)構(gòu)對(duì)醫(yī)學(xué)研究的影響。

3 討論

涉及群體的醫(yī)學(xué)研究中,群體遺傳結(jié)構(gòu)的差異可影響結(jié)果的正確性和準(zhǔn)確性,進(jìn)行研究時(shí)需排除這種影響。而明確采集的樣本能否真正代表群體、反映群體遺傳結(jié)構(gòu)則是準(zhǔn)確排除這種影響的關(guān)鍵。因此,對(duì)采集的樣本進(jìn)行遺傳結(jié)構(gòu)分析、判斷個(gè)體聲明血統(tǒng)和實(shí)際血統(tǒng)的吻合度、篩選群體代表性個(gè)體對(duì)于獲取正確、準(zhǔn)確的研究結(jié)果十分必要。

一般而言,研究者們多直接在研究過程中對(duì)樣本的群體遺傳結(jié)構(gòu)進(jìn)行質(zhì)控。此方法在有較少特定目標(biāo)基因片段的研究[32]中十分合理且高效。然而,對(duì)于目標(biāo)基因片段較多,或應(yīng)用基因芯片或全基因組測(cè)序進(jìn)行大規(guī)?;蚝Y查的研究[33],不合格的樣本可能會(huì)導(dǎo)致測(cè)序成本的損耗。近年來,公開的多群體全基因組數(shù)據(jù)庫(kù)為研究者們提供了新的思路:通過對(duì)大量數(shù)據(jù)進(jìn)行分析、按照一定標(biāo)準(zhǔn)(如本研究所使用的F值)進(jìn)行篩選,找到一組可以反映特定群體之間遺傳結(jié)構(gòu)差異、區(qū)分群體來源的AIM,將其作為測(cè)序前對(duì)群體樣本進(jìn)行預(yù)篩選的手段。

本研究使用F值作為篩選AI-SNP的標(biāo)準(zhǔn)。Wright[34]提出的F值是最常用于表征群體間遺傳分化程度的指標(biāo)之一[27],其也可應(yīng)用于控制遺傳結(jié)構(gòu)對(duì)關(guān)聯(lián)分析的影響[35]。一組高F值的AIM是進(jìn)行群體遺傳結(jié)構(gòu)和遺傳關(guān)系分析的有力工具?;?i>F值篩選的SNP進(jìn)行Snipper分析、STRUCTURE分析和PCA分析的結(jié)果揭示了東亞群體中的亞結(jié)構(gòu)。結(jié)果表明,雖然東亞五個(gè)群體兩兩之間遺傳結(jié)構(gòu)復(fù)雜,遺傳分化程度并不顯著,但仍可使用一組包含較多AIM的體系加以解析。

STRUCTURE分析可計(jì)算各個(gè)聚類中每個(gè)個(gè)體的遺傳成分比例。當(dāng)定義的群體與其計(jì)算得到的聚類十分匹配(或相似)時(shí),各聚類中的血統(tǒng)比例可看作群體的血統(tǒng)比例[36]。此時(shí),STRUCTURE聚類對(duì)應(yīng)的遺傳成分在整個(gè)群體的總體成分中占比最大,在每個(gè)個(gè)體中穩(wěn)定存在,且與其他群體無關(guān),這種成分可看作該群體的群體代表性遺傳成分。高群體代表性遺傳成分的個(gè)體遺傳背景相對(duì)單一,可作為該群體一種較固定的遺傳背景模式。同時(shí),本研究中具有這類遺傳背景模式的個(gè)體出現(xiàn)頻率也較高,具有一定的群體代表性。綜上,本研究設(shè)定此類個(gè)體作為潛在的群體代表性樣本,按群體代表性遺傳成分的占比設(shè)定了三個(gè)閾值:70%、80%、90%,并篩選出相應(yīng)個(gè)體進(jìn)行STRUCTURE分析和PCA分析驗(yàn)證。PCA分析是目前最常用于校正研究中群體分層的方法[13],可用于驗(yàn)證基于STRUCTURE篩選的群體代表性個(gè)體是否可靠,同時(shí)評(píng)估并確定篩選標(biāo)準(zhǔn)。結(jié)果表明篩選的個(gè)體具有群體代表性,群體代表性遺傳成分超過個(gè)體總遺傳成分80%可作為篩選群體代表性個(gè)體的標(biāo)準(zhǔn)。

需要注意的是,篩選AIM、分析群體遺傳結(jié)構(gòu)以及篩選群體代表性個(gè)體依賴于實(shí)際群體樣本的組成。本研究的樣本來自被廣泛應(yīng)用于各類研究的千人基因組數(shù)據(jù)庫(kù),分析這些群體、篩選具有群體代表性的個(gè)體可提供更大的實(shí)際應(yīng)用價(jià)值。而為了彌補(bǔ)在大陸次級(jí)區(qū)域內(nèi)AIM分析群體間遺傳結(jié)構(gòu)差異研究的缺失,同時(shí)證明使用AIM核驗(yàn)樣本血統(tǒng)的實(shí)際應(yīng)用可行性,本研究選取遺傳結(jié)構(gòu)非常復(fù)雜的東亞群體作為研究對(duì)象。在分析時(shí),盡可能使用更多的AIM以得到更準(zhǔn)確的群體結(jié)構(gòu)信息,以夯實(shí)后續(xù)篩選群體代表性個(gè)體的數(shù)據(jù)基礎(chǔ)。與既往區(qū)分全球群體的研究[20]相比,本研究所使用的AIM數(shù)量更多,但與同樣對(duì)大陸次級(jí)區(qū)域內(nèi)(歐洲)人口亞結(jié)構(gòu)進(jìn)行的研究[7]相比,本研究所使用AIM的數(shù)量則要更少。研究結(jié)果表明,即使是遺傳背景高度混雜的多個(gè)群體,也可使用一組AIM解析群體遺傳結(jié)構(gòu)并成功篩選出具有群體代表性的個(gè)體,這充分說明了本研究方法的可行性,也證明了其應(yīng)用于各類涉及群體的醫(yī)學(xué)研究中以排除群體結(jié)構(gòu)對(duì)醫(yī)學(xué)研究影響的實(shí)際價(jià)值。

如上所述,此類研究的結(jié)論高度依賴于實(shí)際群體樣本的組成。本研究證明了基于公開數(shù)據(jù)庫(kù)中東亞五群體數(shù)據(jù)篩選的一組AI-SNP能在理論上解析遺傳結(jié)構(gòu)復(fù)雜的群體間遺傳結(jié)構(gòu)的差異,并成功依據(jù)個(gè)體血統(tǒng)差異篩選出群體代表性個(gè)體。然而,受到眾多的族群種類、龐大的人口基數(shù),以及復(fù)雜的人口流動(dòng)等因素的影響,東亞地區(qū)實(shí)際的群體遺傳結(jié)構(gòu)極端復(fù)雜。因此,使用更多不同來源的族群個(gè)體真實(shí)樣本對(duì)研究東亞群體間遺傳結(jié)構(gòu)的差異是十分迫切且必要的。對(duì)于本研究中篩選出的此組AI-SNP,后續(xù)將構(gòu)建體系并進(jìn)一步使用來源于各個(gè)群體的真實(shí)樣本進(jìn)行驗(yàn)證。此外,今后的研究也將基于該體系盡可能補(bǔ)充更多不同群體的樣本,以進(jìn)一步將研究結(jié)果擴(kuò)大化,使其能真正在實(shí)際應(yīng)用中發(fā)揮價(jià)值。

綜上所述,本研究使用F值篩選的一組AI-SNP對(duì)遺傳結(jié)構(gòu)復(fù)雜的東亞五群體進(jìn)行了遺傳結(jié)構(gòu)分析,基于STRUCTURE的結(jié)果成功從各個(gè)群體中篩選了具有潛在群體代表性的個(gè)體。經(jīng)STRUCTURE分析和PCA分析的驗(yàn)證,群體代表性遺傳成分占個(gè)體總遺傳成分超過80%的個(gè)體具備良好的群體代表性。本研究的結(jié)果表明,使用一組篩選的AIM可對(duì)研究群體中個(gè)體的遺傳結(jié)構(gòu)進(jìn)行解析,可核實(shí)樣本的聲明血統(tǒng)和實(shí)際血統(tǒng)的吻合度并成功篩選具有群體代表性的個(gè)體,這一方法在排除群體遺傳結(jié)構(gòu)差異對(duì)醫(yī)學(xué)研究的影響時(shí)具備實(shí)際應(yīng)用價(jià)值。

[1] Hellwege JN, Keaton JM, Giri A, Gao XY, Velez Edwards DR, Edwards TL. Population stratification in genetic association studies.2017, 95: 1.22.1–1.22.23.

[2] Schlebusch CM, Skoglund P, Sj?din P, Gattepaille LM, Hernandez D, Jay F, Li S, De Jongh M, Singleton A, Blum MG, Soodyall H, Jakobsson M. Genomic variation in seven Khoe-San groups reveals adaptation and complex African History., 2012, 338(6105): 374–379.

[3] Price AL, Zaitlen NA, Reich D, Patterson N. New approaches to population stratification in genome-wide association studies., 2010, 11(7): 459–463.

[4] Gong X, Zhang C, Yiliyasi A, Shi Y, Yang XW, Nuersimanguli A, Guan YQ, Xu SH. A comparative analysis of genetic diversity of candidate genes associated with type 2 diabetes in worldwide populations., 2016, 38(6): 544–565.

弓弦, 張超, 伊利亞斯·艾薩, 時(shí)瑛, 楊雪唯, 努爾斯曼古麗·奧斯曼, 關(guān)亞群, 徐書華. 2型糖尿病易感候選基因在世界不同人群中的多樣性比較分析. 遺傳, 2016, 38(6): 544–565.

[5] Dai R, Zhang C, Cheng YJ, Chen WL, Li Q, Wang YM. Pharmacogenomics genetic differences between Wa and Blang ethnic groups in Yunnan., 2020, 41(5): 33–40.

代潤(rùn), 張嬋, 程瑜靜, 陳婉璐, 李琦, 王玉明. 云南佤族和布朗族人群藥物基因組學(xué)基因遺傳差異. 昆明醫(yī)科大學(xué)學(xué)報(bào), 2020, 41(5): 33–40.

[6] Phillips C, Prieto L, Fondevila M, Salas A, Gómez-Tato A, Alvarez-Dios J, Alonso A, Blanco-Verea A, Brión M, Montesino M, Carracedo A, Lareu MV. Ancestry analysis in the 11-M Madrid bomb attack investigation., 2009, 4(8): e6583.

[7] Tian C, Plenge RM, Ransom M, Lee A, Villoslada P, Selmi C, Klareskog L, Pulver AE, Qi LH, Gregersen PK, Seldin MF. Analysis and application of European genetic substructure using 300 K SNP information., 2008, 4(1): e4.

[8] Enoch MA, Shen PH, Xu K, Hodgkinson C, Goldman D. Using ancestry-informative markers to define populations and detect population stratification., 2006, 20(4): 19–26.

[9] Pritchard JK, Stephens M, Rosenberg NA, Donnelly P. Association mapping in structured populations., 2000, 67(1): 170–181.

[10] Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé AM, Flicek P. The international genome sample resource (IGSR): a worldwide collection of genome variation incorporating the 1000 genomes project data., 2017, 45(D1): D854–D859.

[11] 1000 Genomes Project Consortium, Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, McCarthy S, McVean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.

[12] Qin PF, Li ZQ, Jin WF, Lu DS, Lou HY, Shen JW, Jin L, Shi YY, Xu SH. A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese., 2014, 22(2): 248–253

[13] Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, Bujanda L, Buti M, Albillos A, Invernizzi P, Fernández J, Prati D, Baselli G, Asselta R, Grimsrud MM, Milani C, Aziz F, K?ssens J, May S, Wendorff M, Wienbrandt L, Uellendahl-Werth F, Zheng TH, Yi XL, de Pablo R, Chercoles AG, Palom A, Garcia-Fernandez AE, Rodriguez- Frias F, Zanella A, Bandera A, Protti A, Aghemo A, Lleo A, Biondi A, Caballero-Garralda A, Gori A, Tanck A, Carreras Nolla A, Latiano A, Fracanzani AL, Peschuck A, Julià A, Pesenti A, Voza A, Jiménez D, Mateos B, Nafria Jimenez B, Quereda C, Paccapelo C, Gassner C, Angelini C, Cea C, Solier A, Pesta?a D, Mu?iz-Diaz E, Sandoval E, Paraboschi EM, Navas E, García Sánchez F, Ceriotti F, Martinelli-Boneschi F, Peyvandi F, Blasi F, Téllez L, Blanco-Grau A, Hemmrich-Stanisak G, Grasselli G, Costantino G, Cardamone G, Foti G, Aneli S, Kurihara H, ElAbd H, My I, Galván-Femenia I, Martín J, Erdmann J, Ferrusquía-Acosta J, Garcia-Etxebarria K, Izquierdo- Sanchez L, Bettini LR, Sumoy L, Terranova L, Moreira L, Santoro L, Scudeller L, Mesonero F, Roade L, Rühlemann MC, Schaefer M, Carrabba M, Riveiro-Barciela M, Figuera Basso ME, Valsecchi MG, Hernandez-Tejero M, Acosta-Herrera M, D'Angiò M, Baldini M, Cazzaniga M, Schulzky M, Cecconi M, Wittig M, Ciccarelli M, Rodríguez-Gandía M, Bocciolone M, Miozzo M, Montano N, Braun N, Sacchi N, Martínez N, ?zer O, Palmieri O, Faverio P, Preatoni P, Bonfanti P, Omodei P, Tentorio P, Castro P, Rodrigues PM, Blandino Ortiz A, de Cid R, Ferrer R, Gualtierotti R, Nieto R, Goerg S, Badalamenti S, Marsal S, Matullo G, Pelusi S, Juzenas S, Aliberti S, Monzani V, Moreno V, Wesse T, Lenz TL, Pumarola T, Rimoldi V, Bosari S, Albrecht W, Peter W, Romero-Gómez M, D'Amato M, Duga S, Banales JM, Hov JR, Folseraas T, Valenti L, Franke A, Karlsen TH. Genomewide association study of Severe Covid-19 with respiratory failure., 2020, 383(16): 1522–1534.

[14] Foo JN, Tan LC, Irwan ID, Au WL, Low HQ, Prakash KM, Ahmad-Annuar A, Bei JX, Chan AY, Chen CM, Chen YC, Chung SJ, Deng H, Lim SY, Mok V, Pang H, Pei Z, Peng R, Shang HF, Song K, Tan AH, Wu YR, Aung T, Cheng CY, Chew FT, Chew SH, Chong SA, Ebstein RP, Lee J, Saw SM, Seow A, Subramaniam M, Tai ES, Vithana EN, Wong TY, Heng KK, Meah WY, Khor CC, Liu H, Zhang F, Liu J, Tan EK. Genome-wide association study of Parkinson's disease in East Asians., 2017, 26(1): 226–232.

[15] Setakis E, Stirnadel H, Balding DJ. Logistic regression protects against population structure in genetic association studies., 2006, 16(2): 290–296.

[16] Gaspar HA, Breen G. Probabilistic ancestry maps: a method to assess and visualize population substructures in genetics., 2019, 20(1): 116.

[17] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data., 2000, 155(2): 945–959.

[18] Alexander DH, Novembre J, Lange K. Fast model-based estimation of ancestry in unrelated individuals., 2009, 19(9): 1655–1664.

[19] Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D. Principal components analysis corrects for stratification in genome-wide association studies., 2006, 38(8): 904–909.

[20] Phillips C, Salas A, Sánchez JJ, Fondevila M, Gómez-Tato A, Alvarez-Dios J, Calaza M, de Cal MC, Ballard D, Lareu MV, Carracedo A; SNPforID Consortium. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs., 2007, 1(3–4): 273–80.

[21] Li CX, Pakstis AJ, Jiang L, Wei YL, Sun QF, Wu H, Bulbul O, Wang P, Kang LL, Kidd JR, Kidd KK. A panel of 74 AISNPs: improved ancestry inference within Eastern Asia., 2016, 23: 101–110.

[22] Liu j, Liu CC, Ma M, Wang L, Zhao WT, Ma Q, Ji AQ, Liu J, Li CX. The ancestry inference of Chinese populations using 74-plex SNPs system., 2020, 42(3): 296–308.

劉楊, 孫昌春, 馬咪, 王玲, 趙雯婷, 馬泉, 季安全, 劉京, 李彩霞. 74-plex SNPs復(fù)合檢測(cè)體系在中國(guó)人群中的族群推斷研究. 遺傳, 2020, 42(3): 296–308.

[23] Qu SQ, Zhu J, Wang YJ, Yin L, Lv ML, Wang L, Jian H, Tan Y, Zhang RR, Liu YQ, Li F, Huang SC, Liang WB, Zhang L. Establishing a second-tier panel of 18 ancestry informative markers to improve ancestry distinctions among Asian populations., 2019, 41: 159–167.

[24] Bulbul O, Speed WC, Gurkan C, Soundararajan U, Rajeevan H, Pakstis AJ, Kidd KK. Improving ancestry distinctions among Southwest Asian populations., 2018, 35: 14–20.

[25] Shi CM, Liu Q, Zhao SL, Chen H. Ancestry informative SNP panels for discriminating the major East Asian populations: Han Chinese, Japanese and Korean., 2019, 83(5): 348–354

[26] Danecek P, Auton A, Abecasis G, Albers CA, Banks E, DePristo MA, Handsaker RE, Lunter G, Marth GT, Sherry ST, McVean G, Durbin R; 1000 Genomes Project Analysis Group. The variant call format and VCFtools., 2011, 27(15): 2156–2158.

[27] Weir BS, Cockerham CC. Estimating F‐statistics for the analysis of population structure., 1984, 38(6): 1358–1370.

[28] Falush D, Stephens M, Pritchard JK. Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies.. 2003, 164(4): 1567–87.

[29] Earl DA, vonHoldt BM. Structure Harvester: a website and program for visualizing structure output and implementing the Evanno method., 2012, 4(2): 359–361.

[30] Jakobsson M, Rosenberg NA. Clumpp: a cluster matching and permutation program for dealing with label switching and multimodality in analysis of population structure., 2007, 23(14): 1801–1806.

[31] Rosenberg NA. Distructd: a program for the graphical display of population structure., 2004, 4(1): 137–138.

[32] Zhou CX, Li M, Huai C, He L, Qin SY. Study on hereditary susceptibility genetic markers to anti-tuberculosis drug induced liver injury in Chinese population., 2020, 42(4): 374–379.

周晨希, 李沫, 懷聰, 賀林, 秦勝營(yíng). 中國(guó)人群中抗結(jié)核藥物引發(fā)肝損傷的易感基因標(biāo)記研究. 遺傳, 2020, 42(4): 374–379.

[33] Sun YD, Tian ZZ, Zhou W, Li M, Huai C, He L, Qin SY. Genome-wide association study on liver function tests in Chinese., 2021, 43(3): 249–260.

孫一丹, 田子釗, 周偉, 李沫, 懷聰, 賀林, 秦勝營(yíng). 中國(guó)人群肝功能檢測(cè)指標(biāo)全基因組關(guān)聯(lián)分析研究. 遺傳, 2021, 43(3): 249–260.

[34] Wright S. The genetical structure of populations., 1951, 15(4): 323–354.

[35] Holsinger KE, Weir BS. Genetics in geographically structured populations: defining, estimating and interpreting., 2009, 10(9): 639–650.

[36] Santos C, Phillips C, Gomez-Tato A, Alvarez-Dios J, Carracedo á, Lareu MV. Inference of ancestry in forensic analysis II: analysis of genetic data.. 2016, 1420: 255–285.

AI-SNPs screening based on the whole genome data and research on genetic structure differences of subcontinent populations

Haoyu Wang, Yuhan Hu, Yueyan Cao, Qiang Zhu, Yuguo Huang, Xi Li, Ji Zhang

The genetic structure differences in population is one of the key elements in medical research involving multi-population samples. A set of ancestry-informative single nucleotide polymorphisms (AI-SNPs) can be utilized to analyze genetic component of a population, infer ancestral origin of individuals and pre-filter samples to reduce the impact of population genetic structure differences on medical research. However, most of the published studies were focused on revealing the differences between populations of continents or regions of a continent. In this paper, AI-SNPs were screened by calculatingFvalue in each pair of five East Asian populations: Japanese in Tokyo (JPT), Han Chinese in Beijing (CHB), Southern Han Chinese (CHS), Chinese Dai in Xishuangbanna (CDX) and Kinh in Ho Chi Minh City (KHV) in the 1000 Genomes Project phase 3 (GRCh37.p13) to analyze differences in subcontinent populations. The results demonstrate that the five East Asian populations in our study were assigned to three clusters: JPT, CHB and CHS, CDX and KHV. A set of AI-SNPs can be used for analysis of individual genetic composition and selection of representative individuals. Individuals with over 80% population representative genetic components have good representativeness of a population. This paper demonstrated the practical value of the method, which was performed to verify the ancestral composition and select representative samples with a panel of screened AI-SNPs byFvalue, thereby reducing the influence of genetic structure differences in subcontinent populations on population-related medical research.

ancestry-informative marker; single nucleotide polymorphism (SNP); East Asian populations; genetic structure differences

2021-05-26;

2021-07-23

國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):81571861, 81630054)資助[Supported by the National Natural Science Foundation of China (Nos. 81571861, 81630054)]

王浩宇,在讀碩士研究生,專業(yè)方向:法醫(yī)物證學(xué)。E-mail: wanghy0707@gmail.com

胡渝涵,在讀碩士研究生,專業(yè)方向:法醫(yī)物證學(xué)。E-mail: huyuhan28@163.com

王浩宇和胡渝涵并列第一作者。

張霽,博士,教授,研究方向:法醫(yī)物證學(xué)。E-mail: zhangj@scu.edu.cn

10.16288/j.yczz.21-185

2021/8/4 17:50:29

URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210804.1141.001.html

(責(zé)任編委: 朱波峰)

猜你喜歡
代表性遺傳群體
國(guó)家級(jí)非遺項(xiàng)目代表性傳承人簡(jiǎn)介
非遺傳承
通過自然感染獲得群體免疫有多可怕
漳州市非物質(zhì)文化遺產(chǎn)代表性項(xiàng)目代表性傳承人名錄
閩臺(tái)地區(qū)代表性道地藥材
還有什么會(huì)遺傳?
還有什么會(huì)遺傳
還有什么會(huì)遺傳?
“群體失語”需要警惕——“為官不言”也是腐敗
非遺代表性傳承人
——勉沖·羅布斯達(dá)
鹤岗市| 元朗区| 榆中县| 阿城市| 文成县| 公主岭市| 通化县| 平罗县| 谷城县| 监利县| 台州市| 阳春市| 榆林市| 庐江县| 富源县| 临潭县| 建宁县| 茂名市| 都兰县| 台中市| 博客| 深州市| 万年县| 宁阳县| 雷波县| 天峨县| 禄劝| 馆陶县| 和田市| 丘北县| 浏阳市| 明水县| 宁强县| 裕民县| 漯河市| 久治县| 调兵山市| 凯里市| 故城县| 宁晋县| 察哈|