国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

3款豬50K SNP芯片基因型填充至序列數(shù)據(jù)的效果評估

2022-07-07 05:03曾浩南鐘展明徐志婷滕金言袁曉龍李加琪
關(guān)鍵詞:點(diǎn)數(shù)基因型位點(diǎn)

曾浩南,鐘展明,徐志婷,滕金言,袁曉龍,李加琪,張 哲

(華南農(nóng)業(yè)大學(xué) 動(dòng)物科學(xué)學(xué)院/廣東省農(nóng)業(yè)動(dòng)物基因組學(xué)與分子育種重點(diǎn)實(shí)驗(yàn)室/國家生豬種業(yè)工程技術(shù)研究中心, 廣東 廣州 510642)

單核苷酸多態(tài)性(Singlenucleotide polymorphisms, SNP)是指由于單個(gè)核苷酸發(fā)生變異引起的基因組水平上DNA序列的多態(tài)性,具有遺傳穩(wěn)定性強(qiáng)、位點(diǎn)數(shù)量多且分布廣,易于大規(guī)模自動(dòng)化檢測的優(yōu)勢,SNP芯片作為檢測SNP的重要手段,已被廣泛應(yīng)用于生物、醫(yī)學(xué)、農(nóng)學(xué)等領(lǐng)域[1]。在豬育種中,相對低密度芯片的位點(diǎn)信息不足和高密度芯片的價(jià)格高昂,中密度50K芯片成為了豬基因組選擇的主流芯片類型。其中,Neogen子公司Geneseek研發(fā)的紐勤50K(Porcine SNP 50K beadchip)、江西農(nóng)業(yè)大學(xué)研發(fā)的中芯一號50K(KPS Porcine breeding chip v2)及中國農(nóng)業(yè)大學(xué)研發(fā)的液相50K(GenoBaits porcine SNP 50K)為國內(nèi)常見的3款豬50K SNP芯片。3款芯片設(shè)計(jì)的原理不同,紐勤50K和中芯一號50K均是基于Illumina平臺研發(fā)的固相芯片,液相50K芯片是基于靶向測序基因型分型技術(shù)[2]研發(fā)的芯片。

全基因組測序數(shù)據(jù)(Whole genome sequencing,WGS)相比芯片數(shù)據(jù)記錄了更完整的遺傳信息,但由于直接測序成本較高,因此人們常用基因型填充技術(shù)將低密度的芯片數(shù)據(jù)填充至序列數(shù)據(jù)?;蛐吞畛涫且豁?xiàng)根據(jù)參考群體的基因型信息推斷目標(biāo)群體缺失基因型的技術(shù),其能夠充分利用現(xiàn)有的SNP芯片信息將低密度數(shù)據(jù)準(zhǔn)確填充至高密度,實(shí)現(xiàn)了在節(jié)約育種成本的基礎(chǔ)上提高育種準(zhǔn)確性[3-4]?,F(xiàn)有的基因型填充軟件有很多,常用的有Beagle[5-6]、Impute2[7]、Findhap[8]、AlphaImpute[9]、FAMHAP[10]、FImpute[11]等。基因型填充技術(shù)現(xiàn)已成為一種常規(guī)、有效的工具,被廣泛應(yīng)用于動(dòng)物遺傳育種領(lǐng)域,在豬的相關(guān)研究中,基于填充后的數(shù)據(jù)有助于篩選新的候選基因[12]、提升基因組選擇的準(zhǔn)確性,并降低生產(chǎn)的成本[13-15]。同樣,在牛[16-17]、羊[18]、雞[19]的遺傳育種研究中基因型填充也起到了重要的作用。一方面,基因型填充的效果受到許多數(shù)據(jù)如參考群體大小、參考群體與目標(biāo)群體之間的遺傳關(guān)系、最小等位基因頻率(Minor allele frequency, MAF)等的影響;另一方面,不同填充軟件計(jì)算的質(zhì)控指標(biāo)對填充準(zhǔn)確性也有一定的影響,如Beagle[5-6]軟件的 DR2(Dosage R-squared)、Impute[7]軟件的INFO等。

此前,國內(nèi)研究團(tuán)隊(duì)對3款芯片之間相互填充的效果進(jìn)行了評估[20],但對3款芯片填充至序列數(shù)據(jù)的效果鮮有報(bào)道,因此本研究旨在評估3款豬50K SNP芯片基因型填充至序列數(shù)據(jù)的效果,以期為我國豬遺傳研究和分子育種工作提供參考和借鑒。

1 材料與方法

1.1 芯片群體

本研究所用的48頭杜洛克豬的芯片群體來自廣西某育種場,該群體在紐勤50K、中芯一號50K及液相50K芯片的位點(diǎn)數(shù)分別為50 697、57 466和50 885,具體的位點(diǎn)重疊情況見圖1a。另外,在芯片重疊的位點(diǎn)里,本研究在等位基因精確匹配后評估了3款芯片兩兩之間的一致性與相關(guān)性。

芯片數(shù)據(jù)利用根據(jù)以下步驟進(jìn)行質(zhì)量控制:1)剔除位置重復(fù)或未知的位點(diǎn);2)剔除非常染色體位點(diǎn);3)利用Conform-gt軟件校正正反鏈并去除參考群以外的位點(diǎn)。質(zhì)控后紐勤50K、中芯一號50K及液相50K芯片剩余位點(diǎn)數(shù)分別為31 756、29 469和42 311,分別占原始芯片數(shù)據(jù)的62.6%、51.3%和83.2%,質(zhì)控后具體的位點(diǎn)重疊情況見圖1b。

圖1 3款芯片之間的位點(diǎn)分布Fig. 1 Distribution of loci among three chips

1.2 參考群體

本研究使用的全基因組測序參考群體共260頭豬,其中50頭來自福建某種豬場的杜洛克,210頭來自華南地區(qū)的21個(gè)地方豬品種。該群體平均測序深度為14.53×,平均測序覆蓋度為98.85%,經(jīng)過MAF<0.01的質(zhì)量控制后,本研究使用Beagle5.1對其進(jìn)行單倍型分型(Phasing),最后參考群體的SNP位點(diǎn)數(shù)為31 407 555個(gè)。

1.3 基因型填充方法及準(zhǔn)確性評估

本研究使用Beagle5.1軟件對芯片數(shù)據(jù)的18條常染色體進(jìn)行基因型填充。評估填充準(zhǔn)確性的步驟如下:1)在填充前將芯片數(shù)據(jù)有序不重復(fù)地缺失5%,共缺失20次;2)根據(jù)保留的95%芯片位點(diǎn)填充缺失的5%芯片位點(diǎn),共填充20次;3)將20次填充后的結(jié)果合并在一起,從位點(diǎn)水平上以缺失前與填充后的基因型一致性與相關(guān)性作為基因型填充準(zhǔn)確性的評估指標(biāo)。其中,基因型一致性指的是基因型完全一致的個(gè)數(shù)占總基因型個(gè)數(shù)的比例,而基因型相關(guān)性指的是將基因型轉(zhuǎn)換為0、1、2編碼方式后計(jì)算基因型之間的皮爾遜相關(guān)系數(shù)。

相比基因型一致性,基因型相關(guān)性更能反映準(zhǔn)確性整體的變化規(guī)律,因此本研究在研究MAF與DR2對填充準(zhǔn)確性的影響時(shí),均以基因型相關(guān)性作為填充準(zhǔn)確性的指標(biāo)。

2 結(jié)果與分析

2.1 芯片之間重疊位點(diǎn)的基因型一致性與相關(guān)性

表1展示了3款芯片之間位置與等位基因信息完全重疊的位點(diǎn)基因型一致性與相關(guān)性情況。從表1中可以看出,3款芯片重疊的位點(diǎn)基本保持一致,其中2款固相芯片之間的一致性最高,達(dá)到了0.999;2款固相芯片與液相50K芯片之間的一致性略低,為0.991。

表1 芯片之間重疊位點(diǎn)的基因型一致性與相關(guān)性Table 1 The consistency and correlation of overlapping loci among three chips

2.2 芯片填充至序列數(shù)據(jù)的填充準(zhǔn)確性

表2展示了3款芯片基因型填充后未進(jìn)行任何質(zhì)控處理的填充準(zhǔn)確性情況。從表2中可以看出液相50K芯片的位點(diǎn)基因型一致性最高,達(dá)到0.898,紐勤50K的位點(diǎn)基因型相關(guān)性最高,達(dá)到0.828,此時(shí),3款芯片填充后的位點(diǎn)數(shù)均為31 407 555。

表2 3款芯片基因型填充至序列數(shù)據(jù)的填充準(zhǔn)確性1)Table 2 The imputation accuracy of three chips from chip data to sequencing data

2.3 MAF與DR2對填充準(zhǔn)確性的影響

本研究將3款芯片合并為一個(gè)整體,研究MAF對填充準(zhǔn)確性(位點(diǎn)的基因型相關(guān)性)的影響,結(jié)果見圖2a。從整體可以看出,隨著MAF的增加,填充的準(zhǔn)確性顯示出上升的趨勢;當(dāng)MAF<0.1時(shí),隨著MAF的增加,填充準(zhǔn)確性得到了顯著的提升,而當(dāng)MAF>0.1時(shí),填充的準(zhǔn)確性也有提升的趨勢,但提升的程度趨于平緩。其中,質(zhì)控過濾MAF<0.1的位點(diǎn)時(shí),紐勤50K、中芯一號50K及液相50K這3款芯片的準(zhǔn)確性分別為0.838、0.835和0.825,而此時(shí)剩余的位點(diǎn)數(shù)分別為7 956 801、8 202 065和 7 717 077。

圖2 MAF、DR2與填充準(zhǔn)確性(基因型相關(guān)性)的分布Fig. 2 Distribution of MAF, DR2 and imputation accuracy (genotype correlation)

DR2可以作為Beagle[5-6]軟件基因型填充后的質(zhì)控指標(biāo),3款芯片整體的DR2對填充準(zhǔn)確性的影響結(jié)果見圖2b。從圖2b中可以明顯看到DR2與填充準(zhǔn)確性存在較強(qiáng)的正相關(guān)關(guān)系,其中,質(zhì)控過濾DR2<0.4的位點(diǎn)后填充的準(zhǔn)確性增長趨勢較為緩慢,當(dāng)逐步剔除0.4≤DR2≤1的位點(diǎn)時(shí),3款芯片的填充準(zhǔn)確性得到了較有效的提升。相比DR2≥0.4的情況,DR2≥0.6時(shí),紐勤50K、中芯一號50K和液相50K芯片的填充準(zhǔn)確性分別提升了3.84%、4.16%和3.92%;DR2≥0.8時(shí),3款芯片的填充準(zhǔn)確性分別提升了9.17%、9.44%和9.88%;當(dāng)DR2≥0.95時(shí),3款芯片的填充準(zhǔn)確性分別提升了14.95%、14.37%和16.11%,此時(shí)的準(zhǔn)確性分別為0.966、0.959和0.960,剩余的位點(diǎn)數(shù)為3 393 066、3 139 095和 3 320 627。

3 討論與結(jié)論

本研究展示了國內(nèi)3款常用的豬50K SNP芯片的基本情況與基因型填充至序列數(shù)據(jù)的結(jié)果。從芯片的基本情況來看,3款芯片均有較高的SNP檢出率及重疊位點(diǎn)的一致率,3款芯片的SNP位點(diǎn)數(shù)均達(dá)到50K芯片的標(biāo)準(zhǔn)。在本研究中,中芯一號50K芯片雖然原始位點(diǎn)數(shù)較多,但非多態(tài)的位點(diǎn)也較多,導(dǎo)致填充前質(zhì)控位點(diǎn)后剩余的位點(diǎn)數(shù)較少,一方面的原因是本研究使用的芯片數(shù)據(jù)個(gè)體數(shù)偏少導(dǎo)致位點(diǎn)整體的多態(tài)率較低,另一方面可能是中芯一號50K芯片位置的設(shè)計(jì)原則與其余2款芯片的有較大的出入,但從結(jié)果上看這并沒有導(dǎo)致中芯一號50K芯片基因型填充的效果弱于其余2款芯片。

從芯片的基因型填充的結(jié)果上看,3款芯片的原始填充效果并沒有明顯的差異。此外,在本研究中3款芯片填充后的位點(diǎn)基因型一致性均值為0.890,尚未達(dá)到很高的水平。一方面,已有研究證實(shí)參考群規(guī)模的大小會影響填充的效果[21-22],本研究使用的參考群體個(gè)體數(shù)為260,在參考群體規(guī)模上一定程度地限制了填充的效果;另一方面,本研究參考群體里杜洛克個(gè)體數(shù)僅為50,個(gè)體數(shù)少導(dǎo)致參考群體的杜洛克單倍型信息并不能很好地囊括整個(gè)品種,進(jìn)而填充的效果降低。

MAF也是影響填充準(zhǔn)確性的一個(gè)重要因素,據(jù)報(bào)道,MAF<0.05時(shí),MAF每提升0.01填充準(zhǔn)確性都會得到較大的提升,而MAF≈0.1已經(jīng)與最高點(diǎn)沒有明顯的差異[23-27],在本研究中,MAF的趨勢也與前人的結(jié)果基本符合。

DR2作為Beagle[5-6]填充的質(zhì)控指標(biāo),根據(jù)DR2進(jìn)行基因型填充后,位點(diǎn)的質(zhì)控可以最直接地提升基因型填充的準(zhǔn)確性,從而提升全基因組關(guān)聯(lián)分析及基因組選擇等下游分析的效果[28-31]。從本研究的結(jié)果看,當(dāng)DR2≥0.95時(shí),紐勤50K、中芯一號50K及液相50K芯片的填充效果很好(基因型一致性與相關(guān)性均高于0.950),但是位點(diǎn)數(shù)也由原來的約4 000萬減少到約300萬。在基因組選擇領(lǐng)域,一方面位點(diǎn)數(shù)的減少可能會導(dǎo)致位點(diǎn)變異解釋的遺傳力降低,從而影響基因組選擇的效果[32],另一方面位點(diǎn)錯(cuò)誤率升高也會降低基因組選擇的效果[33],因此在實(shí)際應(yīng)用中,DR2的閾值選取需要研究者根據(jù)自身需求進(jìn)行考量。需要注意的是,DR2和填充準(zhǔn)確性的增長趨勢與Beagle設(shè)置的參數(shù)有效群體大小(ne)有關(guān),默認(rèn)的參數(shù)較大(1 000 000),而畜禽育種的有效群體大小相比人類普遍較低,因此基因型填充時(shí)需要根據(jù)參考群體的規(guī)模適當(dāng)進(jìn)行該參數(shù)的調(diào)整,以適應(yīng)更多畜禽育種的群體情況,這有利于提升填充效果[5-6]。

綜上所述,本研究評估了3款豬SNP芯片基因型填充至序列數(shù)據(jù)的效果,結(jié)果表明3款芯片基因型填充至序列數(shù)據(jù)的策略可行,均可獲得較高的填充準(zhǔn)確性。

猜你喜歡
點(diǎn)數(shù)基因型位點(diǎn)
HBV基因型的研究現(xiàn)狀與發(fā)展趨勢探討
Pd改性多活性位點(diǎn)催化劑NH3-SCR脫硝反應(yīng)機(jī)理研究
DNA脫堿基位點(diǎn)的檢測方法及其生物學(xué)研究進(jìn)展
多環(huán)境下玉米保綠相關(guān)性狀遺傳位點(diǎn)的挖掘
成熟度和生長調(diào)節(jié)劑對不同基因型觀賞向日葵種子休眠期的影響
淺談分枝法在解決遺傳學(xué)題目中的應(yīng)用
一種改進(jìn)的多聚腺苷酸化位點(diǎn)提取方法
從一道高考題看自交與自由交配的相關(guān)計(jì)算
畫點(diǎn)數(shù)
破解心靈感應(yīng)
梁山县| 商都县| 庆元县| 苏尼特右旗| 芜湖县| 阿鲁科尔沁旗| 绍兴县| 巧家县| 辉县市| 陆川县| 新绛县| 富阳市| 南昌市| 阿城市| 平武县| 津南区| 万全县| 阳曲县| 石柱| 洱源县| 河南省| 宁陵县| 逊克县| 台南县| 永福县| 抚松县| 万山特区| 石首市| 丰原市| 荆门市| 岳普湖县| 习水县| 九台市| 内江市| 宁南县| 昭通市| 彭水| 洛隆县| 丰都县| 镇平县| 北票市|