陳佐權(quán),饒 琳,謝 磊,姚天雄,張志燕
(江西省南昌市豬遺傳改良與養(yǎng)殖技術(shù)國家重點實驗室,南昌 330045)
當來自雙親中任何一方的兩個等位基因傳遞給后代的機會不均等時,就會觀察到偏分離現(xiàn)象,導致統(tǒng)計上偏離孟德爾遺傳率0.5[1-3]。偏分離是自然界中廣泛存在的現(xiàn)象,是遺傳和進化的基礎(chǔ)。隨著分子標記和測序技術(shù)的發(fā)展,許多偏分離研究被報道。在植物中的偏分離研究對象包括玉米[4]、棉花[5]、小麥[6]、水稻[7]等,在動物中的偏分離研究對象主要是模式動物,如果蠅[8]、老鼠[9-10]等。大型家養(yǎng)動物中偏分離研究相對較少,目前僅在牛中有些報道[11]。大型家養(yǎng)動物較少研究偏分離機制,其主要原因是研究偏分離需要完整的兩代以上大規(guī)模的家系數(shù)據(jù)及基因型數(shù)據(jù),而對大規(guī)模個體的基因分型耗費較大。隨著基因芯片技術(shù)的發(fā)展,快速檢測個體高密度基因型的價格不斷下降,對大規(guī)模群體高密度基因分析也已實現(xiàn),使得偏分離研究在大型家養(yǎng)動物中成為可能。豬作為伴隨人類進化歷程的馴養(yǎng)動物,其生理特性和器官大小與人非常相似,對豬進行偏分離研究,不僅讓我們對豬的偏分離有基本的認識,也為大型家養(yǎng)動物的偏分離研究提供一定的參考。
由于偏分離悖離了孟德爾分離定律(父母遺傳給后代的等位基因的比例為1∶1),因此我們能在基于家系的研究中觀察到偏分離現(xiàn)象。通常情況下,傳統(tǒng)的傳遞不平衡檢驗(transmission disequilibrium test,TDT)可以用在父親-母親-后代的三元家系中檢測偏分離效應(yīng)。但是,當父母雙方都是雜合子時,TDT的檢驗效力會降低[12]。所以,研究人員提出了新的檢驗父母特異性來源的偏分離方法,包括傳遞不對稱檢驗(transmission asymmetry test,TAT)、親本來源的似然比檢驗[13](parent-of-origin likelihood ratio test,PO-LRT)、基于貝葉斯模型的方法[14]等。本研究使用基于貝葉斯模型的偏分離分析軟件TRDscan v.1.0[15]以及用自編R語言腳本實現(xiàn)的TDT和TDTMVsF方法分別分析了總的偏分離位點和父母特異性偏分離位點。對所鑒定的顯著性偏分離位點周圍100 kb內(nèi)利用BioMart挖掘工具篩選功能相關(guān)基因,并結(jié)合生物信息學工具DAVID[16]與GeneCard(https://www.genecards.org/)注釋相應(yīng)基因的功能和通路。另外,提出一種基于單倍型連鎖相分離不平衡的檢測方法,通過PHASEBOOK[17]單倍型分型軟件包中的LinkPHASE3[18]和HiddenPHASE構(gòu)建單倍型,得到后代個體繼承父母的連鎖相信息,分別對后代父源、母源染色體的繼承模式計數(shù)并進行皮爾遜卡方檢驗,從而得到父母源連鎖相的偏分離效應(yīng)估計。
本研究以2頭白色杜洛克公豬和17頭中國二花臉母豬構(gòu)建的三代資源家系1 020個個體為研究對象,利用60K芯片分型數(shù)據(jù),結(jié)合基于貝葉斯的TRDscan 軟件和TDT方法,并通過生物信息學分析,探究在兩方法中都出現(xiàn)顯著信號的位點100 kb區(qū)域的基因。此外,基于單倍型繼承模式,提出一種能夠鑒別父母源同系物的偏分離效應(yīng)的啟發(fā)式方法。
本研究以2頭白色杜洛克公豬和17頭中國二花臉母豬構(gòu)建的三代資源家系群體[19]共1 020個個體為研究對象。用常規(guī)的酚氯仿試劑提取法,從耳組織或血液中提取DNA,并將DNA濃度稀釋至50 ng·μL-1。經(jīng)質(zhì)控后符合要求的基因組DNA利用豬Illumina 60K SNP芯片進行基因型分型,本研究共檢測了1 020個個體,每個個體獲得了62 163個SNPs位點的基因型。
利用Plink V1.9[20]對原始基因型數(shù)據(jù)進行質(zhì)控,刪除基因型缺失率大于5%、次等位基因型頻率小于0.5%的位點以及刪除基因型缺失大于5%的個體。由于性染色體分離與性別相關(guān),在偏分離估算時對結(jié)果影響較大,質(zhì)控時過濾了性染色體標記。質(zhì)控后,1 020個個體共45 966個SNPs位點用于后續(xù)分析。質(zhì)控后的數(shù)據(jù)使用TRDScan軟件進行偏分離分析,TDT和分析父母特異性的TDTMVsF方法使用自編的R語言腳本實現(xiàn)偏分離分析。在基于單倍型連鎖相偏分離算法中,除上述質(zhì)控條件外,將孟德爾錯誤率大于0.06的位點和孟德爾錯誤率大于0.1的家系過濾,利用PHASEBOOK軟件包中的LinkPhase 和HiddenPhase 構(gòu)建單倍型并追溯后代單倍型的繼承信息。
利用TRDscan v.1.0 軟件對總的偏分離效應(yīng)、父系偏分離效應(yīng)、母系偏分離效應(yīng)進行分析,統(tǒng)計模型為[15]:
p(α|y)∝p(y|α)p(α)以及
p(αs,αd|y)∝p(y|αs,αd)p(αs)p(αd)
式中,α表示服從均勻分布的總的偏分離參數(shù);αs表示服從均勻分布的父系偏分離參數(shù);αd表示服從均勻分布的母系偏分離參數(shù);y表示后代基因型的列向量。
TDT和TDTMVsF方法利用皮爾遜卡方檢驗分別對總偏分離效應(yīng)、父系偏分離效應(yīng)、母系偏分離效應(yīng)進行顯著性檢驗。TDT和分析父母特異性的TDTMVsF方法的卡方值類似[13]:
(1-1)
式中父母傳遞給后代等位基因指的是在一個包含父母和后代的三元單元中,雜合子父母傳遞給后代等位基因的數(shù)量??偟腡DT和考慮父母特異性的TDTMVsF差異是TDT中的數(shù)量為雜合子父親和母親傳遞給后代的和,而TDTMVsF中分別是父親或母親傳遞給后代等位基因的數(shù)量[21-22]。
基于單倍型繼承模式的偏分離方法的卡方值:
(1-2)
k=1時,分析的是父源染色體中繼承自父親左側(cè)單倍型和右側(cè)單倍型的偏分離效應(yīng),k=2時對應(yīng)母源染色體中繼承自母親左側(cè)單倍型1和右側(cè)單倍型的偏分離效應(yīng)。
通過使用兩種不同的方法,可以定位豬中全基因組范圍的偏分離位點。在本研究中,質(zhì)控后共有45 966個SNPs,分別使用貝葉斯模型的TRDscan軟件統(tǒng)計推斷通過貝葉斯因子(Bayes factor, BF)和R語言的TDT腳本用于偏分離分析。兩種檢測方法的顯著性閾值分別為BF>100和P<0.001[23]。結(jié)果表明,在所有的染色體上都存在顯著位點(圖1A、1B),特別是在2和4號染色體上的顯著位點較集中,而其他染色體的顯著位點無明顯聚集現(xiàn)象。對兩種偏分離結(jié)果取交集,共得到在兩種方法中都表現(xiàn)為顯著偏分離的SNPs位點44個(表1)。
表1 與總TRD密切相關(guān)的SNPs(BF>100,P<0.01)
A.以TDT方法的偏分離分析曼哈頓圖;B.TRDScan 軟件的偏分離分析曼哈頓圖
偏分離效應(yīng)常常與性別有關(guān)[24-25],因此,分析時區(qū)分父母的特異性偏分離有助于得到更準確的結(jié)果。本研究利用基于貝葉斯算法的TRDscan和基于傳遞不平衡方法的R腳本分別對父源和母源的偏分離位點進行分析,結(jié)果如圖2所示。兩種方法的偏分離效應(yīng)結(jié)果相似,父系與母系偏分離在所有染色體中都存在顯著位點,特別是在父母特異性的結(jié)果中2號染色體都存在明顯的成簇顯著信號(圖2)。另外,還發(fā)現(xiàn)不考慮父母特異性偏分離時,相比區(qū)分父母特異性偏分離效應(yīng)時更顯著,這與區(qū)分父母特異性結(jié)果更準確的理論一致。通過結(jié)合TRDscan v.1.0和TDTMVsF方法得到的父母特異性偏分離結(jié)果,在父系特異性偏分離分析中共得到在兩方法中都顯示顯著性偏分離的27個SNPs位點,母系特異性偏分離分析中共得到35個顯著偏分離的SNPs位點。
A.TRDScan母系偏分離分析曼哈頓圖;B.TDTMVsF母系偏分離分析曼哈頓圖;C.TRDScan父系偏分離分析曼哈頓圖;D.TDTMVsF父系偏分離分析曼哈頓圖
為了探究引起豬發(fā)生偏分離的潛在基因,本研究在Ensembl豬基因組數(shù)據(jù)庫中查找了顯著位點100 kb左右區(qū)域的基因(http://uswest.ensembl.org/Sus_scrofa/Info/Index)。
不考慮父母特異性偏分離效應(yīng)時,共篩選到23個基因;考慮父母特異性偏分離效應(yīng)時,其中父系特異性偏分離位點中篩選出11個基因,母系特異性偏分離位點中篩選出25個基因,比較分析3種偏分離效應(yīng)所鑒定到的基因,發(fā)現(xiàn)5個基因(CRACDL、ISCA2、KIT、MOGAT2、NANOG)在總的偏分離、父系特異性偏分離、母系特異性偏分離分析中都被篩選到(表2)。2個基因(LMNB1、MCM6)在總的和父系特異性偏分離分析中都被檢索到。9個基因(PBXIP1、PMVK、RP9、SHC1、SLC25A27、TDRD6、C20orf194、DCST2、GNAT2)被發(fā)現(xiàn)在總的和母系偏分離效應(yīng)分析結(jié)果中存在,相比2個在總的和父系偏分離效應(yīng)分析中的基因,表明母系偏分離效應(yīng)在本試驗群體中占主要部分。3個(OR51F1、OR51C1P、OR51E2)在父系和母系偏分離效應(yīng)分析中都出現(xiàn)的基因與完整精子組裝,精子細胞運動等有關(guān)。1個只在總的偏分離分析中出現(xiàn)的基因(SPAG6)和2個只在母系特異性偏分離分析中出現(xiàn)的基因(ALX4、ADAM22)。
表2 引起豬偏分離的候選基因
基于單倍型繼承父母染色體信息,可以得到染色體水平的偏分離效應(yīng)估計。對質(zhì)控后的44 864個SNPs進行單倍型偏分離分析,以0.01作為顯著水平。結(jié)果顯示,在父本偏分離分析中,5和13號染色體出現(xiàn)少數(shù)顯著偏分離的位點,而母本偏分離分析中,4、6、12號染色體有較多位點表現(xiàn)出顯著偏分離的現(xiàn)象(圖3)。為了搜尋這些區(qū)域出現(xiàn)顯著偏分離的潛在候選基因,在豬QTL數(shù)據(jù)庫animalQTLdb(https://www.animalgenome.org/)中查詢顯著性偏分離區(qū)域內(nèi)相關(guān)的QTLs。結(jié)果顯示,父源染色體的顯著偏分離區(qū)域與3個繁殖性狀QTLs區(qū)域重疊,分別為4號染色體的QTL:178849、5號染色體的QTL:18128和13號染色體QTL:493。而母源染色體的顯著偏分離區(qū)域與5個繁殖性狀QTLs區(qū)域重疊,包括3號染色體的QTL:515、4號染色體的QTL:450和QTL:18337、6號染色體的QTL:160544 和12號染色體的QTL:120292(表3)。此外,為了檢驗得到的繁殖性狀相關(guān)QTL的隨機性,隨機抽取與鑒定到的顯著區(qū)域相當?shù)膮^(qū)域1 000次,并檢索豬QTL數(shù)據(jù)庫,結(jié)果顯示,只出現(xiàn)了一次得到8個繁殖性狀QTL,表明偏分離位點傾向于與繁殖性狀QTL重疊。
A.父傳染色體偏分離分析曼哈頓圖;B.母傳染色體偏分離分析曼哈頓圖
表3 基于單倍型繼承模式顯著偏分離區(qū)域相關(guān)QTL分析
引起后代產(chǎn)生偏分離的機制比較復雜,在很多生物中偏分離的具體機制仍不清楚[26]??偟膩碚f,從精子或卵子發(fā)生的減數(shù)分裂開始到配子形成合子,到胚胎發(fā)育再到形成后代,偏分離的機制包括:1)不對稱的減數(shù)分裂,在大多數(shù)動物和植物中,雌性的減數(shù)分裂是不對稱的,減數(shù)分裂的4個單倍體只有一個繼續(xù)成為卵母細胞,這種細胞命運的不對稱性是一種潛在的偏分離來源,任何可以優(yōu)先分離到卵母細胞的變異都會獲得傳播優(yōu)勢[27];2)配子的偏分離主要是精子競爭引起的,雄性與雌性不同的是,雄性會產(chǎn)生大量的較小的配子(精子或花粉),因此,雄性配子之間的競爭尤其激烈,這既是自然選擇的主要場所,也是偏分離的可能來源[28];3)精 子/卵子致死,是單倍體基因產(chǎn)物自私的殺死或禁止配子成功受精;4)單倍體不兼容,是兩個單倍體配子結(jié)合后由于等位基因間之間負的相互作用導致的差異;5)合子的偏分離機制包括近交衰退和雜種優(yōu)勢帶來的差異;6)母胎相容性,不同二倍體基因型的胚胎存活率差異[29];7)由于印記基因錯誤導致的胚胎存活差異;8)諸多環(huán)境因素的影響,其中,溫度是影響配子體選擇并導致生物遺傳分化的重要因子[30]。
以上機制表明,偏分離偏向于影響繁殖性狀,即偏分離現(xiàn)象的產(chǎn)生與繁殖性狀緊密相關(guān),而繁殖性狀在豬中一直是影響經(jīng)濟效應(yīng)最重要的因素之一,與養(yǎng)殖場的經(jīng)濟效益密切相關(guān)?;蚪M偏分離的存在會減少特定基因型存活率,導致母豬繁殖性狀的指標如總產(chǎn)仔數(shù)、產(chǎn)活仔數(shù)、受胎率等降低。對豬偏分離的研究讓我們可能鑒定到基因組上引起偏分離現(xiàn)象的位點,這些位點可作為后續(xù)育種工作的選擇位點,結(jié)合基因組選擇等技術(shù)為提高豬的繁殖性能提供參考和應(yīng)用價值。
基于單倍型繼承模式,本研究同時分析了父傳和母傳同系物的偏分離現(xiàn)象,通過查詢豬QTL數(shù)據(jù)庫,在結(jié)果中分別找到了3個和5個繁殖性狀相關(guān)的QTLs。與其他性狀如胴體性狀相關(guān)的QTLs沒有在表中展示,原因是,盡管引起偏分離的機制比較復雜,但最后都會直接或間接影響生物的繁殖性狀。親本的左右系同系物中存在偏分離現(xiàn)象,且這些繁殖性狀相關(guān)的QTLs可能存在潛在的候選基因。
本研究鑒定出一些引起豬偏分離的候選基因。CRACDL是蛋白編碼基因,與睪丸白血病有關(guān),影響睪丸的正常生理功能。KIT是編碼受體酪氨酸激酶蛋白的基因,通過KIT發(fā)出的信號在細胞存活、增殖和分化中起作用。例如,KIT信號傳導是黑色素細胞存活所必需的,此外它還涉及機體造血和配子發(fā)生[31]。NANOG是胚胎干細胞的轉(zhuǎn)錄因子,被認為是維持多能性的關(guān)鍵基因。NANOG基因與中胚層細胞命運,胚胎模式規(guī)范,干細胞分裂等分子過程相關(guān)[32]。ISCA2基因編碼的蛋白質(zhì)是線粒體中的一種A型鐵硫簇(ISC)蛋白質(zhì),該蛋白似乎與線粒體鐵硫蛋白質(zhì)的成熟有關(guān)。LMNB1基因編碼核纖層蛋白B1,核纖層蛋白B1被認為與核穩(wěn)定性,染色質(zhì)核基因表達有關(guān)[33]。MCM6基因編碼DNA復制許可因子MCM6,是高度保守的微型染色體維持蛋白(MCM)之一,在真核基因組啟動復制中起著至關(guān)重要的作用[34]。PBXIP1編碼的蛋白質(zhì)主要在細胞質(zhì)中,但可以穿梭至細胞核,還可以與雌激素受體α和β相互作用,并促進乳腺癌、腦瘤和肺癌的增殖[35]。TDRD6是一種包含Tudor域蛋白質(zhì)編碼基因,含有Tudor域的蛋白質(zhì)與生殖細胞發(fā)育,包括精子形成過程中類染色體的形成,卵子形成過程中的巴爾比尼亞體的形成,受精后生殖細胞的細胞質(zhì)形成,以及適當?shù)膍iRNA表達和剪接體成熟,可見TDTR6基因在生殖細胞的形成過程中起著重要的作用[36]。C20orf194基因編碼具有C末端卷曲螺旋區(qū)的未鑒定蛋白,DCST2基因與機體發(fā)育有關(guān),GNAT2基因編碼鳥嘌呤核苷酸結(jié)合蛋白G的α亞基,在視覺沖動中刺激視紫紅質(zhì)和cGMP磷酸二酯酶的偶聯(lián)[37]。3個(OR51F1、OR51C1P、OR51E2)在父系和母系偏分離效應(yīng)分析中都出現(xiàn)的基因,這3個基因為氣味受體51家族基因,編碼嗅覺受體蛋白,負責識別和G蛋白介導的氣味信號轉(zhuǎn)導[38]。從機理上來看,氣味受體51家族基因與偏分離并不存在直接的關(guān)系,實際上,本研究得到的許多基因從功能上看與偏分離的潛在機制并沒有很明顯的直接聯(lián)系,但是,這些基因可能間接的引起基因組偏分離現(xiàn)象,或者與引起偏分離的基因存在一定程度的連鎖不平衡。另外,只利用一種方法所鑒定的特異性基因與偏分離的潛在機制存在一定的關(guān)聯(lián),比如在總的偏分離分析中,SPAG16基因與完整精子組裝、精子細胞運動等有關(guān),推測可能影響精子與卵子結(jié)合的能力[39];ADAM22基因編碼整合素和金屬鈦酶結(jié)構(gòu)域家族成員,參與調(diào)節(jié)細胞黏附和擴散以及抑制細胞增殖[40]。
前人的研究表明,編碼胚胎發(fā)生的轉(zhuǎn)錄因子的基因與偏分離有關(guān),如PAX5,它對中腦和小腦的發(fā)生至關(guān)重要[41],HOXD基因(HOXD1、HOXD3、HOXD4、HOXD8、HOXD9、HOXD12、HOXD13)對后肢神經(jīng)支配來說是重要的[42],以及參與體細胞發(fā)生的DMRT2基因,DMRT1基因的功能缺失與否與人類的精子發(fā)生存在重要關(guān)聯(lián)[43]。雖然本研究中沒有顯著的SNPs處在上述基因內(nèi),但是找到了一些可能引起基因組偏分離的標記。
傳統(tǒng)的偏分離分析方法主要從基因型著手,通過對群體中父親-母親-后代三元單元基因傳遞的分析得到基因組偏分離景觀。不論是基于貝葉斯模型的方法,還是基于傳遞不平衡方法或者是其他方法,偏分離的檢出效力明顯都會受到樣本量大小的影響,小樣本量所提供信息的位點更少,在檢驗中很容易產(chǎn)生假陽性的結(jié)果。本研究基于單倍型繼承模式的偏分離分析方法從單倍型著手,利用的是后代標記中單倍型的繼承信息。無論純合子與否都可以獲得單倍型分型結(jié)果,但是純合的位點在傳統(tǒng)的偏分離方法中不提供信息,另外與傳統(tǒng)的方法相比,單倍型偏分離分析在使用基因型構(gòu)建單倍型時利用了連鎖不平衡的信息。所以,對比傳統(tǒng)方法的分析結(jié)果(圖1、圖2)和單倍型方法的分析結(jié)果(圖3),前者的結(jié)果為分散的位點,且?guī)缀跛械娜旧w上都存在顯著的偏分離位點,可能存在假陽性位點。而后者的結(jié)果顯示,位點之間相對更為連續(xù),且只有個別染色體存在偏分離區(qū)域,結(jié)果穩(wěn)定性更高。
本研究結(jié)合兩種偏分離分析方法分析了杜洛克×二花臉三代雜交群體的60K基因型數(shù)據(jù)的非特異性和父母特異性的全基因組偏分離位點,并利用生物信息學工具分析了引起偏分離的候選基因。此外,還提出一種新的基于單倍型繼承模式的偏分離分析方法,研究了父母傳染色體的偏分離現(xiàn)象,并利用animalQTLdb分析了可能的原因。本研究為進一步解析豬群中的偏分離現(xiàn)象和探究其生物學機制以及其它家養(yǎng)動物的偏分離研究提供了基礎(chǔ)資料和參考。
致謝感謝博士生導師黃路生院士在F2資源群體構(gòu)建、基因型及表型性狀測定及論文修訂方面提供的幫助。