龐志旭,張洪志,喬利英,王萬(wàn)年,潘洋洋,劉文忠
(山西農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院,太谷 030801)
基因組選擇(genomic selection, GS)目前已廣泛應(yīng)用于畜禽遺傳評(píng)估。相對(duì)于基于系譜的最佳線性無(wú)偏預(yù)測(cè)(best linear unbiased prediction, BLUP),基因組選擇能有效提高基于表型的預(yù)測(cè)準(zhǔn)確性、縮短世代間隔和加快遺傳進(jìn)展。然而,由于基因分型成本較高,通常只測(cè)定育種群中關(guān)鍵個(gè)體的基因型,因此,經(jīng)典基因組預(yù)測(cè)方法只能利用部分個(gè)體的基因型和表型信息。為解決這一問(wèn)題,Legarra等及Christensen和Lund提出了基因組選擇一步法(single-step genomic BLUP, SSGBLUP)。一步法通過(guò)有效整合群體所有個(gè)體(包括有基因型和沒(méi)有基因型信息個(gè)體)的系譜、表型和基因型信息,提高了基因組估計(jì)育種值(genomic estimated breeding value, GEBV)的準(zhǔn)確性。
基因組選擇的準(zhǔn)確性與參考群的大小密切相關(guān),參考群規(guī)模越大,基因組選擇效果越好。而我國(guó)由于很多核心育種場(chǎng)規(guī)模較小,基因組選擇的效果不理想,對(duì)此我國(guó)制定了基因組聯(lián)合育種方案。使用SSGBLUP法進(jìn)行基因組聯(lián)合育種,由于多個(gè)群體之間的基因型頻率不同,群體間沒(méi)有系譜上的關(guān)聯(lián),不同群體個(gè)體間親緣關(guān)系為0,群體間不能進(jìn)行有效的關(guān)聯(lián),基因組關(guān)系矩陣與系譜親緣關(guān)系矩陣難以兼容,造成基因組聯(lián)合育種效果不理想。
為解決矩陣與矩陣不兼容的問(wèn)題,Legarra等和Christensen提出了元共祖(metafounder)的概念。元共祖是用來(lái)描述基礎(chǔ)群內(nèi)部關(guān)系的偽個(gè)體,可以理解為一個(gè)無(wú)限大小的配子池?;A(chǔ)群的個(gè)體就是由配子池隨機(jī)抽取配對(duì)形成,各配子之間的共親關(guān)系(coancestry relationship)為2。多個(gè)元共祖之間的親緣關(guān)系為祖先關(guān)系矩陣(ancestral relationships),基于矩陣與矩陣構(gòu)建()矩陣。含元共祖的一步法(single-step method with metafounders, MF-SSGBLUP)使用0.5為等位基因頻率構(gòu)建矩陣并與()矩陣聯(lián)合構(gòu)建()矩陣,可以自動(dòng)兼容矩陣與矩陣。
將MF-SSGBLUP應(yīng)用于基因組聯(lián)合育種不僅可以解決矩陣和矩陣的兼容性問(wèn)題,也解決了多個(gè)群體基因型頻率不同的問(wèn)題,并且在()矩陣構(gòu)建過(guò)程中加入了祖先關(guān)系矩陣,可以在不同群體個(gè)體間建立親緣關(guān)系,將多個(gè)群體產(chǎn)生關(guān)聯(lián)。
為了研究MF-SSGBLUP在基因組聯(lián)合育種中的有效性,本研究基于多個(gè)模擬群體進(jìn)行以下研究:1)比較MF-SSGBLUP法和SSGBLUP法構(gòu)建的矩陣與矩陣的兼容性;2)比較MF-SSGBLUP、SSGBLUP和BLUP的遺傳參數(shù)估計(jì)結(jié)果;3)對(duì)MF-SSGBLUP在基因組聯(lián)合育種中的使用效果進(jìn)行評(píng)估。
本研究使用QMSim模擬2個(gè)具有不同遺傳力(0.1和0.3)的限性性狀,表型方差設(shè)置為1,每個(gè)性狀進(jìn)行10次重復(fù)。歷史群體起始規(guī)模為5 000頭,經(jīng)過(guò)1 000個(gè)世代,群體衰減為250頭,再經(jīng)過(guò)100個(gè)世代,群體擴(kuò)增為1 000頭,通過(guò)群體規(guī)模的波動(dòng)達(dá)到與真實(shí)群體相似的連鎖不平衡(linkage disequilibrium,LD)程度,并且建立了突變漂變平衡。整個(gè)歷史群體公、母比例保持1∶1,個(gè)體間采取隨機(jī)交配。模擬3個(gè)擴(kuò)增群體(Line1、Line2、Cross),世代數(shù)為10,每個(gè)世代增長(zhǎng)率為60%,個(gè)體間采取隨機(jī)交配。擴(kuò)增群體模擬策略為:1)在歷史群體的最后一個(gè)世代中抽取真實(shí)育種值較高的10頭公畜和100頭母畜構(gòu)成Line1的初始群體,抽取真實(shí)育種值較低的10頭公畜與100頭母畜構(gòu)成Line2;2)從Line1的第10世代中抽取100頭公畜,從Line2的第10世代中抽取100頭母畜,構(gòu)成Cross1的初始群體(圖1)。
Line1、Line2和Cross代表不同的擴(kuò)繁群體,Pop1、Pop2和Pop3代表不同的當(dāng)代群體Line1, Line2 and Cross correspond to different expansion populations, while Pop1, Pop2 and Pop3 correspond to different current populations圖1 群體結(jié)構(gòu)模擬策略Fig.1 Simulation strategy for population structures
分別從3個(gè)擴(kuò)增群體的第10世代中抽取EBV高的20頭公畜和180頭母畜構(gòu)成3個(gè)當(dāng)代群體Pop1、Pop2和Pop3(圖1),世代數(shù)均設(shè)為10代,設(shè)置3個(gè)元共祖對(duì)應(yīng)3個(gè)群體。模擬中,每代公畜淘汰率為30%,增長(zhǎng)率為10%;母畜淘汰率為20%,增長(zhǎng)率為10%。每代公、母畜間隨機(jī)交配。假定所研究畜種為單胎,每頭母畜后裔數(shù)為1,后裔公、母各半,選擇EBV高的個(gè)體留種。保留當(dāng)代群體第1~9 世代所有母畜的表型信息,將第1~9世代作為參考群,將第10個(gè)世代作為候選群。
本試驗(yàn)?zāi)M奶牛的基因組,共設(shè)置29對(duì)染色體,全長(zhǎng)為2 333 cM,性狀受到1 000個(gè)隨機(jī)分布在全基因組中的數(shù)量性狀基因座(quantitative trait loci, QTL)影響。QTL效應(yīng)值服從形狀參數(shù)為0.4的伽馬分布。模擬50 000個(gè)均勻分布于全基因組上的SNP標(biāo)記。設(shè)置起始?xì)v史群體SNP和QTL等位基因頻率均為0.5,每個(gè)位點(diǎn)突變率為10,標(biāo)記位點(diǎn)的錯(cuò)誤率為0.5%。選取群體后5代有后裔的公畜和最后2個(gè)世代的所有個(gè)體都進(jìn)行基因分型。對(duì)模擬產(chǎn)生的基因型數(shù)據(jù)進(jìn)行質(zhì)量控制,刪除次要等位基因頻率低于5%的基因型。經(jīng)過(guò)質(zhì)量控制,對(duì)于為0.3的模擬數(shù)據(jù),保留的SNP標(biāo)記數(shù)為47 313,10次重復(fù)的方差為173.5;對(duì)于為0.1的模擬數(shù)據(jù),保留的SNP標(biāo)記數(shù)為47 289,10次重復(fù)的方差為168.7。
(1)
(2)
其中,=(1-)+w,為加權(quán)因子(設(shè)為常數(shù)0.05),矩陣能避免矩陣無(wú)法求逆的問(wèn)題,且通過(guò)混合矩陣解釋了一些基因型標(biāo)記未能解釋的效應(yīng)??紤]到矩陣與矩陣兼容性的問(wèn)題,使用矯正后的矩陣:=β+,其中,和通過(guò)以下方程組求解得出:
(3)
1.2.2 MF-SSGBLUP MF-SSGBLUP法的MME為:
(4)
其中,()為:
(5)
祖先關(guān)系矩陣構(gòu)建方法為:=8=8(),其中是一個(gè)矩陣,行數(shù)為總標(biāo)記數(shù),列數(shù)為群體數(shù),的元素代表第個(gè)標(biāo)記在第個(gè)群體中的頻率;是維度等于群體數(shù)的一個(gè)方陣,其中對(duì)角線元素為該群體基因型頻率的方差,非對(duì)角線元素為兩個(gè)群體間基因型頻率的協(xié)方差。本研究使用兩種方法計(jì)算矩陣,以對(duì)兩種方法的性能做比較。一種方法是只使用基因型數(shù)據(jù)來(lái)估計(jì)的原始方法(na?ve,NAI):
=μ+
(6)
(7)
其中,為基因分型個(gè)體第個(gè)位點(diǎn)的基因型,由{0,1,2}組成;是一個(gè)將元共祖與后代個(gè)體聯(lián)系起來(lái)的矩陣,每行元素之和為1;為各群體在第個(gè)位點(diǎn)的基因型均值向量;為誤差向量。所有位點(diǎn)的基因型均值為=[…]。由于,=2,所以,=2()。
第二種是同時(shí)利用基因型與系譜信息計(jì)算矩陣的廣義最小二乘法(generalized least squares,GLS):
=μ+u+
(8)
(9)
1.3.1 基因組關(guān)系矩陣與系譜親緣關(guān)系矩陣的兼容性 用對(duì)角線元素與非對(duì)角線元素之間的相關(guān)系數(shù)()、回歸系數(shù)()和回歸截距()3個(gè)指標(biāo)來(lái)評(píng)價(jià)矩陣與矩陣之間的兼容性。相關(guān)系數(shù)是矩陣與矩陣對(duì)角線元素之間和非對(duì)角元素之間的皮爾森相關(guān)系數(shù):
(10)
其中,和分別對(duì)應(yīng)對(duì)角線元素與非對(duì)角線元素,為協(xié)方差,為方差,相關(guān)系數(shù)越高表示相關(guān)性越好。
回歸系數(shù)與回歸截距是通過(guò)構(gòu)建矩陣對(duì)角線元素(非對(duì)角線元素)對(duì)矩陣對(duì)角線元素(非對(duì)角線元素)的回歸方程:
(11)
回歸系數(shù)越接近于1,回歸截距越接近于0,表示無(wú)偏性越好。
1.3.2 模型評(píng)價(jià) 用準(zhǔn)確性(accuracy)和無(wú)偏性(bias)來(lái)比較不同模型的性能。準(zhǔn)確性通過(guò)EBV與TBV之間的相關(guān)系數(shù)衡量:
無(wú)偏性用GEBV對(duì)TBV的回歸系數(shù)來(lái)衡量:
回歸系數(shù)越接近于1越好,用=|1-|衡量無(wú)偏性。
模擬的3個(gè)當(dāng)代群體(Pop1、Pop2和Pop3),個(gè)體總數(shù)為8 430。其中,參考群和候選群個(gè)體分別為7 404和1 026個(gè),基因分型個(gè)體為2 103個(gè),具有表型的個(gè)體約為3 702個(gè)。
為了評(píng)估模擬產(chǎn)生的群體遺傳結(jié)構(gòu),利用3個(gè)群體的基因組標(biāo)記信息進(jìn)行主成分分析(principal component analysis, PCA)。由于10次模擬的群體遺傳結(jié)構(gòu)相似,僅展示第1次模擬結(jié)果(圖2)。為0.1時(shí),群體前兩個(gè)主成分所解釋的方差占總方差的百分比分別為9.906%和6.081%;為0.3時(shí),分別為9.049%和7.479%。表明模擬的3個(gè)群體具有明顯的遺傳差異。
圖2 模擬的3個(gè)群體間的遺傳差異Fig.2 The genetic differences among 3 simulated populations
使用GLS和NAI法對(duì)矩陣進(jìn)行估計(jì)。為0.1時(shí),10次重復(fù)的均值為:
為0.3時(shí),10次重復(fù)的均值為:
矩陣為元共祖之間的關(guān)系矩陣,元素的值反映了元共祖之間的親緣關(guān)系。在不同下,矩陣差異不大,說(shuō)明不同下基礎(chǔ)群個(gè)體間親緣關(guān)系相似。矩陣對(duì)角線元素的值普遍大于非對(duì)角線元素,表明在同一個(gè)基礎(chǔ)群體內(nèi)的個(gè)體親緣關(guān)系高于不同基礎(chǔ)群體個(gè)體間的親緣關(guān)系。對(duì)角線元素略小于的對(duì)角線元素,非對(duì)角元素之間沒(méi)有差異。
兼容性通過(guò)親緣關(guān)系矩陣與基因組關(guān)系矩陣的對(duì)角線(非對(duì)角線)元素的相關(guān)系數(shù)、回歸系數(shù)和回歸截距來(lái)說(shuō)明,其中相關(guān)系數(shù)與回歸系數(shù)越接近于1,回歸截距越接近于0兼容性越好。通過(guò)矩陣和矩陣分別構(gòu)建()和()矩陣,并計(jì)算與矩陣的兼容性,用常規(guī)SSGBLUP法構(gòu)建的矩陣與進(jìn)行對(duì)照,結(jié)果見(jiàn)表1。在不同下,()~和()~對(duì)角線(非對(duì)角線)元素相關(guān)系數(shù)0.750~0.775(0.954~0.964)、回歸系數(shù)0.859~0.992(0.639~0.812)和回歸截距-0.013~0.135(0.071~0.098)均顯著(<0.05)優(yōu)于~相關(guān)系數(shù)0.508~0.572(0.723~0.738)、回歸系數(shù)0.543~0.652(0.683~0.745)和回歸截距0.374~0.493(0.134~0.139),表明元共祖法構(gòu)建的矩陣與矩陣間兼容性更好(表1)。
表1 3種方法構(gòu)建的G和 A22矩陣的兼容性比較Table 1 Comparison of compatibility between G and A22 matrices constructed by 3 methods
表2為10次重復(fù)下MF-SSGBLUP(GLS)、MF-SSGBLUP(NAI)、SSGBLUP和傳統(tǒng)BLUP對(duì)方差組分和估值的均值和方差與當(dāng)代群體遺傳參數(shù)的對(duì)比。在初值為0.1和0.3的群體中,4種方法對(duì)的估計(jì)值介于0.138~0.173和0.273~0.340,與當(dāng)代群體遺傳力0.107和0.296相符。此外,兩種MF-SSGBLUP在不同下對(duì)方差組分的估值比SSGBLUP和BLUP法更接近于真值,表明MF-SSGBLUP法在遺傳參數(shù)的估計(jì)上要優(yōu)于SSGBLUP和傳統(tǒng)BLUP法。
表2 4種方法估計(jì)的方差組分和遺傳力Table 2 Estimated variance components and heritabilities by 4 methods
圖3為4種方法估計(jì)育種值的準(zhǔn)確性和無(wú)偏性。在為0.1情況下,兩種MF-SSGBLUP 的準(zhǔn)確性均為0.888,MF-SSGBLUP(GLS)的無(wú)偏性均值為0.030,MF-SSGBLUP(NAI)的無(wú)偏性均值為0.032,SSGBLUP為0.863和0.066,傳統(tǒng)BLUP為0.854和0.078;在為0.3情況下,兩種MF-SSGBLUP的準(zhǔn)確性和無(wú)偏性均值均為0.908 和0.029,SSGBLUP為0.876和0.057,傳統(tǒng)BLUP為0.871和0.067。不同下,兩種MF-SSGBLUP的準(zhǔn)確性與無(wú)偏性顯著優(yōu)于SSGBLUP與BLUP法(<0.05),而MF-SSGBLUP的兩種算法(GLSNAI)間則無(wú)顯著差異。以上結(jié)果表明,在基因組聯(lián)合育種中,MF-SSGBLUP法有一定優(yōu)勢(shì)。
不同大寫(xiě)字母表示差異極顯著(P<0.01),不同小寫(xiě)字母表示差異顯著(P<0.05)Different capital and lowercase letters mean significant differences at P<0.01 and P<0.05, respectively圖3 4種方法估計(jì)育種值的準(zhǔn)確性與無(wú)偏性比較Fig.3 Comparison of accuracy and unbiasedness of estimating breeding values by 4 methods
用MF-SSGBLUP法進(jìn)行遺傳評(píng)估已有報(bào)道,并且均表現(xiàn)出一定的優(yōu)勢(shì),但是在基因組聯(lián)合育種中還未應(yīng)用。本研究模擬了不同(0.1和0.3)的性狀,使用傳統(tǒng)BLUP法、SSGBLUP法和MF-SSBLUP法進(jìn)行遺傳評(píng)估。其中,用GLS和NAI兩種算法估計(jì)祖先關(guān)系矩陣。Bradford等指出,矩陣不依賴表型信息,只與基因型信息與系譜信息相關(guān)。本研究在不同下獲得的矩陣數(shù)值上差異不大,是因?yàn)椴煌履M的群體結(jié)構(gòu)類似。不同情況下,GLS法和NAI法所得的矩陣非對(duì)角線元素間差異不大,而對(duì)角線元素則有明顯差異,即NAI法所得的元共祖近交系數(shù)高于GLS法。Garcia-Baccino等發(fā)現(xiàn)NAI法對(duì)矩陣中的元素估值偏高,GLS法能有效獲得矩陣的無(wú)偏估值,與本研究結(jié)果相符。本試驗(yàn)中基因分型個(gè)體都是經(jīng)過(guò)了多個(gè)世代的選擇,部分基因型頻率漂變到極端值, NAI法忽略了這一部分的影響,GLS法考慮了基因型在世代間的傳遞,將系譜信息納入模型之中,因而更為準(zhǔn)確。
對(duì)比不同方法構(gòu)建的矩陣與矩陣,發(fā)現(xiàn)()~和()~兼容性要優(yōu)于~,這與Kudinov等在丹麥紅牛上的研究成果相似。Christensen指出基因分型個(gè)體與所有個(gè)體間育種值平均值的差異導(dǎo)致了矩陣與矩陣的不兼容。一些研究通過(guò)調(diào)整矩陣使其與矩陣相兼容,但是都沒(méi)有從本質(zhì)上解決問(wèn)題。元共祖法與之相反,通過(guò)調(diào)整矩陣,達(dá)到與基因型關(guān)系矩陣相兼容的目的。VanRaden指出,矩陣中的元素為親緣相關(guān)的期望值,然而在基因組聯(lián)合育種中由于多個(gè)群體在系譜上沒(méi)有關(guān)聯(lián),不同群體個(gè)體間相關(guān)關(guān)系為0,這與基因組關(guān)系矩陣在不同群體個(gè)體間親緣相關(guān)大于0的情況相悖?;谠沧鏄?gòu)建的親緣關(guān)系矩陣,不同群體中個(gè)體間的相關(guān)關(guān)系通常不為0。()~在非對(duì)角線元素的回歸系數(shù)與回歸截距上要優(yōu)于()~,這可能是因?yàn)镚LS法獲得矩陣的估計(jì)值比NAI法無(wú)偏性更好。
在Garcia-Baccino等的研究中,傳統(tǒng)BLUP估計(jì)的更接近于真值。然而,本研究顯示,兩種算法下,MF-SSGBLUP法遺傳參數(shù)估值的無(wú)偏性較好,可能是由于3個(gè)模擬群體沒(méi)有系譜關(guān)聯(lián)導(dǎo)致了傳統(tǒng)BLUP對(duì)遺傳參數(shù)估計(jì)的準(zhǔn)確性下降。
Garcia-Baccino等的研究指出,在基因組選擇中,MF-SSGBLUP比SSGBLUP法能獲得更高的準(zhǔn)確性與更小的偏差。Bradford等設(shè)置了3個(gè) 不同的元共祖,對(duì)于為0.3和0.1的性狀,與SSGBLUP和BLUP相比,MF-SSGBLUP能獲得更高的準(zhǔn)確性。而且,Bradford等在系譜缺失情況下,發(fā)現(xiàn)MF-SSGBLUP法所得結(jié)果的一致性最好,能有效減少由于系譜缺失造成的偏差。Xiang等和Van Grevenhof等分別在二元雜交系統(tǒng)與三元雜交系統(tǒng)中驗(yàn)證了元共祖方法的優(yōu)越性。本研究中,兩種算法的MF-SSGBLUP法的遺傳評(píng)估準(zhǔn)確性均顯著高于SSGBLUP和BLUP法,且EBV的偏差更小,與前人研究結(jié)果相似。兩種MF-SSGBLUP算法的準(zhǔn)確性與無(wú)偏性沒(méi)有明顯差異,說(shuō)明GLS和NAI兩種算法估計(jì)的矩陣對(duì)EBV的準(zhǔn)確性沒(méi)有較大影響。但是,GLS能獲得更加無(wú)偏的矩陣,且通過(guò)構(gòu)建的矩陣與矩陣兼容性更好,所以,建議使用MF-SSGBLUP(GLS)進(jìn)行基因組聯(lián)合育種。
用MF-SSGBLUP對(duì)多個(gè)模擬群體進(jìn)行基因組聯(lián)合育種研究,發(fā)現(xiàn)MF-SSGBLUP通過(guò)估計(jì)多個(gè)系譜獨(dú)立群體的元共祖間親緣關(guān)系,優(yōu)化多群體聯(lián)合育種的關(guān)系矩陣,可有效提高遺傳力和育種值的估計(jì)準(zhǔn)確性和無(wú)偏性。因此,MF-SSGBLUP能有效解決多群體間系譜獨(dú)立和基因頻率差異的問(wèn)題,在基因組聯(lián)合育種中具有良好應(yīng)用潛力。