付川珂,趙書紅,李新云,項 韜*
(1.華中農(nóng)業(yè)大學(xué)動物科學(xué)技術(shù)學(xué)院,湖北武漢 430070;2.農(nóng)業(yè)動物遺傳育種與繁殖教育部重點實驗室,湖北武漢 430070)
基因組選擇(Genomic Selection,GS)于2001 年問世[1]。與傳統(tǒng)育種使用的最佳線性無偏預(yù)測法(Best Linear Unbiased Prediction,BLUP)相比,GS 理論上不依賴系譜信息記錄,能夠?qū)崿F(xiàn)家畜早期選擇,從而大大縮短世代間隔,依據(jù)基因型信息構(gòu)建的個體間親緣關(guān)系矩陣也更為準(zhǔn)確,能夠顯著提升遺傳評估的準(zhǔn)確性,在有效控制群體近交增量的同時,為群體帶來更大的遺傳進展[2-4]。大多數(shù)GS 方法要求評估中所有個體均有基因型信息,但受基因分型的高成本等實際問題的限制,在實踐中,群體中往往只有部分個體進行基因分型。群體中無基因型信息個體的表型記錄無法在GS 中使用,造成了數(shù)據(jù)浪費,并導(dǎo)致預(yù)測準(zhǔn)確性產(chǎn)生偏差[5-6]。
2009 年Legarra 等[7],2010 年Christensen 等[8]先 后提出基因組選擇一步法(Single-step Genomic Best Linear Unbiased Prediction,SSGBLUP),將具基因型個體和無基因型個體的信息都整合利用起來。SSGBLUP 的準(zhǔn)確性高于傳統(tǒng)的BLUP 方法,同時,對于具有基因型信息的個體,SSGBLUP 的準(zhǔn)確性也高于經(jīng)典GS 方法的GBLUP 法[9-12]。因此,自2010 年起,SSGBLUP 逐步成為全球跨國豬育種集團的標(biāo)準(zhǔn)遺傳評估方法[13]。
在SSGBLUP 的基礎(chǔ)上,Legarra 等[14]提出了元共祖(Metafounder)的概念并建立了含元共祖的一步法(Single-step Method with Metafounders,MT-SSGBLUP)。MT-SSGBLUP 的準(zhǔn)確性已被證明不低于SSGBLUP,同時其在雜交育種、系譜部分缺失群體育種及跨群體育種等方面具有巨大的應(yīng)用潛力。
目前我國政府及國家生豬產(chǎn)業(yè)技術(shù)體系大力推行多地區(qū)、跨群體的豬基因組聯(lián)合育種,加快生豬遺傳改良進展,并降低養(yǎng)豬業(yè)對國外種豬的依賴性。然而,我國豬場眾多,各場種豬來源多樣,遺傳背景差異大,同時疾病的防控阻礙了各場間的遺傳交流,聯(lián)合育種的目標(biāo)仍然沒有真正實現(xiàn)[15-17]。因為各群體間缺乏遺傳交流,系譜無法關(guān)聯(lián),只能采用GBLUP 等方法對已被基因型測定的個體進行一定程度的聯(lián)合育種,而不能使用SSGBLUP,導(dǎo)致大量記錄和系譜信息的浪費。MTSSGBLUP 在跨群體育種方面的應(yīng)用為我國實現(xiàn)聯(lián)合育種的目標(biāo)提供了思路?;谝陨纤枷?,本文介紹了元共祖概念和原理,并綜述基于元共祖的基因組選擇一步法方法的應(yīng)用及對聯(lián)合育種的展望。
目前,SSGBLUP 被廣泛研究及應(yīng)用于畜禽生產(chǎn)實踐中。研究者們在不同的物種、群體中對其應(yīng)用效果進行了比較研究,并將SSGBLUP 擴展應(yīng)用至各個方面[18-19]。
與BLUP 和GBLUP 方法相比,SSGBLUP 的優(yōu)點在于將傳統(tǒng)的基于系譜的親緣關(guān)系矩陣A陣和基于基因型的親緣關(guān)系矩陣G陣合并,使群體中具基因型個體和無基因型個體納入一個關(guān)系矩陣(H矩陣):
在這個矩陣中,A 矩陣是基于系譜的親緣關(guān)系矩陣,矩陣A11、A12、A21、A22是A矩陣的子矩陣;其下標(biāo)1和2 分別表示無基因型和具基因型個體;G矩陣是具基因型個體間的基因組關(guān)系矩陣,通常按照Vanraden[2]方法一進行構(gòu)建,p為群體的基礎(chǔ)群個體的非參考等位基因頻率(Second Allelic Frequency)。為了確保所有遺傳變異都能夠被SNP 標(biāo)記捕獲,多基因效應(yīng)(Polygenic Effect)需要考慮進G矩陣中,因而通常將上式中的G矩陣替換成Gω=(1-ω)G+ωA22,ω 是基因型和系譜矩陣權(quán)重比[8]。
現(xiàn)在,SSGBLUP 作為畜禽研究的主流方法之一,應(yīng)用日趨多元,但事實上還存在4 個問題沒有完全解決:①構(gòu)建基因型關(guān)系矩陣使用的基因頻率應(yīng)來自基礎(chǔ)群體[2],而基礎(chǔ)群體往往因年代久遠而缺乏基因型信息,因此基礎(chǔ)群的基因頻率實際上是未知的[14];②理論上,基因型關(guān)系G 矩陣和系譜關(guān)系A(chǔ) 矩陣應(yīng)相對于相同的(基礎(chǔ))群體,使得2 個關(guān)系矩陣能夠兼容,但實際中基礎(chǔ)群體一般未知,而系譜的起始群體會被視為基礎(chǔ)群體,具有很大的隨意性,因而2 個關(guān)系矩陣不能直接兼容[20];③在SSGBLUP 中,各性狀應(yīng)采用的最適基因型和系譜矩陣權(quán)重比ω未知,而ω值的設(shè)定應(yīng)由品種特異性和性狀特異性決定[11,21];④混合的多群體遺傳評估至今沒有能夠借助SSGBLUP 得到有效實現(xiàn),SSGBLUP 基本都是應(yīng)用在單一群體內(nèi)。究其原因,不同群體由于各自基礎(chǔ)群開端難以連接,不同群體間依賴的系譜信息的親緣關(guān)系為0,只能靠有基因型信息的個體建立起群體間關(guān)聯(lián),因而所建立的群體間親緣關(guān)系矩陣準(zhǔn)確性較差,不能有效地提高GS 準(zhǔn)確性。
針對SSGBLUP 存在的問題,目前只有一些不完善的解決方案:第一,Vanraden 建議采用研究群體當(dāng)前的基因頻率代替基礎(chǔ)群基因頻率使用,雖然這種替代性使用方法在單一群體的GS 實踐中有效,但在多群體GS 中不能直接采用,因為不同群體的SNP 位點基因頻率不同。只有當(dāng)個體間親緣關(guān)系的建立是相對于同一個假定基礎(chǔ)群時,不同群體間親緣關(guān)系才可直接進行比較,多群體GS才能進行[22]。第二,為使基因型親緣關(guān)系G矩陣與系譜親緣關(guān)系A(chǔ)矩陣相兼容,已有幾種方案被提出,均是調(diào)整G矩陣,使之與A矩陣兼容[9-10,23]。然而,這些調(diào)整方法并未徹底解決2 個矩陣兼容問題,只是調(diào)整兩矩陣數(shù)值大小,使之相近。第三,育種企業(yè)在SSGBLUP 中,通常對所有不同性狀均采用同一個基因型和系譜矩陣權(quán)重比值ω(如丹育豬育種集團采用0.25),而非各性狀的最適ω值。采用不合適的ω會降低育種值估計的準(zhǔn)確性和精確性[21]。這些替代方案雖然目前在GS 中廣泛采用并被實踐證明有效,但SSGBLUP 存在的這些問題在理論上一直沒有徹底解決,SSGBLUP 方法有待進一步發(fā)展和改進。
為了徹底解決SSGBLUP 中存在的一系列問題,Christensen[20]將G矩陣的參考等位基因頻率固定在0.5,取代了Vanraden 方法一[2]中G矩陣的建立需使用基礎(chǔ)群等位基因頻率的方法。然后,Christensen[20]調(diào)整A矩陣,使A矩陣的建立,也相對于等位基因頻率為0.5 的基礎(chǔ)群,從而達到G矩陣與A矩陣兼容目的。Christensen[20]的方案理論上解決了SSGBLUP 存在的2個問題,即無需計算基礎(chǔ)群等位基因頻率和G矩陣與A矩陣兼容性的問題。然而,該方法實現(xiàn)極其困難,需要高度復(fù)雜的計算。該方法的副產(chǎn)物是基礎(chǔ)群中的個體間不再獨立,具有親緣關(guān)系。這個親緣關(guān)系用參數(shù)γ來表示,它展示了基礎(chǔ)群中個體之間的關(guān)系和近交狀況[20]。基礎(chǔ)群個體間具有親緣關(guān)系,這與傳統(tǒng)BLUP 中,假設(shè)系譜的基礎(chǔ)群個體間無親緣關(guān)系相對立,但是與依據(jù)基因型標(biāo)記信息得到的基礎(chǔ)個體間具有親緣關(guān)系的結(jié)論一致[24-25]。
通過復(fù)雜的計算,Christensen[20]和Legarra 等[14]推導(dǎo)出,參數(shù)η1和η2與群體等位基因頻率pj密切相關(guān):η1=Var(pj)和η2=E(2pjqj),其中qj=1–pj。因為E(2pjqj)=2E(pj)E(qj)–2Var(pj)=0.5–2Var(pj),所以有2η1+η2=2Var(pj)+0.5–2Var(pj)=0.5,因 而,即γ應(yīng)為單一群體的基礎(chǔ)等位基因頻率方差的8 倍。這里將作為一個參數(shù),是具有某種分布的假定的基因池中等位基因頻率的方差[20,26-28]。為準(zhǔn)確估計γ值,已有不同的方法進行了研究:Christensen[20]使用最大似然法(Maximum Likelihood,ML)來估計γ值,而Legarra 等[14]則建議在描述性統(tǒng)計的基礎(chǔ)上使用矩量法(Methods of Moments,MM)來進行γ值的估計。Garcia-Baccino 等[29]利用模擬數(shù)據(jù)比較了幾種不同估計γ的算法,并發(fā)現(xiàn)在單一群體中,廣義最小二乘法可以有效地獲得γ的無偏估計值。
基于Christensen[20]對于基礎(chǔ)群內(nèi)個體間具有相關(guān)性的思路,Legarra 等[14]提出了“元共祖”(metafounder)的概念。元共祖被假定為群體的原始開端,可以看成一個無窮大的配子池,所有配子具有共親關(guān)系(Coancestry Relationship),該共親系數(shù)被定義為γ/2。這些配子的共親關(guān)系是群體的固有屬性,只由該群體進化歷程所決定。該共親關(guān)系是有效群體規(guī)模Ne 的真實反映,其與γ之間關(guān)系:。有效群體規(guī)模越大,基礎(chǔ)群個體間親緣關(guān)系越遠,配子的共親關(guān)系越小[29]。系譜的基礎(chǔ)群個體全部來源于該元共祖中配子有重復(fù)抽樣的組合,由此基礎(chǔ)群個體之間產(chǎn)生了聯(lián)系,同一基礎(chǔ)群兩個體間加性遺傳關(guān)系等于元共祖自相關(guān)關(guān)系(selfrelationship),均為γ[14]。理論上,元共祖自相關(guān)關(guān)系只需要估計1 次,在日常遺傳評估中不需要重復(fù)估計。然而,隨著基因型信息的大量累積,該系數(shù)估計的準(zhǔn)確性理論上會增加,因此該系數(shù)也需要定期更新。
在傳統(tǒng)的基于系譜的親緣關(guān)系矩陣中,往往假設(shè)基礎(chǔ)群中的所有個體與自身的親緣關(guān)系為1,系譜中的其他個體間的親緣關(guān)系將遵循Emik 和Terrill 規(guī)則[30]:
式中,a 表示個體間的親緣關(guān)系,下標(biāo)d 和s 分別代表個體i 的母親和父親,j 的代數(shù)早于i。元共祖概念的引入幾乎無需改變此規(guī)則,僅僅需要將基礎(chǔ)群個體的自身親緣關(guān)系由1 變?yōu)?+γ/2,不同基礎(chǔ)群個體間親緣關(guān)系由0 變?yōu)棣眉纯蒣14]。據(jù)此,可以將系譜親緣關(guān)系A(chǔ)矩陣重新構(gòu)建為A(γ)陣。
在此基礎(chǔ)上,Legarra 等[14]將元共祖概念引入至SSGBLUP 中。他們重新構(gòu)建整合了基因型、系譜信息和元共祖信息的混合親緣關(guān)系矩陣H(γ)陣,并得到了其逆矩陣形式:
其中,基因型關(guān)系G矩陣的構(gòu)建方式與Vanraden[2]方法一基本一致,只需要將基礎(chǔ)群體等位基因頻率設(shè)置為0.5;A(γ)–1的構(gòu)建可以跳過先構(gòu)建A(γ)矩陣再求逆的方式,利用Henderson[31]法則,可直接構(gòu)建逆矩陣,只需將系譜的基礎(chǔ)群個體間親緣關(guān)系由0 改為γ[14]。
與Christensen[20]的方案相比,元共祖概念的創(chuàng)立和應(yīng)用有以下2 個優(yōu)勢:①元共祖可直接加入到系譜的起始位置,Henderson[31]直接構(gòu)建系譜逆矩陣法則仍可使用,極大簡化了[20]方案中復(fù)雜的計算過程,具有易操作性;②若自相關(guān)系數(shù)γ是依據(jù)群體的基因型和系譜信息所估算,則所建立系譜關(guān)系矩陣A(γ),能夠和基因型關(guān)系矩陣G直接自動兼容[14,32]。與一步法中,通過調(diào)整基因型關(guān)系矩陣,使之與系譜關(guān)系矩陣兼容相反,元共祖方法通過調(diào)整基于系譜的親緣關(guān)系矩陣,使之達到與基因型關(guān)系矩陣相兼容的目的[20,33]。此外,G矩陣的構(gòu)建使用固定基因型頻率0.5,無需推斷基礎(chǔ)群體的等位基因頻率;③當(dāng)同時分析多個群體時,因不同群體的元共祖間可能含有相同的配子,元共祖的概念可以很容易地從一個基礎(chǔ)群擴展到多個基礎(chǔ)群,不同的元共祖之間的親緣關(guān)系用矩陣表示,其中,γ1和γ2分別表示2 個元共祖自相關(guān)系數(shù),γ1,2和γ2,1表示2 個元共祖之間的相關(guān)系數(shù)。這樣一來,不同群體可通過元共祖相關(guān)將各系譜基礎(chǔ)群個體之間聯(lián)系起來,從而建立起貫穿多群體的系譜親緣關(guān)系A(chǔ)(Γ)矩陣,繼而可構(gòu)建含元共祖的整合基因型和系譜信息的親緣關(guān)系H(Γ)矩陣,將一步法的應(yīng)用擴展至多群體。
簡言之,與SSGBLUP 相比,元共祖的概念的創(chuàng)立解決了一步法中基礎(chǔ)群基因頻率未知問題,并實現(xiàn)了基因型親緣關(guān)系矩陣與系譜親緣關(guān)系矩陣的自動兼容。此外,元共祖使得各群體的基礎(chǔ)群產(chǎn)生聯(lián)系,使GS 一步法從單個群體擴展到多個群體,為跨群體聯(lián)合育種提供了新思路與方法。
元共祖概念問世不久,研究開展十分有限,但已有學(xué)者開展了相關(guān)應(yīng)用研究。含元共祖的基因組選擇一步法(MT-SSGBLUP)已顯現(xiàn)出其在基因組遺傳評估中的優(yōu)勢和巨大應(yīng)用潛力。
Garcia-Baccino 等[29]應(yīng) 用QMSim v1 軟 件[33]模擬了一個有效群體為3 000 的奶牛群體來比較多種不同GS 方法進行遺傳評估的準(zhǔn)確性。這個奶牛群體經(jīng)歷了100 代自然選擇,并在近10 代經(jīng)歷了方向性的人工選擇。每個個體由30 條染色體組成,每條染色體長度均假定為100 cM。每條染色體隨機分布了基因頻率相同的40 000 個等位基因,其中有1 500 個基因與一個遺傳力為0.3 的性狀相關(guān)聯(lián)。在10 代的人工選擇中,每代保留200 頭公牛與2 600 頭母牛,設(shè)計產(chǎn)生2 600 個子代,交配方案遵循估計育種值大小正向交配。個體的選留是依據(jù)BLUP 估計得到育種值,每代有40% 的公畜和20% 的母畜被更新。最終,獲得的10 代系譜中有28 800 個體,共有14 300 個體有表型記錄。所有的公牛(840 頭)和第9、10 代的5 200 頭母牛有基因型信息。Garcia-Baccino 等[29]比較了4 種遺傳評估方法的準(zhǔn)確性:①基于系譜的BLUP 方法(BLUP);②一步法(SSGBLUP),其中A–1沒有考慮近交;③考慮 A–1矩陣中近交情況的一步法(SSGBLUP_F);④基于元共祖的一步法(MT-SSGBLUP)。4 種方法中,SSGBLUP_F 和MT-SSGBLUP 的準(zhǔn)確性(均為0.74)優(yōu)于其他方法(BLUP 和SSGBLUP 分別為0.51 和0.72),同時BLUP 和MT-SSGBLUP 的無偏性優(yōu)于其他方法。因此,Garcia-Baccino 等[29]的結(jié)論是含元共祖的一步法(MT-SSGBLUP)比普通的一步法(SSGBLUP)可以獲得更高的遺傳評估的準(zhǔn)確性和更小的偏差。
除純種育種表現(xiàn)外,元共祖概念也被應(yīng)用在雜種育種值的估計中,Christensen 等[34]使用一步法對二元雜交系統(tǒng)中動物的純種表現(xiàn)和雜種表現(xiàn)進行基因組遺傳評估,并在2015 年元共祖概念問世后,將含元共祖的一步法發(fā)展到三元雜交系統(tǒng)[32],2017 年由Xiang 等[35]實現(xiàn)了元共祖方法在雜交系統(tǒng)中的應(yīng)用。Xiang 等[35]在丹系大白(YY),丹系長白(LL)和其雜交F1代群體(LY)中,應(yīng)用元共祖的方法對母豬的頭胎總產(chǎn)仔數(shù)性狀進行了遺傳評估,他們在二元雜交系統(tǒng)中,針對大白和長白豬,應(yīng)用了2 個元共祖。元共祖之間的相關(guān)關(guān)系用正定矩陣表示,其中γL和γY分別代表LL 和YY 品種內(nèi)的基礎(chǔ)群個體的親緣關(guān)系,γL,Y代表LL 和YY 品種間的基礎(chǔ)群個體之間的親緣關(guān)系。Xiang 等[35]通過一般廣義最小二乘法估計出γL=0.756,γY=0.730,γL,Y=0.259。與早先的一步法在二元雜交系統(tǒng)中的應(yīng)用[36]相比,引入元共祖的基因組遺傳評估不同之處在于:①使2 個純種群體從源頭開始真正產(chǎn)生關(guān)聯(lián),二者成為一個完整結(jié)合體,2 個純種群體之間出現(xiàn)了遺傳相關(guān),而不再是2 個基礎(chǔ)群個體間毫無關(guān)聯(lián),僅由雜交一代聯(lián)系起來的松散結(jié)構(gòu);②遺傳參數(shù)發(fā)生了改變,遺傳參數(shù)需要乘以(1-γ/2)才可以與傳統(tǒng)育種估計的遺傳參數(shù)相比較,但元共祖方法估計的遺傳參數(shù)更接近真實值[14,29]。類似地,van G 等[37]驗證了在豬的三元雜交系統(tǒng)中元共祖方法的優(yōu)越性,并發(fā)現(xiàn)與其他方法相比,元共祖方法能夠更好地收斂。在肉牛、肉羊的生產(chǎn)中,由于其物種起源復(fù)雜,雜交育種的遺傳評估不能有效進行,元共祖方法的出現(xiàn),給解決這個問題帶來新的希望[38]。
此外,元共祖方法還被應(yīng)用于群體中存在未知父母群(Unknown Parent Group,UPG)的基因組評估。Bradford 等[39]研究探討了奶牛群在不同類別UPG 存在的情況下,BLUP、SSGBLUP、MT-SSGBLUP 這3 個方法對遺傳力分別為0.3 和0.1 的性狀的應(yīng)用效果。研究將未知父母群體根據(jù)人工選擇群體的10 個世代分成了0~4 代(UPG1)、5~7 代(UPG2)、8~10 代(UPG3)3 個部分。由于設(shè)置了3 個UPG,相應(yīng)地,在元共祖方法中,也設(shè)置了3 個元共祖來構(gòu)建Γ矩陣,結(jié)果表明,對遺傳力為0.3 和0.1 的性狀,與BLUP 和SSGBLUP相比,元共祖方法均具有最高的準(zhǔn)確性。在擁有兩代完整系譜、系譜缺失公畜、系譜缺失母系祖母這3 種情況的偏差比較中,與SSGBLUP 方法相比,MTSSGBLUP 在此3 種情形的一致性最好,表明元共祖方法能夠更好地應(yīng)對系譜缺失的情況。當(dāng)存在缺失系譜時,BLUP、SSGBLUP 和元共祖3 種方法比較,最好的解決方案是用元共祖來模擬缺失的系譜,并提供合理的遺傳趨勢的預(yù)測[39]。Bradford 等[39]研究表明元共祖能夠有效減小系譜缺失帶來的評估結(jié)果偏差。Kudinov 等[40]的研究也證實,對單群體芬蘭紅奶牛公牛來說,UPG與MT-SSGBLUP 的GEBV 結(jié)果具有相同的可靠性,而在奶牛中沒有觀察到顯著差異。Granado-Tajada 等[41]則在Latxa 羊中應(yīng)用元共組模擬了缺失的系譜。這些研究證明該方法適用多種畜禽物種,在系譜不完整的數(shù)據(jù)集中,元共祖有望更好地解釋系譜缺失的親緣關(guān)系[39,42-43]。
元共祖概念的創(chuàng)立可使得不同群體間從基礎(chǔ)群開始就建立起依賴于系譜信息的關(guān)系矩陣,同時再結(jié)合基因型信息校正親緣關(guān)系,能夠充分利用所有有效個體的表型、系譜和基因型信息,使得群體間關(guān)系矩陣從被基因型測定個體擴展至所有擁有系譜記錄的個體,信息的充分利用將會使不同品系甚至不同品種的群體關(guān)聯(lián)起來,并有望促進一步法在豬聯(lián)合遺傳評估中全面開展。該方法有效地解決了因在中國單一豬養(yǎng)殖群體的規(guī)模往往有限,致使GS 的參考群體規(guī)模偏小,影響GS 的準(zhǔn)確性的問題[44-45]。通過元共組將多個群體關(guān)聯(lián),使它們產(chǎn)生了實際上的親緣關(guān)系,避免了為擴大參考群體直接將不同群體混合利用GBLUP 進行基因組遺傳評估對其準(zhǔn)確性的提高有限,甚至對豬的遺傳評估有弊的后果[44-46]。
元共祖概念的創(chuàng)立為我國在群體聯(lián)合育種推行過程中遇到的難題提供了新思路,必將成為我國未來畜禽遺傳評估中的一顆耀眼新星。