陳 雨,姜淑琴,孫炳蕊,潘大建,范芝蘭,陳文豐,李 晨
(1.廣東省農(nóng)科院水稻研究所/廣東省水稻育種新技術(shù)重點實驗室,廣東 廣州 510640;2.中國農(nóng)業(yè)大學農(nóng)學院,北京 100193)
品種(系)選育是遺傳改良的重要手段之一,在人類農(nóng)業(yè)生產(chǎn)中占著重要地位。傳統(tǒng)育種主要根據(jù)個體表型和個人經(jīng)驗,結(jié)合簡單的統(tǒng)計方法,對個體進行選擇,存在周期長、效率低、部分性狀難以測量等缺點。隨著遺傳學及分子生物學技術(shù)的發(fā)展,分子標記輔助選擇(marker-assisted selection,MAS)應運而生;育種工作者可以直接通過檢測分子標記,利用標記與目標性狀基因緊密連鎖的特點,選擇優(yōu)質(zhì)基因(型)或者強性狀優(yōu)勢個體[1]。MAS育種方法主要依賴于QTL定位的準確性,然而現(xiàn)有的QTL分析在尋找基因的廣度、深度和精度等方面尚有不足:一是基于雙親的作圖群體所含優(yōu)良目標基因有限[2],二是雖然對少量效應大的遺傳變異具有較好的適應性,但大部分重要的性狀還受大量微效基因的協(xié)同作用,且容易受環(huán)境的影響[3]。近年來,由于高通量測序技術(shù)的迅猛發(fā)展,開發(fā)了大量豐富且廉價的SNP標記,全基因組關(guān)聯(lián)分析(Genome-wide association study,GWAS)成為一種新型的MAS方法[4-5]。與QTL分析相比,GWAS通過對全基因組進行掃描,鑒定出與目標性狀有關(guān)聯(lián)的標記,不需要構(gòu)建專門的作圖群體,能同時檢測多個序列變異,實現(xiàn)QTL的精細定位[6]。但由于受群體結(jié)構(gòu)、因避免假陽性而采用嚴格顯著性閾值等因素的影響,只有少數(shù)顯著位點被利用。針對數(shù)量性狀由微效多基因控制這一育種問題,基因組選擇方法利用覆蓋全基因組的分子標記,對個體進行了遺傳評估與選擇。相對于GWAS,GS方法充分反映了目標性狀的遺傳變異,不需要做顯著性檢驗,即使標記效應微小,其導致的遺傳變異也能被捕獲。2001年Meuwissen等利用模擬數(shù)據(jù)通過GS方法對育種值的估計準確性達到85%[7]。本文對GS的原理和方法進行歸納,并基于影響GS的各種因素探討了提高選擇準確性的各種途徑,展望了GS在作物育種的應用前景,旨在為GS在作物育種中的應用提供一定的參考。
基因組選擇的概念最早由Haley和Visscher在第六屆世界遺傳學應用于畜牧生產(chǎn)國際會議上提出[8],并最早于2001年由Meuwissen等完善并應用于動物育種模擬數(shù)據(jù)分析中[7]。GS根據(jù)連鎖不平衡原理(linkage disequilibrium,LD),假設影響性狀的每個基因至少與一個標記緊密連鎖,從而用該標記間接反映基因的效應[9]。GS的實現(xiàn)主要分3個步驟:首先,對參與分析的所有個體,利用覆蓋其全基因組范圍的分子標記進行基因型分型、過濾,獲得基因型數(shù)據(jù);其次,選擇合適的訓練群體(Training Population,TP),調(diào)查其表型,根據(jù)表型和基因型數(shù)據(jù)構(gòu)建數(shù)學模型,估計每個分子標記的效應;再次,利用這些效應值對僅有基因型數(shù)據(jù)的育種群體(Breeding Population,BP)估計其對應的基因組育種值(Genomic Estimated Breeding Value,GEBV),并篩選出育種值較大的個體?;蚪M選擇考慮了全基因組范圍的SNP標記,有效地提高了選擇的準確性,尤其是對低遺傳力的數(shù)量性狀[10]?;蚪M選擇不需要測量所有個體的表型,可以同時對多個性狀進行選擇,顯著地提高了育種效率,降低成本。
基因組選擇的核心是育種值的估計,目前用于GS的方法主要分3類。
BLUP主要是通過系譜構(gòu)建個體親緣關(guān)系矩陣A,然后基于表型和系譜A,利用混合線性模型(Mixed Linear Model,MLM)計算個體的估計育種值(Estimated Breeding Value,EBV)。目前基于BLUP的GS方法主要有兩種:一種是通過已測定的基因型計算個體間的相關(guān)關(guān)系矩陣G,然后用G代替系譜關(guān)系矩陣A,估算個體的育種值,即GBLUP(Genomic Best Linear Unbiased Prediction)方法[11];另一種是基于等位基因效應的RRBLUP(Ridge Regression Best Linear Unbiased Prediction),該法將標記效應作為隨機效應,假定標記效應服從標準正態(tài)分布,有共同的方差,然后利用混合模型求解,每個個體的育種值等于其所在基因組標記效應的總和[7]。全基因組選擇中因變量數(shù)p(標記數(shù))往往大于反應變量數(shù)n(個體數(shù)),這種情況下常規(guī)的最小二乘估計法預測能力較低,很可能導致多重共線性和過度擬合[12],嶺回歸就是一種專用于共線性數(shù)據(jù)分析的改良最小二乘法,用于提高預測的準確性。當個體效應矩陣等于標記系數(shù)矩陣與標記效應乘積時,GBLUP與RRBLUP等同。
在全基因組SNP中,并不是所有標記方差都相同。另外,只有少數(shù)SNP與影響性狀的QTL連鎖,其效應值或大或?。欢鄶?shù)SNP與QTL不連鎖,沒有效應[13]?;诖?,研究者提出了Bayes方法[7]。BayesA假設每個SNP都有特定的方差,且方差服從逆卡方分布;BayesB對標記進行了選擇,認為大部分位點(π)沒有遺傳方差,而少數(shù)標記(1-π)有各自不同的效應方差,方差服從逆卡方分布[7];BayesC將π作為未知參數(shù),假定其服從均勻分布U(0,1);BayesCπ在BayesC的基礎(chǔ)上,假定標記效應方差相同;BayesDπ在BayesC的基礎(chǔ)上,將逆卡方分布中的尺度參數(shù)作為未知參數(shù)[14];貝葉斯壓縮法(Bayesian least absolute shrinkage and selection operator,Bayesian LASSO)相對于BayesB來說,假定標記效應服從雙指數(shù)分布[15]。根據(jù)以上的描述發(fā)現(xiàn),貝葉斯方法的改進主要是在經(jīng)典BayesA和BayesB的基礎(chǔ)上,或優(yōu)化參數(shù),或變更標記效應先驗分布。貝葉斯方法在某些性狀上優(yōu)于BLUP方法[7,16],但仍存在計算時間長、先驗分布超參數(shù)優(yōu)化等問題。
目前常用的GS機器學習方法主要有支持向量機(support vector machine,SVM)、隨機森林(Random Forest,RF)、人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)等[17-18]。機器學習不需要假設標記效應的分布和方差,依靠訓練和學習過程,挖掘事物內(nèi)部存在的規(guī)律,考慮了標記間的線性及非線性關(guān)系,在某些性狀上優(yōu)于傳統(tǒng)參數(shù)方法[17,19]。盡管如此,GS方法預測效果依然無法令人完全滿意,仍需根據(jù)不同的情況進行改進,并依據(jù)不同的標記、不同的性狀等選擇不同的方法。
影響GS預測準確性的主要因素有統(tǒng)計方法、標記密度和類型、性狀遺傳力的大小、訓練群體的大小、訓練群體和育種群體之間的關(guān)系、連鎖不平衡程度等。其基本公式表述如下[20]:
GS的原理是利用與基因或QTL緊密連鎖的標記,用標記效應反映基因效應,因而篩選標記的方法主要有:根據(jù)LD值過濾冗余SNP或者選擇tag SNP或者block tag SNP,利用GWAS篩選與性狀顯著相關(guān)的significant SNP。另外,標記密度越高,預測的準確性越大;標記的密度主要決定于LD的跨度及樣本大小,異花授粉植物的LD跨度低于自花授粉,需要更高密度的分子標記,標記密度玉米>高粱>水稻[21]。當標記達到一定數(shù)目時,預測準確性處于平衡狀態(tài),而后增加或減少標記數(shù)目,可能會降低準確性[22]。標記的類型對GS預測的準確性有很大的影響。單倍型是由數(shù)個相鄰SNP組成,更能捕獲QTL,優(yōu)于SNP標記模型,但是當LD程度足夠大時,兩者之間沒差別[23]。但是SNP等位基因具有二態(tài)性,其結(jié)果的重復性較好,且使用起來更方便。
對于訓練群體的選擇主要考慮TP的遺傳結(jié)構(gòu)、TP的大小、TP與BP的親緣關(guān)系遠近。TP的遺傳多樣性越豐富,預測準確性越高[24]。由于自交繁殖或者雙親雜交產(chǎn)生后代等因素,植物種群的遺傳基礎(chǔ)較動物狹窄,動物需要的訓練群體大于植物;自然群體樣本大于雙親群體。群體結(jié)構(gòu)是影響GS預測準確性的一個重要因素。Isidro等[25]和Giovanny[26]闡述了基因組選擇過程中如何在考慮群體結(jié)構(gòu)的情況下選擇最優(yōu)訓練集,包括隨機抽樣法、基于PCA的相似法、最大決定系數(shù)平均值法、最小預測誤差方差平均值法、混合法等。結(jié)果表明,不同的作物、不同的性狀、不同的群體結(jié)構(gòu),最優(yōu)訓練集的選擇標準不一樣。另外,TP和BP相關(guān)越強,預測的準確性越高。研究表明,對于多親本的小麥單交群體,以下群體預測的準確性從高到低依次為TP與BP來源于共同父母本、TP與BP共享雙親之一、TP與BP沒有共同雙親[27]。
目前常用于GS預測的模型其準確性取決于個體間相關(guān)關(guān)系、分子標記效應及方差的假設分布。不同的群體、不同的性狀、不同的模型,其準確性不同。模擬數(shù)據(jù)研究表明,準確性BayesB>BayesA>RRBLUP[7]。在抗小麥銹病育種中,Bayesian Lasso和RRBLUP比SVM模型表現(xiàn)更好[28]。對于BLUP法,考慮到混合線性模型對具有較大效應的標記效應收縮得厲害,可以將此類標記作為固定效應,在一定程度上可以提高預測準確性。研究發(fā)現(xiàn),將GWAS分析篩選出來的顯著與性狀相關(guān)的標記作為固定效應,放入GS模型中可以提高GEBV的準確性,尤其是GBLUP法[26,29-30]。另外,結(jié)合GWAS結(jié)果提供的信息構(gòu)建標記權(quán)重對角矩陣,不同的SNP賦予不同的權(quán)重,并將所有標記分為兩組,一組位于已關(guān)聯(lián)到的QTL區(qū)域標記,一組為未關(guān)聯(lián)到的標記)也可以提高GEBV的準確性[31]。GS估計育種值往往只考慮加性效應,但是標記間可能存在一定的相關(guān)性,存在上位效應,并且對于F1群體,還需要考慮到顯性效應。當非加性遺傳方差存在時,在模型中如不加以考慮,將會高估加性效應。研究表明,當顯性方差占表型總方差的比例達到0.2,包含加性和顯性效應的預測模型顯著優(yōu)于加性模型[32]。GBLUP和傳統(tǒng)的BLUP法分別從基因組和系譜的角度計算了個體間的相關(guān)關(guān)系,對于既有系譜關(guān)系又有基因組數(shù)據(jù)的群體,可以考慮將系譜和基因組數(shù)據(jù)相結(jié)合,完善關(guān)系矩陣,提高GEBV的準確性。從性狀表型的角度考慮,對于那些不符合正態(tài)分布或者離散型性狀,我們還可以考慮廣義混合線性模型用于提高預測的準確性。
自基因組選擇的概念提出以來,GS方法在動物育種中應用越來越廣泛,如小鼠、牛、雞等,尤其是奶牛,在全球各國的奶牛產(chǎn)業(yè)中均得到應用[33-36]。近年來,GS在植物育種中也逐漸引起了重視,已相繼開展了多種作物的GS模擬和驗證實驗,2007年P(guān)iyasatian等[37]用自交系雜交模擬了選擇效率,結(jié)果表明GS效率高于傳統(tǒng)的MAS。GS在玉米育種中使用最為廣泛,Riedelsheimer等[38]、Zhao等[39]、Guo[40]等在玉米自交、測交、雜交F1、RIL等群體中,使用RRBLUP模型,針對玉米籽粒含水量、產(chǎn)量、一般配合力(General Combining Ability,GCA)、代謝物含量等性狀,對個體GEBV進行了估計。GS在小麥育種中也有較多的涉獵,如Heffner等[22]的研究表明,在小麥雙親育種群體中,隨著高通量基因型分型技術(shù)的發(fā)展,GS較表型選擇和傳統(tǒng)MAS節(jié)約成本、縮短育種年限;Crossa等[41]對599個小麥品系產(chǎn)量進行GS分析,結(jié)果表明GS比傳統(tǒng)的BLUP預測能力提高了7.7%~35.7%;Zhao等[42]利用RRBLUP、BayesA、BayesB、BayesC以及BayesCπ方法,考慮加性和顯性效應,對90個小麥雜交種進行了GS分析。GS在水稻、大麥、甘蔗等其他作物中也有研究報道[43-45]。
基因組選擇方法的主要目的是對個體育種值進行準確的估計。針對不同的群體,GS還可以用于對所有遺傳變異和遺傳效應進行檢測和估計[46],以及雜種優(yōu)勢的預測[47]。TP與BP親緣關(guān)系越近,GS預測準確性越高。對與TP間隔世代的BP進行預測,GS仍具有一定的預測力。研究表明,在與BP間隔3代以內(nèi),GS準確率每世代下降約5%[7],3代以后再重新估計標記效應。利用GS還可以對個體的適應性及穩(wěn)產(chǎn)性進行估計。農(nóng)業(yè)生產(chǎn)中對品種的評價,不僅需要考慮高產(chǎn)性,還需要考慮適應性及穩(wěn)產(chǎn)型。GS在作物育種中的應用前景廣闊,但其發(fā)展仍處于初級階段,面臨著眾多挑戰(zhàn),如不同的群體需要選擇不同的模型,基于基因與環(huán)境的互作、群體結(jié)構(gòu)等因素需要改善模型等,這些都需要進一步完善?;谝陨峡偨Y(jié)和探索,可以考慮構(gòu)建一個GS平臺,一方面加強與各單位的合作,收集的豐富的表型和基因型數(shù)據(jù);另一方面,可以收集已有的QTL信息,改善模型,將其融入GS分析當中。GS平臺的目的不僅用于育種值的估計,還可用作遺傳變異和效應估計、雜種優(yōu)勢預測、品種評價。
[1]Xu Y B,Crouch J H.Marker-assisted selection in plant breeding:from publications to practice[J].Crop Science,2008,48(2):391-407.
[2]孔繁玲.植物數(shù)量遺傳學[M].北京:中國農(nóng)業(yè)大學出版社,2006.
[3]Rex B.Molecular markers and selection for complex traits in plants:learning from the last 20 years[J].Crop Science,2008,48(5):1649-1664.
[4]Atwell S,Huang Y S,Vilhjalmsson B J,et al.Genome-wide association study of 107 phenotypes in a common set of Arabidopsis thaliana inbred lines[J].Nature,2010,465(7298):627-631.
[5]Huang X H,Zhao Y,Wei X H,et al.Genomewide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm[J].Nature Genetics,2012,44(1):32-39.
[6]Zhu C S,Michael G,Yu J M,et al.Status and prospects of association mapping in plants[J].The Plant Genome,2008,1(1):5-20.
[7]Meuwissen T H E,Hayes B J,Goddard M E.Prediction of total genetic value using genomewide dense marker maps[J].Genetics,2001,157(4):1819-1829.
[8]Meuwissen T H E.Genomic selection:marker assisted selection on a genome wide scale[J].Journal of Animal Breeding and Genetics,2007,124(6):321-322.
[9]Goddard M E,Hayes B J.Mapping genes for complex traits in domestic animals and their use in breeding programmes[J].Nature Reviews Genetics,2009,10(6):381-391.
[10]Resende R M S,Casler M D,de Resende M D V.Genomic selection in forage breeding:accuracy and methods[J].Crop Science,2014,54(1):143-156.
[11]VanRaden P M.Efficient methods to compute genomic predictions[J].Journal of Dairy Science,2008,91(11):4414-4423.
[12]唐金梅,陳建國.全基因組選擇在植物育種中的研究進展[J].貴州農(nóng)業(yè)科學,2016,44(8):1-5.
[13]王重龍,丁向東,劉劍鋒,等.基因組育種值估計的貝葉斯方法[J].Hereditas(Beijing),2014,36(2):111-118.
[14]Habier D,F(xiàn)ernando R L,Kizilkaya K,et al.Extension of the bayesian alphabet for genomic selection[J].BMC Bioinformatics,2011,12(1):1-12.
[15]Yi N J,Xu S Z.Bayesian LASSO for quantitative trait loci mapping[J].Genetics,2008,179(2):1045-1055.
[16]Moser G,Tier B,Crump R E,et al.A comparison of five methods to predict genomic breeding values of dairy bulls from genome-wide SNP markers[J].Genetics Selection Evolution,2009,41(1):1-16.
[17]Ornella L,Perez P,Tapia E,et al.Genomicenabled prediction with classification algorithms[J].Heredity,2014,112(6):616-626.
[18]Ogutu J O,Piepho H P,Schulz-Streeck T.A comparison of random forests,boosting and support vector machines for genomic selection[J].BMC Proceedings,2011,5(3):1-5.
[19]束永俊,吳磊,王丹,等.人工神經(jīng)網(wǎng)絡在作物基因組選擇中的應用[J].作物學報,2011,37(12):2179-2186.
[20]Daetwyler H D,Pongwong R,Villanueva B,et al.The impact of genetic architecture on genomewide evaluation methods[J].Genetics,2010,185(3):1021-1031.
[21]Gupta P K,Rustgi S,Kulwal P L.Linkage disequilibrium and association studies in higher plants:present status and future prospects[J].Plant Molecular Biology,2005,57(4):461-485.
[22]Heffner E L,Jannink J L,Iwata H,et al.Genomic selection accuracy for grain quality traits in biparental wheat populations[J].Crop Science,2011,51:2597-2606.
[23]Calus M P L,Veerkamp R F.Accuracy of breeding values when using and ignoring the polygenic effect in genomic breeding value estimation with a marker density of one SNP per cM[J].Journal of Animal Breeding and Genetics,2007,124(6):362-368.
[24]Heslot N,Yang H P,Sorrells M E,et al.Genomic selection in plant breeding:a comparison of models[J].Crop Science,2012,52:146-160.
[25]Isidro J,Jannink J L,Akdemir D,et al.Training set optimization under population structure in genomic selection[J].Theoretical and Applied Genetics,2015,128(1):145-158.
[26]Giovanny C P.Genome-assisted prediction of quantitative traits using the R package sommer[J].Plos One,2016,11(6):1-15.
[27]Technow F,Schrag T A,Schipprack W,et al.Genome properties and prospects of genomic prediction of hybrid performance in a breeding program of maize[J].Genetics,2014,197(4):1343-1355.
[28]Ornella L,Sukhwinder S,Perez P,et al.Genomic prediction of genetic values for resistance to wheat rusts[J].The Plant Genome,2012,5(3):136-148.
[29]Rex B.Genomewide selection when major genes are known[J].Crop Science,2014,54(1):68-75.
[30]Abdollahi-Arpanahi R,Morota G,Valente B D,et al.Assessment of bagging GBLUP for wholegenome prediction of broiler chicken traits[J].Journal of Animal Breeding and Genetics,2015,132(3):218-228.
[31]Zhang Z,Ober U,Erbe M,et al.Improving the accuracy of whole genome prediction for complex traits using the results of genome wide association studies[J].Plos One,2014,9(3):1-12.
[32]de Almeida Filho J E,Guimaraes J F R,e Silva F F,et al.The contribution of dominance to phenotype prediction in a pine breeding and simulated population[J].Heredity,2016,117(1):33-41.
[33]Legarra A,Robert-Granie C,Manfredi E,et al.Performance of genomic selection in mice [J].Genetics,2008,180(1):611-618.
[34]Hayes B J,Bowman P J,Goddard M E,et al.Invited review:genomic selection in dairy cattle:progress and challenges[J].Journal of Dairy Science,2009,92(2):433-443.
[35]Chen C Y,Misztal I,Aguilar I,et al.Genomewide marker-assisted selection combining all pedigree phenotypic information with genotypic data in one step:an example using broiler chickens[J].Journal of Animal Science,2011,89(1):23-28.
[36]Loberg A,Durr J W.Interbull survey on the use of genomic information[J].Interbull Bull,2009,39:3-14.
[37]Piyasatian N,F(xiàn)ernando R L,Dekkers J C M.Genomic selection for marker-assisted improvement in line crosses[J].Theoretical and Applied Genetics,2007,115(5):665-674.
[38]Riedelsheimer C,Czedik-EysenbergA,Grieder C,et al.Genomic and metabolic prediction of complex heterotic traits in hybrid maize[J].Nature Genetics,2012,44(2):217-220.
[39]Zhao Y S,Gowda M,Liu W X,et al.Accuracy of genomic selection in European maize elite breeding populations[J].Theoretical and Applied Genetics,2012,124(4):769-776.
[40]Guo T T,Li H H,Yan J B,et al.Performance prediction of F1 hybrids between recombinant inbred lines[J].Theoretical and Applied Genetics,2013,126(1):189-201.
[41]Crossa J,de losCampos G,Perez P,et al.Prediction of genetic values of quantitative traits in plant breeding using pedigree and molecular markers[J].Genetics,2010,186(2):713-724.[42]Zhao Y S,Zeng J,F(xiàn)ernando R L,et al.Genomic prediction of hybrid wheat performance[J].Crop Science,2013,53(3):802-810.
[43]Xu S Z,Zhu D,Zhang Q F.Predicting hybrid performance in rice using genomic best linear unbiased prediction[J].PNAS,2014,111(34):12456-12461.
[44]Zhong S Q,Dekkers J C M,F(xiàn)ernando R L,et al.Factors affecting accuracy from genomic selection in populations derived from multiple inbred lines:a barley case study[J].Genetics,2009,182(1):355-364.
[45]Gouy M,Rousselle Y,Bastianelli D,et al.Experimental assessment of the accuracy of genomic selection in sugarcane[J].Theoretical and Applied Genetics,2013,126(10):2575-2586.
[46]Vitezica Z G,Varona L,Legarra A.On the additive and dominant variance and covariance of individuals within the genomic selection scope[J].Genetics,2013,195(4):1223-1230.
[47]Zhao Y S,Li Z,Liu G Z,et al.Genome-based establishment of a high-yielding heterotic pattern for hybrid wheat breeding[J].PNAS,2015,112(51):15624-15629.