基因組選擇及其在作物育種中的應用

2018-01-16 18:38姜淑琴孫炳蕊潘大建范芝蘭陳文豐

廣東農(nóng)業(yè)科學 2017年9期

陳雨，姜淑琴，孫炳蕊，潘大建，范芝蘭，陳文豐，李晨

（1.廣東省農(nóng)科院水稻研究所/廣東省水稻育種新技術(shù)重點實驗室，廣東廣州 510640；2.中國農(nóng)業(yè)大學農(nóng)學院，北京 100193）

品種（系）選育是遺傳改良的重要手段之一，在人類農(nóng)業(yè)生產(chǎn)中占著重要地位。傳統(tǒng)育種主要根據(jù)個體表型和個人經(jīng)驗，結(jié)合簡單的統(tǒng)計方法，對個體進行選擇，存在周期長、效率低、部分性狀難以測量等缺點。隨著遺傳學及分子生物學技術(shù)的發(fā)展，分子標記輔助選擇（marker-assisted selection，MAS）應運而生；育種工作者可以直接通過檢測分子標記，利用標記與目標性狀基因緊密連鎖的特點，選擇優(yōu)質(zhì)基因（型）或者強性狀優(yōu)勢個體［1］。MAS育種方法主要依賴于QTL定位的準確性，然而現(xiàn)有的QTL分析在尋找基因的廣度、深度和精度等方面尚有不足：一是基于雙親的作圖群體所含優(yōu)良目標基因有限［2］，二是雖然對少量效應大的遺傳變異具有較好的適應性，但大部分重要的性狀還受大量微效基因的協(xié)同作用，且容易受環(huán)境的影響［3］。近年來，由于高通量測序技術(shù)的迅猛發(fā)展，開發(fā)了大量豐富且廉價的SNP標記，全基因組關(guān)聯(lián)分析（Genome-wide association study，GWAS）成為一種新型的MAS方法［4-5］。與QTL分析相比，GWAS通過對全基因組進行掃描，鑒定出與目標性狀有關(guān)聯(lián)的標記，不需要構(gòu)建專門的作圖群體，能同時檢測多個序列變異，實現(xiàn)QTL的精細定位［6］。但由于受群體結(jié)構(gòu)、因避免假陽性而采用嚴格顯著性閾值等因素的影響，只有少數(shù)顯著位點被利用。針對數(shù)量性狀由微效多基因控制這一育種問題，基因組選擇方法利用覆蓋全基因組的分子標記，對個體進行了遺傳評估與選擇。相對于GWAS，GS方法充分反映了目標性狀的遺傳變異，不需要做顯著性檢驗，即使標記效應微小，其導致的遺傳變異也能被捕獲。2001年Meuwissen等利用模擬數(shù)據(jù)通過GS方法對育種值的估計準確性達到85%［7］。本文對GS的原理和方法進行歸納，并基于影響GS的各種因素探討了提高選擇準確性的各種途徑，展望了GS在作物育種的應用前景，旨在為GS在作物育種中的應用提供一定的參考。

1 基因組選擇的原理和基本策略

基因組選擇的概念最早由Haley和Visscher在第六屆世界遺傳學應用于畜牧生產(chǎn)國際會議上提出［8］，并最早于2001年由Meuwissen等完善并應用于動物育種模擬數(shù)據(jù)分析中［7］。GS根據(jù)連鎖不平衡原理（linkage disequilibrium，LD），假設影響性狀的每個基因至少與一個標記緊密連鎖，從而用該標記間接反映基因的效應［9］。GS的實現(xiàn)主要分3個步驟：首先，對參與分析的所有個體，利用覆蓋其全基因組范圍的分子標記進行基因型分型、過濾，獲得基因型數(shù)據(jù)；其次，選擇合適的訓練群體（Training Population，TP），調(diào)查其表型，根據(jù)表型和基因型數(shù)據(jù)構(gòu)建數(shù)學模型，估計每個分子標記的效應；再次，利用這些效應值對僅有基因型數(shù)據(jù)的育種群體（Breeding Population，BP）估計其對應的基因組育種值（Genomic Estimated Breeding Value，GEBV），并篩選出育種值較大的個體?；蚪M選擇考慮了全基因組范圍的SNP標記，有效地提高了選擇的準確性，尤其是對低遺傳力的數(shù)量性狀［10］?；蚪M選擇不需要測量所有個體的表型，可以同時對多個性狀進行選擇，顯著地提高了育種效率，降低成本。

2 育種值估計方法

基因組選擇的核心是育種值的估計，目前用于GS的方法主要分3類。

2.1 基于混合線性模型的BLUP（Best Linear Unbiased Prediction）方法

BLUP主要是通過系譜構(gòu)建個體親緣關(guān)系矩陣A，然后基于表型和系譜A，利用混合線性模型（Mixed Linear Model，MLM）計算個體的估計育種值（Estimated Breeding Value，EBV）。目前基于BLUP的GS方法主要有兩種：一種是通過已測定的基因型計算個體間的相關(guān)關(guān)系矩陣G，然后用G代替系譜關(guān)系矩陣A，估算個體的育種值，即GBLUP（Genomic Best Linear Unbiased Prediction）方法［11］；另一種是基于等位基因效應的RRBLUP（Ridge Regression Best Linear Unbiased Prediction），該法將標記效應作為隨機效應，假定標記效應服從標準正態(tài)分布，有共同的方差，然后利用混合模型求解，每個個體的育種值等于其所在基因組標記效應的總和［7］。全基因組選擇中因變量數(shù)p（標記數(shù)）往往大于反應變量數(shù)n（個體數(shù)），這種情況下常規(guī)的最小二乘估計法預測能力較低，很可能導致多重共線性和過度擬合［12］，嶺回歸就是一種專用于共線性數(shù)據(jù)分析的改良最小二乘法，用于提高預測的準確性。當個體效應矩陣等于標記系數(shù)矩陣與標記效應乘積時，GBLUP與RRBLUP等同。

2.2 基于MCMC（Markov chain Monte Carlo）和Gibbs抽樣的貝葉斯（Bayes）方法

在全基因組SNP中，并不是所有標記方差都相同。另外，只有少數(shù)SNP與影響性狀的QTL連鎖，其效應值或大或?。欢鄶?shù)SNP與QTL不連鎖，沒有效應［13］?；诖?，研究者提出了Bayes方法［7］。BayesA假設每個SNP都有特定的方差，且方差服從逆卡方分布；BayesB對標記進行了選擇，認為大部分位點（π）沒有遺傳方差，而少數(shù)標記（1-π）有各自不同的效應方差，方差服從逆卡方分布［7］；BayesC將π作為未知參數(shù)，假定其服從均勻分布U（0，1）；BayesCπ在BayesC的基礎(chǔ)上，假定標記效應方差相同；BayesDπ在BayesC的基礎(chǔ)上，將逆卡方分布中的尺度參數(shù)作為未知參數(shù)［14］；貝葉斯壓縮法（Bayesian least absolute shrinkage and selection operator，Bayesian LASSO）相對于BayesB來說，假定標記效應服從雙指數(shù)分布［15］。根據(jù)以上的描述發(fā)現(xiàn)，貝葉斯方法的改進主要是在經(jīng)典BayesA和BayesB的基礎(chǔ)上，或優(yōu)化參數(shù)，或變更標記效應先驗分布。貝葉斯方法在某些性狀上優(yōu)于BLUP方法［7，16］，但仍存在計算時間長、先驗分布超參數(shù)優(yōu)化等問題。

2.3 人工智能領(lǐng)域的機器學習方法

目前常用的GS機器學習方法主要有支持向量機（support vector machine，SVM）、隨機森林（Random Forest，RF）、人工神經(jīng)網(wǎng)絡（Artificial Neural Network，ANN）等［17-18］。機器學習不需要假設標記效應的分布和方差，依靠訓練和學習過程，挖掘事物內(nèi)部存在的規(guī)律，考慮了標記間的線性及非線性關(guān)系，在某些性狀上優(yōu)于傳統(tǒng)參數(shù)方法［17，19］。盡管如此，GS方法預測效果依然無法令人完全滿意，仍需根據(jù)不同的情況進行改進，并依據(jù)不同的標記、不同的性狀等選擇不同的方法。

3 GS的影響因素

影響GS預測準確性的主要因素有統(tǒng)計方法、標記密度和類型、性狀遺傳力的大小、訓練群體的大小、訓練群體和育種群體之間的關(guān)系、連鎖不平衡程度等。其基本公式表述如下［20］：

3.1 標記的選擇

GS的原理是利用與基因或QTL緊密連鎖的標記，用標記效應反映基因效應，因而篩選標記的方法主要有：根據(jù)LD值過濾冗余SNP或者選擇tag SNP或者block tag SNP，利用GWAS篩選與性狀顯著相關(guān)的significant SNP。另外，標記密度越高，預測的準確性越大；標記的密度主要決定于LD的跨度及樣本大小，異花授粉植物的LD跨度低于自花授粉，需要更高密度的分子標記，標記密度玉米＞高粱＞水稻［21］。當標記達到一定數(shù)目時，預測準確性處于平衡狀態(tài)，而后增加或減少標記數(shù)目，可能會降低準確性［22］。標記的類型對GS預測的準確性有很大的影響。單倍型是由數(shù)個相鄰SNP組成，更能捕獲QTL，優(yōu)于SNP標記模型，但是當LD程度足夠大時，兩者之間沒差別［23］。但是SNP等位基因具有二態(tài)性，其結(jié)果的重復性較好，且使用起來更方便。

3.2 訓練群體

對于訓練群體的選擇主要考慮TP的遺傳結(jié)構(gòu)、TP的大小、TP與BP的親緣關(guān)系遠近。TP的遺傳多樣性越豐富，預測準確性越高［24］。由于自交繁殖或者雙親雜交產(chǎn)生后代等因素，植物種群的遺傳基礎(chǔ)較動物狹窄，動物需要的訓練群體大于植物；自然群體樣本大于雙親群體。群體結(jié)構(gòu)是影響GS預測準確性的一個重要因素。Isidro等［25］和Giovanny［26］闡述了基因組選擇過程中如何在考慮群體結(jié)構(gòu)的情況下選擇最優(yōu)訓練集，包括隨機抽樣法、基于PCA的相似法、最大決定系數(shù)平均值法、最小預測誤差方差平均值法、混合法等。結(jié)果表明，不同的作物、不同的性狀、不同的群體結(jié)構(gòu)，最優(yōu)訓練集的選擇標準不一樣。另外，TP和BP相關(guān)越強，預測的準確性越高。研究表明，對于多親本的小麥單交群體，以下群體預測的準確性從高到低依次為TP與BP來源于共同父母本、TP與BP共享雙親之一、TP與BP沒有共同雙親［27］。

3.3 統(tǒng)計方法

目前常用于GS預測的模型其準確性取決于個體間相關(guān)關(guān)系、分子標記效應及方差的假設分布。不同的群體、不同的性狀、不同的模型，其準確性不同。模擬數(shù)據(jù)研究表明，準確性BayesB＞BayesA＞RRBLUP［7］。在抗小麥銹病育種中，Bayesian Lasso和RRBLUP比SVM模型表現(xiàn)更好［28］。對于BLUP法，考慮到混合線性模型對具有較大效應的標記效應收縮得厲害，可以將此類標記作為固定效應，在一定程度上可以提高預測準確性。研究發(fā)現(xiàn)，將GWAS分析篩選出來的顯著與性狀相關(guān)的標記作為固定效應，放入GS模型中可以提高GEBV的準確性，尤其是GBLUP法［26，29-30］。另外，結(jié)合GWAS結(jié)果提供的信息構(gòu)建標記權(quán)重對角矩陣，不同的SNP賦予不同的權(quán)重，并將所有標記分為兩組，一組位于已關(guān)聯(lián)到的QTL區(qū)域標記，一組為未關(guān)聯(lián)到的標記）也可以提高GEBV的準確性［31］。GS估計育種值往往只考慮加性效應，但是標記間可能存在一定的相關(guān)性，存在上位效應，并且對于F1群體，還需要考慮到顯性效應。當非加性遺傳方差存在時，在模型中如不加以考慮，將會高估加性效應。研究表明，當顯性方差占表型總方差的比例達到0.2，包含加性和顯性效應的預測模型顯著優(yōu)于加性模型［32］。GBLUP和傳統(tǒng)的BLUP法分別從基因組和系譜的角度計算了個體間的相關(guān)關(guān)系，對于既有系譜關(guān)系又有基因組數(shù)據(jù)的群體，可以考慮將系譜和基因組數(shù)據(jù)相結(jié)合，完善關(guān)系矩陣，提高GEBV的準確性。從性狀表型的角度考慮，對于那些不符合正態(tài)分布或者離散型性狀，我們還可以考慮廣義混合線性模型用于提高預測的準確性。

4 基因組選擇在作物育種中的應用

自基因組選擇的概念提出以來，GS方法在動物育種中應用越來越廣泛，如小鼠、牛、雞等，尤其是奶牛，在全球各國的奶牛產(chǎn)業(yè)中均得到應用［33-36］。近年來，GS在植物育種中也逐漸引起了重視，已相繼開展了多種作物的GS模擬和驗證實驗，2007年P(guān)iyasatian等［37］用自交系雜交模擬了選擇效率，結(jié)果表明GS效率高于傳統(tǒng)的MAS。GS在玉米育種中使用最為廣泛，Riedelsheimer等［38］、Zhao等［39］、Guo［40］等在玉米自交、測交、雜交F1、RIL等群體中，使用RRBLUP模型，針對玉米籽粒含水量、產(chǎn)量、一般配合力（General Combining Ability，GCA）、代謝物含量等性狀，對個體GEBV進行了估計。GS在小麥育種中也有較多的涉獵，如Heffner等［22］的研究表明，在小麥雙親育種群體中，隨著高通量基因型分型技術(shù)的發(fā)展，GS較表型選擇和傳統(tǒng)MAS節(jié)約成本、縮短育種年限；Crossa等［41］對599個小麥品系產(chǎn)量進行GS分析，結(jié)果表明GS比傳統(tǒng)的BLUP預測能力提高了7.7%～35.7%；Zhao等［42］利用RRBLUP、BayesA、BayesB、BayesC以及BayesCπ方法，考慮加性和顯性效應，對90個小麥雜交種進行了GS分析。GS在水稻、大麥、甘蔗等其他作物中也有研究報道［43-45］。

基因組選擇方法的主要目的是對個體育種值進行準確的估計。針對不同的群體，GS還可以用于對所有遺傳變異和遺傳效應進行檢測和估計［46］，以及雜種優(yōu)勢的預測［47］。TP與BP親緣關(guān)系越近，GS預測準確性越高。對與TP間隔世代的BP進行預測，GS仍具有一定的預測力。研究表明，在與BP間隔3代以內(nèi)，GS準確率每世代下降約5%［7］，3代以后再重新估計標記效應。利用GS還可以對個體的適應性及穩(wěn)產(chǎn)性進行估計。農(nóng)業(yè)生產(chǎn)中對品種的評價，不僅需要考慮高產(chǎn)性，還需要考慮適應性及穩(wěn)產(chǎn)型。GS在作物育種中的應用前景廣闊，但其發(fā)展仍處于初級階段，面臨著眾多挑戰(zhàn)，如不同的群體需要選擇不同的模型，基于基因與環(huán)境的互作、群體結(jié)構(gòu)等因素需要改善模型等，這些都需要進一步完善?；谝陨峡偨Y(jié)和探索，可以考慮構(gòu)建一個GS平臺，一方面加強與各單位的合作，收集的豐富的表型和基因型數(shù)據(jù)；另一方面，可以收集已有的QTL信息，改善模型，將其融入GS分析當中。GS平臺的目的不僅用于育種值的估計，還可用作遺傳變異和效應估計、雜種優(yōu)勢預測、品種評價。

［1］Xu Y B，Crouch J H.Marker-assisted selection in plant breeding：from publications to practice［J］.Crop Science，2008，48（2）：391-407.

［2］孔繁玲.植物數(shù)量遺傳學［M］.北京：中國農(nóng)業(yè)大學出版社，2006.

［3］Rex B.Molecular markers and selection for complex traits in plants：learning from the last 20 years［J］.Crop Science，2008，48（5）：1649-1664.

［4］Atwell S，Huang Y S，Vilhjalmsson B J，et al.Genome-wide association study of 107 phenotypes in a common set of Arabidopsis thaliana inbred lines［J］.Nature，2010，465（7298）：627-631.

［5］Huang X H，Zhao Y，Wei X H，et al.Genomewide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm［J］.Nature Genetics，2012，44（1）：32-39.

［6］Zhu C S，Michael G，Yu J M，et al.Status and prospects of association mapping in plants［J］.The Plant Genome，2008，1（1）：5-20.

［7］Meuwissen T H E，Hayes B J，Goddard M E.Prediction of total genetic value using genomewide dense marker maps［J］.Genetics，2001，157（4）：1819-1829.

［8］Meuwissen T H E.Genomic selection：marker assisted selection on a genome wide scale［J］.Journal of Animal Breeding and Genetics，2007，124（6）：321-322.

［9］Goddard M E，Hayes B J.Mapping genes for complex traits in domestic animals and their use in breeding programmes［J］.Nature Reviews Genetics，2009，10（6）：381-391.

［10］Resende R M S，Casler M D，de Resende M D V.Genomic selection in forage breeding：accuracy and methods［J］.Crop Science，2014，54（1）：143-156.

［11］VanRaden P M.Efficient methods to compute genomic predictions［J］.Journal of Dairy Science，2008，91（11）：4414-4423.

［12］唐金梅，陳建國.全基因組選擇在植物育種中的研究進展［J］.貴州農(nóng)業(yè)科學，2016，44（8）：1-5.

［13］王重龍，丁向東，劉劍鋒，等.基因組育種值估計的貝葉斯方法［J］.Hereditas（Beijing），2014，36（2）：111-118.

［14］Habier D，F(xiàn)ernando R L，Kizilkaya K，et al.Extension of the bayesian alphabet for genomic selection［J］.BMC Bioinformatics，2011，12（1）：1-12.

［15］Yi N J，Xu S Z.Bayesian LASSO for quantitative trait loci mapping［J］.Genetics，2008，179（2）：1045-1055.

［16］Moser G，Tier B，Crump R E，et al.A comparison of five methods to predict genomic breeding values of dairy bulls from genome-wide SNP markers［J］.Genetics Selection Evolution，2009，41（1）：1-16.

［17］Ornella L，Perez P，Tapia E，et al.Genomicenabled prediction with classification algorithms［J］.Heredity，2014，112（6）：616-626.

［18］Ogutu J O，Piepho H P，Schulz-Streeck T.A comparison of random forests，boosting and support vector machines for genomic selection［J］.BMC Proceedings，2011，5（3）：1-5.

［19］束永俊，吳磊，王丹，等.人工神經(jīng)網(wǎng)絡在作物基因組選擇中的應用［J］.作物學報，2011，37（12）：2179-2186.

［20］Daetwyler H D，Pongwong R，Villanueva B，et al.The impact of genetic architecture on genomewide evaluation methods［J］.Genetics，2010，185（3）：1021-1031.

［21］Gupta P K，Rustgi S，Kulwal P L.Linkage disequilibrium and association studies in higher plants：present status and future prospects［J］.Plant Molecular Biology，2005，57（4）：461-485.

［22］Heffner E L，Jannink J L，Iwata H，et al.Genomic selection accuracy for grain quality traits in biparental wheat populations［J］.Crop Science，2011，51：2597-2606.

［23］Calus M P L，Veerkamp R F.Accuracy of breeding values when using and ignoring the polygenic effect in genomic breeding value estimation with a marker density of one SNP per cM［J］.Journal of Animal Breeding and Genetics，2007，124（6）：362-368.

［24］Heslot N，Yang H P，Sorrells M E，et al.Genomic selection in plant breeding：a comparison of models［J］.Crop Science，2012，52：146-160.

［25］Isidro J，Jannink J L，Akdemir D，et al.Training set optimization under population structure in genomic selection［J］.Theoretical and Applied Genetics，2015，128（1）：145-158.

［26］Giovanny C P.Genome-assisted prediction of quantitative traits using the R package sommer［J］.Plos One，2016，11（6）：1-15.

［27］Technow F，Schrag T A，Schipprack W，et al.Genome properties and prospects of genomic prediction of hybrid performance in a breeding program of maize［J］.Genetics，2014，197（4）：1343-1355.

［28］Ornella L，Sukhwinder S，Perez P，et al.Genomic prediction of genetic values for resistance to wheat rusts［J］.The Plant Genome，2012，5（3）：136-148.

［29］Rex B.Genomewide selection when major genes are known［J］.Crop Science，2014，54（1）：68-75.

［30］Abdollahi-Arpanahi R，Morota G，Valente B D，et al.Assessment of bagging GBLUP for wholegenome prediction of broiler chicken traits［J］.Journal of Animal Breeding and Genetics，2015，132（3）：218-228.

［31］Zhang Z，Ober U，Erbe M，et al.Improving the accuracy of whole genome prediction for complex traits using the results of genome wide association studies［J］.Plos One，2014，9（3）：1-12.

［32］de Almeida Filho J E，Guimaraes J F R，e Silva F F，et al.The contribution of dominance to phenotype prediction in a pine breeding and simulated population［J］.Heredity，2016，117（1）：33-41.

［33］Legarra A，Robert-Granie C，Manfredi E，et al.Performance of genomic selection in mice ［J］.Genetics，2008，180（1）：611-618.

［34］Hayes B J，Bowman P J，Goddard M E，et al.Invited review：genomic selection in dairy cattle：progress and challenges［J］.Journal of Dairy Science，2009，92（2）：433-443.

［35］Chen C Y，Misztal I，Aguilar I，et al.Genomewide marker-assisted selection combining all pedigree phenotypic information with genotypic data in one step：an example using broiler chickens［J］.Journal of Animal Science，2011，89（1）：23-28.

［36］Loberg A，Durr J W.Interbull survey on the use of genomic information［J］.Interbull Bull，2009，39：3-14.

［37］Piyasatian N，F(xiàn)ernando R L，Dekkers J C M.Genomic selection for marker-assisted improvement in line crosses［J］.Theoretical and Applied Genetics，2007，115（5）：665-674.

［38］Riedelsheimer C，Czedik-EysenbergA，Grieder C，et al.Genomic and metabolic prediction of complex heterotic traits in hybrid maize［J］.Nature Genetics，2012，44（2）：217-220.

［39］Zhao Y S，Gowda M，Liu W X，et al.Accuracy of genomic selection in European maize elite breeding populations［J］.Theoretical and Applied Genetics，2012，124（4）：769-776.

［40］Guo T T，Li H H，Yan J B，et al.Performance prediction of F1 hybrids between recombinant inbred lines［J］.Theoretical and Applied Genetics，2013，126（1）：189-201.

［41］Crossa J，de losCampos G，Perez P，et al.Prediction of genetic values of quantitative traits in plant breeding using pedigree and molecular markers［J］.Genetics，2010，186（2）：713-724.［42］Zhao Y S，Zeng J，F(xiàn)ernando R L，et al.Genomic prediction of hybrid wheat performance［J］.Crop Science，2013，53（3）：802-810.

［43］Xu S Z，Zhu D，Zhang Q F.Predicting hybrid performance in rice using genomic best linear unbiased prediction［J］.PNAS，2014，111（34）：12456-12461.

［44］Zhong S Q，Dekkers J C M，F(xiàn)ernando R L，et al.Factors affecting accuracy from genomic selection in populations derived from multiple inbred lines：a barley case study［J］.Genetics，2009，182（1）：355-364.

［45］Gouy M，Rousselle Y，Bastianelli D，et al.Experimental assessment of the accuracy of genomic selection in sugarcane［J］.Theoretical and Applied Genetics，2013，126（10）：2575-2586.

［46］Vitezica Z G，Varona L，Legarra A.On the additive and dominant variance and covariance of individuals within the genomic selection scope［J］.Genetics，2013，195（4）：1223-1230.

［47］Zhao Y S，Li Z，Liu G Z，et al.Genome-based establishment of a high-yielding heterotic pattern for hybrid wheat breeding［J］.PNAS，2015，112（51）：15624-15629.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡