国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基因組選擇在林木遺傳育種研究中的進(jìn)展與展望*

2021-01-05 08:58:40黃敏仁
林業(yè)科學(xué) 2020年11期
關(guān)鍵詞:林木樹種基因組

朱 嵊 黃敏仁

(1. 南京林業(yè)大學(xué) 江蘇省楊樹種質(zhì)創(chuàng)新與品種改良重點(diǎn)實(shí)驗(yàn)室 南京 210037; 2. 南京林業(yè)大學(xué)生物與環(huán)境學(xué)院 南京 210037; 3. 江蘇省農(nóng)業(yè)種質(zhì)資源保護(hù)與利用平臺(tái)楊樹種質(zhì)資源圃 南京210014)

基因組選擇(genomic selection or genome-wide selection, GS)研究在家畜和農(nóng)作物遺傳改良中已取得了重要進(jìn)展,其中應(yīng)用于奶牛的遺傳改良成效顯著。美國(guó)農(nóng)業(yè)部從2009年開始對(duì)奶牛開展GS研究,配種公牛和配種母牛的育種周期都減少到2.5年,大大加速了育種進(jìn)程(Garcia-Ruizetal., 2016)。中國(guó)農(nóng)業(yè)大學(xué)聯(lián)合全國(guó)畜牧總站等單位完成的中國(guó)荷斯坦牛GS分子育種技術(shù)體系的建立與應(yīng)用的研究成果,使我國(guó)荷斯坦奶牛(Bosprimigeniusf.taurus‘Holstein cattle’)年產(chǎn)奶量從4 500 kg提高到5 500 kg,顯示GS在我國(guó)奶牛遺傳改良中取得了重大進(jìn)展(http:∥www.most.gov.cn/kjbz/201703/t2017-132048.htm)。相較于家畜GS,農(nóng)作物研究起步較晚,但近年來發(fā)展迅速,在水稻(Oryzasativa) (Onogietal., 2016; Xuetal., 2018)、玉米(Zeamays) (Fritsche-Netoetal., 2018; Milletetal., 2019)、小麥(Triticumaestivum) (Huangetal., 2016; Bassietal., 2016)、大麥(Hordeumvulgare) (Schmidtetal., 2016; Thorwarthetal., 2017)、蘋果(Malus×domestica) (Kumaretal., 2012; Murantyetal., 2015)和梨(Pyruspyrifolia) (Iwataetal., 2013; Minamikawaetal., 2018)等農(nóng)作物和果樹的遺傳改良研究中獲得一定進(jìn)展。

林木生長(zhǎng)周期長(zhǎng),早期選擇是縮短林木育種周期、加快林木育種進(jìn)程的有效策略和方式(Diaoetal., 2016),長(zhǎng)期以來一直是林木遺傳改良研究中持續(xù)關(guān)注的熱點(diǎn)。最早基于性狀表型值早晚期相關(guān)(phenotypic correlation between juvenile and mature period)的早期選擇研究,其選擇精度往往受限于試驗(yàn)樣本量不足?;诜肿訕?biāo)記輔助選擇(marker assisted selection, MAS)的早期選擇研究,由于篩選出的分子標(biāo)記數(shù)量有限,早期選擇效率不高。GS利用全基因范圍內(nèi)的所有分子標(biāo)記估計(jì)目標(biāo)個(gè)體育種值,并以此為依據(jù)篩選優(yōu)良基因型(superior genotype)。相比于前2種早期選擇技術(shù),基因組選擇具有更高的育種效率和更準(zhǔn)確的選擇精度。隨著二代/三代測(cè)序技術(shù)與高通量SNP基因分型技術(shù)的快速發(fā)展,GS技術(shù)應(yīng)用于林木重要性狀早期選擇已成為可能。

相比于家畜與農(nóng)作物,林木樹種的GS研究進(jìn)展相對(duì)緩慢,主要是由于多年生林木樹種的遺傳學(xué)研究基礎(chǔ)薄弱、研究技術(shù)平臺(tái)不完善、基礎(chǔ)型數(shù)據(jù)匱乏(例如,基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀組數(shù)據(jù)和表型組數(shù)據(jù))和獨(dú)特生物學(xué)特性(世代間隔長(zhǎng)、體型巨大和幼齡期長(zhǎng))。為了加快GS技術(shù)在林木樹種遺傳育種中的應(yīng)用進(jìn)程,本文對(duì)GS原理與方法進(jìn)行全面介紹,并通過林木基因組選擇案例的闡述和分析,對(duì)GS技術(shù)在林木遺傳改良中應(yīng)用的影響因素及發(fā)展前景進(jìn)行討論。

1 基因組選擇原理與方法

Meuwissen等(2001)首次提出了基因組選擇(GS)的概念和原理。GS是一種新型遺傳評(píng)估手段,對(duì)縮短育種世代間隔、加快遺傳進(jìn)展和提高選擇效率等均具有積極作用(Meuwissenetal., 2001)?;蚪M選擇技術(shù)已成為動(dòng)植物育種領(lǐng)域中最具潛力的技術(shù)熱點(diǎn),期刊《GENETICS》和《G3:Genes|Genomics|Genetics》將GS相關(guān)研究論文歸檔(https:∥www.genetics.org/collection/genomic-selection)。

GS是利用覆蓋全基因組的高密度分子標(biāo)記估計(jì)個(gè)體的基因組育種值(genomic estimated breeding value,GEBV),并以基因組育種值為依據(jù)選擇優(yōu)良基因型/品種。GS一般需要構(gòu)建參考群體(reference population/training population)和候選群體(candidate population/testing population)2個(gè)群體;利用參考群體中已知的表型(phenotype)和基因型(genotype)記錄估計(jì)出GS線性模型中每個(gè)分子標(biāo)記SNPs(single nucleotide polymorphisms)的效應(yīng)值;然后,通過候選群體中個(gè)體的已知基因型數(shù)據(jù)和SNPs效應(yīng)估計(jì)值估算GEBV;最后,根據(jù)GEBV排序從候選群體中選擇出保留個(gè)體。

1.1 線性模型

GS線性模型的一般形式:

Y=Xb+Mg+e。

(1)

個(gè)體的基因組估計(jì)育種值(GEBV):

(2)

1.2 GS統(tǒng)計(jì)學(xué)估計(jì)模型

(3)

1.2.2 GBLUP模型 GBLUP(genomic BLUP)相比于傳統(tǒng)的BLUP模型的主要改進(jìn):個(gè)體親緣關(guān)系矩陣的改變,即使用基于全基因組標(biāo)記構(gòu)建的G矩陣(genomic relationship matrix)替代基于個(gè)體系譜關(guān)系構(gòu)建的A矩陣(numerator relationship matrix)。G矩陣(VanRaden, 2008)為:

(4)

式中:M為m×n的基因型矩陣,n為個(gè)體總數(shù),m為標(biāo)記總數(shù),pj為第j個(gè)標(biāo)記位點(diǎn)的最小等位基因頻率(minor allele frequency, MAF)。

1.2.3 Bayesian模型 維度災(zāi)難(The curse of dimensionality)是線性估計(jì)方法直接應(yīng)用于標(biāo)記數(shù)(m)>>樣本數(shù)(n)的GS研究時(shí)常常面臨的挑戰(zhàn)之一(Altmanetal., 2018)。為此,遺傳方差同質(zhì)性是RR-BLUP和GBLUP這2種線性估計(jì)模型的核心假設(shè),但是該假設(shè)與現(xiàn)實(shí)情況存在一定出入。非線性估計(jì)方法Bayesian模型主要基于馬爾科夫蒙特卡洛鏈(Markov chain Monte Carlo, MCMC)和最大似然(expectation maximization, EM)方法估計(jì)基因組育種值,可以在一定程度上彌補(bǔ)線性估計(jì)方法的缺陷。Bayesian模型具有BayesA(Meuwissenetal., 2001)、BayesB(Meuwissenetal., 2001)、fBayesB(Meuwissenetal., 2009)、BayesCπ(Habieretal., 2011)、BayesDπ(Habieretal., 2011)、Bayesian LASSO(Yietal., 2008)、emBayesB(Shepherdetal., 2010)等變型,而這些變型之間的主要區(qū)別是先驗(yàn)分布假設(shè)(SNP效應(yīng)與方差)和估計(jì)方法的不同(王重龍等, 2014)。關(guān)于基因組選擇中的Bayesian模型,詳細(xì)內(nèi)容可參考文獻(xiàn)(Habieretal., 2011; Gianolaetal., 2009; Karkkainenetal., 2012; 王重龍等, 2014; 尹立林等, 2019)。

1.3 GS分析工具

伴隨著GS統(tǒng)計(jì)學(xué)估計(jì)模型的提出,很多應(yīng)用這些GS模型的分析工具也被同步開發(fā)出來,例如rrBLUP(Endelman, 2011)、synbreed(Wimmeretal., 2012)、BGLR(Perezetal., 2014)、GVCBLUP(Wangetal., 2014)、GAPIT(Lipkaetal., 2012)、sommer(Covarrubias-Pazaran, 2016)和BLUPGA(Kaineretal., 2018)等,具體見表1。目前GS分析工具的主要特點(diǎn):1)缺乏針對(duì)林木特點(diǎn)(多年生、異交和全同胞家系成員龐大)的分析工具;2)主要基于GBLUP和Bayesian 2類統(tǒng)計(jì)學(xué)估計(jì)模型;3)C++、Fortran、Julia和R是開發(fā)GS分析軟件所使用的計(jì)算機(jī)語言,而R語言是最常用的GS軟件開發(fā)語言。由于R語言運(yùn)行速度較慢,因此基于R語言的GS分析工具分析速度比較慢,該缺點(diǎn)在分析海量分子標(biāo)記(例如100k級(jí)以上)時(shí)進(jìn)一步地放大。因此,具備快速處理海量分子標(biāo)記數(shù)據(jù)的能力必將是GS分析軟件開發(fā)的重要方向之一。

表1 GS分析軟件①Tab.1 List of genomic selection tools

2 林木基因組選擇研究進(jìn)展

2.1 GS技術(shù)在林木育種中應(yīng)用的優(yōu)勢(shì)

相比家畜和農(nóng)作物,林木GS研究起步不晚,但進(jìn)展緩慢。Wong和Bernardo(2008)利用油棕(Elaeisguineensis)模擬數(shù)據(jù)系統(tǒng)地評(píng)估表型選擇、分子標(biāo)記輔助選擇(MAS)和基因組選擇(GS)3種選擇方式后發(fā)現(xiàn):GS的效果要明顯好于表型選擇和MAS,GS技術(shù)在世代間隔長(zhǎng)和樣本量小的育種群體中仍可獲得一定的遺傳增益。2012—2019年間,GS研究陸續(xù)在油棕屬(Elaeis)、桉屬(Eucalyptus)、橡膠樹屬(Hevea)、云杉屬(Picea)、松屬(Pinus)、楊屬(Populus)等樹種開展,取得重要進(jìn)展(表2)。以上研究結(jié)果都表明:GS技術(shù)可以應(yīng)用于林木遺傳改良,有助于縮短林木育種周期、提高林木育種選擇效率和加快林木遺傳改良進(jìn)程。GS技術(shù)在林木育種中應(yīng)用的優(yōu)勢(shì)主要表現(xiàn)在:1)預(yù)測(cè)精度高,比表型選擇和分子標(biāo)記輔助選擇2種策略具有更高的準(zhǔn)確性;2)選擇效率高,可以有效地縮短林木超長(zhǎng)的育種周期(十幾年甚至幾十年)、增加單位時(shí)間內(nèi)的遺傳增益以及增強(qiáng)選擇強(qiáng)度,最終實(shí)現(xiàn)加快林木育種進(jìn)程的目標(biāo);3)可解釋的遺傳變異比例更高,這是由于GS使用全基因組范圍內(nèi)的高密度SNPs標(biāo)記,遺傳變異位點(diǎn)信息量巨大;4)子代測(cè)定成本相對(duì)較低(Grattapagliaetal., 2011; Isik, 2014; Iwataetal., 2016; Nyoumaetal., 2019)。

表2 林木樹種GS研究報(bào)道①Tab.2 Study reports of genomic selection on forestry trees

2.2 林木GS研究概述

目前,林木基因組選擇(GS)研究都是以多年生異花授粉樹種為研究對(duì)象,這些樹種的生長(zhǎng)周期較長(zhǎng)且遺傳雜合度高。針葉樹種和闊葉樹種在開展GS研究的樹種中幾乎各占一半。開展GS研究的針葉樹種主要集中在云杉屬[例如,歐洲云杉(Piceaabies)、白云杉(P.glauca)、黑云杉(P.mariana)、西加云杉(P.sitchensis)]和松屬[例如,火炬松(Pinustaeda)和海岸松(P.pinaster)](表2)。針葉樹種一般擁有一個(gè)雜合度和重復(fù)序列比例極高的10 Gb級(jí)基因組,這為開展針葉樹種GS研究帶來了極大的挑戰(zhàn),特別是在覆蓋全基因組的高密度標(biāo)記(SNPs)開發(fā)方面(Nystedtetal., 2013; Biroletal., 2013; Nealeetal., 2014; Ziminetal., 2014; 2017)。

與針葉樹種類似,已開展基因組選擇研究的油棕屬[油棕(Elaeisguineensis)、美洲油棕(E.oleifera)](Singhetal., 2013)、橡膠樹屬[橡膠樹(Heveabrasiliensis)](Rahmanetal., 2013; Lauetal., 2016; Tangetal., 2016)、桉屬[赤桉(Eucalyptuscamaldulensis)、巨桉(E.grandis)](Hirakawaetal., 2011; Myburgetal., 2014)以及楊屬[毛果楊(Populustrichocarpa)、胡楊(P.euphratica)](Tuskanetal., 2006; Maetal., 2013)均有一個(gè)以上的物種完成了全基因組測(cè)序。由于楊樹作為林木模式物種的重要性,毛果楊是第1個(gè)完成全基因組測(cè)序的樹種,推動(dòng)了林木基因組研究的廣泛開展。南京林業(yè)大學(xué)楊樹研究組以美洲黑楊×歐美楊(P.deltoides×P.euramericana)全同胞家系為材料,結(jié)合該家系100多個(gè)體的生長(zhǎng)性狀24年生的表型數(shù)據(jù),通過基因組重測(cè)序獲得100k級(jí)的SNP位點(diǎn),估計(jì)育種值和遺傳力的動(dòng)態(tài)變化,并在此基礎(chǔ)上開展GS研究(朱嵊等, 待發(fā)表)。

圖1 林木GS案例的詞云Fig.1 Wordcloud of the genomic selection cases in forestry trees育種群體、標(biāo)記數(shù)據(jù)、目標(biāo)性狀和統(tǒng)計(jì)學(xué)方法的關(guān)鍵詞分別用紫色、紅色、黑色和黃色表示。字體的大小代表其在林木基因組選擇案例中出現(xiàn)的頻率。此詞云圖是由Python軟件包wordcloud(https:∥pypi.org/project/wordcloud/)所繪制的。The keywords for breeding population, the amount of markers, the target trait and the statistical methods are denoted in purple, red, black and yellow, respectively. The font size represents the frequency of those keywords in the studies on the tree genomic selection. This wordcloud chart is drawn by the Python package wordcloud (https:∥pypi.org/project/wordcloud/).

GS是以育種群體(參考群體)的基因型數(shù)據(jù)(即標(biāo)記數(shù)據(jù))和目標(biāo)性狀表型數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),通過統(tǒng)計(jì)學(xué)方法構(gòu)建目標(biāo)性狀的GS預(yù)測(cè)模型。為了更好地理解以上所列的林木GS研究案例,從育種群體、標(biāo)記數(shù)據(jù)、目標(biāo)性狀以及統(tǒng)計(jì)學(xué)方法這4個(gè)方面對(duì)這些案例進(jìn)行簡(jiǎn)單的概括和分析(圖1)。1)育種群體:多采用由全同胞家系(full-sib)或半同胞家系(half-sib)組成的育種群體,這些研究案例中的林木樹種均屬于異花授粉植物,一次雜交可以獲得數(shù)量巨大且性狀分離的F1子代。2)分子標(biāo)記數(shù)據(jù):絕大部分研究案例都采用SNPs分子標(biāo)記,這是因?yàn)镾NPs標(biāo)記在全基因組上分布廣泛且數(shù)量巨大(Shastry, 2009),此特點(diǎn)與GS技術(shù)的“全基因組范圍內(nèi)的高密度標(biāo)記”理念十分契合;基于SNPs芯片和基于重測(cè)序的SNP分型技術(shù)是為這些GS研究案例產(chǎn)生SNPs基因型數(shù)據(jù)的2種方式,針葉樹種(云杉屬和松屬樹種)案例的SNPs基因分型數(shù)據(jù)來自于SNP芯片,而闊葉樹種(橡膠樹屬、油棕屬和桉屬)案例采用2種方式產(chǎn)生SNPs基因分型數(shù)據(jù)。3)目標(biāo)性狀:林木GS研究案例的目標(biāo)性狀可以簡(jiǎn)單地分成生長(zhǎng)性狀(樹高、胸徑、材積等)、木材性狀(木材密度、纖維夾角、細(xì)胞壁厚度、彈性模量等)、果實(shí)性狀(果/枝比、漿/枝比、核/果比等)、代謝性狀(單株榨油率、精油總濃度、1,8-桉葉油素比例等)、發(fā)育性狀(分枝數(shù)、萌芽率、生根率等)、紙漿性狀(木質(zhì)素含量、五碳糖和六碳糖含量、紙漿產(chǎn)量等)、抗性性狀(冠癭瘤體積、是否患銹病等)這幾類;樹高、胸徑、木材密度、材積和纖維夾角(MFA, microfibril angle)是最常用的研究性狀。4)基因組育種值(GEBV)的估計(jì)模型:GBLUP、Bayesian LASSO regression(BLR)、RR-BLUP和Bayesian ridge regression(BRR)是這些研究案例中常用的統(tǒng)計(jì)學(xué)估計(jì)模型。

基因組育種值(GEBV)估計(jì)精度是評(píng)價(jià)GS模型優(yōu)劣的重要指標(biāo),也是GS研究的核心問題之一。GEBV估計(jì)精度受到多種因素的影響,包括標(biāo)記類型與密度、標(biāo)記抽樣方法、數(shù)量性狀位點(diǎn)(QTLs, quantitative trait loci)效應(yīng)的分布、連鎖不平衡(LD, linkage disequilibrium)、參考群體與測(cè)試群體之間遺傳親緣關(guān)系、參考群體樣本量、樣本間的親緣關(guān)系、目標(biāo)性狀的遺傳力與遺傳結(jié)構(gòu)、估計(jì)GEBV的統(tǒng)計(jì)學(xué)方法等(Habieretal., 2007; Grattapaglia, 2014)。在林木GS研究案例中,GEBV的精度范圍為-0.41~0.95,目標(biāo)性狀內(nèi)在屬性(例如,遺傳力和遺傳結(jié)構(gòu))、LD、標(biāo)記密度和統(tǒng)計(jì)學(xué)估計(jì)模型等影響因素均被探討。

然而,這些研究都存在一個(gè)共同的不足:忽略樹齡與目標(biāo)性狀GEBV估計(jì)精度之間的關(guān)系。多年生木本植物的很多性狀(例如,生長(zhǎng)性狀和木材性狀)遺傳力與其樹齡存在一定聯(lián)系。遺傳力與基因組預(yù)測(cè)精度存在正相關(guān)(Resendeetal., 2012c),因而樹齡與目標(biāo)性狀GS精度也是存在一定關(guān)系的。

2.3 典型案例分析——以油棕GS研究為例

油棕是最早開展系統(tǒng)性GS研究的林木樹種之一,其GS研究案例極具代表性。油棕GS相關(guān)研究主要分成2個(gè)方面:基于模擬數(shù)據(jù)和真實(shí)育種數(shù)據(jù)。Wong和Bernardo(2008)使用3個(gè)不同群體大小(N=30, 50, 70)的油棕模擬數(shù)據(jù)系統(tǒng)評(píng)估3種早期選擇技術(shù)的效率發(fā)現(xiàn):相比于表型選擇和分子標(biāo)記輔助選擇(MAS),基因組選擇(GS)具有更高的選擇效率和更好的選擇效果,即使對(duì)規(guī)模較小的育種群體(Wongetal., 2008)。Cros等(2018)基于連續(xù)4個(gè)育種周期的油棕果穗性狀模擬數(shù)據(jù),分析GS輪回選擇和傳統(tǒng)輪回選擇在多世代育種中的選擇效率發(fā)現(xiàn):GS輪回選擇具有更好的選擇效果,GS模型的準(zhǔn)確性隨著模型校準(zhǔn)數(shù)據(jù)的世代增加而提高。

Cros等(2015)使用油棕Deli和Group B 2個(gè)群體(每個(gè)群體均由131個(gè)個(gè)體組成)的265個(gè)SSR標(biāo)記數(shù)據(jù)構(gòu)建8個(gè)含油量重要性狀的GS模型,研究證實(shí):1)GS模型的預(yù)測(cè)精度要高于基于譜系模型;2)對(duì)于群體較小且育種周期較長(zhǎng)的育種程序GS模型是比較有效的,這與油棕模擬數(shù)據(jù)的評(píng)估結(jié)果(Wongetal., 2008)一致。Kwong等(2017)利用油棕UR×AVROS商業(yè)群體1 218個(gè)體的SNP基因分型數(shù)據(jù)(SNP芯片OP200K)和6個(gè)含油量相關(guān)性狀表型數(shù)據(jù)進(jìn)行GS研究發(fā)現(xiàn):1)GS預(yù)測(cè)精度與目標(biāo)性狀的遺傳力有關(guān);2)不同GS模型(例如RR-BLUP、BayesA、BayesCπ、Bayesian LASSO regression(BLR)和Bayesian ridge regression(BRR)等)具有近似的預(yù)測(cè)精度,類似結(jié)果也在多苞桉(Eucalyptuspolybractea)(Kaineretal., 2018)、火炬松(Resendeetal., 2012c)和橡膠樹(Crosetal., 2019)等中發(fā)現(xiàn);3)GS預(yù)測(cè)精度伴隨著標(biāo)記數(shù)的增加而提高。相比2015年油棕GS研究案例(Crosetal., 2015),2017年油棕GS研究(Kwongetal., 2017)的最大改進(jìn)之一:標(biāo)記數(shù)量從265個(gè)SSR標(biāo)記升級(jí)到9萬個(gè)有效SNP標(biāo)記,真正意義上實(shí)現(xiàn)GS技術(shù)理念“使用覆蓋全基因組范圍的高密度分子標(biāo)記”。

3 林木基因組選擇研究的影響因素

3.1 參考基因組

參考基因組(質(zhì)量與大小)是GS應(yīng)用于目標(biāo)物種遺傳改良的前提條件。高質(zhì)量的參考基因組是通過二代測(cè)序技術(shù)或SNP基因分型芯片技術(shù)獲得覆蓋全基因組的高密度SNP基因分型數(shù)據(jù)的基本保障。目前,已經(jīng)完成的林木樹種基因組質(zhì)量普遍較低,例如20 Gb白云杉基因組(v4.1)擁有3 033 322個(gè)scaffolds,423 Mb毛果楊基因組(v3.0)擁有1 446個(gè)scaffolds,都還遠(yuǎn)未達(dá)到擬南芥(Arabidopsisthaliana)和水稻染色體水平的基因組質(zhì)量。因此,林木參考基因組質(zhì)量低必將是GS在林木遺傳改良中應(yīng)用的一個(gè)重要限制因素。

基因組龐大是針葉樹種最顯著的特點(diǎn)之一,例如20 Gb級(jí)的白云杉、歐洲云杉和火炬松基因組。龐大基因組致使針葉樹種需要巨大的DNA測(cè)序成本和數(shù)據(jù)分析成本,這也是針葉樹種GS研究?jī)H采用SNPs基因分型芯片獲得標(biāo)記數(shù)據(jù)的原因之一。舉個(gè)例子,假設(shè)一個(gè)樣品DNA重測(cè)序的深度10×,一份歐洲云杉(20 Gb)和楊樹(0.5 Gb)材料分別需要200 Gb和5 Gb測(cè)序數(shù)據(jù),即歐洲云杉DNA重測(cè)序所需的測(cè)序費(fèi)和數(shù)據(jù)分析費(fèi)是楊樹材料的40倍。

3.2 全基因組關(guān)聯(lián)分析

全基因組關(guān)聯(lián)分析(genome-wide associated study, GWAS)是一種從覆蓋全基因組的高密度SNP標(biāo)記中鑒定出目標(biāo)性狀相關(guān)標(biāo)記的統(tǒng)計(jì)學(xué)方法,也將有助于為基因組育種值(GEBV)估計(jì)提供更精煉的候選標(biāo)記。然而,隨著基于測(cè)序或芯片的高通量SNP基因分型技術(shù)發(fā)展及其在林木遺傳研究領(lǐng)域的不斷深入運(yùn)用,單標(biāo)記成本不斷下降和標(biāo)記數(shù)據(jù)規(guī)模不斷擴(kuò)大是林木GS研究的發(fā)展趨勢(shì)。SNP分子標(biāo)記密度驟增不僅增加GEBV的計(jì)算成本,同時(shí)大量目標(biāo)性狀無關(guān)的標(biāo)記必將給估算GEBV帶來不可避免的背景噪音,一定程度上影響GEBV的估計(jì)精度。因此,在估算GEBV前篩選性狀相關(guān)標(biāo)記是十分必要的。

GWAS已被應(yīng)用于解析林木樹種復(fù)雜性狀的遺傳結(jié)構(gòu),例如毛果楊(Chhetrietal., 2019)、巨桉與尾葉桉的種間雜種(Mulleretal., 2019)以及歐洲云杉(Baisonetal., 2019)。然而,由于受限于林木生物學(xué)特性及其相對(duì)不穩(wěn)定的遺傳轉(zhuǎn)化體系,功能性解析林木GWAS所鑒定的候選位點(diǎn)/基因仍然面臨不少困難和挑戰(zhàn)(Duetal., 2018)。

3.3 育種群體

雙親雜交是林木樹種產(chǎn)生育種群體的方式,其育種群體主要可分為全同胞家系(full-sib)、半同胞家系(half-sib)以及輪回雜交群體(recurrent hybrid population)。然而,由于林木樹種一般具有世代周期長(zhǎng)(long generation time)、幼齡期長(zhǎng)(long juvenile phase)、個(gè)體十分巨大(giant plant size)(子代測(cè)定時(shí)單株種植面積極大)等特點(diǎn),因而很難在多世代(2個(gè)以上世代)家系內(nèi)開展良種選育(Iwataetal., 2016)。另外,不同于家畜的單胎產(chǎn)仔量較少,異交林木樹種的一個(gè)雜交組合(全同胞家系或半同胞家系)可以產(chǎn)生成百上千個(gè)F1子代,并且子代個(gè)體間的差異較大。因此,單個(gè)或少量幾個(gè)全同胞/半同胞家系組成的F1群體是林木遺傳改良中的常見育種群體,該群體內(nèi)個(gè)體間的譜系關(guān)系幾乎是沒有區(qū)別的(即個(gè)體間親緣關(guān)系非常近)。

基因組育種估計(jì)值(GEBV)的準(zhǔn)確性是GS在動(dòng)植物育種中應(yīng)用的核心問題之一。GEBV準(zhǔn)確性是利用GEBV與真實(shí)育種值(true breeding value, TBV)相關(guān)系數(shù)(r)來評(píng)估,GEBV準(zhǔn)確性的理論公式(Daetwyleretal., 2008; 2010)如下:

(5)

式中:Np為參考群體樣本量,h2為目標(biāo)性狀的遺傳力,nG為獨(dú)立標(biāo)記/位點(diǎn)數(shù)。

根據(jù)該公式,參考群體樣本量與基因組選擇的準(zhǔn)確性(r)存在一定的聯(lián)系,樣本量的增加也將有助于基因組育種估計(jì)值準(zhǔn)確性的提高。另外,用于構(gòu)建基因組選擇模型的參考群體與候選群體之間的親緣關(guān)系也會(huì)一定程度影響基因組育種估計(jì)值的準(zhǔn)確性,2個(gè)群體之間親緣關(guān)系越近基因組育種估計(jì)值可能越精確(Habieretal., 2010; Liuetal., 2015; Maetal., 2018)。因此,在F1子代樣本量大且個(gè)體親緣關(guān)系較近的林木全同胞/半同胞家系內(nèi)進(jìn)行基因組選擇,很可能獲得準(zhǔn)確性較高的基因組育種估計(jì)值。

3.4 連鎖不平衡(LD)

連鎖不平衡(LD)是指分子標(biāo)記與相鄰QTL位點(diǎn)的非獨(dú)立遺傳,決定了基因組選擇的精度及其所需標(biāo)記密度/數(shù)量(Liuetal., 2015)。LD程度的高低決定了基因組選擇所需的標(biāo)記密度,即LD程度與所需標(biāo)記數(shù)量呈正相關(guān)(Iwataetal., 2016)。林木遺傳改良的目標(biāo)性狀(例如,生長(zhǎng)性狀和木材性狀)很大一部分都是由大量的微效QTL位點(diǎn)共同控制的復(fù)雜性狀,這就需要足夠高的標(biāo)記密度來滿足GS的基本假設(shè):所有QTL位點(diǎn)與至少1個(gè)標(biāo)記存在強(qiáng)的連鎖不平衡關(guān)系(Rabieretal., 2016)。

3.5 林木多年生屬性

多年生是林木樹種最突出的生物學(xué)屬性之一,決定了樹木生長(zhǎng)發(fā)育過程受到多年環(huán)境因子(土壤、海拔、氣候及栽培條件)和樹齡等因素影響(林元震, 2019; 李安鑫等, 2019; 楊保國(guó)等, 2020; 伍漢斌等, 2019)?;诹帜灸繕?biāo)性狀多年數(shù)據(jù)(縱向數(shù)據(jù), longitudinal data)預(yù)測(cè)其目標(biāo)性狀的多年生長(zhǎng)發(fā)育軌跡是林木GS研究的發(fā)展趨勢(shì)。然而,當(dāng)前并不存在滿足此需求的統(tǒng)計(jì)學(xué)模型和分析工具,因此開發(fā)針對(duì)林木多年生屬性的統(tǒng)計(jì)學(xué)模型和分析工具是林木GS研究面臨的最大挑戰(zhàn)之一。

多年生木本植物形態(tài)學(xué)和生理學(xué)等性狀(例如,葉片形態(tài)、氣孔導(dǎo)度、光合作用效率等)與樹齡存在一定程度的相關(guān)性(Bond, 2000; Dayetal., 2002)。研究表明:日本落葉松(Larixkaempferi)(Diaoetal., 2016)、楊樹(Pliuraetal., 2006; Dhillonetal., 2010)和桉樹(Osorioetal., 2001)的生長(zhǎng)性狀和木材性狀的遺傳力隨著樹齡增加而變化,意味著這些目標(biāo)性狀基因組育種值的估計(jì)精度與樹齡具有相關(guān)性。多年生生物的基因表達(dá)模式與其年齡也是存在一定聯(lián)系。雖然目前尚未見到林木樹齡相關(guān)基因的分子功能研究案例,但是不同樹齡間基因表達(dá)差異譜已在銀杏(Ginkgobiloba)、日本落葉松、側(cè)柏(Platycladusorientalis)等樹種被研究和分析(Lietal., 2017; Changetal., 2017; Wangetal., 2020)。Wang等(2020)比較銀杏不同樹齡微管形成層的基因表達(dá)譜發(fā)現(xiàn):712個(gè)基因和233個(gè)miRNA呈現(xiàn)出差異性表達(dá),它們可能與細(xì)胞分裂、細(xì)胞分化、植物激素代謝通路等有關(guān)。

4 問題和展望

目前,GS技術(shù)已經(jīng)成功應(yīng)用于動(dòng)物(家畜)育種實(shí)踐,并取得很好的效果,加速了動(dòng)物育種進(jìn)程;GS在植物遺傳改良方面也取得一定的研究進(jìn)展;林木GS研究進(jìn)展表明該技術(shù)在林木育種中極具應(yīng)用潛力。隨著高通量基因組學(xué)數(shù)據(jù)的分析平臺(tái)和快速海量表型組學(xué)數(shù)據(jù)的采集與解析平臺(tái)逐步成熟以及應(yīng)用研究深入開展,各類林木的基因組學(xué)、表型組學(xué)和遺傳學(xué)等背景數(shù)據(jù)也將日臻完善,將為林木樹種GS研究提供一個(gè)有力的技術(shù)支持和數(shù)據(jù)支撐。應(yīng)用于林木遺傳改良的GS技術(shù),也將為林木功能基因組研究和林木優(yōu)良品種(品系)選育提供堅(jiān)實(shí)的理論基礎(chǔ)。因而,GS技術(shù)體系是一種極具發(fā)展前景的、精準(zhǔn)有效的林木育種策略,必將在林木育種實(shí)踐中被逐步建立和完善;但在林木GS應(yīng)用推廣前,仍需要利用大量的模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)評(píng)估和驗(yàn)證GS技術(shù)在林木育種實(shí)踐中的可行性(Grattapagliaetal., 2011)。

鑒于林木GS技術(shù)的潛在應(yīng)用前景和重要價(jià)值,林木GS研究重點(diǎn)為以下幾個(gè)方面:

1)基因組組裝質(zhì)量是開展GS研究的基礎(chǔ)。然而,目前林木樹種基因組組裝質(zhì)量普遍不高,因此提升參考基因組的精度和質(zhì)量仍將是開展高質(zhì)量林木GS研究的一個(gè)重要條件。

2)合理試驗(yàn)方案是林木樹種GS研究順利實(shí)施的基本保障。設(shè)計(jì)GS試驗(yàn)方案時(shí)應(yīng)考慮目標(biāo)樹種和目標(biāo)性狀的自身特點(diǎn),例如,目標(biāo)樹種參考基因組的大小和質(zhì)量、多年生屬性、育種群體的遺傳組成、目標(biāo)性狀的遺傳結(jié)構(gòu)等。

3)多性狀復(fù)合選擇將是林木GS研究的新趨勢(shì)。目前林木GS研究案例仍然專注于單個(gè)性狀的基因組育種值估計(jì),但是隨著社會(huì)需求的多樣化,培育同時(shí)兼具生長(zhǎng)、材性、抗性等優(yōu)勢(shì)性狀的新品種已成為當(dāng)前林木遺傳改良工作的新趨勢(shì)。

4)多年生屬性是林木GS研究面臨的主要挑戰(zhàn)之一。多年生屬性使得林木樹種的目標(biāo)性狀數(shù)據(jù)具備縱向性(longitudinal),具備處理縱向性狀數(shù)據(jù)能力的GS統(tǒng)計(jì)模型和分析軟件仍處于空缺狀態(tài)。

5)借鑒家畜和農(nóng)作物GS成功案例,設(shè)計(jì)出適合林木樹種特點(diǎn)(多年生、異交和全同胞家系成員龐大)的GS分析模型和工具,必將是構(gòu)建林木GS研究技術(shù)體系的有效捷徑。

猜你喜歡
林木樹種基因組
牛參考基因組中發(fā)現(xiàn)被忽視基因
常綠樹種在新疆的應(yīng)用現(xiàn)狀
試論高大林木的病蟲害防治技術(shù)
天敵昆蟲在林木病蟲害防治中的重要作用探討
林木新秀 黑果腺肋花揪
城市綠化樹種選擇,只顧眼前你就輸了
一個(gè)樹種的國(guó)家戰(zhàn)略
珍貴樹種紅豆樹生態(tài)位測(cè)定
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
有趣的植物基因組
广河县| 荃湾区| 清水县| 九台市| 乌苏市| 龙江县| 余干县| 安阳县| 都昌县| 星座| 陆川县| 通化县| 梧州市| 股票| 民丰县| 临江市| 太和县| 平顶山市| 海林市| 大悟县| 天台县| 宝丰县| 宁阳县| 泽州县| 靖安县| 武乡县| 亚东县| 连云港市| 辰溪县| 青岛市| 麦盖提县| 安龙县| 伊春市| 五指山市| 沙河市| 蒙山县| 九龙城区| 满城县| 望都县| 吴桥县| 延边|