曾美娟 劉建汀 卓玲玲 陳敏氡 葉新如 王 彬 朱海生 溫慶放
(福建省蔬菜遺傳育種重點(diǎn)實(shí)驗(yàn)室,福建省農(nóng)業(yè)科學(xué)院作物研究所,福建省蔬菜工程技術(shù)研究中心,福建福州 350013)
隨著20 世紀(jì)80 年代初基于DNA 的分子標(biāo)記和80 年代末先進(jìn)的統(tǒng)計(jì)工具的出現(xiàn),挖掘控制數(shù)量性狀的基因組區(qū)域成為可能。挖掘控制數(shù)量性狀基因組的方法包括數(shù)量性狀座位(quantitative trait locus,QTL)區(qū)間定位和全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)。傳統(tǒng)的QTL 定位高度依賴于雙親的遺傳多樣性,檢測到QTL 效率因群體而異。QTL 區(qū)域也可能相當(dāng)大,包含太多的基因,很難作為潛在的候選基因進(jìn)行研究。此外,QTL 定位往往需要構(gòu)建作圖群體,耗時(shí)較長且定位精度不高(Rafalski,2010)。GWAS可以在一定程度上克服QTL 分析的局限性,它可以利用自然群體縮小候選區(qū)域,同時(shí)對多個(gè)性狀進(jìn)行分析(Yu &Buckler,2006;Huang &Han,2014),以降低分析誤差(曹英杰 等,2019),極大地提高育種效率。全基因組關(guān)聯(lián)分析高效地將表型和基因型進(jìn)行關(guān)聯(lián)并用于遺傳作圖和搜尋相關(guān)性狀候選基因(Gajardo et al.,2015;闕青敏 等,2019),可同時(shí)對多個(gè)復(fù)雜性狀進(jìn)行關(guān)聯(lián),檢測多個(gè)等位基因,適用于定位性狀關(guān)聯(lián)區(qū)間,功能基因研究,開發(fā)性狀選育標(biāo)記等,具有高分辨率和高通量等優(yōu)點(diǎn),在蔬菜育種研究中的應(yīng)用日益廣泛。全基因組關(guān)聯(lián)分析在揭示蔬菜復(fù)雜性狀的分子機(jī)理和蔬菜分子育種中起到重要的作用(李廷雨 等,2020)。
全基因組關(guān)聯(lián)分析是近年來興起的遺傳分析方法,其以連鎖不平衡(linkage disequilibrium,LD)為基礎(chǔ),通過識別數(shù)百個(gè)或數(shù)千個(gè)個(gè)體定位群體中高密度的分子標(biāo)記,一般是上萬個(gè)甚至上百萬個(gè)單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)標(biāo)記,篩選出與復(fù)雜性狀表現(xiàn)型變異相關(guān)聯(lián)的分子標(biāo)記(Du et al.,2018)。換言之,通過關(guān)聯(lián)分析分子標(biāo)記與性狀變異,對群體中的個(gè)體進(jìn)行大規(guī)模的基因分型和表型分析,從而識別導(dǎo)致個(gè)體之間表型差異的基因組區(qū)域(Hirschhorn &Daly,2005;Huang et al.,2010;Zhao et al.,2011)。連鎖不平衡是指群體內(nèi)不同位點(diǎn)上等位基因間的非隨機(jī)關(guān)聯(lián)(曹英杰 等,2019)。連鎖不平衡是GWAS分析的基礎(chǔ)(Abecasis &Cookson,2000),受多因素的影響,不同物種間基因組中連鎖不平衡也存在顯著差異。高LD 水平的群體,能夠縮減GWAS分析時(shí)所需的群體數(shù)量。近年來,隨著以SNP 為代表的第3 代分子標(biāo)記技術(shù)的發(fā)展,大大加快了GWAS 的發(fā)展速度,幾千甚至幾百萬個(gè)標(biāo)記被用于1 個(gè)GWAS,在人類和動植物復(fù)雜性狀遺傳研究中已取得初步成果(段忠取和朱軍,2015),亦已成功應(yīng)用于多種作物的重要農(nóng)藝性狀的遺傳研究(Elshire et al.,2011;趙振卿 等,2014;He et al.,2014)。
GWAS 應(yīng)用于植物育種的研究策略主要包括以下幾方面:①選擇植物群體材料。群體規(guī)模太大,性狀調(diào)查費(fèi)用和基因型檢測費(fèi)用均會相應(yīng)增多。選擇表型齊全和遺傳變異豐富的研究群體可以減少所需群體內(nèi)的個(gè)體數(shù)目,提高關(guān)聯(lián)分析的分辨率。②表型鑒定。設(shè)計(jì)合理的田間試驗(yàn),多年多點(diǎn)種植試驗(yàn)材料和多區(qū)域重復(fù)隨機(jī)調(diào)查表型性狀,并將調(diào)查結(jié)果進(jìn)行整合(劉坤 等,2018)。③基因型的測定。獲取選定試驗(yàn)材料的全基因組SNP 位點(diǎn),從而實(shí)現(xiàn)基因型分析(Seki et al.,2005;Rutkoski et al.,2013;韓德鵬 等,2018)。④ 關(guān)聯(lián)分析。對選定試驗(yàn)群體進(jìn)行群體結(jié)構(gòu)分析,選用合適的統(tǒng)計(jì)分析模型對基因型與表型進(jìn)行分析(Raman et al.,2019;孫程明 等,2020)。涉及質(zhì)量性狀關(guān)聯(lián)分析時(shí),通??梢圆捎肔ogistic 回歸模型進(jìn)行分析;涉及數(shù)量性狀時(shí),通??刹捎闷胀ň€性回歸模型(卜李那和趙毅強(qiáng),2019),但數(shù)量性狀通常受到多種因素的共同影響,在研究過程中通常采用不同的混合模型(表1)。⑤ 候選基因篩選(姜洪真 等,2018)。
表1 近年來部分GWAS 中采用的混合模型方法及其特點(diǎn)
目前分析過程涉及的軟件很多,其中PLINK軟件(Purcell et al.,2007)是較早使用的關(guān)聯(lián)分析軟件,它可用于復(fù)雜數(shù)量性狀、關(guān)聯(lián)作圖、數(shù)據(jù)轉(zhuǎn)化與處理、LD 分析、單倍型檢驗(yàn)等。采用SAMTOOLS 軟件(Li et al.,2009)檢測、過濾SNP,采用ANNOVAR 軟件(Wang et al.,2010)對檢測到的SNP 進(jìn)行注釋,采用GCTA 軟件(Yang et al.,2011)對群體進(jìn)行主成分分析、單性狀和兩相關(guān)性狀關(guān)聯(lián)分析,采用STRUCTURE 軟件(Evanno et al.,2005;王艷玲 等,2017;Volante et al.,2017)對群體結(jié)構(gòu)進(jìn)行分析。采用GEMMA 軟件(Zhou &Stephens,2012)基于SNP 進(jìn)行關(guān)聯(lián)分析。采用TASSEL 軟件(Bradbury et al.,2007)進(jìn)行各種模型的關(guān)聯(lián)分析,估算LD 值和作圖、估測群體結(jié)構(gòu)和繪制基于遺傳距離的樹狀圖等。GAPIT 軟件(Lipka et al.,2012)用于BLUP 基因組預(yù)測關(guān)聯(lián)分析和BLUP 基因組預(yù)測。
前人在蔬菜生長發(fā)育過程相關(guān)性狀方面,如黃瓜發(fā)芽期、黃瓜幼苗階段、白菜類作物抽薹開花、菠菜雌雄同株、普通菜豆相關(guān)性狀的控制基因等方面都開展了全基因組關(guān)聯(lián)分析。張松等(2019)對黃瓜發(fā)芽期進(jìn)行全基因組關(guān)聯(lián)分析,檢測到5 個(gè)與相對發(fā)芽率關(guān)聯(lián)的位點(diǎn),2 個(gè)與相對發(fā)芽勢關(guān)聯(lián)的位點(diǎn),2 個(gè)與相對發(fā)芽指數(shù)關(guān)聯(lián)的位點(diǎn),2 個(gè)與相對胚根長度關(guān)聯(lián)的位點(diǎn)。蔡和序等(2020)對黃瓜幼苗下胚軸長度進(jìn)行全基因組關(guān)聯(lián)分析,通過分析關(guān)聯(lián)SNP 位點(diǎn)的LD 區(qū)間序列,獲得Csa1G074930、Csa1G475980、Csa2G381650、Csa3G141820、Csa4G051570、Csa3G627150、Csa5G174640、Csa6G362970等8 個(gè)與黃瓜下胚軸長度有關(guān)的候選基因,其中既有光形態(tài)建成、泛素化、激素信號通路等調(diào)控基因,也有調(diào)控網(wǎng)絡(luò)下游參與細(xì)胞生長發(fā)育,調(diào)節(jié)細(xì)胞大小,直接調(diào)控黃瓜下胚軸長度的基因。抽薹開花是白菜類作物關(guān)鍵的農(nóng)藝性狀。白菜類作物主要包括大白菜、普通白菜、蕪菁等。挖掘白菜類作物抽薹開花調(diào)控位點(diǎn)和基因,對白菜類作物的培育具有重要的意義。龔振平(2016)對182份大白菜自然群體晚抽薹性狀進(jìn)行全基因組關(guān)聯(lián)分析,獲得5 個(gè)與耐抽薹性狀顯著關(guān)聯(lián)的位點(diǎn),為進(jìn)一步發(fā)掘相關(guān)性狀的候選基因提供了依據(jù)。高寶禎等(2017)通過全基因組關(guān)聯(lián)分析鑒定出33 個(gè)與白菜類作物開花時(shí)間相關(guān)的顯著關(guān)聯(lián)信號。通過定位出的開花時(shí)間候選位點(diǎn),再根據(jù)白菜類作物與同源物種擬南芥的基因共線性關(guān)系以及基因功能注釋結(jié)果初步鑒定出與14 個(gè)白菜類作物開花時(shí)間相關(guān)的候選基因。汪豪英等(2019)通過對82 份菠菜高代自交系的全基因組關(guān)聯(lián)分析,采用壓縮混合線性模型在菠菜4 號染色體上檢測到1 個(gè)強(qiáng)關(guān)聯(lián)區(qū)域,并將控制菠菜雌雄同株的基因Xm定位在64.6 kb 的區(qū)間內(nèi)。該范圍內(nèi)存在3 個(gè)基因:Spo24600、Spo24601和Spo24602。最近,Wu 等(2020)對來自19 個(gè)國家的683 份普通菜豆資源的全基因組進(jìn)行重測序,發(fā)掘出超過480 萬個(gè)SNP,構(gòu)建出國際首張精細(xì)的普通菜豆單倍型圖譜,鑒定出505 個(gè)與主要農(nóng)藝性狀緊密相關(guān)的遺傳位點(diǎn)。
上述研究表明采用全基因組關(guān)聯(lián)分析能夠有效鑒定蔬菜生長發(fā)育過程相關(guān)農(nóng)藝性狀的關(guān)鍵遺傳位點(diǎn)。因?yàn)槭卟俗魑锏霓r(nóng)藝性狀往往都是由多個(gè)基因控制且受環(huán)境影響,與單基因控制的性狀相比,其遺傳基礎(chǔ)更為復(fù)雜。而全基因組關(guān)聯(lián)分析是經(jīng)典的定量遺傳理論的拓展,采用全基因組關(guān)聯(lián)分析的方法能夠既簡單且快速地鑒定出蔬菜作物控制發(fā)育過程相關(guān)性狀的重要基因,對蔬菜作物農(nóng)藝性狀相關(guān)基因的研究以及輔助育種具有重大意義。
在蔬菜品質(zhì)和產(chǎn)量性狀方面,如番茄的果實(shí)質(zhì)量、果實(shí)硬度、心室數(shù)目、果形指數(shù)、代謝物含量以及辣椒的辣椒素含量等相關(guān)性狀的控制基因都開展了全基因組關(guān)聯(lián)分析。Xu 等(2013)利用關(guān)聯(lián)分析的方法對44 份栽培種番茄、127 份櫻桃番茄和17 份醋栗番茄的果實(shí)質(zhì)量、果實(shí)硬度、心室數(shù)目等性狀進(jìn)行了初步研究,共檢測到40 個(gè)位點(diǎn),其中果實(shí)質(zhì)量、心室數(shù)目、可溶性固形物等性狀的主效位點(diǎn)信號區(qū)域都有相關(guān)的功能基因。祝光濤(2015)利用843 316 個(gè)位點(diǎn)對253 個(gè)番茄栽培種亞群中的果實(shí)顏色、果實(shí)質(zhì)量和果形指數(shù)等5 個(gè)性狀進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)了11 個(gè)明顯的關(guān)聯(lián)信號位點(diǎn),其中1 個(gè)果皮顏色位點(diǎn)、2 個(gè)果形指數(shù)位點(diǎn)和2 個(gè)心室數(shù)目位點(diǎn)和前人的研究結(jié)果一致,另外6個(gè)位點(diǎn)為新發(fā)現(xiàn)的位點(diǎn)。Bauchet 等(2017)借助10 000 個(gè)SNP 標(biāo)記對300 份番茄的60 種初級和次級代謝產(chǎn)物開展了全基因組關(guān)聯(lián)分析,確定了79個(gè)與13 個(gè)初級代謝產(chǎn)物和19 個(gè)次級代謝產(chǎn)物高度關(guān)聯(lián)的位點(diǎn)。同時(shí),還發(fā)現(xiàn)了4 個(gè)基因組區(qū)域可控制幾種代謝物變異,并發(fā)掘了決定代謝物含量的候選基因,揭示了番茄亞種復(fù)雜而獨(dú)特的代謝物調(diào)控機(jī)理。趙建濤(2016)利用混合線性模型對番茄果實(shí)中主要的17 種糖酸組分進(jìn)行全基因組關(guān)聯(lián)分析,共檢測到139 個(gè)顯著關(guān)聯(lián)位點(diǎn),除了蘇糖醇外,在其他16 個(gè)糖酸物質(zhì)上至少檢測到1 個(gè)顯著關(guān)聯(lián)位點(diǎn)。Sauvage 等(2014)利用多位點(diǎn)混合模型對163 份番茄種質(zhì)進(jìn)行關(guān)聯(lián)分析,利用遍布全基因組的5 995 個(gè)SNP 位點(diǎn)對影響番茄品質(zhì)的76 種代謝物質(zhì)進(jìn)行了分析,檢測到了控制19 個(gè)性狀的44 個(gè)顯著位點(diǎn)。Nimmakayala 等(2016)使用7 331 個(gè)SNP 標(biāo)記對辣椒性狀進(jìn)行研究,發(fā)現(xiàn)72 個(gè)SNP 標(biāo)記與辣椒素含量相關(guān),包括1 個(gè)候選基因,該基因編碼一種具有與CS 相似的酰基轉(zhuǎn)移酶功能的錨蛋白樣蛋白。Han 等(2018)通過QTL 定位和GWAS 挖掘控制辣椒中辣椒素含量的候選基因,共檢測到69 個(gè)QTL 區(qū)域,其中10 個(gè)區(qū)域與2 個(gè)雙親群體的QTL 位于同一位置。在這些區(qū)域中,鑒定出5 個(gè)已知參與辣椒素生物合成的候選基因。
隨著人們生活水平逐步提高,多樣化的蔬菜品種給予了大眾更多的選擇,大眾對蔬菜品質(zhì)的要求則越來越高。在蔬菜育種中,品質(zhì)高低影響著該品種能否適應(yīng)市場以及滿足消費(fèi)者的需求。蔬菜品質(zhì)育種也是蔬菜遺傳改良的重點(diǎn)。同時(shí),蔬菜產(chǎn)量的高低也影響著其經(jīng)濟(jì)價(jià)值,通過全基因組關(guān)聯(lián)分析來開展蔬菜品質(zhì)和產(chǎn)量性狀的相關(guān)研究對蔬菜品質(zhì)和產(chǎn)量的提升具有重要意義。
為有效控制蔬菜病害的發(fā)生與危害,選育和利用具有相關(guān)抗性的蔬菜品種也是育種的關(guān)鍵。隨著全基因組學(xué)的發(fā)展,全基因組關(guān)聯(lián)分析也在馬鈴薯抗晚疫病、大白菜抗霜霉病、瓠瓜抗白粉病、黃瓜抗低溫等蔬菜抗性相關(guān)基因的挖掘中得到應(yīng)用。為了明確馬鈴薯晚疫病抗性的穩(wěn)定性與標(biāo)記間的關(guān)聯(lián),Lindgvist-Kreuze 等(2014)結(jié)合田間晚疫病表型數(shù)據(jù),對適應(yīng)熱帶高地的馬鈴薯群體的基因型進(jìn)行全基因組關(guān)聯(lián)分析,發(fā)現(xiàn)第9 號染色體上的SNP標(biāo)記與馬鈴薯晚疫病抗性相關(guān),且與穩(wěn)定性有關(guān)。龔振平(2016)對182 份自交系材料組成的大白菜自然群體開展5 種病害的全基因組關(guān)聯(lián)分析,分別獲得與霜霉?。? 個(gè))、病毒?。? 個(gè))、黑腐?。? 個(gè))、黃萎病(5 個(gè))和根腫?。? 個(gè))抗性顯著關(guān)聯(lián)的22 個(gè)位點(diǎn)或熱點(diǎn)區(qū)。吳曉花等(2020)利用兩年的抗病表型數(shù)據(jù),對117 份瓠瓜微核心種質(zhì)的白粉病抗性進(jìn)行研究,通過全基因組關(guān)聯(lián)分析,分別獲得22 個(gè)和13 個(gè)與白粉病抗性相關(guān)的SNP 標(biāo)記。王偉平等(2019)以黃瓜核心種質(zhì)為材料開展苗期耐低溫鑒定和篩選,并進(jìn)行全基因組關(guān)聯(lián)分析,挖掘耐低溫相關(guān)位點(diǎn)。在1、3、4、5 號染色體上分別檢測到苗期耐低溫位點(diǎn)gLTS1.1、gLTS3.1、gLTS4.1和gLTS5.1。魏爽等(2019)進(jìn)行了黃瓜苗期耐熱性篩選,通過全基因組關(guān)聯(lián)分析共檢測到7 個(gè)與苗期耐熱性相關(guān)位點(diǎn)gHII4.1、gHII5.1、gHII5.2、gHII6.1、gHII7.1、gHII4.2、gHII6.2。
施用化學(xué)藥劑能夠在一定程度上控制相應(yīng)的病蟲危害,但也帶來環(huán)境污染等問題,同時(shí)增加農(nóng)民種植成本,產(chǎn)生蔬菜安全問題。通過全基因組關(guān)聯(lián)分析,將這些性狀關(guān)聯(lián)標(biāo)記用于蔬菜分子輔助育種,有助于選育出具有抗性的蔬菜品種。而選育具有抗性的蔬菜品種又是目前防治相應(yīng)病害、適應(yīng)不佳種植環(huán)境及選育反季蔬菜較為經(jīng)濟(jì)、有效的方法。
傳統(tǒng)的QTL 定位高度依賴于雙親的遺傳多樣性,檢測到的QTL 效應(yīng)因群體而異。QTL 區(qū)域也可能相當(dāng)大,包含太多的基因,而利用全基因組關(guān)聯(lián)分析(GWAS)可以利用自然群體縮小候選區(qū)域,在一定程度上克服QTL 分析的局限性。當(dāng)然,GWAS 的應(yīng)用也存在一定的局限性,例如在自花授粉作物中,用GWAS 定位性狀相關(guān)基因難以達(dá)到單基因水平,一些群體結(jié)構(gòu)因素易導(dǎo)致假陽性,非遺傳因素產(chǎn)生的表型變化導(dǎo)致的假陽性以及基因與環(huán)境的互作效應(yīng)亦會影響GWAS 結(jié)果(Stacey &Joanna,2013)。為獲得更精準(zhǔn)的GWAS 結(jié)果,研究人員需對群體結(jié)構(gòu)加以準(zhǔn)確分析,通過增大群體規(guī)模來盡可能減少假陽性。相關(guān)技術(shù)的不斷更新也將在一定程度上降低群體結(jié)構(gòu)的干擾。同時(shí),也有必要對結(jié)果進(jìn)行驗(yàn)證(Zhu et al.,2008;Korte &Farlow,2013)。由于每種方法都有其局限性,將不同方法進(jìn)行聯(lián)合,取長補(bǔ)短可在一定程度上提高分析結(jié)果的準(zhǔn)確性。已有研究表明,QTL 定位聯(lián)合GWAS 是鑒定控制復(fù)雜性狀的基因位點(diǎn)的一種強(qiáng)有力的組合方法(Han et al.,2018)。
GWAS 只識別與目標(biāo)性狀相關(guān)的基因組區(qū)域,而不是發(fā)現(xiàn)基因,一個(gè)性狀相關(guān)的基因組區(qū)域內(nèi)會有許多標(biāo)記(例如,多個(gè)SNP 標(biāo)記)。隨著下一代測序技術(shù)的發(fā)展,幾千甚至幾百萬個(gè)標(biāo)記被用于1個(gè)GWAS,每個(gè)GWAS 可用的標(biāo)記數(shù)量大幅增加,SNP 集被應(yīng)用于GWAS 是當(dāng)前的關(guān)鍵研究領(lǐng)域,也將促進(jìn)GWAS 的發(fā)展。近年來,GWAS 研究取得了重大進(jìn)展,這些性狀關(guān)聯(lián)標(biāo)記也被有效地用于標(biāo)記輔助選擇,以補(bǔ)充傳統(tǒng)的蔬菜育種方法,改良簡單和復(fù)雜的數(shù)量性狀。GWAS 將極大推動蔬菜由傳統(tǒng)育種向高效、定向的分子設(shè)計(jì)育種轉(zhuǎn)變,亦將為揭示蔬菜主要農(nóng)藝性狀、品質(zhì)性狀和抗性性狀的分子機(jī)理發(fā)揮重要的作用。