王悅星,鄭世茂,王業(yè)文,李培江, 張 羽,于月華
(1.新疆農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院,烏魯木齊 830052;2.陜西理工大學(xué) 生物科學(xué)與工程學(xué)院,陜西漢中 723000;3.陜西省水稻研究所,陜西漢中 723000)
陜南地區(qū)為秈稻優(yōu)生區(qū),該地區(qū)秈稻種質(zhì)資源遺傳背景分析對高產(chǎn)、優(yōu)質(zhì)、高抗秈稻新品種的選育具有重要意義。從最早的形態(tài)標(biāo)記到DNA分子標(biāo)記,遺傳標(biāo)記在群體遺傳基礎(chǔ)研究中發(fā)揮了重大作用。過去幾十年來,簡單序列重復(fù)(Simple Sequence Repeats,SSRs)技術(shù)由于所需 DNA量少、在基因組分布較多(大約每隔10~50kb就存在1個SSR)、呈共顯性遺傳等特點(diǎn)成為研究群體遺傳背景的主要DNA標(biāo)記,SSR標(biāo)記也成為中國主要農(nóng)作物品種指紋鑒定圖譜中心的指定標(biāo)記,在水稻、小麥、油菜、玉米等植物新品種鑒定、新品種保護(hù)等DNA指紋圖譜檢測中都使用SSR標(biāo)記[1-4]?;蚪M學(xué)的研究發(fā)現(xiàn),在真核生物基因組中多態(tài)性最高的DNA多態(tài)性為單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNPs),水稻基因組中大約每幾百bp,甚至幾十bp就有1個SNP[5-7]。相比之下,SSR標(biāo)記顯示出數(shù)量少、在基因組分布不平衡、電泳分辨能力弱,費(fèi)時費(fèi)力等因素,阻礙了高密度遺傳圖譜的構(gòu)建及相關(guān)生物學(xué)問題的研究。近年來,二代測序技術(shù)的發(fā)展使得SNPs的檢測變得容易,針對多態(tài)性低及富含高重復(fù)序列物種[8-10],用全基因組測序性價比低的問題,簡化基因組測序技術(shù)應(yīng)用而生,簡化基因組測序技術(shù)大部分是基于RAD tags(Restriction site Associated DNA),進(jìn)行高通量測序[11-15],大幅降低基因組的復(fù)雜度,尤其適合于大樣本量的研究,可快速鑒定出高密度的變異,特別是SNPs變異。其中Genotyping-by-sequencing(GBS)技術(shù)能成為當(dāng)前簡化基因組測序主流技術(shù)的原因之一就是它選用甲基化敏感的限制性內(nèi)切酶(Ⅱ型酶)[16-17],很好地避開基因組主要的重復(fù)區(qū)域(甲基化區(qū)域),通過選擇單拷貝區(qū)RAD tags 測序研究其SNPs多態(tài)性,其結(jié)果在基因分型、連鎖圖譜構(gòu)建、QTLs定位、系統(tǒng)進(jìn)化、生物多樣性、全基因組關(guān)聯(lián)等生物研究領(lǐng)域中受到重視。隨著SNPs的大量獲得,研究發(fā)現(xiàn)生物在遺傳過程中通常是一種遺傳標(biāo)記的非隨機(jī)性組合,是很多SNPs聯(lián)系在一起作為一個整體(而不是隨機(jī)組合)往下傳遞,即連鎖不平衡(Linkage Disequilibrium,LD),當(dāng)位于同一條染色體上的兩個位點(diǎn)或等位基因同時存在的概率大于群體中因隨機(jī)分布而同時出現(xiàn)的概率時,就稱這兩個位點(diǎn)處于LD狀態(tài),也稱單體型(Haplotype),人類中的Haplotype圖譜構(gòu)建于2005年[18],植物中構(gòu)建的第1個Haplotype是2009年在玉米中實(shí)現(xiàn)的[19]。往往調(diào)控某性狀發(fā)育相關(guān)的基因組成的基因簇就在1個Haplotype中,Haplotype很可能作為功能單位在起作用,所以Haplotype的研究可以加深對研究性狀發(fā)育通路的認(rèn)識[20-21]。同時,由于Haplotype包含許多SNPs的遺傳信息,在全基因組關(guān)聯(lián)研究中,采用Haplotype比單個SNP具有更好的統(tǒng)計分析效果,能降低自由度。本研究以具有代表性的198份秈稻材料為對象,利用NlaⅢ和MseⅠ限制酶分別酶切基因組DNA,對產(chǎn)生的Tag進(jìn)行簡化基因組測序,進(jìn)行SNPs分型、Haplotype構(gòu)建、聚類分析、群體結(jié)構(gòu)分析等研究,從而全面、準(zhǔn)確揭示秈稻材料的遺傳多態(tài)性水平,研究為秈稻數(shù)量性狀的全基因組關(guān)聯(lián)分析、秈稻的遺傳改良以及秈稻雜交育種中優(yōu)良雜交親本的選配具有指導(dǎo)意義。
198份秈稻種質(zhì)資源來源于2017-2019年生長在陜西省水稻研究所試驗(yàn)地的秈稻幼嫩葉片,包括恢復(fù)系材料112份,保持系49份,不明恢保關(guān)系材料37份。測序前液氮保存。
1.2.1 GBS測序 DNA提取、GBS文庫準(zhǔn)備、測序等步驟參考Illumina Hiseq 2000 測序平臺操作要求。由北京諾和基因生物信息技術(shù)有限公司承擔(dān)。
1.2.2 數(shù)據(jù)質(zhì)量控制與分析 缺失值小于0.3,MAF(Minor Allele Frequency)大于0.05,SNP位點(diǎn)間的關(guān)聯(lián)程度r2值取值0.8,LOD取值3。兩個酶切合并后的SNPs有91 421(包含Scaffold)個,Mapped到染色體上的SNPs有85 525個。198個材料全基因組雜合基因型位點(diǎn)占 4.95%,MAF平均為0.19。
1.2.3 LD分析和Haplotype構(gòu)建 用PLINKv 1.07命令“--r2”運(yùn)行LD,r2>0.8的配對SNP構(gòu)建Haplotype,用PLINKv1.07命令“--blocks”運(yùn)行Haplotype block,Haploview4.2可視化PLINKv1.07結(jié)果。R語言繪制密度分布圖和熱圖。
1.2.4 全基因組的KEGG分析 用KAAS(KEGG automatic annotation server)在線軟件 (https://www.genome.jp/tools/kaas/)進(jìn)行秈稻全基因組KEGG分析。
198個秈稻材料的85 535個SNP在12條染色體上的分布不平衡(圖1-a),1號染色體上最多(10 369個);10號染色體最少(4 893個),10號染色體在進(jìn)化過程中可能較保守。同時,每條染色體上的SNP分布密度也不同(圖1-b),SNP密度高的區(qū)域?qū)?yīng)著多態(tài)性豐富區(qū),此區(qū)域進(jìn)化速率較快。
全基因組r2大于0.2的SNPs有421 787對,r2平均值為0.79,r2大于等于0.8的有 264 171對(占62.63%),r2等于1的有100 959對(占23.94%)。2個SNPs位點(diǎn)間相關(guān)(r2≥ 0.2)的平均距離為18 626 bp,r2小于0.8的平均距離為22 400 bp,r2大于等于0.8的平均距離為16 374 bp,r2等于1的平均距離為11 556 bp。本研究2個SNP位點(diǎn)間距離≤500 kb的r2平均值為0.79。由此看出:LD隨著2個SNP位點(diǎn)間的距離增大而衰減。從單條染色體和全基因組r2和2個SNP位點(diǎn)間距離的關(guān)系圖也可以看出:隨著物理距離的增加,2個SNP位點(diǎn)間的r2越小,即連鎖強(qiáng)度越小,甚至沒有(圖2-a)。
12條染色體共有6 981個Haplotype,它們在12條染色體上的數(shù)目分布見圖2-b,其中1號染色體上的Haplotype最多(791個),10號染色體上的最少(396個)。1個Haplotype最多由91個SNPs組成,最少2個SNPs組成。最長Haplotype跨越189.935 kb,最短跨越2 bp。在基因組中,關(guān)聯(lián)程度高的Haplotype之間可以組成Haplotype blocks,每個Haplotype的頻率及其與Haplotype blocks之間關(guān)聯(lián)度高低見圖2-c。
生物群體遺傳結(jié)構(gòu)是基因或基因型在空間和時間上的非隨機(jī)分布,包括群體內(nèi)的遺傳變異和群體間的遺傳分化等多方面內(nèi)容[22],群體遺傳結(jié)構(gòu)的研究是探討生物適應(yīng)性、種群形成過程及其進(jìn)化機(jī)制的基礎(chǔ),也是制定有效的保護(hù)和開發(fā)利用生物資源的策略及措施的基礎(chǔ),還是進(jìn)行目標(biāo)性狀關(guān)聯(lián)分析的基礎(chǔ),因?yàn)閺?fù)雜的群體結(jié)構(gòu)會導(dǎo)致基因型與表型之間關(guān)聯(lián)的假陽性。本研究用3種方法對198份秈稻資源進(jìn)行群體結(jié)構(gòu)分析。
2.3.1 PC分析 利用TASSEL 5.0軟件進(jìn)行PC分析,結(jié)果顯示前3個主成分的方差貢獻(xiàn)率分別為10.98%、10.47%和4.81%,前2個PC把198份材料的多數(shù)樣本聚在了一起,結(jié)果見圖3。
2.3.2 系統(tǒng)進(jìn)化樹 UPGMA法把198個材料分為2個亞類,分別包含9個和189個材料。兩兩材料間的遺傳距離為0.01~0.60,平均為 0.28。親緣關(guān)系最近的兩個材料為Z15和Z19-37,最遠(yuǎn)的為Z10和Z19-37(圖4)。
2.3.3 K聚類 用Centered-IBS方法計算kinship值,R語言繪制熱圖(圖5)。從圖5可以看出,有6個材料與其他材料的遺傳距離較遠(yuǎn)(左上角紅色部分),分別為W366、Z12、Z31、Z55、Z19-37和Z5。
2.3.4 基于水稻全基因組的KEGG分析 功能相關(guān)性高的基因通常聚集在1個連鎖群上以基因簇的形式出現(xiàn)。為了后續(xù)全基因組關(guān)聯(lián)研究深入理解秈稻全基因組SNPs和Haplotype的多態(tài)性與Gene功能之間的關(guān)系,以秈稻基因組(GCA_000004655.2)注釋的37 358個蛋白為例,分析秈稻全基因組編碼基因參與的代謝途徑(表1),表1中只列出前3個代謝途徑。全基因組編碼的基因主要參與核糖體、植物激素信號轉(zhuǎn)導(dǎo)和內(nèi)質(zhì)網(wǎng)蛋白質(zhì)加工通路。結(jié)果表明,不同染色體上編碼的基因行使的主要生物學(xué)功能有差異,如連鎖群11和12上編碼的基因主要參與植物-病原菌相互作用,它們的SNPs多態(tài)性也高,特別是連鎖群12,推測它們在演化過程中富集較多的與病原菌變化互作的SNPs變異。Thermogenesis通路在秈稻代謝通路中也較多,如連鎖群3、7和8可能與秈稻的起源環(huán)境有關(guān)。
表1 基于水稻全基因組的KEGG分析Table 1 KEGG analysis based on whole-genome of rice
在植物遺傳育種研究中,SNPs標(biāo)記以其數(shù)量豐富、遺傳穩(wěn)定性高、富有代表性、易于實(shí)現(xiàn)自動化分析以及性價比高等特點(diǎn)已迅速替代SSRs 成為新一代分子標(biāo)記。由于秈稻基因組重復(fù)序列較高,因此使用GBS技術(shù)可以提高秈稻大樣本量測序識別SNPs的性價比。水稻的每一次突破都是種質(zhì)資源中優(yōu)異基因的發(fā)現(xiàn)與挖掘利用,因此,種質(zhì)資源的研究是育種的基礎(chǔ),研究表明影響植物種群遺傳結(jié)構(gòu)的主要因素為交配系統(tǒng),本研究秈稻群體全基因組SNPs雜合基因型位點(diǎn)占 4.95%,表明這些育種材料已經(jīng)純合。雖然該群體的遺傳距離范圍較廣,但平均遺傳距離較小,說明本研究秈稻群體基因組的SNPs多樣性低于大豆,該群體適合后續(xù)QTLs(Quantitative Trait Locus)定位。秈稻連鎖群2、3、5、7、12上有幾個區(qū)域表現(xiàn)出SNPs分布密度大,可能與此區(qū)高重組率有關(guān),如本地區(qū)長期的秈稻種植及育種歷史,加之優(yōu)異材料在育種單位之間的廣泛交流與骨干親本的廣泛使用,或是進(jìn)化過程中與適應(yīng)性有關(guān)。
聚類分析表明,恢復(fù)系和保持系材料并沒有首先分開,可能是各育種單位意識到保持系親緣窄(目前生產(chǎn)上應(yīng)用的細(xì)胞質(zhì)雄性不育系多數(shù)帶有珍汕97B、Ⅱ-32B、中9B和崗46B等血緣,或者是以中國的矮稈早稻品種矮仔占和矮腳南特衍生而成有關(guān)),有意識將各種資源材料血緣滲到保持系材料中,或者是通過雜交水稻組合分離保持系材料所致。這個思路和方法必將豐富保持系遺傳基礎(chǔ),對選育有突破性水稻優(yōu)良品種帶來希望。
群體結(jié)構(gòu)分析結(jié)果表明,除W366、Z12、Z31、Z55、Z19-37和Z5材料之外其余的192份親本材料遺傳基礎(chǔ)單一,遺傳結(jié)構(gòu)相對簡單,群體分層不明顯。以上研究表明,秦巴地區(qū)水稻育種親本材料在遺傳上相似度較大,遺傳背景較單一,遺傳多態(tài)性不高。研究結(jié)果與張羽等[23]的結(jié)論一致。這可能是各育種單位在選育新品種過程中相互間的品種資源交流很廣泛,并且育種目標(biāo)又相近等諸多原因,使得育成品種的遺傳基礎(chǔ)相近。遺傳基礎(chǔ)狹窄對水稻優(yōu)良品種的培育、優(yōu)良性狀的選育以及增產(chǎn)方面帶來限制。加強(qiáng)種質(zhì)資源創(chuàng)新研究,加大外來優(yōu)良種質(zhì)的引進(jìn)和利用研究等,是提高品種遺傳多樣性的重要措施;同時,也是秈稻新品種選育的前提,為秈稻雜交育種提供優(yōu)良種質(zhì)資源。