国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BSA-seq 的黃褐棉纖維長度候選基因發(fā)掘

2022-01-13 06:17:50王議萍周婉婷朱心慧于梓璇李馨蕊汪保華
關(guān)鍵詞:纖維長度表型染色體

陳 奇,王議萍,陳 艷,周婉婷,湯 備,朱心慧,于梓璇,李馨蕊,汪保華

(南通大學(xué) 生命科學(xué)學(xué)院,江蘇 南通 226019)

棉花是世界上重要的經(jīng)濟(jì)作物,也是最重要的天然纖維作物和紡織工業(yè)原料。纖維長度是評價纖維品質(zhì)的重要指標(biāo),在一定范圍內(nèi),紗線強(qiáng)度隨著纖維長度增加而增大;此外,相較于短纖維,長纖維的加工效率更高,并能生產(chǎn)出質(zhì)量更高的細(xì)紗線[1]。唐淑榮等[2-3]研究指出,我國的栽培棉品種還存在一些突出的問題,包括:斷裂比強(qiáng)度普遍偏低,纖維長度、強(qiáng)度和細(xì)度搭配不合理,不能滿足棉紡織工業(yè)紡紗工藝的用棉需求,我國栽培棉的纖維品質(zhì)需進(jìn)一步提升。

棉花纖維長度是由多基因控制的數(shù)量性狀,因此,定位其在染色體上的具體區(qū)域?qū)罄m(xù)候選基因的進(jìn)一步發(fā)掘具有重要意義。經(jīng)過多年研究,國內(nèi)外學(xué)者鑒定了很多棉花纖維長度數(shù)量性狀基因座(quantitative trait locus,QTL),例如:在棉花1 號染色體上發(fā)現(xiàn)的一個穩(wěn)定的纖維長度QTL,在不同研究團(tuán)隊(duì)的不同遺傳背景下都能檢測到。Chee 等[4]利用海島棉與陸地棉種間回交高世代群體定位到Chr.1染色體上的纖維長度QTL(qFL-chr1),海島棉等位基因在3 個不同的回交高世代家系衍生的群體中均可提高纖維長度,解釋12%~24%的表型方差。Shen 等[5]利用BC3F2植株構(gòu)建了3 個獨(dú)立的近等導(dǎo)入系群體,進(jìn)一步驗(yàn)證了該QTL;其中一個近等基因系R01-40-08 具有94.3%的輪回親本基因組,能顯著提高纖維長度。Xu 等[6]利用R01-40-08 構(gòu)建了目標(biāo)區(qū)間分離的大群體,精細(xì)定位該QTL 至0.9 cM區(qū)間,并篩選到兩個候選基因GOBAR07705、GOBAR25992。除Chr.1 染色體上的穩(wěn)定主效QTL 外,研究人員也多次在Chr.7 染色體[7-9]和Chr.25 染色體[10-12]上檢測到纖維長度QTL。此外,Ning 等[13]檢測到Chr.21 染色體上一個穩(wěn)定的纖維長度QTL(qFLD11-1),在7 個環(huán)境下均能檢測到。Wang 等[14]利用一套陸地棉重組自交系群體鑒定到13 個纖維長度QTL;其中,在Chr.18 染色體上檢測到纖維長度QTL(qFL18.1)位于分子標(biāo)記PGML1145~JESPR178區(qū)間。雖然目前已鑒定了很多纖維長度QTL,但克隆候選基因進(jìn)而得到應(yīng)用的并不多,因此,有必要進(jìn)一步發(fā)掘纖維長度候選基因并驗(yàn)證其功能,最終用于棉花分子育種實(shí)踐。

棉屬分為A、B、C、D、E、F、G、K 8 個染色體組,共52 個種,其中包括45 個二倍體和7 個異源四倍體棉種[15]。在野生棉資源中,四倍體野生棉與陸地棉倍性相同,便于直接雜交獲得穩(wěn)定遺傳的后代;前人研究利用陸地棉與毛棉、陸地棉與達(dá)爾文棉種間群體,都鑒定到一些穩(wěn)定的纖維長度QTL[16-17]。在棉花7 個異源四倍體里,黃褐棉與陸地棉遺傳距離最遠(yuǎn)[18],因此,最有可能存在新的基因位點(diǎn),挖掘并利用這些新的基因?qū)ν貙掙懙孛捱z傳背景和改良纖維品質(zhì)具有重要的科學(xué)意義和應(yīng)用價值。例如:Shen等[19]將陸地棉與黃褐棉雜交并回交,構(gòu)建了包含71個家系的染色體片段代換系群體,定位到29 個纖維品質(zhì)QTL,并發(fā)現(xiàn)部分QTL 的有利基因來自于黃褐棉。

本團(tuán)隊(duì)前期研究利用黃褐棉與陸地棉種間F2群體構(gòu)建了遺傳圖譜,在此基礎(chǔ)上構(gòu)建了高世代回交群體BC3F2、BC3F2:3和BC3F2:4,共鑒定出131 個控制纖維品質(zhì)性狀的QTL[20-23]。基于回交高世代群體選擇了一套導(dǎo)入系,其中一些導(dǎo)入系纖維品質(zhì)表現(xiàn)突出;對這套導(dǎo)入系開展了多年重復(fù)的田間試驗(yàn),對纖維品質(zhì)性狀開展了QTL 定位,共定位到15 個纖維長度QTL,其中包括Chr.18 染色體上一個纖維長度主效QTL(qUHM-18-1),其增效基因來自黃褐棉,解釋23.36%的表型方差,加性效應(yīng)為1.42 mm[24],并由此通過分子標(biāo)記輔助選育出一個帶有qUHM-18-1且纖維長度突出的黃褐棉導(dǎo)入系IL9(纖維長度3 年平均值為33.3 mm)。本研究擬利用IL9 與其陸地棉輪回親本PD94042 構(gòu)建的F2大群體,通過極端性狀混池測序分析(bulked-segregant analysis sequencing,BSA-seq)結(jié)合QTL 定位結(jié)果,進(jìn)一步挖掘黃褐棉纖維長度候選功能基因,為棉花分子育種提供基因資源。

1 實(shí)驗(yàn)材料與方法

1.1 植物材料

本實(shí)驗(yàn)室前期分子輔助選擇了一個優(yōu)質(zhì)黃褐棉導(dǎo)入系IL9,在IL9 的基因組構(gòu)成中,黃褐棉導(dǎo)入片段約占15.3%[24]。利用IL9 和陸地棉輪回親本PD94042 雜交并自交,構(gòu)建得到F2代次級群體,共1 244 個單株,開展纖維品質(zhì)表型鑒定。

1.2 BSA-seq 分析

1.2.1 材料準(zhǔn)備

盛花期按單株采集BC3F2群體的棉花葉片放置于-80 ℃超低溫冰箱保存,在獲得纖維品質(zhì)表型數(shù)據(jù)后,根據(jù)測序要求挑選纖維長度最長和最短的棉花材料的葉片各30 份,再選取相同數(shù)量的親本材料PD94042 和IL9 的葉片,提取基因組DNA 組成4個混池,由北京組學(xué)生物科技有限公司進(jìn)行基因組重測序,測序深度為30×,參考基因組為棉花全基因組序列(http://mascotton.njau.edu.cn/Data.htm)。

1.2.2 文庫構(gòu)建及測序

首先,檢測樣品基因組的DNA,合格的DNA 用超聲波打斷的方法將其片段化;然后,進(jìn)行片段的純化和末端修復(fù),進(jìn)而開展3′端加A 和測序接頭的連接;之后,利用瓊脂糖凝膠電泳選擇片段大小,進(jìn)行PCR 擴(kuò)增形成測序文庫。構(gòu)建好的文庫先進(jìn)行質(zhì)檢,再利用Illumina HiSeq 平臺對質(zhì)檢合格的文庫進(jìn)行測序。

1.2.3 測序結(jié)果質(zhì)控

高通量測序得到的原始測序序列(Raw data 或Raw reads)包含序列信息及其對應(yīng)的測序質(zhì)量信息,必須經(jīng)過質(zhì)控進(jìn)而得到Clean data 后才能用于后續(xù)分析。質(zhì)控方法包括:低質(zhì)量數(shù)據(jù)過濾、堿基測序質(zhì)量分布和堿基類型分布。

1.2.4 候選基因的發(fā)掘與鑒定

將質(zhì)控后得到的Clean data 重新比對到參考基因組上,進(jìn)而開展后續(xù)的變異分析,根據(jù)比對結(jié)果進(jìn)行插入缺失(insertion-deletion,InDel)和單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)的檢測及注釋。對于InDel 和SNP 的檢測主要使用GATK軟件工具包來實(shí)現(xiàn),主要檢測過程可參考GATK 官方網(wǎng)站的BestPractice(https://www.broadinstitute.org/gatk/guide/best-practices.php),隨后使用一種高效的軟件工具ANNOVAR 對SNP 進(jìn)行注釋。對于差異基因的關(guān)聯(lián)分析,本實(shí)驗(yàn)通過兩種方法來確定候選區(qū)域,分別為歐式距離(euclidean distance,ED)算法關(guān)聯(lián)分析和基于BSA-seq 的SNP-index 算法關(guān)聯(lián)分析。SNP 質(zhì)量分布和SNP 突變頻譜被用來檢測所得SNP 數(shù)據(jù)的可靠性,最終根據(jù)SNP-index 算法計算與性狀關(guān)聯(lián)的候選區(qū)域。SNP-index 算法如下:基于基因分型的結(jié)果,篩選親本中純合的且親本間具有多態(tài)性的SNP 位點(diǎn)。將其中的一個親本作為參考,計算兩個子代在親本間標(biāo)記位點(diǎn)的SNP-index(SNP頻率),即統(tǒng)計混池和親本(或參考基因組)在某一個堿基位點(diǎn)上相同或不同的reads 數(shù),進(jìn)而計算出不同reads 數(shù)占總reads 數(shù)的比例,即為該堿基位點(diǎn)的SNP-index。完全與其相同的SNP-index 為0;完全與其不同的SNP-index 為1。計算Δ(SNP-index),即兩個子代的SNP-index 之差:Δ(SNP-index)=SNP-index(極端性狀B)-SNP-index(極端性狀A(yù))。該差值越接近于1,則標(biāo)記SNP 與目標(biāo)性狀之間的關(guān)聯(lián)度越大,把超過閾值線的區(qū)域定為候選區(qū)域。對分析所得的候選基因區(qū)域內(nèi)的基因進(jìn)行基因同源性分析及相關(guān)功能深度注釋,以此來篩選所要得到的候選基因。

2 結(jié)果與分析

2.1 表型結(jié)果統(tǒng)計分析

利用本實(shí)驗(yàn)室前期分子輔助選擇的優(yōu)質(zhì)黃褐棉導(dǎo)入系IL9 和陸地棉輪回親本PD94042 雜交構(gòu)建得到F2代次級群體,共1 244 個單株,在相同條件下,對親本材料PD94042、IL9 和F2代群體的纖維長度表型數(shù)據(jù)進(jìn)行測量和記錄。該部分表型數(shù)據(jù)被用來進(jìn)行BSA 分析所需數(shù)據(jù)的選擇,F(xiàn)2代次級群體平均表型結(jié)果如表1 所示。從表中的數(shù)據(jù)可以看出,相較于親本PD94042,導(dǎo)入系IL9 明顯具有更優(yōu)良的纖維表型表現(xiàn),后代群體的纖維長度得到了改良。

表1 F2 代次級群體纖維長度表型數(shù)據(jù)Tab.1 Phenotypic data of fiber length in the F2 population

2.2 與參考基因組的比對統(tǒng)計

將重測序獲得的reads 重新比對到參考基因組上,進(jìn)而開展后續(xù)的變異分析。本研究的測序樣品序列reads 總數(shù)在277~327 Mbp 之間,GC 堿基數(shù)都在35%左右,GC 分布正常,而且各個樣品Q30 的值都在90%左右,說明過濾后的結(jié)果較為可靠。

經(jīng)過過濾和修飾讀取后,4 個樣本reads 比對到參考基因組上的覆蓋率都超過98%,雙端測序序列均比對到參考基因組上,且距離符合測序片段的長度分布均超過94%。對于兩個極端性狀DNA 混池,測序深度達(dá)到33×,且參考基因組中至少有10 個堿基覆蓋的位點(diǎn)占基因組的百分比均超過81%,每個樣品的測序數(shù)據(jù)信息充分,測序質(zhì)量合格。結(jié)果表明該數(shù)據(jù)符合突變分析檢測的標(biāo)準(zhǔn),可成功用于Illumina 測序分析。

2.3 混池SNP 檢測統(tǒng)計

樣品表型之間的差異往往是其基因組序列上的變異所導(dǎo)致的,在BSA-seq 分析中,利用GATK軟件工具包,把重心放在檢測樣品間序列的SNP上。SNP 指由基因組核苷酸水平上的變異引起的DNA 序列多態(tài)性,包括由單堿基的轉(zhuǎn)換、顛換和單堿基的插入與缺失等引起的同義突變和錯義突變。通過與參考基因組的對比,得到每一個樣本和參考基因組的SNP 數(shù)目,以及樣本之間的結(jié)果比較。混池間的SNP 結(jié)果統(tǒng)計如表2 所示。

表2 混池SNP 結(jié)果統(tǒng)計表Tab.2 SNP information of different samples

從表2 中可以看出,F(xiàn)Lmax中的SNP 總數(shù)高達(dá)2 829 100,而FLmin中也包含1 885 065 個SNP。為進(jìn)一步統(tǒng)計和可視化4 個樣本間的SNP 重復(fù)性,我們做了SNP 的統(tǒng)計結(jié)果Venn 圖(圖1)。從Venn 圖整體分布情況來看,F(xiàn)Lmax混池基因組更接近于IL9,F(xiàn)Lmin混池基因序列則更接近于PD94042。這也從側(cè)面說明了子代中控制更長纖維長度的基因大部分來源于黃褐棉導(dǎo)入系IL9,該結(jié)果為本研究課題的展開和后續(xù)工作提供了理論支持。

圖1 纖維長度混池樣品SNP 統(tǒng)計Venn 圖Fig.1 Venn diagram of fiber length SNPs

2.4 候選基因區(qū)域篩選

本研究通過基于BSA-seq 的SNP-index 關(guān)聯(lián)分析來計算兩個混池間等位基因的基因型頻率,進(jìn)而獲得與目標(biāo)性狀相關(guān)聯(lián)的基因組區(qū)域。根據(jù)SNP-index 方法關(guān)聯(lián)閾值判定,首先計算兩個子代在親本間標(biāo)記位點(diǎn)的SNP 的頻率(即SNP-index),計算Δ(SNP-index),即兩個子代的SNP-index 作差,超過閾值線的為候選基因組區(qū)域。當(dāng)擬合后的Δ(SNP-index)置信度為0.99 時,共得到3 個與棉花纖維長度性狀相關(guān)聯(lián)的染色體區(qū)域,分布于Chr.7、Chr.10、Chr.18 3 條染色體上(圖2)。

圖2 纖維長度混池SNP-index 關(guān)聯(lián)分析Fig.2 SNP-index association analysis of fiber length

通過對關(guān)聯(lián)分析所得到的3 個候選區(qū)域的進(jìn)一步統(tǒng)計,包括這些區(qū)域所處的染色體位置(起始和結(jié)束位點(diǎn))、序列長度和候選基因數(shù)目,得到候選區(qū)域的相關(guān)信息統(tǒng)計(表3)。從表中數(shù)據(jù)可以看出,纖維長度性狀候選基因主要集中在Chr.7、Chr.10、Chr.18 3 條染色體的3 個基因區(qū)域,涉及的基因數(shù)分別為7、21、6 個。

表3 纖維長度基因候選區(qū)域相關(guān)信息統(tǒng)計表Tab.3 Statistics of candidate gene regions related to fiber length

2.5 候選基因篩選

在前期研究中,我們鑒定了一個位于18 號染色體上的纖維長度主效QTL(qUHM-18-1),候選區(qū)域覆蓋染色體的31 696 068~51 883 215 bp 基因組區(qū)間,而本次BSA-seq 研究中鑒定到的Chr.18(D13)候選基因區(qū)域與該QTL 的染色體區(qū)域有部分重疊,且重疊區(qū)域包含了引起氨基酸變化的單核苷酸變化,因此我們選取Chr.18 染色體作為后續(xù)驗(yàn)證的主要候選基因區(qū)域。我們對BSA 候選區(qū)域內(nèi)的基因開展了進(jìn)一步的整理,隨后通過GO 功能注釋信息和KEGG 通路注釋信息,進(jìn)而對區(qū)域內(nèi)的候選基因進(jìn)行與纖維長度性狀相關(guān)的篩選。綜合QTL 及BSA-seq 結(jié)果,該區(qū)域存在6 個相關(guān)基因,分別為Gh_D13G1292、Gh_D13G1293、Gh_D13G1294、Gh_D 13G1295、Gh_D13G1296、Gh_D13G1297。通過GO功能注釋信息和KEGG 通路分析,最終篩選到3 個候選基因:Gh_D13G1294、Gh_D13G1295 和Gh_D 13G1296(基因序列信息見表4)。

表4 目的基因序列信息Tab.4 Sequences of the target genes

3 結(jié)論

前期研究中,我們基于一套黃褐棉導(dǎo)入系群體開展了纖維品質(zhì)QTL 定位,鑒定了15 個纖維長度主效QTL[24]。選擇纖維品質(zhì)突出的導(dǎo)入系IL9 與其陸地棉輪回親本PD94042 雜交并自交,構(gòu)建了F2大群體,結(jié)合表型鑒定結(jié)果,開展了纖維長度的BSA-seq 分析?;赟NP-index 和ED 的關(guān)聯(lián)算法,控制纖維長度的數(shù)量性狀位點(diǎn)被分別定位在Chr.7、Chr.10、Chr.18 共3 條染色體上3 個相關(guān)區(qū)域內(nèi),涉及的基因數(shù)分別為7、21、6 個。前期基于黃褐棉導(dǎo)入系的QTL 定位研究鑒定到Chr.18 上一個纖維長度QTL(qUHM-18-1),其增效基因來自黃褐棉,解釋23.36%的表型方差[24]。該QTL 是在前人研究發(fā)現(xiàn)的來自達(dá)爾文棉、毛棉等四倍體野生棉種之外,增效基因來自黃褐棉的新的纖維長度主效QTL,為陸地棉纖維品質(zhì)改良提供了新的基因資源。通過比較該QTL 和BSA-seq 候選區(qū)域的位置信息,我們將候選基因區(qū)域縮小到更精細(xì)的區(qū)域。對分析所得區(qū)域內(nèi)的候選基因進(jìn)行基因同源性分析及相關(guān)功能注釋篩選,最終篩選出最可能和纖維長度的生長發(fā)育建成相關(guān)的3 個候選基因,為Gh_D13G1294、Gh_D 13G1295 和Gh_D13G1296。

Gh_D13G1294 編碼MYB-like102(MYB102),在擬南芥中,MYB102 轉(zhuǎn)錄因子可以通過調(diào)節(jié)乙烯生物合成[25]和細(xì)胞分裂素水平[26]來促進(jìn)植物體的生長發(fā)育,但在棉花中的分子作用機(jī)制尚不明確。Gh_D13G1295 編碼myb domain protein 4r1 轉(zhuǎn)錄因子,屬于R2R3-MYB 轉(zhuǎn)錄因子基因家族,是植物中最大的轉(zhuǎn)錄因子基因家族之一,該基因家族在植物的生長發(fā)育建成和代謝調(diào)節(jié)方面發(fā)揮廣泛作用。Gh_D13G1296 編 碼myb domain protein 16 轉(zhuǎn)錄因子(MYB16),該轉(zhuǎn)錄因子在植物體的表皮形成[27]和細(xì)胞形態(tài)變化發(fā)生[28]中發(fā)揮著重要作用。在分子功能方面,這三個基因都是蛋白質(zhì)編碼基因,且都與染色質(zhì)結(jié)合(GO:0003682)相關(guān),通過編碼相關(guān)蛋白與染色質(zhì)、蛋白質(zhì)、DNA 的纖維網(wǎng)絡(luò)或者在染色體間期組成真核細(xì)胞核染色體的RNA 進(jìn)行選擇性和非共價相互作用完成相關(guān)功能。KEGG 通路分析發(fā)現(xiàn)這幾個基因都主要集中作用在DNA 的結(jié)合過程中,以及作用于其合成蛋白質(zhì)的轉(zhuǎn)錄因子方面。這些基因可能在棉花纖維長度的發(fā)育過程中起重要作用,在后續(xù)研究中,將進(jìn)一步驗(yàn)證其功能,最終用于棉花分子育種實(shí)踐。

猜你喜歡
纖維長度表型染色體
蒸煮及打漿過程中劍麻漿聚合度和纖維長度的變化規(guī)律
中國造紙(2022年3期)2022-07-21 09:12:40
多一條X染色體,壽命會更長
為什么男性要有一條X染色體?
隨機(jī)須叢影像法纖維長度測量儀
中國纖檢(2017年12期)2018-02-07 19:50:10
建蘭、寒蘭花表型分析
能忍的人壽命長
南疆棉區(qū)打頂時間對棉花產(chǎn)量和纖維長度的影響?
GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
慢性乙型肝炎患者HBV基因表型與血清學(xué)測定的臨床意義
再論高等植物染色體雜交
香河县| 云林县| 宁海县| 北京市| 德江县| 土默特右旗| 新宾| 临沭县| 买车| 讷河市| 青神县| 紫阳县| 海晏县| 淮安市| 牡丹江市| 井冈山市| 邹平县| 田阳县| 广宁县| 三门县| 达尔| 普宁市| 达拉特旗| 武强县| 元阳县| 嘉禾县| 寻乌县| 普兰县| 丹阳市| 凤翔县| 穆棱市| 马龙县| 岢岚县| 绩溪县| 会东县| 辽中县| 安义县| 乐陵市| 兰西县| 商都县| 泾源县|