劉正文, 王省芬, 孟成生, 張艷, 孫正文, 吳立強(qiáng), 馬峙英, 張桂寅
(河北農(nóng)業(yè)大學(xué)農(nóng)學(xué)院, 華北作物改良與調(diào)控國家重點(diǎn)實(shí)驗(yàn)室, 河北省作物種質(zhì)資源重點(diǎn)實(shí)驗(yàn)室, 河北 保定 071000)
棉花是重要的經(jīng)濟(jì)作物,為紡織工業(yè)提供天然纖維原料。陸地棉(Gossypiumhirsutum)和海島棉(Gossypiumbarbadense)是目前栽培范圍比較廣泛的兩個(gè)棉種,陸地棉產(chǎn)量高但纖維品質(zhì)中等,海島棉纖維品質(zhì)優(yōu)異但產(chǎn)量低。棉纖維品質(zhì)主要由細(xì)胞壁特性決定,因此挖掘分析海島棉纖維細(xì)胞壁發(fā)育相關(guān)基因有利于明確優(yōu)質(zhì)棉纖維形成的分子機(jī)理,同時(shí)為分子育種提供候選基因,有利于實(shí)現(xiàn)高產(chǎn)和優(yōu)質(zhì)性狀的有效聚合。
植物GH9 (glycoside hydrolase 9) 家族由內(nèi)切-β-1,4-葡聚糖酶(endo-β-1, 4-glucanase)構(gòu)成,能夠水解具有β-1,4-葡聚糖主鏈的多聚糖,并且涉及纖維素的生物合成,在細(xì)胞壁的生物合成和重塑中起著重要作用。區(qū)別于細(xì)菌,植物GH9基因的潛在底物是無定型區(qū)的纖維素以及非結(jié)晶多聚糖(如木葡聚糖)。依據(jù)結(jié)構(gòu)不同,可將植物GH9基因分為A、B、C三個(gè)亞族[1]。A亞族N端有一個(gè)跨膜區(qū)域,是膜結(jié)合蛋白。在擬南芥中,GH9A (KOR) 是纖維素合酶復(fù)合體的重要成分[2-3]。在楊樹[4-5]和陸地棉[6]中沉默KOR顯著減少結(jié)晶纖維素含量??梢?,GH9A參與植物細(xì)胞壁纖維素生物合成。B亞族通常包含信號肽,是分泌蛋白,在植物GH9基因家族中數(shù)量最多,具有復(fù)雜多變的功能。沉默擬南芥GH9B1(CEL1) 造成細(xì)胞壁褶皺,同時(shí)伴隨減少的纖維素和木質(zhì)素含量[7]。在水稻中,OsGH9B8、OsGH9B9、OsGH9B10、OsGH9B11與OsCESA4、OsCESA7、OsCESA9共表達(dá),表明其在次生壁形成過程中起作用[8]。此外,在水稻中過表達(dá)OsGH9B1或OsGH9B3只會輕微改變纖維素、半纖維素、木質(zhì)素組分,但會顯著減少纖維素聚合度和結(jié)晶指數(shù),說明OsGH9B1/B3能夠修飾纖維素微纖絲[9]。C亞族結(jié)構(gòu)類似B亞族,具有信號肽,此外其C端包含植物特有的CBM49 (carbohydrate binding module 49) 結(jié)構(gòu)。細(xì)菌纖維素酶通常具備CBM結(jié)構(gòu),用于附著結(jié)晶纖維素。體外試驗(yàn)發(fā)現(xiàn),來自番茄SlCel9C1的CBM結(jié)構(gòu)能結(jié)合結(jié)晶纖維素[10]。然而,也有證據(jù)顯示CBM結(jié)構(gòu)會在翻譯后被切除[11]。目前,尚無植物GH9C在體內(nèi)水解結(jié)晶纖維素的強(qiáng)力證據(jù)。
隨著植物基因組信息的完善,研究者已從擬南芥[1]、水稻[8]、楊樹[12]、陸地棉[13]中鑒定出GH9基因家族成員。相較于陸地棉,海島棉擁有更優(yōu)質(zhì)的棉纖維,在海島棉中鑒定并分析GH9基因能夠加深對棉纖維品質(zhì)性狀形成的理解,補(bǔ)充分子育種資源,然而目前尚無海島棉GH9基因家族相關(guān)報(bào)道。本研究基于海島棉品種Hai7124基因組鑒定GH9基因家族成員,并分析其理化性質(zhì)、基因結(jié)構(gòu)、染色體分布、進(jìn)化歷程、表達(dá)模式、轉(zhuǎn)錄調(diào)控和潛在功能,為棉花GH9基因的深入研究奠定基礎(chǔ)。
海島棉(GossypiumbarbadenseZJU_Hai7124_V1.1)、陸地棉(GossypiumhirsutumZJU_TM-1_V2.1)序列下載自CottonFGD (https://cottonfgd.org/) 。大豆(GlycinemaxWm82.a2.v1)序列下載自Phytozome (https://data.jgi.doe.gov/refine-download/phytozome) 。葡萄(Vitisvinifera12X)、黃麻(CorchoruscapsularisCCACVL1_1.0)、可可(TheobromacacaoCriollo_cocoa_genome_V2)序列下載自Ensembl Plants (http://plants.ensembl.org/index.html) 。榴蓮(DuriozibethinusGCF_002303985.1_Duzib1.0)序列下載自NCBI FTP (ftp://ftp.ncbi.nih.gov/genomes/refseq/plant/) 。
從Pfam (http://pfam.xfam.org/) 數(shù)據(jù)庫下載GH9家族(PF00759)結(jié)構(gòu)域序列文件,利用HMMER 3.0[14]軟件建立隱馬爾可夫模型并鑒定候選基因,利用SMART (http://smart.embl-heidelberg.de) 和CDD (http://www.ncbi.nlm.nih.gov/cdd) 分析候選蛋白序列,剔除不含完整保守結(jié)構(gòu)域的序列。利用SignalP-5.0 (http://www.cbs.dtu.dk/services/SignalP/)預(yù)測信號肽,TMHMM-2.0 (http://www.cbs.dtu.dk/services/TMHMM/) 預(yù)測跨膜域。蛋白長度、分子量、等電點(diǎn)利用本地Perl腳本批量計(jì)算。
使用MEME (http://meme-suite.org/)工具分析家族保守基序,motif數(shù)量設(shè)置為15?;蚪Y(jié)構(gòu)信息和染色體位置信息提取自基因組結(jié)構(gòu)注釋文件,并分別用Tbtools[15]和MapChart[16]軟件展示。MEGA 7.0[17]軟件構(gòu)建系統(tǒng)發(fā)育樹,基于鄰接法(neighbor-joining method),Bootstrap設(shè)置為1 000次。在線工具iTOL (https://itol.embl.de/) 用于展示系統(tǒng)發(fā)育樹。
使用MCScanX[18]軟件鑒定海島棉基因復(fù)制事件,Tbtools軟件提取并展示GH9基因復(fù)制。使用ParaAT[19]實(shí)現(xiàn)復(fù)制基因?qū)Φ拿艽a子序列比對,使用KaKs_Calculator[20]計(jì)算非同義替換率(Ka)、同義替換率(Ks)以及二者比值(Ka/Ks)。
海島棉品種Pima90-53、海7124(Hai7124),陸地棉品種HY405、農(nóng)大棉13號(ND13)、中棉所8號(CCRI8)、農(nóng)大601(ND601)用于轉(zhuǎn)錄組測序,所用材料均由本課題組保存。測序文庫分別構(gòu)建自開花當(dāng)天的胚珠(0 days post-anthesis, DPA)以及5、10、15、20、25、30 DPA的纖維。RPKM值(reads per kilobase of exon model per million mapped reads,每百萬reads中來自某基因每千堿基長度的reads數(shù))用于評估基因表達(dá)量。計(jì)算log2(1+RPKM),并用在線工具iTOL繪制熱圖。設(shè)計(jì)A、D亞基因組同源基因通用引物(表1),利用實(shí)時(shí)熒光定量PCR方法確認(rèn)GbGH9s在棉纖維發(fā)育過程中的表達(dá)模式,內(nèi)參為組蛋白基因H3。
JASPAR (http://jaspar.genereg.net/) 網(wǎng)站下載轉(zhuǎn)錄因子結(jié)合位點(diǎn)的位置頻率矩陣,被選擇的轉(zhuǎn)錄因子涉及植物細(xì)胞壁發(fā)育以及脫落酸、細(xì)胞分裂素、生長素、赤霉素、乙烯、油菜素內(nèi)酯信號。提取海島棉GH9基因起始密碼子ATG上游2 000 bp基因組序列,基于JASPAR矩陣,使用FIMO[21]軟件鑒定轉(zhuǎn)錄因子結(jié)合位點(diǎn),設(shè)定閾值p<1E-5。
利用陸地棉品種CCRI8作為受體親本,海島棉品種Pima90-53作為供體親本,構(gòu)建包含167個(gè)株系的BC3F5群體;基于A、D亞基因組序列差異,設(shè)計(jì)SNP引物GH9B6_R用以區(qū)分GH9B6與D亞基因組同源基因GH9B25,基于海島棉和陸地棉基因組序列差異,設(shè)計(jì)SNP引物GbGH9B6_F和GhGH9B6_F用以區(qū)分直系同源基因GbGH9B6和GhGH9B6,在引物倒數(shù)第3位制造錯(cuò)配用以提高擴(kuò)增條帶區(qū)分度(表1);使用兩組引物(組合1:GbGH9B6_F和GH9B6_R;組合2:GhGH9B6_F和GH9B6_R)分別對167個(gè)株系進(jìn)行基因分型,只在組合1有擴(kuò)增條帶的株系此位點(diǎn)為海島棉純合型GbGH9B6/GbGH9B6,只在組合2有擴(kuò)增條帶的株系此位點(diǎn)為陸地棉純合型GhGH9B6/GhGH9B6,在組合1和2都有擴(kuò)增條帶的株系此位點(diǎn)為雜合型GbGH9B6/GhGH9B6;根據(jù)基因分型結(jié)果把群體分為3個(gè)亞群,比較亞群間的纖維品質(zhì)差異,表型數(shù)據(jù)來自兩個(gè)不同的生態(tài)環(huán)境(河北保定和新疆輪臺),數(shù)據(jù)分析使用GraphPad Prism軟件,顯著性P由雙尾t檢驗(yàn)計(jì)算。
表1 本研究中所用引物序列Table 1 Primer sequences in this study
基于海島棉品種Hai7124的參考基因組,共鑒定53個(gè)具有糖苷水解酶GH9完整結(jié)構(gòu)域的基因(表2)。基于陸地棉遺傳標(biāo)準(zhǔn)系TM-1參考基因組共鑒定52個(gè)GH9基因。為了明晰家族成員進(jìn)化關(guān)系,構(gòu)建包含海島棉、陸地棉、擬南芥[1]、水稻[8]、楊樹[12]GH9基因的系統(tǒng)發(fā)育樹(圖1)。根據(jù)聚類結(jié)果和已有分類信息,53個(gè)海島棉GH9基因被分為3類,包括8個(gè)A亞族基因(命名為GbGH9A1~GbGH9A8)、37個(gè)B亞族基因(命名為GbGH9B1~GbGH9B37)以及8個(gè)C亞族基因(命名為GbGH9C1~GbGH9C8)。此外,A亞族還包括8個(gè)陸地棉基因、3個(gè)擬南芥基因、3個(gè)水稻基因、4個(gè)楊樹基因;B亞族包括37個(gè)陸地棉基因、19個(gè)擬南芥基因、18個(gè)水稻基因、18個(gè)楊樹基因;C亞族包括7個(gè)陸地棉基因、3個(gè)擬南芥基因、4個(gè)水稻基因、3個(gè)楊樹基因。可見,A、B、C三個(gè)亞族形成于單子葉植物和雙子葉植物分化之前,而且GH9基因家族在植物中具有較高的保守性。
表2 53個(gè)海島棉GH9蛋白的理化性質(zhì)Table 2 Characteristics of 53 GH9 proteins in Gossypium barbadense
圖1 海島棉、陸地棉、擬南芥、水稻、楊樹GH9基因的系統(tǒng)發(fā)育樹Fig.1 Phylogenetic tree of GH9 genes from Gossypium barbadense, Gossypium hirsutum, Arabidopsis thaliana, Oryza sativa and Populus trichocarpa
GbGH9Cs的基因結(jié)構(gòu)相對保守(圖2A),糖苷水解酶結(jié)構(gòu)域分布在6或7個(gè)外顯子上;B亞族成員基因結(jié)構(gòu)變異幅度較大,可能對應(yīng)其復(fù)雜多變的功能,糖苷水解酶結(jié)構(gòu)域分布在4至8個(gè)外顯子上;A亞族糖苷水解酶結(jié)構(gòu)域主要分布在6個(gè)外顯子上,然而GbGH9A4和GbGH9A8僅含有2個(gè)外顯子,推測其最初來自反轉(zhuǎn)錄轉(zhuǎn)座。通過分析海島棉GH9家族成員保守基序(圖2B),發(fā)現(xiàn)15個(gè)被鑒定的保守基序全部集中在糖苷水解酶結(jié)構(gòu)域范圍內(nèi),表明此結(jié)構(gòu)域在海島棉中相當(dāng)保守。糖苷水解酶結(jié)構(gòu)域之外,A亞族成員N端通常具有跨膜域(圖2C),為膜結(jié)合蛋白;B亞族中22個(gè)成員被預(yù)測具有信號肽,可能為分泌蛋白(圖2D和表2);C亞族成員相對保守,全部具備信號肽和CBM49結(jié)構(gòu)(圖2E)。
A:基因結(jié)構(gòu);B:保守基序;C:A亞族成員結(jié)構(gòu)域;D:B亞族成員結(jié)構(gòu)域;E:C亞族成員結(jié)構(gòu)域。A: Gene structure; B: Conserved motif; C: Domain of GH9A; D: Domain of GH9B; E: Domain of GH9C.圖2 海島棉GH9基因家族成員結(jié)構(gòu)特征Fig.2 Structure characteristics of GbGH9s
根據(jù)基因位置信息,使用MapChart軟件繪制GbGH9s的染色體分布圖(圖3)。發(fā)現(xiàn)53個(gè)基因零散地分布在除A04、A09、D04、D09之外的22條染色體上。A、B、C亞族基因均未形成基因簇,可見串聯(lián)復(fù)制在海島棉GH9基因家族擴(kuò)張中作用較小。此外,GbGH9s在A、D亞基因組間無明顯偏好性。
注:GbGH9As、 GbGH9Bs和GbGH9Cs基因分別用綠色、黑色和藍(lán)色標(biāo)注。Note: GbGH9As, GbGH9Bs and GbGH9Cs are colored in green, black and blue, respectively.圖3 海島棉GH9基因染色體分布Fig.3 Chromosomal distribution of GbGH9s
為研究海島棉GH9基因家族擴(kuò)張,使用MCScanX軟件鑒定基因復(fù)制事件。A亞基因組中發(fā)現(xiàn)9對片段復(fù)制/全基因組復(fù)制基因,涉及13個(gè)GbGH9s;D亞基因組中發(fā)現(xiàn)12對片段復(fù)制/全基因組復(fù)制基因,涉及12個(gè)GbGH9s(圖4)。此外,GbGH9s中未鑒定到串聯(lián)復(fù)制基因,可見片段復(fù)制/全基因組復(fù)制是海島棉GH9基因家族擴(kuò)張的主要驅(qū)動力。為評估復(fù)制發(fā)生時(shí)間,計(jì)算上述基因?qū)Φ耐x替換率(Ks),發(fā)現(xiàn)2個(gè)區(qū)分明顯的Ks值范圍:0.44~0.73之間涉及15個(gè)GbGH9Bs和6個(gè)GbGH9Cs,對應(yīng)棉屬特有多倍化事件(約16.6 MYA)[22];1.33~2.20之間涉及11個(gè)GbGH9Bs,對應(yīng)雙子葉植物共有的古六倍體化事件(約130.8 MYA)[22]。此外,計(jì)算復(fù)制基因?qū)Φ腒a/Ks從而評估其受到的選擇壓力,發(fā)現(xiàn)所有復(fù)制基因?qū)Φ腒a/Ks均遠(yuǎn)小于1,其中GbGH9Bs所屬基因?qū)Φ腒a/Ks范圍為0.09~0.30,GbGH9Cs所屬基因?qū)Φ腒a/Ks范圍為0.09~0.14(數(shù)據(jù)未列出)。綜上,古六倍體化事件推動了B亞族的擴(kuò)張,隨后棉屬特有多倍化事件推動了B亞族和C亞族的擴(kuò)張;海島棉GH9基因家族經(jīng)歷了嚴(yán)格的選擇約束,其中C亞族可能在進(jìn)化上更保守。
注:綠線代表A亞基因組片段復(fù)制基因?qū)Γ{(lán)線代表D亞基因組片段復(fù)制基因?qū)?,橙線代表A亞基因組與D亞基因組同源基因?qū)?。?shù)值代表復(fù)制基因?qū)Φ耐x替換率Ks。Note: Green line indicates segmental duplication within At-subgenome, blue line indicates segmental duplication within Dt-subgenome, orange line links homologous genes between At- and Dt-subgenome. The numbers represent the Ks values of duplicated gene pairs.圖4 海島棉GH9基因家族片段復(fù)制事件Fig.4 Segmental duplication events among GbGH9s
為明確海島棉GH9基因家族的進(jìn)化歷程,基于單子葉植物水稻及雙子葉植物葡萄、大豆、毛果楊、擬南芥、黃麻、可可、榴蓮、海島棉GH9家族成員蛋白序列,構(gòu)建系統(tǒng)發(fā)育樹分析其進(jìn)化關(guān)系。如圖5所示,181個(gè)B亞族成員聚類成13組(Ⅰ~ⅩⅢ),其中進(jìn)化枝Ⅰ、Ⅲ、Ⅴ、Ⅵ、Ⅶ、Ⅷ、Ⅸ、Ⅹ、Ⅺ產(chǎn)生于單子葉和雙子葉植物分化之前,而進(jìn)化枝Ⅱ、Ⅳ產(chǎn)生于雙子葉植物共有的古六倍體化事件。由進(jìn)化枝擴(kuò)張收縮情況推斷,古六倍體化事件之后,可可由于未發(fā)生新的全基因組加倍事件[23],可能維持了較為初始的GH9基因數(shù)量。海島棉擁有全部13個(gè)進(jìn)化枝,A、D亞基因組未分化前棉屬經(jīng)歷多倍化事件[22],造成進(jìn)化枝Ⅱ、Ⅳ、Ⅹ、Ⅺ擴(kuò)張。如圖6所示,32個(gè)C亞族成員聚類成2組,C-Ⅱ在進(jìn)化上可能更活躍,在本研究所涉及的大部分物種中擴(kuò)張,其中海島棉C-Ⅱ的擴(kuò)張由棉屬特有多倍化事件推動;35個(gè)A亞族成員聚類成3組,進(jìn)化枝A-Ⅲ穩(wěn)定存在于全部用于研究的物種并且趨于擴(kuò)張,突顯其重要性,而進(jìn)化枝A-Ⅰ和A-Ⅱ僅存在于部分物種,海島棉在進(jìn)化中丟失A-Ⅱ。此外,近乎全部海島棉GH9基因家族進(jìn)化枝都擁有相同數(shù)量的A和D亞基因組成員。通過同源比對,發(fā)現(xiàn)無論是A、D亞基因組成員間,還是海島棉和陸地棉成員間都存在高度匹配的系統(tǒng)進(jìn)化關(guān)系,可見海島棉和陸地棉GH9基因家族形成于棉種分化之前,并且在進(jìn)化中高度保守。
A:水稻、葡萄、大豆、毛果楊、擬南芥、黃麻、可可、榴蓮、海島棉GH9基因家族B亞族成員的系統(tǒng)發(fā)育樹,藍(lán)線和紅線分別指示古六倍體化事件和棉屬特有多倍化事件引起的基因復(fù)制;B:植物GH9基因家族B亞族成員分類。A: Phylogenetic relationships of GH9Bs from Oryza sativa, Vitis vinifera, Glycine max, Populus trichocarpa, Arabidopsis thaliana, Corchorus capsularis, Theobroma cacao, Durio zibethinus and Gossypium barbadense. Blue and red lines indicate segmental duplications from the paleo-hexaploidization event and Gossypium-specific polyploidization, respectively; B: Clades of GH9Bs.圖5 植物GH9基因家族B亞族成員進(jìn)化歷程Fig.5 Evolutionary history of GH9Bs
考慮到植物GH9基因與細(xì)胞壁發(fā)育密切相關(guān),利用海島棉品種Pima90-53和Hai7124的RNA-seq數(shù)據(jù)分析GbGH9s在開花當(dāng)天的胚珠以及5、10、15、20、25、30 DPA纖維中的表達(dá)譜。如圖7所示,A亞族成員GbGH9A2、GbGH9A3、GbGH9A6和GbGH9A7在棉纖維發(fā)育各時(shí)期尤其是次生壁加厚期(20~30 DPA)高表達(dá),可能與纖維素的生物合成相關(guān);B亞族成員GbGH9B6和GbGH9B25擁有與上述A亞族基因相似的表達(dá)模式,可能同樣涉及纖維素合成,或者涉及微纖絲修飾;C亞族成員GbGH9C1、GbGH9C3、GbGH9C4、GbGH9C6、GbGH9C7、GbGH9C8在棉纖維起始期(0 DPA)和伸長期(5~15 DPA)高表達(dá),可能涉及初生壁的形成與重塑;B亞族成員GbGH9B13、GbGH9B23、GbGH9B32主要在棉纖維起始期高表達(dá),可以作為改良棉纖維產(chǎn)量性狀的候選基因。此外,海島棉GH9家族在A和D亞基因組上的對應(yīng)成員具有基本一致的表達(dá)模式,進(jìn)一步表明其在進(jìn)化中高度保守。為確認(rèn)GbGH9s在棉纖維發(fā)育過程中的表達(dá)模式,使用實(shí)時(shí)熒光定量PCR方法檢測GbGH9A2/GbGH9A6、GbGH9A3/GbGH9A7、GbGH9C1/GbGH9C6、GbGH9C3/GbGH9C7、GbGH9C4/GbGH9C8、GbGH9B6/GbGH9B25、GbGH9B13/GbGH9B32在Hai7124開花當(dāng)天的胚珠以及10和25 DPA的纖維中的表達(dá)水平,其結(jié)果(圖8)與RNA-seq數(shù)據(jù)相符合。
注:轉(zhuǎn)錄組數(shù)據(jù)來自開花當(dāng)天的胚珠以及5、10、15、20、25、30 DPA的纖維。Note: RNA-seq data come from ovules of 0 DPA, and fibers of 5, 10, 15, 20, 25 and 30 DPA.圖7 海島棉GH9基因在棉纖維中的表達(dá)模式Fig.7 Expression patterns of GbGH9s in cotton fibers
圖8 qRT-PCR驗(yàn)證GbGH9s在棉纖維發(fā)育中的表達(dá)模式Fig.8 Expression pattern validation of GbGH9s during cotton fiber development by qRT-PCR
此外,通過分析4個(gè)陸地棉品種HY405、ND13、CCRI8和ND601的RNA-seq數(shù)據(jù),發(fā)現(xiàn)GhGH9s在棉纖維發(fā)育過程中的表達(dá)模式類似于GbGH9s。然而GbGH9A3、GbGH9A7、GbGH9B6在次生壁加厚期的表達(dá)高于其直系同源基因GhGH9A3、GhGH9A7、GhGH9B6;GbGH9B14在起始期的表達(dá)高于其直系同源基因GhGH9B14;GbGH9B27、GbGH9C1、GbGH9C4在伸長期的表達(dá)低于其直系同源基因GhGH9B27、GhGH9C1、GhGH9C4,上述直系同源基因的差異表達(dá)可能在一定程度上造就了海島棉和陸地棉纖維品質(zhì)的差異。進(jìn)一步利用CottonFGD[24]中陸地棉遺傳標(biāo)準(zhǔn)系TM-1轉(zhuǎn)錄組數(shù)據(jù)[25]分析GhGH9s在不同組織中的表達(dá),發(fā)現(xiàn)GhGH9As和GhGH9Cs在用于分析的組織(根、莖、葉、副萼、花托、花瓣、雄蕊、雌蕊、胚珠、纖維)中具有更廣泛的表達(dá),推測其功能保守,而GhGH9Bs具有更強(qiáng)的組織特異性,對應(yīng)其復(fù)雜多變的功能。
眾所周知,轉(zhuǎn)錄因子調(diào)控基因表達(dá),為了解析GbGH9s在棉纖維中的表達(dá)機(jī)制,基于207個(gè)JASPAR位置頻率矩陣,挖掘GbGH9s啟動子上涉及植物激素信號或細(xì)胞壁發(fā)育的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。在海島棉纖維中,B亞族成員GbGH9B6和GbGH9B25高表達(dá),而相鄰進(jìn)化枝上的GbGH9B8、GbGH9B20和GbGH9B27基本不表達(dá)。如圖9A所示,GbGH9B6和GbGH9B25啟動子上鑒定到植物細(xì)胞壁發(fā)育(MA1045.1)、生長素(MA1278.1、MA0565.2)和油菜素內(nèi)酯(MA0964.1)相關(guān)轉(zhuǎn)錄因子結(jié)合位點(diǎn),也鑒定到乙烯相關(guān)轉(zhuǎn)錄因子結(jié)合位點(diǎn),涉及多個(gè)AP2/ERF (APETALA2/ethylene-responsive factor) 類轉(zhuǎn)錄因子DREB亞家族A-4/A-5亞組成員。GbGH9B8、GbGH9B20和GbGH9B27啟動子上鑒定到細(xì)胞分裂素(MA1391.1、MA0945.1、MA1210.1)和脫落酸(MA1210.1、MA0570.2、MA1326.1)相關(guān)轉(zhuǎn)錄因子結(jié)合位點(diǎn)。通常,生長素、油菜素內(nèi)酯、乙烯可以促進(jìn)棉纖維生長發(fā)育,而細(xì)胞分裂素、脫落酸抑制棉纖維生長發(fā)育,因此GbGH9B6/GbGH9B25與GbGH9B8/GbGH9B20/GbGH9B27在棉纖維中的差異表達(dá)可能來源于上述順式作用元件的差異。C亞族大部分成員在棉纖維起始期和伸長期高表達(dá),而GbGH9C2和GbGH9C5基本不表達(dá),分析發(fā)現(xiàn)GbGH9C2和GbGH9C5啟動子上缺乏植物細(xì)胞壁發(fā)育(MA0990.1、MA1375.1)和生長素(MA1278.1)相關(guān)轉(zhuǎn)錄因子結(jié)合位點(diǎn),也缺乏乙烯相關(guān)轉(zhuǎn)錄因子結(jié)合位點(diǎn),涉及BPC(Basic Pentacysteine)和AP2/ERF家族的多個(gè)成員(圖9B)。此外,DREB亞家族A-4亞組多個(gè)成員的靶序列在棉纖維高表達(dá)基因GbGH9A2、GbGH9A3、GbGH9A6和GbGH9A7的啟動子上被鑒定出來,而未見于低表達(dá)(或不表達(dá))基因GbGH9A1、GbGH9A4、GbGH9A5和GbGH9A8的啟動子上。
通過分析海島棉和陸地棉纖維的RNA-seq數(shù)據(jù),發(fā)現(xiàn)GbGH9B6在次生壁加厚期的表達(dá)明顯高于其直系同源基因GhGH9B6(圖10A)。為研究GbGH9B6功能,設(shè)計(jì)用于區(qū)分GbGH9B6與GhGH9B6的SNP引物(圖10B),對擁有167個(gè)株系的BC3F5群體(供體親本Pima90-53;受體親本CCRI8)進(jìn)行基因分型(圖10C),結(jié)果鑒定到17個(gè)GbGH9B6/GbGH9B6型株系、6個(gè)GbGH9B6/GhGH9B6型株系以及144個(gè)GhGH9B6/GhGH9B6型株系。分析群體表型數(shù)據(jù),發(fā)現(xiàn)無論是在河北保定(E1)還是在新疆輪臺(E2),GbGH9B6/GbGH9B6型亞群的棉纖維強(qiáng)度都顯著高于GhGH9B6/GhGH9B6型亞群(圖10D),而兩個(gè)亞群的棉纖維長度和馬克隆值并無顯著變化,可見GbGH9B6可以作為改良棉纖維品質(zhì)性狀的候選基因。
A:GbGH9Bs啟動子上轉(zhuǎn)錄因子結(jié)合位點(diǎn)預(yù)測;B:GbGH9Cs啟動子上轉(zhuǎn)錄因子結(jié)合位點(diǎn)預(yù)測?;贘ASPAR矩陣,使用FIMO軟件鑒定潛在位點(diǎn),設(shè)定閾值p<1E-5,括號中為產(chǎn)生JASPAR矩陣的轉(zhuǎn)錄因子。A: Identification of TFBS in the promoter regions of GbGH9Bs; B: Identification of TFBS in the promoter regions of GbGH9Cs. FIMO is used to identify potential sites based on JASPAR matrices with a threshold of p-value<1E-5, and the transcription factors producing JASPAR matrices are shown in brackets.圖9 GbGH9Bs和GbGH9Cs的轉(zhuǎn)錄調(diào)控分析Fig.9 Transcriptional regulation of GbGH9Bs and GbGH9Cs
A:GH9B6在海島棉和陸地棉纖維中的表達(dá)差異;B:SNP引物設(shè)計(jì);C:基因分型;D:不同基因型株系棉纖維強(qiáng)度比較。A: Differential expression of GH9B6 in cotton fibers between Gossypium barbadense and Gossypium hirsutum; B: Design of SNP primers; C: Genotyping of the BC3F5 population; D: Box plot for fiber strength, based on different genotypes of GH9B6.圖10 GbGH9B6功能分析Fig.10 Functional characterization of GbGH9B6
植物GH9基因家族古老且保守,分為A、B、C三個(gè)亞家族,且B亞族成員最多[1, 8, 12, 26]。本研究共鑒定到53個(gè)海島棉GH9基因,包括8個(gè)A亞族基因,37個(gè)B亞族基因以及8個(gè)C亞族基因。分析基因復(fù)制事件發(fā)現(xiàn),25個(gè)GbGH9s涉及片段復(fù)制/全基因組復(fù)制,未鑒定到串聯(lián)重復(fù)基因,其結(jié)果類似于楊樹[12]及玉米[26]GH9基因家族。計(jì)算復(fù)制基因?qū)Φ耐x替換率,發(fā)現(xiàn)2個(gè)明顯區(qū)分的Ks范圍1.33~2.20和0.44~0.73,分別對應(yīng)古六倍體化事件(Ks范圍1.5~1.9)[22]及棉屬特有多倍化事件(Ks范圍0.4~0.6)[22],可見多倍化事件是海島棉GH9基因家族擴(kuò)張的主要推動力。不同于海島棉,在擬南芥GH9基因家族[1]B亞族中觀察到串聯(lián)重復(fù)形成的基因簇AtGH9B9/10/11/12和AtGH9B16/17/18,使其進(jìn)化枝Ⅲ和Ⅹ擴(kuò)張(圖5)。古六倍體化事件(γ)之后,擬南芥又經(jīng)歷了兩次全基因組復(fù)制(α和β)[27],然而其B亞族成員相較于其他物種并沒有明顯增多,原因可能是多倍化后染色體的大量斷裂、融合,造成進(jìn)化枝Ⅰ、Ⅷ、Ⅻ、ⅩⅢ丟失。在B亞族中,進(jìn)化枝Ⅻ和ⅩⅢ最初可能由串聯(lián)復(fù)制產(chǎn)生,分別來自Ⅻ和ⅩⅢ的成員可以構(gòu)成基因簇(Tc03v2_t013060與Tc03v2_t013070、Glyma.06G277100與Glyma.06G277200、Glyma.12G004700與Glyma.12G004800、PtrGH9B8與PtrGH9B9)。然而,海島棉Ⅻ和ⅩⅢ進(jìn)化枝上的成員位于不同染色體,可能原因是基因簇先后經(jīng)歷片段復(fù)制/全基因組復(fù)制和基因丟失。在A亞族和C亞族中,未觀察到明顯的基因簇,推斷其擴(kuò)張來源于片段復(fù)制/全基因組復(fù)制或者轉(zhuǎn)座,古六倍體化事件之后,大豆[28]、楊樹[29]、擬南芥[27]、黃麻[30]、榴蓮[31-32]、棉花[22]都經(jīng)歷了一到兩輪全基因組加倍事件,對應(yīng)A-Ⅲ和C-Ⅱ進(jìn)化枝的擴(kuò)張,而葡萄[33]和可可[23]未經(jīng)歷新的多倍化事件,因此保持了初始基因數(shù)量(圖6)。由此可見,多倍化事件在植物尤其是棉花GH9基因家族擴(kuò)張過程中起到了重要作用。
棉纖維的發(fā)育按照時(shí)間順序可以分為四個(gè)不同但重疊的階段:起始期、伸長期、次生壁加厚期和成熟期[34]。伸長階段,棉纖維細(xì)胞的初生壁主要包括纖維素、木葡聚糖、木聚糖、果膠多糖和蛋白質(zhì)等成分,其纖維素含量大約占初生壁干物質(zhì)的20%~25%;次生壁增厚期,纖維細(xì)胞進(jìn)入活躍的纖維素合成期,成熟棉纖維中的纖維素含量高達(dá)90%以上。GH9A/KORRIGAN涉及纖維素合成,可能的機(jī)制包括切除谷甾醇糖苷引物[35]、輔助微纖絲聚合[36]、構(gòu)成纖維素合酶復(fù)合體[3]等。在擬南芥中,GH9A1/KOR1突變影響細(xì)胞擴(kuò)展[2]及次生細(xì)胞壁形成[37]。在楊樹中抑制PtrKOR1表達(dá)影響次生細(xì)胞壁增厚[5]。在棉花中下調(diào)GhKOR1表達(dá)影響棉纖維長度和結(jié)晶纖維素含量[6]。本研究中,GbGH9A2、GbGH9A3、GbGH9A6和GbGH9A7在棉纖維伸長和次生壁加厚期高表達(dá)(圖7),可能涉及纖維素生物合成,并且與AtGH9A1、PtrKOR1、GhKOR1(即本研究中的GhGH9A2)位于同一進(jìn)化枝(圖1),可以作為改良棉纖維長度和強(qiáng)度的候選基因。細(xì)胞壁纖維素結(jié)晶度和細(xì)胞擴(kuò)展速率密切相關(guān)[38]。在擬南芥中,過表達(dá)PtGH9C2提高細(xì)胞壁纖維素結(jié)晶度,進(jìn)而降低植株高度和蓮座葉大??;相反,沉默AtGH9C2降低細(xì)胞壁纖維素結(jié)晶度,增加植株高度和蓮座葉大小[39]。棉纖維起始和伸長期優(yōu)勢表達(dá)基因GbGH9C1、GbGH9C3、GbGH9C4、GbGH9C6、GbGH9C7、GbGH9C8與AtGH9C2高度同源,可能具有相似功能,并且GbGH9C1和GbGH9C4在伸長期的表達(dá)低于其直系同源基因GhGH9C1和GhGH9C4,推測這些基因影響纖維素結(jié)晶度,對棉纖維發(fā)育具有重要作用,同時(shí)高結(jié)晶度也會一定程度上抑制棉纖維伸長。海島棉C-Ⅱ進(jìn)化枝的擴(kuò)張完全來自棉屬特有多倍化(圖6),并且GbGH9C7位于棉纖維長度相關(guān)QTL簇Clust_LEN_24_2范圍內(nèi)[40],進(jìn)一步突顯C-Ⅱ成員的重要性及研究價(jià)值。GbGH9B6和GbGH9B25在棉纖維中的表達(dá)模式類似于GbGH9A2、GbGH9A3、GbGH9A6和GbGH9A7(圖7),可能涉及纖維素合成,且GbGH9B6和GbGH9B25高度同源于AtGH9B5(圖1),可能影響纖維素結(jié)晶度[39],推測這兩個(gè)基因可以用于改良棉纖維長度和強(qiáng)度。GbGH9B25位于長度相關(guān)QTL簇Clust_LEN_19_3范圍內(nèi)[40],GbGH9B6定位于多個(gè)棉纖維品質(zhì)QTL,包括長度(FB-FUqQtlc05_1b)和強(qiáng)度(BB-FMtQtlc05_1h)[41],此外,通過回交將GbGH9B6導(dǎo)入陸地棉可提高棉纖維強(qiáng)度(圖10),表明其具有較好的應(yīng)用價(jià)值。綜上所述,GbGH9s是棉纖維品質(zhì)改良的重要候選基因,也是研究棉纖維發(fā)育的重要基因資源,值得科研工作者關(guān)注。
從海島棉全基因組中鑒定出53個(gè)GH9基因,可以分為A、B和C三個(gè)亞族。分析基因復(fù)制發(fā)現(xiàn),多倍化是該家族擴(kuò)張的主要驅(qū)動力,古六倍體化事件推動B亞族擴(kuò)張,而棉屬特有多倍化事件推動B亞族和C亞族的擴(kuò)張。分析GbGH9s在棉纖維發(fā)育過程中的表達(dá)模式,篩選出多個(gè)品質(zhì)改良候選基因,并通過BC3F5群體驗(yàn)證了GbGH9B6具有改良棉纖維強(qiáng)度的潛力。本研究為后續(xù)深入研究該家族基因奠定了基礎(chǔ),對于揭示棉纖維品質(zhì)形成的遺傳機(jī)制及分子育種具有一定的理論意義和應(yīng)用價(jià)值。