陳鎮(zhèn)何曉瑩 任靜 俎峰趙凱琴李根澤黃曉霞程小毛
(1.西南林業(yè)大學(xué)園林園藝學(xué)院,國家林業(yè)與草原局西南風(fēng)景園林工程技術(shù)研究中心,云南昆明 650233;2.云南省農(nóng)業(yè)科學(xué)院經(jīng)濟作物研究所,云南昆明 650225)
油菜(Brassicanapus)是我國植物油生產(chǎn)最主要的油料作物之一[1-2]。在同一遺傳背景下,黃籽油菜較黒籽油菜具有種皮薄、含油量高及油清澈透明等多方面優(yōu)點[3-4]。然而在推廣面積最大的油菜栽培類型—甘藍型油菜中卻不存在天然黃籽種質(zhì)資源,故而開展黃籽甘藍型油菜種質(zhì)創(chuàng)新,一直是甘藍型油菜品質(zhì)育種的重大研究課題之一。研究表明,僅在種子發(fā)育時期種皮部位特異表達的TT8基因是種皮色素代謝通路下游的重要轉(zhuǎn)錄因子,其突變后可獲得透明/黃色種皮,并提升籽粒含油量[5]。Zhai等[6]利用最新的CRISPR/Cas9技術(shù)編輯BnTT8的2個同源拷貝,創(chuàng)制出了黃籽甘藍型油菜,該黃籽突變性狀可穩(wěn)定遺傳且對含油量有明顯的提升作用。因此,探究蕓薹屬(Brassica)作物TT8基因功能,對促進黃籽種質(zhì)的創(chuàng)制工作具有較為重要的現(xiàn)實意義。
對于種子種皮色澤性狀的研究,前人以擬南芥(Arabidopsisthaliana)開展了大量探索。1992年,Shirley等[7-8]最早利用電離輻射發(fā)現(xiàn)2個透明突變tt基因,隨后研究認為突變體能破壞種皮色素的合成積累,其中tt8與ttg能特異地影響類黃酮生物合成途徑,導(dǎo)致種皮色素?zé)o法積累,進而致使種皮呈現(xiàn)透明。Nesi等[9]發(fā)現(xiàn),tt8基因編碼的蛋白是類黃酮途徑后期生物合成2個基因DFR和BAN的關(guān)鍵調(diào)控因子,推測TT8、TT2與TTG1之間的相互作用可能控制類黃酮的代謝。之后,Baudry等[10]研究證實了三者產(chǎn)生的肽鏈可結(jié)合形成三元復(fù)合體直接調(diào)控BAN表達,特異調(diào)控種皮發(fā)育中的類黃酮、原花青素生物合成途徑,對種皮色素積累起至關(guān)重要的作用。高度保守性的多肽鏈復(fù)合體對植物類黃酮合成積累具有重要調(diào)控作用,而轉(zhuǎn)錄因子TT8作為該復(fù)合體的中心組分已在多項研究中得到證實[11-15]。
蕓苔屬作物與擬南芥共屬十字花科(Brassicaceae),親緣關(guān)系緊密,TT8同源基因在油菜黃色籽粒性狀研究中起極為相似的作用。Li等[16]在白菜型油菜研究中報道,BrTT8被插入大片段新型轉(zhuǎn)座子,可致使基因突變與功能喪失,進而產(chǎn)生黃色種皮性狀。在芥菜型油菜研究中,Padmaja等[17]發(fā)現(xiàn)TT82個同源拷貝BjuA.TT8與BjuB.TT8的自然突變能控制其種皮黃色性狀。以上研究均表明,TT8是控制蕓薹屬作物種子顏色和含油量的關(guān)鍵調(diào)控因子,對擬南芥種皮透明與蕓薹屬作物黃籽性狀起重要作用,但目前尚未有對蕓薹屬作物TT8基因開展系統(tǒng)生物信息學(xué)分析的研究報道。因此,本研究挖掘與鑒定蕓薹屬TT8基因,利用生物信息學(xué)方法對其核苷酸及氨基酸序列進行比較分析,在此基礎(chǔ)上,根據(jù)43份甘藍型油菜種質(zhì)材料的重測序數(shù)據(jù)對其TT8基因多態(tài)性進行分析,為進一步理解該基因參與種子種皮色澤變化的調(diào)控機制,以及促進油菜的黃籽種質(zhì)創(chuàng)制提供參考。
蕓薹屬作物中白菜(Brassicarapa)、甘藍(Brassica oleracea)、芥菜(Brassica juncea)、黑芥(Brassicanigra)和甘藍型油菜的基因組數(shù)據(jù)從BRAD[18](http://brassicadb.org/brad/)獲取,擬南芥的基因組數(shù)據(jù)從TAIR(https://www.arabidopsis.org/)下載。擬南芥AtTT8(AT4G09820.1)基因核苷酸序列從PlantTFDB[19](http://planttfdb.gao-lab.org/)檢索下載并作為種子或探查序列(query sequence)。
構(gòu)建白菜、甘藍、芥菜、黑芥、甘藍型油菜和擬南芥本地基因組數(shù)據(jù)庫,以擬南芥TT8蛋白氨基酸序列為探針序列,設(shè)置閾值(E)為10-5,使用本地BLAST程序進行比對檢索,分別獲取TT8候選基因蛋白序列。從Pfam數(shù)據(jù)庫[20]下載保守結(jié)構(gòu)域bHLH-MYC_N的隱馬爾科夫模型(HMM)PF14215.7,使用本地Hmmersearch軟件,E值<10-5,進行二次比對檢索。利用在線工具Conserved Domain Search (https://www.ncbi.nlm.nih.gov/Structure/cdd/wrps-b.cgi)及數(shù)據(jù)庫SMART[21](http://smart.embl-heidelberg.de/)對已得到的TT8同源拷貝驗證bHLH-MYC_N結(jié)構(gòu)域的存在,篩選兩次基因組比對檢索結(jié)果,整理去冗余及假基因后得到蕓薹屬作物的TT8基因成員并命名。使用WoLF PSORT(https://wolfpsort.hgc.jp/)和ExPASy[22]中Protparam工具(https://web.expasy.org/protparam/)預(yù)測其亞細胞位置和基礎(chǔ)理化性質(zhì)。
DNAMAN軟件對蛋白氨基酸序列進行比較分析,基于多重比對結(jié)果,采取MEGA[23]軟件中鄰接法(NJ),默認參數(shù)構(gòu)建TT8同源蛋白系統(tǒng)發(fā)育樹。
在線工具CDD預(yù)測TT8蛋白保守結(jié)構(gòu)域,E值為10-5;MEME[24](http://meme-suite.org/tools/meme)預(yù)測其Motif,其中參數(shù)設(shè)置為:基序位點按任意重復(fù)次數(shù),Motif 數(shù)最大為10,Motif最小寬度為6,最大寬度為50。上述結(jié)果下載保存,并使用TBtools[25]繪圖。
采用SWISS-MODEL(https://swissmodel.expasy.org/)在線預(yù)測分析擬南芥、芥菜、黑芥、白菜、甘藍與甘藍型油菜TT8蛋白的三級結(jié)構(gòu)。
在甘藍型油菜全基因組數(shù)據(jù)中獲取TT8同源基因位置信息;利用MCScanX[26]對擬南芥、甘藍型油菜及近緣物種間進行共線性分析,用TBtools中Advanced Circos工具繪制TT8基因共線性關(guān)系圖。
提交擬南芥TT8基因(AT4G09820.1)到sgRNA在線分析網(wǎng)站(http://chopchop.cbu.uib.no/),獲取AtTT8基因sgRNA序列位點及序列信息。使用ncbi-blast-2.11.0+軟件包makeblastdb命令,分別構(gòu)建白菜、甘藍、芥菜、黑芥、甘藍型油菜和擬南芥的CDS序列本地化數(shù)據(jù)庫。輸入文件為擬南芥TT8基因的sgRNA序列,利用命令將其提交至本地化數(shù)據(jù)庫進行BLAST比對,其參數(shù)設(shè)置為-qcov_hsp_perc 100-task blastn-short-outfmt 6-evalue 1E-3。
為探究甘藍型油菜BnTT8自然變異信息,利用云南省農(nóng)業(yè)科學(xué)院經(jīng)濟作物研究所油菜中心提供的43份核心種質(zhì)重測序數(shù)據(jù)進行SNP與InDel分析(項目編號:PRJCA006241/CRA004803)。使用Burrows-Wheeler Aligner[27]中MEM算法,將reads映射至“Darmor-bzh”基因組(https://www.genoscope.cns.fr/brassicanapus/data/)。使 用SAMtools[28]對reads進行比對并排序,PICARD[29]去重 復(fù)(http://broadinstitute.github.io/picard/)。使用GATK[30]中HaplotypeCaller模塊對所有樣品進行SNP、InDel檢測,過濾SNP參數(shù):QD<2.0||MQ<40.0||FS>60.0||SOR >3.0||MQRankSum<-12.5||ReadPosRankSum <-8.0;過 濾Indel參數(shù):QD<2.0||FS>200.0|| SOR >10.0||MQRank-Sum <-12.5|| ReadPosRankSum<-8.0。采用ANNOVAR[31]軟件進行SNP、Indel注釋,提取并統(tǒng)計甘藍型油菜BnTT8基因的變異注釋信息。序列變異頻率=變異位點總數(shù)/參考基因組基因序列長度。
通過本地BLAST和Hmmersearch檢索比對,在線數(shù)據(jù)庫CDD和SMART鑒定TT8基因均含有完整的bHLH結(jié)構(gòu)域。研究發(fā)現(xiàn),共獲得檢索鑒定得到共8條TT8蛋白序列,其中擬南芥有1條,芥菜有2條,黑芥有1條,白菜有1條,甘藍有1條,甘藍型油菜中有2條(表1)。在所有TT8基因中,蛋白基礎(chǔ)理化性質(zhì)差異較不明顯,其蛋白長度為512(BjuB004115)~566(BjuA034148),分子量為58.698(BjuB004115)~64.917(BjuA034148)kD,等電點為5.48(BjuA034148)~5.90(BniB08g 052890.2N.1),不穩(wěn)定系數(shù)為49.61(AT4G09820.1)~59.25(BjuA034148),脂肪族系數(shù)為79.19(AT4G09820.1)~86.61(BraA09g028560.3C),疏水性指數(shù)為-0.601(BjuA034148)~-0.415(BniB08g052890.2N.1)。從理化性質(zhì)看,其所有等電點均小于6,為弱酸性,這與水稻(Oryzasativa)[32]研究現(xiàn)象保持一致;不穩(wěn)定系數(shù)均大于40為不穩(wěn)定蛋白結(jié)構(gòu);總疏水性指數(shù)均小于0,表明其所有成員屬親水性蛋白;亞細胞定位結(jié)果,均位于在細胞核上。
表1 擬南芥、芥菜、黑芥、白菜、甘藍與甘藍型油菜TT8基因的信息Table 1 TT8 gene information of A.thaliana, B. juncea, B.nigra, B.rapa, B.oleracea and B.napus
利用DNAMAN進行多序列比對發(fā)現(xiàn),8個蛋白序列均存在典型bHLH保守結(jié)構(gòu)域(圖1)。bHLH結(jié)構(gòu)域高度保守,分為堿性區(qū)域、2個螺旋及1個環(huán)形區(qū)域,這4個保守區(qū)域由約60個氨基酸組成;該結(jié)構(gòu)域含有2個功能分區(qū),一個位于N端由13~17個主要堿性氨基酸構(gòu)成,其主要DNA結(jié)合特異性位點有關(guān);另一個位于C端的HLH區(qū)域,主要由疏水性氨基酸組成,與相鄰的兩個螺旋,共同組成螺旋—環(huán)—螺旋結(jié)構(gòu)[33]。系統(tǒng)進化樹表明,8個TT8同源基因的親緣關(guān)系極為接近,進一步可分為兩大類:一類為擬南芥TT8基因AT4G09820.1;另一類為蕓薹屬作物TT8同源基因。其中,甘藍型油菜(BnaA09g22810D、BnaC09g24870D)與白菜(BraA09g028560.3C)、甘藍(Bo9g086910.1)遺傳相似度分別為94和99,遺傳關(guān)系更為緊密,進一步說明甘藍型油菜TT8基因高度保守(圖2)。
圖1 TT8蛋白的多序列比對Fig.1 Multiple sequence alignment of TT8 protein
圖2 TT8蛋白的系統(tǒng)進化樹Fig.2 Phylogenetic tree of TT8 protein
對TT8蛋白保守結(jié)構(gòu)域分析發(fā)現(xiàn),所有成員均具有典型的bHLH-MYC_N結(jié)構(gòu)域蛋白(PF14215),屬于bHLH蛋白超家族,且含有雙結(jié)構(gòu)域(圖3)。蕓薹屬作物TT8同源基因含有bHLH_SF superfamily結(jié)構(gòu)域,而AT4G09820.1另含bHLH_AtTT8_like結(jié)構(gòu)域。
圖3 TT8蛋白結(jié)構(gòu)域示意圖Fig.3 Schematic representation of TT8 protein
利用MEME對TT8同源蛋白序列進行Motif預(yù)測分析發(fā)現(xiàn),Motif數(shù)量與種類差異較小,擬南芥TT8基因AT4G09820.1不含有Motif8外,其余均與蕓薹屬作物TT8同源基因Motif相同(表2、圖4)。
表2 TT8基因的Motif信息Table 2 Motif information of TT8 gene
圖4 TT8蛋白Motif示意圖Fig.4 Schematic representation of TT8 protein Motif
對TT8同源蛋白的三級結(jié)構(gòu)進行預(yù)測,如圖5展示:基礎(chǔ)結(jié)構(gòu)由α螺旋、無規(guī)則卷曲、β轉(zhuǎn)角及延長鏈構(gòu)成。所預(yù)測的蛋白三級結(jié)構(gòu)模型,AT4G09820.1、BraA09g028560.3C、BnaC09g2487 0D、BnaA09g22810D、Bo9g086910.1這5個幾乎一致,而BjuA034148與上述模型也極為相似,BjuB004115、BniB08g052890.2N.1則部分相似,進一步表明其系統(tǒng)發(fā)育關(guān)系緊密。
圖5 TT8蛋白的三級結(jié)構(gòu)預(yù)測Fig.5 Tertiary structure prediction of TT8 protein
通過系統(tǒng)進化樹分析發(fā)現(xiàn),甘藍型油菜與其近緣物種白菜、甘藍親緣關(guān)系最近;對擬南芥、甘藍型油菜及其近緣物種TT8同源基因,進行染色體定位與共線性分析(圖6)。發(fā)現(xiàn)擬南芥的AT4G09820.1基因位于Chr4染色體,甘藍型油菜及其近緣物種TT8同源基因均定位于基因組或亞基因組第9條染色體上;擬南芥、白菜、甘藍與甘藍型油菜之間,共6個基因?qū)Υ嬖诠簿€性關(guān)系,且分別各存在2個共線性基因?qū)?。研究認為,TT8基因在染色體間存在少量且相等的共線性基因?qū)?,基因組內(nèi)部未見共線性關(guān)系,甘藍型油菜BnTT8基因的產(chǎn)生,主要通過白菜、甘藍的染色體間同源復(fù)制拷貝形成,整體數(shù)量較少,進一步說明,在異源四倍體甘藍型油菜的基因組進化過程中,TT8基因具有高度的功能保守性。
圖6 擬南芥、白菜、甘藍與甘藍型油菜TT8基因染色體定位及基因組間共線性分析Fig.6 Chromosome location and syntenic relationship of TT8 genes in A.thaliana,B.rapa, B.oleracea,and B.napus
提交擬南芥TT8基因(At4g09820)到sgRNA在線網(wǎng)站分析,設(shè)計sgRNA共147條,可作為CRISPR/Cas9編輯的靶點(圖7)。之后利用這147條AtTT8的sgRNA分別提交甘藍型油菜、白菜、甘藍、芥菜、黑芥CDS序列本地化數(shù)據(jù)庫進行BLAST分析,其中4條sgRNA序列存在于所有7個TT8同源基因中,顯示出高度的進化保守性,推測是TT8基因功能所必須的。
圖7 擬南芥TT8基因的目標靶點區(qū)域Fig.7 The target region of TT8 gene in A.thaliana
根據(jù)基因在染色體上的相對位置(表3),深入分析發(fā)現(xiàn)這4條sgRNA均位于AtTT8第7個外顯子上,對應(yīng)bHLH結(jié)構(gòu)域。后續(xù)選擇這4條sgRNA序列位點作為蕓薹屬作物TT8基因CRISPR/Cas9編輯靶點,預(yù)期更易獲得TT8基因功能缺失突變體。
表3 TT8基因目標靶點的選擇Table 3 Selection of target of TT8 gene
甘藍型油菜TT8同源基因:BnaA09g22810D和BnaC09g24870D,其全長分別為3668、2798 bp,基本結(jié)構(gòu)均由5'UTR、7個外顯子、6個內(nèi)含子組成。基于云南農(nóng)科院油菜中心收集到的43份核心種質(zhì)資源的重測序數(shù)據(jù),在甘藍型油菜TT82個同源基因共檢測到11個多態(tài)性位點(表4),且均位于5'UTR區(qū),包括4個SNP和1個單堿基InDel、6個 多 堿 基InDel(DNA的 缺 失/插 入);其發(fā)生的總頻率為0.00308,SNP與InDel出現(xiàn)的總頻率分別為0.00109和0.00199;其中BnaA09g 22810D的SNP有4個,出現(xiàn)頻率為0.00109,InDel有6個,出現(xiàn)頻率為0.00163,而BnaC09g24870D僅存在1個InDel,出現(xiàn)頻率為0.00036。在檢測的4個SNP中,2個SNP發(fā)生了嘌呤與嘌呤間的轉(zhuǎn)換,2個發(fā)生了嘧啶與嘌呤間的顛換,轉(zhuǎn)換與顛換的發(fā)生頻率相同。1個單堿基InDel位點以A堿基的插入,多堿基InDel位點以a:堿基序列為TA、b:堿基序列為GGAGAGGGAGAGGGAG、c:堿基序列為AG、d:堿基序列為AGAGAGAGAGAGAGA、e:堿基序列為CA,這5種類型的插入/缺失。多態(tài)性在甘藍型油菜TT82個同源基因的各區(qū)域及基因間呈不均勻分布。
表4 43份核心種質(zhì)資源中BnTT8序列多態(tài)性分布Table 4 Polymorphism of BnTT8 sequence in 43 coregermplasm resources
十字花科蕓薹屬植物是油料作物的重要來源,其中甘藍型油菜是世界第三大的油料作物,占總植物油產(chǎn)量的16%左右[34]。提升甘藍型油菜含油量,不斷優(yōu)化菜籽油品質(zhì)一直為研究熱點;研究表明,油菜黃籽較黑籽的含油量與蛋白質(zhì)比例更高。在十字花科作物中,TT8基因是參與種皮顏色調(diào)控的關(guān)鍵基因,該基因突變可造成功能喪失,形成透明或半透明種皮,這已在擬南芥[9]、白菜型油菜[16]及芥菜型油菜[17]中得到證實。因此,在蕓薹屬作物尤其是甘藍型油菜中,TT8基因系統(tǒng)性的生物信息學(xué)分析,對解析TT8基因生物學(xué)功能及創(chuàng)新育種具有重要意義。
近年來,隨著擬南芥和蕓薹屬作物全基因組數(shù)據(jù)庫的建立,以及對部分基因家族鑒定與研究,為蕓薹屬作物TT8基因的生物信息學(xué)分析,奠定了扎實的數(shù)據(jù)與理論基礎(chǔ)。本研究在蕓薹屬數(shù)據(jù)庫中共鑒定出7個TT8同源拷貝,其基本理化性質(zhì)分析發(fā)現(xiàn),整體呈弱酸性且結(jié)構(gòu)較不穩(wěn)定;亞細胞定位均位于細胞核上,這與齊雙慧[5]對BnTT8煙草葉片亞細胞定位實驗結(jié)果相符。
bHLH蛋白是廣泛存在于動植物轉(zhuǎn)錄因子中的一大超家族,在多種生物過程和組織發(fā)育中起著重要調(diào)控作用,該家族已在擬南芥、水稻、玉米(Zeamays)等[35-36]多種植物中得到鑒定與研究。前人研究認為,擬南芥TT8基因是bHLH轉(zhuǎn)錄因子超家族的成員之一,主要通過對bHLH蛋白合成進行調(diào)控,進而對種子發(fā)育及物質(zhì)儲藏產(chǎn)生重要影響[33]。白菜BrTT8基因編碼bHLH結(jié)構(gòu)蛋白,其蛋白序列在C端存在明顯的bHLH信號[16]。本研究中,蕓薹屬作物TT8基因包含典型的bHLH保守結(jié)構(gòu)域,其保守的bHLH結(jié)構(gòu)域由堿性、第一螺旋、環(huán)和第二螺旋區(qū)域共同構(gòu)成。保守元件發(fā)現(xiàn),基因成員均含有相似的Motif和結(jié)構(gòu)域,與Doebley等[37]發(fā)現(xiàn)來自同一拷貝的基因擁有相似的結(jié)構(gòu)與保守Motif相一致;在BnCKX基因分析中也得到相同的結(jié)論[38]。
甘藍型油菜2個TT8同源拷貝分別同白菜與甘藍聚為一類,且均定位于第9條染色體上,其蛋白三級結(jié)構(gòu)預(yù)測模型幾乎一致,親緣關(guān)系高度緊密。擬南芥、白菜、甘藍與甘藍型油菜基因組間共線性分析認為,TT8基因復(fù)制擴張程度較小,不存在基因丟失現(xiàn)象,這可能也是成員較少,基因保守程度較高的原因之一。此外,本研究分析獲得4條sgRNA序列位點,可作為蕓薹屬作物TT8基因CRISPR/Cas9編輯靶點,預(yù)期更易獲得TT8基因功能缺失突變體,為CRISPR/Cas9系統(tǒng)在蕓薹屬中應(yīng)用提供一定的參考。
SNP是在植物全基因組中出現(xiàn)頻率最高的遺傳多態(tài)性[39]。本研究基于云南省農(nóng)科院經(jīng)濟作物研究所對43份甘藍型油菜材料的全基因組重測序數(shù)據(jù),對TT8基因進行核苷酸多態(tài)性分析,共檢測到11個多態(tài)性位點,包括4個SNP和1個單堿基InDel、6個多堿基InDel(DNA的缺失/插入);其發(fā)生的總頻率為0.00308,SNP與InDel出現(xiàn)的總頻率分別為0.00109和0.00199。與前人研究中的人類基因組SNP頻率1/1000[40]相近,而遠高于玉米的SNP頻率1/57[41]及水稻的SNP頻率1/154[42],表明植物全基因組中該基因的單核苷酸多態(tài)性較為單一匱乏。此外,SNP轉(zhuǎn)換與顛換的發(fā)生頻率相同,很有可能在進化過程中TT8基因高度保守,在自然條件下極難發(fā)生AC基因組上的同時突變,從而產(chǎn)生黃色性狀。
總體而言,蕓薹屬TT8基因是bHLH轉(zhuǎn)錄因子超家族成員之一,含bHLH結(jié)構(gòu)域,序列高度保守。本研究揭示蕓薹屬作物TT8基因進化保守位點與功能結(jié)構(gòu)域,為利用CRISPR/Cas9對蕓薹屬特別是甘藍型油菜的黃籽創(chuàng)新育種提供參考。