李太強(qiáng),劉雄芳,萬友名,李正紅,李鈺瑩,劉秀賢,馬 宏
(中國林業(yè)科學(xué)研究院資源昆蟲研究所,云南 昆明 650233)
滇東南瀕危植物長梗杜鵑轉(zhuǎn)錄組微衛(wèi)星特征分析
李太強(qiáng),劉雄芳,萬友名,李正紅,李鈺瑩,劉秀賢,馬 宏*
(中國林業(yè)科學(xué)研究院資源昆蟲研究所,云南 昆明 650233)
[目的]全面了解滇東南特有瀕危植物長梗杜鵑轉(zhuǎn)錄組SSR位點(diǎn)的分布及序列特征,為長梗杜鵑的保護(hù)和合理開發(fā)利用提供遺傳學(xué)資料,為同屬植物及近緣種SSR標(biāo)記的開發(fā)及遺傳研究提供便利。[方法]利用Illumina Hiseq 4000高通量測序平臺對長梗杜鵑葉片進(jìn)行轉(zhuǎn)錄組測序,再通過MISA軟件對測序所得Unigenes進(jìn)行SSR位點(diǎn)的發(fā)掘和分析。[結(jié)果]發(fā)現(xiàn)含SSR的序列17 354條,共得到23 192個SSR,出現(xiàn)頻率為31.30%,平均每3 kb出現(xiàn)1個SSR。二堿基和三堿基重復(fù)為長梗杜鵑SSR主要重復(fù)單元類型,分別占SSR總數(shù)的69.25%和15.07%,187種重復(fù)基元中,所占比例最高的是(AG/CT)n(62.01%),其次是(A/T)n(12.34%)、(AC/GT)n(4.52%)和(AAG/CTT)n(4.23%)。在SSR和CDS的交集基因中,共發(fā)現(xiàn)15 908個SSR位點(diǎn),其中2 792個位于編碼區(qū),出現(xiàn)頻率為0.076 SSR/kb,而非編碼區(qū)為0.344 SSR/kb,在基因編碼區(qū)中出現(xiàn)頻率最高的是三堿基重復(fù)(1 356, 48.57%)。在不同長度重復(fù)單元中,二堿基重復(fù)SSR長度變異程度最高,其次是單堿基重復(fù)。長梗杜鵑SSR的頻率和長度呈顯著負(fù)相關(guān)(P<0.01),相關(guān)系數(shù)為-0.566。[結(jié)論]長梗杜鵑轉(zhuǎn)錄組SSR位點(diǎn)的出現(xiàn)頻率高、分布密度大、基元類型豐富、重復(fù)次數(shù)較高、長片段較多,具有較高的多態(tài)性潛能,用于遺傳分析的潛力很大,能滿足該物種的保護(hù)遺傳學(xué)研究。
長梗杜鵑;轉(zhuǎn)錄組;微衛(wèi)星特征;潛在多態(tài)性
杜鵑花是杜鵑花科(Ericaceae)杜鵑屬(Rhododendron)植物的總稱,是“世界三大園藝植物”和“中國十大天然名花”之一。我國具有最豐富的資源蘊(yùn)藏量,為世界杜鵑花育種做出了巨大貢獻(xiàn)。近百年來,國外培育出了數(shù)以千計(jì)的杜鵑花新品種,既改變了國外園林的風(fēng)貌,又使杜鵑花形成了一種世界性園藝產(chǎn)業(yè)[1]。而我國杜鵑花引種馴化工作起步較晚,育種工作斷斷續(xù)續(xù),所育品種較少[2]。目前,國際上杜鵑花的花色育種趨勢為純色花,特別是純正、明亮的黃色和恬靜的藍(lán)色等更顯珍貴[3];同時,周年供應(yīng)鮮花對于杜鵑花生產(chǎn)具有重要意義[4]。因此,選擇觀賞性高、抗逆性強(qiáng)、花期長等優(yōu)良種質(zhì)作為雜交育種的親本材料尤為重要,其中長梗杜鵑(RhododendronlongipedicellatumLei Cai & Y.P. Ma)就是眾多野生資源中難能可貴的育種材料。
長梗杜鵑系杜鵑屬、杜鵑亞屬(Subg.Rhododendron)、越桔杜鵑組(Sect.Vireya)、類越桔杜鵑亞組(Subsect.Pseudovireya)常綠植物?;ü陬伾珵槊髁恋募凕S色,無任何斑點(diǎn)。更令人稱奇的是,其花期11月下旬至翌年的2月上旬,時值春節(jié)且長達(dá)3個月之久[5]。由于人類活動使得生境破壞日益嚴(yán)重,該種分布范圍已非常狹窄,僅分布于滇東南海拔1 183~1 316 m左右的石灰?guī)r山上。為了保護(hù)以及合理開發(fā)利用這一珍稀杜鵑種類,本課題組目前正在開展針對該稀有瀕危種的引種馴化及保護(hù)生物學(xué)研究。
遺傳多樣性是生物多樣性最基本的組成部分,也是保護(hù)生物學(xué)研究的核心目標(biāo)。近年來,基于微衛(wèi)星(microsatellite or simple sequence repeat)標(biāo)記的杜鵑屬植物遺傳多樣性和遺傳結(jié)構(gòu)研究已有一些報(bào)道。吳富勤[6]利用14個SSR標(biāo)記分析了極小種群野生植物大樹杜鵑(R.protistumvar.giganteumForrest et Tagg chambeniain)2個殘存居群的遺傳結(jié)構(gòu)、遺傳多樣性和歷史動態(tài);Wang等[7]利用8個SSR位點(diǎn)評估了當(dāng)?shù)鼐用癫墒郴ǘ鋵Υ蟀谆ǘ霹N(R.decorumFranch.)的遺傳影響。但目前杜鵑花中可利用的SSR標(biāo)記較少,限制了其在杜鵑花種質(zhì)資源評價中的應(yīng)用。鑒于此,本研究利用Illumina Hiseq 4000最新高通量測序平臺,對長梗杜鵑葉片進(jìn)行轉(zhuǎn)錄組測序和組裝,從獲得的Unigenes序列中檢測SSR位點(diǎn),并對其序列特征、組成和變異規(guī)律開展分析,以期為后續(xù)長梗杜鵑大批量EST-SSR標(biāo)記開發(fā),進(jìn)而進(jìn)行遺傳多樣性和遺傳結(jié)構(gòu)分析,以及長梗杜鵑的保護(hù)和合理開發(fā)利用提供遺傳學(xué)資料。同時,也豐富了杜鵑屬植物的EST數(shù)據(jù)庫,為同屬植物及近緣種SSR標(biāo)記的開發(fā)及遺傳研究提供便利。
1.1 供試材料
采自云南省麻栗坡縣,海拔高度約1 270 m。于2016年10月采集長梗杜鵑植株的幼嫩葉片,立即置于液氮中,帶回實(shí)驗(yàn)室于﹣80℃冰箱中保存?zhèn)溆谩?/p>
1.2 轉(zhuǎn)錄組測序
用“試劑盒提取法”對所采集的材料進(jìn)行RNA提取,送華大基因有限公司(BGI)進(jìn)行高通量測序。測序完成后先對原始數(shù)據(jù)進(jìn)行過濾,然后使用Trinity對過濾后的reads進(jìn)行de novo組裝,最后使用Tgicl進(jìn)行聚類去冗余得到最終的Unigenes。
1.3 SSR位點(diǎn)的搜索與分析
利用Perl操作平臺下的MISA軟件(misa-microsatellite identification tool, MISA, http:// pgrc.ipk-gatersleben. de/misa/)搜索長梗杜鵑Unigenes中潛在的1~6 bp的SSR位點(diǎn),參數(shù)設(shè)置為:單堿基、二堿基、三堿基、四堿基、五堿基、六堿基的最短重復(fù)分別為12、6、5、5、4、4,復(fù)合SSR兩個位點(diǎn)間最大間隔堿基數(shù)為100。采用Excel軟件統(tǒng)計(jì)長梗杜鵑SSR位點(diǎn)的數(shù)量、出現(xiàn)頻率、分布的平均距離、重復(fù)單元類型和比例、重復(fù)單元堿基組成以及序列長度變異,并結(jié)合SSR和CDS的位置信息判斷SSR的落點(diǎn),全面了解其轉(zhuǎn)錄組SSR的序列特征。
2.1 長梗杜鵑轉(zhuǎn)錄組測序組裝結(jié)果及統(tǒng)計(jì)
測序獲得58.30 Mb的Raw Reads,過濾后得到44.85 Mb的Clean Reads,總堿基數(shù)為6.73 Gb,Q20(質(zhì)量值大于20的堿基數(shù)目占總堿基數(shù)目的比例)為98.22%,所得序列的數(shù)量及質(zhì)量均較高。對Clean Reads進(jìn)行組裝得到94 906個轉(zhuǎn)錄本(Transcripts),其長度主要分布在200~2 000 bp之間,占轉(zhuǎn)錄本總數(shù)的89.85%。將這些轉(zhuǎn)錄本進(jìn)一步聚類去冗余得到74 092條Unigenes,其中聚類(clusters)的Unigenes為51 505條,單獨(dú)(singletons)的Unigenes為22 587條;GC(堿基)含量為43.20%,長度在1 kb以上的有23 879條,占Unigenes總數(shù)的32.23%(表1)。
表1 長梗杜鵑轉(zhuǎn)錄組組裝測序結(jié)果
2.2 長梗杜鵑轉(zhuǎn)錄組中SSR位點(diǎn)的分布豐度與距離
利用Perl操作平臺下的MISA軟件對長梗杜鵑轉(zhuǎn)錄組所得74 092條Unigenes中1~6 bp的SSR進(jìn)行查找,共搜索到23 192個SSR位點(diǎn),包含2 826個復(fù)合型SSR,分布于17 354條Unigenes上,其中4 402條Unigenes含有2個或2個以上的SSR,部分SSR信息見表2。
表2 長梗杜鵑轉(zhuǎn)錄組SSR數(shù)據(jù)庫的部分結(jié)果
序列組裝去冗余后總長度為69 505 225 bp(表1),SSR的發(fā)生頻率(含SSR位點(diǎn)的Unigenes數(shù)與總Unigenes之比)為23.42%,包含SSR的一致序列出現(xiàn)頻率(檢出的SSR個數(shù)與總Unigenes序列數(shù)之比)為31.30%。SSR的分布密度為0.334 SSR/kb,平均每3 kb出現(xiàn)1個SSR位點(diǎn);搜索到的SSR序列總長度為543.322 kb(0.78%),說明在長梗杜鵑轉(zhuǎn)錄組中SSR序列小于整個轉(zhuǎn)錄組序列的百分之一(表3)。
2.3 長梗杜鵑轉(zhuǎn)錄組中SSR位點(diǎn)的重復(fù)單元類型
表3 長梗杜鵑轉(zhuǎn)錄組SSR各重復(fù)類型的分布特征
在長梗杜鵑轉(zhuǎn)錄組SSR數(shù)據(jù)庫中,以二堿基為重復(fù)單元的SSR含量最多,占總數(shù)的69.25%,其次是三堿基和單堿基,分別占15.07%和12.45%。而四、五、六堿基重復(fù)單元所占比例均較低且依次遞增(表3)。相應(yīng)地不同重復(fù)單元的SSR含量、出現(xiàn)頻率、分布密度以及分布的平均距離變化也很大。其中,SSR含量、出現(xiàn)頻率、分布密度的變化規(guī)律一致,依次為:二堿基>三堿基>單堿基>六堿基>五堿基>四堿基;與之對應(yīng)的平均距離以四堿基最高,為451.33 kb;以二堿基最低,為4.33 kb,且二者的差異達(dá)104倍,即該轉(zhuǎn)錄組序列中每出現(xiàn)104個二堿基重復(fù)類型才出現(xiàn)1個四堿基重復(fù)類型的SSR。
2.4 長梗杜鵑轉(zhuǎn)錄組中SSR重復(fù)基元堿基組成
考慮堿基互補(bǔ)作用,在長梗杜鵑轉(zhuǎn)錄組23 192個SSR中共發(fā)現(xiàn)187種重復(fù)基元,其中單、二、三、四、五、六堿基重復(fù)分別有2、4、10、22、56和93種,不同堿基的重復(fù)基元所占比例差異較大(圖1)。單堿基重復(fù)類型中以A/T為主要重復(fù)基元,占該類型的99.07%;二堿基重復(fù)類型中各基元所占比例依次為:AG/CT(89.55%)>AC/GT(6.53%)>AT/AT(3.64%)>CG/CG(0.27%);三堿基重復(fù)類型中AAG/CTT最多(28.09%),其次是AGG/CCT(13.27%)、ACC/GGT(13.27%);AAAG/CTTT(16.88%)、AAAAG/CTTTT(12.63%)和AGAGGG/CCCTCT(12.94%)分別為四、五、六堿基重復(fù)類型的優(yōu)勢重復(fù)基元,且分別有5、20、41種基元里只有1個SSR。
注:others表示未列出的其余基元的統(tǒng)稱Note: others: The rest of all repeat motifs not for being listed in the bar圖1 長梗杜鵑轉(zhuǎn)錄組SSR不同重復(fù)類型各基元的比例Fig. 1 Motif proportions of each types of repeat in R. longipedicellatum transcriptome
整體來看,在長梗杜鵑轉(zhuǎn)錄組中最豐富的SSR類型是二堿基重復(fù),其次是三堿基重復(fù),最主要的優(yōu)勢重復(fù)基元分別是(AG/CT)n、(A/T)n、(AC/GT)n及(AAG/CTT)n,分別占總SSR數(shù)量的62.01%、12.34%、4.52%和4.23%。此外,還發(fā)現(xiàn)了44個在植物轉(zhuǎn)錄組中不常見的CG/CG基元,以及240個在雙子葉植物中很少見的CCG/CGG基元。
2.5 長梗杜鵑轉(zhuǎn)錄組中SSR在編碼區(qū)中的分布特征
對SSR和CDS(編碼區(qū))的交集基因進(jìn)行檢測,共發(fā)現(xiàn)15 908個SSR位點(diǎn),其中僅有2 792個位點(diǎn)存在于編碼區(qū),位于非編碼區(qū)的位點(diǎn)達(dá)到12 555個,另有561個位點(diǎn)跨越了蛋白編碼區(qū)和非編碼區(qū)。編碼區(qū)SSR的出現(xiàn)頻率(編碼區(qū)中檢出的SSR個數(shù)與CDS總長度之比)為0.076 SSR/kb,而在非編碼區(qū)中為0.344 SSR/kb,這說明非編碼區(qū)SSR出現(xiàn)頻率大約是編碼區(qū)的4.5倍。在基因編碼區(qū)2 792個位點(diǎn)中,所占比例最高的是三堿基重復(fù)(1 356, 48.57%),其次是二堿基重復(fù)(808, 28.94%)和單堿基重復(fù)(275, 9.85%),此外還發(fā)現(xiàn)(225, 8.06%)個復(fù)合型SSR。非編碼區(qū)則是二堿基重復(fù)最多(8 306, 66.16%),其次是單堿基重復(fù)(1 283, 10.22%)。
2.6 長梗杜鵑轉(zhuǎn)錄組中SSR基元重復(fù)次數(shù)
SSR重復(fù)次數(shù)的不同會導(dǎo)致重復(fù)片段長度發(fā)生變異,進(jìn)而影響其多態(tài)性。長梗杜鵑轉(zhuǎn)錄組中SSR各重復(fù)類型的重復(fù)次數(shù)分布范圍較廣,波動于4~117次,且多集中于4~25次(圖2)。
圖2 長梗杜鵑轉(zhuǎn)錄組SSR各重復(fù)類型不同重復(fù)次數(shù)分布頻率Fig. 2 Percentage of various repeat types with different number of repeats in R. longipedicellatum transcriptome
其中,單、二、三、四、五、六堿基分別重復(fù)12~117、6~50、5~22、5~10、4~8和4~15次,且表現(xiàn)為隨著重復(fù)次數(shù)以及堿基數(shù)量的增加,SSR出現(xiàn)的頻率降低,僅當(dāng)二堿基重復(fù)從10次增加到11次時,SSR數(shù)量出現(xiàn)了較大增加的情況。重復(fù)基元以重復(fù)6次的頻率最高,共有SSR 3 630個,占SSR總數(shù)的15.65%,其次是7次(2 587,11.15%)、5次(2 176,9.38%)、8次(2 144,9.24%),25次以上的SSR僅有340個,占總SSR的1.47%??傮w來看,SSR的重復(fù)次數(shù)以4~10次較多,占59.12%,11~20次的占35.97%,而重復(fù)次數(shù)在20次以上的不足5%,表現(xiàn)為SSR數(shù)量隨著重復(fù)次數(shù)的增加呈明顯下降的趨勢(圖3)。
2.7 長梗杜鵑轉(zhuǎn)錄組中SSR序列長度分布及變異情況
長梗杜鵑轉(zhuǎn)錄組中SSR序列的長度存在顯著變異,長度由12~117 bp不等,平均長度為21.23 bp,通過正態(tài)性檢驗(yàn),其偏度(Sk)和峰度(Ku)均大于零,不符合正態(tài)分布;單堿基重復(fù)長度變化范圍最大(12~117 bp),其中以A/T基元長度變化范圍最大(12~117 bp),其次是AG/CT(12~100 bp)。單堿基、二堿基、三堿基、四堿基、五堿基和六堿基的平均長度分別為14.67、22.99、17.83、21.63、21.32和28.89 bp(表3),且各堿基重復(fù)類型均表現(xiàn)為隨著重復(fù)片段長度的增加,SSR出現(xiàn)的頻率降低,即各堿基重復(fù)區(qū)段片段長度與其對應(yīng)的SSR數(shù)量成相反的變化趨勢。從全部堿基來看,12 bp長的SSR在長梗杜鵑轉(zhuǎn)錄組中所占比例最高,為14.46%,其次是15 bp(10.56%)、14 bp(10.48%)和18 bp(9.53%),其中長度≥20 bp的SSR位點(diǎn)有7 698個,占SSR總數(shù)的42.90%(圖4)。
圖4 長梗杜鵑轉(zhuǎn)錄組中SSR的長度分布Fig. 4 Length distribution of SSR in R. longipedicellatum transcriptome
進(jìn)一步對長梗杜鵑不同長度重復(fù)單元SSR的長度變異情況進(jìn)行分析,分別描述了各堿基重復(fù)不同長度SSR在餅圖中的占比,圖中各扇區(qū)對應(yīng)不同長度的SSR,頻率≤1%的SSR合并在同一黑色扇區(qū)內(nèi)(圖5)。從圖中可知,二堿基重復(fù)SSR的長度變異程度最高,有40種不同SSR變化長度;其次是單堿基,有28種;三堿基、六堿基、四堿基重復(fù)SSR長度變異程度依次降低,五堿基最低,僅4種變化長度。長梗杜鵑轉(zhuǎn)錄組SSR的序列長度與其出現(xiàn)頻率的Pearson相關(guān)性分析表明二者在0.01水平(雙側(cè))上顯著負(fù)相關(guān),相關(guān)系數(shù)為-0.566。
注:餅圖每一扇區(qū)對應(yīng)不同長度的SSR標(biāo)注于所占比例上部括號內(nèi),若對應(yīng)長度SSR頻率≤1%,則一起合并在黑色扇區(qū)內(nèi)。
Note: SSR in different lengths are demonstrated in separate slices. If the corresponding percentage≤1%, slices were combined for percentages(black slices).
圖5 長梗杜鵑轉(zhuǎn)錄組不同長度重復(fù)單元SSR長度變異情況
Fig. 5 Length diversification of SSR in R. longipedicellatum transcriptome
本研究通過長梗杜鵑葉片轉(zhuǎn)錄組測序,組裝、聚類去冗余后獲得74 092條Unigenes,利用Perl操作平臺下的MISA軟件共搜索到23 192個SSR位點(diǎn),包含SSR的一致序列出現(xiàn)頻率為31.30%,分布密度為0.334 SSR/kb,平均每3 kb出現(xiàn)1個SSR位點(diǎn)。與大多數(shù)雙子葉植物如杜仲(EucommiaulmoidesOliver)[8](0.038 SSR/kb)、碧桃(Prunuspersicacv.duplexRehd.)[9](0.287 SSR/kb)和短絲木犀(OsmanthusserrulatusRehd.)[10](0.183 SSR/kb)的EST-SSR相比,長梗杜鵑轉(zhuǎn)錄組中SSR的分布密度較高;但低于高粱(Sorghumbicolor(L.) Moench)(0.646 SSR/kb)、水稻(OryzasativaL.)(0.739 SSR/kb)等單子葉植物[11],這可能是二者的進(jìn)化因素不同使得雙子葉植物的SSR分布偏低[12],另外出現(xiàn)這種差異也可能與物種間SSR的分布、含有SSR基因的表達(dá)豐度、搜索的序列來源、搜索軟件的選擇以及搜索的標(biāo)準(zhǔn)等不一致有關(guān)。總體而言,長梗杜鵑轉(zhuǎn)錄組中SSR數(shù)量比較豐富。
在獲得的長梗杜鵑轉(zhuǎn)錄組所有SSR中,二堿基重復(fù)為最主要重復(fù)類型,占所有SSR的69.52%,其次是三堿基重復(fù),占15.07%,這與許多物種以二、三堿基重復(fù)類型居多一致[13-15]。袁陽陽等[16]在莕菜(Nymphoidespeltata(Gmel.) O. Kuntze)轉(zhuǎn)錄組發(fā)現(xiàn)的12 319個EST-SSR位點(diǎn)中,二堿基和三堿基重復(fù)單元是主導(dǎo)類型,分別占總SSR的57.31%和30.87%;李美芹等[17]從NCBI公共數(shù)據(jù)庫現(xiàn)有杜鵑花相關(guān)EST中獲得的435個SSR序列也以二、三堿基重復(fù)為主。一般認(rèn)為,低級重復(fù)單元的大量存在暗示著該物種進(jìn)化水平較高,而高級重復(fù)單元出現(xiàn)頻率高的物種具有較短的進(jìn)化時間或較低的變異頻率[18,19]。長梗杜鵑中單、二和三堿基重復(fù)類型共占總SSR的96.77%,可能預(yù)示著其具有較高的變異頻率或較長的進(jìn)化歷史,這或許在一定程度上支持了方瑞征和閔天祿[20]所得結(jié)論,杜鵑屬植物起源于距今約6 700萬年至13 700萬年中生代的白堊紀(jì),具有悠久的進(jìn)化歷史。相比較而言,4~6 bp重復(fù)類型較少,且隨著重復(fù)單元堿基數(shù)的增加,SSR出現(xiàn)頻率、SSR含量以及分布密度隨之升高,即六堿基SSR類型較多。在云南松(PinusyunnanensisFranch.)[21]轉(zhuǎn)錄組SSR分布特征研究中,也表現(xiàn)為六堿基較四、五堿基多。這可能與密碼子以三堿基為一個單元有關(guān),造成了三堿基位移[22]。
SSR分布在不同物種間存在較大差異,且物種本身堿基組成也是選擇的結(jié)果。在長梗杜鵑單堿基重復(fù)類型中,A/T基元占絕大多數(shù),四、五、六堿基中AAAT/ATTT、AAAAT/ATTTT和AAAAAT/ATTTTT基元含量也相對較高,表現(xiàn)出一定的A/T優(yōu)勢,這可能與堿基所含的能量有關(guān)[23]。但是主要重復(fù)類型二、三堿基的優(yōu)勢重復(fù)基元是AG/CT和AAG/CTT,分別占SSR總數(shù)的62.01%和4.23%,與蠟梅(Chimonanthuspraecox(Linn.) Link)[24]、碧桃[9]、短絲木犀[10]等植物轉(zhuǎn)錄組SSR分布的研究結(jié)果一致。在三堿基重復(fù)中,AAG/CTT、AGG/CCT和ACC/GGT基元所占比例最高,與王書珍等[25]報(bào)道的杜鵑花EST-SSR序列三堿基中的優(yōu)勢基元AAG、ACC、AGA比較相似,許玉蘭等[14]對多數(shù)物種的統(tǒng)計(jì)也表明三堿基中AAG、AGC和AGG較多,這些較多的重復(fù)基元可能在EST序列中較為普遍,也可能是優(yōu)勢的蛋白或DNA家族[26]。此外,長梗杜鵑中還發(fā)現(xiàn)了44個在植物轉(zhuǎn)錄組二堿基重復(fù)中比較罕見的CG/CG和240個在雙子葉植物中分布較少的CCG/CGG重復(fù)基元,其含量遠(yuǎn)高于大多數(shù)植物,如甘藍(lán)(BrassicaoleraceaL.)[27](1個CG)、蠟梅[24](6個CG)、杜仲[8](1個CG)和短絲木犀[12](13個CG、43個CCG)等,較多的CG和CCG重復(fù)基元可能與某些特定的功能相關(guān),如抗逆性、轉(zhuǎn)錄調(diào)控和信號轉(zhuǎn)導(dǎo)等[28]。也進(jìn)一步證明所得長梗杜鵑轉(zhuǎn)錄組SSR具有較高的特異性。
許多研究表明三堿基重復(fù)SSR是目前為止基因編碼區(qū)中發(fā)現(xiàn)最多的SSR類型[29, 30]。長梗杜鵑也不例外,結(jié)合SSR和CDS的位置信息,對SSR的分布區(qū)間進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)長梗杜鵑轉(zhuǎn)錄組SSR序列主要分布在非編碼區(qū),編碼區(qū)SSR出現(xiàn)頻率僅為非編碼區(qū)的11/50,且編碼區(qū)中三堿基SSR顯著富集,占總檢測量的48.57%,而非編碼區(qū)以二堿基重復(fù)較多。這可能是密碼子選擇作用的結(jié)果,由于三堿基重復(fù)單元重復(fù)次數(shù)的變化對基因讀碼框和表達(dá)產(chǎn)物的影響較小,從而使其在編碼區(qū)的容受性優(yōu)于其他類型。這一現(xiàn)象也說明三堿基重復(fù)SSR富集是基因編碼區(qū)SSR在基因組中得以保存的重要機(jī)制[31]。Reddy等[32]報(bào)道了人類基因組研究已經(jīng)發(fā)現(xiàn)三堿基重復(fù)SSR與某些疾病的發(fā)生相關(guān);將長梗杜鵑轉(zhuǎn)錄組測序所得全部Unigenes映射到KEGG代謝庫,發(fā)現(xiàn)了176條與人類疾病相關(guān)的Unigenes,這是否與基因編碼區(qū)富集的三堿基重復(fù)有關(guān),對長梗杜鵑的生長發(fā)育又有什么意義仍有待進(jìn)一步研究。
SSR位點(diǎn)多態(tài)性主要原因是基元重復(fù)數(shù)和堿基數(shù)不同而形成的序列長度多態(tài)性[33],一般重復(fù)次數(shù)越多,變異性越大,其多態(tài)性潛力越高。長梗杜鵑SSR重復(fù)次數(shù)波動于4~117次,以4~10次重復(fù)較多,其次是11~20次;其中單堿基因容易發(fā)生錯配不考慮在內(nèi),其余的堿基重復(fù)類型重復(fù)次數(shù)也集中于4~36次,甚至有高達(dá)50次的。從片段長度來看,當(dāng)SSR長度≥20 bp時多態(tài)性較高,在12~20 bp之間多態(tài)性中等,<12 bp時多態(tài)性極低[34],本研究在篩選過程中已經(jīng)將<12 bp的低多態(tài)SSR過濾掉,最終發(fā)現(xiàn)長梗杜鵑SSR序列長度變化范圍是12~117 bp之間,平均長度為21.23 bp,其中≥20 bp的高多態(tài)重復(fù)序列占42.90%,其比例高于云南松[21](14.76%)、碧桃[9](12.13%)、短絲木犀[10](13.47%)等大多數(shù)植物,由此推測長梗杜鵑轉(zhuǎn)錄組挖掘出的23 192個SSR位點(diǎn)大部分具有高多態(tài)性潛能。通過SPSS軟件對SSR發(fā)生頻率與重復(fù)片段長度進(jìn)行Pearson相關(guān)性分析,發(fā)現(xiàn)二者顯著負(fù)相關(guān),相關(guān)系數(shù)為-0.566。在長梗杜鵑不同長度重復(fù)單元SSR長度變異分析中,二堿基重復(fù)SSR長度變異程度較高,有40種不同SSR變化長度,即二堿基類型獲得或失去重復(fù)基元的活躍程度較高;其次是單堿基(28種),而五堿基最低(僅4種),且各重復(fù)類型均表現(xiàn)為SSR長度越長,出現(xiàn)的頻率越低。表明由短重復(fù)單元組成的SSR比由長重復(fù)單元組成的SSR可能具有更豐富的多態(tài)性。
本研究通過Perl操作平臺下的MISA軟件對長梗杜鵑轉(zhuǎn)錄組中SSR序列進(jìn)行查找,共搜索到23 192個SSR位點(diǎn),對其分布頻率、重復(fù)單元類型、重復(fù)基元堿基組成、在編碼區(qū)中的分布特征、重復(fù)次數(shù)和序列長度分布及變異情況進(jìn)行分析,得出大多數(shù)位點(diǎn)具有高多態(tài)性潛能,用于遺傳分析的潛力很大,為長梗杜鵑SSR分子標(biāo)記的大規(guī)模開發(fā)提供了重要的信息資源和數(shù)據(jù)保障。尤其是分布于編碼區(qū)的序列,可能與某一特定功能相關(guān)聯(lián),有助于長梗杜鵑功能性SSR標(biāo)記的開發(fā),進(jìn)而為該物種遺傳多樣性和遺傳結(jié)構(gòu)、遺傳資源分類和進(jìn)化以及分子標(biāo)記輔助育種等方面的研究奠定基礎(chǔ)。加之,EST-SSR具有較高的轉(zhuǎn)移性,進(jìn)一步開發(fā)的SSR標(biāo)記有望用于杜鵑屬植物及其它親緣關(guān)系較近物種的研究中。
[1] 張長芹. 云南杜鵑花[M].昆明: 云南科技出版社, 2008: 1.
[2] 張長芹,高連明,薛潤光,等. 中國杜鵑花的保育現(xiàn)狀和展望[J]. 廣西科學(xué), 2004, 11(4): 354-359.
[3] 程金水,劉青林. 園林植物遺傳育種學(xué)(第2版)[M]. 北京: 中國林業(yè)出版社, 2010: 452.
[4] 蘭 熙,張樂華,張金政,等. 杜鵑花屬植物育種研究進(jìn)展[J]. 園藝學(xué)報(bào), 2012, 39(9): 1829-1838.
[5] Cai L, Neilsen J, Dao Z L,etal.Rhododendronlongipedicellatum(Ericaceae), a new species from Southeastern Yunnan, China[J]. Phytotaxa, 2016, 282(4): 296-300.
[6] 吳富勤. 極小種群野生植物大樹杜鵑的保護(hù)生物學(xué)研究[D]. 云南: 云南大學(xué), 2015.
[7] Wang X, Huang Y, Long C. Assessing the genetic consequences of flower-harvesting inRhododendrondecorumFranchet (Ericaceae) using microsatellite markers[J]. Biochemical Systematics and Ecology, 2013, 50: 296-303.
[8] 黃海燕,杜紅巖,烏云塔娜,等. 基于杜仲轉(zhuǎn)錄組序列的SSR分子標(biāo)記的開發(fā)[J]. 林業(yè)科學(xué), 2013, 5: 176-181.
[9] 馬秋月,廖卓毅,張得芳,等. 碧桃花瓣轉(zhuǎn)錄組微衛(wèi)星特征分析[J]. 南京林業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版, 2015, 3: 34-38.
[10] 陳 林,李龍娜,楊國棟,等. 特有植物短絲木犀(Osmanthus serrulatus)轉(zhuǎn)錄組微衛(wèi)星特征分析[J]. 分子植物育種, 2016, 14(4): 959-965.
[11] Cavagnaro P F, Senalik D A, Yang L,etal. Genome-wide characterization of simple sequence repeats in cucumber (CucumissativusL.)[J]. BMC Genomics, 2010, 11(1): 569.
[12] Bai T D, Xu L A, Xu M,etal. Characterization of masson pine (PinusmassonianaLamb.) microsatellite DNA by 454 genome shotgun sequencing[J]. Tree Genetics & Genomes, 2014, 10: 429-437.
[13] Aggarwal R K, Hendre P S, Varshney R K,etal. Identification, characterization and utilization of EST-derived genic microsatellite markers for genome analyses of coffee and related species[J]. Theoretical and Applied Genetics, 2007, 114(2): 359-372.
[14] 許玉蘭,蔡年輝,康向陽,等. EST-SSR標(biāo)記的開發(fā)及其在木本植物中的分布特點(diǎn)[J]. 中國農(nóng)學(xué)通報(bào), 2012, 28(4): 1-7.
[15] 饒龍兵,楊漢波,郭洪英,等. 基于榿木屬轉(zhuǎn)錄組測序的 SSR 分子標(biāo)記的開發(fā)[J]. 林業(yè)科學(xué)研究, 2016, 29(6): 875-882.
[16] 袁陽陽,王青鋒,陳進(jìn)明. 基于轉(zhuǎn)錄組測序信息的水生植物莕菜SSR標(biāo)記開發(fā)[J]. 植物科學(xué)學(xué)報(bào), 2013, 31(5): 485-492.
[17] 李美芹,潘葉羽,錢萍仙,等. 杜鵑花EST-SSR標(biāo)記的開發(fā)及遺傳多樣性分析[J]. 植物生理學(xué)報(bào), 2016, 52(3): 356-364.
[18] Harr B, Schlotterer C. Long microsatellite alleles inDrosophilamelanogasterhave a downward mutation bias and short persistence times, which cause their genome-wide under representation[J]. Genetics, 2000, 155(3): 1213-1220.
[19] 阮楨媛,王兵益,歐陽志勤,等. 極度瀕危植物巧家五針?biāo)苫蚪M微衛(wèi)星特征分析[J]. 植物研究, 2016, 36(5): 775-781.
[20] 方瑞征,閔天祿. 杜鵑屬植物區(qū)系的研究[J]. 云南植物研究, 1995, 17(4): 359-379.
[21] 蔡年輝,許玉蘭,徐 楊,等. 云南松轉(zhuǎn)錄組SSR的分布及其序列特征[J]. 云南大學(xué)學(xué)報(bào):自然科學(xué)版, 2015, 37(5): 770-778.
[22] Metzgar D, Bytof J, Wills C. Selection against frameshift mutations limits microsatellite expansion in coding DNA[J]. Genome Research, 2000, 10(1): 72-80.
[23] 童治軍,肖炳光. 3種煙草基因組SSR位點(diǎn)信息分析和標(biāo)記開發(fā)[J]. 西北植物學(xué)報(bào), 2014, 34(8): 1549-1558.
[24] 李 響,楊 楠,趙凱歌,等. 蠟梅轉(zhuǎn)錄組EST-SSR標(biāo)記開發(fā)與引物篩選[J]. 北京林業(yè)大學(xué)學(xué)報(bào), 2013, 35(1): 25-32.
[25] 王書珍,張傳進(jìn),程 華, 等. 杜鵑花表達(dá)序列標(biāo)簽資源中的微衛(wèi)星信息分析[J]. 湖北林業(yè)科技, 2014, 43(2): 7-10.
[26] 張得芳,李淑嫻,夏 濤. 薔薇科6個屬植物EST-SSR特征分析[J]. 植物研究, 2014, 34(6): 810-815.
[27] 陳 琛,莊 木,李康寧,等. 甘藍(lán)EST-SSR標(biāo)記的開發(fā)與應(yīng)用[J]. 園藝學(xué)報(bào), 2010, 37(2): 221-228.
[28] Li S X, Yin T M. Map and analysis of microsatellites in the genome of Populus: The first sequenced perennial plant[J]. Science in China Series C: Life Sciences, 2007, 50(5): 690-699.
[29] Morgante M, Hanafey M, Powell W. Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes.[J]. Nature Genetics, 2002, 30(2): 194-200.
[30] 王麗鴛,韋 康,張成才,等. 茶樹花轉(zhuǎn)錄組微衛(wèi)星分布特征[J]. 作物學(xué)報(bào), 2014, 40(1): 80-85.
[31] 劉菁菁,戴曉港,王 潔,等. 楊樹微衛(wèi)星序列對基因表達(dá)頻率的影響及表達(dá)序列中微衛(wèi)星特征的分析[J]. 南京林業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版, 2011, 35(1): 11-14.
[32] Reddy P S, Housman D E. The complex pathology of trinucleotide repeats[J]. Current Opinion in Cell Biology, 1997, 9(3): 364-372.
[33] 王 森,張 震,姜倪皓,等. 半夏轉(zhuǎn)錄組中的SSR位點(diǎn)信息分析[J]. 中藥材, 2014, 37(9): 1566-1569.
[34] Temnykh S, Declerck G, Lukashova A. Computational and experimental analysis of microsatellites in rice (OryzasativaL.) frequency, length variation, transposon associations, and genetic marker potential[J]. Genome Research, 2001, 11(8): 1441-1452.
(責(zé)任編輯:張 玲)
Characteristic Analysis of Microsatellites in the Transcriptome ofRhododendronlongipedicellatum, an Endangered Species Endemic to Southeastern Yunnan, China
LITai-qiang,LIUXiong-fang,WANYou-ming,LIZheng-hong,LIYu-ying,LIUXiu-xian,MAHong
(Research Institute of Resource Insects, Chinese Academy of Forestry, Kunming 650233, Yunnan, China)
[Objective]To comprehensively understand the distribution and sequence characteristics of SSR loci in theRhododendronlongipedicellatumtranscriptome, and to provide a theoretical basis for further development of high efficient SSR markers. [Method] Transcriptome sequencing was conducted on young leaves ofR.longipedicellatumby using Illumina Hiseq 4000. Then the SSR loci were sought and analyzed using MISA software from the obtained unigenes. [Result] A total of 23,192 SSRs were identified in 17,354 unigenes, with an average density of one SSR per 3 kb. Dinucleotide and trinucleotide repeat were the main SSR types, accounting for 69.25% and 15.07% of all SSRs, respectively. Among all the 187 repeat motifs, (AG/CT)n was the most frequent repeat motif (62.01%), followed by (A/T)n (12.34%), (AC/GT)n (4.52%) and (AAG/CTT)n (4.23%). A total of 15,908 SSRs occurred in the intersection of SSR and CDS, only 2792 of which occurred in protein-coding regions of these sequences. The density of SSRs was 0.076 SSR/kb in coding regions which was significantly lower than that in non-coding regions (0.344 SSR/kb). Moreover, trinucleotide repeat was the most abundant in coding regions (1356, 48.57%). In terms of different length repeat units, the variation of the length of dinucleotide repeat SSR was the most abundant, followed by the mononucleotide. There was a significant negative correlation (P<0.01) between the frequency of SSR and the length, with the correlation coefficient of-0.566. [Conclusion] The SSR loci in theR.longipedicellatumtranscriptome showed high frequency and density of distribution, rich repeat motifs, high repeat times, more long fragment and significant potential of polymorphism. The SSR loci could be applied in genetic analysis and conservation genetics ofR.longipedicellatumin the future.
Rhododendronlongipedicellatum; transcriptome; microsatellites characteristics; potential of polymorphism
10.13275/j.cnki.lykxyj.2017.04.001
2016-07-14
“云南省技術(shù)創(chuàng)新人才”培養(yǎng)對象項(xiàng)目(2016HB007)
李太強(qiáng)(1993—),男,云南鳳慶人,碩士,主要從事杜鵑屬植物保護(hù)生物學(xué)研究.
* 通訊作者:馬宏,男,副研究員,主要從事西南特色野生花卉種質(zhì)資源創(chuàng)新與遺傳多樣性研究.E-mail:hortscience@163.com.
S685.21
A
1001-1498(2017)04-0533-09