周奕帆 李陳貴 許云 吳文嬙 夏薇 黃小龍 黃東益 周雙清
摘? 要:鏈霉菌屬放線菌是最重要的抗生素產(chǎn)生菌,也是包含放線菌種類最多的放線菌屬。鏈霉菌屬的有效發(fā)表種的模式菌株在16S rRNA基因序列系統(tǒng)發(fā)育樹上分散歸簇于不同的進化分枝。紫黑鏈霉菌16S rRNA 基因進化枝( 16S rRNA gene clade)是其中的一個分枝。該分枝菌株在燕麥培養(yǎng)基上基內(nèi)菌絲淡黃色,氣生菌絲發(fā)育成灰色,表面皺紋的螺旋狀孢子絲,培養(yǎng)后期呈黑色。該分枝中的菌株普遍具有豐富的生物活性,能產(chǎn)生抗菌、抗寄生蟲、抗腫瘤、免疫抑制等多種活性物質(zhì),是新型抗生素開發(fā)與利用的重要菌源。HNM0141是紫黑鏈霉菌16S rRNA基因進化枝放線菌的模式菌株。采用第三代全基因組測序技術(shù),首次獲得了菌株 HNM0141的基因組完成圖,其線狀基因組長度11 639 536 bp,GC含量為71.03%,包含9363個蛋白編碼基因(CDS),18個rRNA基因和67個tRNA基因。其中有6376、5886、3246個CDS分別在COG、GO和KEGG數(shù)據(jù)庫中得到功能注釋。除了一般功能預測之外,有大部分基因參與轉(zhuǎn)錄、氨基酸轉(zhuǎn)運和代謝、碳水化合物轉(zhuǎn)運和代謝以及次級代謝生物合成和代謝,基因數(shù)占比分別為12.91%、10.25%、8.89%、7.59%。利用antiSMASH軟件,預測到48個次級代謝產(chǎn)物合成基因簇,其類型包括8個聚酮(PKS)型、7個非核糖體肽(NRPS)型、14個雜合型、6個terpene、3個siderophore、2個butyrolactone,其余NAPAA、ectoine、lanthipeptide-class-i、ladderane、indole、RiPP-like、hserlactone、redox-cofactor各1個。其中聚酮類(PKS)和非核糖體肽(NRPS)類(包括雜合類型)的基因簇含量豐富,占總基因簇的50%以上。7個基因簇與已知代謝物(pristinol、ectoine、geosmin、desferrioxamin B、echoside A/B/C/D/E、nigericin、coelichelin)基因簇的相似性為100%,34個基因簇的相似性在2%~96%之間,剩余的7個基因簇無法匹配到已知基因簇。全基因組分析表明菌株 HNM0141具有強大次級代謝產(chǎn)物合成的能力,預示該菌株在新穎抗生素的挖掘上具有良好的研究潛力。
關鍵詞:紫黑鏈霉菌;16S rRNA基因進化枝;基因組測序;次級代謝合成基因簇中圖分類號:Q933 ?????文獻標識碼:A
Analysis of Complete Genome Sequence of HNM0141of the Clade
ZHOU Yifan, LI Chengui, XU Yun, WU Wenqiang, XIA Wei, HUANG Xiaolong, HUANG Dongyi, ZHOU Shuangqing
1. Key Laboratory of Tropical Biological Resources of Ministry of Education, Haikou, Hainan 570228, China; 2. College of Tropical Crops, Hainan University, Haikou, Hainan 570228, China; 3. Pharmacy School of Guilin Medical University, Guilin, Guangxi 541199, China
Actinomycetes belonging to are the most important antibiotic producing bacteria and also the actinomycete genus with the largest number of species. Many streptomycete type strains can be assigned to distinct evolutionary clades on the 16S rRNA gene phylogenetic tree, and the 16S rRNA gene clade is one of them. Members of the clade form a greyish yellow substrate mycelium and a grayish aerial hyphae on oatmeal agar that develop into spiral chains of rugose ornamented spores that become black on prolonged incubation. Members of the violaceusniger 16S rRNA gene clade have abundant biological activities and produce antibacterial metabolites, antiparasitic metabolites, antitumour compounds and immunosuppressants as important sources for the development and utilization of new antibiotics. HNM0141is a type strain assigned to the 16S rRNA gene clade. Here, we present the complete genome sequence of it, which is generated using the third sequencing technology and consists of a linear chromosome of 11 639 536 bp with a GC content of 71.3%, 9363 protein coding genes(CDS), 18 rRNA genes, and 67 tRNA genes. The identified CDS were classified into 6376, 5886, and 3246 categories based on clusters of orthologous genes of proteins (COG), gene ontology (GO), and Kyoto Encyclopedia of Genes and Genomes (KEGG) designation, respectively. In addition to the general function prediction only, most of the genes involved in transcription, amino acid transport and metabolism, carbohydrate transport and metabolism and secondary metabolic biosynthesis and metabolism were accounted for 12.91%,10.25%, 8.89% and 7.59% respectively. Forty-eight putative secondary metabolite biosynthetic gene clusters were found in the genome using the online antiSMASH software, including eight PKS, seven NRPS, fourteen hybrid gene clusters, six terpenes, three siderophores, two butyrolactones, one NAPAA, one ectoine, one lanthipeptide-class-i, one ladderane, one indole, one RiPP-like, one hserlactone and one redox-cofactor. Polyketone (PKS) and non-ribosomal peptide (NRPS) gene clusters (including heterozygous types) were abundant and accounted for more than 50% of the total gene clusters. Seven putative gene clusters showed 100% similarities to known gene clusters: pristinol, ectoine, geosmin, desferrioxamin B, echoside A/B/C/D/E, nigericin, and coelichelin gene clusters. Thirty-four putative gene clusters showed 2%–96% similarities to known gene clusters. The remaining seven gene clusters could not be matched to known gene clusters. Genome-wide analysis showed that HNM0141 had strong ability of the biosynthesis of secondary metabolites, indicated that it should be good research potential for mining of the novel antibiotics.
; 16S rRNA gene clade; genome sequence; secondary metabolite biosynthetic gene clusters
10.3969/j.issn.1000-2561.2022.03.003
鏈霉菌屬是放線菌門種類最多的放線菌屬,是最重要的抗生素產(chǎn)生菌。當前該屬含有效發(fā)表種677個(http://www.bacterio.net/streptomyces. html)。鏈霉菌屬的有效發(fā)表種的模式菌株在16S rRNA基因序列系統(tǒng)發(fā)育樹上分散歸簇于不同的進化分枝(clade)[,處在同一進化分枝上的菌株親緣關系較近,通常表現(xiàn)出某些共同的生理特征。紫黑鏈霉菌16S rRNA基因進化枝( 16S rRNA gene clade)是其中的一個分枝(clade),由SEMBIRING等[推薦建立。該分枝菌株在ISP3培養(yǎng)基上具有明顯的特征:基內(nèi)菌絲淡黃色,孢子絲早期灰色,后期黑褐色,孢子鏈呈螺旋狀,表面不光滑,有褶皺[1-2]。利用特異性引物可以擴增到該分枝菌株16S rRNA基因序列中的部分特異性片段[。目前,該分枝包含正式發(fā)表的有效種共17個[,在這些報道的有效種菌株中,許多菌株已經(jīng)是知名的抗生素產(chǎn)生菌,如和。該分枝中的菌株普遍具有豐富的生物活性,能產(chǎn)生抗菌、抗蟲、抗腫瘤、免疫抑制等多種活性物質(zhì),在抗生素的開發(fā)上得到了廣泛的利用[4。因此,紫黑鏈霉菌16S rRNA基因進化枝菌株被認為是鏈霉菌屬中利用價值極高的一類放線菌資源,是尋找新型抗生素的重要菌源。
研究發(fā)現(xiàn)該類菌在植物根際、非根際土壤、落葉堆、淡水沉積物、海洋沉積物等環(huán)境均具有分布,菌種的分布與環(huán)境具有相關性,特殊的環(huán)境蘊藏新穎的菌株[3]。也有研究者從植物的種子、葉鞘等內(nèi)生環(huán)境分離到該分枝的菌株[。本實驗室前期研究證實,紫黑鏈霉菌16S rRNA基因進化枝菌株在我國熱帶地區(qū)也有分布,不僅從海南藥用植物根際分離到此類放線菌[,也從熱帶雨林森林土壤中分離到此類放線菌的新種HNM0141[4]。為了深入地了解該分枝新種菌株HNM0141的生物學功能和次生代謝合成潛力,本研究采用Pacific BioscienceRS II系統(tǒng)上的SMRT對其進行全基因組測序,獲得了菌株HNM0141的基因組全序列,同時進行了基因預測、功能注釋與次級代謝合成基因簇分析,為該菌株的進一步研究和開發(fā)利用奠定基礎。
?材料
菌株 HNM0141由實驗室前期分離于海南霸王嶺熱帶雨林土壤,保存于本實驗室–20℃冰箱甘油管中。
?方法
1.2.1 ?菌株HNM0141 DNA的提取與基因組測序 ?菌株HNM0141使用ISP2液體培養(yǎng)基28℃,搖瓶培養(yǎng)5 d,離心收集菌體,使用Promega(美國)Wizard基因組DNA提取試劑盒進行總DNA的提取。送北京百邁客科技有限公司,利用Pacific BioscienceRS II系統(tǒng)上的SMRT進行全基因組測序。獲得的數(shù)據(jù)用HGAP 2.3軟件[進行拼接組裝獲得基因組完全圖,采用Circos version 0.62軟件[繪制基因組圈圖。
1.2.2 ?基因預測、功能注釋與次級代謝合成基因簇分析? 將拼接好的基因組序列采用Glimmer 3.02軟件[預測其開放閱讀框(ORF);使用tRNAscan-SE[軟件預測tRNA,采用軟件Infernal 1.1[基于Rfam[數(shù)據(jù)庫預測基因組中的rRNA以及除了tRNA和rRNA之外的其他ncRNA。將所有的ORF預測的蛋白序列采用BLAST軟件完
成比對及功能注釋。CDS和Genes的功能注釋分別采用COG(Clusters of orthologous groups)、GO(Gene ontology)和KEGG(Kyoto encyclopedia of genes and genomes)數(shù)據(jù)庫完成。采用antiSMASH 6.0(http://antismash.secondarymetabolites.org)在線軟件預測菌株HNM0141的次級代謝生物合成基因簇。
1.2.3 ?基因組系統(tǒng)發(fā)育樹構(gòu)建 ?將獲得的菌株HNM0141的基因組序列,利用Type Strain Genome Server(https://tygs.dsmz.de/)在線軟件構(gòu)建基因組水平的系統(tǒng)發(fā)育樹,從基因組水平判斷菌株的系統(tǒng)發(fā)育地位。
? 基因組的組裝與功能注釋
菌株HNM0141經(jīng)測序、組裝獲得完整的基因組,長度為11 639 536 bp,GC含量71.03%的線形染色體(GenBank登錄號:CP065050)?;蚪M預測獲得總共9363個蛋白編碼基因,18個rRNA,67個tRNA基因和193 ncRNA基因(圖1和表1)。其中,9363個CDS(蛋白質(zhì)編碼序列)中有6376、5886、3246個CDS分別在COG、GO和KEGG數(shù)據(jù)庫中得到功能注釋。
最外面一圈為基因組大小的標示,每個刻度為0.1 Mb;第二圈和第三圈分別為基因組正鏈和負鏈的基因,不同顏色代表不同的COG功能分類;第四圈為重復序列;第五圈為tRNA 和rRNA;第六圈為GC含量,淺黃色部分表示該區(qū)域GC含量高于基因組的平均GC含量,藍色部分則表示該區(qū)域GC含量低于基因組的平均GC含量;最內(nèi)圈是GC-skew,深灰色代表G含量大于C的區(qū)域,紅色代表C含量大于G的區(qū)域。
The outermost circle is the mark of genome size, with each scale of 0.1 MB; The second and third circles are the positive and negative genes of genome respectively, Different colors represent different COG functional classification; The fourth circle is repetitive sequence; The fifth circle is tRNA and rRNA genes; The sixth circle is the GC percentage plot, pale?yellow above average, blue below average; The innermost layer is the GC skew, dark gray represents areas with more G than C, and red represents areas with more C than G.
功能分類
在6376個CDS具有COG功能注釋中,共分為25個功能組(圖2)。其中,除了一般功能預測(R)之外,有大部分基因參與轉(zhuǎn)錄(K)、氨基酸轉(zhuǎn)運和代謝(E)、碳水化合物轉(zhuǎn)運和代謝(G)以及次級代謝生物合成和代謝(Q),基因數(shù)占比分別為12.91%、10.25%、8.89%和7.59%。同時在生物代謝大類中,包括能量產(chǎn)生和轉(zhuǎn)化(C)(6.41%)、氨基酸轉(zhuǎn)運和代謝(E)(10.25%)、核苷酸轉(zhuǎn)運和代謝(F)(1.27%)、碳水化合物轉(zhuǎn)運和代謝(G)(8.89%)、同工酶轉(zhuǎn)運和代謝(H)(3.32%)、脂質(zhì)轉(zhuǎn)運和代謝(I)(5.51%)、無機離子轉(zhuǎn)運和代謝(P)(5.6%)、次級代謝生物合成和代謝(Q)(7.59%)、信號傳導與代謝(T)(4.97%)以及防御代謝(V)(1.6%),這些基因占所有功能基因的55.41%。由此可見,菌株HNM0141有相當強的生物代謝能力,特別在次級代謝生物合成方面可能具有強大的合成能力。
功能分類
5886個CDS具有GO注釋功能,共分為3大類: 細胞組分(cellular component)、分子功能(molecular function)和生物學過程(biological process)(圖3)。分子功能中的催化活性和結(jié)合,生物學過程中的代謝過程、細胞過程、單生物過程和生物調(diào)節(jié)等相關基因數(shù)量最多。
菌株的基因組系統(tǒng)發(fā)育分析
將菌株HNM0141的基因組完成序列,利用Type Strain Genome Server在線軟件,構(gòu)建基因組
水平的系統(tǒng)發(fā)育樹如圖4所示,菌株HNM0141與鏈霉菌屬的菌株聚類在一起,特別跟標準菌株,,,,,和聚合在同一個大的分枝上,而這些標準菌株都為紫黑鏈霉菌16S rRNA 基因進化枝(16S rRNA gene clade)的主要成員[2]。因此,從基因組水平的系統(tǒng)發(fā)育樹再次證明了菌株HNM0141為紫黑鏈霉菌16S rRNA基因進化枝的新種菌株[4]。
次級代謝合成基因簇分析
在菌株HNM0141基因組預測到48個次級代謝產(chǎn)物合成基因簇(表2),其類型包括8個聚酮(PKS)型、7個非核糖體肽(NRPS)型(2個NRPS-like)、14個雜合型、6個terpene、3個siderophore、2個butyrolactone,其余NAPAA、ectoine、lanthipeptide-class-i、ladderane、indole、RiPP-like、hserlactone、redox-cofactor各1個。其中包含PKS型和NRPS型(包括雜合類型)的基因簇占總基因簇的50%以上。從基因簇的相似性來看,有7個基因簇(Cluster10、Cluster17、Cluster24、Cluster25、Cluster26、Cluster39、Cluster44)與已知基因簇的相似性為100%,說明菌株HNM0141具有產(chǎn)生代謝物pristinol、ectoine、geosmin、desferrioxamin B、echoside A/B/C/D/E、nigericin、coelichelin的能力。7個基因簇(Cluster16、Cluster18、Cluster19、Cluster27、Cluster29、Cluster34、Cluster35)無法匹配到已知基因簇,表明這些基因簇為未知基因簇,具有產(chǎn)生新代謝物的潛能。其他34個基因簇的相似性在2%~96%之間,暗示這些基因簇具有產(chǎn)生已知結(jié)構(gòu)代謝物或其結(jié)構(gòu)類似物的潛力。
紫黑鏈霉菌16S rRNA基因進化枝放線菌以產(chǎn)生豐富的活性物質(zhì)而著稱。例如: 產(chǎn)生著名的免疫抑制劑雷帕霉素(apamycin)[;產(chǎn)生格爾德霉素(geldana-mycin)[1]以及產(chǎn)生阿扎霉素(azalomycin)[;而吸水鏈霉菌則是產(chǎn)生抗生素最多的放線菌,該類菌株能產(chǎn)生包括井岡霉素(validamycin)、米爾貝霉素(milbemycin)、雙丙氨膦(bialaphos)、除莠霉素(herbimycin)等在內(nèi)的650多種活性物質(zhì)[。近年來,從一些特殊生境分離的紫黑鏈霉菌16S rRNA基因進化分枝菌株中發(fā)現(xiàn)了多種新穎的活性化合物。洪葵課題組從紅樹林來源的該分枝菌株211726中發(fā)現(xiàn)了7個具有強抗真菌和腫瘤活性的新型阿扎霉素F類大環(huán)內(nèi)酯化合物[;甘茂羅課題組從大連海洋沉積物來源的該分枝菌株7-145中挖掘到2個新型洋橄欖葉素(elaiophylin)和4個新型尼菲霉素(niphimycin)類化合物,對耐藥菌MRSA和VRE呈現(xiàn)出較強的抗菌活性[。本實驗室從HNM30702中分離到阿扎霉素Azalomycin F4a和F5a,以及具抗病毒活性的新穎環(huán)六肽Soliseptide A?;蚪M測序顯示該分枝放線菌菌株的基因組普遍大于一般的鏈霉菌,如.? 5008基因組長度為10.3 Mb[, NRRL 5491的基因組長度為12.7 Mb,subspNBRC 16556基因組長度為10.1 Mb[?;蚪M學分析表明該分枝的菌株基因組中含有豐富的次級代謝產(chǎn)物合成基因簇,特別是聚酮類(PKS)和非核糖體肽(NRPS)類基因簇。因此,對該類菌株進行全基因組測序分析將有助于從分子水平上了解其生物學功能和次級代謝產(chǎn)物的生物合成潛力,為深入開發(fā)與利用此類菌株提供理論依據(jù)。
本研究利用第三代全基因組測序技術(shù),首次獲得了模式菌株HNM0141的基因組完成圖,其線狀基因組長度大于11.6 Mb,符合該類菌株的基因組較大的基本特征。利用antiSMASH軟件,預測得到48個次級代謝產(chǎn)物合成基因簇,且含有豐富的聚酮類(PKS)和非核糖體肽(NRPS)類(包括雜合類型)的基因簇,無疑證明了該菌株具有強大次級代謝產(chǎn)物合成的能力。同時發(fā)現(xiàn)該菌株基因組中含有與梅嶺霉素(meilingmycin)、格爾德霉素(geldanamycin)、達托霉素(daptomycin)、阿扎霉素(azalomycin)、雷帕霉素(rapamycin)等知名抗生素合成基因簇相似性較低的基因簇(如:Cluster4、Cluster11、Cluster36、Cluster40、Cluster47)以及7個未知類型的基因簇,預示該菌株在新穎抗生素的挖掘上具有良好的開發(fā)潛能。
參考文獻