侯莎,吳昌正,潘力,王斌
(1.華南理工大學(xué)生物科學(xué)與工程學(xué)院,廣東廣州 510006)(2.廣東海天創(chuàng)新技術(shù)有限公司,廣東佛山 528000)
目前我國醬油生產(chǎn)絕大多數(shù)采用的是上海市釀造科學(xué)研究所1958年研發(fā)獲得的米曲霉滬釀3.042,其初始菌株來源于福建省永春縣醬園,中科院編號(hào)為AS3.863。米曲霉滬釀3.042是以AS3.863為出發(fā)菌經(jīng)過紫外誘變獲得的。該菌具有分子孢子量大、繁殖速度快、抗雜菌生長能力強(qiáng)、易制曲、培養(yǎng)粗放、蛋白酶活力較高及綜合酶系分泌豐富等特點(diǎn)。根據(jù)統(tǒng)計(jì)結(jié)果顯示,目前我國90%的醬油企業(yè)仍然沿用此菌種。第一株完成全基因組測(cè)序的米曲霉菌株是RIB40,由日本學(xué)者于2005年完成,基因組大小為37 Mb,共8條染色體,包含12074個(gè)基因[1]。截至目前共有10株米曲霉的基因組被測(cè)序[2]。滬釀3.042的基因組測(cè)序工作,由天津科技大學(xué)曹小紅課題組在2012年完成,基因組全長36.6 Mb,注釋基因11639個(gè),與RIB40比較發(fā)現(xiàn)滬釀3.042基因組中參與轉(zhuǎn)運(yùn)系統(tǒng)、酯類形成和氨基酸代謝等功能的數(shù)百個(gè)基因存在差異,這些差異是兩種菌株發(fā)酵風(fēng)味差異的遺傳基礎(chǔ)[3]。
Oxford Nanopore Technologies技術(shù)(ONT測(cè)序)是新一代基于納米孔的單分子實(shí)時(shí)電信號(hào)測(cè)序技術(shù)[4],目前主要包括三種平臺(tái)(MinION、GridIONx5、PromethION),其測(cè)序原理是相同的:DNA/RNA鏈在馬達(dá)蛋白的帶領(lǐng)下與鑲嵌在生物膜上的納米孔蛋白結(jié)合并解螺旋,在生物膜兩側(cè)電壓差的作用下DNA/RNA鏈以一定的速率通過納米孔通道蛋白,由于DNA/RNA堿基化學(xué)性質(zhì)的差異,當(dāng)其通過納米孔通道時(shí)將引起電化學(xué)信號(hào)的變化[5],通過對(duì)電信號(hào)的檢測(cè)及轉(zhuǎn)換,可獲得相應(yīng)堿基類型的信息,從而完成測(cè)序[6]。其特點(diǎn)是測(cè)序讀長長(超過150 kb),測(cè)序速度快,測(cè)序數(shù)據(jù)實(shí)時(shí)監(jiān)控?;谠摲椒ㄒ褜?shí)現(xiàn)多種微生物基因組的測(cè)序工作,發(fā)表相關(guān)文章300余篇。
米曲霉ZA189菌株是以滬釀3.042為出發(fā)菌株,采用常壓室溫等離子體(Atmospheric Room Temperature Plasma,ARTP)誘變獲得的突變菌株。與出發(fā)菌株相比,ZA189制曲獲得的成曲中,中性蛋白酶、淀粉酶及谷氨酰胺酶活力均有所提高,發(fā)酵原油中氨基酸態(tài)氮、全氮、還原糖和谷氨酸均有所提高,而且更適用于醬油現(xiàn)代化圓盤工藝和大罐生產(chǎn),所得原油味道更濃郁,色澤更鮮明,具備醬香濃郁,鮮甜突出,滋味醇厚持久。
本研究利用ONT測(cè)序技術(shù)對(duì)米曲霉ZA189進(jìn)行全基因組測(cè)序,對(duì)其基因組序列進(jìn)行組裝、注釋,并進(jìn)行功能注釋和分析,在此基礎(chǔ)上分析該菌的胞外水解活力、安全性等特征,為指導(dǎo)其在醬油釀造中的應(yīng)用提供數(shù)據(jù)支持。
菌株:ZA189,由滬釀3.042經(jīng)誘變獲得。
培養(yǎng)基DPY:2%(W/V)葡萄糖,1%(W/V)蛋白胨,酵母粉和KH2PO4各0.50%(W/V),0.05%(W/V)MgSO4·7H2O,2%瓊脂(W/V)、pH 5.0。
1.2.1 試劑
苯酚:氯仿:異戊醇(25:24:1)(索萊寶);Tris-base(sigma);SDS(sigma);瓊脂糖(sigma);EDTA(國藥試劑);SQK-LSK109連接試劑盒(Oxford Nanopore Technologies)。
溶菌緩沖液:Tris-HCl 50 mM,EDTA 50 mM,SDS 3%(W/V),pH=8.0,高溫高壓滅菌后保存使用。
1.2.2 主要儀器設(shè)備
生化培養(yǎng)箱,上海一恒科學(xué)儀器有限公司;超凈工作臺(tái),蘇州凈化設(shè)備有限公司;小型離心機(jī),德國Eppendorf 公司;低溫冷凍離心機(jī),德國Eppendorf公司;水平電泳系統(tǒng),美國BIO-RAD公司;凝膠成像系統(tǒng),美國BIO-RAD公司等。
1.3.1 米曲霉培養(yǎng)
取冰箱凍存的ZA189孢子(約107/mL)500 μL到加有玻璃紙隔離的DPY平板上,30 ℃恒溫培養(yǎng)24 h至長出豐富菌絲。
1.3.2 基因組DNA的提取
用滅菌的藥匙刮取菌絲,將菌絲轉(zhuǎn)移至研缽(提前液氮預(yù)冷)中,液氮研磨成粉末(需研磨充分)。稱取適量粉末(3 g)加入到65 ℃預(yù)熱的溶菌緩沖液(1.5 g/10 mL)中。65 ℃孵育0.5 h,每隔5 min用5 mL去尖槍頭輕輕混勻。加入等體積的DNA提取液,輕輕顛倒混勻,12000×g,4 ℃離心10 min。取上清(切勿吸到中間層白色沉淀),加入等體積氯仿,輕輕顛倒混勻,4 ℃ 12000×g離心10 min。取上清,加入2.5倍體積預(yù)冷的無水乙醇,-20 ℃沉淀DNA 2 h左右。12000×g,4 ℃離心15 min,去除上清,用70%(V/V)無水乙醇洗滌沉淀2次。適量水溶解DNA,加入1%體積的RNA酶處理30 min,通過凝膠電泳檢測(cè)提取的基因組質(zhì)量。
1.3.3 基因組DNA質(zhì)量檢測(cè)、文庫構(gòu)建及測(cè)序
實(shí)驗(yàn)流程按照Oxford Nanopore Technologies(ONT)公司提供的標(biāo)準(zhǔn) protocol執(zhí)行(https://nanoporetech.com/),包括樣品質(zhì)量檢測(cè)、文庫構(gòu)建、文庫質(zhì)量檢測(cè)和文庫測(cè)序等流程,文庫構(gòu)建包括如下步驟:(1)提取高質(zhì)量基因組DNA,利用Nanodrop、0.35%瓊脂糖凝膠電泳進(jìn)行純度、濃度和完整性質(zhì)檢;(2)BluePippin全自動(dòng)核酸回收系統(tǒng)回收大片段DNA;(3)文庫構(gòu)建及測(cè)序(SQK-LSK109連接試劑盒):①大片段DNA的獲得:提取高質(zhì)量的DNA,樣本質(zhì)檢合格后,對(duì)基因組DNA進(jìn)行隨機(jī)打斷;利用磁珠富集、純化大片段DNA,將大片段進(jìn)行切膠回收;②片段修復(fù):對(duì)篩選好的大片段DNA進(jìn)行損傷修復(fù)、末端修復(fù)及3'末端加A,并對(duì)反應(yīng)產(chǎn)物進(jìn)行純化;③連接反應(yīng):片段修復(fù)產(chǎn)物進(jìn)行測(cè)序相關(guān)接頭的連接及純化,得到最終的上機(jī)測(cè)序文庫;④定量檢測(cè):用Qubit精確地對(duì)建好的DNA文庫進(jìn)行定量檢測(cè);⑤文庫上機(jī):取一定量的DNA文庫,與上機(jī)相關(guān)試劑混合后加入Flow cell中,利用PromethION測(cè)序儀進(jìn)行實(shí)時(shí)單分子測(cè)序,獲得原始測(cè)序數(shù)據(jù)。
1.3.4 基因組測(cè)序數(shù)據(jù)的組裝
測(cè)序獲得的原始序列,需要進(jìn)行質(zhì)控、組裝、注釋等,才能獲得生物學(xué)相關(guān)信息,分析生物學(xué)功能。
(1)原始數(shù)據(jù)質(zhì)控:測(cè)序原始數(shù)據(jù)格式為包含所有原始測(cè)序信號(hào)的二進(jìn)制fast5格式,通過MinKNOW軟件包中的Albacore軟件進(jìn)行base calling后會(huì)將fast5格式數(shù)據(jù)轉(zhuǎn)換為fastq格式,經(jīng)進(jìn)一步過濾接頭、低質(zhì)量及短片段(長度<2000 bp)的reads后,得到總的數(shù)據(jù)集。
(2)基因組組裝:使用Canu v1.5[7]軟件對(duì)過濾后subreads進(jìn)行糾錯(cuò),然后使用NECAT軟件對(duì)糾錯(cuò)后的subreads進(jìn)行組裝,最后采用Pilon v1.22[8]軟件利用二代數(shù)據(jù)進(jìn)一步對(duì)組裝基因組進(jìn)行糾錯(cuò),得到最終準(zhǔn)確度更高的基因組。
1.3.5 數(shù)據(jù)處理
1.3.5.1 基因預(yù)測(cè)及功能注釋
(1)基因預(yù)測(cè):蛋白編碼基因預(yù)測(cè)主要采用從頭預(yù)測(cè)、基于同源蛋白預(yù)測(cè),然后對(duì)2種預(yù)測(cè)結(jié)果進(jìn)行整合。使用Genscan v1.0、Augustus v2.4、GlimmerHMM v3.0.4、GeneID v1.4、SNAP (version2006-07-28)進(jìn)行從頭預(yù)測(cè);使用GeMoMa v1.3.1進(jìn)行基于同源蛋白的預(yù)測(cè)。最后利用EVM v1.1.1整合上述2種方法得到的預(yù)測(cè)結(jié)果,并用PASA v2.0.2進(jìn)行修飾。使用軟件tRNAscan-SE v1.3.1預(yù)測(cè)基因組中的tRNA,使用軟件Infernal v1.1基于Rfam v12.0數(shù)據(jù)庫預(yù)測(cè)基因組中的rRNA。
(2)基因功能注釋:利用預(yù)測(cè)得到的基因序列與KOG、KEGG、Swiss-Prot (2015_01)、TrEMBL、Nr等功能數(shù)據(jù)庫做BLAST(v2.2.29)比對(duì),得到基因功能注釋結(jié)果并進(jìn)行功能富集分析。利用軟件hmmer v3.0基于Pfam(27.0)數(shù)據(jù)庫進(jìn)行Pfam功能注釋。利用軟件hmmer基于碳水化合物相關(guān)酶數(shù)據(jù)庫(CAZy[9])(http://www.cazy.org/)進(jìn)行碳水化合物酶類基因的功能注釋。
1.3.5.2 胞外分泌蛋白及蛋白酶分析
(1)信號(hào)肽預(yù)測(cè):使用軟件SignalP 4.0對(duì)所有的預(yù)測(cè)到的基因的蛋白序列進(jìn)行分析,找出含有信號(hào)肽的蛋白。
(2)跨膜蛋白預(yù)測(cè):使用軟件tmhmm v2.0對(duì)所有預(yù)測(cè)基因的蛋白序列進(jìn)行分析,找出含有跨膜螺旋的蛋白,即為跨膜蛋白。
(3)分泌蛋白預(yù)測(cè):在上述預(yù)測(cè)的含有信號(hào)肽的蛋白中去除含有跨膜螺旋的蛋白,剩余的蛋白即為分泌蛋白。
(4)蛋白酶分析:根據(jù)基因功能注釋的結(jié)果,從分泌蛋白中篩選出蛋白酶基因,對(duì)其進(jìn)行功能聚類分析。
Nanopore測(cè)序的下機(jī)數(shù)據(jù)的原始數(shù)據(jù)經(jīng)格式轉(zhuǎn)換、過濾接頭、過濾低質(zhì)量及短片段后,得到4,872,627,875 bp高質(zhì)量測(cè)序數(shù)據(jù)集,測(cè)序深度為132.05×。將reads按照不同梯度長度分布統(tǒng)計(jì)(圖1),其中10 kb~20 kb和20 kb~30 kb之間分布的reads最多,分別為39.43%和25.12%。
圖1 米曲霉ZA189基因組測(cè)序reads長度分布統(tǒng)計(jì)Fig.1 Length distribution of sequencing reads in the genome of A. oryzae ZA189
利用過濾后的高質(zhì)量測(cè)序數(shù)據(jù),使用NECAT軟件進(jìn)行基因組組裝,最后采用Pilon軟件利用二代數(shù)據(jù)進(jìn)一步對(duì)組裝基因組進(jìn)行糾錯(cuò),得到高準(zhǔn)確度的基因組,組裝得到完整基因組總長36.89 Mb,Scaffold數(shù)目為16條(米曲霉為8條染色體),scaffold N50長度為2.37 Mb。而出發(fā)菌株滬釀3.042測(cè)序全長36.6 Mb[3],米曲霉ZA189基因組相比出發(fā)菌株增加的序列(0.29 Mb)可能是序列插入或者片段重復(fù)導(dǎo)致的。
蛋白編碼基因預(yù)測(cè)主要采用從頭預(yù)測(cè)和基于同源蛋白預(yù)測(cè),然后對(duì)2種預(yù)測(cè)結(jié)果進(jìn)行整合,共預(yù)測(cè)得到12,468個(gè)米曲霉基因(表1)。ZA189基因組中編碼蛋白基因的長度為24,760,823 bp,平均長度為1,986 bp,占基因組長度67.10%,其中外顯子區(qū)總長度占60.54%,內(nèi)含子區(qū)長度占6.57%(表2)。出發(fā)菌株滬釀3.042則預(yù)測(cè)到11379個(gè)基因,外顯子區(qū)總長度為44%[3],基因數(shù)量和外顯子長度比例的差異,一方面是測(cè)序技術(shù)和分析手段的進(jìn)步引起的,另一方面也體現(xiàn)了ZA189優(yōu)勢(shì)釀造性能的分子基礎(chǔ)。
表1 米曲霉ZA189蛋白編碼基因的預(yù)測(cè)Table 1 Prediction of protein-coding genes in A. oryzae ZA189
表2 基因信息統(tǒng)計(jì)Table 2 Statistics of gene information
非編碼RNA即不編碼蛋白質(zhì)的RNA,包括microRNA、rRNA和tRNA等多種已知功能的RNA,針對(duì)非編碼RNA的結(jié)構(gòu)特點(diǎn),采用不同的策略預(yù)測(cè)不同的非編碼RNA。在米曲霉ZA189基因組中,共預(yù)測(cè)得到263個(gè)tRNA、72個(gè)rRNA。而出發(fā)菌株滬釀3.042則預(yù)測(cè)到243個(gè)tRNA[3],豐富的蛋白質(zhì)翻譯相關(guān)RNA基因的存在,表明ZA189具有大量表達(dá)蛋白質(zhì)的遺傳基礎(chǔ)。
ZA189相比出發(fā)菌株滬釀3.042酶活力更高,根據(jù)項(xiàng)目組前期研究,ZA189應(yīng)用于醬油發(fā)酵中(表3所示),制曲階段孢子數(shù)和原料消耗率顯著低于出發(fā)菌株滬釀3.042(p<0.05),中性蛋白酶活力和淀粉酶活力分別達(dá)到3 210.21 U/g和480.29 U/g,谷氨酰胺酶活力達(dá)到3.48 U/g,較出發(fā)菌株提高38%;發(fā)酵原油的氨基酸態(tài)氮含量為1.16 g/100 mL、全氮含量為1.94 g/100 mL、還原糖含量為11.05 g/100 mL、谷氨酸含量為13.69 g/kg,均高于出發(fā)菌株滬釀3.042[10]。
表3 ZA189發(fā)酵性能分析[10]Table 3 Fermentation feature analysis of ZA189
對(duì)米曲霉ZA189基因組注釋的基因進(jìn)行KOG功能注釋(圖2),其中以下功能類群富集了大量功能基因:C-能量生產(chǎn)與轉(zhuǎn)換(Energy production and conversion)、E-氨基酸的運(yùn)輸與代謝(Amino acid transport and metabolism)、G-糖運(yùn)輸與代謝(Carbohydrate transport and metabolism)、I-脂肪運(yùn)輸與代謝(Lipid transport and metabolism)、O-翻譯后修飾(Posttranslational modification,protein turnover,chaperones)、Q-次級(jí)代謝(Secondary metabolisms biosynthesis,transport and catabolism)、T-信號(hào)傳導(dǎo)(Signal transduction mechanisms)、U-胞內(nèi)囊泡轉(zhuǎn)運(yùn)及分泌(Intracellular trafficking,secretion,and vesicular transport)。類群C、E、G、I、O、U富集大量的功能基因,表明米曲霉具有強(qiáng)大的能量合成能力、蛋白質(zhì)合成及轉(zhuǎn)運(yùn)的能力,這是其在發(fā)酵工業(yè)廣泛應(yīng)用的遺傳基礎(chǔ)[11]。類群Q富集大量基因,表明米曲霉具有較強(qiáng)的次級(jí)代謝產(chǎn)物合成能力,這為米曲霉產(chǎn)生多種多樣的風(fēng)味功能物質(zhì)提供了可能。
圖2 米曲霉ZA189基因的KOG功能注釋分析Fig.2 KOG functional annotation of genes in A. oryzae ZA189 genome
對(duì)米曲霉ZA189基因組注釋的基因進(jìn)行KEGG途徑分析(圖3),以下途徑富集了大量功能基因:內(nèi)質(zhì)網(wǎng)中的蛋白處理(Protein processing in endoplasmic reticulum)、剪接體(spliceosome)、RNA轉(zhuǎn)運(yùn)(RNA transport)、核糖體(Ribosome)、氧化磷酸化(Oxidative phosphorylation)、氨基酸生物合成(Biosynthesis of amino acids)、碳代謝(Carbon metabolism)、嘌呤代謝(Purine metabolism)。圖4、圖5反映了氧化磷酸化、核糖體上的基因富集情況。這與KOG功能富集分析的結(jié)果是一致的,說明米曲霉在能量代謝、蛋白質(zhì)合成、碳代謝(與生長相關(guān))方面具有遺傳優(yōu)勢(shì)。此前關(guān)于米曲霉釀造模式菌株RIB40轉(zhuǎn)錄組研究的結(jié)果表明,與能量代謝、蛋白質(zhì)合成等相關(guān)的基因在固體發(fā)酵條件下具有高的轉(zhuǎn)錄表達(dá)水平[12],也說明米曲霉在基因組上與能量代謝、蛋白質(zhì)合成相關(guān)優(yōu)勢(shì)也體現(xiàn)在了實(shí)際的發(fā)酵應(yīng)用中。
圖3 米曲霉ZA189基因的KEGG代謝途徑注釋Fig.3 KEGG pathway analysis of annotated genes in the genome of A. oryzae ZA189
圖4 氧化磷酸化途徑上富集的米曲霉ZA189基因Fig.4 Annotated genes of A. oryzaeZA189 enriched in oxidative phosphorylation
圖5 核糖體上富集的米曲霉ZA189基因Fig.5 Annotated genes of A. oryzaeZA189 enriched in ribosome
碳水化合物活性酶(Carbohydrate-Active enZYmes,CAZy),主要包含與糖苷鍵降解、修飾及生成相關(guān)的酶類家族。碳水化合物活性酶數(shù)據(jù)庫,主要包含5大分類:糖苷水解酶(Glycoside Hydrolases,GHs)、糖基轉(zhuǎn)移酶(Glycosyl Transferases,GTs)、多糖裂解酶(Polysaccharide Lyases,PLs)、碳水化合物酯酶(Carbohydrate Esterases,CEs)、輔助活性酶(Auxiliary Activities,AAs)。此外,該數(shù)據(jù)庫還包含與碳水化合物結(jié)合相關(guān)的酶(Carbohydrate-Binding Modules,CBMs)。將米曲霉ZA189基因組預(yù)測(cè)基因的蛋白序列,利用軟件hmmer基于碳水化合物相關(guān)酶數(shù)據(jù)庫(CAZy)進(jìn)行碳水化合物酶類基因的功能注釋(圖6),結(jié)果顯示米曲霉ZA189基因組中包含多達(dá)330個(gè)糖苷水解酶(GH)基因,占CAZy酶總數(shù)的42.69%,這為米曲霉糖苷水解酶的開發(fā)利用提供了基礎(chǔ)數(shù)據(jù),這也與ZA189在醬油成曲階段高淀粉酶活的特性密切相關(guān)。例如,Gomi K等從米曲霉中制備了分泌表達(dá)的糖苷水解酶GH3,并對(duì)其進(jìn)行了酶學(xué)性質(zhì)研究[13],Tang,C.D.等人的研究表明米曲霉的糖苷水解酶可以用于魔芋粉的水解以及作為飼料添加劑[14]。
圖6 米曲霉ZA189基因組的碳水化合物活性酶(CAZys)Fig.6 Carbohydrate-Active enZYmes (CAZys) annotated in A.oryzaeZA189 genome
利用SignalP 4.0軟件預(yù)測(cè)米曲霉ZA189基因組注釋的基因,共獲得1224個(gè)具有信號(hào)肽的基因,利用tmhmm v2.0軟件預(yù)測(cè)跨膜蛋白,在米曲霉ZA189基因組中共找到2668個(gè)跨膜蛋白基因。從具有信號(hào)肽的1224個(gè)基因中去掉包含的跨膜蛋白基因,剩余的基因基因即為分泌蛋白基因,共888個(gè)。根據(jù)Nr基因功能注釋的結(jié)果,確定了分泌蛋白中的30個(gè)蛋白酶基因(表4),包括2個(gè)中性蛋白酶、2個(gè)堿性蛋白酶,還有氨肽酶、羧肽酶、內(nèi)肽酶等。若以活性中心來劃分,包括2個(gè)金屬蛋白酶、4個(gè)絲氨酸蛋白酶、5個(gè)天門冬蛋白酶氨酸酶四大類。在滬釀3.042和采用N+離子注入方式誘變獲得的菌株100-8中,分析到25種蛋白酶基因[15]。因此,可看出ZA189菌株具有更多蛋白酶基因,使其具有高水平分泌表達(dá)大量蛋白酶的潛力,這是由其制備的成曲中蛋白酶活力提升的原因,也是其作為醬油釀造菌株降解大豆蛋白的關(guān)鍵性能指標(biāo)[16]。
表4 米曲霉ZA189基因組中的蛋白酶Table 4 The proteases annotated in the genome of A. oryzae ZA189
本研究利用新一代納米孔測(cè)序技術(shù)完成了米曲霉ZA189基因組的測(cè)序、組裝和功能注釋。獲得的基因組全長36.89 Mb,包含16條Scaffold,測(cè)序深度達(dá)到132.05×,所得基因組在完整性和質(zhì)量上達(dá)到米曲霉模式菌株RIB40的基因組質(zhì)量水平?;蜃⑨尡砻鳎浊筞A189基因組包含豐富的tRNA和rRNA基因,這是米曲霉高效表達(dá)蛋白的遺傳基礎(chǔ)。KOG和KEGG注釋表明米曲霉ZA189具有強(qiáng)大的能量合成、蛋白質(zhì)合成及次級(jí)代謝產(chǎn)物合成能力,這是其在發(fā)酵工業(yè)廣泛應(yīng)用并產(chǎn)生多種風(fēng)味功能物質(zhì)的遺傳基礎(chǔ)。碳水化合物活性酶CAZy注釋和蛋白酶注釋表明,米曲霉ZA189基因組中包含多達(dá)330個(gè)糖苷水解酶(GH)和30個(gè)蛋白酶基因,這是米曲霉ZA189作為醬油釀造菌株高蛋白酶活、淀粉酶活和谷氨酰胺酶活的分子基礎(chǔ)。通過本研究對(duì)醬油釀造菌株米曲霉ZA189的基因組及其功能有了更加深入的理解,為指導(dǎo)其在醬油釀造中的應(yīng)用提供了理論支持。