張 紅,魏雪瑩,陳加蓓,陳思佳,賀建武,2
(1.吉首大學(xué)生物資源與環(huán)境科學(xué)學(xué)院,湖南 吉首 416000;2.吉首大學(xué)杜仲綜合利用技術(shù)國家地方聯(lián)合工程實驗室,湖南 吉首 416000)
隨著世界人口不斷增長,環(huán)境污染問題日益嚴峻,化石能源面臨枯竭,能源的供需矛盾進一步升級.生物質(zhì)能源(Biomass Energy)是地球上最豐富的可再生物資源,有替代化石燃料的廣闊發(fā)展?jié)摿?在生物質(zhì)能源中,纖維素和半纖維素類物質(zhì)是最主要的部分.[1]農(nóng)業(yè)生產(chǎn)中的玉米芯、玉米秸稈、小麥秸稈和水稻秸稈等廢棄物,產(chǎn)量大、可再生,利用其木質(zhì)纖維素類生物質(zhì)可用來生產(chǎn)液體燃料和高附加值化合物,變廢為寶,可望成為保障人類社會可持續(xù)發(fā)展的重要替代能源.
相對于物理降解和化學(xué)降解而言,微生物降解木質(zhì)纖維素具有成本低、反應(yīng)條件溫和、對環(huán)境安全友好等優(yōu)點,有報道[2]稱來自真菌的木質(zhì)纖維素降解酶通??蓪⒛举|(zhì)纖維素材料水解為葡萄糖等碳水化合物.里氏木霉Trichodermareesei是多細胞的絲狀真核微生物,是紅褐肉座菌Hypocreajecorina的無性型酶,隸屬于叢梗孢目Moniliales木霉屬Penicillium[3],具有高效的纖維酶水解活性,是重要的纖維素降解模式菌株和工業(yè)菌株.雖然T.reesei基因組中僅包含200多種負責(zé)編碼糖苷水解酶的基因,遠少于其他絲狀真菌,但其外分泌纖維素酶的能力較其他絲狀真菌最高[4].2003年,F(xiàn)oreman等[5]發(fā)現(xiàn)有2個蛋白可以伴隨著纖維素酶一起被誘導(dǎo),并且協(xié)助纖維素酶對木質(zhì)纖維素進行有效降解.這2個蛋白酶基因被分別命名為CIP 1和CIP 2.近期發(fā)現(xiàn)CIP 1與裂解酶在結(jié)構(gòu)上有相似性,CIP 2屬于CE15家族的葡萄醛酸酯酶[6],但其更詳細的生物學(xué)信息沒有得到闡述.筆者選取里氏木霉生物降解酶CIP 1和CIP 2,利用生物信息學(xué)方法,分析蛋白CIP 1和CIP 2的理化性質(zhì)、二級結(jié)構(gòu)、信號肽、定位、跨膜結(jié)構(gòu)和磷酸化位點等信息,進行結(jié)構(gòu)和功能的預(yù)測,了解蛋白CIP 1和CIP 2功能和它們與纖維素酶協(xié)同作用,以期實現(xiàn)纖維素酶更高效率的降解,降低工業(yè)上酶用量,減少生產(chǎn)成本.
根據(jù)Forman[5]在GneBank(https:∥www.ncbi.nlm.nih.gov/)中提交的TrichodermareeseiQM6a菌株生物降解酶基因序列CIP 1(Genbank Accession Number:AY281370.1)和CIP 2(Genbank Accession Number:AY281368.1)獲取相應(yīng)的酶基因序列,以FASTA格式保存為計算機本地文件.
NCBI數(shù)據(jù)庫應(yīng)用在線程序ORFfinder(http:∥www.ncbi.nlm.nih.gov/gorf/orfig.cgi)讀取開放閱讀框,并且獲取相應(yīng)的氨基酸序列.利用ProtParam程序(http:∥web.expasy.org/protparam)分別對酶CIP 1和CIP 2進行氨基酸殘基、分子量、理論等電點、脂溶指數(shù)、不穩(wěn)定指數(shù)和氨基酸的親水性和疏水性等進行分析.
利用SOPMA在線程序(https:∥npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)進行分析,系統(tǒng)預(yù)測其α螺旋、延伸鏈、β折疊和無規(guī)則卷曲等次級結(jié)構(gòu).
通過SignalP 4.1 server(http:∥www.cbs.dtu.dk/services/SignalP)利用人工神經(jīng)網(wǎng)絡(luò)和HMM(Hidden Markov Models)的原理對氨基酸序列的信號肽存在情況和信號肽切割位點進行預(yù)測分析.
使用TMHMM(http:∥www.cbs.dtu.dk/services/TMHMM-2.0)進行酶CIP 1和CIP 2二級跨膜域分析.
利用EMBnet的COILS卷曲螺旋預(yù)測GO工具(http:∥www.ch.embnet.org/software/COILS_form.html)分別預(yù)測酶CIP 1和CIP 2的卷曲螺旋結(jié)構(gòu).
利用TargetP 1.1(http:∥www.cbs.dtu.dk/services/TargetP/)對酶CIP 1和CIP 2分別進行亞細胞定位分析.
利用SWISS-MODEI(http:∥swissmodel.expasy.org/)對酶CIP 1和CIP 2氨基酸序列進行三級結(jié)構(gòu)預(yù)測.
利用NCBI提供的Graphics工具,在NCBI搜索AY281370.1和AY281368.1之后,用NCBI提供的Graphics工具來查看,得到相應(yīng)基因的內(nèi)含子和外顯子的序列,此序列同時也是一個基因結(jié)構(gòu)圖.
利用KinasePhos(http:∥kinasephos.mbc.nctu.edu.tw/)進行蛋白磷酸化位點預(yù)測分析.
用相應(yīng)的登錄號在GneBank查找得到里氏木霉生物降解酶CIP 1和CIP 2的基因序列和編碼的氨基酸序列,其中CIP 1基因序列長度為951 bp,CIP 2長度為1 383 bp,CIP 1編碼氨基酸數(shù)為316,CIP 2為460.
利用ProtParam程序[7]分析酶CIP 1和CIP 2的理化特性,得到相應(yīng)的氨基酸理化特性分析數(shù)據(jù)(表1)、氨基酸組成(表2).結(jié)果表明,編碼CIP 1和CIP 2的氨基酸一級結(jié)構(gòu)殘基、分子量、脂溶指數(shù)等都存在差異,其中CIP 1與CIP 2的理論等電點分別為4.93和7,CIP 1為酸性蛋白.根據(jù)ProtParam的算法[8],不穩(wěn)定指數(shù)小于40時,預(yù)測的蛋白在試驗中比較穩(wěn)定,反之則較差.CIP 1與CIP 2的不穩(wěn)定指數(shù)分別為26.53和37.67,則CIP 1和CIP 2屬于穩(wěn)定蛋白.CIP 1的平均疏水性預(yù)測結(jié)果為負值,CIP 2的平均疏水性預(yù)測結(jié)果為正值,則很有可能CIP 1為親水性蛋白,CIP 2為疏水性蛋白.從表2可以看出,酶CIP 1和CIP 2都由20種氨基酸組成,其中Gly,Ser,Thr和Ala組成比例相對較大,且都不含Pyl和Sec.
表1 降解酶CIP 1和CIP 2的一級結(jié)構(gòu)預(yù)測分析
表2 里氏木霉生物降解酶CIP 1和CIP 2的氨基酸組成
利用SOPMA在線程序得到酶CIP 1和CIP 2二級空間結(jié)構(gòu)預(yù)測特征(表3).從表3可知,酶CIP 1和CIP 2均含有大量無規(guī)則卷曲,分別是56.01%和44.13%,其次是延伸鏈;CIP 2的α螺旋比例高于CIP 1,分別是22.83%和11.71%,兩者的β折疊比例都相對較少;且酶CIP 1和CIP2 二級結(jié)構(gòu)中的α螺旋和無規(guī)則卷曲分布較集中,而β折疊結(jié)構(gòu)分布相對分散.
表3 里氏木霉生物降解酶CIP 1和CIP 2的二級結(jié)構(gòu)預(yù)測分析
通過SignalP 4.1 server對酶CIP 1和CIP 2氨基酸序列利用神經(jīng)網(wǎng)絡(luò)模型進行信號肽分析,得到3種C,Y和S值計算結(jié)果(圖1).對于一個典型的信號肽,C值和Y值趨向于+1,S值在剪切位點之前高,而在剪切位點之后變低[9].由圖1可知:CIP 1的第20位氨基酸殘基具有最高的原始剪切位點分值0.456,第3位氨基酸有最高的信號肽分值0.918,第1~19 位氨基酸殘基的信號肽分值為0.896,第20位氨基酸殘基具有最高的綜合剪切位點分值0.629,信號肽與成熟肽鏈間的剪切位點很可能位于第19~20位氨基酸之間;CIP 2的第18位氨基酸殘基具有最高的原始剪切位點分值0.786,第10位氨基酸有最高的信號肽分值0.974,第1~17位氨基酸殘基的信號肽分值為0.951,第18位氨基酸殘基具有最高的綜合剪切位點分值0.862,信號肽與成熟肽鏈間的剪切位點很可能位于第17~18位氨基酸之間.
圖1 降解酶CIP 1和CIP 2信號肽截圖Fig. 1 Signal Peptide of Biodegrading Enzyme CIP 1 and CIP 2
利用TMHMM得到的蛋白CIP 1和CIP 2二級跨膜域分析結(jié)果表明,氨基酸的位置在膜外的可能性評估分值均大于1,位于跨膜區(qū)和內(nèi)部的可能性極小,可忽略不計,說明酶CIP 1和CIP 2無跨膜區(qū)域,且都位于膜外.
利用EMBnet的COILS卷曲螺旋預(yù)測GO工具分別預(yù)測蛋白CIP 1和CIP 2的卷曲螺旋結(jié)構(gòu),結(jié)果顯示蛋白CIP 1和CIP 2幾乎不含有卷曲螺旋結(jié)構(gòu),表明該蛋白屬于膜蛋白、結(jié)構(gòu)蛋白和轉(zhuǎn)錄因子的可能性很小[10].
利用TargetP 1.1對酶CIP 1和CIP 2分別進行亞細胞定位分析(圖2),結(jié)果表明CIP 1和CIP 2定位在分泌途徑信號肽(SP)的可能性分別為82.6%和97.9%,定位于線粒體等其他部位的可能性較小,且定位結(jié)果可靠性較高,說明酶CIP 1和CIP 2為定位于胞外細胞間隙的分泌蛋白.
圖2 里氏木霉生物降解酶CIP 1和CIP 2亞細胞定位截圖Fig. 2 Sub-Cellular Localization of Biodegrading Enzyme CIP 1 and CIP 2
應(yīng)用Swiss-Model在線軟件,根據(jù)同源建模理論預(yù)測里氏木霉生物降解酶CIP 1和CIP 2的三級結(jié)構(gòu)(圖3),結(jié)果表明CIP 1蛋白和CIP 2蛋白的三級結(jié)構(gòu)主要由無規(guī)卷曲構(gòu)成,延伸鏈的數(shù)目很多,α螺旋和β折疊比例相對較少,與二級結(jié)構(gòu)預(yù)測結(jié)果一致.
圖3 里氏木霉生物降解酶CIP 1和CIP 2的三級結(jié)構(gòu)預(yù)測Fig. 3 Tertiary Structure of Biodegrading Enzyme CIP 1 and CIP 2
利用NCBI提供的Graphics工具在NCBI搜索AY281370.1和AY281368.1,結(jié)果顯示CIP 1的FCBD是849~948這一段基因序列,CIP 2的CBM-1是64~147這一段基因序列,即CIP 1基因序列中的1~848,948~951屬于內(nèi)含子,849~948屬于外顯子,CIP 2基因序列中的1~63,148~1 383屬于內(nèi)含子,64~147屬于外顯子.
根據(jù)磷酸化位點分析結(jié)果,CIP 1共有14個磷酸位點,分別為9個Ser、3個Thr、2個Tyr;CIP 2共有10個磷酸位點,分別為7個Ser、3個Thr、0個Tyr.
基因功能最終通過其表達產(chǎn)物——蛋白質(zhì)來實現(xiàn),因此,要了解相關(guān)基因功能,最終也必須回到蛋白質(zhì)上.CIP 1和CIP 2都存在一段信號肽,信號肽剪切位點分別在19~20,17~18位的氨基酸之間.蛋白質(zhì)分子中的信號肽是引導(dǎo)新合成肽鏈轉(zhuǎn)移到內(nèi)質(zhì)網(wǎng)上的一段多肽,位于新合成肽鏈的N端,由于信號肽又是引導(dǎo)肽鏈進入內(nèi)質(zhì)網(wǎng)腔的一段序列,又稱為開始轉(zhuǎn)移序列(start transfer sequence).在信號肽位置對其進行修飾,可以提高編碼蛋白在體內(nèi)特定位置的表達效率,為進一步表達該蛋白提供依據(jù).信號肽的功能,不僅決定一個蛋白質(zhì)是否為分泌蛋白,而且和蛋白質(zhì)或其新生肽鏈在細胞內(nèi)的全方位的定位有關(guān).[11]綜合亞細胞定位分析和蛋白跨膜結(jié)構(gòu)預(yù)測結(jié)果,CIP 1和CIP 2都定位在分泌途徑信號肽(SP),可能性分別為82.6%和97.9%,而定位于線粒體等其他部位的可能性很小.定位結(jié)果可靠性較高,且CIP 1和CIP 2都無跨膜結(jié)構(gòu)域,在膜外,CIP 1和CIP 2都屬于分泌蛋白.
酶CIP 1和CIP 2幾乎不含有卷曲螺旋結(jié)構(gòu)(coiled-coil,CC).構(gòu)成CC的鏈都是α-螺旋,CIP 1與CIP 2的α-螺旋比例分別是22.83%和11.71%,含量不高.自然界中,CC是一個介導(dǎo)蛋白質(zhì)相互作用或形成蛋白質(zhì)骨架的通用結(jié)構(gòu)域,CC常見于蛋白質(zhì)的折疊結(jié)構(gòu)中.多種跨膜蛋白的跨膜部分含有CC結(jié)構(gòu),在基因組數(shù)據(jù)庫中,有20%~30%的產(chǎn)物被預(yù)測為跨膜蛋白[12].蛋白卷曲螺旋預(yù)測結(jié)果表明CIP 1與CIP 2屬于膜蛋白、結(jié)構(gòu)蛋白和轉(zhuǎn)錄因子的可能性很小,與跨膜結(jié)構(gòu)預(yù)測結(jié)果能相互印證.
根據(jù)磷酸化位點分析結(jié)果,CIP 1含有9個Ser、3個Thr、2個Tyr,CIP 2含有7個Ser、3個Thr、0個Tyr,這些可能是酶的磷酸化位點.蛋白質(zhì)磷酸化是蛋白質(zhì)轉(zhuǎn)錄后修飾的一個重要可逆機制,它影響許多重要的細胞過程.一條蛋白質(zhì)鏈的磷酸化一般只發(fā)生在絲氨酸(serine,S)、蘇氨酸(threonine,T)、酪氨酸(tyrosine,Y)這3個殘基上,在生命現(xiàn)象的許多關(guān)鍵調(diào)節(jié)機制中,蛋白質(zhì)的磷酸化是重要的翻譯后修飾,它與信號傳導(dǎo)、細胞周期、生長發(fā)育以及癌癥機理等諸多生物學(xué)問題有密切關(guān)系.[13]
里氏木霉生物降解酶CIP 1和CIP 2均屬于穩(wěn)定蛋白,CIP 1是親水性蛋白,CIP 2是疏水性蛋白;含有大量無規(guī)則卷曲,幾乎不含有螺旋卷曲結(jié)構(gòu),都有一段信號肽.無跨膜結(jié)構(gòu)域,并定位在分泌途徑信號肽(SP)上,含有少量的磷酸化位點.為保證預(yù)測準確性,本研究對里氏木霉生物降解蛋白CIP 1和CIP 2的各種結(jié)構(gòu)性質(zhì)進行分析預(yù)測,均選用了多種不同軟件,其所使用的原理和算法各有不同,但結(jié)果基本一致,能相互印證.因此,本研究結(jié)果具有較強的可信度.但由于生物信息學(xué)是根據(jù)已知的信息預(yù)測結(jié)果,所以還有很大的局限性,進一步確定蛋白質(zhì)的功能和性質(zhì)還需要實驗的驗證.