王 帥,陳冠軍,張懷強(qiáng),王祿山
(山東大學(xué) 微生物技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250100)
碳水化合物亦稱糖類化合物,是自然界存在最多、分布最廣的一類重要有機(jī)化合物,是一切生物體維持生命活動(dòng)所需能量的主要來源。在自然界中,糖類分子構(gòu)型多樣,糖分子之間化學(xué)鍵有多種類型,幾乎所有生物大分子(糖分子、蛋白質(zhì)、脂質(zhì)和核酸等)都可以被糖基化,因此,作用于各種糖復(fù)合物、寡糖和多糖等碳水化合物的酶類就構(gòu)成了地球上結(jié)構(gòu)最多樣的蛋白質(zhì)集合,亦被定義為碳水化合物酶簇[1]。
碳水化合物酶類按功能分類主要包括糖苷水解酶類(EC 3.2.1.-)、糖基轉(zhuǎn)移酶類(EC 2.4.-.-)、多糖裂解酶類(EC 4.2.2.-)等,這種系統(tǒng)命名原則及系統(tǒng)編號(hào)由國(guó)際酶學(xué)委員會(huì)(EC)制定,由其編號(hào)就可給出該酶分子類型及其催化反應(yīng)性質(zhì),這是酶學(xué)研究的基礎(chǔ)。一種酶分子一般只有一個(gè)名稱及一個(gè)EC編號(hào)。然而最新研究表明,一種酶分子常??纱呋环N以及以上類型的反應(yīng),即酶分子具有多功能性(promiscuity)或非特異性[2],特別是作用于復(fù)雜多糖的糖苷水解酶類,它們的底物專一性常常都不高。例如Bacillus licheniformis ATCC 14580分泌的1種內(nèi)切-β-1,4-葡聚糖酶(GenBank登錄號(hào)AAU42138.1),它既具有內(nèi)切纖維素酶活性(EC 3.2.1.4),也 具 有 木 葡 聚 糖 酶 活 性 (EC 3.2.1.151)[3]。酶分子底物專一性不高,功能分析時(shí)就需要利用多種底物進(jìn)行功能的測(cè)定,這就給酶分子功能的研究帶來極大的工作量[4]。
新一代高通量測(cè)序技術(shù)的發(fā)展使得測(cè)序成本急劇降低,產(chǎn)生了可以克服微生物培養(yǎng)限制的宏基因組技術(shù),這為人們認(rèn)識(shí)天然環(huán)境中蛋白質(zhì)序列空間(protein universe)提供了可能。人們對(duì)宏基因組數(shù)據(jù)集進(jìn)行初步分析就發(fā)現(xiàn)了數(shù)以千計(jì)的蛋白質(zhì)新家族,并且家族內(nèi)生物大分子序列數(shù)據(jù)量也在急劇增加[5]。然而,面對(duì)宏基因組產(chǎn)生的海量大數(shù)據(jù),人們不可能對(duì)其每一條序列進(jìn)行詳盡的功能驗(yàn)證,對(duì)于多功能性的酶類也沒有有效的實(shí)驗(yàn)技術(shù)為每一條序列進(jìn)行全部底物與反應(yīng)性質(zhì)的驗(yàn)證,這就給新時(shí)代酶學(xué)研究提出了新的挑戰(zhàn)。
碳水化合物酶是一類重要的活性蛋白,在宏基因組學(xué)快速發(fā)展之下,這類酶的研究和應(yīng)用顯得越來越重要。因此,本文中筆者綜述了碳水化合物酶的研究背景、分類方法及其研究成果,以期為其在工業(yè)微生物領(lǐng)域的應(yīng)用奠定基礎(chǔ)。
早在1989年,Henrissat等[6]基于疏水簇分析將21種β-聚糖酶類氨基酸序列進(jìn)行比對(duì),并根據(jù)氨基酸序列相似性劃分成了6個(gè)纖維素酶家族。1991年,Henrissat又根據(jù)SWISS-PROT和EMBL/GenBank數(shù)據(jù)庫中的氨基酸序列,基于蛋白質(zhì)催化結(jié)構(gòu)域的氨基酸序列相似性,對(duì)當(dāng)時(shí)301種不同來源的糖苷水解酶類(glycoside hydrolases,GHs)序列進(jìn)行分類[7],并不斷進(jìn)行更新[8-9]。這種分類系統(tǒng)的理論基礎(chǔ)是氨基酸序列的相似性反映蛋白質(zhì)保守的結(jié)構(gòu)折疊類型。功能未知的氨基酸序列,可根據(jù)其序列相似性將其歸類,形成特定的GH蛋白質(zhì)家族。據(jù)此,不僅可以將不同糖苷水解酶進(jìn)行分類,基于家族內(nèi)序列相似性還可以分析其分子進(jìn)化關(guān)系。這種分類方式隨后擴(kuò)展到糖基轉(zhuǎn)移酶類(glycosyl transferases,GTs)[10]。隨著碳水化合物酶類三維結(jié)構(gòu)的獲得,1997年該分類法中又加入蛋白質(zhì)空間結(jié)構(gòu)的信息,并基于催化結(jié)構(gòu)域氨基酸序列與三維結(jié)構(gòu)對(duì)碳水化合物酶家族進(jìn)行重新分類[3]。以上這些可合成或分解碳水化合物的酶類,統(tǒng)稱為CAZymes。1998年9月,CAZymes的這種分類正式在網(wǎng)絡(luò)上開放,形成了專門的CAZy數(shù)據(jù)庫(http:∥www.cazy.org/)。隨后,人們發(fā)現(xiàn)自然界還存在部分沒有催化活性即可輔助多糖降解酶進(jìn)行降解的模塊[11-12],最初報(bào)道的多為結(jié)合不溶纖維素、幾丁質(zhì)與淀粉等物質(zhì)的模塊。Warren及其同事研究發(fā)現(xiàn),這些多糖結(jié)合模塊也可形成特定家族——碳水化合物結(jié)合結(jié)構(gòu)域(carbohydrate-binding modules,CBM)家族[13-15],這些家族及多糖裂解酶、碳水化合物酯酶也被CAZy列出并不斷更新。
基于以上分類方法,Henrissat等[16]在1998年提出了一種全新的糖苷水解酶類命名方法,利用3個(gè)字母表示酶分子相關(guān)的底物,其后的數(shù)字表示所屬的糖苷水解酶類家族,最后的大寫字母表示該酶第一次報(bào)道時(shí)所排次序。后來,在不同物種中發(fā)現(xiàn)同功酶數(shù)目的增多,又在原先命名的基礎(chǔ)上增加生物屬名與種名首字母加入到命名當(dāng)中。如Trichoderma reesei(瑞氏木霉)中的3種酶:CBHⅠ(纖維二糖水解酶Ⅰ)、CBHⅡ(纖維二糖水解酶Ⅱ)和EGⅠ(內(nèi)切葡聚糖酶I)的催化結(jié)構(gòu)域分別命名為TrCel7A,TrCel6A,TrCel6B。更多代表性的糖苷水解酶名稱見表1?,F(xiàn)在多數(shù)研究者們已經(jīng)廣泛采用這種命名系統(tǒng),但仍有部分研究者未完全采用這種命名方法,主要原因是該命名未反映酶分子的底物專一性與降解模式,如該方法不能區(qū)分內(nèi)切纖維素酶與外切纖維素酶等[17]。
最近研究發(fā)現(xiàn),CBM33家族、GH61家族的部分組分其真實(shí)功能是裂解多糖單加氧酶類(lytic polysaccharide monooxygenases,LPMO),這是一類全新的氧化酶類,因此就需要對(duì)CBM與GH家族等相關(guān)家族重新進(jìn)行分類[18]。另外,由于綠色植物細(xì)胞壁中木質(zhì)素總與多糖類物質(zhì)同時(shí)出現(xiàn),并且降解木質(zhì)素的酶類很可能與LPMO一同發(fā)生作用,因此CAZy數(shù)據(jù)庫將降解木質(zhì)素的酶類列入LPMOs家族,并創(chuàng)建一種全新的 CAZy大類,命名為輔助酶類家族[18](auxiliary activities,AAs),這樣 CAZy數(shù)據(jù)庫基本涵蓋了木質(zhì)纖維素降解所需要的相關(guān)酶類。截至2013年10月1日,CAZy數(shù)據(jù)庫已經(jīng)包含糖苷水解酶類(GHs)、糖苷轉(zhuǎn)移酶類(GTs)、多糖裂解酶類(polysaccharide lyases,PLs)、糖水化合物酯酶類(carbohydrate esterases,CEs)、碳水化合物結(jié)合模塊(CBMs)和輔助模塊酶類(AAs)六大類家族,其家族數(shù)目分別達(dá)到了132、94、22、16、66 和10 個(gè)。
表1 CAZy糖苷水解酶命名方式Table 1 Designations for glucoside hydrolase enzymes
圖1 CAZy數(shù)據(jù)庫家族內(nèi)列出酶分子相關(guān)信息(以AAM77711.1為例)Fig.1 Information of enzymes contained in CAZy database(AAM77711.1)
CAZy數(shù)據(jù)庫中列出了酶分子序列的家族信息、物種來源、基因序列、蛋白質(zhì)序列信息、三維結(jié)構(gòu)、EC分類以及與相關(guān)數(shù)據(jù)庫的鏈接。對(duì)于每一家族中已經(jīng)得到生化表征的酶分子,還提供催化機(jī)制關(guān)系密切的信息,包括活性中心及催化機(jī)制特征,催化殘基(對(duì)整個(gè)家族是保守的)及其分類范圍信息,這些信息對(duì)快速分析同一家族酶分子共同特征是非常重要的。圖1以AAM77711.1為例顯示了CAZy數(shù)據(jù)庫家族內(nèi)列出的酶分子相關(guān)信息。
CAZy數(shù)據(jù)庫建立的目的是將酶分子的序列、結(jié)構(gòu)與催化機(jī)制特點(diǎn)結(jié)合起來,對(duì)其結(jié)構(gòu)域進(jìn)行定義。碳水化合物活性酶類常常是多結(jié)構(gòu)域的,在CAZy數(shù)據(jù)庫中,同一條基因不同結(jié)構(gòu)域劃入不同的結(jié)構(gòu)域家族,如T.reesei分泌的CBHⅠ碳水化合物結(jié)合模塊歸入CBM1家族,而催化結(jié)構(gòu)域歸入GH7家族[19]。這樣對(duì)包含多個(gè)結(jié)構(gòu)域的酶分子定義更加準(zhǔn)確,特別是研究復(fù)雜的木質(zhì)纖維素高效降解生境系統(tǒng),通過研究酶分子基因結(jié)構(gòu)域的組合就可以了解相應(yīng)微生物的降解模式與降解策略。如東秀珠課題組利用宏基因組技術(shù)研究牦牛瘤胃降解植物細(xì)胞壁酶的多樣性時(shí)發(fā)現(xiàn)[20],降解纖維素的基因在宏基因組序列中含量豐富,從其構(gòu)建的開放閱讀框(ORFs)中分析蛋白質(zhì)結(jié)構(gòu)域,發(fā)現(xiàn)具有水解酶酶活力的蛋白質(zhì)來自GH5、9、10等糖苷水解酶家族,并且這樣的結(jié)構(gòu)域與編碼SusC/SusD類型的外膜蛋白結(jié)構(gòu)域相連,只有少量催化結(jié)構(gòu)域帶有碳水化合物結(jié)合模塊,沒有檢測(cè)到催化結(jié)構(gòu)域與纖維小體的對(duì)接/粘連模塊相連。這些發(fā)現(xiàn)表明,在牦牛瘤胃木質(zhì)纖維素降解過程中起著重要作用的纖維素酶類應(yīng)與SucC/SucD有關(guān)的催化機(jī)制,明顯不同于熱纖梭菌采用的纖維素小體模式,也不同于絲狀真菌大量分泌胞外游離酶系的模式[20]。
利用生物信息學(xué)手段快速篩選由宏基因組產(chǎn)生的大量基因序列,確定相關(guān)基因功能結(jié)構(gòu)域的組合方式,可以預(yù)測(cè)相關(guān)微生物采取的降解模式是屬于游離酶系(只有催化結(jié)構(gòu)域或包含催化結(jié)構(gòu)和CBM模塊)、纖維小體超分子復(fù)合物(含有對(duì)接/粘連模塊、錨定模塊等)還是其他模式[21-23](圖2),這就大大降低了實(shí)驗(yàn)的工作強(qiáng)度,明確了研究目標(biāo)并具有一定針對(duì)性。將相關(guān)功能結(jié)構(gòu)域歸入某一蛋白家族后,由于家族內(nèi)蛋白質(zhì)的三維結(jié)構(gòu)非常保守[3,24],催化機(jī)制也非常保守,確定其相關(guān)蛋白質(zhì)家族后,GH家族的酶分子序列就可以確定其催化機(jī)制是保留型還是反轉(zhuǎn)型。如果該蛋白質(zhì)家族中有一酶組分的三維結(jié)構(gòu)獲得解析,人們還可以利用同源模建技術(shù)獲得相應(yīng)酶分子的結(jié)構(gòu)特性,尤其是催化活性中心及其催化活性位點(diǎn)附近的空間信息,這就大大提高了酶分子結(jié)構(gòu)與功能研究的工作效率[1]。
由于測(cè)序技術(shù)的飛速發(fā)展,宏基因組研究產(chǎn)生了海量的生物多樣性與序列多樣性數(shù)據(jù),現(xiàn)在蛋白質(zhì)序列的發(fā)現(xiàn)速度已經(jīng)遠(yuǎn)遠(yuǎn)超出人們對(duì)功能確切描述與分析的速度[22]。如CAZy數(shù)據(jù)庫的蛋白序列已經(jīng)達(dá)到34萬余條(截至2013年10月1日),獲得生化表征序列卻僅有1萬余條,不足3%;而獲得三維結(jié)構(gòu)的序列僅有 1 400多個(gè),不足 0.5%。CAZy數(shù)據(jù)庫現(xiàn)在面臨的難題可能不再是蛋白質(zhì)序列太少,而是如何對(duì)宏基因組產(chǎn)生的大數(shù)據(jù)(big data)進(jìn)行深入地挖掘分析。
宏基因組技術(shù)產(chǎn)生海量數(shù)據(jù),人們不再可能窮舉所有序列、所有底物,逐條逐項(xiàng)地分析其生物學(xué)功能,必須運(yùn)用生物信息學(xué)方法建立相關(guān)算法,完成其自動(dòng)功能注釋[25-26]。早在人類基因組草圖完成時(shí),有人就利用同源性方法來預(yù)測(cè)蛋白質(zhì)的功能,提出了結(jié)構(gòu)基因組學(xué)(structural genomics)的概念,以序列一致性30%為標(biāo)準(zhǔn)構(gòu)建蛋白質(zhì)家族,利用同源模建方法來分析其結(jié)構(gòu)與功能[27]。然而,由于序列同源性并不意味著蛋白質(zhì)具有相同的功能,不同基因由于處于不同選擇壓力之下,因而可能具有不同的進(jìn)化速率,這使得預(yù)測(cè)結(jié)果的準(zhǔn)確性難以確定[28]。特別是酶分子功能執(zhí)行區(qū)域僅是催化結(jié)構(gòu)域中非常小的一部分,僅僅基于全序列比對(duì)結(jié)果來預(yù)測(cè)局部發(fā)生變化區(qū)域的功能,這是自動(dòng)功能注釋常常出錯(cuò)的根源[29]。對(duì)應(yīng)酶分子功能分類層次,如EC號(hào)包括4級(jí)層次:酶的大類、化學(xué)鍵類型、反應(yīng)類型及底物專一性。蛋白質(zhì)家族分類也應(yīng)根據(jù)相似性程度進(jìn)行不同層次的聚類分析,以對(duì)應(yīng)酶分子功能分類的不同層次,來提高預(yù)測(cè)的效率與準(zhǔn)確度[30]?,F(xiàn)在CATH等蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫已經(jīng)根據(jù)不同的序列一致性細(xì)化出不同的層次,序列一致性<35%為S層,<60%為O層,<95%為L(zhǎng)層,100%為I層[31]。Pfam等蛋白質(zhì)數(shù)據(jù)庫也加強(qiáng)了與架構(gòu)保守性(即功能位點(diǎn)保守性)數(shù)據(jù)庫如Prosite、SCOP和CAZy等的聯(lián)系,以提高其功能預(yù)測(cè)的準(zhǔn)確性[32]。
圖2 碳水化合物降解酶的模塊結(jié)構(gòu)及其可能的降解模式Fig.2 Domain architectures and its possible mode of degradation
CAZy數(shù)據(jù)庫對(duì)酶分子催化結(jié)構(gòu)域按30%序列相似性進(jìn)行家族分類,不能夠準(zhǔn)確預(yù)測(cè)同一家族內(nèi)不同成員的底物專一性。隨著宏基因組數(shù)據(jù)的快速增加,CAZy數(shù)據(jù)庫也正在著手對(duì)所包含家族進(jìn)行細(xì)化分類。其中糖苷水解酶類(GHs)涵蓋CAZy數(shù)據(jù)庫中最多的家族,是CAZy數(shù)據(jù)庫中生化特征被描述最為詳細(xì)的酶類。目前,CAZy數(shù)據(jù)庫已經(jīng)對(duì)糖苷水解酶GH5、GH13和GH30家族進(jìn)行了亞家族的分類[33-34]。以 GH5家族為例,GH5家族是CAZy庫中最大的一個(gè)糖苷水解酶家族,因?yàn)樗堑?個(gè)纖維素酶家族,該家族曾被命名為“纖維素酶家族A”[6]。GH5家族序列分布很廣,在古菌、細(xì)菌和真菌界(真菌、植物)都存在,利用宏基因組學(xué)方法從不同生境中也鑒定出了豐富的GH5家族序列[35-37]。GH5模塊的折疊類型是 TIM結(jié)構(gòu),實(shí)驗(yàn)確定了近20種明確EC分類的酶活性,這充分展現(xiàn)了該家族的多功能性。因此僅將蛋白質(zhì)序列歸入如此龐大的“多專一性”家族顯然不能夠發(fā)掘出依靠序列與結(jié)構(gòu)相似性進(jìn)行分類的全部潛力,基于序列一致性>75%的標(biāo)準(zhǔn),提出了GH5家族新的亞家族分類系統(tǒng),其中51個(gè)亞家族能覆蓋其中80%以上的序列[33]。
經(jīng)過進(jìn)一步的功能分析之后,發(fā)現(xiàn)GH5家族中有的亞家族(表2)是單底物專一性的亞家族,如GH5-5、GH5-8亞家族等,對(duì)那些多功能的亞家族再進(jìn)行細(xì)化分類就可能形成單功能亞亞家族,當(dāng)新發(fā)現(xiàn)的序列歸入此類亞家族或亞亞家族時(shí),就可以判斷該序列可能具有此類功能,這有利于提高功能注釋的準(zhǔn)確度與效率。而多功能性亞家族或亞亞家族序列相似性很高,這說明其中只要幾個(gè)氨基酸的突變就可能導(dǎo)致功能的分歧[33],對(duì)其中GH5-4亞家族的改造也證明了這一點(diǎn),他們利用全面的GH5亞家族系統(tǒng)發(fā)育分析發(fā)現(xiàn)了GH5-4亞家族中決定葡聚糖和甘露聚糖雙底物特異性活性位點(diǎn)的基序[38]。
表2 GH5家族各亞家族底物專一性(以GH5-1到GH5-10亞家族為例)Table 2 Subfamilies with identified active enzymes in GH5(subfamily GH5-1 to GH5-10 as example)
表2列出的GH5家族8個(gè)亞家族中,GH5-5、GH5-8亞家族具有單底物專一性;其余4個(gè)亞家族均具有兩個(gè)或兩個(gè)以上多底物專一性(GH5亞家族A1-A10是較先發(fā)現(xiàn)的亞家族,在進(jìn)行重新分類時(shí),A3歸入GH5-4亞家族,A5和A6統(tǒng)一歸入到GH5-5亞家族,為了與先前的分類一致),這些重新劃分的亞家族保持了與原先一樣的序號(hào)[39]。
隨著測(cè)序技術(shù)的進(jìn)一步發(fā)展,宏基因組技術(shù)產(chǎn)生的海量蛋白質(zhì)序列既是挑戰(zhàn),又是機(jī)遇。CAZy數(shù)據(jù)庫將碳水化合物酶類序列歸入不同的“多專一性”家族,通過對(duì)蛋白質(zhì)家族分類的進(jìn)一步細(xì)化,對(duì)亞家族甚至亞亞家族的分類,找到更小的聚類族,分析與酶分子功能密切相關(guān)的活性中心部位,確定酶分子決定功能專一性殘基/組合及其協(xié)變性,就可以提高功能預(yù)測(cè)的準(zhǔn)確度,這對(duì)于了解碳水化合物活性酶類的作用機(jī)制具有重要意義。對(duì)碳水化合物活性酶類亞家族、亞亞家族的分類,使得同一亞家族或亞亞家族內(nèi)氨基酸序列相似性很高,幾個(gè)氨基酸的改變就可能改變酶的功能,這就大大降低了蛋白質(zhì)工程改造對(duì)序列空間的搜索強(qiáng)度,提高了理性設(shè)計(jì)成功的概率[40],對(duì)生物質(zhì)轉(zhuǎn)化和生物煉制提供了有力的技術(shù)支持。同時(shí),這種亞家族的分類方法對(duì)其他類型蛋白質(zhì)的功能預(yù)測(cè)也具有重要指導(dǎo)意義。
[1] Cantarel B L,Coutinho P M,Rancurel C,et al.The carbohydrateactive enzymes database(CAZy):anexpertresourcefor glycogenomics[J].Nucleic Acids Res,2009,37:D233-D238.
[2] HultK,Berglund P.Enzymepromiscuity:mechanism and applications[J].Trends Biotechnol,2007,25(5):231-238.
[3] Henrissat B, Davies G.Structural and sequence-based classification of glycoside hydrolases[J].Curr Opin Struct Biol,1997,7(5):637-644.
[4] Vlasenko E,Schülein M,Cherry J,et al.Substrate specificity of family 5,6,7,9,12,and 45 endoglucanases[J].Bioresour Technol,2010,101(7):2405-2411.
[5] Godzik A.Metagenomics and the protein universe[J].Curr Opin Struct Biol,2011,21(3):398-403.
[6] Henrissat B,Claeyssens M,Tomme P,et al.Cellulase families revealed by hydrophobic cluster analysis[J].Gene,1989,81(1):83-95.
[7] Henrissat B.A classification of glycosyl hydrolases based on amino acid sequence similarities[J].Biochem J,1991,280:309-316.
[8] Henrissat B,Bairoch A.New families in the classification of glycosyl hydrolases based on amino acid sequence similarities[J].Biochem J,1993,293:781-788.
[9] Henrissat B, Bairoch A.Updating the sequence-based classification of glycosyl hydrolases[J].Biochem J,1996,316:695-696.
[10] Campbell J A,Davies G J,Bulone V,et al.A classification of nucleotide-diphospho-sugar glycosyltransferases based on amino acid sequence similarities[J].Biochem J,1997,326:929-942.
[11] Svensson B,Jespersen H,Sierks M R,et al.Sequence homology between putative raw-starch binding domains from different starch-degrading enzymes[J].Biochem J,1989,264:309-311.
[12] Gilkes N R,Henrissat B,Kilburn D G,et al.Domains in microbial beta-1,4-glycanases:sequence conservation,function,and enzyme families[J].Microbiol Rev,1991,55(2):303-315.
[13] Coutinho J B,Gilkes N R,Kilburn D G,et al.The nature of the cellulose-binding domain effects the activities of a bacterial endoglucanase on different forms of cellulose[J].FEMS Microbiol Lett,1993,113(2):211-217.
[14] Tomme P,Warren R A J,Miller R C,et al.Cellulose-binding domains:classification and properties[C].ACS Symposium Series,1995,618:142-163.
[15] Warren R A J.Microbial hydrolysis of polysaccharides[J].Ann Rev Microbiol,1996,50(1):183-212.
[16] Henrissat B,Teeri T T,Warren R A J.A scheme for designating enzymes that hydrolyse the polysaccharides in the cell walls of plants[J].FEBS Lett,1998,425(2):352-354.
[17] 曲音波,陳冠軍,高培基,等.木質(zhì)纖維素降解酶與生物煉制[M].北京:化學(xué)工業(yè)出版社,2011.
[18] Levasseur A,Drula E,Lombard V,et al.Expansion of the enzymatic repertoire of the CAZy database to integrate auxiliary redox enzymes[J].Biotechnol Biofuels,2013,6(1):1-14.
[19] Sukharnikov L O,Cantwell B J,Podar M,et al.Cellulases:ambiguous nonhomologous enzymes in a genomic perspective[J].Trends Biotechnol,2011,29(10):473-479.
[20] Dai X,Zhu Y,Luo Y,et al.Metagenomic insights into the fibrolytic microbiome in yak rumen[J].PLoS One,2012,7(7):e40430.
[21] Wilson D B.Microbial diversity of cellulose hydrolysis[J].Curr Opin Microbiol,2011,14(3):259-263.
[22] Wilson D B.Processive and nonprocessive cellulases for biofuel production:lessons from bacterial genomes and structural analysis[J].Appl Microbiol Biotechnol,2012,93(2):497-502.
[23] Medie F M,Davies G J,Drancourt M,et al.Genome analyses highlight the different biological roles of cellulases[J].Nat Rev Microbiol,2012,10(3):227-234.
[24] Davies G,Henrissat B.Structures and mechanisms of glycosyl hydrolases[J].Structure,1995,3(9):853-859.
[25] Ferrer M,Beloqui A,Timmis K N,et al.Metagenomics for mining new genetic resources of microbial communities[J].J Mol Microbiol Biotechnol,2008,16(1/2):109-123.
[26] Friedberg I.Automated protein function prediction:the genomic challenge[J].Brief Bioinform,2006,7(3):225-242.
[27] Baker D,Sali A.Protein structure prediction and structural genomics[J].Science,2001,294(5540):93-96.
[28] Lee D,Redfern O,Orengo C.Predicting protein function from sequence and structure[J].Nat Rev Mol Cell Biol,2007,8(12):995-1005.
[29] Sj?lander K.Getting started in structural phylogenomics[J].PLoS Comput Biol,2010,6(1):e1000621.
[30] Prakash T,Taylor T D.Functional assignment of metagenomic data:challenges and applications[J].Brief Bioinform,2012,13(6):711-727.
[31] Sillitoe I,Cuff A L,Dessailly B H,et al.New functional families(FunFams)in CATH to improve the mapping of conserved functional sites to 3D structures[J].Nucleic Acids Res,2013,41(D1):D490-D498.
[32] Bateman A,Coin L,Durbin R,et al.The Pfam protein families database[J].Nucleic Acids Res,2004,32(S1):D138-D141.
[33] Aspeborg H,Coutinho P M,Wang Y,et al.Evolution,substrate specificity and subfamily classification of glycoside hydrolase family 5(GH5)[J].BMC Evol Biol,2012,12(1):186.doi:10.1186/1471-2148-12-186.
[34] Stam M R,Danchin E G,Rancurel C,et al.Dividing the large glycoside hydrolase family 13 into subfamilies:towards improved functional annotationsofalpha-amylase-related proteins[J].Protein Eng Des Sel,2006,19(12):555-562.
[35] Duan C J,Xian L,Zhao G C,et al.Isolation and partial characterization of novel genes encoding acidic cellulases from metagenomes of buffalo rumens[J].J Appl Microbiol,2009,107(1):245-256.
[36] Elifantz H,Waidner L A,Michelou V K,et al.Diversity and abundance of glycosyl hydrolase family 5 in the North Atlantic Ocean[J].FEMS Microbiol Lett,2008,63(3):316-327.
[37] Hess M,Sczyrba A,Egan R,et al.Metagenomic discovery of biomass-degrading genes and genomes from cow rumen[J].Science,2011,331:463-467.
[38] Chen Z,F(xiàn)riedland G D,Pereira J H,et al.Tracing determinants of dual substrate specificity in glycoside hydrolase family 5[J].J Biol Chem,2012,287(30):25335-25343.
[39] Lo L L,Larsen S.The 1.62 ? structureofThermoascus aurantiacus endoglucanase:completing the structural picture of subfamilies in glycoside hydrolase family 5[J].FEBS Lett,2002,523(1/2/3):103-108.
[40] Lichtarge O,Wilkins A.Evolution:a guide to perturb protein function and networks[J].Curr Opin Struct Biol,2010,20(3):351-359.