G／11木聚糖酶最適p H值的預測及其與氨基酸位置的關系

2014-03-03 05:27林源清張光亞

華僑大學學報（自然科學版） 2014年3期

林源清，張光亞

（華僑大學化工學院，福建廈門361021）

木聚糖酶（EC3.2.1.8）是一種重要的工業(yè)用酶，可廣泛應用于飼料、造紙、食品等行業(yè).木聚糖酶的使用可大大減少造紙工業(yè)漂白過程中氯化物的用量，從而有效降低制漿造紙工業(yè)對環(huán)境的污染［1］.用于造紙工業(yè)的木聚糖酶需滿足耐熱和耐堿條件，目前滿足所需條件的酶來源于兩種途徑：一是從極端環(huán)境中篩選產酶菌株［2］；二是通過基因工程對酶進行遺傳改造［3］.鑒于菌株篩選耗時長，效率低，基因工程改造越來越受研究者的關注.木聚糖酶可分為F／10和G／11家族，由于G／11家族的木聚糖酶分子較小，而且其結構更為簡單，因此比較適合作為理論研究的分子模型［4］.對于蛋白質的改造主要有兩種策略：一是理性設計（rational design），即定點突變；二是非理性設計（irrational design），定向進化.定點突變目的明確，但需要事先了解蛋白質的結構；定向進化不需事先了解蛋白質的結構，但其篩選困難.本文利用木聚糖酶序列的信息和最適p H值，構建了氨基酸組成和最適p H值關系的模型.旨在探索影響酶最適p H值的氨基酸及其位置，為木聚糖酶的改造提供可靠的信息，以期提高研究效率.本課題組曾利用木聚糖酶的氨基酸與最適p H值關系構建BP神經網絡模型，并且取得較好的預測結果［5］.采用均勻設計（UD）方法，構建氨基酸組成和最適p H值關系的模型.

1 材料與方法

1.1 數據來源

G／11家族木聚糖酶的序列來源于 UniProt（http：／／www.uniprot.org／），木聚糖酶數據來源于文獻［6］.73個木聚糖酶ID號及最適p H值，如表1所示.表1中：ID為木聚糖酶在UniProt數據庫中的收錄號；p Hopt為文獻中報道的木聚糖酶的最適p H值.

對于最適p H值在一定范圍的，取其中間值.木聚糖酶的氨基酸組成分析由自行設計的軟件完成.該軟件不僅可以計算全段序列的氨基酸組成，還可以計算分段氨基酸組成.主成分分析由MVSP軟件完成，神經網絡及支持向量機由weka3.6.8軟件完成.以各個木聚糖酶中全段序列及分段序列（將酶蛋白序列均分為3段，分別表示為序列的N端，C端及中間端）的20種氨基酸的組成百分比作為神經網絡和支持向量機的輸入，其對應的最適p H值作為結果輸出.

表1 G／11木聚糖酶ID號及最適p H值Tab.1 Xylanase ID in family G／11 and the optimum p H value

1.2 均勻設計的支持向量機

在運算時，支持向量機（SVM）［7］模型和BP神經網絡［8］模型都需要選擇參數，以達到最佳擬合結果.因此，采用均勻設計法（UD）［9］來選擇適當的運行參數.定義兩個特征指標［5］，即均方根誤差RMSE和平均絕對誤差MAE.模型預測的結果采用常用的“留一法”，即對n組數據，每次取1組作測試，其他n-1組作為訓練樣本，共進行n次循環(huán)，使得樣本中所有數據都能進行預測.

1.3 主成分分析

主成分分析（principal components analysis，PCA）又稱主分量分析，把多指標轉化為少數幾個綜合指標，在許多領域有著有效而廣泛的應用［10］，是一種較為客觀的綜合評價方法.運用MVSP軟件，可直接獲得20個氨基酸變量的主成分荷載和73個個案的主成分得分.利用主成分得分與最適p H值進行擬合，擬合結果可在一定程度上綜合反映氨基酸組成與最適p H值的關系.

2 結果與分析

2.1 基于均勻設計的支持向量機

利用均勻設計法，對兩種不同核函數（Linear和RBF）的支持向量機運算參數進行優(yōu)化，10倍交叉驗證結果，如表2，3所示.表2，3中：MAE為平均絕對誤差；RMSE為均方根誤差.限于篇幅，僅列出最優(yōu)預測結果.

表2 基于Linear核函數的支持向量機預測結果Tab.2 Result of SVM prediction based on linear kernel

由表3可知：在RBF核函數支持向量機模型中，以I端氨基酸組成作為輸入，得到的預測結果最佳，即C＝1，ε＝0.1，γ＝0.5時，其 MAE和RMSE值均最小，分別為0.84和1.17.此時，所建立的模型對木聚糖酶最適p H值預測準確率最高，故為最佳方案.

表3 基于RBF核函數的支持向量機預測結果Tab.3 Result of SVM prediction based on RBF kernel

通過比較兩種核函數的預測結果，可以得知RBF核函數的整體預測結果優(yōu)于Linear核函數.盡管在Linear核函數中，當懲罰值C＝1，ε＝0.005，其MAE為0.83，是所有預測結果中最小的.這個結果說明，在Linear核函數中運行參數取得了比較理想的結果.如果對RBF核函數進一步優(yōu)化，可能會取得更好的結果.根據表3中的最優(yōu)化參數C＝1，ε＝0.1，γ＝0.5，使用支持向量機法建立最適p H值模型.通過該模型對實際測得的數據（p Hexp）進行預測，預測結果（p Hpre）如圖1所示.從圖1可知：該模型預測結果與實際測得結果的相關性為0.67，說明該模型可行.

圖1 預測值和實測值的關系Fig.1 Relationship between experimental andpredicted transition temperature obtained

2.2 基于均勻設計的BP神經網絡

為了科學地確定神經網絡中連接權的初始值、最佳的隱含層神經元的個數、學習速度等參數，選擇一個隱含層的神經網絡，對學習速率、動態(tài)參數和隱含層結點數3個因素15水平進行均勻設計，所得的均勻設計表和訓練結果，如表4所示（僅列出最優(yōu)預測結果）.

由表4可知：當學習速率（v）為0.06，動態(tài)參數（MP）為0.2，隱含層結點數（NHL）為8時，以I端氨基酸組成為輸入的模型，對最適p H值擬合的均方根誤差為1.49個p H值單位，平均絕對誤差為1.09個p H值單位，具有很好的擬合效果.

表4 BP神經網絡的預測結果Tab.4 Result of BP neural network

由表2～4可知：構建的3種模型中，基于RBF核函數的支持向量機模型的整體預測結果最佳；I端的預測結果在分段預測模型中均最佳；其次是C端；最后是N端（表5）.這個結果說明I端與木聚糖酶的最適p H值相關性最高.

表5 3種模型3端最佳優(yōu)化結果Tab.5 Optimum result of 3 segments in the three different models

2.3 氨基酸與最適p H值的相關性

原始數據運用MVSP軟件做主成分分析（PCA）分析后，可得到20個氨基酸變量的主成分和73個個案主成分.根據個案得分主成分（z），做主成分與實測最適p H值的相關性圖，如圖2所示.

圖2 主成分與最適p H值相關性圖Fig.2 Relationship between principal components and optimum p H value

由圖2可知：全段序列的相關性最好，R值為0.69.N端、I端、C端與最適p H值的相關性大小分別為-0.33，-0.68，0.40，其中負值表示負相關.它們與最適p H值影響的大小順序依次為I端、C端、N端.這個結果和前文的支持向量機和BP神經網絡的結果一致，驗證了前文所構建模型的可靠性.值得注意的是全段序列和I端序列的R值數值相近，但是方向卻相反.

由于I端序列氨基酸組成對于木聚糖酶的最適p H值影響較大.因此，僅列出I端分析結果.原始數據運用MVSP軟件PCA分析后，得到20個氨基酸變量的5個主成分.

各氨基酸與5個主成分之間的關系，如表6所示.表6中：相關系數只保留一位小數，且僅列出絕對值大于0.2的氨基酸.從表6可知：第1主成分與絲氨酸（S）相關性最強，相關性高達0.8，該結果表明絲氨酸（S）是木聚糖酶的關鍵氨基酸；第2主成分與甘氨酸（G）、第3主成分與甘氨酸（G）、第4主成分與酪氨酸（Y）及天冬酰胺（N）的相關性顯著，表明這3種氨基酸是木聚糖酶比較重要的氨基酸.Liu等［11］研究結果表明：G／11家族主成分分析的前7個主成分所代表的是該家族木聚糖酶的2級結構，分別為：卷曲、轉角、折疊、轉角、轉角、螺旋和折疊.

表6 木聚糖酶20種氨基酸與各主成分的關系Tab.6 Relationship between 20 amino acids and principle components in xylanase

3 結束語

構建了不同的最適p H值預測模型，其中基于RBF核函數的支持向量機模型預測木聚糖酶的最適p H值的精度，比使用BP神經網絡及Linear核函數的支持向量機模型更好，可做為木聚糖酶模擬的后續(xù)使用模型.采用了均勻設計的方法對構建的模型進行了參數優(yōu)化，但在各因素水平的選擇上仍帶有一定的隨意性，如果經過精心的選擇，模型的預測效果還會有所改善.此外，由于木聚糖酶分子量較小、結構比較簡單，只有一條多肽鏈，基于此酶所建立的模型對于其他具有4級結構的復雜酶類是否仍然適用仍有待探討.

［1］聶國興，王俊麗，明紅.木聚糖酶的應用現狀與研發(fā)熱點［J］.工業(yè)微生物，2008，38（1）：53-59.

［2］包怡紅，劉偉豐，毛愛軍，等.耐堿性木聚糖酶高產菌株的篩選、產酶條件優(yōu)化及其在麥草漿生物漂白中的應用［J］.農業(yè)生物技術學報，2005，13（2）：235-240.

［3］ UMEMOTO H，YATSUNAMI R，INAMI M，et al.Improvement of alkaliphily of bacillus alkaline xylanase by introducing amino acid substitutions both on catalytic cleft and protein surface［J］.Bioscience Biotechnology and Biochemistry，2009，73（4）：965-967.

［4］ SAPAG A，WOUTERS J，LAMBERT C，et al.The endoxylanases from family 11：Computer analysis of protein sequences reveals important structural and phylogenetic relationships［J］.Journal of Biotechnology，2002，95（2）：109-131.

［5］張光亞，方柏山.木聚糖酶氨基酸組成與其最適p H 值的神經網絡模型［J］.生物工程學報，2005，21（4）：658-661.

［6］ PAES G，BERRIN J G，BEAUGRAND J.GH11 xylanases：Structure／function／properties relationships and applications［J］.Biotechnology Advances，2012，30（3）：564-592.

［7］ VAPNIK V N.The nature of statistical learning theory［M］.New York：Springer-Verlag，2000：138-167.

［8］王軼夫，孫玉軍，郭孝玉.基于BP神經網絡的馬尾松立木生物量模型研究［J］.北京林業(yè)大學學報，2013，35（2）：17-21.

［9］方開泰.均勻設計-數論方法在試驗設計的應用［J］.應用數學學報，1980（4）：363-372.

［10］王志江.主成分分析法在地區(qū)企業(yè)經濟效益評價中的應用［J］.華僑大學學報：自然科學版，2004，25（3）：322-325.

［11］ LIU Liang-wei，ZHANG Jue，CHEN Bin，et al.Principle component analysis in F／10 and G／11 xylanase［J］.Biochemical and Biophysical Research Communications，2004，322（1）：277-280.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡