林源清,張光亞
(華僑大學 化工學院,福建 廈門361021)
木聚糖酶(EC3.2.1.8)是一種重要的工業(yè)用酶,可廣泛應用于飼料、造紙、食品等行業(yè).木聚糖酶的使用可大大減少造紙工業(yè)漂白過程中氯化物的用量,從而有效降低制漿造紙工業(yè)對環(huán)境的污染[1].用于造紙工業(yè)的木聚糖酶需滿足耐熱和耐堿條件,目前滿足所需條件的酶來源于兩種途徑:一是從極端環(huán)境中篩選產酶菌株[2];二是通過基因工程對酶進行遺傳改造[3].鑒于菌株篩選耗時長,效率低,基因工程改造越來越受研究者的關注.木聚糖酶可分為F/10和G/11家族,由于G/11家族的木聚糖酶分子較小,而且其結構更為簡單,因此比較適合作為理論研究的分子模型[4].對于蛋白質的改造主要有兩種策略:一是理性設計(rational design),即定點突變;二是非理性設計(irrational design),定向進化.定點突變目的明確,但需要事先了解蛋白質的結構;定向進化不需事先了解蛋白質的結構,但其篩選困難.本文利用木聚糖酶序列的信息和最適p H值,構建了氨基酸組成和最適p H值關系的模型.旨在探索影響酶最適p H值的氨基酸及其位置,為木聚糖酶的改造提供可靠的信息,以期提高研究效率.本課題組曾利用木聚糖酶的氨基酸與最適p H值關系構建BP神經網絡模型,并且取得較好的預測結果[5].采用均勻設計(UD)方法,構建氨基酸組成和最適p H值關系的模型.
G/11家族木聚糖酶的序列來源于 UniProt(http://www.uniprot.org/),木聚糖酶數據來源于文獻[6].73個木聚糖酶ID號及最適p H值,如表1所示.表1中:ID為木聚糖酶在UniProt數據庫中的收錄號;p Hopt為文獻中報道的木聚糖酶的最適p H值.
對于最適p H值在一定范圍的,取其中間值.木聚糖酶的氨基酸組成分析由自行設計的軟件完成.該軟件不僅可以計算全段序列的氨基酸組成,還可以計算分段氨基酸組成.主成分分析由MVSP軟件完成,神經網絡及支持向量機由weka3.6.8軟件完成.以各個木聚糖酶中全段序列及分段序列(將酶蛋白序列均分為3段,分別表示為序列的N端,C端及中間端)的20種氨基酸的組成百分比作為神經網絡和支持向量機的輸入,其對應的最適p H值作為結果輸出.
表1 G/11木聚糖酶ID號及最適p H值Tab.1 Xylanase ID in family G/11 and the optimum p H value
在運算時,支持向量機(SVM)[7]模型和BP神經網絡[8]模型都需要選擇參數,以達到最佳擬合結果.因此,采用均勻設計法(UD)[9]來選擇適當的運行參數.定義兩個特征指標[5],即均方根誤差RMSE和平均絕對誤差MAE.模型預測的結果采用常用的“留一法”,即對n組數據,每次取1組作測試,其他n-1組作為訓練樣本,共進行n次循環(huán),使得樣本中所有數據都能進行預測.
主成分分析(principal components analysis,PCA)又稱主分量分析,把多指標轉化為少數幾個綜合指標,在許多領域有著有效而廣泛的應用[10],是一種較為客觀的綜合評價方法.運用MVSP軟件,可直接獲得20個氨基酸變量的主成分荷載和73個個案的主成分得分.利用主成分得分與最適p H值進行擬合,擬合結果可在一定程度上綜合反映氨基酸組成與最適p H值的關系.
利用均勻設計法,對兩種不同核函數(Linear和RBF)的支持向量機運算參數進行優(yōu)化,10倍交叉驗證結果,如表2,3所示.表2,3中:MAE為平均絕對誤差;RMSE為均方根誤差.限于篇幅,僅列出最優(yōu)預測結果.
表2 基于Linear核函數的支持向量機預測結果Tab.2 Result of SVM prediction based on linear kernel
由表3可知:在RBF核函數支持向量機模型中,以I端氨基酸組成作為輸入,得到的預測結果最佳,即C=1,ε=0.1,γ=0.5時,其 MAE和RMSE值均最小,分別為0.84和1.17.此時,所建立的模型對木聚糖酶最適p H值預測準確率最高,故為最佳方案.
表3 基于RBF核函數的支持向量機預測結果Tab.3 Result of SVM prediction based on RBF kernel
通過比較兩種核函數的預測結果,可以得知RBF核函數的整體預測結果優(yōu)于Linear核函數.盡管在Linear核函數中,當懲罰值C=1,ε=0.005,其MAE為0.83,是所有預測結果中最小的.這個結果說明,在Linear核函數中運行參數取得了比較理想的結果.如果對RBF核函數進一步優(yōu)化,可能會取得更好的結果.根據表3中的最優(yōu)化參數C=1,ε=0.1,γ=0.5,使用支持向量機法建立最適p H值模型.通過該模型對實際測得的數據(p Hexp)進行預測,預測結果(p Hpre)如圖1所示.從圖1可知:該模型預測結果與實際測得結果的相關性為0.67,說明該模型可行.
圖1 預測值和實測值的關系Fig.1 Relationship between experimental andpredicted transition temperature obtained
為了科學地確定神經網絡中連接權的初始值、最佳的隱含層神經元的個數、學習速度等參數,選擇一個隱含層的神經網絡,對學習速率、動態(tài)參數和隱含層結點數3個因素15水平進行均勻設計,所得的均勻設計表和訓練結果,如表4所示(僅列出最優(yōu)預測結果).
由表4可知:當學習速率(v)為0.06,動態(tài)參數(MP)為0.2,隱含層結點數(NHL)為8時,以I端氨基酸組成為輸入的模型,對最適p H值擬合的均方根誤差為1.49個p H值單位,平均絕對誤差為1.09個p H值單位,具有很好的擬合效果.
表4 BP神經網絡的預測結果Tab.4 Result of BP neural network
由表2~4可知:構建的3種模型中,基于RBF核函數的支持向量機模型的整體預測結果最佳;I端的預測結果在分段預測模型中均最佳;其次是C端;最后是N端(表5).這個結果說明I端與木聚糖酶的最適p H值相關性最高.
表5 3種模型3端最佳優(yōu)化結果Tab.5 Optimum result of 3 segments in the three different models
原始數據運用MVSP軟件做主成分分析(PCA)分析后,可得到20個氨基酸變量的主成分和73個個案主成分.根據個案得分主成分(z),做主成分與實測最適p H值的相關性圖,如圖2所示.
圖2 主成分與最適p H值相關性圖Fig.2 Relationship between principal components and optimum p H value
由圖2可知:全段序列的相關性最好,R值為0.69.N端、I端、C端與最適p H值的相關性大小分別為-0.33,-0.68,0.40,其中負值表示負相關.它們與最適p H值影響的大小順序依次為I端、C端、N端.這個結果和前文的支持向量機和BP神經網絡的結果一致,驗證了前文所構建模型的可靠性.值得注意的是全段序列和I端序列的R值數值相近,但是方向卻相反.
由于I端序列氨基酸組成對于木聚糖酶的最適p H值影響較大.因此,僅列出I端分析結果.原始數據運用MVSP軟件PCA分析后,得到20個氨基酸變量的5個主成分.
各氨基酸與5個主成分之間的關系,如表6所示.表6中:相關系數只保留一位小數,且僅列出絕對值大于0.2的氨基酸.從表6可知:第1主成分與絲氨酸(S)相關性最強,相關性高達0.8,該結果表明絲氨酸(S)是木聚糖酶的關鍵氨基酸;第2主成分與甘氨酸(G)、第3主成分與甘氨酸(G)、第4主成分與酪氨酸(Y)及天冬酰胺(N)的相關性顯著,表明這3種氨基酸是木聚糖酶比較重要的氨基酸.Liu等[11]研究結果表明:G/11家族主成分分析的前7個主成分所代表的是該家族木聚糖酶的2級結構,分別為:卷曲、轉角、折疊、轉角、轉角、螺旋和折疊.
表6 木聚糖酶20種氨基酸與各主成分的關系Tab.6 Relationship between 20 amino acids and principle components in xylanase
構建了不同的最適p H值預測模型,其中基于RBF核函數的支持向量機模型預測木聚糖酶的最適p H值的精度,比使用BP神經網絡及Linear核函數的支持向量機模型更好,可做為木聚糖酶模擬的后續(xù)使用模型.采用了均勻設計的方法對構建的模型進行了參數優(yōu)化,但在各因素水平的選擇上仍帶有一定的隨意性,如果經過精心的選擇,模型的預測效果還會有所改善.此外,由于木聚糖酶分子量較小、結構比較簡單,只有一條多肽鏈,基于此酶所建立的模型對于其他具有4級結構的復雜酶類是否仍然適用仍有待探討.
[1] 聶國興,王俊麗,明紅.木聚糖酶的應用現狀與研發(fā)熱點[J].工業(yè)微生物,2008,38(1):53-59.
[2] 包怡紅,劉偉豐,毛愛軍,等.耐堿性木聚糖酶高產菌株的篩選、產酶條件優(yōu)化及其在麥草漿生物漂白中的應用[J].農業(yè)生物技術學報,2005,13(2):235-240.
[3] UMEMOTO H,YATSUNAMI R,INAMI M,et al.Improvement of alkaliphily of bacillus alkaline xylanase by introducing amino acid substitutions both on catalytic cleft and protein surface[J].Bioscience Biotechnology and Biochemistry,2009,73(4):965-967.
[4] SAPAG A,WOUTERS J,LAMBERT C,et al.The endoxylanases from family 11:Computer analysis of protein sequences reveals important structural and phylogenetic relationships[J].Journal of Biotechnology,2002,95(2):109-131.
[5] 張光亞,方柏山.木聚糖酶氨基酸組成與其最適p H 值的神經網絡模型[J].生物工程學報,2005,21(4):658-661.
[6] PAES G,BERRIN J G,BEAUGRAND J.GH11 xylanases:Structure/function/properties relationships and applications[J].Biotechnology Advances,2012,30(3):564-592.
[7] VAPNIK V N.The nature of statistical learning theory[M].New York:Springer-Verlag,2000:138-167.
[8] 王軼夫,孫玉軍,郭孝玉.基于BP神經網絡的馬尾松立木生物量模型研究[J].北京林業(yè)大學學報,2013,35(2):17-21.
[9] 方開泰.均勻設計-數論方法在試驗設計的應用[J].應用數學學報,1980(4):363-372.
[10] 王志江.主成分分析法在地區(qū)企業(yè)經濟效益評價中的應用[J].華僑大學學報:自然科學版,2004,25(3):322-325.
[11] LIU Liang-wei,ZHANG Jue,CHEN Bin,et al.Principle component analysis in F/10 and G/11 xylanase[J].Biochemical and Biophysical Research Communications,2004,322(1):277-280.