黃凱宗,張光亞
(華僑大學(xué)化工學(xué)院,福建泉州 362021)
使用偽氨基酸組成和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)類彈性蛋白多肽的相變溫度
黃凱宗,張光亞
(華僑大學(xué)化工學(xué)院,福建泉州 362021)
根據(jù)獲得的16條ELP序列及相變溫度的數(shù)據(jù),利用偽氨基酸組成方法提取其序列特征值.將偽氨基酸組成中的相關(guān)系數(shù)部分作為類彈性蛋白的特征向量,從類彈性蛋白序列出發(fā),利用最小中位方差回歸,找出與其序列相關(guān)系數(shù)的最佳階數(shù).運(yùn)用均勻設(shè)計(jì)法,分別對(duì)支持向量機(jī)與BP神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化.結(jié)果表明:BP神經(jīng)網(wǎng)絡(luò)獲得的預(yù)測(cè)模型最佳,相變溫度絕對(duì)誤差為0.39℃,均方根誤差為0.89℃.
類彈性蛋白;相變溫度;偽氨基酸組成方法;支持向量機(jī);BP神經(jīng)網(wǎng)絡(luò)
類彈性蛋白多肽(Elastin-Like Polypep tides,ELPs)是一種具有彈性功能且對(duì)環(huán)境非常敏感的生物高分子,它由五肽重復(fù)序列單元構(gòu)成.如果環(huán)境溫度低于ELP的相變溫度,則該多肽在水溶液中是高度可溶的,聚合物鏈就保持無(wú)序結(jié)構(gòu),且相當(dāng)伸展;反之,當(dāng)環(huán)境溫度高于相變溫度時(shí),這一含水的多肽鏈結(jié)構(gòu)就會(huì)瓦解,并開(kāi)始聚集,形成一個(gè)富含 ELPs的聚集物[1].利用類彈性蛋白的可逆相變特性,使其在蛋白純化、藥物載體、組織工程等方面得到廣泛的應(yīng)用[2].U rry等[3]認(rèn)為,相變溫度是關(guān)于 ELP序列、多肽鏈長(zhǎng)度、Xaa種類摩爾分?jǐn)?shù)的函數(shù).Chilkoti等[4]利用重組基因進(jìn)行克隆表達(dá),得到了在序列和多肽鏈長(zhǎng)均能精確控制的ELP.他們用非線性回歸分析描述了ELP序列鏈長(zhǎng)及濃度與相變溫度的關(guān)系,但所得到的模型僅能預(yù)測(cè)3種ELP文庫(kù)的相變溫度.本文根據(jù)獲得的16條ELP序列及相變溫度的數(shù)據(jù),利用偽氨基酸組成方法提取其序列特征值,采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)方法、最小中位方差回歸預(yù)測(cè)ELP的相變溫度值.
1.1 試驗(yàn)數(shù)據(jù)來(lái)源
文中所用的數(shù)據(jù)取自于文獻(xiàn)[5].
1.2 偽氨基酸組成
偽氨基酸組成包含20+λ個(gè)變量,最早由Chou等[6]提出.由于文中所涉及的ELP氨基酸組成極為相似,而且種類很少,為了減少輸入變量數(shù)目,對(duì)其略作調(diào)整,僅取其后的λ個(gè)變量,即氨基酸相關(guān)系數(shù). ELP相關(guān)系數(shù)的階數(shù)λ從1取到10,氨基酸相關(guān)系數(shù)計(jì)算參見(jiàn)文獻(xiàn)[7].
1.3 均勻設(shè)計(jì)
在運(yùn)行時(shí),支持向量機(jī)(SVM)[8]和BP神經(jīng)網(wǎng)絡(luò)[9]都需要選擇參數(shù),以達(dá)到最佳效果.因此,采用均勻設(shè)計(jì)法(UD)[10]來(lái)選擇適當(dāng)?shù)倪\(yùn)行參數(shù).定義3個(gè)特征指標(biāo)[11],即平均絕對(duì)百分比誤差δMPAE、均方根誤差δMSE和平均絕對(duì)誤差δMAE.模型預(yù)測(cè)的結(jié)果采用常用的“留一法”,即對(duì)n組數(shù)據(jù),每次取1組作測(cè)試,其他n-1組作為訓(xùn)練樣本,共進(jìn)行n次循環(huán),使得樣本中所有數(shù)據(jù)都能進(jìn)行預(yù)測(cè).
2.1 氨基酸相關(guān)系數(shù)的階數(shù)的選擇
根據(jù)文獻(xiàn)[6],氨基酸相關(guān)系數(shù)的階數(shù)(λ)是偽氨基酸組成一重要參數(shù).文獻(xiàn)數(shù)據(jù)的相變溫度呈離散分布,使用最小中位方差回歸會(huì)更為精確[11-12],且運(yùn)行過(guò)程中無(wú)需調(diào)整參數(shù).
參數(shù)λ經(jīng)最小中位方差(Least Median of Squares Regression,LM SQ)回歸檢測(cè),獲得的平均絕對(duì)百分比誤差δMPAE、均方根誤差δMSE和平均絕對(duì)誤差δMAE關(guān)系,如表1所示.由表1可知,當(dāng)λ=8時(shí),δMAE為3.04,δMSE為5.73,δMPAE為40.91%.即擬合所得ELP相變溫度準(zhǔn)確率最高,因此取λ=8.
表1 氨基酸相關(guān)系數(shù)的階數(shù)對(duì)特征指標(biāo)的影響Tab.1 Effect of the o rder of correlation coefficient for amino acids on characteristic index
當(dāng)λ=8時(shí),執(zhí)行最小中位方差回歸得到ELP的相變溫度擬合模型為
其中:x1~x8分別為偽氨基酸組中相關(guān)系數(shù);x9~x10分別為 ELP的相對(duì)分子質(zhì)量、ELP每一單體的Xaa數(shù)量;ELP濃度對(duì)ELP相變溫度沒(méi)有影響,故為其相關(guān)系數(shù)零.
從模型(1)可見(jiàn),第1,第4和第6個(gè)相關(guān)系數(shù)對(duì)相變溫度有較大的負(fù)面影響,而第5個(gè)相關(guān)系數(shù)則有較大的正面影響;偽氨基酸組的相關(guān)系數(shù)對(duì)ELP的相變溫度影響較大.當(dāng)ELP濃度較高時(shí),其濃度在一定范圍變化對(duì)相變溫度幾乎不影響.這與Chilkoti等[4]的實(shí)驗(yàn)結(jié)果較為一致.
使用最小中位方差回歸獲得的擬合值與實(shí)測(cè)值關(guān)系,如圖1所示.由圖1可知,一些擬合值非常好,而另外一些預(yù)測(cè)值與實(shí)測(cè)值差距比較大,從而導(dǎo)致其回歸直線的斜率偏離較大.
表2 支持向量機(jī)運(yùn)行參數(shù)的選擇Tab.2 Selection of running parameters of SVM
2.2 利用支持向量機(jī)預(yù)測(cè)相變溫度
如前所述,λ=8為氨基酸相關(guān)系數(shù)的階數(shù)最佳運(yùn)行參數(shù).利用均勻設(shè)計(jì)法對(duì)支持向量機(jī)的運(yùn)行參數(shù)進(jìn)行優(yōu)化,交叉驗(yàn)證后的結(jié)果如表2所示.
由表2可得出,3個(gè)誤差特征指標(biāo)在交叉驗(yàn)證中變化的幅度較小.這說(shuō)明SVM對(duì)運(yùn)行的參數(shù)不是很敏感.當(dāng)懲罰系數(shù)C=100,ε為1.0×10-5,γ為0.3 (即方案7)時(shí),其δMAE,δMSE和δMPAE值均最小,分別為1.85,3.31和23.39%.即所建立的模型對(duì) ELP相變溫度預(yù)測(cè)準(zhǔn)確率最高,故為最佳方案.
在方案7中,使用用支持向量機(jī)方法建立相變溫度模型.通過(guò)該模型對(duì)實(shí)際測(cè)得的數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)的效果,如圖2所示.從圖2可知,模型預(yù)測(cè)的結(jié)果
與實(shí)際測(cè)量值的相關(guān)系數(shù)達(dá)0.93,模型預(yù)測(cè)的結(jié)果較好.
2.3 利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相變溫度
對(duì)神經(jīng)網(wǎng)絡(luò)而言,由于訓(xùn)練樣本集的大小有限,網(wǎng)絡(luò)訓(xùn)練后對(duì)訓(xùn)練集外的輸入的響應(yīng),直接決定網(wǎng)絡(luò)的性能.為了檢驗(yàn)所建立的神經(jīng)網(wǎng)絡(luò)的可靠性,對(duì)其進(jìn)行3因素9水平交叉驗(yàn)證,結(jié)果如表3所示.
圖1 利用最小中位方差回歸的擬合值與實(shí)測(cè)值關(guān)系Fig.1 Relationship between experimental and fitted transition temperature obtained by LM SR
圖2 使用支持向量機(jī)獲得的預(yù)測(cè)值與實(shí)測(cè)值關(guān)系 Fig.2 Relationship between experimental and predicted transition temperature obtained by SVM
從表3可知,3個(gè)特征值變化幅度較大,神經(jīng)網(wǎng)絡(luò)對(duì)運(yùn)行參數(shù)比較敏感.在9組驗(yàn)證中,采用默認(rèn)參數(shù)獲得的特征值最好.即隱含層節(jié)點(diǎn)數(shù)(n)為6,學(xué)習(xí)速率(v)為0.3,動(dòng)態(tài)參數(shù)(σ)為0.2時(shí),準(zhǔn)確率最高,其δMAE,δMSE和δMPAE值均最小,分別為0.39,0.89和4.86%.
用BP神經(jīng)網(wǎng)絡(luò)建立的相變溫度模型.通過(guò)該模型對(duì)實(shí)際測(cè)得的數(shù)據(jù)進(jìn)行預(yù)測(cè),結(jié)果如圖3所示.從圖3可知,模型預(yù)測(cè)的結(jié)果與實(shí)際測(cè)量值的相關(guān)系數(shù)達(dá)0.99.
表3 神經(jīng)網(wǎng)絡(luò)運(yùn)行參數(shù)的選擇Tab.3 Selection of running parameters of BP neural network
圖3 使用BP神經(jīng)網(wǎng)絡(luò)獲得的預(yù)測(cè)值與實(shí)測(cè)值關(guān)系Fig.3 Relationship between experimental and predicted transition temperature obtained by BP neaural network
由圖1~3可知,BP神經(jīng)網(wǎng)絡(luò)所建立的預(yù)測(cè)相變溫度的精度,比使用支持向量機(jī)和最小中位方差回歸建立的相變溫度要好,可作為后續(xù)使用的模型.
當(dāng)實(shí)測(cè)的ELP相變溫度為60℃(此時(shí)ELP的序列最短濃度最高),與3種算法所預(yù)測(cè)(回歸的結(jié)果是擬合的)出來(lái)相變溫度值均差距較大.這可能是因?yàn)楫?dāng)序列較短時(shí),ELP濃度與長(zhǎng)度的變化對(duì)相變溫度影響更大[4],而ELP的序列組成對(duì)相變溫度影響較小.
與傳統(tǒng)的擬合方法預(yù)測(cè)ELP的相變溫度相比,基于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)對(duì)相變溫度進(jìn)行預(yù)測(cè),不用通過(guò)預(yù)測(cè)相變溫度具體形式,就可以直接從數(shù)據(jù)中得到相變溫度與ELP序列、分子量、Xaa組成、濃度之間的關(guān)系.同時(shí),只要能加以一定的先驗(yàn)知識(shí),還能夠更大范圍地反映它們之間的關(guān)系,其應(yīng)用的范圍也將更為廣闊.
文中基于Chou等提出的偽氨基酸概念[6],考慮到ELP的氨基酸組成極為相似,構(gòu)造了一種λ維的偽氨基酸組成來(lái)表示蛋白質(zhì)序列.采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)方法、最小中位方差回歸預(yù)測(cè)ELP的相變溫度值.結(jié)果表明,當(dāng)λ=8為氨基酸相關(guān)系數(shù)的階數(shù)最佳運(yùn)行參數(shù)時(shí),使用BP神經(jīng)網(wǎng)絡(luò)所建立的相變溫度預(yù)測(cè)模型為最佳.
[1]URRYDW.Physical chemistry of biological free energy transduction as demonstrated by elastic protein-based polymers[J].Phys Chem(B),1997,101(51):11007-11028.
[2]CHOW D,NUNALEE M L,CH IL KOTIA,et al.Pep tide-based biopolymers in biomedicine and biotechnology [J].Mater Sci Eng R Rep,2008,62(4):125-155.
[3]URRYD W,LUAN C H,PARKER T M,et al.Temperature of polypep tide inverse temperature transition depends on mean residue hydrophobicity[J].J Am Chem Soc,1991,113(11):4346-4348.
[4]M EYER D E,CH ILKOTIA.Quantification of the effects of chain length and concentration on the thermal behavior of elastin-like polypep tides[J].Biomacromolecules,2004,5(3):846-851.
[5]OlSON SD.Mathematical models for analysisof tissue regeneration in articular cartilage[D].No rth Carolina State: North Carolina State University,2009.
[6]CHOU Kuo-chen.Prediction of protein cellular attributes using pseudo amino acid composition[J].Proteins:Structure,Function,and Bioinfo rmatics,2001,43(3):246-255.
[7]SHEN Hong-bin,CHOU Kuo-chen.PseAAC:A flexible web-server for generating various kinds of protein pseudo amino acid composition[J].Analytical Biochemistry,2008,373(2):386-388.
[8]VANPN IK V N.The nature of statistical learning theory[M].New York:Sp ringer-Verlag,1995.
[9]黃永恒,曹平,汪亦顯.基于BP神經(jīng)網(wǎng)絡(luò)的巖土工程預(yù)測(cè)模型研究[J].科技導(dǎo)報(bào),2009,27(6):61-64.
[10]方開(kāi)泰.均勻設(shè)計(jì):數(shù)論方法在試驗(yàn)設(shè)計(jì)的應(yīng)用[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),1980(3):363-372.
[11]張光亞,葛慧華,方柏山.一種預(yù)測(cè)木聚糖酶最適溫度的PCANN模型[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2007,28 (1):55-58.
[12]ROUSSEEUW PJ.Leastmedian of squares regression[J].Journal of the American Statistical Association,1984,79 (388):871-880.
[13]STEELE JM,STEIGERW L.Algorithms and complexity for least median of squares regression[J].Discrete Applied Mathematics,1986,14(1) :93-100.
(責(zé)任編輯:黃曉楠英文審校:劉源崗)
Using Pseudo-Amino Acid Composition and BP Neural Network to Predict the Transition Temperature of Elastin-Like Peptides
HUANG Kai-zong,ZHANG Guang-ya
(College of Chemical Engineering,Huaqiao University,Quanzhou 362021,China)
Elastin-like pep tides(ELP)is one of the multi-pep tides which has been widely used.Transition temperature is the most convenient parameters for quantificational description of the ELP properties.It is of great importance to exp lo re the relationship between the transition temperature and the sequence characteristics,the number of Xaa of each monomer and the concentration of ELP.In this article,the best order of the correlation coefficient for pseudo-amino acid composition was obtained by using Least Median of Squares Regression from sequence.The uniform design was used to optimize the running parameters and leave-oneout cross-validation was carried out to evaluate the model of back propagation neural network(BPNN)and support vector machines,respectively.The results showed that the predicted model obtained by BPNN was the best,of which the mean absolute error and root mean squared error was0.39℃and 0.89℃, respectively.
elastin-like pep tides;transition temperature;pseudo-amino acid composition;support vector machines; back propagation neural network
Q 516.02
A
1000-5013(2011)02-0194-04
2009-09-21
張光亞(1975-),男,副教授,主要從事生物信息與生物化工的研究.E-mail:zhgyghh@hqu.edu.cn.
國(guó)家自然科學(xué)基金資助項(xiàng)目(20806031);福建省自然科學(xué)基金資助項(xiàng)目(2009J01030)