使用多特征預(yù)測(cè)蛋白質(zhì)棕櫚化位點(diǎn)
張?zhí)锢?,王睿1,徐暉2
(1.陜西理工學(xué)院 化學(xué)與環(huán)境科學(xué)學(xué)院, 陜西 漢中 723000;2.漢中市產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)所, 陜西 漢中 723000)
[摘要]采用改進(jìn)的氨基酸組成、SARAH1疏水尺度值、改進(jìn)的二肽頻率特征、間隔氨基酸對(duì)組成特征、蛋白質(zhì)物理化學(xué)性質(zhì)的自相關(guān)函數(shù)特征值表征給定的蛋白質(zhì)序列段,然后用小波頻譜來(lái)提取特征參數(shù)值,用支持向量機(jī)來(lái)預(yù)測(cè)棕櫚酰化位點(diǎn)。模型查準(zhǔn)率為0.880,查全率為0.859,F(xiàn)值為0.869,ROC曲線的面積為0.87。研究結(jié)果表明,使用多特征預(yù)測(cè)蛋白質(zhì)棕櫚化位點(diǎn)方法達(dá)到了現(xiàn)有預(yù)測(cè)算法的水平,能夠較準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)棕櫚化位點(diǎn)。
[關(guān)鍵詞]棕櫚化;位點(diǎn);蛋白質(zhì)
[文章編號(hào)]1673-2944(2015)05-0054-06
[中圖分類(lèi)號(hào)]O643.32+2
收稿日期:2015-01-23
基金項(xiàng)目:陜西理工學(xué)院校級(jí)人才啟動(dòng)項(xiàng)目(SLGQD13(2)-4)
作者簡(jiǎn)介:張?zhí)锢?1982—),男,山西省朔州市人,陜西理工學(xué)院講師,博士,主要研究方向?yàn)槔碚撆c計(jì)算化學(xué)。
DOI[7]MCCORMICK P J,DUMARESQ-RON K,PLUVIOSE A S,et al.Palmitoylation controls recycling in lysosomal sorting and trafficking[J].Traffic,2008,9(11):1984-1997.
棕櫚?;且环N最普遍且唯一可逆的翻譯后修飾形式,能增加蛋白質(zhì)的疏水性,對(duì)蛋白質(zhì)的轉(zhuǎn)運(yùn)、細(xì)胞器定位和功能具有重要的作用,并賦予蛋白質(zhì)多樣化的生理功能[1-3]。棕櫚?;鞍踪|(zhì)參與組成各種細(xì)胞膜脂質(zhì)結(jié)構(gòu)域,促進(jìn)自身或其蛋白質(zhì)定位膜脂筏(富含膽固醇、鞘磷脂和GPI微結(jié)構(gòu)域)中;蛋白質(zhì)棕櫚化還與特定的疾病相關(guān),參與腫瘤的發(fā)生發(fā)展[1-8]。
近年來(lái),國(guó)內(nèi)外許多有影響的研究小組分別圍繞棕櫚化位點(diǎn)的預(yù)測(cè),棕櫚基化反應(yīng)機(jī)理、抑制蛋白質(zhì)棕櫚化修飾及其對(duì)人體的影響等科學(xué)問(wèn)題開(kāi)展了大量的實(shí)驗(yàn)和部分理論研究。Linder等[9]通過(guò)實(shí)驗(yàn)證實(shí)棕櫚化影響蛋白質(zhì)的穩(wěn)定性和蛋白膜之間物質(zhì)的運(yùn)輸,棕櫚化的蛋白質(zhì)的存在影響了蛋白質(zhì)與脂質(zhì)和蛋白膜之間的作用,棕櫚化的可逆性允許不同膜之間物質(zhì)運(yùn)輸?shù)哪J讲煌?;Hemsley等[10]的實(shí)驗(yàn)表明;蛋白質(zhì)突觸的棕櫚化的動(dòng)態(tài)變化,局部控制了蛋白突觸與受體之間的相互作用,在突觸的可塑性方面起了很大的作用。理論計(jì)算方面,薛宇等[11]基于貝葉斯算法發(fā)展了NBA-Palm方法,對(duì)文獻(xiàn)搜集的254個(gè)棕櫚化位點(diǎn)進(jìn)行了預(yù)測(cè),預(yù)測(cè)精度達(dá)到85.79%;Ren等[12]基于聚類(lèi)和打分函數(shù)發(fā)展了CSS-Palm方法。王小波等[13]采用間距氨基酸組成配對(duì)法來(lái)預(yù)測(cè)棕櫚化位點(diǎn)。施少平等[14]人發(fā)展了WAP-Palm方法,融合了權(quán)重氨基酸組成、自相關(guān)函數(shù)和位置特異性打分矩陣來(lái)預(yù)測(cè)棕櫚化位點(diǎn)。盡管?chē)?guó)內(nèi)外學(xué)者對(duì)棕櫚化位點(diǎn)的預(yù)測(cè)及其反應(yīng)機(jī)理進(jìn)行了不少實(shí)驗(yàn)和理論探索,但到目前為止,也只有少數(shù)的棕櫚?;稽c(diǎn)被確定,且其分子機(jī)制仍難以捉摸。因此計(jì)算識(shí)別棕櫚化位點(diǎn)是當(dāng)前一個(gè)急迫任務(wù),并可為進(jìn)一步的實(shí)驗(yàn)設(shè)計(jì)提供有用的數(shù)據(jù)資源。
本研究關(guān)注的是通過(guò)蛋白質(zhì)序列開(kāi)發(fā)一個(gè)精確的預(yù)測(cè)方法來(lái)計(jì)算識(shí)別棕櫚化位點(diǎn),以豐富對(duì)棕櫚?;鞍踪|(zhì)組學(xué)的認(rèn)識(shí),還可以對(duì)某些疾病診斷治療和腫瘤治療等具有深遠(yuǎn)意義。
1方法
通過(guò)適當(dāng)?shù)剡x擇函數(shù)集,支持向量機(jī)方法[15]可以有效地避免經(jīng)典學(xué)習(xí)方法中存在的“過(guò)學(xué)習(xí)”、“維數(shù)災(zāi)難”以及局部極小點(diǎn)等問(wèn)題。該理論最大的優(yōu)點(diǎn)是在小樣本情況下依然可以保持很好的泛化性能,這是傳統(tǒng)的機(jī)器學(xué)習(xí)方法所不具備的。支持向量機(jī)的基本思想可用圖1的兩維情況說(shuō)明。
圖1 支持向量機(jī)基本思想示意圖
實(shí)心點(diǎn)和空心點(diǎn)代表兩類(lèi)樣本,H為超平面,H1,H2分別為各類(lèi)中離超平面最近的樣本且平行于超平面的平面,它們之間的距離叫做分類(lèi)間隔(margin)。所謂最優(yōu)超平面就是要求超平面不但能將兩類(lèi)正確分開(kāi)(訓(xùn)練錯(cuò)誤率為0),而且使分類(lèi)間隔最大[15]。超平面方程可以表示為xw+b=0,對(duì)它進(jìn)行歸一化,使得對(duì)線性可分的樣本集(xi,yi),i=1,2,…,n,xi∈Rd,yi∈{+1,-1},滿(mǎn)足約束條件:
此時(shí)分類(lèi)間隔等于2/‖w‖,間隔最大等價(jià)于使‖w‖2/2最小。滿(mǎn)足條件公式且使‖w‖2/2最小的分類(lèi)面就叫做最優(yōu)分類(lèi)面,H1,H2上的訓(xùn)練樣本點(diǎn)稱(chēng)作支持向量。
因此,求最優(yōu)分類(lèi)面的問(wèn)題轉(zhuǎn)化為在不等的約束下的優(yōu)化問(wèn)題:
(1)
利用Lagrange優(yōu)化方法可以把上述求最優(yōu)分類(lèi)問(wèn)題轉(zhuǎn)化為其對(duì)偶問(wèn)題,即求下式的最大值:
(2)
約束條件為:
(3)
其中αi為L(zhǎng)agrange乘子。這是一個(gè)不等式約束下二次函數(shù)尋優(yōu)的問(wèn)題,存在唯一解。解上述問(wèn)題后得到的最優(yōu)分類(lèi)函數(shù):
(4)
式中的求和實(shí)際上只對(duì)支持向量進(jìn)行。α*為αi的最優(yōu)解,b*是分類(lèi)閾值,可以用任一個(gè)支持向量求得,或通過(guò)兩類(lèi)中任意一對(duì)支持向量取中值求得。
上面的最優(yōu)分類(lèi)面是在線性可分的前提下討論的,對(duì)線性不可分的情況下,考慮到可能存在一些樣本不能被超平面正確分類(lèi),因此引入松弛變量ξi≥0,這樣公式(1)的線性約束條件變?yōu)閇15]:
(5)
此時(shí)優(yōu)化問(wèn)題變?yōu)椋?/p>
(6)
約束條件為:
(7)
常數(shù)C起著對(duì)錯(cuò)分樣本的懲罰作用,實(shí)現(xiàn)的是學(xué)習(xí)機(jī)器泛化能力和錯(cuò)分樣本數(shù)目之間的折中。轉(zhuǎn)化為其對(duì)偶問(wèn)題,此時(shí)求解最優(yōu)分類(lèi)面的問(wèn)題變?yōu)榍蠼馍厦婀?6)的最大值,只是約束條件變?yōu)椋?/p>
(8)
表1 支持向量機(jī)預(yù)測(cè)評(píng)價(jià)指標(biāo)
TP是真陽(yáng)性的樣品個(gè)數(shù),是被判定為正樣本,事實(shí)上也是正樣本的個(gè)數(shù);TN是真陰性的樣品個(gè)數(shù),是被判定為負(fù)樣本,事實(shí)上也是負(fù)樣本的個(gè)數(shù);FP是假陽(yáng)性的樣品個(gè)數(shù),是被判定為正樣本,但事實(shí)上是負(fù)樣本的個(gè)數(shù);FN是假陰性的樣品個(gè)數(shù),是被判定為負(fù)樣本,但事實(shí)上是正樣本的個(gè)數(shù)。Precision:查準(zhǔn)率,即在檢索后返回的結(jié)果中,真正正確的個(gè)數(shù)占整個(gè)結(jié)果的比例。Recall:查全率,即在檢索結(jié)果中真正正確的個(gè)數(shù)占整個(gè)數(shù)據(jù)集(檢索到的和未檢索到的)中真正正確個(gè)數(shù)的比例。Accuracy:正確率,即在檢索后返回的結(jié)果中,檢索到的正樣本和負(fù)樣本總共所占總樣本數(shù)的比率。F-Measure又稱(chēng)為F-Score,是機(jī)器學(xué)習(xí)領(lǐng)域的常用的一個(gè)評(píng)價(jià)標(biāo)準(zhǔn),F(xiàn)值即為正確率和召回率的調(diào)和平均值。ROC曲線在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域中廣泛應(yīng)用,用來(lái)評(píng)判分類(lèi)、檢測(cè)結(jié)果的好壞。ROC曲線指受試者工作特征曲線(receiver operating characteristic curve),是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過(guò)將連續(xù)變量設(shè)定出多個(gè)不同的臨界值,從而計(jì)算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、特異性為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高[16-17]。在ROC曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。為了更好地衡量ROC所表達(dá)結(jié)果的好壞,Area Under Curve(AUC)被提了出來(lái),簡(jiǎn)單來(lái)說(shuō)就是曲線右下角部分占正方形格子的面積比例,通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的性能。計(jì)算ROC曲線下的面積,就是計(jì)算AUC的值。首先對(duì)得分從大到小排序,然后令最大得分對(duì)應(yīng)的樣本排序號(hào)為n,第二大得分對(duì)應(yīng)樣本的排序號(hào)為n-1,以此類(lèi)推。然后把所有的正類(lèi)樣本的排序號(hào)相加,再減去正類(lèi)樣本的得分為最小的第M個(gè)值的情況。得到的就是所有的樣本中有多少對(duì)正類(lèi)樣本的得分大于負(fù)類(lèi)樣本的得分,然后再除以M×N。特別需要注意的是,存在得分相等的情況時(shí),對(duì)相等得分的樣本,需要賦予相同的排序號(hào)(無(wú)論這個(gè)相等的得分是出現(xiàn)在同類(lèi)樣本還是不同類(lèi)的樣本之間,都需要這樣處理)[16-17]。具體操作就是再把所有這些得分相等的樣本的排序號(hào)取平均。
2結(jié)果與討論
從Swiss-Prot數(shù)據(jù)庫(kù)(http://web.expasy.org/docs/swiss-prot_guideline.html)中提取所有來(lái)自實(shí)驗(yàn)的棕櫚化位點(diǎn),共有417個(gè)被實(shí)驗(yàn)確定的棕櫚化位點(diǎn)被收集。每個(gè)位點(diǎn)由41個(gè)氨基酸序列片段組成:棕櫚化位點(diǎn)K加上游20個(gè)氨基酸殘基和下游20個(gè)氨基酸殘基。為了所有片段有一個(gè)統(tǒng)一的長(zhǎng)度,當(dāng)殘基不足時(shí),在蛋白肽鏈的N-端或C-羧基端指定一個(gè)不存在的殘基“O”填寫(xiě)相應(yīng)的位置,添加了虛擬殘基“O”。從相同序列隨機(jī)選取相同數(shù)量的負(fù)樣本和正樣本。
針對(duì)蛋白翻譯后修飾位點(diǎn)與調(diào)節(jié)機(jī)制研究的現(xiàn)狀,設(shè)計(jì)出一套基于氨基酸頻率、疏水性及氨基酸物理化學(xué)性質(zhì)等的蛋白序列描述新方法。
氨基酸組成是蛋白序列的重要特性,已被成功的應(yīng)用于確定蛋白結(jié)構(gòu)類(lèi)別,膜蛋白類(lèi)別分類(lèi),預(yù)測(cè)亞細(xì)胞定位。使用了改進(jìn)后的氨基酸組成,每個(gè)蛋白片段可以用20個(gè)氨基酸發(fā)生頻率的平方根表示。已有實(shí)驗(yàn)證實(shí)使用這種改進(jìn)的氨基酸組成特征,對(duì)不同的數(shù)據(jù)集總體預(yù)測(cè)精度可以提高3%~5%[18]。
疏水性對(duì)蛋白的穩(wěn)定性具有重要意義,在蛋白的結(jié)構(gòu)預(yù)測(cè)中,許多研究者均在蛋白質(zhì)的眾多物理化學(xué)性質(zhì)中選擇疏水性作為研究的主要特性。Korenberg[19]檢驗(yàn)了各種疏水尺度,最后得出結(jié)論,在蛋白結(jié)構(gòu)預(yù)測(cè)中,Rose尺度優(yōu)于所有其他疏水尺度。然而這不是一對(duì)一的映射,所以不同的氨基酸序列可以有相同的疏水尺度值。同時(shí)尺度范圍太狹窄會(huì)導(dǎo)致一些氨基酸權(quán)重比其它氨基酸更高。為了克服這些問(wèn)題,Korenberg[19]等人提出了SARAH1尺度,這種尺度將20種氨基酸按照Rose疏水尺度排列,并且將每個(gè)氨基酸按其二進(jìn)制代碼值的降序排列表示成一個(gè)5位碼(如表2所示)。定義虛擬殘基“O”的SARAH1尺度為“0,0,0,0,0”。
表2 SARAH1疏水尺度值
不同位置改進(jìn)后的二肽頻率使用以下方法計(jì)算fk(akak+1) 或fk-1(akak-1),這里fk(akak+1)指的是棕櫚化位點(diǎn)右邊區(qū)域的二肽頻率;左側(cè)區(qū)域用fk-1表示。
通過(guò)使用一個(gè)新的編碼方案[20],間距氨基酸對(duì)的組成(CKSAAP),可以將蛋白結(jié)構(gòu)預(yù)測(cè)的精度提高到83.1%。CKSAAP可以定義為
CKSAAP=f(i,i+k),
(9)
這里f(i,i+k)是位置i和i+k氨基酸對(duì)的頻率,k=1,2,…N,其中N是樣本的長(zhǎng)度。
將物理化學(xué)性質(zhì)也考慮在內(nèi),用AA Index數(shù)據(jù)庫(kù)收集和整理的20種氨基酸的物理化學(xué)性質(zhì)、生物學(xué)性質(zhì)和二級(jí)結(jié)構(gòu)信息的數(shù)值構(gòu)造特征的自相關(guān)函數(shù)。
使用CFS(Correlation-based Feature Selection)特征選擇算法對(duì)特征子集的優(yōu)劣性進(jìn)行了評(píng)估,該算法不但考慮了單一特征的優(yōu)劣性,同時(shí)也考慮了各個(gè)特征之間的相關(guān)性。應(yīng)用小波頻譜(WFS頻譜)[21]來(lái)表征大量的特征參數(shù)值。WFS頻譜不僅可以描述蛋白質(zhì)序列特征在各種頻率上的信號(hào),還可以大大縮減特征值維數(shù),從而大大縮短了利用大量特征值進(jìn)行預(yù)測(cè)的時(shí)間。支持向量機(jī)(SVM;Vapnik,1995)作為分類(lèi)器。
表3給出了數(shù)據(jù)集上支持向量機(jī)預(yù)測(cè)的結(jié)果??梢钥吹?17個(gè)棕櫚化位點(diǎn)中有367個(gè)被準(zhǔn)確預(yù)測(cè)出,假陽(yáng)性比率為0.118,還有49個(gè)棕櫚化位點(diǎn)未預(yù)測(cè)出來(lái),查準(zhǔn)率為0.880,查全率為0.859,F(xiàn)值為0.869,ROC曲線的面積為0.87。對(duì)非棕櫚化位點(diǎn)預(yù)測(cè)而言,假陽(yáng)性比率為0.141,查準(zhǔn)率為0.862,查全率為0.882,ROC曲線的面積為0.87。結(jié)果表明,本文提出的方法達(dá)到了現(xiàn)有預(yù)測(cè)算法的水平,能夠較準(zhǔn)確預(yù)測(cè)出蛋白質(zhì)棕櫚化位點(diǎn)。
表3 支持向量機(jī)預(yù)測(cè)的結(jié)果
3結(jié)論
預(yù)測(cè)棕櫚化位點(diǎn)的位置是生物信息學(xué)的研究任務(wù)之一。本文提取了蛋白質(zhì)序列改進(jìn)的氨基酸組成、SARAH1疏水尺度值、改進(jìn)的二肽頻率特征、間隔氨基酸對(duì)組成特征、蛋白質(zhì)物理化學(xué)性質(zhì)的自相關(guān)函數(shù)特征值,然后用小波頻譜來(lái)提取特征參數(shù)值,基于支持向量機(jī)訓(xùn)練模型預(yù)測(cè)棕櫚酰化位點(diǎn)。模型查準(zhǔn)率為0.880。研究結(jié)果表明這種方法能夠準(zhǔn)確地預(yù)測(cè)棕櫚化位點(diǎn)的位置,預(yù)測(cè)達(dá)到了現(xiàn)有預(yù)測(cè)算法預(yù)測(cè)的精度。因此這種方法有望成為研究棕櫚化位點(diǎn)的一種有力的新工具。
[參考文獻(xiàn)]
[1]LINDER M E,DESCHENES R J.Palmitoylation: policing protein stability and traffic[J].Nat Rev Mol Cell Biol,2007,8(1):74-84.
[2]KüMMEL D,HEINEMANN U,VEIT M.Unique self-palmitoylation activity of the transport protein particle component Bet3:a mechanism required for protein stability[J].Proceedings of the National Academy of Sciences,2006,103(34):12701-12706.
[3]ROTH A F,WAN J,BAILEY A O,et al.Global analysis of protein palmitoylation in yeast[J].Cell,2006,125(5):1003-1013.
[4]GREAVES J,CARMICHAEL J A,CHAMBERLAIN L H.The palmitoyl transferase DHHC2 targets a dynamic membrane cycling pathway:regulation by a C-terminal domain[J].Molecular biology of the cell,2011,22(11):1887-1895.
[5]GREAVES J,CHAMBERLAIN L H.DHHC palmitoyl transferases: substrate interactions and (patho) physiology[J].Trends in biochemical sciences,2011,36(5):245-253.
[6]MISAKI R,MORIMATSU M,UEMURA T,et al.Palmitoylated Ras proteins traffic through recycling endosomes to the plasma membrane during exocytosis[J].The Journal of cell biology,2010,191(1):23-29.
[8]EL-HUSSEINI A E D,BREDT D S.Protein palmitoylation: a regulator of neuronal development and function[J].Nature Reviews Neuroscience,2002,3(10):791-802.
[9]LINDER M E,DESCHENES R J.Palmitoylation: policing protein stability and traffic[J].Nature reviews Molecular cell biology,2007,8(1):74-84.
[10]HEMSLEY P A,GRIERSON C S.Multiple roles for protein palmitoylation in plants[J].Trends in plant science,2008,13(6):295-302.
[11]XUE Yu,CHEN Hu,JIN Chang-jiang,et al.NBA-Palm:prediction of palmitoylation site implemented in Naive Bayes algorithm[J].Bmc Bioinformatics,2006,7(1):101-110.
[12]REN Jian,WEN Long-ping,GAO Xin-jiao,et al.CSS-Palm 2.0:an updated software for palmitoylation sites prediction[J].Protein Engineering Design & Selection Peds,2008,21(11):639-644.
[13]WANG Xiao-bo,WU Ling-yun,WANG Yong-cui,et al.Prediction of palmitoylation sites using the composition of k-spaced amino acid pairs[J].Protein Engineering Design & Selection,2009,22(11):707-712.
[14]SHI Shao-ping,SUN Xing-yu,QIU Jian-ding,et al.The prediction of palmitoylation site locations using a multiple feature extraction method[J].Journal of Molecular Graphics & Modelling,2013,40(1):125-130.
[15]CORTES C,VAPNIK V.Support-vector networks[J].Machine learning,1995,20(3):273-279.
[16]ZHANG Chun-ting,CHOU Kuo-chen.An optimization approach to predicting protein structural class from amino acid composition[J].Protein Science,1992,1(3):401-408.
[17]PUNTERVOLL P,LINDING R,GEMüND C,et al.ELM server:a new resource for investigating short functional sites in modular eukaryotic proteins[J].Nucleic acids research,2003,31(13):3625-3630.
[18]FENG Zhi-ping.Prediction of the subcellular location of prokaryotic proteins based on a new representation of the amino acid composition[J].Biopolymers,2001,58(5):491-499.
[19]KORENBERG M J,DAVID R,HUNTER I W,et al.Automatic classification of protein sequences into structure/function groups via parallel cascade identification:a feasibility study[J].Annals of Biomedical Engineering,2000,28(7):803-811.
[20]CHEN Yong-zhi,TANG Yu-rong,SHENG Zhi-ya,et al.Prediction of mucin-type O-glycosylation sites in mammalian proteins using the composition of k-spaced amino acid pairs[J].BMC bioinformatics,2008,9(1):101.
[21]LIU A K,PENG C Y,CHANG Y S.Wavelet analysis of satellite images for coastal watch[J].IEEE Journal of Oceanic Engineering,1997,22(1):9-17.
[責(zé)任編輯:李 莉]
Prediction of palmitoylation sites using multiple protein sequence characteristics
ZHANG Tian-lei1,WANG Rui1,XU Hui2
(1.School of Chemistry and Environment Science, Shaanxi University of Technology,Hanzhong 723000, China;2.Hanzhong City Product Quality Supervision and Inspection, Hanzhong 723000, China)
Abstract:Palmitoylation is an important post-translational modification, which participates many cellular processes, including antigen processing, DNA transcription and repair, apoptosis, immune reaction and inflammation, regulating cell surface receptors, ion channels and secretor pathway, nerve and muscle degeneration, viral infections and so on. Hence, the accurate prediction of palmitoylation sites can be of help in understanding the molecular mechanism of palmitoylation and also in designing various related experiments. Here we present an accurate method to identify palmitoylation sites from protein sequence information using a support vector machine model. It has achieved an accuracy of 88%, which shows that this method will be a useful tool to find palmitoylation sites in a protein.
Key words:palmitoylation;sites;protein