国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM的氨基酸頻率計算預(yù)測水稻蛋白質(zhì)磷酸化位點

2014-07-10 10:38何華勤
關(guān)鍵詞:馬修斯磷酸化氨基酸

王 偉,何華勤

(福建農(nóng)林大學(xué),福建 福州 350002)

基于SVM的氨基酸頻率計算預(yù)測水稻蛋白質(zhì)磷酸化位點

王 偉,何華勤

(福建農(nóng)林大學(xué),福建 福州 350002)

本文從swiss-prot中選取經(jīng)過試驗驗證的水稻蛋白質(zhì)磷酸化位點數(shù)據(jù)作為訓(xùn)練集合,應(yīng)用蛋白質(zhì)序列的氨基酸頻率計算方法來進行特征提取,再利用SVM算法構(gòu)建專門針對水稻蛋白質(zhì)磷酸化位點的預(yù)測新工具.氨基酸頻率算法指的是計算出相應(yīng)待預(yù)測磷酸化位點附近氨基酸的出現(xiàn)頻率,進一步反映了殘基之間的相關(guān)性.本文利用LibSVM軟件包對已通過氨基酸頻率算法特征提取出來的數(shù)值特征對磷酸化位點進行預(yù)測,從而為之后構(gòu)建水稻蛋白質(zhì)磷酸化位點的預(yù)測工具做準(zhǔn)備.結(jié)果表明,本文基于SVM和氨基酸頻率方法的水稻蛋白質(zhì)磷酸化位點預(yù)測在絲氨酸,蘇氨酸和酪氨酸的平均預(yù)測準(zhǔn)確性為77.665%,馬修斯系數(shù)為0.571.與Plant Phos和Musite的預(yù)測性能的對比結(jié)果顯示,在磷酸化蘇氨酸位點的預(yù)測性能顯著高于Plant Phos及Musite.

LIBSVM;SVM;氨基酸頻率計算;磷酸化位點

1 水稻蛋白質(zhì)磷酸化位點的預(yù)測

由于蛋白質(zhì)領(lǐng)域研究的日益進步以及基因測序、編碼技術(shù)的普及,各大數(shù)據(jù)庫中已經(jīng)大量收集了各種蛋白質(zhì)的氨基酸序列.因為蛋白質(zhì)組學(xué)研究的重要領(lǐng)域是蛋白質(zhì)功能,因此研究蛋白質(zhì)序列已經(jīng)成為生物信息學(xué)中不可或缺的部分[1][3].Vapnik和Cortes于1995年首先提出支持向量機(全名Support Vector Machine)這一概念,它的基本原理是在線性可分的基礎(chǔ)上,通過自身的算法將線性可分變?yōu)榫€性不可分[2].通過此轉(zhuǎn)變我們可以在非線性函數(shù)中進行使用和計算,這種分類算法被稱為支持向量機,即SVM.將支持向量機算法應(yīng)用到水稻蛋白質(zhì)磷酸化位點的預(yù)測當(dāng)中去,是現(xiàn)在研究水稻蛋白質(zhì)磷酸化的一個重要方向.

研究水稻蛋白質(zhì)磷酸化的三個主要目的:

(1)對位于某一特定狀態(tài)下水稻細胞內(nèi)磷酸化蛋白質(zhì)的序列及磷酸化氨基酸殘基定位;

(2)鑒定與磷酸化過程有關(guān)的激酶;

(3)分析所觀察到的磷酸化現(xiàn)象對功能的影響.其中,第一個目的是磷酸化研究的主要任務(wù)和基礎(chǔ).

所以研究蛋白質(zhì)序列已經(jīng)成為生物信息學(xué)中一個重要的、不可或缺的部分.

2 SVM簡介

支持向量機在應(yīng)對高維模式識別、非線性及小樣本中展現(xiàn)出了它的不可比擬的優(yōu)勢,并在其他機器學(xué)習(xí)問題、函數(shù)擬合等問題中都能夠得到很好的應(yīng)用.

SVM方法是在統(tǒng)計學(xué)理論中的VC維理論以及結(jié)構(gòu)風(fēng)險最小原理的基礎(chǔ)上建立的,根據(jù)有限的樣本信息在模型的復(fù)雜性,即對以經(jīng)過選定的訓(xùn)練樣本的學(xué)習(xí)精度,準(zhǔn)確度以及學(xué)習(xí)能力,即無錯誤地識別任意樣本的能力,之間尋找到最合理和最穩(wěn)定的方案,從而能夠有機會獲得最好的推廣能力,也可稱作泛化能力[5].

3 LIBSVM簡介

LIBSVM是一款涉及回歸算法與模式識別的軟件包,并具有高效快捷、簡單易用等特點,該軟件由臺灣大學(xué)林智仁副教授等研制開發(fā)的.由于LIBSVM中對SVM的參數(shù)篩選方面的支持較少,因此使用了經(jīng)過大量驗證的默認參數(shù)進行替代,而大多數(shù)相關(guān)問題都可以通過這些默認參數(shù)進行解決;交叉檢驗(Cross-Validation)功能還被該軟件包集成在其中.同時還可以解決包括基于1對1算法的多類模式識別問題,以及c-SVM、V-SVM、ε-SVR和V-SVR等問題.

4 基于氨基酸頻率的特征提取算法

首先我們將所獲得的數(shù)據(jù)集進行excel表格化整理,把蛋白質(zhì)序列一一存儲到表格中.在正樣本中每一行必須標(biāo)有已被磷酸化的位點信息,即已被磷酸化的位點在序列中的位置.通過編程寫出函數(shù),該函數(shù)的功能是截取該序列的25個殘基.即以磷酸化位點為中心截取該片段的上游和下游各12個氨基酸,此片段包括磷酸化位點共計25個氨基酸.到此為止我們擁有了計算過程中所要的重要數(shù)據(jù).

然后將這包含有25個氨基酸的殘基片段放進一個數(shù)組中,該數(shù)組放在單獨計算頻率的子函數(shù)中,為后面算出每段包含有25個氨基酸殘基的氨基酸頻率作準(zhǔn)備.最終經(jīng)由以上過程,可算出該殘基序列中的上游和下游各12個氨基酸出現(xiàn)的頻率,并將這25個所提取出來的特征數(shù)值作為后面將要預(yù)測磷酸化位點的特征值.

5 SVM模型的建立

本文用到的SVM核類型為RBF,并且使用的SVM類型為C-SVC[5].

RBF的核函數(shù)為:

σ代表串口的寬度

(2)C-SVC即C-支持向量分類.給定(xi,xj), i=1,2,…,L,y∈{1,-1}.SVM需要以上優(yōu)化問題的解決方法,其中ξi≥0

更高維空間中具有最大化邊緣的線性分離超平面我們使用SVM算法可以找到.錯誤項的懲罰函數(shù)我們用C<0來表示[5].決策功能為:

6 模型的建立與評估

首先我們從已獲得數(shù)據(jù)集合中提取一部分作為測試集,也就是選取部分?jǐn)?shù)據(jù)來進行訓(xùn)練.對于要進行預(yù)測的數(shù)據(jù),為了避免人為干擾,我們分別從總數(shù)據(jù)集合的數(shù)據(jù)中隨機抽取十次正負樣本,選取的正負樣本比例為1:1.

在利用libSVM進行預(yù)測之前,使用交叉驗證對所提取的特征值進行評估和測試,得到不同的Cost值和Gamma值后,從中選取模型所需的最優(yōu)參數(shù).通過比對我們選取rbf核類型和c-svc類型來創(chuàng)建模型.SVM中模型是通過正負樣本集來構(gòu)建的,并且正負樣本比例為1:1.對于易為磷酸化的S(絲氨酸)、T(蘇氨酸)和Y(酪氨酸)的子集,分別從相應(yīng)總訓(xùn)練集的正負位點數(shù)據(jù)中隨機抽取十次正負樣本[7].

分別對每個序列子集的10個SVM模型進行交叉驗證,通過對結(jié)果的比對和分析分別從中選取交叉驗證性能最高的模型作為SVM的子模型.通過libsvm中的grid.py進行參數(shù)優(yōu)選得出最優(yōu)參數(shù)訓(xùn)練出最終模型.再通過此模型,應(yīng)用svm_predict進行預(yù)測.

預(yù)測結(jié)果:

雖然參數(shù)優(yōu)選中的最佳準(zhǔn)確率accuracy=76.965%,但實際中預(yù)測的準(zhǔn)確率為accuracy=77.665%.

7 評價指標(biāo)

通過Sn(靈敏度)、Sp(特異性)、ACC(準(zhǔn)確度)和MCC(馬修斯系數(shù))對該算法的性能進行評價.

其中,TN表示的是實際為負樣本的序列數(shù)目在預(yù)測結(jié)果中也為負樣本.TP表示實際為正樣本的序列數(shù)目在預(yù)測結(jié)果中也為正樣本.FP表示實際為負樣本的序列數(shù)目卻在預(yù)測結(jié)果中為正樣本.FN表示實際為正樣本的序列數(shù)目卻在預(yù)測結(jié)果中為負樣本[7].MCC的值越大表示預(yù)測結(jié)果越好,其取值范圍為-1至1.

通過在Python編程環(huán)境下,自己編寫的評價指標(biāo)函數(shù)得出個評價參數(shù)

該方法的各評價指標(biāo):SN=0.789,SP=0.761,ACC=77.6%,MCC=0.495

8 主要工具的對比

磷酸化位點預(yù)測工具有很多,但正式的專門針對水稻蛋白質(zhì)磷酸化位點的預(yù)測工具和方法卻是空白,而前人開發(fā)了針對植物蛋白質(zhì)的磷酸化位點的預(yù)測工具,然而如phosPhAT以及2008年才研制的Gaoetal工具.它是一款基于SVM的蛋白質(zhì)磷酸化位點預(yù)測工具,該工具是整合K近鄰信息(KNN)、蛋白質(zhì)序列信息和蛋白質(zhì)無序區(qū)域而構(gòu)建的.然而唯獨phosPhAt提供可靠并且較為穩(wěn)定的在線預(yù)測服務(wù).數(shù)據(jù)測試方面,本文使用的是自己構(gòu)建的獨立測試集來,使用此數(shù)據(jù)來測試本文方法與Plantphos和Musite的預(yù)測性能.

Plantphos:

Plantphos應(yīng)用MDD,即最大依賴性分解方法,把所有的磷酸化片段進行聚類,形成具有顯著位點特異性的磷酸化片段子集.為了搜索HMM的采樣數(shù),HMMER會返回一個HMMER值和期望值,即E值[8-10].

Musite:

Musite是一款幾乎適合于所有或特定激激酶的磷酸化位點的預(yù)測工具.它能夠?qū)⒘姿峄稽c的預(yù)測作為為一個失衡的分類問題來看待,使用的是機器學(xué)習(xí)的方法.該工具收集了多種生物體磷酸化蛋白質(zhì)組的可靠實驗數(shù)據(jù),用這些數(shù)據(jù)來訓(xùn)練磷酸化位點的預(yù)測模型.Musite工具中使用到了k最近鄰方法(KNN)和蛋白質(zhì)無序區(qū)域特征提取的方法.所謂無序區(qū)域,即缺乏一個穩(wěn)定的第三結(jié)構(gòu)蛋白質(zhì)的部分[11].

9 不同預(yù)測方法的性能比較

依照上述,本文應(yīng)用自己構(gòu)建的測試數(shù)據(jù)集來與Plant Phos和Musite的預(yù)測性能進行對比.我們將本文的預(yù)測方法和Plant Phos、Musite對同一測試集數(shù)據(jù)進行預(yù)測,首先將數(shù)據(jù)分成1:1的正負樣本集,即磷酸化和非磷酸化位點.然后算出這三種方法的Sn(靈敏度)、Sp(特異性)、ACC(準(zhǔn)確度)和MCC (馬修斯系數(shù))來比較各自的預(yù)測性能,結(jié)果見表1.

表1 為本文方法和各方法對獨立測試數(shù)據(jù)集的預(yù)測結(jié)果

由表可知,本文的預(yù)測工具對絲氨酸預(yù)測的準(zhǔn)確性ACC和馬修斯系數(shù)MCC分別為75.6%和0.509,plantPhos的準(zhǔn)確性ACC為61.2%和馬修斯系數(shù)MCC為0.311,而Musite預(yù)測的準(zhǔn)確性ACC和馬修斯系數(shù)MCC分別為72.1%和0.426.表明本文的預(yù)測工具對磷酸化絲氨酸位點的預(yù)測性能高于PlantPhos及Musite.

而本文的預(yù)測工具對酪氨酸位點預(yù)測的準(zhǔn)確性ACC和馬修斯系數(shù)MCC分別為71.8%和0.406,plantPhos的準(zhǔn)確性ACC為57.0%和馬修斯系數(shù)MCC為0.182,而Musite預(yù)測的準(zhǔn)確性ACC為50%,而馬修斯系數(shù)MCC卻為0.表明本文的預(yù)測工具對磷酸化蘇氨酸位點的預(yù)測性能高于PlantPhos及Musite.

本文的預(yù)測方法在預(yù)測蘇氨酸位點的準(zhǔn)確性ACC和馬修斯系數(shù)MCC分別為77.6%和0.495,顯著高于PlantPhos的準(zhǔn)確性ACC為59.3%和馬修斯系數(shù)MCC為0.276,以及Musite的準(zhǔn)確性ACC為60.2%和馬修斯系數(shù)MCC為0.206.說明本文的預(yù)測工具對磷酸化蘇氨酸位點的預(yù)測性能顯著高于PlantPhos及Musite.

〔1〕張穎,羅遼復(fù),呂軍.使用多樣性增量預(yù)測磷酸化位點.內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)報)2008(1).

〔2〕朱玉賢,李毅,鄭曉峰.現(xiàn)代分子生物學(xué)(第三版).

〔3〕蔡津津.蛋白質(zhì)磷酸化位點預(yù)測與規(guī)則抽取方法研究.中國科學(xué)院計算技術(shù)研究所.

〔4〕姜錚,王芳,何湘,等.蛋白質(zhì)磷酸化修飾的研究進展.中國人民解放軍疾病預(yù)防控制研究所,2009.

〔5〕趙凌志,劉穎,等.WeightedSVM在蛋白質(zhì)磷酸化位點預(yù)測中的應(yīng)用.清華大學(xué)軟件學(xué)院,2006.

〔6〕白海燕,呂軍,張穎,等.蛋白質(zhì)磷酸化位點的識別.內(nèi)蒙古工業(yè)大學(xué)學(xué)報,2011(2).

〔7〕Koenig M ,Grade N.Highly specific prediction of phosphorylation sites in proteins [J].Bioinformatics, 2004.

〔8〕Lee TY, Lin ZQ, Hsieh SJ, Bretana NA, Lu CT: Exploiting maximal dependence decomposition to identify conserved motifs from a group of aligned signal sequences.Bioinformatics 2011, 27(13):1780-7, 1.

〔9〕Burge C, Karlin S: Prediction of complete gene structures in human genomic DNA.J Mol Biol 1997, 268(1):78-94.

〔10〕Diella F, Gould CM, Chica C, Via A, Gibson TJ: Phospho.ELM: a database of phosphorylation sites-update 2008.Nucleic Acids Res 2008, 36 Database: D240-244.

〔11〕Jianjiong Gao, Jay J.Thelen, A.Keith Dunker and Dong Xu.Musite, a Tool for Global Prediction of General and Kinase-specific Phosphorylation Sites.Molecular & Cellular Proteomics 2010, 9: 2586 –2600.

S511

A

1673-260X(2014)03-0011-03

猜你喜歡
馬修斯磷酸化氨基酸
ITSN1蛋白磷酸化的研究進展
月桂酰丙氨基酸鈉的抑菌性能研究
UFLC-QTRAP-MS/MS法同時測定絞股藍中11種氨基酸
磷酸化肽富集新方法研究進展
HPLC法同時測定阿膠強骨口服液中4種氨基酸
MAPK抑制因子對HSC中Smad2/3磷酸化及Smad4核轉(zhuǎn)位的影響
一株Nsp2蛋白自然缺失123個氨基酸的PRRSV分離和鑒定
變奏人生
組蛋白磷酸化修飾與精子發(fā)生
玉山县| 瓦房店市| 鄱阳县| 嘉黎县| 南平市| 平山县| 墨竹工卡县| 临城县| 莱州市| 嘉黎县| 宿松县| 蒙山县| 甘德县| 大港区| 乡宁县| 句容市| 凤城市| 宝应县| 通化县| 阳曲县| 女性| 华阴市| 叙永县| 修武县| 宝山区| 新宾| 理塘县| 宁海县| 开远市| 柳河县| 龙山县| 若羌县| 石狮市| 五峰| 保靖县| 屏南县| 青神县| 呈贡县| 尼玛县| 泾阳县| 永德县|