国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隨機森林和支持向量機算法在β-發(fā)夾模體預(yù)測中的比較

2016-12-05 03:15賈少春
關(guān)鍵詞:模體發(fā)夾組分

賈少春

(忻州師范學(xué)院數(shù)學(xué)系,山西忻州 034000)

隨機森林和支持向量機算法在β-發(fā)夾模體預(yù)測中的比較

賈少春

(忻州師范學(xué)院數(shù)學(xué)系,山西忻州 034000)

基于對β-發(fā)夾模體的預(yù)測探索,本文使用隨機森林和支持向量機兩種算法,對ArchDB40數(shù)據(jù)庫及自建數(shù)據(jù)集中的β-發(fā)夾模體進行預(yù)測.對于同一數(shù)據(jù)集,在特征參數(shù)和檢驗方法均相同的情況下,隨機森林算法的預(yù)測精度要高于支持向量機算法.此外,由于隨機森林算法在參數(shù)維數(shù)較高的情況下不會發(fā)生過擬合現(xiàn)象,所以本文采用了將高維特征參數(shù)輸入隨機森林算法的方法來預(yù)測β-發(fā)夾,得到了較好的預(yù)測效果:對ArchDB40數(shù)據(jù)庫中的β-發(fā)夾進行預(yù)測,其5-交叉檢驗的預(yù)測精度和相關(guān)系數(shù)分別是83.3%和0.59;對自建數(shù)據(jù)集中的β-發(fā)夾進行預(yù)測,其5-交叉檢驗的預(yù)測精度和相關(guān)系數(shù)分別是85.2%和0.62.

隨機森林算法;支持向量機算法;β-發(fā)夾模體;離散增量;預(yù)測的二級結(jié)構(gòu)信息

β-發(fā)夾是一種特殊的超二級結(jié)構(gòu)模體.對于β-β超二級結(jié)構(gòu),如果兩個反平行的β-strand被連接多肽(loop)連接,而且兩個strand之間存在一個或多個氫鍵,則稱這種超二級結(jié)構(gòu)為β-發(fā)夾,否則稱為非β-發(fā)夾[1-3].前人在β-發(fā)夾模體識別的研究過程中,使用不同的算法對不同數(shù)據(jù)庫中的研究對象進行了預(yù)測,已經(jīng)取得了一系列較好的研究成果.2002年,Cruz等[4]使用人工神經(jīng)網(wǎng)絡(luò)(ANN),對序列相似性小于35%的534個蛋白質(zhì)中的β-發(fā)夾進行識別,5-fold交叉檢驗的預(yù)測精度是47.7%.2004年Kuhn[1]等使用ANN方法預(yù)測局域發(fā)夾和非局域diverging turn,對2 209個蛋白質(zhì)中的β-發(fā)夾預(yù)測精度是75.9%.2005年,Kumar等[5]使用兩種機器記憶技術(shù)——支持向量機和ANN模型,對EVA的序列相似性小于33%的2 880個非冗余蛋白質(zhì)中β-發(fā)夾進行識別,5-fold交叉檢驗的預(yù)測精度為79.2%.2007年,胡秀珍等[6]使用支持向量機,對ArchDB40和EVA數(shù)據(jù)庫中的β-發(fā)夾模體進行識別,5-fold交叉檢驗預(yù)測精度分別是79.9%和83.3%.2008年,胡秀珍等[7]使用二次判別方法,對ArchDB40和EVA數(shù)據(jù)庫中β-發(fā)夾進行識別,5-fold交叉檢驗的預(yù)測精度分別達到了83.1%和80.7%.本文是對該研究的進一步探索,具體采用的是隨機森林和支持向量機兩種分類算法,選用的數(shù)據(jù)集一個是前人使用過的ArchDB40數(shù)據(jù)集,一個是新整理的包含4 070個非冗余蛋白質(zhì)鏈的數(shù)據(jù)集,對這兩個數(shù)據(jù)集中的β-發(fā)夾進行預(yù)測,隨機森林算法的效果均好于支持向量機算法的.

1 數(shù)據(jù)及方法

1.1 數(shù)據(jù)集

1.1.1 ArchDB40數(shù)據(jù)集

ArchDB40數(shù)據(jù)庫[8-9]是本文選用的第一個數(shù)據(jù)集.具體的研究對象是loop長為2-8個氨基酸殘基的模體.固定序列模式長選為12,截取規(guī)則有5位點法、8位點法和中心位點法[6],分別用5-12、8-12 和Lr-12來表示,具體示例見圖1.

圖1 固定模式的三種截取方式

1.1.2 自建數(shù)據(jù)集

本文選用的第二個數(shù)據(jù)集是筆者自己構(gòu)建的數(shù)據(jù)庫,即一個序列相似性小于25%、分辨率高于3?的包含4 070條蛋白質(zhì)鏈的數(shù)據(jù)庫.下面是整理數(shù)據(jù)庫的具體過程:

第一步:從SCOP數(shù)據(jù)庫的ASTRAL(1.75版)中下載序列相似性低于95%的序列;

第二步:使用Blast軟件獲得序列相似性低于25%的序列4 174條(僅包含全β、α / β和α + β類的蛋白質(zhì)序列),并從中篩選出分辨率高于3?的序列4 070條;

第三步:使用DSSP[10]找出ECE模式16 917個;

第四步:使用PROMOTIF軟件[11]得到9 046個β-發(fā)夾模體,與ECE模式匹配的筆者認為是β-發(fā)夾,共8 800個,剩余的8 117個為非β-發(fā)夾模體;

第五步:對得到的模體進行統(tǒng)計分析,發(fā)現(xiàn)loop長為2 - 10個氨基酸殘基的β-發(fā)夾模體和非β-發(fā)夾模體分別有8 291和6 865個,各占了此類模體總數(shù)的94%和85%,故選取loop長為2 -10個氨基酸殘基的模體作為具體研究對象;

第六步:計算上述數(shù)據(jù)集中β-發(fā)夾模體和非β-發(fā)夾模體的平均長度,分別是16.58和15.65,故選取固定序列模式長為17,截取規(guī)則為中心位點法.

1.2 特征參數(shù)

1.2.1 位點分析

使用weblogo網(wǎng)頁(http://weblogo.berkeley.edu/logo.cgi)對ArchDB40數(shù)據(jù)集中β-發(fā)夾和非β-發(fā)夾模體的固定序列片段(12個位點)分別進行統(tǒng)計分析,結(jié)果見圖2.

圖2 β-發(fā)夾和非β-發(fā)夾固定序列片段的位點氨基酸保守信息 (ArchDB40數(shù)據(jù)集)

再用weblogo網(wǎng)頁(http://weblogo.berkeley.edu/logo.cgi)對自建數(shù)據(jù)集中β-發(fā)夾和非β-發(fā)夾模體的固定序列片段(17個位點)分別進行統(tǒng)計分析,結(jié)果見圖3.

圖3 β-發(fā)夾和非β-發(fā)夾固定序列片段的位點氨基酸保守信息 (自建數(shù)據(jù)集)

1.2.2 參數(shù)選取

通過位點分析發(fā)現(xiàn),ArchDB40數(shù)據(jù)庫和自建數(shù)據(jù)集中的固定序列片段的位點保守性都較強,故提取了以下幾項作為特征參數(shù).

1)位點氨基酸組分A 對ArchDB40數(shù)據(jù)集而言,由于固定序列模式長是12且采用了三種固定序列片段截取方式,所以每個固定序列片段的位點氨基酸組分[12-13]是一個756維(21 × 12 × 3,這里21表示20種氨基酸和1個空位)的向量;對自建數(shù)據(jù)集而言,由于固定序列模式長是17且僅采用了中心位點法一種截取方式,所以每個固定序列片段的位點氨基酸組分是一個357維(21 × 17)的向量.

2)位點親疏水組分Q 同理,對ArchDB40數(shù)據(jù)集而言,其位點親疏水組分[14]是一個252維(7 × 12 × 3,這里7表示6種親疏水特性和1個空位)的向量;對自建數(shù)據(jù)集而言,位點親疏水組分是一個119維(7 × 17)的向量.

3)基于位點氨基酸組分的離散增量值ID(A) 以位點氨基酸組分作為ID的輸入?yún)?shù),用訓(xùn)練集中的β-發(fā)夾序列片段和非β-發(fā)夾序列片段作標準離散源,進而計算出檢驗集中每條序列的2個離散增量值[15-18].對ArchDB40數(shù)據(jù)集而言,由于采用了三種截取方式,所以每條被檢片段可得6個離散增量值ID(A);對自建數(shù)據(jù)集而言,由于只有一種截取方式,所以每條被檢片段可得2個離散增量值ID(A).

4)基于位點親疏水組分的離散增量值ID(Q) 類似地,以位點親疏水組分作為ID的輸入?yún)?shù),對ArchDB40數(shù)據(jù)集而言,每條被檢片段可計算得6個離散增量值ID(Q);對自建數(shù)據(jù)集而言,每條被檢片段可計算得2個離散增量值ID(Q).

5)基于位點氨基酸組分的打分函數(shù)值S(A) 以位點氨基酸組分作為打分函數(shù)S的輸入?yún)?shù),利用訓(xùn)練集中的β-發(fā)夾和非β-發(fā)夾構(gòu)造標準打分矩陣,進而計算出檢驗集中每條序列的2個打分值[19-22].對ArchDB40數(shù)據(jù)集而言,由于采用了三種截取方式,所以每條被檢片段可得6個打分值S12(A);對自建數(shù)據(jù)集而言,因只有一種截取方式,所以每條被檢片段可得2個打分值S17(A).

6)預(yù)測的二級結(jié)構(gòu)信息PSS 預(yù)測的二級結(jié)構(gòu)信息由PSIPRED[5]得到,并用一個3維的向量來表示,其中的3個分量分別表示對β-發(fā)夾和非β-發(fā)夾模體序列片段進行預(yù)測得到的α螺旋、β折疊和無規(guī)卷曲coil的頻數(shù).

1.3 算法簡介

1.3.1 隨機森林算法(RF)

隨機森林是Leo Breiman于2001年提出的一種新型機器學(xué)習(xí)算法[23-27],其思想是將眾多弱分類器集成為一個強分類器進行分類.隨機森林由很多互不關(guān)聯(lián)的決策樹組成,輸入樣本時森林中的每一棵決策樹各自進行判斷,最終的決策結(jié)果則由綜合全部決策樹的分類結(jié)果而定.本文的隨機森林算法是通過R軟件[28-30]來實現(xiàn)的,使用的是R2.8.1版本(http://www.r-project.org/).

1.3.2 支持向量機算法(SVM)

支持向量機(SVM)算法是由Vapnik[31]等提出來的一種新型的機器學(xué)習(xí)方法,其基本思想是通過非線性變換把輸入向量映射到一個高維特征空間,再在高維特征空間構(gòu)造線性判別函數(shù),進而尋找最優(yōu)超平面,使其與各類樣本之間的距離達到最大.

本文支持向量機(SVM)算法是通過調(diào)用libsvm-2.89程序包[32]來實現(xiàn)的(http://www.csie. ntu.edu.tw/~cjlin/libsvm).

1.4 檢驗方法和評價指標

1.4.1 檢驗方法

做模體預(yù)測常用的檢驗方法有自洽檢驗、獨立檢驗、k-fold交叉檢驗和Jack-knife檢驗.本文采用的是5-fold交叉檢驗[6-7],即將數(shù)據(jù)集平均分成5份,其中4份作為訓(xùn)練集,剩余的1份作為檢驗集,重復(fù)做5次獨立檢驗后求其平均的檢驗方法.

1.4.2 評價指標

本文使用的評價指標[6-7]有:Qo(H)、Qo(NH)、Qp(H)、Qp(NH)、Acc和MCC,具體計算公式如下:

其中,p為β-發(fā)夾被正確識別的數(shù)量,r為非β-發(fā)夾被正確識別的數(shù)量,u為β-發(fā)夾被預(yù)測為非β-發(fā)夾的數(shù)量,o為非β-發(fā)夾被預(yù)測為β-發(fā)夾的數(shù)量.

2 結(jié)果與分析

2.1 對ArchDB40數(shù)據(jù)集的預(yù)測結(jié)果

對ArchDB40數(shù)據(jù)庫中的β-發(fā)夾模體,用基于位點氨基酸組分得到的6個離散增量值ID(A)、基于位點親疏水組分得到的6個離散增量值ID(Q)、基于位點氨基酸組分得到的6個打分函數(shù)值S12(A)和3維預(yù)測的二級結(jié)構(gòu)信息PSS的組合向量作為特征參數(shù)(ID(A) + ID(Q) + S12(A) + PSS),采用支持向量機(SVM)算法進行預(yù)測,其5-fold交叉檢驗的Acc和MCC的值分別為79.4%和0.49.采用隨機森林(RF)算法對該數(shù)據(jù)庫中的β-發(fā)夾模體進行預(yù)測,實施5-fold交叉檢驗,Acc和MCC的值均得到了提高,分別達到82.0%和0.55,具體結(jié)果見表1.

2.2 對自建數(shù)據(jù)集的預(yù)測結(jié)果

對于自建數(shù)據(jù)集中的β-發(fā)夾模體,我們也提取了ID(A) + ID(Q) + S17(A) + PSS作為特征參數(shù)進行預(yù)測,其支持向量機(SVM)算法結(jié)合5-fold交叉檢驗的結(jié)果是:Acc和MCC的值分別為80.2%和0.51.采用隨機森林(RF)算法對該數(shù)據(jù)庫中的β-發(fā)夾模體進行預(yù)測,實施5-fold交叉檢驗,其結(jié)果也有所提高,Acc和MCC的值分別達到83.5%和0.59,具體結(jié)果見表2.

表1 對ArchDB40數(shù)據(jù)庫中β-發(fā)夾預(yù)測的結(jié)果比較

表2 對自建數(shù)據(jù)庫中β-發(fā)夾預(yù)測結(jié)果的比較

2.3 基于高維特征參數(shù)的隨機森林算法的預(yù)測結(jié)果

考慮到隨機森林算法所具有的特殊性能,我們也直接使用位點氨基酸組分(A)、位點親疏水組分(Q)和預(yù)測的二級結(jié)構(gòu)(PSS)的組合向量(A + Q + PSS)作為輸入?yún)?shù)進行識別.需要指出的是對ArchDB40數(shù)據(jù)庫中的β-發(fā)夾來說,這里的位點氨基酸組分(A)和位點親疏水組分(Q)僅建立在前兩種截取方式(5-12和8-12)之上,故A + Q + PSS參數(shù)共675(21 × 12 × 2 + 7 × 12 × 2 + 3)維,將其輸入RF算法做5-fold交叉檢驗,其Acc和MCC的值分別是83.3%和0.59.對自建數(shù)據(jù)集中的β-發(fā)夾來說,由于每個片段只有一種截取方式,故A + Q + PSS參數(shù)共479維(21 × 17 + 7 × 17 + 3),將其輸入RF算法做5-交叉檢驗,其預(yù)測精度和相關(guān)系數(shù)分別是85.2%和0.62,詳細結(jié)果見表3.

3 結(jié) 論

本文對β-發(fā)夾模體的預(yù)測探索有以下幾點創(chuàng)新:1)整理了一個新的β-發(fā)夾數(shù)據(jù)集,這不僅豐富了β-發(fā)夾的模體數(shù),而且使得β-發(fā)夾模體包含的信息更加全面;2)對比了隨機森林(RF)和支持向量機(SVM)兩種算法的分類效果,結(jié)果顯示RF算法要好于SVM算法;3)選取了高維特征參數(shù)(A + Q + PSS)輸入RF算法進行預(yù)測,其結(jié)果得到進一步改善.

[1] Kuhn M, Meiler J, Baker D. Strand-loop-strand motifs: Prediction of hairpins and diverging turns in proteins [J]. Proteins: Structure, Function, and Bioinformatics, 2004, 54(2): 282-288.

[2] Wintjens R T, Rooman M J, Wodak S J. Automatic classification and analysis of alpha-alpha-turn motifs in proteins[J]. Journal of Molecular Biology, 1996, 255(1): 235-253.

[3] Jones D T. Protein secondary structure prediction based on position-specific scoring matrices [J]. Journal of Molecular Biology, 1999, 292(2): 195-202.

[4] Cruz X, Hutchinson E G, Shepherd A. Toward predicting protein topology: an approach to identifying β hairpins [J]. Proceedings of the National Academy Sciences of the USA, 2002, 99(17): 11157-11162.

[5] Kumar M, Bhasin M, Natt N K, et al. BhairPred: prediction of β-hairpins in a protein from multiple alignment information using ANN and SVM techniques [J]. Nucleic Acids Research, 2005, 33: 154-159.

[6] Hu X Z, Li Q Z. Prediction of the β-hairpins in proteins using support vector machine [J].Protein Journal, 2008, 27(2):115-122.

[7] Hu X Z, Li Q Z, Wang C L. Recognition of β-hairpin motifs in proteins by using the composite vector [J]. Amino Acids, 2010, 38(3): 915-921.

[8] Oliva A, Bates P A, Querol E, et al. An automated classification of the structure of protein loops [J]. Journal of Molecular Biology, 1997, 266(4): 814-830.

[9] Espadaler J, Fuentes N F, Hermoso A, et al. ArchDB: automated protein loop classification as a tool for structural genomics [J]. Nucleic Acids Research, 2004(32): 185-188.

[10] Kabsch W, Sander C. Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features [J]. Biopolymers, 1983, 22(12): 2577-2637.

[11] Hutchinson E G, Thornton J M. PROMOTIF-A program to identify and analyze structural motifs in proteins [J]. Protein Science, 1996, 5(2): 212-220.

[12] Panek J, Eidhammer I, Aasland R. A new method for identification of protein (sub) families in a set of proteins based on hydropathy distribution in proteins [J]. Proteins: Structure, Function, Bioinformatics, 2005, 58(4): 923-934.

[13] 高蘇娟, 胡秀珍. 蛋白質(zhì)中四類簡單超二級結(jié)構(gòu)的分類[J]. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報, 2013, 32(1): 21-26.

[14] 賈少春, 胡秀珍. 基于添加功能位點信息的組合向量預(yù)測β-發(fā)夾模體[J]. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報, 2012, 31(3):1-9.

[15] Laxton R R. The measure of diversity [J]. Journal of Theoretical Biology, 1978, 71(1): 51-67.

[16] Zhang L R, Luo L F. Splice site prediction with quadratic discriminate analysis using diversity measure [J]. Nucleic Acids Research, 2003, 31(21): 6214-6220.

[17] Chen Y L, Li Q Z. Prediction of the subcellular location of apoptosis proteins [J]. Journal of Theoretical Biology,2007, 245(4): 775-783.

[18] 宋航宇, 胡秀珍, 馮振興, 等. 基于統(tǒng)計特征的酶蛋白質(zhì)中特殊模體βαβ的預(yù)測[J]. 生物物理學(xué)報, 2013,29(9): 658-668.

[19] Kel A E, Gobling E, Reuter I, et al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences [J]. Nucleic Acids Research, 2003, 31(13): 3576-3579.

[20] 楊科利, 李前忠, 林昊. 預(yù)測酵母(Yeast)基因轉(zhuǎn)錄因子結(jié)合位點[J]. 內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版), 2006,37(5): 524-530.

[21] Cartharius K, Frech K, Grote K, et al. MatInspector and beyond: promoter analysis based on transcription factor binding sites [J]. Bioinformatics, 2005, 21(13): 2933-2942.

[22] 宋航宇, 胡秀珍. 基于矩陣打分值和化學(xué)位移值預(yù)測酶蛋白質(zhì)中β-發(fā)夾模體[J]. 內(nèi)蒙古工業(yè)大學(xué)學(xué)報, 2014,33(3): 175-180.

[23] Breiman L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.

[24] Okun O, Priisalu H. Random forest for gene expression based cancer classification: Overlooked issues [J]. PatternRecognition and Image Analysis, 2007, 4478(partⅡ): 483-490.

[25] 袁敏, 胡秀珍. 隨機森林方法預(yù)測膜蛋白類型[J]. 生物物理學(xué)報, 2009, 25(5): 349-355.

[26] 王麗愛, 馬昌, 周旭東, 等. 基于隨機森林回歸算法的小麥葉片SPAD值遙感估算[J]. 農(nóng)業(yè)機械學(xué)報, 2015,46(1): 259-265.

[27] 林劼, 林舒曄. 基于隨機森林算法的葡萄酒品質(zhì)預(yù)測方法[J]. 莆田學(xué)院學(xué)報, 2012, 19(5): 88-92.

[28] Liaw A, Wiener M. Classification and regression by random forest [J]. R News, 2002, 2(3): 18-22.

[29] 張超, 孫鳳, 曾憲濤. R軟件調(diào)用JAGS軟件實現(xiàn)網(wǎng)狀Meta分析[J]. 中國循證醫(yī)學(xué)雜志, 2014, 14(2): 241-248.

[30] 張超, 耿培亮, 郭毅, 等. 應(yīng)用R語言netmeta程序包實現(xiàn)網(wǎng)狀Meta分析[J]. 中國循證醫(yī)學(xué)雜志, 2014, 14(5):625-630.

[31] Vapnik V. An overview of statistical learning theory [J]. IEEE Transactions on Neural Networks, 1999, 10(5):988-999.

[32] Chang C C, Lin C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

Comparison between Random Forest and Support Vector Machine Algorithm for Prediction of β-hairpin Motif

JIA Shaochun
(Department of Mathematics, Xinzhou Teachers College, Xinzhou, China 034000)

Based on the prediction exploration of β-hairpin motifs in proteins, the random forest and support vector machine algorithm is applied in this paper to predict β-hairpin motifs in ArchDB40 (Specific database name) and the self-built dataset. For the same dataset, when using the same characteristic parameters and the same test method, Random Forest algorithm is more accurate than Support Vector Machine. In addition,Random Forest algorithm never results in the overfitting phenomenon under the higher dimension of characteristic parameters, so the Random Forest based on higher dimension characteristic parameters is applied to predict β-hairpin motifs. The better prediction results are obtained: 1. Prediction of β-hairpin motifs in ArchDB40 dataset, the overall accuracy and Matthew’s correlation coefficient of 5-fold cross-validation achieve 83.3% and 0.59 respectively; 2. Prediction of β-hairpin motifs in the self-built dataset, the overall accuracy and Matthew’s correlation coefficient of 5-fold cross-validation achieve 85.2% and 0.62,respectively.

Random Forest Algorithm; Support Vector Machine(SVM) Algorithm; β-hairpin Motif;Increment of Diversity; Predicted Secondary Structure Information

TP181

A

1674-3563(2016)03-0026-08

10.3875/j.issn.1674-3563.2016.03.005 本文的PDF文件可以從xuebao.wzu.edu.cn獲得

(編輯:王一芳)

2016-03-15

賈少春(1984- ),女,山西原平人,助教,碩士,研究方向:算法和模體預(yù)測

猜你喜歡
模體發(fā)夾組分
一種硅橡膠耳機套注塑模具
組分分發(fā)管理系統(tǒng)在天然氣計量的應(yīng)用
少了一個發(fā)夾
植入(l, d)模體發(fā)現(xiàn)若干算法的實現(xiàn)與比較
黑順片不同組分對正常小鼠的急性毒性
格格旗頭小發(fā)夾
金雀花中黃酮苷類組分鑒定及2種成分測定
基于模體演化的時序鏈路預(yù)測方法
GC法同時測定解熱消炎膠囊中4種揮發(fā)性組分
一種基于信息容量的模體比較非比對度量算法