基于序列預(yù)測蛋白質(zhì)和RNA的相互作用

2015-02-18 01:30:00李享云

大連交通大學(xué)學(xué)報(bào) 2015年4期

汪穎，李享云

(大連交通大學(xué) 理學(xué)院，遼寧大連 116028)*

0 引言

蛋白質(zhì)與RNA的相互作用在許多生理過程中起著重要的作用，RNA參與很多基本的細(xì)胞生理過程，如攜帶來自DNA的遺傳信息，參與形成核糖體、拼接體、端粒酶等許多核酸蛋白顆粒的結(jié)構(gòu)，有些RNA還具有酶活性等，幾乎所有的RNA生物功能的發(fā)揮都需要蛋白質(zhì)的共同作用.蛋白質(zhì)和RNA相互作用的研究為最終探明RNA和蛋白質(zhì)相互作用的分子機(jī)制，從本質(zhì)上認(rèn)識相關(guān)細(xì)胞生理過程起著不可忽視的重要作用.采用實(shí)驗(yàn)的方法預(yù)測蛋白質(zhì)和RNA的相互作用有很大的局限性，或因?qū)嶒?yàn)步驟過多，既耗時(shí)又費(fèi)力，也增加了實(shí)驗(yàn)結(jié)果的不穩(wěn)定性.因此，利用計(jì)算的方法預(yù)測蛋白質(zhì)和RNA相互作用成為當(dāng)前的一大趨勢.

近年來，由于RNA本身的復(fù)雜性導(dǎo)致蛋白質(zhì)和RNA相互作用的研究一直處于滯后狀態(tài).但是隨著實(shí)驗(yàn)獲取的RNA數(shù)據(jù)以及蛋白質(zhì)和RNA復(fù)合物數(shù)據(jù)的增加，蛋白質(zhì)和RNA相互作用的預(yù)測方法研究成為目前非常緊迫的一項(xiàng)重要課題.2011 年，Pancaldi和Bahler［1］首次提出了一種預(yù)測蛋白質(zhì)和RNA相互作用的方法，選取100多種顯著性較高的特征(包括Gene Ontology條款，基因和蛋白質(zhì)的物理性質(zhì)，mRNA性質(zhì)，蛋白質(zhì)的二級結(jié)構(gòu)以及基因的相互作用genetic interactions等)構(gòu)建特征向量.然而，由于該文中用到的特征種類較多，有些特征不易獲取，所以這種方法具有一定的局限性.同年，Bellucci等人［2］提出一種新的預(yù)測蛋白質(zhì)-RNA相互作用的方法catRAPID，考慮存在于氨基酸鏈和核苷酸鏈中的幾乎所有關(guān)聯(lián)，從中選取了傾向性較高的二級結(jié)構(gòu)、氫鍵和范德華這三種性質(zhì)，并基于此計(jì)算每個(gè)RNA和蛋白質(zhì)對的相互作用傾向性，用于預(yù)測蛋白質(zhì)和NRA的相互作用.以上兩種方法均考慮了蛋白質(zhì)和RNA多種性質(zhì)特征.對于現(xiàn)有的蛋白質(zhì)-RNA數(shù)據(jù)而言，都有著一定的局限性.于是在2011年和2013年，文獻(xiàn)［3-4］主要基于蛋白質(zhì)和RNA序列信息，即氨基酸和核苷酸的成分特征，構(gòu)建機(jī)器學(xué)習(xí)模型.在研究［4］中，基于蛋白質(zhì)序列中氨基酸組成成分以及RNA序列中核苷酸組成成分，通過特征選取的方法提取有效特征構(gòu)建向量，從而構(gòu)建預(yù)測模型.通過對多組數(shù)據(jù)的預(yù)測，證實(shí)了特征選取方法以及預(yù)測模型的有效性.但是，特征選取方法也存在一個(gè)弊端，即被選取的特征在某種程度上依賴于樣本數(shù)據(jù).

本文基于蛋白質(zhì)和RNA序列，提出了一種新的預(yù)測蛋白質(zhì)-RNA相互作用的方法.本文只考慮了氨基酸三聯(lián)體和核苷酸的組成成分，利用其成分比率以及氨基酸三聯(lián)體-核苷酸相互作用傾向性構(gòu)建了一種新的用于衡量蛋白質(zhì)和RNA序列對個(gè)體的三聯(lián)體-核苷酸傾向性度量，并利用該傾向性以及氨基酸三聯(lián)體和核苷酸的成分特征構(gòu)建支持向量機(jī)(support vector machine，SVM)模型，預(yù)測其相互作用.

1 預(yù)測模型和算法

1.1 氨基酸三聯(lián)體-核苷酸的相互作用傾向性

氨基酸三聯(lián)體［5］指的是三個(gè)連續(xù)的氨基酸構(gòu)成的一個(gè)整體.蛋白質(zhì)序列中共有20種氨基酸，則三聯(lián)體的總個(gè)數(shù)為20×20×20=8 000個(gè);RNA序列中有4種核苷酸，因而共有8 000×4=32 000個(gè)氨基酸三聯(lián)體-核苷酸組合.在文獻(xiàn)［6］中，針對一組來自于蛋白質(zhì)數(shù)據(jù)庫(PDB)的3149個(gè)具有相互作用的蛋白質(zhì)-RNA對，利用文獻(xiàn)［6］中氨基酸三聯(lián)體-核苷酸的相互作用傾向性度量，即文獻(xiàn)［6］中式(1)，計(jì)算得到了氨基酸三聯(lián)體-核苷酸的相互作用傾向性值，見附表1.附表1中出示了32 000個(gè)三聯(lián)體-核苷酸組合的傾向性值，這些值是針對來自PDB的3149個(gè)蛋白質(zhì)-RNA序列對這個(gè)整體數(shù)據(jù)集而言，氨基酸三聯(lián)體-核苷酸的相互作用傾向性，在這里稱之為整體三聯(lián)體-核苷酸傾向性.

蛋白質(zhì)和RNA是否相互作用主要取決于氨基酸和核苷酸位點(diǎn)的結(jié)合上.因此本文試圖利用氨基酸三聯(lián)體-核苷酸的傾向性這一性質(zhì)構(gòu)建特征向量.為了更好地度量每一對蛋白質(zhì)-RNA序列個(gè)體對中三聯(lián)體-核苷酸的相互作用傾向性，我們重新定義了一個(gè)權(quán)重傾向性度量，也可稱為個(gè)體三聯(lián)體-核苷酸傾向性度量，如下:

其中，P表示蛋白質(zhì)序列;R表示RNA序列;t表示蛋白質(zhì)序列P中的氨基酸三聯(lián)體;b表示RNA序列R中的核苷酸;Nt，Nb分別表示蛋白質(zhì)序列P中氨基酸三聯(lián)體t的數(shù)量和RNA序列中核苷酸b的數(shù)量;NP，NR表示蛋白質(zhì)序列P中所有氨基酸三聯(lián)體的數(shù)量和RNA序列中所有核苷酸的數(shù)量;IPtb表示由文獻(xiàn)［6］中整體三聯(lián)體-核苷酸傾向性度量公式(1)計(jì)算得到的三聯(lián)體t和核苷酸b的相互作用傾向性值，它表示的是三聯(lián)體t和核苷酸b的整體傾向性，而本文中式(1)計(jì)算的PRIPtb值表示的是一對蛋白質(zhì)-RNA序列個(gè)體中三聯(lián)體t和核苷酸b的相互作用傾向性.以下均用三聯(lián)體-核苷酸的整體傾向性表示來自于文獻(xiàn)［6］中的度量公式(1)計(jì)算得到的傾向性，即IPtb;用三聯(lián)體-核苷酸的個(gè)體傾向性表示由本文中的權(quán)重傾向性度量公式(1)計(jì)算得到的傾向性，即PRIPtb.

1.2 構(gòu)建特征向量

為了預(yù)測一對蛋白質(zhì)-RNA序列是否相互作用，利用氨基酸三聯(lián)體-核苷酸的個(gè)體傾向性編譯特征向量.首先，根據(jù)極性和側(cè)鏈容積等性質(zhì)，把20種氨基酸分成7類［5］，依次是:{A，G，V}，{I，L，F(xiàn)，P}，{Y，M，T，S}，{H，N，Q，W}，{R，K}，{D，E}，{C}.在文獻(xiàn)［5］中，作者利用氨基酸三聯(lián)體有效地預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用.本文中也同樣使用三聯(lián)體特征.20種氨基酸被分成7類，此時(shí)三聯(lián)體共有7×7×7=343類，依次可以計(jì)算出三聯(lián)體-核苷酸的組合個(gè)數(shù)為343×4=1372.給定一對蛋白質(zhì)-RNA序列，構(gòu)造如下特征向量:

1.2.1 個(gè)體氨基酸三聯(lián)體-核苷酸傾向性

第一，利用整體傾向性度量公式［6］分別計(jì)算出所有32 000個(gè)三聯(lián)體-核苷酸組合的相互作用傾向性值IPtb;

第二，基于32000個(gè)整體傾向性IPtb，計(jì)算每類三聯(lián)體-核苷酸傾向性的均值，用來表示這類三聯(lián)體-核苷酸的傾向性值，共有343×4=1372個(gè)傾向性;

第三，針對每一對蛋白質(zhì)-RNA序列，利用權(quán)重傾向性度量公式(1)計(jì)算這對序列中每類三聯(lián)體-核苷酸的個(gè)體傾向性，并以此作為特征向量.此時(shí)式(1)中的IPtb表示的是由第二步計(jì)算得到的每類三聯(lián)體-核苷酸傾向性均值，Nt表示的是蛋白質(zhì)序列中每類三聯(lián)體的數(shù)量;

第四，考慮到組合特征的冗余性，從中選擇具有較高傾向性的三聯(lián)體-核苷酸組合，并以這些三聯(lián)體-核苷酸組合為基礎(chǔ)建立特征向量.

1.2.2 氨基酸三聯(lián)體和核苷酸成分特征

第一，對于一個(gè)蛋白質(zhì)序列，計(jì)算343類三聯(lián)體的成分比率;

第二，對于一個(gè)RNA序列，計(jì)算4種核苷酸的成分比率.

1.3 樣本數(shù)據(jù)

為了證明預(yù)測的有效性，本文主要針對兩組不同種類的數(shù)據(jù)集進(jìn)行預(yù)測:一組是來自NPInter數(shù)據(jù)庫(http://www.bioinfo.org.cn/NPInter)的367對長鏈非編碼RNA(簡稱ncRNA)和蛋白質(zhì)相互作用的數(shù)據(jù)集PRI367，見表1;另一組是來自PRIDB［7］的非冗余數(shù)據(jù)集PRI369［2］，見表2.PRIDB是一個(gè)從PDB［8］里提取的一個(gè)綜合的蛋白質(zhì)和RNA復(fù)合物的數(shù)據(jù)庫.

表1 RPI367計(jì)算結(jié)果

表2 RPI369計(jì)算結(jié)果

負(fù)樣本數(shù)據(jù)的選取我們采納大多數(shù)文獻(xiàn)中的方法，即隨機(jī)選取與正樣本數(shù)據(jù)相同數(shù)量的蛋白質(zhì)和RNA序列對作為負(fù)樣本數(shù)據(jù)集，但是前提是排除那些已知有相互作用的蛋白質(zhì)-RNA對.

1.4 預(yù)測模型和算法

支持向量機(jī)(SVM)是Vapnik等人提出的一類新型機(jī)器學(xué)習(xí)方法，是基于統(tǒng)計(jì)學(xué)習(xí)理論、根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理而推導(dǎo)出來的.由于SVM出色的學(xué)習(xí)能力，普遍應(yīng)用于生物信息學(xué)研究中，很多生物信息學(xué)中的分類問題都是利用SVM進(jìn)行分類的.本文也采用SVM對蛋白質(zhì)-RNA是否有相互作用進(jìn)行分類預(yù)測.

這里簡單地介紹一下支持向量分類機(jī)的模型:

對于一個(gè)給定的訓(xùn)練集

T={(x1，c1)，(x2，c2)，…，(xl，cl)}

其中，xi=(xi1，xi2，…，xin)T∈Rn是輸入(input)，表示第i個(gè)輸入樣本的n個(gè)特征;ci∈{-1，+1}是輸出(output)，表示第i個(gè)樣本所屬的分類.引入從輸入空間到Hilbert空間的映射φ:Rn→H.支持向量機(jī)就是為了尋找一個(gè)Hilbert空間的超平面(ω·φ(x))+b=0，使得在最大間隔的基礎(chǔ)上將樣本盡可能的分開.通過使用核函數(shù)替代樣本在Hilbert空間中的內(nèi)積，來判別樣本所屬類別.考慮到RBF核函數(shù)優(yōu)于其他核函數(shù)，本文使用RBF核函數(shù).

本文利用公開軟件LibSVM(version 3.18)訓(xùn)練SVM中的C-SVC，其性能依賴于參數(shù)的選擇，所需選擇的參數(shù)為:C和gamma.其中C是懲罰參數(shù)，是對錯(cuò)分點(diǎn)的懲罰;gamma是RBF核函數(shù)中的參數(shù)，它決定向量機(jī)的推廣能力.

2 計(jì)算結(jié)果及討論

在計(jì)算中，參數(shù) C=200和gamma=0.1.使用10折交叉驗(yàn)證程序評價(jià)我們的預(yù)測算法，預(yù)測結(jié)果的有效性主要考慮了以下幾個(gè)指標(biāo):

ACC=(TP+TN)/(TP+FP+TN+FN)

SE=TP/(TP+FN)

SP=TN/(TN+FP)

PRE=TP/(TP+FP)

其中，TP表示真的正樣本(true positives);TN表示真的負(fù)樣本(true negatives);FP表示假的正樣本(false positives)和FN表示假的負(fù)樣本(false negatives);ACC(正確率)，SE(靈敏度)，SP(特指度)和PRE(精度).

針對兩組數(shù)據(jù)集PRI367和PRI369，分別取100，500，1000個(gè)三聯(lián)體-核苷酸組合特征建立特征向量進(jìn)行計(jì)算，結(jié)果見表1和表2.其中N-feature表示所選取的三聯(lián)體-核苷酸傾向性的個(gè)數(shù).由計(jì)算結(jié)果可以看出，隨著所選特征的增加，RPI369的正確率有一定的提高，而RPI367的正確率反而降低了.當(dāng)特征個(gè)數(shù)增加到1 000時(shí)，正確率沒有太大的變化.而在目前僅僅基于序列預(yù)測蛋白質(zhì) -RNA相互作用的工作［3］中，對RPI369數(shù)據(jù)集使用兩種分類方法(RF和SVM)實(shí)施10折交叉驗(yàn)證，正確率分別為76.2%和72.8%.在以前的研究工作中，基于 Na?ve Bayesian的分類方法對RPI367和RPI369進(jìn)行10折交叉驗(yàn)證，正確率僅僅達(dá)到77.6%和75.0%.通過比較，可以看出本文的計(jì)算結(jié)果更好一些.

氨基酸三聯(lián)體和核苷酸的相互作用傾向性被用于預(yù)測RNA結(jié)合位點(diǎn)得到了很好的預(yù)測結(jié)果，于是我們試圖把它運(yùn)用到蛋白質(zhì)-RNA相互作用的預(yù)測中.考慮到每對蛋白質(zhì)-RNA序列中三聯(lián)體-核苷酸的傾向性的差別，重新定義了一個(gè)權(quán)重傾向性度量，然后利用此度量計(jì)算每類三聯(lián)體-核苷酸的傾向性.計(jì)算結(jié)果證實(shí)了本文所選特征的有效性，同時(shí)也說明了三聯(lián)體-核苷酸的相互作用傾向性在蛋白質(zhì)-RNA相互作用預(yù)測中起著不可忽視的重要作用.

［1］PANCALDI V，BAHLER J.In silico characterization and prediction of global protein RNA interactions in yeast［J］.Nucleic Acids Res.，2011，39:5826-5836.

［2］BELLUCCI M，AGOSTINI F，MASIN M，et al.Predicting protein associations with long noncoding RNAs［J］.Nat.Methods，2011(8):444-445.

［3］MUPPIRALA U K，HONAVAR V G，DOBBS D.Predicting RNA-protein interactions using only sequence information［J］.BMC Bioinformatics，2011，12:489.

［4］WANG Y，CHEN X W，LIU Z P，et al.De novo prediction of RNA-protein interactions from sequence information［J］.Mol.BioSyst.，2013(9):133-142.

［5］SHEN J，ZHANG J，LUO X，et al.Predicting proteinprotein interactions based only on sequences information［J］.Proc.Natl.Acad.Sci.U.S.A.，2007，104:4337-4341.

［6］CHOI S，HAN K.Prediction of RNA-binding amino acids from protein and RNA sequences.BMC Bioinformatics［J］.2011，12(Suppl 13):7.

［7］LEWIS BA，WALIA R R ，TERRIBILINI M ，et al.PRIDB:a Protein-RNA Interface Database［J］.Nucleic Acids Res.，2011，39:80-82.

［8］BERMAN H M ，WESTBROOK J，F(xiàn)ENG Z，et al.The Protein Data Bank［J］.Nucleic Acids Res.，2000，28:235-242.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡