汪 穎,李享云
(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)*
蛋白質(zhì)與RNA的相互作用在許多生理過程中起著重要的作用,RNA參與很多基本的細(xì)胞生理過程,如攜帶來自DNA的遺傳信息,參與形成核糖體、拼接體、端粒酶等許多核酸蛋白顆粒的結(jié)構(gòu),有些RNA還具有酶活性等,幾乎所有的RNA生物功能的發(fā)揮都需要蛋白質(zhì)的共同作用.蛋白質(zhì)和RNA相互作用的研究為最終探明RNA和蛋白質(zhì)相互作用的分子機(jī)制,從本質(zhì)上認(rèn)識相關(guān)細(xì)胞生理過程起著不可忽視的重要作用.采用實(shí)驗(yàn)的方法預(yù)測蛋白質(zhì)和RNA的相互作用有很大的局限性,或因?qū)嶒?yàn)步驟過多,既耗時(shí)又費(fèi)力,也增加了實(shí)驗(yàn)結(jié)果的不穩(wěn)定性.因此,利用計(jì)算的方法預(yù)測蛋白質(zhì)和RNA相互作用成為當(dāng)前的一大趨勢.
近年來,由于RNA本身的復(fù)雜性導(dǎo)致蛋白質(zhì)和RNA相互作用的研究一直處于滯后狀態(tài).但是隨著實(shí)驗(yàn)獲取的RNA數(shù)據(jù)以及蛋白質(zhì)和RNA復(fù)合物數(shù)據(jù)的增加,蛋白質(zhì)和RNA相互作用的預(yù)測方法研究成為目前非常緊迫的一項(xiàng)重要課題.2011 年,Pancaldi和Bahler[1]首次提出了一種預(yù)測蛋白質(zhì)和RNA相互作用的方法,選取100多種顯著性較高的特征(包括Gene Ontology條款,基因和蛋白質(zhì)的物理性質(zhì),mRNA性質(zhì),蛋白質(zhì)的二級結(jié)構(gòu)以及基因的相互作用genetic interactions等)構(gòu)建特征向量.然而,由于該文中用到的特征種類較多,有些特征不易獲取,所以這種方法具有一定的局限性.同年,Bellucci等人[2]提出一種新的預(yù)測蛋白質(zhì)-RNA相互作用的方法catRAPID,考慮存在于氨基酸鏈和核苷酸鏈中的幾乎所有關(guān)聯(lián),從中選取了傾向性較高的二級結(jié)構(gòu)、氫鍵和范德華這三種性質(zhì),并基于此計(jì)算每個(gè)RNA和蛋白質(zhì)對的相互作用傾向性,用于預(yù)測蛋白質(zhì)和NRA的相互作用.以上兩種方法均考慮了蛋白質(zhì)和RNA多種性質(zhì)特征.對于現(xiàn)有的蛋白質(zhì)-RNA數(shù)據(jù)而言,都有著一定的局限性.于是在2011年和2013年,文獻(xiàn)[3-4]主要基于蛋白質(zhì)和RNA序列信息,即氨基酸和核苷酸的成分特征,構(gòu)建機(jī)器學(xué)習(xí)模型.在研究[4]中,基于蛋白質(zhì)序列中氨基酸組成成分以及RNA序列中核苷酸組成成分,通過特征選取的方法提取有效特征構(gòu)建向量,從而構(gòu)建預(yù)測模型.通過對多組數(shù)據(jù)的預(yù)測,證實(shí)了特征選取方法以及預(yù)測模型的有效性.但是,特征選取方法也存在一個(gè)弊端,即被選取的特征在某種程度上依賴于樣本數(shù)據(jù).
本文基于蛋白質(zhì)和RNA序列,提出了一種新的預(yù)測蛋白質(zhì)-RNA相互作用的方法.本文只考慮了氨基酸三聯(lián)體和核苷酸的組成成分,利用其成分比率以及氨基酸三聯(lián)體-核苷酸相互作用傾向性構(gòu)建了一種新的用于衡量蛋白質(zhì)和RNA序列對個(gè)體的三聯(lián)體-核苷酸傾向性度量,并利用該傾向性以及氨基酸三聯(lián)體和核苷酸的成分特征構(gòu)建支持向量機(jī)(support vector machine,SVM)模型,預(yù)測其相互作用.
氨基酸三聯(lián)體[5]指的是三個(gè)連續(xù)的氨基酸構(gòu)成的一個(gè)整體.蛋白質(zhì)序列中共有20種氨基酸,則三聯(lián)體的總個(gè)數(shù)為20×20×20=8 000個(gè);RNA序列中有4種核苷酸,因而共有8 000×4=32 000個(gè)氨基酸三聯(lián)體-核苷酸組合.在文獻(xiàn)[6]中,針對一組來自于蛋白質(zhì)數(shù)據(jù)庫(PDB)的3149個(gè)具有相互作用的蛋白質(zhì)-RNA對,利用文獻(xiàn)[6]中氨基酸三聯(lián)體-核苷酸的相互作用傾向性度量,即文獻(xiàn)[6]中式(1),計(jì)算得到了氨基酸三聯(lián)體-核苷酸的相互作用傾向性值,見附表1.附表1中出示了32 000個(gè)三聯(lián)體-核苷酸組合的傾向性值,這些值是針對來自PDB的3149個(gè)蛋白質(zhì)-RNA序列對這個(gè)整體數(shù)據(jù)集而言,氨基酸三聯(lián)體-核苷酸的相互作用傾向性,在這里稱之為整體三聯(lián)體-核苷酸傾向性.
蛋白質(zhì)和RNA是否相互作用主要取決于氨基酸和核苷酸位點(diǎn)的結(jié)合上.因此本文試圖利用氨基酸三聯(lián)體-核苷酸的傾向性這一性質(zhì)構(gòu)建特征向量.為了更好地度量每一對蛋白質(zhì)-RNA序列個(gè)體對中三聯(lián)體-核苷酸的相互作用傾向性,我們重新定義了一個(gè)權(quán)重傾向性度量,也可稱為個(gè)體三聯(lián)體-核苷酸傾向性度量,如下:
其中,P表示蛋白質(zhì)序列;R表示RNA序列;t表示蛋白質(zhì)序列P中的氨基酸三聯(lián)體;b表示RNA序列R中的核苷酸;Nt,Nb分別表示蛋白質(zhì)序列P中氨基酸三聯(lián)體t的數(shù)量和RNA序列中核苷酸b的數(shù)量;NP,NR表示蛋白質(zhì)序列P中所有氨基酸三聯(lián)體的數(shù)量和RNA序列中所有核苷酸的數(shù)量;IPtb表示由文獻(xiàn)[6]中整體三聯(lián)體-核苷酸傾向性度量公式(1)計(jì)算得到的三聯(lián)體t和核苷酸b的相互作用傾向性值,它表示的是三聯(lián)體t和核苷酸b的整體傾向性,而本文中式(1)計(jì)算的PRIPtb值表示的是一對蛋白質(zhì)-RNA序列個(gè)體中三聯(lián)體t和核苷酸b的相互作用傾向性.以下均用三聯(lián)體-核苷酸的整體傾向性表示來自于文獻(xiàn)[6]中的度量公式(1)計(jì)算得到的傾向性,即IPtb;用三聯(lián)體-核苷酸的個(gè)體傾向性表示由本文中的權(quán)重傾向性度量公式(1)計(jì)算得到的傾向性,即PRIPtb.
為了預(yù)測一對蛋白質(zhì)-RNA序列是否相互作用,利用氨基酸三聯(lián)體-核苷酸的個(gè)體傾向性編譯特征向量.首先,根據(jù)極性和側(cè)鏈容積等性質(zhì),把20種氨基酸分成7類[5],依次是:{A,G,V},{I,L,F(xiàn),P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E},{C}.在文獻(xiàn)[5]中,作者利用氨基酸三聯(lián)體有效地預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用.本文中也同樣使用三聯(lián)體特征.20種氨基酸被分成7類,此時(shí)三聯(lián)體共有7×7×7=343類,依次可以計(jì)算出三聯(lián)體-核苷酸的組合個(gè)數(shù)為343×4=1372.給定一對蛋白質(zhì)-RNA序列,構(gòu)造如下特征向量:
1.2.1 個(gè)體氨基酸三聯(lián)體-核苷酸傾向性
第一,利用整體傾向性度量公式[6]分別計(jì)算出所有32 000個(gè)三聯(lián)體-核苷酸組合的相互作用傾向性值IPtb;
第二,基于32000個(gè)整體傾向性IPtb,計(jì)算每類三聯(lián)體-核苷酸傾向性的均值,用來表示這類三聯(lián)體-核苷酸的傾向性值,共有343×4=1372個(gè)傾向性;
第三,針對每一對蛋白質(zhì)-RNA序列,利用權(quán)重傾向性度量公式(1)計(jì)算這對序列中每類三聯(lián)體-核苷酸的個(gè)體傾向性,并以此作為特征向量.此時(shí)式(1)中的IPtb表示的是由第二步計(jì)算得到的每類三聯(lián)體-核苷酸傾向性均值,Nt表示的是蛋白質(zhì)序列中每類三聯(lián)體的數(shù)量;
第四,考慮到組合特征的冗余性,從中選擇具有較高傾向性的三聯(lián)體-核苷酸組合,并以這些三聯(lián)體-核苷酸組合為基礎(chǔ)建立特征向量.
1.2.2 氨基酸三聯(lián)體和核苷酸成分特征
第一,對于一個(gè)蛋白質(zhì)序列,計(jì)算343類三聯(lián)體的成分比率;
第二,對于一個(gè)RNA序列,計(jì)算4種核苷酸的成分比率.
為了證明預(yù)測的有效性,本文主要針對兩組不同種類的數(shù)據(jù)集進(jìn)行預(yù)測:一組是來自NPInter數(shù)據(jù)庫(http://www.bioinfo.org.cn/NPInter)的367對長鏈非編碼RNA(簡稱ncRNA)和蛋白質(zhì)相互作用的數(shù)據(jù)集PRI367,見表1;另一組是來自PRIDB[7]的非冗余數(shù)據(jù)集PRI369[2],見 表2.PRIDB是一個(gè)從PDB[8]里提取的一個(gè)綜合的蛋白質(zhì)和RNA復(fù)合物的數(shù)據(jù)庫.
表1 RPI367計(jì)算結(jié)果
表2 RPI369計(jì)算結(jié)果
負(fù)樣本數(shù)據(jù)的選取我們采納大多數(shù)文獻(xiàn)中的方法,即隨機(jī)選取與正樣本數(shù)據(jù)相同數(shù)量的蛋白質(zhì)和RNA序列對作為負(fù)樣本數(shù)據(jù)集,但是前提是排除那些已知有相互作用的蛋白質(zhì)-RNA對.
支持向量機(jī)(SVM)是Vapnik等人提出的一類新型機(jī)器學(xué)習(xí)方法,是基于統(tǒng)計(jì)學(xué)習(xí)理論、根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理而推導(dǎo)出來的.由于SVM出色的學(xué)習(xí)能力,普遍應(yīng)用于生物信息學(xué)研究中,很多生物信息學(xué)中的分類問題都是利用SVM進(jìn)行分類的.本文也采用SVM對蛋白質(zhì)-RNA是否有相互作用進(jìn)行分類預(yù)測.
這里簡單地介紹一下支持向量分類機(jī)的模型:
對于一個(gè)給定的訓(xùn)練集
T={(x1,c1),(x2,c2),…,(xl,cl)}
其中,xi=(xi1,xi2,…,xin)T∈Rn是輸入(input),表示第i個(gè)輸入樣本的n個(gè)特征;ci∈{-1,+1}是輸出(output),表示第i個(gè)樣本所屬的分類.引入從輸入空間到Hilbert空間的映射φ:Rn→H.支持向量機(jī)就是為了尋找一個(gè)Hilbert空間的超平面(ω·φ(x))+b=0,使得在最大間隔的基礎(chǔ)上將樣本盡可能的分開.通過使用核函數(shù)替代樣本在Hilbert空間中的內(nèi)積,來判別樣本所屬類別.考慮到RBF核函數(shù)優(yōu)于其他核函數(shù),本文使用RBF核函數(shù).
本文利用公開軟件LibSVM(version 3.18)訓(xùn)練SVM中的C-SVC,其性能依賴于參數(shù)的選擇,所需選擇的參數(shù)為:C和gamma.其中C是懲罰參數(shù),是對錯(cuò)分點(diǎn)的懲罰;gamma是RBF核函數(shù)中的參數(shù),它決定向量機(jī)的推廣能力.
在計(jì)算中,參數(shù) C=200和gamma=0.1.使用10折交叉驗(yàn)證程序評價(jià)我們的預(yù)測算法,預(yù)測結(jié)果的有效性主要考慮了以下幾個(gè)指標(biāo):
ACC=(TP+TN)/(TP+FP+TN+FN)
SE=TP/(TP+FN)
SP=TN/(TN+FP)
PRE=TP/(TP+FP)
其中,TP表示真的正樣本(true positives);TN表示真的負(fù)樣本(true negatives);FP表示假的正樣本(false positives)和FN表示假的負(fù)樣本(false negatives);ACC(正確率),SE(靈敏度),SP(特指度)和PRE(精度).
針對兩組數(shù)據(jù)集PRI367和PRI369,分別取100,500,1000個(gè)三聯(lián)體-核苷酸組合特征建立特征向量進(jìn)行計(jì)算,結(jié)果見表1和表2.其中N-feature表示所選取的三聯(lián)體-核苷酸傾向性的個(gè)數(shù).由計(jì)算結(jié)果可以看出,隨著所選特征的增加,RPI369的正確率有一定的提高,而RPI367的正確率反而降低了.當(dāng)特征個(gè)數(shù)增加到1 000時(shí),正確率沒有太大的變化.而在目前僅僅基于序列預(yù)測蛋白質(zhì) -RNA相互作用的工作[3]中,對RPI369數(shù)據(jù)集使用兩種分類方法(RF和SVM)實(shí)施10折交叉驗(yàn)證,正確率分別為76.2%和72.8%.在以前的研究工作中,基于 Na?ve Bayesian的分類方法對RPI367和RPI369進(jìn)行10折交叉驗(yàn)證,正確率僅僅達(dá)到77.6%和75.0%.通過比較,可以看出本文的計(jì)算結(jié)果更好一些.
氨基酸三聯(lián)體和核苷酸的相互作用傾向性被用于預(yù)測RNA結(jié)合位點(diǎn)得到了很好的預(yù)測結(jié)果,于是我們試圖把它運(yùn)用到蛋白質(zhì)-RNA相互作用的預(yù)測中.考慮到每對蛋白質(zhì)-RNA序列中三聯(lián)體-核苷酸的傾向性的差別,重新定義了一個(gè)權(quán)重傾向性度量,然后利用此度量計(jì)算每類三聯(lián)體-核苷酸的傾向性.計(jì)算結(jié)果證實(shí)了本文所選特征的有效性,同時(shí)也說明了三聯(lián)體-核苷酸的相互作用傾向性在蛋白質(zhì)-RNA相互作用預(yù)測中起著不可忽視的重要作用.
[1]PANCALDI V,BAHLER J.In silico characterization and prediction of global protein RNA interactions in yeast[J].Nucleic Acids Res.,2011,39:5826-5836.
[2]BELLUCCI M,AGOSTINI F,MASIN M,et al.Predicting protein associations with long noncoding RNAs[J].Nat.Methods,2011(8):444-445.
[3]MUPPIRALA U K,HONAVAR V G,DOBBS D.Predicting RNA-protein interactions using only sequence information[J].BMC Bioinformatics,2011,12:489.
[4]WANG Y,CHEN X W,LIU Z P,et al.De novo prediction of RNA-protein interactions from sequence information[J].Mol.BioSyst.,2013(9):133-142.
[5]SHEN J,ZHANG J,LUO X,et al.Predicting proteinprotein interactions based only on sequences information[J].Proc.Natl.Acad.Sci.U.S.A.,2007,104:4337-4341.
[6]CHOI S,HAN K.Prediction of RNA-binding amino acids from protein and RNA sequences.BMC Bioinformatics[J].2011,12(Suppl 13):7.
[7]LEWIS BA,WALIA R R ,TERRIBILINI M ,et al.PRIDB:a Protein-RNA Interface Database[J].Nucleic Acids Res.,2011,39:80-82.
[8]BERMAN H M ,WESTBROOK J,F(xiàn)ENG Z,et al.The Protein Data Bank[J].Nucleic Acids Res.,2000,28:235-242.