国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于序列預(yù)測蛋白質(zhì)和RNA的相互作用

2015-02-18 01:30:00李享云
關(guān)鍵詞:傾向性核苷酸特征向量

汪 穎,李享云

(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)*

0 引言

蛋白質(zhì)與RNA的相互作用在許多生理過程中起著重要的作用,RNA參與很多基本的細(xì)胞生理過程,如攜帶來自DNA的遺傳信息,參與形成核糖體、拼接體、端粒酶等許多核酸蛋白顆粒的結(jié)構(gòu),有些RNA還具有酶活性等,幾乎所有的RNA生物功能的發(fā)揮都需要蛋白質(zhì)的共同作用.蛋白質(zhì)和RNA相互作用的研究為最終探明RNA和蛋白質(zhì)相互作用的分子機(jī)制,從本質(zhì)上認(rèn)識相關(guān)細(xì)胞生理過程起著不可忽視的重要作用.采用實(shí)驗(yàn)的方法預(yù)測蛋白質(zhì)和RNA的相互作用有很大的局限性,或因?qū)嶒?yàn)步驟過多,既耗時(shí)又費(fèi)力,也增加了實(shí)驗(yàn)結(jié)果的不穩(wěn)定性.因此,利用計(jì)算的方法預(yù)測蛋白質(zhì)和RNA相互作用成為當(dāng)前的一大趨勢.

近年來,由于RNA本身的復(fù)雜性導(dǎo)致蛋白質(zhì)和RNA相互作用的研究一直處于滯后狀態(tài).但是隨著實(shí)驗(yàn)獲取的RNA數(shù)據(jù)以及蛋白質(zhì)和RNA復(fù)合物數(shù)據(jù)的增加,蛋白質(zhì)和RNA相互作用的預(yù)測方法研究成為目前非常緊迫的一項(xiàng)重要課題.2011 年,Pancaldi和Bahler[1]首次提出了一種預(yù)測蛋白質(zhì)和RNA相互作用的方法,選取100多種顯著性較高的特征(包括Gene Ontology條款,基因和蛋白質(zhì)的物理性質(zhì),mRNA性質(zhì),蛋白質(zhì)的二級結(jié)構(gòu)以及基因的相互作用genetic interactions等)構(gòu)建特征向量.然而,由于該文中用到的特征種類較多,有些特征不易獲取,所以這種方法具有一定的局限性.同年,Bellucci等人[2]提出一種新的預(yù)測蛋白質(zhì)-RNA相互作用的方法catRAPID,考慮存在于氨基酸鏈和核苷酸鏈中的幾乎所有關(guān)聯(lián),從中選取了傾向性較高的二級結(jié)構(gòu)、氫鍵和范德華這三種性質(zhì),并基于此計(jì)算每個(gè)RNA和蛋白質(zhì)對的相互作用傾向性,用于預(yù)測蛋白質(zhì)和NRA的相互作用.以上兩種方法均考慮了蛋白質(zhì)和RNA多種性質(zhì)特征.對于現(xiàn)有的蛋白質(zhì)-RNA數(shù)據(jù)而言,都有著一定的局限性.于是在2011年和2013年,文獻(xiàn)[3-4]主要基于蛋白質(zhì)和RNA序列信息,即氨基酸和核苷酸的成分特征,構(gòu)建機(jī)器學(xué)習(xí)模型.在研究[4]中,基于蛋白質(zhì)序列中氨基酸組成成分以及RNA序列中核苷酸組成成分,通過特征選取的方法提取有效特征構(gòu)建向量,從而構(gòu)建預(yù)測模型.通過對多組數(shù)據(jù)的預(yù)測,證實(shí)了特征選取方法以及預(yù)測模型的有效性.但是,特征選取方法也存在一個(gè)弊端,即被選取的特征在某種程度上依賴于樣本數(shù)據(jù).

本文基于蛋白質(zhì)和RNA序列,提出了一種新的預(yù)測蛋白質(zhì)-RNA相互作用的方法.本文只考慮了氨基酸三聯(lián)體和核苷酸的組成成分,利用其成分比率以及氨基酸三聯(lián)體-核苷酸相互作用傾向性構(gòu)建了一種新的用于衡量蛋白質(zhì)和RNA序列對個(gè)體的三聯(lián)體-核苷酸傾向性度量,并利用該傾向性以及氨基酸三聯(lián)體和核苷酸的成分特征構(gòu)建支持向量機(jī)(support vector machine,SVM)模型,預(yù)測其相互作用.

1 預(yù)測模型和算法

1.1 氨基酸三聯(lián)體-核苷酸的相互作用傾向性

氨基酸三聯(lián)體[5]指的是三個(gè)連續(xù)的氨基酸構(gòu)成的一個(gè)整體.蛋白質(zhì)序列中共有20種氨基酸,則三聯(lián)體的總個(gè)數(shù)為20×20×20=8 000個(gè);RNA序列中有4種核苷酸,因而共有8 000×4=32 000個(gè)氨基酸三聯(lián)體-核苷酸組合.在文獻(xiàn)[6]中,針對一組來自于蛋白質(zhì)數(shù)據(jù)庫(PDB)的3149個(gè)具有相互作用的蛋白質(zhì)-RNA對,利用文獻(xiàn)[6]中氨基酸三聯(lián)體-核苷酸的相互作用傾向性度量,即文獻(xiàn)[6]中式(1),計(jì)算得到了氨基酸三聯(lián)體-核苷酸的相互作用傾向性值,見附表1.附表1中出示了32 000個(gè)三聯(lián)體-核苷酸組合的傾向性值,這些值是針對來自PDB的3149個(gè)蛋白質(zhì)-RNA序列對這個(gè)整體數(shù)據(jù)集而言,氨基酸三聯(lián)體-核苷酸的相互作用傾向性,在這里稱之為整體三聯(lián)體-核苷酸傾向性.

蛋白質(zhì)和RNA是否相互作用主要取決于氨基酸和核苷酸位點(diǎn)的結(jié)合上.因此本文試圖利用氨基酸三聯(lián)體-核苷酸的傾向性這一性質(zhì)構(gòu)建特征向量.為了更好地度量每一對蛋白質(zhì)-RNA序列個(gè)體對中三聯(lián)體-核苷酸的相互作用傾向性,我們重新定義了一個(gè)權(quán)重傾向性度量,也可稱為個(gè)體三聯(lián)體-核苷酸傾向性度量,如下:

其中,P表示蛋白質(zhì)序列;R表示RNA序列;t表示蛋白質(zhì)序列P中的氨基酸三聯(lián)體;b表示RNA序列R中的核苷酸;Nt,Nb分別表示蛋白質(zhì)序列P中氨基酸三聯(lián)體t的數(shù)量和RNA序列中核苷酸b的數(shù)量;NP,NR表示蛋白質(zhì)序列P中所有氨基酸三聯(lián)體的數(shù)量和RNA序列中所有核苷酸的數(shù)量;IPtb表示由文獻(xiàn)[6]中整體三聯(lián)體-核苷酸傾向性度量公式(1)計(jì)算得到的三聯(lián)體t和核苷酸b的相互作用傾向性值,它表示的是三聯(lián)體t和核苷酸b的整體傾向性,而本文中式(1)計(jì)算的PRIPtb值表示的是一對蛋白質(zhì)-RNA序列個(gè)體中三聯(lián)體t和核苷酸b的相互作用傾向性.以下均用三聯(lián)體-核苷酸的整體傾向性表示來自于文獻(xiàn)[6]中的度量公式(1)計(jì)算得到的傾向性,即IPtb;用三聯(lián)體-核苷酸的個(gè)體傾向性表示由本文中的權(quán)重傾向性度量公式(1)計(jì)算得到的傾向性,即PRIPtb.

1.2 構(gòu)建特征向量

為了預(yù)測一對蛋白質(zhì)-RNA序列是否相互作用,利用氨基酸三聯(lián)體-核苷酸的個(gè)體傾向性編譯特征向量.首先,根據(jù)極性和側(cè)鏈容積等性質(zhì),把20種氨基酸分成7類[5],依次是:{A,G,V},{I,L,F(xiàn),P},{Y,M,T,S},{H,N,Q,W},{R,K},{D,E},{C}.在文獻(xiàn)[5]中,作者利用氨基酸三聯(lián)體有效地預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用.本文中也同樣使用三聯(lián)體特征.20種氨基酸被分成7類,此時(shí)三聯(lián)體共有7×7×7=343類,依次可以計(jì)算出三聯(lián)體-核苷酸的組合個(gè)數(shù)為343×4=1372.給定一對蛋白質(zhì)-RNA序列,構(gòu)造如下特征向量:

1.2.1 個(gè)體氨基酸三聯(lián)體-核苷酸傾向性

第一,利用整體傾向性度量公式[6]分別計(jì)算出所有32 000個(gè)三聯(lián)體-核苷酸組合的相互作用傾向性值IPtb;

第二,基于32000個(gè)整體傾向性IPtb,計(jì)算每類三聯(lián)體-核苷酸傾向性的均值,用來表示這類三聯(lián)體-核苷酸的傾向性值,共有343×4=1372個(gè)傾向性;

第三,針對每一對蛋白質(zhì)-RNA序列,利用權(quán)重傾向性度量公式(1)計(jì)算這對序列中每類三聯(lián)體-核苷酸的個(gè)體傾向性,并以此作為特征向量.此時(shí)式(1)中的IPtb表示的是由第二步計(jì)算得到的每類三聯(lián)體-核苷酸傾向性均值,Nt表示的是蛋白質(zhì)序列中每類三聯(lián)體的數(shù)量;

第四,考慮到組合特征的冗余性,從中選擇具有較高傾向性的三聯(lián)體-核苷酸組合,并以這些三聯(lián)體-核苷酸組合為基礎(chǔ)建立特征向量.

1.2.2 氨基酸三聯(lián)體和核苷酸成分特征

第一,對于一個(gè)蛋白質(zhì)序列,計(jì)算343類三聯(lián)體的成分比率;

第二,對于一個(gè)RNA序列,計(jì)算4種核苷酸的成分比率.

1.3 樣本數(shù)據(jù)

為了證明預(yù)測的有效性,本文主要針對兩組不同種類的數(shù)據(jù)集進(jìn)行預(yù)測:一組是來自NPInter數(shù)據(jù)庫(http://www.bioinfo.org.cn/NPInter)的367對長鏈非編碼RNA(簡稱ncRNA)和蛋白質(zhì)相互作用的數(shù)據(jù)集PRI367,見表1;另一組是來自PRIDB[7]的非冗余數(shù)據(jù)集PRI369[2],見 表2.PRIDB是一個(gè)從PDB[8]里提取的一個(gè)綜合的蛋白質(zhì)和RNA復(fù)合物的數(shù)據(jù)庫.

表1 RPI367計(jì)算結(jié)果

表2 RPI369計(jì)算結(jié)果

負(fù)樣本數(shù)據(jù)的選取我們采納大多數(shù)文獻(xiàn)中的方法,即隨機(jī)選取與正樣本數(shù)據(jù)相同數(shù)量的蛋白質(zhì)和RNA序列對作為負(fù)樣本數(shù)據(jù)集,但是前提是排除那些已知有相互作用的蛋白質(zhì)-RNA對.

1.4 預(yù)測模型和算法

支持向量機(jī)(SVM)是Vapnik等人提出的一類新型機(jī)器學(xué)習(xí)方法,是基于統(tǒng)計(jì)學(xué)習(xí)理論、根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理而推導(dǎo)出來的.由于SVM出色的學(xué)習(xí)能力,普遍應(yīng)用于生物信息學(xué)研究中,很多生物信息學(xué)中的分類問題都是利用SVM進(jìn)行分類的.本文也采用SVM對蛋白質(zhì)-RNA是否有相互作用進(jìn)行分類預(yù)測.

這里簡單地介紹一下支持向量分類機(jī)的模型:

對于一個(gè)給定的訓(xùn)練集

T={(x1,c1),(x2,c2),…,(xl,cl)}

其中,xi=(xi1,xi2,…,xin)T∈Rn是輸入(input),表示第i個(gè)輸入樣本的n個(gè)特征;ci∈{-1,+1}是輸出(output),表示第i個(gè)樣本所屬的分類.引入從輸入空間到Hilbert空間的映射φ:Rn→H.支持向量機(jī)就是為了尋找一個(gè)Hilbert空間的超平面(ω·φ(x))+b=0,使得在最大間隔的基礎(chǔ)上將樣本盡可能的分開.通過使用核函數(shù)替代樣本在Hilbert空間中的內(nèi)積,來判別樣本所屬類別.考慮到RBF核函數(shù)優(yōu)于其他核函數(shù),本文使用RBF核函數(shù).

本文利用公開軟件LibSVM(version 3.18)訓(xùn)練SVM中的C-SVC,其性能依賴于參數(shù)的選擇,所需選擇的參數(shù)為:C和gamma.其中C是懲罰參數(shù),是對錯(cuò)分點(diǎn)的懲罰;gamma是RBF核函數(shù)中的參數(shù),它決定向量機(jī)的推廣能力.

2 計(jì)算結(jié)果及討論

在計(jì)算中,參數(shù) C=200和gamma=0.1.使用10折交叉驗(yàn)證程序評價(jià)我們的預(yù)測算法,預(yù)測結(jié)果的有效性主要考慮了以下幾個(gè)指標(biāo):

ACC=(TP+TN)/(TP+FP+TN+FN)

SE=TP/(TP+FN)

SP=TN/(TN+FP)

PRE=TP/(TP+FP)

其中,TP表示真的正樣本(true positives);TN表示真的負(fù)樣本(true negatives);FP表示假的正樣本(false positives)和FN表示假的負(fù)樣本(false negatives);ACC(正確率),SE(靈敏度),SP(特指度)和PRE(精度).

針對兩組數(shù)據(jù)集PRI367和PRI369,分別取100,500,1000個(gè)三聯(lián)體-核苷酸組合特征建立特征向量進(jìn)行計(jì)算,結(jié)果見表1和表2.其中N-feature表示所選取的三聯(lián)體-核苷酸傾向性的個(gè)數(shù).由計(jì)算結(jié)果可以看出,隨著所選特征的增加,RPI369的正確率有一定的提高,而RPI367的正確率反而降低了.當(dāng)特征個(gè)數(shù)增加到1 000時(shí),正確率沒有太大的變化.而在目前僅僅基于序列預(yù)測蛋白質(zhì) -RNA相互作用的工作[3]中,對RPI369數(shù)據(jù)集使用兩種分類方法(RF和SVM)實(shí)施10折交叉驗(yàn)證,正確率分別為76.2%和72.8%.在以前的研究工作中,基于 Na?ve Bayesian的分類方法對RPI367和RPI369進(jìn)行10折交叉驗(yàn)證,正確率僅僅達(dá)到77.6%和75.0%.通過比較,可以看出本文的計(jì)算結(jié)果更好一些.

氨基酸三聯(lián)體和核苷酸的相互作用傾向性被用于預(yù)測RNA結(jié)合位點(diǎn)得到了很好的預(yù)測結(jié)果,于是我們試圖把它運(yùn)用到蛋白質(zhì)-RNA相互作用的預(yù)測中.考慮到每對蛋白質(zhì)-RNA序列中三聯(lián)體-核苷酸的傾向性的差別,重新定義了一個(gè)權(quán)重傾向性度量,然后利用此度量計(jì)算每類三聯(lián)體-核苷酸的傾向性.計(jì)算結(jié)果證實(shí)了本文所選特征的有效性,同時(shí)也說明了三聯(lián)體-核苷酸的相互作用傾向性在蛋白質(zhì)-RNA相互作用預(yù)測中起著不可忽視的重要作用.

[1]PANCALDI V,BAHLER J.In silico characterization and prediction of global protein RNA interactions in yeast[J].Nucleic Acids Res.,2011,39:5826-5836.

[2]BELLUCCI M,AGOSTINI F,MASIN M,et al.Predicting protein associations with long noncoding RNAs[J].Nat.Methods,2011(8):444-445.

[3]MUPPIRALA U K,HONAVAR V G,DOBBS D.Predicting RNA-protein interactions using only sequence information[J].BMC Bioinformatics,2011,12:489.

[4]WANG Y,CHEN X W,LIU Z P,et al.De novo prediction of RNA-protein interactions from sequence information[J].Mol.BioSyst.,2013(9):133-142.

[5]SHEN J,ZHANG J,LUO X,et al.Predicting proteinprotein interactions based only on sequences information[J].Proc.Natl.Acad.Sci.U.S.A.,2007,104:4337-4341.

[6]CHOI S,HAN K.Prediction of RNA-binding amino acids from protein and RNA sequences.BMC Bioinformatics[J].2011,12(Suppl 13):7.

[7]LEWIS BA,WALIA R R ,TERRIBILINI M ,et al.PRIDB:a Protein-RNA Interface Database[J].Nucleic Acids Res.,2011,39:80-82.

[8]BERMAN H M ,WESTBROOK J,F(xiàn)ENG Z,et al.The Protein Data Bank[J].Nucleic Acids Res.,2000,28:235-242.

猜你喜歡
傾向性核苷酸特征向量
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
徐長風(fēng):核苷酸類似物的副作用
肝博士(2022年3期)2022-06-30 02:48:28
克羅內(nèi)克積的特征向量
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
Acknowledgment to reviewers—November 2018 to September 2019
一類特殊矩陣特征向量的求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
“沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
語言與翻譯(2015年4期)2015-07-18 11:07:43
太湖县| 全州县| 长武县| 林芝县| 凭祥市| 定襄县| 新乡县| 江孜县| 准格尔旗| 始兴县| 巴楚县| 永和县| 肇源县| 广饶县| 高平市| 靖江市| 双城市| 商都县| 怀远县| 永修县| 增城市| 岳阳县| 凤台县| 饶阳县| 平邑县| 黔南| 射洪县| 集安市| 台中市| 蒲江县| 凌海市| 泸定县| 大同市| 麻城市| 视频| 莆田市| 娄底市| 叙永县| 绥德县| 山阳县| 云安县|