国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PDB數(shù)據(jù)庫的三個RNA二級結(jié)構(gòu)預(yù)測軟件評估

2016-01-15 01:38:02劉偉,黃伊子,李都悅
生物信息學(xué) 2015年1期
關(guān)鍵詞:準(zhǔn)確性

基于PDB數(shù)據(jù)庫的三個RNA二級結(jié)構(gòu)預(yù)測軟件評估

劉偉1,3, 黃伊子1,3, 李都悅1,3, 向妍1,3, 周瑋1,2,3*

(1.湖南農(nóng)業(yè)大學(xué)植物保護(hù)學(xué)院植物病蟲害生物學(xué)與防控湖南省重點實驗室, 長沙 410128;

2.湖南省煙草公司郴州市公司, 湖南 郴州 423000;

3.湖南農(nóng)業(yè)大學(xué)湖南省生物農(nóng)藥與制劑加工工程技術(shù)研究中心, 長沙 410128)

摘要:隨著21世紀(jì)分子生物學(xué)研究的蓬勃發(fā)展,RNA二級結(jié)構(gòu)預(yù)測成為其中一項重要內(nèi)容。由于RNA二級結(jié)構(gòu)預(yù)測的準(zhǔn)確性最為關(guān)鍵,因此尋找高精度且易操作的二級結(jié)構(gòu)預(yù)測工具顯得非常重要。本文選取三種簡單且易操作的二級結(jié)構(gòu)預(yù)測軟件,先基于PDB數(shù)據(jù)庫收錄的318個RNA發(fā)夾序列進(jìn)行二級結(jié)構(gòu)預(yù)測,進(jìn)而通過比較預(yù)測結(jié)果與實驗測定結(jié)果進(jìn)行軟件預(yù)測性能評估。比較結(jié)果顯示,RNAstructure為三個軟件中性能最優(yōu)的RNA二級結(jié)構(gòu)預(yù)測軟件。

關(guān)鍵詞:RNA二級結(jié)構(gòu);PDB數(shù)據(jù)庫;二級結(jié)構(gòu)預(yù)測;準(zhǔn)確性

中圖分類號:Q74文獻(xiàn)標(biāo)志碼:A

收稿日期:2014-08-16;修回日期:2014-10-12.

基金項目:國家自然科學(xué)基金(No.51407194,No.51207167)。

作者簡介:滿夢華,男,博士,講師,研究方向:電磁防護(hù)仿生;E-mail:manmenghua@126.com.

doi:10.3969/j.issn.1672-5565.2015.01.08

Evaluation of three RNA secondary structure prediction softwares based on PDB database

LIU Wei1,3,HUANG Yizi1,3,LI Douyue1,3,XIANG Yan1,3,ZHOU Wei1,2,3*

(1.HunanProvincialKeyLaboratoryforBiologyandControlofPlantDiseasesandInsectPests,CollegeofPlantProtection,

HunanAgriculturalUniversity,Changsha410128,China; 2.ChenzhouCompanyofHunanTobaccoCompany,

ChenzhouHunan423000,China; 3.HunanProvincialEngineering&TechnologyResearchCenterforBiopesticide

andFormulationProcessing,HunanAgriculturalUniversity,Changsha410128,China)

Abstract:With the development of molecular biology in the 21st century, the prediction of RNA secondary structure has become one of the most important contents in the field. Because the accuracy of RNA secondary structure prediction is crucial, it is very important to look for the secondary structure prediction tool with high precision and easy operation. In this article, three kinds of secondary structure prediction softwares were selected to evaluate their performances. Firstly, we predicted the RNA secondary structures of 318 RNA hairpins collected from PDB database, and then evaluated the performance of the softwares by comparing the predicted results with the experimental ones. Comparison results showed that RNA structure was superior to the other two kinds of softwares in predicting RNA secondary structure.

Keywords:RNA secondary structures; PDB database; Secondary structure prediction; Accuracy

RNA二級結(jié)構(gòu)是指RNA分子在自然條件下盤繞、卷曲借助堿基間的氫鍵相互連接形成部分堿基配對和單鏈交替出現(xiàn)的莖環(huán)結(jié)構(gòu)。RNA二級結(jié)構(gòu)中堿基互補配對形成的雙螺旋區(qū)成為莖區(qū),而不形成互補配對的單鏈形成環(huán)。莖區(qū)主要按經(jīng)典的Watson-Crick規(guī)則配對,即G和C配對,A和U配對。此外,在某些情況下也可形成G和U配對[1]。RNA的空間結(jié)構(gòu)是識別RNA分子的重要依據(jù)和功能研究的基礎(chǔ)和前提。雖然實驗手段是獲取二級結(jié)構(gòu)的最可靠方法,但是由RNA分子難結(jié)晶而且降解快,采用實驗方法測定分子結(jié)構(gòu)很困難,并且代價高昂。近年來,采用計算機(jī)和數(shù)學(xué)模型預(yù)測RNA二級結(jié)構(gòu)的方法被廣泛采用,成為RNA結(jié)構(gòu)和功能研究領(lǐng)域的熱點問題[2]。RNA二級結(jié)構(gòu)作為決定RNA分子功能的重要環(huán)節(jié),與許多重要生物學(xué)過程相聯(lián)系。RNA 的二級結(jié)構(gòu)廣泛影響各類 RNA 的各種生物學(xué)過程,如影響RNAi的效率,也被廣泛應(yīng)用于尋找新的非編碼RNA[3-4]。因此,RNA二級結(jié)構(gòu)預(yù)測是進(jìn)行RNA各項生物學(xué)功能研究的基礎(chǔ),RNA二級結(jié)構(gòu)預(yù)測的準(zhǔn)確性直接關(guān)系到整個實驗的進(jìn)展,如何選取RNA二級結(jié)構(gòu)預(yù)測軟件就顯得尤為重要。本文基于PDB實驗數(shù)據(jù)對RNAstructure、Centroidfold和RNAshapes三個軟件的二級結(jié)構(gòu)預(yù)測功能進(jìn)行比較,從中選取最優(yōu)二級結(jié)構(gòu)預(yù)測軟件。

1材料和方法

1.1RNA二級結(jié)構(gòu)獲取

RNA結(jié)構(gòu)的選取是本文研究的一個重要環(huán)節(jié)。供試RNA結(jié)構(gòu)下載自PDB數(shù)據(jù)庫。PDB(http://www.rcsb.org/pdb/home/home.do)是一個蛋白質(zhì)、核酸等生物大分子的結(jié)構(gòu)數(shù)據(jù)的數(shù)據(jù)庫[5],由Worldwide Protein Data Bank監(jiān)管。PDB可以經(jīng)由網(wǎng)絡(luò)免費訪問,是結(jié)構(gòu)生物學(xué)研究中的重要資源。值得一提的是,雖然PDB的數(shù)據(jù)是由世界各地的科學(xué)家提交的,但每條提交的數(shù)據(jù)都會經(jīng)過PDB工作人員的審核與注解,并檢驗數(shù)據(jù)是否合理。因此,在PDB數(shù)據(jù)庫選取RNA數(shù)據(jù)是保證實驗數(shù)據(jù)真實、可靠的基礎(chǔ)。

因為該數(shù)據(jù)庫數(shù)據(jù)量較大,且一直保持更新,所以選取2006~2013年期間收錄的所有RNA結(jié)構(gòu)??紤]到RNA結(jié)構(gòu)的精確性,僅保留分辨率小于2.8?的RNA發(fā)夾。

1.2預(yù)測方法及預(yù)測軟件選取

RNA二級結(jié)構(gòu)預(yù)測方法的研究也比較多,比較經(jīng)典方法有最小自由能法、動態(tài)規(guī)劃算法和Sankoff算法。但最近也有些新的研究方法,如基于隱markov模型的RNA二級結(jié)構(gòu)預(yù)測方法、基于進(jìn)化神經(jīng)的預(yù)測方法、基于半監(jiān)督學(xué)習(xí)的隨機(jī)文法模型方法等[6-8]。

軟件選取是本文研究中的另一個重要環(huán)節(jié)。目前常用的RNA二級結(jié)構(gòu)軟件眾多,綜合考慮如實用性、操作難度和獲取難度等各方面條件,我們選取了三個軟件作為評估對象,分別是RNAstructure、Centroidfold和RNAshapes,它們均是RNA二級結(jié)構(gòu)預(yù)測中比較重要的軟件。

RNAstructure(http://rna.urmc.rochester.edu/RNAstructure.html)是一款可在Microsoft Windows操作系統(tǒng)下免費使用的RNA結(jié)構(gòu)預(yù)測和分析軟件[1]。RNAstructure使用Zuker算法預(yù)測RNA二級結(jié)構(gòu),預(yù)測一個結(jié)構(gòu)分為兩步。第一步是使用回歸算法生成一個最優(yōu)結(jié)構(gòu)與一系列次優(yōu)結(jié)構(gòu)。生成次優(yōu)結(jié)構(gòu)的個數(shù)由用戶輸入的兩個參數(shù)決定,第三個參數(shù)是重新排序最有可能的結(jié)構(gòu)。使用公式重新計算每個結(jié)構(gòu)的最小自由能,輸出根據(jù)重新計算的最小自由能排序,這兩步是連續(xù)進(jìn)行的。該款軟件的主要程序設(shè)計依賴于以下幾個方面算法:1)最小自由能理論;2)堿基配對可能性原則;3)寡核苷酸與互補片段結(jié)合親和力原則;4)共同序列保守結(jié)構(gòu)分析原則。RNAstructure具有操作界面友好、功能強大和給出良好圖形界面輸出的優(yōu)點,它可以測序單一序列,也可以比較兩個序列的結(jié)構(gòu),目前提供Windows和Linux/UNIX版本,不提供在線預(yù)測。

Centroidfold(http://www.ncrna.org/centroidfold/)是RNA二級結(jié)構(gòu)預(yù)測中最精準(zhǔn)的網(wǎng)絡(luò)應(yīng)用程序之一,它接受兩種序列數(shù)據(jù)[9]:一個RNA序列和多個對齊的RNA序列。它的預(yù)測結(jié)果以堿基對符號和圖形來表示,PDF格式的圖形也可接受。該服務(wù)器常用的應(yīng)用是多序列對齊RNA二級結(jié)構(gòu)預(yù)測,這個服務(wù)器的主要優(yōu)點是用原始的Centroidfold軟件作為預(yù)測引擎,從而在基準(zhǔn)測試中獲得最高的分?jǐn)?shù)和最好的預(yù)測精確性,另外,使用這個軟件進(jìn)行RNA二級結(jié)構(gòu)預(yù)測是免費的且不用登陸。CentroidFold與RNAfold、sfold和CONTRAfold等相比,其性能相對來說比較好[10]。

RNAshapes(http://bibiserv.techfak.uni-bielefeld.de/rnashapes/)使樹狀域與結(jié)構(gòu)映射,保持了鄰接與嵌套的結(jié)構(gòu)特點,但無視螺旋長度[11-12]。它與動態(tài)規(guī)劃算法緊密結(jié)合,因此可在此間用于二級結(jié)構(gòu)預(yù)測,這不但避免了指數(shù)爆炸,還給了我們一個充分和完整的RNA分子折疊空間。RNAshapes提供了三個強大的RNA分析工具:1)計算不同形狀中的一組代表結(jié)構(gòu),并從中選取最相符的[13];2)計算形狀累計概率[14];3)與共識結(jié)構(gòu)進(jìn)行比較預(yù)測,并作為Sankoff算法的選擇方案[15]。

1.3結(jié)果評估

ViewerLite是一款操作簡單、界面友好的結(jié)構(gòu)示圖軟件。將從PDB數(shù)據(jù)庫下載的包含有RNA結(jié)構(gòu)的PDB文件載入ViewerLite軟件中,軟件將顯示出相應(yīng)的RNA二級結(jié)構(gòu)圖,保存好圖像并記錄好相關(guān)結(jié)果,作為預(yù)測結(jié)果評估的標(biāo)準(zhǔn)。

圖1是用軟件Viewerlite顯示出的RNA發(fā)夾立體結(jié)構(gòu)(以1YN1為例,其序列為GCGAGUUGACUACUCGC),其結(jié)構(gòu)可以旋轉(zhuǎn)和縮放,因此可以方便而準(zhǔn)確地驗證軟件預(yù)測結(jié)構(gòu)是否與實驗結(jié)構(gòu)相匹配。

圖1 Viewerlite呈現(xiàn)的RNA發(fā)夾(1YN1)結(jié)構(gòu)圖

2結(jié)果與分析

從PDB數(shù)據(jù)庫中選擇了318個實驗測定的RNA發(fā)夾,然后分別用三種不同軟件對其發(fā)夾序列進(jìn)行二級結(jié)構(gòu)預(yù)測,比較后記錄各個軟件預(yù)測結(jié)果與實驗結(jié)果的匹配、不匹配和難以識別的數(shù)量。匹配是指所選預(yù)測軟件所呈現(xiàn)出來的圖形與viewerlite的空間圖形在堿基配對上是沒有差異的(見圖2);不匹配即堿基配對不一致(見圖3)。除了匹配和不匹配外,還有其他情況,包括無法識別和輸入RNA序列后無其二級結(jié)構(gòu)呈現(xiàn),無法識別是指由于二級結(jié)構(gòu)的復(fù)雜性,無法辨別出預(yù)測出來的結(jié)構(gòu)是否與viewerlite上的堿基配對一致(見圖4、圖5)。

圖2 RNA二級結(jié)構(gòu)匹配情況展示

圖3 RNA二級結(jié)構(gòu)不匹配情況展示(1SLO)

注:由立體圖(右圖)可知,RNA(1SLO)形成的是四環(huán)發(fā)夾,即框里面A和U是配對的,RNAstructure的預(yù)測結(jié)果與之一致,但Centroidfold的預(yù)測結(jié)果(左圖)是六環(huán)發(fā)夾,即A與U沒有配對。因此,Centroidfold的結(jié)果是不匹配的,而RNAstructure是匹配的。

Notes:The A and G is paired in box from the space diagram which has four ring hairpin and it’s consistent with the prediction results of RNAstructure, but the result from Centroidfold has six ring hairpin and A and G is unpair.So it is paired for RNAstructure and unpaired for Centroidfold.

圖4 RNA(4G6P)預(yù)測二級結(jié)構(gòu)

注“圖4為RNAstructure軟件的預(yù)測結(jié)構(gòu),但centroidfold和RNAshapes無法對其進(jìn)行預(yù)測。

Notes:The results can be predicted by RNAsructure and it is diffcult for centroidfold and RNAshapes to do it.

圖5 viewerlite顯示的RNA(4G6P)空間圖

注:與圖4相比較難以識別。

Notes:It is difficult to compare with Fig.4.

表1是各個軟件的二級結(jié)構(gòu)預(yù)測比較結(jié)果,由該表格可以看出,RNAstructure的匹配率最高,其后依次是RNAshapes和Centroidfold。

表1 三種RNA二級結(jié)構(gòu)預(yù)測軟件預(yù)測結(jié)果比較

圖6是分別用軟件RNAstructure、Centroidfold和RNAshapes基于1YN1發(fā)夾序列預(yù)測出的二級結(jié)構(gòu)。左圖為RNAstructure預(yù)測結(jié)果,上面信息比較詳細(xì),圖中對結(jié)構(gòu)的名稱(可自己命名)、能量值以及堿基對的排序都有明顯的注解。從中圖看Centridfold預(yù)測結(jié)構(gòu)顏色分明,有色彩填充,比較美觀,Centroidfold預(yù)測出的RNA二級結(jié)構(gòu)是這三個預(yù)測軟件中在視覺效果上是比較好的選擇。但是Centroidfold是一種在線軟件,在沒有網(wǎng)絡(luò)的情況下不能進(jìn)行二級結(jié)構(gòu)預(yù)測。RNAshapes預(yù)測結(jié)果相對于其它軟件來說(右圖)比較簡約,其操作起來相對于另兩個軟件難度要高,但其繪圖功能還是比較強大。由圖6預(yù)測結(jié)果的結(jié)構(gòu)比較圖可知,這三個軟件對RNA(1YN1)的預(yù)測結(jié)果都是符合要求的,但這只是相對于簡單的二級結(jié)構(gòu)來說,遇到復(fù)雜的RNA結(jié)構(gòu),他們的差異性較明顯。

圖6 基于1YN1發(fā)夾序列預(yù)測出的二級結(jié)構(gòu)

注:(1):RNAstructure預(yù)測;(2):Centroidfold預(yù)測;(3):RNAshapes預(yù)測。

Notes:(1):Prediction by RNAstructure; (2):Prediction by Centroidfold;(3):Prediction byRNAshapes.

3討論

通過上述實驗數(shù)據(jù)和預(yù)測結(jié)果,本文所選的三個預(yù)測軟件的優(yōu)劣性很明顯。對于RNA二級結(jié)構(gòu)的預(yù)測,RNAstructure的性能是其中最好的,其在匹配率以及結(jié)構(gòu)信息方面都較其他軟件有優(yōu)勢。同時本次實驗也存在很多改進(jìn)之處,比如,本文下載的RNA結(jié)構(gòu)量受年限和分辨率制約,后期工作可考慮覆蓋到整個時期且加入分辨率更低但分子更大的RNA結(jié)構(gòu),本文評估軟件僅選取三個常用軟件,可考慮擴(kuò)大RNA二級結(jié)構(gòu)預(yù)測軟件的規(guī)模。

參考文獻(xiàn)(References)

[1]吳建祖.生物信息學(xué)分析實踐[M]. 北京:科學(xué)出版社, 2010.

WU Jianzu. The analysis and practice of bioinformatics[M]. Beijing:Science Press,2010.

[2]夏飛,朱強華,金國慶,等.基于CPU-GPU混合計算平臺的RNA二級結(jié)構(gòu)預(yù)測算法并行化研究[J].國防科技大學(xué)學(xué)報,2013,(6):138-146.

XIA Fei, ZHU Qianghua, JIN Guoqing, et al. RNA secondary structure prediction parallel algorithm based on CPU-GPU hybrid computing platform[J].Journal of National University of Defense Technology,2013,(6):138-146.

[3]張浩文, 楊禹丞, 魯志. 非編碼 RNA 的生物信息學(xué)研究方法: RNA 結(jié)構(gòu)預(yù)測及其應(yīng)用[J]. 生命科學(xué), 2014, 26(003): 219-227.

ZHANG Haowen, YANG Yucheng, LU Zhi. Noncoding RNA of bioinformatics methods:RNA structure prediction and its application[J]. Life Science, 2014, 26(003): 219-227.

[4]桂堅斌,孫迎,高武,等.RNA二級結(jié)構(gòu)在siRNA設(shè)計中的應(yīng)用[J].北京生物醫(yī)學(xué)工程,2012,31(6):652-656.

GUI Jianbin, SUN Ying, GAO Wu, et al. Application of RNA secondary structure in siRNA design[J]. Beijing Biomedical Engineering, 2012, 31(6):652-656.

[5]BERMAN H M. The protein data bank: a historical perspective[J]. Acta Crystallographica Section A: Foundations of Crystallography, 2007, 64(1): 88-95.

[6]董浩,劉元寧,張浩,等.基于隱Markov模型的RNA二級結(jié)構(gòu)預(yù)測新方法[J].計算機(jī)研究與發(fā)展,2012,49(4):812-817.

DONG Hao, LIU Yuanning, ZHANG Hao, et al. A method of RNA secondary structure prediction based on hidden markov model[J]. Research and Development of Computer, 2012, 49(4):812-817.

[7]牟超,何靜媛,石楊,等.基于進(jìn)化神經(jīng)網(wǎng)絡(luò)的RNA二級結(jié)構(gòu)預(yù)測方法[J].四川大學(xué)學(xué)報(自然科學(xué)版),2014,51(1):64-68.

MOU Chao, HE Jingyuan, SHI Yang, et al. An evolutionary neural network approach to predict RNA secondary structure[J]. Journal of Sichuan University, 2014, 51(1):64-68.

[8]唐四薪,趙輝煌,周勇等.RNA二級結(jié)構(gòu)預(yù)測:基于半監(jiān)督學(xué)習(xí)的隨機(jī)文法模型方法[J].計算機(jī)與應(yīng)用化學(xué),2013,(9):1038-1042.

TANG Sixin, ZHAO Huihuang, ZHOU Yong, et al. Prediction of RNA secondary structure: stochastic grammar model based on semi supervised learning method[J].Computers and Applied Chemistry, 2013, (9):1038-1042.

[9]SATO K, HAMADA M, ASAI K, et al. Centroidfold: a web server for RNA secondary structure prediction[J]. Nucleic Acids Research, 2009, 37(suppl 2): W277-W280.

[10]HAMADA M, KIRYU H, SATO K, et al. Prediction of RNA secondary structure using generalized centroid estimators[J]. Bioinformatics, 2009, 25(4): 465-473.

[11]VOSS B, GIEGERICH R, REHMSMEIER M. Complete probabilistic analysis of RNA shapes[J]. BMC Biology, 2006, 4(1): 5.

[12]STEFFEN P, VOSS B, REHMSMEIER M, et al. RNAshapes: an integrated RNA analysis package based on abstract shapes[J]. Bioinformatics, 2006, 22(4): 500-503.

Abstract[13]GIEGERICH R, VOSS B, REHMSMEIER M. shapes of RNA[J]. Nucleic Acids Research, 2004, 32(16): 4843-4851.

[14]JANSSEN S, GIEGERICH R. Faster computation of exact RNA shape probabilities[J]. Bioinformatics, 2010, 26(5): 632-639.

[15]REEDER J, GIEGERICH R. Consensus shapes: an alternative to the sank off algorithm for RNA consensus structure prediction[J]. Bioinformatics, 2005, 21(17): 3516-3523.

猜你喜歡
準(zhǔn)確性
突破從句易錯點提高表達(dá)準(zhǔn)確性
淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
持續(xù)質(zhì)量改進(jìn)對手術(shù)器械供應(yīng)及時性與準(zhǔn)確性的影響
理解語境與名句的關(guān)系,提高默寫的準(zhǔn)確性
連鑄機(jī)提高大包鋼水稱重準(zhǔn)確性方法實踐
山東冶金(2019年1期)2019-03-30 01:35:18
為橋梁領(lǐng)域的示值準(zhǔn)確性護(hù)航
中國公路(2017年11期)2017-07-31 17:56:31
影響紫外在線監(jiān)測系統(tǒng)準(zhǔn)確性因子分析
電子制作(2016年21期)2016-05-17 03:53:03
海外項目高報價準(zhǔn)確性和低不可預(yù)見費的探析
美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
提高食品檢驗準(zhǔn)確性的主要控制因素
食品界(2016年4期)2016-02-27 07:36:26
武夷山市| 安溪县| 温宿县| 侯马市| 莫力| 响水县| 沧源| 公主岭市| 阳江市| 富阳市| 阳新县| 河源市| 楚雄市| 军事| 青龙| 马公市| 平昌县| 临潭县| 通渭县| 海兴县| 万全县| 科技| 高要市| 绩溪县| 隆化县| 来宾市| 巴东县| 晋江市| 泊头市| 申扎县| 平邑县| 板桥市| 怀集县| 宝鸡市| 乌审旗| 汶上县| 德阳市| 连山| 东乡族自治县| 镶黄旗| 彭水|