王興平+羅仍卓么+李峰
摘 要:《生物信息學(xué)》是一門實踐性很強的課程,可為生物科學(xué)專業(yè)學(xué)生深入學(xué)習(xí)生物化學(xué)、分子生物學(xué)、遺傳學(xué)等主干課程奠定基礎(chǔ)??紤]到地方本科院校的實際,該文闡述了地方本科院校開設(shè)《生物信息學(xué)》的課程定位,介紹了適合地方本科院?!渡镄畔W(xué)》教學(xué)的常用數(shù)據(jù)庫、軟件和在線工具,并提出了合理化利用建議,供《生物信息學(xué)》課程教師參考。
關(guān)鍵詞:生物信息學(xué);實踐教學(xué);數(shù)據(jù)庫
中圖分類號 G643.2 文獻標(biāo)識碼 A 文章編號 1007-7731(2017)09-0151-03
Abstract:Bioinformatics is a very practical course,which can lay a foundation for further study of biochemistry,molecular biology,genetics and other major courses for the students majoring in biology. Taking into account the actual situation of local colleges and universities,we expound the curriculum positioning of bioinformatics in local colleges and universities,and introduce the common databases,software and online tools,which are suitable for the teaching of bioinformatics in local colleges and universities. Furthermore,we present the suggestions for their rational use in order to provide references with other teachers of bioinformatics.
Key words:Bioinformatics;Practice teaching;Database
自人類基因組計劃實施以來,生命科學(xué)研究技術(shù)突飛猛進,促進了生命科學(xué)各領(lǐng)域,如動物學(xué)、植物學(xué)、微生物學(xué)、動物科學(xué)、醫(yī)學(xué)生物學(xué)的迅猛發(fā)展。目前,關(guān)于生物大分子的探究已全面進入到了組學(xué)時代,即從以前的單基因或單個蛋白質(zhì)的結(jié)構(gòu)和功能研究逐步轉(zhuǎn)變到基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)研究,這種轉(zhuǎn)變?yōu)樯钊牖?、蛋白質(zhì)功能研究和應(yīng)用基礎(chǔ)研究積累了大量數(shù)據(jù)。就應(yīng)用角度而言,動植物分子育種、多基因聯(lián)合育種等先進技術(shù)也逐步應(yīng)用到實踐中。因此,當(dāng)代生物科學(xué)大學(xué)生掌握生物分子水平的實踐,特別是生物信息學(xué)實踐技能迫在眉睫。
1 地方本科院?!渡镄畔W(xué)》課程定位
生物信息學(xué)是數(shù)學(xué)、計算機科學(xué)與生物學(xué)相結(jié)合而產(chǎn)生的交叉學(xué)科,旨在運用生物學(xué)理論課程(生物化學(xué)、分子生物學(xué)、遺傳學(xué)和細胞生物學(xué)等)的背景知識,采用計算機軟件或程序,通過數(shù)學(xué)模型來分析生物大分子的結(jié)構(gòu)和功能,為生物大分子研究的實驗設(shè)計和結(jié)果分析及基礎(chǔ)應(yīng)用研究提供幫助?!渡镄畔W(xué)》課程一門實踐性很強的課程,其課程內(nèi)容主要包括兩方面內(nèi)容,一是學(xué)習(xí)數(shù)學(xué)模型或數(shù)學(xué)算法,旨在進行生物信息學(xué)分析軟件的研發(fā);二是學(xué)習(xí)生物信息學(xué)應(yīng)用,旨在掌握一些常用的生物學(xué)軟件、數(shù)據(jù)庫和生物大分子結(jié)構(gòu)與功能的分析方法。
《生物信息學(xué)》是高校生物科學(xué)專業(yè)的必修課,是生命科學(xué)相關(guān)專業(yè)(如動物科學(xué)、農(nóng)學(xué)等)的選修課。目前,生物信息學(xué)數(shù)據(jù)庫、軟件和在線工具種類繁多,基本都以英文為主,學(xué)習(xí)難度大。就地方本科院校而言,其生源差,學(xué)生基礎(chǔ)薄弱。另外,考慮到學(xué)風(fēng)、師資力量和教學(xué)效果等因素,我們認為地方本科院校對于《生物信息學(xué)》課程教學(xué)應(yīng)定位于應(yīng)用生物信息學(xué),即掌握常用生物信息學(xué)軟件的操作,學(xué)會基因和蛋白質(zhì)性質(zhì)、結(jié)構(gòu)和功能分析的基本方法。
2 常用數(shù)據(jù)庫
隨著分子生物學(xué)研究成果的不斷積累,生物信息學(xué)數(shù)據(jù)庫也已逐步完善,實現(xiàn)了高度網(wǎng)絡(luò)化,全世界共享。生物信息學(xué)的數(shù)據(jù)庫非常多,考慮到地方本科院校本科生的知識儲備和實際操作需要,我們推薦4個常用的數(shù)據(jù)庫。
2.1 NCBI數(shù)據(jù)庫 NCBI全稱為National Center for Biotechnology Information,即美國國家生物技術(shù)信息中心,是國家衛(wèi)生研究院的一個分支機構(gòu),始建于1988年。NCBI擁有一系列與生物技術(shù)和生物醫(yī)學(xué)相關(guān)的數(shù)據(jù)庫,是生物信息學(xué)工具和服務(wù)的重要資源,其數(shù)據(jù)和DDBJ數(shù)據(jù)庫和EMBL進行不定期交換共享。NCBI的數(shù)據(jù)庫主要包括用于生物醫(yī)學(xué)文獻數(shù)據(jù)庫(PubMed)、DNA序列數(shù)據(jù)庫GenBank、蛋白質(zhì)序列數(shù)據(jù)庫(Protein)、結(jié)構(gòu)數(shù)據(jù)庫(Structure)、基因組學(xué)數(shù)據(jù)庫(Genome)、分類學(xué)(Taxonomy)、表觀遺傳學(xué)(Epigenetics)、保守結(jié)構(gòu)域(Conserved Domains)、基因(Gene)、單核苷酸多態(tài)性(SNP)等多個數(shù)據(jù)庫。所有這些數(shù)據(jù)庫都可通過Entrez搜索引擎在線獲取,包含核酸序列(Nucleotides)、蛋白質(zhì)序列(Protein)、文獻(Pubmed)等43種檢索項,可采用關(guān)鍵詞、序列登錄號等多個字段檢索,免費下載,使用非常方便[1]。
2.2 Ensembl數(shù)據(jù)庫 Ensembl由英國Sanger研究所和歐洲生物信息學(xué)研究所維護的數(shù)據(jù)庫,其主要功能是能夠?qū)ξ锓N基因組進行詮釋。該數(shù)據(jù)庫主要包含真核生物基因組數(shù)據(jù)庫(http://asia.ensembl.org/index.html)。此外,還有細菌、真菌、植物等分支數(shù)據(jù)庫。該數(shù)據(jù)庫也有搜索引擎,其內(nèi)容詳細的數(shù)據(jù)記錄了DNA、轉(zhuǎn)錄產(chǎn)物、蛋白質(zhì)和基因突變等信息,使用方便,記錄系統(tǒng)、完整,是了解基因結(jié)構(gòu)和功能比較理想的數(shù)據(jù)庫[2]。
2.3 miRBase數(shù)據(jù)庫 microRNA是近年來發(fā)現(xiàn)的非編碼內(nèi)源性小RNA分子,其功能主要是調(diào)節(jié)靶基因的轉(zhuǎn)錄后水平的表達,是近年來研究的熱點領(lǐng)域。miRBase數(shù)據(jù)庫更新快,包含miRNA序列數(shù)據(jù)、功能注釋、靶基因預(yù)測等多各方面,是存儲miRNA信息最主要的公共數(shù)據(jù)庫之一(http://www.mirbase.org/)。目前,新版本(Ver.21)收錄了223個物種28645個前體miRNA和35 828個成熟miRNA產(chǎn)物,所有數(shù)據(jù)均可以通過web界面檢索,而且通過與TargetScan鏈接,可以查閱miRNA的潛在的靶基因。
2.4 生物分子信號通路數(shù)據(jù)庫 信號通路一詞在高中生物就接觸到,到本科階段的《細胞生物學(xué)》課程中得以深入學(xué)習(xí)。據(jù)調(diào)查,對于本科生而言,他們對信號通路想理解和認識有限,掌握的信號通路都是不完整的。學(xué)生在學(xué)習(xí)時,可借助信號通路數(shù)據(jù)庫檢索的方式,搜索某基因所參與的信號通路,并且可以直觀的看到該基因在整個信號通路中的地位和作用。信號通路數(shù)據(jù)庫目前比較常用的是WikiPathways數(shù)據(jù)庫(http://www.wikipathways.org)。該數(shù)據(jù)庫集成了主要的基因、蛋白質(zhì),允許整個研究者更廣泛參與[3]。該數(shù)據(jù)最大的特點是將基因之間的關(guān)系以圖形方式顯示,使學(xué)生直觀了解所感興趣的基因是如何參與到信號通路或生化代謝過程的。
3 常用生物信息學(xué)軟件及在線分析工具
3.1 DNA序列分析軟件 在生物科學(xué)本科教學(xué)過程中,很多課程如《生物化學(xué)》《分子生物學(xué)》《遺傳學(xué)》等,都涉及到DNA序列結(jié)構(gòu)、基因突變等知識點,而且學(xué)生掌握到的更多都是一種朦朦朧朧,是懂非懂的知識點。因此,在《生物信息學(xué)》課堂上,當(dāng)講到采用生物信息學(xué)軟件進行DNA序列分析時,學(xué)生產(chǎn)生了濃厚的興趣。DNA序列分析的軟件有很多,如:BioEdit,DNASIS,DNAStar,DNAClub,DNAMan等,相比較可知,就序列分析而言,我們認為DNAStar軟件最常用,且操作簡單,可視化功能強大,是地方本科院校學(xué)生的最佳選擇。
DNASTAR是基因組學(xué)、結(jié)構(gòu)生物學(xué)和分子生物學(xué)領(lǐng)域中的一款綜合性序列分析工具軟件,包含可視化和序列編輯(SeqBuilder),序列組裝(SeqMan)、序列比對(MegAlign)、引物設(shè)計(PrimerSelect)、蛋白質(zhì)結(jié)構(gòu)分析(Protean)、基因查找(GeneQuest)和序列編輯(EditSeq)7個模塊,可用作DNA和蛋白質(zhì)序列分析、序列重疊群拼接和基因工程管理等方面,目前,該軟件已被90多個國家的制藥,生物技術(shù),學(xué)術(shù)和臨床研究人員使用。
3.2 RNA結(jié)構(gòu)分析軟件 RNA包含tRNA,mRNA,rRNA和sRNA等多種類型,在蛋白質(zhì)生物合成過程中起著非常重要的作用。他們的二級結(jié)構(gòu)或高級結(jié)構(gòu)會影響蛋白質(zhì)合成的效率。因此,對于本科生而言,直觀的了解RNA的二級結(jié)構(gòu),對于掌握理論知識具有重要意義。RNA結(jié)構(gòu)分析的軟件有如Mfold、RNAdraw和RNAstructure等多個軟件[4-5]。通過比較這些軟件獲得難易度、優(yōu)缺點和使用復(fù)雜程度,我們發(fā)現(xiàn)Mfold已完成多次修訂,且實現(xiàn)了網(wǎng)上在線免費試用(http://unafold.rna.albany.edu/?q=mfold),輸出結(jié)果靈活多樣,結(jié)果直觀,是本科生用于RNA結(jié)構(gòu)分析的最佳選擇。
3.3 序列比對軟件(在線工具) 序列比對也稱序列比較,通過該操作,可以將兩個或多個基因(或蛋白質(zhì))序列按照一定的規(guī)律排列,使學(xué)生直觀的觀察到序列的變異,從而確定序列之間的相似性或同源性。根據(jù)序列多少,可分為雙序列比對和多序列比對。序列比對的軟件或在線工具也有很多,其中多序列比對軟件有Clustal(ClustalX和ClustalW)、GCG、BioEdit、DNAMAN和DNAStar軟件包中的MegAlign等。在這里,適合本科生教學(xué)的軟件我們推薦MegAlign和DNAMAN。而兩序列比最常用的則是BLAST在線工具(http://www.ncbi.nlm.nih.gov/blast),它是NCBI開發(fā)的可免費非注冊使用的在線工具,可與NCBI的蛋白質(zhì)數(shù)據(jù)庫和基因數(shù)據(jù)庫鏈接,也可用于蛋白質(zhì)和基因序列的同源檢索,是本科教學(xué)中必須要用到的在線工具。
3.4 系統(tǒng)發(fā)育樹構(gòu)建軟件 在生物進化過程中,細胞內(nèi)的生物大分子(蛋白質(zhì)、核酸)的一級結(jié)構(gòu)的變化會出現(xiàn)變異(進化),而生物大分子進化速率相對恒定,我們可以根據(jù)生物大分子的序列信息構(gòu)建系統(tǒng)發(fā)育樹,推斷生物進化歷史。系統(tǒng)發(fā)育樹構(gòu)建的軟件有MEGA,PHYLIP,DNAMAN等。在分子進化相關(guān)的科學(xué)研究中,最常用的是MEGA(即Molecular Evolutionary Genetics Analysis),該軟件更新快(目前的最新版本為MEGA7.0 http://www.megasoftware.net/),運行速度快,操作簡單,結(jié)果直觀。因此,在本科教學(xué)中,我們推薦MEGA軟件作為系統(tǒng)發(fā)育樹構(gòu)建的軟件。
3.5 Expasy工具 ExPASy,即Expert Protein Analysis System,由瑞士生物信息學(xué)研究所維護的蛋白組學(xué)相關(guān)的在線實用分析平臺,整合了很多蛋白質(zhì)數(shù)據(jù)資源和分析工具(http://www.expasy.org/),涉及蛋白分類、蛋白質(zhì)翻譯、結(jié)構(gòu)預(yù)測、相似檢索、序列比對等。該在線工具可免費試用,是本科教學(xué)過程中值得推薦的分析工具。但是,該工具包數(shù)據(jù)量大,鑒于本科教學(xué)學(xué)時的限制,在教學(xué)過程中不宜細講,可以引入,讓感興趣的同學(xué)自學(xué)。
4 結(jié)語
隨著分子生物學(xué)和生物信息學(xué)的迅猛發(fā)展,生物信息學(xué)數(shù)據(jù)庫不斷完善,生物分析軟件越來越多,且各具特色??紤]到地方本科院校實際情況,我們介紹了以上的生物信息學(xué)數(shù)據(jù)庫和分析軟件(在線工具),并簡單總結(jié)了它們適合于地方性高校本科教學(xué)的優(yōu)點,給出了合理選擇的參考建議,以期為地方本科院?!渡镄畔W(xué)》教學(xué)提供參考。
參考文獻
[1]Bethesda(MD).The NCBI Handbook[Internet]. 2nd edition[M].National Center for Biotechnology Information(US). 2013.
[2]Yates A,Akanni W,Amode M R,et al. Ensembl 2016[J].Nucleic Acids Res.2016,44(D1):D710-D716.
[3]Kelder T,van Iersel M P,Hanspers K,et al.WikiPathways:building research communities on biological pathways[J].Nucleic Acids Res. 2012,40(Database issue):D1301-D1307.
[4]徐思敏.RNA生物信息相關(guān)軟件概述[J].科技信息:科學(xué)教研,2008(14):398-399.
[5]張馳宇,李全雙,曹威,等.RNAstructure軟件不同版本對FORS-D分析的影響[J].江蘇大學(xué)學(xué)報:醫(yī)學(xué)版.2006,(4):294-297.
(責(zé)編:徐煥斗)