王小國
摘要 通過ClustalX2.1、Boxshade、DNAman和MEGA6等軟件的使用,介紹了生物學軟件在核酸序列比對、著色美化、序列分析和植物系統(tǒng)發(fā)育樹構(gòu)建中的應用。并結(jié)合具體實例,采用鄰接法對核基因組中的內(nèi)轉(zhuǎn)錄間隔區(qū)序列進行了構(gòu)樹,進化枝的可信度較高,表明該方法適用于相似度較高、親緣關(guān)系較近序列的系統(tǒng)發(fā)育樹的構(gòu)建。
關(guān)鍵詞 序列比對;鄰接法;系統(tǒng)發(fā)育樹;構(gòu)建
中圖分類號 Q7;TP31 文獻標識碼 A 文章編號 1007-5739(2015)12-0347-02
Application of Biology Software in the Nucleic Acid Sequence Alignment and Phylogenetic Analysis
WANG Xiao-guo
(Sanmenxia Polytechnic,Sanmenxia Henan 472000)
Abstract This paper introduced the application of biology software in the nucleic acid sequence alignment,beautification,sequence analysis and plant phylogenetic tree construction through the use of software such as ClustalX 2.1,Boxshade,DNAman and MEGA 6.Combined with the specific example,constructed neighbor-joined tree according to internal transcribed spacer of nuclear genome sequences,and the credibility of clade was higher,so the method was suitable for the close genetic relationship sequence in the construction of phylogenetic tree.
Key words sequence alignment;neighbor-joined method;phylogenetic tree;construct
核酸序列比對(Nucleic acid sequence alignment)又稱為核酸序列聯(lián)配,是通過2個或多個核酸序列的比對,顯示出其中相似結(jié)構(gòu)區(qū)域的過程[1],是進一步進行相似性、序列間親緣關(guān)系和系統(tǒng)發(fā)育分析的基礎[2-3]。在系統(tǒng)發(fā)育分析中,最常用的可視化表示進化關(guān)系的方法就是繪制系統(tǒng)發(fā)育進化樹(Phylogenetic trees)。系統(tǒng)發(fā)育樹構(gòu)建有非加權(quán)分組平均法(Unweighted-pair-groop-method with arithmetic means,UPGMA)、鄰接法(Neighbor-joined,NJ)、最大簡約法(Maximum parsimony,MP)和最大似然法(Maximum likelihood,ML)等多種方法[4],由于鄰接法具有構(gòu)建的樹相對準確、假設少且計算速度快的特點,因而是目前最常用的方法之一。但NJ法所分析序列的遺傳距離不能太大,適用于相似度較高、親緣關(guān)系較近的短序列[5]。
核基因組序列中的內(nèi)轉(zhuǎn)錄間隔區(qū)(Internal transcribed spacer,ITS)主要編碼植物的核糖體RNA,屬于中度保守序列,因此可用于較低分類階元的系統(tǒng)發(fā)育研究[6-7]。本文以Ziziphus Mill.的部分ITS序列為對象,介紹了ClustalX2.1[8-9]、Boxshade、DNAman和MEGA6[10]等軟件在序列比對、著色美化、序列分析和植物系統(tǒng)發(fā)育樹構(gòu)建中的應用。
1 序列獲取
從NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov/)下載Ziziphus Mill.的4條ITS核酸序列,以Fasta格式存儲于桌面文檔中,命名為four sequences.txt。
2 使用ClustalX進行多序列比對
2.1 打開ClustalX軟件
找開ClustalX軟件(Version 2.1,2010年發(fā)布,http://www.clustal.org/),在“Multiple alignment”模式下點擊“File”菜單→“Load sequece”,打開存儲于桌面上的four sequences.txt文件(圖1)。
2.2 進行序列比對
打開“Alignment”菜單→“Do complete alignment”,系統(tǒng)提示“Do complete alignment”結(jié)果的輸出文件類型及保存位置(圖2)。其中,dnd格式為輸出向?qū)湮募?,可以用Treeview軟件打開,aln為輸出比對文件格式,打開后對序列進行手動調(diào)整。
2.3 aln文件的著色美化
利用Boxshade在線工具(http://www.ch.embnet.org/software/BOX_form.htmL)或Espript在線工具(http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi)對aln文件進行著色美化。將aln文件序列粘貼到Boxshade序列框中,點擊“Run boxshade”,結(jié)果以.ps格式存儲,用Ghostview和Ghostspript軟件打開,如圖3所示。
3 DNAman多序列比對和序列一致性endprint
DNAman軟件除了可對序列進行比對之外,還可進行引物的設計、限制性內(nèi)切酶和質(zhì)粒圖譜的繪制,功能較為強大。雙擊DNAman圖標,打開“File”菜單→“Open”,選擇four sequences.aln文件,再打開“Sequence”菜單→“Alignment”→“Multiple sequence alignment”,從顯示結(jié)果可看出,這4條ITS序列的序列一致性為90.10%(圖4),結(jié)果可以以Phylip、Clustal和GCG等多種格式輸出。
4 MEGA進行系統(tǒng)發(fā)育分析
4.1 打開分子進化遺傳分析(Molecular evolution genetic analysis,MEGA)軟件
由于MEGA只能識別.meg文件格式,故需要對.aln格式的文件進行轉(zhuǎn)化。點擊“File”→“Convert file format to MEGA”,將.aln格式文件轉(zhuǎn)化為.meg格式,存儲于桌面上,命名為four sequences.meg?;蜻M行在線文件格式轉(zhuǎn)換(http://sing.ei.uvigo.es/ALTER/)。
4.2 主窗口中打開“Phylogeny”菜單
可以看到,MEGA提供了UPGMA法、NJ法、MP法和ML法等多種算法,如前所述,NJ法在處理相似度較高、親緣關(guān)系較近的序列時是最可靠的一種算法。選擇“Construct/Test neighbor-joined tree”,在彈出的對話框“Options summary”→“Test phylogeny”中,選擇“Bootstrap method”,重復次數(shù)為1000次,模式框中選擇Kimura-2-parameter model對進化樹進行評估(圖5),本次所構(gòu)建的系統(tǒng)進化樹如圖6所示。
從構(gòu)建的NJ樹可知,基因登錄號為EU075099和EU07 5097的序列聚為一類,bootstrap支持率為97%,表明該進化枝的可信度較高。
5 結(jié)語
本文以Ziziphus Mill.的部分ITS序列為對象,介紹了ClustalX、Boxshade、DNAman和MEGA等軟件在序列比對、著色美化、序列分析和植物系統(tǒng)發(fā)育樹的構(gòu)建中的應用。在此需要特別指出,在基于序列構(gòu)建進化樹的過程中,由于不同的算法,不同的重復次數(shù),選用不同的模型所構(gòu)建的樹是不完全相同的[11],因此,這種單純的依靠某段核酸序列建立的進化樹只能提供物種進化的部分信息,而不能完全代表該物種進化的全過程。
6 參考文獻
[1] 王祿山,高培基.生物信息學應用技術(shù)[M].北京:化學工業(yè)出版社,2007.
[2] 謝強,卜文俊.核苷酸序列比對在生物系統(tǒng)發(fā)育研究中的應用[J].動物分類學報,2005(2):281-286.
[3] 楊學森.基于漢明距離的DNA短序列比對算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2013.
[4] 路明.利用進化樹研究基因序列的進化[D].南寧:廣西大學,2014.
[5] 高凱.NJ進化樹構(gòu)建方法的改進及其應用[D].北京:北京工業(yè)大學,2008.
[6] 樊杰,白妍,束明月.遠志屬7種藥用植物ITS1和ITS2序列分析[J].中草藥,2015(4):562-565.
[7] BRUCE G,BALDWIN.Phylogenetic utility of the internal transcribed spacers of nuclear ribosomal DNA in plants:An example from the compositae[J].Molecular Phylogenetics and Evolution,1992,1(1):3-16.
[8] LARKIN M A,BLACKSHIELDS G,BROWN N P,et al.Clustal W and Clustal X version 2.0[J].Bioinformatics,2007,23:2947-2948.
[9] 李彬彬,黃培春,鐘復光.生物學軟件在線粒體DNA序列多態(tài)性分析中的應用[J].生物信息學,2010(2):153-155.
[10] TAMURA K,STECHER G,PETERSON D,et al.MEGA6:Molecular Evolutionary Genetics Analysis Version 6.0[J].Molecular Biology and Evolution,2013,30:2725-2729.
[11] 李衍達,孫之榮譯.生物信息學[M].北京:清華大學出版社,2008.endprint