□郭一冉
(襄陽(yáng)市第五中學(xué)湖北襄陽(yáng)441057)
分子系統(tǒng)發(fā)育分析的生物信息學(xué)方法
□郭一冉
(襄陽(yáng)市第五中學(xué)湖北襄陽(yáng)441057)
處于信息時(shí)代,計(jì)算機(jī)技術(shù)滲入到生物學(xué)研究中,研究人員開(kāi)始從分子水平對(duì)生物進(jìn)化進(jìn)行研究,并運(yùn)用計(jì)算的方法針對(duì)為生命起源的研究探索出新的思路。多年來(lái),從分子的層面對(duì)物種的系統(tǒng)發(fā)育進(jìn)行研究取得了一定的成果。本論文針對(duì)分子系統(tǒng)發(fā)育分析的生物信息學(xué)方法進(jìn)行研究。
物種進(jìn)化;分子系統(tǒng)發(fā)育;計(jì)算機(jī)技術(shù);生物信息學(xué)
生命的進(jìn)化是漫長(zhǎng)的。史學(xué)界針對(duì)物種的進(jìn)化史進(jìn)行研究,都試圖從生物化石中尋找物種進(jìn)化的證據(jù),但畢竟化石數(shù)量有限,而且通過(guò)這種方式所獲得的進(jìn)化信息是零散的。所以,要對(duì)生物的進(jìn)化史以及生物之間的進(jìn)化關(guān)系充分掌握,目前的學(xué)術(shù)界會(huì)普遍采用解剖學(xué)、發(fā)育學(xué)的相關(guān)理論進(jìn)行研究。但是,這些研究方法都不同程度地存在著依賴性,這就必然會(huì)導(dǎo)致研究中存在著局限性。生物的結(jié)構(gòu)相似,但是,進(jìn)化的途徑并不完全相同。比如,魚(yú)類和脊椎動(dòng)物的眼睛所發(fā)揮的功能是相同的,但是,進(jìn)化的途徑卻是完全不同的。隨著分子生物學(xué)的發(fā)展,對(duì)物種進(jìn)化的研究就可以從生物分子的層面展開(kāi),以獲得更為準(zhǔn)確的物種進(jìn)化信息。
系統(tǒng)發(fā)育學(xué)又被稱為“系統(tǒng)發(fā)生學(xué)”,主要的研究?jī)?nèi)容是物種形成的歷史和進(jìn)化的歷史,而且還針對(duì)物種在進(jìn)化過(guò)程中相互之間所存在的關(guān)系進(jìn)行研究。在生物信息學(xué)研究領(lǐng)域中,系統(tǒng)發(fā)育學(xué)是重要的分支。在對(duì)物種進(jìn)化進(jìn)行研究的過(guò)程中,從系統(tǒng)發(fā)育學(xué)的角度進(jìn)行研究,可以對(duì)物種的進(jìn)化史更好地掌握,基于此而對(duì)生命的起源進(jìn)行探索,包括物種的變異、物種的差異、物種的基因功能以及從生態(tài)學(xué)的角度對(duì)微生物的研究等等。
隨著生物學(xué)的研究進(jìn)入到分子層面,基因技術(shù)開(kāi)始融入到生物進(jìn)化史研究中。特別是基因測(cè)序技術(shù)的發(fā)展,諸如RNA、DNA以及蛋白質(zhì)等等的生物序列逐漸積累起來(lái),這就使得生物進(jìn)化史研究進(jìn)入到分析層面。在很多生物學(xué)專家看來(lái),在生物分子中就可以獲得物種進(jìn)化的信息,而且相比較于從生物化石獲取信息要容易得多[1]。所以,生物研究領(lǐng)域?qū)τ谖锓N的進(jìn)化進(jìn)行研究,多會(huì)從分析層面展開(kāi)。
隨著學(xué)界對(duì)物種發(fā)育的研究采用生物信息學(xué)的方法,能夠涉及到的研究學(xué)科越來(lái)越多,除了計(jì)算機(jī)技術(shù)和生物學(xué)之外,包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)等等都被用于研究中,從分子的層面對(duì)生物進(jìn)化史研究水平逐漸提高,而且在研究方法上不斷實(shí)現(xiàn)創(chuàng)新。
2.1 單條生物序列中所含有的進(jìn)化信息
如果生物的基因或者蛋白質(zhì)均為同源的,當(dāng)從一條序列向另一條序列進(jìn)化的時(shí)候,對(duì)于進(jìn)化的概率進(jìn)行計(jì)算,就需要通過(guò)變異的次數(shù)對(duì)物種進(jìn)化的距離進(jìn)行衡量??坍?huà)單條序列的分子進(jìn)化的過(guò)程中所產(chǎn)生的信息,就是計(jì)算局部位點(diǎn)上所存在的堿基變異情況或者是氨基酸殘基上所存在的變異情況,所有的進(jìn)化事件,包括進(jìn)化信息的插入、進(jìn)化信息的刪除以及進(jìn)化信息的轉(zhuǎn)化等等,都會(huì)詳細(xì)記錄下來(lái)。
在提取進(jìn)化信息的時(shí)候,從單基因水平進(jìn)行提取,就是將能夠?qū)ξ锓N進(jìn)化情況有所反映的基因提取出來(lái),通過(guò)比較不同物種之間的基因而獲得兩條基因序列所存在的不同之處。不同物種的基因序列差異越小,就意味著物種之間所存在的進(jìn)化距離就越近。
2.2 多條生物序列中所含有的進(jìn)化信息
對(duì)于多條生物序列中所含有的進(jìn)化信息進(jìn)行研究,主要采用兩種方法。其一,在系統(tǒng)發(fā)育樹(shù)的構(gòu)建上采用單序列信息,用于表示物種系統(tǒng);其二,采用比對(duì)的算法從多條生物序列的角度對(duì)同源基因進(jìn)行比對(duì),之后串聯(lián)所獲得的結(jié)果。根據(jù)所獲得的比對(duì)結(jié)果將系統(tǒng)發(fā)育樹(shù)進(jìn)行重新構(gòu)建[2]。同源基因被找出來(lái)之后,就將這些基因信息充分利用起來(lái),并對(duì)這些信息進(jìn)行分類。
比如,對(duì)神經(jīng)嵴細(xì)胞采用生物信息學(xué)的方法對(duì)基因差異進(jìn)行分析,可以利用DAVID數(shù)據(jù)庫(kù)對(duì)與基因有關(guān)的數(shù)據(jù)進(jìn)行富集,并根據(jù)需要予以分類。DAVID數(shù)據(jù)庫(kù)可以對(duì)500個(gè)基因所發(fā)生的改變情況進(jìn)行生物信息學(xué)分析,具體操作:打開(kāi)DAVID網(wǎng)頁(yè)進(jìn)入到指定的數(shù)據(jù)庫(kù)中,將發(fā)生改變的神經(jīng)嵴細(xì)胞基因提取出來(lái),從原有的表格中復(fù)制到具有統(tǒng)計(jì)功能的基因輸入框中。數(shù)據(jù)提交完畢后,選擇“Start Analysis”并點(diǎn)擊,就可以對(duì)這500個(gè)基因進(jìn)行生物信息學(xué)分析了。(下圖:神經(jīng)嵴細(xì)胞分化)
3.1 建立在字符序列基礎(chǔ)上而采用的系統(tǒng)發(fā)育樹(shù)算法
建立在字符序列基礎(chǔ)上而采用的系統(tǒng)發(fā)育樹(shù)算法是將可以發(fā)揮各種功能的樹(shù)搜索出來(lái),選擇對(duì)給定序列能夠給予很好的解釋的樹(shù),用以對(duì)物種的系統(tǒng)發(fā)育進(jìn)行研究。
3.1.1 最大簡(jiǎn)約法。最大簡(jiǎn)約法以通過(guò)最小的改變對(duì)物種群體之間所存在的差異進(jìn)行觀察。在對(duì)發(fā)育樹(shù)的選擇上,要選擇進(jìn)化次數(shù)最小的那棵樹(shù)而對(duì)物種進(jìn)化關(guān)系進(jìn)行研究。多年來(lái),采用這種方式對(duì)生物的進(jìn)化情況進(jìn)行研究,隨著物種數(shù)量的增多,這種方法由于沒(méi)有對(duì)樹(shù)中的分支進(jìn)行掌握,導(dǎo)致物種進(jìn)化的距離無(wú)法明確地反映出來(lái)。
神經(jīng)嵴細(xì)胞分化
3.1.2 最大似然法。最大似然法所采用的是進(jìn)化模型,通過(guò)將模式數(shù)據(jù)與真實(shí)的數(shù)據(jù)信息之間對(duì)比,統(tǒng)計(jì)相似程度。最大似然法的數(shù)據(jù)統(tǒng)計(jì)效果良好,其不僅對(duì)物種進(jìn)化的距離充分考慮,還對(duì)距離的相關(guān)內(nèi)容進(jìn)行了刻畫(huà)。但是,采用這種方法需要對(duì)發(fā)育樹(shù)分支的拓?fù)浣Y(jié)構(gòu)進(jìn)行研究,計(jì)算過(guò)程非常復(fù)雜。如果物種的數(shù)量大,采用這種方法很顯然是不適宜的。
3.1.3 貝葉斯推斷法。貝葉斯推斷法是基于最大后驗(yàn)概率原理,通過(guò)所掌握的先驗(yàn)知識(shí)對(duì)后驗(yàn)的分布情況進(jìn)行求解。要求所選擇的發(fā)育樹(shù)為最大后驗(yàn)概率,對(duì)發(fā)育樹(shù)為真的概率進(jìn)行分析,并采用貝葉斯法進(jìn)行推斷。這種方法被廣泛地應(yīng)用。但是,在推斷的過(guò)程中,需要對(duì)先驗(yàn)概率進(jìn)行估計(jì),還要對(duì)各種參數(shù)進(jìn)行集成,所以,在計(jì)算的時(shí)候需要消耗大量的時(shí)間,所以,貝葉斯推斷法存在著局限性。
3.2 基于物種進(jìn)化距離的系統(tǒng)發(fā)育樹(shù)算法
基于物種進(jìn)化距離的系統(tǒng)發(fā)育樹(shù)算法中,較為經(jīng)典的是兩種算法,即,UPJMA法和鄰接法。其中的鄰接法屬于是合并算法,雖然這種算法并不能將計(jì)算結(jié)果精確到最小進(jìn)化樹(shù),但是可以獲得近似的數(shù)值,不僅計(jì)算的速度快,而且具有較高的準(zhǔn)確率?;谖锓N進(jìn)化距離而采用鄰接法,可以使得計(jì)算的過(guò)程和所獲得的結(jié)果更容易被理解,與常規(guī)的字符序列方法相比,不僅計(jì)算的速度上存在著優(yōu)勢(shì),而且還可以將物種距離的矩陣計(jì)算出來(lái),之后就能夠采用聚類算法將物種的發(fā)育樹(shù)構(gòu)建起來(lái)。
隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)技術(shù)逐漸滲入到生物進(jìn)化史研究中。計(jì)算機(jī)具有很強(qiáng)的數(shù)據(jù)處理能力,在對(duì)生物進(jìn)化相關(guān)的數(shù)據(jù)進(jìn)行處理的時(shí)候,不僅數(shù)據(jù)處理能力提高了,而且數(shù)據(jù)處理成本有所降低。所以,采用生物信息學(xué)方法對(duì)分析系統(tǒng)發(fā)育系統(tǒng)進(jìn)行分析非常必要。
[1]詹永勤,余敏,楊長(zhǎng)平.關(guān)于中美生物信息學(xué)研究現(xiàn)狀的研究[J].西南農(nóng)業(yè)學(xué)報(bào),2013(02):789—794.
[2]盧境婷,王旭東,代杰文,等.顱神經(jīng)嵴細(xì)胞的遷移及特性[J].中華口腔醫(yī)學(xué)研究雜志,2011,5(06):58—61.
1004-7026(2016)12-0103-02
Q75
A
10.16675/j.cnki.cn14-1065/f.2016.12.078