李可群
(同濟大學(xué) 化學(xué)科學(xué)與工程學(xué)院,上海 200092)
地球上的一切生命形式都有一個共同的起源,無論動物、植物、真菌、原生生物還是原核生物,它們都籍由一部共同的進化歷史而有著或近或遠的關(guān)聯(lián)。重建所有生物的進化歷史并以樹狀結(jié)構(gòu)即系統(tǒng)發(fā)育樹的形式來表示生物類群的進化關(guān)系,一直是系統(tǒng)發(fā)育學(xué)研究的核心問題,也是進化生物學(xué)研究的重要內(nèi)容[1]。不過,近年來快速發(fā)展的分子系統(tǒng)發(fā)育分析方法在計算物種分歧時間時,大多基于分子進化速率恒定的“分子鐘”假說[2],不過大多數(shù)生物分子在長時間尺度和不同譜系的進化速率并不恒定,從而計算得到的結(jié)果與化石年齡往往存在較大偏差。如原口動物和后口動物分歧時間化石給出的年代大在5.55億~5.60億年前,而近年來快速發(fā)展的生物分子鐘方法推算結(jié)果大多介于8.51億~12億年前,僅有極少數(shù)給出小于6億年前的結(jié)果,即幾乎所有分子鐘研究結(jié)果顯示兩者分異早于寒武紀生物大爆發(fā)至少1億年[3]。為此,本研究提出了不基于分子進化速率恒定假說的分子絕對進化速率計算公式[4]、多重突變的校正方法[5]和基于計算所得結(jié)果進行判斷的物種選擇規(guī)則[6]等,本研究提出使用序列分子比較得到的序列差異率來直接確定分子系統(tǒng)發(fā)育分析中物種組成的方法。
對于有m個物種的某物種類群A,若其各物種序列分子自它們共同祖先序列分子而來的遺傳距離為xA(i)(i=1,2,…,m,系真實遺傳距離[4,6],下同),則其平均未突變概率為[6]:
(1)
本研究以常見的三物種類群體系為例討論使用序列差異率和參照類群來直接確定分子系統(tǒng)發(fā)育分析中物種組成的方法,四物種類群體系可做類似處理。圖1中實線部分為文獻[7]使用COX1蛋白質(zhì)序列分子計算寒武紀物種分歧時間時的計算框圖。為了表述方便,我們把圖1中物種類群A、B和C權(quán)且稱為計算物種類群,而虛線部分對應(yīng)的物種類群S稱為參照物種類群。由于分子進化研究中比較的是突變后的序列差異率,那么圖1中先期分歧的參照物種類群S數(shù)學(xué)上也可視為一個像物種類群A、B和C一樣的自時間t2分歧的物種類群。圖1中物種類群的平均未突變概率的計算可分成兩種情形。
圖1 使用序列差異率和參照類群直接確定分子系統(tǒng)發(fā)育分析中物種組成的計算框圖
(1)無共同遺傳距離
當(dāng)一個物種類群對,即其兩個物種類群均沒有與其他物種類群存在共同的遺傳距離,如圖1中物種類群對C和B,則有
(2)
e-(xC(k)+xB(j))=e-xC(k)e-xB(j)=1-pCB(kj)
(3)
將式(2)兩邊取自然對數(shù)有
(4)
(2)存在共同遺傳距離
即一個物種類群對中的物種類群與其他物種類群存在共同的遺傳距離,如圖1中物種類群對S和B
(5)
(6)
由圖1中不同物種類群對,再采用類似式(4)和式(6)的處理方法,可得
(7)
(8)
(9)
(10)
將式(4)、式(6)至式(10)進行下列數(shù)學(xué)處理可分別得到圖1中各進化區(qū)段平均未突變概率對應(yīng)的參數(shù)。
(1)d的計算
將式(6)+式(9)-式(4)-式(7),再等式兩邊除以2有
(11)
(2)xA的計算
由式(9)+式(10)-式(4),在等式兩邊除以2,有
(12)
將式(12)減去式(11),有
(13)
(3)xB的計算
由式(4)+式(10)-式(9),再等式兩邊除以2有
(14)
(4)xC的計算
由式(4)+式(8)-式(6),再等式兩邊除以2有
(15)
文獻[6]指出,若三物種類群體系(參見圖1)中計算物種類群A、B和C的序列分子均滿足下式,即
(16)
式(16)中c的取值分別為1,2,3,4,這些關(guān)系式為式(17)和式(18)推導(dǎo)過程的條件;式(16)中其他物理量的定義請參照式(1)。則有三物種類群體系中的物種選擇規(guī)則為
(17)
(18)
式(17)和式(18)中f=e-d,m、n和p分別為計算物種類群A、B和C的序列分子數(shù)。
由2.1部分可知,要使用判別式式(17)和式(18),需先通過物種選擇來選擇滿足式(16)的計算物種類群A、B和C。如果一個物種類群對的兩個物種類群序列分子分別兩兩比較得到的序列相同率的平均值,即平均序列相同率也能滿足類似式(16)的數(shù)學(xué)關(guān)系式,即
(19)
式(19)中e-yij為第一個物種類群第i個物種序列分子與第二個物種類群第j個物種序列分子比較得到的序列相同率,m0和n0分別為兩個物種類群的物種數(shù),而e-y為它們的平均序列相同率。那么由遺傳三角形定量關(guān)系式(3)有e-yij=e-yie-yj,并由式(19)可得
(20)
式(20)中,e-ya、e-yb分別為2個物種類群序列分子自共同祖先序列分子而來的平均未突變概率。由于物種類群對平均序列相同率滿足式(19),那么無論其中一個物種類群為單一物種(其未突變概率為單一數(shù)值)還是平均未突變概率滿足式(16)的一組物種,不難理解另一物種類群平均未突變概率也與滿足式(16)。因此可以通過以下步驟來選擇滿足式(16)的計算物種類群。
(1) 先使用隨意選擇的一個非參照物種類群物種序列分子與待選擇的參照物種類群序列分子分別進行比較,若得到的各序列相同率滿足式(19),說明選擇的參照物種類群滿足式(16)要求。
(2) 由該參照物種類群序列分子與待選擇的計算物種類群序列分子兩兩進行比較,若得到的各序列相同率滿足式(19),說明選擇出的計算物種類群也滿足式(16)的要求,按此方法可分別選擇圖1中的計算物種類群A、B和C。
(3) 使用本文標題1下的相關(guān)方法計算出圖1計算框圖中計算物種類群進化路徑上各區(qū)段的平均未突變概率,再代入式(17)和式(18),若滿足判別式要求,說明選擇的各計算物種類群符合物種選擇規(guī)則對物種類群的要求。
由于文獻[7]計算得到的寒武紀物種分歧時間與化石年齡很接近,筆者使用該體系來驗證計算物種類群組成選擇方法。文獻[7]中計算物種類群A(鯊魚)、B(環(huán)節(jié)動物)和不同物種類群C(腕足動物、輪蟲動物、線蟲動物、節(jié)肢動物和軟體動物)COX1蛋白質(zhì)序列分子的物種名和美國生物信息技術(shù)中心(NCBI)序列號參見該文獻和文獻[6]。另外,選用的為一組真菌的COX1蛋白質(zhì)分子作為參照物種類群S,它們的物種名及序列號為:1.Saccharomyces cerevisiae(QHB12464.1);2.Fusarium asiaticum(QJT69681.1);3.Fusarium oxysporum(AAX21832.1);4.Agaricus bisporus(ABY85433.1);5.Yarrowia lipolytica(AGS44095.1);6.Candida orthopsilosis(AAX73017.1);7.Ceratocyotis fismbriata(QRB98357.1);8.Aspergillus tubingensis(AAF81762.1);9.Metschnikowia hibisci(YP_009935242.1);10.Ustilago maydis(AAZ67011.1);11.Rhizophagus irregularis(AML60582.1);隨意選擇的一個非參照物種類群的物種為環(huán)節(jié)動物,其COX1蛋白質(zhì)序列分子的物種名及其序列號為:Urechis caupo(AAT12180.1)。這個環(huán)節(jié)動物與參照物種類群各COX1蛋白質(zhì)序列分子比較時的平均序列相同率以及參照物種類群分別與計算物種類群A、B和C的COX1蛋白質(zhì)序列分子比較時的平均序列相同率,見表1。
表1 一些物種類群與COX1蛋白質(zhì)序列分子比較時的平均序列相同率
由表1可以看出,表中各物種類群對的r1、r2和r3均與2、3、4非常接近,說明它們的平均序列相同率均能與式(20)相符很好,表明參照物種類群并可由它推斷文獻[7]選用的計算類群A、B和C均能滿足式(16),即物種選擇規(guī)則對物種類群的要求。
根據(jù)上文1標題的相關(guān)公式計算得到的圖1各進化區(qū)段的平均未突變概率, 以及代入物種選擇規(guī)則判別式式(17)和式(18)后的計算結(jié)果(表2)。
表2 使用參照類群真菌選擇不同計算類群時的計算結(jié)果①
由表2計算結(jié)果可以看出,由文獻[7]中物種類群A和B以及不同物種類群C組成體系計算得到的R1和R2都很接近1.0,說明使用本文提出的方法來選擇計算物種類群是可行的。
實際計算表明在滿足上述條件外,同一計算物種類群選用自其共同祖先而來的進化速率(或遺傳距離)存在一定差異的序列分子有利于得到滿意的物種分歧時間等計算結(jié)果。
兩個同源序列分子的回復(fù)突變和平行突變會導(dǎo)致比較得到的序列差異率數(shù)值減少和相關(guān)遺傳距離被低估,故需校正。文獻[5]給出了式(3)經(jīng)多重突變校正后的遺傳三角形定量關(guān)系式
0.9e-(xC(k)+xB(j))=0.9-pCB(kj)
(21)
式(21)各物理量含義同式(3)。將式(21)兩邊除以0.9,則其有
(22)
(23)
不難理解,式(6)至式(10)也可做類似處理,并可同樣得到經(jīng)多重突變校正后的圖1中各進化區(qū)段平均未突變概率對應(yīng)的參數(shù),如參數(shù)d的計算式為
(24)
與式(21)類似,多重突變校正同樣影響到式(19)中e-cyij的計算,即有
(25)
pyij為第一個物種類群第i個序列分子與第二個物種類群第j個序列分子比較得到的序列差異率。由式(20)推導(dǎo)過程可以看出,使用多重突變校正后式(25)得到的e-yij不影響其結(jié)論。同樣根據(jù)文獻[6]經(jīng)多重突變校正的物種選擇規(guī)則與式(16)至式(18)相同。
文獻[8]基于同一種序列分子進化速率恒定的假設(shè),使用不同的蛋白質(zhì)和核苷酸序列分子計算了Kimura給出的鯊魚、鯉魚、蠑螈、雞、針鼴鼠、袋鼠、狗和人體系中序列分子絕對進化速率,發(fā)現(xiàn)序列分子絕對進化速率k和其物種分歧時間t之間存在很好的線性關(guān)系,即
(26)
該文獻依據(jù)化學(xué)動力學(xué)中的阿侖尼烏斯公式,給出了分子進化中的“活化能公式”
(27)
式(27)中Ea為序列分子位點突變的活化能,k0為極限進化速率,R為常數(shù)。如前文所述,筆者在文獻[7]計算“寒武紀生物大爆發(fā)”時,得到的各物種類群分歧時間與化石年齡很接近,加上選用計算體系與物種選擇規(guī)則等相符很好[6],因此,該文計算所得的物種序列分子絕對進化速率和物種類群分歧時間是準確的。
表3給出該文獻給出的計算結(jié)果。表中除第1行為物種分歧時間外(單位為10億年前),其余數(shù)據(jù)均為計算所得序列分子真實絕對進化速率[4](即已對原文計算出的分子絕對進化速率數(shù)值除以2),表3中物種序號、具體物種名及序列號同文獻[6,7]。線蟲動物取文獻[7]中的前4種物種,鯊魚絕對分子進化速率為隨意選取的文獻[7]中物種類群C為線蟲動物時,第1、3、6、8個鯊魚物種的計算數(shù)據(jù)。
表3 “寒武紀生物大爆發(fā)”時物種分歧時間計算結(jié)果①
將表3中各物種序列分子絕對進化速率的自然對數(shù)lnk對其分歧時間倒數(shù)1/t作圖,如圖2所示。
圖2 分子絕對進化速率自然對數(shù)(lnk)與物種分歧時間倒數(shù)(1/t)之間的關(guān)系圖
由上述5個線性關(guān)系式和圖2,同樣可以發(fā)現(xiàn)令人驚奇的線性關(guān)系,加上文獻[7]分子絕對進化速率計算過程中沒有使用文獻[8]中同一序列分子進化速率恒定這一并不嚴格的假設(shè),因此可以認為本文結(jié)果更嚴格可信;同時,筆者注意到上述5條直線存在一些交點,如圖2中直線1和直線2相交于節(jié)肢動物3。因此,筆者認為“活化能公式”和“雙重分子鐘現(xiàn)象”均是真實存在的,兩個概念的具體說明請參看文獻[8]。