遲文靜, 劉宜昕, 王 粟, 劉 濤, 趙 虎, 張艷梅
(復(fù)旦大學(xué)附屬華東醫(yī)院檢驗(yàn)科,上海 200040)
分子系統(tǒng)發(fā)育學(xué)是利用分子特征研究生物體之間進(jìn)化關(guān)系的學(xué)科,在揭示生物進(jìn)化途徑、研究生物多樣性和分子流行病學(xué)特征、鑒定菌種和基因功能等方面發(fā)揮重要作用[1]。早期微生物分子系統(tǒng)發(fā)育研究依賴于蛋白質(zhì)序列,其中應(yīng)用廣泛的蛋白質(zhì)序列有鐵氧還蛋白和細(xì)胞色素等。20世紀(jì)70年代中期,有學(xué)者開始使用16SrRNA的基因序列構(gòu)建進(jìn)化樹,以確定不同生物之間的進(jìn)化關(guān)系。目前,隨著高通量測序(next generation sequencing,NGS)等技術(shù)的應(yīng)用,大大降低了基因分析的成本,加快了基因分析的速度,為細(xì)菌進(jìn)化樹的構(gòu)建提供了更多類型的分析和展示形式[2]。本文對(duì)進(jìn)化樹及其在細(xì)菌親緣關(guān)系中的應(yīng)用進(jìn)行綜述。
進(jìn)化樹又稱系統(tǒng)發(fā)生樹,是描述生物體形成或進(jìn)化順序的拓?fù)錁浣Y(jié)構(gòu),通常是二叉樹的形狀,一般由一系列節(jié)點(diǎn)和分支組成,節(jié)點(diǎn)代表某個(gè)具體序列,節(jié)點(diǎn)之間的連線代表物種之間的親緣關(guān)系[3]。構(gòu)建進(jìn)化樹不僅需要分子生物學(xué)、遺傳學(xué)、生態(tài)學(xué)等生命科學(xué)學(xué)科知識(shí),還需要統(tǒng)計(jì)學(xué)、計(jì)算機(jī)學(xué)等多個(gè)學(xué)科知識(shí)的融合[4]。微生物進(jìn)化樹的構(gòu)建過程主要有:序列數(shù)據(jù)的獲取、進(jìn)化距離模型的確定、多個(gè)序列的比對(duì)、對(duì)比后結(jié)果的提取以及算法和參數(shù)的選擇[5]。進(jìn)化樹可以分析未知細(xì)菌和已知細(xì)菌間的親緣關(guān)系[6],在遺傳本質(zhì)上探究細(xì)菌多樣性的產(chǎn)生機(jī)制。
根據(jù)是否制定根節(jié)點(diǎn),進(jìn)化樹可以分為有根樹和無根樹2種呈現(xiàn)方式[7]。有根樹制定了根節(jié)點(diǎn),從樹中可以看出各節(jié)點(diǎn)之間的距離和各分支分化的先后關(guān)系。有根樹引入外群作為根節(jié)點(diǎn),而外群通常選擇與研究序列關(guān)系密切的序列,且能很好地聚類;或者選擇比研究序列進(jìn)化歷史更早的序列,故有根樹可以看到不同細(xì)菌間關(guān)系的遠(yuǎn)近,還可以看到細(xì)菌的進(jìn)化順序和方向[8]。無根樹不引入外群,沒有根節(jié)點(diǎn),只能看出個(gè)各個(gè)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)和相對(duì)距離,因而無根樹功能單一,可以顯示不同細(xì)菌的聚類關(guān)系和相對(duì)距離的遠(yuǎn)近,卻無法顯示細(xì)菌的起源和進(jìn)化方向[9]。見圖1。
圖1 進(jìn)化樹的呈現(xiàn)方式
進(jìn)化模型是對(duì)微生物進(jìn)化變異進(jìn)行的數(shù)學(xué)描述,描述內(nèi)容主要有:基因的點(diǎn)突變、插入缺失,各堿基突變發(fā)生的概率及核苷酸組成頻率等和目標(biāo)菌株間的親緣關(guān)系,選擇和構(gòu)建合適的進(jìn)化模型是研究細(xì)菌進(jìn)化的前提[10]。生物進(jìn)化的研究按層次可分為宏進(jìn)化和微進(jìn)化。宏進(jìn)化是細(xì)菌間的進(jìn)化,主要指細(xì)菌不同目/科/屬/種的進(jìn)化[11],微進(jìn)化是指細(xì)菌種內(nèi)或近緣菌種間的進(jìn)化[12]。以幽門螺桿菌為例,在其微進(jìn)化過程中,構(gòu)建幽門螺桿菌不同菌株間的進(jìn)化樹模型,不僅需要估計(jì)堿基點(diǎn)突變率,還需要估計(jì)重組率、核苷酸差異率及重組核苷酸片段長度等重要信息[13]。對(duì)于細(xì)菌的進(jìn)化分析,選擇合適的進(jìn)化模型才可能得到可靠的結(jié)果,反之可能得到不準(zhǔn)確甚至是錯(cuò)誤的結(jié)果,這種現(xiàn)象主要是由進(jìn)化樹不相同的拓?fù)浣Y(jié)構(gòu)或分支長度造成的,因此選擇合適的進(jìn)化模型、構(gòu)建正確的進(jìn)化樹至關(guān)重要。
1.4.1 距離矩陣法 距離矩陣法是一種以細(xì)菌核苷酸序列間的變異估計(jì)菌株間距離,并通過距離矩陣構(gòu)建進(jìn)化樹的方法。這種方法首先需要將輸入的核苷酸序列數(shù)據(jù)轉(zhuǎn)化為距離信息,然后通過距離信息進(jìn)一步構(gòu)建進(jìn)化樹,主要分為系統(tǒng)樹法和網(wǎng)絡(luò)法[14]??偟膩碚f,距離矩陣法是一種基于距離構(gòu)建進(jìn)化樹的方法,其優(yōu)點(diǎn)在于簡單、直觀、計(jì)算速度快,但在菌株間進(jìn)化速率差異較大的情況下,可能得到錯(cuò)誤的拓?fù)浣Y(jié)構(gòu)[15]。
1.4.2 最大簡約法 最大簡約法是一種將細(xì)菌的核苷酸序列位點(diǎn)視為形狀的方法,是一個(gè)比較所有可能的拓?fù)浣Y(jié)構(gòu)的過程。最大簡約法首先篩選出對(duì)細(xì)菌進(jìn)化分析有用的核苷酸位點(diǎn),然后統(tǒng)計(jì)每個(gè)位點(diǎn)的核苷酸最小替換數(shù),進(jìn)而以各位點(diǎn)替代數(shù)總和最小的進(jìn)化樹作為最優(yōu)樹[16]。相對(duì)于距離矩陣法,最大簡約法對(duì)信息的利用度更高,而相對(duì)于極大似然法和后驗(yàn)概率法,該方法計(jì)算速度更快,可處理較多的插入、缺失序列。
1.4.3 極大似然法 極大似然法是利用進(jìn)化模型和核苷酸序列,通過進(jìn)化樹的分枝長度、拓?fù)浣Y(jié)構(gòu)、模型參數(shù)構(gòu)建進(jìn)化樹的方法。極大似然法通過選取合適的進(jìn)化模型分析核苷酸序列,得到似然率最大的拓?fù)浣Y(jié)構(gòu),再以其中最大似然率的拓?fù)浣Y(jié)構(gòu)構(gòu)建的進(jìn)化樹作為最優(yōu)樹,應(yīng)用極大似然法分析比較重要的問題時(shí)需要確定最合適的進(jìn)化模型[17]。一般在選擇合理、正確的進(jìn)化模型的情況下,極大似然法可以推導(dǎo)出很好的進(jìn)化樹結(jié)果,但與最大簡約法相比,極大似然法很難在序列長度較短的情況下得到正確的拓?fù)浣Y(jié)構(gòu)。
1.4.4 后驗(yàn)概率法 后驗(yàn)概率法又被稱為貝葉斯推論法,該方法首先假定所有可能的進(jìn)化樹是等概率的,然后計(jì)算出比對(duì)后序列的進(jìn)化樹的后驗(yàn)概率,進(jìn)而將后驗(yàn)概率最大的進(jìn)化樹作為最優(yōu)樹[18]。后驗(yàn)概率法的優(yōu)點(diǎn)在于不但具有數(shù)學(xué)和統(tǒng)計(jì)學(xué)基礎(chǔ),同時(shí)還可以處理復(fù)雜的、接近實(shí)際情況的進(jìn)化模型。與極大似然法相比,后驗(yàn)概率法同樣應(yīng)用廣泛,且可通過相同的數(shù)據(jù)信息,更低的計(jì)算量,得出與極大似然法一致的結(jié)論。與最大簡約法相比,后驗(yàn)概率法能夠考慮更多的進(jìn)化相關(guān)信息。
2.1.1 基于核心基因組多位點(diǎn)序列分型(multilocussequence typing,MLST)構(gòu)建進(jìn)化樹 核心基因序列是重復(fù)且保守的核苷酸序列,在進(jìn)化過程中可能發(fā)生富集、選擇和遺傳[19]。細(xì)菌的核心基因序列之間可以通過直接接觸及質(zhì)粒、噬菌體或其他可移動(dòng)遺傳元件(整合子、轉(zhuǎn)座子和插入序列等)的方式進(jìn)行基因復(fù)制或基因交換,通過分析這些保守序列,可以分析不同細(xì)菌進(jìn)化的差異以及菌株間的親緣關(guān)系[20]。MLST是近年來發(fā)展迅速的分子生物學(xué)分析方法,具有較高的分辨能力,可以通過多個(gè)管家基因450 bp左右的基因序列比較菌株等位基因的多態(tài)性,不同菌株對(duì)應(yīng)不同的序列型,可以進(jìn)行菌株進(jìn)化和種群結(jié)構(gòu)的研究[21]。核心基因組MLST可以使用微生物數(shù)百甚至數(shù)千個(gè)保守的等位基因進(jìn)行基因分型,其分辨率遠(yuǎn)高于傳統(tǒng)的MLST[22]。隨著NGS技術(shù)的廣泛應(yīng)用,核心基因組MLST主要被應(yīng)用在分子流行病學(xué)分析領(lǐng)域,且在該領(lǐng)域快速發(fā)展,已有研究采用核心基因組MLST方法分析我國即食食品中單核細(xì)胞增生李斯特菌的分子流行病學(xué)特征,結(jié)果表明核心基因組MLST能將不同譜系、血清群和克隆群的菌株明顯分開,共分為24個(gè)亞群,與克隆群基本保持一致[23]?;谌蚪M測序的核心基因組MLST分辨能力強(qiáng),可用于監(jiān)測暴發(fā)性食源性疾病。但核心基因組MLST仍有一定的局限性,如缺乏對(duì)關(guān)系非常密切的菌株的分辨能力,且可分析菌株的種類有限[24]。2011年,SAHL等[25]對(duì)大腸埃希菌的MLST研究結(jié)果顯示,全基因組序列進(jìn)化樹與MLST分型的結(jié)果并不一致。2014年,朱健銘等[26]對(duì)肺炎克雷伯菌進(jìn)行分析,結(jié)果表明采用單個(gè)核苷酸序列進(jìn)行細(xì)菌進(jìn)化分析及采用MLST進(jìn)行菌株親緣關(guān)系分析并不可靠,為了校正MLST的缺點(diǎn),提高分辨率,他們采用管家基因和毒力基因聯(lián)合檢測的方法進(jìn)行分析,發(fā)現(xiàn)根據(jù)核心基因組各位點(diǎn)序列圖譜構(gòu)建的進(jìn)化樹,與參與菌株相應(yīng)序列進(jìn)行比對(duì),既可以準(zhǔn)確地研究細(xì)菌遺傳進(jìn)化關(guān)系,又可以確定菌株的種屬,對(duì)分析細(xì)菌親緣關(guān)系意義重大。
2.1.2 基于非編碼保守基因構(gòu)建進(jìn)化樹 非編碼保守DNA序列(conserved noncoding DNA sequences,CNS)是指細(xì)菌基因組中轉(zhuǎn)錄RNA但不能翻譯蛋白質(zhì)或能調(diào)控其他基因的序列,是比較小的一段序列[27]。CNS在生物的進(jìn)化中具有加工修飾RNA、調(diào)控轉(zhuǎn)錄和DNA結(jié)構(gòu)等特殊的功能[28]。CNS不僅具有長度和頻率的物種特異性,還具有豐富性、廣闊性、保守性和功能性等特點(diǎn),使其在微生物親緣關(guān)系的分析中極具潛力,如對(duì)耐輻射球菌與嗜熱菌親緣關(guān)系的分析[29]。但是如果要對(duì)CNS的功能進(jìn)行正確、全面的理解和分析,還需要通過大量的實(shí)驗(yàn)進(jìn)行功能驗(yàn)證。
SNP是指基因組中的單個(gè)堿基的突變引起的DNA序列多態(tài)性,有數(shù)量多、多態(tài)性豐富、遺傳穩(wěn)定、易實(shí)現(xiàn)分析自動(dòng)化的特點(diǎn)[30]。單個(gè)堿基的變異可以由顛換或轉(zhuǎn)換引起,也可以由插入或缺失引起,這些SNP位點(diǎn)可能影響基因的功能,引起性狀的改變,甚至導(dǎo)致疾病的發(fā)生,因此SNP是遺傳變異的重要依據(jù),被廣泛應(yīng)用于微生物的起源、進(jìn)化及遷移等方面的研究。有學(xué)者為了解外源基因轉(zhuǎn)化沙漠寡營養(yǎng)細(xì)菌的進(jìn)化與變異,通過生物學(xué)信息繪制了細(xì)菌的SNP系統(tǒng)發(fā)育樹,結(jié)果表明SNP數(shù)量最多的菌株進(jìn)化速度最快[31]。SNP分析不僅提供了研究和理解基因突變的新方法,還能為微生物的鑒定及親緣關(guān)系分析提供依據(jù)。
基因拷貝數(shù)是某種基因或某段特定DNA序列在基因組中出現(xiàn)的數(shù)目,多拷貝基因廣泛存在于細(xì)菌中,而且多是可以移動(dòng)的基因序列,分析基因拷貝數(shù)變異(jcopy number variation,CNV)是研究微生物進(jìn)化、變異以及致病性的基礎(chǔ)[32]。CNV是基因組中的多核苷酸突變,是一種重要的遺傳變異,與研究較多的SNP相比,CNV涉及更多的堿基,覆蓋更大范圍的基因序列,在基因突變與細(xì)菌進(jìn)化的研究上逐漸成為熱點(diǎn)和重點(diǎn)[30]。目前,全基因組CNV檢測的方法主要有芯片法和NGS技術(shù)等。全基因組CNV圖譜和更精確的參考基因組必將引領(lǐng)微生物基因組學(xué)研究熱潮,并進(jìn)一步提高在全基因組范圍內(nèi)探測基因組變異的準(zhǔn)確性,對(duì)微生物親緣關(guān)系的分析有重大的指導(dǎo)意義。
致病島又被稱為毒力島、適應(yīng)島、生態(tài)島或共生島,是細(xì)菌基因組中可以編碼毒力因子的序列,與細(xì)菌的致病性密切相關(guān),能夠在菌株間通過基因組水平轉(zhuǎn)移,可以使細(xì)菌在短期內(nèi)發(fā)生形狀的改變,甚至產(chǎn)生新的變種,這種演變有助于細(xì)菌不斷適應(yīng)環(huán)境[33]。很多病原菌都有致病島,如產(chǎn)腸毒素葡萄球菌、幽門螺桿菌、大腸埃希菌、沙門菌等[34-35]?;谥虏u構(gòu)建進(jìn)化樹有助于理解細(xì)菌的進(jìn)化和遷徙。有學(xué)者[36]研究了基于幽門螺桿菌CagPAI和Cag A基因構(gòu)建的系統(tǒng)發(fā)育樹,驗(yàn)證了拉丁美洲菌株的分群和聚類特點(diǎn),以及與之相關(guān)的人群背景。隨著微生物耐藥性的增強(qiáng)和新型病原體的出現(xiàn),鑒定致病菌也越來越重要。鑒定病原體的毒力基因并了解其從非致病性向致病性的進(jìn)化,對(duì)于基礎(chǔ)科學(xué)和醫(yī)學(xué)研究都是一種挑戰(zhàn)。
CRISPR在細(xì)菌基因組中由不連續(xù)的同向重復(fù)序列和插入其中的間隔序列組成,有針對(duì)噬菌體或質(zhì)粒等外源基因的獲得性免疫作用,在細(xì)菌進(jìn)化過程中保持結(jié)構(gòu)的高度可變,CRISPR位點(diǎn)是研究細(xì)菌分型與進(jìn)化的關(guān)鍵位點(diǎn)[37]。CRISPR通常由同向重復(fù)序列、間隔序列、前導(dǎo)序列以及CRISPR相關(guān)蛋白組成。cas基因與重復(fù)序列相互關(guān)聯(lián),可使細(xì)菌協(xié)同進(jìn)化[38]。CRISPR位點(diǎn)會(huì)隨著細(xì)菌的進(jìn)化不斷出現(xiàn)新間隔序列的插入以及舊間隔序列的丟失,這種現(xiàn)象是導(dǎo)致細(xì)菌基因組進(jìn)化速度快的重要原因之一,因此CRISPR位點(diǎn)具有很復(fù)雜的多態(tài)性[39]。CRISPR位點(diǎn)在細(xì)菌中的多態(tài)性不僅能夠反映細(xì)菌與環(huán)境相互作用的關(guān)系,還能夠記錄細(xì)菌在進(jìn)化過程中的生態(tài)學(xué)和地理學(xué)信息,如根據(jù)CRISPR位點(diǎn)的間隔序列在沙門菌中排列的差異,可以判斷不同菌株間的親緣關(guān)系,并進(jìn)行溯源分析;根據(jù)醋酸菌的重復(fù)序列構(gòu)建進(jìn)化樹,可將不同屬的菌種進(jìn)行分類[40]。有研究應(yīng)用CRISPR序列分型分析病原體的暴發(fā)流行,如鼠疫耶爾森菌和腸炎沙門菌亞種的分群[40-41]。此外,CRISPR還可以提供與微生物表型相關(guān)的重要信息,如腸球菌耐藥基因序列和化膿性鏈球菌基因組中的前噬菌體等,這些信息都反映了CRISPR在調(diào)控基因水平轉(zhuǎn)移、細(xì)菌適應(yīng)環(huán)境及細(xì)菌進(jìn)化中的作用[42]。因此,應(yīng)用CRISPR構(gòu)建進(jìn)化樹分析細(xì)菌親緣關(guān)系的優(yōu)點(diǎn)在于:基因分型分辨率較高、操作簡單、重復(fù)性好、結(jié)果數(shù)字化、便于不同實(shí)驗(yàn)室結(jié)果的比對(duì)等[43]。但目前仍然存在一些需要解決的問題,如數(shù)據(jù)不夠充分、數(shù)據(jù)庫不夠健全、細(xì)菌之間的分型標(biāo)準(zhǔn)不夠完善等,在未來,構(gòu)建標(biāo)準(zhǔn)化的CRISPR數(shù)據(jù)庫具有十分重要的意義。
基因分析技術(shù)的飛速發(fā)展促進(jìn)了生物學(xué)諸多領(lǐng)域的發(fā)展,對(duì)認(rèn)識(shí)細(xì)菌基因組與進(jìn)化的關(guān)系有深遠(yuǎn)的影響。細(xì)菌基因組具有多樣性和規(guī)律性特征,面對(duì)海量的基因組信息,挖掘有效信息,構(gòu)建合適的進(jìn)化樹是十分重要的。有效地構(gòu)建進(jìn)化樹應(yīng)該具備2個(gè)條件:首先,必須基于一種合適的進(jìn)化方式,能反映或解釋進(jìn)化事件;其次,應(yīng)該覆蓋更多的基因組信息[44]。為更好地鑒定細(xì)菌類型以及明確不同菌群之間的親緣關(guān)系,結(jié)合不同基因組序列構(gòu)建細(xì)菌進(jìn)化樹,將有效幫助解決細(xì)菌進(jìn)化中許多懸而未決的問題[45]。
本文簡述了目前常見的用于構(gòu)建細(xì)菌進(jìn)化樹的方法,但是可以用來進(jìn)行細(xì)菌親緣關(guān)系分析而構(gòu)建進(jìn)化樹的方法不限于文中所述,挖掘更多有價(jià)值的基因標(biāo)志物將是很有前景的研究,也是探究細(xì)菌進(jìn)化史的必由之路。