周江林,彭小川,胡明達(dá),周靜,任洪廣,梁龍,靳遠(yuǎn),岳俊杰
軍事科學(xué)院 軍事醫(yī)學(xué)研究院 生物工程研究所,北京100071
近30年來,隨著生物多樣性的發(fā)展變化,各種傳染性疾病在全球范圍內(nèi)流行并反復(fù)出現(xiàn),新發(fā)感染性疾病的出現(xiàn)和經(jīng)典傳染病的死灰復(fù)燃表明人類與感染性疾病的斗爭遠(yuǎn)未結(jié)束。其中,由病原菌引發(fā)的傳染病疫情不勝枚舉,如嗜肺軍團(tuán)菌引起軍團(tuán)病的發(fā)生與全球性蔓延[1];O104∶H4 大腸桿菌引起的震驚世界的出血性腸炎、溶血性尿毒綜合征疫情的暴發(fā)[2];O139 血清型霍亂弧菌引起的新型霍亂流行帶給人類巨大損失和驚恐[3]。細(xì)菌引發(fā)的感染性疾病不僅對人類健康有極大危害,而且嚴(yán)重影響社會穩(wěn)定和經(jīng)濟(jì)發(fā)展。
在傳染病疫情出現(xiàn)時,快速、可靠地鑒別追溯病原體源頭、獲得病原微生物的特性,掌握疾病流行擴(kuò)散的趨勢,對于指導(dǎo)臨床治療和疾病防控至關(guān)重要。基因組是物種遺傳物質(zhì)的載體,也是形成微生物特定表型的本源[4]?;谌蚪M多態(tài)性的分型技術(shù)適用于所有病原菌的分析和溯源,分辨率和精度也是最高的[3]。隨著高通量測序技術(shù)的進(jìn)步,測序成本急劇下降[5-6],研究人員有能力測定自己所關(guān)注的細(xì)菌的全基因組并進(jìn)行分析,同時公共數(shù)據(jù)庫中微生物基因組序列數(shù)目快速增加,給生物信息學(xué)研究人員提供了數(shù)據(jù)基礎(chǔ)??傊?,微生物全基因組測序(whole-ge?nome sequencing,WGS)的發(fā)展,對于指導(dǎo)臨床診斷和公共健康領(lǐng)域的“基因組流行病學(xué)”有很大的應(yīng)用前景,而且WGS 在研究細(xì)菌進(jìn)化、病原菌疫情暴發(fā)和傳播方面有許多成果得到報告[2-3,7-9]。
除了垂直遺傳以外,細(xì)菌種群中普遍存在基因重組或稱水平基因轉(zhuǎn)移(horizontal gene trans?fer,HGT)的過程[10-13],該過程通過轉(zhuǎn)化、轉(zhuǎn)導(dǎo)和接合途徑將遺傳物質(zhì)在細(xì)菌之間交換傳遞[14],并且不受細(xì)菌譜系的約束,進(jìn)化距離很遠(yuǎn)的2 種細(xì)菌仍然可以發(fā)生HGT。HGT 介導(dǎo)的毒力因子、耐藥基因等在細(xì)菌中擴(kuò)散[15-16],加速細(xì)菌基因組革新和進(jìn)化,不斷產(chǎn)生新型病原菌和流行亞型。細(xì)菌基因組忠實地記錄了它們所經(jīng)歷的自然選擇、遺傳漂變和基因重組事件[17],通過測定細(xì)菌全基因組序列,并將該序列與已有的毒力因子數(shù)據(jù)庫、耐藥基因數(shù)據(jù)庫等進(jìn)行查詢比對,我們可以獲得待測菌株的毒力基因譜(toxome,毒力相關(guān)基因的分布情況)和耐藥基因譜(resistome,所有抗性基因構(gòu)成的圖譜),從而判斷細(xì)菌的毒力、耐藥和致病性等重要表型。同時,通過分析細(xì)菌基因組的重組情況,我們可以進(jìn)一步對該細(xì)菌的進(jìn)化歷史進(jìn)行溯源,將其與遺傳關(guān)系密切的姊妹菌株區(qū)分開來,構(gòu)建待測菌的種群結(jié)構(gòu),從而指導(dǎo)臨床治療和疾病防控實踐。
當(dāng)細(xì)菌性傳染病疫情暴發(fā)時,醫(yī)護(hù)或疾控人員亟須回答幾個問題:①病原體是什么,它是哪一種或哪個亞型的菌株,從哪里來,可能的傳播途徑是什么?②病原體有哪些致病表型,其生存能力、毒力和耐藥特性是什么情況?③暴發(fā)株是否存在基因重組情況,是否有哪些基因重組導(dǎo)致其流行暴發(fā)?全基因組測序技術(shù)的進(jìn)步,以及與其相關(guān)的數(shù)據(jù)存儲、分析和比較的生物信息學(xué)工具,為解決這些問題提供了新的思路與方案[4]。
病原菌溯源分析的傳統(tǒng)技術(shù)可以分為表型方法和分子方法。表型方法也叫生物化學(xué)方法,它是通過微生物各種酶的生化反應(yīng)來判定微生物種類,如血清學(xué)分型、噬菌體分型、抗生物耐藥性分析法等。分子方法以細(xì)菌遺傳物質(zhì)的序列片段為研究對象,通過細(xì)菌個體的DNA 多態(tài)性“指紋”對細(xì)菌進(jìn)行分類,如脈沖場凝膠電泳法(pulsed-field gel electrophoresis,PFGE)、多位點序列分型(multilocus sequence typing,MLST)技術(shù)等[18-19]。但這些方法都只能研究細(xì)菌基因組的一小部分片段,因而這些手段屬于物種依賴(spe?cies-dependent)的方法,同時存在費(fèi)時和分類分辨率低的問題,特別是通常不能分辨密切相關(guān)的暴發(fā)株或檢測毒力/耐藥特征[7,20]。全基因組測序能夠克服這些傳統(tǒng)方法的缺點,隨著全基因組測序技術(shù)的進(jìn)步和成本的降低以及相關(guān)生物信息學(xué)工具的增加,全基因組測序方法能夠提供更加快速和高分辨率的暴發(fā)分析[20]。測序完成后,得到的測序片段(reads)一般經(jīng)過專用軟件de novo組裝成較長的contig 或完整的基因組,之后進(jìn)行物種鑒定、毒力或耐藥預(yù)測,以及系統(tǒng)發(fā)生分析等;也有一些工具通過將測序片段映射(mapping)到參考基因組上進(jìn)行類似目的的分析。當(dāng)前相關(guān)的生物信息學(xué)工具主要有丹麥基因組流行病學(xué)中心(Center for Genomic Epidemiology,http://www.genomicepidemiology.org/)提供的KmerFinder[21]用于預(yù)測細(xì)菌種屬,ResFinder[22]、KmerResistance[23]用于預(yù)測獲得的耐藥基因,VirulenceFinder[24]用于識別毒力基因,以及細(xì)菌分析流水線(Bacterial Analysis Pipeline,BAP)[25],集成了之前的工具進(jìn)行自動批量分析細(xì)菌全基因組數(shù)據(jù)。其他用于預(yù)測耐藥基因的工具有SRST2[26]、CARD/RGI[27]等,用于預(yù)測毒力因子的工具還有VRprofile 等[28-29](表1)。這些工具的優(yōu)點是普遍基于Web 提供服務(wù),用戶界面比較友好且操作相對容易上手,基于組裝分析的準(zhǔn)確率也比較好。但是這些工具也存在許多缺點,它們大都基于組裝后的contig或基因組數(shù)據(jù)進(jìn)行分析,而測序原始數(shù)據(jù)組裝需要消耗較多的計算資源和時間,產(chǎn)生高質(zhì)量的組裝數(shù)據(jù)需要對原始數(shù)據(jù)仔細(xì)的質(zhì)量控制和篩選,以及對組裝軟件參數(shù)的精心調(diào)試,這對廣大普通實驗人員來說是巨大的挑戰(zhàn);并且已有工具只能單獨提供耐藥基因或毒力因子或物種預(yù)測功能,不能對病原菌提供較為全面的認(rèn)識;基于Web 提供服務(wù),存在吞吐量小、時延大的缺點,而且在不安全的web 服務(wù)器上用戶數(shù)據(jù)存在受損或被盜的風(fēng)險。
細(xì)菌基因水平轉(zhuǎn)移的分析檢測方法目前主要有3 類。第一類是參數(shù)方法,基于細(xì)菌基因組的結(jié)構(gòu)和組成,在基因組上尋找與其他區(qū)域存在顯著差異的區(qū)域,如GC 含量、密碼子使用偏性或寡核苷酸組成等[30],推測細(xì)菌基因組存在的基因重組。這類方法計算速度快,可以較大規(guī)模地分析目標(biāo)基因組,但存在假陽性高的缺點。第二類是系統(tǒng)發(fā)生學(xué)分析方法,這類方法依賴系統(tǒng)發(fā)生沖突(phylogenetic confilct),取一組要研究的基因構(gòu)建它們的系統(tǒng)發(fā)育樹,并將這棵樹與其來源物種的系統(tǒng)發(fā)育樹對比,當(dāng)2 棵樹之間分支有沖突時引入HGT 事件使2 棵樹分支拓?fù)湟恢耓31-33]。系統(tǒng)發(fā)生學(xué)方法能夠整合多個細(xì)菌全基因組的信息,尤其是把它們整合在進(jìn)化模型上,從而能更好地描述推斷HGT 事件的特征,比如找到供體株和推斷轉(zhuǎn)移事件時間等[34],一般被認(rèn)為是檢測細(xì)菌基因重組的金標(biāo)準(zhǔn)。然而這類方法也存在明顯缺點:一方面,這種方法需要完整組裝注釋的基因組做分析,序列組裝和比對、構(gòu)建系統(tǒng)發(fā)育樹一般非常消耗計算資源和時間,傳染病疫情暴發(fā)時可能會響應(yīng)不及時;另一方面,模型的結(jié)果也須謹(jǐn)慎使用,例如系統(tǒng)發(fā)生學(xué)沖突也可能是模型沒有考慮到未識別的旁系同源基因等[34]。第三類是基于原始測序數(shù)據(jù)讀長繪制(reads mapping)的方法。Trappe[35]等報道了Daisy 工具,通過切分讀長映射(split-read mapping)方法確定HGT 邊界,并通過read pair 和覆蓋深度信息評估候選區(qū)域。該方法直接利用高通量測序數(shù)據(jù)檢測HGT而不需要de novo組裝拼接,快速高效。但是該方法須提供基因重組的2 個親本菌株,并且只能單個供體基因組的HGT 可能情況,實際情況下我們往往并不知道一株待測菌是否有基因重組以及其重組親本是什么,這就需要進(jìn)一步改進(jìn)這類方法來增強(qiáng)實際應(yīng)用價值。更多關(guān)于細(xì)菌基因重組檢測的具體工具可參閱文獻(xiàn)[36]。
隨著經(jīng)濟(jì)全球化的發(fā)展,全球各地區(qū)之間的聯(lián)系越來越緊密,跨地區(qū)人流、物流、生物遷徙等愈發(fā)廣泛,新型細(xì)菌和新發(fā)傳染病流行擴(kuò)散的可能性也越來越大,抗生素耐藥細(xì)菌的傳播擴(kuò)散成為全球關(guān)注的公共衛(wèi)生緊急事件,威脅著各級衛(wèi)生保健服務(wù)的醫(yī)療干預(yù)手段。基于全基因組測序的細(xì)菌變異進(jìn)化研究分辨率高、分析結(jié)果快速,能為應(yīng)對這些挑戰(zhàn)提供堅實的支撐,并且已經(jīng)在多次醫(yī)院內(nèi)感染調(diào)查、傳染病疫情調(diào)查和防控中大顯身手。
基于全基因組測序的分型方法對于多耐藥細(xì)菌的暴發(fā)檢測和進(jìn)化變異檢測具有重要意義和幫助[37]。2010年,多耐藥性鮑曼不動桿菌(mul?tidrug-resistantAcinetobacter baumannii,MDR-Aci)感染在英國一家醫(yī)院暴發(fā),傳統(tǒng)的分子分型方法(如PFGE 等)無法提供足夠的分辨率來確定明顯是克隆性暴發(fā)的病原菌傳播鏈,也無法提供關(guān)于傳播模式的詳細(xì)信息。研究人員采用高通量測序技術(shù)對MDR-Aci 分離株進(jìn)行全基因組測序和單核苷酸多態(tài)性分析,證明MDR-Aci 是從軍人患者M(jìn)2 的傷口傳播到平民患者C2 的呼吸道[7]。2012年7~9月,產(chǎn)CTX-M-15 的肺炎克雷伯菌導(dǎo)致荷蘭一所大學(xué)醫(yī)院暴發(fā)感染疫情,研究人員對暴發(fā)分離株進(jìn)行了全基因組測序,并將測序結(jié)果與其他已知肺炎克雷伯菌基因組序列做核心系統(tǒng)發(fā)育和全基因組單核苷酸多態(tài)性分析,證實暴發(fā)株是一種新出現(xiàn)的序列型ST1427[38]。除此之外,同一課題組的研究人員對產(chǎn)CTX-M-15 的ST15 型肺炎克雷伯菌院內(nèi)暴發(fā)株進(jìn)行全基因組測序分析,結(jié)合流行病學(xué)數(shù)據(jù),重構(gòu)出肺炎克雷伯菌在單個治療中心患者間的傳播和患者轉(zhuǎn)診導(dǎo)致的機(jī)構(gòu)內(nèi)擴(kuò)散感染路線[39]。這項研究表明全基因組測序方法有助于及早檢測發(fā)現(xiàn)具有醫(yī)院傳播傾向或區(qū)域患者人群中長期循環(huán)的肺炎克雷伯菌高危克隆群。由于具有傳統(tǒng)分型方法無可媲美的優(yōu)點和廣闊前景,基因組流行病學(xué)被Science雜志列為2012年最值得關(guān)注的六大科研領(lǐng)域之一[40]。
當(dāng)前病原體鑒定的常規(guī)方法是基于大量細(xì)菌學(xué)的生化試驗和分子實驗,這個過程費(fèi)時費(fèi)力且代價高昂。通過細(xì)菌全基因組測序,將得到的序列數(shù)據(jù)與已有的毒力基因、耐藥基因和病原宿主相互作用等數(shù)據(jù)庫做比對分析,可以快速鑒定細(xì)菌多種病原特性。2011年大腸桿菌疫情在德國北部暴發(fā),很快席卷了德國和歐洲其他國家,導(dǎo)致超過4000 人感染,50 例死亡?;颊甙Y狀表現(xiàn)為典型的腸出血性大腸桿菌(enterohemorrhageEscherichia coli,EHEC)感染,但病原培養(yǎng)特性和MLST 分析卻發(fā)現(xiàn)暴發(fā)菌株與EHEC 差距甚遠(yuǎn),因此一度懷疑該菌株是一種完全新型的致病性大腸桿菌[41]。后來我國楊瑞馥教授團(tuán)隊通過對發(fā)病菌株的全基因組測序分析,發(fā)現(xiàn)導(dǎo)致暴發(fā)的菌株與腸聚集性大腸桿菌屬于同一進(jìn)化分支,但獲得了編碼志賀毒素的stx2基因,從而表現(xiàn)出EHEC的致病特點。該菌株還攜帶了Ⅰ型聚集性黏附菌毛蛋白等毒力因子以及多個耐藥基因[2,42],正是上述基因的獲得增強(qiáng)了菌株的環(huán)境生存能力,從而促進(jìn)病原的大范圍傳播,造成了嚴(yán)重的公共衛(wèi)生事件。另一個關(guān)于荷蘭2 個地區(qū)的大規(guī)模隊列研究中,全基因組測序手段被用于對產(chǎn)志賀毒素大腸桿菌(Shiga toxin-producingE.coli,STEC)的分子鑒定和系統(tǒng)發(fā)育分析,結(jié)果顯示抗生素抗性基因在stx1陽性菌株中出現(xiàn)頻率高于stx2和stx1+stx2陽性菌株,iha、mchB、mchC、mchF、subA、ireA、senB、saa和sigA基因在eae 陰性STEC 菌株中出現(xiàn)頻率顯著高于eae陽性菌株,編碼三型分泌系統(tǒng)蛋白和黏附素毒力基因與血性腹瀉患者體內(nèi)分離株存在相關(guān)性,而無論stx亞型如何,分離株根據(jù)其序列型(ST)或血清型都能聚集成簇[43],從而清晰地構(gòu)建出該地區(qū)STEC 種群結(jié)構(gòu)和基因組可塑性。
隨著測序技術(shù)的進(jìn)步,測序成本和耗時不斷下降,基于全基因組測序的方法可以代替整合多個傳統(tǒng)的工作流,成為單個有效的全基因組測序研究工作流,待測菌的物種、分型、毒力特征、耐藥情況等重要分子特征可以快速從基因組信息中提取分析,這些信息可用于臨床診斷和治療方案決策、切斷院內(nèi)感染傳播途徑等。利用全基因組測序數(shù)據(jù)進(jìn)行細(xì)菌進(jìn)化溯源、種群結(jié)構(gòu)分析和基因重組檢測,能夠為應(yīng)對傳染病疫情暴發(fā)和重大生物安全事件提供信息保障和防控決策支持。
綜上,我們介紹了基于全基因組測序的細(xì)菌進(jìn)化研究背景和重要意義,簡要綜述了該領(lǐng)域國內(nèi)外研究現(xiàn)狀,介紹對比了不同生物信息學(xué)工具的優(yōu)缺點,最后以2 個具體應(yīng)用及相關(guān)文獻(xiàn)報道實例闡述了全基因組測序方法研究細(xì)菌變異進(jìn)化的實際應(yīng)用。
基于全基因組多態(tài)性的分型技術(shù)已經(jīng)開始應(yīng)用于病原菌的分析與溯源,在院內(nèi)感染調(diào)查、傳染病疫情防控中顯示了其無可比擬的優(yōu)勢,未來這類實際應(yīng)用勢必會更加廣泛和高效。目前對基于組裝注釋后的分析工具的研究比較透徹,但也存在如上所述一些缺點;而基于kmer 頻率、reads mapping 等非組裝的細(xì)菌變異進(jìn)化研究分析方法在一些科學(xué)研究中已嶄露頭角[44-45],具有不須組裝、快速高效等優(yōu)點,值得進(jìn)一步探討。
基于全基因組測序的細(xì)菌變異進(jìn)化研究和應(yīng)用也面臨一些挑戰(zhàn)。首先,當(dāng)前存在多種測序平臺,用不同的建庫方法和測序誤差得到的序列數(shù)據(jù)的可比性還沒有被全面評估和驗證[6],僅有少數(shù)幾個物種、分離株和分析方法的研究評估被報道[46-47],急須對基于全基因組測序的菌株鑒定、分子鑒定、分型和發(fā)育分析等進(jìn)行系統(tǒng)性研究。其次,目前公共數(shù)據(jù)庫的序列數(shù)據(jù)質(zhì)量參差不齊,不同實驗室和測序平臺產(chǎn)生的reads 和組裝完成的基因組數(shù)據(jù)都存在不同的問題,這為基于全基因組的各類分析應(yīng)用和大規(guī)模生物信息學(xué)分析帶來了不可忽視的影響,未來需要探索建立一個較為標(biāo)準(zhǔn)化的序列數(shù)據(jù)質(zhì)量控制流程和結(jié)果評估閾值,減少序列數(shù)據(jù)使用人員的困惑。第三,全基因組測序和數(shù)據(jù)分析迫切需要一個自動化的標(biāo)準(zhǔn)工作流,目前的數(shù)據(jù)分析方法和工具較為離散,一個工具往往只能完成1 個或2 個分析功能,使用者需要摸索設(shè)置各分析工具的輸入?yún)?shù),各工具的訪問途徑和結(jié)果格式也差異較大,這對使用者、特別是不具備較強(qiáng)生物信息學(xué)背景的實驗或醫(yī)護(hù)人員存在巨大障礙。盡管目前這方面的綜合性工作流工具已有部分報道[24-25,48],但是其可用性和應(yīng)用范圍還比較有限,未來需要探索建立一個用戶友好、結(jié)果美觀的綜合性全基因組數(shù)據(jù)分析平臺。
隨著全基因組測序技術(shù)的不斷進(jìn)步,測序成本必將不斷下降,測序片段的讀長和準(zhǔn)確率也會越來越高,結(jié)合同一標(biāo)準(zhǔn)化的建庫流程和綜合性生物信息學(xué)分析工具,未來基于全基因組測序的方法必將在非培養(yǎng)臨床診斷、病原體鑒定、傳染病疫情實時監(jiān)測防控和公共衛(wèi)生調(diào)查等領(lǐng)域大展身手。