崔玉軍,楊瑞馥
微生物全基因組測(cè)序在預(yù)防醫(yī)學(xué)領(lǐng)域的應(yīng)用
崔玉軍,楊瑞馥
病原微生物引起傳染病疫情時(shí),預(yù)防醫(yī)學(xué)工作者會(huì)面臨以下幾個(gè)重要問(wèn)題:①病原從哪里來(lái),可能的傳播途徑是什么;②病原有哪些生存能力、毒力和耐藥特性;③病原所致疾病有著怎樣的流行規(guī)律。高通量測(cè)序技術(shù)以及與之相伴的信息學(xué)分析技術(shù)的飛速發(fā)展,為上述問(wèn)題提供了新的思路和解決方案。本文從流行病學(xué)調(diào)查溯源、病原體特性的快速判定、疾病流行規(guī)律分析以及疫苗變異監(jiān)測(cè)和使用效果評(píng)價(jià)四個(gè)方面,總結(jié)歸納了新一代全基因組測(cè)序技術(shù)在預(yù)防醫(yī)學(xué)領(lǐng)域中的應(yīng)用實(shí)例,并對(duì)該研究方向存在的問(wèn)題及未來(lái)發(fā)展進(jìn)行了展望。
基因組;微生物學(xué);序列分析;流行病學(xué)研究;病原
傳染病疫情暴發(fā)嚴(yán)重危害人類健康,造成巨大的經(jīng)濟(jì)損失。尤其是新型病原微生物出現(xiàn)并迅速擴(kuò)散時(shí),如嚴(yán)重急性呼吸綜合征、新型禽流感、德國(guó)出血性大腸桿菌疫情等,還會(huì)引起社會(huì)的普遍影響。預(yù)防醫(yī)學(xué)工作者對(duì)疾病的流行規(guī)律,以及對(duì)引起疾病的病原微生物本身缺乏足夠認(rèn)識(shí),是很多情況下疫情防控措施不夠合理的重要原因;而缺乏對(duì)新型病原和疾病的了解,是導(dǎo)致民眾產(chǎn)生恐慌的因素之一。因此,在疫情出現(xiàn)早期,快速獲得病原特性,掌握疾病流行規(guī)律,是實(shí)現(xiàn)有效防控的重中之重。
對(duì)病原微生物的全基因組序列測(cè)定可以迅速提供疫情防控所需要的信息[1-4]?;蚪M是遺傳物質(zhì)的載體,也是形成微生物特定表型的本源。在疾病流行過(guò)程中,病原體的基因組會(huì)以一定速率發(fā)生變異,這些變異忠實(shí)記錄了病原傳播所經(jīng)歷的自然選擇和遺傳漂變的作用[5]。因此,測(cè)定病原微生物的全基因組序列,并應(yīng)用比較基因組學(xué)和群體遺傳學(xué)的分析方法研究這些序列及其變異情況,將能夠預(yù)測(cè)病原微生物的重要表型,并反演病原傳播的途徑和選擇壓力。這些信息的獲得將為針對(duì)性預(yù)防治療和傳播過(guò)程追溯提供必要的數(shù)據(jù)支持。
在過(guò)去30年中,基于基因組序列片段的分子分型方法與流行病學(xué)技術(shù)的結(jié)合極大地豐富了我們對(duì)病原的認(rèn)識(shí),脈沖場(chǎng)凝膠電泳、多位點(diǎn)串聯(lián)重復(fù)序列分析、多位點(diǎn)序列分型(multilocus sequence typing,MLST)等技術(shù)已經(jīng)在國(guó)家疾病防控體系中廣泛應(yīng)用。但是直到近十年前,分辨率最高的全基因組序列分析卻始終徘徊在主流預(yù)防醫(yī)學(xué)研究領(lǐng)域之外,其主要原因是基于雙脫氧鏈終止法的第一代核酸測(cè)序技術(shù)成本過(guò)高,且進(jìn)行全基因組測(cè)序的周期太長(zhǎng)(通常需要整年的時(shí)間),不適合常規(guī)監(jiān)測(cè)以及應(yīng)對(duì)突發(fā)疫情的需要。2005年起,新一代測(cè)序技術(shù)走上歷史舞臺(tái),將單個(gè)細(xì)菌全基因組序列測(cè)定所需的時(shí)間從1年縮短到幾天甚至幾個(gè)小時(shí),測(cè)序成本也大幅度降低[6],至此全基因組測(cè)序技術(shù)才真正跨越基礎(chǔ)研究的范疇,開(kāi)始走入預(yù)防醫(yī)學(xué)臨床應(yīng)用的廣闊天地,并為該領(lǐng)域的研究帶來(lái)革命性變革[4,7]。本文從流行病學(xué)調(diào)查和溯源、病原體特性預(yù)測(cè)、疾病流行規(guī)律分析、疫苗變異監(jiān)測(cè)和使用效果評(píng)價(jià)4個(gè)方面,對(duì)全基因組測(cè)序技術(shù)在預(yù)防醫(yī)學(xué)領(lǐng)域中的應(yīng)用進(jìn)行綜述。
全基因組測(cè)序技術(shù)在預(yù)防醫(yī)學(xué)中最直接的應(yīng)用就是流行病學(xué)調(diào)查分析。病原體在不同宿主、媒介中復(fù)制和傳播時(shí),其基因組變異會(huì)以一定概率發(fā)生并累積下來(lái)。通過(guò)全基因組測(cè)序檢測(cè)這些變異,并利用比較基因組學(xué)和群體遺傳學(xué)分析手段重建樣本間的系統(tǒng)發(fā)育關(guān)系,可以推測(cè)不同來(lái)源的病原體之間的傳播關(guān)系,從而為流行病學(xué)和微生物法醫(yī)學(xué)調(diào)查提供更完善的證據(jù)和補(bǔ)充。
此類研究最早應(yīng)用于加拿大的一起社區(qū)胸膜結(jié)核疫情的回顧性流行病學(xué)調(diào)查[8]。該社區(qū)在2年時(shí)間里陸續(xù)觀察到41例患者。Gardy等[8]對(duì)來(lái)自患者的結(jié)核分枝桿菌進(jìn)行測(cè)序和系統(tǒng)發(fā)育分析,并與傳統(tǒng)流行病學(xué)調(diào)查數(shù)據(jù)獲得的患者社會(huì)網(wǎng)絡(luò)互相疊加,精確判定了傳染源和傳播途徑。研究發(fā)現(xiàn)了引起多人感染的超級(jí)傳播者,并證明疫情實(shí)際由2起同時(shí)發(fā)生,但具有各自獨(dú)立傳播途徑的流行組成。該研究首次將全基因組序列分析整合到傳統(tǒng)流行病學(xué)研究中,有力證明了全基因組測(cè)序技術(shù)在流行病學(xué)調(diào)查中的作用。
全基因組測(cè)序的高分辨率特性使其在院內(nèi)感染調(diào)查中起到不可替代的作用。2009年,英國(guó)劍橋醫(yī)院的新生兒監(jiān)護(hù)病房發(fā)生了耐甲氧西林金黃色葡萄球菌(methicillin-resistant Staphylococcus aureus, MRSA)感染流行[9]。由于同一家醫(yī)院的MRSA分離株遺傳距離非常接近,傳統(tǒng)分型方法無(wú)法檢測(cè)出不同患者M(jìn)RSA分離株之間的差異,也無(wú)法判斷院內(nèi)感染源頭和傳播途徑。而結(jié)合全基因組測(cè)序分析以及菌株的分離時(shí)間等信息,研究者得以清楚區(qū)分暴發(fā)菌株和普通患者攜帶的非暴發(fā)菌株,從而排除非暴發(fā)菌株攜帶者對(duì)流行病學(xué)調(diào)查造成的干擾,確定疫情流行的過(guò)程。另一個(gè)典型例子是對(duì)碳青霉烯類抗生素耐藥肺炎克雷伯菌院內(nèi)暴發(fā)的分析[10]。該研究將全基因組序列分析結(jié)果與患者出、入院及住院病房等資料結(jié)合,鑒定出傳染源是一例患者,并發(fā)現(xiàn)該患者通過(guò)3條獨(dú)立的傳播路徑引起其他17例院內(nèi)感染。其中有2條傳播途徑涉及到無(wú)癥狀攜帶者以及醫(yī)院下水道、通風(fēng)系統(tǒng)等,這是通過(guò)基因組學(xué)分析發(fā)現(xiàn)而被傳統(tǒng)流行病學(xué)調(diào)查手段所忽略的。因此,基因組分析能夠豐富傳統(tǒng)流行病學(xué)研究結(jié)果,為制訂有效防控措施奠定了科學(xué)基礎(chǔ)。
全基因組序列分析還可應(yīng)用于跨大洲的國(guó)際流行病學(xué)溯源研究。2010年10月,海地暴發(fā)了百年來(lái)首次霍亂疫情。疫情源頭是來(lái)自拉丁美洲本地菌株還是聯(lián)合國(guó)維和部隊(duì)帶來(lái)的外來(lái)菌株,曾一度引起強(qiáng)烈爭(zhēng)議[11]。通過(guò)對(duì)2株暴發(fā)菌株進(jìn)行測(cè)序,并與拉丁美洲流行株和亞洲菌株序列進(jìn)行比較,研究人員初步得到了問(wèn)題答案:海地霍亂暴發(fā)不是拉丁美洲當(dāng)?shù)鼐晁?,而是由于人類活?dòng)從遙遠(yuǎn)的外地帶入[12]。通過(guò)對(duì)更多暴發(fā)菌株及全球霍亂代表株進(jìn)行全基因組序列分型(whole genome sequence typing, WGST),研究者發(fā)現(xiàn)南亞尼泊爾地區(qū)與海地的霍亂分離株WGST結(jié)果一致。尼泊爾分離的霍亂菌株可分為4個(gè)遺傳發(fā)育分枝,海地暴發(fā)菌株是其中之一,與該分支其他尼泊爾菌株之間僅存在1或2個(gè)堿基的差異,證明海地霍亂暴發(fā)菌株來(lái)源于尼泊爾地區(qū)[13]。上述分析為WHO對(duì)海地霍亂流行病學(xué)調(diào)查的最終結(jié)論提供了堅(jiān)實(shí)證據(jù),成為認(rèn)識(shí)疫情流行規(guī)律與實(shí)施有效防控措施的關(guān)鍵。
通過(guò)對(duì)病原體全基因組序列的功能注釋,以及與毒力因子數(shù)據(jù)庫(kù)(http://www.mgc.ac.cn/VFs/main. htm)、耐藥基因數(shù)據(jù)庫(kù)(http://ardb.cbcb.umd.edu)等進(jìn)行查詢比對(duì)[14-15],可以預(yù)測(cè)包括病原體環(huán)境生存能力、毒力及耐藥譜等的重要表型特性,為臨床用藥給予指導(dǎo)。盡管表型試驗(yàn)成本相對(duì)較低,也容易在普通實(shí)驗(yàn)室實(shí)現(xiàn),但基于全基因組序列的病原體特性預(yù)測(cè)對(duì)于新型病原體和生長(zhǎng)速度非常慢的病原體仍然有非常高的實(shí)用價(jià)值。
2011年5—7月,大腸桿菌疫情在德國(guó)北部暴發(fā),很快席卷整個(gè)德國(guó)和歐洲部分國(guó)家,并蔓延至美國(guó)和加拿大。合計(jì)感染人數(shù)達(dá)4000例以上,其中三分之一以上病例發(fā)展為溶血性尿毒綜合征,超過(guò)50例死亡。盡管患者癥狀表現(xiàn)為典型的腸出血性大腸桿菌(enterohemorrhage Escherichia coli,EHEC)感染,但病原培養(yǎng)特性和MLST分析卻發(fā)現(xiàn)暴發(fā)菌株與EHEC差距甚遠(yuǎn),因此懷疑該菌株是一種新型致病性大腸桿菌[16-17]。我們?cè)谝咔楸┌l(fā)之初,應(yīng)用Ion Torrent PGM測(cè)序儀3 d內(nèi)完成了暴發(fā)菌株的測(cè)序,迅速確定了病原的性質(zhì)[18]。將暴發(fā)菌株與當(dāng)時(shí)已發(fā)表的30株大腸桿菌完成圖序列進(jìn)行系統(tǒng)發(fā)育分析,結(jié)果表明導(dǎo)致暴發(fā)的菌株與腸聚集性大腸桿菌屬于同一進(jìn)化分支,但由于獲得了編碼志賀毒素的stx2基因,從而表現(xiàn)出EHEC的致病特點(diǎn)。對(duì)暴發(fā)菌株序列的注釋結(jié)果表明,該菌株還攜帶了Ⅰ型聚集性粘附菌毛蛋白等毒力因子,以及27個(gè)耐藥基因和19個(gè)重金屬抗性基因,其中耐藥基因預(yù)測(cè)結(jié)果與德國(guó)科赫研究所公布的暴發(fā)菌株耐藥表型譜高度一致。上述遺傳因子可能增強(qiáng)了該菌株的環(huán)境生存能力,從而促進(jìn)病原的大范圍傳播。以上研究結(jié)果為認(rèn)清病原特性、制訂針對(duì)性防控措施提供了重要依據(jù),也為暴發(fā)菌株的特異性檢測(cè)方案設(shè)計(jì)打下基礎(chǔ)[19]。
抗生素耐藥的全球擴(kuò)散是WHO提出的威脅人類健康的全球三大首要問(wèn)題之一,而結(jié)核分枝桿菌耐藥性的研究一直是該領(lǐng)域的熱點(diǎn)[20]。由于結(jié)核分枝桿菌生長(zhǎng)速度極慢,通過(guò)傳統(tǒng)培養(yǎng)和表型方法進(jìn)行耐藥譜檢測(cè),至少要花費(fèi)幾個(gè)星期。2013年新英格蘭醫(yī)學(xué)雜志上發(fā)表的一篇報(bào)道中,研究者將患者痰液放入分枝桿菌生長(zhǎng)指示試管(mycobacterial growth indicator tube,MGIT)中進(jìn)行培養(yǎng),3 d后直接從培養(yǎng)物中提取DNA,并使用IlluminaMiSeq測(cè)序儀進(jìn)行測(cè)序[21]。結(jié)果鑒定出患者混合感染了2種不同的結(jié)核多耐藥菌株,并通過(guò)耐藥基因的變異情況預(yù)測(cè)了耐藥譜。通過(guò)序列分析獲得的耐藥譜準(zhǔn)確包含了參考實(shí)驗(yàn)室通過(guò)培養(yǎng)檢測(cè)得到的全部9種抗生素的耐藥情況,并預(yù)測(cè)菌株可能對(duì)另外5種抗生素耐藥(參考實(shí)驗(yàn)室未進(jìn)行實(shí)驗(yàn)驗(yàn)證)。這項(xiàng)研究利用全基因組測(cè)序技術(shù),將結(jié)核分枝桿菌耐藥譜檢測(cè)時(shí)間從幾個(gè)星期縮短到幾天,其推廣應(yīng)用將為結(jié)核分枝桿菌耐藥的臨床診斷帶來(lái)革命性變化。
使用群體遺傳學(xué)方法,對(duì)病原體的歷史分離株進(jìn)行全基因組序列分析和進(jìn)化研究,可以推測(cè)病原的長(zhǎng)期流行情況,深入認(rèn)識(shí)其所致疾病的流行規(guī)律。
流感是最常見(jiàn)的呼吸道傳染病,每年在全球造成幾十萬(wàn)人死亡。通過(guò)北半球(美國(guó)紐約)和南半球(新西蘭)在12年間分離的上千株甲型流感病毒的序列分析,Rambaut等[22]提出了流感流行的“源庫(kù)模型”(source-sinkmodel)。他們推測(cè),流感病毒的遺傳多樣性在位于熱帶地區(qū)的宿主種群中(source)持續(xù)產(chǎn)生,并在強(qiáng)烈的自然選擇作用下發(fā)生抗原漂變等變異。隨后,在熱帶地區(qū)變異后的流感病毒季節(jié)性傳播到南北半球的溫帶地區(qū)(sink)并在當(dāng)?shù)卦斐闪餍?。因此,要從根源上遏制流感疫情,不僅要對(duì)流行區(qū)域進(jìn)行疫苗接種等防控措施,還須要重視對(duì)熱帶地區(qū)流感宿主種群的研究。
鼠疫菌是對(duì)人類歷史影響最深遠(yuǎn)的病原之一,曾導(dǎo)致3次世界范圍的大流行。但由于缺乏病原學(xué)證據(jù),前2次大流行(公元6世紀(jì)的查士丁尼瘟疫和14—17世紀(jì)的中世紀(jì)黑死?。┦欠駷槭笠呔略趯W(xué)術(shù)界一直有爭(zhēng)議。直到近年來(lái),通過(guò)對(duì)死于前2次瘟疫的患者尸骨中提取的古DNA進(jìn)行全基因組測(cè)序,才為這些爭(zhēng)議蓋棺定論[23-24]。分析結(jié)果顯示,古DNA與現(xiàn)代鼠疫桿菌在核心基因組上僅存在幾百個(gè)單堿基差異,證明2次流行確實(shí)是鼠疫桿菌所致。造成2次流行的鼠疫桿菌分屬于不同的進(jìn)化分支,其中引起第1次大流行的分支已經(jīng)在進(jìn)化長(zhǎng)河中消失;而引起第2次大流行的分支被保留下來(lái),其后代在進(jìn)化了幾百年后又導(dǎo)致了第3次世界大流行[24]。對(duì)全球代表性鼠疫桿菌分離株的全基因組測(cè)序和分析進(jìn)一步加深了我們對(duì)鼠疫流行規(guī)律的認(rèn)識(shí)。研究結(jié)果表明鼠疫可能起源于中國(guó)青藏高原東部,并通過(guò)絲綢之路、茶馬古道和唐蕃古道等古商貿(mào)途徑傳播到世界其他地區(qū),說(shuō)明人類活動(dòng)在鼠疫傳播中起到重要作用[25-26]。
通過(guò)適當(dāng)?shù)臄?shù)學(xué)方法對(duì)病原體基因組變異進(jìn)行解析,可以推測(cè)產(chǎn)生變異的系統(tǒng)發(fā)育過(guò)程,以及進(jìn)化傳播過(guò)程中的各種重要參數(shù),包括傳播速度、基礎(chǔ)復(fù)制率、采樣比率、有效種群大小等。Stadler等[27]應(yīng)用基于貝葉斯方法開(kāi)發(fā)的存亡輪廓線模型(birth-death skyline plot,BDSP)對(duì)HIV基因組序列進(jìn)行分析,重現(xiàn)了由于成功應(yīng)用雞尾酒療法,英國(guó)的B型HIV-1有效復(fù)制率和種群多樣性在20世紀(jì)90年代開(kāi)始呈現(xiàn)明顯下降的趨勢(shì);并指出在90年代中期之后,由于高效抗反轉(zhuǎn)錄病毒療法的產(chǎn)生,HIV的有效復(fù)制率開(kāi)始低于1,提示流行趨勢(shì)已得到控制。該方法還被應(yīng)用于63株埃及分離的HCV的序列分析,結(jié)果清晰顯示了20世紀(jì)初由于抗血吸蟲(chóng)注射療法造成埃及HCV感染急劇增加,而在70年代之后,由于口服療法逐漸取代了注射療法,HCV感染率及有效種群也隨之下降[27]。BDSP方法從數(shù)學(xué)層面將基因組序列變異和疾病流行規(guī)律結(jié)合起來(lái),在將來(lái)疾病流行趨勢(shì)分析中將發(fā)揮重要作用。
利用全基因組序列分析,我們還可以對(duì)疫苗株的變異及使用效果進(jìn)行監(jiān)測(cè)和評(píng)價(jià)。EV76是鼠疫耶爾森菌減毒活疫苗,曾在世界范圍內(nèi)應(yīng)用于鼠疫預(yù)防接種。通過(guò)對(duì)中國(guó)保藏的EV76-CN株進(jìn)行全基因組測(cè)序,并與鼠疫桿菌野生株進(jìn)行比較分析,我們鑒定出疫苗株發(fā)生了12個(gè)突變(6個(gè)單核苷酸多態(tài)性和6個(gè)插入缺失)。選擇更多來(lái)自不同研究所和國(guó)際保藏中心的EV76疫苗株,對(duì)這些突變位點(diǎn)進(jìn)行了掃描,結(jié)果發(fā)現(xiàn)該疫苗在各個(gè)國(guó)家之間轉(zhuǎn)移、運(yùn)輸和生產(chǎn)的過(guò)程中,至少已形成5個(gè)種系,并發(fā)現(xiàn)中國(guó)使用的EV76株存在3個(gè)獨(dú)立的來(lái)源[28]?;蚪M水平的遺傳變異可能導(dǎo)致疫苗株表型變化,進(jìn)而影響接種后的免疫效果,因此我們的發(fā)現(xiàn)將有助于闡明各批次疫苗的免疫效力不同的問(wèn)題,為疫苗的質(zhì)量監(jiān)測(cè)提出了新的思路。
美國(guó)從2000年開(kāi)始,大范圍應(yīng)用肺炎球菌脂多糖-蛋白質(zhì)聯(lián)合七價(jià)疫苗(PCV7)。與此同時(shí),能逃避疫苗的肺炎鏈球菌菌株在種群中的頻率開(kāi)始上升。2012年,Golubchik等[29]通過(guò)對(duì)62株19A血清型肺炎鏈球菌的測(cè)序分析表明,同源重組造成關(guān)鍵遺傳片段在菌株間的水平轉(zhuǎn)移,是導(dǎo)致疫苗逃避的最重要原因。研究還發(fā)現(xiàn),在重組造成莢膜轉(zhuǎn)換,從而逃避疫苗作用的同時(shí),大量其他未知功能的基因組片段也通過(guò)搭車效應(yīng)轉(zhuǎn)移到受體菌中。因此,疫苗的大規(guī)模應(yīng)用會(huì)對(duì)細(xì)菌種群的進(jìn)化產(chǎn)生一些難以預(yù)料的后果。2013年,Croucher等[30]進(jìn)一步研究了肺炎鏈球菌種群在疫苗作用下的進(jìn)化機(jī)制,通過(guò)616株無(wú)癥狀攜帶者分離的肺炎鏈球菌基因組序列比對(duì),研究者在莢膜生物合成基因簇、抗原蛋白編碼基因PspA和PspC等基因元件中觀察到了顯著的重組事件。結(jié)合近十年的流行病學(xué)資料進(jìn)行綜合分析發(fā)現(xiàn):重組對(duì)整個(gè)種群的血清型轉(zhuǎn)換和耐藥譜產(chǎn)生了影響,受到免疫的7個(gè)血清型幾乎完全消失,取而代之的是非疫苗免疫的型別。但接種疫苗前后物種的基因庫(kù)基本沒(méi)有發(fā)生變化,因此盡管兒童患病率顯著下降,肺炎鏈球菌的無(wú)癥狀攜帶者比例與疫苗使用前相比無(wú)顯著差別。以上研究讓我們了解到大規(guī)模疫苗接種行為對(duì)病原體種群組成的影響,這為將來(lái)疫苗的針對(duì)性設(shè)計(jì)提供了依據(jù)。
盡管已經(jīng)在預(yù)防醫(yī)學(xué)領(lǐng)域取得了顯著進(jìn)展,但全基因組測(cè)序技術(shù)要真正進(jìn)入基層疾病監(jiān)測(cè)機(jī)構(gòu)和醫(yī)院,仍然有很長(zhǎng)一段路要走。首先要解決的是成本問(wèn)題。目前上市的測(cè)序儀主要為人類基因組研究設(shè)計(jì),而普通細(xì)菌基因組大小僅為人類基因組大小的千分之一。進(jìn)行微生物基因組測(cè)序時(shí),為了降低成本,往往須要把幾十甚至上百株樣品的DNA加上標(biāo)簽后混合測(cè)序。這對(duì)于群體遺傳學(xué)研究是非常合適的,但限制了其在臨床上的應(yīng)用。第二個(gè)要解決的問(wèn)題是測(cè)序前樣本的快速處理。如果按照傳統(tǒng)測(cè)序方法,先對(duì)菌株進(jìn)行復(fù)蘇培養(yǎng),再大量提取DNA進(jìn)行測(cè)序,其整個(gè)周期將仍然很長(zhǎng),難以體現(xiàn)快速全基因組序列分析的優(yōu)勢(shì)。盡管已有一些實(shí)驗(yàn)室解決方案被提出,如上文中提到的利用MGIT方法對(duì)結(jié)核分枝桿菌快速培養(yǎng)測(cè)序[21],以及在非培養(yǎng)條件下,對(duì)樣本DNA進(jìn)行富集后測(cè)序[31],或者直接進(jìn)行宏基因組或者單細(xì)胞測(cè)序等[32-33],但這些方法的大規(guī)模臨床應(yīng)用還存在技術(shù)和成本屏障。第三個(gè)問(wèn)題是海量數(shù)據(jù)的儲(chǔ)存管理及自動(dòng)化分析。高通量實(shí)驗(yàn)技術(shù)使得數(shù)據(jù)產(chǎn)生相對(duì)容易,而對(duì)數(shù)據(jù)的解析和管理成為科研的瓶頸。尤其對(duì)于疾病防控工作者和醫(yī)生來(lái)講,在日常工作中去對(duì)大量數(shù)據(jù)進(jìn)行深入分析是不現(xiàn)實(shí)的,必須開(kāi)發(fā)數(shù)據(jù)庫(kù)和自動(dòng)化分析平臺(tái),實(shí)現(xiàn)從序列到結(jié)果解讀的“一鍵化”操作。
可以設(shè)想未來(lái)傳染病防控工作的一個(gè)場(chǎng)景:工作人員采集到患者體液樣本,在實(shí)驗(yàn)室經(jīng)過(guò)簡(jiǎn)單處理和平板培養(yǎng),長(zhǎng)出單菌落后,將其分成兩部分,一部分用于提取DNA測(cè)序,另一部分繼續(xù)培養(yǎng),進(jìn)行表型試驗(yàn)。幾個(gè)小時(shí)內(nèi)獲得測(cè)序結(jié)果后,可直接導(dǎo)入普通筆記本電腦預(yù)裝的軟件(或網(wǎng)絡(luò)分析平臺(tái)),軟件在幾分鐘內(nèi)自動(dòng)給出標(biāo)準(zhǔn)格式的病原特性和溯源分析報(bào)告。測(cè)序分析結(jié)果與表型試驗(yàn)相互印證,為患者臨床治療和疾病流行控制提供迅速有效的指導(dǎo)。這個(gè)場(chǎng)景令人鼓舞與期待。
[1]Didelot X,Bowden R,Wilson DJ,etal.Transforming clinicalmicrobiology with bacterial genome sequencing[J].Nat Rev Genet, 2012,13(9):601-612.
[2]Diep BA.Use ofwhole-genome sequencing for outbreak investigations[J].Lancet Infect Dis,2013,13(2):99-101.
[3]Robinson ER,Walker TM,Pallen MJ.Genomics and outbreak investigation:from sequence to consequence[J].Genome Med,2013, 5(4):36.
[4]Kao RR,Haydon DT,Lycett SJ,et al.Supersize me:how wholegenome sequencing and big data are transforming epidemiology[J].TrendsMicrobiol,2014,22(5):282-291.
[5]Shapiro BJ,David LA,Friedman J,etal.Looking for Darwin's footprints in the microbial world[J].Trends Microbiol,2009,17(5): 196-204.
[6]Loman NJ,Misra RV,Dallman TJ,et al.Performance comparison of benchtop high-throughput sequencing platforms[J].Nat Biotechnol,2012,30(5):434-439.
[7]Peacock S.Health care:bring microbial sequencing to hospitals[J].Nature,2014,509(7502):557-559.
[8]Gardy JL,Johnston JC,Ho Sui SJ,etal.Whole-genome sequencing and social-network analysis of a tuberculosis outbreak[J].N Engl JMed,2011,364(8):730-739.
[9]Koser CU,Holden MT,Ellington MJ,et al.Rapid whole-genome sequencing for investigation of a neonatal MRSA outbreak[J].N Engl JMed,2012,366(24):2267-2275.
[10]Snitkin ES,Zelazny AM,Thomas PJ,etal.Tracking a hospital outbreak of carbapenem-resistant Klebsiella pneumoniae with wholegenome sequencing[J].Sci Transl Med,2012,4(148):148ra116.
[11]楊潮,王桂琴,闞飆.海地震后霍亂暴發(fā)的防控與溯源:經(jīng)驗(yàn)與教訓(xùn)[J].中華預(yù)防醫(yī)學(xué)雜志,2012,46(2):103-105.
[12]Chin CS,Sorenson J,Harris JB,et al.The origin of the Haitian cholera outbreak strain[J].N Engl JMed,2011,364(1):33-42.
[13]Hendriksen RS,Price LB,Schupp JM,etal.Population genetics of Vibrio cholerae from Nepal in 2010:evidence on the origin of the Haitian outbreak[J].MBio,2011,2(4):e00157.
[14]Liu B,Pop M.ARDB-antibiotic resistance genes database[J]. Nucleic Acids Res,2009,37(database issue):D443-D447.
[15]Chen L,Xiong Z,Sun L,etal.VFDB 2012 update:toward the ge-netic diversity and molecular evolution of bacterial virulence factors[J].Nucleic Acids Res,2012,40(database issue):D641-D645.
[16]Frank C,Werber D,Cramer JP,et al.Epidemic profile of Shigatoxin-producing Escherichia coli O104:H4 outbreak in Germany[J].N Engl JMed,2011,365(19):1771-1780.
[17]Cui YJ,Li DF,Yang RF.Shigatoxin-producing Escherichia coli O104:H4:an emerging important pathogen in food safety[J].Chin Sci Bull,2013,58(14):1625-1631.
[18]Rohde H,Qin J,Cui Y,et al.Open-source genomic analysis of Shiga-toxin-producing E.coli O104:H4[J].N Engl JMed,2011, 365(8):718-724.
[19]Qin J,Cui Y,Zhao X,etal.Identification of the Shiga toxin-producing Escherichia coli O104:H4 strain responsible for a food poisoning outbreak in Germany by PCR[J].JClin Microbiol,2011,49 (9):3439-3440.
[20]Infectious Diseases Society of America.The 10×20 initiative:pursuing a global commitment to develop 10 new antibacterial drugs by 2020[J].Clin Infect Dis,2010,50(8):1081-1083.
[21]K?ser CU,Bryant JM,Becq J,etal.Whole-genome sequencing for rapid susceptibility testing of M.tuberculosis[J].N Engl JMed, 2013,369(3):290-292.
[22]Rambaut A,Pybus OG,Nelson MI,et al.The genomic and epidemiologicaldynamicsofhuman influenza A virus[J].Nature,2008, 453(7195):615-619.
[23]Bos KI,Schuenemann VJ,Golding GB,et al.A draft genome of Yersinia pestis from victims of the Black Death[J].Nature,2011, 478(7370):506-510.
[24]Wagner DM,Klunk J,Harbeck M,et al.Yersinia pestis and the plagueof Justinian 541-543AD:a genomic analysis[J].Lancet Infect Dis,2014,14(4):319-326.
[25]Morelli G,Song Y,Mazzoni CJ,et al.Yersinia pestis genome sequencing identifies patterns of global phylogenetic diversity[J]. Nat Genet,2010,42(12):1140-1143.
[26]Cui Y,Yu C,Yan Y,etal.Historical variations in mutation rate in an epidemic pathogen,Yersinia pestis[J].Proc Natl Acad Sci U S A,2013,110(2):577-582.
[27]Stadler T,Kühnert D,Bonhoeffer S,etal.Birth-death skyline plot reveals temporal changes of epidemic spread in HIV and hepatitis C virus(HCV)[J].Proc Natl Acad Sci U SA,2013,110(1):228-233.
[28]Cui Y,Yang X,Xiao X,etal.Genetic variations of live attenuated plague vaccine strains(Yersinia pestis EV76 lineage)during laboratory passages in different countries[J].Infect Genet Evol,2014, 26:172-179.
[29]Golubchik T,Brueggemann AB,Street T,et al.Pneumococcal genome sequencing tracks a vaccine escape variant formed through amulti-fragment recombination event[J].Nat Genet,2012,44(3): 352-355.
[30]Croucher NJ,Finkelstein JA,Pelton SI,etal.Population genomics of post-vaccine changes in pneumococcal epidemiology[J].Nat Genet,2013,45(6):656-663.
[31]Seth-Smith HMB,Harris SR,Skilton RJ,etal.Whole-genome sequences of Chlamydia trachomatis directly from clinical samples without culture[J].Genome Res,2013,23(5):855-866.
[32]McLean JS,Lombardo MJ,Ziegler MG,etal.Genome of the pathogen Porphyromonas gingivalis recovered from a biofilm in a hospital sink using a high-throughput single-cell genomics platform[J].Genome Res,2013,23(5):867-877.
[33]Loman NJ,Constantinidou C,Christner M,et al.A culture-independent sequence-based metagenomics approach to the investigation of an outbreak of Shiga-toxigenic Escherichia coli O104:H4[J].JAMA,2013,309(14):1502-1510.
(2014-07-25收稿 2014-08-01修回)
(責(zé)任編委 毛遠(yuǎn)麗 本文編輯 王 姝)
Application ofm icrobialwhole-genome sequencing technology in the area of preventivemedicine
CUIYu-jun,YANG Rui-fu*
State Key Laboratory of Pathogen and Biosecurity,Beijing Institute of Microbiology and Epidemiology,Beijing 100071,China
*Corresponding author,E-mail:ruifuyang@gmail.com
When being faced with infectious disease caused by a specific pathogen,several immediate questions need to be addressed to make effective prevention and control strategy.Firstly,where does the pathogen come from,and what is the possible transmission pathway?Secondly,what are the surviving,virulent and antibiotic resistance features of the etiologic agent?Thirdly, what kind of epidemiological pattern of a disease is revealed by the pathogen's genomic analysis?Dramatic development of highthroughput sequencing technology and bioinformatic analysis strategy has provided novel solutions to these questions in recent years. In this review,the authors summarize the successful application cases of the next-generation whole-genome sequencing technology in the area of preventive medicine,including epidemiological investigation for source-tracing,rapid identification of pathogen's features,epidemiological characteristics of a disease,and surveillance and evaluation of live attenuated vaccine variations,and also discuss the questions presenting in current stage and propose the possible scenario of this research area in the future.
genome;microbiology;sequence analysis;epidemiologic study;pathogen
R394.21;R37
A
1007-8134(2014)05-0274-05
國(guó)家“十二五”科技重大專項(xiàng)(2012ZX10004215);國(guó)家衛(wèi)生行業(yè)科研專項(xiàng)(201202012)
100071北京,軍事醫(yī)學(xué)科學(xué)院微生物流行病研究所病原與生物安全國(guó)家重點(diǎn)實(shí)驗(yàn)室(崔玉軍、楊瑞馥)
楊瑞馥,E-mail:ruifuyang@gmail.com