国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

細(xì)菌核心基因組多位點(diǎn)序列分型(cgMLST)與溯源評(píng)價(jià)

2021-05-28 02:41:26朱麗萍張文成顏世敢陳蕾蕾崔生輝
畜牧與獸醫(yī) 2021年6期
關(guān)鍵詞:等位基因分型基因組

朱麗萍,張文成,顏世敢*,陳蕾蕾,崔生輝

(1. 齊魯工業(yè)大學(xué)生物工程學(xué)院/山東省微生物工程重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250353;2. 山東省農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品研究所,山東 濟(jì)南 250100;3. 中國(guó)食品藥品檢定研究院,北京 100050)

食品安全關(guān)系人民健康和國(guó)計(jì)民生,是全球關(guān)注的熱點(diǎn)問(wèn)題。食源性疾病是引發(fā)食品安全事件的主要因素。全球每年約15億人患食源性疾病,其中約70%是因食品被微生物污染所致。我國(guó)46.4%的食品安全事件是由食源性致病菌引起。沙門菌、致病性大腸桿菌、李氏桿菌等是最重要的食源性致病菌。其中沙門菌引起的食物中毒在微生物性食物中毒中占比高達(dá)70%~80%,每年造成全球約1.15億人感染和37萬(wàn)人死亡[1]。加強(qiáng)對(duì)沙門菌等食源性致病菌的監(jiān)控和防控,意義重大且迫在眉睫。

細(xì)菌分型是細(xì)菌溯源、流行病學(xué)調(diào)查、食品安全監(jiān)管的重要手段,對(duì)食品安全、公共衛(wèi)生具有決定性意義。

1 細(xì)菌溯源分型技術(shù)概述

細(xì)菌溯源分型技術(shù)包括表型分型技術(shù)和基因分型技術(shù)兩類。表型分型技術(shù)有血清分型、噬菌體分型等;基因分型技術(shù)有脈沖場(chǎng)凝膠電泳(pulsed field gel electrophoresis,PFGE)、多位點(diǎn)序列分型(multilocus sequence typing,MLST)、核糖體多位點(diǎn)序列分型(ribosome multilocus sequence typing,rMLST)、全基因組單核苷酸多態(tài)性(whole genome single nucleotide polymorphism,wgSNP)、全基因組多位點(diǎn)序列分型(whole genome multilocus sequence typing,wgMLST)、核心基因組多位點(diǎn)序列分型(core genome multilocus sequence typing,cgMLST)等。目前常用的細(xì)菌溯源分型技術(shù)以血清學(xué)分型、PFGE、MLST為主。血清學(xué)分型依靠肉眼觀察血清型試驗(yàn)是否出現(xiàn)凝集而判斷細(xì)菌的抗原型,試驗(yàn)誤差大,分辨率低,再加上細(xì)菌的血清型眾多,如沙門菌有2 610種血清型[2],血清學(xué)分型的工作量大、耗時(shí)長(zhǎng),分型效果不理想。PFGE是根據(jù)基因組酶切片段的電泳條帶圖譜進(jìn)行聚類分析,分辨率及重復(fù)性較好,但無(wú)法辨別酶切位點(diǎn)之外的基因序列變異,且分型結(jié)果受人為因素影響大[3-4]。MLST是基于7~9個(gè)管家基因的序列多態(tài)性建立的分型技術(shù),重復(fù)性、可比性好,但分辨率仍不能滿足精準(zhǔn)溯源的需求,無(wú)法反映基因組其他幾千個(gè)基因的差異[5]。

隨著基因組測(cè)序技術(shù)的普及和測(cè)序成本的降低,基于全基因組序列的分型技術(shù)迅速發(fā)展成為細(xì)菌溯源的主流技術(shù)[6]。全基因組分型技術(shù)以wgMLST、cgMLST、wgSNP等為代表,分辨率高,重復(fù)性好,能夠?qū)崿F(xiàn)精準(zhǔn)溯源[7]。但wgMLST、wgSNP分析消耗巨大的計(jì)算資源,一般實(shí)驗(yàn)室難以實(shí)現(xiàn)準(zhǔn)確分型[8],而且wgSNP對(duì)測(cè)序的準(zhǔn)確性要求極高,必須確保SNP位點(diǎn)的準(zhǔn)確性和一致性。cgMLST與wgMLST、wgSNP相比,分辨率相當(dāng),僅需要較少的計(jì)算能力,可操作性和應(yīng)用性更強(qiáng)。

cgMLST已廣泛用于沙門菌[1,5,7-9]、耶爾森菌[5]、大腸桿菌[10-11]、李氏桿菌[12-15]、布氏桿菌[16-17]、金黃色葡萄球菌[18]、豬鏈球菌[19]、銅綠假單胞菌[20]、克雷伯菌[21]、結(jié)核桿菌[22-23]、雞支原體[24-26]、彎曲桿菌[27-28]等危害人、畜禽的致病菌基因組分型中。由于缺乏統(tǒng)一的分型標(biāo)準(zhǔn),不同研究者采用的分型方案不同,導(dǎo)致分型結(jié)果缺乏可比性。目前為止,尚未見細(xì)菌全基因組溯源分型指南的報(bào)道。本文通過(guò)制定細(xì)菌的cgMLST指南,來(lái)規(guī)范cgMLST分型操作,使cgMLST分型結(jié)果具有可比性、重復(fù)性,便于分型結(jié)果的共享與比較。

2 細(xì)菌cgMLST分型與溯源的原理

cgMLST是基于細(xì)菌的核心基因組進(jìn)行的多位點(diǎn)序列分型技術(shù)[29],分型精度高,重復(fù)性、可比性好,能客觀揭示細(xì)菌的遺傳進(jìn)化關(guān)系,為細(xì)菌溯源、流行病學(xué)調(diào)查提供了科學(xué)依據(jù)[30]。

cgMLST是MLST的升級(jí)。MLST是建立在7~9個(gè)管家基因的基礎(chǔ)上的,無(wú)法反映其他大量基因的異同;而cgMLST是建立大量保守基因基礎(chǔ)上的,具有更高的分辨率,分型結(jié)果更客觀、更精準(zhǔn)。而且用于cgMLST分型的核心基因中包含了用于MLST分型的所有管家基因,這樣便于將cgMLST結(jié)果與已有的MLST分型結(jié)果進(jìn)行比較,檢驗(yàn)cgMLST分型結(jié)果的可靠性。

cgMLST具有高分辨率,能將一種細(xì)菌分為多個(gè)亞型,通過(guò)聚類分析確定不同亞型間的遺傳進(jìn)化關(guān)系,實(shí)現(xiàn)更深層次的溯源。cgMLST逐漸成為細(xì)菌分型、溯源、分子流行病學(xué)研究的重要手段,分型結(jié)果可用于不同實(shí)驗(yàn)室間的共享和比較[31]。

2.1 核心基因組的特征

細(xì)菌的核心基因是指某種細(xì)菌的不同菌株共有的一批保守基因,它們負(fù)責(zé)該種菌的生物學(xué)基本特征及主要表型特征。核心基因具備以下特點(diǎn):?jiǎn)慰截惢?,即在基因組中只出現(xiàn)一次;非質(zhì)?;颍换騼?nèi)沒有無(wú)效的起始/終止密碼子;與其他基因不重疊(overlap);等位基因間不同源。

核心基因組是指根據(jù)分型需要人為地將某種細(xì)菌不同菌株共有的一定數(shù)量的核心基因組合在一起形成的基因群?;诩?xì)菌核心基因組序列多態(tài)性的分型技術(shù)就是cgMLST。

2.2 核心基因組的確定方案

細(xì)菌核心基因組的確定有兩種方案:根據(jù)菌株的基因組序列比對(duì)結(jié)果和分析目的,自行確定核心基因組中使用的核心基因的種類和數(shù)量多少。采用的核心基因不同,同一株菌獲得的cgMLST分型結(jié)果不同,對(duì)溯源分析的精度有一定影響;采用EnteroBase、PubMLST、SISTR等分型數(shù)據(jù)庫(kù)公開的核心基因名錄[9]。其中EnteroBase數(shù)據(jù)庫(kù)的數(shù)據(jù)量大、分辨率高、認(rèn)可度最高[5]。

2.2.1 自行篩選核心基因組

選用已公開的同種細(xì)菌的完整基因組作為“種子”基因組(seed genome)。“種子”基因組需滿足以下條件:基因組完整,最好是采用Sanger法測(cè)序,且已完成基因注釋;基因組來(lái)自細(xì)菌的純培養(yǎng)物;代表株的基因組。

可利用Ridom Seqsphere+、Bionumerics、BPGA(細(xì)菌泛基因組分析工具)等生物信息學(xué)軟件從全基因組中篩選核心基因[32]。如 Ridom Seqsphere+分型軟件內(nèi)嵌模塊自動(dòng)把種子基因組內(nèi)滿足條件的等位基因全部篩選出來(lái)作為核心基因組。

2.2.2 EnteroBase數(shù)據(jù)庫(kù)中公開的核心基因組

EnteroBase數(shù)據(jù)庫(kù)中公開了沙門菌(Salmonella)、大腸桿菌/志賀菌(Escherichia/Shigella)、艱難梭菌(Clostridioides)、弧菌(Vibrio)、螺桿菌(Helicobacter)、耶爾森菌(Yersinia)、莫拉菌(Moraxella)共8種細(xì)菌的核心基因組,核心基因的名稱及功能見EnteroBase在線分析網(wǎng)站(http://enterobase.warwick.ac.uk/species/)。其中沙門菌的cgMLST分型方案中包含3 002個(gè)等位基因[33]。EnteroBase數(shù)據(jù)庫(kù)中用于cgMLST分型的核心基因的種類是固定的,用戶無(wú)法改變核心基因的種類和數(shù)量,也無(wú)法改變分型使用的算法。通過(guò)這種固定化的cgMLST分型方案,可以做到不同分析者采用EnteroBase數(shù)據(jù)庫(kù)對(duì)同一株菌進(jìn)行cgMLST分型獲得的結(jié)果具有一致性。

2.3 cgMLST型的賦值規(guī)則

通過(guò)BLAST、Usearch等分析工具,檢索各分離株基因組序列中的基因位點(diǎn),與分析模板中的核心基因組的序列進(jìn)行比對(duì),匹配度≥70%的基因序列被歸類為等位基因,經(jīng)后續(xù)分析后將對(duì)其進(jìn)行賦值;匹配度<70%的基因序列則不再進(jìn)行后續(xù)分析,該等位基因的基因型標(biāo)記為缺失(Missing)或賦值-1。

所有與模板基因組中的核心基因序列的匹配度≥70%的等位基因被分別賦值,每個(gè)等位基因被單獨(dú)賦予一個(gè)正整數(shù),不同的數(shù)值代表不同的基因型,數(shù)值之間不存在關(guān)聯(lián)性,數(shù)值大小表示提交時(shí)間的先后順序。事先定義各等位基因使用的模板基因組的核心基因的基因型都為“1”,待分析的等位基因序列與模板基因組的核心基因進(jìn)行BLAST比對(duì),序列相同的等位基因則基因型賦值也為“1”,序列不同的等位基因則按照提交時(shí)間的先后順序賦予一個(gè)新的基因型數(shù)值。同一個(gè)數(shù)據(jù)庫(kù)內(nèi)的等位基因編號(hào)與基因序列嚴(yán)格一一對(duì)應(yīng),后續(xù)用于分析的基因序列與已經(jīng)賦值的基因型所對(duì)應(yīng)的序列相同時(shí),重復(fù)使用該基因型編號(hào)。不同的數(shù)據(jù)庫(kù)因?yàn)椴捎玫暮诵幕蚪M不同,所賦予的同株菌的基因型編號(hào)不同。

每株菌的等位基因型編號(hào)按照指定的順序排列形成該菌的等位基因譜。

cgMLST型的賦值:為了與MLST分型的ST型區(qū)分,cgMLST型簡(jiǎn)寫為cgST。賦予種子基因組的cgST型為1。每株菌的等位基因譜與數(shù)據(jù)庫(kù)中已有的等位基因譜比對(duì),如果相同則被賦予相同數(shù)值的cgST型;如果不同,則按照向數(shù)據(jù)庫(kù)提交時(shí)間的先后順序順位編號(hào)賦予一個(gè)新的正整數(shù),作為該基因組的cgST基因型。每種cgST型對(duì)應(yīng)唯一的等位基因譜。

2.4 基于cgMLST的細(xì)菌基因組溯源分析

cgMLST分型后往往要通過(guò)繪制遺傳進(jìn)化樹,分析菌株間的遺傳距離和親緣關(guān)系,實(shí)現(xiàn)細(xì)菌溯源分析。

繪制進(jìn)化樹可采用Ridom、Bionumerics或EnteroBase在線分析平臺(tái)。在完成cgMLST分型后直接繪制遺傳進(jìn)化樹;也可以將進(jìn)化樹數(shù)據(jù)導(dǎo)出為.nwk文件,利用進(jìn)化樹修飾軟件(如Figtree、Meqsuite、Dendroscope)進(jìn)一步修飾。

進(jìn)化樹的種類有鄰居加入樹(Neighbor Join Tree,NJT)、最小生成樹(Minimum Spanning Tree,MST)、葡萄樹(GrapeTree)等[34]。不同類型的進(jìn)化樹的形狀不同,但都可用于細(xì)菌溯源分析。繪制鄰居加入樹、葡萄樹采用的算法是N-J算法;繪制最小生成樹采用的算法有Kruskal算法或Prim算法。溯源分析時(shí)MST的呈現(xiàn)形式更直觀。

EnteroBase在線分析平臺(tái)還提供了基于cgMLST的HierCC層次聚類法,可以不用繪制進(jìn)化樹僅依靠HierCC型數(shù)值大致判斷2株菌間的核心基因差異的個(gè)數(shù)。如果2個(gè)細(xì)菌的3 002個(gè)核心基因中存在2個(gè)等位基因差異,2株菌的cgMLST分型不同,即HierCC0聚類時(shí)為不同類,但HierCC2聚類時(shí)為同一類,且HierCC5、10….聚類時(shí)均為同一類。

cgMLST分型后,對(duì)于等位(核心)基因差異數(shù)≤10的2株菌,判定其具有高度同源性;等位(核心)基因差異數(shù)在10~30個(gè)時(shí),需要結(jié)合流行病學(xué)調(diào)查與菌株背景信息判斷菌株間的同源性。

3 細(xì)菌cgMLST分型使用的數(shù)據(jù)和生物信息學(xué)軟件

3.1 細(xì)菌cgMLST分型采用的基因組數(shù)據(jù)類型

細(xì)菌cgMLST分型是建立在基因組高通量測(cè)序序列的基礎(chǔ)上進(jìn)行的。細(xì)菌基因組DNA在二代測(cè)序儀上測(cè)序,得到原始數(shù)據(jù)(Raw Data),過(guò)濾掉低質(zhì)量的reads,獲得有效數(shù)據(jù)(Clean Data)。使用組裝、拼接、優(yōu)化、質(zhì)控軟件對(duì)Clean Data進(jìn)行組裝、拼接、優(yōu)化和補(bǔ)洞,過(guò)濾掉500 bp以下的片段,最終得到基因組序列(Sequence)。

Raw Data、Clean Data、Sequence都可用于細(xì)菌cgMLST分型。但不同的基因組分型軟件采用的基因數(shù)據(jù)類型有差別。

下載的細(xì)菌基因組序列:可以從基因組數(shù)據(jù)庫(kù)(如GenBank)中下載已發(fā)布的細(xì)菌基因組序列,用作cgMLST分型的基因組數(shù)據(jù)。

3.2 細(xì)菌cgMLST分型需要的生物信息學(xué)軟件

3.2.1 Bionumerics(Version 7.6,Applied-Maths, Belgium)

適用數(shù)據(jù)類型:二代測(cè)序Clean Data、拼接的基因組序列及基因組數(shù)據(jù)庫(kù)中的基因組序列文件。Bionumerics的wgMLST分型方案不能自行創(chuàng)立。沙門菌的全基因組分型是基于21 065個(gè)等位基因[13]。Bionumerics的wgMLST分型數(shù)據(jù)庫(kù)是Applied-Maths公司自己創(chuàng)建的云數(shù)據(jù)庫(kù),使用者無(wú)法改變分型方案,不同分析者獲得的分型結(jié)果一致。

優(yōu)點(diǎn):本地軟件加在線數(shù)據(jù)庫(kù)分析,對(duì)計(jì)算資源配置要求高,Bionumerics軟件的分析功能強(qiáng)大,主要用于細(xì)菌wgMLST分析,向下兼容MLST、cgMLST分型,提供多達(dá)42種常見微生物的全基因組分型模板。

缺點(diǎn):軟件使用費(fèi)較高。

3.2.2 Ridom Seqsphere+(Version 5.1.0,Ridom GmbH,Germany)

適用數(shù)據(jù)類型:二代測(cè)序Clean Data、拼接的基因組序列及基因組數(shù)據(jù)庫(kù)中的基因組序列文件。cgMLST分型方案采用的核心基因組是EnteroBase提供的cgMLST分型方案或通過(guò)基因組比對(duì)自行創(chuàng)立分型方案。通過(guò)本地化軟件分析,結(jié)合軟件分型命名數(shù)據(jù)庫(kù)cgMLST.org,實(shí)現(xiàn)cgMLST分型。

優(yōu)點(diǎn):本地化分析,能夠?qū)Ψ中徒Y(jié)果進(jìn)行多種進(jìn)化樹繪制,操作較簡(jiǎn)單,用戶可自行創(chuàng)立分型方案進(jìn)行個(gè)性化分析。

缺點(diǎn):軟件使用費(fèi)高,占用大量的本地計(jì)算資源,對(duì)計(jì)算機(jī)硬件要求高。

3.2.3 EnteroBase免費(fèi)在線分析平臺(tái)(http://enterobase.warwick.ac.uk/)

該分析平臺(tái)免費(fèi)注冊(cè)使用,但目前僅能進(jìn)行沙門菌(Salmonella)、大腸桿菌/志賀菌(Escherichia/Shigella)、艱難梭菌(Clostridioides)、弧菌(Vibrio)、螺桿菌(Helicobacter)、耶爾森菌(Yersinia)、莫拉菌(Moraxella)等8種腸桿菌的cgMLST分型和溯源。其中Salmonella分型數(shù)據(jù)庫(kù)包含262 196株菌,有MLST和cgMLST分析模塊;Escherichia/Shigella分型數(shù)據(jù)庫(kù)包含147 636株菌,有MLST和cgMLST分析模塊;Clostridioides分型數(shù)據(jù)庫(kù)包含18 371株菌,有MLST、cgMLST、rMLST分析模塊;Vibrio分型數(shù)據(jù)庫(kù)包含11 364株菌,有rMLST分析模塊;Helicobacter分型數(shù)據(jù)庫(kù)包含5 477株菌,有rMLST分析模塊;Yersinia分型數(shù)據(jù)庫(kù)包含4 915株菌,有MLST和cgMLST分析模塊;Moraxella分型數(shù)據(jù)庫(kù)包含2 564株菌,有MLST和rMLST分析模塊(以上數(shù)據(jù)截至2020-07-16)。

適用數(shù)據(jù)類型:二代測(cè)序Clean Data,或高質(zhì)量的完整基因組序列(自己拼接的基因組序列和下載的基因組序列)。cgMLST V2+分型方案的特點(diǎn):在線分析平臺(tái),權(quán)威性高,使用廣。

優(yōu)點(diǎn):分析全部通過(guò)在線服務(wù)器實(shí)現(xiàn),占用的計(jì)算機(jī)資源較低,對(duì)計(jì)算機(jī)配置要求不高。固定化的分型程序能夠保證分型參數(shù)一致,最大程度保證分型結(jié)果的可比性。用戶只需上載基因數(shù)據(jù)便可得到分型結(jié)果。在基因組質(zhì)量要求,EnteroBase僅接受由平臺(tái)自身通道生成的組裝基因組且符合重疊群大小N50≥20 kb,基因組大小≥4 Mb并且至少含有97%的核心基因。在數(shù)據(jù)方面,EnteroBase具有大量的可參比結(jié)果,能夠調(diào)用更多的菌株進(jìn)行遺傳進(jìn)化分析、聚類分析。

缺點(diǎn):不能進(jìn)行個(gè)性化設(shè)置,可操作程度低。上載數(shù)據(jù)只能是測(cè)序的Raw Data,不接受拼接后的基因組序列。

4 cgMLST分型的技術(shù)路線

cgMLST分型技術(shù)路線見圖1。

圖1 細(xì)菌cgMLST分型技術(shù)路線

5 細(xì)菌cgMLST分型、溯源分析步驟

5.1 采用公開的cgMLST分型方案

5.1.1 使用Ridom Seqsphere軟件自帶的cgMLST分型方案

創(chuàng)建分析項(xiàng)目。打開Ridom Seqsphere軟件,先登錄服務(wù)器(https://www.ridom.de/seqsphere/)上的Ridom SeqSphere+,再啟動(dòng)客戶端的Ridom SeqSphere+。點(diǎn)擊菜單欄“File”,選擇 “New” 里面的“Create Project”,進(jìn)入分析項(xiàng)目的編輯界面,給待分析的項(xiàng)目命名及選擇物種信息。本文以沙門菌為例,選擇Salmonellaenterica。然后點(diǎn)擊Download & Add,進(jìn)入分型方案選擇界面,從分型方案中單獨(dú)勾選cgMLST或同時(shí)勾選MLST。Ridom SeqSphere+的沙門菌的cgMLST分型方案與EnteroBase中的沙門菌cgMLST v2方案完全相同。每個(gè)用于分析的基因組包含的等位基因與該等位基因參照序列進(jìn)行BLAST,比對(duì)分析后保留同源性≥80%的結(jié)果,并給該等位基因進(jìn)行基因型編號(hào);若同源性<80%則該等位基因不會(huì)被編號(hào),等位基因的基因型以及菌株的最終基因型命名來(lái)源于cgMLST.org數(shù)據(jù)庫(kù)。點(diǎn)擊“OK”完成項(xiàng)目創(chuàng)建。

細(xì)菌基因組的cgMLST分析。點(diǎn)擊主界面的菜單欄 “Flie” 中的“Process Assembled Genome Data”,調(diào)出已創(chuàng)建的分析項(xiàng)目。添加基因組文件。添加本地基因組通過(guò)“Add from File”實(shí)現(xiàn)。軟件也支持從NCBI在線獲取基因組,但在線利用NCBI基因組進(jìn)行分型分析耗時(shí)遠(yuǎn)大于本地基因組,所以建議先將基因組文件下載到本地磁盤再進(jìn)行分析。選擇待分析的基因組后,點(diǎn)擊“OK”按鈕,進(jìn)行分析。若同時(shí)選擇MLST與cgMLST兩個(gè)模塊,能同時(shí)獲得兩種分型結(jié)果。

分型結(jié)果的呈現(xiàn)與聚類分析。輸入的基因組數(shù)據(jù)經(jīng)cgMLST分析后,軟件會(huì)自動(dòng)彈出分析結(jié)果預(yù)覽表。關(guān)閉預(yù)覽表后,可在主界面點(diǎn)擊“Tools”中的“Comparison Table”查看cgMLST分型結(jié)果。分析后的數(shù)據(jù)存儲(chǔ)在每個(gè)項(xiàng)目下,可再次添加基因組分析數(shù)據(jù),若同時(shí)選擇MLST與cgMLST分析,會(huì)在表格下方出現(xiàn)MLST與cgMLST兩個(gè)選擇項(xiàng)目,選擇其中之一便可獲得該分析的全部結(jié)果。點(diǎn)擊表格下方的Create Comparison Table便可進(jìn)入分型結(jié)果。

分型結(jié)果以表格形式呈現(xiàn)。分型表從左到右各列分別為Missing Values in Distance Columns(缺失基因或因比對(duì)結(jié)果<80%造成該基因分型失敗的個(gè)數(shù))、Perc Good Targets(核心基因中被成功分型的等位基因的百分比,但只有等位基因攜帶率≥90%的樣本才能用于新基因型的提交)、ST(MLST型,相同的ST型被標(biāo)記成同一種顏色)、Complex Type(cgMLST型)。

點(diǎn)擊分型結(jié)果界面上方菜單欄中的進(jìn)化樹分析按鈕進(jìn)行進(jìn)化樹的聚類分析,實(shí)現(xiàn)細(xì)菌的溯源分析結(jié)果可視化查看。

新產(chǎn)生的Complex Type的提交。cgMLST分析后,可能在Complex Type列中產(chǎn)生“?”特征值,這說(shuō)明該基因組的Complex Type不存在數(shù)據(jù)庫(kù)中,是一個(gè)新發(fā)現(xiàn)的細(xì)菌基因組,需要提交至數(shù)據(jù)庫(kù)中獲取一個(gè)新的Complex Type編號(hào)(即cgST型)。提交時(shí),選中要提交的樣本,點(diǎn)擊右鍵,選擇“Open Sample”,會(huì)在主界面形成一個(gè)上傳表,完善上傳表中的基因背景信息,包括分離人姓名、細(xì)菌分離時(shí)間、宿主來(lái)源等信息,填寫完畢,點(diǎn)擊上傳按鈕上傳新產(chǎn)生的cgST型。

5.1.2 使用EnteroBase在線分析平臺(tái)進(jìn)行cgMLST分析

EnteroBase分析的數(shù)據(jù)對(duì)象是Clean Data,或高質(zhì)量的完整基因組序列。

登錄EnteroBase在線分析平臺(tái)的網(wǎng)站(http://enterobase.warwick.ac.uk/),注冊(cè)個(gè)人賬戶。

選擇與待分析物種相對(duì)應(yīng)的物種首頁(yè),進(jìn)入Database Home。EnteroBase數(shù)據(jù)庫(kù)中用于分析的物種模塊有Salmonella、Escherichia/Shigella、Clostridioides、Vibrio、Helicobacter、Yersinia、Moraxella。

點(diǎn)擊右側(cè)Upload Reads進(jìn)行基因組數(shù)據(jù)上載,填寫相關(guān)信息,其中紅色框?yàn)楸靥铐?xiàng),然后進(jìn)行上載基因組數(shù)據(jù)。首次加載頁(yè)面時(shí),將顯示一個(gè)空白行,在其中輸入與上傳菌株相關(guān)的數(shù)據(jù)。單擊各單元格,可以通過(guò)直接鍵入或從下拉框中選擇來(lái)輸入數(shù)據(jù),通過(guò)右鍵單擊表格并選擇“插入行” 來(lái)添加額外的行。

單擊Read Files單元,出現(xiàn)一個(gè)對(duì)話框用于添加基因組文件。上載Illumina測(cè)序平臺(tái)的原始數(shù)據(jù)文件(.fq.gz)。填寫所有必填項(xiàng)后,“提交數(shù)據(jù)(Submit Data)”按鈕將變?yōu)榛顒?dòng)狀態(tài),點(diǎn)擊進(jìn)行上載。

查看基因組組裝結(jié)果:返回物種首頁(yè),點(diǎn)擊My Strains,進(jìn)入個(gè)人數(shù)據(jù)界面。默認(rèn)會(huì)進(jìn)入基因組組裝結(jié)果展示界面,沒有標(biāo)紅的行即為組裝成功,可進(jìn)行后續(xù)分析?;蚪M組裝結(jié)果的各項(xiàng)參數(shù)以表格形式展示,點(diǎn)擊Status列的下載圖標(biāo)可下載組裝基因組的序列文件。

cgMLST分型結(jié)果展示:通過(guò)點(diǎn)擊右上角選擇欄中的cgMLST V2 +HierCC V1查看cgMLST分型結(jié)果。cgMLST的基因型包括ST(cgST型)和不同HC數(shù)值(如HC0、HC2、HC5…HC2850)下的ST型。不同HC數(shù)值下的ST型之間不具有可比性。

Grapetree進(jìn)化樹繪制:點(diǎn)擊GrapeTree圖標(biāo),選擇進(jìn)化樹算法(如N-J算法),彈出窗口完成Grapetree的繪制。可通過(guò)左側(cè)的相關(guān)設(shè)定修飾進(jìn)化樹,最后導(dǎo)出分析結(jié)果,可以導(dǎo)出Newick Tree文件格式或者SVG圖片格式。

5.2 自行創(chuàng)立分型方案

該方案適用于大多數(shù)細(xì)菌cgMLST分型,尤其是那些沒有分型數(shù)據(jù)庫(kù)的細(xì)菌的cgMLST分型。以利用Ridom軟件為例,介紹如何自行創(chuàng)立分型方案進(jìn)行沙門菌cgMLST分型。

登錄軟件:選擇工具欄中的Tools下的cgMLST Target Definer,選擇Seed Genome(可從NCBI上選擇種子基因組序列)。選擇添加或不添加“查詢”基因組(Query Genomes)。添加質(zhì)粒序列信息(該步驟可以使得與添加的質(zhì)粒序列中的基因匹配度≥90%且長(zhǎng)度>100 bp的基因不在核心基因列表中)。分析參數(shù)一般選擇默認(rèn),創(chuàng)立分析模板。

打開創(chuàng)立的分析模板:導(dǎo)入待分析的基因組數(shù)據(jù)(組裝的基因組序列或NCBI中的基因組文件),然后進(jìn)行cgMLST分析。分析完成后,從任務(wù)欄創(chuàng)建分析表,補(bǔ)全菌株相關(guān)信息,勾選cgMLST分析項(xiàng)目,查看以圖表形式展示的分型結(jié)果。

6 cgMLST分型與溯源分析的注意事項(xiàng)

種子基因組(或模板基因組):種子基因組的選擇對(duì)cgMLST分型結(jié)果影響大。自行創(chuàng)立分型方案時(shí)選用的種子基因組(或模板基因組)要具有代表性、廣泛性、完整性,盡量選用基因數(shù)據(jù)庫(kù)中收錄的完整基因組,不使用自行組裝的分離株的組裝基因組。

cgMLST分型方案中的核心基因組在不同菌株中要廣泛分布且具有完整性。如沙門菌3 002位點(diǎn)分型方案滿足在3 144個(gè)有代表性的沙門菌基因組中,每個(gè)等位基因至少存在于98%的基因組中,編碼框架至少在每個(gè)基因組中的完整性≥94%。

分型參數(shù)的設(shè)置:可以使用軟件的默認(rèn)值,以保證獲得的分型結(jié)果具有一致性。在同一數(shù)據(jù)庫(kù)下,不同使用者按照相同的步驟、相同的參數(shù),不同分析人員對(duì)同一基因組序列分析獲得的分型結(jié)果基本一致,具有可比性。

物種匹配與否:提交的基因組序列要與選用模板基因組屬于同一物種。

組裝基因組的質(zhì)量評(píng)價(jià):衡量基因組組裝質(zhì)量的參數(shù)有Coverage、N50、Length、Contig Number、Low Quality等。通常要求基因測(cè)序覆蓋倍數(shù)>100。選擇合適的基因組重疊群參數(shù),如二代測(cè)序的沙門菌組裝基因組的重疊群大小需滿足N50≥20 kb。原則上組裝的基因組大小要大于已知該物種的最小基因組(如沙門菌基因組需>4.0 Mb,不排除基因組較小的特殊性)。

用于基因組測(cè)序的細(xì)菌必須為克隆株,不存在其他分離株的污染。提取的基因組DNA中也不存在其他物種DNA的污染。

7 小結(jié)

細(xì)菌溯源分型對(duì)食品安全監(jiān)管、流行病學(xué)調(diào)查具有重要意義。目前常用的血清學(xué)分型、PFGE、MLST等細(xì)菌溯源分型方法存在分型精度低、工作量大、耗時(shí)長(zhǎng)等缺陷,不能滿足細(xì)菌精準(zhǔn)溯源的需求。以wgMLST、cgMLST、wgSNP等為代表的全基因組分型技術(shù)具有分辨率高、重復(fù)性好的優(yōu)點(diǎn),能夠?qū)崿F(xiàn)細(xì)菌的精準(zhǔn)溯源,逐漸成為細(xì)菌分型和溯源的主流技術(shù)。其中,cgMLST需要較少的計(jì)算能力,在細(xì)菌分型、菌株演變和暴發(fā)溯源等研究中將更具應(yīng)用價(jià)值和發(fā)展?jié)摿Α?/p>

猜你喜歡
等位基因分型基因組
牛參考基因組中發(fā)現(xiàn)被忽視基因
親子鑒定中男性個(gè)體Amelogenin基因座異常1例
智慧健康(2021年17期)2021-07-30 14:38:32
失眠可調(diào)養(yǎng),食補(bǔ)需分型
便秘有多種 治療須分型
WHOHLA命名委員會(huì)命名的新等位基因HLA-A*24∶327序列分析及確認(rèn)
DXS101基因座稀有等位基因的確認(rèn)1例
基于分型線驅(qū)動(dòng)的分型面設(shè)計(jì)研究
頸椎病中醫(yī)辨證分型與影像探討
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
有趣的植物基因組
西充县| 溆浦县| 邻水| 石屏县| 宁明县| 湛江市| 利辛县| 襄汾县| 平山县| 禹城市| 皋兰县| 奉节县| 东城区| 凤城市| 永城市| 禹城市| 庐江县| 孟津县| 上饶县| 宜宾县| 华容县| 武宁县| 扬州市| 含山县| 馆陶县| 阿坝县| 遂川县| 湖州市| 黄骅市| 金阳县| 图们市| 博乐市| 阳西县| 安泽县| 中江县| 崇信县| 偃师市| 枣阳市| 大丰市| 乐平市| 阳朔县|