国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

志賀氏菌CRISPR位點的比較基因組學及與質粒數(shù)量的相關性分析

2020-05-24 04:43曲道峰陸詩銚陳躍文黃東萍龔俏玲易松強韓劍眾
中國食品學報 2020年5期
關鍵詞:間隔質粒位點

曲道峰 陸詩銚 陳躍文 黃東萍 龔俏玲 易松強 韓劍眾*

(1 浙江工商大學食品與生物工程學院 杭州310018 2 江西省畜牧技術推廣站 南昌330046

成簇的規(guī)律間隔的短回文重復序列(CRISPR)廣泛分布于細菌和古生菌的基因組中,它是由RNA 介導的、可遺傳的獲得性免疫系統(tǒng),與細菌水平基因轉移關系密切,可以識別并剪切加工質粒等外源遺傳物質,進而降低基因的水平轉移。CRISPR 位點由重復序列和間隔序列組成,與前導序列、Cas 蛋白基因共同構成了CRISPR 系統(tǒng)[1]。重復序列保守性高,具有回文結構,能轉錄并形成RNA 二級結構,可以形成莖環(huán)結構[2]。間隔序列是高度可變的,研究發(fā)現(xiàn)噬菌體、大質粒等外源性可移動遺傳原件是主要來源。前導序列和重復序列相互連接,當細菌體內產生新的間隔序列時,可以識別該新序列并啟動轉錄產生前crRNA(CRISPR RNAs-)。在CRISPR位點附近存在CRISPR 相關蛋白質(CRISPR-associated,Cas)基因,可以編碼Cas 蛋白,CRISPR/Cas 系統(tǒng)有3 個類型,即CRISPR/Cas 系統(tǒng)類型Ⅰ、Ⅱ、Ⅲ,依據(jù)Cas蛋白基因的差別每個類型可細分為幾個亞類[3]。Haft 等根據(jù)cas 基因的相似程度將其分為45 個家族,在每個CRISPR 位點中都存在cas1 和cas2家族基因,可用這兩個家族基因作為分子標記來鑒定CRISPR 系統(tǒng)[4]。

腸桿菌科經常是醫(yī)學和科學界關注的重點和研究的熱點,作為影響公共健康的一個重要標志,在公共衛(wèi)生領域中對細菌食源性病原體進行深入研究意義頗深[5]。志賀菌屬于腸桿菌科,是細菌性痢疾的病原體,同時也是一種最古老的人類特異性病原菌,有研究發(fā)現(xiàn)志賀菌屬在35 000-170 000年之前就已經進化,與人類的起源和發(fā)展關系密切[4]。志賀氏菌根據(jù)O 抗原可分為4 種類型,分別為痢疾志賀氏菌、福氏志賀氏菌、鮑氏志賀氏菌和宋內志賀氏菌[6]。在我國,福氏志賀氏菌比較常見,而基于CRISPR 系統(tǒng)特點的研究還比較少,且研究結果不一致[7]。本文主要比較和分析了40 株基因測序的志賀氏菌的CRISPR 位點,研究在不同志賀氏菌種中CRISPR 位點結構上的差異,對間隔序列與插入序列的同源性進行比較,判斷CRISPR 位點與RNA 二級結構穩(wěn)定性的關系[8]。

1 材料和方法

1.1 材料

從NCBI genome 數(shù)據(jù)庫中獲取40 株志賀氏菌的遺傳信息和基因組全序列(http://www.ncbi.nlm.nih.gov/genome),其中包括6 株鮑氏志賀氏菌(Shigellaboydii),5株痢疾志賀氏菌(Shigelladysenteriae)、18 株福氏志賀氏菌(Shigellaflexneri)以及11 株宋內氏志賀氏菌(Shigellasonnie)?;蚪M序列及其GenBank 編號見表1。

表1 40 株志賀氏菌基因組序列信息匯總Table1 The information of the genome sequence of 40 strains of shigella

1.2 志賀氏菌中CRISPR 位點分析

在CRISPRs Database(http://crispr.i2bc.parissaclay.fr/crispr/)網站上查找并獲取40 株志賀氏菌CRISPR 的重復序列(repeat)和間隔序列(spacer),分析其CRISPR 位點的結構,同時在CRISPR Finder(http://crispr.i2bc.paris-saclay.fr/Server/)和CRT(CRISPR Recognition Tool)軟件中進行查找預測[9]。

1.3 CRISPR 結構的核酸序列分析

將志賀氏菌的CRISPR 序列進行BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)線上比對,利用Clustal X 軟件進行多序列比對,通過CRISPR BLAST 和CRISPR Finder 對志賀氏菌的CRISPR 位點的重復間隔序列進行對比分析,再利用WebLogo 將CRISPR1~3,CRISPR-Q1~Q4 的重復序列進行可視化。

1.4 間隔序列的同源序列查找

將各菌種的間隔區(qū)提交到IS Finder 和INTEGRALL 網站進行在線比對,通過CRISPRs Database 數(shù)據(jù)庫比對,尋找已有的間隔序列中的外源同源序列,以及新發(fā)現(xiàn)的間隔序列,分析間隔區(qū)序列的同源序列是否來源于外源DNA。使用BLAST 和CRISPRTarget 來分析間隔序列。

1.5 CRISPR 位點與RNA 二級結構穩(wěn)定性的相關性分析

預測CRISPR 重復序列的RNA 二級結構。通過RNAfold 網站對CRISPR 位點的重復序列進行RNA 二級結構預測,并研究重復間隔序列的基數(shù)差異CRISPR1~3,CRISPR Q1~Q4 是否直接影響RNA 二級結構的莖環(huán)穩(wěn)定性。

1.6 CRISPR 位點的質粒相關性分析

在NCBI 網站上查詢并下載相關菌株質粒的完整序列,菌株CRISPR 位點數(shù)量與菌株的質粒數(shù)量之間的關系采用非參數(shù)檢驗Wilcoxon rank sum test 進行比較分析。由Origin 8.5 軟件完成相關的數(shù)據(jù)統(tǒng)計分析。

2 結果

2.1 志賀氏菌中CRISPR 結構位點的基因組分布情況

研究了40 株志賀氏菌并查找其CRISPR 位點,共發(fā)現(xiàn)CRISPR 位點241 個,其中可疑位點(Possible CRISPR)235 個,可確定位點(Confirmed CRISPR)6 個,且發(fā)現(xiàn)的絕大多數(shù)CRISPR 位點位于染色體上,只有2 個CRISPR 位點位于質粒上。經統(tǒng)計發(fā)現(xiàn)這40 株菌的平均CRISPR 個數(shù)是6個,其中6 株鮑氏志賀氏菌的平均CRISPR 位點個數(shù)是2.5 個,5 株痢疾志賀氏菌的平均個數(shù)是13.8 個,18 株福氏志賀氏菌的平均個數(shù)是5.5 個,以及11 株宋內氏志賀氏菌的平均個數(shù)是5.3 個。統(tǒng)計過程中還發(fā)現(xiàn),痢疾志賀氏菌1617 這一菌株中的CRISPR 位點個數(shù)高達50 個,其中可疑位點49 個。而鮑氏志賀氏菌4444-74、痢疾志賀氏菌WRSD3、宋內氏志賀氏菌786_SSON 等菌株中均只含有一個CRISPR 位點。

成簇規(guī)律間隔的短回文重復序列和它的輔助蛋白(CRISPR-associated,Cas)構成了CRISPR/Cas 系統(tǒng)。cas 基因有45 個家族,對40 株志賀氏菌的CRISPR/Cas 系統(tǒng)進行分析,結果表明:該菌CRISPR/Cas 系統(tǒng)均屬于Ⅰ-E 型,未發(fā)現(xiàn)Ⅱ類和Ⅲ類的Cas 系統(tǒng)。通過對241 個CRISPR 位點的結構研究,根據(jù)位點的相似性,該細菌的CRISPR 可分為8 類:CRISPR1,CRISPR2,CRISPR3,CRISPRQ1,CRISPR -Q2,CRISPR -Q3,CRISPR -Q4 和CRISPR-Q5。CRISPR1 位于核心基因cysD/iapcysH 和cysD/iap-cysH 之間,距離CRISPR2 約20 kb。CRISPR1-3 的Cas 結構具有較強的保守性??偟膩碚f,在5 個 可疑CRISPR 中,CRISPR-Q1,CRISPR-Q2,CRISPR-Q4,CRISPR-Q5在大多數(shù)志賀氏菌中廣泛分布。這5 個可疑CRISPR 序列包含一些獨特的分隔符,暗示他們是保守的CRISPR。此外,還發(fā)現(xiàn)大多數(shù)的CRISPR 位點僅顯示一個重復,CRISPR-Q5 在菌株中出現(xiàn)的次數(shù)并不多,故本文不作研究。

為了鑒定志賀氏菌中的cas 基因,從40 株志賀氏菌中選取9 株具有代表性的菌株,用CRISPR位點圖來研究CRISPR1~3 的相關信息。結果發(fā)現(xiàn)這9 株菌都有CRISPR3 結構,除福氏志賀氏菌外其它3 類的CRISPR 位點都比較復雜,含有很多cas 基因和其它基因片段,也包含很多插入序列。由圖1表明,cas 基因的排列順序具有高度的一致性,其排列順序為cas2-cas1-cas6-cas5-cas7-cse2-cse1-cas3。

2.2 重復序列與Cas 蛋白的進化分析

由表2可知,即使在同種細菌中的不同種類的菌株之間,CRISPR 位點重復序列的堿基數(shù)量和分布也有顯著的區(qū)別,而且同類細菌中重復序列數(shù)也不存在規(guī)律性。比如鮑氏志賀氏菌中的15 個CRISPR 位點中共含有重復區(qū)域個數(shù)60 個,且僅有1 次重復。痢疾志賀氏菌的69 個CRISPR 位點中共包含重復序列個數(shù)157 個,其中重復數(shù)最高可達35 個。18 株福氏志賀氏菌的99 個CRISPR位點中共含有202 個重復序列個數(shù),平均每株重復個數(shù)在11~15 個之間。11 株宋內志賀氏菌的58個CRISPR 位點中共含有137 個重復序列個數(shù),重復個數(shù)16 個的菌株較多。

對40 株志賀氏菌的重復序列進行遺傳聚類分析(圖2a),發(fā)現(xiàn)不能對不同種細菌進行區(qū)分。9株菌株的CRISPR/Cas 系統(tǒng)中均含有cas3 基因,且是廣泛分布的,其表達“R-環(huán)解旋酶-退火酶”。對9 株志賀氏菌進行遺傳聚類分析(圖2b),與重復序列相似,cas3 基因的保守性較強,不可區(qū)分同種細菌的不同菌株。

圖1 9 株志賀氏菌CRISPR1~3 位點的分布Fig.1 The distribution of CRISPR1~3 of 9 Shigella strains

表2 不同CRISPR 位點重復序列的分析Table2 Analysis of the repeat sequence of different CRISPR loci

2.3 前導序列和間隔序列的特征分析

研究發(fā)現(xiàn) 40 株志賀氏菌的CRISPR 位點中存在516 條間隔序列,其序列長度呈高度統(tǒng)一,29 bp 長度的重復序列與32 bp 長度的間隔序列相匹配,27 bp 長度的重復序列與69 bp 長度的間隔序列相匹配,39 bp 長度的重復序列與49 bp 長度的間隔序列相匹配。將一個重復序列和一個與之相鄰的間隔序列稱為一個重復單元,統(tǒng)計表明40 株志賀氏菌中重復單元序列長度基本在100 bp 以下,因此大膽假設在CRISPR 位點附近存在這樣的基因——它擁有能夠嚴格調控重復單元長度的功能。

圖2 志賀氏菌相關序列進化樹Fig.2 The termination-associated sequences of repeats

在INTEGRALL 上對這些間隔序列比對分析,無法查找到完全對應的可移動遺傳元件,而大部分間隔序列中存在長度為12~15 bp 的序列,可以發(fā)現(xiàn)與其相對應的來源于其它菌株的基因片段序列,比如質粒、轉座子、整合子、插入序列、耐藥基因等可移動基因元件[1]。在鮑氏志賀氏菌Sb227的CRISPR 中的間隔序列就有一段15 bp 的基因序列與克雷白氏肺炎桿菌中的質粒pRBDHA|pspB 有一定的同源性,在痢疾志賀氏菌BU53M1 的CRISPR 結構中的第2 個間隔序列就和硫堿弧菌屬HL-EbGR7 的整合酶基因IntI 24 有一定的同源基因,在鮑氏志賀氏CDC 3083-94 的CRISPR 結構中的第3 段間隔序列中有13bp 的基因序列與大腸桿菌的轉座酶基因TnpR 具有一定的同源性。仍然存在某些間隔序列無法查找出與其同源的基因,也許是當前INTEGRALL 數(shù)據(jù)庫中可移動遺傳原件的相關數(shù)據(jù)還不是十分完整,也有可能是外源基因進入該菌株后發(fā)生了堿基突變。

上述試驗證明間隔序列中的一部分序列與其它菌種中的一些可移動基因原件有一定的同源性,對同種細菌的不同株細菌而言,其間隔序列可能不存在同源性,這可能與同種細菌的生長環(huán)境不同有關。生長環(huán)境的不同決定了其CRISPR 位點結構之間的差異。志賀氏菌和大腸桿菌之間關于CRISPR 位點的相同性和特異性尚待探索。一些間隔區(qū)與幾種已知的質粒和細菌序列相關,而其它的甚至沒有已知的序列,這大概反映了未識別的噬菌體,質?;蚣毦蛄?。相關研究發(fā)現(xiàn),在CRISPR 位點的上游端也許含有一段前導序列,其長度約在300~500 bp 之間。通過多重序列對比分析,發(fā)現(xiàn)在CRISPR1-3,CRISPR-Q1~Q4 結構的5'側翼區(qū)的1 000 bp 序列中出現(xiàn)較多的AAAAA 和TTTT 結構,同時堿基突變較多,表明此區(qū)域基因移動頻繁,與基因的啟動調控有關[10]。

圖3 鮑氏志賀氏菌227 和痢疾志賀氏菌197 CRISPR 位點中間隔序列同源性序列分析Fig.3 The spacer homologous sequence analysis of Shigella boydii str.227 and Shigelladysenteriae str.197

2.4 CRISPR 位點與RNA 二級結構穩(wěn)定性的相關性分析

之前研究表明CRISPR 重復序列可能形成穩(wěn)定的發(fā)夾形狀的RNA 二級結構,部分具有回文性質。通過RNAFold Web 檢測每個CRISPR 位點重復序列的RNA 二級結構和熱力學最小自由能(MFE)。

圖4 重復序列的Weblogo 和其RNA 二級結構Fig.4 The Weblogo and secondary structure of repeats

由圖4a 可知,CRISPR1 和CRISPR2 位點的熱力學系最小自由能△G=-14.45 kcal/mol,CRISPR3位點的熱力學最小自由能△G=-8.71 kcal/mol。由圖4b 可得,CRISPR-Q1 中第1 個和末端重復序列之間的差異是明顯的,CRISPR-Q2,CRISPR-Q3和CRISPR-Q4 中的第1 個和末端重復之間沒有差異。熱力學集合的自由能△G=-14.75,-21.33,-9.76 和-17.92 kcal/mol。RNA 二級結構在每個末端由環(huán)組成,莖在6~12 bp 之間,其中CRISPR-Q2的MFE(△G = -21.330 kcal/mol)大于其它CRISPR(P <0.05),而CRISPR2 的MFE(△G =-8.71 kcal/mol)是7 個CRISPR 位點中最小的,表明由于莖中堿基對數(shù)目較多,其二級結構更穩(wěn)定。

2.5 重復間隔序列數(shù)量與質粒數(shù)量的相關性分析

如表3所示,對40 株志賀氏菌的重復和間隔序列數(shù)以及平均質粒數(shù)進行統(tǒng)計,發(fā)現(xiàn)共含有67個質粒,平均含有1.7 個質粒,其中有的菌株不含質粒,有的菌株中高達7 個質粒。6 株鮑氏志賀氏菌的平均質粒個數(shù)為1 個,5 株痢疾志賀氏菌的平均質粒數(shù)為0.6 個,18 株福氏志賀氏菌平均有1.33 個質粒,11 株宋內氏志賀氏菌的平均質粒數(shù)為3.2 個,且均具有結合轉移區(qū)(Conjugation Transfer)。分析志賀氏菌CRISPR 位點和質粒的相關性后,未發(fā)現(xiàn)質粒數(shù)與其有很大的關聯(lián)度,重復間隔序列多的菌株質粒數(shù)并不一定多,反之亦成立。從相關性分析上無法得到間隔序列越多質粒越少或越多的結論。通過其它文獻了解到質粒是一個復雜的可移動基因元件,需要通過繪制質粒圖譜做進一步的研究,這也是今后需要研究的方向。

表3 4 類志賀氏菌的重復間隔序列數(shù)與平均質粒數(shù)Table3 The number of repeat interval and the average number of plasmid of 4 kinds of Shigella

3 討論

志賀氏菌是人類患病的重要病原體,細菌性痢疾是由志賀氏菌引起的一種急性腸道傳染病,在世界各地仍是一個非常嚴重的公共衛(wèi)生和社會問題,造成了極大的經濟上的重負,特別是在發(fā)展中國家已經成為一個重大的健康威脅[5,11]。

CRISPR 簇是一個特殊DNA 重復序列家族,存在于細菌和古生菌基因組中,可作為防御外源遺傳物質的“基因武器”[12]。在40%的已測序細菌和90%的已測序古生菌中存在CRISPR。CRISPR序列是由許多的重復序列區(qū)(repeat)和間隔序列區(qū)(spacer)組成,重復序列區(qū)保守,存在回文結構,能夠形成發(fā)卡結構[13],而間隔區(qū)是被細菌俘獲的外源DNA 序列。前導區(qū)域(leader)位于序列上游,作為CRISPR 序列的啟動子[14]。在CRISPR 上游還有一個多態(tài)性的家族基因,該基因編碼的蛋白和CRISPR 序列區(qū)域一起發(fā)揮作用,被命名為CRISPR 關聯(lián)基因(CRISPR associated,cas)。當前人們研究發(fā)現(xiàn)了cas1-cas10 等多種類型的cas 基因。cas 基因與CRISPR 序列共同進化,在細菌中形成了高度保守的CRISPR/Cas 系統(tǒng)。

CRISPR 系統(tǒng)是細菌用以抵御外源移動基因原件侵襲的免疫系統(tǒng),其中CRISPR/Cas9 是一個新興的極具研究價值的基因編輯工具[15]。CRISPR系統(tǒng)可以抑制攜帶耐藥基因的質粒、轉座子、整合子等外源基因的入侵,進而防止耐藥基因在細菌種間的水平傳播,特別是致病細菌之間的傳播,對臨床治療和畜牧業(yè)意義重大。本研究通過生物信息學方法對志賀氏菌的CRISPR 位點進行分析,掌握志賀氏菌中CRISPR 位點的分布情況及結構等信息,分析推測CRISPR 和外源質粒之間的聯(lián)系,結果顯示間隔序列與許多耐藥基因和整合子、轉座子、質粒間的同源性程度不同。

目前已確認一些志賀氏菌的CRISPR 位點的結構。本研究中對志賀氏菌CRISPR 結構的生物信息學分析可能為闡明志賀氏菌CRISPR 結構的功能提供信息。根據(jù)在CRISPRs Database 上得到的有效信息,志賀氏菌中的CRISPR 包括確定位點和可疑位點,以及獨特的間隔區(qū)域。間隔物形成的機制將為分析間隔物功能提供線索。在第1 個和最后1 個重復之間的基數(shù)差異CRISPR1~3 將直接影響RNA 二級結構的穩(wěn)定性[3]。

志賀氏菌中的一些CRISPR 位點高度保守,除CRISPR-Q1 外,可疑的CRISPR 僅包含兩個及兩個以下的間隔序列,這些間隔序列具有90%的相似性[10]。CRISPR-Q1 不太活躍,被認為是古生菌株的象征。這些研究數(shù)據(jù)并沒有顯示CRISPR 作為志賀氏菌屬免疫系統(tǒng)的組成成分之一,而CRISPR-Q1 中的間隔序列的數(shù)目和是否存在CRISPR1 和CRISPR2 可能是與間隔物的其它特征相關聯(lián)。CRISPR-Q1 中的多個間隔區(qū)域在一些區(qū)域中表明CRISPR-Q1 可能參與CRISPR1 或CRISPR2 的功能[4]。

根據(jù)對cas 基因的分析,發(fā)現(xiàn)40 株志賀氏菌的cas 基因排列順序統(tǒng)一性極高,cas3 基因與重復序列一樣也具有相似的保守性,這和先前文獻[16]報道相一致。這表明在進化過程中志賀氏菌也面臨著相似的選擇壓力。前導序列在同種細菌中保守性不是很強,堿基突變或堿基缺失現(xiàn)象易發(fā)生,說明前導序列基因比較活躍,推測其與啟動CRISPR 基因表達有關[17]。對間隔區(qū)序列進行分析,雖然在Integrall 數(shù)據(jù)庫中不能找到與間隔序列完全匹配的序列,但能找到相關序列與間隔序列中部分序列完全匹配,同時這些序列多數(shù)來源于質粒、噬菌體、耐藥基因、整合子和轉座子[18]。這說明志賀氏菌的CRISPR 系統(tǒng)能抵御外源基因的侵襲,尚未發(fā)現(xiàn)CRISPR 位點數(shù)量與質粒數(shù)量以及間隔序列數(shù)量與質粒數(shù)量之間具有統(tǒng)計學意義的相關性[19]。作者預測該情況是因質粒類型的不同,也許是因一些質粒具有抵抗CRISPR 結構的能力所致,這需要對質粒結構進行更深入的研究。

猜你喜歡
間隔質粒位點
農桿菌轉化法中的“Ti質粒轉化載體系統(tǒng)”的簡介
——一道江蘇高考題的奧秘解讀和拓展
全基因組測序后質粒的組裝與鑒定研究進展*
鎳基單晶高溫合金多組元置換的第一性原理研究
CLOCK基因rs4580704多態(tài)性位點與2型糖尿病和睡眠質量的相關性
基于網絡公開測序數(shù)據(jù)的K326煙草線粒體基因組RNA編輯位點的鑒定與分析
mcr-1陽性類噬菌體質粒與F33∶A-∶B-質粒共整合形成的融合質粒的生物學特性分析
間隔問題
開發(fā)新方法追蹤植物病害的全球傳播(2020.6.7 iPlants)
間隔之謎
一種改進的多聚腺苷酸化位點提取方法