国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于公共sRNAs庫(kù)的病毒檢測(cè)分析研究

2014-02-10 16:52王亞靜
關(guān)鍵詞:宿主測(cè)序物種

王亞靜,王 琿,王 敏,徐 峰

(1. 天津科技大學(xué)生物工程學(xué)院,天津 300457;2. 英國(guó)自然環(huán)境理事會(huì)/生態(tài)與水文研究中心,牛津 OX10 8BB;3. 南開大學(xué)藥學(xué)院藥物化學(xué)生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,天津 300071)

基于公共sRNAs庫(kù)的病毒檢測(cè)分析研究

王亞靜1,王 琿2,王 敏1,徐 峰3

(1. 天津科技大學(xué)生物工程學(xué)院,天津 300457;2. 英國(guó)自然環(huán)境理事會(huì)/生態(tài)與水文研究中心,牛津 OX10 8BB;3. 南開大學(xué)藥學(xué)院藥物化學(xué)生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,天津 300071)

以公共的small RNAs (sRNAs)新一代測(cè)序數(shù)據(jù)為材料,通過生物信息學(xué)的分析方法檢測(cè)生物實(shí)驗(yàn)系統(tǒng)樣品中存在的病毒,討論病毒與宿主間的關(guān)系,病毒的種屬特性,進(jìn)而指導(dǎo)生物實(shí)驗(yàn)設(shè)計(jì).從GEO Datasets數(shù)據(jù)庫(kù)下載917個(gè)已發(fā)表的sRNAs高通量測(cè)序數(shù)據(jù),通過生物信息學(xué)分析共檢測(cè)出來自334個(gè)樣品庫(kù)的2,107條高度同源的病毒序列和2,930條疑似的病毒序列.這些病毒主要是正鏈RNA病毒、反轉(zhuǎn)錄病毒和雙鏈DNA病毒,集中在花椰菜花葉病毒科、反轉(zhuǎn)錄病毒科、桿狀病毒科和蕪菁黃花葉病毒目.

病毒檢測(cè);small RNAs;病毒分類;生物信息學(xué);抗病毒免疫;下一代測(cè)序

病毒是地球上最豐富和多樣的生物群體[1-2],但在2012年的ICTV分類中,已知病毒尚不到6,000種[3],人們對(duì)病毒圈和病毒群落的了解十分有限[4],這使得預(yù)期外的病毒感染/污染無論在環(huán)境樣品還是實(shí)驗(yàn)室樣品中都常有發(fā)生.由于病毒的感染會(huì)引起宿主的抗病毒免疫反應(yīng),消耗宿主的能量并經(jīng)常影響宿主的新陳代謝和生長(zhǎng)發(fā)育,考慮將預(yù)期外的病毒感染作為生物實(shí)驗(yàn)設(shè)計(jì)中的控制條件是十分重要的.對(duì)已發(fā)表的生物實(shí)驗(yàn)系統(tǒng)的病毒檢測(cè)有助于指導(dǎo)實(shí)驗(yàn)設(shè)計(jì),減少意外感染發(fā)生.

Small RNAs(sRNAs)是真核生物RNA沉默及其相關(guān)通路的關(guān)鍵調(diào)控者.在抗病毒免疫通路中,sRNAs既作為中間分子通過RNAi和相關(guān)的RNA沉默效應(yīng)機(jī)制指導(dǎo)特異性的抗病毒免疫[5],也作為終產(chǎn)物通過靶向病毒性RNA得以積累[6].新一代測(cè)序技術(shù)允許測(cè)序反應(yīng)大規(guī)模并行化,因其能夠同時(shí)測(cè)序大量的DNA分子,所以又稱深度測(cè)序,具有高通量、快速、精確、價(jià)格低廉的特點(diǎn)[7],為病毒的發(fā)現(xiàn)和檢測(cè)提

供了強(qiáng)有力的工具,通過sRNAs的深度測(cè)序,能夠快速精確地從整個(gè)或特殊的組織中識(shí)別出病毒序列,找到無癥狀樣品中低豐度的病毒[8].這種高通量、高靈敏度的方法徹底改變了病毒檢測(cè)和鑒定手段,Kreuze等[9]和Wu等[10]先后使用此種方法在植物和無脊椎動(dòng)物中檢測(cè)出病毒,并發(fā)現(xiàn)了全新的病毒.

隨著新一代測(cè)序技術(shù)的迅速發(fā)展,以高通量測(cè)序技術(shù)為基礎(chǔ)的生物學(xué)研究領(lǐng)域在不斷擴(kuò)增,越來越多的物種被測(cè)序和分析,產(chǎn)生的高通量公共實(shí)驗(yàn)數(shù)據(jù)可通過專門的數(shù)據(jù)庫(kù)來存儲(chǔ)和查詢.本研究以公共的sRNAs新一代測(cè)序數(shù)據(jù)為材料,通過生物信息學(xué)的分析方法檢測(cè)生物實(shí)驗(yàn)系統(tǒng)樣品中存在的病毒,討論病毒與宿主間的關(guān)系,病毒的種屬特性,進(jìn)而指導(dǎo)生物實(shí)驗(yàn)設(shè)計(jì).

1 材料與方法

1.1 實(shí)驗(yàn)材料

1.1.1 數(shù)據(jù)

用于分析的測(cè)序數(shù)據(jù)選自GEO Datasets[11],通過高級(jí)搜索條件“(((small RNA)OR short RNA)OR sRNA)AND "high throughput sequencing"”搜索,最終選取來自95個(gè)物種和4個(gè)混合物種的917個(gè)sRNAs樣品庫(kù)數(shù)據(jù),總計(jì)76.9,GB.

1.1.2 硬件、軟件及數(shù)據(jù)庫(kù)

用于數(shù)據(jù)分析的硬件設(shè)備包括:800,CPU,峰值7萬億次/秒,操作系統(tǒng)為GNU/Linux SUSE Linux Enterprise Server 11,SP1(x86_64)的計(jì)算集群;32,GB內(nèi)存,32,CPU,SUSE Linux Enterprise Server 11,SP1(x86_64)的服務(wù)器;4,GB內(nèi)存,Intel(R)Core (TM)i5-2410M CPU,2.30,GHz的PC.

數(shù)據(jù)分析軟件主要包括:NCBI-BLAST-2.2.27+,SOAPdenovo-Trans 1.0,Velvet 1.2.07,CD-HIT 4.5.4,Bowtie2 2.1.0,Samtools 0.1.7,Bedtools 2.17.0,Perl,R 2.15.1.

數(shù)據(jù)庫(kù)包括:fRNAdb 3.4,NCBI Nt database(2013.06.05),NCBI Nr database(2013.06.05),Uniprot.

1.2 實(shí)驗(yàn)方法

1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化

GEO數(shù)據(jù)庫(kù)中的生物實(shí)驗(yàn)數(shù)據(jù)格式不統(tǒng)一,使用perl腳本標(biāo)準(zhǔn)化成多數(shù)軟件可識(shí)別的Fasta格式.1.2.2 過濾宿主的ncRNAs序列[12]

sRNAs在提取的過程中會(huì)存在宿主來源的miRNAs、siRNAs以及rRNAs、tRNAs降解的序列.通過BLAST程序?qū)RNAs樣品庫(kù)與fRNAdb數(shù)據(jù)庫(kù)比對(duì),使用perl腳本過濾掉完全比對(duì)到數(shù)據(jù)庫(kù)中的sRNAs.

1.2.3 sRNAs的從頭組裝(Denovoassembly)[13]

過濾后的sRNAs樣品庫(kù)分別使用Velvet和SOAPdenovo-Trans進(jìn)行從頭組裝,并以不同的kmer參數(shù)(k=15、17、19、21、23)多次拼接,拼接出的contigs(原始測(cè)序reads拼接后的序列)使用Velvet進(jìn)行二次拼接(k=39、41、43、45、47、49).將每個(gè)sRNAs樣品庫(kù)組裝的contigs匯總,使用CD-HIT對(duì)每個(gè)樣品庫(kù)的contigs去冗余,并保留contigs長(zhǎng)度大于50,nt的序列用于后續(xù)的分析.

1.2.4 Contigs的驗(yàn)證

為了驗(yàn)證從頭組裝的contigs的可靠性,通過bowtie2將原始的sRNAs樣品庫(kù)中的reads比對(duì)到去冗余后的contigs上,通過samtools、bedtools以及Perl腳本計(jì)算出每個(gè)contig的覆蓋度,覆蓋度小于95%的contigs被認(rèn)為是不可靠的,將這部分序列從每個(gè)樣品庫(kù)組裝出的contigs過濾掉.計(jì)算每個(gè)樣品庫(kù)中覆蓋度≥95%的contigs比例.

1.2.5 Contigs的注釋

為了使檢測(cè)結(jié)果更可靠,選用了最大的核酸庫(kù)Nt和最大的蛋白庫(kù)Nr,將每個(gè)樣品庫(kù)對(duì)應(yīng)的contigs分別使用BLASTn程序與Nt比對(duì),BLASTx程序與Nr比對(duì),保留每個(gè)contigs比對(duì)結(jié)果中最好的注釋信息,過濾掉沒有比對(duì)到病毒序列或比對(duì)到病毒序列的但contigs的覆蓋度小于95%的注釋信息.

1.2.6 數(shù)據(jù)分析

在Nt數(shù)據(jù)庫(kù)的注釋結(jié)果中,當(dāng)contigs與已知的病毒序列identity(%)≥80%時(shí),認(rèn)為檢測(cè)出相應(yīng)病毒[10],而剩余identity(%)≥40%的序列被認(rèn)為是疑似病毒.由于Nr是蛋白庫(kù),比對(duì)到Nr的序列是通過預(yù)測(cè)得到的結(jié)果,identity(%)≥40%的序列也被認(rèn)為是疑似病毒(去除比對(duì)到Nt庫(kù)中的病毒序列identity≥40%的比對(duì)結(jié)果).物種–病毒相互關(guān)系通過R軟件呈現(xiàn),并通過Uniprot數(shù)據(jù)庫(kù)獲得病毒的分類信息.

2 結(jié)果與分析

2.1 sRNAs樣品庫(kù)的從頭組裝

sRNAs樣品庫(kù)通過過濾宿主ncRNAs序列,多軟件、多kmer、多次從頭組裝,contigs冗余,最終獲得sRNA樣品庫(kù)的拼接結(jié)果,然后通過contigs的驗(yàn)

證過濾掉覆蓋度較低的contigs,驗(yàn)證結(jié)果如圖1所示.超過80%樣品庫(kù)的覆蓋度大于95%的contigs比例在70%以上,最高達(dá)到99.6%.雖然個(gè)別樣品庫(kù)覆蓋度大于95%的contigs比例低于40%,但是從總體上看,覆蓋度大于95%的contigs比例是較高的,這從一個(gè)方面說明組裝的結(jié)果是可靠的.

2.2 生物實(shí)驗(yàn)系統(tǒng)中的物種–病毒

2.2.1 Nt、Nr注釋

經(jīng)過Nt、Nr數(shù)據(jù)庫(kù)注釋,與已知病毒序列高度相似的contigs總共2,107條,來自45個(gè)物種(含2個(gè)混合物種)的238個(gè)樣品庫(kù),占總樣品的26%.其中,Mus musculus檢測(cè)到病毒物種最多(20種),Arabidopsis thaliana對(duì)應(yīng)的病毒contigs最多(339條),這些contigs來自44個(gè)sRNAs樣品庫(kù).

疑似的病毒序列共有2,930條,來自58個(gè)物種(含3個(gè)混合物種)的280個(gè)樣品庫(kù),占總樣品的30%.其中,Mus musculus檢測(cè)到疑似病毒種類最多(35種),Spodoptera frugiperda對(duì)應(yīng)的疑似病毒contigs最多(347條).

以上病毒相關(guān)的序列總共5,037條,對(duì)應(yīng)病毒293種,涉及63個(gè)物種的334個(gè)樣品庫(kù).由此看出,有近30%的生物實(shí)驗(yàn)樣品受到病毒的感染或污染.2.2.2 物種-病毒相互關(guān)系

為了研究生物實(shí)驗(yàn)系統(tǒng)中檢測(cè)的病毒與對(duì)應(yīng)的樣品物種關(guān)系,提取通過2.2.1的Nt、Nr注釋獲得的293個(gè)病毒物種及對(duì)應(yīng)的63個(gè)樣品物種,并按照病毒的天然宿主分為植物病毒、動(dòng)物病毒、其他病毒(包括噬菌體、類病毒、真菌病毒和噬藻體),繪制成宿主物種–病毒關(guān)系圖,見圖2—圖4.圖中分3種色塊,顏色隨加深分別代表疑似的病毒、檢測(cè)出的病毒以及兩者重疊部分.并對(duì)宿主按照植物、無脊椎動(dòng)物、脊椎動(dòng)物(除人)以及人分別標(biāo)記為A、B、C、D,物種具體名稱見表1.

293種病毒包括植物病毒110種、動(dòng)物病毒160種、其他病毒23種.由圖2、圖3可以看出:植物病毒主要從植物宿主樣品中檢測(cè)出,動(dòng)物病毒也主要從動(dòng)物宿主樣品中檢測(cè)出,這暗示這些病毒序列不可能是由于樣品的隨機(jī)污染造成的.在宿主物種與動(dòng)植物病毒的關(guān)系圖(圖2、圖3)中都存在著一個(gè)病毒在多個(gè)宿主的樣品中被檢測(cè)出的現(xiàn)象:植物病毒Petunia vein clearing virus、Beet western yellows virus、Cucumber mosaic virus和Turnip yellows virus均能從5種或以上的植物宿主中被檢測(cè)出,說明這些病毒可能具有較廣的宿主范圍.一般單子葉植物病毒只能感染單子葉植物[14],但在雙子葉植物(如Glycine max、Arabidopsis thaliana)的樣品中發(fā)現(xiàn)單子葉植物病毒(如Beet western yellows virus、Brassica yellows virus、Turnip yellows virus).動(dòng)物病毒Autographa californica nucleopolyhedrovirus能夠從6種動(dòng)物宿主檢測(cè),而Lausannevirus的天然宿主是無脊椎的原生動(dòng)物,卻在5種植物宿主中檢測(cè),可能的原因是這5種病毒均來自疑似的病毒,準(zhǔn)確性還有待驗(yàn)證;另一方面也可能是樣品在提取測(cè)序過程中存在污染.

在其他病毒–物種圖(圖4)中,Enterobacteria phage T4T、Enterobacteria phage vB_EcoM_ACGC40、Escherichia phage wV7均能從6種物種的樣品中被檢測(cè)出,這包括植物、無脊椎動(dòng)物、脊椎動(dòng)物樣品,且多數(shù)是確定或是重疊部分的病毒,噬菌體能夠從真核生物的樣品中檢測(cè)出,這可能是實(shí)驗(yàn)樣品中病毒載體使用產(chǎn)生的結(jié)果.

2.3 病毒屬性研究

為了更加深入了解生物實(shí)驗(yàn)系統(tǒng)檢測(cè)到的病毒的特性,對(duì)這293種病毒類型進(jìn)行分類,見表2.

檢測(cè)出的病毒主要為正義ssRNA病毒、反轉(zhuǎn)錄病毒、dsDNA病毒,所有類型的病毒都可以通過此種方法檢測(cè).其中ssRNA病毒主要為植物正鏈RNA病毒[15],集中在蕪菁黃花葉病毒目(Tymovirales,23種)、馬鈴薯Y病毒科(Potyviridae,14種)和番茄叢矮病毒科(Tombusviridae,11種),反轉(zhuǎn)錄病毒主要分布在植物的花椰菜花葉病毒科(Caulimoviridae,42種)和脊椎動(dòng)物的反轉(zhuǎn)錄病毒科(Retroviridae,41種),dsRNA病毒主要分布在植物的雙組分RNA病毒科(Partitiviridae,17種),dsDNA病毒集中在昆蟲的桿狀病毒科(Baculoviridae,19種).檢測(cè)到病毒集中分布在幾個(gè)病毒科中,這些信息可用于在生物實(shí)驗(yàn)設(shè)計(jì)中預(yù)防病毒的感染或污染.

3 結(jié) 語

利用公共數(shù)據(jù)庫(kù)中生物實(shí)驗(yàn)系統(tǒng)的sRNAs過程數(shù)據(jù),通過從頭組裝以及生物信息學(xué)分析,很容易檢測(cè)出病毒序列.有近30%的實(shí)驗(yàn)樣品可能存在著病毒的感染或污染,但由于原始數(shù)據(jù)處理的程度以及測(cè)序的深度可能使其低于真實(shí)值.

本研究獲得了生物實(shí)驗(yàn)系統(tǒng)中物種–病毒關(guān)系,并且它們集中在幾個(gè)重要的病毒科,雖然無法通過實(shí)

驗(yàn)手段一一進(jìn)行驗(yàn)證,但不影響這些信息在對(duì)特定物種的實(shí)驗(yàn)設(shè)計(jì)中控制病毒感染的參考價(jià)值.當(dāng)然,由于本研究是基于已有的病毒信息進(jìn)行注釋分析,樣品中仍然可能存在未知的病毒未被檢測(cè)出.

[1] Suttle C A. Marine viruses—major players in the global ecosystem[J]. Nature Reviews Microbiology,2007,5(10):801–812.

[2] Suttle C. The viriosphere:The greatest biological diversity on Earth and driver of global processes[J]. Environmental Microbiology,2005,7(4):481–482.

[3] Adams M J,Lefkowitz E J,King A M Q,et al. Recently agreed changes to the statutes of the international committee on taxonomy of viruses[J]. Arch Virol,2014,159(1):175–180.

[4] Mokili J L,Rohwer F,Dutilh B E. Metagenomics and future perspectives in virus discovery[J]. Current Opinion in Virology,2012,2(1):63–77.

[5] Ding S W,Voinnet O. Antiviral immunity directed by small RNAs[J]. Cell,2007,130(3):413–426.

[6] Ding S W. RNA-based antiviral immunity[J]. Nature Reviews Immunology,2010,10(9):632–644.

[7] Metzker M L. Sequencing technologies—the next generation[J]. Nature Reviews Genetics,2009,11(1):31–46.

[8] Singh K,Kaur R,Qiu W. New Virus Discovery by Deep Sequencing of Small RNAs[M]//RNA Abundance Analysis. Totowa,NJ:Humana Press,2012:177–191.

[9] Kreuze J F,Perez A,Untiveros M,et al. Complete viral genome sequence and discovery of novel viruses by deep sequencing of small RNAs:A generic method for diagnosis,discovery and sequencing of viruses[J]. Virology,2009,388(1):1–7.

[10] Wu Q,Luo Y,Lu R,et al. Virus discovery by deep sequencing and assembly of virus-derived small silencing RNAs[J]. Proceedings of the National Academy of Sciences,2010,107(4):1606–1611.

[11] Barrett T,Wilhite S E,Ledoux P,et al. NCBI GEO:Archive for functional genomics data sets—update[J]. Nucleic Acids Research,2013,41(D1):D991–D995.

[12] Isakov O,Modai S,Shomron N. Pathogen detection using short-RNA deep sequencing subtraction and assembly[J]. Bioinformatics,2011,27(15):2027–2030.

[13] 趙磊,Zachary LARSON-RABIN,陳斯云,等. 基于Illumina RNA-Seq短序列的轉(zhuǎn)錄組從頭組裝軟件比較與優(yōu)化[J]. 植物分類與資源學(xué)報(bào),2012,34(5):487–501.

[14] Cardinale D J,DeRosa K,Duffy S. Base composition and translational selection are insufficient to explain codon usage bias in plant viruses[J]. Viruses,2013,5(1):162–181.

[15] 張忠信. 病毒分類學(xué)[M]. 北京:高等教育出版社,2006.

責(zé)任編輯:常濤

Virus Detection Based on Samples from Biological Experiment Systems

WANG Yajing1,WANG Hui2,WANG Min1,XU Feng3
(1. College of Biotechnology,Tianjin University of Science & Technology,Tianjin 300457,China;
2. NERC/Centre for Ecology and Hydrology,Oxfordshir OX10 8BB,United Kingdom;
3. College of Pharmacy,State Key Laboratory of Medicinal Chemical Biology,Nankai University,Tianjin 300071,China)

In this study,by using published small RNAs(sRNAs)sequencing data as research materials,viruses from samples in biological experiments were detected with bioinformatic analysis.Virus classification and the relationship between virus and host were discussed to guide the design of biological experiments. 917 published sRNAs sequencing data using high-throughput sequencing technology were downloaded from GEO Datasets. 2,107 contigs that are highly similar to virus sequences and 2,930 suspected viral sequences were detected from 334 samples based on bioinformatics analysis. These viruses are mainly ssRNA positive-strand viruses,retro-transcribing viruses and dsDNA viruses,concentrating inCaulimoviridae,Retroviridae,Baculoviridae and Tymovirales.

virus detection;small RNAs;virus classification;bioinformatics;antiviral immunity;next generation se quencing

Q-9

A

1672-6510(2014)05-0035-07

10.13364/j.issn.1672-6510.2014.05.008

2014–01–16;

2014–04–22

天津市科技支撐計(jì)劃資助項(xiàng)目(12ZCZDSY14500);天津市自然科學(xué)基金資助項(xiàng)目(13JCYBJC20900)

王亞靜(1987—),女(滿),河北承德人,碩士研究生;通信作者:徐 峰,副教授,xufeng@nankai.edu.cn.

猜你喜歡
宿主測(cè)序物種
外顯子組測(cè)序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
病原體與自然宿主和人的生態(tài)關(guān)系
龜鱉類不可能是新冠病毒的中間宿主
中草藥DNA條形碼高通量基因測(cè)序一體機(jī)驗(yàn)收會(huì)在京召開
回首2018,這些新物種值得關(guān)注
基因測(cè)序技術(shù)研究進(jìn)展
外顯子組測(cè)序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
電咖再造新物種
世界上的15個(gè)最不可思議的新物種
抓住自然宿主