国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

長牡蠣(Crassostrea gigas)EST串聯(lián)重復(fù)序列的組成和分布

2011-03-14 06:06張琳琳張國范
海洋科學(xué) 2011年4期
關(guān)鍵詞:拷貝數(shù)堿基牡蠣

張琳琳,李 莉,張國范

(1.中國科學(xué)院 海洋研究所,山東 青島 266071;2.中國科學(xué)院 研究生院,北京 100049)

長牡蠣(Crassostrea gigas)也稱太平洋牡蠣,具有體型大、生長快、產(chǎn)量高、適應(yīng)性強等優(yōu)點,在我國北部沿海大面積養(yǎng)殖,是我國雙殼貝類養(yǎng)殖中規(guī)模大、產(chǎn)量高的養(yǎng)殖品種之一。長牡蠣作為冠輪動物超門的模式種,在大片段文庫和遺傳圖譜的構(gòu)建,表達譜差異分析,雜種優(yōu)勢探討等方面進行了較詳細的研究[1-4],但基于大規(guī)模數(shù)據(jù)的重復(fù)序列方面的研究相對較少[5-6]。本文主要對長牡蠣EST進行串聯(lián)重復(fù)序列結(jié)構(gòu)類型,分布,豐度等的比較分析。

串聯(lián)重復(fù)序列是指 1~200個堿基左右的核心重復(fù)單位,以頭尾相串聯(lián)的方式重復(fù)多次所組成的重復(fù)序列。它們在基因組中有著基因表達調(diào)節(jié),群體遺傳多樣性分析等重要作用,與多種疾病相關(guān)[7]。 而簡單序列重復(fù),即微衛(wèi)星(Simple sequence repeat,SSR),更是廣泛地應(yīng)用于遺傳連鎖圖譜構(gòu)建[8-9]和物種基因組結(jié)構(gòu)的分析[10]。雖然長牡蠣大規(guī)模系統(tǒng)的基因組測序工作還沒有完成,但NCBI上公布了大量的長牡蠣EST(Expressed sequence tags,表達序列標簽)數(shù)據(jù)。所謂EST是指通過對cDNA文庫隨機挑取克隆進行大規(guī)模測序所獲得的cDNA的5’或3’端序列,長度一般為150~500bp。研究表明長牡蠣EST中存在大量重復(fù)序列,可用于SSR標記的開發(fā)[6],這為從EST中尋找并分析串聯(lián)重復(fù)序列提供了依據(jù)。通過物種間和物種內(nèi)串聯(lián)重復(fù)序列的比較,研究轉(zhuǎn)錄本的結(jié)構(gòu)特征,分析其串聯(lián)重復(fù)序列特別是 SSR的分布特征和可能的功能,將有助于了解基因組的起源和進化,同時更好地發(fā)揮這些序列在串聯(lián)重復(fù)序列標記方面的應(yīng)用。

截至2009年11月1日,在NCBI數(shù)據(jù)庫中已登錄了57 139條長牡蠣ESTs,但未有對上述57 139條EST全面的串聯(lián)重復(fù)序列的報道。本研究旨在對現(xiàn)有長牡蠣EST中的串聯(lián)重復(fù)序列信息進行結(jié)構(gòu)類型,分布和豐度比較分析,以明確長牡蠣串聯(lián)重復(fù)序列的發(fā)生頻率和特點。同時分析了SSR在全長cDNA中的分布特點,以探討長牡蠣轉(zhuǎn)錄本的結(jié)構(gòu)和進化壓力。本研究有助于促進串聯(lián)重復(fù)序列特別是 SSR標記在基因組結(jié)構(gòu)進化和長牡蠣遺傳育種中的應(yīng)用。

1 材料與方法

1.1 長牡蠣EST序列的下載和預(yù)處理

從NCBI庫中下載57 139條長牡蠣ESTs(2009-11-01),過濾長度小于 100 bp的序列并與 UniVec(http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html)比對去除載體序列,在去掉3’末端的PolyA后,得到56 968條序列。利用 Sequence Assembly Program,CAP3[11]對上述序列進行初步聚類,采用的參數(shù)為重疊長度閾值N>30,重疊的一致性百分比N>90。

1.2 長牡蠣EST串聯(lián)重復(fù)序列的分析

利用Tandem Repeat Finder (TRF)[12]對預(yù)處理的EST進行串聯(lián)重復(fù)序列尋找,比對參數(shù)(匹配,不匹配,插入缺失)為 2,7,7,最小比對分值 30,重復(fù)單位最大長度500。過濾掉重復(fù)序列長度不足15bp的重復(fù)序列。如果同一位置出現(xiàn)的不同重復(fù)序列預(yù)報,本研究取重復(fù)序列長度最大的類型。長牡蠣的HindIII衛(wèi)星序列的多序列比對采用 DNAMAN5.2.2(Lynnon Biosoft Company)。

1.3 長牡蠣 EST 5’UTR,3’UTR 和編碼區(qū)CDS SSR分析

從NCBI庫中下載644條長牡蠣蛋白質(zhì)序列對應(yīng)的EST序列,手工篩選出含有編碼區(qū)全長和5’UTR,3’UTR的序列,共 80條。分別使用 TRF分析其5’UTR,3’UTR和CDS中SSR的分布情況。

2 結(jié)果

2.1 長牡蠣EST衛(wèi)星重復(fù)序列的分析

在處理后的長牡蠣EST中共有10 997條串聯(lián)重復(fù)序列(397 019 bp),其中小衛(wèi)星重復(fù)序列(7~436 bp)有8 392條,共335 207 bp,占分析EST序列的1.58%(圖1a,b,c)。重復(fù)序列單元總數(shù)目和重復(fù)類型間有一定規(guī)律性。重復(fù)序列單元總數(shù)目較多集中到7~12 bp,其中9 bp重復(fù)單元數(shù)目最多,為3 067個重復(fù)單元,其次是8 bp,10 bp,11 bp,12 bp,7 bp。從13 bp重復(fù)類型開始,重復(fù)單元數(shù)目降至1 000以下。隨著重復(fù)單元長度的不斷增加,重復(fù)單元數(shù)目大致上不斷減少。在24~50 bp重復(fù)之間,重復(fù)單元數(shù)目波動相對較大。重復(fù)單元長度大于55 bp的區(qū)域中,在63 bp時出現(xiàn)一個峰,重復(fù)單元數(shù)目為 32.4,其他的重復(fù)單元類型相應(yīng)的重復(fù)單元數(shù)目均小于25 bp。重復(fù)單元長度大于300 bp的只有3個重復(fù)類型,相應(yīng)的重復(fù)單元總數(shù)目為 6.6。另一方面,串聯(lián)重復(fù)序列平均拷貝數(shù)與重復(fù)類型并沒有表現(xiàn)出線性關(guān)系,而是呈現(xiàn)不規(guī)律性的波動(圖1 d)。

在長串聯(lián)重復(fù)序列的分析中(本文中指串聯(lián)重復(fù)序列的長度大于 100bp的重復(fù)類型),162~167bp 重復(fù)單元呈現(xiàn)一個明顯的峰(圖1 c)。將此部分序列提出,分析發(fā)現(xiàn)與長牡蠣的HindIII satellite DNA具有保守性(圖2)。

圖1 不同串聯(lián)重復(fù)序列類型在長牡蠣中的拷貝數(shù)特征Fig.1 The copy number of tandem repeats in the pacific oyster ESTs

2.2 長牡蠣EST簡單串聯(lián)重復(fù)序列的分析

長牡蠣 EST中含有豐富的 SSR,共 2 602個,61 744 bp,占分析序列總堿基的0.29%(表1)。重復(fù)序列數(shù)目表現(xiàn)為六堿基重復(fù)序列>單堿基>二堿基>三堿基>五堿基>四堿基,分別為851,805,307,258,240和141。重復(fù)序列長度、簡單重復(fù)序列類型與拷貝數(shù)的研究過程中,發(fā)現(xiàn)重復(fù)序列單元長度與平均拷貝數(shù)成反比。另一方面,相同重復(fù)單元長度不同重復(fù)類型的重復(fù)序列數(shù)目、重復(fù)序列長度和平均拷貝數(shù)有很大的差別。每種重復(fù)單元類型代表其互補或順序不同的所有重復(fù)單元,如 ATC代表ATG/TGA/GAT/CAT/ATC/TCA 6種重復(fù)類型。由于四堿基、五堿基、六堿基重復(fù)序列的重復(fù)類型較多,我們用 AT的百分比代替分析 SSR的分布特征和結(jié)構(gòu)[9]。研究發(fā)現(xiàn),A串聯(lián)重復(fù)遠遠大于T。對于G串聯(lián)重復(fù)最大拷貝數(shù)為 974,是因為 NCBI號為 FP000596的序列低質(zhì)量測序,在除去此序列的影響后,G串聯(lián)重復(fù)序列的最大拷貝數(shù)為 26。不同的重復(fù)序列重復(fù)類型重復(fù)序列的拷貝數(shù)目不同,如二堿基重復(fù)中,AG的重復(fù)序列數(shù)目遠遠大于AT、AC和GC。相同重復(fù)單元長度不同重復(fù)類型的平均拷貝數(shù)也有很大差別,并且與該重復(fù)類型的重復(fù)序列數(shù)目無關(guān),如 ATC重復(fù)類型的重復(fù)序列數(shù)目約為ACT的30倍,但ACT重復(fù)類型的平均拷貝數(shù)大于ATC重復(fù)類型。

EST-SSR在標記應(yīng)用時,多是以PCR為基礎(chǔ)的,對SSR兩側(cè)的側(cè)翼序列有一定長度的要求。因此,本研究統(tǒng)計了簡單重復(fù)序列兩側(cè)的側(cè)翼序列不低于30bp的微衛(wèi)星位點,統(tǒng)計表明長牡蠣有1 954個簡單重復(fù)序列位點符合要求,這些位點是微衛(wèi)星標記開發(fā)的候選。

圖2 長牡蠣HindIII 衛(wèi)星序列的多序列比對Fig.2 Alignment of multiple HindIII satellites in Pacific oyster

2.3 長牡蠣cDNA 5’UTR,3’UTR和編碼區(qū)CDS SSR分析

對挑選的含有5’UTR,3’UTR以及完整的編碼區(qū)的80條長牡蠣序列分析發(fā)現(xiàn)UTR區(qū)域SSR長度所占的比例(0.005和 0.0026)遠遠大于 CDS區(qū)域 SSR所占的比例(0.0011)(表2)。因為5’UTR序列總長度相對較少,SSR 重復(fù)單元數(shù)目的關(guān)系為:5’UTR <CDS < 3’UTR,分別為 19,32.9 和 64.3。此外,cDNA的位置對簡單串聯(lián)重復(fù)序列的重復(fù)類型具有選擇性。5’UTR區(qū)域只含有單堿基重復(fù)單元,CDS區(qū)域只含有三堿基倍數(shù)重復(fù)單元(三堿基/六堿基),3’UTR所含的重復(fù)單元類型較為豐富,含有單堿基,二堿基和五堿基重復(fù)單元。

3 討論

3.1 長牡蠣EST中串聯(lián)重復(fù)序列類型豐富,162~167bp類型含量高

從NCBI上下載的長牡蠣的EST序列中含有豐富的串聯(lián)重復(fù)序列類型。覆蓋從 1~436bp重復(fù)類型的 152種。對長牡蠣 100bp的重復(fù)類型中 162~167范圍的峰值的分析表明,14個重復(fù)序列中有5個與長牡蠣的HindIII衛(wèi)星序列具有高的相似度。南極貝(Adamussium colbecki)中曾報道了一個170bp重復(fù)單元的衛(wèi)星序列,占基因組序列的 0.2%[13]。該衛(wèi)星序列之后又被證明在牡蠣中具有中間的保守性,與哺乳動物的CENP-B box具有保守性,并被用來做牡蠣物種分類的標記[14]。

3.2 長牡蠣SSR分布廣泛,1 594個候選位點

在簡單重復(fù)序列中,從單堿基重復(fù)到六堿基重復(fù)均覆蓋大多數(shù)重復(fù)序列類型。不同的簡單重復(fù)序列類型的拷貝數(shù)目有很大差異。在二堿基重復(fù)中,AG的重復(fù)序列數(shù)目高達221,AT和AC均不超過50,GC最少為0,這與前人的報道相一致[8,15-16]。在三堿基重復(fù)序列中,ATC重復(fù)序列數(shù)目最多為73次,其次為AAC,AAT,AAG,AGG,其他的類型重復(fù)次數(shù)均小于15次,這與之前在櫛孔扇貝中的報道類似[15]。在四、五、六堿基重復(fù)序列中,我們發(fā)現(xiàn)第二高AT百分比的重復(fù)序列類型擁有更高的重復(fù)序列數(shù)目,這與家蠶中的報道相一致[9]。從引物設(shè)計的角度考慮,

有1 594個位點為微衛(wèi)星標記開發(fā)的候選位點,該結(jié)果為進一步開發(fā)長牡蠣EST-SSR標記奠定了基礎(chǔ)。

表1 長牡蠣EST微衛(wèi)星重復(fù)序列的數(shù)目、長度和拷貝數(shù)特征Tab.1 The number,length,and copy number of SSR in the Pacific Oyster EST

表2 長牡蠣EST簡單重復(fù)序列5’UTR,3’UTR和CDS特征Tab.2 The distributions of 5’UTR,3’UTR and CDS of SSR in the Pacific Oyster EST

3.3 長牡蠣EST的CDS區(qū)承受更大的選擇壓力

CDS區(qū)域簡單串聯(lián)重復(fù)序列相對較少,這與編碼區(qū)受到的選擇壓力大于UTR區(qū)域有關(guān),而編碼區(qū)的重復(fù)序列類型為三堿基和六堿基,這兩種堿基類型均為編碼氨基酸的密碼子數(shù)目3的倍數(shù),這更說明了非3倍數(shù)的簡單重復(fù)序列對編碼區(qū)具有破壞作用,而自然選擇將這部分破壞的簡單重復(fù)序列淘汰了,這與水稻中的報道相一致[17]。在本研究中,編碼區(qū)三堿基重復(fù)序列的類型為ACA,GAA和GAT重復(fù),推測該三種重復(fù)類型可能與串聯(lián)重復(fù)數(shù)目具有一定聯(lián)系,其進一步研究可能需要使用更多的全長cDNA才能得出更明確的結(jié)論。

[1]Cunningham C,Hikima J,Jenny M J,et al.New resources for marine genomics:bacterial artificial chromosome libraries for the Eastern and Pacific oysters (Crassostrea virginicaandC.gigas)[J].Mar Biotechnol (NY),2006, 8(5):521-533.

[2]Hubert S,Hedgecock D.Linkage maps of microsatellite DNA markers for the Pacific oysterCrassostrea gigas[J].Genetics,2004, 168(1):351-362.

[3]Fleury E,Huvet A,Lelong C,et al.Generation and analysis of a 29,745 unique Expressed Sequence Tags from the Pacific oyster (Crassostrea gigas) assembled into a publicly accessible database:the Gigas Database[J].Bmc Genomics,2009, 10:341.

[4]Hedgecock D,Lin J Z,DeCola S,et al.Transcriptomic analysis of growth heterosis in larval Pacific oysters(Crassostrea gigas)[J].Proc Natl Acad Sci U S A,2007,104(7):2313-2318.

[5]Wang Y,Guo X.Development and characterization of EST-SSR markers in the eastern oysterCrassostrea virginica[J].Mar Biotechnol (NY),2007, 9(4):500-511.

[6]Wang Y,Ren R,Yu Z.Bioinformatic mining of EST-SSR loci in the Pacific oyster,Crassostrea gigas[J].Anim Genet,2008, 39(3):287-289.

[7]Richard G F,Kerrest A,Dujon B.Comparative genomics and molecular dynamics of DNA repeats in eukaryotes[J].Microbiol Mol Biol Rev,2008, 72(4):686-727.

[8]Toth G,Gaspari Z,Jurka J.Microsatellites in different eukaryotic genomes:survey and analysis[J].Genome Res,2000, 10(7):967-981.

[9]Prasad M D,Muthulakshmi M,Madhu M, et al.Survey and analysis of microsatellites in the silkworm,Bombyx mori:frequency,distribution,mutations,marker potential and their conservation in heterologous species[J].Genetics,2005, 169(1):197-214.

[10]Subramanian S,Mishra R K, Singh L.Genome-wide analysis of microsatellite repeats in humans:their abundance and density in specific genomic regions[J].Genome Biol,2003, 4(2):R13.

[11]Huang X Q,Madan A.CAP3:A DNA sequence assembly program[J].Genome Research,1999, 9(9):868-877.

[12]Benson G.Tandem repeats finder:a program to analyze DNA sequences[J].Nucleic Acids Res,1999, 27(2):573-580.

[13]Canapa A,Barucca M,Cerioni P N,et al.A satellite DNA containing CENP-B box-like motifs is present in the antarctic scallopAdamussium colbecki[J].Gene,2000, 247(1-2):175-180.

[14]Lopez-Flores I,de la Herran R,Garrido-Ramos M A,et al.The molecular phylogeny of oysters based on a satellite DNA related to transposons[J].Gene,2004,339:181-188.

[15]Zhang L,Chen C,Cheng J,et al.Initial analysis of tandemly repetitive sequences in the genome of Zhikong scallop (Chlamys farreriJones et Preston)[J].DNA Seq,2008, 19(3):195-205.

[16]Li Y C,Korol A B,Fahima T,et al.Microsatellites:genomic distribution,putative functions and mutational mechanisms:a review[J].Mol Ecol,2002, 11(12):2453-2465.

[17]Zhang Z and Xue Q.Tri-nucleotide repeats and their association with genes in rice genome[J].Biosystems,2005, 82(3):248-256.

猜你喜歡
拷貝數(shù)堿基牡蠣
告別自汗用牡蠣,四季都輕松
線粒體DNA拷貝數(shù)變異機制及疾病預(yù)測價值分析
應(yīng)用思維進階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
中國科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
胎兒染色體組拷貝數(shù)變異與產(chǎn)前超聲異常的相關(guān)性分析
生命“字母表”迎來4名新成員
生命“字母表”迎來4名新成員
HBV相關(guān)性肝細胞癌組織及癌旁組織PDCD1基因拷貝數(shù)差異分析
曇石山文化的牡蠣器
《如何煮狼》:煮狼的女人愛牡蠣