基于EST序列的煙草cSNP發(fā)掘

2012-01-17 05:36:52龔達平李鳳霞王衛(wèi)鋒劉貫山孫玉合

中國煙草科學(xué) 2012年6期

龔達平，王魯，李鳳霞，王衛(wèi)鋒，劉貫山，孫玉合

（農(nóng)業(yè)部煙草類作物質(zhì)量控制重點開放實驗室，中國農(nóng)業(yè)科學(xué)院煙草研究所，青島 266101）

單核苷酸多態(tài)性（single nucleotide polymerphisms，SNP）主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。SNP在基因組中遺傳穩(wěn)定、分布廣泛、多態(tài)性高、易實現(xiàn)自動化檢測，被認為是最具應(yīng)用潛力的第三代分子標(biāo)記。除在遺傳分析以及作物分子標(biāo)記輔助育種中有著廣闊的應(yīng)用前景外，其在構(gòu)建高密度遺傳圖譜，整合物理圖譜，復(fù)雜遺傳性狀以及基因組進化研究等方面有著重要的應(yīng)用價值[1-3]。

近幾年來，新型大規(guī)模、高通量SNP發(fā)掘方法不斷涌現(xiàn)。如DNA列陣微測序法、動態(tài)等位基因特異雜交法、寡聚核苷酸特異連接法、DNA芯片以及基質(zhì)輔助激光解析電離飛行時間法等。特別是以邊合成（或連接）邊測序為特征的新一代測序技術(shù)的出現(xiàn)，如 Roche （454）GSFLX sequencer、Illumina genome analyzer (Solexa)、Applied Biosystems SOLiD sequencer、HeliScope Sequencer等[4]，使基因組學(xué)和功能基因組學(xué)進入了一個低成本、大規(guī)模、高通量測序的時代。但是，普通煙草(N.tabacum)為異源四倍體（TTSS），基因組龐大，重復(fù)序列高，且T、S染色體組間存在很高的同源性。因此對煙草全基因組進行測序和組裝是一項非常艱巨的工作。美國北卡州立大學(xué)僅對普通煙草基因組的基因富集區(qū)進行了測序。傳統(tǒng)分子標(biāo)記的開發(fā)耗時費力，而目前在公共數(shù)據(jù)庫 GenBank中存儲了超過30萬條來源于不同品種的普通煙草EST序列，這為我們進行基于 EST數(shù)據(jù)的高度冗余性來發(fā)掘SNP提供了豐富的數(shù)據(jù)資源。特別是編碼區(qū) SNP（coding SNP，cSNP）位于外顯子內(nèi)，有可能與基因功能直接相關(guān)，因此它們在煙草的重要性狀研究中具有重大的應(yīng)用價值[5-6]。

目前煙草基因組及SNP發(fā)掘才剛剛開始。煙草SNP研究大多集中于對單個基因的SNP分析上，只有歐洲煙草EST測序項目在開展普通煙草EST測序工作中發(fā)掘了 74 SNPs和 38 InDels(www.ESTobacco.info)。本研究中，我們利用公共數(shù)據(jù)庫中的EST序列，在無需序列質(zhì)量文件的條件下保守的挖掘cSNP，并對這些cSNP位點的可信度進行評估。

1 材料與方法

2 結(jié) 果

2.1 序列組裝

從GenBank中共檢索到煙草EST 317 175條。這些序列所產(chǎn)生的cDNA文庫來源的品種和組織器官以及發(fā)育時期如表1。共組裝成35 504個contig和109 550個singleton（表2）。包含至少4個讀長的contig共計15 429個。

表1 煙草EST數(shù)據(jù)來源的材料和組織Table 1 Cultivar and tissue of tobacco EST data

2.2 鑒定候選SNP

在包含至少4個以上reads的15 429個重疊群中，有7088個重疊群包含了冗余度為2以上的候選SNP共53 477個。不同大小的重疊群中包含候選 SNP的重疊群占該大小重疊群總數(shù)的比例如圖1。圖中只列出了重疊群大小為25個reads以下的分布。整體上隨著contig所包含reads數(shù)量的增加，包含SNP的contig占該大小重疊群總數(shù)的比例也迅速增加。如4個reads的重疊群中包含SNP的重疊群占 13.2%，當(dāng)讀長數(shù)目增加到 13時，比例達到80%，而24個reads以上的重疊群中則達到94%以上，44個以上reads的重疊群全部包含SNP。

如圖2，所檢測到的42 420個候選SNP，其豐度也是隨重疊群的增大而增加。SNP的分值也隨著比對序列數(shù)目的增加而增加。平均300 bp的序列長度出現(xiàn)一個SNP位點。

表2 煙草EST數(shù)據(jù)不同大小重疊群的數(shù)量分布Table 2 Contigs profile of tobacco EST data

圖1 不同大小的重疊群中包含候選SNP的重疊群比例Fig.1 Abundance of tobacco EST contigs containing candidate SNPs in relation to contig size.

圖2 不同大小重疊群包含SNP的豐度Fig.2 Abundance of candidate SNPs identified within contigs in relation to contig size for tobacco EST data

2.3 堿基變化分析

由表3可見，候選的SNP歸類為轉(zhuǎn)換（C/T或G/A）或顛換（C/G，A/T，C/A 或 T/G）。轉(zhuǎn)換為26 582個，顛換為15 838個，轉(zhuǎn)換所占的比例比顛換要大。SNP的高頻轉(zhuǎn)換在其他研究中也有發(fā)現(xiàn)，反映了甲基化后C/T的高頻突變。

2.4 插入/刪除分析

試驗中鑒定了冗余值大于2的插入/刪除(Indels)10 057個。不同長度的Indels的分步頻率如表4。表4可見Indel頻率隨著長度的增加而降低。不管是單個還是多個堿基的 Indel，都表現(xiàn)出 A/T偏好（表5）。

2.5 單體型分析

除了SNP冗余度分值外，另一個SNP可信度的評價標(biāo)準(zhǔn)是通過基于對 SNP位點模式的共分離計算得到的。序列間的SNP代表了兩個基因（旁系同源或直系同源）間的分化，被期望是共分離的，而在多位點上定義一個單倍型可以在一定程度上避免測序錯誤的隨機發(fā)生。如表6和表7所示，在該重疊群中共鑒定7個候選SNP構(gòu)成單體型，6個SNP位點冗余度為5，并具有較高的共分離分值和加權(quán)共分離分值，說明這些SNP位點具有較高的可信度。

比較序列來源的品種信息可以鑒定預(yù)測直系同源基因（表6）。通過隨機檢測100個單體型可以觀察到近一半的單體型在同品系中的分離表明在單個品系中多基因的表達。尤其是在重疊群的數(shù)量和SNP的數(shù)量均比較多的情況下，這些SNP最有可能是來源于普通煙草T和S兩個基因組中相似度極高的同源基因。

表3 煙草候選SNP的替換頻率Table 3 Nucleotide substitution frequencies for candidate SNPs identified in tobacco EST data

表4 候選Indel數(shù)量分布Table 4 Prevalence of candidate indels identified in tobacco EST data

表5 單個和2個堿基插入刪除頻率Table 5 The frequency of single and dinucleotide indel sequences predicted from the alignment of tobacco EST sequences

表6 重疊群包含的reads的文庫和品種信息Table 6 The contig contained the sequences with ID, name and line derived from the Genbank annotation.

3 討論

SNP是一種可用作分子遺傳分析的新型分子標(biāo)記。同其他分子標(biāo)記一樣，其開發(fā)雖然可以自動化、規(guī)?；?，但也很昂貴費力。而通過挖掘序列數(shù)據(jù)資源得到豐富的SNP是最為廉價的方法。通過篩選高質(zhì)量的測序數(shù)據(jù)來發(fā)現(xiàn)具有生物學(xué)相關(guān)的SNP，不可避免地受到測序錯誤的干擾。以前主要依賴測序數(shù)據(jù)的質(zhì)量文件來過濾 SNP，低質(zhì)量的SNP位點可能是測序錯誤，而非真正的SNP位點。公共數(shù)據(jù)庫中的高冗余數(shù)據(jù)往往缺乏質(zhì)量文件。EST數(shù)據(jù)的冗余性允許對SNP位點的發(fā)生頻率，即冗余分值，進行評估。通過檢測SNP的分值大于2或更大，可以排除大多數(shù)的測序錯誤。雖然遺漏了一些只出現(xiàn)過一次的真實SNP，但數(shù)據(jù)的高冗余度允許我們從各種不同來源的數(shù)據(jù)中快速鑒定大量的SNP[9-10]。

應(yīng)用這種方法我們挖掘了煙草EST數(shù)據(jù)中的SNP。目前煙草的EST數(shù)據(jù)超過30萬條，通過嚴(yán)格的參數(shù)限制移除了54%包含少于4個讀長的重疊群。大量包含4個以上讀長重疊群保證了冗余度，增加了 SNP的可信度。從結(jié)果中可以看出，包含SNP的重疊群的比例和每個重疊群中 SNP的數(shù)目都隨著數(shù)據(jù)量增大而增加。這里我們鑒定了42 420個候選的普通煙草SNP，這仍只是煙草遺傳變異的一小部分。

表7 重疊群中SNP統(tǒng)計Table 7 SNP summary in the contig

采用冗余度排除測序錯誤是有效的，但非隨機的測序錯誤也會造成兩次相同的序列錯誤。為了區(qū)分這些序列錯誤，需要進一步的SNP可信度衡量標(biāo)準(zhǔn)。代表兩個同源基因分化的SNP會共分離形成單體型?；谝粋€比對中多個SNP位點的SNP模式的頻率的共分離分值，允許鑒定非共分離的SNP。通過對SNP位點的數(shù)量和缺失數(shù)據(jù)的加權(quán)，能比較比對間的共分離分值。SNP分值和共分離分值一起提供評價SNP真實性的準(zhǔn)確度，那些高冗余分值和共分離分值的SNP可能代表了真實的SNP位點。

SNP可以區(qū)分同一基因組中的復(fù)制基因（旁系同源基因）或不同品種中的直系同源基因。來自同一個品系的序列中的SNP，他們一定是由于基因復(fù)制和旁系同源基因的表達。通過隨機檢查100個單體型的分析表明，來自同一品種的多個基因間的SNP比例達到一半，這反映了普通煙草異源四倍體的起源，并且兩個基因組高度同源。估計兩個基因組間的相似程度是避免全基因組測序組裝錯誤所必要的。因此，大量的SNP來區(qū)分煙草中的旁系同源基因有助于基因組序列的組裝。

4 結(jié) 論

基于煙草EST數(shù)據(jù)的高度冗余性，317 175條普通煙草EST序列拼接成35 504個contig和109 550個singleton。其中，包含至少4個讀長的contig共計15 429個，說明公共數(shù)據(jù)庫中煙草EST數(shù)據(jù)足夠開發(fā)大量的SNP標(biāo)記。共鑒定出53 477個冗余度大于2的候選SNP，煙草中平均300 bp出現(xiàn)一個SNP位點。其中，SNP的轉(zhuǎn)換率大于顛換，插入/刪除表現(xiàn)出A/T偏好。結(jié)合SNP位點的冗余度和共分離分值來評價其可信度，保證了所獲得的SNP位點具有較高的可信度。這些高質(zhì)量SNP標(biāo)記的發(fā)掘為進一步的煙草功能基因研究和分子育種奠定了基礎(chǔ)。

[1]Gupta P K, Roy J K, Prasad M.Single nucleotide polymorphisms: a new paradigm for molecular marker technology and DNA polymorphism detection with emphasis on their use in plants[J].Curr Sci., 2001, 80:524-535.

[2]Rafalski A. Applications of single nucleotide polymorphisms in crop genetics[J].Curr Opin Plant Biol.,2002, 5(2): 94-100.

[3]Syvanen A C. Genotyping single nucleotide polymorphisms[J].Nat Rev Genet., 2001, 2(12):930-942.

[4]Voelkerding K V, Dames S A, Durtschi J D.Next Generation Sequencing: From Basic Research to Diagnostics[J].Clin Chem., 2009, 55(4):641-658..

[5]Picoult N L, Ideker T E, Pohl M G, et al.Mining SNPs from EST databases[J].Genome Res, 1999, 9(2):167-174.

[6]Lein W, Usadel B, Stitt M, et al.Large scale phenotyping of transgenic tobacco plants (Nicotiana tabacum) to identify essential leaf functions[J].Plant Biotechnol J.,2008, 6(3): 246-263.

[7]Huang X, Madan A.CAP3: A DNA Sequence Assembly Program[J].Genome Research, 1999, 9(9): 868-877.

[8]Barker G, Batley J, O’ Sullivan, et al.Redundancy based detection of sequence polymorphisms in expressed sequence tag data using autoSNP[J].Bioinformatics,2003, 19 (3): 421-422.

[9]Batley J, Barker G, O'Sullivan H, et al.Mining for Single Nucleotide Polymorphisms and Insertions/Deletions in Maize Expressed Sequence Tag Data[J].Plant Physiology, 2003, 132(1): 84-91.

[10]毛新國，湯繼鳳，周榮華，等．基于全長 cDNA序列的小麥 cSNP發(fā)掘[J]．作物學(xué)報，2006，32（12）：1836-1840.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡