高通量測(cè)序中拼接問題的研究現(xiàn)狀

2016-04-13 11:26:12徐鵬昊

山東農(nóng)業(yè)工程學(xué)院學(xué)報(bào) 2016年1期

關(guān)鍵詞：高通量光學(xué)圖譜

徐鵬昊

（復(fù)旦大學(xué)生命科學(xué)學(xué)院，上海200433）

高通量測(cè)序中拼接問題的研究現(xiàn)狀

徐鵬昊

（復(fù)旦大學(xué)生命科學(xué)學(xué)院，上海200433）

近年來，隨著第二代測(cè)序技術(shù)的普及和第三代測(cè)序技術(shù)的逐步發(fā)展，高通量測(cè)序技術(shù)在實(shí)際研究中的應(yīng)用越來越廣泛。高速率、高性價(jià)比是其主要優(yōu)點(diǎn)。相對(duì)于傳統(tǒng)的桑格（Sanger）法測(cè)序來言，高通量測(cè)序得到的片段長(zhǎng)度較為短小，故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結(jié)了現(xiàn)階段高通量測(cè)序中拼接問題的研究結(jié)果，針對(duì)現(xiàn)在流行的各種算法進(jìn)行了簡(jiǎn)單介紹。

高通量測(cè)序；reads拼接；contigs組裝；OLC、De brujin圖

一、測(cè)序技術(shù)的發(fā)展過程和現(xiàn)狀［1］

（一）桑格法

桑格法又叫做雙脫氧鏈終止法，由Sanger在1977年提出。通過加入帶有放射標(biāo)記的ddNTP（雙脫氧核苷酸）使DNA合成終止。再通過電泳，并使用放射自顯影技術(shù)讀出堿基。此方法得到的片段較長(zhǎng)，能達(dá)到1000bp左右。

（二）第二代測(cè)序技術(shù)

隨著科學(xué)技術(shù)的發(fā)展，傳統(tǒng)的桑格法已經(jīng)不能滿足研究的需要?？茖W(xué)家們需要更快的速度、更高的通量以及更低廉的價(jià)格，于是第二代測(cè)序技術(shù)應(yīng)運(yùn)而生。其核心思想是邊合成邊測(cè)序。現(xiàn)在主要有454 GS FLX、SOLiD和Illumina/Solexa Genome Analyzer三個(gè)平臺(tái)。第二代測(cè)序是現(xiàn)階段測(cè)序技術(shù)的主流，也是高通量測(cè)序的開始。

（三）第三代測(cè)序技術(shù)

第三代測(cè)序技術(shù)是指單分子測(cè)序技術(shù)。不需要經(jīng)過PCR的過程即可測(cè)序，速度可以達(dá)到每秒十個(gè)堿基。通量更大，讀長(zhǎng)更短，是現(xiàn)階段測(cè)序技術(shù)的發(fā)展方向。

二、高通量測(cè)序中的拼接工作

（一）高通量測(cè)序所得片段的特點(diǎn)

高通量測(cè)序之后所得到的序列片段稱為reads（讀?。渲饕攸c(diǎn)兩點(diǎn)。一是長(zhǎng)度短，一般在200bp以下，最長(zhǎng)的454平臺(tái)能達(dá)到的長(zhǎng)度也不過1000bp，因此需要進(jìn)行大量的拼接才能得到整條DNA序列。二是有部分重疊，由于測(cè)序位置具有隨機(jī)性，故各reads總會(huì)有一定的重疊，這些重疊是拼接工作的關(guān)鍵。

（二）拼接過程

整個(gè)拼接過程分為兩步。第一步，考察reads的重復(fù)序列，并拼接成更長(zhǎng)的片段，稱為contigs（重疊群），這一步稱為reads的拼接；第二步，確定contigs之間的順序關(guān)系，并按此排列，形成稱為scaffolds的序列，這一步叫做contigs的組裝。

三、Reads的拼接

（一）拼接過程的難點(diǎn)

reads拼接過程中要克服的難點(diǎn)主要有兩點(diǎn)，一是高通量測(cè)序得到的reads長(zhǎng)度較短，故內(nèi)含信息較少，不易確認(rèn)相對(duì)順序。二是遠(yuǎn)程連接信息（Long-range linking information）的不可靠性。2這兩點(diǎn)制約著reads拼接過程的準(zhǔn)確率。

（二）方法［3］

reads拼接過程中算法的基本要求是de novo（從頭測(cè)序），即不需要任何序列信息即可對(duì)原料進(jìn)行測(cè)序。由此衍生出兩種主流的算法：

1.OLC

OLC，即交疊-排列-共有序列算法（Overlaplayout-consensus），是一個(gè)比較傳統(tǒng)的算法，其基本思想為根據(jù)reads間的重復(fù)部分，確定可能性的reads連接順序。

其步驟為：構(gòu)建交疊圖：對(duì)每?jī)蓚€(gè)reads進(jìn)行比對(duì)，計(jì)算它們的重疊度——排列reads：將reads進(jìn)行排列，確定它們之間的相對(duì)位置，建立overlap圖——生成共有序列：通過多序列比對(duì)等方法，確立最后的contig。

OLC算法的計(jì)算量主要體現(xiàn)在交疊圖的構(gòu)建，而高通量測(cè)序得到的海量短序列有大量的交疊，往往需要大量的運(yùn)算時(shí)間。故OLC算法并不適合現(xiàn)在高通量測(cè)序的發(fā)展趨勢(shì)?，F(xiàn)在某些拼接軟件，如Shorty、CABOG等仍在使用基于此的算法。雖然這些軟件針對(duì)OLC算法有一定的改進(jìn)和優(yōu)化，但其拼接速度和準(zhǔn)確性仍受到限制。

2.De brujin圖

基于De brujin圖（DBG）的算法是現(xiàn)在最流行的算法，許多常用的拼接軟件如Velvet、ABySS等都在使用這種算法。其特點(diǎn)為把基因序列的拼接問題轉(zhuǎn)化為了數(shù)學(xué)上的圖論問題，大大提高了拼接效率。

（1）基本思想

reads中連續(xù)的 k個(gè)堿基稱為 k-mer，作為DBG的節(jié)點(diǎn)，兩個(gè)k-mer如果在同一read中相鄰，則形成一條邊。故每個(gè)read都會(huì)對(duì)一些邊加權(quán)，最后形成一個(gè)含有節(jié)點(diǎn)、有權(quán)值的邊的DBG，由此生成最佳的contig。

（2）步驟

篩選reads：對(duì)reads進(jìn)行檢測(cè)，去除掉可能錯(cuò)誤的reads——確定k值：k的值直接影響速度和精度。K值較大時(shí)，精度有所提高，但更容易受覆蓋率的影響。故應(yīng)該根據(jù)覆蓋率、reads長(zhǎng)度等確定合適的k值——處理DBG：根據(jù)確定的k值，做出DBG，同時(shí)完成化簡(jiǎn)和修正——根據(jù)DBG，拼接成contig。

（3）優(yōu)缺點(diǎn)

DBG算法在處理海量短reads的時(shí)候效果優(yōu)秀，與現(xiàn)在測(cè)序技術(shù)的發(fā)展趨勢(shì)相匹配。然而，由于k-mer的長(zhǎng)度較短，此方法受重復(fù)序列、測(cè)序錯(cuò)誤的影響較大。

（三）不同拼接軟件的效果差異

不同的拼接軟件在reads拼接過程中表現(xiàn)為三點(diǎn)：一是比起軟件來說，reads質(zhì)量對(duì)拼接結(jié)果影響更大；二是與標(biāo)準(zhǔn)序列的接近度隨reads和拼接軟件的不同有很大改變；三是各軟件拼接的正確率差別很大，但與接近度的結(jié)果不一致。

四、Contigs的組裝

與reads的拼接相比，contigs的組裝的難度相對(duì)較小。這是因?yàn)閏ontigs的長(zhǎng)度較reads長(zhǎng)很多，所含信息較多。故可以較為準(zhǔn)確的組裝成scaffold

（一）組裝過程的難點(diǎn)［4］

Contigs組裝過程中的難點(diǎn)主要有二。一是contigs中含有大量的重復(fù)序列，不易確定contigs之間的相對(duì)順序；二是由于contigs由reads拼接而成，其中不免會(huì)有一些錯(cuò)誤，這些錯(cuò)誤也會(huì)對(duì)contigs的組裝產(chǎn)生干擾。

（二）方法

Contigs組裝的方法較reads拼接而言較多，一般常用的有圖論法和光學(xué)圖譜法（Optical mapping）兩種。

1.圖論法［5］

圖論法是比較傳統(tǒng)的方法，與reads拼接有相似的地方。它以contigs作為節(jié)點(diǎn)，由相連的讀取對(duì)（Linking reads pair）作為邊，由此形成算圖。

其一般步驟為：庫的構(gòu)建：構(gòu)建出含有所有reads的庫——計(jì)算相連讀取對(duì)之間的距離，并由此計(jì)算gap的長(zhǎng)度——把長(zhǎng)度放在邊上，作為算圖的數(shù)據(jù)。

其理想的輸出結(jié)果是一條scaffold序列，對(duì)應(yīng)一條染色體，包含以正確順序排列的contigs和contigs之間gap的長(zhǎng)度。

2.光學(xué)圖譜法［6］

光學(xué)圖譜法是一種較為新穎的方法。通過內(nèi)切酶將DNA切斷，此時(shí)DNA片段的譜表現(xiàn)出一種特殊的指紋或是識(shí)別碼的性質(zhì)。利用光學(xué)方法追蹤此信息得到相對(duì)位置，由此組裝成正確的scaffold。

主要步驟為：將 contigs放置在光學(xué)圖譜上——修正光學(xué)圖譜——做出contigs的連接圖，由此決定最佳的contigs連接順序。

光學(xué)圖譜法的組裝結(jié)果有著很高的覆蓋率，巧妙運(yùn)用光學(xué)圖譜法可以獲得很高的成本效益。

有研究表明，當(dāng)與454平臺(tái)獲得的實(shí)驗(yàn)結(jié)果相結(jié)合的時(shí)候，光學(xué)圖譜法可以迅速、價(jià)廉的得到排列好的定向的contigs組，由此可以產(chǎn)生一個(gè)將近完整的基因組。

（三）發(fā)展方向

Contigs組裝過程的關(guān)鍵點(diǎn)在于如何得到正確的連接順序?，F(xiàn)階段此方面研究多集中在這一方向。

五、前景與展望

隨著生物學(xué)研究向微觀、向基因領(lǐng)域逐步延伸，高通量測(cè)序作為獲得基因序列的主要方法，越來越受到重視，拼接技術(shù)也在不斷發(fā)展。高通量測(cè)序的基因片段會(huì)變得海量且短小，應(yīng)對(duì)此變化，拼接技術(shù)也會(huì)由確定“唯一的基因序列”向確定“最可能的基因序列”完成轉(zhuǎn)變。因此，新一代的拼接技術(shù)會(huì)在準(zhǔn)確率、覆蓋率和速度上，作出超于現(xiàn)在拼接技術(shù)的改進(jìn)。

［1］Anderson MW，Schrijver I.Next Generation DNA Sequencing and the Future of Genomic Medicine.？Genes. 2010；1（1）：38-69.doi：10.3390/genes1010038.

［2］Salzberg SL，Phillippy AM，Zimin A，et al.GAGE：A critical evaluation of genome assemblies and assembly algorithms.Genome Research.2012；22（3）：557-567.doi：10.1101/gr.131383.111.

［3］Deng X，Naccache SN，Ng T，et al.An ensemble strategy that significantly improves de novo assembly of microbial genomes from metagenomic next-generation sequencing data.Nucleic Acids Research.2015；43（7）：e46.doi：10.1093/ nar/gkv002.

［4］Latreille P，Norton S，Goldman BS，et al.Optical mapping as a routine tool for bacterial genome sequence finishing.BMC Genomics.2007；8：321.doi：10.1186/1471-2164-8-321.

［5］HuntM，NewboldC，BerrimanM，OttoTD.A comprehensive evaluation of assembly scaffolding tools. Genome Biology.2014；15（3）：R42.doi：10.1186/gb-2014-15-3-r42.

［6］NagarajanN，ReadTD，PopM.Scaffoldingand validation of bacterial genome assemblies using optical restriction maps.Bioinformatics.2008；24（10）：1229-1235. doi：10.1093/bioinformatics/btn102.

編輯：馮惟榘

The Recent Research Progress Af High-throughput Sequencing's ASsembling

XU Penghao
（School of Life Sciences Fudan University，Shanghai 200433）

In recent years，with the popularization and gradual development of the second-genaration sequencing technique，High-throughput Sequencing has been widely applied in the practical studies.Its main advantages are the high speed and cost-effectiveness.Relative to the traditional Sanger method，the High-throughput Sequencing's fragment length is fairly shorter.Therefore，how to assemble the fragments into a complete sequence has always been an attracting study field.This paper summarized the research findings of High-throughput Sequencing's assembling part at this stage，and briefly introduced the various popular algorithms.

High-throughput Sequencing；Reads Assembling；Contigs Assembling；OLC，De Brujin Graph

F326

2095-7327（2016）-01-0042-03

徐鵬昊，男，山東濟(jì)南人，復(fù)旦大學(xué)生命科學(xué)學(xué)院，主要研究方向?yàn)樯锛夹g(shù)、生物信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

高通量測(cè)序中拼接問題的研究現(xiàn)狀

一、測(cè)序技術(shù)的發(fā)展過程和現(xiàn)狀［1］

二、高通量測(cè)序中的拼接工作

三、Reads的拼接

四、Contigs的組裝

五、前景與展望

三、Reads的拼接

四、Contigs的組裝

五、前景與展望