林勇
摘? 要: 拷貝數(shù)變異與多種復雜疾病密切相關(guān),具有重要的研究意義。本文利用基于測序數(shù)據(jù)的拷貝數(shù)變異檢測過程中丟棄的不匹配讀數(shù)據(jù),采用裂讀法和單端匹配法對已有檢測算法的結(jié)果進行過濾優(yōu)化。模擬和實驗數(shù)據(jù)檢測結(jié)果表明,本文方法優(yōu)化后能得到了更高的檢測性能。
關(guān)鍵詞: 拷貝數(shù)變異檢測;算法優(yōu)化;裂讀法; 配對末端讀數(shù)
【Abstract】: Copy number variation is closely related to many complex diseases and has important research significance. In this paper, the mismatched read data discarded in the process of copy number variation detection based on sequencing data were used to filter and optimize the results of existing detection algorithms by split reading method and one end matching method. The detection results of simulation and experimental data showed that the proposed method can achieve higher detection performance after optimization.
【Key words】: Copy number variant detection; Algorithm optimization; Split read; Paired-end read
0? 引言
拷貝數(shù)變異(Copy Number Variation, CNV)是大小超過1 kb的亞顯微突變,表現(xiàn)為DNA片段缺失或重復,重復又分為散落重復和串聯(lián)重復??截悢?shù)變異廣泛地存在于人類基因組上[1],雖然拷貝數(shù)變異的頻率較低,但累積的堿基數(shù)量卻大大超過單核苷酸多態(tài)[2-4]。許多研究證明了拷貝數(shù)變異與包括乳腺癌、孤獨癥、肥胖和骨質(zhì)疏松癥等多種疾病相關(guān)[5-8]。隨著下一代測序技術(shù)(Next-Generation Sequencing, NGS)的出現(xiàn)和發(fā)展,拷貝數(shù)變異檢測也出現(xiàn)了全新的方法,下一代測序技術(shù)能夠檢測DNA序列上堿基量級的序列信息,通過對測序數(shù)據(jù)進行分析和檢測,拷貝數(shù)變異長度、位置等信息就的可能檢測獲得?,F(xiàn)有的基于測序數(shù)據(jù)的拷貝數(shù)變異檢測方法主要是基于讀深度法(Read-Depth Method),它的基本原理是基于拷貝數(shù)的變化將引起測序數(shù)據(jù)匹配區(qū)域的讀數(shù)據(jù)累計量會出現(xiàn)顯著地增加或減少。如圖1所示。目前,研究人員已經(jīng)開發(fā)了許多基于度深度法的檢測工具,比如:CNV-seq[9],ReadDepth[10],CONTRA[11]和CNVnator[12]。
目前常規(guī)方法檢測過程中,首先將讀數(shù)據(jù)與 參考序列進行比對,由于讀數(shù)據(jù)存在少量的測序錯誤以及序列上的SNP問題,比對時允許少量堿基的錯配,當大于錯配閾值時,讀數(shù)據(jù)將被丟棄。實際上這些被丟棄的讀數(shù)據(jù)并不都是“垃圾數(shù)據(jù)”,本文對讀數(shù)據(jù)匹配不成功的成因進行過分析,加以分類,記錄裂讀匹配(Split Read Match,SRM)和單端匹配(One End Match,OEM)的數(shù)據(jù),對匹配位置進行聚類后對拷貝數(shù)檢測的初步結(jié)果進行? 篩選,從而得到更精確的檢測結(jié)果,從而提高檢測性能。
1? 基于OEM和SRM的拷貝數(shù)變異檢測優(yōu)化
本文檢測拷貝數(shù)變異的整體流程如圖2所示,該方法僅針對末端配對(Paired-End)的Read數(shù)據(jù)進行CNV檢測,目前通用的測序儀產(chǎn)生的Read以Paired-End數(shù)據(jù)為主,因此本文算法適用范圍較廣。首先對原始Read數(shù)據(jù)進行質(zhì)控,過濾掉Q值低于20的Read,然后將質(zhì)控結(jié)束后得到的read數(shù)據(jù)與參考序列進行比對,本文采用的比對工具為BWA[13],比對得到的數(shù)據(jù)通過samtools轉(zhuǎn)換成SAM文件,便于分析比對結(jié)果。比對得到的結(jié)果分為兩部分:
(1)匹配成功的Read數(shù)據(jù)用于初步的拷貝數(shù)變異檢測,本文采用的拷貝數(shù)檢測工具為CNVnator[14],CNVnator通過檢測序列的深度分布情況,結(jié)合GC校正、均值漂移法、多帶寬分割等方法進行拷貝數(shù)變異的檢測,是目前較常用的一種基于讀深度法檢測拷貝數(shù)變異的工具。在檢測過程中,我們將信號強度閾值降低,這有利于檢測出更多可能的CNV。檢測獲得的結(jié)果作為候選結(jié)果用于后期篩選;
(2)匹配成功的Read數(shù)據(jù),又分為兩種,一種是OEM Read,是指Paired-End Read的兩個單端皆能與參考序列匹配但匹配位置距離與Paired-End的插入距離(insert length)差異很大,因此在序列比對的時候被丟棄的Paired-End Read;另一種是非OEM Read,對于這類Read我們進行裂讀處理,然后將裂讀后的數(shù)據(jù)進行再比對,獲得裂讀匹配位置。
接著我們對上述獲得的兩種匹配位置進行聚類,最后使用聚類結(jié)果完成對候選CNV的篩選得到最后的CNV檢測結(jié)果。下面我們對OEM、SRM和聚類分析的工作原理和技術(shù)細節(jié)進行詳細的描述。
1.1? OEM檢測
單端匹配(OEM)要求Paired-End Read的兩端都能匹配到參考序列上,由圖4可知,在檢測拷貝數(shù)變異時根據(jù)拷貝數(shù)增加和拷貝數(shù)減少時情況有所不同。為了方便討論,這里做如下定義:Paired-End Read雙端間的距離稱為插入長度(insert length),所有的Read的插入長度滿足正態(tài)分布,令均值為IL,標準差為σ。進行匹配時,令前端匹配至參考序列上的位置為P1,后端匹配至參考序列的位置為P2,拷貝數(shù)區(qū)域的估計長度為CNV_Len。
(1)拷貝數(shù)增加時,若為散落重復,跨越拷貝數(shù)邊緣的Paired-End Read匹配到參考序列上,一端會匹配至拷貝數(shù)序列區(qū)域內(nèi),另一端則可能會匹配至正常區(qū)域。這里判斷該情況的標準為:
1.2? SRM檢測
當被檢測序列中存在結(jié)構(gòu)變異時,位于結(jié)構(gòu)變異邊緣的讀數(shù)據(jù)與參考序列無法整體匹配,但該讀數(shù)據(jù)的前綴或者后綴則可以。而CNV屬于結(jié)構(gòu)變異,拷貝數(shù)增加本質(zhì)上是一種插入變異,而拷貝數(shù)減少則是刪除變異。SRM的核心思想是通過將原有的讀數(shù)據(jù)分裂,將前綴和后綴匹配至參考序列,根據(jù)這些前后綴的匹配信息完成拷貝數(shù)變異檢測的優(yōu)化[15],圖3是裂讀法檢測結(jié)構(gòu)變異中插入和刪除的示意圖。本算法通過讀數(shù)據(jù)分裂,根據(jù)前后綴的匹配信息驗證現(xiàn)有工具檢測得到的CNV,對于信號強度較弱的讀計數(shù)異常進行過濾,從而提高檢測精度。
為了方便描述,這里定義讀數(shù)據(jù)Read的讀長為RL,前綴為Readpre,長度為PL,PL=(RL-IL)/2,IL是可變參數(shù),為Read中間部分忽略子串的長度,本方法中IL=RL/5,讀數(shù)據(jù)的后綴為Readsuf,長度為SL,SL=PL。對于拷貝數(shù)增加,CNV邊界將出現(xiàn)Readpre能匹配至參考序列非CNV所在區(qū)域而Readsuf能匹配至CNV區(qū)域的情況,而對于拷貝數(shù)的減少,則出現(xiàn)前后綴都匹配至非CNV所在區(qū)域的情況。基于以上分析,本文將非OEM的丟棄讀數(shù)據(jù)分別取其PL長度的前后綴與參考序列進行比對,獲得匹配坐標,對于多點匹配的情況采用加權(quán)隨機分配方法,然后記錄匹配坐標。
1.3? 聚類分析與候選CNV的篩選
為了實現(xiàn)OEM和SRM檢測獲得的匹配坐標對候選基因的篩選,首先將上面記錄的坐標信息進行聚類,本文采用的聚類方法為k均值聚類,由于OEM和SRM都是基于CNV邊界附近的read信息來完成的,故k均值聚類的聚類中心數(shù)量k設置為候選CNV數(shù)量的兩倍,分別對應于候選CNV的兩個邊界,且初始聚類中心指定為相應的邊界坐標。OEM記錄的兩個匹配坐標僅使用其中靠近聚類中心的一個實施聚類。聚類分析結(jié)束后對每個聚類包含的點進行計數(shù),表示為該聚類的置信度。
本文選用CNVnator作為產(chǎn)生候選CNV的工具,為了提高CNV檢測的靈敏度,在候選CNV檢測階段,降低讀深信號(RD signal)的閾值以檢測出更多的候選CNV。然后根據(jù)候選CNV的質(zhì)量值e-val結(jié)合聚類置信度進行最終CNV的篩選,篩選原則是:對于質(zhì)量值較高的CNV直接保留,而質(zhì)量值較低的CNV則進一步考慮相應的聚類置信度,置信度較高的也保留作為最終CNV,否則丟棄,不納入最終結(jié)果。
2? 實驗驗證與分析
為了測試本算法的有效性,本文同時采用模擬數(shù)據(jù)和真實的測序數(shù)據(jù)進行驗證。采用模擬數(shù)據(jù)可以定制在序列中注入的拷貝數(shù)變異所在的位置以及拷貝數(shù)量,能夠?qū)λ惴ǖ臋z測性能進行量化分析和比較;采用真實測序數(shù)據(jù)能夠有效地反映算法應用于實際數(shù)據(jù)的檢測效果,更接近于實際應用。作為比較,使用CNV檢測工具CNV-Seq和CNVnator與本文提出的優(yōu)化方法進行比較,檢測性能利用精確性(Precision)、靈敏性(Sensitivity)和F1分數(shù)這三個參數(shù)進行評估。精確性表示檢測結(jié)果被判定為正確的數(shù)據(jù)占全部檢測結(jié)果的百分比;靈敏性表示的是判定為正確的檢測結(jié)果占對應實際全部的CNV的百分比;F1分數(shù)是精確性和靈敏性的綜合指標。令TP表示真陽性(True Position),表示檢測結(jié)果和實際全部的CNV數(shù)據(jù)都是正類。FP表示假陽性(False Position),表示工具的檢測結(jié)果是正類但實際是負類。FN表示假陰性(False Negative),表示工具的檢測結(jié)果是負類但實際結(jié)果是正類。三個指標的公式分別為:精確性Pre=TP/(TP+FP),靈敏性Sen=TP/(TP+FN),F(xiàn)1=2*Pre*Sen/(Pre+Sen)。
2.1? 模擬數(shù)據(jù)驗證
模擬的CNV數(shù)據(jù)根據(jù)真實測序數(shù)據(jù)中拷貝數(shù)變異數(shù)據(jù)的不同類型和不同長度的特點進行設計,一共設計了兩種拷貝數(shù)變異子類型:INS,DEL,INS對應于拷貝數(shù)的增加而DEL對應的是拷貝數(shù)的減少。同時設計了2個不同的長度區(qū)間:500—1000bp,1000—10000bp。每種變異長度都設計100變異。參考序列是hg19的11號染色體,模擬CNV數(shù)據(jù)使用的工具是Svsim (https://github.com/GregoryFaust/ SVsim),對該工具進行改寫,生成包含準確變異信息的序列文件,以fasta格式進行存儲。由變異序列文件再利用ART[16]生成Paired-End讀文件,讀長為100bp,以FASTQ格式進行存儲。本文共生成三種測序深度的讀數(shù)據(jù),分別為30X,50X和70X。
本文選用的用于實驗驗證的工具為CNV-Seq和CNVnator與本文提出的優(yōu)化方法進行比較,由于本文方法基于CNVnator,簡稱為CNVNOP,實驗結(jié)果如表1所示。
由表1實驗結(jié)果可以看出,無論是拷貝數(shù)增加和拷貝數(shù)減少的情況,CNVNOP方法比CNVnator和CNVSeq在精確性、靈敏度和F1值都有較好的表現(xiàn),而當測序深度增大時,相應工具的檢測性能都有所提升,相對而言50X的測序深度較30X的檢測精度提高更明顯一些。本文方法首先降低了CNVnator的信號篩選閾值已獲得更多的候選結(jié)果,然后通過ORM和SRM進行篩選,實驗結(jié)果表明該方法能夠得到更高的檢測性能。
2.2? 真實數(shù)據(jù)驗證
真實數(shù)據(jù)采用千人基因組項目中具有較高覆蓋度的樣本NA19240,這里僅取第1、2、10、11、20和22號染色體進行檢測,從DVG數(shù)據(jù)庫中查詢可知這6條染色體的INS共1330個,DEL共777個。比較三種工具后的實驗結(jié)果表2。由表2可以得到與模擬實驗相同的的結(jié)論,優(yōu)化后的方法具有較好的CNV檢測性能。
3? 總結(jié)與展望
本文提出了一種利用比對過程中丟棄的讀數(shù)據(jù)對拷貝數(shù)檢測進行優(yōu)化的方法,以CNVnator為基礎產(chǎn)生候選拷貝數(shù),基于SRM和OEM的聚類結(jié)果進行篩選,有效地提高了檢測精度和靈敏性,模擬數(shù)據(jù)和真實數(shù)據(jù)實驗的結(jié)果驗證了該方法的有效性。本文方法還具有兩個重要的潛在優(yōu)點:第一,它具有較好的通用性,本文方法中使用的CNVnator可以使用其它方法替代,例如:Speedseq,ReadDepth等。隨著技術(shù)的進步,可能會有更高檢測性能的方法,同樣可以進行候選CNV檢測方法的替換然后采用本文的優(yōu)化方法;第二,通過本文方法可能計算出拷貝數(shù)變異的軟切位點的位置,由OEM和SRM技術(shù)原理可知,其匹配位置通常會有兩個,其中一個位于拷貝數(shù)變異區(qū)域,另一個則是增加的拷貝數(shù)區(qū)域位置,這對下游的功能分析能提供較好的幫助。本文方法也存在著一些不足之處,由于裂讀匹配時需要將單個Read進行分割,因此要求的讀長不能太小,否則匹配時非常容易產(chǎn)生多位置匹配,降低算法的檢測精度;另外由于OEM利用了配對末端的insert size的信息,對于一些測序儀產(chǎn)生的非paired-end Read數(shù)據(jù),本文方法也無法處理。
本文的優(yōu)化方法能夠有效提高檢測精度,但還有值得完善的地方,首先本文采用的候選拷貝數(shù)的工具只采用一種工具進行檢測,實際上這里可以多使用幾種方法同時進行,利用群體優(yōu)勢來獲得高可靠性的候選變異;其次在額外信息的使用中,除了OEM和SRM外,還有一些技術(shù)也可以被引入進行優(yōu)化,例如:local assembly方法,在拷貝數(shù)變異區(qū)域附近進行局部拼接有助于獲得進一步的變異細節(jié),也能夠提高檢測的精度。這些方法將在納入將來的研究中,進一步提高檢測性能。
參考文獻
[1] McCarroll, S. A., Extending genome-wide association studies to copy-number variation[J]. Hum Mol Genet, 2008. 17(R2): p. R135-42.
[2] Hinds, D. A., et al., Common deletions and SNPs are in linkage disequilibrium in the human genome[J]. Nat Genet, 2006. 38(1): p82-5.
[3] Redon, R., et al., Global variation in copy number in the human genome[J]. Nature, 2006. 444(7118): p. 444-54.
[4] Wong, K. K., et al., A comprehensive analysis of common copy-number variations in the human genome[J]. Am J Hum Genet, 2007. 80(1): p. 91-104.
[5] Bochukova, E. G., et al., Large, rare chromosomal deletions associated with severe early-onset obesity[J]. Nature, 2010. 463(7281): p. 666-70.
[6] Diskin, S. J., et al., Copy number variation at 1q21. 1 associated with neuroblastoma[J]. Nature, 2009. 459(7249): p. 987-91.
[7] Fanciulli, M., et al., FCGR3B copy number variation is associated with susceptibility to systemic, but not organ- specific, autoimmunity[J]. Nat Genet, 2007. 39(6): p. 721-3.
[8] Stefansson, H., et al., Large recurrent microdeletions associated with schizophrenia[J]. Nature, 2008. 455(7210): p. 232-6.
[9] McKernan, K. J., et al., Sequence and structural variation in a human genome uncovered by short-read, massively parallel ligation sequencing using two-base encoding[J]. Genome Res, 2009. 19(9): p. 1527-41.
[10] Miller, C. A., et al., ReadDepth: a parallel R package for detecting copy number alterations from short sequencing reads[J]. PLoS One, 2011. 6(1): p. e16327.
[11] Li, J., et al., CONTRA: copy number analysis for targeted resequencing[J]. Bioinformatics, 2012. 28(10): p. 1307-13.
[12] Abyzov, A., et al., CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing[J]. Genome Res, 2011. 21(6): p. 974-84.
[13] H., L., Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM[J]. eprint arXiv: 1303. 3997, 2013.
[14] Abyzov, A., et al., CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing[J]. Genome Res, 2011. 21(6): p. 974-84.
[15] Wang, J., et al., CREST maps somatic structural variation in cancer genomes with base-pair resolution[J]. Nat Methods, 2011. 8(8): p. 652-4.
[16] Huang, W., et al., ART: a next-generation sequencing read simulator[J]. Bioinformatics, 2012. 28(4): p. 593-4.