国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Nanopore 單分子測序基因組結構變異分析流程比較

2020-08-13 12:48王曦路
世界最新醫(yī)學信息文摘 2020年54期
關鍵詞:覆蓋度變異基因組

王曦路

(復旦大學 生命科學學院,上海 200000)

0 引言

結構變異(Structural variant,SV)包括插入,缺失,重復,倒位和易位(一般定義為大于50bp)[1-3]。在基因組中存在的遺傳變異形式中,結構變異仍然是其功能影響最難以解釋的變異之一。一直以來基因組結構變異被認為與表型多樣性、人類疾病、基因多樣性以及大規(guī)模染色體進化等有關,但他們的影響仍未完全清楚。目前對于結構變異的功能影響的研究主要來源于人類疾病研究方面[1-5]。

從Sanger 測序到下一代測序(NGS),可以從測序數(shù)據(jù)中收集的信息量和豐富程度大大增加,同時測序成本急劇下降[6]。測序技術的進步使得對SNP 以及小的插入和缺失等變異的檢測和分析取得了長足的進展,但受限于讀長,使用NGS 進行SV 檢測仍然面臨許多困難[7]。以Oxford 開發(fā)的Nanopore 測序技術[8]以及Pacific Biosciences(PacBio)開發(fā)的SMRT 測序技術為代表的單分子測序技術的出現(xiàn)使得長讀長測序成為可能。借助單分子測序技術,近期已有多種遺傳病找到了相關SV。如:雙相情感障礙和精神分裂癥[9],家族性皮質肌陣攣性震顫伴癲癇(familial cortical myoclonic tremor with epilepsy,F(xiàn)CMTE)[10],神經元核內包涵體?。∟euronal intranuclear inclusion disease, NIID)[11-13]等。但單分子測序技術仍然存在一定的局限性,最主要的是較高的測序錯誤率和更加昂貴的成本[14]。因此,使用適當?shù)姆治龇椒ㄒ约案采w度進行檢測在減少錯誤和控制成本上就顯得尤為重要。

目前針對Naopore 測序數(shù)據(jù)可以使用的比對軟件主要有以下幾種:NGMLR[15],BWA-MEM[16],Graphmap[17],Minimap2[18]。SV 發(fā) 現(xiàn) 軟 件 有NanoSV[19]和Sniffles[15]。Genome in a Bottle(GIAB)聯(lián)盟發(fā)布了針對NA12878 基因組的高可信度SV 集合(2676 個缺失SV 以及68 個插入SV)。這是一個由不同平臺進行深度測序得到的集合,并在家系中驗證準確率為99.7%,可以對數(shù)據(jù)分析流程進行性能驗證[20]。我們評估了四個比對軟件和兩個SV 發(fā)現(xiàn)軟件的組合性能。這將對Nanopore 測序在臨床及科研上的SV 檢測提供一定的依據(jù)。

1 材料與方法

1.1 研究使用的Nanopore 數(shù)據(jù)集。本研究使用的數(shù)據(jù)集來自GIAB 聯(lián)盟發(fā)布的基于Nanopore 測序平臺的NA12878基因組測序數(shù)據(jù)(https://github.com/nanopore-wgsconsortium/NA12878)[21]。該數(shù)據(jù)由多家實驗室分別測序獲得。在獲得Fastq 數(shù)據(jù)后,以人參考基因組(NCBI build 37)作為參考序列(與高可信度SV 集合保持一致),分別以不同的覆蓋倍數(shù)(2-30×)進行隨機抽樣,將抽樣得到的Fastq 作為起始數(shù)據(jù)進行后續(xù)研究。

1.2 數(shù)據(jù)比對和發(fā)現(xiàn)SV。分別使用NGMLR(默認參數(shù))[15],BWA-MEM(bwa mem –x ont2d -M)[16],Graphmap(默認參數(shù))[17]和Minimap2(默認參數(shù))[18]將抽樣的fastq 數(shù)據(jù)比對到人參考基因組(NCBI build 37)上,產生SAM 文件。

之后分別使用NanoSV[19]和Sniffles[15]進行SV 檢測,Sniffles 需要修改參數(shù)(最小reads 支持修改為2)以增加SV 檢測的靈敏度,如圖1 所示。

圖1 數(shù)據(jù)比對和發(fā)現(xiàn)SV 流程

1.3 性能評估。分別獲取各分析流程的各覆蓋度下的SV 集合與高可信度SV 集合的共識SV。以評判其準確度(檢測到的標準SV 中的SV 在該流程的得到的所有SV 中的百分比)和召回率(該流程檢測到的SV 在標準SV 中的百分比)。比較兩個SV 是否相同時,缺失SV 在基因組上顯示為一個區(qū)域,而插入SV 僅有一個斷點坐標,因此需要使用不同的標準。對于缺失SV,兩個缺失之間的重疊區(qū)域超過50%則認為它們是相同的。插入SV 的判斷在之前的研究中標準差異較大,如果兩個插入SV 之間相距不超過500bp,則認為兩個插入相同[22]。

2 結果

2.1 各流程在各覆蓋度下的SV 發(fā)現(xiàn)數(shù)量。為了確定Nanopore 數(shù)據(jù)中SV 檢測的最佳覆蓋度,我們使用抽樣的2×,4×,6×,8×,10×,12×,15×,20×,25× 和30×,在每個覆蓋度下分別使用NGMLR,BWA-MEM,Graphmap 和Minimap2 進行比對,之后分別使用NanoSV和Sniffles 進行SV 發(fā)現(xiàn)。各分析流程各覆蓋度下發(fā)現(xiàn)的SV數(shù)量如圖2 所示。隨著覆蓋度的增加,SV 的數(shù)量都在持續(xù)增加,這可能是由于Nanopore 本身的測序錯誤率較高導致的。但是除Minimap2 分析流程外,在超過20×之后,SV 的增量均有明顯的的降低,尤其是使用NanoSV 發(fā)現(xiàn)SV 的流程中更為顯著。

圖2 各分析流程各覆蓋度下發(fā)現(xiàn)的SV 數(shù)量

2.2 不同流程之間的性能差異。在所有流程中的召回率都是隨著覆蓋度的升高而增加,20×之后趨勢變緩。

30× 覆蓋度下對于缺失SV 的召回率最高的是NGMLR/NanoSV 流 程( 召 回 率:96.936%, 準 確 率:2.368%);而召回率最低的是Minimap2/Sniffles(召回率:18.984%,準確率:0.247%)。20×覆蓋度下,召回率最高為NGMLR/NanoSV(召回率:94.918%,準確率:2.463%),與30×下差異不大。

30× 覆蓋度下對于插入SV 的召回率最高的是Graphmap/NanoSV 流程(召回率:80.882%,準確率:0.119%);而召回率最低的是Minimap2/Sniffles(召回率:19.118 %,準確率:0.006%)。20×覆蓋度下,召回率最高為Graphmap/NanoSV(召回率:77.941 %,準確率:0.122%),與30×下差異不大。

由此,結合成本和召回率考慮,選擇以20×左右的覆蓋度作為標準較為合適詳情加圖3,圖4。

圖3 各流程覆蓋度下對于缺失SV 的召回率

圖4 各流程各覆蓋度的召回率

3 討論

在本研究中,我們評估了目前常用于Naopore 測序數(shù)據(jù)分析的4 種比對軟件。以及兩種SV 發(fā)現(xiàn)軟件。我們發(fā)現(xiàn)對于nanopore 測序來說,20×的覆蓋度是在研究中比較適合的覆蓋度。同時,我們發(fā)現(xiàn)不同的分析流程之間結果會有很大的差異,對于缺失SV,20×覆蓋度下,召回率最高為NGMLR/NanoSV(召回率:94.918%,準確率:2.463%);對于插入SV,20×覆蓋度下,召回率最高為Graphmap/NanoSV(召回率:77.941%,準確率:0.122%)

在發(fā)現(xiàn)SV 的數(shù)量上,Sniffles 與NanoSV 相比總體上差異不大,但Sniffles 可以發(fā)現(xiàn)復雜結構變異這一點上更具優(yōu)勢。

猜你喜歡
覆蓋度變異基因組
呼和浩特市和林格爾縣植被覆蓋度變化遙感監(jiān)測
“植物界大熊貓”完整基因組圖譜首次發(fā)布
基于NDVI的晉州市植被覆蓋信息提取
塞罕壩機械林場植被覆蓋度及景觀格局變化分析
牛參考基因組中發(fā)現(xiàn)被忽視基因
科學家找到母愛改變基因組的證據(jù)
血清HBV前基因組RNA的研究進展
變異
氣候變化與人類活動對植被覆蓋的影響
變異的蚊子