黎籽秀 劉 博 楊 琳 王慧君 周文浩
?
·論著·
高通量測(cè)序數(shù)據(jù)分析和臨床診斷流程對(duì)新生兒多發(fā)畸形候選變異的篩選準(zhǔn)確性研究
黎籽秀1,5劉 博2,5楊 琳3王慧君4周文浩4
目的 構(gòu)建應(yīng)用于遺傳性疾病診斷的基因組二代測(cè)序數(shù)據(jù)分析流程,為候選變異篩選提供參考流程。方法 復(fù)旦大學(xué)附屬兒科醫(yī)院(我院)新生兒出生缺陷生物樣本庫(kù)中的87例多發(fā)畸形樣本,以美國(guó)貝勒外顯子組測(cè)序分析流程(貝勒流程)為參考標(biāo)準(zhǔn)進(jìn)行候選變異篩選,同一批樣本以我院建立的全外顯子組測(cè)序分析流程(復(fù)旦流程)也行候選變異篩選,以染色體的位置和突變的堿基作為突變位點(diǎn)的標(biāo)識(shí)符對(duì)貝勒和復(fù)旦流程檢出變異逐行比較。結(jié)果 87例新生兒多發(fā)畸形樣本共檢出變異7 820 777個(gè),復(fù)旦流程經(jīng)質(zhì)量控制、公共數(shù)據(jù)庫(kù)的變異頻率篩選、內(nèi)部數(shù)據(jù)庫(kù)的變異頻率篩選、變異類(lèi)型的篩選和關(guān)注與孟德?tīng)栠z傳病相關(guān)的變異數(shù)篩選,平均單個(gè)病例180~210個(gè)變異作為最終候選變異行臨床診斷分析;貝勒流程檢出候選變異15 242個(gè),復(fù)旦流程檢出候選變異15 660個(gè),2個(gè)流程均檢出候選變異15 137個(gè),復(fù)旦流程比貝勒流程多檢出的候選變異523個(gè),105個(gè)候選變異貝勒流程檢出復(fù)旦流程未檢出,復(fù)旦流程敏感度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值均高于96.66%。結(jié)論 雖然復(fù)旦流程候選變異篩選能真實(shí)有效地模擬貝勒流程對(duì)WES數(shù)據(jù)進(jìn)行篩選,并尋找候選變異的過(guò)程;復(fù)旦流程所展現(xiàn)的注釋和篩選只是粗略的框架,但提供了WES應(yīng)用于臨床時(shí)不可或缺的篩選程序。
全外顯子組測(cè)序; 新生兒; 敏感度; 特異度; 篩選流程; 多發(fā)畸形
基因組二代測(cè)序技術(shù)與產(chǎn)生低通量數(shù)據(jù)的傳統(tǒng)分子檢測(cè)技術(shù)不同,可以同時(shí)對(duì)大量基因進(jìn)行檢測(cè),一次檢測(cè)即可獲得海量的變異數(shù)據(jù)。因此,構(gòu)建一個(gè)基于遺傳性疾病診斷需要的基因組二代測(cè)序數(shù)據(jù)分析流程,以期從眾多變異中篩選出潛在致病突變顯得尤為重要。
目前,已有許多權(quán)威科研機(jī)構(gòu)開(kāi)設(shè)以全外顯子組測(cè)序技術(shù)(WES)來(lái)發(fā)現(xiàn)罕見(jiàn)病致病基因的項(xiàng)目,如加拿大罕見(jiàn)疾病基因發(fā)現(xiàn)中心項(xiàng)目[1],英國(guó)國(guó)民保健服務(wù)NHS和Sanger研究院合作項(xiàng)目[2,3],美國(guó)國(guó)立衛(wèi)生研究院的未確診疾病計(jì)劃[4]等。這些項(xiàng)目或計(jì)劃在過(guò)去的2~3年中,基于各自的研究需要,許多實(shí)驗(yàn)室都建立了相應(yīng)的基于遺傳性疾病診斷需要的基因組二代測(cè)序數(shù)據(jù)分析流程。雖然各流程的建立均是為了聚焦到候選致病變異,但每個(gè)流程對(duì)變異的注釋方式和篩選方法各有不同。美國(guó)貝勒醫(yī)學(xué)院人類(lèi)與分子遺傳系是第一個(gè)以方法學(xué)的形式展示W(wǎng)ES用于臨床的診斷流程(簡(jiǎn)稱(chēng)貝勒流程)的實(shí)驗(yàn)室,貝勒流程對(duì)2011年10月至2012年6月收集的250例未經(jīng)選擇的患者進(jìn)行外顯子組測(cè)序,并成功明確了其中25%的患兒存在的致病突變[5],并在后續(xù)基于貝勒流程的研究,擴(kuò)大至2 000例病例的診斷率為25.2%[6]?;谶z傳性疾病診斷需要的基因組二代測(cè)序數(shù)據(jù)分析流程的建立為WES轉(zhuǎn)化到臨床起到了重要的作用。
復(fù)旦大學(xué)附屬兒科醫(yī)院(我院)轉(zhuǎn)化中心在參考學(xué)習(xí)了貝勒流程的基礎(chǔ)上,建立了高通量測(cè)序數(shù)據(jù)分析和臨床診斷流程(簡(jiǎn)稱(chēng)復(fù)旦流程)。本研究以我院新生兒出生缺陷生物樣本庫(kù)中多發(fā)畸形患兒為樣本,以貝勒流程檢出候選變異為參考標(biāo)準(zhǔn),采用同一批病例以復(fù)旦流程進(jìn)行重復(fù)檢測(cè),檢驗(yàn)復(fù)旦流程與貝勒流程在候選變異的檢出方面的一致性。
1.1 檢測(cè)樣本來(lái)源 取自我院新生兒出生缺陷生物樣本庫(kù)中的多發(fā)畸形樣本,多發(fā)畸形:≥2項(xiàng)畸形表型。①神經(jīng)系統(tǒng)畸形:顱骨畸形、腦發(fā)育不良、不明原因驚厥和(或)腦電圖異常、不明原因肌張力增高或低下、先天性腦積水、不明原因顱內(nèi)占位和(或)出血;②循環(huán)系統(tǒng)畸形:先天性心臟病(單純動(dòng)脈導(dǎo)管>5 mm)、心臟不明原因占位;③泌尿系統(tǒng)畸形:腎臟發(fā)育異常、輸尿管發(fā)育異常、尿道下裂;④消化系統(tǒng)發(fā)育異常:食道閉鎖和(或)氣管食管瘺、膽道閉鎖、腸道畸形、肛門(mén)閉鎖、腹壁裂、腹壁疝;⑤呼吸系統(tǒng)發(fā)育異常:后鼻孔閉鎖、先天性喉軟骨軟化、肺發(fā)育異常;⑥骨骼發(fā)育異常:脊柱和(或)四肢骨骼畸形、關(guān)節(jié)畸形;⑦指/趾畸形:指/趾數(shù)量和形態(tài)異常;⑧顏面及附屬器官異常:眼、耳、鼻、口、舌、腭、頸、毛發(fā)異常;⑨生殖系統(tǒng)異常:兩性畸形、隱睪。
1.2 貝勒流程 本研究以貝勒流程為參考標(biāo)準(zhǔn),理由如下:①貝勒流程對(duì)WES數(shù)據(jù)處理并用于臨床診斷的結(jié)果獲得了美國(guó)病理學(xué)研究院和臨床實(shí)驗(yàn)室改進(jìn)修正案(CLIA)的認(rèn)證[7],是目前公認(rèn)的WES數(shù)據(jù)分析的經(jīng)典流程。②本研究實(shí)施貝勒流程行候選變異篩選的工作,是由具有豐富工作和科研經(jīng)驗(yàn)的貝勒實(shí)驗(yàn)室工作人員在我院轉(zhuǎn)化醫(yī)學(xué)中心,以我院新生兒生物樣本庫(kù)中的多發(fā)畸形樣本在晚近1年時(shí)間內(nèi)完成的。
1.3 復(fù)旦流程圖1為參考了貝勒流程和相關(guān)文獻(xiàn)建立的復(fù)旦流程,圖1中
圖1 高通量測(cè)序數(shù)據(jù)分析和臨床診斷流程
Fig 1 Flow chart of the diagnosis of hereditary disease based on next-generation-sequencing
注釋過(guò)程通過(guò)ANNOVAR(http://www.openbioinformatics.org/annovar/)、VEP(Variant Effect Predictor,http://asia.ensembl.org/info/docs/tools/vep/index.html)軟件和人工注釋完成;基因注釋參考數(shù)據(jù)庫(kù)為NCBI RefSeq(NCBI The Reference Sequence: http://www.ncbi.nlm.nih.gov/refseq/)和SwissProt(http://www.uniprot.org/);突變/基因與疾病關(guān)系注釋參考數(shù)據(jù)庫(kù)為HGMD(The Human Gene Mutation Database,http://www.hgmd.cf.ac.uk/ac/index.php)、OMIM(Online Mendelian Inheritance in Man,http://omim.org/)和 ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/);突變頻率注釋參考數(shù)據(jù)庫(kù)為千人基因組計(jì)劃(1000 Genome Project,http://www.1000genomes.org/)、ExAc(The Exome Aggregation Consortium, http://exac.broadinstitute.org/)和內(nèi)部數(shù)據(jù)庫(kù);突變預(yù)測(cè)注釋參考數(shù)據(jù)庫(kù)為SIFT(Sorting Intolerant From Tolerant)、Polyphen-2(Polymorphism Phenotyping v2)和MutationTaster(http://www.mutationtaster.org/)。
復(fù)旦流程在貝勒流程基礎(chǔ)上主要做出如下調(diào)整:①變異注釋的公共數(shù)據(jù)庫(kù)為ExAC(http://exac.broadinstitute.org/)數(shù)據(jù)庫(kù)[8]。②使用我院轉(zhuǎn)化醫(yī)學(xué)中心的內(nèi)部數(shù)據(jù)庫(kù),其頻率篩選的閾值設(shè)置為10%。
1.4 數(shù)據(jù)對(duì)比 本文只對(duì)2個(gè)流程最后檢出的候選致病變異進(jìn)行比較。以染色體位置和突變堿基作為突變位點(diǎn)的標(biāo)識(shí)符,采用Perl程序比對(duì)兩個(gè)流程處理后所得候選致病變異的異同。
1.5 統(tǒng)計(jì)學(xué)分析 以貝勒流程檢出候選變異為參考標(biāo)準(zhǔn),真陽(yáng)性:貝勒流程與復(fù)旦流程均陽(yáng)性;假陽(yáng)性:復(fù)旦流程陽(yáng)性,貝勒流程陰性;真陰性:貝勒流程與復(fù)旦流程均陰性;假陰性:貝勒流程陽(yáng)性,復(fù)旦流程陰性。計(jì)算敏感度、特異度、陽(yáng)性預(yù)測(cè)值、陰性預(yù)測(cè)值及其95%CI。
2.1 一般情況 共納入87例多發(fā)畸形新生兒樣本,神經(jīng)系統(tǒng)畸形32例次(36.8%),呼吸系統(tǒng)畸形28例次(32.2%),循環(huán)系統(tǒng)畸形26例次(29.9%),消化系統(tǒng)畸形25例次(28.7%),四肢畸形25例次(28.7%),特殊面容24例次(27.6%),指/趾畸形10例次(11.5%),泌尿生殖系統(tǒng)畸形7例次(8.0%),骨骼及脊柱畸形5例次(5.7%)。
2.2 復(fù)旦流程對(duì)變異篩選 表1顯示,①質(zhì)量控制, SNP篩除掉0個(gè)變異,插入缺失變異(Indel)篩除約50%(481 502/1 011 134);②變異頻率篩選:通過(guò)公共數(shù)據(jù)庫(kù)篩選后約60%(5 020 513/7 820 777)變異,以?xún)?nèi)部數(shù)據(jù)庫(kù)進(jìn)一步篩選,篩除約1%的變異[(5 020 513-4 961 147)/5 020 513)];③變異類(lèi)型篩選,569~790個(gè)變異被保留;④關(guān)注與孟德?tīng)栠z傳病相關(guān)的變異,134~210個(gè)變異被保留
表1 87例新生兒多發(fā)畸形復(fù)旦流程候選變異篩選(個(gè))
Tab 1 The candidate variants of multiple malformation screening in 87 neonates by Fudan process
單例最小值單例最大值87例總和原始數(shù)據(jù)原始檢出SNP數(shù)66263893046815747原始檢出Indel數(shù)8609155321011134共檢測(cè)到的變異(SNP+Indel)數(shù)748721047077820777質(zhì)量控制通過(guò)質(zhì)量控制的SNP數(shù)66263893046815747通過(guò)質(zhì)量控制的Indel數(shù)42017413481502通過(guò)質(zhì)量控制的變異 (SNP+Indel)數(shù)70464965887290827變異頻率篩選通過(guò)公共數(shù)據(jù)庫(kù)頻率 篩選后的變異數(shù)45467693225020513內(nèi)部數(shù)據(jù)庫(kù)中<10%通過(guò)內(nèi)部數(shù)據(jù)庫(kù)頻率 篩選后的變異數(shù)44866685094961147變異類(lèi)型篩選通過(guò)變異類(lèi)型篩選后的 變異數(shù)56979059627是否在HGMD/OMIM中報(bào)道已報(bào)道的變異數(shù)13421015660
作為最終的候選變異用于臨床診斷分析。87例新生兒多發(fā)畸形中,平均初始檢測(cè)出89 894個(gè)變異,經(jīng)由復(fù)旦流程篩選,最終檢出候選變異平均180個(gè)。
2.3 復(fù)旦流程與貝勒流程篩選驗(yàn)證 87例多發(fā)畸形新生兒樣本中,深圳華大基因的數(shù)據(jù)共檢測(cè)到變異數(shù)目7 820 777個(gè),經(jīng)貝勒流程檢出候選變異15 242個(gè),經(jīng)復(fù)旦流程檢出候選變異15 660個(gè),根據(jù)染色體的位置和突變的堿基作為突變位點(diǎn)標(biāo)識(shí)符的比對(duì)結(jié)果,貝勒流程和復(fù)旦流程均檢出的候選變異15 137個(gè),復(fù)旦流程比貝勒多檢出的候選變異523個(gè),有105個(gè)候選變異貝勒流程檢出但復(fù)旦流程未檢出,表2顯示復(fù)旦流程敏感度99.31%(95%CI:99.17~99.43),特異度99.99%(95%CI:99.99~99.99),陽(yáng)性預(yù)測(cè)值96.66%(95%CI:96.37~96.93),陰性預(yù)測(cè)值99.99%(95%CI:99.99~99.99)。
表2 復(fù)旦流程對(duì)新生兒多發(fā)畸形候選變異篩選的診斷參數(shù)
Tab 2 Diagnostic accuracy assessment of Fudan process for the screening of multiple malformation in neonates
復(fù)旦流程真陽(yáng)性(n)15137假陽(yáng)性(n)523假陰性(n)105真陰性(n)7805117敏感度/%(95%CI)99.31(99.17~99.43)特異度/%(95%CI)99.99(99.99~99.99)陽(yáng)性預(yù)測(cè)值/%(95%CI)96.66(96.37~96.93)陰性預(yù)測(cè)值/%(95%CI)99.99(99.99~99.99)
本研究以貝勒流程對(duì)多發(fā)畸形新生兒樣本檢出候選變異為參考標(biāo)準(zhǔn),以驗(yàn)證復(fù)旦流程檢出候選變異準(zhǔn)確性。①美國(guó)貝勒醫(yī)學(xué)院人類(lèi)與分子遺傳系應(yīng)用貝勒流程對(duì)250例和2 000例孟德?tīng)栠z傳病行WES數(shù)據(jù)分析結(jié)果先后發(fā)表在NEnglMedJ和JAMA,是一個(gè)將在人類(lèi)基因組計(jì)劃實(shí)施過(guò)程中積累的知識(shí)和技術(shù)轉(zhuǎn)換到臨床找尋候選致病變異的經(jīng)典流程[9]。②本研究多發(fā)畸形新生兒樣本是由貝勒實(shí)驗(yàn)室具有豐富的WES工作經(jīng)驗(yàn)和科研經(jīng)驗(yàn)的專(zhuān)家依照貝勒流程行候選變異篩選,最終臨床診斷率為25%,與貝勒實(shí)驗(yàn)室既往研究一致。
建立復(fù)旦流程的小組成員由生物信息學(xué)背景的分析員和醫(yī)學(xué)遺傳學(xué)背景的遺傳專(zhuān)科醫(yī)生共同組成。小組成員曾赴美國(guó)貝勒醫(yī)學(xué)院人類(lèi)分子遺傳系進(jìn)行學(xué)習(xí)和交流,并一直在具有豐富工作、科研經(jīng)驗(yàn)的貝勒實(shí)驗(yàn)室工作人員的指導(dǎo)下,逐步掌握這一領(lǐng)域及貝勒分析流程。
復(fù)旦流程在參考學(xué)習(xí)了貝勒流程基礎(chǔ)上做出了2個(gè)方面的調(diào)整。第一,變異注釋使用的公共數(shù)據(jù)庫(kù)貝勒流程選用的是ESP4500(http://evs.gs.washington.edu/EVS)數(shù)據(jù)庫(kù),復(fù)旦流程選用的是ExAC數(shù)據(jù)庫(kù)。ExAC是專(zhuān)門(mén)研究外顯子組測(cè)序數(shù)據(jù)的聯(lián)盟機(jī)構(gòu),該數(shù)據(jù)庫(kù)整合了包括ESP4500的數(shù)據(jù)在內(nèi)的多個(gè)外顯子組測(cè)序計(jì)劃,包括了61 486個(gè)獨(dú)立樣本的數(shù)據(jù),能為樣本提供更大規(guī)模的對(duì)照群體;ExAC是目前收錄不包含嚴(yán)重兒童疾病樣本的最大數(shù)據(jù)庫(kù),能更好地作為研究?jī)和系聽(tīng)栠z傳病的合理對(duì)照,較符合我院的實(shí)際情況。第二,內(nèi)部數(shù)據(jù)庫(kù)頻率篩選的閾值貝勒流程為2%,復(fù)旦流程設(shè)置為10%。主要體現(xiàn)在:①我院數(shù)據(jù)庫(kù)收錄的總樣本量較小且無(wú)關(guān)樣本量較少,在頻率篩選過(guò)程中為了保證變異在內(nèi)部數(shù)據(jù)中具有一定的構(gòu)成比而適當(dāng)做出了調(diào)整。②數(shù)據(jù)庫(kù)收錄疾病種類(lèi)多樣性不夠。新生兒樣本庫(kù)在收集樣本的時(shí)候有偏好性,即對(duì)感興趣的疾病收錄樣本較多,而對(duì)于不感興趣的疾病則未將其收錄,導(dǎo)致數(shù)據(jù)庫(kù)中的樣本疾病種類(lèi)較少,存在同一個(gè)位點(diǎn)導(dǎo)致多個(gè)患者患病的可能。反觀貝勒實(shí)驗(yàn)室的內(nèi)部數(shù)據(jù)庫(kù),其收錄樣本數(shù)量大,種類(lèi)多,同一個(gè)位點(diǎn)導(dǎo)致多個(gè)患者患病的可能性很小。
通過(guò)與貝勒流程比較,復(fù)旦流程候選變異篩選敏感度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值均≥96.66%,能真實(shí)有效地模擬貝勒流程對(duì)WES數(shù)據(jù)進(jìn)行篩選和尋找候選變異的過(guò)程,為我院后續(xù)的分子遺傳學(xué)診斷提供保障。
本文對(duì)比貝勒流程和復(fù)旦流程對(duì)新生兒多發(fā)畸形候選變異的篩選,只是對(duì)這些多發(fā)畸形新生兒進(jìn)行診斷的基礎(chǔ)性工作的一部分,不論是貝勒流程還是復(fù)旦流程最終明確致病突變還需要對(duì)候選變異做進(jìn)一步評(píng)估。復(fù)旦流程所展現(xiàn)的注釋和篩選只是粗略的框架,但提供了WES應(yīng)用于臨床診斷時(shí)不可或缺的篩選程序。
本文有105個(gè)候選變異經(jīng)貝勒流程篩選得到,而復(fù)旦流程篩選未檢出,分析原因與使用的不同的內(nèi)部數(shù)據(jù)庫(kù)有關(guān)。復(fù)旦流程用我院轉(zhuǎn)化醫(yī)學(xué)中心內(nèi)部數(shù)據(jù)庫(kù)能夠篩除一些貝勒內(nèi)部數(shù)據(jù)庫(kù)不能篩除的變異,這些貝勒流程不能篩除的變異可能在中國(guó)人群的變異頻率比較高,而對(duì)于貝勒實(shí)驗(yàn)室內(nèi)部數(shù)據(jù)庫(kù)則為罕見(jiàn)變異或未檢測(cè)出變異。本文有523個(gè)候選變異為復(fù)旦流程檢出,而貝勒流程未檢出,也與使用不同的內(nèi)部數(shù)據(jù)庫(kù)相關(guān),內(nèi)部數(shù)據(jù)庫(kù)頻率篩選的閾值貝勒流程為2%,復(fù)旦流程設(shè)置為10%,是造成這種差異的主要原因。
通過(guò)復(fù)旦流程的注釋和篩選,可以在數(shù)分鐘內(nèi)將由WES檢測(cè)到的70 000~100 000個(gè)變異縮減到僅需進(jìn)行人工判讀的100~200個(gè)變異,經(jīng)驗(yàn)豐富的臨床信息分析人員依據(jù)詳細(xì)的基因功能、遺傳模式、所致疾病、變異是否影響蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)信息等相關(guān)注釋?zhuān)稍谳^短的時(shí)間內(nèi)鎖定致病突變,完成對(duì)樣本的分子遺傳學(xué)診斷。
[1]Beaulieu CL, Majewski J, Schwartzentruber J, et al. FORGE Canada Consortium: outcomes of a 2-year national rare-disease gene-discovery project. Am J Hum Genet, 2014,94(6):809-817
[2]Firth HV, Wright CF, DDD Study. The Deciphering Developmental Disorders (DDD) study. Dev Med Child Neurol, 2011, 53(8):702-703
[3]The Deciphering Developmental Disorders (DDD) study. http://www.ddduk.org/. Accessed 25/08/2014
[4]Tifft CJ, Adams DR. The National Institutes of Health undiagnosed diseases program. Curr Opin Pediatr, 2014, 26(6):626-633
[5]Yang Y, Muzny DM, Reid JG, et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N Engl J Med, 2013, 369(16):1502-1511
[6]Yang Y, Muzny DM, Xia F, et al. Molecular findings among patients referred for clinical whole-exome sequencing. JAMA, 2014, 312(18):1870-1879
[7]Jacob HJ. Next-generation sequencing for clinical diagnostics. N Engl J Med, 2013, 369(16):1557-1558
[8]Stenson PD, Ball EV, Mort M, et al. Human Gene Mutation Database (HGMD): 2003 update. Hum Mutat, 2003, 21(6):577-581
[9]https://www.bcm.edu/news/molecular-and-human-genetics/whole-exome-sequence-takes-new-tech-to-clinic .Aavaible at 2005-02-01
(本文編輯:張崇凡)
Evaluation of diagnostic accuracy of the whole-exome data analysis pipeline of Children's Hospital of Fudan University
LIZi-xiu1,LIUBo1,YANGLin,WANGHui-jun,ZHOUWen-hao(1DepartmentofBiostatisticsandComputationalBiology,LifeScience,FudanUniversity,Shanghai200433;2CentralChinaAgriculturalUniversity,Wuhan430072;3Children'sHospitalofFudanUniversity,Shanghai201102;4ShanghaiKeyLaboratoryofBirthDefects,TheTranslationalMedicineCenterofChildrenDevelopmentandDiseaseofFudanUniversity,KeyLaboratoryofNeonatalDiseases,MinistryofHealth,Children'sHospitalofFudanUniversity,Shanghai201102;5Co-firstauthor)
ZHOU Wen-hao,E-mail:zwhchfu@126.com
ObjectiveTo build data analysis pipeline applied for the high-throughput sequencing data analysis process for the clinical diagnosis of genetic diseases.Methods87 WES data of multiple malformations cases from the biobank of neonatal birth defect of Children's Hospital of Fudan University (our hospital). Candidate mutation screening was performed using the pipeline of published whole-exome sequencing from Baylor in the USA (Baylor pipeline) as a reference standard. The same batch of data was then run using high-throughput sequencing data analysis and clinical diagnosis pipeline (Fudan pipeline). The results were then compared line by line using the chromosome location and the base position of the mutations as the identifiers.ResultsThe total number of the variants detected in 87 cases was 7 820 777. After the quality control, selective filtering from public database, in-house database, and screening from mutation type and Mendelian diseases associated variance filtering, an average of 134-210 variation was as the final candidate for clinical diagnosis analysis. 15 242 candidate variations were filtered from Baylor pipeline, and 15 660 from Fudan pipeline, both of them hit 15 137 variations. 523 more variations were found by Fudan pipeline, but there were still 105 variants missed, which hit in Baylor pipeline. When compared with Baylor pipeline, the sensitivity, specificity, positive predictive percentage and negative predictive percentage were all higher than 96.66%.ConclusionFudan pipeline could simulate Baylor pipeline for the performing of WES data filtering, effectively acquire candidate variation. Though the current Fudan pipeline is only a basic framework, it provides an indispensable process of using WES in clinical practice.
Whole-exome sequencing; Neonates; Sensitivity; Specificity; Screening pipeline; Multiple malformations
上海市衛(wèi)生局重要疾病攻關(guān)項(xiàng)目:2013ZYJB0015;上海市科委/醫(yī)學(xué)領(lǐng)域重點(diǎn)項(xiàng)目子課題:14411950402,14DJ1400103;上海市衛(wèi)計(jì)委項(xiàng)目:滬衛(wèi)計(jì)科教〔2013〕018號(hào)
1 復(fù)旦大學(xué)生物統(tǒng)計(jì)學(xué)與計(jì)算生物學(xué)系 上海,200433;2 華中農(nóng)業(yè)大學(xué) 武漢,430072;3 復(fù)旦大學(xué)附屬兒科醫(yī)院 上海,201102;4 上海市出生缺陷防治重點(diǎn)實(shí)驗(yàn)室,復(fù)旦大學(xué)兒童發(fā)育與疾病轉(zhuǎn)化醫(yī)學(xué)研究中心,衛(wèi)生部新生兒疾病重點(diǎn)實(shí)驗(yàn)室,復(fù)旦大學(xué)附屬兒科醫(yī)院 上海,201102;5 共同第一作者
周文浩,E-mail:zwhchfu@126.com
10.3969/j.issn.1673-5501.2015.01.004
2015-01-03
2015-01-30)