黎籽秀 劉 博 徐凌麗 楊 琳 王慧君 周文浩
?
·講座·
高通量測序數(shù)據(jù)分析和臨床診斷流程的解讀
黎籽秀1劉 博2徐凌麗3楊 琳3王慧君4周文浩4
高通量測序技術(shù)也稱二代測序技術(shù),可以一次對幾十至幾百萬條短序列片段同時進行測定。該技術(shù)的出現(xiàn)使研究者可以對一個物種的基因組、轉(zhuǎn)錄組和表觀遺傳組進行全面的分析?;蚪M二代測序可用于對全基因組、全外顯子組或感興趣的特定區(qū)域進行序列測定。通常,基因組二代測序的目的是檢測個體基因組范圍內(nèi)的遺傳變異,包括單堿基變異(SNVs)、插入缺失變異(Indels)、拷貝數(shù)變異(CNVs)和結(jié)構(gòu)變異(SVs),并最終篩選出致病突變[1]。
近年來,基因組二代測序開始逐步應用于臨床分子診斷[2~8],不僅能幫助醫(yī)生明確患者的遺傳學病因,指導治療及判斷預后,更重要的是可為遺傳咨詢提供明確的指導。根據(jù)患兒及其父母的遺傳信息,可判斷患兒致病成因是新生突變還是遺傳于父母,以此評估父母生育下一胎時的疾病遺傳風險,對家庭的“優(yōu)生”提供更好的指導。
基因組二代測序技術(shù)與傳統(tǒng)分子檢測技術(shù)不同,可以同時對大量基因進行檢測,一次性獲得海量的數(shù)據(jù)。因此,構(gòu)建一個基于遺傳性疾病診斷需要的基因組二代測序數(shù)據(jù)分析流程,以期從眾多變異中篩選出潛在致病突變,顯得尤為重要。復旦大學附屬兒科醫(yī)院轉(zhuǎn)化醫(yī)學中心團隊在美國貝勒醫(yī)學院人類與分子遺傳系的學習、交流和指導下,通過參閱既往數(shù)據(jù)分析相關(guān)文獻[1,2,9]以及建立流程的實際經(jīng)驗,建立一套高通量測序數(shù)據(jù)分析和臨床診斷流程(圖1),包括測序數(shù)據(jù)預處理及變異檢測、變異注釋、變異篩選和變異分類等,清晰地向臨床醫(yī)生展現(xiàn)了變異篩選過程的概況,使研究者聚焦到更具有生物學意義、臨床相關(guān)的變異,并為國內(nèi)開展基于基因組二代測序技術(shù)的遺傳性疾病診斷思考提供了基本路線圖。復旦大學附屬兒科醫(yī)院轉(zhuǎn)化醫(yī)學中心應用該流程分析了87例多發(fā)畸形患兒的WES數(shù)據(jù),得到的候選變異經(jīng)由遺傳??漆t(yī)生進行分析,檢出的陽性率為25%,與目前認為WES的檢出陽性率一致。
圖1 高通量測序數(shù)據(jù)分析和臨床診斷流程
基因組二代測序初始數(shù)據(jù)是由熒光或電信號組成的圖像信息,圖像信息可通過相應測序平臺提供的軟件經(jīng)堿基識別(Base Calling)轉(zhuǎn)化成FASTQ或FASTA格式的原始序列數(shù)據(jù)(Raw data)。Raw data去除接頭以及低質(zhì)量的讀序后,采用BWA軟件[10]將其定位到人類基因組的參考序列上,通過picard
(http://picard.sourceforge.net)和SAMtools軟件[10]將建庫過程中由于PCR擴增產(chǎn)生的冗余信息去掉。最后用GATK[11,12]檢測變異,包括SNVs和Indels。目前,測序數(shù)據(jù)預處理及變異檢測已形成較為成熟的生物信息分析流程。大多數(shù)測序公司均能提供完成此流程的服務。
基因組二代測序技術(shù)產(chǎn)生了大量的遺傳變異數(shù)據(jù),其中僅少數(shù)變異具有功能意義。為了從眾多變異中鎖定可能的致病突變,需要從不同層面對變異進行注釋。注釋過程主要通過ANNOVAR和VEP(Variant Effect Predictor)軟件及自行添加進行注釋。
ANNOVAR[13]是第一個對遺傳變異進行注釋的軟件。經(jīng)過ANNOVAR 的注釋,可對變異有多層面的了解,便于對其進行后續(xù)篩選。ANNOVAR對變異的注釋包括以下3個方面,①基因的注釋:注釋信息包括變異類型,引起蛋白質(zhì)一級結(jié)構(gòu)改變的情況等??梢造`活地使用RefSeq基因、UCSC基因、ENSEMBL基因、GENCODE基因或其他基因定義系統(tǒng)進行位點-基因定位注釋;②區(qū)域的注釋:對變異位點所處的基因組環(huán)境進行注釋,位點的基因組環(huán)境包括位點的保守性、轉(zhuǎn)錄因子、非轉(zhuǎn)錄RNA結(jié)合強弱和表觀遺傳標記物靶向性等信息;③過濾的注釋:其注釋結(jié)果可對變異進行后續(xù)篩選,包括變異在不同群體頻率的注釋,變異位點在dbSNP的注釋,位點對蛋白質(zhì)三維結(jié)構(gòu)影響預測的注釋,位點與疾病關(guān)聯(lián)的注釋。
VEP[14]是Ensembel和Ensembel基因組最常用的工具之一,用以研究變異對基因、轉(zhuǎn)錄本、蛋白質(zhì)和調(diào)控區(qū)域所造成的影響。
雖同為變異注釋軟件,但VEP與ANNOVAR存在區(qū)別,①ANNOVAR選用NCBI的RefSeq參考序列注釋,VEP選用Ensembl的轉(zhuǎn)錄本集合作為參考序列注釋;②注釋策略存在差異,ANNOVAR注釋為同義突變的位點,VEP可能將其注釋為錯義突變。因此,2個注釋軟件針對同一個變異的注釋結(jié)果可進行相互補充。
除使用上述2個軟件進行注釋外,還有諸如蛋白質(zhì)序列數(shù)據(jù)庫(Swiss-Prot)、人類基因突變數(shù)據(jù)庫(HGMD)以及內(nèi)部數(shù)據(jù)庫(in-house database)等提供的重要參考信息需要人工添加進行注釋。
2.1 基因注釋參考的數(shù)據(jù)庫
2.1.1 The Reference Sequence(RefSeq) http://www.ncbi.nlm.nih.gov/refseq/。RefSeq是美國國家生物信息技術(shù)中心(NCBI)提供的具有生物學意義的非冗余的DNA、RNA和蛋白質(zhì)參考序列數(shù)據(jù)庫。RefSeq為基因注釋,突變及多態(tài)性分析,基因表達研究等提供了重要的參考標準[15]。RefSeq提供了基因的染色體號、基因所在染色體位置、基因轉(zhuǎn)錄起始終止位點、翻譯起始終止位點和各個外顯子的起始終止位置等信息。使用RefSeq對變異位點進行基因注釋可明確發(fā)生變異的基因,變異所處基因功能區(qū)域,變異類型以及氨基酸改變的情況。
2.1.2 蛋白質(zhì)序列數(shù)據(jù)(Swiss-Prot) http://www.uniprot.org/。Swiss-Prot是一個人工注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。該數(shù)據(jù)庫中的所有條目均由分子生物學家和蛋白質(zhì)化學家通過計算機工具預測并查閱相關(guān)文獻進行仔細核實。Swiss-Prot數(shù)據(jù)庫是目前最全面的注釋蛋白質(zhì)序列庫,其目的是對蛋白質(zhì)提供全面的已知相關(guān)信息。許多序列分析軟件被用于Swiss-Prot條目注釋。軟件分析結(jié)果通過人工評估后,被選擇性地加入條目注釋中。數(shù)據(jù)庫中每個條目均有詳細的注釋,包括蛋白質(zhì)、基因名字、蛋白質(zhì)功能、表達模式、結(jié)構(gòu)域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體及其與疾病的關(guān)系等。Swiss-Prot目前包含547 357例條目,并與其他30多個數(shù)據(jù)庫交叉引用,例如PDB、OMIM和PROSTITE等。
2.2 變異/基因與疾病關(guān)系注釋參考的數(shù)據(jù)庫
2.2.1 人類基因突變數(shù)據(jù)庫(HGMD)[16]http://www.hgmd.cf.ac.uk/ac/index.php。HGMD由英國卡爾地夫醫(yī)學遺傳研究所構(gòu)建。HGMD用計算機和手工結(jié)合的方法從已發(fā)表在期刊中收集與人類遺傳疾病相關(guān)的突變信息,是目前收錄人類突變信息最全的數(shù)據(jù)庫。截至2014年12月18日,HGMD收錄疾病相關(guān)變異的數(shù)量在免費版本中為108 508個,在專業(yè)版本中為156 932個[17]。HGMD中記錄的突變信息包括突變類型列表、對應的疾病列表和相應的參考文獻。其中突變類型包括在編碼區(qū)、調(diào)控區(qū)和剪接區(qū)域中的大片段插入缺失、微片段插入缺失、基因組重組、重復變異、致病點突變、致病點移碼、致病點無義、影響可變剪接的變異和與疾病相關(guān)的多態(tài)性位點,包括在所研究的疾病組和對照組差異有統(tǒng)計學意義的位點和已被報道能影響基因表達或蛋白質(zhì)結(jié)構(gòu)和功能的位點。HGMD的免費版本只能在線查找基因變異信息[16]。
HGMD根據(jù)變異位點和疾病的關(guān)聯(lián)程度以及位點的突變類型等信息對位點進行分類,包括①致病突變(DM),即目前認為該突變能直接導致疾?。虎谝伤浦虏⊥蛔?DM?),即該變異曾被認為是致病突變,但基于基因組/群體篩查或其他發(fā)現(xiàn)該突變可能與病理無關(guān)或為中性突變。隨著突變信息的累積,若該變異被確認不是DM,可能會被徹底從數(shù)據(jù)庫刪除; ③疾病相關(guān)的多態(tài)性變異(DP),即疾病/表型顯著相關(guān)的多態(tài)性位點,根據(jù)位點復制、進化保守性等信息認為這些變異有一定的功能,但目前尚無功能實驗證實(如表達研究);④有功能證據(jù)支持的疾病相關(guān)多態(tài)性變異(DFP),即有功能實驗證實(如:表達結(jié)果改變,mRNA研究等)的疾病/表型顯著相關(guān)的多態(tài)性位點;⑤體外/實驗室或體內(nèi)功能的多態(tài)性變異(FP),即影響一個基因(或基因產(chǎn)物)的結(jié)構(gòu)、功能或表達,但目前尚未報道與疾病關(guān)聯(lián)的多態(tài)性位點;⑥移碼或truncating變異(FTV),即被預測能引起基因編碼蛋白質(zhì)的改變或截短,但目前未報道與疾病關(guān)聯(lián)或致病的變異。
DP、DFP、FP和FTV類型的變異約占HGMD報道變異的5.5%,同時,這4種類型的變異直接致病性證據(jù)不強,所以WES流程篩選罕見遺傳性疾病的致病突變時應當優(yōu)先關(guān)注DM和DM?。
2.2.2 在線人類孟德爾遺傳數(shù)據(jù)庫(OMIM)[18]http://omim.org/。OMIM是由美國約翰霍普金斯大學于1968年建立的關(guān)于人類基因和基因突變的數(shù)據(jù)庫。每日更新以提供全面而權(quán)威的基因遺傳和疾病表型信息,截至2014年12月15日,OMIM數(shù)據(jù)庫收錄了22 700個詞條;分子基礎(chǔ)已知的表型有5 369個,疾病基因有3 309個。OMIM條目包括基因和突變的文字描述、病例記錄、分子診斷、參考文獻和與其他數(shù)據(jù)庫的鏈接。
區(qū)別于HGMD提供基因所有的變異位點信息,大多數(shù)OMIM基因更關(guān)注疾病基因的第一個突變,對應表型最常見的突變以及具有不尋常特征的突變,包括特殊突變類型,特殊突變致病機制,特殊突變遺傳模式(如在相同基因中,部分突變?yōu)轱@性遺傳模式,部分為隱性遺傳模式)等。除此之外,OMIM提供較為全面的疾病臨床表型譜,為臨床醫(yī)生和研究者根據(jù)患者的表型信息對診斷疾病提供依據(jù)[19]。
OMIM數(shù)據(jù)庫存儲的疾病信息以孟德爾遺傳病為主,近年來也收錄了許多復雜疾病以及復雜疾病易感的多態(tài)性位點等信息[20]。因此,在研究罕見遺傳疾病時,需要對OMIM數(shù)據(jù)庫中的疾病分等級對待,具有OMIM號的單基因疾病優(yōu)先被考慮。
2.2.3 Clinvar[21]http://www.ncbi.nlm.nih.gov/clinvar/。為了促進和加速對基因型與表型之間關(guān)系的研究,NCBI于2013年4月正式啟動ClinVar公共免費數(shù)據(jù)庫。ClinVar數(shù)據(jù)庫旨在整合NCBI以及各種遺傳變異和臨床表型數(shù)據(jù)庫,通過標準的命名法來描述疾病,將變異、臨床表型、實證數(shù)據(jù)和功能注解與分析4個方面的信息,通過專家評審,逐步形成一個標準的、可信和穩(wěn)定的遺傳變異-臨床表型相關(guān)的數(shù)據(jù)庫。
ClinVar數(shù)據(jù)庫與其他“變異/基因-疾病”數(shù)據(jù)庫的重要區(qū)別在于該數(shù)據(jù)庫有一系列的專家小組對大量數(shù)據(jù)進行評估和歸納,能更好地理解基因型和重要表型之間的關(guān)系。對于感興趣的變異,ClinVar除了列舉突變類型,突變與疾病對應關(guān)系等基本信息外,還包括該變異的臨床意義(分為9個類別,其中類別4和5在尋找罕見遺傳性疾病候選突變時應優(yōu)先考慮),專家對變異與疾病關(guān)聯(lián)可信度的評價(分為4星級,變異和疾病的關(guān)聯(lián)可信度達到3星級以上則表明該變異已通過專家小組的評估審核,可明確變異和疾病存在關(guān)聯(lián)性)。2.3 突變頻率注釋參考的數(shù)據(jù)庫
2.3.1 千人基因組計劃(1000 Genome Project) http://www.1000genomes.org/ 。“千人基因組計劃”是2008年初由英國Sanger研究所、美國國立人類基因組和中國華大基因研究所共同啟動的、以二代測序技術(shù)為主導的人類基因組計劃三期工程。千人基因組的數(shù)據(jù)發(fā)現(xiàn),每個人平均攜帶250~300個未報道過的變異,其中50~100個變異與遺傳病有關(guān)[22]。千人基因組計劃項目的開展,不僅加速了對常見疾病易感性基因的發(fā)現(xiàn),還將加深對人類基因組結(jié)構(gòu)差異的認識,為解釋人類重大疾病的發(fā)病機制,開展疾病個性化預測、預防和治療奠定了基礎(chǔ)。千人基因組計劃完成了基因組科學從基礎(chǔ)向應用過渡的關(guān)鍵戰(zhàn)略轉(zhuǎn)移,有效地推進了臨床轉(zhuǎn)化醫(yī)學的興起和發(fā)展[23]。
2.3.2 The Exome Aggregation Consortium(ExAC) http://exac.broadinstitute.org/。ExAC是一個專門研究外顯子組測序數(shù)據(jù)的聯(lián)盟機構(gòu),整合了多個外顯子組測序計劃。截止于2014年12月3日,數(shù)據(jù)庫收錄了91 796個樣本的外顯子測序數(shù)據(jù),其中包括61 486個獨立樣本的數(shù)據(jù)。為了更好地統(tǒng)計變異頻率,ExAC使用相同的測序數(shù)據(jù)預處理及變異檢測分析流程對外顯子測序數(shù)據(jù)進行處理,即以GRCH37/hg19基因組作為人類基因組參考序列,用dbSNP135對變異進行注釋。ExAC是目前收錄不包含嚴重兒童疾病樣本的最大數(shù)據(jù)庫,因此該數(shù)據(jù)庫能更好地作為研究兒童孟德爾遺傳病的對照[24]。
2.4 變異預測注釋參考的軟件
2.4.1 SIFT(Sorting Intolerant From Tolerant)[25,26]http://sift.jcvi.org/。SIFT是一種基于序列同源性對氨基酸的替換容忍度進行評分,以預測氨基酸替換是否影響表型的軟件。2001年,Ng和Henikoff發(fā)現(xiàn)重要的氨基酸位點在蛋白質(zhì)家族序列中較為保守,這些保守位點上發(fā)生的氨基酸替換更有可能影響蛋白質(zhì)功能?;谠摷僭O,Ng和Henikoff采用位置相關(guān)評分矩陣(PSSM)來描述序列保守性信息[27],開發(fā)了預測錯義突變對蛋白質(zhì)功能影響的軟件SIFT。SIFT分數(shù)歸一化后范圍為0~1,其中,分數(shù)<0.05是有害替換(Deleterious),≥0.05是可容忍的替換(Tolerate)。值得注意的是,應用SIFT軟件對錯義突變進行功能預測的前提是必須有足夠的同源序列,否則其預測精度將下降,甚至無法進行預測[28]。
2.4.2 Polyphen-2 (Polymorphism Phenotyping v2)[29]http://genetics.bwh.harvard.edu/pph2/。Polyphen-2是通過整合蛋白質(zhì)序列和蛋白質(zhì)三維結(jié)構(gòu)特征,來預測人類蛋白質(zhì)的氨基酸替換對結(jié)構(gòu)和功能影響的軟件。采用貪婪迭代算法,從19個基于序列和13個基于結(jié)構(gòu)的特征中,自動選取了8個基于序列和3個基于結(jié)構(gòu)的特征來進行預測。其中序列特征包括變異位點所處于在蛋白質(zhì)結(jié)構(gòu)域(Pfam)的位置信息,是否導致CpG位點發(fā)生轉(zhuǎn)換(Transition)等,蛋白質(zhì)結(jié)構(gòu)特征包括溶劑可及性、SNP位點在 β鏈或活動區(qū)域的位置等。該方法有較高敏感度和特異度的前提是有可靠的蛋白質(zhì)結(jié)構(gòu)信息進行參考。Pholyphen-2有HumVar和HumDiv兩種模型。在對于孟德爾遺傳病的診斷分析中,HumVar模型產(chǎn)生的分數(shù)更適用于診斷。運行Pholyphen-2算法進行打分后,分數(shù)的范圍為0~1。分數(shù)越高的替換意味著有越大的破壞蛋白功能的可能,如果分數(shù)在0.957~1,其相應的預測結(jié)果為“probably damage”,在0.453~0.956為“possible damage”,在0~0.452為“benign”。
2.4.3 MutationTaster[30]http://www.mutation-taster.org/。MutationTaster是通過使用進化保守性、剪切位點改變和mRNA水平的變化引起的蛋白質(zhì)特征丟失等信息,來評估序列變異帶來的致病可能性的軟件。HGMD專業(yè)版本中提供的390 000個已知致病突變位點信息作為陽性數(shù)據(jù)集,千人基因組計劃中>6 800 000個無致病突變的多態(tài)性信息作為陰性數(shù)據(jù)集,用貝葉斯分類算法對陰、陽性數(shù)據(jù)集建模,對感興趣的位點進行預測,預測結(jié)果的分數(shù)為0~1,分數(shù)越高意味著致病可能性越大,根據(jù)預測提示的分數(shù)及先驗信息校正后,軟件會對變異的致病可能性進行分類,具體說明如下:①A:disease_causing_automatic,變異在ClinVar中標記為致病性或者該變異是導致終止密碼子提前的無義突變;②D: disease_causing,變異被軟件預測為致病性突變;③N: polymorphism,變異被軟件預測為多態(tài)性;④P: polymorphism_automatic,變異在HapMap數(shù)據(jù)中存在3種基因型 AA、AB和BB或在千人基因組計劃數(shù)據(jù)集中顯示純合突變頻數(shù)>4。
3.1 質(zhì)量控制 針對某個特定位點,若覆蓋該位點的讀序總數(shù)小于覆蓋該位點變異和未變異堿基的讀序數(shù)目之和,則表明該位點的質(zhì)量未達標,應將其去除。該篩選過程可將小部分的SNVs和約一半的Indels篩除。
3.2 頻率篩選 基因變異程度可根據(jù)最小等位基因頻率(MAF)進行劃分。MAF值5%~50%的變異為常見變異,1%~5%為少見變異,<1%則為罕見變異[31]?;诤币娂膊∈怯珊币娮儺愃鶎е碌倪@一假說,在研究罕見疾病的致病變異時,應去除非罕見變異。
基于變異頻率的篩選方式為:① 變異已被HGMD報道,表明該變異更有可能與疾病相關(guān),此時將注釋的公共數(shù)據(jù)庫的變異頻率篩選閾值設置為5%。②變異未被HGMD報道,此時將注釋的公共數(shù)據(jù)庫的變異頻率篩選閾值設置為1%[2]。③如果研究機構(gòu)擁有收錄不同疾病患者信息的內(nèi)部數(shù)據(jù)庫,若變異在內(nèi)部數(shù)據(jù)庫10%的家系中出現(xiàn),則應當去除該變異;當內(nèi)部數(shù)據(jù)庫中無關(guān)個體數(shù)量達到1 000例時,篩選閾值可降至4%。使用內(nèi)部數(shù)據(jù)庫的優(yōu)勢在于:一方面內(nèi)部數(shù)據(jù)庫位點的變異頻率更符合中國人群的變異頻率,另一方面可去除由相同測序平臺導致的系統(tǒng)誤差。
3.3 分類篩選 根據(jù)所處基因組位置的不同,可將變異分為編碼區(qū)變異和非編碼區(qū)變異。研究發(fā)現(xiàn),85%的致病突變都位于編碼區(qū)中,其中絕大部分位于外顯子上;極少數(shù)位于內(nèi)含子上,可通過影響基因的可變剪接致病[32]。沒有被HGMD報道的位于非編碼區(qū)的變異,或者距離外顯子區(qū)>5 bp的內(nèi)含子變異(不能影響mRNA的剪接)被篩選掉[2]。
保留下來的突變,根據(jù)突變對蛋白質(zhì)序列影響的不同,可以分為同義突變、錯義突變、無義突變、終止密碼突變、剪接位點突變、移碼突變和整碼突變。無義突變、剪接位點突變和移碼突變被稱為truncating突變,能造成蛋白質(zhì)缺失。同義突變不會引起蛋白質(zhì)一級結(jié)構(gòu)的改變,整碼突變與終止密碼突變雖然一定程度上改變蛋白質(zhì)一級結(jié)構(gòu),但由于保留了基因閱讀框的次序,所以一般情況下不會造成蛋白質(zhì)的功能缺陷。因此,尋找罕見疾病的候選致病突變優(yōu)先考慮能引起蛋白質(zhì)功能缺陷的變異。
本文通過參閱ACMG(American College of Medical Genetics)[33]對變異的分類標準,并結(jié)合實際研究經(jīng)驗,基于基因是否在OMIM/HGMD中被報道為致病基因,同時考慮突變頻率和類型,既往報道和臨床表現(xiàn),根據(jù)變異的臨床可信度對變異進行分類。
4.1 已報道致病突變位點 已經(jīng)被報道為致病突變,并且既往報道該變異導致疾病的表型譜和患者的臨床表型相符。
4.2 新突變但預測為致病突變 包括無義突變、終止密碼突變、起始密碼子(ATG)突變、移碼突變和剪接供體/受體突變。
4.3 新突變致病性不明確 包括剪接共有序列突變、錯義突變和整碼突變。
4.4 報道與臨床表型相關(guān)聯(lián)但致病性不明確 即通過全基因組關(guān)聯(lián)分析(GWAS)得到的與復雜疾病易感性相關(guān)的變異。
4.5 其他 不滿足上述4類的變異,如:尚不認為能導致疾病的新變異,新發(fā)的同義突變;已報道為中性突變的變異;在公共數(shù)據(jù)庫中有一定突變頻率的罕見變異,這類罕見變異部分可構(gòu)成常染色體隱性遺傳模式而致病。
針對候選致病突變,應當進一步具體結(jié)合相關(guān)疾病的遺傳模式以及患者實際的臨床表型進行綜合判斷。
就單基因病的常染色體遺傳模式而言,如果疾病為常染色體顯性遺傳模式,則其致病基因一般僅發(fā)生單個位點的嚴重突變,且該突變在正常人群中極有可能為新發(fā)突變。如果疾病為常染色體隱性遺傳模式,則其致病基因上將發(fā)生至少2個嚴重突變。符合這種遺傳模式的突變,可在正常人群中有一定的突變頻率,但一般情況下不會出現(xiàn)純合子[2]。若在致病基因上發(fā)生的突變不符合相關(guān)疾病的遺傳模式(如疾病為常染色體隱性遺傳模式,但在該疾病相關(guān)基因上僅發(fā)生單位點雜合突變),該突變位點應當被滯后考慮[38]。
對于患者的潛在致病突變,須將其臨床表型與突變基因?qū)谋硇妥V進行比對。收集諸如患者病歷、家族史等信息,將有助于明確患者的致病成因[1]。
[1]Bao R, Huang L, Andrade J, et al. Review of current methods, applications, and data management for the bioinformatics analysis of whole exome sequencing. Cancer Inform, 2014, 13(Suppl 2):67-82
[2]Yang Y, Muzny DM, Reid JG, et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N Engl J Med, 2013, 369(16):1502-1511
[3]Lee H, Deignan JL, Dorrani N, et al. Clinical exome sequencing for genetic identification of rare Mendelian disorders. JAMA, 2014, 312(18):1880-1887
[4]Dewey FE, Grove ME, Pan C, et al. Clinical interpretation and implications of whole-genome sequencing. JAMA, 2014, 311(10):1035-1045
[5]Berg JS. Genome-scale sequencing in clinical care: establishing molecular diagnoses and measuring value. JAMA, 2014, 312(18):1865-1867
[6]Need AC, Shashi V, Hitomi Y, et al. Clinical application of exome sequencing in undiagnosed genetic conditions. J Med Genet, 2012, 49(6):353-361
[7]Yang Y, Muzny DM, Xia F, et al. Molecular findings among patients referred for clinical whole-exome sequencing. JAMA, 2014, 312(18):1870-1879
[8]Eng CM, Yang Y, Plon SE. Genetic diagnosis through whole-exome sequencing. N Engl J Med, 2014, 370(11):1068
[9]Wu L, Schaid DJ, Sicotte H, et al. Case-only exome sequencing and complex disease susceptibility gene discovery: study design considerations. J Med Genet, 2015, 52(1):10-16
[10]Li H, Handsaker B, Wysoker A, et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics, 2009, 25(16):2078-2079
[11]McKenna A, Hanna M, Banks E, et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res, 2010, 20(9):1297-1303
[12]Van der Auwera GA, Carneiro MO, Hartl C, et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics, 2013, 11(1110):11.10.1-11.10.33
[13]Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res, 2010, 38(16):e164
[14]McLaren W, Pritchard B, Rios D, et al. Deriving the consequences of genomic variants with the Ensembl API and SNP Effect Predictor. Bioinformatics, 2010, 26(16):2069-2070
[15]Maglott DR, Katz KS, Sicotte H, et al. NCBI′s LocusLink and RefSeq. Nucleic Acids Res, 2000, 28(1):126-128
[16]Stenson PD, Ball EV, Mort M, et al. Human Gene Mutation Database (HGMD): 2003 update. Hum Mutat, 2003, 21(6):577-581
[17]Stenson PD, Mort M, Ball EV, et al. The Human Gene Mutation Database: building a comprehensive mutation repository for clinical and molecular genetics, diagnostic testing and personalized genomic medicine. Hum Genet, 2014, 133(1):1-9
[18]Schorderet DF. Using OMIM (On-line Mendelian Inheritance in Man) as an expert system in medical genetics. Am J Med Genet, 1991, 39(3):278-284
[19]Zhuang YL(莊永龍), Zhou M, Li YD, et al. The Application of Human Mutation Databases. Hereditas(Beijing)(遺傳), 2004, 26(4):514-518
[20]Amberger JS, Bocchini CA, Schiettecatte F, et al. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Res, 2015, 43(Database issue):789-798
[21]Landrum MJ, Lee JM, Riley GR, et al. ClinVar: public archive of relationships among sequence variation and human phenotype. Nucleic Acids Res, 2014, 42(Database issue):980-985
[22]1000 Genomes Project Consortium, Abecasis GR, Altshuler D, Auton A, et al.A map of human genome variation from population-scale sequencing.Nature, 2010,467(7319):1061-1073
[23]1000 Genomes Project Consortium, Abecasis GR, Altshuler D, et al. A map of human genome variation from population-scale sequencing. Nature, 2010, 467(7319):1061-1073
[24]http://macarthurlab.org/2014/11/18/a-guide-to-the-exome-aggregation-consortium-exac-data-set/
[25]Sim NL, Kumar P, Hu J, et al. SIFT web server: predicting effects of amino acid substitutions on proteins. Nucleic Acids Res, 2012, 40(Web Server issue):452-457
[26]Ng PC, Henikoff S. Predicting deleterious amino acid substitutions. Genome Res, 2001, 11(5):863-874
[27]Ng PC, Henikoff S. Predicting the effects of amino acid substitutions on protein function. Annu Rev Genomics Hum Genet, 2006, 7:61-80
[28]Kumar P, Henikoff S, Ng PC. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc, 2009, 4(7):1073-1081
[29]Adzhubei IA, Schmidt S, Peshkin L, et al. A method and server for predicting damaging missense mutations. Nat Methods, 2010, 7(4):248-249
[30]Schwarz JM, R?delsperger C, Schuelke M, et al. MutationTaster evaluates disease-causing potential of sequence alterations. Nat Methods, 2010, 7(8):575-576
[31]Sui WG(眭維國), Li LP, Che WT, et al. 人類遺傳疾病中常見變異和罕見變異的研究策略. Int J Lab Med(國際檢驗醫(yī)學雜志), 2011, 32(16):1847-1850
[32]Robinson PN, Krawitz P, Mundlos S. Strategies for exome and genome sequence data analysis in disease-gene discovery projects. Clin Genet, 2011, 80(2):127-132
[33]Richards CS, Bale S, Bellissimo DB, et al. ACMG recommendations for standards for interpretation and reporting of sequence variations: Revisions 2007. Genet Med, 2008, 10(4):294-300
[34]Ng SB, Bigham AW, Buckingham KJ, et al. Exome sequencing identifies MLL2 mutations as a cause of Kabuki syndrome. Nat Genet, 2010, 42(9):790-793
[35]Robinson PN, K?hler S, Oellrich A, et al. Improved exome prioritization of disease genes through cross-species phenotype comparison. Genome Res, 2014, 24(2):340-348
[36]Pippucci T, Parmeggiani A, Palombo F, et al. A novel null homozygous mutation confirms CACNA2D2 as a gene mutated in epileptic encephalopathy. PLoS One, 2013, 8(12):e82154
[37]Smedley D, K?hler S, Czeschik JC, et al. Walking the interactome for candidate prioritization in exome sequencing studies of Mendelian diseases. Bioinformatics, 2014, 30(22):3215-3222
[38]Zemojtel T, K?hler S, Mackenroth L, et al. Effective diagnosis of genetic disease by computational phenotype analysis of the disease-associated genome. Sci Transl Med, 2014, 6(252):252ra123
(本文編輯:張崇凡)
首都醫(yī)科大學附屬北京兒童醫(yī)院2015年國家級繼續(xù)醫(yī)學教育項目(一)
10.3969/j.issn.1673-5501.2015.01.003
上海市衛(wèi)生局重要疾病攻關(guān)項目:2013ZYJB0015;上海市科委/醫(yī)學領(lǐng)域重點項目子課題:14411950402,14DJ1400103;上海市衛(wèi)計委項目:滬衛(wèi)計科教〔2013〕018號
1 復旦大學生物統(tǒng)計學與計算生物學系 上海,200433;2 華中農(nóng)業(yè)大學 武漢,430072;3 復旦大學附屬兒科醫(yī)院 上海,201102;4 上海市出生缺陷防治重點實驗室,復旦大學兒童發(fā)育與疾病轉(zhuǎn)化醫(yī)學研究中心,衛(wèi)生部新生兒疾病重點實驗室,復旦大學附屬兒科醫(yī)院 上海,201102
周文浩,E-mail:zwhchfu@126.com
2014-12-17
2015-01-20)