鄭昭璟,傅啟華
(上海交通大學醫(yī)學院附屬上海兒童醫(yī)學中心,上海 200127)
遺傳性疾病是影響人民群眾、尤其是兒童健康的重要因素。遺傳性疾病病種多、臨床表現(xiàn)復(fù)雜多樣、分子機制復(fù)雜,是臨床診療工作中的一大挑戰(zhàn)。截止2018年9月,人類孟德爾遺傳在線數(shù)據(jù)庫(OMIM)收錄的已明確分子遺傳機制的疾病/表型已達6 259種,涉及3 961個基因[1]。分子診斷是遺傳性疾病實驗診斷的主要手段。目前傳統(tǒng)分子診斷技術(shù),如Sanger測序、qPCR等仍在遺傳性疾病實驗診斷工作中廣泛應(yīng)用。但隨著下一代測序(NGS)技術(shù)的長足進步、測序成本大幅降低、生物信息學分析能力大幅提升及大規(guī)模人群遺傳變異數(shù)據(jù)庫的建立,多種高通量基因組學診斷技術(shù),如全外顯子組測序(WES)等在遺傳性疾病的實驗診斷中的應(yīng)用日益廣泛。
WES在臨床診斷中的推廣,一方面顯著加快了疾病致病基因的發(fā)現(xiàn)[2]、促進了對遺傳性疾病分子遺傳機制的認識;另一方面也顯著提升了遺傳性疾病的診斷能力。但在臨床實際應(yīng)用過程中,WES對不同疾病/表型的診斷效能、在不同類型遺傳變異的檢測性能上仍存在較大的差異。與此同時,隨著技術(shù)的進一步完善、特別是生物信息學算法的進展,WES在遺傳性疾病實驗診斷中出現(xiàn)了許多新情況,值得進一步關(guān)注。
1.1單核苷酸變異(SNV)和小插入/缺失變異(Indel) 據(jù)估計,95%致病性基因變異存在于人類基因組中包含的約20 000個蛋白編碼基因序列中[3],因此WES可以高效地檢測與遺傳性疾病致病相關(guān)的罕見SNV/Indel。迄今,已有大量研究分析評估了WES的診斷效能,發(fā)現(xiàn)WES對遺傳性疾病的臨床分子診斷率為25%~50%,在成年患者(大于18歲)中診斷率稍低[4-9]。由于技術(shù)的快速發(fā)展和新致病基因的快速發(fā)現(xiàn),對WES數(shù)據(jù)進行重分析能夠進一步提升其診斷率[10-11]。
WES檢測SNV/Indel性能的高低除了受到實驗因素的影響外,還與生物信息學分析過程中所用的算法直接相關(guān)。Bowtie、BWA、Novoalign、SOAP及MOSAIK等是臨床WES數(shù)據(jù)分析中常用的比對軟件,而GATK、SAMTools、FreeBayes及DeepVariant等都是常用的變異識別軟件。變異識別軟件也與測序平臺和數(shù)據(jù)類型有關(guān),GATK適合于Illumina平臺測序數(shù)據(jù)[12],分析WES的數(shù)據(jù)表現(xiàn)最好[13];而SAMTools更適合Ion Torrent的測序數(shù)據(jù)[14],且更適合分析全基因組測序(WGS)數(shù)據(jù)[13]。在WES數(shù)據(jù)的實際分析過程中,比對軟件和變異識別軟件組成一個完整的變異識別流程(pipeline),結(jié)合下游分析,最后可得到針對每個患者的分子診斷結(jié)論。但迄今尚無任何一個比對軟件和變異識別軟件的組合能夠?qū)λ凶儺愡M行可靠的識別,而盲目使用多種工具可能導(dǎo)致更多錯誤的結(jié)果[15]。因此,正確評估各個工具的性能,并將其組合成一個完整的變異識別流程對WES的總體檢測性能來說就顯得非常重要。KUMARAN等[16]研究發(fā)現(xiàn),針對WES檢測SNV/Indel而言,BWA及Novoalign與DeepVariant的工具組合表現(xiàn)出最佳的性能。
1.2拷貝數(shù)變異(CNV) CNV是發(fā)育遲緩、智力障礙、多發(fā)畸形及自閉癥譜系障礙等疾病的重要致病原因,已有多個國內(nèi)外指南/專家共識建議染色體芯片分析(CMA)作為上述疾病的一線分子診斷方法[17-19]。隨著WES在遺傳性疾病分子診斷中的廣泛應(yīng)用,基于WES測序數(shù)據(jù)進行CNV的檢測已日益引起重視。迄今,臨床常用的軟件/算法已超過20多種,如XHMM、CNVkit、Condors、ExomeDepth等。其中大多數(shù)算法工具均根據(jù)測序片段的測序深度實現(xiàn)CNV的檢測,主要包括以下幾個主要步驟:目標區(qū)域測序深度計算、歸一化(normalization)、片段化(segmentation)及CNV檢測。研究表明,任何一種算法盡管存在各自的優(yōu)勢和特點,但總體而言其檢測CNV的性能尚有較大的局限性[20-21]。
PFUNDT等[22]對2 603例遺傳性疾病臨床病例WES數(shù)據(jù)進行分析,檢出123個致病性CNV,大小從727 bp至15.3 Mb不等,總體診斷率提高約2%。MARCHUK等[23]研究表明,利用ExomeDepth軟件對WES數(shù)據(jù)分析CNV,對于高覆蓋度區(qū)域的缺失型CNV檢測靈敏度可達89%,重復(fù)型CNV則為65%。672例臨床樣本中,ExomeDepth分析CNV可增加1.6%的診斷率。TSUCHIDA等[24]則發(fā)現(xiàn)在WES檢測SNV/Indel結(jié)果陰性的癲癇患者中,致病性CNV檢出率高達10.7%(18/168),且最小的CNV大小在10 kb以下,據(jù)此作者認為CNV分析應(yīng)作為所有臨床WES檢測的有機組成部分。
各種工具對CNV分析受到多種因素的影響,如參考樣本的選擇方法、參考樣本的數(shù)量、測序深度的均一性、目標區(qū)域的GC含量等。KUSMIREK等[25]發(fā)現(xiàn)參考樣本數(shù)據(jù)集正確選擇與否將極大地影響CNV的檢出率(k均數(shù)法優(yōu)于基于kNN的算法)。他們的研究還表明,通過適當減少參考樣本的數(shù)量,在不降低檢測敏感性的同時將增加特異性。RETTERER等[26]發(fā)現(xiàn)有10.3%的樣本噪音大,檢出的CNV數(shù)量異常增高,具體原因不詳。與手工法相比,自動化測序文庫制備可以保證實驗條件更加均一和穩(wěn)定,提高雜交效率、減少信號偏倚,能夠更好保證CNV 的檢測。
值得注意的是,較之CMA,基于WES數(shù)據(jù)分析可以檢出大量臨床意義未明(VOUS)的CNV,如基因啟動子區(qū)、未翻譯區(qū)、內(nèi)含子區(qū)等的CNV。此類CNV致病性的判斷及明確其與臨床疾病/表型的關(guān)系取決于大量數(shù)據(jù)的積累及針對此類CNV建立科學的分類判讀標準和規(guī)則[27-28]。
1.3嵌合變異 由于Sanger測序技術(shù)本身的局限性,遺傳性疾病中嵌合變異的檢測一直是個難題,而WES技術(shù)因其具有檢測低豐度基因變異的能力顯著提高了此類變異在遺傳性疾病,如神經(jīng)發(fā)育性疾病[29]、先天性心臟病[30]、自閉癥[31-32]等中的檢出率。ACUNA-HIDALGO等[33]通過對50個核心家系中檢出的107個新生(de novo)變異進行分析后發(fā)現(xiàn),有7個(6.5%)的所謂“新生”胚系變異實為嵌合變異。同時通過進一步分析發(fā)現(xiàn),在50例先證者中存在的總計4 081個新生變異中4個變異同樣能夠在父母一方中檢出。據(jù)此作者認為,迄今有相當一部分新生變異可能是從其攜帶低水平嵌合變異的無癥狀父母遺傳而來。CAO等[34]通過對12 000個WES樣本的系統(tǒng)研究發(fā)現(xiàn),約有1.5% 的陽性病例是由于嵌合變異而導(dǎo)致的,而在所有分析的家系中有0.3%的父母攜帶了嵌合變異。
WES屬于高度復(fù)雜的實驗診斷項目,主要可分為濕實驗(wet bench)和干實驗(dry bench)。濕實驗是從樣本基因組DNA提取純化直至獲得原始測序數(shù)據(jù)的過程,而干實驗涵蓋了原始測序數(shù)據(jù)分析處理直至過濾篩選出能夠解釋受檢者臨床表現(xiàn)/表型的候選致病性或可能致病性變異的環(huán)節(jié)。WES應(yīng)用于遺傳性疾病實驗診斷須進行充分的性能驗證,同時執(zhí)行嚴格的質(zhì)量管理才能保證檢測結(jié)果準確、可靠,才能為遺傳性疾病臨床診療提供保障。
2.1性能驗證 作為臨床實驗診斷項目,任何一個開展WES檢測的實驗室必須對其進行充分的性能驗證以明確其特異度、敏感度、最低檢測限、可報告范圍等指標,提高WES檢測的臨床可信度[35-37]。WES是高度復(fù)雜的實驗診斷項目,涉及很多步驟,在項目開發(fā)階段可根據(jù)試劑盒、儀器及軟件說明書或文獻進行經(jīng)驗性優(yōu)化以實現(xiàn)其預(yù)設(shè)目標,但在性能驗證階段則需對WES的整個過程(濕實驗和干實驗)進行系統(tǒng)評估。濕實驗方面,標準品NA12878可作為實驗樣本,該標準品的全基因組數(shù)據(jù)集已被充分研究并用于多個基于NGS的方法性能驗證;干實驗方面,除了NA12878的數(shù)據(jù)集,HapMap、1000 Genome數(shù)據(jù)集及另一個全基因組數(shù)據(jù)集(NA19240)也可作為虛擬樣本用于WES的性能驗證。
2.2濕實驗的質(zhì)量管理 隨著近十年來NGS技術(shù)在臨床的廣泛應(yīng)用,已初步探索建立了NGS技術(shù)應(yīng)用的質(zhì)量標準和規(guī)范[35-37],這些標準和規(guī)范同樣適用于WES技術(shù)。臨床WES檢測的質(zhì)量管理主要分為日常質(zhì)量控制和周期性實施的質(zhì)量保證兩部分。WES日常質(zhì)量控制中,在污染風險較高的實驗步驟,如上機測序前的測序文庫準備過程中可以設(shè)立無模板的空白對照防止環(huán)境DNA 的污染。在實際工作中,通常在目標片段末端加上一段特異識別序列(barcode或index)以保證多個樣本同時進行測序,但所用的特異識別序列應(yīng)有一個以上的堿基差異,以避免在測序過程中發(fā)生錯誤導(dǎo)致樣本混淆。在濕實驗中,根本原則是要在整個WES過程中保證樣本的完整和正確。為實現(xiàn)這個目的,常用的手段包括利用單核苷酸多態(tài)性(SNP)芯片[26]或利用其他技術(shù)通過對一組高頻SNP組合[38]進行基因分型從而完成樣本“身份”驗證。
通過參加實驗室外部的能力驗證(PT)活動或其他替代評估活動可以對WES檢測進行周期性、持續(xù)性的質(zhì)量保證。近兩年來,國家衛(wèi)生健康委員會臨床檢驗中心(NCCL)已開展遺傳病胚系變異檢測的室間質(zhì)評活動(EQA),這必將對促進臨床實驗室WES的質(zhì)量管理發(fā)揮積極的促進作用。
2.3干實驗的質(zhì)量管理 有效實施WES干實驗的質(zhì)量管理的基礎(chǔ)是合理選擇質(zhì)量參數(shù)(quality metrics)并合理設(shè)置相應(yīng)的閾值,如平均測序深度、最低測序深度、Q20、Q30等[35-36]。對任何一個WES樣本,日常質(zhì)量控制的首要目標是評估其是否符合設(shè)定的質(zhì)量參數(shù)閾值,由此可及時發(fā)現(xiàn)質(zhì)量參數(shù)低于閾值的WES樣本并及時增加測序數(shù)據(jù)量或重新實驗以保證后續(xù)下游分析結(jié)果的準確可靠。目前已有多種軟件工具可以幫助完成此類常規(guī)質(zhì)控工作任務(wù),如ChronQC[39]。
WES干實驗的持續(xù)質(zhì)量保證措施包括建立相應(yīng)的工作程序進行軟件版本管理并及時監(jiān)控軟件更新,對參考序列和數(shù)據(jù)庫進行周期性審核以確保正確的分析結(jié)果,以及參與實驗室外部的PT或EQA活動。目前,可以通過計算機模擬生成涵蓋各種變異類型、數(shù)量不等的數(shù)據(jù)集用于干實驗的PT(即in silico PT),這種形式的PT與傳統(tǒng)PT相比,測試的變異數(shù)量和類型更多、更方便,成本也更低[40]。
已有大量的研究評估了WES在遺傳性疾病分子診斷中的效能和個體實驗室的檢測性能表現(xiàn),但對各實驗室產(chǎn)生的數(shù)據(jù)質(zhì)量很少進行過系統(tǒng)比較,這對全面了解臨床實驗室WES應(yīng)用現(xiàn)狀無疑是十分不利的。GOTWAY等[41]的研究表明,來自于不同實驗室的WES數(shù)據(jù)在基因覆蓋質(zhì)量上呈現(xiàn)出很大的不一致性。這種多個實驗室間WES基因覆蓋度一致性低的原因可能部分與不同的WES捕獲試劑盒有關(guān)。該研究中WES數(shù)據(jù)來自3家不同的臨床實驗室,分別使用了羅氏Nimblegen VCRome v2.0/IDT xGen Exome Research Panel v1.0、羅氏Nimblegen VCRome v2.1及安捷倫SureSelect XT2 All Exon v4/安捷倫Clinical Research Exome捕獲試劑盒。不同廠家的WES捕獲試劑盒由于基因覆蓋范圍(側(cè)翼序列長度、UTR)、探針類型及長度等的不同因此具有不同的側(cè)重點,自然會導(dǎo)致檢出的基因變異、數(shù)量、質(zhì)量等方面存在差異[42]。GOTWAY等[41]在研究中發(fā)現(xiàn),在來自3家不同臨床實驗室的36個WES樣本中,測序完整覆蓋的CCDS基因數(shù)量最高可達15 196個,而最低的基因數(shù)量僅為3 139,覆蓋最差的樣本CCDS基因數(shù)量僅為覆蓋較好樣本基因數(shù)量的四分之一。因此,在WES臨床實際應(yīng)用中,特別是在WES檢測結(jié)果陰性的時候,需要重點關(guān)注臨床疾病/表型密切相關(guān)致病基因的覆蓋水平,以免假陰性的發(fā)生。
WES對遺傳性疾病的實驗診斷發(fā)揮了巨大的提升作用,隨著WES 的臨床應(yīng)用日趨廣泛和規(guī)范,需要更加深入的研究其診斷效能和臨床效能。與此同時,CNV分析、AOH/UPD分析及短串聯(lián)重復(fù)序列分析等基于WES測序數(shù)據(jù)的新型分析手段積極促進了WES總體診斷率的提升,但上述這些新型分析手段尚需進一步改善檢測性能及深入的性能評估。
WES作為遺傳性疾病實驗診斷方法,除了本身技術(shù)性能的進一步提升和系統(tǒng)評估外,還涉及系列基礎(chǔ)設(shè)施的建設(shè),如外顯子水平的CNV數(shù)據(jù)庫和知識庫的建立、人工智能在基因變異過濾和篩選中的應(yīng)用、人類疾病表型的精確特征化等。隨著WES臨床推廣應(yīng)用日益普及和精準診斷需求的持續(xù)攀升,WES必將極大促進遺傳性疾病實驗診斷。