国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

復(fù)旦大學(xué)附屬兒科醫(yī)院高通量測序數(shù)據(jù)一體化全流程閉環(huán)分析系統(tǒng)及臨床應(yīng)用案例分析

2022-12-15 02:00董欣然王慧君吳冰冰王雅瓊周文浩盧宇藍(lán)
中國循證兒科雜志 2022年3期
關(guān)鍵詞:表型變異基因組

陳 賓 董欣然 王慧君 吳冰冰 楊 琳 王 瀟 王雅瓊 倪 琦 李 川 周文浩 盧宇藍(lán)

高通量測序技術(shù)或稱下一代測序技術(shù)(NGS),自2010年起應(yīng)用于遺傳病的臨床遺傳檢測[1-3]。根據(jù)構(gòu)建測序文庫的方法不同,檢測基因組DNA的NGS分為外顯子組捕獲測序(ES)和全基因組測序(WGS)。ES富集外顯子區(qū)進(jìn)行測序,包括全外顯子組測序(WES)、臨床外顯子組測序(CES)和基因包測序(panel)。WGS則直接測序整個(gè)基因組DNA。ES主要檢出單核苷酸變異(SNV)和小插入/缺失(Indel),也可分析拷貝數(shù)變異(CNV)[4,5]和雜合性缺失(LOH)[6]等特殊類型的變異, 但檢測范圍僅局限在捕獲區(qū)域附近。WGS除了能檢測ES所覆蓋的變異類型之外,還能檢測到更復(fù)雜的結(jié)構(gòu)變異且檢測范圍覆蓋整個(gè)基因組。

本研究團(tuán)隊(duì)于2015至2018年建立了ES的臨床遺傳病診斷分析的高通量測序數(shù)據(jù)分析流程(簡稱復(fù)旦流程1.0和2.0)[7,8],通過變異注釋和變異篩選輔助臨床快速鎖定潛在致病位點(diǎn);為改善WGS的成本和效率問題,本研究團(tuán)隊(duì)也設(shè)計(jì)了針對危重癥的快速全基因組流程(rWGS)和經(jīng)濟(jì)版家系全基因組測序方案(OTGS)[9,10]。由于ES和WGS在性價(jià)比和變異檢測范圍等方面各有優(yōu)勢,因此建立一套能夠支持多種測序方案的分析流程是提高遺傳檢測效率的關(guān)鍵。本研究建立了一體化數(shù)據(jù)復(fù)旦流程3.0,并通過一組臨床測序病例的實(shí)際應(yīng)用,測試其在變異檢測范圍、變異優(yōu)選效率、數(shù)據(jù)分析效率等方面的效果。

1 一體化分析流程建立

整體分析流程包括7個(gè)主要功能模塊:①病史處理,②結(jié)構(gòu)化遺傳表型,③測序?qū)嶒?yàn),④變異檢測,⑤變異解讀,⑥質(zhì)控復(fù)核,⑦基因型表型聯(lián)合分析。圖1顯示流程的整體架構(gòu)和模塊間互通概況。

1.1 臨床病史傳遞與結(jié)構(gòu)化處理 包括病史處理和結(jié)構(gòu)化遺傳表型2個(gè)模塊(圖2)。病史處理模塊對接醫(yī)院信息系統(tǒng),自動(dòng)提取檢測申請信息并加密。其中,與檢測申請相關(guān)的信息對接樣本庫,用于自動(dòng)生成報(bào)告草稿;檢測類型、樣本性別和親屬標(biāo)識等信息用于數(shù)據(jù)質(zhì)控復(fù)核?,F(xiàn)病史等文本數(shù)據(jù)對接結(jié)構(gòu)化遺傳表型模塊,從Auto-Neo-HPO系統(tǒng)[11]自動(dòng)提取HPO詞條,傳遞至圖1中基因型表型聯(lián)合分析模塊。

1.2 樣本處理與測序?qū)嶒?yàn) DNA的抽提使用血液基因組DNA提取試劑盒(TIANGEN公司),DNA濃度的檢測使用 NanoDrop 2000 spectrophotometer (Thermo Fisher Scientific, USA) 和Qubit Assay (Thermo Fisher Scientific, USA)。圖3顯示測序?qū)嶒?yàn)?zāi)K的功能細(xì)節(jié),WGS、WES和CES檢測對應(yīng)的DNA文庫分別為TruSeq Nano DNA Library Prep Kit (Illumina, cat no. 20015965)、IDTxGenomes2和Berry’s NanoWES Human Exome。采用Illumina NovaSeq 6000平臺測序,下機(jī)數(shù)據(jù)為FastQ文件。

圖1 復(fù)旦流程3.0整體設(shè)計(jì)和模塊間交互關(guān)系示意圖

圖2 臨床病史傳遞與結(jié)構(gòu)化處理示意圖

圖3 測序?qū)嶒?yàn)?zāi)K的細(xì)節(jié)設(shè)計(jì)和信息傳遞

1.3 根據(jù)文庫應(yīng)用變異檢測 圖4顯示,變異檢測模塊功能細(xì)節(jié)和變異檢測間關(guān)聯(lián)。變異檢測模塊基于現(xiàn)有生物信息學(xué)算法工具,輔以信息傳遞、資源調(diào)配、進(jìn)度控制等功能。WGS變異檢測于Dynamic Read Analysis for GENomics Bio-IT(DRAGEN)平臺完成(搭載CNVNator和MANTA算法),產(chǎn)出變異為SNV(含線粒體)、Indel、CNV和結(jié)構(gòu)變異(SV);ES的變異檢測由Sentieon系統(tǒng)分析SNV(可含線粒體),Indel和CANOES流程分析CNV[5,12]。此外,可基于SNV檢測LOH變異,基于CNV中間文件補(bǔ)充SMN1和SMN2分析結(jié)果[13]。

1.4 數(shù)據(jù)質(zhì)控與變異復(fù)核驗(yàn)證 數(shù)據(jù)質(zhì)控模塊在測序數(shù)據(jù)下機(jī)、變異檢測結(jié)束、變異解讀分析后都會介入。從實(shí)踐

圖4 變異檢測模塊功能細(xì)節(jié)

數(shù)據(jù)質(zhì)控以BAM文件內(nèi)容為主,包括匹配短序列數(shù)量、捕獲區(qū)域覆蓋百分比、平均覆蓋乘數(shù)和>20×的覆蓋區(qū)域百分比,數(shù)據(jù)質(zhì)控的閾值會綜合考慮所用建庫方案、上樣量、測序?qū)嶒?yàn)流程等。變異檢測的結(jié)果也可用于數(shù)據(jù)質(zhì)控?;贑NV分析,可對樣本的性染色體拷貝數(shù)和SRY基因進(jìn)行復(fù)核;基于SNV檢測,可評估樣本污染情況及樣本間親緣關(guān)系[14]。

變異復(fù)核驗(yàn)證在SNV、CNV、SV和LOH間展開,如圖4中虛線箭頭所示。在SNV變異的核型結(jié)論和CNV間進(jìn)行復(fù)核,標(biāo)注結(jié)論不一致的變異(如雜合缺失CNV中覆蓋的雜合SNV);復(fù)核CNV與涉及拷貝數(shù)變化的SV、子代染色體末端的CNV與親代的平衡易位SV,標(biāo)注結(jié)論一致的區(qū)域。復(fù)核LOH區(qū)域和CNV雜合缺失區(qū)域,去除帶有LOH信號特征但覆蓋CNV雜合缺失的區(qū)域。

圖5 質(zhì)量復(fù)核模塊示意圖

1.5 變異注釋與篩選流程 與ES相比,WGS數(shù)據(jù)檢測到的變異種類顯著增多。根據(jù)變異類型特點(diǎn),按SNV/Indel、CNV、SV、線粒體和LOH 5類分別進(jìn)行變異注釋與篩選流程,并在涉及復(fù)雜變異組合的場景將其他類型的變異統(tǒng)一匯總到SNV/Indel進(jìn)行分析。適用于非編碼區(qū)域變異的注釋內(nèi)容和篩選邏輯,并按照不同建庫方案建立子人群數(shù)據(jù)庫,實(shí)現(xiàn)不同測序方案的統(tǒng)一管理。具體的注釋與篩選流程如下。

1.5.1 SNV/Indel分析流程 SNV/Indel分析流程包括變異質(zhì)控、有效分析區(qū)域控制、人群頻率分析、變異危害性分析和遺傳模式分析5個(gè)步驟。

對于SNV/Indel變異質(zhì)控問題,基本沿用復(fù)旦流程2.0版本[8]并作如下改進(jìn):①結(jié)合分析SNV和Indel以排除Indel假陽性;②左對齊并校正Indel的5’端接頭序列;③更新dbSNP數(shù)據(jù)庫至150版本。

由于WGS的有效測序區(qū)域?yàn)檎麄€(gè)基因組(相對于外顯子組增加約30倍),建立了“有效分析區(qū)域”來維持分析效率并保留流程對非編碼區(qū)變異的分析能力。該區(qū)域定義為如下并集:所有RefSeq轉(zhuǎn)錄本中exon區(qū)域雙端外延15 bp后的區(qū)域、CADD預(yù)測分值>20的SNV/Indel、SPIDEX預(yù)測Z值絕對值大于1.96的SNV、HGMD數(shù)據(jù)庫標(biāo)注為DM/DM?、/DP/DFP/R的區(qū)域,以及ClinVar數(shù)據(jù)庫有記錄且不為“Benign”的區(qū)域。位于有效分析區(qū)域外的SNV/Indel位點(diǎn)不再進(jìn)入后續(xù)診斷分析流程。

公共數(shù)據(jù)庫及本地人群頻率注釋包括有效分析區(qū)域內(nèi)的所有位點(diǎn)。不同的建庫流程有獨(dú)立的本地人群子庫以排除系統(tǒng)誤差;分層的頻率篩選閾值基于子人群庫的樣本量級:子庫樣本<1 000例時(shí),罕見變異和多態(tài)性位點(diǎn)的閾值分別為7.5%和15%,子庫樣本>1 000例時(shí),閾值分別降至2%和5%。

變異危害性注釋和篩選沿用復(fù)旦流程2.0版本的變異篩選策略[8],但改進(jìn)了變異到轉(zhuǎn)錄本的映射選擇。對于變異到轉(zhuǎn)錄本的多重對應(yīng)問題,對變異映射到的基因、轉(zhuǎn)錄本類型、變異HGVS命名分別進(jìn)行了排序,優(yōu)先級分別為“已報(bào)道致病變異的基因、致病功能明確的基因、基因上變異造成的危害性嚴(yán)重程度”,“NM、XM、NR的轉(zhuǎn)錄本”,“已報(bào)道變異所用轉(zhuǎn)錄本、同基因報(bào)道常用轉(zhuǎn)錄本、受變異影響危害最大的轉(zhuǎn)錄本”。最終,將排第1的轉(zhuǎn)錄本所對應(yīng)的變異危害性類型視為該變異的最終危害性。經(jīng)此步驟篩選后進(jìn)行全庫的家系關(guān)系分析,識別可能的重復(fù)送檢、家系標(biāo)注錯(cuò)誤等情況,并反饋至圖1中質(zhì)控復(fù)核模塊處理。

遺傳模式分析中納入了更為復(fù)雜的變異類型,當(dāng)某個(gè)隱性遺傳的致病基因上檢測到致病/疑似致病的SNV/Indel變異時(shí),需標(biāo)注該基因是否也受到CNV、SV或LOH影響。此外,所涉及的致病基因遺傳模式與OMIM數(shù)據(jù)庫同步。

1.5.2 CNV分析流程 CNV分析沿用了前期基于ES數(shù)據(jù)的分析流程PICNIC[12,15]。對于WGS來源的CNV,保留其原始信號,但在后續(xù)分析時(shí)降至外顯子層面以便與ES數(shù)據(jù)整合。升級了本地CNV頻率庫,從拷貝數(shù)(0、1、3拷貝)和檢測方案(WGS、WES、CES)兩方面組合共計(jì)9個(gè)類別,記錄每個(gè)類別中每個(gè)外顯子的CNV檢出事件,以評估CNV的人群頻率。檢出的CNV與SNV/Indel結(jié)果相互整合,以提示在常染色體隱性致病基因中可能發(fā)生的SNV+CNV復(fù)合雜合事件或是解釋看似單親來源的子代純合變異。

1.5.3 SV分析流程 SV分析一直是WGS分析的難點(diǎn)。從臨床解讀的角度出發(fā),主要關(guān)注結(jié)構(gòu)變異中的CNV與易位變異。流程使用的檢測算法為CNVnator[4]和MANTA[16],分別從覆蓋深度和讀數(shù)易位/斷裂兩方面進(jìn)行評估,結(jié)合兩者結(jié)論進(jìn)行復(fù)驗(yàn)以提高檢測精度。對于不引起CNV的平衡易位斷點(diǎn),則去除內(nèi)部頻率>0.2%的斷點(diǎn),用于標(biāo)記受累基因并加入SNV/Indel分析流程。

1.5.4 LOH分析流程 單親二倍體(UPD)涉及的區(qū)段可表現(xiàn)為大量連續(xù)純合SNV,即LOH。WGS能獲得豐富的SNV信息來檢測雜合性丟失,ES在捕獲密度較高的區(qū)域也能產(chǎn)出足夠的信號。在BCFtools/RoH軟件[17]的基礎(chǔ)上建立了拼接純合區(qū)段和注釋印記基因的流程,并通過可視化變異BAF(B-allele frequency)呈現(xiàn)LOH結(jié)果,輔助識別致病或提示UPD的LOH[18,19]。

由于雜合性拷貝數(shù)缺失(Het-Del)也會導(dǎo)致大量連續(xù)純合變異,因而可能導(dǎo)致LOH分析的假陽性,但反之也可運(yùn)用LOH信號進(jìn)一步復(fù)驗(yàn)Het-Del。結(jié)合CNV與LOH結(jié)果,既提升CNV中Het-Del的可靠性,又過濾由于Het-Del導(dǎo)致的LOH假陽性。

1.5.5 線粒體變異分析流程 WGS和有對應(yīng)探針的ES能夠檢測到線粒體基因組中的致病變異。相對于核基因組變異,線粒體變異的檢測分析具有特殊性。一方面,線粒體基因組長度較短(僅16 kb),因此其變異數(shù)量相對較少,分析的難度在于注釋及致病性評估;另一方面,線粒體變異不具有核基因組變異的核型特征,而是呈現(xiàn)為異質(zhì)性(Heteroplasmy)狀態(tài)。

在處理線粒體變異時(shí),僅考慮線粒體基因組中的SNV/Indel,用VEP軟件注釋線粒體基因、變異影響類型、gnomAD的WGS子庫中的檢出頻率、MitImpact數(shù)據(jù)庫標(biāo)記、氨基酸改變、危害性預(yù)測、ClinVar既往報(bào)道、疾病表型和變異致病性分類(Mitomap數(shù)據(jù)庫)等。鑒于線粒體變異檢出量較少,不再篩選。

1.5.6 其他特殊檢測與變異類型合并 NGS在處理高同源序列時(shí)會產(chǎn)生錯(cuò)配(mis-mapping)的誤差,脊髓性肌萎縮癥(SMA)是一個(gè)代表性例子。針對SMA的檢測問題,融合了針對性算法[13]來校正SMN1和SMN2的拷貝數(shù)并結(jié)合SNV/Indel進(jìn)一步分析。

圖6顯示,變異解讀模塊功能細(xì)節(jié),融入了多種變異類型,在分析隱性遺傳模式的致病基因時(shí),采用了2種方式綜合考慮多種突變類型。第一,將其他類型的變異匯入SNV/Indel變異標(biāo)注上,輔助識別變異類型間形成的復(fù)合雜合模式;第二,平行展示多種類型變異結(jié)果,供靈活查閱。

1.6 表型分析與候選基因排序 圖7顯示,基因型表型聯(lián)合分析模塊的設(shè)計(jì)原理和輸入輸出。該模塊應(yīng)用了基于臨床表型預(yù)測潛在致病基因的新一代貝葉斯模型[20],結(jié)合了該算法的整體表型符合度和前述變異分析流程的篩選結(jié)果,可高效鎖定致病基因。

2 代表性病例納入與分析指標(biāo)

代表性病例的選擇基于變異類型和診斷難度,由復(fù)旦大學(xué)附屬兒科醫(yī)院(我院)分子醫(yī)學(xué)中心提供,分析過程中的個(gè)人信息均已去隱私處理。對代表性病例在復(fù)旦流程3.0處理過程中的總結(jié)展示包括:各模塊的輸入和輸出總結(jié),最終形成報(bào)告草稿時(shí)的變異結(jié)論及臨床表型,以及對新的整合性分析流程結(jié)果進(jìn)行評估。

圖6 變異解讀模塊功能細(xì)節(jié)

圖7 基因型表型聯(lián)合分析模塊的設(shè)計(jì)原理

2.1 代表性病例

例1:男,初診3月10 d,因“生后發(fā)現(xiàn)運(yùn)動(dòng)受限”于我院就診。3月齡時(shí)發(fā)現(xiàn)四肢活動(dòng)少,不能完全抬離床面,查體發(fā)現(xiàn)四肢肌力、肌張力低下,下肢屈曲姿勢,全身觸痛明顯,被動(dòng)上抬肢體不能;X線片提示四肢長骨多發(fā)骨膜增生反應(yīng),B超提示左腎積水。7月齡時(shí)仍不能抬頭、翻身,下肢畸形較前加重,雙膝、雙踝、雙肘關(guān)節(jié)活動(dòng)受限。

例2:男,初診5月齡,因“發(fā)育遲緩”于我院就診。其母親孕期無異常,患兒無出生窒息搶救史。初診時(shí)抬頭不穩(wěn),查體提示四肢肌張力偏高。頭顱MR提示豆?fàn)詈?、丘腦、腦干對稱性改變;血質(zhì)譜檢測乳酸偏高,尿質(zhì)譜未提示異常,臨床考慮代謝性疾病可能。

例3:女,初診3月29 d,因“肌無力1月余”于我院就診。初診時(shí)四肢無力表現(xiàn),查體四肢肌力、肌張力低,肌電圖提示運(yùn)動(dòng)神經(jīng)病變,考慮SMA。

2.2 代表性病例在復(fù)旦流程3.0中的應(yīng)用 表1顯示,例1~3在處理過程中的各階段信息總結(jié)展示,各模塊的輸入和輸出具體數(shù)值,報(bào)告草稿變異結(jié)論和所匹配的臨床表型。

例1進(jìn)行了OTGS,自動(dòng)化處理提取的HPO詞條如下,HP:0000126:Hydronephrosis (腎積水), HP:0001643:Patent ductus arteriosus (動(dòng)脈導(dǎo)管未閉), HP:0001410:Decreased liver function(肝功能異常),傳遞給圖1中基因型表型聯(lián)合分析模塊。

例1的數(shù)據(jù)重分析從圖1中測序?qū)嶒?yàn)?zāi)K產(chǎn)出的FastQ文件開始,其質(zhì)控結(jié)果見表1。FastQ數(shù)據(jù)提交至圖1中變異檢測模塊的WGS分析流程。其中的BAM文件對應(yīng)質(zhì)控包括:有效數(shù)據(jù)量、常染色體及線粒體平均覆蓋深度、基因組中10×以上及20×以上覆蓋度比例和測序讀段與參考基因組的對比率(表1)。OTGS方案的預(yù)期測序深度為:先證者40倍、父母各10倍,相關(guān)質(zhì)控?cái)?shù)據(jù)指標(biāo)符合預(yù)期。

OTGS的變異檢測由DRAGEN平臺執(zhí)行,分別產(chǎn)出SNV/Indel、CNV和SV的結(jié)果(圖4)。變異檢測包括SNV/Indel、CNV、SV斷點(diǎn)、線粒體變異、LOH、SMN1和SMN2基因拷貝數(shù)(表1)。其中,3份樣本的性染色體拷貝數(shù)結(jié)果均符合樣本送樣標(biāo)記,先證者與父母之間的親緣關(guān)系符合預(yù)期。所測得變異按類型呈遞給變異解讀模塊進(jìn)行注釋和篩選,并匯集到變異相關(guān)的致病基因。其處理得到的變異相關(guān)基因、所涉SNV/Indel和CNV數(shù)量見表1。變異相關(guān)基因傳遞至圖1中基因型表型聯(lián)合分析模塊,綜合評分Consistency_Score達(dá)推薦值>0.3的基因僅有ANTXR2,相關(guān)變異為母源遺傳SNV:NM_058172: c.1294C>T(p.R432X)、父源遺傳SV:4q21.22 del 13 kb,以復(fù)合雜合模式對ANTXR2產(chǎn)生影響。ANTXR2基因是玻璃樣纖維瘤病綜合征(HFS)(MIM:228600)的致病基因;該病呈常染色體隱性遺傳,病理變化為細(xì)胞外基質(zhì)在皮下等組織進(jìn)行性沉積導(dǎo)致,臨床表現(xiàn)為丘疹或結(jié)節(jié)、牙齦肥大、反復(fù)感染、難治性腹瀉、進(jìn)行性關(guān)節(jié)攣縮和骨質(zhì)疏松等,符合先證者臨床表現(xiàn)。

例1,從數(shù)據(jù)量龐大的家系WGS數(shù)據(jù)出發(fā),通過把SV和SNV/Indel變異匯聚到基因?qū)用?,結(jié)合臨床病史準(zhǔn)確識別出致病變異,綜合優(yōu)選將候選基因排至第1。既解決了常規(guī)單獨(dú)分析SNV/Indel問題可能導(dǎo)致的漏診,也展現(xiàn)了綜合臨床表型優(yōu)選致病基因的效率優(yōu)勢。

例2行先證者單人WGS,自動(dòng)化提取到HPO詞條如下,HP:0001298:Encephalopathy(腦病), HP:0001263:Global developmental delay(全面發(fā)育遲緩), HP:0001250:Seizures(驚厥), HP:0001249:Intellectual disability(智力發(fā)育遲緩), HP:0006872:Cerebral hypoplasia(大腦發(fā)育不全), HP:0000750:Delayed speech and language development(語言發(fā)育遲緩), HP:0003198:Myopathy(肌病),傳遞給圖1中基因型表型聯(lián)合分析模塊。

例2的數(shù)據(jù)重分析從FastQ文件開始,質(zhì)控?cái)?shù)據(jù)類型同例1。單人WGS的預(yù)期測序深度為40倍,表1可見相關(guān)數(shù)據(jù)指標(biāo)符合預(yù)期。單人WGS的變異檢測由DRAGEN平臺執(zhí)行,變異檢測類型、質(zhì)控復(fù)核及注釋同例1,具體數(shù)值見表1。變異相關(guān)基因傳遞至圖1中基因型表型聯(lián)合分析模塊,沒有綜合評分達(dá)推薦值>0.3的基因。綜合排名前5的基因分別為FLG、SCTLA4、KLHL24、CHEK2和BTG4。其中,F(xiàn)LG基因內(nèi)部無表型案例較多,SCTLA4基因變異質(zhì)量欠佳,KLHL24基因與本例先證者表型無關(guān),CHEK2基因?yàn)榘┌Y相關(guān)綜合征基因,BTG4基因?yàn)槁涯讣?xì)胞成熟疾病相關(guān)基因,結(jié)合例2臨床分析,上述基因均不能構(gòu)成診斷。然而在先證者線粒體變異分析中檢出了MT-ND6基因上已知致病變異m.14459G>A,變異覆蓋深度4 736倍,變異異質(zhì)性>99.5%,可致Leigh綜合征(MIM:256000),符合先證者代謝性腦病表現(xiàn)。

例2,從數(shù)據(jù)量龐大的單人WGS數(shù)據(jù)出發(fā),排除了可能的致病性SNV/Indel、CNV和SV變異,并運(yùn)用WGS的覆蓋優(yōu)勢,檢測到線粒體高異質(zhì)性的已知致病變異,展現(xiàn)了覆蓋廣泛的變異類型優(yōu)勢。

例3進(jìn)行了單人臨床ES,自動(dòng)化從病史提取到HPO詞條:HP:0001324:Muscle weakness (肌無力), HP:0003202:Amyotrophy (肌萎縮), HP:0003202:Skeletal muscle atrophy (骨骼肌萎縮)傳遞給圖1中基因型表型聯(lián)合分析模塊。

例3的數(shù)據(jù)重分析亦從FastQ文件開始,在圖1中變異檢測模塊進(jìn)行ES流程分析,產(chǎn)出BAM文件對應(yīng)質(zhì)控?cái)?shù)據(jù)的覆蓋范圍與WGS不同,具體結(jié)果見表1。例3的預(yù)期測序深度為150倍,相關(guān)數(shù)據(jù)指標(biāo)符合預(yù)期。變異檢測結(jié)果見表1,其中SMN1拷貝數(shù)估計(jì)值為0.775, 提示SMN1雜合缺失可能。

經(jīng)過圖1中變異解讀模塊分析后,匯集到變異相關(guān)的致病基因。經(jīng)圖1中基因型表型聯(lián)合分析模塊,有4個(gè)基因(SCN8A、SMN1、NSD1和DYRK1A)綜合評分>0.3。其中,SCN8A基因變異表型與先證者不完全匹配,被列為“致病性不明變異”;SMN1基因檢出純合的致病變異NM_000344: c.863G>T(p.R288M),結(jié)合CNV檢測得出的SMN1基因單拷貝缺失結(jié)論和先證者的SMA,被評為“致病性變異”。NSD1和DYRK1A基因變異均在無表型父母樣本中檢出,不能構(gòu)成遺傳診斷。檢出致病變異的基因SMN1是SMA 1~4型(MIM:253300, MIM:253550, MIM:253400, MIM:271150)的致病基因;該病是由脊髓前角運(yùn)動(dòng)神經(jīng)元退行性變而導(dǎo)致的進(jìn)行性、對稱性肌無力和肌萎縮的一類常染色體隱性遺傳性疾病,主要表現(xiàn)為肢體近端和軀干肌肉無力和萎縮,符合先證者的臨床表現(xiàn)。

例3,依托針對性的SMN1、SMN2基因拷貝數(shù)評估能力,SMN1單缺失合并單拷貝致病變異的罕見病例獲得了精確診斷。而目前用于診斷SMA的金標(biāo)準(zhǔn)方法多重連接探針擴(kuò)增技術(shù)(MLPA)僅能檢出先證者的SMN1單缺失而導(dǎo)致了假陰性。例3展現(xiàn)了對特殊變異的處理能力和結(jié)合多種變異類型結(jié)果的分析優(yōu)勢。

3 討論

3.1 高通量測序技術(shù)發(fā)展方向 高通量測序技術(shù)在臨床遺傳病診斷和研究的發(fā)展,主要體現(xiàn)在兩個(gè)方面。①測序技術(shù),主要的創(chuàng)新為提升文庫建庫效率、通過標(biāo)記文庫以實(shí)現(xiàn)聯(lián)合分析或精細(xì)分析[21-23],以及更新測序技術(shù)平臺。②數(shù)據(jù)分析,主要包括從原始測序數(shù)據(jù)到變異分析的算法更新和遺傳變異解讀的更新。算法更新主要聚焦分析的速度、精確度和特殊變異類型算法,例如提升SNV/Indel檢測效率的Sentieon方案和DRAGEN方案、基于WGS數(shù)據(jù)分析結(jié)構(gòu)變異的ClinSV流程、基于ES分析CNV的CANOES等;遺傳變異解讀一方面受益于基因型表型研究的豐富積累(如以O(shè)MIM數(shù)據(jù)庫為代表的遺傳性疾病表型-基因關(guān)聯(lián)數(shù)據(jù)庫、以GeneCards為代表的整合性數(shù)據(jù)庫、以HGMD/ClinVar數(shù)據(jù)庫為代表的變異解讀結(jié)論庫),另一方面得益于機(jī)器學(xué)習(xí)模型在復(fù)雜特征空間下所帶來的各種變異危害性評分算法(如CADD[24]、REVEL[25]等)。但是在具體臨床應(yīng)用中,如何協(xié)調(diào)各系統(tǒng)的優(yōu)勢、調(diào)試最佳性能參數(shù)、制定最符合應(yīng)用需求的解讀方案,一直是各類技術(shù)系統(tǒng)轉(zhuǎn)化到臨床應(yīng)用的“最后一公里問題”。針對這一問題,各醫(yī)療和檢測機(jī)構(gòu)提出了迭代的解決方案。例如2013年首次提供外顯子測序臨床應(yīng)用范式的貝勒醫(yī)學(xué)院[26]、NextCode平臺、助力英國十萬人基因組計(jì)劃的Congenica等。這些方案從不同程度緩解了原始變異位點(diǎn)到臨床解讀的障礙,促進(jìn)了疾病遺傳譜系研究,并幫助發(fā)現(xiàn)新的致病基因。

3.2 復(fù)旦流程3.0優(yōu)勢 復(fù)旦流程3.0是在復(fù)旦流程1.0[7]和2.0基礎(chǔ)上發(fā)展進(jìn)步中的產(chǎn)物[8]。完成了從“如何實(shí)現(xiàn)”、“如何更快”,到現(xiàn)階段“如何更廣”的轉(zhuǎn)變。復(fù)旦流程3.0能對接來自各類建庫的原始數(shù)據(jù),并相應(yīng)適配分析多種變異類型,再匯聚到病例層面進(jìn)行輔助診斷。通過3個(gè)典型病例的重測分析應(yīng)用,展示了對于家系WGS、單人WGS和ES測序數(shù)據(jù)的適配效果,以及對于SNV/Indel、CNV、SV、線粒體變異、雜合性丟失、部分假基因等多種變異類型或特殊情況的處理能力。同時(shí),復(fù)旦流程3.0版也從臨床應(yīng)用的角度出發(fā),應(yīng)用基于復(fù)合表型的致病基因排序算法進(jìn)一步提升解讀效率、增加對樣本質(zhì)控的數(shù)據(jù)分析和對接自動(dòng)報(bào)告系統(tǒng)以降低人為失誤,展示了臨床遺傳檢測作為整體打包的可能性,為更多輔助工具和智能算法的應(yīng)用準(zhǔn)備了平臺基礎(chǔ)。

3.3 復(fù)旦流程3.0后續(xù)改進(jìn)方向 作為合并復(fù)雜數(shù)據(jù)來源并覆蓋多種變異類型的初步嘗試,本流程尚存諸多待優(yōu)化之處。

首先,SV的亞類變異檢測和分析仍有待突破。雖然SV往往作為單獨(dú)的變異類型被提及,但其包含了多種各具復(fù)雜遺傳學(xué)特征的變異種類,例如缺失、重復(fù)、倒位、水平轉(zhuǎn)移和序列串聯(lián)等,這些變異的成因、遺傳學(xué)特征、被NGS檢測的信號原理以及致病性分析評判標(biāo)準(zhǔn)都各有特點(diǎn)。類似現(xiàn)階段其他SV分析流程(如ClinSV[27]),復(fù)旦流程3.0主要分析SV中的缺失/重復(fù),輔以染色體易位斷點(diǎn)進(jìn)行遺傳模式補(bǔ)充,其他類型的SV檢測仍有待補(bǔ)充。

最后,在遺傳變異的臨床解讀方面,更便捷的變異注釋和分級體系仍有待開發(fā)。目前已有較多的變異解讀和診斷指南,包括一般性的變異類型解讀指南(如ACMG的外顯子指南[28]、CNV指南[29]、UPD指南[30])和針對疾病大類的診斷指南(如免疫學(xué)會的遺傳診斷指南[31])。由于本研究試圖建立的流程涵蓋了多種變異類型且沒有界定遺傳性疾病的種類(如只針對遺傳性耳聾[32]),因此在變異解讀方面僅篩除了良性/可能良性變異和豐富變異位點(diǎn)的注釋信息,仍有大量的臨床意義未明變異需人工分級。而在結(jié)合變異類型分析時(shí),本研究選擇以數(shù)據(jù)量大、已知致病性變異比重高的SNV/Indel變異作為其他變異合并標(biāo)記的主體,其他變異類型則僅注釋到基因?qū)用妗?/p>

4 小結(jié)

本研究從分析多種變異類型、標(biāo)準(zhǔn)化與結(jié)構(gòu)化遺傳表型以及以臨床分子診斷的變異分析這3方面,聚焦目前廣泛應(yīng)用的ES和WGS測序技術(shù)的數(shù)據(jù)分析問題,建立了從檢測申請到報(bào)告反饋的復(fù)旦流程3.0系統(tǒng)。同時(shí),通過典型診斷病例的重分析,展示了在數(shù)據(jù)兼容性、流程整合的交互性和為遺傳咨詢提供信息的有效性方面的具體效果。復(fù)旦流程3.0的建立可為未來較長時(shí)間內(nèi)的ES和WGS測序在臨床遺傳檢測領(lǐng)域并行應(yīng)用提供良好的平臺支撐。

猜你喜歡
表型變異基因組
“植物界大熊貓”完整基因組圖譜首次發(fā)布
基于衰老相關(guān)分泌表型理論探討老年慢性阻塞性肺疾病患者衰弱發(fā)生機(jī)制
牛參考基因組中發(fā)現(xiàn)被忽視基因
體型表型與亞臨床動(dòng)脈粥樣硬化有關(guān)
科學(xué)家找到母愛改變基因組的證據(jù)
慢性阻塞性肺疾病急性加重期臨床表型及特征分析
血清HBV前基因組RNA的研究進(jìn)展
變異
作物表型組學(xué)和高通量表型技術(shù)最新進(jìn)展(2020.2.2 Plant Biotechnology Journal)
變異的蚊子
西充县| 新宁县| 丹东市| 施秉县| 嘉禾县| 太保市| 洛浦县| 长汀县| 大荔县| 河间市| 县级市| 灵寿县| 平邑县| 阳东县| 固原市| 泰和县| 龙游县| 无棣县| 民县| 德化县| 垦利县| 无极县| 乌兰县| 彝良县| 洛浦县| 万盛区| 葫芦岛市| 临西县| 富民县| 林州市| 涞源县| 汕头市| 洮南市| 都安| 肥西县| 松潘县| 健康| 朔州市| 定兴县| 哈密市| 志丹县|