曹宗富,喻浴飛,陳翠霞,蔡瑞琨,李乾,羅敏娜,高華方,馬旭*
(1.國(guó)家衛(wèi)生健康委科學(xué)技術(shù)研究所,北京 100081;2.國(guó)家人類遺傳資源中心,北京 102206)
醫(yī)學(xué)正邁入精準(zhǔn)醫(yī)學(xué)時(shí)代。近十幾年來(lái),隨著基因組技術(shù)尤其是高通量DNA測(cè)序的迅猛發(fā)展,為基因組學(xué)的發(fā)展提供了強(qiáng)有力的工具,使人類對(duì)基因組的了解越來(lái)越便利,人類對(duì)疾病基因組的認(rèn)識(shí)也越來(lái)越全面,認(rèn)識(shí)到越來(lái)越多的疾病都有其相應(yīng)的遺傳學(xué)基礎(chǔ)或病因。通過(guò)這些遺傳學(xué)改變能夠?qū)膊∵M(jìn)行診斷、預(yù)測(cè)疾病的發(fā)生風(fēng)險(xiǎn)、藥物應(yīng)答及不良反應(yīng)的發(fā)生[1-3]。人類基因組學(xué)、疾病基因組學(xué)、以及藥物基因組學(xué)的發(fā)展正在引來(lái)醫(yī)學(xué)史的一場(chǎng)巨大變革,帶來(lái)全新的預(yù)防、診斷和治療模式,并過(guò)渡到個(gè)性化醫(yī)療(personalized medicine)或精準(zhǔn)醫(yī)學(xué)(precision medicine)時(shí)代。個(gè)性化醫(yī)療時(shí)代擁有個(gè)性化的健康管理模式,可根據(jù)不同個(gè)體的遺傳背景,預(yù)測(cè)不同疾病在個(gè)體中的發(fā)病風(fēng)險(xiǎn),從而實(shí)施個(gè)性化的健康管理[4];通過(guò)產(chǎn)前無(wú)創(chuàng)篩查來(lái)避免大部分染色體異常的胎兒出生,通過(guò)新生兒篩查和產(chǎn)前診斷來(lái)對(duì)嚴(yán)重的遺傳性疾病進(jìn)行干預(yù),并對(duì)可能攜帶的人群進(jìn)行再生育指導(dǎo)[5];個(gè)性化診斷則將根據(jù)患者某種疾病相關(guān)基因上的變異而進(jìn)行疾病診斷[6]。
單基因遺傳病是精準(zhǔn)醫(yī)學(xué)的重大方向之一。單基因遺傳病(Monogenic disease)是指由于身體所有細(xì)胞中單個(gè)基因改變而引起的遺傳病,又稱孟德?tīng)栠z傳病(Mendel disease)。它的遺傳方式遵循孟德?tīng)柖?,突變既可?lái)自父母,也可源于自身,都有遺傳給下一代的可能。單基因病種類繁多,據(jù)估計(jì),有超過(guò)10 000種人類疾病是單基因病引起。根據(jù)世界衛(wèi)生組織統(tǒng)計(jì),在全球出生人口中所有單基因遺傳病的總發(fā)病率高達(dá)1%。單基因遺傳病危害嚴(yán)重,可致畸、致殘甚至致死,嚴(yán)重影響生存時(shí)間和生存質(zhì)量。單基因病精準(zhǔn)醫(yī)學(xué)首先要實(shí)現(xiàn)疾病的精確診斷,鑒定出先證者攜帶的致病性突變,從而對(duì)單基因病患者進(jìn)行針對(duì)性的治療和干預(yù),對(duì)單基因病家庭進(jìn)行再生育指導(dǎo)。在精準(zhǔn)醫(yī)學(xué)時(shí)代,如果能夠在孕期檢出胎兒是否攜帶引起單基因病的致病基因和突變,則可以進(jìn)行出生缺陷干預(yù)。對(duì)部分單基因病,如先天性白內(nèi)障等,如果在嬰幼兒期通過(guò)基因檢測(cè)早期檢出,則可以進(jìn)行早期治療干預(yù),最大可能降低致殘致畸程度。精準(zhǔn)醫(yī)學(xué)是基于遺傳檢測(cè)技術(shù)的發(fā)展而發(fā)展起來(lái)的,遺傳檢測(cè)在單基因病精確診斷的價(jià)值也越來(lái)越重要,使得基于不同技術(shù)平臺(tái)的遺傳檢測(cè)產(chǎn)品正在被開(kāi)發(fā)并應(yīng)用。
新一代測(cè)序技術(shù)(Next-generation sequencing,NGS)在單基因病致病突變研究和醫(yī)療實(shí)踐中的應(yīng)用越來(lái)越廣泛[7]。近年來(lái),大量的研究證實(shí),全外顯子組測(cè)序是開(kāi)展單基因病相關(guān)研究,對(duì)單基因病患者進(jìn)行致病突變鑒定的理想方法之一。然而,在精準(zhǔn)醫(yī)學(xué)應(yīng)用層面,基于新一代測(cè)序數(shù)據(jù)分析和臨床解讀還存在著很多問(wèn)題,阻礙著基于新一代測(cè)序相關(guān)產(chǎn)品和技術(shù)的推廣,不利于精準(zhǔn)醫(yī)學(xué)的發(fā)展。這些問(wèn)題包括:一是表型復(fù)雜,大部分單基因病表型復(fù)雜,同一種單基因病表型異質(zhì)性強(qiáng),不同單基因病之間臨床特征相互重疊,給單基因病的診斷帶來(lái)了很大的挑戰(zhàn),需要借助于遺傳學(xué)輔助診斷;二是遺傳變異的識(shí)別,其分析流程過(guò)于復(fù)雜,難以為醫(yī)療機(jī)構(gòu)人員和其他廣大非生物信息學(xué)人員所掌握使用;三是致病突變的鑒定,需耗費(fèi)大量時(shí)間對(duì)發(fā)現(xiàn)篩選的變異逐個(gè)人工審核和確認(rèn),效率非常低。為此,我們開(kāi)發(fā)了一套基于云的可視化自動(dòng)化智能化的單基因病遺傳變異分析解讀系統(tǒng),以滿足單基因病相關(guān)臨床和科研的精準(zhǔn)醫(yī)學(xué)需求,通過(guò)www.pgenomics.cn提供免費(fèi)共享服務(wù)。
基于ClinVar[8]、OrphaNet[9]、UniProt[10]等公共數(shù)據(jù)庫(kù)、PubMed文獻(xiàn)知識(shí)庫(kù)和自有數(shù)據(jù)庫(kù),參考人類表型標(biāo)準(zhǔn)用語(yǔ)(Human Phenotype Ontology,HPO)[11]和中文人類表型標(biāo)準(zhǔn)用語(yǔ)聯(lián)盟(China HPO,CHPO)的疾病表型用語(yǔ)、HUGO基因命名委員會(huì)(HUGO Gene Nomenclature Committee,HGNC)[12]的基因名稱、人類基因組變異協(xié)會(huì) (Human Genome Variation Society,HGVS)[13]的變異命名規(guī)則,通過(guò)數(shù)據(jù)庫(kù)整合、數(shù)據(jù)挖掘和文本挖掘技術(shù),結(jié)合人工編譯審核,整理整合單基因病表型-基因-變異關(guān)系,建立單基因病基因變異參考數(shù)據(jù)庫(kù)。
采用Fastqc軟件對(duì)測(cè)序原始數(shù)據(jù)進(jìn)行質(zhì)量檢查,使用BWA MEM對(duì)原始數(shù)據(jù)與人類參考基因組進(jìn)行比對(duì),采用picard去除重復(fù)序列,參考GATK(Genome Analysis Toolkit)最佳實(shí)踐對(duì)遺傳變異進(jìn)行分析和識(shí)別[14],采用VEP(Variant Effect Predictor)對(duì)遺傳變異進(jìn)行注釋[15],利用Genmod對(duì)變異的遺傳模式進(jìn)行分析。
根據(jù)單基因病基因變異參考數(shù)據(jù)庫(kù)獲取單基因病相關(guān)的基因,參考ACMG單基因病變異臨床致病性分級(jí)標(biāo)準(zhǔn)對(duì)遺傳變異進(jìn)行分級(jí)[16],根據(jù)遺傳變異的變異類型、人群發(fā)生頻率、預(yù)測(cè)的變異功能、臨床顯著性分級(jí)、數(shù)據(jù)庫(kù)證據(jù)等信息對(duì)遺傳變異進(jìn)行綜合評(píng)分,根據(jù)評(píng)分實(shí)現(xiàn)對(duì)單基因病檢測(cè)樣品或家系中致病性變異的推薦。遺傳變異的評(píng)分定義為遺傳變異多種注釋結(jié)果的加權(quán)評(píng)分之和,具體方法為
其中,wi為不同證據(jù)的評(píng)分權(quán)重,si為每個(gè)證據(jù)的評(píng)分。wi默認(rèn)值為1,可根據(jù)情況進(jìn)行調(diào)整。
在突變?cè)u(píng)分基礎(chǔ)上,對(duì)突變所在的基因進(jìn)行累計(jì)評(píng)分。對(duì)每個(gè)基因,以在此基礎(chǔ)上,進(jìn)行累計(jì)評(píng)分?;蛟u(píng)分Scoreg的方法如下:
Scoreg=max(Scorev)+weSe+wtSt
其中,Scorev為該基因上所有遺傳變異評(píng)分的最大值,作為該基因的基線分值。Se為疾病已知致病基因的評(píng)分,we為該項(xiàng)評(píng)分的權(quán)重。St為該基因突變是否符合單基因病遺傳模式評(píng)分,wt為該項(xiàng)評(píng)分的權(quán)重。we和wt默認(rèn)值為1,可根據(jù)實(shí)際情況進(jìn)行調(diào)整。
致病變異的人工審核和再確認(rèn)包括:一是,通過(guò)基因組瀏覽器查看致病變異兩側(cè)區(qū)域的序列比對(duì)質(zhì)量;二是,對(duì)致病變異在dbSNP[17]、OMIM[18]、MedGen[19]、OrphaNet、1000基因組、gnomAD、PubMed等公共數(shù)據(jù)庫(kù)和自有數(shù)據(jù)庫(kù)進(jìn)行循證溯源和確認(rèn);三是,通過(guò)患者病歷與系統(tǒng)自動(dòng)化推薦的疾病典型臨床特征進(jìn)行表型比對(duì)。經(jīng)人工檢查和確認(rèn)后的致病變異位點(diǎn)可生成打印解讀報(bào)告。
在基因水平,參考HPO對(duì)疾病表型的標(biāo)準(zhǔn)化命名和HGNC對(duì)基因符號(hào)的標(biāo)準(zhǔn)化名稱,整合ClinVar、OrphaNet、UniProtKB和PubMed來(lái)源的疾病基因關(guān)系信息,共包括5 654種單基因病和26 109個(gè)基因(圖1)。其中,在兩個(gè)及兩個(gè)以上數(shù)據(jù)庫(kù)中出現(xiàn)的基因共9 601個(gè),占總基因數(shù)目的34.70%。
在變異水平,參考HGVS命名規(guī)則,整合了來(lái)自ClinVar、UniProtKB和PubMed來(lái)源的變異共648 814個(gè)(圖2)。其中,在兩個(gè)及兩個(gè)以上數(shù)據(jù)庫(kù)中出現(xiàn)的變異共67 797個(gè),僅占變異總數(shù)目的10.45%。
圖1 參考數(shù)據(jù)庫(kù)整合的26 109個(gè)基因在各個(gè)數(shù)據(jù)庫(kù)的分布
圖2 參考數(shù)據(jù)庫(kù)整合的682 349個(gè)遺傳變異在各個(gè)數(shù)據(jù)庫(kù)的分布
我們基于云開(kāi)發(fā)了可視化自動(dòng)化智能化的單基因病遺傳變異分析解讀系統(tǒng),通過(guò)www.pgenomics.cn提供免費(fèi)共享服務(wù),用戶注冊(cè)申請(qǐng)后即可登錄使用。
用戶根據(jù)試驗(yàn)設(shè)計(jì),選擇對(duì)應(yīng)的NGS分析流程進(jìn)行分析??晒┻x擇的NGS分析流程包括:?jiǎn)螛颖就怙@子組測(cè)序胚系突變分析、基于家系設(shè)計(jì)的外顯子組測(cè)序胚系突變分析、單樣本全基因組測(cè)序胚系突變分析、基于家系設(shè)計(jì)的全基因組測(cè)序胚系突變分析。然后導(dǎo)入對(duì)應(yīng)的測(cè)序原始數(shù)據(jù)(fastq文件),提交分析后即可等待分析結(jié)果。待分析完成后,即可查看單基因病測(cè)序分析報(bào)告,該單基因病家系或患者可能的致病基因和變異將被推薦出來(lái)(圖3)。示例為一個(gè)常染色體隱性遺傳的Joubert綜合征患者的高通量測(cè)序分析結(jié)果,根據(jù)基因評(píng)分和變異評(píng)分,自動(dòng)推薦出CSPP1基因上的兩個(gè)不同位置的復(fù)合雜合突變,c.1132C>T(p.Arg378Ter)和c.2244_2245del(p.Glu750GlyfsTer30)。
對(duì)于推薦的致病變異位點(diǎn),可進(jìn)一步使用在線基因組瀏覽器對(duì)致病變異的質(zhì)量進(jìn)行可視化評(píng)估,包括致病變異位點(diǎn)兩側(cè)的參考基因組序列復(fù)雜度、測(cè)序序列比對(duì)質(zhì)量、測(cè)序覆蓋度、等位基因頻率、變異在測(cè)序序列的位置分布等(圖4)。
圖3 單基因病測(cè)序分析致病基因和變異的自動(dòng)化推薦
圖4 通過(guò)基因組瀏覽器查看致病變異質(zhì)量
對(duì)推薦的致病變異,還可以以在線形式進(jìn)行變異的循證溯源(圖5)。不同數(shù)據(jù)源提供的證據(jù)包括:(1)變異所在基因在OMIM、MedGen、OrphaNet數(shù)據(jù)庫(kù)中的單基因病名稱、臨床特征描述;(2)變異在1000基因組、gnomAD、dbSNP中的頻率,尤其是在東亞人群中的頻率;(3)變異在PubMed中的報(bào)道。對(duì)以上兩個(gè)位點(diǎn),在東亞人群中的頻率分布為0.000 24和0.000 38,屬于罕見(jiàn)變異位點(diǎn)。其中CSPP1:c.1132C>T在PubMed已經(jīng)報(bào)道[20],該突變引入終止密碼子,造成CSPP1蛋白的提前終止,為致病性位點(diǎn);而CSPP1:c.2244_2245del尚無(wú)報(bào)道。
同時(shí),原始數(shù)據(jù)文件的質(zhì)量評(píng)估報(bào)告、序列比對(duì)報(bào)告、致病突變列表都自動(dòng)生成,可逐個(gè)查看并下載。突變列表共有三個(gè)供下載,分別是:(1)最可能致病的突變;(2)疾病相關(guān)致病基因上的所有變異,包括質(zhì)量不合格的變異位點(diǎn);(3)全基因組水平的所有變異位點(diǎn),包括質(zhì)量不合格的變異位點(diǎn)。最后,用戶可以預(yù)覽報(bào)告,通過(guò)患者病歷與系統(tǒng)自動(dòng)化推薦的疾病典型臨床特征進(jìn)行表型比對(duì)。在確認(rèn)致病變異后,用戶可以在線打印檢測(cè)報(bào)告。
圖5 變異位點(diǎn)的循證溯源
該研究采用信息學(xué)技術(shù),提供了一種自動(dòng)化的單基因病遺傳變異分析解讀系統(tǒng),能夠?qū)π乱淮鷾y(cè)序的原始數(shù)據(jù)進(jìn)行生物信息學(xué)分析,識(shí)別檢測(cè)樣品中遺傳變異,并根據(jù)變異的類型、功能預(yù)測(cè)結(jié)果、人群頻率、人群致病性證據(jù)、是否符合遺傳傳遞模式等對(duì)變異進(jìn)行綜合評(píng)分和致病性分級(jí),最終鑒定和報(bào)告檢測(cè)個(gè)體中的致病突變。我們研究并開(kāi)發(fā)的系統(tǒng)能夠?qū)崿F(xiàn)從新一代測(cè)序原始數(shù)據(jù)到致病變異報(bào)告的全程自動(dòng)化,并可通過(guò)基因組瀏覽器在線查看致病變異的測(cè)序質(zhì)量,可通過(guò)PubMed ID實(shí)現(xiàn)對(duì)變異相關(guān)文獻(xiàn)報(bào)道的查證,或?qū)?lái)源于數(shù)據(jù)庫(kù)的證據(jù)進(jìn)行溯源,極大降低了遺傳變異人工解讀的工作量,大大提高了單基因病新一代測(cè)序中遺傳變異分析和臨床解讀的效率。
該研究獲得的整合數(shù)據(jù)庫(kù)為單基因病遺傳變異分析及解讀提供了參考數(shù)據(jù),其來(lái)源包括ClinVar、OrphaNet、UniProtKB和PubMed。這四個(gè)數(shù)據(jù)庫(kù)收錄的變異各有不同,互為補(bǔ)充。ClinVar是一個(gè)描述人類遺傳變異和表型關(guān)系的整合型綜合性數(shù)據(jù)庫(kù),是一個(gè)由用戶驅(qū)動(dòng)的開(kāi)放型數(shù)據(jù)庫(kù),允許多個(gè)用戶提交數(shù)據(jù),相同的變異-表型關(guān)系可得到相互驗(yàn)證。這也使得ClinVar能夠收錄沒(méi)有報(bào)道過(guò)的變異。OrphaNet是專注于罕見(jiàn)病和孤兒藥的參考性數(shù)據(jù)庫(kù),其目標(biāo)旨在幫助罕見(jiàn)病患者來(lái)改善診斷、照護(hù)和治療。OrphaNet僅對(duì)基因水平的數(shù)據(jù)進(jìn)行公開(kāi),而變異水平的數(shù)據(jù)不能免費(fèi)獲取。UniProtKB關(guān)注于導(dǎo)致氨基酸改變的變異,其數(shù)據(jù)來(lái)源主要是Swiss-Prot、 TrEMBL 和 PIR-PSD 三大數(shù)據(jù)庫(kù),與其它數(shù)據(jù)庫(kù)的來(lái)源不同,可作為ClinVar、OrphaNet等的補(bǔ)充。PubMed數(shù)據(jù)庫(kù)收錄的大多是首次發(fā)現(xiàn)的遺傳性疾病相關(guān)的基因和變異,并沒(méi)有全部被其他公共數(shù)據(jù)庫(kù)收錄。我們沒(méi)有整合OMIM數(shù)據(jù)庫(kù),主要是由于需要每個(gè)月獲取序列號(hào),而且限制使用;另一方面,OMIM數(shù)據(jù)庫(kù)也會(huì)定期向ClinVar提交數(shù)據(jù)。
單基因病遺傳變異分析解讀系統(tǒng)實(shí)現(xiàn)了對(duì)單基因遺傳病患者和受累家系致病基因突變的鑒定,輔助單基因病領(lǐng)域相關(guān)的臨床醫(yī)生進(jìn)行遺傳學(xué)病因診斷,加快單基因病相關(guān)科研人員的研究發(fā)現(xiàn),為單基因病患者的治療、康復(fù)和預(yù)后提供參考,以及單基因病家庭的再生育指導(dǎo)提供幫助。該系統(tǒng)通過(guò)國(guó)家人類遺傳資源共享服務(wù)平臺(tái),可為我國(guó)單基因病領(lǐng)域臨床醫(yī)生和科研人員提供免費(fèi)共享服務(wù)。目前,該系統(tǒng)正在面向我國(guó)17個(gè)省、直轄市或自治區(qū)的45家臨床醫(yī)療機(jī)構(gòu)和科研院所,為單基因病領(lǐng)域的臨床醫(yī)生和研究人員提供單基因病智能化遺傳咨詢共享服務(wù)[21-22]。