周 仁,鄭鴻塵,李文詠,王夢瑩,王斯悅,李 楠,李 靜,周治波,吳 濤,朱洪平△
(1.北京大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系,北京 100191; 2.北京大學口腔醫(yī)學院·口腔醫(yī)院,口腔頜面外科 國家口腔疾病臨床醫(yī)學研究中心 口腔數字化醫(yī)療技術和材料國家工程實驗室 口腔數字醫(yī)學北京市重點實驗室,北京 100081;3.北京大學口腔醫(yī)學院·口腔醫(yī)院兒童口腔科,北京 100081)
非綜合征型唇腭裂(non-syndromic oral clefts, NSOCs)是我國常見的出生缺陷之一,其患病率僅次于美洲印第安人和日本人[1],患病率每1 000名活產兒約為1.39~1.46[2]。NSOC根據累及解剖部位不同可分為3種亞型,即單純腭裂(non-syndromic cleft palate only, NSCPO)、單純唇裂(non-syndromic cleft lip only, NSCLO)和唇裂合并腭裂(non-syndromic cleft lip and palate, NSCLP);后兩者由于流行病學特征及胚胎發(fā)育起源特征的相似性被認為具有相同的病因背景,在該領域病因學研究中通常合并為一類,稱為非綜合征型唇裂合并或不合并腭裂(cleft lip with or without cleft palate, NSCL/P)。NSCL/P是一種復雜性疾病,其遺傳病因探索一直是該領域的研究熱點。近年來廣泛開展的全基因組關聯(lián)研究(genome-wide association study,GWAS)已發(fā)現數十個影響NSOC發(fā)病風險的基因或區(qū)域[3-6],然而這些基因或區(qū)域僅能解釋NSOC遺傳度的約20%[7],提示仍有遺傳危險因素尚未被發(fā)現。
由于GWAS的理論基礎是常見復雜疾病的遺傳危險因素來源于人群中弱勢等位基因頻率(minor allele frequency, MAF)大于等于5%的常見遺傳變異[8-9],該方法難以探索MAF小于5%的罕見遺傳變異或低頻遺傳變異,而MAF小于5%的罕見遺傳變異或低頻遺傳變異可能具有更強的致病效應,對遺傳度的貢獻更大[10]。因此,搜尋致病性罕見變異是后GWAS時代非綜合征型唇腭裂遺傳病因學研究的焦點。二代測序技術(next generation sequencing,NGS)則為搜尋罕見致病位點提供了高效可靠的方法。該技術不僅能檢測常見變異,更重要的是可以彌補GWAS難以覆蓋到的罕見變異。根據測序覆蓋范圍不同,二代測序可以分為全基因組測序、全外顯子組測序(whole exome sequencing,WES)和目標區(qū)域測序,其中WES覆蓋整個外顯子組,發(fā)現編碼區(qū)的遺傳變異更有利于對結果的生物學功能進行合理的解釋,因此,全外顯子組測序在復雜疾病的遺傳病因探索方面具有一定的優(yōu)勢。此外,親源效應也是尚未被解釋的遺傳度的可能來源之一,由于親源效應是指親本來源染色體上的等位基因出現差異性表達,即相同等位基因對疾病風險的影響因其親本來源不同而不同,探索親源效應不僅能加深對該疾病遺傳病因的理解,還能為今后的唇腭裂遺傳咨詢、風險評估工作提供科學依據。
SPRY基因家族包含4個基因,分別為SPRY1、SPRY2、SPRY3、SPRY4,且位于不同的染色體。SPRY基因編碼的蛋白質能夠參與和調節(jié)多個涉及人體生長發(fā)育信號通路的正常表達,如RTK(receptor tyrosine kinase)信號通路和FGF(fibroblast growth factors)信號通路[11-12],其中,FGF信號通路能夠調控細胞的增殖、分化和胚胎的形態(tài)學特征,曾被報道與唇腭裂的發(fā)生有緊密聯(lián)系[13]。Ludwig等[14]在一篇Meta分析首次報道了SPRY2附近區(qū)域rs8001641的變異與NSCLP關聯(lián);隨后Jia等[15]和Moreno Uribe等[16]在歐洲人群中成功復制了rs8001641位點的變異與NSCLP的關聯(lián)。在中國人群中,Yu等[6]利用漢族人群3 379名NSCLP病例和8 593名對照者發(fā)現了SPRY2基因(rs9545308)與NSCLP的關聯(lián),并報道了該家族另一基因SPRY1基因的rs908822位點變異與NSCLP的關聯(lián),提示SPRY基因家族可能在中國人群NSCL/P發(fā)病過程中發(fā)揮作用。然而,目前在中國人群NSCL/P中對SPRY基因家族的分析多利用GWAS數據,對該基因家族中的罕見變異探索較少見。
本研究基于病例-雙親設計,以2016—2018年于北京大學口腔醫(yī)院募集的 183個中國人群非綜合征型唇裂合并或不合并腭裂核心家系(549人)為研究對象。利用其二代測序數據中的SPRY基因家族相關信息,展開單核苷酸多態(tài)性(尤其是罕見變異)和親源效應分析,探索SPRY基因家族中的單核苷酸多態(tài)性及親源效應與中國人群非綜合征型唇腭裂發(fā)病風險的關聯(lián)。
本研究開始前獲得北京大學醫(yī)學倫理委員會審查批準(IRB00001052-15081),所有研究對象均簽署知情同意書,未成年人由其監(jiān)護人簽署知情同意書。
本研究2016—2018年于北京大學口腔醫(yī)院募集的183個中國NSCL/P核心家系(共549人)為研究對象。
納入標準:(1)非綜合征型唇腭裂患兒;(2)患兒及其父母自愿參加本次研究并且簽署書面知情同意書。
排除標準:患兒父母中僅一方可以參加本次研究。
由臨床專家和遺傳學專家共同確診病例及疾病亞型,所有病例通過臨床檢查排除綜合征型唇腭裂。所募集的183名NSCL/P患者中包含114名男性,69名女性。本研究采用二階段設計,于第一階段對24個具有陽性家族史的NSCL/P核心家系進行全外顯子測序階段,第二階段在159個NSCL/P獨立樣本中對第一階段陽性信號進行驗證。兩階段中NSCL/P患者的性別分布見表1。
表1 中國人群183個NSCL/P患者的性別分布情況Table 1 The sex distribution of 183 NSCL/P cases in Chinese populations
募集現場由經過統(tǒng)一培訓的調查員通過面對面的問卷調查收集患者及父母的基本信息、環(huán)境暴露等情況,并根據臨床體格檢查獲取患者的生長發(fā)育情況。對患兒及其父母采集每人4 mL靜脈血,采用鹽析法從血細胞中提取DNA樣本進行基因型檢測。第一階段的全外顯子組測序由武漢華大醫(yī)學檢驗所有限公司完成。使用NimbleGen SeqCap EZ V3(64M)平臺進行外顯子組捕獲,使用Illumina Hiseq4000測序平臺進行高通量測序。根據測序深度(剔除測序深度小于6或大于500的位點)、基于樣本的缺失率等指標對測序數據進行質量控制,得到一階段分析的遺傳變異位點。第二階段對驗證位點的檢測采用KASP(Kompetitive Allele Specific PCR)技術,整個實驗步驟按照LGC公司的KASP操作指南(www.lgcgenomics.com)進行。對二階段驗證位點的質量控制包括:(1)剔除分型缺失率>10%的SNP位點;(2)在父母親人群中計算每一個SNP位點的MAF,剔除MAF<0.1%的SNP位點。
本研究所基于的二代測序研究采用二階段設計,因此數據分析分為相應的兩部分:第一階段對SPRY基因的外顯子組測序結果進行遺傳變異的注釋、功能預測及統(tǒng)計學分析,統(tǒng)計學分析包括單位點分析和多位點分析,結合以上結果挑選可能的致病位點作為二階段驗證位點;第二階段對一階段發(fā)現的位點進行單位點分析和親源效應分析。
1.3.1一階段數據分析
1.3.1.1遺傳變異的注釋及功能預測 本研究采用SnpEff(http: //snpeff.sourceforge.net/SnpEff_manual.html)軟件對測序結果做注釋及功能預測,包括變異所在區(qū)域,是否導致蛋白編碼和氨基酸改變,Polyphen2、SIFT、CADD(combined annotation dependent depletion)分值等功能預測指標。Polyphen2用于評價特定位點變異引起的氨基酸變化對人體蛋白質結構及功能的影響,其取值范圍為0~1,Polyphen2的取值越大表示該位點變異帶來的氨基酸變化對人體蛋白質結構及功能的影響越大。根據Polyphen2取值大小可將變異分為良性(0~0.446)、可能有危害(0.447~0.908)、很可能有危害(0.909~1)3類。SIFT用于評價某個氨基酸變化對蛋白質功能的影響,通過在基因組中尋找與目標位點附近序列相似的序列,與其進行比對并計算發(fā)生堿基替換的概率,若位點發(fā)生堿基替換的概率小于0.05,則認為該位點是有害的。CADD分值也叫做C-scores,該指標將多個注釋及功能預測指標整合為一個指標,可定量評價某位點變異帶來的功能學影響以及是疾病致病位點的可能性大小,若某位點的分值大于或等于10,則認為該位點可能為疾病的致病位點。
1.3.1.2單位點分析 采用TDT方法進行單位點關聯(lián)分析,其無效假設是雜合子父母傳遞任意一等位基因給患病子女的概率為50%,若研究人群中傳遞情況與無效假設不符,表明該等位基因與疾病存在關聯(lián),提示該遺傳標記位點與潛在致病位點之間存在連鎖或二者處于連鎖不平衡。由PLINK (v1.07, http: //pngu.mgh.harvard.edu/purcell/plink/)軟件完成。
1.3.1.3多位點分析 采用以家系為基礎的序列核心關聯(lián)檢驗(family-based sequence kernel association test)方法,將單個基因內多個遺傳位點的效應進行整合, 以基因或區(qū)域為單位提供效應值,從而檢驗位點與表型之間的關聯(lián),此分析由R軟件的famSKAT-RC包完成,該計算包在整合多個遺傳位點的效應值時可同時納入常見變異及罕見變異。
根據以上分析中遺傳變異的注釋結果、功能預測及統(tǒng)計學分析結果,選取滿足以下任意一種情況的位點進入驗證階段:(1) Polyphen2≥0.909或SIFT≤0.05或CADD≥10的位點;(2) TDT中P值小于0.05的位點;(3)famSKAT中P值小于0.05的基因上的位點。
1.3.2二階段數據分析
對納入驗證階段的位點進行如下分析;本階段分析采用Bonferroni法進行多重檢驗矯正,矯正后顯著性水平P=0.05/3=0.017。
1.3.2.1單位點分析 采用TDT方法進行單位點關聯(lián)分析,由PLINK (v1.07, http: //pngu.mgh.harvard.edu/purcell/plink/)軟件完成。
1.3.2.2親源效應分析 本研究采用Z檢驗分析親源效應。原理為分別考慮父親和母親向子代傳遞中的傳遞不平衡情況,得到在父親-子代、母親-子代兩種傳遞方向中某等位基因傳遞與未傳遞的比值比,通過比較母親和父親分別向子代傳遞過程中的比值比是否存在差異,以檢驗是否存在親源效應。統(tǒng)計分析由PLINK(v1.07, http: //pngu.mgh.harvard.edu/purcell/plink/)軟件完成。
本研究按照所制定的測序數據質量控制標準,對一階段24個NSCL/P核心家系全外顯子組測序數據中位于SPRY基因家族中的24個位點進行質量控制,共22個位點納入分析。
位點注釋結果顯示本研究納入的22個位點中,11個位于3′端非翻譯區(qū)、1個位于5′端非翻譯區(qū)、5個位于內含子區(qū)域、3個位于基因下游區(qū)、2個為錯義突變位點。錯義突變的位點有位于SPRY1基因rs1298215244位點(c.920T>C),其SIFT值為0.013,Polyphen2值為0.844,CADD值為4.46;位于SPRY2基因的rs504122位點(c.316C>T突變), 其SIFT值為0.097,Polyphen2值為0.001,CADD值為0.16。利用TDT在22個位點中進行單位點分析,結果顯示22個位點均達不到統(tǒng)計學顯著性水平(P<0.05), 其中P值最小的位點為SPRY1基因上的rs300574(P=0.083),P值最小的前五位位點的TDT檢驗結果見表2。
表2 中國人群24個NSCL/P核心家系SPRY基因家族中單位點的傳遞不平衡檢驗結果Table 2 Transmission disequilibrium tests of SNPs in the SPRY gene family among 24 Chinese NSCL/P trios
采用以家系為基礎的序列核心關聯(lián)檢驗以基因為單位進行多位點統(tǒng)計學分析。納入分析的位點中有5個位于SPRY1基因,5個位于SPRY2基因,12個位于SPRY4基因。將這些位點以基因為單位進行組合,分別檢驗SPRY1、SPRY2、SPRY4基因與NSCL/P發(fā)病風險的關聯(lián)。當phi分別取0、0.2、0.5、0.8、1時,SPRY基因與NSCL/P的關聯(lián)均不能達到統(tǒng)計學顯著性水平(P<0.05),其中參數phi為罕見變異對疾病遺傳度的貢獻程度,當phi取1時表明該疾病遺傳度全部來源于罕見變異,當phi取0時表明該疾病遺傳度全部來源于常見變異。以基因為單位的多位點分析結果見表3。
表3 中國人群24個NSCL/P核心家系中SPRY基因的以家系為基礎的序列核心關聯(lián)檢驗分析結果Table 3 The famSKAT analysis of SPRY genes among 24 Chinese NSCL/P trios
根據一階段測序數據分析結果及驗證位點的納入標準,并另外納入一個錯義突變位點,納入二階段驗證的位點有兩個,分別為rs1298215244(SPRY1)和rs504122(SPRY2)。對二階段159個NSCL/P核心家系中這兩個位點的檢測結果分別進行單位點分析、親源效應分析。
在159個NSCL/P驗證家系中進行TDT檢驗,并利用Bonferroni法對結果進行多重檢驗矯正。由于納入驗證的rs504122(SPRY2)位點在中國人群中存在不同堿基的變異,分別為G>C和G>T,因此TDT檢驗次數為3次,Bonferroni多重檢驗校正后的統(tǒng)計學顯著性水平為P=0.05/3=0.017,結果顯示驗證位點與NSCL/P發(fā)病風險的關聯(lián)存在統(tǒng)計學意義,且達到經Bonferroni多重檢驗校正后的統(tǒng)計學顯著性水平(P=0.05/3=0.017,表4)。
表4 中國人群159個NSCL/P核心家系中驗證位點的傳遞不平衡檢驗結果Table 4 Transmission disequilibrium tests of potential signals in the SPRY gene family among 159 Chinese NSCL/P trios
MAF, minor allele frequency;OR, odds ratio.
在二階段159個NSCL/P驗證家系中對驗證位點進行親源效應分析,以探索遺傳變異對疾病的作用是否受其親代來源的影響,同樣采用Bonferroni法對結果進行多重檢驗校正。結果顯示位于SPRY1基因的rs1298215244其親源效應與NSCL/P的關聯(lián)具有統(tǒng)計學意義(P<0.05),但經Bonferonni校正后不能達到顯著性水平(P=0.05/3=0.017)。驗證位點親源效應分析的檢驗結果見表5。
表5 中國人群159個NSCL/P核心家系中驗證位點的親源效應分析結果Table 5 Analyses of parent-of-origin effects for potential signals in the SPRY gene family among 159 Chinese NSCL/P trios
本研究基于病例-雙親核心家系設計,探索SPRY基因家族中單核苷酸多態(tài)性及親源效應與中國人群NSCL/P發(fā)病風險的關聯(lián),發(fā)現SPRY基因家族中rs1298215244的T>C變異、rs504122的G>C變異兩種常見變異和位于rs504122的G>T罕見變異與NSCL/P存在關聯(lián),未發(fā)現該基因家族內SNP位點具有親源效應。
本研究所發(fā)現的兩個單核苷酸多態(tài)性位點均位于SPRY基因的外顯子區(qū)域,且位點變異類型為錯義突變,說明該遺傳變異可改變氨基酸編碼,進而可能影響SPRY蛋白質的結構和功能。其中rs504122位點的突變與人體內多種組織的啟動子組蛋白標記、增強子組蛋白標記及DNA剪切酶相關,且該位點的變異可能影響與KAP1蛋白的結合[17],該蛋白質已被發(fā)現與胚胎干細胞的分化過程存在緊密聯(lián)系[18]。由于SPRY蛋白質為酪氨酸激酶受體(receptor tyrosine kinase, RTK)信號通路的拮抗劑,在多個生物學過程中發(fā)揮重要的調控作用[19-21];SPRY基因編碼的蛋白質也是纖維母細胞生長因子(fibroblast growth factor, FGF)信號通路的調節(jié)因子[11],因此本研究所發(fā)現的位點可能通過影響SPRY蛋白質對胚胎生長發(fā)育的生物學過程,進而影響胚胎的頜面部發(fā)育。此外,曾有動物試驗發(fā)現在小鼠體內的SPRY1和SPRY2基因的表達異??捎绊懪咛サ念M面部發(fā)育過程,導致面部裂、腭裂、鼻額骨無法形成等頜面部缺陷[22-24]。上述動物學試驗發(fā)現也為本研究在SPRY基因家族外顯子區(qū)域所發(fā)現的遺傳變異位點提供了一定程度的支持,表明本研究所發(fā)現的變異可能通過影響SPRY基因的調控功能影響胚胎頜面部發(fā)育。
既往數項人群研究曾對SPRY基因展開非綜合征型唇腭裂的遺傳病因探索,Lugwig等[14]、Jia等[15]和Moreno Uribe等[16]曾先后在歐洲人群中發(fā)現并復制了位于SPRY2基因的rs8001641與非綜合征型唇腭裂的關聯(lián),SPRY1與SPRY2在中國人群中也曾被發(fā)現陽性信號[6]。在該基因家族中罕見遺傳變異的探索方面,Jia等[15]利用病例對照研究在病例組中發(fā)現了13q31.1區(qū)域的4個罕見變異,雖然其與唇腭裂的關聯(lián)沒有達到統(tǒng)計學顯著水平,但這些罕見變異在對照組人群中均不存在,提示SPRY2基因中的罕見變異可能是該疾病的病因來源之一。上述研究所發(fā)現的位點多位于基因的內含子或基因間區(qū)域,較難對陽性信號進行生物學功能解釋。盡管本研究發(fā)現單核苷酸多態(tài)性位點與既往發(fā)現的位點不重合且不存在強連鎖不平衡,但本研究的陽性信號位于外顯子編碼區(qū),提示其可能通過影響蛋白質功能和結構參與發(fā)病。
本研究未發(fā)現與NSCL/P具有關聯(lián)的單核苷酸多態(tài)性位點具有親源效應,提示陽性位點對疾病的影響程度不受等位基因的來源(父親或母親)所影響。親源效應是指依靠單親傳遞某些遺傳學形狀,親本來源染色體上的等位基因出現差異性表達,即兩個親本等位基因中一方表達,另一方沉默的現象[25]。親源效應分析的本質是探索同一等位基因對疾病發(fā)生風險的效應強度是否受該基因來源(來源于父親或母親)的影響。由于核心家系可收集患兒及其父母雙方的遺傳信息,核心家系研究是在親源效應分析方面相對于病例對照研究具有研究設計上的天然優(yōu)勢。本研究未能發(fā)現SPRY基因的親源效應與疾病發(fā)生風險相關,可能與樣本量有限或親源效應強度較弱有關,因此有關SPRY基因是否能通過親源效應影響NSCL/P的發(fā)病風險仍有待后續(xù)研究的進一步探索。
綜上所述,本研究以183個中國人群NSCL/P核心家系的二代測序數據中SPRY基因家族相關信息展開分析,可以進一步探索既往GWAS無法覆蓋的罕見變異與NSCL/P的關系。研究基于病例-雙親核心家系設計,可以較好地控制人群分層所帶來的混雜,并可借助父母及子代的遺傳信息對基因檢測結果進行質量控制,保證數據質量,同時為親源效應分析提供可能。本研究所基于的測序研究采用二階段設計,可提高研究效率;然而由于一階段樣本量較少,可能影響本研究發(fā)現罕見變異的功效;第一階段未采用嚴格的多重檢驗校正以避免遺漏潛在致病位點,因而第一階段結果存在假陽性的可能,但本研究在第二階段采用了更大樣本量的獨立樣本對第一階段結果進行驗證,并對陽性閾值進行了多重檢驗校正,可進一步篩選陽性信號,減少了被成功驗證的位點中出現假陽性的可能。此外,測序數據中位于SPRY基因區(qū)域的位點數目較少,說明測序數據在該目標區(qū)域內的覆蓋率較低,可能遺漏一些與NSCL/P發(fā)生風險關聯(lián)的位點。本研究對NSCL/P亞型進行遺傳病因探索,由于不同亞型其病因來源存在一定差異,還可依據是否患有腭裂、是否合并缺牙等對該亞型進行更加細致的劃分,有助于提高研究效率。未來可在擴大樣本量的基礎上,針對SPRY基因家族進行目標區(qū)域測序,提高該區(qū)域的位點覆蓋率,并對疾病亞型進行劃分,更加全面、細致地探索SPRY基因家族中罕見變異與中國人群NSCL/P的關聯(lián),為未來進一步開展風險預測、遺傳咨詢及產前篩檢、制定有效的預防策略措施提供科學依據。