許逸聰,胡婉雪,謝 芹,趙洪波*,唐 欣
(昆明醫(yī)科大學(xué)a.分子臨床醫(yī)學(xué)研究院暨云南省干細(xì)胞和再生醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室;b.康復(fù)學(xué)院,中國云南昆明650500)
自閉癥譜系障礙(autism spectrum disorder,ASD)是一類常見的神經(jīng)發(fā)育疾病,診斷標(biāo)準(zhǔn)包括持續(xù)的社會(huì)交流與互動(dòng)缺失、語言障礙、刻板重復(fù)行為及狹隘的興趣。除上述癥狀外,患者可能同時(shí)伴隨有癲癇、睡眠障礙、抑郁、焦慮以及胃腸道活動(dòng)紊亂等癥狀,表現(xiàn)出明顯的異質(zhì)性和多樣性[1],這些癥狀在兒童早期出現(xiàn)并嚴(yán)重影響患兒的日常生活[2]。作為一種具有高遺傳性和生物復(fù)雜性的神經(jīng)行為障礙類疾病,ASD是由遺傳、環(huán)境等復(fù)雜因素相互作用形成的,其中遺傳變異導(dǎo)致的發(fā)病率相對(duì)較高[3]。2016年發(fā)表的一項(xiàng)基于雙胞胎研究的薈萃分析指出,64%~91%的ASD風(fēng)險(xiǎn)是由遺傳因素引起的[4]。
盡管目前已發(fā)現(xiàn)上百種風(fēng)險(xiǎn)基因與ASD相關(guān),表明ASD具有明顯的遺傳異質(zhì)性,但遺傳背景有差異的ASD個(gè)體往往表現(xiàn)出相似的行為特征[5]。越來越多研究也表明,與ASD密切相關(guān)的基因可能匯聚于一些共同的生物學(xué)過程[6~7],在ASD發(fā)生過程中起關(guān)鍵作用,但尚未有研究系統(tǒng)篩選這些功能模塊和核心基因。因此,本研究利用生物信息學(xué)方法,通過疾病基因數(shù)據(jù)庫中報(bào)道的ASD相關(guān)基因信息,整合蛋白質(zhì)互作(protein-protein interaction,PPI)網(wǎng)絡(luò)先驗(yàn)知識(shí),挖掘ASD的功能模塊和核心基因,并對(duì)每個(gè)模塊進(jìn)行通路富集分析,為ASD的遺傳研究提供參考。
本研究從3個(gè)疾病數(shù)據(jù)庫收集ASD相關(guān)基因。AutismKB 2.0(http://db.cbi.pku.edu.cn/autismkb_v2/index.php)是ASD遺傳證據(jù)的知識(shí)庫[8],當(dāng)前版本包含ASD相關(guān)的1 379個(gè)基因(99個(gè)綜合征自閉癥相關(guān)基因和1 280個(gè)非綜合征自閉癥相關(guān)基因)、5 420個(gè)拷貝數(shù)變異(copy number variation,CNV)/結(jié)構(gòu)變異(structural variation,SV)、11 669 個(gè)單核苷酸變異(single nucleotide variation,SNV)/插入和缺失(insertions and deletions,InDels)以及與ASD相關(guān)的172個(gè)連鎖區(qū)域。SFARI Gene數(shù)據(jù)庫(https://gene.sfari.org/)收錄了1 089個(gè)ASD基因、2 290個(gè)CNV基因座和2 296個(gè)動(dòng)物模型[9]。Dis-GeNET是一個(gè)綜合性疾病基因數(shù)據(jù)庫[10],整合了來自專家?guī)臁⑷蚪M關(guān)聯(lián)分析(genome-wide association study,GWAS)、動(dòng)物模型和相關(guān)學(xué)術(shù)文獻(xiàn)的數(shù)據(jù),通過“Autism Spectrum Disorder”進(jìn)行檢索,得到571個(gè)相關(guān)基因。為獲得穩(wěn)健的基因集,篩選出在3個(gè)數(shù)據(jù)庫中都出現(xiàn)的基因用于后續(xù)分析。
交互基因檢索工具(Search Tool for the Retrieval of Interacting Genes,STRING)是一種用于評(píng)價(jià)蛋白質(zhì)相互作用的工具[11]。將篩選出的ASD基因集導(dǎo)入STRING在線工具(http://string-db.org),選擇物種為Homo sapiens,設(shè)置置信度閾值大于0.4,得到基因集表達(dá)的蛋白質(zhì)互作網(wǎng)絡(luò)(PPI network)。通過Cytoscape 3.7.2軟件進(jìn)行可視化和連通度分析,將篩選出的連通度大于25的節(jié)點(diǎn)作為PPI網(wǎng)絡(luò)的重要基因。
利用MCODE(Molecular Complex Detection)算法對(duì)PPI網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行密度聚類[12]。首先排除連通度小于3的節(jié)點(diǎn),計(jì)算納入節(jié)點(diǎn)的核聚類系數(shù)(core-clustering coefficient)并將其作為節(jié)點(diǎn)的權(quán)重,之后以當(dāng)前節(jié)點(diǎn)權(quán)重百分率(vertex weight percentage,VWP)為閾值(本研究設(shè)VWP為0.2),篩選閾值范圍內(nèi)的相關(guān)節(jié)點(diǎn)構(gòu)建模塊,并將各模塊中所包含的基因作為核心基因。上述過程通過Cytoscape軟件中的MCODE插件進(jìn)行,參數(shù)設(shè)置:degree cutoff≥3,K-score≥3,其余選擇默認(rèn)值。
采用R軟件包c(diǎn)lusterProfiler[13]對(duì)得到的各功能模塊進(jìn)行KEGG(kyoto encyclopedia of genes and genomes)通路富集分析,通過超幾何分布計(jì)算各通路富集結(jié)果的顯著性,并使用Bonferroni方法進(jìn)行多重假設(shè)檢驗(yàn)校正,以錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,FDR)小于0.05為標(biāo)準(zhǔn),對(duì)富集結(jié)果進(jìn)行篩選,得到顯著富集的KEGG通路。將富集到的KEGG通路輸入KEGG數(shù)據(jù)庫,識(shí)別其類別,進(jìn)而評(píng)估功能模塊之間的相互作用,利用Cytoscape 3.7.2軟件構(gòu)建功能模塊與通路分類的關(guān)系。
為獲得穩(wěn)健的基因集,本研究共納入了AutismKB數(shù)據(jù)庫中的1 379個(gè)基因、SFARI Gene數(shù)據(jù)庫中的1 089個(gè)基因以及DisGeNET數(shù)據(jù)庫中的571個(gè)基因。通過取交集,最終篩選出共有的182個(gè)基因作為ASD相關(guān)基因集用于后續(xù)分析(圖 1)。
圖1 基于3個(gè)數(shù)據(jù)庫獲得ASD共同基因的Venn圖Fig.1 Venn diagram of common ASD genes from three databases
將182個(gè)ASD相關(guān)基因?qū)隨TRING數(shù)據(jù)庫,進(jìn)行PPI網(wǎng)絡(luò)分析。結(jié)果顯示,整個(gè)網(wǎng)絡(luò)包含171個(gè)節(jié)點(diǎn)和1 041條邊,其中每個(gè)節(jié)點(diǎn)代表基因?qū)?yīng)的蛋白質(zhì),每條邊代表兩個(gè)蛋白質(zhì)之間的互作關(guān)系(圖2)。根據(jù)PPI網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的連通度,篩選得到PPI網(wǎng)絡(luò)中核心蛋白質(zhì)的編碼基因23 個(gè),分別為 NRXN1、GRIN2B、GRIN2A、DLG4、NLGN3、MECP2、CNTNAP2、BDNF、NLGN4X、FMR1、SHANK2、RELN、CHD8、SNAP25、CACNA1C、GAD1、PTEN、NRXN3、GABRB3、SYN1、SHANK1、SCN2A和UBE3A。
通過MCODE算法對(duì)PPI網(wǎng)絡(luò)進(jìn)行分析,最終獲得5個(gè)功能模塊,包含68個(gè)核心基因(表1和圖3)。節(jié)點(diǎn)顏色越深表明該節(jié)點(diǎn)在其模塊網(wǎng)絡(luò)中的連通度越高,即其所代表的編碼基因在模塊網(wǎng)絡(luò)中的重要性越高。評(píng)分最高的模塊1(M1)包含20個(gè)基因及146條邊,平均每個(gè)節(jié)點(diǎn)含有7.3條邊,說明該模塊中的基因之間關(guān)系比較密切,其中排名靠前的基因有 GRIN2B、GRIN2A、DLG4、MECP2、NLGN3、CNTNAP2、NLGN4X、FMR1、SHANK2等。模塊2(M2)由20個(gè)基因和54條邊組成,平均每個(gè)節(jié)點(diǎn)含有2.7條邊,其中BDNF處于模塊核心位置。模塊3(M3)有16個(gè)核心基因,模塊4(M4)含有的核心基因最少,僅4個(gè)。
對(duì)篩選出的各個(gè)模塊進(jìn)行KEGG通路富集分析,結(jié)果顯示:模塊M1顯著富集于谷氨酸能突觸、細(xì)胞黏附分子和物質(zhì)依賴通路;模塊M2主要富集于突觸囊泡循環(huán)、多巴胺能神經(jīng)突觸、神經(jīng)活性的配體-受體相互作用等通路;模塊M3富集的通路有促性腺激素分泌、晝夜節(jié)律、MAPK信號(hào)通路、鈣離子通路等;模塊M4主要富集在免疫相關(guān)通路;模塊M5涉及到鈣離子通路和神經(jīng)活性的配體-受體相互作用(表2)。分析模塊之間的共同通路發(fā)現(xiàn),M1和M2都包括可卡因成癮通路,M1和M4都包括細(xì)胞黏附分子通路,M2和M5都涉及神經(jīng)活性的配體-受體相互作用通路,M3和M5都包括鈣離子信號(hào)通路。
為了展示各模塊之間的關(guān)系,根據(jù)各模塊富集到的KEGG通路類別評(píng)估5個(gè)功能模塊之間的相互作用,構(gòu)建模塊和通路分類的關(guān)系圖(圖4)。圖中的功能類是KEGG通路的分類,包括信號(hào)分子和相互作用(signaling molecules and interaction)、神經(jīng)系統(tǒng)(nervous system)、物質(zhì)依賴(substance dependence)、內(nèi)分泌代謝病(endocrine and metabolic disease)、信號(hào)轉(zhuǎn)導(dǎo)(signal transduction)、轉(zhuǎn)運(yùn)和降解(transport and catabolism)、環(huán)境適應(yīng)(environmental adaptation)、免疫系統(tǒng)(immune system)、免疫疾病(immune disease)、細(xì)胞生長和死亡(cell growth and death)、內(nèi)分泌系統(tǒng)(endocrine system)、傳染病(infectious disease)、循環(huán)系統(tǒng)(circulatory system)、抗藥性(drug resistance)、心血管疾病(cardiovascular disease)和腫瘤(cancer)。其中信號(hào)分子和相互作用(M1、M2、M4 和 M5)與神經(jīng)系統(tǒng)(M1、M2 和M3)這兩個(gè)通路分類的連通度最高。
圖2 ASD相關(guān)基因的PPI網(wǎng)絡(luò)圖每個(gè)節(jié)點(diǎn)代表各基因?qū)?yīng)的蛋白質(zhì),連接各節(jié)點(diǎn)的邊代表蛋白質(zhì)之間的相互作用。節(jié)點(diǎn)連邊越多表示其連通度越高,在網(wǎng)絡(luò)中的位置越趨于中心,且顏色也越深。Fig.2 The PPI network of ASD related genesEach dot represents a protein corresponding to each gene,and the edge represents the interaction between the proteins.The center nodes with deeper color represent higher degree.
表1 各模塊的基本信息Table 1 Basic information of each module
ASD是一種復(fù)雜的遺傳性神經(jīng)行為障礙類疾病,目前已有一些ASD相關(guān)的分子機(jī)制的研究[14~15],但各獨(dú)立研究之間缺乏一個(gè)明確的共識(shí)。ASD的高異質(zhì)性則表明,其發(fā)生發(fā)展涉及多種生物學(xué)過程的相互作用,而這些互作關(guān)系所涉及的具體機(jī)制尚不明確。本研究結(jié)合ASD疾病基因數(shù)據(jù)庫與蛋白質(zhì)互作網(wǎng)絡(luò)先驗(yàn)知識(shí),構(gòu)建了ASD風(fēng)險(xiǎn)基因網(wǎng)絡(luò),通過網(wǎng)絡(luò)分解,挖掘出緊密聯(lián)系的功能模塊和核心基因,進(jìn)而分析了各模塊的功能。為得到穩(wěn)健的候選基因集,我們從3個(gè)數(shù)據(jù)庫獲取基因交集,增加了結(jié)果的可信度。分析結(jié)果顯示篩選得到68個(gè)核心基因,并提取了ASD相關(guān)的5個(gè)功能模塊。
圖3 各功能模塊網(wǎng)絡(luò)圖各節(jié)點(diǎn)代表功能模塊的核心基因,顏色越深表示該基因的連通度越大。Fig.3 Network of each functional moduleThe nodes represent the hub genes in functional module,and the deeper colors represent genes with higher degree.
圖4 功能模塊與通路分類關(guān)系圖藍(lán)色表示模塊,紅色表示通路分類。Fig.4 Diagram of functional modules and pathway classificationBlue indicates the module and red indicates the pathway classification.
表2 各功能模塊的KEGG通路富集分析結(jié)果Table 2 The results of KEGG pathway enrichment analysis in each functional module
為闡明模塊的生物學(xué)功能,本研究對(duì)每個(gè)模塊中的核心基因進(jìn)行了基于KEGG信號(hào)通路的富集分析。評(píng)分最高的模塊M1主要與谷氨酸能神經(jīng)元突觸形成及可塑性等過程相關(guān)。其中,NLGN3、NRXN3等基因編碼的神經(jīng)連接蛋白(neuroligins,NLGNs)家族和神經(jīng)軸突蛋白(neurexins,NRXNs)家族均為單次跨膜Ⅰ型蛋白家族。在谷氨酸能或γ氨基丁酸(γ-aminobutyric acid,GABA)能神經(jīng)元中,NLGNs蛋白家族位于突觸后膜,而NRXNs蛋白家族則位于突觸前膜。兩者可以相互結(jié)合并與SHANK3蛋白綁定形成復(fù)合物,在突觸的形成以及突觸間的信息傳遞等過程中起到核心調(diào)控作用[16]。GRIN2A及GRIN2B基因分別編碼N-甲基-D-天冬氨酸(N-methyl-D-aspartate,NMDA)受體的2a及2b亞基,其在神經(jīng)發(fā)育早期階段有著豐富的表達(dá),并在發(fā)育后期的表達(dá)量逐漸降低,表明其主要參與神經(jīng)系統(tǒng)的早期發(fā)育過程;此外,GRIN2B也在神經(jīng)元的增殖遷移、軸突樹突形成、學(xué)習(xí)記憶及突觸可塑性等多種神經(jīng)活動(dòng)相關(guān)過程中起調(diào)控作用[17]。DLG4基因編碼PSD-95蛋白,該蛋白質(zhì)是突觸后區(qū)域中一個(gè)特征明確的支架蛋白質(zhì),可與各種其他功能蛋白質(zhì)相結(jié)合[18]。在突觸后神經(jīng)元中,SHANK蛋白與PSD-95構(gòu)成復(fù)合物,并與NMDA受體交聯(lián),參與谷氨酸能神經(jīng)活動(dòng)調(diào)節(jié)的突觸可塑性[19]。FMR1基因編碼脆性X智力遲鈍蛋白 (fragile X mental retardation protein,FMRP),FMRP定位于神經(jīng)元的胞體和樹突,通過與mRNA結(jié)合調(diào)節(jié)蛋白質(zhì)合成,主要起轉(zhuǎn)錄抑制因子的作用。而SHANK蛋白家族則作為FMRP的下游靶標(biāo)被調(diào)控[20]。CASK基因編碼鈣/鈣調(diào)蛋白依賴性絲氨酸蛋白激酶,在突觸前神經(jīng)元中,通過與NRXNs結(jié)合構(gòu)成復(fù)合物,從而連接細(xì)胞骨架,參與突觸可塑性的相關(guān)調(diào)節(jié)[21]。通過文獻(xiàn)挖掘和模塊網(wǎng)絡(luò)圖可以發(fā)現(xiàn),M1中各核心基因之間關(guān)系緊密,任何部分的改變均可能導(dǎo)致谷氨酸能神經(jīng)元突觸形成及可塑性過程的異常。比如:通過編輯小鼠的NLGNs蛋白家族相關(guān)基因發(fā)現(xiàn),無論是這些基因的缺失還是過度表達(dá),都可能導(dǎo)致小鼠出現(xiàn)ASD樣的行為表現(xiàn)和中樞興奮性與抑制性網(wǎng)絡(luò)環(huán)路的異常[22];GRIN2B區(qū)域內(nèi)的多個(gè)單核苷酸多態(tài)性 (single nucleotide polymorphism,SNP)與ASD的發(fā)病密切相關(guān),不同的突變表型會(huì)影響Mg2+對(duì)Ca2+滲透性陽離子通道的電壓依賴性阻滯作用,從而導(dǎo)致異常的神經(jīng)電活動(dòng)[23~24];CASK作為發(fā)育障礙相關(guān)的基因之一,其突變也在ASD患者中被發(fā)現(xiàn)[25]。此外,小鼠Fmr1的缺失導(dǎo)致功能性皮質(zhì)內(nèi)神經(jīng)元連接的發(fā)育缺陷[26],興奮與抑制的失衡[27],軀體感覺皮層神經(jīng)元網(wǎng)絡(luò)活動(dòng)的同步性增加[28],以及視覺皮層中神經(jīng)元電活動(dòng)依賴的可塑性異常[29]。
模塊M2中包括的核心基因則與神經(jīng)遞質(zhì)的囊泡轉(zhuǎn)運(yùn)等過程相關(guān)。APBA2編碼的蛋白質(zhì)又稱MINT2,是神經(jīng)元銜接蛋白家族成員之一,其通過與CASK蛋白結(jié)合,進(jìn)而與NRXNs家族蛋白交聯(lián),并構(gòu)成一種轉(zhuǎn)運(yùn)蛋白復(fù)合體[30]。該轉(zhuǎn)運(yùn)蛋白復(fù)合體通過與CASK相連接的細(xì)胞骨架將Munc18-1等突觸囊泡相關(guān)蛋白質(zhì)募集到NRXNs家族蛋白周圍,而Munc18-1是一種sec1樣蛋白,參與胞吐作用等神經(jīng)遞質(zhì)釋放相關(guān)的過程[31]。SNAP25與STX1A編碼的蛋白質(zhì)共同參與構(gòu)成可溶性N-乙基馬來酰亞胺敏感因子附著蛋白受體(soluble N-ethylmaleimide-sensitive factor attachment protein receptor,SNARE)復(fù)合物[32],這種蛋白質(zhì)復(fù)合物在Munc18-1的拉鏈作用促進(jìn)下黏附谷氨酸或GABA遞質(zhì)囊泡,并通過囊泡的依賴性膜融合開始突觸囊泡循環(huán)過程[33]。模塊M3的核心基因主要涉及突觸后膜電活性調(diào)節(jié)等相關(guān)過程。其中NOS1編碼神經(jīng)元型一氧化氮合酶(neuronal nitric oxide synthase,nNOS),nNOS通過PSD-95與NMDA受體交聯(lián),調(diào)節(jié)NMDA受體相關(guān)下游過程的激活,包括CACNA1C、CACNA1D等編碼的電壓依賴性鈣通道等,從而對(duì)突觸后區(qū)域的活性及可塑性進(jìn)行調(diào)節(jié)[34]。
通過對(duì)功能模塊內(nèi)核心基因的分析,我們發(fā)現(xiàn)NRXNs家族、PSD-95、CASK等以功能蛋白質(zhì)復(fù)合物的形式參與ASD相關(guān)生物學(xué)過程。這些核心基因的異常將會(huì)影響模塊的功能,進(jìn)而導(dǎo)致疾病的發(fā)生發(fā)展。根據(jù)富集到的KEGG通路類別,我們得到了更為深入的功能聯(lián)系,說明了模塊與模塊之間不是孤立的,而是相互作用,共同參與ASD演化的核心病理機(jī)制。
綜上所述,本研究通過數(shù)據(jù)庫挖掘及蛋白質(zhì)互作網(wǎng)絡(luò)分析,篩選出了ASD相關(guān)的5個(gè)功能模塊,得到68個(gè)核心基因,它們匯聚于一些共同的生物學(xué)過程,如突觸傳遞、細(xì)胞間相互作用及細(xì)胞內(nèi)信號(hào)傳遞的分子通路等。這些模塊和基因異常均會(huì)導(dǎo)致整體網(wǎng)絡(luò)的失衡,使得神經(jīng)發(fā)育中的某些過程發(fā)生延遲或中斷,從而導(dǎo)致感知覺與學(xué)習(xí)記憶能力異常、晝夜節(jié)律障礙等ASD相關(guān)癥狀的發(fā)生。本研究對(duì)ASD基因信息的挖掘和整合,有助于進(jìn)一步地了解ASD的分子機(jī)制,可為ASD的基礎(chǔ)研究提供新的參考。