張志豪,楊 益,王月秋,孫思怡,陳 虹,舒 菲,劉 梅
克羅恩病(Crohn’s disease,CD)是一類病因不明的腸道慢性非特異性炎性疾病,目前認(rèn)為CD可能是基因脆弱人群中免疫細(xì)胞對特定菌群異常反應(yīng)的結(jié)果[1],遺傳、免疫和環(huán)境因素是其影響因素[2]。CD全球發(fā)病率高[3],主要表現(xiàn)為慢性腹痛和排便習(xí)慣改變,一般還伴有眼睛、口腔、皮膚、關(guān)節(jié)等部位的病變[4]。腸道微生物群落紊亂,即腸道生態(tài)失調(diào),是CD的一個明顯標(biāo)志[5]。
牙周炎和CD具有一定的相關(guān)性,CD患者牙周炎的患病率相對更高[6-7],且伴發(fā)的口腔唾液功能受損[8]在一定程度上也促進(jìn)了牙周炎的發(fā)生發(fā)展[9]。CD患者的口腔菌群和腸道菌群較為相似,有研究發(fā)現(xiàn)牙齦卟啉單胞菌(Porphyromonasgingivalis)、具核梭桿菌(Fusobacteriumnucleatum)等牙周致病菌在CD患者的腸道黏膜組織中富集[10-11]。此外,牙周炎和CD在疾病發(fā)展過程中,許多共同的細(xì)胞因子及免疫反應(yīng)參與了組織損傷[6,12]。本研究旨在評估牙周炎和CD的共有免疫相關(guān)基因及其作為診斷標(biāo)志物的價值,為探索牙周炎與CD的潛在聯(lián)系提供研究依據(jù)。
CD和牙周炎的表達(dá)數(shù)據(jù)來自Gene Expression Omnibus(GEO)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)。納入標(biāo)準(zhǔn)為:①采用陣列法生成基因表達(dá)譜;②牙周炎數(shù)據(jù)集樣本來自牙齦組織,CD數(shù)據(jù)集樣本來自腸道組織;③數(shù)據(jù)集包含對照組樣本;④樣本來源為智人。牙周炎數(shù)據(jù)集GSE10334、GSE16134均基于GPL570[HG-U133_Plus_2]Affymetrix人類基因組U133 Plus 2.0陣列生成,其中GSE10334包含183個牙周炎牙齦樣本和64個健康牙齦樣本[13],GSE16134包含241個牙周炎牙齦樣本和69個健康牙齦樣本[14]。CD數(shù)據(jù)集GSE126124、GSE75214均基于GPL6244[HuGene-1_0-st]Affymetrix 人類基因組1.0 ST陣列生成,其中GSE126124包含37個CD腸道組織樣本和21個健康腸道組織樣本[15],GSE75214包含59個CD腸道組織樣本和22個健康腸道組織樣本[16]。對所有數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,根據(jù)臨床信息區(qū)分疾病組與健康組,并將數(shù)據(jù)集中的信息與智人基因組進(jìn)行對比后,匹配數(shù)據(jù)集中的探針I(yè)D與基因名稱,將處理完的數(shù)據(jù)輸出為CD和牙周炎處理后的數(shù)據(jù)集。所有的數(shù)據(jù)分析均使用R軟件(4.2.1)進(jìn)行。
在將原始數(shù)據(jù)處理之后,使用R語言(4.2.1)的limma包(3.52.4版本)[17]對牙周炎和CD數(shù)據(jù)進(jìn)行差異分析(differential expression analysis,DEA)。篩選閾值設(shè)置為P<0.05同時|logFC|>0.5,將符合篩選條件的基因定義為差異基因(differentially expressed genes,DEGs)。通過DEA分別篩選出牙周炎和CD中表達(dá)異常的DEGs,并使用R語言(4.2.1)的“ggplot2”包(3.3.6版本)以火山圖模式分別展示牙周炎和CD中數(shù)據(jù)集中的DEGs[18]。然后將在牙周炎數(shù)據(jù)集和CD數(shù)據(jù)集中同時出現(xiàn)的DEGs定義為共同DEGs(overlapping DEGs),使用R語言(4.2.1)的“ggVennDiagram”包(1.2.2版本)繪制牙周炎和CD共同DEGs的Veen圖。
為了研究共同DEGs在牙周炎和CD中發(fā)揮的主要功能,使用R語言(4.2.1)的“clusterProfiler”包(4.4.4版本)[19]和“DOSE”包(3.24.2版本)[20]對其進(jìn)行GO富集分析(Gene Ontology enrichment analysis)[21]、KEGG富集分析(Kyoto Encyclopedia of genes and ggenomes pathway enrichment analysis)[22]和DO富集分析(Disease Ontology enrichment analysis),其中GO富集分析的術(shù)語包括生物過程(BP)、細(xì)胞成分(CC)和分子功能(MF)。將GO分析、KEGG分析、DO分析的閾值均設(shè)置為P<0.05。使用“ggplot2”包(3.3.6版本)以氣泡圖和條形圖模式展示富集分析結(jié)果。
為了分析共同DEGs之間的相互作用,使用STRING數(shù)據(jù)庫(11.5版本)構(gòu)建共同DEGs的PPI網(wǎng)絡(luò)圖[23],將“minimum required interaction score”設(shè)置為0.4,并使用Cytoscape軟件將網(wǎng)絡(luò)圖可視化[24]。在PPI網(wǎng)絡(luò)中,每個節(jié)點都代表這一個相應(yīng)基因編碼的蛋白質(zhì),使用Cytoscape的MCODE插件篩計算每個節(jié)點的連通度[25],連通度代表了與節(jié)點相關(guān)的其他節(jié)點數(shù)量,將節(jié)點頂部的基因作為hub gene。節(jié)點越大,顏色越深,代表對應(yīng)基因的聯(lián)通度越高。
使用R語言(4.2.1)中的“WGCNA”包(1.71版本)進(jìn)行加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析[26],按標(biāo)準(zhǔn)差排序篩選出WGCNA表達(dá)中的前5 000個基因,查看并刪除數(shù)據(jù)集中的離群值,然后分別選取β=16和β=10作為CD和牙周炎的軟閾值構(gòu)建加權(quán)基因共表達(dá)模型,并將基因分為不同的模塊。將每個模塊包含基因的最小值設(shè)置為30。通過Pick Soft Threshold函數(shù)計算出加權(quán)參數(shù)的最佳取值,使網(wǎng)絡(luò)在盡可能保留連通性信息的條件下更接近于無尺度網(wǎng)絡(luò),并作為后續(xù)網(wǎng)絡(luò)構(gòu)建的軟閾值。之后依次構(gòu)建鄰接矩陣和拓?fù)渲丿B矩陣,構(gòu)建共表達(dá)網(wǎng)絡(luò),計算各模塊基因與臨床性狀的相關(guān)性,將相關(guān)性最高的模塊定義為關(guān)鍵模塊,并篩選出關(guān)鍵模塊中的基因以用于后續(xù)的分析。
從共同DEGs和關(guān)鍵模塊基因中篩選出CD和牙周炎中與疾病相關(guān)的串?dāng)_基因。使用R語言(4.2.1)的“ggVennDiagram”包(1.2.2版本)繪制牙周炎和CD的串?dāng)_基因的Veen圖。
為了明確免疫過程在CD和牙周炎疾病進(jìn)展中的作用,使用R語言(4.2.1)“GSVA”包(1.46.0版本)中的ssGSEA算法對CD和牙周炎樣本進(jìn)行免疫評估[27],評估結(jié)果分為免疫細(xì)胞和免疫過程兩部分,一共包含16個免疫細(xì)胞和13個免疫過程,免疫細(xì)胞相關(guān)基因從以往研究中獲得[28]。使用“corrplot”包(0.92版本)分別計算CD和牙周炎中免疫細(xì)胞和免疫功能的相關(guān)性,并分析疾病組與健康組之間免疫評分的差異。接著分析串?dāng)_基因與免疫細(xì)胞及免疫過程的相關(guān)性,并選擇在CD和牙周炎中與免疫相關(guān)最多的基因作為核心基因(core genes)進(jìn)行后續(xù)分析。
針對核心基因,通過Logistic逐步回歸分析建立診斷模型[29],使用受試者工作特征(receiver operating characteristic curve,ROC)曲線和曲線下面積(area under curve,AUC)評估診斷模型的準(zhǔn)確性,并在獨立外部數(shù)據(jù)集(CD:GSE75214,牙周炎:GSE16134)中驗證診斷模型的準(zhǔn)確性,結(jié)果使用“ggplot2”包可視化。
在CD數(shù)據(jù)集(GSE126124)中共篩選出697個DEGs,其中包括410個上調(diào)基因和287個下調(diào)基因(圖1A、C)。在牙周炎的數(shù)據(jù)集(GSE10334)中共篩選出了1 262個DEGs,其中包括622個上調(diào)基因和640個下調(diào)基因(圖1B、D)。在CD和牙周炎的差異基因中篩選出了114個共同上調(diào)DEGs和29個共同下調(diào)DEGs(圖1E、F),并將它們定義為共同DEGs,共143個。
A:GSE126124熱圖;B:GSE10334熱圖;C:GSE162124的火山圖;D:GSE10334的火山圖;E:GSE126124和GSE10334共有上調(diào)DEGs;F:GSE126124和GSE10334共有下調(diào)DEGs。
為了更好地了解共同DEGs的功能,本研究對其進(jìn)行了功能富集分析,結(jié)果如圖2所示。GO分析顯示共同DEGs主要與白細(xì)胞遷移(leukocyte migration)、白細(xì)胞趨化反應(yīng)(leukocyte chemotaxis)、髓白細(xì)胞遷移(myeloid leukocyte migration)、免疫反應(yīng)激活(activation of immune response)、炎癥反應(yīng)調(diào)節(jié)(regulation of inflammatory response)等生物過程有關(guān)(圖2A)。
A:GO富集;B:KEGG富集;C:DO分析。
KEGG分析顯示,共同DEGs可能與TNF信號通路(TNF signaling pathway)、脂質(zhì)與動脈粥樣硬化(lipid and atherosclerosis)、類風(fēng)濕性關(guān)節(jié)炎(rheumatoid arthritis)、IL-17信號通路(IL-17 signaling pathway)有關(guān)(圖2B)。
DO分析表明共同DEGs主要與動脈硬化(arteriosclerosis)、動脈硬化性心血管疾病(arteriosclerotic cardiovascular disease)、細(xì)菌性傳染病(bacterial infectious disease)等疾病相關(guān)(圖2C)。
使用CD和牙周炎共同DEGs構(gòu)建PPI網(wǎng)絡(luò),其中包括143個節(jié)點和664個邊緣。圖3顯示了基于PPI網(wǎng)絡(luò)拓?fù)涮卣鞣治龅那?0個節(jié)點。根據(jù)拓?fù)涮卣?白介素(interleukin,IL)-1β、CXC趨化因子配體(CXC chemokine ligand,CXCL)8、IL-6和基質(zhì)金屬蛋白酶(matrix metalloproteinase,MMP)9在生物網(wǎng)絡(luò)中與其他基因的聯(lián)通程度最高,可能是影響CD和牙周炎發(fā)展的重要基因。
圖3 PPI網(wǎng)絡(luò)(包含重疊度前20基因)
圖4A、B分別代表了以CD和牙周炎樣本構(gòu)建的共表達(dá)網(wǎng)絡(luò),其中CD分為11個模塊,牙周炎分為15個模塊。Pearson相關(guān)系數(shù)分析表明,CD與green模塊相關(guān)性最高(r=0.65,P<0.000 1),該模塊包含171個基因;牙周炎與brown模塊相關(guān)性最高(r=0.61,P<0.000 1),該模塊包含332個基因(圖4C、D)。使用兩模塊中的基因進(jìn)行下一步分析,以篩選關(guān)鍵串?dāng)_基因。
A:CD數(shù)據(jù)集中標(biāo)準(zhǔn)偏差最高的前5 000個基因的層次聚類樹狀圖;B:牙周炎數(shù)據(jù)集中標(biāo)準(zhǔn)偏差最高的前5 000個基因的層次聚類樹狀圖;C:CD數(shù)據(jù)集中的模塊-性狀相關(guān)性;D:牙周炎數(shù)據(jù)集中的模塊-性狀相關(guān)性。
對CD關(guān)鍵模塊的基因、牙周炎關(guān)鍵模塊的基因和共同DEGs進(jìn)行分析,圖5顯示共有11個基因既存在于兩種疾病的關(guān)鍵模塊中,也存在于二者的共同DEGs中,因此將這11個基因定義為關(guān)鍵串?dāng)_基因。
圖5 CD和牙周炎關(guān)鍵模塊中的重疊DEGs
富集分析和PPI網(wǎng)絡(luò)發(fā)現(xiàn)免疫反應(yīng)可能參與了CD和牙周炎的發(fā)展,因此使用ssGSEA算法對兩個數(shù)據(jù)集中疾病組與健康組的免疫細(xì)胞與免疫過程進(jìn)行評分,結(jié)果表明包括CD8+T細(xì)胞、NK細(xì)胞、HLA系統(tǒng)參與的免疫過程、CCR家族參與的免疫過程在內(nèi)的多個免疫細(xì)胞與過程的表達(dá)存在統(tǒng)計學(xué)差異(圖6A~D)。此外,本研究還分別分析了11個關(guān)鍵串?dāng)_基因在CD數(shù)據(jù)集和牙周炎數(shù)據(jù)集中與免疫細(xì)胞及免疫過程的相關(guān)性(圖6E、F),通過對基因與免疫關(guān)聯(lián)程度的分析,發(fā)現(xiàn)HLA-DMA、CD38、PIM2、TGM2四個基因從數(shù)量以及關(guān)聯(lián)程度兩個角度與免疫細(xì)胞和免疫過程相關(guān)度最高,因此將其定義為核心基因。
A、B:GSE126124數(shù)據(jù)集中各組免疫細(xì)胞和免疫過程的表達(dá);C、D:GSE10334數(shù)據(jù)集中各組免疫細(xì)胞和免疫過程的表達(dá);E:CD數(shù)據(jù)集中關(guān)鍵串?dāng)_基因與免疫細(xì)胞及免疫過程之間相關(guān)性的熱圖;F:牙周炎數(shù)據(jù)集中串?dāng)_基因與免疫細(xì)胞及免疫過程之間相關(guān)性的熱圖;*:P<0.05;**:P<0.01;***:P<0.001;ns:P>0.05。
以篩選出的核心基因為基礎(chǔ),使用Logistic逐步回歸分析建立診斷模型,發(fā)現(xiàn)診斷模型在CD和牙周炎數(shù)據(jù)集中均具有良好的診斷效力;在CD數(shù)據(jù)集(GSE126124)中AUC=0.873,在牙周炎數(shù)據(jù)集(GSE10334)中AUC=0.840。為了進(jìn)一步證明核心基因的診斷效力,在另外兩個獨立的外部數(shù)據(jù)集(CD:GSE75214,牙周炎:GSE16134)中進(jìn)行驗證,結(jié)果表明在外部數(shù)據(jù)集中其仍然具有良好的診斷效果,在GSE75214中AUC=0.836,在GSE16134中AUC=0.865。以上結(jié)果表明,該模型對CD和牙周炎的診斷具有一定的指導(dǎo)意義。見圖7。
A:GSE126124中診斷模型的ROC曲線;B:GSE10334中診斷模型的ROC曲線;C:GSE75214中診斷模型的ROC曲線;D:GSE16134中診斷模型的ROC曲線。
CD和牙周炎關(guān)系密切且互為影響因素。一項病例對照研究表明,CD患者患有嚴(yán)重牙周炎的概率顯著增加[30]。牙周炎患者唾液中的微生物菌群也會加重腸道炎癥[31-32]。作為免疫介導(dǎo)的炎癥性疾病,CD和牙周炎的致病機(jī)制可能存在一些潛在聯(lián)系,免疫細(xì)胞及免疫過程在兩種疾病的發(fā)生發(fā)展中均起到重要作用[6]。因此識別出與免疫相關(guān)的串?dāng)_基因?qū)Ω由钊氲亓私膺@兩種疾病之間的聯(lián)系具有重要意義,篩選出合適的診斷標(biāo)志物對疾病的預(yù)防、治療和改善預(yù)后也有一定的幫助。
本研究鑒定出143個CD和牙周炎兩種疾病的共同DEGs,其中有114個上調(diào)基因和29個下調(diào)基因,這些基因在TNF信號通路(TNF signaling pathway)、IL-17信號通路(IL-17 signaling pathway)中富集。TNF由免疫系統(tǒng)中的巨噬細(xì)胞和T細(xì)胞等細(xì)胞產(chǎn)生,通過與靶細(xì)胞表面的TNF受體結(jié)合,激活下游信號通路,參與免疫細(xì)胞的活化以響應(yīng)感染或組織損傷[33]。IL-17信號通路參與防御細(xì)菌、真菌等細(xì)胞外病原體的免疫反應(yīng)。IL-17由Th17細(xì)胞的T細(xì)胞亞群產(chǎn)生,并通過IL-17受體作用于靶細(xì)胞[34]。這兩條信號通路最終都會導(dǎo)致促炎細(xì)胞因子和趨化因子的產(chǎn)生,從而參與免疫過程。TNF通路過度激活與類風(fēng)濕性關(guān)節(jié)炎和克羅恩病等炎癥性疾病有關(guān)[35],IL-17通路失調(diào)影響銀屑病和多發(fā)性硬化癥等疾病的發(fā)生發(fā)展[36]。DO分析表明CD和牙周炎與血管性疾病、細(xì)菌感染性疾病有一定程度的相似,GO分析表明免疫在兩種疾病中起到重要作用。因此本研究進(jìn)一步利用WGCNA篩選出與疾病最為相關(guān)的基因,與共同DEGs分析后得到了11個串?dāng)_基因。
免疫浸潤分析發(fā)現(xiàn)CD和牙周炎中疾病組和健康組的免疫水平存在明顯差別,進(jìn)一步分析11個串?dāng)_基因與免疫的相關(guān)性,通過分析各個基因與免疫細(xì)胞和免疫過程的相關(guān)性,篩選出既在兩種疾病中同時與免疫相關(guān)程度最高,又與最多數(shù)量的免疫細(xì)胞和免疫過程相關(guān)的4個基因(HLA-DMA、CD38、PIM2、TGM2)。HLA-DMA是HLA復(fù)合物的一部分,HLA復(fù)合物編碼免疫系統(tǒng)識別外來抗原的蛋白質(zhì),并參與抗原呈遞和T細(xì)胞識別的過程,這對激活適應(yīng)性免疫反應(yīng)至關(guān)重要[37],有研究發(fā)現(xiàn)某些HLA等位基因(包括HLA-DMA)與CD和牙周炎易感性之間均存在相關(guān)性[38-39]。CD38是一種編碼T細(xì)胞、B細(xì)胞和自然殺傷細(xì)胞等免疫細(xì)胞表面受體的基因,參與免疫細(xì)胞的活化、增殖及細(xì)胞因子、趨化因子的產(chǎn)生,在感染或炎癥中經(jīng)常表達(dá)上調(diào)[40]。Mahanonda等[41]研究發(fā)現(xiàn),CD38在重度牙周炎患者的牙周組織和CD患者腸黏膜組織中均表達(dá)增加。CD38可能通過活化T細(xì)胞和調(diào)節(jié)細(xì)胞因子的產(chǎn)生在CD和牙周炎的疾病發(fā)展中發(fā)揮作用。PIM2是一種參與調(diào)節(jié)細(xì)胞生長、增殖和分化的基因[42]。PIM2可通過調(diào)節(jié)破骨細(xì)胞的活性來影響牙周炎的發(fā)展。da Silva等[43]發(fā)現(xiàn),PIM2的表達(dá)在CD患者的炎癥腸道組織中顯著上調(diào)。TGM2編碼的谷氨酰胺轉(zhuǎn)氨酶可以調(diào)節(jié)免疫細(xì)胞功能,TGM2可能通過影響細(xì)胞外基質(zhì)形成和免疫細(xì)胞活化,在牙周炎和CD的發(fā)病機(jī)制中發(fā)揮作用[44-45]。
HLA-DMA、CD38、PIM2、TGM2參與抗原呈遞及免疫細(xì)胞的活化、增殖和分化,任何一種基因表達(dá)失調(diào)都可能導(dǎo)致免疫功能障礙,繼而影響CD和牙周炎的發(fā)展。Logistic回歸分析是疾病自動診斷中常用的一種廣義線性回歸分析方法,可以用來預(yù)測疾病發(fā)生的概率,本研究Logistic回歸分析表明,以這4個基因作為基礎(chǔ)構(gòu)建的模型具有良好效力,在一定程度上有助于CD和牙周炎的診斷,同時這些基因還可能作為潛在的治療靶點。
本研究從免疫角度篩選出了CD和牙周炎的核心基因,為CD和牙周炎的共病機(jī)制以及診斷、治療提供了新思路。但本研究也存在一定的局限性,CD和牙周炎患者是不同的群體,其患者情況不同,可能存在個體差異;且本研究結(jié)果是使用生物信息學(xué)分析得出的,后續(xù)還有待進(jìn)一步研究驗證。
HLA-DMA、CD38、PIM2、TGM2基因參與了CD和牙周炎的發(fā)生發(fā)展,在免疫反應(yīng)中扮演著重要角色,以這4個基因構(gòu)建的診斷模型對兩種疾病都有良好的診斷效力。