蔡昕添 張德蓮 畢云偉 洪 靜 吳 婷 楊順帆 李南方
抗中性粒細胞胞質(zhì)抗體(antineutrophil cytoplasmic antibodies, ANCA)相關(guān)性血管炎(ANCA-associated vasculitis,AAV)是一組自身免疫性疾病,其特征為全身小血管的炎癥與壞死以及全身循環(huán)中自身抗體ANCA的高度表達[1]。AAV臨床表現(xiàn)雖復雜多變,但50%~80%的患者以急性腎衰竭為首發(fā)表現(xiàn)[2]。此外,早期診斷監(jiān)測難度大、病情進展迅速、病死率高、預后極差均為AAV所致急性腎衰竭的重要特征[1,2]。越來越多的研究發(fā)現(xiàn),腎臟雖是AAV最易受累的臟器之一,但遺傳易感性在其發(fā)病中扮演了極其重要的角色[3]。因此,探究AAV腎損害發(fā)生、發(fā)展相關(guān)遺傳分子機制,對其早期診斷、監(jiān)測和發(fā)掘新的特異性治療靶點,從而改善患者預后具有重要意義。
本研究通過挖掘GEO數(shù)據(jù)庫中AAV合并腎損害相關(guān)的基因芯片集,并通過R軟件篩選差異基因,利用一系列生物信息學技術(shù)篩選、驗證核心基因,最終實現(xiàn)在遺傳基因組層面深入探究AAV合并腎損害的發(fā)生、發(fā)展機制、挖掘潛在生物學標志物和新的治療靶點。
1.基因芯片數(shù)據(jù)的獲取:在本研究中所探究的基因微陣列數(shù)據(jù)集檢索自NCBI-GEO數(shù)據(jù)庫,以如下檢索式進行檢索(“antibodies, antineutrophil cytoplasmic”[MeSH Terms] OR ANCA[All Fields]) AND “Homo sapiens”[porgn] AND (“gse”[Filter] AND “attribute name tissue”[Filter]),最終獲得由Grayson等[4]所提交的基于GPL19983平臺(Affymetrix Human Gene 2.1 ST Array [HuGene21st_Hs_ENTREZG_19.0.0])的GSE108109和GSE108113芯片數(shù)據(jù)。GSE108109與GSE108113芯片均采用腎臟活檢組織作為研究樣本,其中GSE108109芯片作為發(fā)現(xiàn)組,共納入21例研究者,包括健康對照組6例和AAV合并腎損害患者15例。而GSE108113芯片作為驗證組,共納入62例研究者,包括健康對照組5例和AAV合并腎損害患者57例。
2.數(shù)據(jù)處理與差異基因的篩選:基于R語言環(huán)境下使用Limma包對芯片數(shù)據(jù)補全缺失值,進行背景校正和歸一化處理。最后構(gòu)建比對模型并篩選差異基因(differentially expressed genes,DEGs),其篩選標準需同時滿足以下兩點:①|(zhì)logFC|≥2;②矯正后P<0.05。使用Ggplot2包繪制DEGs火山圖。
3.蛋白-蛋白相互作用網(wǎng)絡的構(gòu)建與核心基因的選擇:通過構(gòu)建蛋白-蛋白相互作用網(wǎng)絡(PPI)進一步挖掘核心基因。將之前篩選出來的DEGs導入STRING數(shù)據(jù)庫,相互作用可信度≥0.7者則認為其PPI之間關(guān)系作用顯著。利用Cytoscape軟件(3.7.1版)將從STRING數(shù)據(jù)庫檢索獲得的相互作用關(guān)系繪制成圖。利用分子復合檢測算法插件(MCODE)對基于已知PPI網(wǎng)絡中的核心基因進行評估,選擇得分最高的MCODE模塊[5]。
4.核心基因的驗證:利用GSE108113芯片中的數(shù)據(jù)對篩選出的核心基因在AAV腎損害患者腎臟組織和健康成年人腎臟組織中的表達情況進行驗證。使用t檢驗(對于正態(tài)分布的數(shù)據(jù))或非參數(shù)檢驗(對于非正態(tài)分布的數(shù)據(jù))評估各組之間定量參數(shù)的差異。對表達存在顯著差異的基因繪制ROC曲線,并分別計算曲線下面積(AUC)。使用GraphPad Prism 6.1軟件與R軟件中的pROC包構(gòu)建圖表。
1.數(shù)據(jù)處理與差異基因的篩選結(jié)果:使用R軟件對GSE108109芯片原始數(shù)據(jù)進行背景校正和歸一化處理。并利用比對模型初步篩選,發(fā)現(xiàn)GSE108109芯片共有187個表達改變顯著的DEGs,含35個上調(diào)基因,152個下調(diào)基因,并使用R語言軟件(3.5.3版)繪制了關(guān)于GSE108109芯片DEGs表達的火山圖(圖1)。
圖1 差異表達基因的火山圖 紅色.顯著上調(diào)基因;藍色.顯著下調(diào)基因;黑色.無顯著意義基因
2.蛋白-蛋白相互作用網(wǎng)絡的構(gòu)建與核心基因的選擇:為進一步明確與AAV腎損害致病相關(guān)最核心的關(guān)鍵基因,筆者選擇了蛋白間相互作用可信度評分≥0.7的蛋白-蛋白節(jié)點。使用Cytoscape軟件將互不相連的節(jié)點去除,繪制出最終的蛋白-蛋白相互作用網(wǎng)絡圖(圖2A)。使用MCODE插件對蛋白相互作用網(wǎng)絡進行了模塊化分析,根據(jù)MCODE聚類條件篩選出得分最高的MCODE模塊(圖2B)。MCODE模塊化分析后共獲得9個關(guān)鍵基因,即CD53、C1QC、TYROBP、CSF1R、CYBB、LAPTM5、FCER1G、CTSS和C3AR1。該模塊中所包含的基因在整個蛋白-蛋白相互作用網(wǎng)絡中相較于其他基因而言存在著更強的相互作用關(guān)系,因此相對于其他基因而言它們在AAV腎損害的發(fā)生、發(fā)展過程中可能發(fā)揮著更加決定性的作用。
圖2 蛋白-蛋白相互作用網(wǎng)絡圖 A.所有差異基因的網(wǎng)絡圖(紅色菱形模塊代表表達上調(diào)蛋白; 綠色六邊形模塊代表表達下調(diào)蛋白);B. 通過MCODE聚類 條件獲得的9個關(guān)鍵基因
3.核心基因的驗證:利用GSE108113芯片中的數(shù)據(jù)對篩選出的核心基因在AAV腎損害患者腎臟組織和健康成年人腎臟組織中的表達情況進行驗證,并將驗證結(jié)果用散點圖的形式展示,詳見圖3。在GSE108113芯片中有57例AAV合并腎損害患者樣本和5例健康成年人腎臟活組織樣本。與健康成年人腎臟活組織樣本比較,CD53、C1QC、TYROBP、CSF1R、CYBB、LAPTM5、FCER1G、CTSS在AAV合并腎損害患者樣本中表達顯著上調(diào),這與GSE108109芯片分析的結(jié)果一致,但GSE108113芯片中C3AR1基因在AAV合并腎損害患者樣本與健康成年人腎臟活組織樣本間的表達并無顯著差異。以存在AAV合并腎損害作為結(jié)果變量,以CD53、C1QC、TYROBP、CSF1R、CYBB、LAPTM5、FCER1G和CTSS基因檢測表達量為診斷AAV合并腎損害的檢驗變量。CD53基因的AUC值為0.837,C1QC基因的AUC值為0.919,TYROBP基因的AUC值為0.856,CSF1R基因的AUC值為0.783,CYBB基因的AUC值為0.784,LAPTM5基因的AUC值為0.922,F(xiàn)CER1G基因的AUC值為0.735,CTSS基因的AUC值為0.905,詳見圖4。
圖3 驗證核心基因表達水平 *P<0.05,**P<0.01,***P=0.000
圖4 各基因診斷AAV合并腎損害的ROC曲線
AAV是由自身免疫性抗體ANCA所誘導的全身小血管壞死性炎癥,常同時累及全身多個器官系統(tǒng)[6]。其中腎臟是AAV患者最常累及的器官,腎臟受累患者病情多進展迅速,當出現(xiàn)明顯的臨床癥狀時往往已進展為不可逆的終末期腎病[7]。因此,提高AAV合并腎損害的早期篩查、診斷率,及時監(jiān)測病情活動度并積極進行針對性的靶向治療對提高AAV合并腎損害患者人腎存活率、改善長期預后具有極為重要的意義。
本研究通過分析GSE108109芯片數(shù)據(jù)集,篩選得到187個差異表達基因,其中35個基因表達顯著上調(diào),152個基因表達顯著下調(diào)。通過蛋白-蛋白相互作用網(wǎng)絡分析并篩選得到以下核心基因:CD53、C1QC、TYROBP、CSF1R、CYBB、LAPTM5、FCER1G、CTSS和C3AR1。驗證上述核心基因在AAV腎損害患者腎臟組織的表達水平發(fā)現(xiàn)CD53、C1QC、TYROBP、CSF1R、CYBB、LAPTM5、FCER1G、CTSS表達顯著增高。
CD53是一種蛋白質(zhì)編碼基因,該基因所編碼的蛋白質(zhì)屬于四跨膜蛋白家族[8]。有研究發(fā)現(xiàn)該基因編碼的蛋白質(zhì)能與整聯(lián)蛋白復合為細胞表面糖蛋白且可參與介導信號轉(zhuǎn)導事件,在T細胞和自然殺傷細胞中轉(zhuǎn)導CD2產(chǎn)生的信號[9]。C1QC基因編碼血清補體亞成分C1q的C鏈多肽,其所編碼蛋白C1qC是C1q的一個亞基,C1q主要是由體內(nèi)組織中的巨噬細胞和樹突狀細胞分泌,在血液和組織中表達[10]。C1q的膠原蛋白樣區(qū)域與鈣離子所依賴的C1r與C1s酶復合物相互作用活化C1,這是血清補體系統(tǒng)經(jīng)典途徑激活的起始步驟[11]。然后進一步激活C3、C4等經(jīng)典途徑的下游成分,誘導免疫復合物所介導的細菌殺傷和提高吞噬作用。目前已有研究證實,C1q的異常激活與系統(tǒng)性紅斑狼瘡和膜增生性腎小球腎炎的發(fā)病密切相關(guān)[12]。
TYROBP曾用名DAP12和KARAP,該基因主要負責編碼跨膜信號轉(zhuǎn)導多肽(酪氨酸激酶結(jié)合蛋白)。TYROBP可與NK細胞受體如KIR2DS2、KLRD1/KLRC2異源二聚體共同介導NK細胞的活化,還能促進NK細胞受體KIR2DS1、KIR2DS2和KIR2DS4的轉(zhuǎn)運和表面表達,并確保其在細胞表面的穩(wěn)定性,增強并維持NK細胞的細胞毒性作用[13]。TYROBP可與SIRPB-1、TREM-1結(jié)合,介導中性粒細胞、單核細胞和樹突狀細胞等髓系細胞的激活和介導趨化因子受體CCR7的上調(diào),促進中性粒細胞脫顆粒進程[14]。集落刺激因子1受體(CSF1R),又稱巨噬細胞集落刺激因子受體和CD115,是由CSF1R基因編碼的一種細胞表面蛋白。CSF1R是調(diào)節(jié)巨噬細胞和小膠質(zhì)細胞功能的重要受體,通過CSF1R發(fā)出的細胞信號(CSF-1或IL-34)對于巨噬細胞的發(fā)育、存活、遷移和增殖至關(guān)重要[15]。
多項研究表明,CSF-1在血清和尿液中都是AAV合并腎損害疾病活動的可靠生物學標志物[16]。CYBB基因主要編碼細胞色素B-245重鏈,已有報道指出細胞色素B-245重鏈是吞噬細胞氧化酶系統(tǒng)的主要成分。CYBB基因的異常表達可導致吞噬細胞NADPH氧化酶的活性降低,活性降低后吞噬細胞仍然能夠吞噬細菌,但不能在吞噬囊泡中殺死細菌。目前已知與CYBB基因異常表達相關(guān)的疾病主要有慢性肉芽腫性疾病[17]。LAPTM5是一種在免疫細胞中獲得優(yōu)先表達的基因,它與泛素連接酶的Nedd4家族相互作用。最近在T細胞和B細胞中的研究確定LAPTM5是質(zhì)膜上T細胞和B細胞受體水平的負調(diào)節(jié)劑。而在巨噬細胞中,其作用與在T細胞和B細胞活化中的負向調(diào)節(jié)作用剛好相反,LAPTM5充當巨噬細胞炎癥信號通路的正調(diào)節(jié)劑,并促進巨噬細胞分泌細胞因子[18]。
FCER1G基因主要編碼IgE受體Ig的Fc片段,該蛋白是一種銜接蛋白,其包含基于免疫受體酪氨酸的激活基序,可轉(zhuǎn)導來自各種免疫受體的激活信號。與FCER1G基因相關(guān)的疾病包括出血性疾病、血小板型出血性紫癜和哮喘[19]。CTSS基因可編碼組織蛋白酶S,該蛋白質(zhì)是肽酶C1家族的成員,是一種溶酶體半胱氨酸蛋白酶,可參與抗原蛋白降解為肽的過程,從而呈遞給MHCⅡ類分子。組織蛋白酶S主要在巨噬細胞和(或)血管平滑肌細胞中表達,通過發(fā)揮其細胞外酶和(或)自身蛋白質(zhì)的功能,它可以激活幾乎所有類型的血管細胞,如巨噬細胞、血管平滑肌細胞和T淋巴細胞。因此,組織蛋白酶S對于巨噬細胞的浸潤、分化和周轉(zhuǎn)等過程發(fā)揮著必不可少的作用[20]。
綜上所述,本研究通過生物信息學的方法揭示了可能參與ANCA相關(guān)性血管炎腎損害發(fā)生、發(fā)展的關(guān)鍵基因。在ANCA相關(guān)性血管炎腎損害中,可能參與的關(guān)鍵基因有CD53、C1QC、TYROBP、CSF1R、CYBB、LAPTM5、FCER1G和CTSS,并且通過不同基因芯片數(shù)據(jù)對上述關(guān)鍵基因進行驗證。這些結(jié)果有助于闡明ANCA相關(guān)性血管炎腎損害發(fā)生、發(fā)展的分子機制,并為ANCA相關(guān)性血管炎腎損害的診斷提供了潛在的生物學標志物。