李昱劍,闞璇
(天津醫(yī)科大學(xué)總醫(yī)院兒科,天津 300070)
支氣管哮喘簡稱哮喘,是臨床最常見的慢性氣道炎癥性疾病之一。哮喘復(fù)雜的發(fā)病機制和多樣化的臨床表現(xiàn)既增加了臨床醫(yī)生的診治難度,也使患者在日常生活中飽受痛苦[1]。目前全球至少有3 億哮喘患者,且哮喘的發(fā)病率在全球范圍內(nèi)仍呈上升趨勢[2]。雖然隨著醫(yī)學(xué)進步,既往統(tǒng)計的哮喘死亡率已經(jīng)有所下降,但從2006 年開始其下降趨勢就出現(xiàn)了急剎車,表明現(xiàn)有治療手段已經(jīng)遇到了瓶頸[3]。
越來越多疾病的診治從蛋白質(zhì)水平進入到了轉(zhuǎn)錄和調(diào)控水平,其中非編碼RNA 發(fā)揮著不可替代的作用[4]。研究表明,與健康人相比,哮喘患者外周血樣本中l(wèi)ncRNA 的數(shù)量和表達存在差異[5]。與傳統(tǒng)的線性RNA 不同,circRNA 呈現(xiàn)封閉的環(huán)狀結(jié)構(gòu),使其表達更加穩(wěn)定。circRNA 可以通過與哮喘等疾病相關(guān)的miRNA 相互作用,從而對哮喘等疾病的發(fā)生、發(fā)展起到重要作用[6]。轉(zhuǎn)錄因子是一組蛋白質(zhì)分子,能使目標基因在特定的時間和空間上以特定的強度進行表達。一些研究也指出,轉(zhuǎn)錄因子可以參與哮喘的氣道炎癥、氣道重塑和免疫調(diào)節(jié)[7]。
近年來,有關(guān)miRNA 與哮喘關(guān)系的研究層出不窮,對哮喘的診治起到了積極的推動作用,但關(guān)于lncRNA、circRNA、轉(zhuǎn)錄因子等非編碼RNA 與哮喘關(guān)系的研究仍有較多空白。本研究將使用上述方法篩選哮喘的DEGs,并構(gòu)建miRNA、lncRNA、circRNA、轉(zhuǎn)錄因子和靶向藥物與哮喘靶基因之間的調(diào)控網(wǎng)絡(luò)。對哮喘相關(guān)的遺傳物質(zhì)、功能、通路和靶向藥物的探索,可以為哮喘生物標志物挖掘和精準醫(yī)療提供參考。
1.1 微陣列數(shù)據(jù) 本研究使用檢索式:(′asthma′[MeSH Terms] OR ′asthma′[All Fields])AND(′Homo sapiens′[Organism]AND′Expression profiling by array′[Filter])從GEO[8](https://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫中篩選出了GSE43696 和GSE64913 這兩個數(shù)據(jù)集,并從中提取了相應(yīng)的臨床信息。GSE43696來源于GPL6480 平臺(Agilent-014850 Whole Human Genome Microarray 4x44K G4112F),包含88 例哮喘患者的支氣管上皮細胞樣本和20 名健康人體樣本[9]。GSE64913 來源于GPL570 平臺([HG-U133_P lus_2] Affymetrix Human Genome U133 Plus 2.0 Array),包含15 例哮喘患者的支氣管上皮細胞樣本和19 名健康人體樣本[10]。
1.2 識別差異表達基因 通過核對兩個數(shù)據(jù)集的信息來平均或刪除沒有相應(yīng)基因符號的探針組和有多個探針組的基因。使用R 軟件的Limma 包(版本:3.40.2)去除批次效應(yīng)并識別DEGs。以“P<0.05 and/Fold Change/>1.5”作為篩選DEGs 的閾值。
1.3 GO 和KEGG 富集分析 R 軟件中的Cluster-Profiler 包(版本:4.0)被用于GO 和KEGG 富集分析。箱式圖由ggplot2 包繪制;PCA 圖由ggord 包繪制;熱圖由pheatmap 包繪制。上述所有分析方法和R 軟件包均由R 軟件(2020)4.0.3 版完成。
1.4 Metascape 使用Metascape[11](http://metascape.org/)對得到的DEGs 再次進行GO 和KEGG 富集分析,與ClusterProfiler 包分析得到的結(jié)果進行對比驗證和互相補充,使最終結(jié)果更加真實可靠。篩選條件:Min Enrichment=1.5,P<0.01 and Min overlap=3。
1.5 WEB-based GEneSeTAnaLysis Toolkit(WebGestalt)數(shù)據(jù)庫和Reactome Pathway 數(shù)據(jù)庫 使用WebGestalt[12](http://www.webgestalt.org/)和Reactome[13](https://reactome.org/)數(shù)據(jù)庫對DEGs 從另一種算法角度進行GO 和KEGG 富集分析,從而補充單一算法的不足。WebGestalt 數(shù)據(jù)庫的篩選標準是Number of IDs in the category:5-2000,F(xiàn)DR Method:BH,and Significance Level:FDR<0.05。Analysis Tools是Reactome 數(shù)據(jù)庫中的一個分析工具,被用于通路研究。
1.6 蛋白-蛋白交互網(wǎng)絡(luò)構(gòu)建與靶基因篩選 使用STRING[14](https://string-db.org/)數(shù)據(jù)庫構(gòu)建DEGs的蛋白-蛋白交互網(wǎng)絡(luò),minimum required interaction score=0.4 被認為具有統(tǒng)計學(xué)意義。使用Cytoscape 對蛋白-蛋白交互網(wǎng)絡(luò)進行可視化[15],并使用Cytoscape 的插件Cytohubba 篩選出最重要的9個核心基因。
1.7 lncRNA-miRNA-靶基因相互作用網(wǎng)絡(luò)分析在Tarbase[16](http://carolina. imis.a(chǎn)thena-innovation.gr/diana_tools/web/index.php?r=tarbasev8%2Findex)和TargetScan[17](http://www.targetscan.org/vert_80/)數(shù)據(jù)庫中,使用評分最高的4 個核心基因預(yù)測可能的miRNA,并通過取交集的方法降低結(jié)果的偶然性,從而得到可靠性最高的miRNA。使用ENCORI[18](https://starbase.sysu.edu.cn/)預(yù)測與miRNA 相匹配的lncRNA,并使用LncBase[19](http://carolina.imis.a(chǎn)thena-innovation.gr/diana_tools/web/index.php?r=lncbasev2%2Findex-experimental)進行驗證,從而構(gòu)建出最可靠的lncRNA-miRNA-靶基因相互作用網(wǎng)絡(luò)。
1.8 circRNA-miRNA-靶基因相互作用網(wǎng)絡(luò)分析 使用與1.7 相同的方法預(yù)測篩選可以與9 個靶基因相匹配的miRNA。使用ENCORI 數(shù)據(jù)庫預(yù)測與miRNA 匹配的circRNA,并使用circad 數(shù)據(jù)庫[20](https://clingen.igib.res.in/circad/)進行臨床驗證。
1.9 轉(zhuǎn)錄因子-miRNA-靶基因相互作用網(wǎng)絡(luò)分析 使用AnimalTFDB[21](http://bioinfo.life.hust.edu.cn/AnimalTFDB/)預(yù)測得分最高的4 個基因所對應(yīng)的轉(zhuǎn)錄因子,并使用JASPAR[22](https://jaspar.genereg.net/)對得到的轉(zhuǎn)錄因子進行二次驗證,以提高結(jié)果的可靠性。最終,每個靶基因篩選出了2 個評分最高的轉(zhuǎn)錄因子,篩選標準:Strand:+,P-value<0.05 and Q-value <0.05。
1.10 The Drug Gene Interaction(DGIdb)數(shù)據(jù)庫 DGIdb[23](http s://www.dgidb.org/)被用于預(yù)測9 個靶基因的潛在靶向藥物。篩選標準:Source Databases=22,Gene Categories=43,Interaction Types=31。
1.11 臨床意義驗證 提取GSE41649 數(shù)據(jù)集中的臨床信息后,分別借助pROC 包和ggplot2 分析評分最高的4 個核心基因?qū)ο募膊☆A(yù)測能力和差異表達情況。
2.1 哮喘差異表達基因的識別 使用R 軟件的Limma 包(版本:3.40.2)對GSE43696 和GSE64913數(shù)據(jù)集的信息進行標準化和去批次效應(yīng)后,共得到76 個DEGs,其中44 個基因上調(diào),32 個基因下調(diào)(P<0.05 &/Fold Change/>1.5)。數(shù)據(jù)標準化后的箱式圖、去批次前/后的PCA 圖、DEGs 的火山圖、熱圖及DEGs 中的特定基因如圖1 所示。
圖1 哮喘差異表達基因的識別Fig 1 Identification of differentially expressed genes in asthma
2.2 GO 和KEGG 富集分析 使用R 軟件的ClusterProfiler 包(版本:4.0)以及Metascape、WebGestalt 和Reactome 對DEGs 進行GO 和KEGG 富集分析并可視化(圖2、3)。GO 富集分析顯示,DEGs在淋巴細胞趨化、器官或組織特異性免疫反應(yīng)、有機羥基化合物運輸、細胞殺傷、黏膜免疫反應(yīng)、抗菌體液反應(yīng)、內(nèi)吞調(diào)節(jié)等方面明顯富集。KEGG 富集分析表明,DEGs 主要參與白細胞介素-17 信號通路、抑制一氧化氮產(chǎn)生、激活C3 和C5、果糖和甘露糖代謝等方面。
圖2 上調(diào)和下調(diào)的差異表達基因的GO 和KEGG 富集分析Fig 2 Gene Ontology(GO)and Kyoto Encyclopedia of Genes and Genomes(KEGG)enrichment analysis of up-regulated genes and downregulated genes
圖3 差異表達基因的GO 和KEGG 富集分析Fig 3 Gene Ontology(GO)and Kyoto Encyclopedia of Genes and Genomes(KEGG)enrichment analysis of differentially expressed genes
2.3 蛋白-蛋白交互網(wǎng)絡(luò)構(gòu)建與靶基因篩選 使用Cytoscape 對STRING 構(gòu)建的蛋白-蛋白交互網(wǎng)絡(luò)進行可視化,共有43 個節(jié)點和54 條邊(圖4A)。通過Cytohubba 使用11 種方法來識別DEGs 中的核心基因,MCC 展現(xiàn)出了更好的比較性能。最終得到了9個評分最高的DEGs,它們分別是CLCA1、POSTN、CPA3、LTF、PIP、FKBP5、CCL26、SERPINB2 和 KIT(圖4B)。在這9 個核心基因中,LTF 和PIP 在哮喘患者中低表達,其余基因均為高表達。
圖4 蛋白-蛋白交互網(wǎng)絡(luò)Fig 4 Protein-protein interaction network
2.4 lncRNA-miRNA-靶基因相互作用網(wǎng)絡(luò)分析 評分最高的4 個核心基因分別是CLCA1、POSTN、CPA3 和LTF。Tarbase 和TargetScan 數(shù)據(jù)庫預(yù)測到了67 個miRNA,其中hsa-miR-19b-3p 是兩個數(shù)據(jù)庫取交集后的公共結(jié)果。使用ENCORI 預(yù)測可能與hsa-miR-19b-3p 相互作用的lncRNA,并通過LncBase 驗證結(jié)果。最終共得到7 個最可靠的lncRNA(ENSG00000272264、ENSG00000270087、ENSG00000245532、ENSG00000275764、ENSG0000-0263753、ENSG00000229807 和ENSG00000230590),并通過Cytoscape 對結(jié)果進行了可視化(圖5A)。
圖5 lncRNA/circRNA-miRNA-靶基因的相互作用網(wǎng)絡(luò)Fig 5 The lncRNA/circRNA-miRNA-mRNA interaction network
2.5 circRNA-miRNA-靶基因相互作用網(wǎng)絡(luò)分析 共有158 個miRNA 被預(yù)測到,最終篩選保留了2 個最可靠的miRNA(hsa-miR-19b-3p 和hsa-miR-218-5p)。使用ENCORI 預(yù)測可能與以上2 個miRNA相互作用的circRNA,共得到1 314 個circRNA。借助Circad 數(shù)據(jù)庫驗證預(yù)測得到的circRNA 的臨床信息,最終確認SNX13 是與哮喘相關(guān)的circRNA(圖5B)。
2.6 轉(zhuǎn)錄因子-miRNA-靶基因相互作用網(wǎng)絡(luò)分析 用AnimalTFDB 預(yù)測評分最高的4 個核心基因所對應(yīng)的轉(zhuǎn)錄因子,用JASPAR 對結(jié)果進行驗證。最終,每個核心基因篩選出了2 個最可靠的轉(zhuǎn)錄因子。它們分別是SPI1、RREB1、AR、BCL6、IRF5、ZNF143、MAZ 和PAX5。轉(zhuǎn)錄因子-miRNA-靶基因相互作用網(wǎng)絡(luò)見圖6A。
圖6 轉(zhuǎn)錄因子-靶基因-miRNA 的相互作用網(wǎng)絡(luò)與藥物-靶基因的相互作用網(wǎng)絡(luò)Fig 6 Transcription factor-mRNA-miRNA interaction network and drug-mRNA interaction network
2.7 哮喘的靶向藥物 使用DGIdb 預(yù)測9 個靶基因的潛在靶向藥物,共得到了91 種藥物,這些藥物有可能干預(yù)哮喘DEGs 的表達(圖6B)。評分最高的4 個核心基因中有2 個預(yù)測到了潛在的靶向藥物或分子化合物。CLCA1 的靶向藥物是他尼氟酯,LTF的潛在靶向藥物或分子化合物分別是α-苯丙氨酸轉(zhuǎn)鐵蛋白、帕瑞昔布、巴比妥珠和雷瑟平。此外,相互作用評分最高的藥物——尿激酶被發(fā)現(xiàn)與SERPINB2 存在相互作用。預(yù)測到靶向藥物或分子化合物最多的靶基因是KIT,它共有72 種靶向藥物或分子化合物。
2.8 臨床意義驗證 ROC 曲線顯示,評分最高的4 個hub 基因中,CLCA1、POSTN 和LTF 對哮喘均具有較高的疾病預(yù)測能力,而CPA3 同樣具有中等的疾病預(yù)測能力(圖7A~7D)。分組比較圖顯示CLCA1、POSTN 和LTF 在新的臨床數(shù)據(jù)中同樣存在表達差異,其中CLCA1 和POSTN 在哮喘中高表達,LTF 在哮喘中低表達(圖7E~7H)。
圖7 核心基因的ROC 曲線和分組比較圖Fig 7 ROC curves and grouping comparison plots for hub genes
哮喘的發(fā)病機制復(fù)雜,在診斷和精準醫(yī)療方面仍存在諸多不足。傳統(tǒng)治療藥物如糖皮質(zhì)激素等的治療周期長、依從性差,治療效果并不足夠理想,而奧馬珠單克隆抗體等生物制劑的安全性和經(jīng)濟負擔(dān)讓很多患者及家屬感到擔(dān)憂[24]。本研究構(gòu)建了miRNA、lncRNA、circRNA、轉(zhuǎn)錄因子、靶向藥物和靶基因的調(diào)控網(wǎng)絡(luò),從而為哮喘相關(guān)生物標志物的探索提供一定的參考依據(jù),對哮喘患者和有潛在風(fēng)險者的早期識別、早期診斷和早期治療有一定的臨床價值。
本研究通過對GSE43696 和GSE64913 這2 個數(shù)據(jù)集的分析,得到了44 個在哮喘中高表達的DEGs 和32 個低表達的DEGs。GO 分析顯示DEGs 的功能主要富集在先天免疫、獲得性免疫和炎癥的發(fā)生、發(fā)展上,尤其是細胞殺傷、內(nèi)吞作用的調(diào)節(jié)和淋巴細胞趨化作用等方面。既往研究表明,一些哮喘相關(guān)基因可以促進氣道炎癥,并在炎癥體的幫助下誘發(fā)哮喘的發(fā)生。此外,既往感染引起過敏原特異性免疫功能的過早表達,對哮喘的發(fā)生、發(fā)展也有一定作用[25],這與本研究的結(jié)論一致。通路富集的結(jié)果顯示,趨化因子信號通路、激素和有機物代謝通路和免疫調(diào)節(jié)通路在DEGs 中具有較好的富集結(jié)果,說明哮喘的發(fā)生發(fā)展與免疫、微生物、炎癥以及有機物代謝密切相關(guān),提示可以從這些角度對哮喘的診斷和治療進行早期干預(yù)。
在構(gòu)建DEGs 的蛋白-蛋白交互網(wǎng)絡(luò)后,共篩選出了9 個靶基因,其中LTF 和PIP 在哮喘患者中低表達,其余為高表達。4 個核心基因,即CLCA1、POSTN、CPA3 和LTF 的篩選評分最高。CLCA1 的全稱是氯通道附屬物1,可以調(diào)節(jié)鈣激活的氯離子傳導(dǎo),產(chǎn)生分泌蛋白和膜相關(guān)蛋白,這些蛋白可以增加白細胞浸潤和氣道高反應(yīng)性,從而增加哮喘的易感性[26]。POSTN 是骨膜蛋白,它在轉(zhuǎn)化生長因子-β 和白細胞介素-13 的作用下產(chǎn)生。據(jù)報道,在哮喘患者的呼氣冷凝物中可以檢測到骨膜蛋白,且POSTN 高表達的患者肺功能相應(yīng)下降,表明POSTN 有被用作生物標志物的可能性[27]。CPA3 的全稱是羧肽酶A3,有報道稱該基因與哮喘、冠心病、COVID-19 等有關(guān),原因可能是該酶可參與巨噬細胞的激活和促炎癥細胞因子的上調(diào),從而直接或間接參與炎癥和免疫調(diào)節(jié)[28]。LTF(乳鐵蛋白)是轉(zhuǎn)鐵蛋白家族基因的一員,其蛋白產(chǎn)物是免疫系統(tǒng)的重要組成部分,然而遺憾的是目前還沒有發(fā)現(xiàn)這個基因與哮喘發(fā)生和發(fā)展之間的具體關(guān)系。本研究篩選得到的這些基因具有作為哮喘診治靶基因的巨大潛力。
Has-miR-19b-3p 和hsa-miR-218-5p 是通過不同的數(shù)據(jù)庫和算法最終篩選得到的2 個miRNA。既往研究顯示,hsa-miR-19b-3p 可能在哮喘的發(fā)生和發(fā)展中發(fā)揮潛在作用[29]。Hsa-miR-218-5p 是由KIT 預(yù)測得到的,同樣有文獻表明它可能在嗜酸性粒細胞氣道炎癥中起到保護作用[30]。在miRNA 的基礎(chǔ)上,共篩選得到了7 個lncRNA 和1 個circRNA,最終構(gòu)建了miRNA、lncRNA、circRNA 和靶基因的表達調(diào)控網(wǎng)絡(luò),為哮喘診斷的進一步研究和精準醫(yī)療提供了依據(jù)。
共篩選得到了8 個轉(zhuǎn)錄因子,它們在炎癥、細胞增殖和分化、免疫調(diào)節(jié)、生長發(fā)育等方面發(fā)揮著重要作用[31-32],有被用作哮喘治療標志物的可能性。此外,靶向藥物的預(yù)測顯示CLCA1 的靶向藥物他尼氟酯是一種非甾體類抗炎藥,可用于纖維囊腫和哮喘的輔助治療[33]。LTF 的潛在靶向藥物或分子化合物分別是α-苯丙氨酸轉(zhuǎn)鐵蛋白、帕瑞昔布、巴比妥珠和雷瑟平,它們在治療哮喘方面的作用尚不清楚。交互得分最高的靶向藥物尿激酶主要作用于內(nèi)源性纖維蛋白溶解系統(tǒng),它也可能與哮喘的治療有關(guān)[34]。此外,靶基因KIT 共預(yù)測到了72 種靶向藥物,這些藥物同樣可能為哮喘的治療提供一個新的方向,所以值得進一步研究和探索。
本研究使用了2 個去批次效應(yīng)后的數(shù)據(jù)集來增加樣本量,并使用了1 個新的數(shù)據(jù)集驗證最終的結(jié)果,從而使本文結(jié)論更加可靠。此外,本研究還預(yù)測了與哮喘有關(guān)的轉(zhuǎn)錄因子和藥物,這使本研究比以往的研究更加全面和廣泛。本研究同樣存在一些局限性。首先,雖然使用了多個數(shù)據(jù)庫和不同算法取交集的方法來提高結(jié)果的可靠性,但仍缺少體內(nèi)體外實驗對通路和機制進行進一步驗證,后續(xù)可以從實驗驗證等方面對本文的研究結(jié)果進行更加深入的分析研究。此外,本研究的數(shù)據(jù)來自于公共數(shù)據(jù)庫,缺少外部數(shù)據(jù)進行驗證,因此存在假陽性的可能性,后續(xù)可以使用更高質(zhì)量的外部數(shù)據(jù)進行前瞻性研究與本文結(jié)果進行互相佐證從而降低假陽性率。
綜上所述,本研究共識別出了76 個DEGs,并從中篩選出了9 個靶基因。細胞殺傷、調(diào)節(jié)內(nèi)吞作用、淋巴細胞趨化等生物功能和趨化因子信號通路、免疫調(diào)節(jié)通路等通路都在哮喘的發(fā)生、發(fā)展中起到一定的作用。SNX13 和7 個lncRNA 通過hsa-miR-19b-3p 和hsa-miR-218-5p 參與哮喘相關(guān)基因的表達和調(diào)控。此外SPI1 等轉(zhuǎn)錄因子和他尼氟酯等藥物同樣可能會干預(yù)哮喘相關(guān)基因的表達調(diào)控。