李俊玲,何太平,王曉輝,楊崢嶸 (1.廣東醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,廣東東莞 52808;2.廣東醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,廣東湛江 52402;.深圳市疾病預(yù)防控制中心,廣東深圳 508055)
SARS?CoV?2是于2020年1月通過基因測(cè)序確定的一種新型冠狀病毒,該病毒引起新型冠狀病毒肺炎(COVID?19),簡(jiǎn)稱“新冠肺炎”,并造成了世界范圍的廣泛流行[1]。SARS?CoV?2的持續(xù)傳播,對(duì)國(guó)際公共衛(wèi)生構(gòu)成了巨大威脅[2],全球科學(xué)家都在積極探索新冠肺炎治療和預(yù)防的方法,其中藥物研究是一個(gè)熱點(diǎn)。我們通過大數(shù)據(jù)的挖掘以及生物信息學(xué)的分析篩選出新冠肺炎癥狀相關(guān)的核心基因,并鑒定出潛在對(duì)癥治療藥物,希望能為新冠肺炎藥物的研發(fā)提供一些幫助。
查閱文獻(xiàn)確定了臨床診斷中與COVID?19 密切相關(guān)的7 個(gè)主要臨床癥狀,分別是“發(fā)燒”“咳嗽”“重癥肺炎”“呼吸困難”“呼吸窘迫”“乏力”“肌肉酸痛”,隨后通過文本挖掘數(shù)據(jù)庫(kù)(http://pubmed2ensembl.ls.manchester.ac.uk/)搜索這7 個(gè)關(guān)鍵詞,得到7 組與這些關(guān)鍵詞相關(guān)的基因列表,以供下一步分析。
基因注釋功能分析主要包括基因的生物學(xué)過程、分子功能和細(xì)胞組分這三個(gè)方面。通路富集分析能夠從分子水平確定基因參與最主要的信號(hào)轉(zhuǎn)導(dǎo)途徑。這兩種分析方法主要是基于超幾何分布檢驗(yàn),通過P值大小篩選出這些基因主要顯著富集在何種生物學(xué)過程、分子功能、細(xì)胞組分及通路。利用R 軟件中的clusterProfiler 包對(duì)基因進(jìn)行功能注釋和通路富集的統(tǒng)計(jì)分析和可視化[3]。
用STRING(https://string?db.org/)數(shù)據(jù)庫(kù)來(lái)確定蛋白之間相互作用的信息,用Cytoscape 軟件來(lái)可視化STRING 數(shù)據(jù)庫(kù)中導(dǎo)出的蛋白互作數(shù)據(jù)信息,再利用互作網(wǎng)絡(luò)中分值由大到小的順序確定核心基因[4]。
DGIDB 數(shù)據(jù)庫(kù)是探索藥物與基因之間的相互關(guān)系的分析平臺(tái),將上述分析后產(chǎn)生的核心基因作為靶向基因并使用DGIDB 數(shù)據(jù)庫(kù)來(lái)篩選出潛在治療藥物,并最終用R軟件中的ggalluvival包來(lái)可視化藥物?基因?通路之間的相互關(guān)系[5]。
通過文本挖掘數(shù)據(jù)庫(kù)對(duì)7個(gè)COVID?19主要癥狀進(jìn)行檢索,得到7 組基因集,涉及的基因數(shù)量分別為:768、563、456、627、879、1 148、809 個(gè),對(duì)這7 組基因集取交集,得到包含97個(gè)基因的基因列表(圖1)。
圖1 與COVID?19癥狀密切相關(guān)的基因列表
使用R 軟件對(duì)97 個(gè)基因進(jìn)行基因功能注釋和通路富集分析?;蚬δ茏⑨岋@示(如圖2,僅顯示P值最小的前6 個(gè)條目)這些基因的生物學(xué)過程主要集中在Stat5 蛋白酪氨酸磷酸化的正調(diào)控(P=3.86E?11)、活化T 細(xì)胞增殖的正調(diào)控(P=7.35E?06)等96 個(gè)功能簇;這些基因的細(xì)胞組分構(gòu)成主要是細(xì)胞外隙(P=1.79E?18)、胞外區(qū)(P=1.00E?12)和質(zhì)膜外側(cè)(P=7.64E?09)等21 個(gè)功能簇;這些基因的分子功能方面主要集中在細(xì)胞因子受體結(jié)合(P=6.15E?12)、生長(zhǎng)因子活性(P=6.14E?11)等35個(gè)功能簇。
富集通路分析顯示這些基因一共富集到47 條通路,同樣選擇6 條P值最小的通路(如圖3),分別是細(xì)胞因子與細(xì)胞因子受體的相互作用(P=5.00E?12)、JAK?STAT 信號(hào)通路(P=6.93E?10)、瘧疾相關(guān)免疫反應(yīng)(P=1.35E?09)、炎癥性腸?。↖BD)(P=5.93E?09)、T細(xì)胞受體信號(hào)通路(P=6.18E?07)、同種異體移植排斥(P=1.34E?06)以及PI3K?Akt信號(hào)通路(P=2.57E?06)。
圖3 通路富集分析柱狀圖
利用String 數(shù)據(jù)庫(kù)對(duì)97 個(gè)基因進(jìn)行相互作用分析,構(gòu)建出了一個(gè)擁有85 個(gè)節(jié)點(diǎn),917 條邊的蛋白互作網(wǎng)絡(luò)圖(如圖4)。利用Cytoscape 軟件篩選出85 個(gè)基因節(jié)點(diǎn)中與其他基因之間相互聯(lián)系最為密切的,分值最高的前30個(gè)基因(如圖4中顏色較深部分),為下一步數(shù)據(jù)分析做準(zhǔn)備。
圖4 基因相互作用網(wǎng)絡(luò)圖
我們用上述篩選到的30 個(gè)基因進(jìn)一步分析藥物與基因之間的相互作用,最終篩選到9 個(gè)核心基因,涉及到22 個(gè)潛在藥物,可能對(duì)COVID 具有一定的對(duì)癥治療作用(如表1)。
表1 基于核心基因治療COVID?19的潛在藥物匯總表
COVID?19 作為一種新發(fā)的傳染病,至今尚無(wú)確定的特效藥物。對(duì)于大多數(shù)輕癥及無(wú)癥狀感染者,此疾病具有一定的自愈能力或者不需要特別的治療,但是對(duì)于一些危重患者來(lái)說(shuō),情況卻很嚴(yán)峻。有研究表明,即使在積極的治療情況下,進(jìn)入ICU的COVID?19重癥患者28 d 內(nèi)病死率高達(dá)61.5%,其中有47.0%的重癥死亡患者并無(wú)基礎(chǔ)疾病[6]。因此,迫切需要篩選有效的COVID?19 藥物來(lái)降低病死率。文本挖掘等生物信息學(xué)分析工具為藥物篩選提供了一條快速通道,通過KEGG 通路富集分析,按照P值由小到大的順序鑒定出3 條與COVID?19 癥狀密切相關(guān)的通路;進(jìn)一步通過蛋白互作分析以及基因與藥物間的相互作用,篩選出9個(gè)與COVID?19癥狀密切相關(guān)的基因。
KEGG 通路富集分析結(jié)果表明,與COVID?19 癥狀高度相關(guān)的通路與細(xì)胞因子及其受體間的相互作用相關(guān)。多項(xiàng)臨床實(shí)驗(yàn)表明,在SARS?CoV2的感染過程中,COVID?19患者的淋巴細(xì)胞和NK細(xì)胞計(jì)數(shù)顯著降低,細(xì)胞因子水平卻顯著升高[7],出現(xiàn)“細(xì)胞因子風(fēng)暴”,使宿主免疫反應(yīng)過度,造成急性肺部損傷、多器官衰竭以及不良的預(yù)后等嚴(yán)重的后果[8]。但細(xì)胞因子發(fā)揮其生物學(xué)功能是需要通過與靶細(xì)胞表面的相應(yīng)受體結(jié)合才能將信號(hào)轉(zhuǎn)導(dǎo)到細(xì)胞內(nèi)部,因此,細(xì)胞因子與其受體的相互作用是重要的治療靶點(diǎn)。細(xì)胞因子及其受體互作網(wǎng)絡(luò)極其復(fù)雜,需要分析處于核心的細(xì)胞因子。在嚴(yán)重的SARS?CoV?2感染病例中,IL?6水平顯著升高,是最常被檢測(cè)出來(lái)并被報(bào)道[9?11],而IL?6 受體與IL?6結(jié)合進(jìn)一步促進(jìn)IL?6 的生物學(xué)作用,加劇“細(xì)胞因子風(fēng)暴”的進(jìn)程。我們鑒定到的藥物司妥昔單抗可以有效地阻斷兩者的結(jié)合,避免激活信號(hào)傳導(dǎo)通路[12],可能是COVID?19嚴(yán)重感染病例的有效治療手段。
其次是JAK?STAT 信號(hào)通路,在炎癥反應(yīng)時(shí),細(xì)胞因子與其受體相互作用增強(qiáng),進(jìn)一步激活JAK,發(fā)生JAK 的自磷酸化以及STATs的二聚化,隨后二聚化后的STATs 進(jìn)入到細(xì)胞核中參與細(xì)胞的免疫調(diào)節(jié)等生物學(xué)過程,進(jìn)一步促進(jìn)“細(xì)胞因子風(fēng)暴”[13]。因此,通過JAK 抑制劑治療由SARS?CoV?2 引起的“細(xì)胞因子風(fēng)暴”可能是一種有效策略。經(jīng)過檢索文獻(xiàn)發(fā)現(xiàn)魯索替尼作為JAK的抑制劑,相比其他藥物耐受性較好并且在老年人群體中也適用,可能對(duì)COVID?19 患者出現(xiàn)的免疫反應(yīng)過度癥狀有比較好的效果[14]。
另一條與COVID?19 癥狀高度相關(guān)的通路是瘧疾相關(guān)免疫反應(yīng)信號(hào)通路,瘧原蟲感染及其治療藥物均有其特點(diǎn),最古老的治療藥物為氯喹,后來(lái)逐步改進(jìn)到磷酸氯喹、羥氯喹等衍生藥物。在武漢、荊州、廣州、上海、北京、重慶、寧波等多家醫(yī)院進(jìn)行的試點(diǎn)實(shí)驗(yàn)表明磷酸氯喹可以有效地抑制肺炎的惡化,縮短COVID?19 的病程[15]。國(guó)家衛(wèi)建委發(fā)部的《新型冠狀病毒肺炎診療方案(試行第八版中)》也指出磷酸氯喹可以繼續(xù)試用,在臨床應(yīng)用上進(jìn)一步評(píng)價(jià)它的療效。綜合分析來(lái)看,磷酸氯喹可以有效地調(diào)節(jié)與COVID?19相關(guān)的病理學(xué)通路。
在進(jìn)一步的基因與藥物相互作用分析中,我們發(fā)現(xiàn)KIT 基因所篩選到的靶向藥物最多且評(píng)分最高。KIT 基因是一種Ⅲ類酪氨酸酶受體,它的表達(dá)異??赡軙?huì)使宿主細(xì)胞發(fā)生多種腫瘤[16?18]。我們經(jīng)過一系列的生物信息學(xué)分析發(fā)現(xiàn)KIT 與COVID?19 具有很強(qiáng)的相關(guān)性。伊馬替尼是我們鑒定到評(píng)分最高的KIT抑制劑,它在針對(duì)嚴(yán)重性呼吸窘迫綜合征以及中東呼吸綜合征冠狀病毒的體外實(shí)驗(yàn)中顯示出具有抗病毒活性[19]。今年6 月份,國(guó)外相關(guān)臨床研究顯示,一位38 歲的確診女性病例在經(jīng)過羥氯喹和利托那韋的雙重治療后病情卻再次復(fù)發(fā)之際,改用伊馬替尼進(jìn)行治療后情況好轉(zhuǎn)并順利出院[20]。這提示伊馬替尼治療COVID?19具有繼續(xù)進(jìn)行臨床研究的價(jià)值。
基因篩選評(píng)分其次的是ACE基因,它與ACE2基因是腎素?血管緊張素系統(tǒng)(RAS)中的兩個(gè)不可或缺的調(diào)制器,兩者之間相互保持平衡對(duì)于維持RAS的穩(wěn)定具有重要的作用,預(yù)計(jì)可以有效地降低COVID?19的死亡率和發(fā)病率。ACE2由于與冠狀病毒表面的胞膜蛋白有很好的親和力使得使其消耗而表達(dá)水平下降[21?22],此時(shí)ACE 和ACE2 之間的表達(dá)不平衡促使血管緊張素II的水平不受限制,增加血管的通透性并引起血管收縮,從而導(dǎo)致急性肺損傷并促進(jìn)纖維化。一項(xiàng)包含1 128名COVID?19 伴高血壓患者的多中心回顧性研究顯示,使用ACE 抑制劑的住院患者比不使用的死亡風(fēng)險(xiǎn)降低[23],我們研究中鑒定到的一些ACE抑制劑,如卡托普利等藥物可能在一定程度上具有治療和預(yù)防由COVID?19引起的急性肺損傷的問題。
基因篩選評(píng)分第三是ESR1 基因,是一種介導(dǎo)雌激素發(fā)揮生物學(xué)效應(yīng)的配體依賴轉(zhuǎn)錄因子。COVID?19 流行病學(xué)資料顯示,不同性別、年齡群體對(duì)于新冠病毒所表現(xiàn)出的炎癥反應(yīng)是不同的。有研究表明,除了個(gè)體差異,雌激素可能是造成這一差別的重要原因[24]。雌激素可以調(diào)節(jié)中性粒細(xì)胞、巨噬細(xì)胞等免疫細(xì)胞的發(fā)育,使B 細(xì)胞介導(dǎo)的適應(yīng)性免疫產(chǎn)生特異性抗體[25],抑制NF?kB 通路介導(dǎo)的炎癥反應(yīng),可能降低肺部損傷。這個(gè)機(jī)理在動(dòng)物實(shí)驗(yàn)中已得到證實(shí)[26],國(guó)外已有學(xué)者提出雌激素可能會(huì)降低COVID?19 的死亡率[27?28],因此對(duì)老年女性新冠患者嘗試用外源雌激素治療的方法可能更具有實(shí)際意義。
除了上述描述的評(píng)分較高的3 個(gè)基因之外,還有其他一些與新冠癥狀密切相關(guān)的細(xì)胞因子及受體,包括TNF、VEGFA、IL?1B、IL5、TGFB1,同時(shí)也確定了一些基因?qū)?yīng)的靶向藥物。綜上,我們利用生物信息學(xué)的分析方法篩選出一些COVID?19 癥狀相關(guān)的核心基因,之后通過基因功能富集分析和通路富集分析對(duì)這些基因的生物學(xué)功能、涉及的信號(hào)通路做了進(jìn)一步的分析,同時(shí)分析出與核心基因相互作用的潛在藥物。希望此類研究能為COVID?19 的預(yù)防和治療提供一定的方向指引。