王 道,彭 亮
(中南大學湘雅二醫(yī)院婦產(chǎn)科,中國湖南長沙410011)
在過去的20年中,嚴重急性呼吸綜合征冠狀病毒(severe acute respiratory syndrome coronavirus,SARS-CoV)和中東呼吸系統(tǒng)綜合征冠狀病毒(Middle East respiratory syndrome coronavirus,MERSCoV)的肆意流行已威脅到人類的生命。2019年12月,新型冠狀病毒SARS-CoV-2引起的一系列感染病例在中國湖北省武漢出現(xiàn),到目前為止,已經(jīng)蔓延到全球多個國家和地區(qū)[1~6]。盡管SARS-CoV-2的致死率較低,但比SARS-CoV傳播得更廣泛[7],其引發(fā)的疾病已被世界衛(wèi)生組織正式命名為2019冠狀病毒病(coronavirus disease 2019,COVID-19)。SARS-CoV-2是一種β冠狀病毒,其RNA基因組與SARS-CoV基因組約有82%的相似性[8],屬于正冠狀病毒亞科(Orthocoronavirinae),Sarbecovirus亞屬[9]。石正麗等[10~11]根據(jù)病毒基因組推測,中華菊頭蝠(Rhinolophus sinicus)是SARS相關(guān)冠狀病毒的天然宿主。另有研究認為馬來穿山甲[12~13]、水貂[14]是SARS-CoV-2的潛在中間宿主。截至2020年5月19日,SARS-CoV-2感染人數(shù)依然呈指數(shù)增長,全球累計確診病例突破470萬例。COVID-19的嚴重性和迅猛性迫使我們亟需開發(fā)新的藥物來對抗新興的冠狀病毒。
SARS-CoV-2是一種單鏈RNA冠狀病毒,其第一個可讀框(open reading frame 1a/b,ORF 1a/b)編碼16個非結(jié)構(gòu)蛋白(nonstructural protein,NSP),其中最具特征的主要藥物靶標是3CLpro(3C-like protease)[15]。3CL水解酶能裂解多聚蛋白,并且產(chǎn)生成熟的酶,然后在11個位點進一步裂解下游的NSP以釋放NSP4~16。其余的ORF則編碼幾種輔助蛋白和結(jié)構(gòu)蛋白,其中包括刺突(S)糖蛋白、包膜(E)蛋白、基質(zhì)(M)蛋白和核衣殼(N)蛋白[11]。3CLpro的主要功能是介導NSP成熟,參與RNA轉(zhuǎn)錄翻譯、蛋白質(zhì)合成加工及修飾、蛋白質(zhì)復(fù)制和宿主感染等重要過程。因此,抑制3CLpro活性將能阻止病毒的感染和復(fù)制,這使3CLpro成為小分子抑制劑的主要靶標之一[16]。而且,人體內(nèi)尚未發(fā)現(xiàn)具有類似裂解特異性的識別蛋白酶,所以以3CLpro為靶標開發(fā)的小分子抑制劑具有較好的安全性。
目前,臨床缺乏針對COVID-19的有效抗病毒藥物,僅僅集中在對癥治療和呼吸支持上[17]。過去SARS或MERS患者使用的洛匹那韋/利托那韋、利巴韋林、干擾素等未能明顯改善COVID-19患者的臨床狀況,也未能減少咽喉部檢出的病毒RNA[18]。另外,備受期望的瑞德西韋(remdesivir)的療效和安全性也尚需觀察[19]。因此,我們首要任務(wù)是找到能有效抑制新病毒的靶點。生物信息學現(xiàn)已被廣泛地應(yīng)用在前期藥物篩選和研發(fā)等重要領(lǐng)域,本研究借助多種生物信息學手段對3CLpro蛋白的結(jié)構(gòu)特征和抗原表位進行預(yù)測分析,為SARSCoV-2的疫苗研發(fā)提供新的思路。
從美國國家生物信息中心(National Center for Biotechnology Information,NCBI;https://www.ncbi.nlm.nih.gov/)的GenBank中獲取新型冠狀病毒的3CLpro蛋白序列(登錄號:YP 009725301.1.)。
基于多種在線數(shù)據(jù)庫(表1)對3CLpro的理化性質(zhì)、親/疏水性、跨膜區(qū)、磷酸化位點、糖基化位點、SUMO化位點以及二級結(jié)構(gòu)、結(jié)構(gòu)域、配體結(jié)合域和B/T細胞的優(yōu)勢抗原表位區(qū)域進行預(yù)測,并且挖掘可能潛在的小分子藥物。
運用ClustalX2對PDB數(shù)據(jù)庫中SARS-CoV-2(6LU7)、SARS-CoV(1UJ1)和 MERS-CoV(4RSP)的3CLpro蛋白進行氨基酸序列比對,并將信息提交到JalView進一步做可視化分析。結(jié)果顯示,上述3種病毒中3CLpro蛋白的氨基酸序列的相似性非常高,在多聚蛋白切割位點具有顯著的保守性,相似度達到81.66%(圖1)。由此可見,3CLpro的氨基酸序列高度保守或者相同,提示其切割位點可能具有非常高的相似性。
基于ExPASy Server,利用ProtParam預(yù)測3CLpro的基本理化性質(zhì)。結(jié)果顯示,3CLpro蛋白由306個氨基酸組成,包含帶負電荷的26個氨基酸殘基(Asp+Glu)和帶正電荷的22個氨基酸殘基(Arg+Lys)(表2);蛋白質(zhì)的分子式為C1499H2318N402O445S22,相對分子質(zhì)量為33 796.64,等電點為5.95;280 nm波長處的消光系數(shù)為33 640,吸光度為0.995,半衰期為1.9 h,脂肪穩(wěn)定系數(shù)為82.12,表明3CLpro蛋白具有穩(wěn)定性;親水性的平均值為-0.019,表明該蛋白質(zhì)具有親水性。
運用ProtScale數(shù)據(jù)庫對3CLpro蛋白的親水性進一步進行分析。圖2結(jié)果顯示,3CLpro蛋白有4個高分值峰區(qū)(score>1.5),分別位于第204位、第206位、第 208~209位和第 261~264位氨基酸,其中最高分值位于第209位的亮氨酸(score=2.167);4個低分值峰區(qū)(score<-1.5),分別位于第51~52位、第96~99位、第218位和第240~242位,其中最低分值位于第98位的苯丙氨酸(score=-2.067)。3CLpro存在大量親水區(qū),推測屬于親水性蛋白質(zhì)。
運用TMHMM數(shù)據(jù)庫對3CLpro蛋白的跨膜區(qū)進行預(yù)測,結(jié)果顯示不存在一段由胞內(nèi)向胞外的跨膜區(qū)域(圖 3)。
表1 生物信息數(shù)據(jù)庫及在線網(wǎng)站Table 1 Bioinformatic databases and websites
表2 3CLpro的氨基酸組成Table 2 Amino acid composition of 3CLpro
圖1 3CLpro蛋白的氨基酸序列比對Fig.1 Alignment analysis of amino acid sequence of 3CLpro
運用 NetNGlyc 1.0 Server、NetPhos 3.1 Server和SUMOplot分別對3CLpro的糖基化、磷酸化和SUMO化位點進行分析,結(jié)果顯示,3CLpro的糖基化位點有2個(圖4);磷酸化位點共有27個,包括絲氨酸(S)位點14個、蘇氨酸(T)位點10個和酪氨酸(Y)位點3個(圖5);SUMO化位點有3個,包括K90、K12 和 K97,而且 K90 位點(score=0.91)發(fā)生SUMO化修飾的可能性最高(圖6)。
圖2 3CLpro蛋白的親/疏水性分析Fig.2 Hydrophilicity/hydrophobicity analysis of 3CLpro
圖3 3CLpro蛋白的跨膜區(qū)域分析Fig.3 Transmembrane region analysis of 3CLpro
運用PSIPRED預(yù)測3CLpro的二級結(jié)構(gòu),結(jié)果顯示,3CLpro蛋白共有66個α-螺旋和96個β-折疊。其中,參與形成α-螺旋的氨基酸占21.57%(66/306);參與形成β-折疊的氨基酸占31.37%(96/306);其余的都是無規(guī)則卷曲,說明3CLpro蛋白的氨基酸大部分處于有序狀態(tài)。
Pfam在線工具對3CLpro的結(jié)構(gòu)域預(yù)測結(jié)果顯示,29~306氨基酸位置存在一個endopeptidase/C30保守序列。圖7顯示PSIPRED和Pfam兩個在線工具的預(yù)測結(jié)果基本一致。
PrankWeb平臺可利用隨機森林算法預(yù)測3CLpro蛋白表面上的配體結(jié)合位點。圖8中5種彩色矩形代表預(yù)期口袋和實際結(jié)合的可能區(qū)域,其保守性使用灰色條形圖描繪。在結(jié)構(gòu)可視化結(jié)果中,蛋白質(zhì)表面用不同的顏色突出顯示各個口袋區(qū)域,蛋白質(zhì)原子的灰色越深表示保守性越高。在表3數(shù)據(jù)中,藍色區(qū)(pocket 1)得分是11.184 0,大于其他顏色區(qū)域的得分,說明藍色區(qū)是最大可能的配體結(jié)合區(qū)域,其溶劑可及表面積為72,表面原子數(shù)為 45,氨基酸殘基位點為 24~27、41~49、140~145、163~166、189。
圖4 3CLpro蛋白的糖基化位點分析Fig.4 Prediction of N-glycosylation sites in 3CLpro
圖5 3CLpro蛋白的磷酸化位點分析Fig.5 Prediction of phosphorylation sites in 3CLpro
圖6 3CLpro蛋白的SUMO化位點分析Fig.6 Prediction of sumoylation sites in 3CLpro
DrugBank數(shù)據(jù)庫是基于藥物-基因組學的在線平臺,能夠有效地挖掘藥物。本文的分析結(jié)果顯示,存在8種可能能夠抑制3CLpro蛋白的小分子藥物。這8種小分子藥物的accession number分別為 DB08748、DB07620、DB07743、DB08732、DB-07293、DB08656、DB14761、DB15686,其化學式如圖9所示。
首先,基于Kolaskar & Tongaonkar Antigenicity預(yù)測3CLpro的B細胞表位抗原性,結(jié)果顯示N端的 15~23、32~45、65~72、83~91、101~107、111~120、123~129、153~162、201~212、244~253 和258~271區(qū)域為可能的B細胞抗原表位(圖10A)。隨后,基于Bepipred Linear Epitope Prediction預(yù)測3CLpro的B細胞表位抗原性,結(jié)果顯示N端的5~13、47~57、93~109、170~196、225~228、236~247、273~278、290~298 和 301~302 區(qū)域的抗原性較強(圖10B)。綜合以上預(yù)測,推導出B細胞的優(yōu)勢抗原表位區(qū)域主要為第101~107位氨基酸。進一步運用SYFPEITHI軟件預(yù)測出3CLpro多個潛在的T細胞抗原表位,主要組織相容性復(fù)合體(major histocompatibility complex,MHC)類型選擇RT1.AI,其中大于15分以上的位點有11個(表4)。
圖7 3CLpro蛋白的二級結(jié)構(gòu)及結(jié)構(gòu)域分析Fig.7 Prediction of secondary structure and structural domains of 3CLpro
圖8 3CLpro蛋白的配體結(jié)合區(qū)域分析Fig.8 Prediction of ligand binding sites of 3CLpro
截至目前,在中國以外地區(qū),大量COVID-19患者已經(jīng)使醫(yī)療系統(tǒng)不堪重負。但新藥上市并非一蹴而就,候選藥物的安全性還需進一步在臨床試驗中得到驗證[20~21]。鑒于3CLpro在病毒復(fù)制過程中的重要作用,我們對SARS-CoV-2、SARS-CoV和MERS-CoV的3CLpro蛋白進行了序列比對,發(fā)現(xiàn)3種病毒中3CLpro蛋白具有81.66%的相似性(圖1),提示3CLpro有望成為未來強有吸引力的藥物作用靶點。相反,SARS-CoV-2的基因組3′端編碼的4個結(jié)構(gòu)蛋白和8個輔助蛋白由于存在太多的變異性,難以成為廣譜抑制劑的位點[22]。
表3 3CLpro蛋白的配體結(jié)合區(qū)域數(shù)據(jù)Table 3 Ligand binding sites of 3CLpro
圖9 3CLpro蛋白的小分子藥物預(yù)測Fig.9 Prediction of small molecule drugs of 3CLpro
本文先對3CL水解酶的理化性質(zhì)、親/疏水性和跨膜區(qū)進行了預(yù)測。結(jié)果顯示,3CLpro蛋白的理論等電點是5.95,說明3CLpro屬于酸性蛋白質(zhì),這與本文理化分析中帶負電荷的氨基酸數(shù)目大于帶正電荷的氨基酸數(shù)目的結(jié)果相符;而且3CLpro屬于親水性蛋白質(zhì)(圖2),我們推測其親水區(qū)末端突出脂包膜外表面,其后是疏水的結(jié)構(gòu)域,但是,TMHMM數(shù)據(jù)庫預(yù)測其不存在跨膜區(qū)(圖3)。另外,本文的預(yù)測結(jié)果顯示3CLpro存在2個糖基化位點(圖4)、27個磷酸化位點(圖5)和3個SUMO化位點(圖6),其中,2個糖基化位點的預(yù)測結(jié)果與Vankadari等[23]研究認為SARS-CoV-2是一種高度糖基化的病毒顆粒的結(jié)論相一致,研究者也許能夠利用其他小分子結(jié)合到這些修飾位點來抑制病毒復(fù)制。因為3CLpro是冠狀病毒復(fù)制所必需的酶,而人體內(nèi)沒有與3CLpro具有類似切割位點的蛋白酶,所以以它為靶標篩選出的特異性強的抑制劑可能具有更好的藥物安全性。但是,這還需要從臨床上得到驗證。Ge等[24]報道,SARS-CoV-2主要是依靠刺突糖蛋白結(jié)合到宿主細胞表面的血管緊張素轉(zhuǎn)換酶Ⅱ(angiotensin converting enzyme 2,ACE2)受體,從而進入宿主體內(nèi),跨膜絲氨酸蛋白酶2(transmembrane protease serine 2,TMPRSS2)則在入侵過程中發(fā)揮“助攻”作用。Hoffmann等[25]發(fā)現(xiàn)TMPRSS2也是潛在的可用于COVID-19治療的靶標。需要指出的是,除肺以外,ACE2還在心臟、食道、膀胱和回腸等組織廣泛表達[26],因此其靶標藥物的毒副作用就必須得到足夠的關(guān)注。相比ACE2和TMPRSS2,3CLpro的抑制劑能夠迅速達到直接滅活病毒的目的。
圖10 3CLpro蛋白B細胞抗原表位預(yù)測和抗原性分析Fig.10 B cell epitope prediction of 3CLpro
表4 3CLpro蛋白T細胞抗原表位預(yù)測Table 4 T cell epitope prediction of 3CLpro
隨著COVID-19給世界各地帶來的經(jīng)濟損失和心理恐慌,公眾對相關(guān)藥物研發(fā)的期盼尤為迫切??茖W家們前期已經(jīng)從現(xiàn)有上市藥物中找到部分能夠“老藥新用”的化合物[27]。本研究也預(yù)測到多個3CLpro蛋白的配體結(jié)合位點,其中藍色區(qū)域分數(shù)最高,是口袋和實際配體結(jié)合可能性最高的區(qū)域(圖8和表3)。另外,我們還挖掘到8種潛在的對3CLpro具有抑制作用的小分子藥物(圖9),其中就有瑞德西韋(圖9G),但瑞德西韋對COVID-19的療效還有待評估[28]。Chen等[29]使用3CLpro分子模型篩選出16個潛在的候選藥物,并推測維帕他韋(velpatasvir)和雷地帕韋(ledipasvir)的副作用較小,但這兩種藥物的抑制作用還有待證實。早在2003年,Hilgenfeld團隊就構(gòu)建了SARS-CoV 3CLpro的同源模型晶體結(jié)構(gòu)[30];2020年3月,他們合成了可抑制SARS-CoV-2的擬肽α-酮酰胺抑制劑。令人鼓舞的是,研究人員稱給藥小鼠暫時未出現(xiàn)任何不良反應(yīng)[31]。此外,本文還采用多參數(shù)方法分析了3CLpro多個B細胞抗原表位,發(fā)現(xiàn)潛在的抗原表位優(yōu)勢區(qū)域在第101~107位氨基酸(圖10);同時,預(yù)測出了11個評分大于15的T細胞抗原表位,它們主要位于 15~23、32~45、65~72、83~91、101~107、111~120、123~129、153~162、201~212、244~253 和 258~271 氨基酸殘基附近(表4)??偟膩碇v,人類免疫缺陷病毒(human immunodeficiency virus,HIV)[32]和丙型肝炎(hepatitis C virus,HCV)[33]抑制藥物被逐步研制的事實表明,新型冠狀病毒疫苗和藥物抑制劑仍是當下COVID-19最根本有效的防治手段[34]。
現(xiàn)今科學家仍然在抗擊COVID-19,但有些問題仍不明確。本文借助生物信息學工具快速地解析了3CLpro蛋白結(jié)構(gòu),預(yù)測了其配體結(jié)合位點和潛在的B/T細胞表面抗原,可為疫苗和藥物的研發(fā)提供一定的理論基礎(chǔ)。