王凡灝,來魯華1,,3,張長勝1,
(1 北京大學(xué)前沿交叉學(xué)科研究院定量生物學(xué)中心,北京 100871; 2 北京大學(xué)化學(xué)與分子工程學(xué)院,北京分子科學(xué)國家研究中心,北京 100871; 3 北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心,北京 100871)
蛋白質(zhì)-蛋白質(zhì)相互作用在生物體系中發(fā)揮了關(guān)鍵作用,很多相互作用體系,如酶/抑制劑、細(xì)胞因子/細(xì)胞膜受體、病原體/受體、細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)蛋白質(zhì)作用、分子機(jī)器組裝體內(nèi)部作用、蛋白質(zhì)聚集等都被認(rèn)為是潛在的重要靶標(biāo)[1-4]。通過調(diào)節(jié)蛋白質(zhì)相互作用可以提高藥物的專一性,減少藥物的毒副作用。蛋白質(zhì)-蛋白質(zhì)相互作用已經(jīng)成為國內(nèi)外藥物研發(fā)機(jī)構(gòu)競相投入研發(fā)的藥物靶點(diǎn)[5-10]。
蛋白質(zhì)-蛋白質(zhì)相互作用界面一般較大而平坦,較難進(jìn)行高專一性結(jié)合的小分子化合物設(shè)計(jì)。蛋白質(zhì)-蛋白質(zhì)相互作用界面面積通常為1500~3000 ?2,而小分子化合物總的溶劑可及表面積只有約150~500 ?2。相對(duì)于小分子,多肽分子可以提供較大的結(jié)合界面,并且具有易合成[11]、結(jié)合專一性強(qiáng)、毒性小、免疫原性小等獨(dú)特的優(yōu)勢[12-16]。使用天然多肽作為藥物,在調(diào)控分泌蛋白、細(xì)胞膜上受體等蛋白質(zhì)功能方面已取得了很大成功[17]。但由于天然多肽在很多情況下存在熱穩(wěn)定性差、易被蛋白酶降解、結(jié)合較弱的缺點(diǎn),導(dǎo)致這些多肽分子在體內(nèi)的半衰期短、藥效弱[18-21]。所以,改造這些多肽分子或全新設(shè)計(jì)穩(wěn)定的多肽是藥物研發(fā)的重要目標(biāo)[22-23]。
多肽分子的環(huán)化,如主鏈?zhǔn)孜残纬甚0锋I、殘基側(cè)鏈間形成二硫鍵或其他共價(jià)鍵,可以限制多肽的構(gòu)象,是提高多肽藥物穩(wěn)定性的重要手段。環(huán)肽降低了肽鏈的柔性,因此還可以減少與靶蛋白結(jié)合的熵?fù)p失[24-30]。在天然氨基酸環(huán)肽的基礎(chǔ)上再引入N-甲基化氨基酸、D型氨基酸、類肽等非天然殘基可以更近一步解決易被蛋白酶水解等問題,并進(jìn)一步拓寬其可設(shè)計(jì)化學(xué)空間[31]。天然產(chǎn)物與人工設(shè)計(jì)的環(huán)肽分子越來越多地用作調(diào)節(jié)蛋白質(zhì)-蛋白質(zhì)相互作用,例如HDAC抑制劑[32-34]、灰霉素[35]、CXCR4拮抗劑[36-37]、抑制HIF-1a/HIF-1b的cyclo-(CLLFVY)[35,38]等。
過去20年里經(jīng)FDA批準(zhǔn)上市的環(huán)肽藥物有18種[39-40],包括激素類藥物和靶向藥,表1列出了這些藥物的結(jié)構(gòu)和功能。
表1 已獲FDA批準(zhǔn)的18種環(huán)肽類藥物匯總表Table 1 Summary of 18 cyclic peptide drugs approved by FDA
這些分子主要來源于從自然界中分離的環(huán)肽,經(jīng)改造優(yōu)化提高了效價(jià)、藥代動(dòng)力學(xué)和藥代動(dòng)力學(xué)特性。例如通過將芳香萘和D-色氨酸加入生長抑素類藥物蘭瑞肽(Lanreotide,結(jié)構(gòu)見表1),可以穩(wěn)定其超分子堆積的納米管,有助于延長其半衰期、抑制激素水平和活性的能力。從技術(shù)角度來看,環(huán)肽藥物的開發(fā)得益于快速發(fā)展的化學(xué)合成與修飾方法和現(xiàn)代分子生物學(xué)技術(shù),環(huán)肽的分子結(jié)構(gòu)不僅可以進(jìn)行靈活修飾,一級(jí)序列也可以快速突變和優(yōu)化,以獲得更高的產(chǎn)量與生物活性。例如由環(huán)孢素衍生而來的伏環(huán)孢素(Voclosporin,結(jié)構(gòu)見表1)就是利用化學(xué)修飾,將E-MePmt1分子基團(tuán)取代環(huán)孢素A(CsA)中第一個(gè)殘基Bmt1[41-42],以優(yōu)化其對(duì)靶標(biāo)的結(jié)合能力,并提升了代謝穩(wěn)定性[43-45]。但是單純通過大規(guī)模實(shí)驗(yàn)分離與篩選的方法獲得可結(jié)合靶標(biāo)蛋白環(huán)肽分子的效率低、成本高,所以計(jì)算設(shè)計(jì)方法將極大地幫助環(huán)肽藥物的開發(fā)[46-48]。
環(huán)肽的三維結(jié)構(gòu)和環(huán)肽與靶標(biāo)蛋白的復(fù)合物結(jié)構(gòu)為理解環(huán)肽性質(zhì)和功能機(jī)制提供了重要依據(jù)。已有很多工作收集了自由環(huán)肽的實(shí)驗(yàn)結(jié)構(gòu),例如,Beaufays等[49]的研究中收集了38個(gè)PDB數(shù)據(jù)庫中的環(huán)肽結(jié)構(gòu)作為測試集,長度5~30個(gè)殘基,通過側(cè)鏈或主鏈之間的共價(jià)鍵連接成環(huán);黃勝友實(shí)驗(yàn)室[50]在多肽構(gòu)象生成方法MODPEP2.0的研究中,收集了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(PDB)中采取二硫鍵連接成環(huán)的環(huán)肽結(jié)構(gòu)。我們對(duì)PDB中的環(huán)肽配體與靶標(biāo)蛋白的高分辨(≤2.5 ?)復(fù)合物結(jié)構(gòu)進(jìn)行了統(tǒng)計(jì)分析,截至2022年9月,PDB中包含了經(jīng)過去冗余的88個(gè)環(huán)肽配體與靶標(biāo)蛋白的高分辨復(fù)合物結(jié)構(gòu),這些結(jié)構(gòu)中的環(huán)肽配體長度為5~21個(gè)殘基,靶標(biāo)蛋白在相互作用界面上被埋藏的面積大部分在300~700 ?2之間(見表2)。
表2 PDB數(shù)據(jù)庫中的環(huán)肽-靶標(biāo)蛋白質(zhì)復(fù)合物結(jié)構(gòu)數(shù)據(jù)表Table 2 Non-redundant cyclic peptide-target protein complex structures in the PDB database
這些結(jié)構(gòu)中,31個(gè)環(huán)肽配體通過酰胺鍵環(huán)化,23個(gè)環(huán)肽配體通過二硫鍵環(huán)化,41個(gè)環(huán)肽配體中含D型氨基酸或其他非天然氨基酸,或者是引入了新的基團(tuán)實(shí)現(xiàn)合環(huán),例如圖1(c)的環(huán)肽是由線性肽兩末端的半胱氨酸通過與α,α'-二氯-間二甲苯反應(yīng)形成的合環(huán)[51]。其中不含D型氨基酸環(huán)肽的主鏈二面角φ和ψ分布與天然蛋白的Ramachandran統(tǒng)計(jì)分布相近,如[圖1(a)]所示,這些二面角大都在Ramachandran統(tǒng)計(jì)允許的范圍之內(nèi)。Riniker團(tuán)隊(duì)[52]對(duì)PDB數(shù)據(jù)庫和CSD數(shù)據(jù)庫中的大環(huán)化合物(包括環(huán)肽)的統(tǒng)計(jì)結(jié)果表明,環(huán)上可旋轉(zhuǎn)單鍵數(shù)≤8時(shí),才會(huì)導(dǎo)致環(huán)上的二面角分布受環(huán)應(yīng)力的影響而偏離相應(yīng)線性分子的分布范圍[52],而環(huán)肽分子的環(huán)內(nèi)一般含有≥5個(gè)殘基,可旋轉(zhuǎn)單鍵數(shù)一般≥10。含D型氨基酸的L/D混合環(huán)肽的主鏈二面角ψ和φ的分布[見圖1(b)]趨近于甘氨酸的非手性Ramachandran統(tǒng)計(jì)分布。
圖1 PDB中環(huán)肽-靶標(biāo)復(fù)合物數(shù)據(jù)集(見表2)中環(huán)肽配體的參數(shù)統(tǒng)計(jì)圖(a)、(b)中藍(lán)色背景分布為天然蛋白質(zhì)體系的氨基酸殘基扭轉(zhuǎn)角ψ/φ的分布。(a)僅含天然氨基酸殘基的環(huán)肽配體主鏈扭轉(zhuǎn)角分布圖(ψ/φ);(b)存在非天然氨基酸殘基的環(huán)肽配體主鏈扭轉(zhuǎn)角分布圖(ψ/φ);(c)數(shù)據(jù)集中所有環(huán)肽配體環(huán)序列長度分布圖;(d)數(shù)據(jù)集中所有環(huán)肽配體與靶標(biāo)之間界面面積分布圖Fig.1 Parameters of cyclic peptide ligands with the cyclic peptide-target complex data set (see Table 1) in PDB Distribution of torsion angles of the main chain of cyclic peptide ligands containing natural (a) and non-natural (b) amino acid residues (ψ/φ), in which blue cloud highlights the distribution of the torsion angle ψ/φ of amino acid residues in natural proteins; Length distribution of the loop sequences of all cyclic peptide ligands in the data set (c); Distribution of the interface area between all cyclic peptide ligands and targets (d)
此外,有些環(huán)肽結(jié)構(gòu)中存在一些較為剛性的局部結(jié)構(gòu)以穩(wěn)定分子骨架,從而減少與靶標(biāo)蛋白結(jié)合過程中的熵?fù)p失,增強(qiáng)環(huán)肽配體與靶標(biāo)蛋白的結(jié)合[26-27,30,53-54],如圖2中的β發(fā)卡末端環(huán)化形成的環(huán)肽配體結(jié)構(gòu)[(a)以側(cè)鏈二硫鍵合環(huán),(b)以首尾酰胺鍵合環(huán)],β片層之間的氫鍵和β轉(zhuǎn)角處形成的1,3、1,4氫鍵相互作用,穩(wěn)定了環(huán)肽的構(gòu)象,增強(qiáng)了骨架的剛性。脯氨酸也可以限制環(huán)肽主鏈的運(yùn)動(dòng),因此在剛性環(huán)肽骨架的從頭設(shè)計(jì)工作中引入脯氨酸也是穩(wěn)定目標(biāo)骨架結(jié)構(gòu)的重要策略[55-56]。
圖2 PDB編號(hào)為5DJC(a)、4K1E(b)和5NES(c)的復(fù)合物結(jié)構(gòu)環(huán)肽配體結(jié)構(gòu)示意圖Fig.2 Cyclic peptide ligand structures for the complexes in PDB 5DJC (a), 4K1E (b) and 5NES (c)
分子動(dòng)力學(xué)模擬(MD simulation)是研究蛋白質(zhì)和多肽結(jié)構(gòu)動(dòng)態(tài)變化的重要手段?;诜肿觿?dòng)力學(xué)模擬的環(huán)肽藥物分子的構(gòu)象研究推動(dòng)了研究者們對(duì)環(huán)肽構(gòu)象的深入理解與經(jīng)驗(yàn)積累,為實(shí)現(xiàn)大規(guī)模環(huán)肽分子從頭設(shè)計(jì)提供了理論依據(jù)[57]。由于蛋白質(zhì)中的環(huán)結(jié)構(gòu)(loop)與環(huán)肽結(jié)構(gòu)較為相似,通用的分子動(dòng)力學(xué)模擬力場參數(shù)根據(jù)蛋白質(zhì)loop結(jié)構(gòu)進(jìn)行重新擬合調(diào)整后可以更好地用于環(huán)肽分子的結(jié)構(gòu)優(yōu)化與構(gòu)象采樣[58-63]。Geng等[64]就曾以晶體結(jié)構(gòu)為基準(zhǔn),比較了四種多肽力場Amber99 sb-ildn[65]、OPLS-AA/L、RSFF1[66]和RSFF2[67]預(yù)測全反式(酰胺鍵)環(huán)肽結(jié)構(gòu)的能力。其中基于蛋白質(zhì)環(huán)形結(jié)構(gòu)(loop)庫進(jìn)行參數(shù)化的RSFF1和RSFF2力場得到的預(yù)測結(jié)果與晶體結(jié)構(gòu)匹配最佳[68]。同其他柔性體系一樣,增強(qiáng)采樣的方法可以加速環(huán)肽構(gòu)象采樣的過程,提升采樣的效率。其中最為廣泛使用的是副本交換分子動(dòng)力學(xué)(REMD)[69-71]和元?jiǎng)恿W(xué)(META)[72-73]。
環(huán)肽分子結(jié)構(gòu)建模的目標(biāo)是生成環(huán)肽的低能量的合理構(gòu)象,對(duì)于較剛性的環(huán)肽,如環(huán)化的β發(fā)夾,就是預(yù)測出準(zhǔn)確的折疊結(jié)構(gòu)。從結(jié)構(gòu)數(shù)據(jù)庫中收集環(huán)肽結(jié)構(gòu)建立數(shù)據(jù)集來檢驗(yàn)由環(huán)肽結(jié)構(gòu)建模算法的表現(xiàn)。計(jì)算生成的環(huán)肽構(gòu)象是環(huán)肽與靶標(biāo)蛋白對(duì)接篩選的前提。經(jīng)檢驗(yàn),環(huán)肽分子的結(jié)構(gòu)采樣方法以及打分評(píng)價(jià)方法,可直接用于大規(guī)模的基于靶標(biāo)結(jié)構(gòu)的環(huán)肽分子的改造、生成、評(píng)價(jià)[74]。
黃勝友實(shí)驗(yàn)室[50]開發(fā)的MODPEP2.0(http://huanglab.phys.hust.edu.cn/software/modpep2)可以快速地產(chǎn)生二硫鍵環(huán)化的環(huán)肽構(gòu)象。他們從PDB數(shù)據(jù)庫中收集了3~30個(gè)氨基酸長度的二硫鍵環(huán)肽結(jié)構(gòu),通過聚類選擇后得到的不同長度的二硫鍵環(huán)肽結(jié)構(gòu)集合作為目標(biāo)環(huán)肽構(gòu)象生成的模板庫。MODPEP2.0選取與目標(biāo)肽序列相似性高的,并且結(jié)構(gòu)分辨率高的結(jié)構(gòu)做模板,選取概率如下:
式中,si是基于目標(biāo)序列和第i個(gè)結(jié)構(gòu)的序列相似性;ri是第i個(gè)結(jié)構(gòu)的分辨率,除以相應(yīng)的最大值(smax,rmax)是為了對(duì)不同的打分項(xiàng)進(jìn)行歸一化;w為兩項(xiàng)的權(quán)重系數(shù)。之后在選定的模板主鏈上應(yīng)用側(cè)鏈構(gòu)象轉(zhuǎn)子庫逐個(gè)殘基安裝側(cè)鏈,得到目標(biāo)二硫鍵環(huán)肽的構(gòu)象,并通過選取不同的模板生成多樣的構(gòu)象[50]。對(duì)于環(huán)以外序列的結(jié)構(gòu),算法用MODPEP的早期版本通過片段組裝方法完成[75]。該團(tuán)隊(duì)構(gòu)建了測試方法對(duì)MODPEP2.0生成構(gòu)象的準(zhǔn)確性進(jìn)行評(píng)價(jià),當(dāng)生成10種或100種構(gòu)象時(shí),與測試數(shù)據(jù)集中結(jié)構(gòu)最接近的Cα RMSD平均值分別為2.20 ?、1.66 ?[50,75]。
張陽實(shí)驗(yàn)室[76]發(fā)展的I-TASSER是基于結(jié)構(gòu)采樣和優(yōu)化作蛋白質(zhì)結(jié)構(gòu)預(yù)測的代表性方法之一,加入環(huán)化所需的共價(jià)距離約束就可用于環(huán)肽結(jié)構(gòu)預(yù)測[76],提供在線計(jì)算服務(wù)(http://zhang.bioinformatics.ku.edu/I-TASSER)。該算法通過多種序列比對(duì)方法識(shí)別與連續(xù)片段相似的PDB模板結(jié)構(gòu),將模板的主鏈作為這個(gè)片段的主鏈結(jié)構(gòu),并通過基于模板片段副本交換的蒙特卡洛采樣方法探索整個(gè)蛋白質(zhì)或多肽的結(jié)構(gòu)空間,獲得能量較低的結(jié)構(gòu)模型。環(huán)肽中的環(huán)化共價(jià)鍵可作為幾何約束加入能量函數(shù)。在Peplook的環(huán)肽結(jié)構(gòu)測試集中,I-TASSER表現(xiàn)優(yōu)異[49,76]。
PEPstrMOD算法(https://webs.iiitd.edu.in/raghava/pepstrmod/)從序列預(yù)測所得二級(jí)結(jié)構(gòu)(α螺旋、β片、轉(zhuǎn)角、無規(guī)等)類型構(gòu)建多肽的初始主鏈構(gòu)象,使用Amber力場對(duì)結(jié)構(gòu)進(jìn)行能量最小化和動(dòng)力學(xué)模擬優(yōu)化[77]。對(duì)于環(huán)肽,在分子拓?fù)浣Y(jié)構(gòu)中加入相關(guān)共價(jià)鍵連。PEPstrMOD將末端修飾、D-氨基酸、非天然氨基酸、翻譯后修飾等殘基類型的力場參入加入Amber力場,使之可以預(yù)測含有非天然氨基酸殘基的多肽結(jié)構(gòu)[77-79]。PEPstrMOD算法在來自于PDB數(shù)據(jù)庫的ModPep、ModPep16、CyclicPep三個(gè)數(shù)據(jù)集上進(jìn)行了檢驗(yàn),預(yù)測得到的主鏈原子的均方根偏差為3.81~4.05 ?之間。
PEP-FOLD算法(https://mobyle.rpbs.univ-parisdiderot.fr/cgi-bin/portal.py#forms::PEP-FOLD3)也是先從序列預(yù)測各殘基處的主鏈構(gòu)象,然后利用力場做優(yōu)化。不同的是PEP-FOLD將主鏈二級(jí)結(jié)構(gòu)擴(kuò)展為27種類型,基于預(yù)測的所有位置的這27種類型的概率分布,使用貪婪算法構(gòu)建粗粒化的三維模型,使用蒙特卡洛方法作粗?;鰞?yōu)化后再構(gòu)建全原子模型。同樣地,在分子拓?fù)浣Y(jié)構(gòu)中加入相關(guān)共價(jià)鍵連用于環(huán)肽的結(jié)構(gòu)預(yù)測[80-81]。PEPFOLD的最新版本改進(jìn)了粗?;龅姆兜氯A項(xiàng)和用于主鏈結(jié)構(gòu)預(yù)測的片段庫,提高了多肽結(jié)構(gòu)的預(yù)測性能[80-83]。
環(huán)肽局部連續(xù)片段的構(gòu)象運(yùn)動(dòng)是兩端都受約束的運(yùn)動(dòng),與力學(xué)中的運(yùn)動(dòng)學(xué)閉環(huán)(kinematic closure,KIC)類似,例如對(duì)于機(jī)器人,在給定肩部和指尖固定位置的情況下,確定機(jī)器人手臂內(nèi)部關(guān)節(jié)的可能位置與扭轉(zhuǎn)角度范圍。Rosetta(https://www.rosettacommons.org/software)中的genKIC是運(yùn)動(dòng)學(xué)閉環(huán)算法在蛋白質(zhì)環(huán)區(qū)結(jié)構(gòu)預(yù)測、蛋白質(zhì)主鏈結(jié)構(gòu)擾動(dòng)中的成功應(yīng)用。genKIC算法選擇一肽段上第一個(gè)、中間某一個(gè)和最后一個(gè)殘基的Cα原子固定為轉(zhuǎn)動(dòng)中心,然后對(duì)非轉(zhuǎn)動(dòng)中心的殘基用Ramachandran概率對(duì)ψ/φ隨機(jī)采樣并對(duì)N-Cα-C鍵角采樣,得到的肽鏈在固定殘基處斷開,之后運(yùn)動(dòng)學(xué)閉環(huán)算法找到使肽鏈重新閉合的3個(gè)轉(zhuǎn)動(dòng)中心殘基的ψ/φ值,從而獲得肽段的新構(gòu)象[84]。使用Rosetta勢能函數(shù)和蒙特卡洛采樣實(shí)現(xiàn)對(duì)構(gòu)象空間的探索,獲得蛋白質(zhì)環(huán)區(qū)或環(huán)肽的低能構(gòu)象[85-86]。
Peplook(http://www.biosiris.com/en/Online_order/PepLook/PepLook_order.html)是一種對(duì)蛋白質(zhì)或多肽的主鏈二面角進(jìn)行玻爾茲曼隨機(jī)采樣來預(yù)測結(jié)構(gòu)的算法[49,87]。Peplook從64對(duì)ψ/φ角度中對(duì)每一個(gè)氨基酸隨機(jī)取值[88-90],根據(jù)這些主鏈二面角值構(gòu)建結(jié)構(gòu),并計(jì)算體系能量,在環(huán)肽結(jié)構(gòu)預(yù)測中體系能量加入首尾二硫鍵或酰胺鍵原子的距離相關(guān)項(xiàng)。每一輪生成1萬個(gè)結(jié)構(gòu),前一輪得到的體系能量和主鏈二面角取值的關(guān)系決定下一輪中各ψ/φ角度對(duì)被取到的概率,采樣100~500輪得到低能量構(gòu)象[49]。在38個(gè)環(huán)肽測試集上,Peplook建模最佳結(jié)構(gòu)的主鏈原子的均方根偏差的平均值為3.8 ?[49,91]。
構(gòu)象生成器ETKDG是小分子化合物構(gòu)象生成最常用的方法之一。ETKDG通過分子的拓?fù)浣Y(jié)構(gòu)和晶體結(jié)構(gòu)中的二面角數(shù)據(jù),生成分子的距離邊界矩陣,根據(jù)該矩陣限定的原子間距離的范圍隨機(jī)產(chǎn)生一個(gè)距離矩陣,然后由距離矩陣產(chǎn)生三維結(jié)構(gòu),之后優(yōu)化構(gòu)象[92]。最近該方法改進(jìn)了對(duì)大環(huán)化合物分子和環(huán)肽的生成。mETKDG使用橢圓幾何約束來限制環(huán)肽整體環(huán)系骨架,并且加入可調(diào)整的庫侖相互作用作為酰胺原子之間的獎(jiǎng)勵(lì)式方法來模擬跨環(huán)分子內(nèi)氫鍵[52]。mETKDG的環(huán)肽建模性能在由PDB、CSD 篩選的環(huán)肽分子測試集上得到了驗(yàn)證,mETKDG的重構(gòu)主鏈原子的均方根偏差的平均值為1.23 ?。目前mETKDG已經(jīng)被寫入常用的RDkit(http://www.rdkit.org/)Python工具包中[52,92]。
基于靶標(biāo)結(jié)構(gòu)可以改造設(shè)計(jì)或全新設(shè)計(jì)與之結(jié)合的環(huán)肽分子,在具有備選的環(huán)肽庫的情況下,通過基于分子對(duì)接的虛擬篩選,可以縮小實(shí)驗(yàn)測試的分子范圍,從而更高效地發(fā)現(xiàn)新的結(jié)合靶標(biāo)的環(huán)肽分子。分子動(dòng)力學(xué)模擬是詳細(xì)研究和改進(jìn)已知環(huán)肽分子的重要方法。近年來,以Rosetta為代表的從頭生成算法大大拓展了設(shè)計(jì)環(huán)肽分子的化學(xué)空間,為針對(duì)特定靶標(biāo)結(jié)構(gòu)設(shè)計(jì)全新的環(huán)肽藥物分子提供了解決方案。對(duì)于細(xì)胞內(nèi)的靶標(biāo)蛋白,需要在設(shè)計(jì)中考慮跨膜活性。因此本節(jié)將介紹這4個(gè)方面的計(jì)算設(shè)計(jì)方法(圖3),表3總結(jié)了這些算法的主要思路和適用目的。
圖3 基于靶標(biāo)結(jié)構(gòu)的環(huán)肽設(shè)計(jì)算法(a)基于分子對(duì)接的虛擬篩選算法;(b)基于分子動(dòng)力學(xué)模擬的理性設(shè)計(jì)算法;(c)從頭設(shè)計(jì)算法;(d)跨膜環(huán)肽分子的設(shè)計(jì)算法Fig.3 Overview of computational methods for target structure based cyclic peptide design(a) Virtual screening algorithms based on molecular docking; (b) Rational design algorithms based on molecular dynamics simulation;(c) De novo design algorithms;(d) Design algorithms for transmembrane cyclic peptides
表3 基于靶標(biāo)結(jié)構(gòu)的環(huán)肽分子計(jì)算設(shè)計(jì)算法Table 3 Structure based computational design algorithms of cyclic peptides
基于大規(guī)模環(huán)肽數(shù)據(jù)庫的虛擬篩選是最早出現(xiàn)的計(jì)算設(shè)計(jì)方法,環(huán)肽結(jié)構(gòu)庫和對(duì)接及打分算法是這一方法的核心內(nèi)容。
Duffy等[95]于2011年便嘗試過生成用于虛擬篩選的環(huán)肽數(shù)據(jù)庫,開發(fā)了CycloPs,該程序可以根據(jù)規(guī)則與用戶預(yù)定義的約束,大量生成一維SMILES,通過RDkit建模為三維環(huán)肽分子結(jié)構(gòu),結(jié)合后續(xù)的虛擬篩選構(gòu)成了完整的環(huán)肽藥物的設(shè)計(jì)流程。但是環(huán)肽藥物發(fā)現(xiàn)的虛擬篩選方法往往局限于數(shù)據(jù)庫的規(guī)模與復(fù)合物對(duì)接建模的準(zhǔn)確度。
Sanner實(shí)驗(yàn)室[96-97]開發(fā)的AutoDock CrankPep(或簡稱ADCP)是由小分子-蛋白對(duì)接軟件AutoDock改進(jìn)而來的多肽(環(huán)肽)對(duì)接軟件(https://ccsb.scripps.edu/adcp),可以對(duì)接長度在20個(gè)氨基酸殘基以內(nèi)的線性多肽與環(huán)肽結(jié)構(gòu)。他們應(yīng)用了基于多肽骨架的曲軸運(yùn)動(dòng)微擾方式,支持對(duì)具有環(huán)肽主鏈的構(gòu)象進(jìn)行高效采樣,并在AutoDock基本的Monte Carlo采樣過程中引入了主鏈環(huán)化勢能項(xiàng),使得程序能夠從線性多肽序列出發(fā)的擴(kuò)展線性肽開始對(duì)接計(jì)算,從而在沒有初始環(huán)狀構(gòu)象可用的情況下實(shí)現(xiàn)對(duì)接與環(huán)化同時(shí)進(jìn)行,最終得到環(huán)肽-蛋白復(fù)合物結(jié)構(gòu)。最后,距離依賴性勢能確保多肽環(huán)化。這種勢能不同于之前的基于環(huán)化勢能的方法,ADCP中線性多肽能夠在模擬過程中環(huán)化、斷裂和重組[96-97],中間狀態(tài)的存在允許算法在對(duì)接過程中探索主鏈的各種構(gòu)象組合并確定最佳二硫鍵或首尾環(huán)化位點(diǎn)。ADCP測試的平均fnc(對(duì)接得到的復(fù)合物構(gòu)象對(duì)于天然復(fù)合物構(gòu)象中的原位配體-受體相互作用對(duì)的召回率,在蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測比賽CAPRI中,fnc高于0.3對(duì)應(yīng)中等對(duì)接精度,fnc超過0.5則認(rèn)為對(duì)接精度較高)超過0.5[98]。ADCP是環(huán)肽-受體復(fù)合物相互作用建模和結(jié)構(gòu)預(yù)測的有效工具,可用于開發(fā)設(shè)計(jì)環(huán)肽藥物,并在相當(dāng)一段時(shí)間內(nèi)被認(rèn)為是該領(lǐng)域最先進(jìn)的SOTA(state of the arts)算法[93]。
與ADCP類似,HADDOCK算法的最新2.4版本(https://wenmr.science.uu.nl/haddock2.4)在對(duì)接過程中也應(yīng)用了末端二硫鍵幾何約束或者首尾氨基酸距離約束,使多肽結(jié)構(gòu)在對(duì)接過程中逐步環(huán)化[94]。在對(duì)接流程中,用于對(duì)接的環(huán)肽是用PyMOL的內(nèi)置功能從多肽序列生成起始構(gòu)象[99],HADDOCK會(huì)利用環(huán)化約束指導(dǎo)線性多肽結(jié)構(gòu)逐步收緊多肽首尾或二硫鍵之間的距離(通過HADDOCK)使線性肽強(qiáng)制環(huán)化。環(huán)化之后,HADDOCK會(huì)將生成的環(huán)肽結(jié)構(gòu)分別與各自的受體結(jié)構(gòu)進(jìn)行對(duì)接,并實(shí)施9種對(duì)接方案以獲得高質(zhì)量的配體結(jié)構(gòu)[94]。HADDOCK在環(huán)肽-蛋白質(zhì)復(fù)合物建模方面的表現(xiàn)與ADCP基本相當(dāng)[96][在完全未結(jié)合狀態(tài)從頭對(duì)接的情況下與ADCP的表現(xiàn)相當(dāng),在重建模(redock)性能評(píng)估時(shí)略優(yōu)于ADCP(HADDOCK中的默認(rèn)模式)]。由于HADDOCK還可以結(jié)合各種實(shí)驗(yàn)數(shù)據(jù)(例如關(guān)于肽構(gòu)象的核磁共振譜圖信息)來指導(dǎo)對(duì)接,因此基于已知結(jié)構(gòu)的測試性能可被認(rèn)為是下限,通過額外的實(shí)驗(yàn)數(shù)據(jù)輸入可以進(jìn)一步增強(qiáng)算法性能[94]。環(huán)肽配體的對(duì)接建模為環(huán)肽藥物分子的虛擬篩選與理性設(shè)計(jì)提供了高效可靠的工具。
較為傳統(tǒng)的藥物分子改性與理性設(shè)計(jì)方法仍然適用于設(shè)計(jì)環(huán)肽配體,這類方法向環(huán)肽復(fù)合物體系的遷移應(yīng)用往往依賴于高效的環(huán)肽配體分子構(gòu)象采樣算法。
Razavi等[79]使用計(jì)算篩選和REMD模擬相結(jié)合的算法,通過模擬LapD中的β-發(fā)夾(hairpin)結(jié)構(gòu),成功設(shè)計(jì)了環(huán)肽配體。LapD是一種細(xì)菌蛋白,其與LapG的相互作用對(duì)生物膜的形成至關(guān)重要[78-79,100-101]。該團(tuán)隊(duì)首先使用隱式溶劑模型的REMD 模擬用于快速篩選潛在的環(huán)肽模擬物[69],隨后應(yīng)用顯式溶劑模型進(jìn)一步進(jìn)行模擬采樣結(jié)合虛擬篩選方法得到4種最有利的設(shè)計(jì)產(chǎn)物,最終成功設(shè)計(jì)出了類似LapD β-發(fā)夾結(jié)構(gòu)的一系列環(huán)肽配體[73]。若已知體系的決速自由度,則可以應(yīng)用BE-META模擬方法以實(shí)現(xiàn)高效構(gòu)象采樣。例如,在基于isoDGR的αvβ3環(huán)肽拮抗劑的設(shè)計(jì)中便使用了BE-META結(jié)合多構(gòu)象對(duì)接的方法[102],從而在其構(gòu)象系綜中發(fā)現(xiàn)最有利于結(jié)合的配體構(gòu)象,并根據(jù)這些優(yōu)勢構(gòu)象進(jìn)一步修改isoDGR分子結(jié)構(gòu),衍生物的平衡系綜更傾向于與受體產(chǎn)生強(qiáng)結(jié)合的狀態(tài)[69]。
從頭設(shè)計(jì)方法可以得到與已知肽段結(jié)構(gòu)完全不同的全新結(jié)構(gòu)環(huán)肽,需要同時(shí)考慮生成環(huán)肽結(jié)構(gòu)的穩(wěn)定性以及跟靶標(biāo)蛋白的親和力,在環(huán)肽結(jié)構(gòu)采樣的同時(shí)優(yōu)化與靶標(biāo)蛋白的計(jì)算結(jié)合能。
在不考慮靶標(biāo)的自由環(huán)肽結(jié)構(gòu)生成方面,Hosseinzadeh等[55]利用基于Rosetta軟件的genKIC算法生成L/D氨基酸混合的7~14個(gè)殘基的環(huán)肽的主鏈骨架結(jié)構(gòu)。用全甘氨酸的序列和甘氨酸、脯氨酸非手性的Ramachandran概率對(duì)ψ/φ隨機(jī)采樣,生成閉環(huán)的主鏈骨架,最終得到200多個(gè)預(yù)測可折疊成單個(gè)穩(wěn)定結(jié)構(gòu)的環(huán)肽,其中12個(gè)結(jié)構(gòu)得到實(shí)驗(yàn)驗(yàn)證。此工作的算法流程支持加入D-氨基酸來拓寬構(gòu)象空間并且能夠形成雙環(huán)(同時(shí)存在首尾酰胺鍵連接與二硫鍵連接)拓?fù)浣Y(jié)構(gòu)以增強(qiáng)大環(huán)剛性,這些結(jié)構(gòu)幾乎完全覆蓋了已知環(huán)肽化合物可能的構(gòu)象空間,并探索到了大量非天然的局部二級(jí)結(jié)構(gòu),大大拓寬了理性環(huán)肽藥物設(shè)計(jì)和虛擬篩選方法的可用起始結(jié)構(gòu)空間[55]。之后,Hosseinzadeh等[34]在2021年提出了錨擴(kuò)展(anchor extension)方法,將genKIC環(huán)肽結(jié)構(gòu)設(shè)計(jì)方法用于直接在靶標(biāo)蛋白表面設(shè)計(jì)環(huán)肽配體,是一次里程碑式的嘗試。這種方法需要目標(biāo)受體表面的三維結(jié)構(gòu),并利用已知有較強(qiáng)結(jié)合配體分子的對(duì)結(jié)合能貢獻(xiàn)較大的基團(tuán)作為錨,置于原位(同時(shí)刪除配體的其余部分結(jié)構(gòu)),錨即為環(huán)肽結(jié)構(gòu)向外延伸的起始位點(diǎn)。錨擴(kuò)展方法使用Rosetta軟件中的廣義運(yùn)動(dòng)學(xué)閉環(huán)方法(genKIC)在錨點(diǎn)周圍構(gòu)建環(huán)肽骨架,生成的合理大環(huán)骨架從錨點(diǎn)出發(fā)向外延伸進(jìn)行主鏈優(yōu)化采樣與序列設(shè)計(jì),逐步增強(qiáng)其與受體之間的相互作用[84-86]。作者選定的測試體系是HDAC2和HDAC6分別與一種藍(lán)藻毒素Largazole結(jié)合的復(fù)合物結(jié)構(gòu),保留其中的2-硫-2-氨基-7-磺?;幔⊿HA)的部分作為錨,來從頭設(shè)計(jì)環(huán)肽配體[103-104],最終得到了多個(gè)IC50為納摩爾量級(jí)的產(chǎn)物(HDAC2與SHA的IC50和與環(huán)肽配體最優(yōu)IC50分別為5.4 μmol/L、9.1 nmol/L,HDAC6則為0.6 μmol/L、5.4 nmol/L)。
錨擴(kuò)展方法需要結(jié)合較強(qiáng)的“錨”殘基結(jié)構(gòu)作為起始。Delaunay等[105]提出的Des3PI算法(https://github.com/des3pi/Public_Des3PI)能夠生成這些“錨”殘基,該團(tuán)隊(duì)利用20種氨基酸殘基與靶標(biāo)蛋白表面進(jìn)行對(duì)接篩選,得到結(jié)合較強(qiáng)的位點(diǎn),然后將對(duì)接在表面的氨基酸殘基間通過甘氨酸簡單連接成環(huán)得到環(huán)肽配體分子[105]。這種方法普適性較強(qiáng),但是由于主鏈結(jié)構(gòu)柔性較大,生成的環(huán)肽配體剛性與結(jié)合穩(wěn)定性弱于錨擴(kuò)展工作中精細(xì)設(shè)計(jì)的環(huán)肽配體結(jié)構(gòu)。
藥物分子的跨膜活性決定了其是否可以作用于細(xì)胞內(nèi)的靶標(biāo)[39]。多數(shù)多肽藥物的靶標(biāo)為細(xì)胞膜上的受體,近年來在可以進(jìn)入細(xì)胞內(nèi)的多肽設(shè)計(jì)領(lǐng)域取得了重要進(jìn)展。實(shí)驗(yàn)研究表明主鏈酰胺鍵的N-甲基化修飾以及降低側(cè)鏈的極性均可提高環(huán)肽的跨膜活性[39]。Sindhikara等[106]通過動(dòng)力學(xué)模擬的方法發(fā)現(xiàn),環(huán)肽分子的主鏈往往在磷脂雙分子層內(nèi)會(huì)將極性的羰基氧和氮上的氫原子通過環(huán)肽分子的構(gòu)象變化(酰胺鍵順反異構(gòu)轉(zhuǎn)變)收容到環(huán)內(nèi),這大大降低了分子的極性,使之與磷脂細(xì)胞膜融合,穿過細(xì)胞膜后又可以被極性較大的細(xì)胞內(nèi)環(huán)境誘導(dǎo),使環(huán)肽分子采取相對(duì)較為極性的構(gòu)象,易于與極性的蛋白靶標(biāo)結(jié)合,形成較為穩(wěn)定的復(fù)合物[18,107-108]。因此此類環(huán)肽分子具有隨環(huán)境極性不同轉(zhuǎn)變構(gòu)象的特性,這些特性決定了此類環(huán)肽具有作為可跨膜藥物分子的潛力[109-110]。Baker實(shí)驗(yàn)室[56]綜合了這些特性進(jìn)行了具有優(yōu)良膜滲透性的環(huán)肽設(shè)計(jì)并且取得了成功。該團(tuán)隊(duì)改進(jìn)了genKIC算法,在采樣的過程中,允許整個(gè)化學(xué)基團(tuán)(如氮甲基)被放置,這就可以在環(huán)肽結(jié)構(gòu)中引入非天然氨基酸修飾,并且Rosetta的殘基類型被重新整理為殘基和補(bǔ)丁,這些補(bǔ)丁可以通過Rosetta的能量函數(shù)來對(duì)已有的化學(xué)實(shí)體做化學(xué)修飾[111]。研究者們利用優(yōu)化調(diào)整后的Rosetta軟件設(shè)計(jì)了一系列長度為6~12的環(huán)肽結(jié)構(gòu),這些結(jié)構(gòu)均為化學(xué)修飾或支持構(gòu)象轉(zhuǎn)變的剛性環(huán)肽結(jié)構(gòu),隨后進(jìn)行了實(shí)驗(yàn)合成與結(jié)構(gòu)解析,實(shí)驗(yàn)測出的結(jié)構(gòu)與設(shè)計(jì)結(jié)構(gòu)疊合較好(BB-RMSD<1.5 ?),最后測試了新結(jié)構(gòu)的膜通透性和口服生物利用效率,得到了較好的效果[56]。此工作在環(huán)肽藥物設(shè)計(jì)做了進(jìn)一步的探索,從化學(xué)修飾角度著手,大量設(shè)計(jì)結(jié)構(gòu)穩(wěn)定且具有跨膜活性潛在環(huán)肽藥物分子,為環(huán)肽藥物分子的虛擬篩選工作進(jìn)一步提供了可靠基礎(chǔ)。
目前環(huán)肽作為調(diào)控蛋白質(zhì)-蛋白質(zhì)相互作用的重要研究對(duì)象,已經(jīng)獲得了越來越多的關(guān)注,有關(guān)環(huán)肽分子的結(jié)構(gòu)、動(dòng)態(tài)構(gòu)象、與靶標(biāo)蛋白質(zhì)相互作用的實(shí)驗(yàn)數(shù)據(jù)也逐漸增多?;谶@些實(shí)驗(yàn)數(shù)據(jù),研究者通過分子動(dòng)力學(xué)模擬、分子構(gòu)象采樣等方法研究了環(huán)肽的構(gòu)象空間,開發(fā)了基于比較模建、基于主鏈扭轉(zhuǎn)角采樣、基于主鏈二級(jí)結(jié)構(gòu)預(yù)測和分子力場優(yōu)化和基于距離幾何的環(huán)肽分子構(gòu)象生成或結(jié)構(gòu)預(yù)測算法。蛋白質(zhì)中環(huán)區(qū)(loop)與環(huán)肽的結(jié)構(gòu)和動(dòng)態(tài)性質(zhì)相似,這些結(jié)構(gòu)數(shù)據(jù)也是進(jìn)行環(huán)肽構(gòu)象研究和結(jié)構(gòu)建模方法測試的重要數(shù)據(jù)來源。以這些研究為基礎(chǔ),人們已經(jīng)開始探索基于分子對(duì)接的虛擬篩選方法、借助于分子動(dòng)力學(xué)模擬的方法和基于結(jié)構(gòu)采樣的從頭生成方法來針對(duì)目標(biāo)的靶標(biāo)結(jié)構(gòu)進(jìn)行環(huán)肽分子的計(jì)算設(shè)計(jì),近些年對(duì)環(huán)肽類化合物的生物膜透過性的研究也取得了進(jìn)展。表4總結(jié)了這些環(huán)肽分子結(jié)構(gòu)建模和基于靶標(biāo)結(jié)構(gòu)進(jìn)行設(shè)計(jì)的方法?;诎袠?biāo)結(jié)構(gòu)進(jìn)行環(huán)肽設(shè)計(jì)的關(guān)鍵是能夠同時(shí)準(zhǔn)確高效地評(píng)估環(huán)肽分子結(jié)構(gòu)構(gòu)象的穩(wěn)定性、環(huán)肽配體與蛋白質(zhì)靶標(biāo)結(jié)合強(qiáng)度。更加高效準(zhǔn)確的環(huán)肽序列和構(gòu)象采樣算法、環(huán)肽與靶標(biāo)蛋白質(zhì)結(jié)合能的評(píng)估方法準(zhǔn)確,將提高環(huán)肽分子計(jì)算設(shè)計(jì)的效率和成功率,從而推動(dòng)環(huán)肽藥物與功能化環(huán)肽分子的開發(fā)。另外,對(duì)已有的環(huán)肽藥物的性質(zhì)和功能機(jī)制進(jìn)行研究和學(xué)習(xí),以及將計(jì)算設(shè)計(jì)方法和噬菌體展示、酵母展示等高通量實(shí)驗(yàn)篩選技術(shù)相結(jié)合,是促進(jìn)環(huán)肽藥物開發(fā)的途徑[112]。
表4 本文所涉及的算法總體簡介Table 4 A brief introduction of algorithms included
近年來以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)快速發(fā)展,在圖像識(shí)別、語音識(shí)別以及自然語言處理等領(lǐng)域取得突破。在蛋白質(zhì)結(jié)構(gòu)研究領(lǐng)域,以AlphaFold2為代表的基于深度學(xué)習(xí)技術(shù)的端對(duì)端方法展現(xiàn)出令人驚嘆的由蛋白質(zhì)序列預(yù)測折疊結(jié)構(gòu)的效率和精度,顯著超越了基于經(jīng)驗(yàn)勢能打分和采樣的方法。結(jié)構(gòu)設(shè)計(jì)是結(jié)構(gòu)預(yù)測的反問題,機(jī)器學(xué)習(xí)技術(shù)正在推動(dòng)蛋白質(zhì)或多肽設(shè)計(jì)從基于物理勢能函數(shù)的階段到數(shù)據(jù)驅(qū)動(dòng)的新階段。例如目前基于深度擴(kuò)散模型的RFdiffusion[113]、Chroma[114]等工作,已經(jīng)實(shí)現(xiàn)了多種場景下的蛋白質(zhì)(多肽)結(jié)構(gòu)從頭生成,基于靶標(biāo)結(jié)構(gòu)的小分子配體也可以通過深度學(xué)習(xí)模型從頭生成,比如LiGANN[115]、DeepLigBuilder[116]等。這些生成模型的成功依賴于大量的已知三維蛋白質(zhì)與復(fù)合物結(jié)構(gòu)數(shù)據(jù),基于機(jī)器學(xué)習(xí)的環(huán)肽結(jié)構(gòu)生成算法或許可以借鑒蛋白質(zhì)或多肽設(shè)計(jì)的相關(guān)算法,并通過引入蛋白質(zhì)環(huán)區(qū)結(jié)構(gòu)的數(shù)據(jù)以彌補(bǔ)環(huán)肽結(jié)構(gòu)數(shù)據(jù)少的不足。另外,環(huán)肽設(shè)計(jì)領(lǐng)域未來的挑戰(zhàn)是更加多樣化的功能環(huán)肽的從頭設(shè)計(jì),首先需要進(jìn)一步拓寬環(huán)肽的可設(shè)計(jì)化學(xué)空間[117-121],比如引入非天然氨基酸、N-甲基化修飾與更豐富的環(huán)化方式等等[122-124]。在設(shè)計(jì)更多可用環(huán)肽骨架的同時(shí)能夠引入非天然的化學(xué)修飾改性,并對(duì)修飾后的分子進(jìn)行有效模擬采樣與結(jié)構(gòu)優(yōu)化,實(shí)現(xiàn)對(duì)環(huán)肽分子多樣化設(shè)計(jì)與功能調(diào)控。此外,自然界中的環(huán)肽分子不只是單環(huán)結(jié)構(gòu),通過提取天然產(chǎn)物或基于較為傳統(tǒng)的環(huán)肽合成方法即可產(chǎn)生雙環(huán)肽、三環(huán)肽等較為復(fù)雜的主鏈環(huán)系拓?fù)浣Y(jié)構(gòu),這些額外的環(huán)狀結(jié)構(gòu)可以進(jìn)一步提供空間約束以增強(qiáng)分子剛性,但同時(shí)也大大增加了構(gòu)象空間復(fù)雜性[125-126]。然而目前對(duì)于環(huán)肽體系的計(jì)算研究大多停留于單環(huán)結(jié)構(gòu)。這些需求與挑戰(zhàn)為環(huán)肽設(shè)計(jì)領(lǐng)域未來的研究提供了契機(jī)。