国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“可折疊性”在酶智能設(shè)計(jì)改造中的應(yīng)用研究
——以AlphaFold2為例

2023-07-10 02:39:58孟巧珍郭菲
合成生物學(xué) 2023年3期
關(guān)鍵詞:殘基蛋白質(zhì)預(yù)測

孟巧珍,郭菲

(1 天津大學(xué)智能與計(jì)算學(xué)部 計(jì)算機(jī)學(xué)院,天津 300350; 2 中南大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410000)

酶一般是功能性的蛋白質(zhì),在各種生物反應(yīng)中作為生物催化劑參與,是生物細(xì)胞發(fā)揮功能不可或缺的部分。經(jīng)過漫長的歲月進(jìn)化,天然酶為了適應(yīng)自然環(huán)境而擁有了特定的功能[1-2],一般適宜在溫和環(huán)境下且具有特定作用。由于具備高效特定作用,且無污染的特性,酶非常受工業(yè)生產(chǎn)研究人員的青睞。例如用于釀酒的酵母菌、用于降解塑料的酶等等,都是酶分子應(yīng)用在工業(yè)領(lǐng)域中的經(jīng)典例子。但實(shí)際工業(yè)生產(chǎn)過程中,發(fā)現(xiàn)在工業(yè)環(huán)境中直接應(yīng)用天然酶并沒有達(dá)到滿意的效果。錯誤的折疊、出現(xiàn)副產(chǎn)物、功能不適宜等缺陷對酶在工業(yè)行業(yè)的應(yīng)用發(fā)出了挑戰(zhàn)[3]。

要想解決這一問題,必須對酶進(jìn)行改造或者設(shè)計(jì)新酶來滿足特定的工業(yè)環(huán)境或者功能需求。那么,認(rèn)識酶的結(jié)構(gòu)與功能的關(guān)系是非常重要的[4]。傳統(tǒng)的酶改造過程涉及到修改酶的基因,使其在細(xì)胞中被成功表達(dá)純化[5]。然后對得到的突變體進(jìn)行試驗(yàn)驗(yàn)證是否能提高性能。這期間的時間、人力成本是巨大的,而且成功率非常低。隨著人工智能技術(shù)的發(fā)展,利用計(jì)算方法輔助指導(dǎo)酶的改造或者設(shè)計(jì)開始成為主流[6-10]。計(jì)算算法的快速實(shí)現(xiàn),極大地降低了遍歷窮舉整個可能計(jì)算空間的搜索,同時利用優(yōu)化算法很容易尋找到可行解。例如中科院微生物研究所吳邊課題組[11]使用多種計(jì)算工具,根據(jù)塑料降解酶的序列從保守性、結(jié)構(gòu)能量值等角度篩選可能存在的突變位點(diǎn),獲得了塑料降解酶PETase的突變體DuraPETase。該突變體的熔融溫度提高了35 ℃,溫和溫度下對塑料降解酶的降解能力提升了23%。根據(jù)特定的改造或者設(shè)計(jì)目標(biāo),智能計(jì)算方法一般是基于酶的序列或者結(jié)構(gòu)挖掘和酶功能之間的映射關(guān)系,并希望借此能了解酶的各種作用機(jī)制,比如催化作用、特異性結(jié)合能力等。

那么,對于設(shè)計(jì)或者改造后的新酶,是否可以按照實(shí)驗(yàn)要求折疊成給定的構(gòu)象,實(shí)現(xiàn)要設(shè)計(jì)的功能?這個能力一般稱為“可折疊性”[12-13]。實(shí)驗(yàn)驗(yàn)證是將新酶序列在大腸桿菌中純化表達(dá),同時測定是否具有給定的功能。但是,現(xiàn)在很多工作隨機(jī)生成新酶,可以產(chǎn)生大量要求的序列。這些序列如果都通過實(shí)驗(yàn)室測定其是否合理,并不符合通過計(jì)算手段降低實(shí)驗(yàn)成本的初衷。迄今為止,盡管從頭酶設(shè)計(jì)有了諸多成果,但大多都表現(xiàn)出低效率。有研究表明錯誤折疊是大多數(shù)酶設(shè)計(jì)工作失敗的原因。如果在設(shè)計(jì)或者改造的過程中,考慮加入結(jié)構(gòu)約束的話,則在很大程度上可以提高新酶的“可折疊性”。最近5年來,基于人工智能與數(shù)據(jù)驅(qū)動技術(shù)的蛋白質(zhì)結(jié)構(gòu)預(yù)測取得了一系列的突破性進(jìn)展[14-16]。例如,AlphaFold2[14]預(yù)測了人類蛋白組的98.5%蛋白結(jié)構(gòu),極大豐富了蛋白結(jié)構(gòu)數(shù)據(jù)并促進(jìn)對人類生命機(jī)制的研究。實(shí)際上,蛋白質(zhì)結(jié)構(gòu)預(yù)測實(shí)際上可以被稱為“逆式”的蛋白質(zhì)設(shè)計(jì)。那么,在蛋白質(zhì)設(shè)計(jì)領(lǐng)域,蛋白質(zhì)結(jié)構(gòu)預(yù)測這些相對成熟化的工具,是否能從結(jié)構(gòu)約束角度促進(jìn)酶的改造設(shè)計(jì)工具更快速且精確化促進(jìn)酶的“可折疊性”研究呢?

本文聚焦于智能算法改造設(shè)計(jì)新酶這一應(yīng)用背景,首先對現(xiàn)有的研究工作從骨架設(shè)計(jì)、序列設(shè)計(jì)兩個角度進(jìn)行了系統(tǒng)性的梳理。然后介紹了成熟化的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具的四種方法框架,并以AlphaFold2為重點(diǎn)介紹了相應(yīng)的工作流程。蛋白質(zhì)結(jié)構(gòu)問題可以理解為尋找一個合適的擬合函數(shù)f,能夠?qū)⑿蛄锌臻g映射到結(jié)構(gòu)空間。因此這部分內(nèi)容從四個角度來展開:①基于物理化學(xué)規(guī)則打分;②基于統(tǒng)計(jì)知識打分;③基于深度學(xué)習(xí)預(yù)測打分;④端到端一步式。蛋白質(zhì)改造設(shè)計(jì)則分別從序列和結(jié)構(gòu)兩個角度挖掘和功能之間的模式(見摘要圖)。最后本文總結(jié)出三種蛋白質(zhì)結(jié)構(gòu)預(yù)測工具在酶設(shè)計(jì)/改造中的應(yīng)用場景,展示如何利用“可折疊性”幫助改造或者設(shè)計(jì)穩(wěn)定且具有給定功能的酶。希望本篇文章能對如何利用正確折疊進(jìn)行合理酶設(shè)計(jì)改造有所幫助。

1 酶的智能改造設(shè)計(jì)策略

人工智能在酶的設(shè)計(jì)改造過程中的應(yīng)用,有助于對酶序列、功能以及結(jié)構(gòu)空間的快速探索。對于酶的計(jì)算機(jī)智能輔助設(shè)計(jì),通常集中于酶的熱穩(wěn)定性、耐酸堿性、催化活性、底物特異性以及酶的從頭設(shè)計(jì)等方面[2]。前面幾種的設(shè)計(jì)著重于對酶的功能空間的探索,提高酶的某種已有功能特性,且不影響其原有的其他功能特性。而酶的從頭設(shè)計(jì)則側(cè)重于設(shè)計(jì)一種新酶,其目標(biāo)功能可能只是具有8個β“片段桶”(barrel)這樣的形狀要求,或者是這個“桶”從結(jié)構(gòu)上更為松散的功能性要求,又或者是β片段的排列方式這種結(jié)構(gòu)上的要求。這意味著酶的設(shè)計(jì)要從結(jié)構(gòu)和功能上達(dá)到統(tǒng)一。

利用人工智能解決問題是根據(jù)已有的數(shù)據(jù)挖掘內(nèi)部隱藏的看不見的模式,即序列、結(jié)構(gòu)與功能之間的內(nèi)在的關(guān)系映射。第一步則需要合理地將酶的描述特征提取到并表示成機(jī)器識別的模式,一般分為以下幾類:基于序列的,基于結(jié)構(gòu)的,基于嵌入的?;谛蛄械?,包含一些常見的onehot編碼、物理化學(xué)特性編碼(疏水性、電荷等)、進(jìn)化保守性、AA-index[17]、zScales[18]等?;诮Y(jié)構(gòu)的,包含一些基于統(tǒng)計(jì)的殘基對間的接觸勢、相鄰結(jié)構(gòu)域的類型及物理化學(xué)性質(zhì)、骨架扭轉(zhuǎn)角度、鍵長、距離活性位點(diǎn)的遠(yuǎn)近等[19]。而基于嵌入的,是指模型通過在大量蛋白質(zhì)家族序列或者結(jié)構(gòu)上進(jìn)行類似于“完形填空”的訓(xùn)練過程中,學(xué)習(xí)到序列/結(jié)構(gòu)鄰居的上下文信息。在此過程中,模型學(xué)習(xí)氨基酸的有意義的中間表示,并提煉出每個氨基酸位置周圍的重要結(jié)構(gòu)環(huán)境,比如ProtVec[20]、ESM-1V[21]、TAPE[22]、dMaSIF[23]等。接下來需要構(gòu)建合適的模型預(yù)測或者生成目標(biāo)。這部分的差異,可參考文獻(xiàn)[24]。接下來根據(jù)目標(biāo)從酶的智能改造和設(shè)計(jì)兩部分展開。

1.1 酶的智能改造

酶的智能改造通常指的是在對酶的催化機(jī)制、空間結(jié)構(gòu)、物化屬性等有一定了解的基礎(chǔ)上,利用計(jì)算手段有目的地對酶的功能進(jìn)行改造。對于任意的一條酶序列,可能的突變方案都是非常龐大的,且無法在實(shí)驗(yàn)室逐一驗(yàn)證所有可能的突變方案是否合理有效。采用人工智能技術(shù)尋找酶的可能突變位點(diǎn)以及對突變位點(diǎn)組合,能夠快速地實(shí)現(xiàn)高通量篩選,減少生物化學(xué)實(shí)驗(yàn)成本。這里僅結(jié)合人工智能探討現(xiàn)有對酶的功能改造相關(guān)工作。

利用酶的序列以及功能性指標(biāo)數(shù)據(jù)對,構(gòu)建模型,然后利用模型指導(dǎo)酶分子改造。其構(gòu)建的模型輸入一般是基于序列或者結(jié)構(gòu)提取的描述符,輸出則是蛋白質(zhì)適應(yīng)性的預(yù)測目標(biāo),一般對應(yīng)于要改造的具體功能性指標(biāo)。一旦模型建立,即可通過預(yù)測大量突變序列的性能快速篩選不理想的突變體。以Frances H.Arnold團(tuán)隊(duì)[25]發(fā)表在PNAS上的工作為例。該工作主要是改造一氧化氮雙加氧酶(NOD)立體選擇性,并選擇多個機(jī)器學(xué)習(xí)模型去構(gòu)建NOD的立體選擇性催化模型,包括但不僅限于K最近鄰、線性模型、決策樹、隨機(jī)森林,將76%(S)-ee初始突變體提升至93%(S)-ee及反轉(zhuǎn)至79%(S)-ee。中科院微生物研究所吳邊團(tuán)隊(duì)[11]提出一種新型蛋白質(zhì)穩(wěn)定性計(jì)算設(shè)計(jì)策略GRAPE。該策略對傳統(tǒng)篩選突變體策略進(jìn)行補(bǔ)充,并通過系統(tǒng)聚類分析對得到的單點(diǎn)有益突變進(jìn)行聚類,同時結(jié)合貪婪算法進(jìn)行網(wǎng)絡(luò)迭代疊加,大幅度規(guī)避了以往遇到的累積突變所帶來的負(fù)協(xié)同相互作用。設(shè)計(jì)出的突變體DuraPETase可在中等溫度下有效降解塑料,為酶的設(shè)計(jì)的計(jì)算策略提供了非常重要的方向。當(dāng)特定類型的酶數(shù)據(jù)比較小的時候,可以借助在大量通用酶類數(shù)據(jù)上的預(yù)訓(xùn)練模型來學(xué)習(xí)氨基酸對之間的相互作用關(guān)系或者鄰居結(jié)構(gòu)環(huán)境信息,指導(dǎo)后續(xù)的酶改造任務(wù)。這種方法的好處是可以根據(jù)特定任務(wù)在具體的數(shù)據(jù)集上對預(yù)訓(xùn)練模型進(jìn)行微調(diào),以適應(yīng)于不同的小數(shù)據(jù)集的下游任務(wù)。2021年提出的Low-N模型充分利用了UniRep中大量的蛋白質(zhì)序列,通過無監(jiān)督語言預(yù)訓(xùn)練任務(wù)提取了蛋白質(zhì)的一般功能特征,然后在特定家族序列上微調(diào),進(jìn)一步捕捉到了該家族的特異性特征[26]。通過上述方式得到的蛋白質(zhì)表示,僅需要少量的序列和目標(biāo)功能的數(shù)據(jù),就可以訓(xùn)練一個簡單且有效的監(jiān)督模型。將該模型應(yīng)用到實(shí)際中,最少僅需24個avGFP突變體的數(shù)據(jù)集,就設(shè)計(jì)出了新的熒光蛋白,可以與高保真且高通量的蛋白質(zhì)工程產(chǎn)物sfGFP相媲美。Low-N以較少的數(shù)量實(shí)現(xiàn)了蛋白質(zhì)序列到功能模式的轉(zhuǎn)變。類似工作還有文獻(xiàn)[27]中提到的SEMA。

除此之外,隨著日益豐富的結(jié)構(gòu)數(shù)據(jù)與逐漸成熟的深度網(wǎng)絡(luò)學(xué)習(xí)能力,從酶的結(jié)構(gòu)數(shù)據(jù)集中直接挖掘結(jié)構(gòu)與功能之間的關(guān)系也成為可能。2022年,得克薩斯大學(xué)奧斯汀分校McKetta化學(xué)工程系教授Hal S.Alper[28]結(jié)合人工智能技術(shù)和酶工程,改造出一系列塑料降解酶的變體,相關(guān)工作發(fā)表在Nature上。其中最優(yōu)秀的突變體FAST-PETase優(yōu)于現(xiàn)有的PET降解酶的變體的降解效率,且能在更廣泛環(huán)境中具有較好的活性,證明了在工業(yè)規(guī)模上酶塑料回收的可行途徑。該方法首先篩選有效突變位點(diǎn)的方法是利用一個深度學(xué)習(xí)算法MutCompute[19]來有效過濾篩選突變位點(diǎn) 。MutCompute通過一個3D的自監(jiān)督的卷積網(wǎng)絡(luò)模型,對每一個殘基構(gòu)造一個局部微環(huán)境,統(tǒng)計(jì)該環(huán)境中原子(C、H、O、N、S)出現(xiàn)的次數(shù)、電荷、溶劑可達(dá)面積來編碼該局部環(huán)境,最后預(yù)測每個殘基的序列類型(分類問題)。根據(jù)該殘基一個已有突變體上的預(yù)測概率值與在野生型中的概率差異值大小,衡量出殘基在野生型結(jié)構(gòu)中的“不匹配度”(disfavoured),進(jìn)而篩選出這種得分較大的突變位點(diǎn),結(jié)合以往文獻(xiàn)中報道的有效突變位點(diǎn)以及活性口袋位點(diǎn),指導(dǎo)后續(xù)進(jìn)一步篩選有效組合突變。該方法捕獲了由結(jié)構(gòu)決定的功能模式的指導(dǎo)轉(zhuǎn)化,篩選條件是該殘基在給定的蛋白質(zhì)折疊環(huán)境中適配的能力。相比單純使用序列的模型,考慮殘基在結(jié)構(gòu)環(huán)境中是否適配或從已有結(jié)構(gòu)數(shù)據(jù)中挖掘這種規(guī)律,約束了改造酶的合理性并且增加了可能的改造位點(diǎn)方案。類似的工作還被應(yīng)用在TEM-1 β-內(nèi)酰胺酶和白色念珠菌磷化異構(gòu)酶(CaPMI)中[29]。

實(shí)際上在酶改造過程中,序列和結(jié)構(gòu)信息并不是互相割裂的。Connor W.Coley組提出一種將結(jié)構(gòu)約束在序列表示上,就是一種有效的思路。相比僅用ESM-1b[30]提取蛋白質(zhì)序列的平均池化模式得到的序列特征,融入離酶活中心遠(yuǎn)近的結(jié)構(gòu)性差異構(gòu)建的池化策略,則在增強(qiáng)酶的嵌入性表達(dá)的同時還提高了酶活性預(yù)測任務(wù)的模型性能[31]。豐富的酶結(jié)構(gòu)信息,是非常重要且有效的(參見上面加入結(jié)構(gòu)約束之后幾個工作的性能提升)。隨著AlphaFold2等高精度有效的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法的提出,如何結(jié)合預(yù)測出來的海量結(jié)構(gòu)數(shù)據(jù)擴(kuò)展對酶的功能改造,是具有研究價值的。

1.2 酶的智能設(shè)計(jì)

酶的從頭設(shè)計(jì)是指創(chuàng)造出自然界中不存在,具有新的功能、結(jié)構(gòu)或者形狀的酶。在人工智能技術(shù)沒有被引入到這個領(lǐng)域之前,大多數(shù)酶的設(shè)計(jì)是構(gòu)建基于物理或者統(tǒng)計(jì)的模型去擬合力場(這一部分的基本思路和蛋白質(zhì)折疊一致)。本小節(jié)根據(jù)不同的設(shè)計(jì)目標(biāo)以及任務(wù)需求,從主鏈結(jié)構(gòu)設(shè)計(jì)、氨基酸序列設(shè)計(jì)兩部分展開,著重探討智能計(jì)算算法給蛋白質(zhì)設(shè)計(jì)領(lǐng)域帶來的新思路(如表1)。

表1 蛋白質(zhì)設(shè)計(jì)工具匯總Table 1 Summary of protein design tools

1.2.1 主鏈結(jié)構(gòu)設(shè)計(jì)

主鏈結(jié)構(gòu)設(shè)計(jì),指的是設(shè)計(jì)出符合預(yù)先定義的結(jié)構(gòu)拓?fù)浼s束(例如:二級結(jié)構(gòu)基本單元的組成以及順序、相對位置等)。這里介紹一個非常典型且有突破性的工作,SCUBA[32]。該工作由中國科學(xué)技術(shù)大學(xué)劉海燕和陳泉團(tuán)隊(duì)提出,是一個具有高自主可設(shè)計(jì)性的主鏈設(shè)計(jì)算法,且并不依賴側(cè)鏈類型。該算法在結(jié)構(gòu)數(shù)據(jù)中基于核密度估計(jì)構(gòu)造神經(jīng)網(wǎng)絡(luò)形式的能量函數(shù)來捕獲高階相關(guān)關(guān)系,可在不確定序列(即設(shè)計(jì)的能量函數(shù)不依賴于側(cè)鏈,充分考慮柔性)的情況下,連續(xù)廣泛搜索主鏈結(jié)構(gòu)空間,突破之前方法僅限于已有模式的限制。再輔以該團(tuán)隊(duì)提出的給定主鏈設(shè)計(jì)序列的能量統(tǒng)計(jì)模型ABACUS[48],形成了一套全新的蛋白質(zhì)自主設(shè)計(jì)新路線。

此外,Namrata Anand陸續(xù)提出基于生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)[49]實(shí)現(xiàn)蛋白質(zhì)骨架設(shè)計(jì)的工作,從生成模型的角度考慮蛋白的骨架設(shè)計(jì)。發(fā)表在2018年的NeurIPS[33],利用DCGAN(deep convolutional GANs)[50]模型生成Cα原子之間的相對距離圖(考慮到平移旋轉(zhuǎn)不變性),將該配對距離約束引入到折疊成給定結(jié)構(gòu)的可微問題中,并采用交替方向乘子法(alternating direction method of multipliers, ADMM)優(yōu)化該凸規(guī)劃問題[33]。緊接著2019年發(fā)表的另一個工作也采用GAN實(shí)現(xiàn)給定距離約束下骨架設(shè)計(jì),只是后面的精細(xì)化調(diào)整有所不同[34]。

1.2.2 氨基酸序列設(shè)計(jì)

氨基酸序列設(shè)計(jì),則是在蛋白質(zhì)結(jié)構(gòu)已知的情況下,設(shè)計(jì)其相應(yīng)的側(cè)鏈類型,也就是氨基酸序列。根據(jù)在設(shè)計(jì)過程中給出的約束不同,可以采用不同的方法來設(shè)計(jì)序列。

當(dāng)從功能上約束設(shè)計(jì)的序列時,可以采用序列生成方法,在具有給定功能的酶序列數(shù)據(jù)上挖掘殘基間的模式直接生成新酶的序列。常用的生成模型有長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[51]、GAN、變分自動編碼器(variational autoencoder,VAE)[52]、Transformer[53]等。Mire Zloh課題組[35]構(gòu)建了基于LSTM的生成模型和雙向LSTM分類模型,設(shè)計(jì)了對大腸桿菌具有潛在抗菌活性的新型的抗菌短肽序列,經(jīng)過分類模型的預(yù)測發(fā)現(xiàn)設(shè)計(jì)出的肽序列被認(rèn)為具有抗菌功能的概率在70.6%~91.7%,且其三維構(gòu)象表現(xiàn)出具有兩親性表面的α-螺旋結(jié)構(gòu)[35]。Gisbert Schneider課題組[36]同樣使用LSTM從螺旋抗菌肽序列上捕獲數(shù)據(jù)的模式并將學(xué)習(xí)到的上下文信息運(yùn)用于抗菌肽序列的生成。Aleksej Zelezniak課題組[37]提出ProteinGAN,利用GAN學(xué)習(xí)到大量天然蛋白質(zhì)序列的多樣性并進(jìn)而生成具有特定功能的酶序列。以蘋果酸脫氫酶(MDH)為例,作者在該酶家族序列上進(jìn)行訓(xùn)練并設(shè)計(jì)出具有相同功能酶的序列,其中有突變位點(diǎn)超過100個的設(shè)計(jì)序列,其活性與天然酶的活性相近。

同樣,可以采用結(jié)構(gòu)約束來指導(dǎo)進(jìn)而設(shè)計(jì)氨基酸序列。這種情況下,設(shè)計(jì)的氨基酸序列能否折疊成目標(biāo)的蛋白質(zhì)結(jié)構(gòu)是至關(guān)重要的指標(biāo)。最近被稱為新一代Rosetta蛋白設(shè)計(jì)內(nèi)核的Rosetta MPNN “Mover”,突破了傳統(tǒng)的Rosetta設(shè)計(jì)范式“inside-out”模式。該方法ProteinMPNN由David Baker組提出,基于structured-Transformer[54],采用了結(jié)構(gòu)編碼-序列解碼的自回歸模型框架,將原子配對距離勢融入到邊的特征表示中,使序列恢復(fù)率提高約7.8%[39]。ProteinMPNN對根據(jù)幻想的主鏈進(jìn)行蛋白設(shè)計(jì),其中96條蛋白質(zhì)序列在大腸桿菌體系中可以被大量可溶表達(dá),且成功結(jié)晶一個與設(shè)計(jì)結(jié)構(gòu)高度一致的設(shè)計(jì)蛋白。同時,ProteinMPNN對單體、同源二聚體、異二聚體結(jié)構(gòu)進(jìn)行設(shè)計(jì),其序列恢復(fù)率均在50%以上,其中核心區(qū)域的恢復(fù)率高達(dá)90%~95%。中國科學(xué)技術(shù)大學(xué)劉海燕和陳泉團(tuán)隊(duì)[40]提出的ABACUS-R完全基于深度學(xué)習(xí)算法實(shí)現(xiàn)給定骨架設(shè)計(jì)氨基酸序列,不再依賴于傳統(tǒng)能量項(xiàng)構(gòu)建,并且序列恢復(fù)率高于ABACUS計(jì)算的,在測試集上基本可以達(dá)到50%[40]。其主要思路是在給定骨架的情況下,通過編碼-解碼(encoder-decoder)框架學(xué)習(xí)在給定殘基的結(jié)構(gòu)特征以及周邊結(jié)構(gòu)環(huán)境的特性預(yù)測該殘基的序列類型(側(cè)鏈)。值得一提的是,ABACUS-R采用多任務(wù)學(xué)習(xí),不僅僅學(xué)習(xí)該殘基的類型,還同時預(yù)測其二級結(jié)構(gòu)、溶劑可達(dá)面積、B-factor以及一些結(jié)構(gòu)構(gòu)象扭轉(zhuǎn)角任務(wù)。這些輔助任務(wù)的設(shè)計(jì)不僅提高了模型設(shè)計(jì)序列的能力,還隱式地在序列設(shè)計(jì)中加入了實(shí)時的結(jié)構(gòu)約束。實(shí)驗(yàn)驗(yàn)證設(shè)計(jì)了3個天然骨架的蛋白序列設(shè)計(jì)并做了相應(yīng)的實(shí)驗(yàn)驗(yàn)證。最后通過ABACUS-R設(shè)計(jì)出了可以成功表達(dá)且折疊成相應(yīng)的三維結(jié)構(gòu)的蛋白質(zhì)序列,充分證明了繞過建模側(cè)鏈模型的蛋白質(zhì)設(shè)計(jì)是可行的。卜東波課題組[47]提出ProDesign-LE也是基于Transformer框架,通過計(jì)算序列類型是否符合給定的局部結(jié)構(gòu)環(huán)境來設(shè)計(jì)蛋白序列。在實(shí)驗(yàn)中為CATⅢ酶設(shè)計(jì)的5條序列中,有3條可以成功表達(dá)且可溶。許錦波課題組[55]提出的一種基于骨架設(shè)計(jì)蛋白序列的方法,基于生成SE(3)等變模型,顯著改進(jìn)了現(xiàn)有的自回歸方法。Mostafa Karimi組[38]提出gcWGAN探索生成給定折疊條件下的序列,使序列折疊成給定的方式。構(gòu)造一個基于DeepSF[56]的快速從序列預(yù)測折疊模式的模型并實(shí)時反饋監(jiān)督序列是否可以正確折疊,這個模型被稱為“Oracle”。Po-Ssu Huang組的Namrata Anand[57]直接從蛋白質(zhì)骨架結(jié)構(gòu)信息中預(yù)測側(cè)鏈氨基酸類型,從而學(xué)習(xí)到一個基于自回歸的自動的神經(jīng)網(wǎng)絡(luò)能量來指導(dǎo)后續(xù)的序列設(shè)計(jì)。在實(shí)際的TIM-barrel設(shè)計(jì)中,設(shè)計(jì)出的序列中有兩個成功結(jié)晶且與設(shè)計(jì)的骨架高度一致。

總的來說,對于酶的智能設(shè)計(jì),人工智能方法的設(shè)計(jì)相比傳統(tǒng)基于力場的模式帶來更高的成功率,且更加快速(ProDesign[47]僅需30 s即可設(shè)計(jì)一條少于100長的蛋白序列)。根據(jù)不同任務(wù)需求,可以實(shí)現(xiàn)酶的全新骨架設(shè)計(jì)和酶序列的從頭設(shè)計(jì)。同時將二者結(jié)合起來可以形成一套按需從頭設(shè)計(jì)酶的流程。酶設(shè)計(jì)中直接從給定結(jié)構(gòu)建模設(shè)計(jì)序列的方法(類似于MPNN),本質(zhì)上是為了尋求一條序列使結(jié)構(gòu)能量最低。但是給定一條序列,其所能折疊成的狀態(tài)有很多,目標(biāo)結(jié)構(gòu)不一定是設(shè)計(jì)的序列所能折疊成的最低的能量結(jié)構(gòu)。因此現(xiàn)今從頭酶設(shè)計(jì)中最關(guān)鍵的是后續(xù)對新酶的折疊能力評估。設(shè)計(jì)的新酶序列在后續(xù)的實(shí)驗(yàn)中評估能否折疊或者折疊成給定的目標(biāo)構(gòu)象,這是在實(shí)際應(yīng)用中最關(guān)注的問題。因此,在設(shè)計(jì)酶的過程中,利用“可折疊性”作為指標(biāo)過濾設(shè)計(jì)序列,有助于設(shè)計(jì)更高質(zhì)量的酶,減少了實(shí)驗(yàn)室對酶序列的后續(xù)驗(yàn)證,從而降低成本。

2 蛋白質(zhì)結(jié)構(gòu)預(yù)測方法

從上面的討論中我們可以看到人工智能極大促進(jìn)了酶在改造和設(shè)計(jì)方面的發(fā)展。但是對于設(shè)計(jì)或者改造后的新酶,其是否可以如期折疊成給定的結(jié)構(gòu),其實(shí)是其能否執(zhí)行相應(yīng)功能的關(guān)鍵性問題。那么,如何衡量“可折疊性”?一般是通過一系列的實(shí)驗(yàn)操作觀察其最后是否折疊或者折疊后與目標(biāo)結(jié)構(gòu)的結(jié)構(gòu)相似性(TMscore得分)。但是實(shí)際上,如果在設(shè)計(jì)或者改造的過程中同時考慮“可折疊性”,就會大大提高最終酶的質(zhì)量。因此,成熟且高精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具是極其有必要的。

蛋白質(zhì)折疊問題是Science雜志指出的人類在21世紀(jì)需要解決的125個科學(xué)前沿問題之一。蛋白質(zhì)分子作為細(xì)胞這所天然工廠中不可或缺的主力,根據(jù)周邊環(huán)境的變化,通過展開與折疊過程的不斷轉(zhuǎn)移,實(shí)現(xiàn)結(jié)構(gòu)從變性到天然狀態(tài)下穩(wěn)定緊湊折疊結(jié)構(gòu)的變化,從而實(shí)現(xiàn)蛋白質(zhì)序列信息的解碼,發(fā)揮蛋白質(zhì)的功能。蛋白質(zhì)結(jié)構(gòu)預(yù)測問題可簡單用數(shù)學(xué)公式簡單表述為:g=f(s)。其中s表示蛋白質(zhì)序列,g表示蛋白質(zhì)結(jié)構(gòu),求解蛋白質(zhì)結(jié)構(gòu)就相當(dāng)于在求解函數(shù)f的表達(dá)式。函數(shù)f越精準(zhǔn),預(yù)測的結(jié)構(gòu)越準(zhǔn)確。顯而易見,是否能找到一個“完美”的能量打分函數(shù)f,能正確表達(dá)在折疊過程中各個原子空間之間的能量變化、位置,從而正確區(qū)分天然構(gòu)象和其他構(gòu)象,是整個蛋白質(zhì)結(jié)構(gòu)預(yù)測問題中的關(guān)鍵。本文著重從4個角度對如何構(gòu)建函數(shù)f來進(jìn)行闡述:基于物理化學(xué)打分,基于統(tǒng)計(jì)知識打分,基于深度學(xué)習(xí)預(yù)測打分以及“一步式”構(gòu)建。前三種方法均傾向于尋找完美的“能量函數(shù)”(或者稱之為“打分函數(shù)”),更好地模擬原子從雜亂而無序的狀態(tài)到相互作用進(jìn)而形成穩(wěn)定折疊狀態(tài)過程中的各種力場變化。得到具有一定規(guī)律的“打分函數(shù)”后,一種是依據(jù)熱力學(xué)系統(tǒng)中能量越低越穩(wěn)定這一基本原則,隨機(jī)模擬尋找具有最小能量的構(gòu)象,另一種是將“打分函數(shù)”轉(zhuǎn)為可微函數(shù),將蛋白質(zhì)構(gòu)象預(yù)測轉(zhuǎn)化為數(shù)學(xué)中的最優(yōu)化問題尋找最優(yōu)解(即最優(yōu)構(gòu)象)。那么這三種的差別則體現(xiàn)在構(gòu)建能量函數(shù)的規(guī)則或者手段上。一般在實(shí)際情況中會適當(dāng)從這三種方法中挑選合適的能量項(xiàng)組合,以尋找更加適合的復(fù)合折疊能量函數(shù)。最后一種則是直接實(shí)現(xiàn)端到端的蛋白質(zhì)序列-結(jié)構(gòu)模式的深度挖掘,一步式實(shí)現(xiàn)從蛋白質(zhì)序列到結(jié)構(gòu)的輸出。

2.1 基于物理化學(xué)打分

基于物理的能量項(xiàng),通過描述原子在折疊過程中原子內(nèi)部之間相互作用以及蛋白質(zhì)分子與溶劑分子之間的相互作用,來模擬構(gòu)象的最終能量。一般包括成鍵作用和非成鍵作用[58]。后者主要包括氫鍵、范德華力、靜電力等,前者則包含一些二面角、鍵角、鍵長等勢能[59-61]。但是在實(shí)際過程中,由于我們對蛋白質(zhì)折疊機(jī)制尚未完全理解,例如哪些相互作用力對折疊是重要的、不同相互作用力的疊加是否是有益的,這就導(dǎo)致在設(shè)計(jì)能量函數(shù)的時候并不一定合適。

2.2 基于統(tǒng)計(jì)知識打分

基于知識統(tǒng)計(jì)的方法,一般要求有一個大型結(jié)構(gòu)數(shù)據(jù)集(類似于PDB[62]),從中統(tǒng)計(jì)不同原子對之間的相對位置,進(jìn)而構(gòu)造一個打分矩陣,得到原子對之間的打分函數(shù)。例如,在打分矩陣中,發(fā)現(xiàn)某種氨基酸在其相鄰的0.36 nm范圍內(nèi)經(jīng)常有一種氨基酸出現(xiàn),且對方的相鄰打分矩陣中也顯示經(jīng)常與之相鄰,則能量值打分一定是較低的。從中,其實(shí)可以看出該方法要求預(yù)測的這個蛋白質(zhì)結(jié)構(gòu)在已有的蛋白質(zhì)庫中存在相似的蛋白質(zhì)結(jié)構(gòu)區(qū)域,即局部的某些構(gòu)象出現(xiàn)的次數(shù)一定不低,否則這個能量項(xiàng)即使很高,也是有一定“偏見”的。美國密歇根大學(xué)張陽實(shí)驗(yàn)室[63]開發(fā)的從頭預(yù)測蛋白質(zhì)結(jié)構(gòu)預(yù)測工具QUARK是典型的基于統(tǒng)計(jì)能量項(xiàng)的工作。QUARK分別從原子層面、殘基層面、拓?fù)鋵用娼y(tǒng)計(jì)了11種基于知識的能量項(xiàng),利用副本交換的蒙特卡洛搜索算法實(shí)現(xiàn)僅從序列出發(fā)預(yù)測蛋白質(zhì)結(jié)構(gòu)的工作。另一個同樣由張陽實(shí)驗(yàn)室開發(fā)的I-TASSER,采用基于統(tǒng)計(jì)的能量項(xiàng)迭代的基于線程結(jié)構(gòu)模板裝配方法在近幾年的Community-Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction (CASP7-CASP15)大賽上均位列服務(wù)器組第一名[64-65]。I-TASSER采用的是基于統(tǒng)計(jì)的勢能,包含三種類型:①通用的統(tǒng)計(jì)勢能,特定方向(平行,反平行,垂直方向)的接觸特征,手性局部結(jié)構(gòu)的短程Cα原子的距離關(guān)系,相隔5個殘基的局部結(jié)構(gòu)特征規(guī)律等。②氫鍵網(wǎng)絡(luò)。③基于線程模板的約束,包含Cα原子之間的距離約束以及側(cè)鏈質(zhì)心原子的接觸距離約束。而與I-TASSER并駕齊驅(qū)的由美國華盛頓大學(xué)的David Baker組開發(fā)的Rosetta方法,則同時采用了基于物理能量項(xiàng)和基于統(tǒng)計(jì)的能量項(xiàng),運(yùn)用蒙特卡洛算法在構(gòu)象空間中基于Metropolis準(zhǔn)則隨機(jī)搜索最低能量構(gòu)象[66]。

2.3 基于深度學(xué)習(xí)預(yù)測打分

基于深度學(xué)習(xí)預(yù)測打分的思路其實(shí)沿襲第一種、第二種的構(gòu)造思路,只是在實(shí)現(xiàn)過程中采用的技術(shù)手段不同。其主要手段是依賴于深度學(xué)習(xí)算法在海量結(jié)構(gòu)數(shù)據(jù)中預(yù)測出不同殘基組合在折疊過程中的模式(“學(xué)習(xí)”到的能量函數(shù)),從而輔助指導(dǎo)或者約束蛋白質(zhì)的不同折疊排列方式。這里面提到的模式,在多數(shù)工作中涉及到的是殘基之間的接觸(contact)分布、距離(distance)分布、原子角度(orientation)分布等。而在折疊過程中,這些約束規(guī)則一旦定義,則類似于搭積木一樣,很容易就可以從給定的氨基酸序列出發(fā)搭建出準(zhǔn)確的三維結(jié)構(gòu)空間。學(xué)習(xí)到基于神經(jīng)網(wǎng)絡(luò)構(gòu)建的函數(shù)后,將其作為約束加入到能量項(xiàng)函數(shù)中,直接優(yōu)化該函數(shù)并且求解最優(yōu)構(gòu)象或者隨機(jī)尋找能量最低構(gòu)象。下面通過幾個典型方法的引入來理解通過深度學(xué)習(xí)預(yù)測不同的結(jié)構(gòu)約束作為能量項(xiàng)的過程。

早期的蛋白質(zhì)折疊將蛋白質(zhì)三維結(jié)構(gòu)中的物理接觸(contact)作為約束。通過分析蛋白質(zhì)序列殘基的共進(jìn)化信息,將序列中殘基的共變關(guān)系映射到蛋白質(zhì)三維空間結(jié)構(gòu)中的物理接觸中。共進(jìn)化指的是在蛋白質(zhì)家族的進(jìn)化演變中,由于環(huán)境以及自身進(jìn)化的需要,某些殘基發(fā)生突變后,為了維持某些主要的功能或者結(jié)構(gòu)不變,其他殘基隨之發(fā)生共同變化(co-evolution)的現(xiàn)象。從蛋白質(zhì)家族的多序列比對(multiple sequence alignment,MSA)中統(tǒng)計(jì)不同位置上不同殘基對共同出現(xiàn)的頻率大小進(jìn)而估計(jì)它們之間的相互作用,根據(jù)相互作用大小判斷在空間結(jié)構(gòu)上是否接觸或排斥。主要的估計(jì)方法有:稀疏逆協(xié)方差方差估計(jì)[67],互信息最大化[68],直接耦合分析(direct coupling analysis, DCA)[69]。這樣基于概率統(tǒng)計(jì)模型得到殘基相互作用對估計(jì)量的方法,顯而易見依賴于MSA的豐富程度并且難以達(dá)到滿意的精度(主要是噪聲以及信息的不足)。但是由于結(jié)合了全局信息,相比“孤立”預(yù)測殘基對的方法,還是有了很大的突破[70-72]。隨著人工智能技術(shù)的發(fā)展,解決手段就變得更為豐富多樣起來,預(yù)測精度也有了突破性的進(jìn)展。2016年許錦波課題組[73]提出的“RaptorX-Contact”方法首次將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域,在CASP12比賽中一舉奪冠,證明了深度學(xué)習(xí)算法在該領(lǐng)域的可行性。該方法將殘基對之間的相互作用關(guān)系看作圖像問題,提取一維的序列保守性特征、結(jié)構(gòu)特征以及二維的共進(jìn)化特征,然后采用2D深度殘差網(wǎng)絡(luò)(ResNet)塊預(yù)測殘基對是否接觸,協(xié)助蛋白質(zhì)的從頭折疊。該方法使用的ResNet網(wǎng)絡(luò)相比前面提到的早期研究方法,捕獲到了更高階(high-order)的殘基對關(guān)系,而且訓(xùn)練數(shù)據(jù)從單一到大量蛋白質(zhì)家族上挖掘,因而精度有了明顯的提升[74]。

除了上面提到的接觸約束,CASP13上DeepMind提出的AlphaFold1,則將這一約束擴(kuò)展到了殘基間的距離約束。然后將離散化的距離預(yù)測值通過采樣插值轉(zhuǎn)化成可微的殘基距離分布函數(shù),進(jìn)而通過直接優(yōu)化該函數(shù)求解距離和角度的最優(yōu)解,從而確定最終的蛋白質(zhì)三維結(jié)構(gòu)[15]。AlphaFold1的成功不僅僅是預(yù)測精度的顯著提高,更是作為一種信號:深度神經(jīng)網(wǎng)絡(luò)可以有效識別蛋白質(zhì)序列中的信號以及共進(jìn)化信息的模式,并將其轉(zhuǎn)化到高精度的距離分布上??紤]到三維空間的特性,trRosetta相比AlphaFold1還引入了5個角度的預(yù)測值來表示殘基間的相對方向,進(jìn)一步加強(qiáng)了殘基間的約束,并且精度提高了6.5%[16]。David T.Jones組[75]提出的DMPfold,預(yù)測的是相對殘基間的距離、主鏈氫鍵以及扭轉(zhuǎn)角。當(dāng)學(xué)習(xí)到這些約束后,類似于RaptorX,輸入到crystallography and NMR system(CNS)[76]中作為約束指導(dǎo)蛋白質(zhì)從頭折疊。在2022年的CASP15上,張陽課題組在已有的I-TASSER基礎(chǔ)上提出的D-I-TASSER算法[77],將AttentionPotential以及DeepPotential[78]兩個深度學(xué)習(xí)算法預(yù)測出的高準(zhǔn)確度的氫鍵(hydrogen-bond)網(wǎng)絡(luò)、接觸圖以及距離圖等約束加入到I-TASSER中采用的力場能量項(xiàng)中,然后通過蒙特卡洛模擬進(jìn)行迭代的片段組裝裝配最終的蛋白質(zhì)結(jié)構(gòu)構(gòu)象,該方法位列蛋白質(zhì)單體單結(jié)構(gòu)域比賽第一名。

2.4 端到端一步式

前面的三種本質(zhì)上其實(shí)還是在擬合折疊物理力場中的各種相互作用的能量。實(shí)際上基于能量設(shè)計(jì)的方法,很難找到一個“完美的”能量函數(shù)。隨著不同能量項(xiàng)的累積,帶來的誤差也隨之增加。基于深度學(xué)習(xí)預(yù)測的方法中提到的“兩步走”方法,雖然將復(fù)雜問題簡化,但勢必會帶來信息的丟失。因此對于二維的表示會有更高的要求。對于這種復(fù)雜高維的相互作用,可以借助神經(jīng)網(wǎng)絡(luò)函數(shù),直接尋找到一個更加“完美”的能量函數(shù)去擬合蛋白質(zhì)分子折疊過程中的力場變化,而不是通過人工構(gòu)造能量項(xiàng),即直接學(xué)習(xí)到深層次的序列-結(jié)構(gòu)關(guān)聯(lián)關(guān)系,是近些年一些研究者的熱點(diǎn)。隨著深度學(xué)習(xí)技術(shù)的逐漸純熟以及研究者對蛋白質(zhì)結(jié)構(gòu)功能的了解加深,直接基于蛋白質(zhì)原始序列端到端預(yù)測蛋白質(zhì)結(jié)構(gòu)技術(shù)也有了質(zhì)的飛躍,有力促進(jìn)了研究者對蛋白機(jī)制的研究以及未知蛋白的探索。

2019年Mohammed AlQuraishi[79]提出RGN方法,首次嘗試使用深度學(xué)習(xí)算法端到端從蛋白質(zhì)序列直接預(yù)測最終的3D坐標(biāo),而不是通過前面介紹的“兩步式”方法。其主要思想是將每個殘基作為一個可微基元,然后從兩個方向——N端到C端、C端到N端,預(yù)測在已有的所有殘基的局部結(jié)構(gòu)下當(dāng)前殘基加入后的空間結(jié)構(gòu),從而將整個蛋白質(zhì)殘基序列串聯(lián)起來,得到最終蛋白質(zhì)結(jié)構(gòu)。這個過程中,考慮了當(dāng)前殘基與相鄰殘基之間的相互作用關(guān)系,并實(shí)現(xiàn)了“多個尺寸”的蛋白質(zhì)表示學(xué)習(xí)。實(shí)驗(yàn)證明相比CASP11、CASP12上排名第一的Server組來說,該方法在對于具有新折疊的自由建模中表現(xiàn)優(yōu)異。但是該方法輸入是蛋白質(zhì)序列one-hot編碼以及位置保守性特異矩陣(position-specific scoring matrices,PSSM),然后通過LSTM去實(shí)現(xiàn)序列的編碼框架,預(yù)測出每個殘基的扭轉(zhuǎn)角參數(shù)。PSSM相比前面提到的MSA中提取的共進(jìn)化信息,并不包含殘基對間的相互作用,只著重單個殘基在單個位置上的進(jìn)化保守性。因此,該方法:①依賴PSSM矩陣的特征準(zhǔn)確性;②忽略殘基對間的相互作用(MSA中共進(jìn)化信息不是線性的,成本高,且不適合RGN的循環(huán)方法)。而之后在CASP14比賽上,DeepMind提出AlphaFold2[14],完全拋棄了AlphaFold1傳統(tǒng)的“兩步式”思路,通過圖推理的方式直接實(shí)現(xiàn)了“端到端”(end-to-end)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,轉(zhuǎn)變了結(jié)合人工智能研究蛋白質(zhì)結(jié)構(gòu)研究新范式。因此,由該方法引發(fā)的“AI蛋白質(zhì)折疊”被MIT Technology Review評為“全球十大突破性技術(shù)”。AlphaFold2主要由神經(jīng)網(wǎng)絡(luò)EvoFormer和結(jié)構(gòu)模塊兩部分組成。EvoFormer中序列信息和從MSA中抽取的進(jìn)化特征之間進(jìn)行信息交換,直接推理出在空間和進(jìn)化關(guān)系中殘基對的配對表征。結(jié)構(gòu)模塊則用于將得到的特征轉(zhuǎn)化為三維坐標(biāo)結(jié)構(gòu)。AlphaFold2的優(yōu)勢在于信息流之間的注意力機(jī)制,包括從MSA中學(xué)習(xí)到配對特征表示與序列上每個殘基的特征表示之間的相互信息交流(基于注意力機(jī)制),通過幾何空間約束形成的具有共殘基的相互作用殘基對之間的信息交流(三角注意力機(jī)制)。得到更新后的配對殘基特征以及單殘基特征后,通過結(jié)構(gòu)模塊不斷迭代更新坐標(biāo)系預(yù)測當(dāng)前殘基和相鄰殘基之間肽鍵的角度和距離偏移,最終得到整個蛋白質(zhì)的全局笛卡爾系坐標(biāo)。平均自由建模精度(GDT打分)達(dá)到80以上,而在CASAP13(AlphaFold出現(xiàn))之前,這個值最高是40左右。

對于AlphaFold2來說,盡管其預(yù)測精度在CASP14上表現(xiàn)驚人,但是后續(xù)研究者陸續(xù)發(fā)現(xiàn)其高度依賴共進(jìn)化信息以及模板信息,而且對于一條蛋白質(zhì)在CPU上進(jìn)行搜索需要大概30 min[80]。因此,從2022年起,陸續(xù)有工作直接從已有序列出發(fā),不再顯式利用共進(jìn)化信息,通過大規(guī)模語言預(yù)訓(xùn)練任務(wù)(一般采用的模型框架是Transformer)在海量蛋白質(zhì)序列數(shù)據(jù)庫中學(xué)習(xí)殘基的表示以及殘基對的表示關(guān)系,直接輸入到AlphaFold2的結(jié)構(gòu)模塊中,輸出蛋白質(zhì)結(jié)構(gòu)的3D坐標(biāo)[80-83]。這些方法相比基于共進(jìn)化的方法(AlphaFold2)來說最顯著的優(yōu)勢是速度上提升了一個數(shù)量級,對于宏基因數(shù)量組的蛋白質(zhì)結(jié)構(gòu)從時間尺度上成為可能。Meta-FAIR提出的ESMFold[80],不僅推理速度比AlphaFold2快,同時對于低復(fù)雜度序列的推理精度與AlphaFold2相當(dāng)。除此之外,還有Ratul Chowdhury提出的RGN2[83],華深智藥提出的OmegaFold[82],上海天壤科技開發(fā)的TRFold方法,山東大學(xué)楊建益團(tuán)隊(duì)提出的trRosettaX-Single[81]等方法。上述方法基本思路差別不大,各個團(tuán)隊(duì)在模型框架上存在一些技巧的差別。例如,trRosettaXSingle采用了知識蒸餾的思想,利用基于進(jìn)化的模型作為“老師”去指導(dǎo)僅基于序列的“學(xué)生”模型獲得一個比較理想的結(jié)果。這些方法預(yù)測一個蛋白根據(jù)計(jì)算資源和長度的不同,計(jì)算時間基本在毫秒到秒級,同時不依賴于共進(jìn)化信息。這種優(yōu)勢對于缺少同源信息的酶設(shè)計(jì)改造來說,是非常有必要的。

通過上面的介紹可以發(fā)現(xiàn),現(xiàn)有蛋白質(zhì)折疊預(yù)測問題借助人工智能技術(shù),已經(jīng)取得了突破性的進(jìn)展。直接基于蛋白質(zhì)序列高精度預(yù)測蛋白質(zhì)結(jié)構(gòu)已經(jīng)成為可能。那么,如何借助這股“東風(fēng)”助力酶智能設(shè)計(jì)改造,則是結(jié)構(gòu)到功能這一新研究范式的主要研究問題。同時,我們認(rèn)為關(guān)注設(shè)計(jì)或者改造的新酶是否具有“可折疊性”,是在考慮實(shí)際改造設(shè)計(jì)酶在合成落地過程中的關(guān)鍵性問題。

3 蛋白質(zhì)折疊在酶智能設(shè)計(jì)改造中的應(yīng)用

第一部分中提到,對于酶的改造和設(shè)計(jì)這兩個應(yīng)用場景,設(shè)計(jì)新酶的折疊能力是至關(guān)重要的。不論是在給定結(jié)構(gòu)還是在給定功能約束下,設(shè)計(jì)的新酶如果不能正常折疊或者折疊后偏離預(yù)設(shè)結(jié)構(gòu),則減弱甚至喪失給定的功能。因此在設(shè)計(jì)過程中結(jié)合設(shè)計(jì)后新酶的折疊狀態(tài),相比不考慮再去實(shí)驗(yàn)驗(yàn)證篩選(幾千幾萬條),在時間和實(shí)驗(yàn)成本上都占有優(yōu)勢。然而,折疊后的構(gòu)象,實(shí)際上就是蛋白質(zhì)結(jié)構(gòu)預(yù)測的目標(biāo)。結(jié)合第二部分中對蛋白質(zhì)結(jié)構(gòu)預(yù)測工具的梳理,可以看到在人工智能強(qiáng)大的擬合能力幫助下,最近幾年來在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面獲得了突破性的進(jìn)展。許多蛋白質(zhì)結(jié)構(gòu)預(yù)測工具由于預(yù)測的高效快速被廣泛應(yīng)用,例如trRosetta[16]、RoseTTAFold[84]等。那么,從設(shè)計(jì)酶的“可折疊性”出發(fā),探索將蛋白質(zhì)結(jié)構(gòu)預(yù)測工具與現(xiàn)有的酶設(shè)計(jì)改造方法相結(jié)合,將會是一條有效的酶智能設(shè)計(jì)改造思路,有助于探索更為廣闊的蛋白質(zhì)序列空間。

在眾多優(yōu)秀的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具中,不得不提AlphaFold2[14]。AlphaFold2實(shí)現(xiàn)了對人類蛋白組58%的準(zhǔn)確性預(yù)測(pLDDT高于70,可信),36%的結(jié)構(gòu)位置預(yù)測高可信。其與歐洲生物信息研究所(EMBL-EBI)合作建立的平臺AlphaFold DB[AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,AlphaFold Protein Structure Database(ebi.ac.uk)],涵蓋了幾乎98.5%的人類蛋白。因此,本文以AlphaFold2為代表,探索如何借助蛋白質(zhì)結(jié)構(gòu)預(yù)測工具增加酶設(shè)計(jì)改造的準(zhǔn)確性。其他結(jié)構(gòu)預(yù)測工具,可以根據(jù)具體研究的數(shù)據(jù)或者任務(wù)不同,替代AlphaFold2的結(jié)構(gòu)預(yù)測工作。

3.1 折疊“監(jiān)督器”

考慮酶的“可折疊性”,最直觀的解決辦法是快速預(yù)測設(shè)計(jì)的新酶的結(jié)構(gòu),檢驗(yàn)其是否具有給定結(jié)構(gòu)。因此,第一種預(yù)測是將蛋白結(jié)構(gòu)預(yù)測工具作為一個監(jiān)督者,約束生成的序列具有折疊成給定結(jié)構(gòu)的能力[如圖1(a)][41-45,85]。這個思路實(shí)施起來的最大難點(diǎn)是從序列預(yù)測結(jié)構(gòu)的精度限制。但是現(xiàn)在得益于結(jié)構(gòu)預(yù)測的突破性進(jìn)展,使得這種設(shè)計(jì)新酶成為可能。其基本思路是在設(shè)計(jì)序列的時候,加入一個輔助的“監(jiān)督者”對于生成的序列是否可以折疊且具有給定的構(gòu)象進(jìn)行評分,根據(jù)得分對蛋白質(zhì)序列通過基于梯度的、梯度自由的或者神經(jīng)網(wǎng)絡(luò)構(gòu)造的優(yōu)化方法來更新序列。通過不斷重復(fù)迭代這一過程,最終得到構(gòu)象約束下的收斂序列。設(shè)計(jì)序列的時候一般遵從最小能量的原則。但是,我們不清楚給定的構(gòu)象就一定是設(shè)計(jì)的這條序列折疊后的最低能量構(gòu)象。因此結(jié)構(gòu)預(yù)測作為“監(jiān)督器”實(shí)際上計(jì)算了在給定結(jié)構(gòu)情況下蛋白質(zhì)序列的最大聯(lián)合概率。

圖1 結(jié)構(gòu)預(yù)測工具在酶智能設(shè)計(jì)改造中的應(yīng)用方向Fig.1 Specific aspects for the application of structure prediction tools in the intelligent design and transformation of enzymes

David T.Jones[41]嘗試將AlphaFold2引入固定骨架設(shè)計(jì)序列的過程中,以約束生成的序列能夠折疊成給定的骨架,并且正交實(shí)驗(yàn)中也驗(yàn)證了分子動力學(xué)方法模擬的結(jié)構(gòu)對AlphaFold2監(jiān)督后的實(shí)驗(yàn)結(jié)構(gòu)高度支持。其具體流程是:①生成初始蛋白序列?;谘芯空咧疤岢龅幕谧曰貧w的Transformer蛋白質(zhì)序列生成模型[86]生成1000條初始序列。同時對于得到的序列用AlphaFold2預(yù)測其結(jié)構(gòu),并與要設(shè)計(jì)的骨架結(jié)構(gòu)用TM-align[87]做結(jié)構(gòu)比對。最后選擇結(jié)構(gòu)比對得分最高的那部分結(jié)構(gòu)的序列為初始序列,不具有高結(jié)構(gòu)置信度的序列則用丙氨酸填充。這樣做的好處是保證初始的序列是可收斂的,否則可能序列太隨機(jī)導(dǎo)致最后沒辦法折疊。②在序列空間中執(zhí)行貪婪的半隨機(jī)游走,逐步突變起始序列進(jìn)行迭代的端到端設(shè)計(jì)。這里面AlphaFold2的作用有兩個:一個是預(yù)測序列結(jié)構(gòu),比較與要設(shè)計(jì)結(jié)構(gòu)的距離直方圖損失,根據(jù)損失是否減小來判斷突變序列是否合理;另一個是確定該序列中哪一部分殘基位點(diǎn)要被突變、修改。舉例來說,從起始序列出發(fā)并通過AlphaFold2預(yù)測其結(jié)構(gòu)以及每一個殘基的pLDDT打分(衡量每個殘基的局部結(jié)構(gòu)合理性)。這里,計(jì)算預(yù)測結(jié)構(gòu)中的距離直方圖并與要設(shè)計(jì)的骨架結(jié)構(gòu)的直方圖計(jì)算損失。同時,利用每個殘基的pLDDT打分設(shè)置為序列位點(diǎn)是否要被采樣的概率。得分較高代表此處殘基是穩(wěn)定的,反之則是下一次迭代序列設(shè)計(jì)采樣的點(diǎn)。在下次迭代采樣中,對于選定的采樣位點(diǎn)進(jìn)行飽和突變,直到距離直方圖損失減小,才接受序列的突變采樣。這樣設(shè)置的好處是對于與要設(shè)計(jì)結(jié)構(gòu)的高度匹配的序列不再改變,大量減少采樣時間盡快收斂以及可能引起的負(fù)協(xié)同效應(yīng)。作者在人工設(shè)計(jì)的Top7上進(jìn)行測試,得到的序列結(jié)構(gòu)不論是通過AlphaFold2、trRosetta還是基于片段從頭折疊的方法,均被證實(shí)與要設(shè)計(jì)的骨架可能是同一種折疊。該工作應(yīng)用AlphaFold2在初始序列設(shè)計(jì)上保證了與目標(biāo)結(jié)構(gòu)的局部高結(jié)構(gòu)匹配度,同時在序列設(shè)計(jì)過程中利用AlphaFold2預(yù)測的結(jié)構(gòu)與目標(biāo)結(jié)構(gòu)的距離直方圖損失約束其設(shè)計(jì)序列保持全局結(jié)構(gòu)相似性以及利用殘基位點(diǎn)可信度增強(qiáng)局部殘基結(jié)構(gòu)穩(wěn)定性。同年,S.Kashif Sadiq[42]也在bioRxiv上提交AlphaDesign工作,基本思路也是利用AlphaFold2預(yù)測的結(jié)構(gòu)與要設(shè)計(jì)的骨架結(jié)構(gòu)的差異來限制調(diào)整序列的優(yōu)化,采用的優(yōu)化函數(shù)是基于進(jìn)化的遺傳算法來迭代生成序列。主要差別在于該方法利用預(yù)測結(jié)構(gòu)的三維坐標(biāo)信息差異構(gòu)建目標(biāo)函數(shù)優(yōu)化而不僅僅是二維的配對距離直方圖約束,可能在結(jié)構(gòu)約束上更加有效。而且該方法擴(kuò)展了可能的設(shè)計(jì)任務(wù)的范圍,設(shè)計(jì)了一些長度在32~256個氨基酸、結(jié)構(gòu)穩(wěn)定、從頭設(shè)計(jì)且具有不同折疊的單體蛋白、同源二聚體、異源二聚體、同源低聚物(三聚體到六聚體)。Baker組[43]提出的trDesign是第一個提出將結(jié)構(gòu)預(yù)測工具trRosetta應(yīng)用到蛋白質(zhì)序列設(shè)計(jì)中的工作,考慮的也是二維距離直方圖的損失來更新梯度,更新被表示為PSSM的序列。但是受限于trRosetta利用的是二維的結(jié)構(gòu)約束,在正交驗(yàn)證中發(fā)現(xiàn)基于這種反向傳播的方式設(shè)計(jì)序列不能很好地對三維結(jié)構(gòu)進(jìn)行編碼,且上述三個工作均是基于給定骨架設(shè)計(jì)序列,限制了實(shí)際設(shè)計(jì)酶的應(yīng)用需求。后來Baker組提出的“幻想”(hallucination)的方法[44],不從給定骨架結(jié)構(gòu)出發(fā)設(shè)計(jì)序列,而是考慮在這種目標(biāo)結(jié)構(gòu)缺失的條件下,是否能隨機(jī)產(chǎn)生結(jié)構(gòu)和序列。其實(shí)現(xiàn)是通過最大化設(shè)計(jì)序列的結(jié)構(gòu)與隨機(jī)背景序列的差異約束,從而約束該序列折疊后的結(jié)構(gòu)具有一個典型的二維結(jié)構(gòu)特性[44]。實(shí)驗(yàn)中設(shè)想了2000條序列,聚類后發(fā)現(xiàn)均可以在已有的PDB結(jié)構(gòu)庫中尋找到相似的折疊。實(shí)驗(yàn)驗(yàn)證的時候有62條是可溶表達(dá)的(實(shí)驗(yàn)驗(yàn)證了129條),且CD的圓二色譜和目標(biāo)結(jié)構(gòu)的二級結(jié)構(gòu)分布吻合。相比傳統(tǒng)設(shè)計(jì)驗(yàn)證的方法,僅僅129條實(shí)驗(yàn)驗(yàn)證且有48%的成功率,極大地減少了人工驗(yàn)證的成本和時間。但是由于trRosetta精度有限以及二維結(jié)構(gòu)約束的不足,在接下來的工作中將RoseTTAFold嵌入到具有給定motif的序列設(shè)計(jì)中[45]。RoseTTAFold顯示利用SE-3 Transformer預(yù)測三維結(jié)構(gòu)坐標(biāo)以及二維距離分布,大大提高了序列設(shè)計(jì)的準(zhǔn)確性。在免疫相關(guān)蛋白中,成功設(shè)計(jì)出攜帶中和性抗體表位的蛋白以及與新冠病毒S突刺蛋白受體結(jié)合的ACE2類似物蛋白。后續(xù)提出的RFjoint,不再通過神經(jīng)網(wǎng)絡(luò)不斷迭代推理以及反向傳播來設(shè)計(jì)序列,而是將結(jié)構(gòu)預(yù)測和序列設(shè)計(jì)兩大任務(wù)結(jié)合起來,直接訓(xùn)練全新的模型[45]。這樣的好處是減少了反向推理時間,大大降低了設(shè)計(jì)的時間成本。

總的來說,結(jié)構(gòu)預(yù)測工具作為結(jié)構(gòu)“監(jiān)督器”,在設(shè)計(jì)過程中預(yù)測設(shè)計(jì)序列的可能結(jié)構(gòu),并利用該預(yù)測結(jié)構(gòu)和目標(biāo)結(jié)構(gòu)的差異作為損失優(yōu)化模型,使模型學(xué)習(xí)到要設(shè)計(jì)的目標(biāo)結(jié)構(gòu)信息,從而設(shè)計(jì)具有折疊到給定結(jié)構(gòu)能力的酶序列。當(dāng)然根據(jù)實(shí)際設(shè)計(jì)任務(wù)的目標(biāo)不同(比如結(jié)合口袋的區(qū)域等),可以將這部分信息掩蓋,在恢復(fù)序列的同時利用結(jié)構(gòu)預(yù)測工具預(yù)測其結(jié)構(gòu),則同時還能約束設(shè)計(jì)的酶從整體結(jié)構(gòu)環(huán)境中學(xué)習(xí)到關(guān)鍵的局部結(jié)構(gòu)。

3.2 突變“篩選器”

結(jié)構(gòu)預(yù)測工具還可以作為突變篩選器,在酶智能改造設(shè)計(jì)中作為一種輔助的結(jié)構(gòu)評價指標(biāo)篩選有益的或者不合適的殘基突變位點(diǎn)[如圖1(b)所示]。接下來的工作介紹還是以AlphaFold2為例。AlphaFold2輸出的結(jié)果分析可以提供有關(guān)新設(shè)計(jì)的局部骨架結(jié)構(gòu)的準(zhǔn)確性和可折疊性的關(guān)鍵信息,指示可能錯誤折疊的區(qū)域,并以此評估可以減輕錯誤折疊的突變。

Sarel Jacob Fleishman課題組[13]提出,現(xiàn)有功能蛋白設(shè)計(jì)方面由于錯誤折疊等導(dǎo)致的失敗使得可靠的高效酶從頭設(shè)計(jì)目標(biāo)仍然遙不可及,因此設(shè)計(jì)了一種改善設(shè)計(jì)蛋白中不是很合理的位置方法。該方法首先利用Rosetta進(jìn)行單點(diǎn)突變掃描,篩選有超過5種以上降低自然狀態(tài)能量突變的位置標(biāo)記為“次優(yōu)”位置。然后應(yīng)用FuncLib集中在這些低效率酶的“次優(yōu)”位置上設(shè)計(jì)突變,將催化效率提高了330倍。最后利用AlphaFold2預(yù)測的pLDDT得分和計(jì)算的RMSD標(biāo)記了可能錯誤折疊的區(qū)域,合理規(guī)避或者重新設(shè)計(jì)不合理區(qū)域,大大提高了其催化效率[13]。這種思路類似于1.1節(jié)中討論的根據(jù)殘基在當(dāng)前結(jié)構(gòu)環(huán)境中的“不合理”值,判斷是否要在此位點(diǎn)突變。該工作指出,AlphaFold2分析可以提供有關(guān)新設(shè)計(jì)的骨架結(jié)構(gòu)可能的準(zhǔn)確性和可折疊性的關(guān)鍵信息,指示可能錯誤折疊的區(qū)域,并評估旨在減輕錯誤折疊的突變。

在設(shè)計(jì)領(lǐng)域,有工作通過引入pAE等來自AlphaFold2的結(jié)構(gòu)指標(biāo)作為“篩選器”,為4個靶點(diǎn)受體蛋白設(shè)計(jì)了2萬條伙伴(binder)序列,并且做了相應(yīng)的實(shí)驗(yàn)合成[88]。最后發(fā)現(xiàn)基于pAE指標(biāo)相比傳統(tǒng)的Rosetta打分,篩選后的序列成功率在IL2RA以及LTK靶點(diǎn)上數(shù)量差異分別達(dá)到了8倍、30倍。這一數(shù)量變化證明了利用結(jié)構(gòu)預(yù)測工具作“篩選器”的有效性。

3.3 結(jié)構(gòu)“分析器”

結(jié)構(gòu)預(yù)測工具還可以作為一種輔助的結(jié)構(gòu)分析,從預(yù)測的結(jié)構(gòu)上分析其背后存在的催化機(jī)理,結(jié)合特異性等[圖1(c)右]。通過分析突變體結(jié)構(gòu)(AlphaFold2預(yù)測)與底物結(jié)合的復(fù)合物結(jié)構(gòu),來檢驗(yàn)突變策略是否合適[91-94]。Martin Bartas則利用AlphaFold2成功預(yù)測蛋白質(zhì)結(jié)構(gòu)庫,通過結(jié)構(gòu)相似尋找具有Zα結(jié)構(gòu)域(高結(jié)構(gòu)保守,與Z-DNA/ZRNA結(jié)合形成)的蛋白結(jié)構(gòu)[95]。這種蛋白在相關(guān)文獻(xiàn)報道中僅有8個,但是由于AlphaFold2對蛋白結(jié)構(gòu)庫的豐富,發(fā)現(xiàn)了185個推定可能有該結(jié)構(gòu)域的蛋白質(zhì)結(jié)構(gòu)。Xin Fengjiao課題組[96]利用AlphaFold2預(yù)測出酶序列的高精確度的合理結(jié)構(gòu),從結(jié)構(gòu)角度上分析其催化性能,在與底物結(jié)合口袋附近的位點(diǎn)上進(jìn)行合理突變,發(fā)現(xiàn)了高催化效率和或底物偏好性擴(kuò)大的突變體。

還有研究工作利用AlphaFold2研究不同的構(gòu)象變化[圖1(c)左]。AlphaFold2雖然在單體結(jié)構(gòu)上訓(xùn)練,但是可被成功應(yīng)用在多肽與蛋白質(zhì)的復(fù)合物結(jié)構(gòu)預(yù)測中[97]。因此,合理推斷AlphaFold2學(xué)習(xí)到了蛋白質(zhì)在功能改變過程中構(gòu)象的動態(tài)集合或者是由于突變導(dǎo)致的構(gòu)象改變。有工作利用不同深度的MSA輸入到AlphaFold2中去研究這種構(gòu)象的異質(zhì)性(conformational heterogeneity)[89]。Guillem Casadevall提出了一種新的觀點(diǎn),將基于AlphaFold2的新模板策略結(jié)合分子動力學(xué)模擬,發(fā)現(xiàn)不同突變的色氨酸合酶的β亞基(TrpB)結(jié)構(gòu)域的一些不同閉合模式[90]。

4 討 論

本文從頭梳理了酶改造設(shè)計(jì)在利用人工智能技術(shù)方面的一系列工作,指出現(xiàn)有工作中存在的錯誤折疊甚至無法折疊導(dǎo)致失敗,以及設(shè)計(jì)大量序列需要人工實(shí)驗(yàn)驗(yàn)證的成本問題。同時基于現(xiàn)有蛋白質(zhì)結(jié)構(gòu)預(yù)測工具的高效快速預(yù)測性,可以作為結(jié)構(gòu)“分析器”、突變“篩選器”、折疊“監(jiān)督器”在設(shè)計(jì)過程中幫助提高酶的“可折疊性”。正因?yàn)榭紤]“可折疊”能力,設(shè)計(jì)的新酶的質(zhì)量相比傳統(tǒng)大量序列中質(zhì)量較高,幫助后續(xù)的實(shí)驗(yàn)驗(yàn)證降低成本的同時又提高了成功率。值得注意的是,這里面結(jié)構(gòu)預(yù)測工具與酶設(shè)計(jì)工具共同采用,結(jié)構(gòu)預(yù)測工具本身只是作為輔助任務(wù)。我們在討論結(jié)構(gòu)預(yù)測工具應(yīng)用的時候,是以AlphaFold2[14]為代表展開介紹的。

在介紹應(yīng)用的時候,我們歸納了三種應(yīng)用方式。這三種應(yīng)用的前提均是認(rèn)為AlphaFold2這類蛋白質(zhì)結(jié)構(gòu)預(yù)測工具學(xué)習(xí)到了蛋白質(zhì)序列到結(jié)構(gòu)的復(fù)雜關(guān)系,對蛋白質(zhì)結(jié)構(gòu)的全局以及局部結(jié)構(gòu)預(yù)測的準(zhǔn)確度是可信的。隨著越來越多結(jié)構(gòu)預(yù)測工具的開發(fā),根據(jù)不同任務(wù)(無同源序列)、不同數(shù)據(jù)類型(α螺旋結(jié)構(gòu)比例較高)等,可以將AlphaFold2替換成其他的結(jié)構(gòu)預(yù)測工具。例如上面提到的David Baker組提出的RFjoint[45]采用的就是該組提出的結(jié)構(gòu)預(yù)測工具RoseTTAFold[84]。

關(guān)于智能方法的引用,相比傳統(tǒng)方法,既大大減少了采樣空間的計(jì)算量,又有非常優(yōu)異的計(jì)算準(zhǔn)確度,在酶的智能合成改造中的應(yīng)用是非常具有研究前景的,也是有所突破的。但同時不可忽視的是,一些問題仍然存在且限制了進(jìn)一步的酶功能研究。

第一個難點(diǎn)是如何將酶在具體參與生物過程中的反應(yīng)機(jī)制等融入到智能算法的設(shè)計(jì)中。我們知道,生物反應(yīng)是十分復(fù)雜的,甚至還有一些特異性或者混雜性。如何讓模型學(xué)習(xí)到這種模式或者規(guī)則,仍然是需要繼續(xù)探索的問題。不過好在現(xiàn)有的一些工作中已經(jīng)開始嘗試探索。例如:AlphaFold2中更新殘基配對特征的時候采用的三角乘法更新,就是從我們理解的兩邊之和大于第三邊這種距離上的約束來限制殘基對在空間上的距離,從而確保更新殘基捕捉合理的結(jié)構(gòu)模式。又比如RFDesign中設(shè)計(jì)免疫相關(guān)蛋白設(shè)計(jì),那么如何將免疫相關(guān)蛋白擁有的廣譜性結(jié)合能力這一先驗(yàn)知識加入到計(jì)算蛋白設(shè)計(jì)中呢?文中考慮結(jié)合時的受體環(huán)境,設(shè)計(jì)基于三維結(jié)構(gòu)坐標(biāo)的能量項(xiàng)來表示吸引力、排斥力以及具有的球形形狀三種特性。

第二個難點(diǎn)是對于深度學(xué)習(xí)模型來說,從海量數(shù)據(jù)中挖掘模式是合適的。但是現(xiàn)有的狀況是酶的相關(guān)數(shù)據(jù)量小,沒有統(tǒng)一的標(biāo)準(zhǔn)格式,是有冗余的。當(dāng)然這也與特定學(xué)科有關(guān)系。很多研究工作利用遷移學(xué)習(xí)來解決數(shù)據(jù)量小的問題,比如DeepET在大的蛋白質(zhì)序列-最佳生長溫度(OGT)數(shù)據(jù)集上訓(xùn)練模型,然后遷移到預(yù)測酶的最佳催化溫度和蛋白質(zhì)的熔融溫度[98]?;蛘呃米匀徽Z言處理(NLP)中廣泛使用的大規(guī)模語言預(yù)訓(xùn)練模型學(xué)習(xí)序列的表示,然后小數(shù)據(jù)集上微調(diào),進(jìn)行一些功能預(yù)測[21,26]。

第三是關(guān)于蛋白質(zhì)設(shè)計(jì)方面的。在實(shí)際應(yīng)用中,研究者希望利用深度學(xué)習(xí)設(shè)計(jì)的酶序列具有可設(shè)計(jì)且可折疊性?,F(xiàn)有酶序列設(shè)計(jì)的精度并不高,雖然利用智能算法有效降低實(shí)驗(yàn)室實(shí)驗(yàn)測定的成本,但是設(shè)計(jì)出來的序列能否被表達(dá)、能否折疊,都是需要被重點(diǎn)研究的。本文探討蛋白質(zhì)結(jié)構(gòu)預(yù)測工具在這方面的應(yīng)用,就是希望能幫助提高可折疊性酶的設(shè)計(jì)。對于沒有同源序列的酶設(shè)計(jì)結(jié)構(gòu),快速有效的結(jié)構(gòu)預(yù)測是有必要的。這或許可以應(yīng)用現(xiàn)有的單序列蛋白質(zhì)結(jié)構(gòu)預(yù)測工具,包括TRFold、ESMFold、trRosettaX-Single、OmegaFold等。上面的工作表明這確實(shí)是一種可行性的方法,但是僅從最后結(jié)構(gòu)的約束或者評價中利用結(jié)構(gòu)預(yù)測的指標(biāo)表明錯誤折疊的區(qū)域,還是很有限的。最近David Baker團(tuán)隊(duì)提出的RFDiffusion,通過逐步對加了噪聲的結(jié)構(gòu)去噪一步步恢復(fù)其結(jié)構(gòu),提出一種新的設(shè)計(jì)可能。酶的設(shè)計(jì)不再是局限于給定結(jié)構(gòu)或者給定拓?fù)?、給定功能的描述,直接設(shè)計(jì)給定功能且可靠的酶,值得期待。

第四是針對現(xiàn)有酶結(jié)構(gòu)數(shù)據(jù)的。蛋白質(zhì)序列和結(jié)構(gòu)的數(shù)量差異是非常巨大的。不管最初的目的是什么,酶設(shè)計(jì)改造最終是希望設(shè)計(jì)出一個結(jié)構(gòu)從而發(fā)揮相應(yīng)的功能的。借助以AlphaFold2為代表的高效快速的結(jié)構(gòu)預(yù)測工具,可以大幅度擴(kuò)展酶的結(jié)構(gòu)數(shù)據(jù),從而分析結(jié)構(gòu)上的差異,理解蛋白功能機(jī)制。同時海量結(jié)構(gòu)數(shù)據(jù)直接使從結(jié)構(gòu)環(huán)境中分析殘基類型成為可能。

總之,人工智能技術(shù)的突破是驚人的,如何巧妙借助這股東風(fēng)的力量高效且快速解決酶改造設(shè)計(jì)的相關(guān)問題,是非常具有研究前景的。

猜你喜歡
殘基蛋白質(zhì)預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動力學(xué)與關(guān)鍵殘基*
蛋白質(zhì)自由
肝博士(2022年3期)2022-06-30 02:48:48
選修2-2期中考試預(yù)測卷(B卷)
選修2-2期中考試預(yù)測卷(A卷)
人工智能與蛋白質(zhì)結(jié)構(gòu)
海外星云(2021年9期)2021-10-14 07:26:10
“殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
不必預(yù)測未來,只需把握現(xiàn)在
蛋白質(zhì)計(jì)算問題歸納
蛋白質(zhì)二級結(jié)構(gòu)序列與殘基種類間關(guān)聯(lián)的分析
吉木萨尔县| 汉寿县| 高碑店市| 磴口县| 娄烦县| 资阳市| 杭锦后旗| 左贡县| 冀州市| 陆川县| 永仁县| 吴忠市| 怀来县| 平潭县| 西平县| 胶南市| 固始县| 湘乡市| 义马市| 阳信县| 河南省| 张北县| 新丰县| 瓦房店市| 海原县| 拜泉县| 龙门县| 寿阳县| 长武县| 永嘉县| 雅安市| 铁岭市| 西乌珠穆沁旗| 昌平区| 桂阳县| 兰坪| 应用必备| 双城市| 桃源县| 陆河县| 常德市|