酶工程：從人工設(shè)計到人工智能

2021-07-24 08:58王雅麗付友思陳俊宏黃佳城廖浪星張永輝方柏山

化工學報 2021年7期

王雅麗，付友思，陳俊宏，黃佳城，廖浪星，張永輝，方柏山，2，3

（1 廈門大學化學化工學院，福建廈門361005； 2 廈門市合成生物學重點實驗室，福建廈門361005； 3 福建省化學生物學重點實驗室，福建廈門361005； 4 集美大學食品與生物工程學院，福建廈門361021）

引言

1878 年，Kuhne 首次提出了“酶（enzyme）”的概念。隨后，1894 年，F(xiàn)ischer 給出了酶催化“l(fā)ock and key”模型假設(shè)[1]，后于1902 年獲得諾貝爾化學獎。Sumner 是首個發(fā)現(xiàn)酶可以被結(jié)晶的科學家，他于1926 年成功分離和結(jié)晶了第一個酶——脲酶[2]，胃蛋白酶[3]、煙草花葉病毒核蛋白[4]的高純度蛋白晶體緊隨其后分別被Northrop 和Stanley 制備獲得，三人共同獲得了1946 年的諾貝爾化學獎。晶體結(jié)構(gòu)解析上的突破不僅讓人們對酶的分子結(jié)構(gòu)有了初步的認識，并很快被應用于輔助蛋白序列鑒定。Sanger 在前期研究基礎(chǔ)上，于1952 年成功報道了胰島素A 鏈和B 鏈的完整氨基酸序列[5-6]，并于1958 榮獲諾貝爾化學獎。

隨著越來越多的天然酶被分離純化和結(jié)晶鑒定[7-8]，科學家們又提出了誘導嵌合（induced-fit）[9-10]和keyhole-lock-key 模型[11]，進而更好地解釋了不同催化域的酶催化過程。酶氨基酸序列與功能之間的關(guān)系也開始被關(guān)注。定向進化[12]、隨機突變[13]、定點突變[14]、同源重組[15]等方法被應用到了酶工程中，并獲得了很多表現(xiàn)優(yōu)異的生物催化劑應用在化學和藥物生物合成、生物傳感器、食品生產(chǎn)、生物降解等領(lǐng)域[16-17]。

早在20世紀末期，計算機便被應用到了酶的預測改造和設(shè)計中[18]。Karplus, Levitt 和Warshel 三位教授，因其在復雜化學體系多尺度模型計算上作出的貢獻獲得了2013 年的諾貝爾化學獎。Arnold 憑借在生物酶的定向進化上作出的貢獻，2018 年斬獲此獎。Baker 開發(fā)了蛋白結(jié)構(gòu)從頭預測工具Rosetta[19]，開啟了蛋白從頭設(shè)計的時代[20-21]。最近，Baker因其開發(fā)的蛋白從頭設(shè)計工具，榮獲了2021年生命科學重大突破獎（Breakthrough Prize in Life Sciences）。

用計算機設(shè)計酶，主要圍繞著酶的催化活性、結(jié)構(gòu)穩(wěn)定性、底物選擇性和可溶性表達以及從頭設(shè)計等方面展開[22-23]。早在70 多年前，Pauling[24]就提出天然酶的改造需求，由于蛋白序列空間的開闊性和對蛋白序列與結(jié)構(gòu)之間關(guān)系認識的局限性，計算機酶改造工程一直在與時俱進[25]。本文對不同的人工設(shè)計酶的設(shè)計方法和分子力場、再設(shè)計和從頭設(shè)計在酶的設(shè)計中的相關(guān)成果，以及人工智能在酶設(shè)計中的方法與案例進行了綜述。

1 人工設(shè)計酶的關(guān)鍵因素

1.1 分子力場

分子力場的核心是用來描述分子結(jié)構(gòu)與系統(tǒng)能量之間關(guān)系的勢能公式組合。力場（force field）可以用來計算分子間和分子內(nèi)的能量，計算酶和底物之間的親和力，預測側(cè)鏈的位置[26]。一個經(jīng)典的經(jīng)驗力場（empirical force field）能量公式集合了鍵能、鍵角、二面角、非平面二面角、電荷分布涉及的能量。經(jīng)典模型和其微調(diào)模型可以在QM/MM 計算[27]中較為準確地描述生物分子結(jié)構(gòu)。目前大多數(shù)在使用的生物分子力場例如GROMOS[28]、CHARMM[29]、AMBER[30]和OPLS[31]等都主要是使用這些子項來計算能量。Rosetta 是一種基于知識的（knowledge-based）力場[32]，其中加入了重新統(tǒng)計獲得的勢能和通過實驗獲得的數(shù)據(jù)作為額外的勢能項。Alford 等[33]對最新的Rosetta 能量函數(shù)(REF15)做出了詳細的介紹。

根據(jù)對原子定義的范圍，力場又分為全原子力場和聯(lián)合原子力場，其中全原子力場里定義了所有的原子，而聯(lián)合原子力場則只定義了重原子和極性氫原子，例如CHARMM、AMBER 和Rosetta 均是全原子力場，GROMOS 則是聯(lián)合原子力場，而OPLS 力場則包含有全原子和聯(lián)合原子兩個版本。Mackerell[26]是CHARMM 力場的開發(fā)者之一，他對生物大分子經(jīng)驗力場做了詳細的介紹和討論。

要實現(xiàn)酶的精準設(shè)計，需要能夠準確地設(shè)計活性位點的側(cè)鏈構(gòu)象、柔性結(jié)構(gòu)如loop 構(gòu)象以及反應過渡態(tài)中原子方位朝向，還要計算靜電相互作用、分子與溶劑之間的相互作用和熵損失[21]等。力場函數(shù)的準確性對酶的設(shè)計具有至關(guān)重要的作用。精確地描述每個原子的成鍵和位置是科學家向往的理想狀態(tài)。時至今日，并沒有一個能夠100%準確描述分子實際能量的力場，很多力場開發(fā)工作者也正在為提高力場的準確性而共同努力[34-36]。

1.2 設(shè)計酶的方法

圖1 RosettaDesign和IPRO酶的再設(shè)計流程[22]Fig.1 The enzyme redesign computational workflow of RosettaDesign and IPRO [22]

Anfinsen[37]提出的熱力學假設(shè)——蛋白會朝著能量最低的方向去折疊是計算機設(shè)計酶遵循的基本法則。總的說來，酶的計算設(shè)計與篩選過程即是一個不斷向系統(tǒng)能量更低的折疊方式進行搜索的過程[38]。

常用全原子模型設(shè) 計軟件包有RosettaDesign[39]、PoreDesigner[40]、IPRO[41]等。圖1 是以RosettaDesign 和IPRO 為例的一個酶的再設(shè)計流程圖[22]，步驟依次為：將底物對接進酶（dock）、固定催化活性位點氨基酸（ensure）、鑒定出底物結(jié)合位點氨基酸（substrate）、調(diào)整附近氨基酸殘基的側(cè)鏈位置（adjacent），設(shè)計序列（design）、能量最小化（energy minimization）、給設(shè)計的酶打分排序（rank）。RosettaDesign 和IPRO 的區(qū)別在于，前者在序列設(shè)計時利用的是蒙特卡羅法隨機模型，IPRO 則利用了MILP（mixed-integer linear optimization）定向采樣，是一個蛋白設(shè)計和優(yōu)化迭代的過程[41]。

酶的再設(shè)計相比酶的從頭設(shè)計成功率更高。換而言之，酶的從頭設(shè)計的流程更為復雜、難度更大。新酶的從頭設(shè)計的流程圖如圖2[42]。在設(shè)計之前，需要研究者對反應的過渡態(tài)和最簡化的活性位點有一定的認識，這幾個活性位點一般被稱為“theozyme”，這個活性位點的分布要求在底物周邊且有足夠的空間來激發(fā)反應。由于反應的過渡態(tài)實際只發(fā)生在短短的幾個飛秒之內(nèi)[43-44]，這個過渡態(tài)一般以已知晶體結(jié)構(gòu)酶的過渡態(tài)類似物作為出發(fā)點，或者通過QM 計算來合理分布這個簡化模型的過渡態(tài)的位置。確定了中心活性位點的位置后，接下來利用RosettaMatch 模塊嘗試將這個最簡化的活性位點置于合適的骨架里[45]，然后進行多個循環(huán)的序列設(shè)計和蛋白優(yōu)化，對獲得的設(shè)計進行排序打分，最后挑選高分的設(shè)計進行實驗驗證。

Baker[21]認為計算機從頭設(shè)計酶的成功率低有三個原因:①模擬催化活性位點的模型并不準確；②設(shè)計的酶在催化位點上的位置與實際的有偏差；③在活性位點設(shè)計正確的情況下，也會由于周圍氨基酸的長程靜電和動力學的問題使得催化效率不高或無法進行[21]。Baker 等[33]不斷地優(yōu)化勢能函數(shù)、累積設(shè)計與實驗的經(jīng)驗嘗試來解決這些難題。最近，Baker 等[46]開發(fā)一種基于氫鍵網(wǎng)絡(luò)的計算方法設(shè)計蛋白催化中心的網(wǎng)絡(luò)連接，此方法不僅將過渡態(tài)的作用網(wǎng)絡(luò)考慮在內(nèi)，也將催化位點周圍的長程氫鍵網(wǎng)絡(luò)考慮進來，有望成為設(shè)計整裝（fullypreorganized）酶催化劑的起點。

1.3 篩選評估方法

利用計算機設(shè)計酶的優(yōu)勢在于能夠提供數(shù)量巨大的變體庫，而如何快速又準確地從庫中篩選目標樣本是一個重要的科學問題[47]。隨著X 射線晶體學[48]、核磁共振的發(fā)展[49]和冷凍電子顯微鏡（cryo-EM）進入原子分辨率時代[50]，PDB數(shù)據(jù)庫[51]里已經(jīng)積累了大量高分辨率蛋白三維結(jié)構(gòu)信息。通過計算機學習現(xiàn)有的數(shù)據(jù)庫里序列與結(jié)構(gòu)之間的關(guān)系，有許多算法被開發(fā)出來，從不同的角度來篩選目標蛋白。

圖2 新酶的從頭設(shè)計流程示意圖[42]Fig.2 Schematic representation of the de novo design of new enzyme [42]

SCHEMA 是一個可用于結(jié)構(gòu)域重組的打分函數(shù)，在替換親本蛋白的同源序列元素時，能夠按蛋白結(jié)構(gòu)的最小破壞度去劃分區(qū)塊[52]。SCHEMA 重組算法在酶的重組型改造中能夠幫助預測酶和突變庫的結(jié)構(gòu)穩(wěn)定性[53]，提升序列多樣性、進而超越親本的性質(zhì)[54]。Arnold等[55]在此基礎(chǔ)上，開發(fā)出非連續(xù)序列元素的重組方法。

Straub 等[56]利用學習已經(jīng)解析的蛋白晶體結(jié)構(gòu)里不同氨基酸的側(cè)鏈的位置和方向，發(fā)展了一種分析勢能，來預測給定蛋白序列的三維折疊構(gòu)象。Lin等[57]開發(fā)的分析勢能學習的是親緣生物的同源蛋白多序列比對的共進化信息，該打分系統(tǒng)能夠評估一個計算獲得的結(jié)構(gòu)和已知結(jié)構(gòu)在折疊中的一致性。DrugScore[47]是一個學習了159個酶與配體復合體結(jié)構(gòu)得到的勢能公式，它可以通過熵值貢獻度等因素來預測和評估配體在酶活性中心的構(gòu)象。ABACUS2 是Liu 等[58]開發(fā)的基于骨架的蛋白結(jié)構(gòu)序列篩選設(shè)計工具。TMFoldRec[59]的重點則是預測跨膜分子的折疊。除了上述這些基于學習已有結(jié)構(gòu)開發(fā)的分析勢能之外，Rosetta3[60-61]、Osprey[62]、Tinker 8[63]、TransCent[64]和IPRO[41]則是將構(gòu)象搜索算法和打分算法等融合起來的多功能工具包。此外，還有一些優(yōu)化模型例如OptGraft[65]和OptZyme[66]，前者的思想是將結(jié)合位點轉(zhuǎn)移到已知的骨架上進行酶的改造，后者是利用活性位點過渡態(tài)類似物進行酶的再設(shè)計。

在實驗驗證中，計算機設(shè)計的蛋白和酶，實驗驗證時常存在錯誤折疊和聚集。Fleishman 等[67]針對性地開發(fā)一個開源的基于結(jié)構(gòu)和序列的算法能夠提高計算機設(shè)計的蛋白異源表達溶解性和穩(wěn)定性。Goldenzweig等[68]對計算機設(shè)計里蛋白穩(wěn)定性的研究原理的應用做了詳細的闡述。

自然界中的天然酶都是經(jīng)過漫長的進化而來，其催化位點附近存在有相當復雜相互作用網(wǎng)絡(luò)，有不同帶電量的氨基酸巧妙布局來提高質(zhì)子傳遞效率，這也正是計算機設(shè)計的酶成功率低，初始催化活性低的原因。通過學習已知的晶體結(jié)構(gòu)提升篩選算法的準確性、借助人工智能提升蛋白結(jié)構(gòu)預測的準確性，將會大大縮短酶的設(shè)計中耗時耗力的實驗室篩選優(yōu)化過程，能夠提高未來酶設(shè)計的速度和精確度。

2 人工設(shè)計酶的案例

近些年來，科學家們已經(jīng)在計算機蛋白設(shè)計里做出了很多努力，積累了很多成功的案例。通過計算機設(shè)計能提升酶的活性[69-70]，改變輔酶特異性[71-73]、底物特異性[74]和立體選擇性[75]，研究蛋白間的相互作用設(shè)計蛋白抗體[76-77]，設(shè)計大分子的蛋白自組裝復合體[78-81]，設(shè)計具有新功能的酶[82-85]。

2.1 酶的再設(shè)計

酶的再設(shè)計是在天然酶的基礎(chǔ)上，利用計算機進行再改造的過程。

Ehren 等[86]基于序列和結(jié)構(gòu)信息組合遞歸誘變和機器學習的方法，使Sphingomonas capsulata來源的脯氨酸內(nèi)切酶(PEP)在模擬胃液條件下對胃蛋白酶的抵抗性增加了200 倍，PEP 的絕對酶活提升了20%。

Khoury 等[71]在前期的實驗中，通過突變實驗改變了木糖還原酶的輔酶特異性，在此基礎(chǔ)上利用一個線性規(guī)劃算法綜合范德華力、靜電力、溶劑效應來描述輔酶與輔酶結(jié)合能大小，提高酶與NADH 的結(jié)合能的同時降低其與NADPH 的結(jié)合能。最終對8000 個可能突變體進行采樣后，獲得10 個輔酶NADH 親和性提升的酶，其中有8 個酶的NADPH 依賴性降低了90%以上。

Grisewood 等[74]同樣基于結(jié)構(gòu)指導突變，利用優(yōu)化算法篩選具有潛力的突變體，最終特異性地提升了Acyl-ACP 硫酯酶水解中鏈（C8～C12) 脂肪酸的選擇性。Wijma 等[75]利用計算機設(shè)計催化位點，構(gòu)建了一個小樣本突變庫，計算篩選后挑選了37個突變體進行實驗驗證，最終獲得了高對映體選擇性生產(chǎn)二元醇的檸檬烯環(huán)氧化物水解酶突變體。

在酶的熱穩(wěn)定性提升上，Janssen 等在多種天然脫鹵酶的改造中運用其提出的FRESCO 策略[87]，獲得了很多成功案例[88-89]。

Arnold 等將SCHEMA 應用在beta-內(nèi)酰胺酶[53]、人源精氨酸酶I和II[90]、真菌來源的木質(zhì)纖維素酶[91]等的連續(xù)序列元素的重組改造中，均獲得優(yōu)異的突變體。

Li等[92]利用Rosetta設(shè)計軟件對芽孢桿菌來源的天冬氨酸酶YM55-1 進行基于已有骨架的再設(shè)計，獲得的再設(shè)計的酶能夠催化碳-碳雙鍵的不對稱氫胺化，生產(chǎn)中酶的底物耐受濃度高達300 g/L，轉(zhuǎn)化率、區(qū)域選擇性、立體選擇性均超99%。

以天然的酶骨架作為設(shè)計基礎(chǔ)，結(jié)合前期的實驗數(shù)據(jù)和理解總結(jié)，是計算機介入酶的設(shè)計的起點，越來越多地應用于實際酶的改造生產(chǎn)。

2.2 從頭設(shè)計

從簡單的αβ 折疊[93]，到重復單元蛋白（repeat protein）[94]、自組裝的纖維蛋白[78]、跨膜蛋白[95]、白細胞介素模擬物[96]，再到最新的SARS-CoV-2 病毒蛋白抑制劑[76]，Baker 及其團隊在從頭設(shè)計的領(lǐng)域一路披荊斬棘。蛋白序列空間示意如圖3（a），Rosetta 從頭設(shè)計方法如圖3（b）。以一個200個氨基酸的天然蛋白為例，應該有20200個可能的氨基酸序列，而在自然進化過程中得到的天然蛋白只是對其中極小的一部分進行采樣，定向進化方法擴大了序列采樣空間，而蛋白的從頭設(shè)計就是基于指導蛋白折疊的物理原理探索蛋白全序列的空間?？茖W家們希望利用從頭設(shè)計的方法設(shè)計出自然界沒有的蛋白，進而解決能源和醫(yī)療中人類共同面臨的挑戰(zhàn)。

2008 年，Baker 等基于從頭設(shè)計的方法，成功設(shè)計出接近原子級精確度的非天然酶——Kemp 消除酶[85]和Retro-Aldol 酶[84]，這是計算機科學和酶工程的一個重要里程碑。

圖3 蛋白的從頭設(shè)計方法[97](a)蛋白序列空間示意圖;(b)結(jié)構(gòu)預測、固定骨架設(shè)計、從頭設(shè)計方法Fig.3 Methods for de novo protein design[97](a)a schematic of the protein sequence space;(b)structure prediction,fixed-backbone design and de novo protein design methods

圍繞Kemp 消除酶，Khersonsky 等[98-100]又展開了很多的研究來提升其催化效率。選擇Glu、Trp、Ser和His-Asp、Phe、Ser 兩種模式的催化位點，結(jié)合多種的骨架設(shè)計多輪突變，最終獲得的最優(yōu)突變體的kcat/Km值大于105L/（mol·s），較原始設(shè)計酶提升了5個數(shù)量級。Blomberg 等[101]利用Asp、Trp、Ser 三個氨基酸為原始活性位點，將Kemp 消除酶HG3 引入一個已知結(jié)構(gòu)的耐高溫的木聚糖酶（PDB:1GOR）骨架,通過骨架修飾和多次突變，獲得的HG3.17 突變體使得底物（5-nitrobenzisoxazole）的質(zhì)子傳遞速度提升了6×108倍，獲得的晶體結(jié)構(gòu)也與設(shè)計的結(jié)構(gòu)幾乎一致。

Diels-Alder 反應是一個一步完成的環(huán)加成有機反應，Siegel 等以Gln、Tyr 為活性位點，在二異丙基氟代磷酸酶（diisopropyl-fluorophosphatase）的骨架上設(shè)計出了具有高選擇性和底物特異性的Diels Alderase[102]，隨后又用Fodit 進行骨架重構(gòu)，酶活提升了18倍[103]。?widerek 等[42]對利用計算機設(shè)計的具有不同新功能的酶的發(fā)展、針對同一個反應不同的研究人員采用的不同算法和活性位點處理方式做了詳細的介紹。

Lapidoth 等[104]將TIM-barrel 骨架按不同的方式進行拼接獲得不同的骨架，再將活性位點引入，通過序列設(shè)計、應用可溶性提升算法，分別設(shè)計了43個木聚糖酶（glycoside hydrolase 10 xylanases,GH10）和34 個類磷酸三酯內(nèi)脂酶（phosphotriesterase-like lactonases，PLL），最終獲得21個GH10 和7個PLL設(shè)計具有催化活性，其中最優(yōu)的四個設(shè)計的酶活性與其家族的天然酶相當。

金屬離子在天然酶中扮演著重要的作用，自然界中有幾乎半數(shù)的酶是結(jié)合了金屬的蛋白，所以金屬酶的從頭設(shè)計也是從頭設(shè)計研究的熱點[105-106]。金屬蛋白的主要特征就是作為一個金屬配體復合體固定在宿主的生物分子上，固定的方式分共價鍵結(jié)合和非共價鍵結(jié)合，其中共價鍵結(jié)合往往是金屬離子通過一個半胱氨酸殘基成鍵[107]。

很多現(xiàn)代蛋白從原始序列印記追溯分析其起源似乎是簡單的多肽。為了探究金屬酶的進化過程，Studer 等[108]從一個具有酯鍵水解功能的多肽MID1出發(fā)，通過計算機設(shè)計，將MID1改造成能自組裝成同源二聚體結(jié)構(gòu)且擁有兩個鋅離子結(jié)合位點的多肽，又利用Gly-Ser-Gly 將二聚體亞基相鄰的N和C 端連接起來，按照計算結(jié)果替換離連接肽較遠端的鋅離子結(jié)合位點，獲得的變體MID1sc不僅能夠結(jié)合一個二價鋅離子，且擁有與初始多肽相似的催化乙酸對硝基苯酯水解的活性。

Bos 等[109]以環(huán)戊二烯與氮雜查爾酮類為底物的Diels–Alder反應為基礎(chǔ)，在乳球菌多藥耐藥調(diào)節(jié)劑LmrR的二聚體界面上引入活性位點，使用半胱氨酸偶聯(lián)策略，將銅(Ⅱ)菲咯啉復合物共價錨定在蛋白質(zhì)的疏水性口袋中。合成的全新人工金屬酶表現(xiàn)出高達97%的對映體選擇性和非對映體選擇性。

以人工金屬蛋白為例，完全從頭設(shè)計和基于已知蛋白的再設(shè)計的邊界并不是特別地清晰[110]。此外，盡管已經(jīng)在計算機設(shè)計酶上有了很多成功案例，但是酶的設(shè)計因其復雜性依然是非常具有挑戰(zhàn)的工作。

3 人工智能酶設(shè)計

2020年12月，AlphaFold2在第14屆國際蛋白質(zhì)結(jié)構(gòu)預測競賽（CASP14）上向世界展示了人工智能在蛋白結(jié)構(gòu)預測上可與核磁共振或X 射線晶體學、冷凍電子顯微鏡等實驗技術(shù)相媲美的高正確率。機器學習（machine learning）是一種實現(xiàn)人工智能的方法，而深度學習（deep learning）是機器學習的子領(lǐng)域。與傳統(tǒng)的以生物物理知識為基礎(chǔ)的計算機設(shè)計方法不同，以深度學習[111]為例，在訓練蛋白序列和結(jié)構(gòu)時，不需要對蛋白的結(jié)構(gòu)功能有深入的了解，便能尋找最好的折疊方式，預測蛋白的結(jié)構(gòu)和功能，甚至是構(gòu)建自然界未有的蛋白。

基于機器學習的酶設(shè)計方法流程如圖4 所示[112]，一般分為三個步驟。首先，數(shù)據(jù)準備與拆分，從實驗中獲得的大量數(shù)據(jù)被合理地統(tǒng)計于表中，之后將數(shù)據(jù)分為訓練集（training set）與測試集（test set）兩部分；其次，預測方法在訓練集中進行模型訓練；最后，利用測試集數(shù)據(jù)對模型進行測試與驗證。

機器學習技術(shù)目前已經(jīng)被應用于輔助預測酶結(jié)構(gòu)設(shè)計[113]，通過從蛋白酶數(shù)據(jù)中尋找特征模式（pattern model），以提高酶的穩(wěn)定性、可溶性和活性，以及預測酶底物特異性[114]。

圖4 構(gòu)建機器學習預測器的工作流程和相關(guān)挑戰(zhàn)[112]Fig.4 Schematic workflow of constructing an machine learning predictor and associated challenges [112]

UniRep（unified representation）是Alley 等[115]開發(fā)的一種深度學習的方法。計算機通過學習無標簽的氨基酸序列，將提取蛋白的特征值變成一個富含有結(jié)構(gòu)信息、進化信息和生物物理信息的統(tǒng)計表示（statistical representation）。Alley 等認為UniRep在預測自然界中或從頭設(shè)計的蛋白的結(jié)構(gòu)穩(wěn)定性和定量突變體功能上接近最高水準。

Tallorin 等[116]基于機器學習方法開發(fā)了一種鑒定酶的特異性短肽（8～20 個氨基酸殘基）底物的方法——POOL（peptide optimization with optimal learning）。POOL 利用迭代機器學習方法，在輸入實驗數(shù)據(jù)后，數(shù)學算法將會選擇具有潛力的短肽底物作為接下來實驗的對象，并且新的實驗數(shù)據(jù)也會用于未來的算法優(yōu)化過程。研究人員將該方法應用于鑒定兩類4'-磷酸泛酰巰基乙胺基轉(zhuǎn)移酶（4'-phosphopantetheinyl transferase, PPTase）的短肽底物，這些短肽底物符合下列標準：可被PPTase 于保守的絲氨酸位點共價修飾來自CoA 的磷酸泛酰巰基乙胺；具備正交性，給定的短肽只能是某一類PPTase 的底物而非另一類的底物。通過POOL 方法，研究人員鑒定出了Sfp 類酶（來源于Bacillus subtilis的表面活性素磷酸泛酰巰基乙胺基轉(zhuǎn)移酶）及AcpS 類酶（來源于Streptomyces coelicolor的全酰基載體蛋白合成酶）的短肽底物，并在纖維素膜陣列上利用形成圖樣（“A”或“S”）的方式證實了兩類酶的短肽底物的良好正交性。

基于蛋白質(zhì)序列及功能進行訓練的機器學習方法可以在無物理或生物學等先驗知識的情況下，推斷未知蛋白質(zhì)序列的生物學特性，也能夠預測和發(fā)現(xiàn)具有功能的蛋白質(zhì)。Yang 等[117]提出使用蛋白質(zhì)嵌入序列（embedding sequence）作為機器學習的輸入數(shù)據(jù)，使用蛋白質(zhì)嵌入數(shù)據(jù)訓練的機器學習模型，輸入數(shù)據(jù)尺寸與直接使用序列相比減少幾個數(shù)量級，但模型的預測能力和準確性可與現(xiàn)有模型相媲美。另外，他們還利用機器學習輔助定向進化來測試更大序列空間的突變，以降低實驗成本[118]。

Yang 等[119]利用深度神經(jīng)網(wǎng)絡(luò)用序列比對的氨基酸殘基共進化信息來推斷距離約束，加上一個Rosetta-constrained 能量最少化程序快速生成模型從而預測蛋白結(jié)構(gòu)，新的trROSETTA 模型能夠?qū)崿F(xiàn)從頭設(shè)計蛋白的結(jié)構(gòu)預測和突變體的影響捕捉。雖然該結(jié)構(gòu)預測模型還沒有涉及功能設(shè)計，但是結(jié)合傳統(tǒng)的生物物理模型，將會有助于將新功能引入從頭設(shè)計的蛋白。

機器學習流程中也存在著相應的困難如圖4，如數(shù)據(jù)的缺失與錯誤，以及不同實驗來源造成的數(shù)據(jù)不一致是模型訓練中常見的問題；模型訓練中的過度擬合（over fitting）與擬合不足（under fitting）也是基于機器學習的酶設(shè)計方法需要面對的挑戰(zhàn)之一。目前并沒有普適性的機器學習模型，模型的選擇需要根據(jù)實際的設(shè)計目的而定，或者嘗試多種算法挑選最優(yōu)模型。

隨著高通量測序與篩選等實驗技術(shù)的發(fā)展與革新，相當龐大的高質(zhì)量酶分子相關(guān)數(shù)據(jù)不斷地積累。隨著如深度學習等更復雜的機器學習方法的發(fā)展，基于機器學習的預測方法將會更加具有可靠性。可靠的機器學習方法為人工智能酶設(shè)計提供了起點，也為研究酶的結(jié)構(gòu)-功能分子機理提供更多的機會，相信在不久的將來，將能夠?qū)崿F(xiàn)準確高效的人工智能的酶設(shè)計。

4 結(jié) 語

酶作為生物催化劑已經(jīng)被廣泛地應用在包括能源、醫(yī)藥、食品在內(nèi)的許多領(lǐng)域。21 世紀以來，生物信息學和計算機科學的發(fā)展，為酶工程提供了全新的改造方法，擴大了酶的改造空間，優(yōu)質(zhì)酶的開發(fā)所需的時間和經(jīng)濟成本隨著計算設(shè)計精度的提升而降低?？梢灶A期未來，計算機硬件的提升和算法的優(yōu)化，結(jié)合生物物理知識將會帶來更精妙高效的酶活性位點的設(shè)計方法，解決人工設(shè)計的酶初始催化效率不高的瓶頸問題。將來甚至可以根據(jù)需求，快速設(shè)計精巧的新酶分子，應對人類面臨的醫(yī)療、能源等領(lǐng)域的全新挑戰(zhàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡