苗洪江 董澤凱 向秋茹 薛貴榮
摘 要 蛋白質(zhì)是協(xié)調(diào)復(fù)雜生命過程的精密“分子機器”,具有巨大的醫(yī)療應(yīng)用潛力。然而,因為蛋白質(zhì)的一維氨基酸序列、三維結(jié)構(gòu)和生物功能之間的關(guān)聯(lián)復(fù)雜,所以設(shè)計蛋白質(zhì)并將其工程化以實現(xiàn)預(yù)期的功能和特性是一個極其困難的挑戰(zhàn)。目前,人工智能在各個領(lǐng)域均取得了革命性的進展,人工智能與蛋白質(zhì)工程技術(shù)的結(jié)合已成為一種強大的新型蛋白質(zhì)設(shè)計工具,可用于生成各類生物活性分子。本文介紹人工智能蛋白質(zhì)模擬和設(shè)計領(lǐng)域的研究進展和應(yīng)用,尤其是在生物醫(yī)藥創(chuàng)新開發(fā)應(yīng)用中面臨的挑戰(zhàn)和前景。
關(guān)鍵詞 人工智能 蛋白質(zhì)工程 新型蛋白質(zhì) 合成生物學(xué) 藥物開發(fā)
中圖分類號:O629.73; TP399 文獻標(biāo)志碼:A 文章編號:1006-1533(2024)07-0001-09
引用本文 苗洪江, 董澤凱, 向秋茹, 等. 人工智能蛋白質(zhì)設(shè)計技術(shù)的研究進展及在生物醫(yī)藥創(chuàng)新開發(fā)中的應(yīng)用與面臨的挑戰(zhàn)[J]. 上海醫(yī)藥, 2024, 45(7): 1-9; 55.
Research progress of artificial intelligence powered protein design and the prospect and challenges of its application in innovative biologics design
MIAO Hongjiang, DONG Zekai, XIANG Qiuru, XUE Guirong
(Shanghai Tianrang Intelligence Co., Ltd., Shanghai 200232, China)
ABSTRACT Proteins, the intricate “molecular machines” that orchestrate lifes processes, hold immense potential for therapeutic applications. However, the designing and engineering of these proteins towards desired properties and functions remain a formidable challenge due to the complex interplay between the amino acid sequence, the three dimensional structure, and biological function. Artificial intelligence (AI) has been making transformative strides in various fields and its combination with protein engineering techniques offers a powerful toolkit in generating novel proteins for synthetic biology and therapeutics development. In this review, we will discuss the advancements and applications of AI in protein modeling and design and highlight the challenges and outlook of its applications.
KEY WORDS artificial intelligence; protein engineering; novel proteins; synthetic biology; therapeutics development
我國是全球第二大藥品市場,但抗體藥物市場僅占全球抗體藥物市場份額的10%,在新型生物藥物的研發(fā)和供給方面仍然面臨著嚴峻挑戰(zhàn)。近年來,隨著人工智能(artificial intelligence, AI)技術(shù)的快速發(fā)展,AI在蛋白質(zhì)工程領(lǐng)域也取得了突破性進展,不僅解決了困擾生物學(xué)領(lǐng)域超半個世紀的蛋白質(zhì)結(jié)構(gòu)預(yù)測難題[1],而且從頭設(shè)計出了環(huán)肽[2-3]、抗體[4-6]、熒光素酶[7]、蛋白質(zhì)開關(guān)[8]、自組裝的蛋白質(zhì)納米顆粒[9]等各種類型的全新功能蛋白,為生物醫(yī)藥、合成生物學(xué)等領(lǐng)域帶來了大量全新的具有成藥潛力的生物活性分子。本文介紹AI在蛋白質(zhì)模擬和設(shè)計領(lǐng)域的研究進展,以及相關(guān)研究進展在生物醫(yī)藥創(chuàng)新開發(fā)中的應(yīng)用情況和潛在挑戰(zhàn),為相關(guān)研發(fā)和從業(yè)人員展現(xiàn)一幅清晰的AI蛋白質(zhì)設(shè)計技術(shù)發(fā)展圖譜,以啟發(fā)對蛋白質(zhì)設(shè)計領(lǐng)域中新技術(shù)的探索開發(fā)和實踐應(yīng)用,共同解決人們尚未得到滿足的醫(yī)療需求。
1 蛋白質(zhì)結(jié)構(gòu)預(yù)測
蛋白質(zhì)參與生命過程的各個方面,如細胞信號轉(zhuǎn)導(dǎo)、基因修正和復(fù)制、新陳代謝調(diào)控等,是人體中最重要的分子類型之一。蛋白質(zhì)的生物功能與其三維結(jié)構(gòu)密切相關(guān),蛋白質(zhì)結(jié)構(gòu)的測定一直是生物制藥、合成生物學(xué)等眾多領(lǐng)域研究的核心基礎(chǔ):一方面,以X線晶體衍射、冷凍電鏡為代表的蛋白質(zhì)結(jié)構(gòu)實驗測定方法技術(shù)門檻高、耗時長,難以滿足生命科學(xué)研究對蛋白質(zhì)結(jié)構(gòu)解析的通量需求;另一方面,通過計算預(yù)測蛋白質(zhì)結(jié)構(gòu)、解釋蛋白質(zhì)折疊的原理被視為分子生物學(xué)研究的“圣杯”,但由于蛋白質(zhì)的生物復(fù)雜度高、潛在三維結(jié)構(gòu)空間巨大,蛋白質(zhì)的準(zhǔn)確結(jié)構(gòu)預(yù)測難題困擾了計算生物學(xué)領(lǐng)域長達半個多世紀。本章節(jié)主要介紹AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域中的研究進展和其中部分具有代表性的方法及其應(yīng)用。
1.1 AI破解蛋白質(zhì)結(jié)構(gòu)預(yù)測難題
傳統(tǒng)的基于物理力場或知識能量函數(shù)的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測方法,如ROSETTA[10]、TINKER[11]等,不僅需要進行大量的計算以尋找能量最小化的蛋白質(zhì)三維構(gòu)象,而且預(yù)測的精度往往也較低。另有不少研發(fā)人員開發(fā)了各種同源建模方法[12-15],根據(jù)序列同源性從已知蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中尋找高度相似的結(jié)構(gòu)模板來完成預(yù)測,雖然計算效率顯著提高,但由于算法依賴并受限于高質(zhì)量結(jié)構(gòu)模板,適用范圍十分有限。Wang等[16]首次將殘差神經(jīng)網(wǎng)絡(luò)用于蛋白質(zhì)殘基間的接觸圖矩陣預(yù)測,再將接觸圖矩陣作為限制條件進行從頭模擬,使可預(yù)測的蛋白質(zhì)數(shù)量提高了近3倍。谷歌DeepMind團隊開發(fā)的AlphaFold2[1]采用transformer架構(gòu)從多序列比對(multiple sequence alignment, MSA)中抽取氨基酸殘基間的關(guān)聯(lián)信息,再通過具備旋轉(zhuǎn)平移不變性的結(jié)構(gòu)模塊映射到三維空間,端到端的實現(xiàn)了近原子級別精確度的蛋白質(zhì)結(jié)構(gòu)預(yù)測,標(biāo)志著蛋白質(zhì)結(jié)構(gòu)預(yù)測難題已獲破解(圖1)。DeepMind團隊運用此算法開展了大規(guī)模的蛋白質(zhì)結(jié)構(gòu)預(yù)測工作,并與歐洲分子生物學(xué)實驗室和歐洲生物信息研究所合作建立和開放了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,數(shù)據(jù)庫中的蛋白質(zhì)三維結(jié)構(gòu)至2023年6月已突破2億個,涵蓋了已知的各種生物來源的蛋白質(zhì)[17]。DeepMind團隊還于近期推出了更新版本的AlphaFold-latest[18],后者可同時對蛋白質(zhì)及其各類配體,如小分子、核酸、金屬離子、被修飾的殘基等形成的復(fù)合體結(jié)構(gòu)進行預(yù)測,且預(yù)測準(zhǔn)確度也大大超越之前的SOTA模型。
與此同時,國內(nèi)外研發(fā)人員還開發(fā)了RoseTTAFold[19]、TRFold2[20]、Uni-Fold[21],OpenFold[22]等一系列蛋白質(zhì)結(jié)構(gòu)預(yù)測準(zhǔn)確度與AlphaFold2相當(dāng)?shù)乃惴?。此外,Wu等[23]和Lin等[24]分別提出了OmegaFold和ESMFold算法,基于經(jīng)大量蛋白質(zhì)序列預(yù)訓(xùn)練獲得的蛋白質(zhì)語言模型,直接從目標(biāo)蛋白質(zhì)序列中提取高維嵌入信息,再通過結(jié)構(gòu)模塊映射到三維空間,避免了對MSA的依賴,對孤兒蛋白質(zhì)(orphan protein)、抗體等類型蛋白質(zhì)的結(jié)構(gòu)預(yù)測準(zhǔn)確度更高。
1.2 AI預(yù)測蛋白質(zhì)結(jié)構(gòu)的廣泛應(yīng)用
隨著AlphaFold2等各類能夠準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)的AI模型的開源和大規(guī)模蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的開放,AI預(yù)測的蛋白質(zhì)結(jié)構(gòu)被廣泛應(yīng)用于生命科學(xué)研究、生物醫(yī)藥開發(fā)和合成生物學(xué)探索等各個領(lǐng)域。
Huang等[25]運用AlphaFold2預(yù)測了脫氨酶家族中所有蛋白質(zhì)的三維結(jié)構(gòu),并根據(jù)結(jié)構(gòu)相似性聚類發(fā)現(xiàn)了多個新型脫氨酶,這些脫氨酶經(jīng)簡單的工程化改造后可由單個腺病毒載體遞送,首次實現(xiàn)了大豆植物內(nèi)的胞嘧啶堿基編輯。Kreitz等[26]運用AlphaFold2對Photorhabdus virulence cassette的尾纖維蛋白進行模擬和工程化改造,開發(fā)出新型蛋白質(zhì)靶向遞送系統(tǒng),為基因編輯、癌癥治療和生物調(diào)控提供了新的途徑。Ren等[27]基于AlphaFold2預(yù)測的結(jié)構(gòu)生成了細胞周期蛋白依賴性激酶20的高抑制性小分子,優(yōu)化后的小分子已進入臨床試驗開發(fā)階段。Ko等[28]結(jié)合運用冷凍電鏡解析與AlphaFold2預(yù)測獲得了配子表面蛋白質(zhì)Pfs48/45的準(zhǔn)確結(jié)構(gòu),進而確定了瘧疾傳播阻斷抗體的結(jié)合位置并從中選出了合適片段進行瘧疾疫苗的開發(fā)。
2 蛋白質(zhì)設(shè)計
依賴自然進化獲得新的蛋白質(zhì)功能和特性通常需要數(shù)百年乃至數(shù)萬年的時間,這難以滿足當(dāng)前人類在疾病檢測和治療、工業(yè)合成和生產(chǎn)等眾多領(lǐng)域的蛋白質(zhì)需求。此外,蛋白質(zhì)還存在巨大的未被探索空間,以一種由100個氨基酸組成的蛋白質(zhì)為例,其可能的序列有2100之多,遠遠超出人類已知的天然蛋白質(zhì)序列的總和。隨著基因檢測及其編輯技術(shù)的快速發(fā)展,科學(xué)家們已可高效地合成指定蛋白質(zhì)的基因序列,從而通過各類細胞或無細胞表達方法獲得這些蛋白質(zhì)[29-30]。然而,要從如此龐大的蛋白質(zhì)序列空間中獲得具備預(yù)期功能和特性的蛋白質(zhì)子集是非常困難的。本章節(jié)主要介紹AI在蛋白質(zhì)定向進化和從頭設(shè)計領(lǐng)域中的研究進展與應(yīng)用。
2.1 定向進化蛋白質(zhì)序列優(yōu)化
定向進化是一種通過模擬自然進化過程對天然蛋白質(zhì)進行的有目的的改造方法[31],其先以飽和突變或隨機突變的方式建立包含大量突變體的文庫,然后對文庫中的序列進行實驗驗證以獲得具備預(yù)期功能或特性的優(yōu)化突變體,之后再組合上一輪被驗證的優(yōu)化突變位點及氨基酸類型來構(gòu)建新的突變體文庫,通過多輪實驗,最終獲得功能更強、特性更優(yōu)并可滿足應(yīng)用需求的蛋白質(zhì)序列。然而,鑒于大多數(shù)隨機突變是有害突變的現(xiàn)實,定向進化常需通過高通量、多輪次的實驗來完成,投入高、周期長,且因只能對有限突變點位進行探索,結(jié)果可能落入局部最優(yōu)解陷阱而導(dǎo)致實驗失敗。
AI技術(shù)的應(yīng)用大幅改善了定向進化的效率和成功率。得益于AI算法,研發(fā)人員能在計算機上對龐大的蛋白質(zhì)適應(yīng)度空間進行全面探索,避免落入局部最優(yōu)解陷阱。同時,AI模型可通過學(xué)習(xí)大量的特性標(biāo)記的生物實驗數(shù)據(jù)或采用無監(jiān)督的方式經(jīng)學(xué)習(xí)千萬級的氨基酸序列來獲取序列與特性的關(guān)聯(lián),故能進行更加精準(zhǔn)的突變體文庫建設(shè),減少實驗驗證的量級和輪次,大幅降低優(yōu)化突變體篩選成本,使定向進化具備更好的時效性和產(chǎn)業(yè)應(yīng)用價值。Biswas等[32]開發(fā)了基于預(yù)訓(xùn)練模型的low-N設(shè)計法,僅依賴24條有標(biāo)簽數(shù)據(jù)訓(xùn)練的下游模型指導(dǎo)定向進化,基于同一野生型維多利亞綠色熒光蛋白酶,只通過1輪實驗便獲得了活性超過文獻報告的經(jīng)多輪定向進化所得優(yōu)化突變體的新序列。Kulikova等[33]開發(fā)的MutCompute采用三維卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu)的局部適應(yīng)度空間,用于預(yù)測具備潛在增益效果的氨基酸突變。運用此方法,Lu等[34]開發(fā)出與天然聚對苯二甲酸乙二醇酯(polyethylene terephthalate, PET)水解酶相比有5個點位突變的FAST-PETase,后者在各種溫度和pH環(huán)境下的活性均更好,僅需1周時間便可完全降解來自51種熱成型產(chǎn)品的未經(jīng)任何預(yù)處理的PET。Hie等[35]運用完全無監(jiān)督的蛋白質(zhì)語言模型推薦進化性可行的突變,結(jié)果僅經(jīng)2輪和總數(shù)不超過20個的實驗篩選便獲得了親和力高于臨床開發(fā)階段抗體的突變體。
2.2 蛋白質(zhì)從頭設(shè)計
蛋白質(zhì)從頭設(shè)計不再依賴已知的天然蛋白質(zhì),而是根據(jù)預(yù)期功能或結(jié)構(gòu)直接設(shè)計蛋白質(zhì)的氨基酸序列,以實現(xiàn)從無到有的具有全新功能的蛋白質(zhì)開發(fā)[36]。這種從零開始的設(shè)計雖然具有廣泛的應(yīng)用價值和廣闊的應(yīng)用前景,但由于目前對蛋白質(zhì)序列-結(jié)構(gòu)-功能深層關(guān)聯(lián)的認知尚很有限,蛋白質(zhì)從頭設(shè)計是一項極具挑戰(zhàn)性的工作。得益于前沿生成式AI技術(shù)的快速發(fā)展,蛋白質(zhì)從頭設(shè)計,無論是基于結(jié)構(gòu)還是基于序列的方法,都取得了突破性的進展[37-39]。
2.2.1 基于結(jié)構(gòu)的蛋白質(zhì)從頭設(shè)計
由于蛋白質(zhì)的氨基酸序列決定蛋白質(zhì)的三維結(jié)構(gòu),三維結(jié)構(gòu)又決定了蛋白質(zhì)的功能,故基于結(jié)構(gòu)的蛋白質(zhì)設(shè)計方法多以結(jié)構(gòu)作為支點,先找到符合預(yù)期功能的蛋白質(zhì)結(jié)構(gòu),再挖掘可折疊成此結(jié)構(gòu)的氨基酸序列。Huang等[40]開發(fā)了SCUBA,采用神經(jīng)網(wǎng)絡(luò)模擬以主鏈為中心且獨立于側(cè)鏈的能量函數(shù),先用基于卷積核密度估計的方法從蛋白質(zhì)結(jié)構(gòu)中估算統(tǒng)計能量函數(shù),然后訓(xùn)練全連接的神經(jīng)感知機來表達此函數(shù)。進行蛋白質(zhì)設(shè)計任務(wù)時,通過SCUBA驅(qū)動的隨機動力學(xué)模擬生成可設(shè)計的主鏈,再運用研發(fā)人員自主開發(fā)的ABACUS2[41]為主鏈填充氨基酸序列。Huang等[40]在實驗室中合成了由SCUBA設(shè)計的蛋白質(zhì)并通過X線晶體衍射解析了其結(jié)構(gòu),驗證發(fā)現(xiàn)設(shè)計與實際結(jié)構(gòu)間的誤差為0.96~1.85 ?,達到了原子級別精度。
得益于蛋白質(zhì)結(jié)構(gòu)預(yù)測難題的破解,不僅蛋白質(zhì)設(shè)計結(jié)果可借助預(yù)測模型來進行高效、準(zhǔn)確的計算檢驗,而且能直接將預(yù)測模型應(yīng)用于蛋白質(zhì)設(shè)計流程以同時生成序列和結(jié)構(gòu),進一步提高蛋白質(zhì)設(shè)計的效率和成功率。Wang等[42]開發(fā)的RFDesign、天壤XLab[20]開發(fā)的TRDesign等都是以結(jié)構(gòu)預(yù)測模型為底座的蛋白質(zhì)從頭設(shè)計方法:通過設(shè)置與目標(biāo)相關(guān)的模體損失函數(shù)、幻想損失函數(shù)等,以馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo)或梯度下降的方式對初始序列進行突變優(yōu)化,直到完成預(yù)設(shè)的優(yōu)化輪次或獲得符合預(yù)期的結(jié)構(gòu)和序列。Wang等[42]還提出了蛋白質(zhì)補齊(protein inpainting)的理念,與自然語言完形填空或從毀壞圖像中恢復(fù)信息類似,在訓(xùn)練過程中掩蓋局部的序列或結(jié)構(gòu)使模型具備補齊能力。運用此方法設(shè)計的程序性細胞死亡受體配體-1結(jié)合蛋白pdl1_inp_1經(jīng)實驗證實不僅具有結(jié)合能力,且親和力(Kd=326 nmol/L)也高于野生型的程序性細胞死亡受體-1(Kd=3.9 mmol/L),而其與已知蛋白質(zhì)庫中最接近的序列相似度只有25.4%。
去噪擴散模型[43]通過在前向過程中反復(fù)向數(shù)據(jù)中注入高斯噪聲,再在反向過程中訓(xùn)練神經(jīng)網(wǎng)絡(luò)將高斯噪聲去噪使模型獲得生成能力。去噪擴散模型在圖像和文本生成中有極好表現(xiàn)[44],用于蛋白質(zhì)設(shè)計能進一步提高設(shè)計的結(jié)構(gòu)新穎性、可控性和通用性。Trippe等[45]開發(fā)的ProtDiff采用具備不變性的圖神經(jīng)網(wǎng)絡(luò)模擬和實現(xiàn)蛋白質(zhì)主鏈的生成,并提出了一種順序蒙特卡洛(sequential Monte Carlo)的估算方法SMCDiff來實現(xiàn)目標(biāo)模體的設(shè)計,可在分鐘級時間內(nèi)完成設(shè)計工作。Watson等[46]的RFdiffusion在蛋白質(zhì)折疊模型RoseTTAFold的基礎(chǔ)上進行了基于結(jié)構(gòu)去噪的微調(diào),通過在主鏈坐標(biāo)中加入三維高斯噪聲和模擬布朗運動在蛋白質(zhì)的結(jié)構(gòu)中加入平移、旋轉(zhuǎn)噪聲,再在反向降噪中訓(xùn)練模型最小化預(yù)測和真實結(jié)構(gòu)的均方差,設(shè)計時便能從隨機初始化的結(jié)構(gòu)中通過去噪生成全新的蛋白質(zhì)主鏈結(jié)構(gòu)了。Watson等[46]運用RFdiffusion生成了拓撲限制的單鏈蛋白質(zhì)、蛋白質(zhì)結(jié)合配體、對稱性復(fù)合體、金屬結(jié)合的蛋白質(zhì)等各類全新的蛋白質(zhì)并進行了系列生物實驗驗證,僅合成不足100條從頭設(shè)計的序列就獲得了甲型流感病毒血凝素H1、白介素-7受體α、程序性細胞死亡受體配體-1和原肌球蛋白受體激酶A的高親和力結(jié)合配體。Generate:Biomedicines公司開發(fā)的Chroma系統(tǒng)[47]采用外部條件限制下的貝葉斯采樣方法生成全新的蛋白質(zhì)結(jié)構(gòu)和序列,只需根據(jù)目標(biāo)設(shè)置相應(yīng)的限制條件,如對稱性、局部構(gòu)象、形狀甚至自然語言提示,便可完成各類蛋白質(zhì)的設(shè)計任務(wù)而不需要重新訓(xùn)練(圖2)。
雖然許多模型能夠同時進行蛋白質(zhì)結(jié)構(gòu)和序列的設(shè)計,但由于表面疏水性殘基等原因會出現(xiàn)溶解性差、合成成功率低的問題[48],故常需對氨基酸序列進行進一步的優(yōu)化。Dauparas等[49]提出了為固定蛋白質(zhì)主鏈填補氨基酸序列的圖神經(jīng)網(wǎng)絡(luò)ProteinMPNN,該模型采用編碼器-解碼器的結(jié)構(gòu)從輸入的主鏈結(jié)構(gòu)計算圖中提取節(jié)點和邊的特征,采用循環(huán)的方式根據(jù)節(jié)點特征和已解碼序列依次計算下一個殘基點位的氨基酸分布概率并進行采樣,實現(xiàn)了各類復(fù)雜結(jié)構(gòu)的序列設(shè)計。經(jīng)多項生物實驗驗證,ProteinMPNN可以很高的成功率獲得較傳統(tǒng)方法設(shè)計的序列和天然序列合成特性更優(yōu)的氨基酸序列[50-52]。Hsu等[53]開發(fā)了ESM-IF,采用帶有幾何向量感知機層的圖神經(jīng)網(wǎng)絡(luò)在一個由近20萬個實驗解析蛋白質(zhì)結(jié)構(gòu)和1 200萬個由AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)組成的數(shù)據(jù)庫上進行訓(xùn)練,在新冠病毒的刺突蛋白受體結(jié)合區(qū)域?qū)崿F(xiàn)了50%以上的序列恢復(fù)率。
2.2.2 基于序列的蛋白質(zhì)從頭設(shè)計
與基于結(jié)構(gòu)的蛋白質(zhì)設(shè)計方法不同,基于序列的蛋白質(zhì)設(shè)計方法希望根據(jù)功能或特性需求直接生成相應(yīng)的氨基酸序列,生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)和變分子編碼器(variantional autoencoder, VAE)等生成式算法被廣泛應(yīng)用于此領(lǐng)域。Hawkins-Hooker等[54]開發(fā)了MSA-VAE和AR-VAE,通過編碼器-解碼器架構(gòu)學(xué)習(xí)近7萬條各種熒光素酶序列,設(shè)計生成的一些序列在生物檢測中顯示有發(fā)光效果。Repecka等[55]開發(fā)的ProteinGAN采用時間卷積網(wǎng)絡(luò)同時學(xué)習(xí)序列中的局部和全局信息,由鑒別器網(wǎng)絡(luò)對生成器網(wǎng)絡(luò)產(chǎn)生的序列進行打分,由此不斷提高模型生成符合天然蛋白質(zhì)特性的序列的能力。在以細菌蘋果酸脫氫酶為對象的生物實驗中,一些由ProteinGAN生成的序列被證實具有蘋果酸脫氫酶活性且有較好的溶解性。
隨著自然語言模型的爆發(fā)式發(fā)展,針對蛋白質(zhì)序列的蛋白質(zhì)語言模型展現(xiàn)出了對蛋白質(zhì)序列空間的極強的探索能力,即使不進行有監(jiān)督的微調(diào),也能僅基于蛋白質(zhì)的序列信息零樣本的學(xué)習(xí)對其功能及溶解性、熱穩(wěn)定性、結(jié)合位點等進行有效的預(yù)測[56-58]?;谶@類預(yù)訓(xùn)練蛋白質(zhì)語言模型,Saleforce Research公司等開發(fā)了ProGen[59],在以2.8億條蛋白質(zhì)序列及其相應(yīng)功能和特性作為限制標(biāo)簽的數(shù)據(jù)集上,將序列生成作為下一標(biāo)記預(yù)測任務(wù)進行訓(xùn)練,而在指定的蛋白質(zhì)家族上的微調(diào)可進一步提高ProGen的序列生成能力。設(shè)計時,ProGen可以根據(jù)輸入的限制標(biāo)簽從頭生成氨基酸序列。在以溶菌酶為對象的設(shè)計案例中,一些由ProGen生成的序列在體外實驗中被證實具有催化活性,其中包括與天然蛋清溶菌酶活性相當(dāng)?shù)膫€體。Evozyne和英偉達公司聯(lián)合開發(fā)了ProT-VAE[60],在蛋白質(zhì)語言模型ProtT5的編碼器和解碼器中間通過卷積壓縮和解壓層鏈接嵌入可訓(xùn)練的VAE模型,在蛋白質(zhì)設(shè)計時凍結(jié)蛋白質(zhì)語言模型和中間層參數(shù),僅訓(xùn)練中間的VAE就實現(xiàn)了高效的模型微調(diào)。由ProT-VAE設(shè)計的蛋白質(zhì)經(jīng)生物實驗驗證,生物活性較天然人苯丙氨酸羥化酶高2.5倍。
擴散模型亦被應(yīng)用于基于序列的蛋白質(zhì)從頭設(shè)計。微軟公司AI4Science團隊等開發(fā)的EvoDiff[61]采用離散擴散實現(xiàn)蛋白質(zhì)序列的從頭設(shè)計,不僅能生成基于結(jié)構(gòu)的設(shè)計方法無能為力的內(nèi)在無序的蛋白質(zhì),而且模型可從用戶輸入的MSA中獲取進化信息并指導(dǎo)生成,使設(shè)計的序列更好地擬合預(yù)期功能和特性。基因泰克公司Prescient團隊提出了擴散優(yōu)化采樣在抗體序列上進行梯度指導(dǎo)的離散擴散,融合貝葉斯優(yōu)化進行多目標(biāo)指導(dǎo)的設(shè)計算法[62]。體外實驗顯示,應(yīng)用此方法生成的針對人表皮生長因子2的抗體實現(xiàn)了97%的表達率和25%的結(jié)合率。
3 小結(jié)與展望
AI技術(shù)的應(yīng)用已使蛋白質(zhì)結(jié)構(gòu)預(yù)測和設(shè)計領(lǐng)域獲得了革命性的突破,不僅破解了困擾生物學(xué)家半個多世紀的蛋白質(zhì)結(jié)構(gòu)預(yù)測難題,而且各種由AI設(shè)計的全新蛋白質(zhì)也在實驗室中被合成出和得到驗證,在生物醫(yī)藥、合成生物學(xué)等產(chǎn)業(yè)的應(yīng)用正在不斷展開。
美國蛋白質(zhì)設(shè)計研究院與韓國SK生物科技公司合作開發(fā)的新冠病毒疫苗SKYCovione[63]已獲準(zhǔn)在韓國和英國上市并進行了大規(guī)模的接種。這種疫苗通過人工設(shè)計的自組裝納米蛋白質(zhì)顆粒實現(xiàn)抗原表位的多次展示,引發(fā)的免疫反應(yīng)和抗體激活效果顯著高于傳統(tǒng)疫苗,且因設(shè)計的抗原蛋白質(zhì)具有很好的穩(wěn)定性,疫苗無需冷凍保存和運輸。Absci公司基于零樣本生成式AI算法設(shè)計的抗人表皮生長因子2抗體不僅在表面等離子共振實驗檢測中顯示有較曲妥珠單抗更強的親和力,在免疫原性和各項可開發(fā)性指標(biāo)上也均表現(xiàn)優(yōu)異[64]。Absci公司已與默沙東、阿斯利康等公司達成合作協(xié)議,共同推進腫瘤、皮膚病等疾病治療藥物的開發(fā)。基于Chroma蛋白質(zhì)從頭設(shè)計平臺,Generate:Biomedicines公司正在開發(fā)腫瘤、傳染性疾病和免疫性疾病等治療藥物,并與Roswell Park綜合癌癥中心合作開發(fā)新型嵌合抗原受體T細胞療法產(chǎn)品[65]。
未來,高通量的蛋白質(zhì)生產(chǎn)和檢驗方法的開發(fā)和進步將持續(xù)擴大蛋白質(zhì)設(shè)計的應(yīng)用場景。例如,與傳統(tǒng)的合成方法相比較,逐漸成熟的無細胞蛋白質(zhì)合成技術(shù)具有更強的可控性、更低的經(jīng)濟和時間成本、更高的安全性[66-67],這會大幅加速設(shè)計—合成—檢驗—分析優(yōu)化的流程,使蛋白質(zhì)設(shè)計項目得以快速推進。此外,AI模型的訓(xùn)練需要大量精準(zhǔn)標(biāo)記的高質(zhì)量數(shù)據(jù),但在分子生物學(xué)領(lǐng)域,這樣的數(shù)據(jù)是昂貴和稀缺的,是目前限制蛋白質(zhì)設(shè)計落地應(yīng)用的主要“瓶頸”,而全新的高通量檢測方法恰能很好地應(yīng)對此難題。A-Alpha Bio公司開發(fā)出獨特的噬菌體展示技術(shù),能同時展示數(shù)百萬到數(shù)十億個噬菌體,在保證靈敏度和特異度的前提下將蛋白質(zhì)-配體結(jié)合的檢測通量提高了幾個數(shù)量級[68]。Porebski等[69]基于Illumina HiSeq平臺開發(fā)的深度篩查技術(shù)可在3 d內(nèi)完成數(shù)千萬的抗體-抗原結(jié)合檢測。進一步的,機器人和自動化實驗室的部署還能對蛋白質(zhì)的序列、特性和適應(yīng)度空間進行更加全面的探索,分布更加均勻的數(shù)據(jù)有望繼續(xù)提高AI設(shè)計方法的普適性[70-72]。
得益于廣泛的關(guān)注和深入的研究,AI領(lǐng)域的最前沿模型正被迅速地應(yīng)用于蛋白質(zhì)設(shè)計,本文列舉的設(shè)計方法的進化和設(shè)計能力的提高正是這種趨勢的完美體現(xiàn)。雖然深度學(xué)習(xí)模型經(jīng)常因為“黑盒”屬性被詬病,但其在復(fù)雜生物問題的解釋,如蛋白質(zhì)結(jié)構(gòu)預(yù)測、突變分析、蛋白質(zhì)設(shè)計等領(lǐng)域,已經(jīng)展現(xiàn)出遠超基于專家經(jīng)驗或嚴謹?shù)臄?shù)學(xué)建模的水平[73]。研發(fā)人員也正通過在數(shù)據(jù)處理、模型架構(gòu)設(shè)計、損失函數(shù)設(shè)置等各個環(huán)節(jié)嵌入生物物理和生物化學(xué)方面的經(jīng)驗和知識,提高AI模型的可解釋性和魯棒性[74-76]。
AI技術(shù)的廣泛應(yīng)用無疑加快了數(shù)字生物學(xué)時代到來的步伐,在算法快速發(fā)展、模型快速迭代更新的時代背景下,確保最前沿AI模型的可及性和民主化有助于提高整個蛋白質(zhì)設(shè)計領(lǐng)域的產(chǎn)學(xué)研結(jié)合水平,促進“人工智能+生物技術(shù)”的產(chǎn)業(yè)化落地。因此,眾多研發(fā)人員和公司都選擇擁抱開源,讓更多的研發(fā)和從業(yè)人員可以運用最先進和最符合需求的AI算法來解決目標(biāo)問題。然而,當(dāng)前的蛋白質(zhì)設(shè)計方法普遍具有算法復(fù)雜、算力需求大、流程整合困難的特點,單純的算法開源很難滿足非計算背景研發(fā)人員的應(yīng)用需求。為此,Cradle Bio公司、InstaDeep公司、天壤XLab等都推出了AI賦能的計算平臺(圖3),不僅配備充足的算力支持,而且對眾多的蛋白質(zhì)設(shè)計工具進行優(yōu)化和整理,通過邏輯清晰、操作簡單的頁面將豐富的蛋白質(zhì)模擬和設(shè)計能力展現(xiàn)給用戶,使AI模型更加易用好用。
隨著AI蛋白質(zhì)設(shè)計技術(shù)的普及和應(yīng)用,蛋白質(zhì)設(shè)計將會越來越廣泛地應(yīng)用于多肽、抗體、酶等各類生物醫(yī)藥相關(guān)蛋白質(zhì)的開發(fā),從而推動蛋白質(zhì)科學(xué)向蛋白質(zhì)工程的轉(zhuǎn)變。可以預(yù)見,按需設(shè)計的定制化、個體化精準(zhǔn)醫(yī)療的出現(xiàn)已不再遙遠。
參考文獻
[1] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold [J]. Nature, 2021, 596(7873): 583-589.
[2] Rettie SA, Campbell KV, Bera AK, et al. Cyclic peptide structure prediction and design using AlphaFold [EB/OL].[2023-11-15]. https://doi.org/10.1101/2023.02.25.529956.
[3] Kosugi T, Ohue M. Design of cyclic peptides targeting protein-protein interactions using AlphaFold [J]. Int J Mol Sci, 2023, 24(17): 13257.
[4] Pooja Mahajan S, Ruffolo J, Frick R, et al. Towards deep learning models for target-specific antibody design [J]. Biophys J, 2022, 121(3): 528a.
[5] Chungyoun M, Gray JJ. AI models for protein design are driving antibody engineering [J]. Curr Opin Biomed Eng, 2023, 28: 100473.
[6] Makowski EK, Chen HT, Tessier PM. Simplifying complex antibody engineering using machine learning [J]. Cell Syst, 2023, 14(8): 667-675.
[7] Yeh AH, Norn C, Kipnis Y, et al. De novo design of luciferases using deep learning [J]. Nature, 2023, 614(7949): 774-780.
[8] Pillai A, Idris A, Philomin A, et al. De novo design of allosterically switchable protein assemblies [EB/OL]. [2023-11-15]. https://doi.org/10.1101/2023.11.01.565167.
[9] Wicky BIM, Milles LF, Courbet A, et al. Hallucinating symmetric protein assemblies [J]. Science, 2022, 378(6615):56-61.
[10] Leaver-Fay A, Tyka M, Lewis SM, et al. ROSETTA3: an object-oriented software suite for the simulation and design of macromolecules [J]. Methods Enzymol, 2011, 487: 545-574.
[11] Rackers JA, Wang Z, Lu C, et al. Tinker 8: software tools for molecular design [J]. J Chem Theory Comput, 2018, 14(10): 5273-5298.
[12] Yang J, Yan R, Roy A, et al. The I-TASSER Suite: protein structure and function prediction [J]. Nat Methods, 2015, 12(1): 7-8.
[13] Kelley LA, Sternberg MJ. Protein structure prediction on the web: a case study using the Phyre server [J]. Nat Protoc, 2009, 4(3): 363-371.
[14] Kelley LA, Mezulis S, Yates CM, et al. The Phyre2 web portal for protein modeling, prediction and analysis [J]. Nat Protoc, 2015, 10(6): 845-858.
[15] Waterhouse A, Bertoni M, Bienert S, et al. SWISS-MODEL: homology modelling of protein structures and complexes [J]. Nucleic Acids Res, 2018, 46(W1): W296-W303.
[16] Wang S, Sun S, Li Z, et al. Accurate de novo prediction of protein contact map by ultra-deep learning model [J]. PLoS Comput Biol, 2017, 13(1): e1005324.
[17] Tunyasuvunakool K, Adler J, Wu Z, et al. Highly accurate protein structure prediction for the human proteome [J]. Nature, 2021, 596(7873): 590-596.
[18] Google DeepMind AlphaFold Team, Isomorphic Labs Team. Performance and structural coverage of the latest, in-development AlphaFold model [EB/OL]. [2023-11-15]. https://storage.googleapis.com/deepmind-media/DeepMind. com/Blog/a-glimpse-of-the-next-generation-of-alphafold/ alphafold_latest_oct2023.pdf.
[19] Baek M, DiMaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network [J]. Science, 2021, 373(6557): 871-876.
[20] 上海天壤智能科技有限公司. 天壤XLAB [EB/OL]. [2023-11-15]. https://xlab.tianrang.com/xlab.
[21] Li Z, Liu X, Chen W, et al. Uni-Fold: an opensource platform for developing protein folding models beyond AlphaFold [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2022.08.04.502811.
[22] Ahdritz G, Bouatta N, Floristean C, et al. OpenFold: retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization [EB/OL]. [2023-11-15]. https://doi.org/10.1101/2022.11.20.517210.
[23] Wu R, Ding F, Wang R, et al. High-resolution de novo structure prediction from primary sequence [EB/OL]. [2023-11-15]. https://doi.org/10.1101/2022.07.21.500999.
[24] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [J]. Science, 2023, 379(6637): 1123-1130.
[25] Huang J, Lin Q, Fei H, et al. Discovery of deaminase functions by structure-based protein clustering [J]. Cell, 2023, 186(15): 3182-3195.
[26] Kreitz J, Friedrich MJ, Guru A, et al. Programmable protein delivery with a bacterial contractile injection system [J]. Nature, 2023, 616(7956): 357-364.
[27] Ren F, Ding X, Zheng M, et al. AlphaFold accelerates artificial intelligence powered drug discovery: efficient discovery of a novel CDK20 small molecule inhibitor [J]. Chem Sci, 2023, 14(6): 1443-1452.
[28] Ko KT, Lennartz F, Mekhaiel D, et al. Structure of the malaria vaccine candidate Pfs48/45 and its recognition by transmission blocking antibodies [J]. Nat Commun, 2022, 13(1): 5603.
[29] Hoose A, Vellacott R, Storch M, et al. DNA synthesis technologies to close the gene writing gap [J]. Nat Rev Chem, 2023, 7(3): 144-161. Erratum in: Nat Rev Chem, 2023, 7(8): 590.
[30] Garenne D, Haines MC, Romantseva EF, et al. Cell-free gene expression [J]. Nat Rev Methods Primers, 2021, 1(1): 49.
[31] Xiong W, Liu B, Shen Y, et al. Protein engineering design from directed evolution to de novo synthesis [J]. Biochem Eng J, 2021, 174: 108096.
[32] Biswas S, Khimulya G, Alley EC, et al. Low-N protein engineering with data-efficient deep learning [J]. Nat Methods, 2021, 18(4): 389-396.
[33] Kulikova AV, Diaz DJ, Loy JM, et al. Learning the local landscape of protein structures with convolutional neural networks [J]. J Bio Phys, 2021, 47(4): 435-454.
[34] Lu H, Diaz DJ, Czarnecki NJ, et al. Machine learning-aided engineering of hydrolases for PET depolymerization [J]. Nature, 2022, 604(7907): 662-667.
[35] Hie BL, Shanker VR, Xu D, et al. Efficient evolution of human antibodies from general protein language models [J/ OL]. Nat Biotechnol, 2023 Apr 24. [2023-11-15]. https://doi. org/10.1038/s41587-023-01763-2.
[36] Woolfson DN. A brief history of de novo protein design: minimal, rational, and computational [J]. J Mol Biol, 2021, 433(20): 167160.
[37] Pan X, Kortemme T. Recent advances in de novo protein design: principles, methods, and applications [J]. J Biol Chem, 2021, 296: 100558.
[38] Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design [J].Comput Struct Biotechnol J, 2022, 21: 238-250.
[39] Khakzad H, Igashov I, Schneuing A, et al. A new age in protein design empowered by deep learning [J]. Cell Syst, 2023, 14(11): 925-939.
[40] Huang B, Xu Y, Hu X, et al. A backbone-centred energy function of neural networks for protein design [J]. Nature, 2022, 602(7897): 523-528.
[41] Xiong P, Hu X, Huang B, et al. Increasing the efficiency and accuracy of the ABACUS protein sequence design method [J]. Bioinformatics, 2020, 36(1): 136-144.
[42] Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning [J]. Science, 2022, 377(6604): 387-394.
[43] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [J]. Adv Neural Inf Process Syst, 2020, 33: 6840-6851.
[44] Lugmayr A, Danelljan M, Romero A, et al. Repaint: inpainting using denoising diffusion probabilistic models [EB/OL].[2023-11-15]. https://doi.org/10.48550/arXiv.2201.09865.
[45] Trippe BL, Yim J, Tischer D, et al. Diffusion probabilistic modeling of protein backbones in 3D for the motif-scaffolding problem [EB/OL]. [2023-11-15]. https://doi.org/10.48550/ arXiv.2206.04119.
[46] Watson JL, Juergens D, Bennett NR, et al. De novo design of protein structure and function with RFdiffusion [J]. Nature, 2023, 620(7976): 1089-1100.
[47] Ingraham JB, Baranov M, Costello Z, et al. Illuminating protein space with a programmable generative model [J]. Nature, 2023, 623(7989): 1070-1078.
[48] Goverde CA, Wolf B, Khakzad H, et al. De novo protein design by inversion of the AlphaFold structure prediction network [J]. Protein Sci, 2023, 32(6): e4653.
[49] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning-based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.
[50] Nikolaev A, Kuzmin A, Markeeva E, et al. Reengineering of a flavin-binding fluorescent protein using ProteinMPNN [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.08.25.554855.
[51] Kao HW, Lu WL, Ho MR, et al. Robust design of effective allosteric activators for Rsp5 E3 ligase using the machine learning tool ProteinMPNN [J]. ACS Synth Biol, 2023, 12(8): 2310-2319.
[52] Sumida KH, Nú?ez-Franco R, Kalvet I, et al. Improving protein expression, stability, and function with ProteinMPNN [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.10.03.560713.
[53] Hsu C, Verkuil R, Liu J, et al. Learning inverse folding from millions of predicted structures [EB/OL]. [2023-11-15]. https://doi.org/10.1101/2022.04.10.487779.
[54] Hawkins-Hooker A, Depardieu F, Baur S, et al. Generating functional protein variants with variational autoencoders [J]. PLoS Comput Biol, 2021, 17(2): e1008736.
[55] Repecka D, Jauniskis V, Karpus L, et al. Expanding functional protein sequence spaces using generative adversarial networks[J]. Nat Mach Intell, 2021, 3(4): 324-333.
[56] Alley EC, Khimulya G, Biswas S, et al. Unified rational protein engineering with sequence-based deep representation learning [J]. Nat Methods, 2019, 16(12): 1315-1322.
[57] Rives A, Meier J, Sercu T, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences [J]. Proc Natl Acad Sci U S A, 2021, 118(15): e2016239118.
[58] Elnaggar A, Heinzinger M, Dallago C, et al. ProtTrans: toward understanding the language of life through selfsupervised learning [J]. IEEE Trans Pattern Anal Mach Intell, 2022, 44(10): 7112-7127.
[59] Madani A, Krause B, Greene ER, et al. Large language models generate functional protein sequences across diverse families [J]. Nat Biotechnol, 2023, 41(8): 1099-1106.
[60] Sevgen E, Moller J, Lange A, et al. ProT-VAE: Protein Transformer Variational AutoEncoder for functional protein design [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.01.23.525232.
[61] Alamdari S, Thakkar N, van den Berg R, et al. Protein generation with evolutionary diffusion: sequence is all you need [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.09.11.556673.
[62] Gruver N, Stanton S, Frey N, et al. Protein design with guided discrete diffusion [EB/OL]. [2023-11-15]. https://doi. org/10.48550/arXiv.2305.20009.
[63] Jacob-Dolan C, Yu J, McMahan K, et al. Immunogenicity and protective efficacy of GBP510/AS03 vaccine against SARSCoV-2 delta challenge in rhesus macaques [J]. NPJ Vaccines, 2023, 8(1): 23.
[64] Shanehsazzadeh A, Bachas S, McPartlon M, et al. Unlocking de novo antibody design with generative artificial intelligence [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.01.08.523187.
[65] Generate:Biomedicines. Our pipeline [EB/OL]. [2023-11-15]. https://generatebiomedicines.com/pipeline.
[66] Silverman AD, Karim AS, Jewett MC. Cell-free gene expression: an expanded repertoire of applications [J]. Nat Rev Genet, 2020, 21(3): 151-170.
[67] Dondapati SK, Stech M, Zemella A, et al. Cell-free protein synthesis: a promising option for future drug development [J]. BioDrugs, 2020, 34(3): 327-348.
[68] Lemieux J. Protein-protein interactions get a new groove on: adding a modern twist to a traditional assay [J]. Genet Eng Biotechn N, 2019, 39(11): 30-32.
[69] Porebski BT, Balmforth M, Browne G, et al. Rapid discovery of high-affinity antibodies via massively parallel sequencing, ribosome display and affinity screening [J/OL]. Nat Biomed Eng, 2023 Oct 09. [2023-11-15]. https://doi.org/10.1038/ s41551-023-01093-3.
[70] Tamasi MJ, Patel RA, Borca CH, et al. Machine learning on a robotic platform for the design of polymer–protein hybrids [J]. Adv Mater, 2022, 34(30): e2201809.
[71] Rapp JT, Bremer BJ, Romero PA. Self-driving laboratories to autonomously navigate the protein fitness landscape [EB/OL].[2023-11-15]. https://doi.org/10.1101/2023.05.20.541582.
[72] Yu T, Boob AG, Singh N, et al. In vitro continuous protein evolution empowered by machine learning and automation [J]. Cell Syst, 2023, 14(8): 633-644.
[73] AlQuraishi M, Sorger PK. Differentiable biology: using deep learning for biophysics-based and data-driven modeling of molecular mechanisms [J]. Nat Methods, 2021, 18(10): 1169-1180.
[74] Johnson SR, Fu X, Viknander S, et al. Computational scoring and experimental evaluation of enzymes generated by neural networks [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.03.04.531015.
[75] Gasser HC, Oyarzun D, Rajan A, et al. Comparing a language model and a physics-based approach to modify MHC class-Ⅰimmune-visibility for the design of vaccines and therapeutics [EB/OL]. [2023-11-15]. https://doi. org/10.1101/2023.07.10.548300.
[76] Zhang Z, Xu M, Lozano A, et al. Physics-inspired protein encoder pre-training via siamese sequence-structure siffusion trajectory prediction [EB/OL]. [2023-11-15]. https://doi. org/10.48550/arXiv.2301.12068.