卞佳豪,楊廣宇
(上海交通大學 生命科學技術(shù)學院,微生物代謝國家重點實驗室,上海 200240)
合成生物學是一個廣泛的研究領(lǐng)域,通過將生物學和工程學相結(jié)合來設(shè)計和創(chuàng)建具有新穎功能的生物系統(tǒng)[1-2]。這一過程需要功能各異、形式多樣并且能夠良好實現(xiàn)預期功能的生物元件,特別是蛋白質(zhì)功能元件(催化酶、轉(zhuǎn)錄因子、轉(zhuǎn)運蛋白、蛋白支架等)[3]。但是,天然來源蛋白質(zhì)元件大部分都不能滿足人工生物系統(tǒng)的需要,實際應(yīng)用中往往表現(xiàn)出折疊錯誤、細胞毒性、功能不適宜等缺陷[4-5]。蛋白質(zhì)從頭設(shè)計或?qū)μ烊坏鞍踪|(zhì)進行分子改造,成為解決這一問題的重要途徑。對于蛋白質(zhì)或酶的分子改造,已經(jīng)成為合成生物學的重要研究領(lǐng)域[6-9]。
在天然蛋白質(zhì)分子改造方面,主要包括定向進化(directed evolution)和理性設(shè)計(rational design)兩種策略[10-12],見圖1。前者通過模擬自然選擇過程,對目標基因進行多輪突變和篩選實驗,直至獲得所需水平的優(yōu)良變體,但是該技術(shù)受限制于較低的篩選速率和序列空間中龐大的變體數(shù)量[13]。后者依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點進行精準改造,從而構(gòu)建較小的突變文庫,但是需要對結(jié)構(gòu)功能信息有深入了解,并且需要巨大的計算資源[14]。
圖1 理性設(shè)計,定向進化和人工智能輔助的蛋白質(zhì)工程策略示意圖(理性設(shè)計依賴序列和結(jié)構(gòu)信息,精準設(shè)計突變體文庫,但難以應(yīng)用于缺少結(jié)構(gòu)功能信息的蛋白質(zhì)。定向進化中對目標基因進行多輪突變和篩選實驗,不受結(jié)構(gòu)功能信息限制,但是需要進行高通量的篩選方法。人工智能輔助的蛋白質(zhì)工程則需要大量的序列-功能數(shù)據(jù),可以來源于實驗、計算和數(shù)據(jù)庫等多方面,通過構(gòu)建的預測模型,能夠更有效地探索蛋白質(zhì)突變體序列空間)Fig.1 Schematic diagram for rational design,directed evolution and artificial intelligence-assisted protein engineering(Rational design relies on sequence and structural information to design mutant libraries accurately.However, it is difficult for being applied to pro‐teins lacking structural and functional information.In the directed evolution strategy,multiple rounds of mutation and screening experiments are per‐formed on target genes,which are not limited by structural and functional information,but high-throughput screening methods are required.Artificial intelligence-assisted protein engineering requires a large amount of sequence-function data,which can be derived from experiments,calculations,and databases.Through the predictive model,the sequence space of protein mutants can be explored more effectively)
人工智能輔助的蛋白質(zhì)工程策略是一種由數(shù)據(jù)驅(qū)動的新策略[15]。該策略通過學習已有數(shù)據(jù)中的信息,建立起輸入屬性(如序列)到輸出屬性(如功能)的映射關(guān)系,不需要詳細的物理或生物層面的基礎(chǔ)信息[16]。一旦得到足夠準確的映射關(guān)系(或者說預測模型),就能夠通過實驗中容易得到的輸入值來預測輸出值,從而免除大量的重復性實驗。目前,該策略已經(jīng)成功應(yīng)用在蛋白質(zhì)工程的很多方面,包括蛋白分子結(jié)構(gòu)預測[17-18]、蛋白分子功能預測[19-20]、蛋白分子溶解度預測[21-22]和指導設(shè)計智能組合文庫[23-26]等。
目前已有多篇綜述詳細介紹了有關(guān)機器學習的基礎(chǔ)概念[27-31]。這些文章多從數(shù)據(jù)和算法的角度來對人工智能的主要進展進行了介紹,但是對于非生物信息學背景的研究人員而言,這類綜述讀起來較為深奧。為了使更多實驗生物學背景的人員理解人工智能蛋白設(shè)計的進展,本文將主要介紹人工智能輔助蛋白分子設(shè)計的應(yīng)用實例、已開發(fā)的數(shù)據(jù)庫和平臺工具等幾個方面,為希望進入人工智能蛋白質(zhì)工程領(lǐng)域的入門者提供幫助。
人工智能算法由于準確度高、計算速度快、不受蛋白質(zhì)結(jié)構(gòu)功能信息限制等優(yōu)點,近年來被大量應(yīng)用于蛋白質(zhì)工程領(lǐng)域,包括蛋白質(zhì)的結(jié)構(gòu)、功能、熱穩(wěn)定性、對映體選擇性、光敏性及指導設(shè)計智能組合文庫等多個方面。其中除了經(jīng)典的機器學習算法(決策樹、支持向量機和高斯過程回歸等)外,多種深度學習算法和基于深度學習的自然語言處理技術(shù)也獲得了成功的應(yīng)用。在下文中,我們重點集中于近幾年在蛋白質(zhì)結(jié)構(gòu)預測、功能預測、溶解度預測和指導設(shè)計智能組合文庫四個方面的成功案例,系統(tǒng)地分析人工智能算法在蛋白質(zhì)工程中應(yīng)用的優(yōu)勢。
截至2018 年,蛋白質(zhì)數(shù)據(jù)庫中發(fā)布了超過145 000 個蛋白質(zhì)結(jié)構(gòu),但與目前已知的超過2 億條蛋白質(zhì)序列相比,仍僅占很小的比例[32],因此蛋白質(zhì)結(jié)構(gòu)預測是生物學中經(jīng)久不衰的熱點問題。早在1992 年,機器學習算法就被用于預測蛋白質(zhì)二級結(jié)構(gòu)[33]。近幾年,利用深度學習算法和蛋白質(zhì)序列的三維結(jié)構(gòu)預測模型取得了不小的進展[34]。首先是在2018 年第13 屆全球蛋白質(zhì)結(jié)構(gòu)預測競賽(CASP)上,AlphaFold 模型結(jié)合深度殘差卷積神經(jīng)網(wǎng)絡(luò)和快速Rosetta 模型,獲得了預測43 種蛋白中的25 種蛋白結(jié)構(gòu)的最高分,實現(xiàn)了預測成功率的 突 破[17]。2019 年 底,David Baker 團 隊 發(fā) 表 了trRosetta 方案,綜合了深度學習和Rosetta 的優(yōu)勢和進展,具有良好預測精度的同時,能夠在本地電腦上就可以完成計算,使得預測蛋白結(jié)構(gòu)的門檻 大 大 降 低[18]。 在2020 年 的CASP14 中,AlphaFold 2 再次獲得冠軍。根據(jù)DeepMind 官方的信息,AlphaFold 2 在無模板的自由建模任務(wù)中,拿 到 了87.0 的GDT_TS 分 數(shù)(global distance test[35]),在常規(guī)項目中拿到了92.4 分,這意味著該系統(tǒng)預測的均方根偏差(即預測數(shù)據(jù)與實驗數(shù)據(jù)在原子位置上的偏差)大約為0.16 nm,已經(jīng)達到了常規(guī)蛋白質(zhì)晶體結(jié)構(gòu)的實驗精度。盡管AlphaFold 目前最好的成績是針對單鏈蛋白質(zhì)分子,但這種成績本身就足以證明人工智能算法在蛋白質(zhì)結(jié)構(gòu)預測中的巨大潛力,例如減少繁瑣的結(jié)晶條件探索工作,以及提供以常規(guī)實驗方法難以獲得的蛋白質(zhì)結(jié)構(gòu)等。
天然蛋白的功能表征實驗需要大量工作,其速度遠遠低于新蛋白序列的獲取速度[36-37]。借助人工智能算法來預測蛋白質(zhì)的功能是另外一個研究熱點。2018 年,研究者通過收集來自擬南芥的54 種GT1 家族糖基轉(zhuǎn)移酶的序列信息和它們91 種底物的物理化學特性(如疏水常數(shù)lgP、分子表面積)和結(jié)構(gòu)信息(如官能團拷貝數(shù)、框架類型),建立了初始的數(shù)據(jù)集,并以多種基于決策樹的算法來構(gòu)建酶功能的預測模型(圖2)[19]。在不需要進行任何實驗的條件下,該預測模型利用酶序列,就能夠準確地預測其他植物中(苜蓿和燕麥)GT1糖基轉(zhuǎn)移酶的活性,對來自細菌的GT1 酶活性的預測準確率也在70%以上。這表明能夠利用高通量數(shù)據(jù)進行學習的人工智能算法在底物混雜、已解析結(jié)構(gòu)少的酶的功能注釋中具有巨大潛力。此外,人工智能算法也被應(yīng)用于預測酶的EC 編號(enzyme commission number),幫助對酶分子進行分 類。先 后 發(fā) 展 出 的PRIAM[38]、CatFam[39]、EFICAz2.5[40]、 SVM-prot[41]、 COFACTOR[42]、DEEPre[36]、 DETECT v2[43]、 ECPred[44]和DeepEC[20]等多種預測工具,在計算時間、計算精度和覆蓋范圍等預測性能方面逐漸改進,簡要內(nèi)容見表1。其中,DeepEC 方法包括三個獨立的卷積神經(jīng)網(wǎng)絡(luò),利用氨基酸序列,就能對氨基酸序列是否為酶分子、酶分子EC 編號的三位和四位數(shù)值進行預測。與CatFam、DETECT v2、ECPred、EFICAz2.5 和PRIAM 五種代表性的酶EC 編號預測工具相比,在Swiss-Prot 數(shù)據(jù)庫中選取的201 個酶進行驗證時, DeepEC 表現(xiàn)最佳, 準確率(accuracy)和召回率(recall)分別為0.920和0.455。即45.5%的陽性樣本能被預測模型準確識別,這其中92.0%樣本的預測值與真實值是一致的。
表1 EC編號預測工具匯總表Tab.1 Forecast tools for EC numbers
圖2 GT1家族糖基轉(zhuǎn)移酶預測模型(GT-Predict)的工作流程[19](基于功能的算法學習方法GT-Predict,使用來源于酶、親電試劑和親核試劑的多種訓練集來創(chuàng)建基于物理化學和局部序列的分類器,從而預測GT1糖基轉(zhuǎn)移酶的催化活性和功能信息。Nuc表示親核基團的數(shù)量/類型)Fig.2 Workflow for predicting the GT1 glycosyltransferase model(GT-Predict)[19](The function-based algorithmic learning approach,GT-Predict,uses a diverse training set of enzymes,electrophiles,and nucleophiles to create a physicochemical and local-sequence-based classifier for predicting the novel transformations and functional annotation of GT group-transfer enzymes.)
蛋白質(zhì)的溶解度對于其行使功能起到重要作用。溶解度過低是蛋白質(zhì)大規(guī)模生產(chǎn)中常見的主要瓶頸[45-46],而溶解度的測量費時費力,因此非常需要能夠準確對蛋白質(zhì)溶解度進行預測的生物信息學工具。新加坡國立大學的Han 等[21]測試了邏輯回歸、決策樹、支持向量機、樸素貝葉斯、條件隨機森林、XGboost和人工神經(jīng)網(wǎng)絡(luò)等七種算法構(gòu)建基于序列的溶解度預測模型,其中支持向量機算法構(gòu)建的模型在此預測任務(wù)中顯示出最高的準確性。在預測結(jié)果為代表“可溶”和“不溶”的二分值“1”和“0”時,該模型的預測準確率為0.7628。除此之外,該模型還可以預測蛋白質(zhì)連續(xù)的溶解度值(離心后上清液的蛋白質(zhì)質(zhì)量與總蛋白質(zhì)質(zhì)量之比)。但這種情況下,模型預測的準確性有所降低,決定系數(shù)為0.41。最近,中山大學的Chen Jianwen 等[22]利用蛋白質(zhì)接觸圖(contact map)和圖神經(jīng)網(wǎng)絡(luò)算法(GCN)開發(fā)了一種新的利用氨基酸序列預測蛋白質(zhì)溶解的模型GraphSol,在同樣利用eSOL 數(shù)據(jù)庫中的蛋白質(zhì)溶解度數(shù)據(jù)進行驗證時,進一步提升了預測模型的性能,其決定系數(shù)為0.48。在蛋白質(zhì)工程中,輸出結(jié)果為簡單的二分值時,重要的氨基酸突變對溶解度的貢獻無法分析。例如,“不溶”和“可溶”的群體中,不同突變對蛋白質(zhì)溶解度的貢獻無法分辨。并且,當存在大量“可溶”的預測變體時,無法從中選出表現(xiàn)最佳的少數(shù)變體進行實驗驗證[21]。因此,能夠預測蛋白質(zhì)連續(xù)的溶解度的模型更適用于輔助蛋白質(zhì)工程。隨著可用數(shù)據(jù)集的擴大和算法框架的優(yōu)化,基于序列的蛋白質(zhì)溶解度預測模型將能夠有越來越高的準確率。
人工智能策略在酶定向進化中也具有重要的應(yīng)用潛力。依靠人工智能算法,可以基于已有的序列/結(jié)構(gòu)信息,直接建立起序列/結(jié)構(gòu)-功能的映射關(guān)系,因此理論上可以極大減少篩選工作量,并且更加有效地探索整個組合突變體的序列空間[26,47]。例如,在指導綠色熒光蛋白向黃色熒光蛋白進化的研究中,研究者們對選定的四個關(guān)鍵位點構(gòu)建了單點飽和突變庫和隨機誘變庫,共包含218 個變體。但將所有變體篩選之后,沒有發(fā)現(xiàn)比參考黃色熒光蛋白性能更好的突變體。隨后,他們選擇其中的155 個變體的序列-功能數(shù)據(jù)作為初始數(shù)據(jù)集,以高斯過程回歸算法來構(gòu)建預測模型。通過預測模型,遍歷了整個四點組合序列空間中的近16 萬個變體,并對其性能打分。在僅僅對預測突變體文庫中排名靠前的78 個變體進行驗證的情況下,就找到了12 個黃色熒光強度高于參考蛋白的突變體[23]。
此外,在Frances H.Arnold 團隊[24]的研究中,他們從對S-對映體有76%ee 一氧化氮雙加氧酶出發(fā),利用455個突變體來構(gòu)建從序列預測功能的模型。通過該模型對涵蓋了七個位置(兩個區(qū)域)的組合序列空間中約168 000 個變體的性能進行預測,再進行兩輪篩選,共驗證了360個變體后,就獲得了對S-對映體有93%ee和對R-對映體有79%ee的兩種優(yōu)良變體。
在2018 年,Manfred T.Reetz 團隊[25]利用一種innov’SAR 的人工智能方法來指導在環(huán)氧水解酶的對映體選擇性的進化過程中組合突變文庫的設(shè)計,在僅使用了38 個突變體的序列-功能數(shù)據(jù)的情況下,預測模型對九個位點上共512 種突變體的功能進行了預測,經(jīng)過簡單驗證后就找到了多個優(yōu)于經(jīng)隨機突變文庫篩選得到的最佳突變體的酶分子。
2019年,為了解決視紫紅質(zhì)通道蛋白篩選通量太低,并且要同時保留其多種特性的問題,F(xiàn)rances H.Arnold團隊[26]使用了人工智能輔助的蛋白質(zhì)工程策略(圖3)。其方法為首先利用實驗表征的和文獻報道得到的183個序列-功能數(shù)據(jù),構(gòu)建一個分類模型,從而有效排除重組文庫120 000 條序列中絕大多數(shù)的非功能序列。然后根據(jù)已經(jīng)表征的視紫紅質(zhì)通道蛋白的特性信息,針對不同的目標屬性來建立不同的回歸模型,例如電流強度、關(guān)閉動力學(即曝光后通道關(guān)閉所需的時間)和激活的波長敏感度等,對所有具有功能的序列進行特性的得分的預測。最后從預測庫中選擇少部分排名靠前的突變體(28個)進行實驗驗證,并得到了目標屬性都優(yōu)于現(xiàn)有的視紫紅質(zhì)通道蛋白的三個變體ChRger1、ChRger2和ChRger3。
圖3 人工智能輔助的視紫紅質(zhì)通道蛋白改造的工作流程[26][在重組文庫中表征的102種ChR蛋白和文獻中報道的61種變體,共同構(gòu)成了(1)分類模型的訓練集。然后,使用經(jīng)過訓練的分類模型來預測12000個未表征的ChR序列變體是否具有功能。接下來,構(gòu)建了三個(2)回歸模型,分別針對不同的ChR光電流特性:光電流強度,關(guān)閉動力學和光電流的波長敏感性]Fig.3 Workflow for machine learning-guided channelrhodopsin engineering[26][102 ChR proteins characterized in the recombinant library,together with 61 variants reported in the literature,constitute the training set of theclassification model(1).Then the trained classification model was used to predict whether 12000 uncharacterized ChR sequence variants are functional,and three regression models(2)were trained,one for each of the ChR photocurrent properties of interest:photocurrent strength,off-kinetics and wavelength sensitivity of the photocurrents.]
在人工智能輔助的蛋白分子設(shè)計策略中,本質(zhì)是基于已有的數(shù)據(jù),引入不同的機器學習算法來進行“輸入特征-輸出特征”的映射關(guān)系的構(gòu)建。根據(jù)訓練數(shù)據(jù)是否擁有標記信息(即規(guī)定的輸出值),機器學習大致可劃分為監(jiān)督學習(supervised learning)和無監(jiān)督學習(unsupervised learning)。由于在蛋白質(zhì)工程中,最終目的是獲得或者優(yōu)化目標蛋白的一個或多個屬性,因此至少會有一個屬性值作為標記信息,屬于監(jiān)督學習[48]。
圖4描述了監(jiān)督學習的工作流程,主要可以分為三個步驟[27]。步驟1: 通過數(shù)據(jù)庫、實驗和文獻等方式收集初始數(shù)據(jù),將序列作為輸入特征,將蛋白質(zhì)的功能信息(如對某種目標底物的活性)作為標記信息(如1 代表該序列對底物有活性,0 代表該序列無活性),轉(zhuǎn)為計算機能夠識別的數(shù)字格式,并拆分為訓練集和測試集。步驟2:選用合適的算法,利用訓練集進行預測模型的訓練,建立起“序列-活性”的映射關(guān)系。步驟3:利用訓練的模型,輸入測試集的序列,得到預測值(0或1),通過比較測試集中的真實值和預測值之間的差異,評估預測模型的性能。在整個流程中,有兩個關(guān)鍵點對預測模型的性能至關(guān)重要:數(shù)據(jù)、分子描述符和算法,人工智能方法的開發(fā)重點也是集中于這兩個方面。
圖4 監(jiān)督學習的流程示意圖[27](a)準備數(shù)據(jù):來源于實驗,計算或數(shù)據(jù)庫的數(shù)據(jù)通常會轉(zhuǎn)換成計算機可以識別的格式,并拆分為訓練集和測試集;(b)構(gòu)建預測模型:利用訓練集訓練不同的算法以找到?jīng)Q策邊界,構(gòu)建預測模型,例如隨機森林,神經(jīng)網(wǎng)絡(luò)和支持向量機;(c)驗證模型:對于分類問題或者回歸問題,應(yīng)選擇合適的評估方法Fig.4 Schematic diagram of the supervised learning process[27]Step(a):Preparing data.The data from experiments,calculations or databases are usually converted to a format that the computer can recognize and split into the training and test parts.Step(b):Constructing a predictive model.Using the training set to train different algorithms to find decision boundaries,such as random forests,neural networks and support vector machines,so as to build predictive models.Step(c):Validating the model.An appropriate evaluation method should be selected for tasks with classification or regression.
由于人工智能算法嚴重依賴數(shù)據(jù),初始數(shù)據(jù)的數(shù)量和質(zhì)量決定了訓練得到的模型的泛化性能[49-50]。數(shù)據(jù)集的數(shù)量不足或者質(zhì)量過低會導致模型出現(xiàn)過擬合或者欠擬合的問題,往往會進行交叉驗證來檢測模型中是否存在該問題,例如k折交叉驗證(即將整個數(shù)據(jù)集平均拆分為k份,每一份輪流作為測試集,其余作為訓練集,如圖5),因此數(shù)據(jù)收集是重要且耗時的步驟。一般來說,人工智能輔助策略很適合與其他蛋白質(zhì)改造策略聯(lián)用,利用在隨機突變或(半)理性設(shè)計后生成的數(shù)據(jù)作為初始數(shù)據(jù)[51]。但是,一方面,就來自單輪實驗的數(shù)據(jù)而言,數(shù)據(jù)集通常僅包括數(shù)十種到數(shù)百種變體,這在人工智能算法框架中屬于較小的樣本量[52]。另一方面,從實驗中以及部分數(shù)據(jù)庫中的數(shù)據(jù)是存在一定偏差的,特別是針對蛋白質(zhì)某項屬性進行改造時,表現(xiàn)不好的突變體通常直接被丟棄掉,因此導致初始數(shù)據(jù)集中數(shù)據(jù)不均勻。因此,如果采用人工智能輔助的蛋白質(zhì)工程策略,應(yīng)當注意收集陰性數(shù)據(jù)來保證數(shù)據(jù)的無偏性。針對訓練數(shù)據(jù)的數(shù)量偏少的問題,一方面許多數(shù)據(jù)庫一直在收集、整理來源于文獻或?qū)嶒灥臄?shù)據(jù),涵蓋蛋白質(zhì)的序列、結(jié)構(gòu)、功能和溶解度等多個屬性,可以為人工智能算法提供許多優(yōu)質(zhì)的數(shù)據(jù);另一方面,隨著超高通量篩選和二代測序等高通量生物學實驗技術(shù)的逐漸成熟,可以相信在不遠的未來可用數(shù)據(jù)的數(shù)量和質(zhì)量都會得到大幅度的提升,為更精準的人工智能算法提供充足的資源。
圖5 k折交叉驗證示意圖(將訓練數(shù)據(jù)進一步細分為k個子集,并且將訓練工作流程重復k次,同時保留k個子集中的一個用于評估,其余k-1個子集用于訓練)Fig.5 Schematic diagram for k-fold cross-validation(The training data is further subsplit into k subsets,and the training workflow is repeated k times with each of the k subsets holding for evaluation and the remaining k-1 subsets used for training)
分子描述符(molecular descriptors),就是將分子的化學信息(例如結(jié)構(gòu)特征)轉(zhuǎn)換成有用的數(shù)字形式的工具。算法,即學習算法(learning algorithm),是機器學習中用于幫助計算機系統(tǒng)從數(shù)據(jù)中產(chǎn)生模型(model)、總結(jié)“經(jīng)驗”的方法[53]。但計算機系統(tǒng)僅能理解數(shù)字向量,所以算法不能直接作用于蛋白質(zhì)序列[16]。因此,在獲得序列之后,一般還需要利用合適的分子描述符將氨基酸序列處理為計算機能夠識別的格式。以最簡單的獨熱編碼描述符為例,對于N個長度為L的多個蛋白質(zhì)突變體序列,它們?nèi)粼谀骋幌嗤稽c上包含S種不同的氨基酸(S≤N,S≤20),則該位置的所有氨基酸都可以用一個S維向量表示,每一個S維向量都包括S?1 個0 和一個1,其中1 的位置表明該氨基酸的身份,如圖6。氨基酸序列也可以根據(jù)物理性質(zhì)進行編碼,每種氨基酸可以由其電荷、體積或疏水性等特性或者這些特性的組合來表示,如AAindex[54]中就包含了大量類似的描述符。目前常用到的描述符有4 種類型,包括基于氨基酸序列特征的描述符、結(jié)構(gòu)信息描述符、嵌入式表示描述符以及突變指示描述符,在綜述[16,30,55]中均有詳細描述,本文不再贅述。
圖6 獨熱編碼示意圖(N個蛋白質(zhì)突變體序列中L個氨基酸中某一相同位置包含S種不同的氨基酸,獨熱編碼將這S個氨基酸都表示為包括S-1個0和一個1的S維向量,其中1的位置表示該位置的氨基酸的種類)Fig.6 Schematic diagram for one-hot encoding(A certain position of the L amino acids in the N protein mutant sequence contains S different amino acids.The one-hot encoding represents all S amino acids as an S-dimensional vector including S-1 zeros and one 1.The position of 1 indicates the type of amino acid at that position.)
除此之外,人工智能領(lǐng)域也已經(jīng)提出了大量算法。從模型復雜度角度, 機器學習分為經(jīng)典機器學習和深度學習[56]。前者中的偏最小二乘回歸[57]、支持向量機[58]、決策樹/隨機森林[59]和貝葉斯網(wǎng)絡(luò)[60]等常見算法以及后者中的變分自編碼器[61]、卷積神經(jīng)網(wǎng)絡(luò)[62]和循環(huán)神經(jīng)網(wǎng)絡(luò)[63]等都已用于輔助蛋白分子設(shè)計。
經(jīng)典機器學習和深度學習二者的不同在于,經(jīng)典機器學習算法強烈依賴于人工提取的特征,一般與基于氨基酸特征或序列整體特征的分子描述符配套使用,但可能會受限于定義好的特征值而忽略數(shù)據(jù)中隱藏的信息[64]。而深度學習是通過深度神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)進行分層抽象處理,能有效排除噪聲、發(fā)現(xiàn)隱藏信息,因此非常適用于從高維數(shù)據(jù)發(fā)現(xiàn)復雜結(jié)構(gòu)[56]。各個算法的入門介紹可以參考綜述[16,28,31,55]。
在選擇算法時,一般會以線性模型作為基線。如果線性模型的準確性不足,并且初始數(shù)據(jù)集中數(shù)據(jù)小于10 000 時,偏最小二乘回歸、隨機森林和支持向量機都可能構(gòu)建出最佳的預測模型,而神經(jīng)網(wǎng)絡(luò)則通常在更大的數(shù)據(jù)集上表現(xiàn)出最佳性能[16]。在計算速度方面,由于復雜程度和所需訓練集大小等因素影響,深度學習往往也需要花費更多時間[55]。因此,如何選擇合適的算法,需要研究者在具體的預測任務(wù)中仔細衡量準確率、計算速度和實現(xiàn)難度等因素。
在人工智能輔助的酶定向進化策略中,選擇合適的分子描述符和機器學習算法對構(gòu)建準確的預測模型而言至關(guān)重要。沒有一種分子描述符和算法能夠滿足所有的學習任務(wù)[65],研究人員必須結(jié)合專業(yè)知識或者同時構(gòu)建多個模型進行比較。Frances H.Arnold 團隊使用高斯過程算法,嵌入式表示、蛋白質(zhì)指數(shù)和獨熱編碼等氨基酸編碼方式進行了未知功能蛋白的功能預測,結(jié)果發(fā)現(xiàn),使用嵌入式表示描述符訓練的模型預測能力與其他模型的預測能力相當,甚至超過它們[66];而在Jennifer M.Johnston 等人的研究中,使用多種描述符和卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了蛋白質(zhì)序列/活性關(guān)系預測模型,結(jié)果發(fā)現(xiàn),基于序列的氨基酸特性相關(guān)描述符的卷積神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)較好,而嵌入式表示描述符表現(xiàn)不佳[55]。這恰恰證明了沒有一種分子描述符和算法能夠滿足所有的學習任務(wù)。
除了與其他分子改造策略聯(lián)用之外,隨著高通量篩選和二代測序技術(shù)的不斷發(fā)展,越來越多的蛋白質(zhì)信息被挖掘,目前已經(jīng)有許多優(yōu)秀的數(shù)據(jù)庫收集并整理了多種可作為該策略初始數(shù)據(jù)的信息,是優(yōu)良的數(shù)據(jù)來源。即便數(shù)據(jù)庫中大量蛋白質(zhì)序列信息沒有功能注釋,也可以用于構(gòu)建預測模型,即通過人工智能算法從這些序列中學習、提取特征,然后作為下一步從“已知特征”到“目的屬性”的頂層預測模型的輸入數(shù)據(jù)。例如,在2019 年George M.Church 團隊利用了大約2400 萬條蛋白質(zhì)序列訓練遞歸神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建了一個UniRep 模型[67]。該模型能夠預測氨基酸序列中下一個氨基酸是什么,以此來提取氨基酸序列中不可見的特征。這些特征可以作為其他算法(如隨機森林、稀疏線性回歸等)的輸入信息,來構(gòu)建頂層特征(圖7)。在應(yīng)用方面,基于UniRep 模型的預測模型在預測蛋白質(zhì)穩(wěn)定性和熒光蛋白序列優(yōu)化任務(wù)中,性能都明顯優(yōu)于Frances H.Arnold 團隊曾報道的Doc2Vec 模型[66]。該研究說明人工智能算法能夠深度挖掘蛋白質(zhì)序列中隱藏信息,為提高蛋白質(zhì)工程的效率、解決蛋白質(zhì)表征實驗費時費力問題提供了一個全新的方法。
圖7 UniRep模型的工作流程[67][在訓練部分,UniRep模型使用了2400萬個氨基酸序列作為訓練集。然后使用訓練好的模型來預測下一個氨基酸(使交叉熵損失最小化),從而學會如何正確表示氨基酸。在應(yīng)用部分中,訓練后的模型通過提取和平均各個氨基酸的數(shù)字向量,從而生成輸入序列的單個固定長度矢量表示。這些向量可以用于訓練頂級模型,從而應(yīng)用于多種序列-功能預測任務(wù)]Fig.7 Workflow for the UniRep model[67][In the training part,24 million amino acid sequences are used to train the UniRep model.Then the trained model is used to predict the next amino acid(minimizing the cross-entropy loss),so as to learn how to correctly represent the amino acid.In the application part,by extracting and assessing the numerical vector associated with the amino acid,the trained model is used to generate a single fixed-length vector representing the input sequence.Next,these vectors can be used to train top models,which can be applied to various sequence-function prediction tasks.]
除了最常見的蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫外,越來越多的數(shù)據(jù)庫在自動或手動收集整理蛋白質(zhì)突變穩(wěn)定性、溶解度等信息,表2對部分比較常見的數(shù)據(jù)庫的類型、大小和特點進行了介紹。
表2 常見數(shù)據(jù)庫匯總表Tab.2 Commonly used database
事實上,學者們已經(jīng)開發(fā)了許多線上平臺或者工具包來幫助人們獲得蛋白質(zhì)序列中的特征信息以及使用人工智能算法的工具,匯總信息見表3。大多數(shù)工具包和線上平臺都只關(guān)注于完成整個生物序列分析任務(wù)的一部分,例如,大多數(shù)工具都只能利用不同類型的分子描述符從序列中生成特征。但是其中BioSeq-Analysis2.0 和iLearn 兩個平臺可以自動執(zhí)行整個蛋白序列分析任務(wù)的步驟,SOLart 平臺則額外引入了結(jié)構(gòu)信息來預測目標蛋白質(zhì)溶解度,下面進行詳細闡述。
表3 基于蛋白質(zhì)序列的特征生成工具匯總表Tab.3 Feature generation tools based on protein sequences
3.2.1 Protein-Analysis2.0
Protein-Analysis2.0 是服務(wù)器BioSeq-Analysis2.0的線上蛋白質(zhì)服務(wù)器,可以通過三個主要步驟完成蛋白序列分析任務(wù):特征提取,預測模型構(gòu)建以及性能評估[91]。其中在特征提取方面,包括13 種基于氨基酸殘基水平的分子描述符和39 種基于氨基酸序列水平的分子描述符。為了避免某些分子描述符導致編碼后向量維度爆炸的情況,該平臺還添加了兩種特征選擇方法。在人工智能算法方面,該平臺僅整合兩種分類算法(支持向量機和隨機森林)和一種序列標記算法(條件隨機場)。在性能評估方面,該平臺支持5 折交叉驗證或獨立數(shù)據(jù)集兩種方式。同時,作者利用文獻[94]中的數(shù)據(jù)作為基準數(shù)據(jù),預測蛋白質(zhì)的無序區(qū)域,其中,其中條件隨機場-One-hot(6-bit)預測模型表現(xiàn)最佳,與文獻中的方法高度可比,證明了該平臺的實用性。平臺地址為:
http://bliulab.net/BioSeq-Analysis2.0/home/
3.2.2 iLearn
iLearn線上平臺與BioSeq-Analysis2.0類似,不同之處在于:①iLearn平臺中包含更多種分子描述;②擁有更豐富的特征分析功能,支持聚類、特征向量歸一化、降維和5種特征選擇方法;③支持更多的機器學習算法和更多的評估指標;④選擇一種或多種機器學習算法進行提交,可以返回具有最佳性能的模型等[93]。在應(yīng)用方面,作者從文獻[95]中收集初始數(shù)據(jù)集和獨立測試數(shù)據(jù)集,利用BLOSUM62、CKSAAP、Binary、Z-scales、AAindex、AAC 和EAAC其中不同的分子描述符來進行蛋白質(zhì)丙二酰化位點預測模型的構(gòu)建,最終EAAC編碼模型的AUC值為0.73,與原始工作中報告的AUC 值為0.739 相當,表明iLearn可以作為一種方便有效的工具來構(gòu)建相關(guān)的預測模型。平臺地址為:
https://ilearn.erc.monash.edu/
3.2.3 SOLart
SOLart線上平臺要求的輸入信息僅僅是蛋白質(zhì)結(jié)構(gòu),該結(jié)構(gòu)可以由用戶手動上傳,也可以從Protein Data Bank 自動上傳,無需其他額外操作。其原理是在基于序列的特征(如蛋白長度和氨基酸組成)之外,引入了溶解度依賴距離電位、溶劑可及表面積和二級結(jié)構(gòu)等結(jié)構(gòu)特征,并以此訓練隨機森林算法構(gòu)建預測模型。在交叉驗證中,實驗和預測的溶解度值之間的皮爾森相關(guān)系數(shù)幾乎達到0.7,表現(xiàn)出了較好的預測能力[93]。平臺地址為:
http://babylone.ulb.ac.be/SOLART/index.php
目前人工智能策略在蛋白質(zhì)工程領(lǐng)域的應(yīng)用范圍主要包括蛋白質(zhì)結(jié)構(gòu)預測、酶功能預測、蛋白質(zhì)溶解度預測以及指導智能組合文庫設(shè)計等。在短短數(shù)年中,人工智能策略已經(jīng)在蛋白質(zhì)工程領(lǐng)域展現(xiàn)了顯而易見的應(yīng)用潛力和價值。要進一步挖掘人工智能在蛋白質(zhì)工程領(lǐng)域的潛能,提升預測模型的性能,還需解決許多問題。首先,目前數(shù)據(jù)庫中自動注釋的蛋白質(zhì)的信息質(zhì)量難以讓人信服,手動管理的高質(zhì)量數(shù)據(jù)庫中數(shù)據(jù)量的大小又遠不如前者,缺少大量可用于訓練和驗證的標準化的數(shù)據(jù)。在后續(xù)工作中,應(yīng)該構(gòu)建更加高質(zhì)量的基礎(chǔ)性蛋白質(zhì)序列-結(jié)構(gòu)-功能數(shù)據(jù)庫,有助于更加高效地構(gòu)建人工智能預測模型。其數(shù)據(jù)集應(yīng)該是相關(guān)的、有代表性的、非冗余的,并且包含通過實驗確定的陽性和陰性數(shù)據(jù),具有統(tǒng)一的標準格式等[50]。其次,在早期的實驗中,更容易被表征或者具有更好表型的蛋白質(zhì)往往會在后續(xù)工作中進行表征和確認,而表現(xiàn)不佳的蛋白質(zhì)則會被丟棄,導致數(shù)據(jù)出現(xiàn)偏差,模型的預測性能下降[96]。此外,人工智能輔助的蛋白質(zhì)工程策略還處于早期階段,大多數(shù)例子中的預測模型可能無法直接推廣應(yīng)用到其他學習任務(wù)中,需要重新進行訓練和驗證。最后,隨著越來越多的復雜的人工智能算法被用于蛋白質(zhì)工程,難以對預測模型的原理進行解釋等等。
隨著相關(guān)研究的逐漸深入,最近已經(jīng)有一些針對這些問題的研究。如今,基因功能注釋領(lǐng)域中的自動功能預測(automatic function prediction,AFP)飛速發(fā)展,雖然還不足以解決上面提到的新蛋白質(zhì)序列表征的問題,但是也已經(jīng)提出一些類似于CASP 競賽性質(zhì)的比賽,如CAFA[97]、EFI[98]和COMBREX[99]等。相信在未來,會出現(xiàn)具有足夠精度的人工智能算法能準確預測新蛋白質(zhì)序列的功能,為人工智能輔助的蛋白質(zhì)工程提供大量優(yōu)質(zhì)的數(shù)據(jù)。除此之外,隨著微流控篩選、熒光激活的細胞分選、噬菌體輔助連續(xù)進化等超高通量篩選技術(shù)的突破與二代測序技術(shù)的成熟,二者聯(lián)用產(chǎn)生的蛋白質(zhì)深度突變掃描技術(shù)應(yīng)運而生[100-102],應(yīng)用它們來獲得大量更全面、更均勻的實驗數(shù)據(jù)是未來重要的發(fā)展方向之一。并且,近幾年人工智能算法仍在飛速發(fā)展,遷移學習模型取得了一些進展,除了Frances H.Arnold 團隊和George M.Church 團隊所采用的自然語言算法模型外,自動編碼器和變分自編碼器神經(jīng)網(wǎng)絡(luò)算法也可以從輸入的蛋白質(zhì)序列中生成、提取深層的特征,從而基于序列就可以執(zhí)行多種預測任務(wù)。例如Debora S.Marks 團隊開發(fā)的DeepSequence 僅基于序列就可以預測突變帶來的影響[103]。最后,人工智能算法的可解釋性也是重要研究方向。相信在未來,能夠清晰明了地解析預測模型內(nèi)部原理。隨著數(shù)據(jù)和人工智能算法的不斷發(fā)展,性能更好的人工智能預測模型將會成為蛋白質(zhì)工程的強大工具。