劉海燕
(中國科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部,安徽 合肥 230022)
合成生物學(xué)基于對天然生命體系機制和規(guī)律認識,開發(fā)工程化的使能技術(shù)和工具,通過“設(shè)計-構(gòu)造-測試”的閉環(huán)打造人工生物體系,實現(xiàn)生命科學(xué)研究和生物技術(shù)應(yīng)用中的“建物致知”“建物致用”。從傳統(tǒng)生物工程過渡到合成生物學(xué),既包含了漸變性的演化,也包含了突變性的躍遷:“漸變性演化”體現(xiàn)在合成生物學(xué)在技術(shù)層面繼承、集成生物分子、網(wǎng)絡(luò)、細胞乃至有機體等不同層次的生物工程方法;而“突變性躍遷”的主要體現(xiàn)之一,是“設(shè)計”環(huán)節(jié)在合成生物學(xué)研究中的重要性顯著增加。后者必然需要相關(guān)“設(shè)計”能力的大幅提升。
在傳統(tǒng)生物工程中,設(shè)計問題主要通過利用特定體系的特點和專家的經(jīng)驗來解決,缺乏半定量、定量模型的支撐,難以形成系統(tǒng)的、能夠方便地在不同應(yīng)用場景或不同研究團隊之間遷移推廣的設(shè)計方法和設(shè)計技術(shù)。要提升合成生物學(xué)設(shè)計能力,需要針對不同層次的生物學(xué)問題發(fā)展基于計算的定量方法和模型;這類以計算為基礎(chǔ)的模型較少依賴于研究者個人經(jīng)驗,可以遷移應(yīng)用于不同場景,從而讓我們能夠以更趨近于現(xiàn)代工程學(xué)的方式來設(shè)計人工生物系統(tǒng)。
合成生物學(xué)中的設(shè)計問題面臨不同的尺度??v向來看:要對蛋白質(zhì)等分子元件自身結(jié)構(gòu)功能進行設(shè)計,核心模型可以只考慮單個分子;要設(shè)計分子識別和組裝,需要使用考慮分子間復(fù)合物或多分子聚集體的模型;要優(yōu)化設(shè)計細胞代謝網(wǎng)絡(luò)、信號調(diào)控網(wǎng)絡(luò)等,則需要能處理多節(jié)點分子互作網(wǎng)絡(luò)的模型。橫向來看:有的計算模型只適用于特定的靶標(biāo)分子;有的模型則考慮了某一家族或具有某種特定功能的同類生物大分子(如催化某種類型化學(xué)反應(yīng)的酶);更通用的模型涵蓋的分子類型則更廣泛,如固有無序蛋白、非編碼RNA等。
本專輯中,多篇文章討論的計算模型屬于分子或分子間層次。來自趙國屏團隊的王晟等[1]聚焦合成生物學(xué)分子元件,從設(shè)計原理、計算方法、應(yīng)用等角度,介紹了催化元件、調(diào)控元件、傳感元件的計算設(shè)計前沿進展。本專輯中另外幾篇論文則從不同角度綜述了酶催化元件的計算設(shè)計進展。巫瑞波團隊[2]長期從事酶反應(yīng)機制的理論模擬;他們的綜述聚焦于酶催化底物、產(chǎn)物的預(yù)測,以及酶設(shè)計改造。他們匯總比較了酶反應(yīng)相關(guān)數(shù)據(jù)庫、數(shù)據(jù)驅(qū)動的酶反應(yīng)設(shè)計工具等,著重介紹了深度學(xué)習(xí)在該領(lǐng)域的發(fā)展和應(yīng)用前景。洪亮團隊[3]專長于人工智能與生命科學(xué)的交叉研究,他們的綜述重點關(guān)注了應(yīng)用于酶工程的人工智能方法。基于對酶工程的發(fā)展歷程和現(xiàn)狀的分析,他們綜述了可被用于預(yù)測有益突變、優(yōu)化蛋白質(zhì)穩(wěn)定性、提高催化活性等的深度學(xué)習(xí)方法進展。孟巧珍和郭菲[4]則以AlphaFold2為例,對把蛋白質(zhì)結(jié)構(gòu)預(yù)測方法作為結(jié)構(gòu)“分析器”、突變“篩選器”或者折疊“監(jiān)督器”應(yīng)用于酶智能設(shè)計進行了總結(jié)。
生物體系中最重要的一類分子元件是蛋白質(zhì)??煽康牡鞍踪|(zhì)功能預(yù)測方法對合成生物學(xué)元件挖掘具有重要意義。楊躍東團隊[5]長期從事疾病機制闡明和藥物靶點發(fā)現(xiàn)等領(lǐng)域的蛋白質(zhì)功能預(yù)測。他們綜述了殘基水平的結(jié)合位點預(yù)測和蛋白水平的基因本體論(gene ontology)預(yù)測等蛋白質(zhì)功能預(yù)測的最新方法,比較了不同方法的優(yōu)劣并展望了未來可能的發(fā)展方向。
蛋白質(zhì)功能往往建立在三維結(jié)構(gòu)基礎(chǔ)之上。戚逸飛等[6]的綜述側(cè)重介紹了蛋白質(zhì)結(jié)構(gòu)設(shè)計的人工智能算法。他們從固定骨架設(shè)計、可變骨架設(shè)計和序列結(jié)構(gòu)生成三個方面總結(jié)了最新算法進展??梢灶A(yù)期,單體蛋白質(zhì)結(jié)構(gòu)設(shè)計問題基本解決以后,具有形成特異性復(fù)合物等功能的蛋白的設(shè)計將成為方法研究的重點。
本專輯中另外兩篇聚焦蛋白質(zhì)結(jié)構(gòu)計算的綜述都是關(guān)于分子間復(fù)合物的。環(huán)肽用作蛋白-蛋白互作的調(diào)控分子具有獨特優(yōu)勢。王凡灝、來魯華和張長勝[7]的綜述分析了環(huán)肽與蛋白結(jié)合的結(jié)構(gòu)數(shù)據(jù),介紹了基于分子對接的虛擬篩選、借助于動力學(xué)模擬的設(shè)計、從頭生成設(shè)計以及跨膜環(huán)肽設(shè)計等環(huán)肽計算方法,展望了人工智能在環(huán)肽設(shè)計中的應(yīng)用前景。相對單體蛋白結(jié)構(gòu)預(yù)測,目前對蛋白質(zhì)復(fù)合物的結(jié)構(gòu)預(yù)測精度仍然不高,在算法方面有較大的進步空間。龔新奇團隊[8]長期從事該方向的研究。他們的綜述側(cè)重于總結(jié)蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測的相關(guān)算法以及介紹最新進展。
除通過穩(wěn)定的三維結(jié)構(gòu)形成分子間復(fù)合物外,細胞內(nèi)還有大量固有無序蛋白或蛋白固有無序區(qū)。它們可以通過由多價分子間互作介導(dǎo)的液-液相分離來調(diào)控生物功能。無序蛋白聚集失調(diào)被認為是引發(fā)神經(jīng)退行性疾病等的可能機制。韋廣紅團隊[9]長期開展基于多尺度分子力場等物理模型的無序蛋白聚集機制研究。他們的綜述重點介紹了神經(jīng)退行性疾病相關(guān)蛋白聚集和液-液相分離的方法和前沿進展。他們還討論了相關(guān)微觀機理的理論和計算研究結(jié)果,以及預(yù)測蛋白相分離能力的機器學(xué)習(xí)方法。
除了以上關(guān)于分子和分子間層次問題的計算模型外,本專輯另外兩篇綜述則分別關(guān)注通路層次和網(wǎng)絡(luò)層次的問題。生物合成基因簇包含了特定天然產(chǎn)物合成的完整通路,是合成生物學(xué)極具潛力的元件來源。寧康團隊[10]在他們的綜述中討論了基于微生物組數(shù)據(jù)發(fā)現(xiàn)新生物合成基因簇的問題。他們總結(jié)了相關(guān)數(shù)據(jù)資源和挖掘方法,特別是人工智能方法,展示了新發(fā)掘的生物合成基因簇的多樣性和應(yīng)用潛力。湯超、楊曉靜等[11]則指出,完整的生物功能依賴于能執(zhí)行各種各樣復(fù)雜功能、高精度、可靠、魯棒的分子網(wǎng)絡(luò),發(fā)現(xiàn)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、動力學(xué)與功能之間關(guān)系,找到生物網(wǎng)絡(luò)的底層設(shè)計規(guī)律是系統(tǒng)生物學(xué)和合成生物學(xué)的巨大挑戰(zhàn)。他們歸納了天然網(wǎng)絡(luò)中的拓撲-功能關(guān)系,介紹了系統(tǒng)生物學(xué)的相關(guān)理論成果,進而總結(jié)了近年來合成生物學(xué)功能網(wǎng)絡(luò)拓撲設(shè)計的研究進展。
綜上,可用于合成生物學(xué)設(shè)計問題的計算生物學(xué)模型紛繁多樣,難以在簡短篇幅內(nèi)逐一介紹。為了概括不同模型的原理,我們可以考慮根據(jù)建立計算模型的主要依據(jù)類型,對不同計算生物學(xué)模型進行粗略分類。計算模型建立的依據(jù)可以包括物理原理(基于物理原理的模型)、假設(shè)或經(jīng)驗規(guī)則(基于規(guī)則的模型)、實驗數(shù)據(jù)(數(shù)據(jù)驅(qū)動的模型)等。以蛋白質(zhì)結(jié)構(gòu)預(yù)測、設(shè)計為例:描述分子能量與分子結(jié)構(gòu)依賴關(guān)系的分子力場屬于典型的基于物理原理的經(jīng)驗?zāi)P停挥蒙疃葘W(xué)習(xí)預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold2則是典型的數(shù)據(jù)驅(qū)動模型。對于生物體系,目前基于物理原理或基于規(guī)則的模型類型相對比較有限,而數(shù)據(jù)驅(qū)動模型類型最多。數(shù)據(jù)驅(qū)動模型覆蓋的問題范圍也十分廣泛,如前述綜述中提到的數(shù)據(jù)驅(qū)動的元件設(shè)計優(yōu)化、基于組學(xué)數(shù)據(jù)的分子元件發(fā)現(xiàn)和結(jié)構(gòu)功能預(yù)測等。
作為目前最前沿的數(shù)據(jù)驅(qū)動建模技術(shù),人工智能(artificial intelligence或AI)在生物計算中的應(yīng)用非常廣泛。盡管目前對“人工智能“一詞所涵蓋技術(shù)的范圍并沒有公認的明確定義,美國食品藥品管理局2023年5月發(fā)布的關(guān)于人工智能/機器學(xué)習(xí)與藥物開發(fā)的討論文件中的定義可作為有價值的參考。在該文件中,人工智能被定義為“用算法或模型來執(zhí)行任務(wù)并表現(xiàn)出如學(xué)習(xí)、做出決策、做出預(yù)測等行為的一個計算機科學(xué)、統(tǒng)計學(xué)、工程學(xué)的分支”。同時,“機器學(xué)習(xí)”(machine learning或ML)被定義為“人工智能的一個子集”,“用數(shù)據(jù)和算法不通過顯式編程地去模擬人類怎樣學(xué)習(xí)”。進一步地,深度學(xué)習(xí)(deep learning或DL)被歸為人工智能/機器學(xué)習(xí)的子領(lǐng)域。無可爭議,深度學(xué)習(xí)是最近十余年人工智能領(lǐng)域最重大的突破。正如我們從本專輯中多篇關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)設(shè)計問題的綜述所看到的,在數(shù)據(jù)充分、算法恰當(dāng)?shù)那闆r下,最新的深度學(xué)習(xí)技術(shù)能夠以前有未有的方式提升我們對復(fù)雜生物大分子序列、結(jié)構(gòu)、功能的預(yù)測和設(shè)計能力。元件層次預(yù)測、設(shè)計能力的提升將會很快被傳遞應(yīng)用于對網(wǎng)絡(luò)、細胞的設(shè)計。與此同時,在計算機和信息科學(xué)領(lǐng)域內(nèi)部,人工智能技術(shù)本身仍在快速迭代發(fā)展之中。我們預(yù)期,人工智能技術(shù)與計算生物學(xué)方法以及合成生物學(xué)應(yīng)用問題的融合將越來越廣泛、越來越緊密,從而不僅在分子元件層次,還會在網(wǎng)絡(luò)、細胞等層次帶來算法能力的大幅提升??梢哉f,與深度學(xué)習(xí)等人工智能技術(shù)的結(jié)合,正在開啟生物計算設(shè)計的新篇章。