李金甲,陳都鑫, 柴人杰, 虞文武**
(1.東南大學(xué)-蒙納士大學(xué)聯(lián)合研究生院,江蘇 蘇州215123;2.東南大學(xué)數(shù)學(xué)學(xué)院,江蘇 南京 210096;3.東南大學(xué)生命科學(xué)與技術(shù)學(xué)院,江蘇 南京 210096)
生物醫(yī)學(xué)工程是一個(gè)多學(xué)科交叉的領(lǐng)域,其主要特點(diǎn)是運(yùn)用工程學(xué)和應(yīng)用科學(xué)的知識(shí)與技術(shù)解決生物學(xué)和醫(yī)學(xué)領(lǐng)域的科學(xué)問(wèn)題,進(jìn)而充分研究生命系統(tǒng)及其行為,并開發(fā)相關(guān)的生物醫(yī)學(xué)系統(tǒng),最終提高人類健康水平[1]。生物醫(yī)學(xué)工程這個(gè)領(lǐng)域的范圍非常廣泛,涉及生物學(xué)、醫(yī)學(xué)、工程學(xué)和計(jì)算科學(xué)等多個(gè)領(lǐng)域的交叉融合。該領(lǐng)域的重要性在于它為醫(yī)學(xué)領(lǐng)域帶來(lái)了革命性的創(chuàng)新,對(duì)于改善疾病診斷和治療、提高手術(shù)和醫(yī)療設(shè)備的效率、開發(fā)新型藥物和生物療法,以及推動(dòng)生物學(xué)研究的進(jìn)展具有巨大的潛力[2]。
近年來(lái),人工智能(artificial intelligence,AI)在生物醫(yī)學(xué)工程中的作用日益顯著,特別是在蛋白質(zhì)屬性預(yù)測(cè)方面。蛋白質(zhì)屬性預(yù)測(cè)作為蛋白質(zhì)工程的一個(gè)重要領(lǐng)域,其重要性體現(xiàn)在能夠提供對(duì)蛋白質(zhì)的深入理解,從而指導(dǎo)藥物設(shè)計(jì)、疾病治療等方面。準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能等屬性對(duì)于揭示其在生物學(xué)過(guò)程中的作用和發(fā)揮其潛在應(yīng)用價(jià)值至關(guān)重要。蛋白質(zhì)屬性預(yù)測(cè)存在的難點(diǎn)包括蛋白質(zhì)復(fù)雜空間結(jié)構(gòu)的理解、蛋白質(zhì)功能機(jī)制的多樣性和復(fù)雜性及蛋白質(zhì)間復(fù)雜的相互作用模式等。這些挑戰(zhàn)使得傳統(tǒng)的生物學(xué)方法和實(shí)驗(yàn)技術(shù)在蛋白質(zhì)屬性預(yù)測(cè)精度和效率上受到限制。隨著AI 技術(shù)的進(jìn)步,特別是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的發(fā)展,以上難點(diǎn)逐漸得以解決。AI 技術(shù)的應(yīng)用,如利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和利用圖神經(jīng)網(wǎng)絡(luò)分析蛋白質(zhì)相互作用,已顯著提高了蛋白質(zhì)屬性預(yù)測(cè)的準(zhǔn)確性和效率。AI不僅加速了蛋白質(zhì)屬性的預(yù)測(cè)過(guò)程,也為新藥發(fā)現(xiàn)和生物學(xué)研究提供了新的工具。本文將圍繞應(yīng)用AI 技術(shù)進(jìn)行蛋白質(zhì)屬性預(yù)測(cè)這一主題,深入探討AI 在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、功能預(yù)測(cè)這2種屬性預(yù)測(cè)方面的應(yīng)用。
機(jī)器學(xué)習(xí)是人工智能AI 領(lǐng)域的核心組成部分,它涵蓋了一系列算法和技術(shù),使計(jì)算機(jī)系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)并不斷改進(jìn)模型的性能。機(jī)器學(xué)習(xí)這一領(lǐng)域的發(fā)展得益于計(jì)算能力的提高、大規(guī)模數(shù)據(jù)集的可用性以及算法的不斷創(chuàng)新。機(jī)器學(xué)習(xí)在生物醫(yī)藥領(lǐng)域的應(yīng)用范圍廣泛,包括但不限于基因組學(xué)、藥物發(fā)現(xiàn)、疾病診斷和治療優(yōu)化等。
近30 年來(lái),機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)歷了顯著的發(fā)展,孕育出眾多創(chuàng)新的算法和模型,如主成分分析(principal component analysis,PCA)、支持向量機(jī)(support vector machines,SVM)、隨機(jī)森林和譜聚類方法等。這些方法在數(shù)據(jù)降維、分類和回歸等任務(wù)中取得了顯著的成效[3]。PCA 通過(guò)線性變換找到數(shù)據(jù)中的主要特征,有效地減少數(shù)據(jù)維度和復(fù)雜性[4]。SVM 通過(guò)尋找最優(yōu)的超平面對(duì)數(shù)據(jù)進(jìn)行分割,提高了數(shù)據(jù)分類的準(zhǔn)確性和效率[5]。隨機(jī)森林作為一種集成學(xué)習(xí)方法,通過(guò)構(gòu)建多個(gè)決策樹并綜合其結(jié)果,提升了對(duì)數(shù)據(jù)的分類和回歸預(yù)測(cè)能力[6]。譜聚類作為一種基于圖論的強(qiáng)大聚類方法,通過(guò)分析數(shù)據(jù)的相似性矩陣,能在復(fù)雜數(shù)據(jù)集中識(shí)別出固有的群組結(jié)構(gòu)[7]。這些方法為機(jī)器學(xué)習(xí)的發(fā)展提供了堅(jiān)實(shí)的基礎(chǔ)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)分支,近年來(lái)取得了巨大的突破和成果,其發(fā)展歷程可追溯到20世紀(jì)80 ~ 90 年代的神經(jīng)網(wǎng)絡(luò)研究。然而,由于計(jì)算資源和數(shù)據(jù)集的限制,神經(jīng)網(wǎng)絡(luò)在那個(gè)時(shí)期并沒有得到廣泛應(yīng)用。隨著計(jì)算機(jī)計(jì)算能力的提升和大規(guī)模數(shù)據(jù)集的可用性,深度學(xué)習(xí)在2006 年以后迅速發(fā)展起來(lái)。其中,深度學(xué)習(xí)的一個(gè)重要里程碑是Hinton 等[8]在2006 年提出了深度信念網(wǎng)絡(luò)(deep belief network,DBN);DBN 是一種多層次的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)無(wú)監(jiān)督學(xué)習(xí)逐層訓(xùn)練,可以學(xué)習(xí)到更抽象和更高級(jí)的數(shù)據(jù)特征表示。
計(jì)算機(jī)視覺和自然語(yǔ)言處理為AI 領(lǐng)域的2 個(gè)核心分支,一直以來(lái)都備受關(guān)注。計(jì)算機(jī)視覺致力于使計(jì)算機(jī)系統(tǒng)能夠理解和解釋圖像、視頻以及其他視覺數(shù)據(jù),從而模擬人類視覺系統(tǒng)的功能。計(jì)算機(jī)視覺領(lǐng)域的研究涵蓋了圖像識(shí)別、物體檢測(cè)、圖像生成等眾多任務(wù),其應(yīng)用包括自動(dòng)駕駛[9]、醫(yī)療影像分析[10]等眾多領(lǐng)域,具有巨大的社會(huì)和經(jīng)濟(jì)價(jià)值。
自然語(yǔ)言處理旨在使計(jì)算機(jī)能夠理解、分析和生成人類語(yǔ)言的文本數(shù)據(jù)。該領(lǐng)域包括了文本分類、情感分析、機(jī)器翻譯、自動(dòng)問(wèn)答等任務(wù),其應(yīng)用廣泛,涵蓋了虛擬助手、智能搜索、智能客服等領(lǐng)域。自然語(yǔ)言處理的研究不僅涉及語(yǔ)言的語(yǔ)法和語(yǔ)義分析,還包括處理多語(yǔ)言數(shù)據(jù)、非結(jié)構(gòu)化文本數(shù)據(jù)等復(fù)雜問(wèn)題[10]。
深度學(xué)習(xí)在計(jì)算機(jī)視覺和自然語(yǔ)言處理領(lǐng)域擁有諸多常見的算法,它們具有極強(qiáng)的通用性。在計(jì)算機(jī)視覺領(lǐng)域,CNN 是最重要的模型之一,通過(guò)卷積層、池化層和全連接層來(lái)提取圖像特征并進(jìn)行分類、檢測(cè)和分割[11]。此外,殘差網(wǎng)絡(luò)(residual network,ResNet)通過(guò)引入殘差連接解決了深層網(wǎng)絡(luò)的退化問(wèn)題[12];Inception 網(wǎng)絡(luò)引入了Inception模塊和瓶頸層以提高計(jì)算效率和性能[13]。在自然語(yǔ)言處理領(lǐng)域,遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory network,LSTM)是常用的序列建模工具,RNN 通過(guò)循環(huán)連接處理序列數(shù)據(jù),LSTM 通過(guò)引入門控機(jī)制解決了傳統(tǒng)RNN 在處理長(zhǎng)序列數(shù)據(jù)時(shí)遇到的梯度消失問(wèn)題[14]。此外,注意力機(jī)制(attention mechanism)在自然語(yǔ)言處理任務(wù)中得到廣泛應(yīng)用,它能夠提取關(guān)鍵信息,改善模型性能[15]。
深度學(xué)習(xí)技術(shù)在生物醫(yī)學(xué)工程領(lǐng)域的應(yīng)用引起了廣泛關(guān)注。生物醫(yī)學(xué)工程領(lǐng)域數(shù)據(jù)量巨大、特征復(fù)雜,深度學(xué)習(xí)強(qiáng)大的表示學(xué)習(xí)和模式識(shí)別能力使其非常適合處理這些數(shù)據(jù)。深度學(xué)習(xí)在生物醫(yī)學(xué)工程領(lǐng)域的應(yīng)用范圍包括基因組學(xué)、蛋白質(zhì)研究、醫(yī)學(xué)圖像分析、藥物發(fā)現(xiàn)和個(gè)性化醫(yī)療[16]。例如,在醫(yī)學(xué)圖像分析中,深度學(xué)習(xí)模型可以自動(dòng)識(shí)別和定位病灶、分割器官結(jié)構(gòu),協(xié)助醫(yī)生制定診斷和治療計(jì)劃[17]。此外,深度學(xué)習(xí)還在藥物發(fā)現(xiàn)和個(gè)性化醫(yī)療中發(fā)揮著重要作用,加速新藥的開發(fā)和治療方案的優(yōu)化[18-19]。
總的來(lái)說(shuō),在AI 領(lǐng)域,機(jī)器學(xué)習(xí)作為一個(gè)關(guān)鍵技術(shù),對(duì)生物醫(yī)學(xué)工程領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。AI 及機(jī)器學(xué)習(xí)不僅加速了科學(xué)研究的進(jìn)展,也為疾病的診斷和治療提供了更加精準(zhǔn)、個(gè)性化的解決方案。隨著技術(shù)的不斷發(fā)展和創(chuàng)新,可以預(yù)見,AI 在生物醫(yī)學(xué)工程領(lǐng)域的作用將不斷增強(qiáng),為人類健康和醫(yī)療做出更大的貢獻(xiàn)[16]。
蛋白質(zhì)工程旨在創(chuàng)建具有特定功能的蛋白質(zhì),如改善生物體的特征、增強(qiáng)酶的催化性能和提高抗體的效力[20]。該領(lǐng)域?qū)λ幬锇l(fā)現(xiàn)、酶開發(fā)、生物傳感器、診斷學(xué)以及其他生物技術(shù)的進(jìn)步產(chǎn)生了深遠(yuǎn)影響,同時(shí)也為理解蛋白質(zhì)結(jié)構(gòu)與功能之間的關(guān)系提供了基礎(chǔ)原理。此外,蛋白質(zhì)工程還對(duì)可持續(xù)性和環(huán)保產(chǎn)生了積極影響。例如,通過(guò)設(shè)計(jì)和優(yōu)化工業(yè)用酶,可以實(shí)現(xiàn)更環(huán)保的化學(xué)反應(yīng)過(guò)程,減少有害廢物的產(chǎn)生。蛋白質(zhì)工程領(lǐng)域有望持續(xù)推動(dòng)創(chuàng)新,為未來(lái)生活的改進(jìn)提供可能性。
在蛋白質(zhì)工程領(lǐng)域,主要采用了2 種傳統(tǒng)方法,分別是定向進(jìn)化[21]和理性設(shè)計(jì)[22-23]。定向進(jìn)化是一種用于創(chuàng)建具有改進(jìn)或新功能的蛋白質(zhì)或酶的過(guò)程[24]。定向進(jìn)化方法涉及將突變引入目標(biāo)蛋白質(zhì)的遺傳密碼,然后篩選所得的變體以改善其功能。這個(gè)過(guò)程被稱為“定向”,因?yàn)樗艿狡谕Y(jié)果的指導(dǎo),例如提高活性、穩(wěn)定性、特異性、結(jié)合親和力和適應(yīng)性。另一方面,理性設(shè)計(jì)則利用對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的了解,有針對(duì)性地對(duì)蛋白質(zhì)序列或結(jié)構(gòu)進(jìn)行特定的修改[23,25]。這2 種方法均需要進(jìn)行實(shí)驗(yàn)篩選,但考慮到蛋白質(zhì)中氨基酸殘基的多樣性,這是昂貴、耗時(shí)且復(fù)雜的過(guò)程[26]。因此,即使使用最先進(jìn)的高通量篩選技術(shù),也只能對(duì)蛋白質(zhì)中的一小部分突變空間進(jìn)行實(shí)驗(yàn)探索。
近年來(lái),數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)為定向進(jìn)化和蛋白質(zhì)工程方法[27-28]提供了新的解決方案。機(jī)器學(xué)習(xí)輔助蛋白質(zhì)工程是指應(yīng)用機(jī)器學(xué)習(xí)模型和技術(shù),以提高蛋白質(zhì)工程的效率和效力。該方法不僅能夠降低成本并加速蛋白質(zhì)工程的進(jìn)展,還能夠優(yōu)化蛋白質(zhì)的篩選和變體選擇[29],從而提高了工作效率和生產(chǎn)率。具體而言,通過(guò)機(jī)器學(xué)習(xí)分析和預(yù)測(cè)突變對(duì)蛋白質(zhì)功能的影響,研究人員可以快速生成和測(cè)試大量變體,從而建立蛋白質(zhì)的適應(yīng)度映射關(guān)系(即適應(yīng)度景觀),然后采集實(shí)驗(yàn)數(shù)據(jù)[30-31]。這種方法極大地加速了蛋白質(zhì)工程的進(jìn)程。
數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)輔助蛋白質(zhì)工程的過(guò)程通常包括多個(gè)要素,如數(shù)據(jù)采集和預(yù)處理、模型設(shè)計(jì)、特征提取和選擇、算法選擇和設(shè)計(jì)、模型訓(xùn)練與驗(yàn)證、實(shí)驗(yàn)驗(yàn)證以及模型優(yōu)化的反復(fù)迭代。電化學(xué)生物傳感器和微流控技術(shù)的進(jìn)步在高通量測(cè)序和篩選技術(shù)方面發(fā)揮著重要作用,積累了大量的蛋白質(zhì)序列、結(jié)構(gòu)和功能的通用實(shí)驗(yàn)數(shù)據(jù)集[32-33]。這些數(shù)據(jù)集以及專門用于蛋白質(zhì)工程的深度突變掃描庫(kù)[34],為機(jī)器學(xué)習(xí)的訓(xùn)練和驗(yàn)證提供了寶貴的資源。
數(shù)據(jù)表示和特征提取是機(jī)器學(xué)習(xí)模型設(shè)計(jì)的關(guān)鍵步驟,因其有助于簡(jiǎn)化生物數(shù)據(jù)的復(fù)雜性,實(shí)現(xiàn)更有效的模型訓(xùn)練和預(yù)測(cè)。有多種典型的特征類型表示方法,包括基于序列、基于結(jié)構(gòu)[35-36]、基于物理[37-38]和混合方法[39]。其中,基于序列的表示一直占據(jù)主導(dǎo)地位,因其成功利用了自然語(yǔ)言處理(natural language processing,NLP) 方 法, 如LSTM[40]、自動(dòng)編碼器[41]和Transformers[42],允許在大規(guī)模序列數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督的預(yù)訓(xùn)練?;诮Y(jié)構(gòu)的嵌入則依賴于現(xiàn)有蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(kù)[43]和高級(jí)結(jié)構(gòu)預(yù)測(cè),例如AlphaFold2[43];這些方法進(jìn)一步利用先進(jìn)的數(shù)學(xué)工具,如拓?fù)鋽?shù)據(jù)分析[44-45]、微分幾何[46-47]或圖形方法[48]?;谖锢淼姆椒ㄊ褂梦锢砟P停缑芏确汉碚揫49]、分子力學(xué)[50]、泊松玻爾茲曼模型[51]等;雖然這些方法具有高度可解釋性,但通常性能取決于模型的參數(shù)設(shè)置?;旌戏椒梢赃x擇多種特征類型的組合。
機(jī)器學(xué)習(xí)輔助蛋白質(zhì)工程算法的設(shè)計(jì)和選擇是受數(shù)據(jù)可用性和實(shí)驗(yàn)效率影響的。在實(shí)際應(yīng)用中,常見情況是小規(guī)模標(biāo)記訓(xùn)練數(shù)據(jù)集的場(chǎng)景,對(duì)于這種情況,通常使用簡(jiǎn)單的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)和集成方法;而對(duì)于大規(guī)模訓(xùn)練數(shù)據(jù)集,深度神經(jīng)網(wǎng)絡(luò)更為適用。除了回歸模型,還可以考慮使用無(wú)監(jiān)督零樣本學(xué)習(xí)方法來(lái)應(yīng)對(duì)標(biāo)記數(shù)據(jù)有限的情況[52-53]。實(shí)驗(yàn)和模型之間的迭代作用通過(guò)反復(fù)篩選和新數(shù)據(jù)的引入,構(gòu)成了機(jī)器學(xué)習(xí)輔助蛋白質(zhì)工程的另一個(gè)重要組成部分。因此,選擇適當(dāng)?shù)哪P托枰紤]實(shí)驗(yàn)頻率和實(shí)驗(yàn)成本等因素的影響。這個(gè)迭代細(xì)化的過(guò)程使機(jī)器學(xué)習(xí)輔助蛋白質(zhì)工程能夠提供優(yōu)化的蛋白質(zhì)工程成果。
蛋白質(zhì)屬性預(yù)測(cè)領(lǐng)域聚焦于運(yùn)用計(jì)算方法(如AI 和機(jī)器學(xué)習(xí)技術(shù))來(lái)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)、功能和相互作用等關(guān)鍵屬性。蛋白質(zhì)屬性預(yù)測(cè)領(lǐng)域是蛋白質(zhì)工程的核心組成之一。這些預(yù)測(cè)工具對(duì)于深入理解蛋白質(zhì)的生物學(xué)特性以及設(shè)計(jì)和改良具有特定功能的蛋白質(zhì)至關(guān)重要。借助這些預(yù)測(cè)結(jié)果,研究人員能夠更加有效地開發(fā)出具有預(yù)定功能的蛋白質(zhì)。
蛋白質(zhì)是生命過(guò)程中不可或缺的分子實(shí)體,其展現(xiàn)的多樣性和復(fù)雜性對(duì)生物學(xué)和醫(yī)學(xué)研究至關(guān)重要。根據(jù)Koehler Leman 等[54]的研究,蛋白質(zhì)屬性包括氨基酸序列、三維空間結(jié)構(gòu)、生物學(xué)功能及其與其他分子的相互作用,尤其重要的是,蛋白質(zhì)的三維結(jié)構(gòu)和功能在其生物學(xué)角色中具有決定性作用;蛋白質(zhì)精細(xì)調(diào)整的三維結(jié)構(gòu)是由其氨基酸序列所決定的,這是其執(zhí)行多樣化分子功能的關(guān)鍵。因此,深入理解氨基酸序列與蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系,對(duì)于推動(dòng)生物學(xué)的理解和醫(yī)學(xué)的應(yīng)用具有重大意義。
首先,蛋白質(zhì)的三維結(jié)構(gòu)是其功能的決定性因素。蛋白質(zhì)分子通過(guò)其獨(dú)特的空間構(gòu)型與其他分子相互作用,實(shí)現(xiàn)包括催化生化反應(yīng)和信號(hào)傳遞等多種生物學(xué)功能。準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)對(duì)理解其功能機(jī)制至關(guān)重要。近年來(lái),隨著計(jì)算技術(shù)特別是AI 在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的應(yīng)用不斷發(fā)展,從序列到結(jié)構(gòu)的解析時(shí)間已顯著縮短,預(yù)測(cè)精度也得到了提升。Kuhlman 等[55]研究指出,如何通過(guò)這些技術(shù)進(jìn)步來(lái)推動(dòng)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)的前沿研究。
其次,蛋白質(zhì)功能的預(yù)測(cè)對(duì)于生物醫(yī)學(xué)領(lǐng)域的研究至關(guān)重要。蛋白質(zhì)在生物體內(nèi)承擔(dān)的功能(如酶的催化活性和受體的信號(hào)傳導(dǎo))是其在生命過(guò)程中發(fā)揮關(guān)鍵作用的基礎(chǔ)。盡管高通量測(cè)序技術(shù)的發(fā)展能迅速獲取大量蛋白質(zhì)序列,但對(duì)這些序列的功能理解仍不充分。Jeffery 等[56]研究認(rèn)為,開發(fā)有效的計(jì)算方法預(yù)測(cè)蛋白質(zhì)的潛在功能對(duì)于新藥物的開發(fā)和疾病機(jī)制的研究等極為關(guān)鍵。
最后,蛋白質(zhì)間的相互作用構(gòu)成了一項(xiàng)關(guān)鍵屬性。蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interactions,PPIs)是細(xì)胞內(nèi)多種生物過(guò)程的基本組成部分,對(duì)信號(hào)傳導(dǎo)和代謝途徑等具有顯著影響。傳統(tǒng)的實(shí)驗(yàn)方法雖能提供關(guān)于PPIs 的數(shù)據(jù),但通常耗時(shí)費(fèi)力且易產(chǎn)生假陽(yáng)性結(jié)果。Durham 等[57]研究認(rèn)為,計(jì)算方法在預(yù)測(cè)PPIs 方面的作用日益凸顯,其目的是更高效地識(shí)別和驗(yàn)證蛋白質(zhì)間的相互作用,從而推動(dòng)生物學(xué)和醫(yī)學(xué)領(lǐng)域的研究和應(yīng)用。
在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,AI 技術(shù)的突破性進(jìn)展尤為顯著,特別是DeepMind 公司開發(fā)的AlphaFold2 和Baker 實(shí)驗(yàn)室的RoseTTAFold 在該領(lǐng)域的應(yīng)用成果備受矚目。
AlphaFold2 在關(guān)鍵評(píng)估蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(critical assessment of protein structure prediction,CASP)中以其創(chuàng)新性算法大放異彩,實(shí)現(xiàn)了令人印象深刻的92.4 的中位數(shù)得分,遠(yuǎn)超90 分的高準(zhǔn)確性標(biāo)準(zhǔn),這一成績(jī)意味著其預(yù)測(cè)的結(jié)構(gòu)與實(shí)驗(yàn)確定的結(jié)構(gòu)高度吻合,大幅超越了傳統(tǒng)預(yù)測(cè)方法[58]。與此同時(shí),RoseTTAFold 同樣運(yùn)用深度學(xué)習(xí)技術(shù),僅依賴一塊RTX2080 顯卡,便可在大約10 min 內(nèi)完成不超過(guò)400 個(gè)氨基酸殘基的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)[59]。這些先進(jìn)的AI 工具不僅大幅提升了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的精準(zhǔn)度,還顯著縮減了從蛋白質(zhì)序列解析到結(jié)構(gòu)預(yù)測(cè)的時(shí)間,對(duì)于揭示生物分子的功能機(jī)制、促進(jìn)相關(guān)疾病的研究和治療具有重大意義。
從AI 技術(shù)的視角看,AlphaFold 通過(guò)運(yùn)用深度學(xué)習(xí)技術(shù)學(xué)習(xí)蛋白質(zhì)氨基酸序列與其三維結(jié)構(gòu)之間的復(fù)雜關(guān)系。AlphaFold 的創(chuàng)新性在于將多序列比對(duì)(multiple sequence alignment,MSA)數(shù)據(jù)與物理生物學(xué)信息相結(jié)合,預(yù)測(cè)氨基酸序列的距離和角度[60]。AlphaFold2 的主要?jiǎng)?chuàng)新在于其深度學(xué)習(xí)架構(gòu),其利用了自注意力機(jī)制的Transformer 架構(gòu)和一個(gè)名為“Evoformer”的模塊來(lái)有效地整合蛋白質(zhì)序列和結(jié)構(gòu)信息,從而提高了預(yù)測(cè)精度。這一架構(gòu)特別擅長(zhǎng)捕捉蛋白質(zhì)序列中的模式,并結(jié)合進(jìn)化信息來(lái)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)[58]。另一方面,RoseTTAFold 則采用了一種三軌神經(jīng)網(wǎng)絡(luò),其可以兼顧蛋白質(zhì)序列的模式、氨基酸如何相互作用以及蛋白質(zhì)可能的三維結(jié)構(gòu),其多軌神經(jīng)網(wǎng)絡(luò)架構(gòu)能夠同時(shí)處理不同維度的信息,從而有效學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)[59]。上述模型不僅展示了深度學(xué)習(xí)在生物學(xué)領(lǐng)域的巨大潛力,也為生物醫(yī)學(xué)研究和藥物開發(fā)提供了新的可能性。
在蛋白質(zhì)功能預(yù)測(cè)領(lǐng)域,AI 技術(shù)也顯現(xiàn)出其巨大潛力。通過(guò)綜合分析蛋白質(zhì)的氨基酸序列和結(jié)構(gòu)信息,AI 算法能夠預(yù)測(cè)蛋白質(zhì)的功能類別、活性位點(diǎn)及其潛在的作用對(duì)象。例如,DeepFRI 融合了自監(jiān)督語(yǔ)言模型和圖卷積網(wǎng)絡(luò)的先進(jìn)方法,能夠利用從蛋白質(zhì)序列的自監(jiān)督模型中提煉出的序列特征及蛋白質(zhì)結(jié)構(gòu)來(lái)預(yù)測(cè)其功能[61]。DeepFRI 在性能方面超越了現(xiàn)有的先進(jìn)方法(如DeepGO 和FunFams),其設(shè)計(jì)允許擴(kuò)展序列數(shù)據(jù)庫(kù)的規(guī)模。此外,DeepFRI 通過(guò)使用同源建模來(lái)增加訓(xùn)練樣本的數(shù)量,顯著增加了可預(yù)測(cè)的蛋白質(zhì)功能的數(shù)量,減少了訓(xùn)練數(shù)據(jù)中正負(fù)例之間的不平衡。值得強(qiáng)調(diào)的是,即使在使用由計(jì)算方法生成的蛋白質(zhì)結(jié)構(gòu)來(lái)代替實(shí)驗(yàn)獲得的蛋白質(zhì)結(jié)構(gòu)時(shí),DeepFRI 的預(yù)測(cè)性能僅略有降低,表明DeepFRI 具有一定的去噪能力。另一方面,Bileschi 等[62]利用深度學(xué)習(xí)模型對(duì)未經(jīng)比對(duì)的氨基酸序列進(jìn)行功能注釋的準(zhǔn)確預(yù)測(cè),這些模型不僅推斷出已知的進(jìn)化替代模式,還學(xué)會(huì)了準(zhǔn)確聚類未見家族的序列;該方法通過(guò)分析和比對(duì)蛋白質(zhì)序列,擴(kuò)大了Pfam 蛋白家族數(shù)據(jù)庫(kù)的覆蓋范圍,即預(yù)測(cè)了360 種之前未在Pfam 數(shù)據(jù)庫(kù)中詳細(xì)注釋的蛋白質(zhì)的功能。此外,Hakala 等[63]開發(fā)了一個(gè)綜合系統(tǒng),結(jié)合了隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器,對(duì)輸入的蛋白質(zhì)序列進(jìn)行基因本體論(GO)術(shù)語(yǔ)的預(yù)測(cè);在CAFA3 評(píng)估中,該模型展現(xiàn)出了競(jìng)爭(zhēng)性的性能,在超過(guò)100 個(gè)提交系統(tǒng)中排名前列。
在蛋白質(zhì)功能預(yù)測(cè)領(lǐng)域中,AI 技術(shù)的核心方法涵蓋了多種先進(jìn)的計(jì)算模型和分析工具。ProteinBERT使用基于雙向編碼器表示變換器(bidirectional encoder representations from transformers,BERT)的深度學(xué)習(xí)模型來(lái)學(xué)習(xí)蛋白質(zhì)氨基酸序列和自然語(yǔ)言之間的相似性,從而有效地編碼蛋白質(zhì)序列并捕捉其生物學(xué)性質(zhì),以預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能[64]。InterProScan 被用于識(shí)別蛋白質(zhì)家族和功能域,結(jié)合了多個(gè)數(shù)據(jù)庫(kù)和預(yù)測(cè)工具,如Pfam、PROSITE、SUPERFAMILY 等,為全面分析蛋白質(zhì)功能域提供支持[65]。BLAST 和HMMER 等工具利用啟發(fā)式算法和隱藏馬爾可夫模型,分別快速識(shí)別序列間的局部相似性和更精確地識(shí)別序列的同源性,從而有助于功能預(yù)測(cè)和探究蛋白質(zhì)與核酸序列的進(jìn)化關(guān)系。DALI 和TM-align 專注于蛋白質(zhì)三維結(jié)構(gòu)的精確比較與對(duì)齊。DALI 通過(guò)對(duì)已知結(jié)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行查詢,利用預(yù)計(jì)算的結(jié)構(gòu)相似性進(jìn)行分層分類,實(shí)現(xiàn)結(jié)構(gòu)的比較。TM-align 結(jié)合TM-score 旋轉(zhuǎn)矩陣和動(dòng)態(tài)規(guī)劃,提供比現(xiàn)有方法更快速、準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)相似性度量方法。DALI 和TM-align 這2 個(gè)工具在生物信息學(xué)和結(jié)構(gòu)生物學(xué)領(lǐng)域中,對(duì)于理解蛋白質(zhì)的功能預(yù)測(cè)和進(jìn)化關(guān)系具有重要作用。上述方法的綜合應(yīng)用,在生物醫(yī)學(xué)工程領(lǐng)域?qū)Φ鞍踪|(zhì)功能預(yù)測(cè)提供了強(qiáng)有力的支持。
AI 技術(shù),尤其是深度學(xué)習(xí),已在蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)方面取得顯著進(jìn)展,這對(duì)于加速藥物發(fā)現(xiàn)和疾病理解至關(guān)重要。蛋白質(zhì)間的相互作用預(yù)測(cè)同樣重要,AI方法可用于揭示細(xì)胞內(nèi)的信號(hào)傳導(dǎo)和代謝途徑。然而,AI 模型通常被視為“黑盒”,其預(yù)測(cè)結(jié)果難以解釋,這是未來(lái)研究的一個(gè)重點(diǎn)。未來(lái)研究還應(yīng)關(guān)注以下方向:1)更多的數(shù)據(jù)收集和處理方法的開發(fā),以應(yīng)對(duì)噪聲和錯(cuò)誤;2)跨學(xué)科合作的促進(jìn),加速生物學(xué)、計(jì)算機(jī)科學(xué)和化學(xué)等領(lǐng)域的創(chuàng)新;3)開發(fā)可解釋性強(qiáng)的AI 模型,以幫助理解蛋白質(zhì)屬性預(yù)測(cè)的基礎(chǔ)。相信AI 技術(shù)在生物醫(yī)學(xué)工程領(lǐng)域的作用將不斷增強(qiáng),為人類健康和醫(yī)療做出更大的貢獻(xiàn)。