国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蛋白質結構預測進展*

2023-07-30 22:21:36潘憲明
生物化學與生物物理進展 2023年5期
關鍵詞:構象蛋白質模板

曹 衛(wèi) 潘憲明

(清華大學生命科學院,蛋白質科學教育部重點實驗室,北京 100084)

1 蛋白質結構預測的理論基礎與意義

蛋白質是生命活動的主要承擔者和體現(xiàn)者,一切生命活動都離不開蛋白質,了解蛋白質功能的基本方法之一是研究其三維結構。高通量測序技術的發(fā)展使蛋白質序列信息呈指數(shù)增長,相對地,蛋白質結構數(shù)據(jù)的增長速度遠遠低于其序列數(shù)據(jù)的增長速度[1]。蛋白質結構主要通過X射線晶體學(X-ray crystallography)、核磁共振(nuclear magnetic resonance, NMR)和冷凍電鏡(cryo-electron microscopy,cryo-EM)等方法解析, 雖然這些方法可以產(chǎn)生高分辨率和高質量的蛋白質結構,但是耗時、昂貴且不適用于所有蛋白質。隨著計算領域技術的進步,人工智能在生物學中的應用日益廣泛,因此,用計算的方法從蛋白質序列出發(fā)預測結構是非常必要的。

蛋白質結構非常復雜,結構化學家從概念上將蛋白質結構分為四個“層次”。一級結構是由氨基酸脫水縮合組成的多肽鏈;二級結構描述了局部區(qū)域的一般三維(3D)形式,這些區(qū)域與蛋白質的其余部分獨立地組織成重復出現(xiàn)的結構片段,多肽鏈最主要的局部構象是α 螺旋(α helices)和β 片層(β sheets),不規(guī)則形狀也是蛋白質結構和功能的重要組成部分,通常稱其為環(huán)區(qū)(loop);三級結構是一條多肽鏈的3D結構,即每個原子的3D坐標;四級結構指其亞基之間是如何定向和排列的,也就是說四級結構僅適用于多亞基蛋白質[2]。

2 蛋白質結構預測的進展

2.1 從蛋白質序列出發(fā)預測結構

20 世紀70 年代初期Anfinsen[3]進行的經(jīng)典實驗表明,蛋白質正確折疊所需的所有信息均包含在其氨基酸序列中。近50 年來,研究人員在解決蛋白質折疊問題上做了諸多嘗試,主要可分為兩大類,分別是基于模板(template-based)和無模板(template-free)的預測方法。

基于模板的結構預測方法,即同源建模方法,首先選擇合適的結構模板,然后將靶標序列與模板結構比對,最后使用分子建模等技術補充靶標-模板比對中存在的突變、插入和缺失部分的結構。由于蛋白質折疊類型的總量有限,且折疊覆蓋率隨著蛋白質結構數(shù)據(jù)量的增長而增加[4],基于模板的結構預測方法的適用性在不斷增長,根據(jù)可用的蛋白質結構,基于模板的結構預測方法可以預測大約2/3 蛋白質家族的結構[5]。研究表明,基于模板的方法(同源建模和折疊識別)所預測的模型的準確率和生物學實用性均要遠高于使用無模板的方法(從頭預測)[6]。

無模板的結構預測方法適用于預測在蛋白質結構數(shù)據(jù)庫(protein data bank,PDB)中找不到同源蛋白質的結構,由于缺少結構模板,該類方法需要用于生成候選模型的構象采樣方法和用于選擇類似天然構象的物理能量函數(shù)。構象采樣的一個顯著發(fā)展是使用基于片段的組裝方法,它在某些方面連接了基于模板的方法和無模板從頭計算的方法,其中模型是基于已知結構的蛋白質中短的連續(xù)主鏈片段(通常長度為3~15個殘基)構建的,并使用蒙特卡羅模擬組裝成全長模型。

蛋白質結構預測的下一個重大進展是有效利用共進化信息,該方法首先用于識別接觸的殘基對,并進一步擴展以推導殘基距離和二面角分布,所有這些都用作無模板從頭計算的約束[7]。基于神經(jīng)網(wǎng)絡的學習方法進一步將多序列比對的使用擴展到端到端的蛋白質結構預測,2020 年CASP14(critical assessment of structure prediction) 中,Alphafold2在有模板預測和無模板預測蛋白質三級結構都有較為出色的表現(xiàn),實現(xiàn)了原子水平上的準確,是一種依賴于PDB 中的多序列比對信息和實驗結構的深度學習算法。相對的,如果蛋白質序列在已知數(shù)據(jù)庫中同源性低于30%,進而產(chǎn)生低質量的多序列比對信息,最終預測的蛋白質3D 結構準確率也會降低,這種現(xiàn)象在2022年的CASP15中依然存在。

2.2 用于蛋白質結構評估的能量函數(shù)

蛋白質結構預測的最終目標之一是在不依賴實驗數(shù)據(jù)的情況下識別高分辨率預測的蛋白質結構,對這種高精度的預測需要能夠區(qū)分具有低均方根偏差的非常相似的結構。蛋白質折疊理論的基本假設是蛋白質結構在天然狀態(tài)下一般具有最低的吉布斯自由能[3]。因此,準確的能量函數(shù)是解決蛋白質折疊和蛋白質結構預測問題的關鍵。

科學家們已經(jīng)做了很多工作來捕捉蛋白質內(nèi)部的能量相互作用并發(fā)展這些力場。這些勢能的兩個最普遍的類別是基于物理的力場和基于知識的力場。基于物理的力場使用物理的基本定律來結合其原子之間在原子水平上發(fā)生的所有類型的相互作用(例如范德華力、氫鍵、靜電相互作用等)。最早由 Shneior Lifson 團隊在1960 年代開始,他們擴展模擬有機小分子的分子力學方法到大分子系統(tǒng)[8],開發(fā)了一致力場(consistent force field,CFF)能量函數(shù),這為現(xiàn)今蛋白質建模中使用的一些最重要的全原子勢能方法發(fā)展奠定了基礎,包括CHARMM[9]、Amber[10]和ECEPP[11]。然而,由于未考慮溶劑化效應,事實證明它們不足以對溶液中穩(wěn)定的致密蛋白質折疊進行熱力學描述,并且無法區(qū)分天然蛋白質和錯誤折疊的模型[12]。下一步是在經(jīng)典勢中添加隱式溶劑化項,由此產(chǎn)生的力場可以識別肽或蛋白質的天然狀態(tài),但是準確性有限[13]。基于知識的力場需要更少的計算能力,使用統(tǒng)計方法計算結構特征的頻率并將這些頻率轉換為自由能貢獻[14],這些勢能采用蛋白質的簡化粗粒度模型,同時使用來自PDB 實驗確定的蛋白質結構信息,例如TASSER/I-TASSER[15]、ROSETTA[16]、DeepAccNet[17]等?;谥R的力場已成功應用于許多領域,包括折疊識別、從頭算蛋白質結構預測、結構模型評估、蛋白質-蛋白質對接和蛋白質穩(wěn)定性預測。然而,蛋白質的巨大構象空間進行采樣仍然是一個問題,基于知識的力場方法也越來越多地依賴蛋白質序列和對應已知蛋白質結構的數(shù)據(jù)來解決這個問題。

2.3 CASP進展

CASP是一項社區(qū)范圍的實驗,兩年一次,旨在確定和推進從氨基酸序列建模蛋白質結構的最新技術水平,參與者將被邀請?zhí)峤灰唤M尚未公開實驗結構的蛋白質模型。CASP最重要的衡量標準是全局距離測試總分(GDT_TS),較高的值表示模型更接近給定的參考結構。這為研究小組提供了測試其蛋白質結構預測方法的機會,并向研究團體和軟件用戶提供了對蛋白質結構建模最新技術水平的獨立評估,結果顯示了過去兩年取得的進展,并揭示了未來應重點關注的方向。在2022 年的CASP15中,來自世界的162 個小組提交了53 764 個模型,涉及5個預測類別的127個建模目標。

過去幾年見證了蛋白質3D 結構建模的突破。這一突破可歸因于兩個主要因素:a. 蛋白質序列數(shù)據(jù)庫的非凡增長,以及實驗確定的結構數(shù)據(jù)庫的多產(chǎn)性較低但也在穩(wěn)步增長,這兩種類型的數(shù)據(jù)都可以在公共數(shù)據(jù)庫中獲得;b. 逐步將深度學習中的前沿方法引入成熟的蛋白質建模領域。在CASP14中,AlphaFold2預測模型的準確率取得了蛋白質結構預測領域突破性進展,隨后改進版本的RoseTTAFold發(fā)布,使科學界可以廣泛使用接近實驗精度的蛋白質結構預測工具。CASP15的單體結構預測評估結果中,Yang-server、UM-TBM 和PEZYFolding位列前三,這些工具都將多個預測算法(包括AlphaFold2)組合到自己的預測算法中并進行整體優(yōu)化排序,這在一定程度上表明,多方法組合優(yōu)化可能是提高整體結構預測準確率的有效方向。

值得注意的是,雖然這些工具不需要模板結構,但它們確實依賴于多序列比對信息,低同源性的蛋白質序列多序列比對(multiple sequence alignment,MSA)質量降低,從而導致最終預測結構的準確率降低。這些算法提供置信度指標,例如pLDDT(predicted local distance difference test)表示預測模型對其在局部距離差異測試的置信度,以及PAE(predicted aligned error)表示有關殘基對之間相對位置的置信度,為了結構生物學實驗工作者可以更有效地使用蛋白質結構預測軟件,針對這些指標的驗證與評估工作也陸續(xù)從跨膜蛋白、中心體和中心粒蛋白以及整個蛋白質組等各類蛋白質的預測結果中開展[18]。

2.4 高精度預測蛋白質結構的影響

蛋白質結構預測領域的突破性進展并沒有讓實驗結構生物學過時,而是提供了前所未有的新機會。通過在分子置換中使用AlphaFold2 預測的模型可以有助于解析X 射線或冷凍電鏡結構[19];結合實驗數(shù)據(jù)與預測模型有助于確定復雜的核孔復合體結構[20];蛋白質結構預測可為實驗工作者篩選可能的翻譯后修飾(post-translational modification,PTM)位點[21]。

2022年,AlphaFold PDB中提供了超過 2.14 億個預測的蛋白質結構,涵蓋了UniProt 數(shù)據(jù)庫中的大部分序列[22],極大地增加了具有蛋白質結構的蛋白質序列空間的覆蓋范圍,并在結構生物學和結構生物信息學領域提出了新的挑戰(zhàn)和機遇。缺乏蛋白質建模經(jīng)驗的研究人員現(xiàn)在可以使用這些模型來解決具有挑戰(zhàn)性的生物學問題,與此同時,模型置信度指標對于做出可靠的解釋仍然至關重要。這個新的結構數(shù)據(jù)庫和相關的軟件工具在計算和實驗結構生物學領域引發(fā)了一系列研究,包括優(yōu)化輸入AlphaFold2的多序列比對等。此外,預測結構數(shù)據(jù)庫的出現(xiàn)極大地改變了蛋白質結構域的格局,數(shù)百萬個結構域序列可能成為建模良好的結構域結構,同時數(shù)據(jù)量的龐大對蛋白質結構域分類工作帶來了挑戰(zhàn),在初始AlphaFold PDB的21種模型生物中確定了700 000 個推定的CATH 結構域,但其中49%的結構域因預測模型質量和無序區(qū)域被過濾掉[23]。

3 挑戰(zhàn)與展望

蛋白質結構是研究蛋白質功能的基礎,但結構解析方法耗時、昂貴且不適用于所有蛋白質。因此,利用計算的方法從蛋白質序列出發(fā)預測結構變得非常必要。盡管在蛋白質結構預測領域應用深度學習方法給結構生物學帶來了新的機遇,但仍然沒有從理論上解決蛋白質折疊的問題。此外,為了識別高分辨率預測的蛋白質結構,需要使用準確的能量函數(shù)來區(qū)分具有低均方根偏差的非常相似的結構。

現(xiàn)有的工具缺乏關于蛋白質動態(tài)特性的信息,許多蛋白質采用對其功能至關重要的多種構象狀態(tài),即結合其他蛋白質、核酸和小分子配體或在功能活性和非活性狀態(tài)之間切換,這對于理解和模擬蛋白質的功能狀態(tài)很重要。在這種情況下,深度學習方法也提供了一個可行的方向,首先學習已知結構蛋白質樣本的構象狀態(tài)以及它們之間可能的轉換路徑,訓練完成的模型用于生成實驗上未觀察到但類似于天然的蛋白質構象來進一步擴展構象空間的采樣[24],訓練和測試此類方法的關鍵將是開發(fā)單鏈蛋白質和復合物的生理功能相關結構的數(shù)據(jù)集。

蛋白質復合物結構預測的方法依賴于蛋白質之間的共同進化信息,但對于宿主-病原體的相互作用,由于二者屬于不同物質,進化關系與源自同一生物體兩種蛋白質的進化關系非常不同,在宿主和致病蛋白之間幾乎無法找到直系同源序列。因此,預測這些復合物的預期準確性要低得多。那么完全從序列出發(fā),不依賴于多序列比對信息的模型開發(fā)將會是跨物種蛋白質復合物結構預測的一個可行方案,另一種選擇是利用遷移學習對現(xiàn)有模型進行微調以適應特定任務,即使在缺乏數(shù)據(jù)的情況下也可以學習復雜的概念,這在主要組織相容性復合體(MHC)受體和肽鏈相互作用的預測已經(jīng)有相關應用[25]。

基于AI 的結構預測算法的其他應用可能包括模擬翻譯后修飾的結構效應、突變和變異的構象后果以及蛋白質設計領域的應用,目前,基于深度學習的方法仍然無法解釋氨基酸單點突變對整體蛋白質結構的影響[26]。開發(fā)更準確的基于先進人工智能技術的可靠分子對接算法來模擬蛋白質和小分子之間的相互作用,可以促進基于結構的藥物研發(fā)并加速醫(yī)學研究。

隨著端到端機器學習方法得到改進并被更廣泛的結構生物學界所掌握,對很大一部分蛋白質及復合物僅從其氨基酸序列進行建模將成為常規(guī),同樣,將這些新方法擴展到預測核酸結構,特別是RNA,以及它們與蛋白質形成的復合物結構是未來結構預測領域重要的前進方向。要實現(xiàn)這些拓展,一個主要挑戰(zhàn)是整理足夠的實驗數(shù)據(jù)來訓練和驗證機器學習方法。未來計算和實驗方法將更緊密結合,從冷凍電鏡數(shù)據(jù)中提取大分子復合物結構異質性信息,基于AI 的結構預測算法和分子模擬技術相結合,CASP在檢驗相關領域的算法預測結果中依然會發(fā)揮重要的參考作用。

猜你喜歡
構象蛋白質模板
鋁模板在高層建筑施工中的應用
鋁模板在高層建筑施工中的應用
蛋白質自由
肝博士(2022年3期)2022-06-30 02:48:48
人工智能與蛋白質結構
海外星云(2021年9期)2021-10-14 07:26:10
蛋白質計算問題歸納
一種一枝黃花內(nèi)酯分子結構與構象的計算研究
鋁模板在高層建筑施工中的應用
城市綜改 可推廣的模板較少
玉米麩質阿拉伯木聚糖在水溶液中的聚集和構象
應用化工(2014年7期)2014-08-09 09:20:23
Cu2+/Mn2+存在下白花丹素對人血清白蛋白構象的影響
吉首市| 兴海县| 青浦区| 上高县| 岱山县| 青冈县| 峨山| 新田县| 南皮县| 宣恩县| 张掖市| 通州市| 潢川县| 宜章县| 贵定县| 奇台县| 林口县| 杨浦区| 崇明县| 博客| 越西县| 仁怀市| 东兰县| 禹州市| 东丰县| 桑日县| 仙桃市| 泗洪县| 九龙县| 镶黄旗| 湘潭市| 札达县| 台东市| 南平市| 西吉县| 宣城市| 扶绥县| 洛隆县| 年辖:市辖区| 九台市| 梅河口市|