王芳,李洪進,李虎陽
(遵義醫(yī)科大學 醫(yī)學信息工程學院,貴州 遵義 563000)
蛋白質舊稱“朊”,是一種復雜的有機化合物,是生命的物質基礎,約占人體重量的16%~20%,是人體一切細胞、組織的重要組成部分。
氨基酸是構成蛋白質的基本單位,在脫水縮合的方式下形成連接兩個氨基酸分子的肽鍵,進而連接形成肽鏈,如圖1所示。氨基酸按照不同的比例組合成種類繁多的蛋白質,且不同蛋白質的性質和功能各不相同。
圖1 氨基酸脫水后形成肽鍵
蛋白質結構的不同決定了蛋白質之間的功能差異。一般而言,蛋白質具有一到四級結構,如圖2所示。
圖2 蛋白質的結構示意圖
(1)一級結構(primary structure)。該結構屬于一維空間結構,是指氨基酸的殘基在肽鏈中的排列順序為線性氨基酸序列,該定義僅適用于簡單的蛋白質,其形態(tài)千變萬化。(2)二級結構(secondary structure)。常用來描述肽鏈按一定的規(guī)律卷曲或折疊的特定空間結構,是一種穩(wěn)定且有限的結構,比如α-螺旋結構和β-折疊結構。(3)三級結構(tertiary structure)。是指蛋白質分子中的肽鏈在二級結構的基礎上發(fā)展形成更為復雜的三維結構,是蛋白質的高級結構,通過二級結構預測三級結構是目前研究的重點課題。(4)四級結構(quaternary structure)。是指具有獨立三級結構的多肽鏈通過相互作用組合而成的聚集體結構,由于其可分離,所以屬于一種不穩(wěn)定的結構,是蛋白質最高級的結構。
迄今已有約一千種蛋白質的一級結構被研究確定,如胰島素、胰核糖核酸酶、胰蛋白酶等。由于蛋白質只有在折疊成特定結構之后才能行使其生物學功能,如若蛋白質折疊錯誤,則會導致蛋白質行使錯誤的功能,比如阿爾茲海默癥病患者的顯微病理呈現(xiàn)的神經(jīng)纖維纏結主要由高度磷酸化的微管相關的Tau 蛋白異常折疊聚集而成。
了解蛋白質的結構有助于我們更好地認識蛋白質的功能、功能機制和執(zhí)行方式,充分發(fā)掘其生物信息,因此正確預測蛋白質結構對于生物學、醫(yī)藥學等領域的研究發(fā)揮著至關重要的作用。
蛋白質的折疊并非全是自發(fā)折疊,其還會受很多外在因素(作用力)的影響。雖然對蛋白質折疊機理的研究是生命科學領域的前沿課題,吸引了很多物理學家和生物學家的廣泛關注,但由于蛋白質結構的復雜性,我們對蛋白質的折疊過程仍然知之甚少。一些理論研究和實驗結果使得我們對蛋白質的折疊過程有了更加深入的了解,但仍然存在很多懸而未決的問題。
由于蛋白質序列數(shù)目的快速增長,隨之而來的龐大數(shù)據(jù)使得傳統(tǒng)的試驗方法無法與之更新速度相匹配,所以新理論新方法的誕生,為研究蛋白質結構和功能之間的關系提供了廣闊的平臺。隨著計算機技術的高速發(fā)展,對蛋白質結構的預測與計算機科學之間也產(chǎn)生了密不可分的聯(lián)系。近年來,基于計算機理論來預測蛋白質二級結構的方法迅猛發(fā)展,比如模糊聚類分析、貝葉斯分類方法、馬爾科夫鏈、支持向量機(SVM)、K 近鄰、人工神經(jīng)網(wǎng)絡(ANN)等,其中部分分析方法的預測精度較好。
采用PseAA方法提取蛋白質序列特征,彌補了常用方法AAC信息易丟失的弊端,并在引入近似熵、疏水性模式以及圖像處理方法進行提取的基礎上,張安勝等人提出一種基于深度學習的蛋白質二級結構預測方法。在蛋白質序列特征的提取中,用一個30-D 特征向量來表示一條蛋白質序列,利用近似熵、疏水模式以及圖像處理方法等獲取蛋白質序列的特征向量,其中近似熵用來估算蛋白質序列的復雜度,并給出了近似熵的計算方法。在對二級結構進行預測時,使用四個限制玻爾茲曼機(Restricted Boltzmann Machine,RBM)堆疊而成的深度玻爾茲曼機(DBM),該DBM 結構包括一個輸入層(由一個30-D 蛋白質特征向量構成)、一個輸出層(由一個4-D 向量構成,用來表示蛋白質所屬類別)、4 個隱藏層。通過樣本對RBM 逐層訓練,在訓練中采用Hinton 提出的逐層貪婪優(yōu)化訓練的策略(快速近似算法,CD)得到與輸入的30-D蛋白質特征向量類似分布的輸出作為微調(采用BP 算法)的權值。
采用k 維交叉驗證法對Z498 和FC699 數(shù)據(jù)集進行了實驗,結果表明這種蛋白質二級結構預測方法的預測準確率較好,在Z498 上可達92.78%,且在FC699 上的預測精度(63.4%)高于傳統(tǒng)的預測方法(貝葉斯55.8%、K 近鄰
56.9%、SVM62.5%、ANN63.1%)。
通過融合蛋白質序列的多種信息,利用多維尺度分析對位置特異性得分矩陣的自協(xié)方差轉換(ACCPSSM)提取的進化信息進行降維,以減少機器學習的計算成本。利用PseAAC 方法提取蛋白質序列信息,通過二維小波降噪去除冗余,采用SVM 分類算法處理高維數(shù)據(jù),提出一種有效提高蛋白質結構類預測準確性的新方法,該方法通過PORTER 在線服務進行二級結構信息的提取,如圖3所示。
圖3 基于PseAAC 方法的蛋白質結構類預測流程圖
在蛋白質結構的預測中,特征的提取和分類是兩個關鍵環(huán)節(jié)。為提高預測的準確性,在蛋白質的特征提取中采用最基礎的特征提取方法——氨基酸組分法,即通過計算20 種天然氨基酸的頻率來標記其位置信息,在多信息融合的基礎上使融合后的信息代表性更強,預測效果更好。
預測分類使用了SVM 算法,主要是通過非線性變換完成輸入的樣本空間變量到高維的希爾伯特空間的轉換,以獲取最優(yōu)線性分類面。在三個標準低相似蛋白質結構類數(shù)據(jù)集25PDB、640、1189 上總體預測準確度分別為93.1%、89.5%、90.8%,與近十年的預測方法相比,該算法的預測效果較好。
進化算法(Evolutionary Computation,EC)以達爾文的進化論為基礎,是一種基于自然選擇和遺傳變異的全局性搜索算法,廣泛應用于蛋白質結構的預測中。信息熵的概念抽象,在數(shù)學建模中用來描述事物的不確定性,也常被理解為某種特定信息出現(xiàn)的概率。在進化算法的基礎上,謝騰宇等人提出的基于接觸圖殘基對距離約束的蛋白質結構預測法和基于信息熵的蛋白質結構預測方法,將蛋白質結構的預測過程分為探索階段和增強階段,如圖4所示,在一定程度上降低了蛋白質空間隨氨基酸序列長度指數(shù)增加而帶來的計算差異性,并創(chuàng)建了基于接觸圖的預測模型評價體系,從而反應該算法的預測能力。該方法通過殘基位的二面角分布信息來構建信息熵,利用得到的歸一化因子反映種群的多樣性。
圖4 核心算法示意圖
在對PDB 數(shù)據(jù)庫中30 個測試蛋白的實驗結果顯示,探索階段的迭代次數(shù)高于2 000 時,該測試方法的預測精度更高,某些蛋白質的預測結構更接近于天然結構;迭代次數(shù)小于2 000 時,與傳統(tǒng)預測方法相比效果無顯著差異,該測試方法在某些蛋白質區(qū)域中的預測優(yōu)勢不明顯。
遺傳算法起源于對生物系統(tǒng)進行的計算機模擬研究,是計算數(shù)學中用于實現(xiàn)最佳化的搜索算法,且不依賴于某一具體問題,能夠用于極其復雜的優(yōu)化計算,是進化算法中的一種。近年來,遺傳算法廣泛應用于蛋白質結構的預測模擬中,且取得了較好的預測結果。楊瑤提出的基于改進遺傳算法的蛋白質三維結構預測研究,采用懲罰函數(shù)和海明距離優(yōu)化了蛋白質結構預測的思路和方法。該方法彌補了傳統(tǒng)遺傳算法中搜索范圍逐漸變窄的弊端,協(xié)調了變異率與收斂速度的取舍等問題。通過改變交叉運算的隨機性,進行獨立的選擇、交叉和變異運算,引入小生境技術輔助遺傳算法實現(xiàn)真正的全局最優(yōu)解。通過對PDB 數(shù)據(jù)庫中11 條真實蛋白質進行實驗對比,與傳統(tǒng)的算法(禁忌搜索法和PERM 算法)相比,改進的遺傳算法在運算速度和最優(yōu)解精度上均較優(yōu),尤其是在長序列蛋白質結構的預測上優(yōu)勢明顯。
蛋白質數(shù)據(jù)庫中大量已被標識的蛋白質序列、結構和功能為諸多研究者提供了更為廣闊和便利的科研平臺。常見的蛋白質數(shù)據(jù)庫包括蛋白質序列數(shù)據(jù)庫、蛋白質結構數(shù)據(jù)庫和蛋白質分類數(shù)據(jù)庫。
SWISS-PROT(https://beta.uniprot.org/)是一個高質量的人工注釋和非冗余的蛋白質序列數(shù)據(jù)庫,匯集了實驗結果、計算特征和科學結論。創(chuàng)建于1986年,由瑞士生物信息學研究所和歐洲生物信息學研究所協(xié)同維護,截至2022年5月25日的2022_02 版中共收錄567 483 個序列條目,包含204 940 973 個氨基酸,數(shù)據(jù)量逐年增加。此數(shù)據(jù)庫中所提供的蛋白質序列信息十分詳細,涵蓋了蛋白質的功能、二級和四級結構、蛋白質翻譯后修飾、蛋白質缺陷等信息,避免了序列的冗余,與其他數(shù)據(jù)庫的交叉引用較為便利,方便用戶檢索。SWISS-PROT 數(shù)據(jù)庫的增長如圖5所示。
圖5 SWISS-PROT 數(shù)據(jù)庫的增長情況(圖片來源于https://web.expasy.org/docs/relnoted/relstat.html)
布魯克海文蛋白質數(shù)據(jù)庫(PDB,https://www.rcsb.org/)創(chuàng)建于1973年,由美國國家科學基金等組織提供資助,是經(jīng)實驗測定的生物大分子三維結構數(shù)據(jù)庫,利用Mol* 3D Viewer 可進行結構查看,如圖6所示,其內容主要包括生物大分子的原子坐標、參考文獻、一級和二級結構信息等。截至2022年,PDB 中可使用的蛋白質條目總數(shù)為190 404,每年發(fā)布的結構數(shù)量為4 917 條。
圖6 4Z35 的3-D 結構信息(圖片來源于PDB 數(shù)據(jù)庫)
SCOP(https://scop.mrc-lmb.cam.ac.uk/)數(shù)據(jù)庫由人工檢查創(chuàng)建并由一系列自動化方法支持,旨在提供所有結構已知蛋白質之間的結構和進化關系的詳細描述。因此,它提供了對所有已知蛋白質折疊的廣泛調查、任何特定蛋白質近親的詳細信息,以及未來研究和分類的框架。截至2022-04-29的最新更新包括代表849 788 個蛋白質結構的72 082 個非冗余結構域。
CATH(https://www.cathdb.info/)數(shù)據(jù)庫是一個免費、公開的在線資源,提供有關蛋白質結構域進化關系的信息,是蛋白質結構分類數(shù)據(jù)庫。CATH 數(shù)據(jù)庫版本眾多,最新的CATH-Plus(v4.3)在CATH 中可用的核心分類信息基礎上添加了大量數(shù)據(jù)。CATH-Plus 發(fā)布過程除了添加大量結合蛋白質結構、序列和功能的信息外,還包括許多手動注釋檢查,包括500 238 個域、5 481 個超家族、150 885 個帶注釋的PDB、82 665 284 個蛋白質序列。因此,在CATH-Plus 中可以獲得更深入的信息。
目前,蛋白質結構的預測方法呈現(xiàn)出多樣化,尤其是在計算機理論飛速發(fā)展的背景下,蛋白質結構的預測理論和技術取得了很大的進步,但在預測精度和序列信息的提取等方面仍存在不足。
若要提高蛋白質結構的預測性能,需要在以下幾個方面進行深入的研究:(1)降低蛋白質序列中信息的冗余度;(2)隨著蛋白質氨基酸序列長度的急劇增加,蛋白質結構預測的精度有所下降,提高預測方法對數(shù)據(jù)處理速度和預測精度的重要性日益凸顯;(3)目前的蛋白質數(shù)據(jù)庫能否提供足夠的有關結構的信息;(4)面對蛋白質結構與序列數(shù)據(jù)間的巨大差距,如何設計更高效的算法;(5)有些算法仍停留在理論研究層面,預測精度還無法達到實際應用的水平,更無法解答蛋白質結構中的折疊現(xiàn)象;(6)對分類算法的挖掘還不夠深入,需要尋找更普遍適用的機器學習算法。
蛋白質結構預測在蛋白質功能研究中具有舉足輕重的地位,現(xiàn)代科學技術的飛速發(fā)展使得蛋白質結構的預測仍然是一個值得深入探討的重要課題。