国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于序列的蛋白質(zhì)相互作用預(yù)測(cè)方法研究進(jìn)展

2020-02-19 12:16孫晶京
云南化工 2020年9期
關(guān)鍵詞:殘基鏡像相似性

孫晶京

(山西農(nóng)業(yè)大學(xué) 文理學(xué)院,山西 太谷 030801)

蛋白質(zhì)是生物大分子,可以與其他各種分子相互作用,如DNA、RNA、小的配體和其他蛋白質(zhì)。這些相互作用是促進(jìn)細(xì)胞中大多數(shù)生物學(xué)過(guò)程的主力,包括基因表達(dá),細(xì)胞生長(zhǎng)、增殖,營(yíng)養(yǎng)吸收,形態(tài),運(yùn)動(dòng)性,細(xì)胞間通訊以及細(xì)胞凋亡。在分子水平上了解這些相互作用對(duì)于開(kāi)發(fā)新的治療方案,注釋蛋白質(zhì)功能,研究疾病的分子機(jī)制以及描述蛋白質(zhì)相互作用網(wǎng)絡(luò)非常重要。因此蛋白質(zhì)的相互作用 (PPI)預(yù)測(cè)得到了研究人員的廣泛關(guān)注,并提出了很多方法,包括物理化學(xué)實(shí)驗(yàn)方法和計(jì)算方法。物理化學(xué)實(shí)驗(yàn)技術(shù)可以識(shí)別蛋白質(zhì)之間的物理化學(xué)相互作用,進(jìn)而可以預(yù)測(cè)蛋白質(zhì)之間的功能關(guān)系。這些技術(shù)包括基于酵母雙雜交的方法、免疫共沉淀、串聯(lián)親和純化、蛋白質(zhì)芯片和混合方法等。盡管這些技術(shù)已經(jīng)成功地鑒定了幾種物種的幾種重要的相互作用蛋白,如酵母和擬南芥等,但是,實(shí)驗(yàn)方法在檢測(cè)PPI方面存在費(fèi)時(shí)費(fèi)力、檢測(cè)效率低、難以識(shí)別弱相互作用等缺點(diǎn)。因此,人們開(kāi)始尋求一些新的計(jì)算方法來(lái)驗(yàn)證實(shí)驗(yàn)結(jié)果并加速對(duì)未知蛋白質(zhì)相互作用的預(yù)測(cè)。

1 計(jì)算方法

近年來(lái),已提出許多用于預(yù)測(cè)蛋白質(zhì)相互作用的計(jì)算方法。這些方法可以分為兩類(lèi):基于結(jié)構(gòu)的預(yù)測(cè)和基于序列的預(yù)測(cè)。基于結(jié)構(gòu)的預(yù)測(cè)方法受到由實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)相對(duì)較少的約束,相反,基于序列的預(yù)測(cè)方法只需要蛋白質(zhì)序列即可預(yù)測(cè)蛋白質(zhì)相互作用。因此,本文主要介紹基于序列的PPI預(yù)測(cè)方法的研究進(jìn)展。

基于序列的PPI預(yù)測(cè)方法主要是利用氨基酸(AA)特性,比如疏水性,理化特性,進(jìn)化譜,AA組成,AA平均值或滑動(dòng)窗口上的加權(quán)平均值等。可以分為統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)的方法。

1.1 基于統(tǒng)計(jì)的預(yù)測(cè)方法

1.1.1 鏡像樹(shù)

Pazos和Valencia[1]提出的鏡像樹(shù)是一種基于統(tǒng)計(jì)的方法,基于相關(guān)蛋白質(zhì)家族序列之間進(jìn)化距離的比較和系統(tǒng)樹(shù)的拓?fù)湎嗨菩詠?lái)預(yù)測(cè)PPI。其距離來(lái)自McLachlan氨基酸同源性矩陣的殘基相似性的平均值。將樹(shù)之間的相似度用于構(gòu)建樹(shù)的距離矩陣之間的相關(guān)性。鏡像樹(shù)方法不需要?jiǎng)?chuàng)建系統(tǒng)樹(shù),而僅分析基礎(chǔ)距離矩陣,因此,此方法獨(dú)立于樹(shù)的構(gòu)建方法。盡管鏡像樹(shù)方法不需要完全測(cè)序的基因組,但要求在考慮的所有物種中都存在直系同源蛋白。所以,當(dāng)更多的物種基因組可用時(shí),可以應(yīng)用的蛋白質(zhì)就更少了。此外,由于距離矩陣不是系統(tǒng)樹(shù)的最佳表示,因此基于對(duì)距離矩陣的比較可能引入一些誤差。

1.1.2 共同進(jìn)化差異

Liu等[2]提出了一種共同進(jìn)化差異 (CD)的方法來(lái)預(yù)測(cè)人類(lèi)蛋白質(zhì)的相互作用。該方法基于兩個(gè)假設(shè),一個(gè)是PPI對(duì)可能具有相似的替代率,另一個(gè)是,PPI更可能在相關(guān)物種之間保存。CD定義為兩個(gè)蛋白質(zhì)之間取代率差異的絕對(duì)值。CD方法結(jié)合了來(lái)自許多物種的相互作用蛋白對(duì)的共同進(jìn)化信息。該方法未使用多元比對(duì),因此比其他比對(duì)方法(如鏡像樹(shù))花費(fèi)時(shí)間更少。該方法不要求所研究物種具有直系同源性的蛋白質(zhì),但增加物種數(shù)量有利于提高方法的準(zhǔn)確性。盡管此方法可以確定給定蛋白質(zhì)對(duì)相互作用的可能性,但它不能推斷相互作用的特定特征,如界面中的相互作用殘基。

1.2 基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法

1.2.1 自協(xié)方差

Guo等[3]提出了一種使用自協(xié)方差 (AC)和支持向量機(jī) (SVM)來(lái)預(yù)測(cè)PPI的方法。其中用AC來(lái)表征序列中相距一定距離的殘基之間的相互作用。這樣蛋白質(zhì)序列則由一系列AC表征,然后使用AC向量作為輸入,構(gòu)建SVM模型。實(shí)驗(yàn)表明,一個(gè)AA殘基與其30個(gè)鄰位AA的相互作用將有助于表征PPI信息。該方法的優(yōu)點(diǎn)是AC包含了AA殘基的遠(yuǎn)程相互作用信息,這在PPI識(shí)別中很重要。

1.2.2 相似比對(duì)

Zaki等[4]提出了一種基于蛋白質(zhì)一級(jí)結(jié)構(gòu)成對(duì)相似性比較的PPI預(yù)測(cè)方法。每個(gè)蛋白質(zhì)序列通過(guò)滑動(dòng)窗口創(chuàng)建的AA子序列的相似值來(lái)表示。然后使用這些值作為輸入,構(gòu)建SVM模型。因此,蛋白質(zhì)序列的相似性暗示了其同源性,也揭示了結(jié)構(gòu)和功能的相似性。

1.2.3 氨基酸組分

Roy等[5]研究了氨基酸組分 (AAC)在PPI預(yù)測(cè)中的作用及其常見(jiàn)特征 (例如域、元組特征和標(biāo)識(shí)產(chǎn)物特征)的性能。每個(gè)蛋白質(zhì)對(duì)用AAC和域特征來(lái)表示。AAC以單體和二聚體特征來(lái)表示。單體特征是由單個(gè)AA特征組成,而二聚體特征是由連續(xù)AA對(duì)的特征組成。然后將這些特征離散化為二進(jìn)制特征。域特征是由離散化的域名標(biāo)識(shí)來(lái)表示。為了將AAC與其他基于非域序列的特征進(jìn)行比較,創(chuàng)建了元組特征和標(biāo)識(shí)產(chǎn)物特征。并使用三個(gè)機(jī)器學(xué)習(xí)分類(lèi)器 (邏輯回歸,SVM和樸素貝葉斯)對(duì)提出的方法進(jìn)行了評(píng)估。結(jié)果表明,AAC在不同數(shù)據(jù)集和分類(lèi)器中所做的貢獻(xiàn)幾乎等同,這表明AAC包含了識(shí)別PPI的重要信息。AAC適用于任何蛋白質(zhì)序列,尤其在缺乏域信息時(shí)非常有用。AAC也可以結(jié)合其他特征來(lái)提高PPI預(yù)測(cè)的能力。

1.2.4 蛋白質(zhì)相互作用的通用計(jì)算機(jī)模擬預(yù)測(cè)器(UNISPPI)

Valente等[6]提出了UNISPPI方法。該方法使用20種AA理化性質(zhì)的頻率和組成,用于訓(xùn)練決策樹(shù)分類(lèi)器。頻率特征集包括20個(gè)AA在蛋白質(zhì)序列中的百分比。每個(gè)AA歸入與理化性質(zhì)相關(guān)的三個(gè)不同組之一,并計(jì)算每個(gè)特征的每個(gè)組的百分比,最終得到共21個(gè)組成特征,從而構(gòu)建了組成特征集。結(jié)果表明,僅使用AA頻率就足以預(yù)測(cè)PPI。另外,天冬酰胺,半胱氨酸和異亮氨酸的AA頻率是區(qū)分相互作用和非相互作用蛋白對(duì)的重要特征。UNISPPI的主要優(yōu)點(diǎn)是簡(jiǎn)單和計(jì)算成本低,因?yàn)樯倭刻卣饔糜谟?xùn)練決策樹(shù)分類(lèi)器。但是,決策樹(shù)分類(lèi)器通常會(huì)出現(xiàn)過(guò)度擬合的問(wèn)題。

1.2.5 ETB-Viterbi

Kern[7]提出的ETB-Viterbi是ipHMMs中的一種具有早期追溯機(jī)制的解碼算法 (“交互特征隱馬爾可夫模型”),該算法旨在最佳地將輸入序列中相互作用的AA殘基之間的長(zhǎng)距離相關(guān)性納入其中。它能夠捕獲長(zhǎng)距離相關(guān)性以提高預(yù)測(cè)精度,且不受序列方向的影響。但是,Viterbi算法在內(nèi)存和計(jì)算時(shí)間上是非常昂貴的。因?yàn)殡[馬爾可夫模型訓(xùn)練涉及Viterbi算法的重復(fù)迭代,且可能無(wú)法收斂到給定訓(xùn)練集的真正最佳參數(shù)集,也可能會(huì)出現(xiàn)過(guò)度擬合現(xiàn)象。

3 結(jié)語(yǔ)

本文對(duì)基于序列的蛋白質(zhì)相互作用預(yù)測(cè)的計(jì)算技術(shù)進(jìn)行了回顧,總結(jié)了幾種相關(guān)的現(xiàn)有方法,并對(duì)它們進(jìn)行了分類(lèi)和比較。顯然,為了達(dá)到合理的預(yù)測(cè)精度,PPI預(yù)測(cè)仍然需要大量的研究工作。在現(xiàn)有PPI預(yù)測(cè)方法中的特征更多關(guān)注AA理化性質(zhì),而忽略了蛋白質(zhì)的生物學(xué)特性。在未來(lái)工作中,應(yīng)更加關(guān)注將生物學(xué)知識(shí)納入預(yù)測(cè)方法中。

猜你喜歡
殘基鏡像相似性
一類(lèi)上三角算子矩陣的相似性與酉相似性
人分泌型磷脂酶A2-IIA的功能性動(dòng)力學(xué)特征研究*
基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動(dòng)力學(xué)與關(guān)鍵殘基*
“殘基片段和排列組合法”在書(shū)寫(xiě)限制條件的同分異構(gòu)體中的應(yīng)用
鏡像
淺析當(dāng)代中西方繪畫(huà)的相似性
鏡像
低滲透黏土中氯離子彌散作用離心模擬相似性
基于支持向量機(jī)的蛋白質(zhì)相互作用界面熱點(diǎn)殘基預(yù)測(cè)
鏡像