国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

評(píng)分函數(shù)在蛋白質(zhì)-配體結(jié)合方面的應(yīng)用研究進(jìn)展

2023-08-10 07:01:26曹雨康
關(guān)鍵詞:描述符復(fù)合物配體

曹雨康 江 健,2* 劉 杰,2

1(武漢紡織大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 湖北 武漢 430200)2(武漢紡織大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院非線性科學(xué)研究中心 湖北 武漢 430200)

0 引 言

蛋白質(zhì)與配體的相互作用存在于生物體每個(gè)細(xì)胞的生命活動(dòng)過程中,是細(xì)胞中一系列重要生理活動(dòng)的基礎(chǔ)。許多生物過程中,如遺傳物質(zhì)復(fù)制、基因表達(dá)調(diào)控、信號(hào)轉(zhuǎn)導(dǎo)和免疫應(yīng)答等都涉及蛋白質(zhì)與配體的結(jié)合。研究蛋白質(zhì)與配體相互作用的方式和程度,將有助于蛋白質(zhì)功能的分析、疾病致病機(jī)理的闡明和新型藥物的開發(fā)等眾多難題的解決。因此,研究蛋白質(zhì)-配體相互作用已成為生物化學(xué)、生物物理學(xué)和分子生物學(xué)研究中的核心問題之一。

為了評(píng)估蛋白質(zhì)與配體的結(jié)合,人們開發(fā)了各種評(píng)分函數(shù)。自20世紀(jì)90年代初以來,研究和開發(fā)評(píng)分函數(shù)成為了一個(gè)非?;钴S的領(lǐng)域。據(jù)不完全統(tǒng)計(jì),文獻(xiàn)中公開報(bào)道的評(píng)分函數(shù)已有上百種之多,雖然發(fā)展迅猛,但是卻沒有形成一個(gè)合適的分類方案和命名約定。為了促進(jìn)評(píng)分函數(shù)在評(píng)估蛋白質(zhì)與配體這一領(lǐng)域的良好發(fā)展以及方便初學(xué)者對(duì)該領(lǐng)域的學(xué)習(xí)認(rèn)識(shí),Liu等[1]根據(jù)不同評(píng)分函數(shù)使用的方法和不同的推導(dǎo)方式,將這一領(lǐng)域目前存在的評(píng)分函數(shù)劃分為四大類:基于物理的評(píng)分函數(shù)、實(shí)證評(píng)分函數(shù)、統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)、基于描述符的評(píng)分函數(shù)。其中:基于物理的評(píng)分函數(shù)通過計(jì)算蛋白質(zhì)與配體結(jié)合時(shí)的相互作用力來進(jìn)行評(píng)估;實(shí)證評(píng)分函數(shù)使用多元線性回歸來擬合現(xiàn)有數(shù)據(jù)[2-4];統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)可直接使用蛋白質(zhì)-配體復(fù)合物的數(shù)據(jù)集,無須進(jìn)一步地訓(xùn)練[5-7];最后,基于描述符的評(píng)分函數(shù)是由數(shù)據(jù)驅(qū)動(dòng)的,除了描述符和機(jī)器學(xué)習(xí)算法之外,其性能很大程度上取決于訓(xùn)練集的好壞,可以處理大量多樣化的數(shù)據(jù)[8-11]。同時(shí)文獻(xiàn)[12-13]提出了一套評(píng)價(jià)藥物-靶標(biāo)親合性評(píng)分函數(shù)性能的方法體系——CASF(Comparative Assessment of Scoring Functions),用來幫助用戶對(duì)評(píng)分函數(shù)進(jìn)行合理的選擇,也為發(fā)展評(píng)分函數(shù)的理論研究提供依據(jù)。本文根據(jù)這些分類方法和評(píng)價(jià)體系對(duì)目前主流的一些評(píng)分函數(shù)進(jìn)行了綜述性的介紹,并對(duì)評(píng)分函數(shù)當(dāng)前存在的一些問題進(jìn)行了總結(jié),對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了展望。

1 基于物理的評(píng)分函數(shù)

一開始并沒有專門為評(píng)估蛋白質(zhì)與配體相互作用而開發(fā)的評(píng)分函數(shù),然而由于19世紀(jì)70年代Martin和他同事開創(chuàng)性的工作,力場(chǎng)才被逐漸應(yīng)用到模擬生物大分子中來[14-15]。研究人員因此可以利用力場(chǎng)來計(jì)算蛋白質(zhì)與配體之間的相互作用,評(píng)分函數(shù)的概念也由此而生。由于蛋白質(zhì)與配體相互作用的性質(zhì),研究者們通常利用的是力場(chǎng)中的非共價(jià)相互作用,包括范德華力、靜電相互作用和氫鍵。例如DOCK評(píng)分函數(shù)[16-17]和AutoDock評(píng)分函數(shù)[18]的早期版本都使用了AMBER力場(chǎng)[19-21]作為評(píng)分引擎,隨后這些評(píng)分函數(shù)考慮了溶劑效應(yīng)對(duì)蛋白質(zhì)與配體結(jié)合的影響從而得到了進(jìn)一步的發(fā)展[22-23],而且鑒于當(dāng)今計(jì)算機(jī)的強(qiáng)大性能,量子力學(xué)可能會(huì)取代力場(chǎng)在評(píng)估蛋白質(zhì)與配體結(jié)合中的作用,雖然這種方法還存在很多技術(shù)難題,但在很多研究中都有了突破和進(jìn)展。后來Liu等[1]將這些利用現(xiàn)代力場(chǎng)、量子力學(xué)方法和溶劑效應(yīng)的評(píng)分函數(shù)統(tǒng)一命名為基于物理的評(píng)分函數(shù),這類評(píng)分函數(shù)大多滿足如下形式:

ΔGbinding=ΔEvdw+ΔEelectrostatic+[ΔEH-bond]+ΔGdesolvation

(1)

式中:ΔGbinding表示蛋白質(zhì)與配體形成復(fù)合物的過程中結(jié)合自由能[24]的變化;ΔEvdw表示范德華力;ΔEelectrostatic為靜電相互作用;[ΔEH-bond]表示氫鍵;ΔGdesolvation則表示去溶劑化能,綜合起來衡量蛋白質(zhì)與配體的相互作用情況。

前面提到的DOCK評(píng)分函數(shù)由Elaine等在1991年提出,他們通過計(jì)算蛋白質(zhì)三維結(jié)構(gòu)上各點(diǎn)勢(shì)函數(shù)中的受體依賴項(xiàng)來達(dá)到評(píng)估的目的,力場(chǎng)在其中發(fā)揮了重要的作用。AutoDock是一套分子對(duì)接軟件,用于預(yù)測(cè)柔性配體與已知結(jié)構(gòu)大分子的結(jié)合,同樣使用力場(chǎng)作為評(píng)分引擎,是計(jì)算機(jī)輔助藥物設(shè)計(jì)的典型例子。Wang等[25]在AutoDock的基礎(chǔ)上,引入量子化學(xué)計(jì)算得出的部分電荷數(shù)值,使新的模型與AutoDock中的評(píng)分函數(shù)相比,在對(duì)接能力以及評(píng)分能力均有提高。Yin等[26]曾提出過一種評(píng)分函數(shù)——MedusaScore,這個(gè)函數(shù)基于一個(gè)包括范德華力、溶劑效應(yīng)和氫鍵在內(nèi)的物理相互作用模型。為了保證函數(shù)的可遷移性,他們沒有使用蛋白質(zhì)-配體實(shí)驗(yàn)數(shù)據(jù)進(jìn)行參數(shù)訓(xùn)練,而是在誘餌識(shí)別和結(jié)合親和力[27]預(yù)測(cè)方面對(duì)函數(shù)進(jìn)行了測(cè)試,同時(shí)他們發(fā)現(xiàn)函數(shù)產(chǎn)生誤差的原因可能是沒有考慮結(jié)合時(shí)的熵?fù)p失,這也為改進(jìn)函數(shù)提供了思路。文獻(xiàn)[28-29]更加關(guān)注的是如何計(jì)算蛋白質(zhì)與配體相互作用時(shí)的結(jié)合親和力,他們基于半經(jīng)驗(yàn)量子力學(xué)方法(Semiempirical Quantum Mechanics)設(shè)計(jì)了一個(gè)評(píng)分函數(shù),該函數(shù)可以計(jì)算蛋白質(zhì)與配體結(jié)合過程中的靜電相互作用和溶劑化自由能。這個(gè)基于物理的評(píng)分函數(shù)能夠計(jì)算出多種蛋白質(zhì)與配體復(fù)合物結(jié)合親和力的變化趨勢(shì),除此之外還能區(qū)分出天然復(fù)合物與誘餌蛋白。Jones等[30]針對(duì)小分子與已知三維結(jié)構(gòu)的大分子結(jié)合模式的預(yù)測(cè),設(shè)計(jì)了一個(gè)自動(dòng)化的配體對(duì)接程序——GOLD(Genetic Optimisation for Ligand Docking),利用遺傳算法(Genetic Algorithm)進(jìn)行蛋白質(zhì)與配體的結(jié)合運(yùn)算,結(jié)合時(shí)的蛋白質(zhì)為部分柔性而配體為完全柔性。因其準(zhǔn)確性和可靠性在分子圈內(nèi)評(píng)價(jià)很高,國(guó)內(nèi)許多科研單位都已引進(jìn)該軟件。Madhavilatha等[31]則采用了一種將多個(gè)評(píng)分函數(shù)進(jìn)行組合的技術(shù),并將其應(yīng)用到藥物設(shè)計(jì)中,并且在命中率、假陽(yáng)性率和豐富度上均有明顯提高,與單個(gè)評(píng)分函數(shù)相比,這種組合技術(shù)能提供更準(zhǔn)確的結(jié)果。與此類似的是Perez-Castillo等[32]提出的將單個(gè)評(píng)分函數(shù)整合到一起用于虛擬篩選的方法,他們使用遺傳算法來尋找組合評(píng)分函數(shù)。

2 實(shí)證評(píng)分函數(shù)

Bohm[33]發(fā)表的評(píng)分函數(shù)是公認(rèn)的第一個(gè)實(shí)證評(píng)分函數(shù),如今在Discovery Studio這個(gè)軟件中仍然可以用到這個(gè)評(píng)分函數(shù)。實(shí)證評(píng)分函數(shù)的特點(diǎn)在于它通過匯總許多單獨(dú)的指標(biāo)來評(píng)估蛋白質(zhì)與配體的結(jié)合情況,每個(gè)指標(biāo)都是結(jié)合過程中的一個(gè)重要因素。例如實(shí)證評(píng)分函數(shù)ChemScore[34]便滿足如下公式:

ChemScore=SH-bond+Smetal+Slipophilic+Protor+Pstrain+

Pclash+[Pcovalent+Pconstraint]

(2)

式(2)分為S和P兩部分,S為獎(jiǎng)勵(lì)分?jǐn)?shù),P為懲罰分?jǐn)?shù)。式中:SH-bond為氫鍵獎(jiǎng)勵(lì)分?jǐn)?shù);Smetal為與金屬離子的配位鍵獎(jiǎng)勵(lì)分?jǐn)?shù);Slipophilic為親脂性獎(jiǎng)勵(lì)分?jǐn)?shù);Protor為凍結(jié)的旋轉(zhuǎn)鍵懲罰分?jǐn)?shù);Pstrain為配體的內(nèi)部應(yīng)變能懲罰分?jǐn)?shù);Pclash為蛋白質(zhì)與配體之間的空間碰撞懲罰分?jǐn)?shù);Pcovalent和Pconstraint分別為可能存在的共價(jià)對(duì)接和約束懲罰分?jǐn)?shù)。函數(shù)由這些不同的分?jǐn)?shù)組合在一起得出最終的評(píng)分結(jié)果,實(shí)證評(píng)分函數(shù)通常采用多元線性回歸或最小二乘法來計(jì)算每個(gè)影響因素的權(quán)重。

Bohm[33]研究的評(píng)分函數(shù)LudiScore作為實(shí)證評(píng)分函數(shù)的開創(chuàng)性研究,只采用了34種蛋白質(zhì)-配體復(fù)合物作為訓(xùn)練集,在如今看來可能覺得訓(xùn)練集較小,但是在20世紀(jì)90年代末發(fā)表的實(shí)證評(píng)分函數(shù)使用的訓(xùn)練集復(fù)合物數(shù)量普遍小于100,在這種有限的數(shù)據(jù)集上很難獲得魯棒的評(píng)估模型。后來Wang等[35]在LudiScore、ChemScore和SCORE[36-37]的基礎(chǔ)上提出了一個(gè)新的實(shí)證評(píng)分函數(shù)——X-Score,它的復(fù)雜度與LudiScore大致相同,區(qū)別在于它使用的訓(xùn)練集復(fù)合物數(shù)量達(dá)到了200,而且比LudiScore擁有更多的參數(shù)以供調(diào)節(jié),因此得到了收斂的回歸模型,在蛋白質(zhì)與配體結(jié)合親和力的預(yù)測(cè)上表現(xiàn)更好。評(píng)分函數(shù)經(jīng)過多年的發(fā)展積累了很多蛋白質(zhì)-配體復(fù)合物的結(jié)合數(shù)據(jù),如PDBbind-CN數(shù)據(jù)庫(kù)[38]。該數(shù)據(jù)庫(kù)系統(tǒng)地收集了蛋白質(zhì)數(shù)據(jù)庫(kù)中各類蛋白-配體復(fù)合物的三維結(jié)構(gòu)以及親合性實(shí)驗(yàn)數(shù)據(jù),致力于提供結(jié)構(gòu)信息和物理化學(xué)性質(zhì)之間的聯(lián)系,可以為各類分子識(shí)別的理論研究提供知識(shí)基礎(chǔ),在許多大學(xué)、研究所和醫(yī)藥公司的努力下,PDBbind-CN數(shù)據(jù)庫(kù)一直在更新與發(fā)展。

在實(shí)證評(píng)分函數(shù)近幾年的研究中,Syrlybaeva等[39]提出了一種新的CBSF(Contacts-Based Scoring Function)實(shí)證評(píng)分函數(shù),用于預(yù)估蛋白質(zhì)與小分子之間的結(jié)合自由能。函數(shù)的權(quán)重系數(shù)從一個(gè)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中推導(dǎo)得出,有較高的精確度。ADMET(藥物的吸收、分配、代謝、排泄和毒性)藥物動(dòng)力學(xué)方法是當(dāng)代藥物設(shè)計(jì)和藥物篩選中十分重要的方法,然而用這么多ADMET性質(zhì)來評(píng)估化合物的藥物相似性并不容易。Guan等[40]提出了一個(gè)名為ADMET-score的評(píng)分函數(shù)來評(píng)估化合物的藥物相似性,并使用一些退出市場(chǎng)的藥物對(duì)其進(jìn)行了測(cè)試。文獻(xiàn)[41-44]研究的GlideScore可能是目前最成熟的實(shí)證評(píng)分函數(shù)之一,其特點(diǎn)在于它將氫鍵分為中性-中性、中性-帶電和帶電-帶電三種類型,這使獎(jiǎng)勵(lì)分?jǐn)?shù)與懲罰分?jǐn)?shù)處理地更加細(xì)化。與傳統(tǒng)評(píng)分函數(shù)不同,它沒有直接將配體對(duì)接至已知三維結(jié)構(gòu)的蛋白質(zhì)上,而是近似地預(yù)測(cè)對(duì)接對(duì)象的構(gòu)象、方向和空間位置,這種方法的準(zhǔn)確度幾乎是上一部分提到的自動(dòng)化的配體對(duì)接程序GOLD的兩倍。后來王瑋[45]在一次研究中發(fā)現(xiàn),GlideScore在成功識(shí)別蛋白質(zhì)-配體復(fù)合物的晶體結(jié)合構(gòu)象的前提下,對(duì)這些復(fù)合物的反向?qū)舆^程的識(shí)別率只有57%,其原因可能是GlideScore存在不同蛋白之間的噪聲,在后續(xù)的研究中,他們發(fā)現(xiàn)引入一個(gè)以“Balance”為核心的修正項(xiàng),可將預(yù)測(cè)準(zhǔn)確率提高到72%,并將改進(jìn)后的評(píng)分函數(shù)命名為BCGlideScore。

3 統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)

在1996年DeWitte等發(fā)布的設(shè)計(jì)項(xiàng)目SMoG(Small Molecule Growth)中,統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)首次被提出,并在接下來的十年左右的時(shí)間里迅速普及[46-47]。這是根據(jù)蛋白質(zhì)與配體的結(jié)合親和力對(duì)已知三維結(jié)構(gòu)的蛋白質(zhì)-配體復(fù)合物進(jìn)行排序的一種方法。這一類型的評(píng)分函數(shù)在技術(shù)層面可能有所不同,但它們遵循著相同的原則:求出蛋白質(zhì)與配體之間的統(tǒng)計(jì)成對(duì)勢(shì)[48]:

式中:lig為配體的原子數(shù);prot為蛋白質(zhì)的原子數(shù)。從而達(dá)到排序的目的。ωij(r)是原子對(duì)i-j之間的距離相關(guān)勢(shì),可以根據(jù)玻爾茲曼方程分析導(dǎo)出:

統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)首次在SMoG項(xiàng)目中被提出后,這一類型的評(píng)分函數(shù)的研究引起了人們的廣泛關(guān)注。Muegge[49-50]開發(fā)了評(píng)分函數(shù)PMF(Potential of Mean Force),其使用蛋白質(zhì)-配體復(fù)合物的結(jié)構(gòu)信息來推導(dǎo)原子對(duì)相互作用勢(shì)能。用計(jì)算出的PMF得分來衡量不同蛋白質(zhì)-配體復(fù)合物的結(jié)合親合力。文獻(xiàn)[6,51]提出了DrugScore,他們?cè)谖恼轮薪榻B了這個(gè)評(píng)分函數(shù)的開發(fā)和驗(yàn)證過程,它可以很好地區(qū)分已成功對(duì)接的蛋白質(zhì)配體結(jié)構(gòu)和一些由計(jì)算機(jī)程序生成的偏差量較大的結(jié)構(gòu)。后來在DrugScore2018[52]版本中,他們對(duì)訓(xùn)練集進(jìn)行了升級(jí),并在CASF-2013中對(duì)其進(jìn)行了測(cè)試,在評(píng)分、排序和對(duì)接能力上均表現(xiàn)良好。Huang等[53]使用一種新的迭代方法開發(fā)出一個(gè)統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)ITScore,ITScore中蛋白質(zhì)與配體的成對(duì)統(tǒng)計(jì)電勢(shì)來自由蛋白質(zhì)數(shù)據(jù)庫(kù)中的786個(gè)蛋白質(zhì)-配體復(fù)合物組成的訓(xùn)練集,他們采用的迭代方法的基本思想是通過迭代提高成對(duì)統(tǒng)計(jì)電勢(shì),直到函數(shù)能正確地將訓(xùn)練集中的復(fù)合物結(jié)構(gòu)與誘餌結(jié)構(gòu)區(qū)分開。與此類似的是Yan等[54]開發(fā)了一種基于統(tǒng)計(jì)勢(shì)的雙迭代評(píng)分函數(shù)DIScore/RR,用于評(píng)估RNA與RNA的相互作用。這個(gè)雙迭代函數(shù)通過迭代更新勢(shì)函數(shù)解決了參考狀態(tài)的問題,并通過迭代解決了常規(guī)方法中依賴誘餌的問題,有助于RNA結(jié)構(gòu)和RNA復(fù)合物的預(yù)測(cè)和設(shè)計(jì)。Xu等[55]提出了一種基于碳原子的評(píng)分函數(shù)OPUS-CSF,用于蛋白質(zhì)模型結(jié)構(gòu)的排序。Zheng等[56]提出的統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)KECSA重新定義了參考狀態(tài),從而使他們能夠?qū)⒊蓪?duì)統(tǒng)計(jì)電勢(shì)與LJ勢(shì)(Lennard-Jones)聯(lián)系起來(LJ勢(shì)由蛋白質(zhì)數(shù)據(jù)庫(kù)中蛋白質(zhì)-配體復(fù)合物的結(jié)構(gòu)數(shù)據(jù)生成),通過這一方法他們推導(dǎo)出了49種原子對(duì)的相互作用。

在此之后,Liu等[57]基于兩個(gè)蛋白質(zhì)-配體復(fù)合物訓(xùn)練集,采用迭代法開發(fā)了一種基于統(tǒng)計(jì)勢(shì)的鹵鍵評(píng)分函數(shù),稱為XBPMF,用來預(yù)測(cè)蛋白質(zhì)與配體的相互作用。他們將蛋白質(zhì)-配體復(fù)合物的結(jié)構(gòu)信息轉(zhuǎn)換為與原子對(duì)距離相關(guān)的成對(duì)電勢(shì),在對(duì)接、評(píng)分和排序能力上表現(xiàn)中等。對(duì)非共價(jià)相互作用鹵鍵[58-60]有較好的預(yù)測(cè)效果。Huang等[61]研究的一種平均力勢(shì)能評(píng)分函數(shù),也屬于統(tǒng)計(jì)勢(shì)評(píng)分函數(shù),同樣用來評(píng)估蛋白質(zhì)與配體的結(jié)合。他們介紹了平均力勢(shì)能評(píng)分函數(shù)的背景和最新進(jìn)展,并討論了可能遇到的挑戰(zhàn)與未來進(jìn)展的方向。王希誠(chéng)等[62]研究的一種通過計(jì)算原子對(duì)間距離來評(píng)價(jià)結(jié)合自由能的統(tǒng)計(jì)勢(shì)評(píng)分函數(shù),其構(gòu)造方法與前面提到的平均力勢(shì)能函數(shù)相似,同時(shí)采用基于信息熵的多種群自適應(yīng)遺傳算法,在降低了計(jì)算效率的同時(shí),預(yù)測(cè)精度得到了提高。汪心亭[63]提出的一個(gè)復(fù)合的統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)ITCPS(Iterative Composite Scoring function)綜合考慮了成鍵與非成鍵勢(shì)能,以及依賴方位取向的相互作用和疏水相互作用,在測(cè)試中有較高的成功率。

4 基于描述符的評(píng)分函數(shù)

基于描述符的評(píng)分函數(shù)的研究開始于2004年左右[64-65],這種方法由于研究中包含大量描述符而得名。其特點(diǎn)是將定量結(jié)構(gòu)-活性關(guān)系(Quantitative Structure-Activity Relationship,QSAR)研究方法[66]引入到了蛋白質(zhì)與配體相互作用的評(píng)估中。自計(jì)算機(jī)輔助藥物設(shè)計(jì)實(shí)現(xiàn)以來,QSAR研究方法便廣泛應(yīng)用于預(yù)測(cè)化合物的理化性質(zhì)和生物活性中。這類評(píng)分函數(shù)通常使用如隨機(jī)森林、貝葉斯分類器、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)在內(nèi)的機(jī)器學(xué)習(xí)算法來進(jìn)行變量的選擇,近年來得到了蓬勃的發(fā)展[67],與實(shí)證評(píng)分函數(shù)類似,它也需要一些已知結(jié)構(gòu)和結(jié)合數(shù)據(jù)的蛋白質(zhì)-配體復(fù)合物的訓(xùn)練集來推導(dǎo)函數(shù)模型。但與前面三種評(píng)分函數(shù)通常為線性函數(shù)不同的是,基于描述符的評(píng)分函數(shù)由于采用了機(jī)器學(xué)習(xí)算法通常為非線性函數(shù)[68]。

Durrant等[69-70]提出的一種基于神經(jīng)網(wǎng)絡(luò)的評(píng)分函數(shù)(NNScore)便屬于基于描述符的評(píng)分函數(shù),他們建立的這個(gè)模型能夠模擬大腦的微觀組織,可以快速準(zhǔn)確地預(yù)測(cè)候選配體的對(duì)接姿勢(shì),此外他們還提出了NNScore 2.0版本,NNScore 2.0在預(yù)測(cè)結(jié)合親和力時(shí)考慮的結(jié)合因素更全面,網(wǎng)絡(luò)輸出方式也不同于1.0版本。NNScore除了單獨(dú)使用,還能與其他評(píng)分函數(shù)配合使用,在藥物設(shè)計(jì)與發(fā)現(xiàn)方面發(fā)揮著不小的作用。Ballester等[8]將隨機(jī)森林算法應(yīng)用到了預(yù)測(cè)蛋白質(zhì)與配體結(jié)合中,采用蛋白質(zhì)數(shù)據(jù)庫(kù)(v2007)為訓(xùn)練集,以蛋白質(zhì)-配體原子作用對(duì)為描述符,提出的RF-Score評(píng)分函數(shù)通過非參數(shù)機(jī)器學(xué)習(xí)算法進(jìn)行建模,訓(xùn)練集越大,函數(shù)預(yù)測(cè)的準(zhǔn)確性越高。與此類似的是Zilian等[71]在實(shí)證評(píng)分函數(shù)SFCscore的基礎(chǔ)上,對(duì)一個(gè)含有1 005個(gè)蛋白質(zhì)配體復(fù)合物的訓(xùn)練集用隨機(jī)森林算法進(jìn)行回歸,提出了改進(jìn)的SFCscoreRF,改進(jìn)后的版本在面對(duì)大型數(shù)據(jù)集時(shí)預(yù)測(cè)準(zhǔn)確性更高。Li等[72]根據(jù)氫鍵相互作用、靜電相互作用、范德華相互作用等九種描述符開發(fā)了一個(gè)基于多種分子描述符的評(píng)分函數(shù)——ID-Score,他們使用支持向量回歸的方法挑選出關(guān)鍵的分子描述符從而構(gòu)建評(píng)分函數(shù)模型,用來擬合蛋白質(zhì)與配體的結(jié)合親和力,在基于結(jié)構(gòu)的藥物設(shè)計(jì)中被廣泛應(yīng)用。Neudert等[51]使用劍橋晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)CSD(Cambridge Structural Database)中的信息為基礎(chǔ),提出了基于描述符的評(píng)分函數(shù)DXS,測(cè)試后他們認(rèn)為DXS在對(duì)接、評(píng)分及排序上表現(xiàn)良好。Nguyen等[73]對(duì)頻譜與幾何關(guān)系問題提出了新的研究思路。他們提出了一種新的代數(shù)圖學(xué)習(xí)函數(shù)AGL-Score(Algebraic Graph Learning Score),從而將高維物理和生物學(xué)信息編碼為低維的表示形式,他們通過多個(gè)基準(zhǔn)數(shù)據(jù)集,對(duì)提出的AGL-Score模型的評(píng)分能力、排名能力、對(duì)接能力和篩選能力進(jìn)行了驗(yàn)證。結(jié)果表明AGL-Score模型在蛋白質(zhì)配體結(jié)合評(píng)分、排序、對(duì)接和篩選等方面優(yōu)于其他最新的評(píng)分函數(shù)。他們的這項(xiàng)研究表明機(jī)器學(xué)習(xí)方法是用于分子對(duì)接和虛擬篩選的強(qiáng)大工具,同時(shí)也表明譜幾何或譜圖具有推斷幾何性質(zhì)的能力。馮永娥[74]基于位置權(quán)重矩陣開發(fā)的評(píng)分函數(shù)主要應(yīng)用于預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu),他們?cè)贑B513數(shù)據(jù)庫(kù)中分別截取2種不同的殘基片段,統(tǒng)計(jì)20種氨基酸在蛋白質(zhì)的三種二級(jí)結(jié)構(gòu)(alpha螺旋、beta折疊和無規(guī)則卷曲)序列中各個(gè)位點(diǎn)的位置權(quán)重矩陣,然后利用基于位置權(quán)重矩陣的評(píng)分函數(shù)來預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu),取得了較好的結(jié)果。與此類似的是王世緣等[75]研究的位置評(píng)分函數(shù),用于預(yù)測(cè)轉(zhuǎn)錄因子的結(jié)合位點(diǎn),他們下載了ABS數(shù)據(jù)庫(kù)[76]和TRANSFAC數(shù)據(jù)庫(kù)[77]中所共有的位置權(quán)重矩陣,并計(jì)算出位置權(quán)重矩陣的估計(jì)概率和矩陣中不同列上結(jié)合位點(diǎn)序列的保守性,從而構(gòu)建出位置評(píng)分函數(shù),該函數(shù)由于考慮了多個(gè)同源物種的相關(guān)啟動(dòng)子序列信息和進(jìn)化保守性信息從而預(yù)測(cè)結(jié)果更為準(zhǔn)確。蘇敏儀等[78]研究了預(yù)測(cè)藥物分子解離速率常數(shù)(koff)[79-80]的通用型定量結(jié)構(gòu)-動(dòng)力學(xué)關(guān)系(QSKR)模型,他們收集了406個(gè)配體分子的解離速率常數(shù)實(shí)驗(yàn)值,采用分子模擬方法構(gòu)建了所有配體與靶蛋白復(fù)合物的三維結(jié)構(gòu)模型,然后基于蛋白質(zhì)-配體原子對(duì)描述符,采用隨機(jī)森林算法來構(gòu)建QSKR模型。

王帥等[81]將深度學(xué)習(xí)算法引入到了預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)的評(píng)分函數(shù)中,提出了一種基于雙向LSTM(Long Short Term Memory)神經(jīng)網(wǎng)絡(luò)的RNA二級(jí)結(jié)構(gòu)評(píng)分函數(shù)。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法不同,他們的深度序列模型允許對(duì)整個(gè)RNA序列進(jìn)行建模,避免了傳統(tǒng)機(jī)器學(xué)習(xí)會(huì)丟失全局信息這一問題,同時(shí)他們對(duì)已有短序列的RNA二級(jí)結(jié)構(gòu)評(píng)分函數(shù)在算法上進(jìn)行了改進(jìn),改進(jìn)后的評(píng)分函數(shù)可以預(yù)測(cè)變長(zhǎng)序列的RNA二級(jí)結(jié)構(gòu)。李春華等[82]則對(duì)蛋白質(zhì)-RNA對(duì)接中評(píng)分函數(shù)設(shè)計(jì)的進(jìn)展進(jìn)行了總結(jié),在此基礎(chǔ)上他們將自己發(fā)展的60×8氨基酸-核苷酸成對(duì)偏好勢(shì)與基于物理的能量項(xiàng)(靜電能和范德華能)進(jìn)行組合,提出了一個(gè)加權(quán)組合評(píng)分函數(shù)RpveScore,對(duì)蛋白質(zhì)-RNA的對(duì)接預(yù)測(cè)成功率較高。同時(shí)他們也研究了蛋白質(zhì)-蛋白質(zhì)分子對(duì)接中評(píng)分函數(shù)的應(yīng)用[83],對(duì)這其中存在的問題進(jìn)行了總結(jié),并提出了對(duì)該領(lǐng)域未來工作的展望。Karasikov等[84]提出了一種用于單模型蛋白質(zhì)質(zhì)量評(píng)估的方法SBROD(Smooth Backbone-Reliant Orientation-Dependent),首先提取特征,然后訓(xùn)練預(yù)測(cè)模型來構(gòu)建評(píng)分函數(shù),SBROD只從蛋白質(zhì)主鏈構(gòu)象提取幾何結(jié)構(gòu)特征,因此在對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行排序時(shí),不用考慮蛋白質(zhì)的側(cè)鏈構(gòu)象。劉飛等[85]基于部分互信息(Mutual Information,MI)和貝葉斯評(píng)分函數(shù),提出了一種新的基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法,可以有效挖掘基因間調(diào)控關(guān)系,快速構(gòu)建基因調(diào)控網(wǎng)絡(luò)。Lu等[86]提高了基于機(jī)器學(xué)習(xí)評(píng)分函數(shù)的魯棒性和適用性,他們提出的ΔvinaXGB(extreme gradient boosting)與同類型評(píng)分函數(shù)相比性能更強(qiáng),而且對(duì)不同類型結(jié)構(gòu)的模擬對(duì)接也有較高的預(yù)測(cè)精度。Karlov等[87]提出的MPNN(Message Passing Neural Network)評(píng)分函數(shù)采用圖卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)蛋白質(zhì)與配體的結(jié)合,他們?cè)诓煌臄?shù)據(jù)集上對(duì)MPNN進(jìn)行了測(cè)試,并與其他評(píng)分函數(shù)進(jìn)行了比較。Shen等[88]則對(duì)近年來發(fā)展的基于機(jī)器學(xué)習(xí)評(píng)分函數(shù)的研究進(jìn)展進(jìn)行了總結(jié),并對(duì)近年來發(fā)展的基于深度學(xué)習(xí)的評(píng)分函數(shù)進(jìn)行了探討與展望,他們認(rèn)為前者的不斷發(fā)展必將促進(jìn)藥物設(shè)計(jì)的前期研究,加快新藥物的研發(fā)速度。Levin等[89]開發(fā)了一個(gè)機(jī)器學(xué)習(xí)模型用于預(yù)測(cè)CDK(細(xì)胞周期蛋白依賴性酶)的結(jié)合親和力,并將該模型與傳統(tǒng)的評(píng)分函數(shù)進(jìn)行比較。

關(guān)于評(píng)分函數(shù)在蛋白質(zhì)-配體結(jié)合方面的應(yīng)用匯總?cè)绫?所示。

表1 評(píng)分函數(shù)在蛋白質(zhì)-配體結(jié)合方面的應(yīng)用

5 結(jié) 語(yǔ)

評(píng)分函數(shù)在基于結(jié)構(gòu)的藥物設(shè)計(jì)和虛擬篩選中發(fā)揮著重要的作用,近年來呈現(xiàn)蓬勃發(fā)展的勢(shì)頭,廣泛應(yīng)用于配體對(duì)接姿勢(shì)預(yù)測(cè)、復(fù)合物排序、蛋白質(zhì)與配體結(jié)合親和力預(yù)測(cè)等方面,本文根據(jù)評(píng)分函數(shù)的分類對(duì)一些具有代表性的評(píng)分函數(shù)進(jìn)行了梳理與介紹,可以看到在國(guó)內(nèi)外學(xué)者的努力下,越來越多評(píng)分函數(shù)被開發(fā)出來,它們都有各自的優(yōu)勢(shì)和缺點(diǎn):

(1) 基于物理的評(píng)分函數(shù)有一個(gè)明顯的優(yōu)勢(shì)在于它可以利用現(xiàn)代力場(chǎng)、量子力學(xué)和溶劑化模型等方法,而且近二十年來計(jì)算化學(xué)領(lǐng)域取得了長(zhǎng)足的進(jìn)步,當(dāng)?shù)鞍踪|(zhì)與配體的結(jié)合自由能能夠被準(zhǔn)確地計(jì)算出來時(shí),基于物理的評(píng)分函數(shù)應(yīng)該會(huì)成為主流。這類評(píng)分函數(shù)無論是基于力場(chǎng)還是其他模型,在實(shí)驗(yàn)中測(cè)得的結(jié)合自由能變化很小,而且函數(shù)中每個(gè)單獨(dú)的能量項(xiàng)都存在固有誤差,因此目前基于物理的評(píng)分函數(shù)通常需要縮放參數(shù)來達(dá)到更佳的實(shí)驗(yàn)效果。

(2) 實(shí)證評(píng)分函數(shù)通過蛋白質(zhì)與配體復(fù)合物的數(shù)據(jù)集來計(jì)算權(quán)重,而早些年由于缺少較好的數(shù)據(jù)集,實(shí)證評(píng)分函數(shù)沒有得到良好的發(fā)展,隨著大量蛋白質(zhì)配體復(fù)合物的結(jié)構(gòu)信息和結(jié)合數(shù)據(jù)被采集,數(shù)據(jù)集的質(zhì)量越來越高,因此實(shí)證評(píng)分函數(shù)的優(yōu)勢(shì)近些年得以展現(xiàn),但是它仍然存在著一個(gè)問題:從各種文獻(xiàn)中收集到的實(shí)驗(yàn)數(shù)據(jù)可能不是在同一條件下得到的,這會(huì)使預(yù)測(cè)結(jié)果產(chǎn)生誤差。為了避免這個(gè)問題,應(yīng)盡量使用同一來源的數(shù)據(jù)。

(3) 統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)主要優(yōu)點(diǎn)在于其概念和計(jì)算簡(jiǎn)單,與基于物理的評(píng)分函數(shù)相比,它對(duì)原子進(jìn)行成對(duì)處理因此效率更高;與實(shí)證評(píng)分函數(shù)相比,它可以捕捉到蛋白質(zhì)-配體相互作用中所隱藏的能量因子從而使函數(shù)形式更優(yōu)。同時(shí)統(tǒng)計(jì)勢(shì)評(píng)分函數(shù)在如下方面還需要改善:考慮熵效應(yīng)對(duì)復(fù)合物能量的影響從而提高函數(shù)的準(zhǔn)確性;對(duì)原子類型進(jìn)行適當(dāng)?shù)姆诸?做好原子對(duì)出現(xiàn)次數(shù)和原子類型數(shù)目之間的平衡;目前的成對(duì)電勢(shì)太過簡(jiǎn)化,由于引入了更多待定參數(shù),如何整合多個(gè)對(duì)象的相互作用以及這樣做是否可以提高評(píng)分函數(shù)性能仍然未知;在參考狀態(tài)不明確時(shí),對(duì)綁定模式的預(yù)測(cè)和虛擬篩選(virtual screening)仍存在問題,解決這個(gè)問題的方法之一是采用ITScore中的迭代方法,該方法考慮了復(fù)合物的結(jié)構(gòu)和誘餌結(jié)構(gòu)。這些方面逐漸完善后,平均勢(shì)能評(píng)分函數(shù)將成為基于結(jié)構(gòu)的藥物設(shè)計(jì)中寶貴的工具。

(4) 基于描述符的評(píng)分函數(shù)優(yōu)勢(shì)在于它可以利用機(jī)器學(xué)習(xí)算法對(duì)難以建模的情況進(jìn)行計(jì)算,并且對(duì)評(píng)分函數(shù)的形式?jīng)]有限制,可以直接從實(shí)驗(yàn)數(shù)據(jù)直接推斷出可能的結(jié)合方式。很多報(bào)告認(rèn)為基于描述符的評(píng)分函數(shù)比其他類型的評(píng)分函數(shù)預(yù)測(cè)效果更好,許多學(xué)者對(duì)此存在爭(zhēng)議,因此有必要在評(píng)分能力、排序能力、對(duì)接能力和篩選能力等方面對(duì)它們進(jìn)行比較。

總體而言,對(duì)評(píng)分函數(shù)在評(píng)估蛋白質(zhì)與配體的研究中,我們正面臨著許多挑戰(zhàn)性課題:目前的評(píng)分函數(shù)在評(píng)分和排名這些方面表現(xiàn)較差;在虛擬篩選時(shí)對(duì)較低結(jié)合親和力和無親和力區(qū)分效果不好;種類眾多,但哪一種代表著評(píng)分函數(shù)的發(fā)展趨勢(shì)并沒有形成共識(shí)。經(jīng)過近三十年的發(fā)展,評(píng)分函數(shù)已經(jīng)形成了堅(jiān)實(shí)的理論基礎(chǔ),在實(shí)際應(yīng)用方面也取得了許多成效,除此之外,合適的分類方案和命名約定的提出也使評(píng)分函數(shù)的發(fā)展更為健康高效。將來隨著更多高質(zhì)量多樣性的蛋白質(zhì)配體復(fù)合物訓(xùn)練集應(yīng)用到評(píng)分函數(shù)中,已有的評(píng)分函數(shù)可以得到進(jìn)一步的完善,更多新的評(píng)分函數(shù)會(huì)逐漸被開發(fā)出來,評(píng)分函數(shù)在藥物設(shè)計(jì)以及其他領(lǐng)域也會(huì)得到更廣泛的應(yīng)用。

猜你喜歡
描述符復(fù)合物配體
基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
柚皮素磷脂復(fù)合物的制備和表征
中成藥(2018年7期)2018-08-04 06:04:18
黃芩苷-小檗堿復(fù)合物的形成規(guī)律
中成藥(2018年3期)2018-05-07 13:34:18
Linux單線程并發(fā)服務(wù)器探索
利用CNN的無人機(jī)遙感影像特征描述符學(xué)習(xí)
基于配體鄰菲啰啉和肉桂酸構(gòu)筑的銅配合物的合成、電化學(xué)性質(zhì)及與DNA的相互作用
新型三卟啉醚類配體的合成及其光學(xué)性能
基于Schiff Base配體及吡啶環(huán)的銅(Ⅱ)、鎳(Ⅱ)配合物構(gòu)筑、表征與熱穩(wěn)定性
系列含4,5-二氮雜-9,9′-螺二芴配體的釕配合物的合成及其性能研究
尤溪县| 五台县| 定南县| 广灵县| 丹江口市| 赤水市| 永仁县| 门头沟区| 沧州市| 东城区| 大关县| 潍坊市| 缙云县| 商洛市| 谷城县| 鄂尔多斯市| 泗洪县| 岚皋县| 新竹市| 安国市| 永登县| 南投市| 长白| 石家庄市| 洛宁县| 峨山| 巴马| 资中县| 衡水市| 麻阳| 班玛县| 澄城县| 札达县| 翼城县| 乌拉特中旗| 巩留县| 水城县| 顺昌县| 洛隆县| 大洼县| 敦煌市|