于亞運(yùn) 劉勇國(guó) 蔣羽
[摘要]藥物通過(guò)結(jié)合人體靶點(diǎn)發(fā)揮藥效,識(shí)別藥物靶點(diǎn)相互作用對(duì)于藥物新功能發(fā)現(xiàn)至關(guān)重要。該文提出基于分子子結(jié)構(gòu)的靶點(diǎn)指紋特征和基于指紋相似度的藥物靶點(diǎn)特征計(jì)算方法,構(gòu)建隨機(jī)森林分類(lèi)模型識(shí)別和預(yù)測(cè)藥物靶點(diǎn)相互作用,通過(guò)酶、離子通道、G蛋白偶聯(lián)受體和核受體數(shù)據(jù)集測(cè)試并與現(xiàn)有方法對(duì)比分析,并將所提模型應(yīng)用于中藥成分靶點(diǎn)相互作用預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明所提方法的有效性。
[關(guān)鍵詞]藥物靶點(diǎn)相互作用; 分子指紋; 隨機(jī)森林
Prediction of drugtarget interaction based on fingerprint similarity
YU Yayun1, LIU Yongguo1*, JIANG Yu1, LI Limin2
(1. Knowledge and Data Engineering Laboratory of Chinese Medicine, School of Information and Software Engineering,
University of Electronic Science and Technology of China, Chengdu 610054, China;
2. Sichuan Academy of Chinese Medicine Sciences, Chengdu 610041, China)
[Abstract]Drugs play the pharmacological effects by combining with target proteins. Identification of drugtarget interactions is important for discovering new functions of drugs. In this paper, the target fingerprints based on molecular substructure and the drugtarget similarity based on fingerprints are proposed to a random forestbased classification method, in order to identify the drugtarget interactions. Experiments on enzymes, ion channels, G proteincoupled receptors and nuclear receptors proved the effectiveness of the proposed method. In addition, the proposed method is applied to predict the interactions between ingredients and targets of traditional Chinese medicines.
[Key words]drugtarget interaction; molecular fingerprint; random forest
藥物靶點(diǎn)是存在于人體組織細(xì)胞內(nèi)與藥物分子相互作用并賦予藥物效應(yīng)的特定蛋白質(zhì)分子,如受體、酶等[1]。藥物通過(guò)與靶點(diǎn)相互作用影響靶點(diǎn)的藥理作用以達(dá)到表型效應(yīng)[23]。識(shí)別藥物靶點(diǎn)相互作用對(duì)于理解藥物的作用機(jī)制至關(guān)重要,而藥物靶點(diǎn)間關(guān)系尚未完全明確[4]。目前,通過(guò)生物實(shí)驗(yàn)手段識(shí)別藥物靶點(diǎn)相互作用不僅代價(jià)高而且耗時(shí)長(zhǎng)[5]。Mei等認(rèn)為借助計(jì)算機(jī)可快速有效預(yù)測(cè)藥物靶點(diǎn)相互作用,提出BLMNII模型從KEGG數(shù)據(jù)庫(kù)識(shí)別藥物D00163,D00506和D05341分別與靶點(diǎn)hsa9971,hsa9970和hsa3174具有相互作用,實(shí)現(xiàn)通過(guò)計(jì)算機(jī)技術(shù)在有限時(shí)間內(nèi)大規(guī)模預(yù)測(cè)藥物靶點(diǎn)相互作用,協(xié)助研究人員有效開(kāi)展生物實(shí)驗(yàn)驗(yàn)證[67]。
近年來(lái),研究人員基于計(jì)算機(jī)技術(shù)從不同角度研究藥物靶點(diǎn)特征,構(gòu)建機(jī)器學(xué)習(xí)模型預(yù)測(cè)藥物靶點(diǎn)相互作用[8]。Yamanishi等從KEGG BRITE,BRENDA,SuperTarget和DrugBank數(shù)據(jù)庫(kù)搜集藥物靶點(diǎn)相互作用數(shù)據(jù),根據(jù)靶點(diǎn)類(lèi)型創(chuàng)建酶(enzyme)、離子通道(ion channel)、G蛋白偶聯(lián)受體(Gproteincoupled receptor)和核受體(nuclear receptor)數(shù)據(jù)集,基于化學(xué)結(jié)構(gòu)和基因序列信息采用統(tǒng)計(jì)方法分析藥物靶點(diǎn)相互作用,采用ROC曲線下面積(area under curve,AUC)作為評(píng)價(jià)指標(biāo),4個(gè)數(shù)據(jù)集的AUC值分別為0904,0851,0899,0843[9]。van Laarhoven等通過(guò)二值矩陣表示藥物靶點(diǎn)相互作用,以二值向量表示藥物(或靶點(diǎn))是否與靶點(diǎn)(或藥物)具有相互作用,采用高斯函數(shù)計(jì)算藥物(或靶點(diǎn))間高斯距離矩陣作為高斯相互作用屬性(Gaussian interaction profile,GIP)核,提出基于GIP核的正則化最小二乘法分類(lèi)器預(yù)測(cè)藥物靶點(diǎn)相互作用,算法AUC值分別達(dá)到0983,0986,0947,0906[10];Cao等認(rèn)為藥物化學(xué)子結(jié)構(gòu)指紋能有效地表示藥物,根據(jù)藥物maccs指紋特征和靶點(diǎn)蛋白的物理化學(xué)性質(zhì)構(gòu)建藥物靶點(diǎn)屬性特征,采用支持向量機(jī)構(gòu)建模型預(yù)測(cè)藥物靶點(diǎn)相互作用,算法AUC值分別達(dá)到0903 1,0889 1,0846 8,0837 4[5];Hao等采用非線性核融合思想構(gòu)建正則最小二乘法預(yù)測(cè)藥物靶點(diǎn)相互作用,算法AUC值分別達(dá)到0915,0925,0853,0909[11]。上述方法從不同角度構(gòu)建藥物靶點(diǎn)相互作用關(guān)系預(yù)測(cè)模型,對(duì)實(shí)驗(yàn)數(shù)據(jù)集獲得較高AUC值,表明此類(lèi)方法能較好預(yù)測(cè)潛在藥物靶點(diǎn)相互作用。endprint
論文采用藥物分子子結(jié)構(gòu)特征表示藥物指紋特征,根據(jù)藥物指紋特征和藥物靶點(diǎn)相互作用關(guān)系設(shè)計(jì)靶點(diǎn)指紋特征,通過(guò)多個(gè)相似度計(jì)算方法度量藥物靶點(diǎn)的指紋相似度,提出基于指紋相似度的隨機(jī)森林(fingerprint similaritybased random forest,F(xiàn)SRF)模型分析藥物靶點(diǎn)相互作用關(guān)系。
1數(shù)據(jù)
論文采用文獻(xiàn)[9]的藥物靶點(diǎn)數(shù)據(jù)集,包含酶、離子通道、G蛋白偶聯(lián)受體和核受體4個(gè)子數(shù)據(jù)集,數(shù)據(jù)集的藥物數(shù)目、靶點(diǎn)數(shù)目和藥物靶點(diǎn)已知相互作用數(shù)目見(jiàn)表1。此外,論文采用DrugBank數(shù)據(jù)庫(kù)[12]最新藥物靶點(diǎn)相互作用數(shù)據(jù)驗(yàn)證FSRF模型預(yù)測(cè)結(jié)果的有效性。
3結(jié)果
31分類(lèi)模型評(píng)估仿真實(shí)驗(yàn)基于Windows 10操作系統(tǒng),酷睿i3處理器,8GB內(nèi)存,R軟件開(kāi)發(fā)工具。根據(jù)藥物KEGG標(biāo)識(shí)符提取藥物SMILES編碼并確定藥物指紋特征。為討論不同藥物分子指紋對(duì)分類(lèi)模型的影響,論文采用maccs指紋、pubchem指紋和standard指紋開(kāi)展藥物靶點(diǎn)相互作用分析。將實(shí)驗(yàn)數(shù)據(jù)集中已知相互作用的藥物靶點(diǎn)對(duì)視為正樣本,將未知相互作用的藥物靶點(diǎn)對(duì)視為負(fù)樣本,按照正負(fù)樣本1∶1比例隨機(jī)無(wú)放回選擇負(fù)樣本。以maccs,pubchem和standard分子指紋分別構(gòu)建分類(lèi)模型(MFSRF,PFSRF和SFSRF),采用五折交叉驗(yàn)證,通過(guò)構(gòu)建混淆矩陣以計(jì)算AUC、準(zhǔn)確率(accuracy)、精確度(precision)、召回率(recall)、F度量(Fmeasure)評(píng)價(jià)指標(biāo),分類(lèi)結(jié)果見(jiàn)表2。可見(jiàn),針對(duì)不同數(shù)據(jù)集論文分類(lèi)方法AUC值、準(zhǔn)確率和F度量均高于095,精確度和召回率接近1,表明基于指紋相似度的隨機(jī)森林模型能準(zhǔn)確識(shí)別藥物靶點(diǎn)相互作用,其中SFSRF模型分類(lèi)結(jié)果最好。
32分類(lèi)模型對(duì)比分析為與現(xiàn)有方法對(duì)比分析,論文選擇BLM模型[3]、BGL模型[9]、RLS模型[10]、RLSKF(Max)和RLSKF(Avg)模型[11]、RF(Chem+Bio+net)和RF(Chem+Bio)模型[13]、NetLapRLS模型[14],以AUC指標(biāo)評(píng)價(jià)開(kāi)展對(duì)比分析,結(jié)果見(jiàn)表3。SFSRF模型對(duì)酶、離子通道、G蛋白偶聯(lián)受體和核受體數(shù)據(jù)集的AUC值分別達(dá)0998,0994,0994,0995,表明該模型具有更高的分類(lèi)有效性。
33未知藥物靶點(diǎn)相互作用預(yù)測(cè)SFSRF算法的藥物靶點(diǎn)相互作用預(yù)測(cè)結(jié)果見(jiàn)表4,其中未知作用數(shù)目表示數(shù)據(jù)集中未知藥物靶點(diǎn)相互作用數(shù)目,驗(yàn)證數(shù)目表示未知相互作用中被DrugBank數(shù)據(jù)庫(kù)驗(yàn)證數(shù)目,驗(yàn)證比例表示未知相互作用被DrugBank數(shù)據(jù)庫(kù)驗(yàn)證比例;預(yù)測(cè)數(shù)目表示SFSRF模型預(yù)測(cè)存在藥物靶點(diǎn)相互作用數(shù)目,識(shí)別數(shù)目表示預(yù)測(cè)的相互作用中被DrugBank數(shù)據(jù)庫(kù)驗(yàn)證的數(shù)目,識(shí)別比例表示預(yù)測(cè)的數(shù)目被DrugBank數(shù)據(jù)庫(kù)驗(yàn)證的比例,識(shí)別驗(yàn)證比為識(shí)別比例和驗(yàn)證比例的比值,體現(xiàn)SFSRF模型預(yù)測(cè)未知相互作用的能力。
由表4可見(jiàn),SFSRF模型的識(shí)別驗(yàn)證比達(dá)到56~104,表明其能提高未知藥物靶點(diǎn)相互作用預(yù)測(cè)能力。實(shí)驗(yàn)數(shù)據(jù)集共有355 782對(duì)未知相互作用,其中666對(duì)被DrugBank數(shù)據(jù)庫(kù)驗(yàn)證,驗(yàn)證比為0001 87。SFSRF模型預(yù)測(cè)2 111對(duì),其中60對(duì)被DrugBank數(shù)據(jù)庫(kù)驗(yàn)證,驗(yàn)證比例為0028 42,識(shí)別驗(yàn)證比為152,表明SFSRF模型能顯著提升藥物靶點(diǎn)相互作用預(yù)測(cè)水平。此外,分類(lèi)模型的平均預(yù)測(cè)率仍較低,分析發(fā)現(xiàn)酶數(shù)據(jù)集中292 554對(duì)未知相互作用僅81對(duì)被驗(yàn)證,導(dǎo)致未知相互作用預(yù)測(cè)難度加大;而SFSRF模型預(yù)測(cè)到1 262對(duì)相互作用,其中3對(duì)被驗(yàn)證,預(yù)測(cè)模型能顯著縮小驗(yàn)證范圍。針對(duì)離子通道、G蛋白偶聯(lián)受體和核受體數(shù)據(jù)集,SFSRF模型均大幅度壓縮預(yù)測(cè)范圍且提升了預(yù)測(cè)率,對(duì)于降低藥物研發(fā)成本,提高藥物靶點(diǎn)預(yù)測(cè)效率具有重要作用。
34中藥成分靶點(diǎn)相互作用預(yù)測(cè)以杞菊地黃丸為例分析基于SFSRF模型的中藥成分靶點(diǎn)相互作用關(guān)系。論文通過(guò)TCMSP數(shù)據(jù)庫(kù)[15]獲取杞菊地黃丸的中藥成分?jǐn)?shù)據(jù),通過(guò)DrugBank數(shù)據(jù)庫(kù)獲取已批準(zhǔn)藥物和藥物靶點(diǎn)相互作用關(guān)系,基于SFSRF模型構(gòu)建藥物靶點(diǎn)關(guān)系預(yù)測(cè)模型,以預(yù)測(cè)中藥成分靶點(diǎn)相互作用關(guān)系。為分析杞菊地黃丸對(duì)肝腎陰虛證的作用機(jī)制,通過(guò)篩選DrugBank數(shù)據(jù)庫(kù)腎臟疾病治療靶點(diǎn)形成中藥成分靶點(diǎn)的相互作用關(guān)系,構(gòu)建杞菊地黃丸的中藥成分靶點(diǎn)網(wǎng)絡(luò),見(jiàn)圖2,橢圓節(jié)點(diǎn)表示中藥成分,菱形節(jié)點(diǎn)表示靶點(diǎn)。
杞菊地黃丸主要作用于靶點(diǎn)P11274,P02792和P02794,為驗(yàn)證中藥成分靶點(diǎn)相互作用關(guān)系,從DrugBank數(shù)據(jù)庫(kù)獲取上述靶點(diǎn)并對(duì)靶點(diǎn)功能和已知藥物進(jìn)行分析。結(jié)果表明,靶點(diǎn)P11274為腎細(xì)胞癌抗原NYREN26,該靶點(diǎn)藥物均為抗腫瘤藥物。靶點(diǎn)P02792和P02794具有調(diào)節(jié)發(fā)育中腎囊細(xì)胞鐵攝取功能。靶點(diǎn)P02792的藥物為肝臟機(jī)能改善劑,
適用于急性肝炎、慢性遷延性肝炎、慢性活動(dòng)性肝炎,對(duì)肝硬化、膽囊炎膽石癥亦有效;用于患有慢性腎臟疾病的成人和6歲以上兒童患者接受血液透析和補(bǔ)充促紅細(xì)胞生成素的治療。論文21個(gè)靶點(diǎn)對(duì)應(yīng)藥物中,有13個(gè)靶點(diǎn)藥物是治療肝腎相關(guān)疾病藥物,主要表現(xiàn)為對(duì)腎臟機(jī)能的改善,對(duì)肝炎、肝硬化的治療,對(duì)腎病綜合征的治療,對(duì)肝細(xì)胞癌、晚期腎細(xì)胞癌的治療等;有3個(gè)靶點(diǎn)藥物主要用于降低眼內(nèi)壓和治療視網(wǎng)膜炎。上述結(jié)果體現(xiàn)杞菊地黃丸的滋腎養(yǎng)肝明目功效。此外,靶點(diǎn)藥物的利尿、補(bǔ)血、消炎鎮(zhèn)痛等作用以及對(duì)腸胃潰瘍、高血壓等疾病的治療與杞菊地黃丸中單味中藥的功效存在一致性,如茯苓和澤瀉的利水滲濕,山藥的補(bǔ)脾養(yǎng)胃、麻醉鎮(zhèn)痛,熟地黃的補(bǔ)血滋潤(rùn)等,見(jiàn)表5。
4討論
論文采用藥物指紋特征表示藥物屬性,根據(jù)藥物靶點(diǎn)相互作用確定靶點(diǎn)指紋特征,以藥物指紋特征與靶點(diǎn)指紋特征相似度為特征,以藥物靶點(diǎn)是否具有相互作用作為類(lèi)屬性,基于隨機(jī)森林算法構(gòu)建分類(lèi)模型。仿真實(shí)驗(yàn)表明,SFSRF模型能夠獲得較好分類(lèi)結(jié)果,通過(guò)DrugBank數(shù)據(jù)庫(kù)對(duì)未知作用預(yù)測(cè)結(jié)果驗(yàn)證,表明SFSRF模型具有較好藥物靶點(diǎn)未知相互作用預(yù)測(cè)能力,能夠?yàn)楦咝ч_(kāi)展生物實(shí)驗(yàn)識(shí)別藥物靶點(diǎn)相互作用提供支持,并將模型有效應(yīng)用于杞菊地黃丸的中藥成分靶點(diǎn)相互作用預(yù)測(cè)。endprint
[參考文獻(xiàn)]
[1]屠鵬飛,曾克武,廖理曦,等 天然活性小分子靶標(biāo)蛋白識(shí)別方法學(xué)研究進(jìn)展[J]. 中國(guó)中藥雜志,2016,41(1):6.
[2]Tabei Y, Pauwels E, Stoven V, et al. Identification of chemogenomic features from drugtarget interaction networks using interpretable classifiers[J]. Bioinformatics,2012,28(18):i487.
[3]Bleakley K, Yamanishi Y Supervised prediction of drugtarget interactions using bipartite local models[J]. Bioinformatics,2009,25(18):2397.
[4]Takarabe M, Kotera M, Nishimura Y, et al. Drug target prediction using adverse event report systems: a pharmacogenomic approach[J]. Bioinformatics,2012,28(18):i611.
[5]Cao D S, Liu S, Xu Q S, et al. Largescale prediction of drugtarget interactions using protein sequences and drug topological structures[J]. Anal Chim Acta,2012,752:1.
[6]Mei J P, Kwoh C K, Yang P, et al. Drugtarget interaction prediction by learning from local information and neighbors[J]. Bioinformatics,2013,29(2):238.
[7]Ding H, Takigawa I, Mamitsuka H, et al. Similaritybased machine learning methods for predicting drugtarget interactions: a brief review[J]. Brief Bioinform,2014,15(5):734.
[8]劉西,盧朋,左曉晗,等 基于二分圖評(píng)價(jià)模型的網(wǎng)絡(luò)藥物靶標(biāo)預(yù)測(cè)改進(jìn)方法[J]. 中國(guó)中藥雜志,2012,37(2):125.
[9]Yamanishi Y, Araki M A, Honda W, et al. Prediction of drugtarget interaction networks from the integration of chemical and genomic spaces[J]. Bioinformatics,2008,24(13):i232.
[10]van Laarhoven T, Nabuurs S B, Marchiori E Gaussian interaction profile kernels for predicting drugtarget interaction[J]. Bioinformatics,2011,27(21):3036.
[11]Hao M, Wang Y, Bryant S H Improved prediction of drugtarget interactions using regularized least squares integrating with kernel fusion technique[J]. Anal Chim Acta,2016,909:41.
[12]Wishart D S, Knox C, Guo A C, et al. DrugBank: a knowledgebase for drugs,drug actions and drug targets[J]. Nucleic Acids Res,2008,36:D901.
[13]Cao D S, Zhang L X, Tan G S, et al. Computational prediction of drugtarget interactions using chemical, biological, and network features[J]. Mol Inform,2014,33(10):669.
[14]Xia Z, Wu L Y, Zhou X, et al. Semisupervised drugprotein interaction prediction from heterogeneous biological spaces[J]. BMC Syst Biol,2010,4:S6.
[15]Ru J, Li P, Wang J, et al. TCMSP: a database of systems pharmacology for drug discovery from herbal medicines[J]. J Cheminform, 2014, 6(1):1.
[責(zé)任編輯張寧寧]endprint