聶麗霞 劉 輝 鄒 凌
1(常州大學(xué)信息科學(xué)與工程學(xué)院 江蘇 常州 213164)2(常州大學(xué)商學(xué)院 江蘇 常州 213164)3(常州市生物醫(yī)學(xué)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室 江蘇 常州 213164)
因?yàn)樯镄盘?hào)通路與蛋白質(zhì)網(wǎng)絡(luò)通常存在交互(crosstalk)與補(bǔ)償性結(jié)構(gòu),傳統(tǒng)的“單藥物,單靶標(biāo)”治療在復(fù)雜疾病特別是癌癥的治療中往往不能有效抑制癌細(xì)胞增殖通路,達(dá)不到理想的治療效果[1]。藥物組合通過(guò)協(xié)同干擾生物網(wǎng)絡(luò),能更有效地抑制致病基因的活性水平[2]。以往的研究表明[3],與單一藥物相比,組合藥物能更有效地抑制癌細(xì)胞生長(zhǎng)或促進(jìn)癌細(xì)胞凋亡,并降低毒性和副作用。但是目前的組合藥物發(fā)現(xiàn)依賴于臨床經(jīng)驗(yàn)與偶然機(jī)會(huì),因此,迫切需要一種理性的、系統(tǒng)的計(jì)算方法來(lái)篩選組合藥物,以減少需要實(shí)驗(yàn)驗(yàn)證的候選組合藥物數(shù)量[4]。
本文構(gòu)建了藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò),采用重啟型隨機(jī)游走獲得組合藥物特征,訓(xùn)練梯度提升樹算法(Gradient Boosting Decision Tree,GBDT)預(yù)測(cè)組合藥物。本文的貢獻(xiàn)在于:1) 使用隨機(jī)游走從異構(gòu)網(wǎng)絡(luò)獲得的特征向量相對(duì)于本體特征維度大大降低,提高了分類器訓(xùn)練效率,大幅提高了分類器的訓(xùn)練與預(yù)測(cè)的效率;2) 克服了直接拼接本體屬性作為輸入特征向量導(dǎo)致特征維度不一致的弊端;3) 顯著提高了多種分類器的性能,例如,梯度提升決策樹分類器的AUC值從0.528增加到0.909。
首先從公共數(shù)據(jù)資源中收集了包括藥物的化學(xué)指紋、蛋白質(zhì)序列、藥物-蛋白質(zhì)關(guān)聯(lián)以及已知藥物組合。藥物組合來(lái)源是DCDB數(shù)據(jù)庫(kù)[5],其包含1 363種藥物組合(330種批準(zhǔn)和1 033種研究,包括237種不成功的用法),涉及904種個(gè)體藥物和805種目標(biāo)。訓(xùn)練集的正樣本由DCDB中批準(zhǔn)和研究的組合藥物組成,負(fù)樣本通過(guò)計(jì)算機(jī)隨機(jī)產(chǎn)生??紤]到目前非有效藥物組合的數(shù)量實(shí)際上是巨大的,并且遠(yuǎn)遠(yuǎn)超過(guò)有效藥物組合,通過(guò)從藥物集合組中隨機(jī)挑選成對(duì)藥物來(lái)產(chǎn)生許多藥物組合作為負(fù)樣本是合理的,實(shí)際上該方法廣泛應(yīng)用于預(yù)測(cè)藥物-靶標(biāo)相互作用和藥物-疾病關(guān)聯(lián)研究[6]。
使用藥物和蛋白質(zhì)本體特征計(jì)算藥物-藥物相似度,蛋白質(zhì)-蛋白質(zhì)相似度,結(jié)合已知藥物-蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò),構(gòu)建了藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)。針對(duì)每種組合藥物樣本,在所構(gòu)建的異構(gòu)網(wǎng)絡(luò)上進(jìn)行重啟型隨機(jī)游走[7]。當(dāng)隨機(jī)游走達(dá)到穩(wěn)定狀態(tài)時(shí),所得到的概率分布作為該藥物組合的特征向量?;谒幬锝M合的特征向量,構(gòu)建梯度樹決策提升(GTDB)分類器以預(yù)測(cè)新的藥物組合。
1.2.1蛋白質(zhì)-藥物關(guān)聯(lián)網(wǎng)絡(luò)
從STITCH數(shù)據(jù)庫(kù)中抽取藥物-蛋白質(zhì)關(guān)聯(lián),STITCH這是一個(gè)綜合藥物-靶標(biāo)作用數(shù)據(jù)庫(kù),它收集了來(lái)自于生化實(shí)驗(yàn)、外部數(shù)據(jù)庫(kù)、文獻(xiàn)挖掘和計(jì)算預(yù)測(cè)等化合物-蛋白質(zhì)等相互作用。對(duì)于每種相互作用STITCH計(jì)算了范圍從0到1 000的得分。首先使用閾值0.5(對(duì)應(yīng)于STITCH的500)來(lái)過(guò)濾掉可信度較低的藥物-蛋白質(zhì)互作用,再針對(duì)每種藥物選取top 3靶蛋白。如果一種藥物結(jié)合度得分高于0.5的靶蛋白質(zhì)不超過(guò)3種,那么只考慮這些目標(biāo),一共得到8 893個(gè)藥物-蛋白質(zhì)關(guān)聯(lián)。假設(shè)D=(d1,d2,…,dn)和P=(p1,p2,…,pm)表示藥物和蛋白質(zhì)節(jié)點(diǎn)集,A表示藥物-蛋白質(zhì)關(guān)聯(lián)矩陣,如果藥物i和蛋白質(zhì)j之間存在有效的相互作用,則aij為STITCH結(jié)合度得分,否則aij=0。
1.2.2藥物-藥物相似網(wǎng)絡(luò)
為了擴(kuò)展DCDB數(shù)據(jù)庫(kù)的藥物,根據(jù)STITCH藥物-藥物相似度分?jǐn)?shù),對(duì)每種藥物選取了top 10最相似的藥物來(lái)擴(kuò)展藥物的種類[8]。去除重復(fù)藥物后,獲得了3 378種不同的藥物。選擇類似藥物的出發(fā)點(diǎn)在于類似藥物可能與類似的靶蛋白相互作用,在細(xì)胞微環(huán)境中發(fā)揮相似的治療功效。這樣能夠通過(guò)向已知的藥物及其靶標(biāo)網(wǎng)絡(luò)進(jìn)行推理學(xué)習(xí),發(fā)現(xiàn)新的藥物組合。
本文使用藥物的化學(xué)指紋來(lái)計(jì)算每對(duì)藥物的相似度。使用PaDEL軟件[9]生成每種藥物的PubChem化學(xué)指紋(共880種指紋)。因此,每種藥物由880維的二元向量表示,如果藥物含有相應(yīng)的化學(xué)指紋,則對(duì)應(yīng)元素為1,否則為0。基于指紋向量計(jì)算Jaccard評(píng)分作為每對(duì)藥物化學(xué)相似度的指標(biāo)。Jaccard得分是一種廣泛使用的相似性度量,通常被定義為兩個(gè)樣本交集的勢(shì)除以兩個(gè)樣本集的并集的勢(shì)。設(shè)di和dj為藥物di和藥物dj的化學(xué)指紋向量。Jaccard評(píng)分定義如下:
(1)
1.2.3蛋白質(zhì)-蛋白質(zhì)相似網(wǎng)絡(luò)
1.2.4異構(gòu)網(wǎng)絡(luò)上的重啟型隨機(jī)游走
將藥物-藥物相似性網(wǎng)絡(luò)、蛋白質(zhì)-蛋白質(zhì)相似性網(wǎng)絡(luò)和藥物-蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò)相結(jié)合,建立了藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)G=(V,E)。節(jié)點(diǎn)集V={D,P}是藥物和蛋白質(zhì)節(jié)點(diǎn)集合,邊集E={Edc∪Ecd∪Edd∪Ecc}其中Ecc、Edd、Ecd分別是藥物-藥物關(guān)聯(lián),蛋白質(zhì)-蛋白質(zhì)關(guān)聯(lián)、藥物-蛋白質(zhì)關(guān)聯(lián)的集合,Edc是Ecd的轉(zhuǎn)置矩陣。對(duì)于每種組合藥物,在異構(gòu)網(wǎng)絡(luò)上進(jìn)行重啟型隨機(jī)游走,模擬組合藥物對(duì)靶標(biāo)干擾在蛋白質(zhì)網(wǎng)絡(luò)中的擴(kuò)散效應(yīng)。當(dāng)隨機(jī)游走達(dá)到穩(wěn)態(tài)時(shí),游走子的概率分布相當(dāng)于組合藥物對(duì)每種蛋白質(zhì)的干擾強(qiáng)度。數(shù)學(xué)形式上,對(duì)于由兩種藥物組成的藥物組合,使用這兩種藥物及其已知的靶蛋白質(zhì)作為種子節(jié)點(diǎn)在異構(gòu)網(wǎng)絡(luò)上進(jìn)行重啟型隨機(jī)游走,如圖1所示。當(dāng)隨機(jī)游走過(guò)程達(dá)到穩(wěn)定狀態(tài)時(shí),此時(shí)的概率分布代表組合藥物對(duì)蛋白質(zhì)網(wǎng)絡(luò)的擾動(dòng)。
圖1 藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)上的重啟型隨機(jī)游走示意圖
利用藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò),構(gòu)建了異構(gòu)網(wǎng)絡(luò)的轉(zhuǎn)移矩陣T:
(2)
式中:Tdd和Tpp分別是隨機(jī)游走過(guò)程中從藥物節(jié)點(diǎn)(蛋白質(zhì))到藥物節(jié)點(diǎn)(蛋白質(zhì)節(jié)點(diǎn))的概率轉(zhuǎn)換矩陣;Tdp是從藥物節(jié)點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)的概率轉(zhuǎn)換矩陣;Tpd是從蛋白質(zhì)節(jié)點(diǎn)到藥物節(jié)點(diǎn)的概率轉(zhuǎn)換矩陣。
假設(shè)隨機(jī)游走子從異質(zhì)網(wǎng)絡(luò)中的藥物節(jié)點(diǎn)開始,以概率λ訪問(wèn)其中之一的目標(biāo)蛋白質(zhì),或以概率(1-λ)訪問(wèn)任何其他藥物節(jié)點(diǎn)。 如果λ=0,隨機(jī)游走者只能保持在一種類型的網(wǎng)絡(luò)中?;谒幬?藥物相似性,將藥物di和藥物dj的轉(zhuǎn)變概率定義如下:
(3)
類似地,從蛋白質(zhì)pi到蛋白質(zhì)pj的轉(zhuǎn)換概率可以使用如下的蛋白質(zhì)-蛋白質(zhì)相似性來(lái)定義:
(4)
從藥物di到蛋白質(zhì)pj的轉(zhuǎn)變概率定義為:
(5)
從蛋白質(zhì)pi到藥物dj的轉(zhuǎn)變概率定義為:
(6)
令P(t)為(n+m)維度向量,其中第i個(gè)元素是在第t步游走子訪問(wèn)節(jié)點(diǎn)i的概率,隨機(jī)游走過(guò)程可以迭代計(jì)算:
P(t+1)=(1-α)T′P(t)+αP0
(7)
式中:α是重啟概率;P0是由組合藥物及其靶蛋白組成的一組種子節(jié)點(diǎn)上的初始概率分布。
實(shí)際上,藥物組合的單藥種類不限于兩種,因此初始概率分布可以很容易地?cái)U(kuò)展到多藥組合。需要注意的是,采用藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)上隨機(jī)游走算法的原因在于,該算法能有效地模擬藥物分子作用的影響在蛋白質(zhì)網(wǎng)絡(luò)中的傳播擴(kuò)散過(guò)程,即藥物分子在體內(nèi)與靶標(biāo)結(jié)合之后,抑制或激活靶蛋白的功能,從而引發(fā)一系列的級(jí)聯(lián)生化反應(yīng)。實(shí)際上,該算法已經(jīng)被多項(xiàng)研究使用并被證明是有效的[6,12]。
1.2.5訓(xùn)練梯度提升決策樹模型
梯度提升決策樹算法(GBDT)是一種有效的機(jī)器學(xué)習(xí)方法,在分類和回歸問(wèn)題上都取得了理想的性能。實(shí)際上,Caruana和Niculescu-Mizil對(duì)提升決策樹算法和其他七種典型分類器進(jìn)行了綜合性能評(píng)估,結(jié)果表明,基于梯度提升樹算法在預(yù)測(cè)中獲得了最佳性能。另一項(xiàng)實(shí)證績(jī)效評(píng)估也表明,當(dāng)維數(shù)不超過(guò)4 000時(shí),梯度提升決策樹的表現(xiàn)非常好。因此,使用藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)上隨機(jī)游走獲得的藥物組合特征向量來(lái)訓(xùn)練GBDT分類器模型預(yù)測(cè)新的組合藥物。
數(shù)學(xué)形式上,GBDT的決策功能初始化為:
(8)
式中:N是訓(xùn)練集中包含的藥物組合的數(shù)量。梯度提升樹算法重復(fù)構(gòu)造K棵不同的分類樹h(x,a1),h(x,a2),…,h(x,aK),每棵分類樹都是基于隨機(jī)選擇的子集進(jìn)行訓(xùn)練的樣本,然后迭代地構(gòu)造加法函數(shù)θk(x):
θk(x)=θk-1(x)+bkh(x;ak)
(9)
式中:bk和ak是第k棵分類樹h(x;ak)的權(quán)重和參數(shù)向量。損失函數(shù)定義為:
L(y,θ(x))=log(1+exp(-yθ(x)))
(10)
式中:y是真實(shí)的類標(biāo)簽;θ(x)是決策函數(shù)。通過(guò)網(wǎng)格搜索迭代地優(yōu)化bk和ak,使得損失函數(shù)L(y,θ(x))最小化。
本文算法的框架如圖2所示,異構(gòu)網(wǎng)絡(luò)上的隨機(jī)游走算法使用R語(yǔ)言實(shí)現(xiàn),梯度提升決策樹算法使用Python語(yǔ)言實(shí)現(xiàn),隨機(jī)游走產(chǎn)生的特征向量加上類標(biāo)號(hào)之后,作為訓(xùn)練梯度提升決策樹的訓(xùn)練集。對(duì)于算法中包含的超參數(shù),采用網(wǎng)格搜索方法,在基準(zhǔn)數(shù)據(jù)集上進(jìn)行10倍交叉驗(yàn)證以尋找最佳值。
圖2 本文算法框架
采用10倍交叉驗(yàn)證對(duì)方法性能進(jìn)行評(píng)估,把訓(xùn)練集隨機(jī)地劃分為10個(gè)大致相等的子集。輪流使用1個(gè)子集作為測(cè)試集,其余9個(gè)子集作為訓(xùn)練集。該驗(yàn)證過(guò)程重復(fù)10次,取10次的平均值上作為性能評(píng)估指標(biāo)。實(shí)驗(yàn)中所用的性能評(píng)估指標(biāo)包括精度(PRE)、召回率(REC)、F-measure、Matthews相關(guān)系數(shù)(MCC)和ROC曲線下面積(AUC)。
為了驗(yàn)證GBDT算法優(yōu)于其他傳統(tǒng)分類器,將其與七種典型分類器包括K最近鄰分類算法(KNN)、支持向量機(jī)(SVM)、線性回歸分析(Logistic)、樸素貝葉斯(Na?ve Bayes)、隨機(jī)森林(Random forest)、Adaboost與LogitBoost的性能進(jìn)行比較,在DCDB數(shù)據(jù)集進(jìn)行了性能評(píng)估。對(duì)于每種分類器,全部調(diào)整它們的參數(shù)以獲得它們的最佳性能,對(duì)于KNN算法,調(diào)整K參數(shù),包括1、3、5、7;對(duì)于正則化Logistic回歸,使用網(wǎng)格搜索調(diào)整其權(quán)重系數(shù)c,從0.1到2.0之間以步長(zhǎng)為0.1逐漸增加;對(duì)于SVM,其調(diào)整系數(shù)c在2的區(qū)間內(nèi)從1到10變化且嘗試了測(cè)試不同的核函數(shù),包括線性、多項(xiàng)式、RBF和S形函數(shù);對(duì)于Adaboost,將種子從1逐漸增加到10;對(duì)于其他基于樹的算法,包括Random Forest和logitBoost,樹的最大深度數(shù)從5逐漸增加到50,間隔為5;對(duì)于樸素貝葉斯分類器,采用其默認(rèn)設(shè)置。表1顯示了每種方法獲得的最佳性能對(duì)應(yīng)的性能指標(biāo)。顯然,GBDT算法在所有性能指標(biāo)方面都達(dá)到了最佳。
表1 GBDT與其他七種典型分類器在DCDB 數(shù)據(jù)集上的性能比較
為了驗(yàn)證藥物-蛋白質(zhì)異構(gòu)網(wǎng)絡(luò)上隨機(jī)游走所獲得特征的有效性,在藥物與蛋白質(zhì)本體特征與基于異構(gòu)網(wǎng)絡(luò)的特征之間進(jìn)行了性能比較。藥物與蛋白質(zhì)本體特征包含藥物的化學(xué)指紋與蛋白質(zhì)的GO(Gene Ontology)功能注釋詞條(terms)。然而,由于不同藥物組合的單藥和靶蛋白的數(shù)量不同,直接連接藥物化學(xué)指紋和蛋白質(zhì)GO功能注釋作為組合藥物的特征,會(huì)導(dǎo)致特征向量的維度不一致。所以,先取單藥化學(xué)指紋的并集與藥物靶蛋白GO注釋的并集,再將這兩種本體特征向量的并集進(jìn)行聯(lián)接(向量concatenation操作),即能得到維度一致的組合藥物的特征。
將每種組合藥物的化學(xué)指紋和GO注釋的并集作為GBDT分類器的輸入特征。性能測(cè)量結(jié)果如表2所示。從中可以發(fā)現(xiàn)基于異構(gòu)網(wǎng)絡(luò)特征的GBDT分類器的性能遠(yuǎn)超在本體特征上獲得性能。例如,GBDT分類器的AUC值從0.528增加到0.909。對(duì)其他七種典型分類器也在兩種特征上進(jìn)行了性能比較,如表2所示,通過(guò)異構(gòu)網(wǎng)絡(luò)提取的特征也極大地提高了所有這些分類器的性能。
靶向藥物已經(jīng)在癌癥治療中取得了顯著療效,但是由于癌細(xì)胞逐漸產(chǎn)生耐藥性,使得靶向藥物對(duì)腫瘤治療的臨床獲益受到很大限制。藥物組合協(xié)同干擾蛋白質(zhì)網(wǎng)絡(luò)能更有效地抑制致癌基因的活性水平,在復(fù)雜疾病的治療中發(fā)揮越來(lái)越重要的作用。本文將藥物相似性網(wǎng)絡(luò)、蛋白質(zhì)相似性網(wǎng)絡(luò)和已知的藥物-蛋白質(zhì)關(guān)聯(lián)整合為藥物-蛋白質(zhì)異質(zhì)網(wǎng)絡(luò)。使用藥物及其靶蛋白作為種子節(jié)點(diǎn)在異質(zhì)網(wǎng)絡(luò)上運(yùn)行重啟型隨機(jī)游走算法,將收斂后的概率分布作為每種藥物組合的特征向量,訓(xùn)練梯度提升決策樹分類器來(lái)預(yù)測(cè)新的藥物組合。使用DCDB基準(zhǔn)數(shù)據(jù)集進(jìn)行了性能評(píng)估實(shí)驗(yàn),結(jié)果表明本文算法比七種典型分類器和傳統(tǒng)的增強(qiáng)算法具有更高的性能。從網(wǎng)絡(luò)藥理學(xué)的角度來(lái)看,本文算法有效地利用了生物網(wǎng)絡(luò)中藥物靶標(biāo)網(wǎng)絡(luò)的拓?fù)鋵傩院突プ饔茫且环N系統(tǒng)的組合藥物預(yù)測(cè)方法。