国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GWO-KELM與GBDT的抗乳腺癌藥物性質(zhì)預(yù)測

2023-11-18 09:55:50張國浩陳義安
關(guān)鍵詞:性質(zhì)化合物分類

王 斯, 張國浩, 陳義安

1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 400067 2.經(jīng)濟(jì)社會應(yīng)用統(tǒng)計重慶市重點實驗室,重慶 400067

1 引 言

乳腺癌作為女性最常見的癌癥,已經(jīng)躍居世界女性癌癥死亡的第二大病因,并且其發(fā)病率和死亡率每年仍在不斷攀升[1]。為有效治療該病癥,醫(yī)藥與基因?qū)W領(lǐng)域進(jìn)行了大量實驗研究,發(fā)現(xiàn)人體內(nèi)雌激素受體α亞型(ERα)與該病的發(fā)病率密切相關(guān)[2],并在乳腺腫瘤細(xì)胞中過度表達(dá)。因此,良性乳腺上皮細(xì)胞中的ERα活性升高也就表明患乳腺癌的風(fēng)險增加,使得科研工作者們不斷尋找和研發(fā)抑制ERα作用的藥物[3]。

乳腺癌候選藥物研發(fā)與臨床應(yīng)用需要的時間和成本巨大。一方面,藥物需要有良好的生物活性,相關(guān)醫(yī)藥領(lǐng)域通常會為了節(jié)約時間與成本,運(yùn)用計算機(jī)與體外研究技術(shù),對可能具有良好表現(xiàn)的化合物進(jìn)行篩選工作,即收集一系列作用于該靶標(biāo)的化合物和生物活性數(shù)據(jù),應(yīng)用數(shù)學(xué)模型,構(gòu)建定量構(gòu)效關(guān)系[4](Quantitative Structure-Activity Relationship, QSAR),篩選新化合物以及預(yù)測藥物活性。

另一方面,良好的生物活性雖然有效保證了化合物對抗腫瘤細(xì)胞的有效性,但是藥物的研發(fā)還需要其藥代動力學(xué)性質(zhì)和安全性也符合相關(guān)政策法規(guī)的要求。藥代動力學(xué)性質(zhì)即藥物吸收、分布、代謝、排泄和毒性的總稱,這些性質(zhì)分別代表著生物體對化合物的各項敏感程度[5]。

隨著智能計算的迅速發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在醫(yī)療領(lǐng)域發(fā)揮著越來越重要的作用,特別是輔助藥物研發(fā)方面。顧等[6]構(gòu)建一種圖注意力網(wǎng)絡(luò),用于虛擬藥物篩選,并將算法橫向?qū)Ρ葯C(jī)器學(xué)習(xí)算法和傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)算法,均取得良好的結(jié)果;謝等[7]基于平均法與堆疊法融合的淺層神經(jīng)網(wǎng)絡(luò)模型,通過對藥物分子的化學(xué)結(jié)構(gòu)進(jìn)行信息化編碼,提高了對藥物分子預(yù)測的能力,與傳統(tǒng)深度學(xué)習(xí)相比,他們的研究能夠保證更好的準(zhǔn)確性;Shi等[8]采用卷積神經(jīng)網(wǎng)絡(luò)模型,并將其運(yùn)用在ADMET特性的預(yù)測模型上,表明該方法的預(yù)測能力與基于手動結(jié)構(gòu)描述和特征選擇的可用機(jī)器學(xué)習(xí)模型的預(yù)測能力相當(dāng);此外,Peng等[9]提出利用一種改進(jìn)的圖神經(jīng)網(wǎng)絡(luò)方法以改進(jìn)對ADMET特性的預(yù)測,該方法能夠通過將分子鍵特征與節(jié)點特征連接在一起,并應(yīng)用門單元來調(diào)整原子鄰域權(quán)重以映射中心原子與其相鄰原子之間相互作用強(qiáng)度的差異,從而得到更有意義的分子結(jié)構(gòu)模式,探索更好的分子建模。

從上述文獻(xiàn)可知:傳統(tǒng)藥物活性預(yù)測方法成本高,時間長,應(yīng)用范圍小,而利用人工智能算法預(yù)測候選藥物的生物活性和ADMET性質(zhì)已成為當(dāng)今研究的主流熱點,出色的模型可以有效預(yù)測候選化合物分子活性并對化合物ADMET性質(zhì)進(jìn)行分類識別,從而顯著地降低研發(fā)成本,極大地提高研發(fā)成功率,且有效避免因藥物產(chǎn)生的副作用和毒性導(dǎo)致的人體疾病。因此,利用更先進(jìn)的人工智能算法預(yù)測抗乳腺癌候選藥物的生物活性并進(jìn)行化合物ADMET性質(zhì)的分別識別極具實踐意義。

本文從UA的DrugBanK[10]數(shù)據(jù)庫中獲取了1 974種化合物對乳腺癌治療靶標(biāo)ERα的生物活性和ADMET性質(zhì)數(shù)據(jù),采用稀疏貝葉斯學(xué)習(xí)與隨機(jī)森林算法進(jìn)行兩階段篩選,隨后基于兩階段篩選后的分子描述符建立了定量預(yù)測模型,利用GWO-KELM算法構(gòu)建針對IC50與PIC50(其值用YIC50,YPIC50表示),的定量預(yù)測模型,同時利用GBDT構(gòu)建分類預(yù)測模型,預(yù)測了化合物的ADMET性質(zhì)。本文的研究旨在尋找生物活性較高且盡可能達(dá)到更好ADMET性質(zhì)的化合物,以加快抗乳腺癌候選藥物的研發(fā)進(jìn)程。

2 變量篩選

2.1 數(shù)據(jù)描述

通過爬蟲技術(shù)以及XML解析,獲取2種數(shù)據(jù)集。第一種是用于定量預(yù)測的ERα生物活性數(shù)據(jù),包含SMILES一維線性表達(dá)式,以及YIC50和YPIC50,前者越小越好,后者是前者的負(fù)對數(shù)變換;另一種是關(guān)于ADMET性質(zhì)的類別數(shù)據(jù),用于構(gòu)建分類預(yù)測模型。

兩種數(shù)據(jù)中的輸入特征是729種分子描述符,不失一般性,實際數(shù)據(jù)通常被認(rèn)為是稀疏的,所以必須在建模分析前進(jìn)行特征篩選工作。根據(jù)各個特征在不同模型不同階段的貢獻(xiàn)度(特征重要性)進(jìn)行排序,篩選出前20個最顯著的分子描述符。常規(guī)的變量選擇方法包括主成分分析法、LASSO、稀疏貝葉斯學(xué)習(xí)、隨機(jī)森林等,但是主成分分析法和LASSO這類經(jīng)典算法對729個變量指標(biāo)進(jìn)行特征提取時,可能不具備代表性。因此本文選擇稀疏貝葉斯與隨機(jī)森林算法對重要變量進(jìn)行兩階段評估,以此篩選出對活性值影響大的分子描述符。同時,在篩選前,進(jìn)行了數(shù)據(jù)預(yù)處理,結(jié)果表明原始數(shù)據(jù)中不存在任何的數(shù)據(jù)缺失,也無異常點存在。

2.2 稀疏貝葉斯模型一階段篩選

稀疏貝葉斯模型以貝葉斯理論為基礎(chǔ),其優(yōu)秀的分類和回歸能力可以篩選并尋找包含多個零值的權(quán)重向量,同時精確逼近目標(biāo)向量,從而使得容錯與逼近性能更優(yōu),泛化誤差最小[60-61]。稀疏信號恢復(fù)可用式(1)表達(dá)。

C=ωφ+ε

(1)

稀疏貝葉斯模型的目標(biāo)是尋找到一個包含很多零值的ω權(quán)重向量,同時結(jié)果準(zhǔn)確地逼近目標(biāo)向量C。在SBL模型中,為了尋找系數(shù)信號恢復(fù)的最小范數(shù)解,常常使用高斯似然函數(shù)模型獲取ω的最大似然估計量,具體見式(2)。

(2)

為了找到稀疏解,SBL從數(shù)據(jù)中估計參數(shù)化的先驗權(quán)重,過程可以用式(3):

(3)

其中,γ=[γ1,γ1,…,γM]T代表M個超參數(shù)的向量,它控制每個權(quán)重的先驗方差。

另一方面,在對變量維數(shù)眾多的特征進(jìn)行篩選時,除了通過影響程度去尋找重要變量,還應(yīng)減小變量與變量之間的相關(guān)性對影響程度產(chǎn)生的干擾。本文將采用斯皮爾曼相關(guān)系數(shù)去表示兩個變量之間的關(guān)聯(lián)程度,從而將相關(guān)性過強(qiáng)的變量做標(biāo)記并加入二次篩選的隨機(jī)森林模型中進(jìn)行相關(guān)性分離。

稀疏貝葉斯模型的篩選結(jié)果與斯皮爾曼的相關(guān)系數(shù)結(jié)果如表1及圖1所示,一階段的篩選結(jié)果得到了前40個對生物活性最具顯著性影響的變量,但有個別特征(nF10Ring、nT10Ring、nF、nsF、mindS、SdS、maxdS)的相關(guān)性顯示為強(qiáng)相關(guān)(深色)。

表1 SBL變量選擇結(jié)果Table 1 Results of SBL variable selection

圖1 一階段篩選變量斯皮爾曼系數(shù)Fig.1 One-stage screening variable Spearman’s coefficient

2.3 隨機(jī)森林模型二階段篩選

為處理各變量之間的相關(guān)性,以避免后續(xù)縮減模型過擬合情形的發(fā)生,在二階段篩選中,本文將一階段篩選結(jié)果選入隨機(jī)森林模型中,進(jìn)行新一輪特征分解提取,從而得到對生物活性最具有顯著影響的前20個變量。最終,得到的生物活性最具有顯著影響的前20個變量與變量相關(guān)系數(shù)結(jié)果如表2及圖2所示。比較圖2可以明顯看出:通過隨機(jī)森林模型對變量進(jìn)行二次篩選后,初次篩選時的強(qiáng)相關(guān)性變量相關(guān)系數(shù)明顯減小。

表2 隨機(jī)森林篩選結(jié)果Table 2 Results of random forest screening

圖2 二階段篩選變量斯皮爾曼系數(shù)Fig.2 Two-stage screening variable Spearman’s coefficient

3 基于GWO-KELM算法的QSAR模型預(yù)測分析

兩階段篩選后的分子描述符特征已大大減小,考慮到KELM(Kernel based Extreme Learning Machine)算法具有良好的穩(wěn)定性、泛化能力、容錯能力[12],并且目前廣泛應(yīng)用于輔助醫(yī)藥研發(fā),但該模型避免不了KELM神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)優(yōu)問題,特別是正則化系數(shù)C與核參數(shù)g。因此,本文利用能夠進(jìn)行參數(shù)尋優(yōu)的GWO(Grey Wolf Optimizer)算法對KELM進(jìn)行改進(jìn),從而確定其最優(yōu)參數(shù),進(jìn)一步提高模型預(yù)測性能。

3.1 KELM原理

數(shù)據(jù)集D={(xi,yi),i=1,2,…,n},輸入數(shù)據(jù)xi∈Rn,輸出值為yi∈R,向量h(xi)=[h1(xi),h2(xi),…,hm(xi)]的作用是將xi從n維輸入空間映射到m維隱藏層空間,向量β=[β1,β2,…,βm]T是用來連結(jié)輸出節(jié)點與隱藏層的權(quán)值向量,H=[h(x1),h(x2),…,h(xn)]n代表隱含層輸出矩陣,正則系數(shù)C用來減小模型產(chǎn)生的誤差。傳統(tǒng)ELM的輸出表達(dá)式為式(4):

(4)

其中,Y是輸出向量。由于傳統(tǒng)ELM的輸出表達(dá)式中有矩陣內(nèi)積存在,因此使用滿足條件的核函數(shù)來代替矩陣內(nèi)積,即式(5)—式(6)。

HTH(i,j)=K(xi,xj)

(5)

h(x)HT=[K(x,x1),K(x,x2),…,K(x,xn)]T

(6)

得到KELM模型的輸出為式(7):

(7)

綜上可知:KELM模型中的核映射更穩(wěn)定,因為其回歸預(yù)測的泛化性能比常見的預(yù)測模型更優(yōu)。同時,KELM模型只涉及自身的內(nèi)積運(yùn)算,而且不需預(yù)先設(shè)置隱含層的節(jié)點數(shù),這使得模型更加穩(wěn)定,收斂速度較快。但值得注意的是,KELM模型有時會因為參數(shù)選擇不當(dāng)而導(dǎo)致預(yù)測誤差偏高。

3.2 灰狼算法改進(jìn)的KELM模型

為了選擇合適的算法針對KELM模型進(jìn)行優(yōu)化,本文進(jìn)行預(yù)實驗,選擇正余弦優(yōu)化算法(Sine Cosine Algorithm, SCA)、粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)、灰狼算法進(jìn)行實驗比較。圖3可以看出:SCA算法收斂速度很慢,耗時很長,而PSO算法雖然迭代速度收斂較快,但過早陷入局部最優(yōu),而GWO算法綜合表現(xiàn)更好。因此,利用GWO對KELM算法超參數(shù)優(yōu)化,算法流程圖如圖4所示。

圖3 優(yōu)化算法參數(shù)空間和迭代次數(shù)對比Fig.3 Comparison of parameter space and number of iterations of optimization algorithm

圖4 GWO-KELM算法流程圖Fig.4 Flow chart of GWO-KELM algorithm

3.3 實驗結(jié)果與比較分析

為了科學(xué)有效地體現(xiàn)出GWO-KELM算法的優(yōu)越性,本文將基于灰狼優(yōu)化的KELM算法與11個常見預(yù)測算法進(jìn)行生物活性預(yù)測效果對比,通過圖像和數(shù)據(jù)直觀體現(xiàn)該模型的優(yōu)點。具體對比算法是決策樹、線性回歸、支持向量機(jī)回歸、k-近鄰、增強(qiáng)學(xué)習(xí)、梯度提升、裝袋算法、極限樹、貝葉斯嶺回歸、自動相關(guān)性確定算法和泰爾森估算。

通過對比上面的組圖可知,11個模型均在一定程度上出現(xiàn)預(yù)測誤差偏大。觀察圖5及圖6可知,本文算法預(yù)測結(jié)果與真實值比較吻合,不僅具有最小的誤差,而且擬合程度超過70.85%,擬合程度較好。

圖5 GWO-KELM算法預(yù)測YPIC50結(jié)果Fig.5 Prediction of YPIC50 results by GWO-KELM algorithm

圖6 各類算法預(yù)測YPIC50結(jié)果圖Fig.6 Predicted YPIC50 results for each type of algorithm

為了更直觀地對比GWO-KELM預(yù)測算法與其余算法的預(yù)測性能,本文共選取了3個指標(biāo)來評價生物活性定量預(yù)測有效性,模型主要指標(biāo)分別為擬合優(yōu)度R2、均方誤差、平均絕對誤差,計算公式如下:

根據(jù)上述預(yù)測指標(biāo)結(jié)果,將GWO-KELM模型與常見的12個預(yù)測模型進(jìn)行比較,模型的主要指標(biāo)對比如表3所示:

表3 各類算法指標(biāo)匯總Table 3 Summary of metrics for each type of algorithm

上述結(jié)果表明,GWO-KELM生物活性定量預(yù)測模型具有良好的優(yōu)越性及有效性,能夠?qū)ι锘钚远款A(yù)測進(jìn)行良好的建模;另外,通過與真實值以及11個預(yù)測模型結(jié)果比較,驗證了該算法的有效性。其本身模型的特性是在計算時不需要進(jìn)行迭代,計算速度快,具有出色的泛化能力,能提供更為準(zhǔn)確的預(yù)測結(jié)果;利用GWO算法優(yōu)化KELM模型的參數(shù),在參數(shù)取值范圍內(nèi)尋求全局最優(yōu)的參數(shù)解,使得KELM模型的預(yù)測結(jié)果更加精確。

3.4 基于GWO-KELM模型定量預(yù)測結(jié)果

以上實驗結(jié)論證明了GWO-KELM定量預(yù)測的優(yōu)秀效果。對新的化合物進(jìn)行預(yù)測,YPIC50由負(fù)對數(shù)變換而來,故無單位,具體可見式(3),預(yù)測結(jié)果見表4。

YIC50=10-YPIC50+9

(3)

表4 YIC50值和YPIC50值預(yù)測結(jié)果Table 4 Predicted results of YIC50 and YPIC50 values

從預(yù)測結(jié)果來看:樣本編號31—45的YIC50值,均超過2 500 nmol/L,其YPIC50低于6,可以認(rèn)為這些新化合物對抑制ERα活性效果較差,無法成為治療乳腺癌的候選藥物,后續(xù)研究可考慮優(yōu)化分子描述符結(jié)構(gòu)或剔除。

4 基于GBDT算法的ADMET性質(zhì)識別

化合物成為治療乳腺癌的良好藥物,必須具備良好的生物活性和ADEMT性質(zhì)。其中,ADME主要指化合物的藥代動力學(xué)性質(zhì),描述了化合物在生物體內(nèi)的濃度隨時間變化的規(guī)律,T主要指化合物可能在人體內(nèi)產(chǎn)生的毒副作用。一個符合標(biāo)準(zhǔn)的化合物需具備優(yōu)良的活性,其次還需要具有容易吸收、代謝適中和無毒等性質(zhì)。

在選用學(xué)習(xí)算法進(jìn)行分類預(yù)測建模時,需要考慮算法適用性,分析比較幾類常用機(jī)器學(xué)習(xí)算法會發(fā)現(xiàn):kNN(k-Nearest Neighbor)算法有著低復(fù)雜度的優(yōu)勢,但其可解釋性不強(qiáng),且計算時間很長,效率不高;LDA(Linear Discriminant Analysis)算法容易出現(xiàn)過擬合情形,嚴(yán)重影響模型的預(yù)測精度,導(dǎo)致泛化能力較低;LR(Logistic Regression)算法簡單易行,可解釋性強(qiáng),但是其預(yù)測準(zhǔn)確率不高;NBC(Native Bayes Classification)算法則需要先驗假設(shè)相互獨立,而文章數(shù)據(jù)集不符合此假設(shè),因此也不適用;而GBDT算法非常適用于文章ADMET性質(zhì)的分類預(yù)測分析。首先,文章涉及代表值分類為二元分類問題;其次,算法不需要對數(shù)據(jù)進(jìn)行放縮就可以進(jìn)行分類,同時,該算法損失函數(shù)較為穩(wěn)定,在數(shù)據(jù)處理時魯棒性較強(qiáng)。不僅如此,GBDT分類算法還充分考慮了每個分類器的權(quán)重,從而解決了本文的分類任務(wù)。因此,本文選擇利用GBDT算法建立模型進(jìn)行分類預(yù)測,同時選取查準(zhǔn)率、F1值、AUC值3個評價指標(biāo)作如下說明:

AUC值:ROC曲線右下方的集合面積,一般AUC值的范圍大于0.5,在0.85以上為較強(qiáng)。

TP表示被模型預(yù)測為正類的正樣本,其值用NTP表示;FP表示被模型預(yù)測為正類的負(fù)樣本,其值用NFP表示。

4.1 GBDT原理

GBDT(Gradient Boosting Decision Tree)[13]是基于Boosting的梯度提升算法,采用此算法是因為它在算法可解釋性上較強(qiáng),且容易理解,預(yù)測濕度較快、精度較高。具體理論構(gòu)建如下:

設(shè)訓(xùn)練集的特征和標(biāo)簽為

T=(x1,y1),(x2,y2),…,(xN,yN),xi∈χ,yi∈{0,1}

設(shè)二分類中的損失函數(shù)為L(y,f(x)),則有

L(y,f(x))=-logP(y|x)=log(1+e-yf(x))

則由Newton-Raphson迭代公式可得:

4.2 實驗結(jié)果與比較分析

4.2.1 化合物滲透性識別

針對Caco-2的識別,圖7是常見機(jī)器學(xué)習(xí)算法及本文算法基于訓(xùn)練數(shù)據(jù)的混淆矩陣,表5是各個算法的查準(zhǔn)率、AUC值、F1得分統(tǒng)計。結(jié)果顯示:GBDT查準(zhǔn)率為93.83%,AUC值為94.47%,F1得分為92.40%,橫向?qū)Ρ绕溆?個算法,其具有更好的評估效果與識別能力。

圖7 各類算法預(yù)測Caco-2混淆矩陣Fig.7 Confusion matrix of Caco-2 predicted by various algorithms

4.2.2 化合物代謝能力識別

針對CYP3A4識別能力,圖8和表6是常見機(jī)器學(xué)習(xí)算法及本文算法基于CYPEA4數(shù)據(jù)的混淆矩陣,結(jié)果顯示:GBDT的測試集表現(xiàn)最優(yōu),其查準(zhǔn)率可以達(dá)到97.03%,AUC值為93.68%,F1得分為96.81%,140種化合物樣本被準(zhǔn)確分類到0類,390種化合物被分類到1類中,識別能力很強(qiáng)。

圖8 各類算法預(yù)測CYP3A4混淆矩陣Fig.8 Confusion matrix of CYP3A4 predicted by various algorithms

表6 CYP3A4度量表Table 6 CYP3A4 metric scale

4.2.3 化合物心臟毒性識別

圖9和表7是常見機(jī)器學(xué)習(xí)算法及本文算法基于hERG數(shù)據(jù)的混淆矩陣。結(jié)果顯示:GBDT算法的查準(zhǔn)率為90.61%、AUC值為89.22%、F1為90.47%。在心臟毒性識別中,測試集數(shù)據(jù)中有231種化合物被識別為0類,299中化合物被識別為1類,識別能力最優(yōu)。

圖9 各類算法預(yù)測hERG混淆矩陣Fig.9 Confusion matrix of hERG predicted by various algorithms

表7 hERG度量表Table 7 hERG metric scale

4.2.4 化合物利用度識別

針對化合物利用度識別,圖10是常見機(jī)器學(xué)習(xí)算法及本文算法基于HOB數(shù)據(jù)的混淆矩陣,結(jié)果顯示:GBDT算法的查準(zhǔn)率為75.00%、AUC值為82.86%、F1為73.17%(表8)。測試集數(shù)據(jù)中有411種化合物被識別為0類,105中化合物被識別為1類,識別效果相對最優(yōu)。

圖10 各類算法預(yù)測HOB混淆矩陣Fig.10 Confusion matrix of HOB predicted by various algorithms

表8 HOB度量表Table 8 HOB metric scale

4.2.5 化合物遺傳毒性識別

針對化合物遺傳毒性識別,圖11是常見機(jī)器學(xué)習(xí)算法及本文算法基于MN數(shù)據(jù)的混淆矩陣。結(jié)果顯示:化合物遺傳毒性識別中,GBDT算法的查準(zhǔn)率為96.72%、AUC值為95.77%、F1為97.58%(表9)。測試集數(shù)據(jù)中有128種化合物被識別為0類,443中化合物被識別為1類,識別能力很強(qiáng)。

圖11 各類算法預(yù)測MN混淆矩陣Fig.11 Confusion matrix of MN predicted by various algorithms

表9 MN度量表Table 9 MN metric scale

綜上,基于GBDT算法構(gòu)建的分類預(yù)測模型在測試集中對ADMET性質(zhì)的識別表現(xiàn)優(yōu)越,且都保持了較高的預(yù)測準(zhǔn)確性,因此本文將該模型應(yīng)用在新化合物的ADMET性質(zhì)識別中,從而判斷新化合物的代謝能力、心臟毒性等,具體預(yù)測結(jié)果見表10。

5 結(jié)束語

本文利用機(jī)器學(xué)習(xí)方法輔助實現(xiàn)抗乳腺癌候選藥物研發(fā),極大地節(jié)約了時間和成本,降低了人工誤差。首先基于拮抗ERα的生物活性數(shù)據(jù),利用稀疏貝葉斯學(xué)習(xí)以及隨機(jī)森林算法,實現(xiàn)兩階段的變量篩選,并對1 974種化合物進(jìn)行特征評估,得到20個重要特征;其次構(gòu)建GWO-KELM算法進(jìn)行YIC50與YPIC50的定量預(yù)測,并與傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行橫向?qū)Ρ?證明本文改進(jìn)算法的優(yōu)越性,其均方誤差最低,為0.598,擬合優(yōu)度為0.709;最后利用GBDT算法分別構(gòu)建ADMET性質(zhì)的5個分類模型,進(jìn)而對50種化合物做二分類預(yù)測,同時也做了機(jī)器學(xué)習(xí)算法的橫向?qū)Ρ?其具有最優(yōu)的預(yù)測結(jié)果,數(shù)據(jù)集上測試的分類F1分別為92.40%、96.81%、90.47%、73.17%、97.58%。本文算法相比一些傳統(tǒng)機(jī)器學(xué)習(xí)算法,具有更好的預(yù)測效果,可以為抗乳腺癌候選藥物研發(fā)提供預(yù)測服務(wù),具有一定的實踐價值。

表10 GBDT算法預(yù)測ADMET性質(zhì)結(jié)果Table 10 Results of GBDT algorithm for predicting ADMET properties

在進(jìn)一步的研究中,擬從如下幾個方面進(jìn)行延伸:

在抗乳腺癌候選藥物的篩選過程中,應(yīng)該同時考慮將化合物ERα的生物活性以及ADMET性質(zhì)進(jìn)行綜合評判,在化合物具有較好生物活性的前提下,保證其ADMET性質(zhì)較好,諸如代謝能力、遺傳毒性、滲透性等。

在充分挖掘結(jié)構(gòu)性數(shù)據(jù)信息中,進(jìn)一步可以采用圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法,對化合物的一維線性表達(dá)式SMILES進(jìn)行更深層的數(shù)據(jù)挖掘。

基于篩選重要化合物的分子描述符,進(jìn)一步可以通過反向優(yōu)化算法,確定分子描述符的最優(yōu)閾值,進(jìn)而調(diào)整化合物結(jié)構(gòu),使得ERα和ADMET性質(zhì)具有更好的表現(xiàn)。

猜你喜歡
性質(zhì)化合物分類
碳及其化合物題型點擊
碳及其化合物題型點擊
隨機(jī)變量的分布列性質(zhì)的應(yīng)用
分類算一算
完全平方數(shù)的性質(zhì)及其應(yīng)用
九點圓的性質(zhì)和應(yīng)用
分類討論求坐標(biāo)
厲害了,我的性質(zhì)
數(shù)據(jù)分析中的分類討論
例析高考中的鐵及其化合物
嘉祥县| 安溪县| 霍城县| 尚义县| 札达县| 来安县| 延寿县| 大同县| 新源县| 鹰潭市| 黔西县| 牙克石市| 陕西省| 东明县| 古浪县| 锡林浩特市| 高邑县| 尤溪县| 崇州市| 岑巩县| 临夏县| 尼勒克县| 临沭县| 黄梅县| 泗洪县| 大田县| 彰武县| 巴林右旗| 射阳县| 陵水| 抚州市| 柳河县| 名山县| 南昌县| 扎囊县| 邵武市| 兴业县| 景泰县| 义乌市| 桦甸市| 宁安市|