何 冰 羅 勇 李秉軻 薛 英,3 余洛汀,*邱小龍 楊登貴
(1四川大學(xué)華西醫(yī)院生物治療國家重點實驗室, 腫瘤中心及生物治療協(xié)同創(chuàng)新中心, 成都 610041;2成都師范學(xué)院化學(xué)與生命科學(xué)學(xué)院, 成都 611130; 3四川大學(xué)化學(xué)學(xué)院, 成都 610064;4江蘇兆邦生物醫(yī)藥研究院有限公司, 江蘇 南通 226000; 5江蘇海門慧聚藥業(yè)有限公司, 江蘇 海門 226123)
基于分子描述符和機器學(xué)習(xí)方法預(yù)測和虛擬篩選乳腺癌靶向蛋白HEC1抑制劑
何 冰1,2羅 勇1李秉軻2薛 英1,3余洛汀1,*邱小龍4,5楊登貴4
(1四川大學(xué)華西醫(yī)院生物治療國家重點實驗室, 腫瘤中心及生物治療協(xié)同創(chuàng)新中心, 成都 610041;2成都師范學(xué)院化學(xué)與生命科學(xué)學(xué)院, 成都 611130;3四川大學(xué)化學(xué)學(xué)院, 成都 610064;4江蘇兆邦生物醫(yī)藥研究院有限公司, 江蘇 南通 226000;5江蘇海門慧聚藥業(yè)有限公司, 江蘇 海門 226123)
HEC1(癌癥高表達蛋白)是紡錘體檢查點控制、著絲粒功能、細胞存活的關(guān)鍵的有絲分裂調(diào)節(jié)器, 與原發(fā)性乳腺癌的不良預(yù)后有關(guān). 篩選具有高親和力的HEC1新型抑制劑對探索乳腺癌的靶向治療具有重要意義.本文從結(jié)構(gòu)多樣性的化合物庫中篩選HEC1抑制劑. 通過對分子描述符的特征篩選, 采用支持向量機(SVM)和隨機森林(RF)方法分別對HEC1抑制劑和非抑制劑建立了分類模型. 經(jīng)對比, RF模型顯示了更好的預(yù)測精度.我們采用RF模型對HEC1抑制劑進行了虛擬篩選, 從“in-house”實體庫篩選得到2個潛在的HEC1抑制劑分子.隨后對篩出的化合物進行了體外活性實驗, 發(fā)現(xiàn)對乳腺癌細胞株MDA-MB-468和MDA-MB-231均有一定程度的抗腫瘤活性. 研究結(jié)果表明, 機器學(xué)習(xí)方法對于設(shè)計和虛擬篩選HEC1抑制劑有良好的效果.
HEC1; 選擇性抑制劑; 機器學(xué)習(xí)方法; 支持向量機; 隨機森林; 虛擬篩選
乳腺癌是女性癌癥高發(fā)性惡性腫瘤, 全球范圍內(nèi)位于女性惡性腫瘤首位, 嚴重威脅女性身心健康.乳腺癌靶向治療是在分子水平對其通路靶點設(shè)計藥物, 通過藥物與受體或調(diào)節(jié)分子結(jié)合, 下調(diào)受體表達或者活化下游基因, 使得腫瘤細胞凋亡或者抑制其生長. 目前乳腺癌常見靶向藥物有人表皮生長因子受體(HER)靶向藥物曲妥珠單抗(rastuzumab)、帕妥珠單抗(pertuzumab)、西妥昔單抗(cetuximab);還有小分子酪氨酸激酶抑制劑吉非替尼(gefitinib)、厄洛替尼(erlotinib)、拉帕替尼(lapatinib); 哺乳動物雷帕霉素靶蛋白靶向藥物依維莫司(everolimus); 血管內(nèi)皮生長因子(VEGF)靶向藥物貝伐單抗(bevacizumab); 多聚二磷酸腺苷核糖聚合酶靶向藥物抑制劑Olaparib已進入臨床II期.1
HEC1是癌癥高表達蛋白,2相對于正常細胞, 它在癌癥細胞系中的表達量更高. HEC1也是一類周期蛋白, 主要在G2/M期表達, 參與有絲分裂、動粒組裝、有絲分裂檢驗點以及染色體穩(wěn)定性的維持等, 在腫瘤的發(fā)生發(fā)展中占有重要作用. 利用小分子抑制劑來研究HEC1在癌癥中高表達的作用對于臨床具有極大的意義.3
HEC1抑制劑相關(guān)機理已有不少研究.4–6Wu等7通過酵母雙雜交篩選得到靶向Hec1/Nek2復(fù)合物的小分子抑制劑INH1, 該抑制劑通過抑制Nek2對Hec1的磷酸化從而破壞Nek2-Hec1通路, 另一方面在降低Nek2表達量同時并不降低Hec1表達量的前提下, 導(dǎo)致中期染色體排列錯誤, 細胞不能進行正常的有絲分裂, 最終導(dǎo)致細胞的死亡. 這在腫瘤治療中可能具有重要意義. Qiu等8運用反向酵母雙雜交系統(tǒng)篩選得到特異性阻斷Hec1與Nek2蛋白–蛋白相互作用的小分子化合物, 該小分子能夠特異性降低Hec1的磷酸水平, 能夠?qū)е氯旧w不穩(wěn)定現(xiàn)象的出現(xiàn). 目前報道的Hec1/Nek2的抑制劑主要是加州大學(xué)歐文分校研究的INH系列化合物.9–12
篩選得到對HEC1蛋白高親和力、高選擇性的小分子抑制劑, 特異性阻斷Nek2對HEC1的磷酸化作用, 對于乳腺癌靶向治療有重要意義. 機器學(xué)習(xí)方法在預(yù)測化合物的藥效動力學(xué)、藥代動力學(xué)和毒性等方面有非常好的效果.13–15本研究采用支持向量機(SVM)和隨機森林(RF)兩種機器學(xué)習(xí)方法, 通過內(nèi)部五重交叉驗證和袋外數(shù)據(jù)(OOB)估計對訓(xùn)練模型進行優(yōu)化, 以期獲得良好的預(yù)測結(jié)果. 隨后, 我們從這兩種模型中選取出與HEC1抑制劑相關(guān)的物理化學(xué)特征, 用于HEC1潛在抑制劑的虛擬篩選, 并對篩選出的已有化合物進行了體外活性測試.
2.1 分子描述符
分子描述符是對分子的結(jié)構(gòu)和物理化學(xué)屬性的定量描述符號, 廣泛應(yīng)用于定量結(jié)構(gòu)活性關(guān)系(QSAR)和其他機器學(xué)習(xí)模型中, 用于預(yù)測各種藥物及小分子的毒理學(xué)與藥理學(xué)特征.16–22我們采用課題組編寫的分子描述符計算程序, 采用AM1半經(jīng)驗方法對化合物三維(3D)結(jié)構(gòu)進行優(yōu)化, 然后分別計算了化合物189個描述符相對應(yīng)的取值. 隨后, 我們對SVM模型采用遞歸特征消除(RFE)方法, 對RF模型使用程序自帶的隨機選擇方法, 剔除掉這189個描述符中與體系不相干的或多余的描述符, 僅保留和體系最相關(guān)的關(guān)鍵描述符, 用于進一步虛擬篩選或其它研究. 這兩種特征選擇方法將在后文中詳細介紹. 本研究涉及的189個分子描述符組參見表S1(Supporting Information), 這189個描述符的詳細說明請參見我們之前的文章.16–19,23
2.2 數(shù)據(jù)集
本研究所用的數(shù)據(jù)集為122個HEC1抑制劑和122個HEC1非抑制劑. HEC1抑制劑均從文獻收集得到.8,24為保證所選出的HEC1抑制劑具備一定程度的高效性, 我們?nèi)コ薍EC1抑制劑中的IC50值大于10 μmolL–1的分子, 確定HEC1抑制劑的IC50值范圍為7.5 到9431 nmolL–1. 通過對以上范圍抑制劑分子描述符的計算, 我們將具有重復(fù)結(jié)構(gòu)的分子舍棄,最終確定了122個HEC1抑制劑加入到數(shù)據(jù)集中.
為充分表示HEC1非抑制劑的廣泛性并作為對比, 我們根據(jù)k均值聚類25的方法, 從MDDR (MDL Drug Data Report)數(shù)據(jù)庫中, 挑選出假定存在且對HEC1沒有抑制作用的非抑制劑. 我們把MDDR中的未被報道具有任何HEC1抑制活性的分子(去除掉有無效的結(jié)構(gòu)或分子描述符的分子, 剩下超過15萬個分子), 根據(jù)計算得到它們的189個分子描述符的取值, 并分成122個聚類, 然后挑選出每個聚類中距離相應(yīng)聚類的質(zhì)心最近的分子, 即得到122個HEC1非抑制劑化合物.
對選定的244個分子, 均通過ChemBioDraw軟件繪制得到其二維(2D)結(jié)構(gòu), 并用Corina軟件將2D結(jié)構(gòu)轉(zhuǎn)換為3D結(jié)構(gòu), 再用ChemBio3D軟件對3D結(jié)構(gòu)進行優(yōu)化.26,27根據(jù)這些分子在化學(xué)空間中的相似性和分布的廣泛性, 我們將122個抑制劑和122個非抑制劑其分成HEC1的訓(xùn)練集和測試集. 訓(xùn)練集和測試集中化合物的結(jié)構(gòu)、類別和來源參見表S2和S3 (Supporting Information).
2.3 機器學(xué)習(xí)方法
本研究采用了兩種最新的機器學(xué)習(xí)方法——SVM和RF, 通過SVM和RF方法執(zhí)行的預(yù)測可以歸結(jié)為一個二元分類問題(即分為HEC1抑制劑或非抑制劑). 對于SVM和RF理論的深入描述可以很容易從一些經(jīng)典著作和優(yōu)秀論文中獲得, 因此這里僅對SVM和RF分類的主要思想做一個簡述.
SVM是一種基于統(tǒng)計學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險最小化(SRM)原則的方法, 而統(tǒng)計學(xué)習(xí)理論是一種著名的與核函數(shù)相關(guān)的機器學(xué)習(xí)方法.28,29SVM方法通過使用核函數(shù)(本研究使用高斯徑向基函數(shù)(RBF), 把輸入變量投射到高維特征空間中, 然后從輸入向量中選擇一個所謂支持向量的小的子集, 在變換之后的空間中, 通過最大間隔的原則構(gòu)建一個最優(yōu)化的分類超平面, 從而把這些輸入向量分成了兩種不同的類別.30
RF方法則是一種決策樹自然生長且很多個決策樹預(yù)測器組合在一起的分類方法. 每棵決策樹依賴于對輸入向量進行隨機獨立抽樣所獲得的數(shù)值,且森林中的所有決策樹都具有相同的分布.31,32每棵樹都不受干涉地自然生長到最大的規(guī)模, 然后對于一個新的數(shù)據(jù)點給出自己的預(yù)測. 也就是說, 這顆樹投票決定這一新數(shù)據(jù)點的類別. 當(dāng)大量的決策樹生成以后, 整個森林就選擇最多數(shù)的投票結(jié)果作為對這個數(shù)據(jù)點類別的判定. 在對訓(xùn)練集的每次引導(dǎo)過程中, 大約三分之一的實例在訓(xùn)練過程遺漏而組成袋外數(shù)據(jù)估計(OOB)樣本. 作為評估總預(yù)測精度指標的一部分, OOB在內(nèi)部評估了RF的性能, 顯示了使用相同大小的測試集具有和訓(xùn)練集同樣的精確度, 是一種和經(jīng)典的交叉驗證相類似的新的評估方法.33,34此外, RF可以根據(jù)對變量值隨機排序所引起的系統(tǒng)性能降低的程度, 選擇出對模型預(yù)測能力相對重要的描述符.18盡管分子的某種特定描述符與其活性之間的關(guān)系被隱藏在一個“黑箱”中, RF模型仍然可以在訓(xùn)練過程中衡量每個描述符對于預(yù)測精度的貢獻程度.35
2.4 特征選擇方法和模型建立
引入RFE方法可以提高機器學(xué)習(xí)方法的分類性能, 并能篩選出一些最相關(guān)的描述符, 這些描述符可以把數(shù)據(jù)集區(qū)分為陰性和陽性兩類. RFE在生物化學(xué)很多領(lǐng)域, 例如藥代動力學(xué)相關(guān)的藥物活性以及毒理學(xué)屬性等,14,15,16,20顯示出了高效性分類和預(yù)測能力, 并且發(fā)現(xiàn)很多有價值的特征, 獲得了令人滿意的推廣. 因此, RFE和SVM相結(jié)合的方法(SVM + RFE)一開始就被應(yīng)用于本研究中. 我們通過五重交叉驗證方法, 從訓(xùn)練集的預(yù)測結(jié)果中分別選擇了與HEC1抑制劑密切相關(guān)的一組描述符, 并使用RFE方法, 從整個訓(xùn)練集中產(chǎn)生一個有RFE特征的SVM模型.
對RF模型的每棵樹, 均由隨機選擇的mtry個描述符和與訓(xùn)練集不同的自引導(dǎo)樣本共同建立. RF模型的性能通過OOB估計從內(nèi)部進行評估, OOB測試所選用的數(shù)據(jù)與構(gòu)建森林所用到的數(shù)據(jù)互相獨立.在RF的訓(xùn)練過程中, 描述符的相對重要性亦可通過其自帶的特征選擇程序計算得到.
2.5 性能評估
機器學(xué)習(xí)方法的預(yù)測效果可以通過真陽性(TP), 真陰性(TN), 假陽性(FP)和假陰性(FN)這四個指標來進行衡量. TP是預(yù)測正確的HEC1抑制劑的數(shù)量, TN是預(yù)測正確的HEC1非抑制劑的數(shù)量, FP是把HEC1的非抑制劑錯誤地預(yù)測成抑制劑的數(shù)量, FN是把HEC1的抑制劑錯誤地預(yù)測成非抑制劑的數(shù)量.
一些精確性函數(shù)可以用來衡量模型的預(yù)測效果, 例如靈敏度(SE, 即HEC1抑制劑的預(yù)測精度), 特異性(SP, 即HEC1非抑制劑的預(yù)測精度), 錯誤率(ER), 總預(yù)測精度Q, 馬氏相關(guān)系數(shù)C等. 以上這些變量和函數(shù)之間的相互作用關(guān)系如下所示:
3.1 模型建立與RFE方法的效果
SVM模型根據(jù)我們課題組發(fā)展的程序13–15建立,而RF模型則由 Breiman和Cutler36提出的Fortran代碼生成. 在SVM模型中, 聯(lián)合五重交叉驗證方法, RFE方法的參與顯著提高了訓(xùn)練集的預(yù)測精度, 詳細結(jié)果參見表1.
在預(yù)測HEC1抑制劑和非抑制劑的過程中, 當(dāng)SVM的參數(shù)σ被確定為5的時候, 模型表現(xiàn)出了最好的預(yù)測效果. 對于HEC1抑制劑和非抑制劑而言, 未使用RFE方法的SVM模型(記為SVM)的平均預(yù)測精度是95.83%和98.67%; 與此相比, 使用了RFE方法的SVM模型(記為SVM + RFE)的以上數(shù)值分別為100%和100%. "SVM"模型的Q和C的平均預(yù)測值分別為97.41%和0.9484, 而"SVM + RFE"模型的Q和C值則分別是100%和1. 從以上結(jié)果可以看出, 對于HEC1抑制劑和非抑制劑, Q和C這四項指標的平均預(yù)測精度而言, 結(jié)合了RFE方法的SVM模型比起單純的SVM模型顯示出了較明顯的改善. 此外, 使用RFE方法還能有效選出一組與化合物的HEC1抑制活性最相關(guān)的分子描述符.
特征選擇是通過隨機地減少森林中樹與樹之間的相關(guān)度來提高RF模型的預(yù)測性能, 因此RF模型的每個節(jié)點在構(gòu)建決策樹的過程中使用了特征選擇. 樹的數(shù)量ntree經(jīng)優(yōu)化取值為500, 用于生成穩(wěn)定的袋外數(shù)據(jù)估計(OBB)預(yù)測率.31參數(shù)mtry的取值范圍是從1到描述符的總個數(shù), 對于本研究1 ≤ mtry≤ 189, mtry的默認值一般設(shè)置為描述符總個數(shù)的平方根, 即13. 本研究對每個mtry值對應(yīng)的模型都進行了預(yù)測,通過對相應(yīng)的OOB預(yù)測錯誤率的比較, 選出使OOB預(yù)測錯誤率最小時對應(yīng)的mtry值為最優(yōu)值, 即mtry= 9的時候.
表1 SVM五重交叉驗證預(yù)測結(jié)果Table1 Prediction performance of SVM by 5-fold cross-validation
我們通過測試集進一步評估所生成模型的效能和可靠性. 表2給出了HEC1體系中用RFE選出的描述符所生成的SVM模型對測試集的抑制劑和非抑制劑的預(yù)測精度. 作為對比, 使用全部189個描述符所生成的SVM模型相應(yīng)的預(yù)測精度也列在表中.
在該體系中, “SVM”模型和“SVM + RFE”模型對非抑制劑的預(yù)測精度相同, 均為100%, 但是對于抑制劑而言, 使用RFE之后預(yù)測精度略微有所降低,對“SVM + RFE”模型為98%, 對“SVM”模型為100%.
根據(jù)表2數(shù)據(jù)顯示, 這些模型中所采用的分子描述符數(shù)量減少, 模型的多余度和分子描述符的不相干性得到了極大程度的降低, 體系中的描述符從189個降到了12個. 表明RFE方法在選擇最相關(guān)的特征和剔除掉多余分子描述符方面是高度有效的, 大大提高了HEC1體系的抑制劑和非抑制劑分類研究的效率.
表2 預(yù)測精度的比較Table2 Comparison of the prediction accuracies
表3 SVM中SVM + RFE模型選擇出的12個最相關(guān)的描述符Table3 12 descriptors selected by (SVM + RFE) model in the SVM
3.2 模型驗證與機器學(xué)習(xí)方法的性能
表2給出了HEC1體系中SVM和RF方法對抑制劑和非抑制劑預(yù)測精度的詳細比較, 特別是采用SVM方法所建立模型的參數(shù)值也在表中得到體現(xiàn).對于“SVM + RFE”模型的參數(shù)σ = 0.2, 而對于“SVM”模型則為0.3. 相應(yīng)的模型在這兩個參數(shù)下都給出了最好的預(yù)測結(jié)果.
如表3所示, 對于HEC1體系, SVM中“SVM + RFE”模型對抑制劑的預(yù)測精度為98%, 對非抑制劑的則為100%, 而“SVM”模型和RF方法對抑制劑和非抑制劑的預(yù)測精度均為100%. 相應(yīng)的, “SVM + RFE”模型的Q和C值分別為98.89%和0.9778, 而“SVM”模型的Q和C值和RF方法的相同, 分別是100%和1.
圖1 SVM模型對測試集預(yù)測錯誤的HEC1抑制劑的結(jié)構(gòu)Fig.1 Structures of the misclassified HEC1 inhibitors by using testing set in SVM model
由于完全正確的預(yù)測準確率, 使得RF模型和“SVM”模型中沒有預(yù)測錯誤的抑制劑和非抑制劑分子. 而對于“SVM + RFE”模型, SVM的測試集中有1個抑制劑被預(yù)測錯誤, 該抑制劑的結(jié)構(gòu)信息可以參見圖1. 預(yù)測錯誤的原因可能和RFE方法的描述符較少(12個)造成的預(yù)測誤差有關(guān).
基于以上數(shù)據(jù)來看, 對于HEC1體系, 盡管“SVM”模型與RF模型具有同樣優(yōu)越的預(yù)測性能, 但是“SVM”模型擁有全部189個描述符, 相較于RF模型用自帶的特征選擇方法挑出的25個最相關(guān)描述符而言過于復(fù)雜和冗余. 此外, RF方法的計算速度要比SVM方法快的多, 拋開性能不論, 僅從時間和計算成本上考慮, 顯然RF模型更利于后續(xù)的虛擬篩選工作.
3.3 最相關(guān)描述符與對模型的解釋
在HEC1體系中, 通過特征選擇, SVM和RF預(yù)測模型提取了與抑制劑和非抑制劑活性最相關(guān)的分子描述符. 部分描述符可為特定類別化合物相關(guān)的結(jié)構(gòu)和物理化學(xué)屬性提供更深層次的了解. 通過RFE方法的SVM模型, 體系分子描述符從189個選出12個(表3).
RF模型選定了25個(表4)與預(yù)測性能高度相關(guān)的分子描述符, 并按照這些描述符對預(yù)測性能的貢獻值的高低而對它們進行排序(圖2). 體系的RF模型所排出的描述符序列的前三位分別為S(56)(-S-原子類型電拓撲態(tài)之和),5χCH(五元環(huán)的簡單分子連通性Chi指數(shù))和(五元環(huán)的價分子連通性Chi指數(shù)), 這三個描述符中的兩個S(56)和也同時被體系的SVM模型的RFE方法所選出.
表4 腺苷受體模型PROCHECK評價結(jié)果Table4 Evaluation results of PROCHECK of modeled adenosine receptor
在HEC1的母核結(jié)構(gòu)中(圖3),24存在含有S原子的五元環(huán), 和所選出的貢獻最大的三個描述符表述一致. RF選出的nsulph描述符反映了五元環(huán)中的S原子; S(35)、S(34)反映了母核結(jié)構(gòu)中的N; S(9)、S(20)、S(25)反映了母核結(jié)構(gòu)的碳碳雙鍵; nhyd反映了母核結(jié)構(gòu)中的氫鍵. 表明所選出的描述符能夠很好地代表HEC1抑制劑的結(jié)構(gòu)特征. 除此之外, SVM模型和RF模型中還有以下重合的描述符: S(18)(>CH2原子類型電拓撲態(tài)之和), S(9)(=CH-[sp2]原子類型H電拓撲態(tài)之和), Tcent(中心指數(shù)), Rugty(分子粗糙度), S(35)(:N:原子類型電拓撲態(tài)之和), QC,Min(C原子上最大的負電荷). 以上結(jié)果顯示兩種方法提取出的描述符有所交叉, 但各有自己獨特的描述符, 說明學(xué)習(xí)過程是不同的.
圖2 RF模型中得到的25個對HEC1抑制劑和非抑制劑預(yù)測最相關(guān)的描述符的相對重要性排名Fig.2 Relative importance of the 25 highest ranked descriptors in the RF model for the prediction of HEC1 inhibitors and non-inhibitors
圖3 HEC1抑制劑母核結(jié)構(gòu)Fig.3 Mother nuclear structure of HEC1 inhibitors
3.4 虛擬篩選in-house數(shù)據(jù)庫
測試集用來驗證所建立模型的性能, 預(yù)測精度越高, 說明模型的性能就越好. 根據(jù)這一原則, 我們采用了效果更優(yōu)的RF模型來對HEC1的抑制劑進行虛擬篩選. 我們對實驗室“in-house”數(shù)據(jù)庫(2100個實體化合物和片段)進行篩選, 最終得到了2個HEC1的潛在選擇性抑制劑(圖4).
我們虛擬篩選得到的兩個分子, 在結(jié)構(gòu)上和數(shù)據(jù)集的分子相比, 均有噻唑環(huán)結(jié)構(gòu)、苯環(huán)結(jié)構(gòu), 以及和噻唑2位相連接的N原子; 且和表4中貢獻值最大的前六位描述符S(35)相吻合. 表明篩選結(jié)果極大可能具有生物活性.
表5 化合物L(fēng)yt-1906和Lyt-2010體外增殖抑制活性Table5 Anti-proliferative activity of compounds Lyt-1906 and Lyt-2010 in vitro
3.5 活性化合物體外抗腫瘤測試
為驗證篩選結(jié)果, 我們對篩選出的化合物L(fēng)yt-1906和Lyt-2010, 進行了體外抗腫瘤活性測試(實驗方法見Supporting Information實驗1), 選用乳腺癌細胞株為MDA-MB-468和MDA-MB-231. 如表5所示,化合物L(fēng)yt-1906和Lyt-2010展示了較好的體外增殖抑制活性, IC50值在5.6–58.3 μmolL–1, 結(jié)果驗證了虛擬篩選方法的可靠性, 證實RF模型對于篩選HEC1抑制劑的可靠性.
機器學(xué)習(xí)方法(RF和SVM)對于HEC1抑制劑與非抑制劑分類模型的建立和虛擬篩選, 具有很好的效果. 尤其對于像HEC1這樣還沒有X射線晶體結(jié)構(gòu)的靶點蛋白, 不能通過小分子和靶點蛋白對接的方法來進行抑制劑的快速篩選, 采用機器學(xué)習(xí)方法(RF和SVM)進行高通量虛擬篩選, 就具有很重要的現(xiàn)實意義. 我們通過對分子描述符的特征篩選, 采用SVM和RF方法分別對HEC1抑制劑和非抑制劑建立了分類模型. 在RF模型中使用RF方法得到25個分子描述符, 而SVM模型中使用RFE方法選擇出12個最相關(guān)描述符, 大幅降低了分子描述符的冗余程度.我們對兩種模型的預(yù)測效果做了對比, 采用具有更好預(yù)測性能的RF模型對HEC1抑制劑做了虛擬篩選, 得到了2個潛在的HEC1抑制化合物. 對篩選得到的化合物所進行的體外抗腫瘤活性測試, 均顯示出一定活性. 在此基礎(chǔ)上, 后期可以通過進一步修飾改構(gòu)和生物學(xué)實驗, 以發(fā)現(xiàn)HEC1抑制劑, 并對乳腺癌的治療發(fā)揮良好作用.
Supporting Information: The 189 molecular descriptors of this study are listed in Table S1, and the structure, category and source of compounds in the training set and test set are provided in Tables S2 and S3. Test method of antitumor activity in vitro was in experiment 1. This information isavailable free of charge via the internet at http://www.whxb.pk u.edu.cn.
(1)Gan, S. J.; Wang, Q.; Zhu, L. M.; Xie, H.; Ding, X. F. Basic & Clin. Med. 2015, 35 (1), 134. [甘紹舉, 王 青, 朱麗敏,謝 浩, 丁先鋒. 基礎(chǔ)醫(yī)學(xué)與臨床, 2015, 35 (1), 134.]
(2)Chen, Y.; Riley, D. J.; Chen, P. L.; Lee, W. H. Mol. Cell Biol. 1997, 17 (10), 6049.
(3)Du, X. L.; Wang, M. R. Acta Acad. Med. Sin. 2007, 29 (1), 137. [杜小莉, 王明榮. 中國醫(yī)學(xué)科學(xué)院學(xué)報, 2007, 29 (1), 137.]
(4)Hu, C. M.; Zhu, J.; Guo, X. E.; Chen, W.; Qiu, X. L.; Ngo, B.; Chien, R.; Wang, Y. V.; Tsai, C. Y.; Wu, G.; Kim, Y.; Lopez, R.; Chamberlin, A. R.; Lee, E. H.; Lee, W. H. Oncogene 2015, 34, 1220. doi: 10.1038/onc.2014.67
(5)Huang, L. Y.; Chang, C. C.; Lee, Y. S.; Chang, J. M.; Huang, J. J.; Chuang, S. H.; Kao, K. J.; Lau, G. M.; Tsai, P. Y.; Liu, C. W.; Lin, H. S.; Lau, J. Y. Mol. Cancer Ther. 2014, 13 (6), 1419.
(6)Lee, Y. S.; Chuang, S. H.; Huang, L. Y.; Lai, C. L.; Lin, Y. H.; Yang, J. Y.; Liu, C. W.; Yang, S. C.; Lin, H. S.; Chang, C. C.; Lai, J. Y.; Jian, P. S.; Lam, K.; Chang, J. M.; Lau, J. Y.; Huang, J. J. J. Med. Chem. 2014, 57 (10), 4098. doi: 10.1021/jm401990s
(7)Wu, G.; Qiu, X. L.; Zhou, L.; Zhu, J.; Chamberlin, R.; Lau, J.; Chen, P. L.; Lee, W. H. Cancer Res. 2008, 68 (20), 8393. doi: 10.1158/0008-5472.CAN-08-1915
(8)Qiu, X. L.; Li, G.; Wu, G.; Zhu, J.; Zhou, L.; Chen, P. L.; Chamberlin, A. R.; Lee, W. H. J. Med. Chem. 2009, 52 (6), 1757. doi: 10.1021/jm8015969
(9)Chen, Y.; Riley, D. J.; Zheng, L.; Chen, P. L.; Lee, W. H. J. Biol. Chem. 2002, 277 (51), 49408. doi: 10.1074/jbc.M207069200
(10)Diaz-Rodríguez, E.; Sotillo, R.; Schvartzman, J. M.; Benezra, R. Proc. Natl. Acad. Sci. U. S. A. 2008, 105 (43), 16719. doi: 10.1073/pnas.0803504105
(11)Ferretti, C.; Totta, P.; Fiore, M.; Mattiuzzo, M.; Schillaci, T.; Ricordye, R.; Di Leonardo, A.; Degrassi, F. Cell Cycle 2010, 9 (20), 4174. doi: 10.4161/cc.9.20.13457
(12)Wei, R.; Ngo, B.; Wu, G.; Lee, W. H. Mol. Biol. Cell 2011, 22 (19), 3584. doi: 10.1091/mbc.E11-01-0012
(13)Xue, Y.; Li, H.; Ung, C.; Yap, C.; Chen, Y. Chem. Res. Toxicol. 2006, 19, 1030. doi: 10.1021/tx0600550
(14)Xue, Y.; Yap, C. W.; Sun, L. Z.; Cao, Z. W.; Wang, J.; Chen, Y. Z. J. Chem. Inf. Comput. Sci. 2004, 44, 1497. doi: 10.1021/ci049971e
(15)Xue, Y.; Li, Z.; Yap, C. W.; Sun, L.; Chen, X.; Chen, Y. Z. J. Chem. Inf. Comput. Sci. 2004, 44, 1630. doi: 10.1021/ci049869h
(16)Yang, X. G.; Chen, D.; Wang, M.; Xue, Y.; Chen, Y. Z. J. Comput. Chem. 2009, 30, 1202. doi: 10.1002/jcc.v30:8
(17)Yang, X. G.; Lv, W.; Chen, Y. Z.; Xue, Y. J. Comput. Chem. 2010, 31, 1249.
(18)Lv, W.; Xue, Y. Eur. J. Med. Chem. 2010, 45, 1167. doi: 10.1016/j.ejmech.2009.12.038
(19)Cong, Y.; Yang, X.; Lv, W.; Xue, Y. J. Mol. Graph. Model. 2009, 28, 236. doi: 10.1016/j.jmgm.2009.08.001
(20)Luan, F.; Liu, H.; Ma, W.; Fan, B. Eur. Med. Chem. 2008, 43, 43. doi: 10.1016/j.ejmech.2007.03.002
(21)Ung, C. Y.; Li, H.; Yap, C. W.; Chen, Y. Z. Mol. Pharmacol. 2007, 71, 158.
(22)Li, H.; Ung, C.; Yap, C.; Xue, Y.; Li, Z.; Cao, Z.; Chen, Y. Chem. Res. Toxicol. 2005, 18, 1071. doi: 10.1021/tx049652h
(23)Li, B. K.; Cong, Y.; Tian, Z. Y.; Xue, Y. Acta Phys. -Chim. Sin. 2014, 30 (1), 171. [李秉軻, 叢 湧, 田之悅, 薛 英. 物理化學(xué)學(xué)報, 2014, 30 (1), 171.] doi: 10.3866/PKU.WHXB201311041
(24)Huang, J. J.; Lau, J. Improved Modulators of HEC1 Activity and Methods. CN Patent 103038231.A, 2013-04-10. [Huang, J. J., Lau, J. HEC1活性調(diào)節(jié)劑及其方法: 中國, CN103038231.A[P]. 2013-04-10.]
(25)Duda, R. O.; Hart, P. E. Pattern Classification and Scene Analysis; John Wiley & Sons: Hoboken, New Jersey, USA, 1973.
(26)ChemDraw 7.0.1 ed.; CambridgeSoft Corporation, Cambridge: Massachusetts, USA, 2007.
(27)Corina 3.4 edn.; Molecular Networks GmbH Computerchemie: Erlangen, Germany, 2006.
(28)Burges, C. J. Data Min. Knowl. Disc. 1998, 2, 121.
(29)Vapnik, V. N. The Nature of Statistical Learning Theory; Springer: Berlin & Heidelberg, Germany, 1995.
(30)Doucet, J. P.; Barbault, F.; Xia, H.; Panaye, A.; Fan, B. Curr. Comput-Aid. Drug. 2007, 3, 263. doi: 10.2174/157340907782799372
(31)Svetnik, V.; Liaw, A.; Tong, C.; Culberson, J. C.; Sheridan, R. P.; Feuston, B. P. J. Chem. Inf. Comput. Sci. 2003, 43, 1947. doi: 10.1021/ci034160g
(32)Breiman, L. Mach. Learn. 2001, 45, 5. doi: 10.1023/A: 1010933404324
(33)Khandelwal, A.; Krasowski, M. D.; Reschly, E. J.; Sinz, M. W.; Swaan, P. W.; Ekins, S. Chem. Res. Toxicol. 2008, 21, 1457. doi: 10.1021/tx800102e
(34)Breiman, L. Out-of-bag Estimation, 1996, http://citeseerx.ist.psu.edu.sci-hub.org/viewdoc/download? doi=10.1.1.45.3712&rep=rep1&type=pdf (accessed Mar 15, 2015).
(35)Breiman, L. Wald Lecture II, Looking inside the Black Box, 2005. http://www.stat.berkeley.edu/users/breiman (accessed Mar 15, 2015).
(36)Breiman, L.; Cutler, A. Random Forests, Version 5.1, 2004. http://www.stat.berkeley.edu/~breiman/RandomForests/ cc_home.htm (accessed Mar 15, 2015).
Predicting and Virtually Screening Breast Cancer Targeting Protein HEC1 Inhibitors by Molecular Descriptors and Machine Learning Methods
HE Bing1,2LUO Yong1LI Bing-Ke2XUE Ying1,3YU Luo-Ting1,*QIU Xiao-Long4,5YANG Teng-Kuei4
(1State Key Laboratory of Biotherapy and Cancer Center, West China Hospital, Sichuan University, and Collaborative Innovation Center for Biotherapy, Chengdu 610041, P. R. China;2College of Chemistry and Life Science, Chengdu Normal University, Chengdu 611130, P. R. China;3College of Chemistry, Sichuan University, Chengdu 610064, P. R. China;4Zhaobang Bio-Med. Institute Co., Ltd., Nantong 226000, Jiangsu Province, P. R. China;5Wisdom Pharmaceutical Co., Ltd., Haimen 226123, Jiangsu Province, P. R. China)
Highly expressed in cancer 1 (HEC1) is a conserved mitotic regulator that is critical for spindle checkpoint control, kinetochore functionality, and cell survival. Overexpression of HEC1 has been detected in a variety of human cancers, and it is linked to poor prognosis of primary breast cancers. Thus, it is important to screen novel inhibitors with high affinity for HEC1. Machine learning (ML) methods were exhibiting good predicting capability in several aspects of the diverse compounds, such as pharmacokinetics,pharmacodynamics, and toxicity. In this work, two ML methods, support vector machines (SVMs) and random forests (RFs), were used to develop a classification method for searching inhibitors and non-inhibitors of HEC1 from the chemical library of structural diversity by screening characteristics of molecular descriptors. Both ML methods achieved promising prediction accuracies, and the RF model showed better performance. We performed virtual screening of HEC1 inhibitors by the RF model from an in-house database to screen potential HEC1 inhibitors. Two novel potential candidates were found. In vitro experiments of the two compounds showed that both had a certain degree of antitumor activity for the MDA-MB-468 and MDA-MB-231 breast cancer cell lines. Our study shows that ML methods are promising to design and virtually screen inhibitors of HEC1.
HEC1; Selective inhibitor; Machine learning method; Support vector machine; Random forest; Virtual screening
O641
10.3866/PKU.WHXB201507301
Received: April 2, 2015; Revised: July 30, 2015; Published on Web: July 30, 2015.
*Corresponding author. Email: luodyu@163.com.
The project was supported by “the Category 1.1 New Drug SKLB1312 of Antitumor (Breast Cancer), which is the Cooperation Project between West China Hospital of Sichuan University and Jiangsu Zhaobang Biological and Medical Research Institute Co., Ltd.”.
四川大學(xué)華西醫(yī)院與江蘇兆邦生物醫(yī)藥研究院有限公司合作項目“抗腫瘤(乳腺癌)一類新藥SKLB1312”資助
? Editorial office of Acta Physico-Chimica Sinica