謝良旭 薛亮亮 李峰
摘? ? 要:pKa(解離常數)關系到藥物分子在生物體內的吸收、代謝等過程。近年來,基于機器學習模型預測藥物分子性質在藥物篩選中獲得廣泛應用,神經網絡可通過在深度與寬度兩個方向上的擴展來增強模型的學習能力。以神經網絡在藥物分子pKa預測中的應用為例,比較了神經網絡的深度與寬度對預測結果的影響。通過分析預測結果的均方差以及預測值與真實值之間的相關系數,系統(tǒng)地評估了模型的深度與寬度對預測性能的影響。基于定量的比較結果,提出了組合的神經網絡模型計算方案。計算結果表明:深度神經網絡模型在使用組合MACCS和ECFP指紋時,預測準確性超過了單一的寬度或深度神經網絡。
關鍵詞:人工智能;神經網絡;深度學習;定量構效關系;藥物發(fā)現;pKa
中圖分類號:TP183? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? 文章編號:2095-7394(2021)02-0001-08
pKa(解離常數)反映了藥物分子重要的物理化學性質,是衡量藥物分子在生物體內吸收、分布、代謝、毒性等藥物代謝的重要指標。如何準確評估藥物分子的pKa是藥物設計領域需要解決的關鍵問題之一。生物體內的細胞都在穩(wěn)定的pKa范圍內活動,通過蛋白、磷酸鹽、碳酸鹽等提供適合的緩沖體系;因此,藥物分子的pKa需要適用于所處的細胞環(huán)境。通過精準分析藥物分子在不同環(huán)境中的pKa,可提前摒除不適合成藥的分子,縮小藥物篩選的范圍。然而,通過實驗測定分子的pKa費時費力,尤其是藥物分子在體內環(huán)境中的pKa數值難以測定,而在理論計算方面,也尚未有成熟的開源計算軟件[1];因此,亟需在研發(fā)過程中準確預測藥物的pKa,從而有效降低藥物研發(fā)的風險,控制藥物研發(fā)成本。
pKa與藥物分子結構相關,基于分子結構預測藥物分子性質,是近幾十年來生物信息學領域研究的熱點。比如,早期的定量構效關系(Quantitative structure-activity relationship, QSAR)方法[2],使用數學模型建立分子的結構與物理化學性質以及生物活性之間的關系。QSAR是人類在藥物發(fā)現領域使用最早的合理的藥物設計方法,它不僅提供了一種預測藥物分子性質的方法,而且為后續(xù)研究提供了重要的基本假設:藥物分子的結構決定了該分子的物理、化學和生物等方面的信息,這些理化性質又決定了該分子在生物體內的生物活性[3]。從早期的回歸分析、遺傳算法,到現在熱門的機器學習、深度學習等,基于分子結構預測其物理化學性質的假設,在藥物設計等領域獲得廣泛采用[4-5]。近年來,人工智能方法成為藥物設計領域中的熱門技術,特別是深度學習方法興起[6]。通過對數據集的訓練,深度學習方法顯著提高了預測結果的準確性和可靠性。人工智能方法提升了對分子溶解度、logD等物理性質的預測準確性[7-8];然而,對于藥物分子pKa的計算,目前尚缺少系統(tǒng)的研究。
采用人工智能技術預測藥物分子性質所面臨的關鍵問題在于:如何將藥物分子的分子結構轉變?yōu)闄C器學習和深度學習可以直接識讀和處理的文件格式?CHUANG K V[9]等人強調,有效的表征分子將直接影響到機器學習算法的準確性。而如何將藥物分子的結構轉變?yōu)閿底中问?,是連接藥物化學與機器學習之間的橋梁。在化學信息學和生物信息學研究領域,一般采用分子描述符將分子結構編碼為有用的化學信息。目前,應用較廣泛的分子描述符是MACCS密鑰[10]與拓展聯(lián)通指紋ECFP[11]。MACCS密鑰通過檢索分子中是否存在字典中規(guī)定的子結構,將整個分子轉變?yōu)槎M制的化學信息。ECFP通過對每個原子周圍的鍵連關系,搜索指定半徑內的亞分子結構,并對所得到的亞分子分配一個數字符,以獲得相同的編碼序列,然后將數字符進行哈希化處理,從而得到一串特定長度的編碼數字序列。ECFP密鑰具有獨一性,每個分子可編碼為獨特的數字串,因此也被稱為ECFP指紋。MACCS密鑰與ECFP指紋在之前的藥物定量構效關系和機器學習中獲得了廣泛的應用,如用于藥物分子相似性尋找、藥物構效關系預測[12]以及對蛋白結合口袋的編碼等[13]。
伴隨著新的計算方法,深度神經網絡在處理非線性的大數據挖掘問題中嶄露頭角[14-15]。深度神經網絡具有廣泛的應用性,尤其是隨著計算機軟硬件性能的提升,神經網絡進入了高速發(fā)展的時期[16],目前所能處理的深度和寬度也得到了極大提升。當前研究的熱點問題主要是神經網絡在不同深度和寬度上的表現。一般而言,深度神經網絡比淺層神經網絡表現出更好的學習能力。圖靈獎得主Yann LeCun提出,深度學習模型不能被簡單的淺層模型所取代[17];而網絡的深度對深度學習模型的性能起到了關鍵的作用。相比于深度神經網絡,寬度神經網絡由于沒有多層連接,因此在網絡層與層之間沒有耦合,從而大大提高了網絡計算速度[18]。增加神經網絡的深度與寬度都能增加可學習參數的個數,進而可以增強神經網絡對研究問題的擬合能力。然而,針對一些具體的問題,如:深度與寬度如何影響學習能力?如何選擇合適的神經網絡的深度與寬度?如何平衡網絡深度與寬度的數目?目前仍未有系統(tǒng)性的評價。
本文以神經網絡預測藥物分子的pKa為例,通過對藥物分子進行編碼,系統(tǒng)比較神經網絡的寬度與深度對預測結果準確性的影響,從而為神經網絡對藥物分子其他性質的預測提供指導。
1? ? 材料和方法
1.1? 數據集整理
選取藥物分子數據庫DrugBank進行數據整理。DrugBank數據庫是對藥物數據收集比較全面的數據庫,目前收集了11 895種可能的藥物分子[19]。利用腳本語言從數據庫中抽取藥物分子的結構和每個分子所對應的pKa數值,構建一個包含藥物分子pKa的本地數據庫。通過數據整理清洗發(fā)現:有8 656個藥物分子包含pKa數值。為實現對神經網絡的訓練與驗證,將輸入數據按照8:2的比例分為訓練集和測試集。將訓練集中的數據用于超參數的優(yōu)化過程,并在優(yōu)化過程中隨機選取20%的數據作為驗證集;測試集中的分子是神經網絡訓練過程中未見過的分子,用于表征所訓練的神經網絡的泛化性能。
1.2? 分子描述符
藥物分子可以通過不同的化學式表示:分子式表示該化合物所包含的元素種類與含量;結構式表示該化合物的結構以及不同原子間的鍵連關系。MACCS密鑰由166個描述符組成,每個描述符采用0或1來表示分子中是否包含相應的原子種類、成鍵信息、原子周圍的環(huán)境等。ECFP因為包含了分子內的亞分子結構及聯(lián)接關系,因此,在藥物設計中發(fā)揮了獨特的作用。本研究選取MACCS密鑰與ECFP指紋對藥物分子進行編碼,并應用于藥物分子的pKa預測中。采用RDKit軟件將所選取的分子結構進行編碼,對ECFP的指紋編碼通過DeepChem軟件實現,ECFP編碼過程中的分子半徑設置為2,哈希化為1 024個鍵值。如圖1所示,以SIRT1的抑制劑分子為例,將藥物分子結構轉變?yōu)樯窠浘W絡易于處理的分子描述符。1.3? 所研究的神經網絡架構
針對本次研究的數據預測和回歸問題,通過神經網絡預測藥物分子的pKa。神經網絡包含輸入層、隱藏層和輸出層,深度神經網絡和寬度神經網絡的架構如圖2。輸入層神經元的數目與輸入數據的維度一致。寬度神經網絡隱藏層的神經元數目分別為8、16、32、64、128、256、512、1 024、2 048和4 096。深度神經網絡隱藏層的層數設置為1、2、4、8、16,神經元數目設置為32、64、128、256、512。神經網絡的其他參數通過GridSearchCV超參數優(yōu)化步驟獲得,激活函數選擇“relu”,優(yōu)化器函數選擇為“Adam”。在輸出層之前使用dropout降低過擬合,根據參數優(yōu)化結果將dropout的比例設置為0.5。
2? ? 結果
2.1? 寬度神經網絡與神經元數目的關系
增加神經網絡的深度與寬度都能增加模型的學習能力,那么,是否模型越寬、越深,其學習能力就越強呢?以預測藥物分子的pKa為例,通過計算模型在不同寬度與深度情況下的擬合結果,能夠分析模型的寬度與深度對結果的影響。
在使用MACCS密鑰與ECFP指紋兩種情況下,測試寬度神經網絡的性能。如圖3所示,為預測值與數據庫中真實值的散點圖。神經網絡在測試集上的表現可通過計算神經網絡預測值與數據庫中真實值之間的Pearson相關系數定量比較,Pearson系數衡量了預測值與真實值之間的線性相關性。圖4展示了使用不同的神經元數目時所計算的Pearson系數。可以發(fā)現:當增加寬度神經網絡的神經元數目時,預測的結果逐漸達到平臺值;當神經元的數目為2 048時,使用MACCS密鑰與ECFP指紋所能達到的最佳擬合結果分別為0.864與0.816,即MACCS密鑰能得到更好的擬合結果。MACCS密鑰更容易達到模型學習能力的平臺,當隱藏層神經元的數目為256時即達到了相對較好的預測結果;而在使用ECFP指紋時,需要隱藏層的神經元數目為2 048。MACCS密鑰使用了166個鍵值;而ECFP使用了1 024個鍵值。由此可見,所需要的神經網絡的寬度與輸入的數據維度相關。為使寬度神經網絡達到較好的預測能力,所使用的神經元數目要高于輸入數據的維度。
2.2? 深度神經網絡與網絡層數的關系
從以上對不同寬度神經網絡的評測中發(fā)現,預測結果與所使用的神經元數目相關,當神經元數目少于32個時,預測結果的誤差范圍較廣,預測結果的穩(wěn)定性難以達到計算要求;因此,在衡量神經網絡的層數對結果的影響時,分別選取神經元的數目為32、64、128、256和512。神經網絡層數與預測能力的關系如圖5所示。寬度神經網絡和深度神經網絡所使用的神經元的數目都不能低于32,否則會引起較大的預測誤差。不同于寬度神經網絡,深度神經網絡的學習能力隨著所使用的隱藏層的數目先升后降,在網絡層數為4時,Pearson系數達到預測結果的峰值。在使用MACCS密鑰與ECFP指紋時,最佳的預測結果為0.861和0.837。通常,加深網絡的層數更容易帶來優(yōu)化問題,但由于深度網絡中存在梯度不穩(wěn)定的問題,因此,當使用的層數超過4時,預測結果反而出現了下降??梢?,在進行特定任務的學習時,需要將網絡使用的層數作為一個超參數進行優(yōu)化。
2.3? 神經網絡寬度與深度對預測準確性影響的對比
進一步比較寬度與深度神經網絡在訓練過程的損失與預測結果的準確性。為更合理地比較預測結果,選取神經元數目為2 048時的寬度神經網絡,與層數為4、神經元數目為512時的深度神經網絡進行比較。兩種網絡使用了相同的神經元數目,不同神經網絡中的損失函數結果如圖6所示。
從損失函數上可以得出兩個結論:(1)ECFP指紋比MACCS密鑰容易帶來過擬合的問題,ECFP指紋雖然在訓練集上表現較好,但是在驗證集上出現了較高誤差。在預測藥物分子pKa方面,MACCS密鑰比ECFP指紋表現出更好的適用性。(2)深度神經網絡在損失上的性能優(yōu)于寬度神經網絡,在訓練集和驗證集上的損失數值均低于寬度神經網絡。
為比較預測結果的準確性,進一步計算預測結果與真實值之間的相對誤差RMSE以及誤差的統(tǒng)計分區(qū),如表1。RMSE在0~0.5范圍內的分類為“可接受區(qū)”(acceptable),在0.5~1.0范圍內的分類為“可商榷區(qū)”(disputable),在大于1.0的分類為“不可接受區(qū)”(unacceptable)。分析RMSE和分類統(tǒng)計結果發(fā)現:深度神經網絡在“可接受區(qū)”表現最佳,比例超過34%,說明深度神經網絡比寬度神經網絡獲得了更好的準確性;雖然使用了相同的神經元數目,但是深度神經網絡的表達能力遠高于寬度神經網絡;在使用2 048個神經元時,寬度神經網絡的可組合形式為2 048個,而4層的深度神經網絡的可組合形式為5124。因此,在預測藥物分子pKa的實驗中,深度神經網絡的學習能力高于寬度神經網絡,尤其是MACCS密鑰在使用深度神經網絡時獲得最小的RMSE。
由此可見,網絡的寬度和深度需要根據所研究的問題進行初步的訓練與優(yōu)化,神經元的數目或者所使用的網絡層數與輸入數據的尺度、所學習任務的復雜性相關。當使用的神經元寬度或者深度超過問題所需要的參數數目時,只會在訓練中引入更多的噪聲。
2.4? 組合神經網絡對預測性能的影響
通過增加單層神經網絡的寬度或者網絡的層數,可以獲得更好的學習能力,從而提升神經網絡的擬合能力;然而,擴大神經網絡的規(guī)模會帶來訓練的問題,比如寬度神經網絡出現了飽和,深度神經網絡在網絡層數較多時梯度不穩(wěn)定。顯然,不同模型各具優(yōu)勢,那么,能否使用組合的網絡預測結果來提高模型的預測能力呢?借鑒集成學習的方法,可通過組合輸入指紋或者組合網絡模型的方式,獲得多個差異化模型,并將不同模型的結果進行平均,從而完成對模型的組合計算。為此,本研究分別訓練了MACCS與ECPF的組合指紋、深度與寬度的組合神經網絡模型,通過模型融合策略中的平均法,分別計算4種組合情況下的Pearson系數。
計算結果如圖7所示:4種組合所得到的Pearson系數均超過了相對應的單一神經網絡模型的方法;MACCS密鑰和ECFP指紋在使用4層神經網絡、每層512個神經元網絡架構時的預測結果優(yōu)于其他3種組合方式;兩種不同的指紋輸入方式所訓練出的網絡模型能較好地改善泛化誤差,尤其是MACCS密鑰與ECFP指紋在深度神經網絡組合的情況下,Pearson系數為0.88,達到了最佳的計算結果??梢?,在使用相同的神經元數目時,兩種模型的組合獲得了比單獨使用寬度或深度神經網絡更好的預測能力。
組合模型方法因其具有高度的靈活性和較強的適用性,近年來得到了廣泛的應用。研究結果表明:組合模型方法可以抵消不同網絡模型的方差,有利于提高模型的預測準確性,并且,組合模型的計算結果超過了任意單一的模型。Gao Y等人[20]在近期的綜述中,進一步分析了組合模型方法的應用領域以及存在的機遇與挑戰(zhàn),為組合模型在生物信息領域的發(fā)展指明了方向。在今后的研究中,將進一步深入地組合神經網絡模型以實現模型的互補,消除計算結果的偏差,從而獲得更好的預測結果。
3? ? 結語
本研究探討了神經網絡不同的寬度和深度對預測藥物分子pKa的影響。通過系統(tǒng)地計算比較,發(fā)現在一定范圍內增加神經網絡的寬度或者網絡的層數可以獲得更好的學習能力;在使用相同神經元數目時,深度神經網絡可以獲得更高的準確性。然而,寬度神經網絡模型會隨著寬度增加而出現飽和,深度神經網絡存在最適網絡層數問題;因此,為進一步提升預測結果,提出了一種通過平均法組合使用MACCS密鑰與ECFP指紋的深度神經網絡計算方法,使得預測的Pearson系數達到0.88,超過了單一神經網絡、單一分子描述符的預測能力。本研究提出的神經網絡的寬度、深度以及組合策略,也為將來進一步應用神經網絡預測藥物的其他性質提供了有益的嘗試。
參考文獻:
[1] MANSOURI K, CARIELLO N F, KOROTCOV A,et al. Open-source QSAR models for pKa prediction using multiple machine learning approaches[J]. Journal of Cheminformatics,2019,11(1):60.
[2] DANISHUDDIN, KHAN A U. Descriptors and their selection methods in QSAR analysis: paradigm for drug design [J].? Drug Discov Today,2016,21(8):1291-1302.
[3] CHERKASOV A, MURATOV E N, FOURCHES D, et al. QSAR modeling: where have you been? where are you going to?[J]. Journal of Medicinal Chemistry,2014,57(12):4977-5010.
[4] WENZEL J, MATTER H, SCHMIDT F. Predictive multitask deep neural network models for ADME-Tox properties: Learning from large data sets[J]. Journal of Chemical Information and Modeling,2019,59(3):1253-1268.
[5] MIYAO T,KANEKO H,FUNATSU K. Inverse QSPR/? ? ? ? ?QSAR analysis for chemical structure generation (from Y to X)[J]. Journal of Chemical Information and Modeling,2016,56(2):286.
[6] JING Y, BIAN Y, HU Z, et al. Deep learning for drug design: an artificial intelligence paradigm for drug discovery in the big data era[J]. AAPS Journal,2018,20(3):58.
[7] WU Z, RAMSUNDAR B, FEINBERG EVAN N,et al. MoleculeNet: a benchmark for molecul AR machine learning [J]. Chemical Science,2018,9(2):513-530.
[8] FU L,LIU L,YANG Z J,et al. Systematic modeling of log D(7.4) based on ensemble machine learning, group contribution, and matched molecular pair analysis[J]. Journal of Chemical Information and Modeling,2020,60(1):63-76.
[9] CHUANG K V, GUNSALUS L M, KEISER M J. Learning molecular representations for medicinal chemistry[J]. Journal of Medicinal Chemistry,2020.DOI:10.1021/acs.jmedchem.0c00385.
[10] DUAN J, DIXON S L, LOWRIE J F,et al. Analysis and comparison of 2D fingerprints: insights into database screening performance using eight fingerprint methods[J]. Journal of Molecular Graphics & Modelling,2010,29(2):157-170.
[11] ROGERS D,HAHN M. Extended-connectivity fingerprints[J]. Journal of Chemical Information and Modeling,2010,50(5):742-754.
[12] PRASAD S, BROOKS B R. A deep learning approach for the blind LogP prediction in SAMPL6 challenge[J]. Journal ofComputer-aided Molecular Design,2020,34(5):535-542.
[13] LI L,KOH C C,REKER D,et al. Predicting protein-ligand interactions based on bow-pharmacological space and Bayesian additive regression trees[J]. Scientific Reports ,2019,9(1):7703.
[14] XU Y,YAO H,LIN K. An overview of neural networks for drug discovery and the inputs used[J]. Expert Opin Drug Discovery,2018,13:1091.
[15] 孫志遠,魯成祥,史忠植,等. 深度學習研究與進展[J]. 計算機科學,2016,43(2): 1-8.
[16] CHEN H, ENGKVIST O,WANG Y,et al. The rise of deep learning in drug discovery[J]. Drug Discovery Today,2018,23(6):1241-1250.
[17] BENGIO Y,LECUN Y. Scaling learning algorithms towards AI[C]// Large-Scale Kernel Machines,2007.
[18] CHEN C L P, LIU Z. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018,29(1):10-24.
[19] WISHART D S, FEUNANG Y D, GUO A C,et al. DrugBank 5.0: a major update to the DrugBank database for 2018[J]. Nucleic Acids Research,2018,46(D1):1074-1082.
[20] CAO Y,GEDDES T A,YANG J Y H,et al. Ensemble deep learning in bioinformatics[J]. Nature Machine Intelligence,2020,2(9): 500-508.
責任編輯? ? 盛? ? 艷