戴青青,余俊霖,李國菠
(四川大學(xué)華西藥學(xué)院藥物化學(xué)系,四川 成都 610041)
人工智能(artificial intelligence,AI)概念始于1956年,經(jīng)過半個世紀(jì)的曲折探索,于2011年進(jìn)入蓬勃發(fā)展時期,目前已成為一門新的技術(shù)科學(xué),推動人類進(jìn)入智能時代。深度學(xué)習(xí)(deep learning,DL),又稱為深度神經(jīng)網(wǎng)絡(luò),是AI領(lǐng)域中一個熱門研究方向,其通過對樣本數(shù)據(jù)進(jìn)行多層次的非線性信息處理和抽象,挖掘內(nèi)在規(guī)律,用于解決特征學(xué)習(xí)、分類和模式識別等問題。當(dāng)前主流的DL模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)等,以及這些模型的變體,如殘差卷積網(wǎng)絡(luò)模型(deep residual network, ResNet)、變分自編碼器(variational autoencoder,VAE)、對抗自編碼器(adversarial autoencoder, AAE)、生成對抗網(wǎng)絡(luò)模型(generative adversarial network,GAN)以及信息傳遞網(wǎng)絡(luò)模型(message passing neural network,MPNN)等,這些DL模型在圖像識別、語音識別、機器翻譯、人機對弈、無人駕駛等方面已取得了前所未有的成效,深刻地改變著人們的生產(chǎn)生活方式[1-2]。
同時,DL技術(shù)在醫(yī)學(xué)、藥學(xué)、生命科學(xué)等領(lǐng)域也逐漸嶄露頭角。例如,2018年Waller團(tuán)隊通過DL網(wǎng)絡(luò)對1 240萬個單步反應(yīng)進(jìn)行化學(xué)轉(zhuǎn)化規(guī)則提取,再利用3種不同的神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹搜索結(jié)合形成的新算法,實現(xiàn)了化合物合成路線的高效設(shè)計[3]。隨后, Jensen和Jamison團(tuán)隊又報道了一種集成合成路線設(shè)計和自動化合成的平臺,并完成了15個小分子藥物的自動化合成,進(jìn)一步推動了該領(lǐng)域的發(fā)展[4]。近期,Hassabis團(tuán)隊報道了新蛋白結(jié)構(gòu)預(yù)測工具AlphaFold2,通過將蛋白結(jié)構(gòu)的物理和生物知識整合到DL方法中,極大程度提高了蛋白結(jié)構(gòu)預(yù)測的準(zhǔn)確性[5];與此同時,Baker團(tuán)隊也報道了新蛋白結(jié)構(gòu)預(yù)測工具RoseTTAFold[6],其采用了注意力機制使整個DL能夠同時學(xué)習(xí)到蛋白一級/二級/三級結(jié)構(gòu)不同維度的信息,預(yù)測準(zhǔn)確率與AlphaFold2不相上下。此外,近幾年還發(fā)展了若干DL方法用于藥物-靶標(biāo)相互作用預(yù)測、藥物靶標(biāo)預(yù)測、藥物從頭設(shè)計、藥物性質(zhì)[主要包括吸收、分布、代謝、排泄、毒性(ADMET)]的預(yù)測,從而服務(wù)于創(chuàng)新藥物研發(fā)的多個重要環(huán)節(jié)。這些工具或?qū)⒏淖儎?chuàng)新藥物研發(fā)進(jìn)程,提升藥物研發(fā)效率。鑒于此,本文聚焦DL在創(chuàng)新藥物發(fā)現(xiàn)中的發(fā)展和應(yīng)用,綜述具有代表性的DL案例和研究思路,總結(jié)其應(yīng)用特點、面臨的問題及可能的解決策略,期望為DL在藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展提供借鑒和思考。
蛋白質(zhì)三維結(jié)構(gòu)是藥物靶標(biāo)功能研究與藥物設(shè)計的重要基礎(chǔ),如何快速高效獲得準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)是需要解決的科學(xué)問題。早期階段,研究人員基于統(tǒng)計的蛋白質(zhì)進(jìn)化信息,并采用傳統(tǒng)的機器學(xué)習(xí)方法(如蒙特卡羅方法、支持向量機等)和全連接神經(jīng)網(wǎng)絡(luò)(fully-connected neural network,F(xiàn)NN)模型實現(xiàn)蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測。例如,Bohr等[7]和Fariselli等[8]使用目標(biāo)蛋白一級序列、同源蛋白序列以及關(guān)聯(lián)突變等數(shù)據(jù)來訓(xùn)練FNN模型,實現(xiàn)對蛋白質(zhì)主鏈結(jié)構(gòu)的預(yù)測,但距離實現(xiàn)蛋白質(zhì)三維結(jié)構(gòu)精準(zhǔn)預(yù)測仍有較大差距。
隨著蛋白結(jié)構(gòu)數(shù)據(jù)的不斷增加和DL技術(shù)的迅猛發(fā)展,更復(fù)雜的深度網(wǎng)絡(luò)模型和更豐富的蛋白質(zhì)序列信息被應(yīng)用于預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),突破了從蛋白質(zhì)一級序列直接得到蛋白質(zhì)三維結(jié)構(gòu)的瓶頸,預(yù)測精度接近實驗解析水平?;贒L的蛋白結(jié)構(gòu)預(yù)測是研究人員一直在嘗試和努力的方向,大致流程是通過序列比對得到進(jìn)化相關(guān)的多序列比對(multiple sequence alignment,MSA)特征,聯(lián)合蛋白序列編碼作為輸入,利用深度網(wǎng)絡(luò)模型預(yù)測殘基間的接觸圖或更具體的距離分布,以及蛋白骨架的二面角分布,然后將預(yù)測的空間結(jié)構(gòu)信息作為約束條件,重構(gòu)出蛋白三維結(jié)構(gòu)(見圖1)。例如,Hassabis團(tuán)隊最新報道的蛋白結(jié)構(gòu)預(yù)測工具AlphaFold2,在最近的蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)評估(即The 14th Edition of Critical Assessment of Structure Prediction,CASP14)比賽中取得最佳預(yù)測名次,全局距離測試(global distance test,GDT)中位數(shù)得分達(dá)92.4,達(dá)到實驗解析水平。AlphaFold2是基于注意力機制的神經(jīng)網(wǎng)絡(luò)模型,由Evoformer網(wǎng)絡(luò)模塊和結(jié)構(gòu)生成模塊組成,通過給定的一級序列,結(jié)合學(xué)習(xí)蛋白結(jié)構(gòu)的物理和生物知識,端對端直接生成蛋白的三維結(jié)構(gòu)。Baek等[6]也基于注意力機制開發(fā)了一種新的端到端蛋白結(jié)構(gòu)預(yù)測工具RoseTTAFold。該工具是一種三軌網(wǎng)絡(luò)模型,分別用逐級連接的網(wǎng)絡(luò)來傳遞和處理來自蛋白一級、二級、三級結(jié)構(gòu)的信息,軌道之間的多次連接讓網(wǎng)絡(luò)能夠同時學(xué)習(xí)序列、殘基間距離和原子坐標(biāo)之間的關(guān)系。實驗結(jié)果表明,RoseTTAFold不僅預(yù)測精度接近AlphaFold2,為未知結(jié)構(gòu)蛋白生物學(xué)功能和機制提供一種解釋,而且還能直接根據(jù)序列信息快速構(gòu)建出準(zhǔn)確的蛋白-蛋白復(fù)合物結(jié)構(gòu)。在所需計算資源和計算時間方面,RoseTTAFold較AlphaFold2也顯示出一定的優(yōu)勢,除去序列比對和模版搜索所用時間,其僅需1個圖形處理器(graphic processing unit,GPU)就能在10 min之內(nèi)生成蛋白3D主鏈結(jié)構(gòu)。另外, Rahman等[9]在ResNet模型的基礎(chǔ)上進(jìn)行了改進(jìn),提出了一種用來預(yù)測蛋白質(zhì)殘基間距離的DL模型,相對比以上方法使用更少的蛋白特征,包括2種共同進(jìn)化特征和3種非進(jìn)化特征,實現(xiàn)對蛋白質(zhì)殘基間真實距離的高精度預(yù)測,與最先進(jìn)的同類方法相比,局部距離差測試平均分?jǐn)?shù)提高了10%以上,為蛋白質(zhì)結(jié)構(gòu)預(yù)測提供了一種新的參考。
圖1 基于深度學(xué)習(xí)的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測流程Figure 1 The general process of deep learning-based 3D protein structure prediction
此外,Yang等[10]首次提出利用GAN模型預(yù)測蛋白質(zhì)殘基-殘基接觸圖,并在基準(zhǔn)測試集上表現(xiàn)出不錯的預(yù)測效果。該模型被命名為GANcon,GANcon通過對抗性學(xué)習(xí)策略訓(xùn)練生成模型和判別模型,最終能夠生成接近真實數(shù)據(jù)分布的接觸圖。其中,生成模型采用編碼器-解碼器框架從多種蛋白質(zhì)序列特征中捕捉潛在的殘基間接觸信息,從而生成仿真的殘基接觸圖;判別模型則選用基于殘基塊的CNN,以生成的或真實的接觸圖——蛋白質(zhì)序列特征樣本作為輸入,識別生成的接觸圖與真實接觸圖之間的差異,驅(qū)動生成模型生成更準(zhǔn)確的接觸圖。他們還引入了一種新的對稱焦點損失函數(shù),用來解決接觸圖內(nèi)數(shù)據(jù)不平衡問題。但GANcon在訓(xùn)練過程中的不穩(wěn)定性以及輸入特征的選擇等方面仍有改進(jìn)空間。
藥物-靶標(biāo)相互作用(drug target interaction,DTI)是藥物發(fā)現(xiàn)的重要基礎(chǔ),準(zhǔn)確有效的DTI預(yù)測能極大地助力藥物研發(fā),加速先導(dǎo)或苗頭化合物發(fā)現(xiàn)。近幾年,基于DL預(yù)測DTI的方法陸續(xù)被報道,其一般工作流程如圖2所示,研究人員針對藥物和靶標(biāo)的結(jié)構(gòu)以及理化性質(zhì)構(gòu)建各具特色的描述符,并采用不同的DL網(wǎng)絡(luò)模型,學(xué)習(xí)DTI規(guī)律,最終預(yù)測出DTI的可能性或者相互作用強度。
圖2 基于深度學(xué)習(xí)的藥物靶標(biāo)相互作用預(yù)測一般流程Figure 2 The general process of deep learning-based drug-target interaction prediction
早期研究人員傾向于使用簡單直接的輸入數(shù)據(jù)和結(jié)構(gòu)單一的網(wǎng)絡(luò)框架。例如采用藥物結(jié)構(gòu)信息和靶標(biāo)的序列信息,通過基礎(chǔ)版本的RNN、CNN等模型學(xué)習(xí)相互作用特征[11-12],但預(yù)測結(jié)果并不理想。研究人員分析發(fā)現(xiàn)只是純粹地使用藥物-靶標(biāo)相關(guān)信息套用DL模型不能從根本上解決問題,需在DL和藥物發(fā)現(xiàn)的雙重理論指導(dǎo)下,根據(jù)藥物、靶標(biāo)的各種性質(zhì)合理構(gòu)建輸入描述符,同時搭建適應(yīng)藥物-靶標(biāo)體系的神經(jīng)網(wǎng)絡(luò)框架,才能有效提高模型的預(yù)測能力和結(jié)果可靠性。在此基礎(chǔ)上,發(fā)展出了一系列基于格點、基于圖結(jié)構(gòu)以及新算法的DL網(wǎng)絡(luò),并合理引入注意力機制等算法增強模型的可解釋性。
基于格點的特征構(gòu)建方法蘊含更加豐富的空間信息,比較適應(yīng)于DTI預(yù)測體系。由此方法構(gòu)建的特征可以視作一幅三維圖片,可配合使用三維CNN模型進(jìn)行訓(xùn)練、學(xué)習(xí),但存在參數(shù)量大、計算成本高等問題。Li等[13]借鑒ShuffleNet、Xception等輕量級三維CNN模型[14]并構(gòu)建了DeepAtom模型,用于預(yù)測藥物-靶標(biāo)親和力。除了具備三維CNN模型的各種優(yōu)勢,DeepAtom模型同時通過深度可分離卷積解決了三維CNN模型參數(shù)過多的問題,并利用多個小的卷積核代替單個大卷積核,達(dá)到減少參數(shù)的同時增加網(wǎng)絡(luò)復(fù)雜度的目的。該模型在PDBbind(2016版)核心測試集預(yù)測的皮爾森相關(guān)系數(shù)達(dá)0.831,表現(xiàn)出較強的預(yù)測能力。
Zheng等[15]對DTI預(yù)測有著不同理解,他們將DTI預(yù)測抽象成虛擬問答(visual question answering,VQA)問題,采用藥物SMILES和靶標(biāo)殘基距離矩陣作為輸入,并基于CNN與RNN模型構(gòu)建了DrugVQA模型,同時引入了注意力機制以增加模型的可理解性。經(jīng)過訓(xùn)練及超參數(shù)優(yōu)化,DrugVQA模型最終在數(shù)據(jù)庫DUD-E上表現(xiàn)出不凡的預(yù)測能力,受試者工作特征曲線下面積(area under the receiver operating characteristic curve,ROC-AUC)達(dá)到0.972。
GNN模型在此領(lǐng)域也備受關(guān)注,Cho等[16]采用了一種特殊的GNN模型,提出了InteractionNet框架,用于預(yù)測藥物-靶標(biāo)之間的結(jié)合常數(shù)。InteractionNet模型是一種非常規(guī)的GNN模型,在對藥物-靶標(biāo)體系建模時除了考慮共價鍵外,還考慮了非共價作用,最后基于PDBbind數(shù)據(jù)集采用20折交叉方法進(jìn)行驗證,其均方根誤差(root mean square error,RMSE)為1.321,優(yōu) 于PoteintialNet模型(RMSE為1.343)。
Zeng等[17]認(rèn)為通過拼接藥物和靶標(biāo)的特征向量來表征二者的相互作用,并不能準(zhǔn)確描述二者復(fù)雜作用體系,需要某種特殊的算法或網(wǎng)絡(luò)來解決。據(jù)此,他們提出了一種多注意力模塊MATT_DTI,首先通過相對自注意模塊提取藥物的化合物原子間聯(lián)系,用CNN模塊分別學(xué)習(xí)藥物和靶標(biāo)的隱含信息,最后通過多頭注意力模塊和全連接層提取相互作用信息并給出預(yù)測結(jié)果。該方法在KIBA和Davis數(shù)據(jù)集上表現(xiàn)良好,均比同類模型有更好的預(yù)測效果,如用KIBA數(shù)據(jù)集進(jìn)行測試,MATT_DTI模型平均標(biāo)準(zhǔn)誤差(mean squared error,MSE)在0.15左右,低于其他基準(zhǔn)模型的MSE指標(biāo)。Sajadi等[18]以藥物指紋矩陣和藥物-靶標(biāo)矩陣為輸入,構(gòu)建了一個無監(jiān)督去噪自編碼器(denoising autoencoder,DAE)模型,并將其命名為AutoDTI++。該方法在G蛋白偶聯(lián)受體(G protein-coupled receptor,GPCR)數(shù)據(jù)集上預(yù)測隨機藥物靶點對時,ROCAUC值達(dá)0.85,與類似算法的模型測試結(jié)果相比有明顯提升。
藥物靶標(biāo)預(yù)測可以幫助研究人員確定已知藥物或活性分子的潛在靶標(biāo),從而有助于實現(xiàn)老藥新用、藥物重定位、毒性預(yù)測等。上述DTI預(yù)測方法也可以用于藥物靶標(biāo)預(yù)測。除此之外,基于異質(zhì)網(wǎng)絡(luò)等DL方法也被用于藥物靶標(biāo)預(yù)測,其特點在于利用藥物-疾病信息、靶標(biāo)-靶標(biāo)信息、藥物-靶標(biāo)信息等多維度信息(見圖3)作為網(wǎng)絡(luò)輸入特征,將其進(jìn)一步轉(zhuǎn)化為一組DL模型可處理的特征矩陣,實現(xiàn)對藥物靶標(biāo)的預(yù)測。
圖3 基于機器學(xué)習(xí)——異質(zhì)網(wǎng)絡(luò)的藥物靶標(biāo)預(yù)測方法一般流程Figure 3 The general process of machine learning (heterogeneous network)-based target prediction
自編碼器(autoencoder,AE)及其變體,如DAE等在基于異質(zhì)網(wǎng)絡(luò)的靶標(biāo)預(yù)測方法中較為主流,研究人員通過收集藥物、靶標(biāo)相關(guān)的各種信息,構(gòu)建異質(zhì)網(wǎng)絡(luò),利用各種AE變體進(jìn)行學(xué)習(xí),最終分析和預(yù)測藥物的潛在靶標(biāo)。Zeng等[19]收集了藥物-疾病、藥物-不良反應(yīng)、藥物-靶標(biāo)、藥物-藥物相關(guān)信息,以此構(gòu)建異質(zhì)網(wǎng)絡(luò),從中提取藥物與靶標(biāo)之間的關(guān)系,使用隨機游走算法計算得到概率共生矩 陣(probabilistic co-occurrence matrix,PCO),再計算正點互信息矩陣(positive pointwise mutual information,PPMI)來表征異質(zhì)網(wǎng)絡(luò)整體結(jié)構(gòu),用于訓(xùn)練DL網(wǎng)絡(luò)模型,由此發(fā)展了deepDR模型。該模型在基準(zhǔn)模型上,deepDR預(yù)測效果更佳,ROCAUC達(dá)0.908。后來,他們又進(jìn)一步做出了改進(jìn)[20],設(shè)計了一個新的模型(deepDTnet),該模型在輸入和框架方面都進(jìn)行了優(yōu)化,豐富了異質(zhì)網(wǎng)絡(luò)所蘊含的信息,加入了更多靶標(biāo)相關(guān)信息,如靶標(biāo)-靶標(biāo)相似性、靶標(biāo)-疾病信息,同時保留PCO矩陣和PPMI矩陣的表征方式,采用多層DAE學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)的隱含信息。與deepDR相比,deepDTnet具有更強的預(yù)測能力,ROC-AUC達(dá)0.963。也有研究人員通過將AE和其他網(wǎng)絡(luò)模型結(jié)合,嘗試發(fā)展了新的網(wǎng)絡(luò)模型。如Peng等[21]提出了DTI-CNN模型,特點在于使用Jaccard相似性系數(shù)結(jié)合重啟隨機游走算法(random walk with restart,RWR)來提取藥物特征和靶標(biāo)特征,且經(jīng)過DAE層后添加了CNN模塊來預(yù)測最終結(jié)果,訓(xùn)練后ROC-AUC達(dá)0.9416,與deepDTnet效果相當(dāng)。
除了AE及其變體外,其他模型在藥物靶標(biāo)預(yù)測方面也展現(xiàn)出不俗的預(yù)測效果。Manoochehri等[22]利用更簡單的輸入(僅考慮藥物-藥物相似性和靶標(biāo)-靶標(biāo)相似性信息)和FNN模型進(jìn)行學(xué)習(xí)預(yù)測,但將更多的精力放在輸入數(shù)據(jù)的處理上,提出了獨特的特征提取和構(gòu)建方法。他們利用異質(zhì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)來預(yù)測藥物的未知靶標(biāo),通過藥物-藥物相似性和靶標(biāo)-靶標(biāo)相似性信息把藥物-靶標(biāo)異質(zhì)網(wǎng)絡(luò)抽象成半二部圖,并從中提取出多個封閉子圖,然后采用Weisfeiler-Lehman算法對每個子圖中的節(jié)點進(jìn)行排序標(biāo)記,以表征藥物-靶標(biāo)對的拓?fù)浣Y(jié)構(gòu)。最后使用這種特殊的輸入來訓(xùn)練FNN模型,同時進(jìn)行了10折交叉驗證。結(jié)果顯示,該方法比 BLMNII、CMF、HNM等同類模型預(yù)測能力更強。此外,GNN模型也被用來處理這些異質(zhì)網(wǎng)絡(luò),進(jìn)行藥物靶標(biāo)的預(yù)測。Huang等[23]提出了SkipGNN模型,并認(rèn)為異質(zhì)網(wǎng)絡(luò)中直接相連的2個節(jié)點并不一定有很強的相似性,反而是間接的或跳躍的節(jié)點間的相似性可能更加必要。根據(jù)這種思想,他們以藥物-藥物、靶標(biāo)-靶標(biāo)、藥物-靶標(biāo)、基因-疾病相關(guān)信息構(gòu)建了異質(zhì)網(wǎng)絡(luò),從中提取跳躍相似性信息并構(gòu)建跳躍相互作用圖,同時結(jié)合原始圖輸入至GNN模型中,最后經(jīng)由解碼器輸出藥物與靶標(biāo)相互作用概率。實驗結(jié)果表明SkipGNN模型優(yōu)于其他模型,如DeepWalk、圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network,GCN)和node2vec模型等。
藥物研發(fā)離不開合成路線設(shè)計,設(shè)計高效的合成路線可大幅度降低藥物研發(fā)成本、縮短生產(chǎn)周期、提高藥物研發(fā)效率。傳統(tǒng)的計算機輔助合成路線設(shè)計的方法主要是基于大量 “專家”規(guī)則和逆合成分析方法來規(guī)劃合成路線,但其存在設(shè)計速度較慢、設(shè)計的合成路線往往不太合理等問題[24]。隨著DL算法在化合物性質(zhì)預(yù)測和生物活性預(yù)測等領(lǐng)域中展現(xiàn)出巨大的潛力,其也逐漸被應(yīng)用于合成路線的設(shè)計并取得了一定的進(jìn)展。
Waller團(tuán)隊于2018年報道了一種AI工具3N-MCTS,通過使用3種不同的深度神經(jīng)網(wǎng)絡(luò)(分別是拓展策略網(wǎng)絡(luò)、篩選網(wǎng)絡(luò)和展示策略網(wǎng)絡(luò))和蒙特卡洛樹搜索算法來設(shè)計目標(biāo)化合物的合成路線[3]。他們首先利用拓展策略網(wǎng)絡(luò)對目標(biāo)分子進(jìn)行逆向化學(xué)轉(zhuǎn)換,搜索當(dāng)前節(jié)點可能的變換路徑,然后使用篩選網(wǎng)絡(luò)分析判斷反應(yīng)是否可行,過濾不合理的反應(yīng)路線,最后通過展示策略網(wǎng)絡(luò)多次隨機采樣對搜索節(jié)點進(jìn)行評價打分。研究人員利用來自Reaxys數(shù)據(jù)庫的1 240萬條反應(yīng)數(shù)據(jù)訓(xùn)練這些網(wǎng)絡(luò),學(xué)習(xí)化學(xué)轉(zhuǎn)化規(guī)則。與其他方法相比,3N-MCTS在合成路線的搜索速度、質(zhì)量等方面均有顯著提升,能在短時間內(nèi)生成數(shù)百個化合物的合成路線,且雙盲實驗結(jié)果表明3N-MCTS預(yù)測分子合成路線水平接近合成化學(xué)家水平。這種方法的優(yōu)勢體現(xiàn)在無需專家自定義規(guī)則,DL模型就可以學(xué)習(xí)到已知反應(yīng)所蘊含的轉(zhuǎn)化規(guī)則,然后根據(jù)學(xué)習(xí)到的規(guī)則快速選擇出最佳合成路線。
隨后,Coley等[4]推出了一個基于AI的自動化合成平臺,首先利用前饋神經(jīng)網(wǎng)絡(luò)生成目標(biāo)分子的合成路線,然后機器人根據(jù)合成方案執(zhí)行一系列具體的制備過程,實現(xiàn)自動化合成。研究人員使用Reaxys和USPTO數(shù)據(jù)庫中的反應(yīng)數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型,學(xué)習(xí)反應(yīng)轉(zhuǎn)換規(guī)則,為目標(biāo)化合物設(shè)計出可行的合成路線,包括給出反應(yīng)條件,同時根據(jù)合成路線中的反應(yīng)類型是否容易實現(xiàn)以及中間產(chǎn)物是否多樣化等條件進(jìn)一步篩選得到最優(yōu)合成路線。最后,他們通過該平臺成功完成了15種小分子藥物合成路線設(shè)計并實現(xiàn)了自動化合成。同時,基于DL的序列到序列(sequence-to-sequence,seq2seq)模型(如Transformer模型等)的發(fā)展給不依賴模版的逆合成預(yù)測任務(wù)提供了一種新的解決思路(見圖4):可將該任務(wù)看成自然語言處理(natural language processing,NLP)領(lǐng)域內(nèi)機器翻譯任務(wù),輸入目標(biāo)分子的SMILES序列,不依賴反應(yīng)規(guī)則,就能輸出對應(yīng)單步的反應(yīng)物SMILES序列。
圖4 基于序列到序列模型進(jìn)行合成路線預(yù)測Figure 4 Prediction of synthetic route based on the seq2seq model
Liu等[25]率先將seq2seq模型應(yīng)用到逆合成預(yù)測任務(wù)中,使用的seq2seq模型是基于RNN的編碼器-解碼器結(jié)構(gòu),并在包含5萬個專利反應(yīng)的數(shù)據(jù)集上訓(xùn)練,并初步達(dá)到了與基于規(guī)則的基準(zhǔn)方法效果相當(dāng)?shù)乃?。該方法在一定程度上突破了專家?guī)則的限制,并表現(xiàn)出良好可擴(kuò)展性的優(yōu)勢。隨后seq2seq模型經(jīng)過發(fā)展,得到了較為流行基于注意力機制的Transformer模型。Zheng等[26]開發(fā)了一種無模板的自校正逆合成路線預(yù)測工具SCROP,通過使用基于多頭注意力機制的Transformer網(wǎng)絡(luò)模型預(yù)測逆合成路線,同時引入了基于Transformer的語法校正器,對預(yù)測模型產(chǎn)生的不合理候選前體分子SMILES進(jìn)行修正。SCROP在基準(zhǔn)數(shù)據(jù)集上預(yù)測準(zhǔn)確率達(dá)59%,比基于模板的方法提高了6%;同時實驗結(jié)果表明語法校正器的加入提高了模型預(yù)測質(zhì)量,使無效的候選前體分子比例從12.1%降至0.7%。此外,Guo等[27]結(jié)合Transformer模型和貝葉斯推理算法進(jìn)行逆向合成預(yù)測。他們將該任務(wù)視為組合優(yōu)化問題,即在所有可用的反應(yīng)物組合中找到一組最佳的反應(yīng)物對,用來合成目標(biāo)產(chǎn)物。他們首先通過訓(xùn)練好的Molecular Transformer模型對給定反應(yīng)物組合進(jìn)行高精度正向預(yù)測,然后基于貝葉斯定理將正向預(yù)測模型反演為逆向合成模型,同時使用蒙特卡羅搜索算法探索得到最佳的反應(yīng)物組合。正向和逆向預(yù)測模型的組合提高了合成路線的可行性,同時改善了逆合成問題的不適定性。
這類序列模型一般利用分子的SMILES字符串作為輸入,未能有效刻畫出分子中各原子間復(fù)雜關(guān)系。為此,Shi等[28]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的無模版逆合成預(yù)測框架G2G(graph to graph framework),利用圖表征分子,將任務(wù)轉(zhuǎn)化為圖到圖的翻譯問題,即將目標(biāo)分子圖轉(zhuǎn)化為一組反應(yīng)物分子圖。研究人員首先基于GCN識別目標(biāo)分子的反應(yīng)中心,將目標(biāo)分子拆分為一組合成子。然后,通過圖VAE將每個合成子轉(zhuǎn)換為最終的反應(yīng)物子圖。實驗結(jié)果表明G2G在Top-1準(zhǔn)確率指標(biāo)上明顯優(yōu)于其他無模版的基準(zhǔn)模型(如seq2seq模型、transformer模型等),并與最先進(jìn)的基于模板的方法相比水平相當(dāng),如條件圖邏輯網(wǎng)絡(luò)(conditional graph logic network,GLN)模型。
近年來在從頭藥物分子設(shè)計領(lǐng)域,DL方法因部分解決了傳統(tǒng)方法的組合爆炸、多目標(biāo)優(yōu)化等問題而受到越來越多的關(guān)注。許多相關(guān)研究都證明了DL方法在從頭藥物分子設(shè)計的可行性,目前關(guān)于DL在這方面的應(yīng)用已經(jīng)被總結(jié)報道[29-31],在此筆者將對最新的研究進(jìn)展進(jìn)行進(jìn)一步介紹。Born等[32]構(gòu)建了一種混合的VAE模型,用來生成具有抗癌藥物特性的候選分子。值得注意的是,他們不僅使用分子SMILES作為輸入,還首次加入疾病相關(guān)的基因表達(dá)數(shù)據(jù),同時使用抗癌藥物敏感性預(yù)測模型作為獎勵函數(shù)?;旌系腣AE模型由2個并列的VAE組成,一個用于接收小分子SMILES以學(xué)習(xí)其語法規(guī)則,另一個VAE用于接收基因表達(dá)數(shù)據(jù)以學(xué)習(xí)其特征表示,然后將這2個VAE編碼器的輸出結(jié)果一并輸入到同一解碼器,生成新分子,最后用抗癌藥物敏感性預(yù)測模型預(yù)測生成分子對靶細(xì)胞的活性值。應(yīng)用在4種不同癌癥類型的實例表明,該模型能夠針對特定疾病生成具有較強抑制效果的分子,且生成的分子在結(jié)構(gòu)、可合成性以及溶解性等方面均與現(xiàn)有藥物相似。然而,VAE也存在一定局限,它只會最大限度地“模仿”訓(xùn)練數(shù)據(jù),盡可能生成與訓(xùn)練數(shù)據(jù)在結(jié)構(gòu)上相似的分子,因此生成分子的結(jié)構(gòu)新穎性較低。
AAE在VAE基礎(chǔ)上增加了判別模型,對采樣分子和真實樣本進(jìn)行區(qū)分,基于對抗的思想訓(xùn)練生成模型和判別模型,擴(kuò)展了分子的生成空間,一定程度上彌補了VAE在生成分子時結(jié)構(gòu)新穎性方面的缺陷。Polykovskiy等[33]構(gòu)建了一種新的AAE模型,即條件AAE,其能夠基于指定條件(如藥物分子的靶標(biāo)特異性、溶解性、可合成性等)生成相應(yīng)的分子。其中,基于長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)分別構(gòu)建編碼器和解碼器,同時使用多層的FNN作為判別模型,用來判斷采樣分子是否符合真實數(shù)據(jù)分布以及是否具備所需的理化性質(zhì),并基于半監(jiān)督學(xué)習(xí)方法優(yōu)化模型。他們利用該模型成功發(fā)現(xiàn)了一種新型的Janus激酶3(Janus kinase 3,JAK3)抑制劑。
Bagal等[34]受生成式預(yù)訓(xùn)練新型神經(jīng)網(wǎng)絡(luò)模型(generative pre-training transformer,GPT)Transformer在生成文本任務(wù)中取得突破性進(jìn)展的啟發(fā),基于GPT構(gòu)建了一個新的生成模型MolGPT,能夠根據(jù)給定條件(輸入SMILES字符串、脂水分配系數(shù)、可合成性分?jǐn)?shù)以及拓?fù)錁O性表面積等目標(biāo)屬性值)生成具有所需骨架和理想特性的分子。MolGPT由多個堆疊的解碼器模塊組成,每個解碼器包含一層掩碼自注意力層和多層全連接網(wǎng)絡(luò),能夠捕獲SMILES字符串中字符間遠(yuǎn)距離依賴關(guān)系。與VAE、AAE等其他DL模型相比,MolGPT在生成分子的有效性、獨特性以及新穎性方面表現(xiàn)較好,打分分別為0.981、0.998和1.0。
Goel等[35]結(jié)合RNN和強化學(xué)習(xí),提出了一個分子生成模型MoleGuLAR,其能夠?qū)Ψ肿拥念愃幮浴⒔Y(jié)合親和力等方面進(jìn)行多目標(biāo)優(yōu)化。尤其是,他們提出一種新的交替獎勵策略,獎勵函數(shù)隨著生成不同分子的過程中在動態(tài)地改變,使得模型能夠交替探索不同的化學(xué)區(qū)間,采樣得到更加合理的分子。區(qū)別于以往大多數(shù)DL模型只能生成一維或二維的分子,Li等[36]將DL與基于結(jié)構(gòu)的從頭藥物設(shè)計策略相結(jié)合,發(fā)展了一種新的從頭分子生成模型DeepLigBuilder,其能夠直接生成具有高結(jié)合親和力類藥分子的三維結(jié)構(gòu)。DeepLigBuilder首先利用一種圖生成模型即配體神經(jīng)網(wǎng)絡(luò)(ligand neural network,L-Net)實現(xiàn)生成類藥分子的三維結(jié)構(gòu),然后結(jié)合蒙特卡洛樹搜索方法將靶標(biāo)的結(jié)構(gòu)信息引入到模型中,在靶標(biāo)活性位點搜索、優(yōu)化分子的結(jié)合構(gòu)象,從而得到具有高結(jié)合親和力的新分子。通過將其應(yīng)用于嚴(yán)重急性呼吸綜合征冠狀病毒2 (severe acute respiratory syndrome coronavirus 2,SARSCoV-2)抑制劑的從頭設(shè)計,他們得到了3種新型具有高預(yù)測結(jié)合親和力且與已知抑制劑結(jié)構(gòu)類似的SARS-CoV-2潛在抑制劑,證明了DeepLigBuilder在從頭藥物設(shè)計以及先導(dǎo)物優(yōu)化方面的實用性。
為了解決DL在小規(guī)模訓(xùn)練數(shù)據(jù)集上表現(xiàn)較差等問題,Krishnan等[37]設(shè)計了一套基于RNN的生成模型和遷移學(xué)習(xí)的藥物從頭設(shè)計流程,生成的分子不僅具有所需類藥特性,同時還具有靶標(biāo)特異性。他們首先利用ChEMBL數(shù)據(jù)庫中的活性分子SMILES數(shù)據(jù)預(yù)先訓(xùn)練RNN生成模型,以學(xué)習(xí)SMILES語法規(guī)則;然后,通過對接得到具有靶標(biāo)選擇性的分子并進(jìn)行遷移學(xué)習(xí),生成作用于特定靶標(biāo)的分子;同時,再建立另一個基于RNN的預(yù)測模型,作為獎勵函數(shù)評價生成的分子與靶標(biāo)的結(jié)合親和力。另外,Moret等[38]將RNN生成模型與數(shù)據(jù)增強、溫度采樣和遷移學(xué)習(xí)這3種優(yōu)化方法結(jié)合起來,也能夠在具有少量數(shù)據(jù)情況下生成所需特性的新分子。
藥物的ADMET性質(zhì)研究對于藥物研發(fā)也是至關(guān)重要的。據(jù)統(tǒng)計,將近50%的候選藥物在臨床試驗階段因ADMET性質(zhì)不符要求而宣告失敗。因此,在早期藥物發(fā)現(xiàn)和藥物設(shè)計階段,研究人員應(yīng)提前對藥物分子的ADMET性質(zhì)進(jìn)行預(yù)測評估,以降低后續(xù)臨床試驗失敗的風(fēng)險。相較于耗時耗力的實驗方法,精確可靠的ADMET預(yù)測方法能極大地縮短時間花費、減少實驗成本,提高候選藥物的篩選效率,基于DL的ADMET預(yù)測方法則恰逢其會,并逐漸成為預(yù)測藥物ADMET性質(zhì)的重要手段。
近幾年來,利用DL方法來預(yù)測小分子性質(zhì)已經(jīng)較為普遍,其中基于GNN模型的方法受到了學(xué)界的廣泛認(rèn)可,預(yù)測結(jié)果相較其他DL方法更為可靠。2018年,Wu等[39]基于DeepChem平臺構(gòu)建了一個用于分子性質(zhì)預(yù)測的DL框架,稱為MoleculeNet。他們通過這個框架為同行提供了一個基準(zhǔn),可以用于比較各種不同模型的效果和可靠程度。該框架涵蓋了不同的數(shù)據(jù)集拆分方法,包括基于骨架、隨機拆分等;以及不同的特征構(gòu)建方法,處理為ECFP、圖結(jié)構(gòu)等;和不同的網(wǎng)絡(luò)模型,例 如GCN、MPNN、weave、隨 機 森 林(random forest,RF)、核嶺回歸(Kernel ridge regression,KRR)等;并針對各種ADMET性質(zhì)相關(guān)的數(shù)據(jù)庫(如QM8、Clintox、Lipophilicity、BBBP等)進(jìn)行訓(xùn)練和測試。通過一系列基準(zhǔn)測試,他們發(fā)現(xiàn)在應(yīng)用量子力學(xué)性質(zhì)、物理化學(xué)性質(zhì)、生理學(xué)性質(zhì)相關(guān)的數(shù)據(jù)集時,最佳的GNN模型比最佳的傳統(tǒng)模型更為有效,如應(yīng)用QM8數(shù)據(jù)集訓(xùn)練模型并預(yù)測小分子量子力學(xué)性質(zhì)時,以平均絕對誤差(mean absolute error,MAE)為評價指標(biāo),表現(xiàn)最佳的傳統(tǒng)模型是KRR模型,該模型MAE達(dá)0.015,而基于GNN的網(wǎng)絡(luò)模型中表現(xiàn)最佳的是MPNN模型,其測試結(jié)果MAE為0.014 3,誤差低于KRR模型測試結(jié)果。隨后研究人員從不同角度出發(fā),建立了一系列各具特色的GNN模型。 Feinberg等[40]構(gòu)建了一種新型GNN網(wǎng)絡(luò)模型PotentialNet,其核心思想是在更新原子狀態(tài)過程中考慮距離因素,比常用的鄰接矩陣更能描述藥物分子結(jié)構(gòu)。該方法相較于傳統(tǒng)的機器學(xué)習(xí)方法和一些常見的GNN模型性能更佳,仍以QM8數(shù)據(jù)集進(jìn)行測試,在基于此數(shù)據(jù)集預(yù)測小分子量子化學(xué)性質(zhì)任務(wù)中,MPNN在測試集上MAE達(dá)0.013 9,而PotenialNet則提升明顯,MAE在0.011 8左右。后續(xù)研究中,他們又進(jìn)一步在PotentailNet模型基礎(chǔ)上進(jìn)行了改進(jìn),設(shè)計出多任務(wù)PotentialNet模型,同時采用31項ADMET性質(zhì)進(jìn)行訓(xùn)練,最終同時預(yù)測這31項性質(zhì)[41],例如電壓門控鉀離子通道(human ether-à-go-go-related gene encoded potassium ion channel,hERG)抑制性、人肝細(xì)胞清除率、半衰期、脂溶性等,并與RF模型進(jìn)行了比較。對于絕大部分性質(zhì)而言,多任務(wù)PotentialNet模型預(yù)測的相關(guān)系數(shù)(R2)與RF模型相比都有不同程度的提高,例如以時序拆分方法拆分?jǐn)?shù)據(jù)集時,多任務(wù)PotentialNet模型較RF模型,在31項性質(zhì)預(yù)測中R2平均高出64%。
Yang等[42]則開發(fā)了一種有向信息傳遞網(wǎng)絡(luò)(directed message passing neural network,D-MPNN),與往常的GNN模型做法不同,在表征藥物分子結(jié)構(gòu)時,他們將原子間的鍵考慮為有方向的邊,而非常規(guī)的無向的邊,且通過邊的方向來對原子的狀態(tài)進(jìn)行更新,減少了無效冗余的原子狀態(tài)更新。預(yù)測結(jié)果表明,在所有數(shù)據(jù)集上D-MPNN都比RF模型、FNN模型等性能更好或者相當(dāng);例如,在血腦屏障透過能力預(yù)測方面,D-MPNN模型的ROC-AUC高達(dá)0.925,而RF模型和FNN模型分別僅為0.788和0.899。Li等[43]提出了基于多頭三聯(lián)注意力機制的MPNN模型TrimNet,通過給定的鄰接矩陣、邊特征矩陣、節(jié)點特征矩陣,分析周圍原子對當(dāng)前原子的影響,從而實現(xiàn)高效地從圖結(jié)構(gòu)表征的藥物分子結(jié)構(gòu)中學(xué)習(xí)潛在信息,并大幅度減少模型參數(shù)數(shù)量、降低計算成本,最終在多個數(shù)據(jù)集上取得良好的預(yù)測結(jié)果,如在ClinTox數(shù)據(jù)集上ROC-AUC高達(dá)0.948。
除了GNN相關(guān)模型,研究人員也嘗試了其他類型的DL模型,并獲得一定成果。Kim等[44]開發(fā)了首個基于自注意力機制具有可解釋性的DNN模型,用于預(yù)測藥物是否存在hERG毒性。盡管只是采用了較為簡單的ECFP描述符和FNN網(wǎng)絡(luò)模型,但在測試集上ROC-AUC依舊高達(dá)0.893,較傳統(tǒng)的定量構(gòu)效關(guān)系(quantitative structure-activity relationship,QSAR)模型,有明顯的改善。Wang等[45]基于概念新穎的膠囊網(wǎng)絡(luò)模型(capsule neural network,CapsNet),并結(jié)合CNN、受限波爾茲曼機(restricted boltzmann machine,RBM)等網(wǎng)絡(luò)模型構(gòu)建了一系列衍生網(wǎng)絡(luò),用于預(yù)測藥物hERG毒性,訓(xùn)練得到的最佳模型ROC-AUC達(dá)0.944。也有研究團(tuán)隊通過DL模型直接學(xué)習(xí)實驗數(shù)據(jù)并預(yù)測給藥后患者體內(nèi)藥物的藥效學(xué)(pharmacodynamics,PD)/藥動學(xué)(pharamcokinetics,PK)性質(zhì)變化曲線。例如,最近Lu等[46]基于RNN模型和神經(jīng)常微分方程(Neural-ODE)提出了Neural-PK/PD模型,其創(chuàng)新之處在于設(shè)計網(wǎng)絡(luò)框架時,保留了PK/PD的一些基本原理,如藥物的體內(nèi)效應(yīng)與給藥劑量、體內(nèi)濃度直接相關(guān)等,從而提升了PK/PD性質(zhì)的預(yù)測準(zhǔn)確度。
DL技術(shù)在藥物發(fā)現(xiàn)多個環(huán)節(jié)中取得了驚人的預(yù)測能力,正在改變著藥物研發(fā)進(jìn)程,將有可能降低藥物發(fā)現(xiàn)成本、提高藥物研發(fā)效率。然而,現(xiàn)有DL技術(shù)仍面臨著諸多挑戰(zhàn)。首先,大多數(shù)DL技術(shù)嚴(yán)重依賴大量的計算資源,一定程度上限制了DL方法的發(fā)展及應(yīng)用。如何在保持模型預(yù)測準(zhǔn)確率的前提下,降低DL模型對計算資源的依賴已成為DL領(lǐng)域的一個研究熱點[47]。其中一個主流思路是通過修剪DL模型或者改善DL模型結(jié)構(gòu)以減少網(wǎng)絡(luò)參數(shù)數(shù)量和運算量,從而降低對計算資源的需求。目前已有一些新型的輕量級DL模型被開發(fā)和應(yīng)用[14],如SqueezeNet、ThiNet、ShuffleNet。其次,數(shù)據(jù)樣本量、來源、質(zhì)量等參差不齊,也限制了DL技術(shù)建立和優(yōu)化。DL模型的訓(xùn)練依賴于大規(guī)模且高質(zhì)量的數(shù)據(jù)樣本。如何有效進(jìn)行小樣本學(xué)習(xí)是未來DL重要的發(fā)展方向[48],目前已有一些針對小樣本學(xué)習(xí)的方法,如采用數(shù)據(jù)增強技術(shù)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)策略等。同時,數(shù)據(jù)集的質(zhì)量也決定著DL模型預(yù)測性能的好壞。藥物研發(fā)相關(guān)原始數(shù)據(jù)的提取、特征構(gòu)建等方法尚存在不足,影響著高質(zhì)量DL模型的發(fā)展。近年來,圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,蘊含更多結(jié)構(gòu)信息的圖被逐漸用來表征分子并應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域,已取得一些研究進(jìn)展。此外,DL模型中超參數(shù)搜索、內(nèi)部機制的不可解釋性等,也一定程度上阻礙了該技術(shù)的發(fā)展??偠灾?,以上DL技術(shù)面臨的種種不足和挑戰(zhàn)都在提示我們,需要更多不同背景的研究人員加入到這一領(lǐng)域,來提出更多精湛的DL算法,并且要充分結(jié)合傳統(tǒng)的藥物設(shè)計方法,才能逐步解決藥物研發(fā)過程中各個環(huán)節(jié)的具體問題,從而能助力創(chuàng)新藥物發(fā)現(xiàn),進(jìn)一步推動藥物研發(fā)領(lǐng)域邁向智能時代。