国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合圖Transformer和Vina-GPU+的多模態(tài)虛擬篩選新方法

2025-01-22 00:00:00張豪張堃然阮曉東沐勇吳建盛
南京大學學報(自然科學版) 2025年1期
關(guān)鍵詞:微調(diào)靶標學習策略

關(guān)鍵詞:虛擬篩選,Graph Transformer,Vina?GPU+,多模態(tài),知識蒸餾,主動學習

中圖分類號:Q811. 4 文獻標志碼:A

現(xiàn)代藥物發(fā)現(xiàn)面臨從大型化合物庫中進行大規(guī)模篩選的挑戰(zhàn)[1],提高篩選的速度與精度已是迫切的需求[2]. 隨著化合物庫規(guī)模的不斷擴大,傳統(tǒng)的篩選方法耗時費力,因此,虛擬篩選成為加快藥物研發(fā)的常用手段[3]. 虛擬篩選利用計算機模擬分子間的相互作用,能夠快速識別潛在的活性化合物,所以顯著提升了篩選效率. 另外,在提升虛擬篩選速度的同時,保證其篩選的準確率也至關(guān)重要,這直接關(guān)系到發(fā)現(xiàn)潛在藥物候選物的成功率[4].

分子對接是虛擬篩選的一種重要方法,其利用計算機來模擬分子之間的相互作用,揭示靶點與化合物之間的結(jié)合模式[5]. 研究人員通常利用分子對接軟件對小分子化合物與藥物靶標進行分子對接,再進行活性化合物篩選. 分子對接可快速從幾十至上百萬分子中選出可能成藥的活性化合物,大大降低了實際篩選化合物的數(shù)目,縮短了研究周期,降低了藥物研發(fā)的成本. AutoDock Vi?na 是分子對接的首選工具之一,以速度和準確性聞名[6]. 在CASF ? 2016基準測試中,AutoDockVina 展示了最佳的對接性能和在蛋白質(zhì)?配體復合物測試集上最佳的評分能力[7-8]. 由于Auto ?Dock Vina 整體上是串行設計的,以前的加速方法主要依賴計算資源的疊加. GPU (GraphicsProcessing Unit)以其易用性和成本效益已被廣泛應用于加速計算,我們開發(fā)的Vina?GPU[9]和Vina?GPU+[10]利用GPU顯著提高了AutoDock Vina 的效率,分別實現(xiàn)了最高50倍和65. 6倍的加速,對于在個人電腦、工作站服務器或云計算等上廣泛實現(xiàn)大規(guī)模虛擬篩選至關(guān)重要.

結(jié)合親和力預測是虛擬篩選中的另一種重要方法. 機器學習包含的多種模型可以解決分類、回歸和聚類的問題,結(jié)合親和力預測并通過機器學習模型來估算受體和配體間的結(jié)合強度[11],這種信息的有機結(jié)合可以更加全面地考慮分子之間的結(jié)構(gòu)和性質(zhì),提升虛擬篩選的精度. 例如,2021年Yang et al[12]提出一種基于主動學習的機器學習增強型分子對接協(xié)議,能識別得分最高的化合物并探索大范圍的化學空間,和純貪婪的方法相比,展現(xiàn)了更優(yōu)異的虛擬篩選性能. 2022 年Gen?tile et al[4]提出一種深度對接平臺,通過對化學庫的一個子集的對接來迭代同步預測其余的配體,可實現(xiàn)最多100倍的篩選加速. 2023年Sivula etal[13]提出一種機器學習增強的分子對接方法,實現(xiàn)了在超大規(guī)模枚舉化學庫上的快速虛擬篩選. 2023 年Yu et al[14]提出一種深度學習新方法GEM?Screen,利用與特定靶點對接化合物的幾何增強分子表示,通過主動學習策略,對庫的一小部分進行對接評分訓練,可以增強基于分子對接的大規(guī)模虛擬篩選的性能. 2024 年P(guān)opov et al[15]提出一種基于生成模型增強的分子對接方法HID?DEN GEM,整合了機器學習、生成化學和大規(guī)模化學相似性搜索,加速了虛擬篩選過程.

隨著深度學習技術(shù)的快速發(fā)展,深度學習在醫(yī)學領域的應用越來越廣泛,大規(guī)模預訓練模型在自然語言處理和計算機視覺領域取得了巨大成功[16]. 例如,OpenAI 推出的ChatGPT 和Sora 等模型,依托于海量數(shù)據(jù)的預訓練,構(gòu)建了強大的語言理解和圖像識別能力,在多項任務上超越了傳統(tǒng)方法. 這一技術(shù)也為藥物虛擬篩選帶來了新思路,為解決數(shù)據(jù)量大、復雜性高等挑戰(zhàn)提供了可能性[17]. 例如,2022 年同濟大學劉琦教授課題組與百度公司合作發(fā)布X?MOL 模型,采用混合注意力Transformer 模型,利用海量訓練數(shù)據(jù)對小分子進行有效表征,顯著提升了虛擬篩選性能[18].2022年IBM 研究院發(fā)布MOLFORMER 模型,通過預訓練處理11 億未標記分子的SMILES,在分子屬性預測等任務中表現(xiàn)出色[19]. 近期,Mifflin et al[20]的知識引導的預訓練框架KPGT 集成了專門為分子圖設計的圖轉(zhuǎn)換器和知識引導的預訓練策略,進一步改善了分子表示學習.

為了進一步提高虛擬篩選的速度和精度,本文提出一種新的多模態(tài)虛擬篩選方法Vina?GPUGT,結(jié)合Vina ? GPU+ 分子對接技術(shù)和預訓練Graph Transformer (GT)模型,能實現(xiàn)快速準確的虛擬篩選過程. 該方法結(jié)合了兩種不同維度的分子信息,即分子的序列信息(SMILES)和3D 結(jié)構(gòu)信息(pdbqt)來共同進行篩選,可以增強虛擬篩選的性能. Vina?GPU GT 包括三個步驟. 首先,基于已經(jīng)進行分子屬性預測的預訓練GT 模型Graphormer 設計了一種全新的知識蒸餾方法來訓練一個輕量級SMILES Transformer (ST)模型,它可以更高效地學習并表示復雜的分子結(jié)構(gòu)信息;其次,使用訓練好的ST 模型對化合物庫中的所有分子進行推理,根據(jù)主動學習規(guī)則選擇2% 的分子,利用Vina?GPU+進行分子對接,根據(jù)對接得分對ST 模型進行微調(diào),以優(yōu)化ST 模型的性能;最后,使用微調(diào)的ST 模型來預測化合物庫分子,并根據(jù)其得分對分子進行排序,完成藥物的虛擬篩選過程.

在三個重要蛋白靶點(RIPK1,RIPK3,AmpCβ ?lactamase)和兩個化合物庫(DrugBank 和Sel?leck)上進行虛擬篩選實驗,并與兩種不同的虛擬篩選方法進行比較,證明Vina?GPU GT 的虛擬篩選性能最佳. 具體地,和Vina ? GPU 以及Vina ?GPU+相比,其命中率(HIT 1%)平均提升362. 6% 和354%,富集因子(Enrichment Factor,EF 1%)平均提升332. 7% 和323. 1%.

1 數(shù)據(jù)與方法

1. 1數(shù)據(jù)

1. 1. 1蛋白質(zhì)靶標 選擇三種非常重要并被廣泛研究的蛋白質(zhì)作為實驗對象. 第一種是RIPK1蛋白[21],它在細胞的增殖、分化以及死亡等關(guān)鍵的生命活動過程中發(fā)揮信號傳導作用. 第二種是RIPK3 蛋白[22],以其在壞死性凋亡中的作用而知名,壞死性凋亡是細胞程序性死亡的一種形式,通常在細胞的標準凋亡途徑受阻時發(fā)生. RIPK1和RIPK3對細胞死亡和炎癥調(diào)控有至關(guān)重要的作用,而這兩個過程是維持組織內(nèi)穩(wěn)態(tài)及免疫響應不可或缺的,這兩種蛋白質(zhì)的功能失調(diào)與包括癌癥、神經(jīng)退行性疾病和炎癥性疾病在內(nèi)的多種疾病的發(fā)生有關(guān). 第三種是AmpC β?lactamase,這是一種由某些細菌產(chǎn)生的酶,可導致細菌對包括青霉素類、頭孢菌素類和碳青霉烯類在內(nèi)的多種β ? 內(nèi)酰胺類抗生素產(chǎn)生耐藥性. AmpC β ? lac?tamase 細菌的出現(xiàn)和傳播已成為一個重要的公共衛(wèi)生問題,因為它降低了眾多抗生素的療效,并使得由這些細菌引起的感染的治療復雜化.

1. 1. 2化合物庫 選擇兩個廣泛應用的分子數(shù)據(jù)庫進行虛擬篩選. 第一個是DrugBank 數(shù)據(jù)庫[23],它是一個綜合性的數(shù)據(jù)庫,提供藥物及其靶點和作用機制的信息,本研究從DrugBank 網(wǎng)站(https://go. drugbank. com/releases/latest#)選取11582 個分子及其結(jié)構(gòu). 第二個是Selleck 數(shù)據(jù)庫,包含一系列小分子化合物,包括各種細胞靶標的抑制劑、激動劑、拮抗劑和活化劑,本研究從L460?TargetMol 天然化合物庫和L1400?Selleck天然產(chǎn)物庫的131cpds 板中共獲得5148 個分子.

1. 2方法 Vina ? GPU 是AutoDock Vina 的GPU 加速版本,通過大幅增加蒙特卡羅搜索中隨機初始構(gòu)象的個數(shù),顯著降低了每個初始構(gòu)象對應的搜索深度,增加了算法的并行度,充分利用GPU 上數(shù)千個計算核心,實現(xiàn)了大規(guī)模的并行化和加速. Vina?GPU+在Vina?GPU 的基礎上,對能量的網(wǎng)格表計算進行了優(yōu)化,減少了冗余計算,進一步加速了虛擬篩選過程.

本文提出的方法結(jié)合了Vina?GPU+分子對接技術(shù)和預訓練GT 模型,實現(xiàn)了快速而準確的虛擬篩選過程. 該方法總體分兩個階段,首先是模型的準備,然后是基于主動學習策略的模型微調(diào). 階段一選用GT 模型作為教師模型,ST 模型作為學生模型,使用知識蒸餾方法得到具有先驗知識的ST 模型,在此基礎上使用LIT?PCBA 數(shù)據(jù)集[24]中的ALDH1 靶標和小分子的Vina?GPU+對接得分對蒸餾后的ST 模型進行微調(diào). 階段二主要進行基于主動學習策略的分子挑選. 使用階段一準備好的模型對待篩選的整個化合物庫進行推理,升序排列推理得分并選取前20% 的后10%的分子作為對接分子,再使用Vina?GPU+進行對接,其打分則用于對ST 模型的進一步微調(diào). 微調(diào)好ST 模型之后再一次對整個待篩選的化合物庫進行推理,根據(jù)推理得分選取目標分子. 本方法的流程框架如圖1 所示.

1. 2. 1模型的蒸餾與預訓練

1.2.1.1模型的選取 GT 模型是一種專為解析和處理圖結(jié)構(gòu)信息而設計的神經(jīng)網(wǎng)絡模型,具有強大的表征能力,其利用自注意力機制能有效地捕獲長距離節(jié)點之間的關(guān)系[25]. GT 模型經(jīng)過預訓練后具備豐富的先驗知識,能顯著加速其在下游任務中的收斂過程,減少計算資源及時間的消耗,還可以實現(xiàn)知識遷移,提高模型的性能.

同樣基于Transformer 架構(gòu)但和GT 模型不同,ST 模型使用SMILES 字符串作為輸入,規(guī)避了由SMILES 到圖結(jié)構(gòu)轉(zhuǎn)換的效率損失. 為了進一步提升ST 模型的效果,將預訓練GT 模型作為教師模型,ST 模型作為學生模型,用模型蒸餾技術(shù)實現(xiàn)從預訓練GT 模型到ST 模型的知識遷移.

綜上,本文選用預訓練GT 和ST 模型,并利用Vina?GPU+進行得分的微調(diào),以實現(xiàn)不同模態(tài)間的信息融合,從而加快模型推理的速度,并在虛擬篩選應用中進一步提高模型的準確性.

1.2.1.2知識蒸餾方法 分別選取GT和ST模型作為教師和學生模型. 選取小分子數(shù)據(jù)集,使用RDKIT工具包提取SMILES表示中的原子特征和化學鍵特征. 將SMILES 轉(zhuǎn)換為ST模型的輸入embedding:

1. 2. 2 基于主動學習策略的分子挑選、對接與模型微調(diào) 為了提升ST 模型在預測Vina?GPU+打分方面的性能,采用LIT?PCBA 數(shù)據(jù)集中的AL?DH1 靶標及其相應小分子的Vina?GPU+對接得分,對經(jīng)過知識蒸餾處理的ST 模型進行微調(diào),使ST 模型掌握部分Vina?GPU+打分的先驗知識.

以經(jīng)過預訓練得到的ST 模型為基礎,進入基于主動學習策略的微調(diào)階段. 首先利用ST 模型對待篩選數(shù)據(jù)集進行推理,按升序規(guī)則對推理得分排序;然后,依托主動學習策略,選擇具有最高信息價值的分子,即排序前20% 的后10% 的分子,作為進一步微調(diào)ST 模型的訓練集;使用Vina?GPU+對這部分分子打分,并據(jù)此訓練ST模型以擬合這些分數(shù). 此過程迭代執(zhí)行,直至完成模型的微調(diào).

分子對接的過程如圖2 所示,考慮到分子構(gòu)象生成的速度通常快于分子對接,為了提升對接效率,采用基于流水線的處理結(jié)構(gòu),由兩個子進程分別負責分子構(gòu)象生成與Vina?GPU+對接,從而提高整個分子對接模塊的吞吐量. 獲取每個分子的對接得分后,將其按SMILES 與SCORE鍵值對的格式整理,構(gòu)成訓練數(shù)據(jù)集. 訓練過程中選用MAE 作為損失函數(shù),當MAE 收斂至較小值時,模型微調(diào)階段完成.

最終,使用經(jīng)過微調(diào)的ST 模型對整個虛擬篩選數(shù)據(jù)集進行推理,并根據(jù)模型的推理得分進行排序. 根據(jù)研究需求,選取得分最高的Topk 分子,作為虛擬篩選的目標分子.

2 結(jié)果與討論

2. 1虛擬篩選速度比較 圖3 展示了在Drug?Bank 和Selleck 數(shù)據(jù)庫上使用三種對接方法對三個靶標進行虛擬篩選的時間. 與Vina?GPU 和Vi?na?GPU+相比,Vina?GPU GT 在DrugBank 數(shù)據(jù)庫上進行虛擬篩選的時間平均減少97. 6% 和96. 3%,在Selleck 數(shù)據(jù)庫上進行虛擬篩選的時間平均減少98. 9% 和97. 7%. 總體而言,Vina ?GPU GT 和Vina?GPU+相比實現(xiàn)了31 倍的虛擬篩選加速,和Vina?GPU 相比實現(xiàn)了53 倍的虛擬篩選加速.

2. 2在DrugBank數(shù)據(jù)庫上的虛擬篩選結(jié)果

圖4 展示了在DrugBank 數(shù)據(jù)庫上三種對接方法對三個受體的虛擬篩選結(jié)果,由圖可見,Vina ?GPU GT 的HIT 和EF 顯著優(yōu)于Vina?GPU 和Vi?na?GPU+. 具體地,與Vina?GPU 相比,Vina?GPUGT 的HIT(1%,5%,10%)平均提升547. 1%,492. 7%,350. 9%,EF(1%,5%,10%)平均提升552. 1%,491. 8%,351. 3%. 與Vina?GPU+相比,Vina?GPU GT 的HIT(1%,5%,10%)平均提升642. 2%,610. 3%,378. 1%,EF(1%,5%,10%)平均提升644. 9%,616%,378. 8%. 在AmpC β?lactamase 分子對接結(jié)果中,Vina ? GPU+ 的HIT1% 和EF 1% 高于Vina?GPU GT,這可能是由于在AmpC β?lactamase 這個靶標的數(shù)據(jù)集中,作為正樣本的活性分子有許多SMILES 含有“. ”這種Vina?GPU 和Vina?GPU+分子對接軟件無法計算的分子,無法得到這些分子的打分結(jié)果,導致在微調(diào)時訓練的數(shù)據(jù)量不足. 并且,作為活性分子,這些分子的打分信息對于模型訓練可能更關(guān)鍵,這部分信息的缺失使模型的較嚴苛的HIT 1% 和EF 1% 指標的表現(xiàn)不佳.

綜上,對DrugBank 數(shù)據(jù)庫的虛擬篩選,與Vi?na?GPU 和Vina?GPU+兩種方法相比,Vina GPUGT 的篩選結(jié)果更優(yōu).

2. 3在Selleck 數(shù)據(jù)庫上的虛擬篩選結(jié)果 圖5展示了在Selleck 數(shù)據(jù)庫上三種對接方法對三個受體的虛擬篩選結(jié)果,由圖可見,Vina?GPU GT的篩選精度顯著優(yōu)于Vina?GPU 和Vina?GPU+.具體地,與Vina ? GPU 相比,Vina ? GPU GT 的HIT(1%,5%,10%)平均提升99%,349. 3%,263. 5%,EF(1%,5%,10%)平均提升113. 3%,353. 7%,261. 5%. 與Vina ? GPU+ 相比,Vina ?GPU GT 的HIT(1%,5%,10%)平均提升65. 7%,403. 2%,257. 8%,EF(1%,5%,10%)平均提升80. 3%,411. 4%,256. 6%.

綜上,對Selleck 數(shù)據(jù)庫的虛擬篩選,與Vina?GPU 和Vina ? GPU+ 兩種方法相比,Vina ? GPUGT 的篩選結(jié)果更優(yōu).

2. 4虛擬篩選的得分比較 圖6 展示了在Drug?Bank 數(shù)據(jù)庫上三個受體的虛擬篩選得分. 由圖可見,Vina?GPU GT 對RIPK1 受體的打分主要集中在-8 以內(nèi),對RIPK3 受體的打分主要集中在-9以內(nèi),對AmpC β ? lactamase 的打分主要集中在-10 以內(nèi). 與Vina?GPU 和Vina?GPU+的得分相比,Vina?GPU GT 在虛擬篩選時面對不同的受體,對配體的打分差異更明顯. 此外,Vina?GPU GT,Vina?GPU,Vina?GPU+在DrugBank 數(shù)據(jù)庫上對RIPK1 的平均得分分別為-4. 8,-6. 6,-6. 6;對RIPK3 的平均得分分別為-7. 6,-6. 6,-6. 6;對AmpC β ?lactamase 的平均得分分別為-7. 2,-7. 0,-7. 0. 根據(jù)對不同受體的得分數(shù)據(jù),可以說明Vina?GPU GT 在進行虛擬篩選時更好地考慮了受體的信息. 同時,結(jié)合2. 2和2. 3 中三種方法的虛擬篩選結(jié)果,也證明在三種受體上,Vina?GPU GT 對于配體的打分和排序更加準確.

2. 5消融實驗 為了評估主動學習策略對模型篩選性能的影響,開展了一系列針對模型主動學習部分的消融實驗. 實驗結(jié)果如圖7~9 所示,分別展現(xiàn)了三個不同靶標在DrugBank和Selleck 兩個數(shù)據(jù)庫上的虛擬篩選性能. 由圖可見,除了AmpC β?lactamase 靶標在Selleck 數(shù)據(jù)庫上的虛擬篩選中,主動學習后的EF 1% 稍低于未經(jīng)主動學習的結(jié)果外,其他所有實驗場景中,主動學習策略均帶來了指標的顯著提升,證明將主動學習集成至模型中可以有效地提高虛擬篩選的準確性.

3 結(jié)論

本文提出一種多模態(tài)虛擬篩選新方法Vina?GPU GT,融合了Vina?GPU+分子對接方法和預訓練圖Transformer 模型. 實驗結(jié)果證明,Vina?GPU GT 的篩選速度和精度都優(yōu)于Vina?GPU 和Vina?GPU+. 不過,其仍然存在一些局限. 例如,該方法的性能高度依賴于預訓練模型的質(zhì)量和用于知識蒸餾的數(shù)據(jù),并且,只選擇了2% 的分子進行對接和微調(diào),可能忽略了其他具有潛力的分子. 另外,該方法在不同類型的靶點或化合物庫上的泛化能力有待驗證. 未來將進一步優(yōu)化Vina?GPU GT 方法,以提高其在更廣泛靶點和化合物庫中的適用性和準確性.

(責任編輯 楊可盛)

猜你喜歡
微調(diào)靶標學習策略
“百靈”一號超音速大機動靶標
納米除草劑和靶標生物的相互作用
一種新型微調(diào)擠塑模具的設計及應用
電線電纜(2018年2期)2018-05-19 02:03:44
靈活易用,結(jié)合自動和手動微調(diào)達到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
高中生數(shù)學自主學習策略探討
復雜場景中航天器靶標的快速識別
一種使用反向?qū)W習策略的改進花粉授粉算法
前列腺特異性膜抗原為靶標的放射免疫治療進展
腫瘤影像學(2015年3期)2015-12-09 02:38:45
基于微博的移動學習策略研究
全國大部省份結(jié)束2014高考 多地高考模式微調(diào)
龙游县| 乌拉特前旗| 屯昌县| 明溪县| 深泽县| 威信县| 兴文县| 周口市| 环江| 璧山县| 昌黎县| 金溪县| 夏邑县| 攀枝花市| 达日县| 福海县| 崇礼县| 沧州市| 华阴市| 武清区| 萨迦县| 洪江市| 庐江县| 墨江| 灌阳县| 延寿县| 巩留县| 成都市| 阳曲县| 张家界市| 北宁市| 博乐市| 太和县| 阳春市| 镇沅| 阳泉市| 鄂托克前旗| 醴陵市| 鄂伦春自治旗| 乐平市| 江都市|