朱曉敏,劉 爽,徐 漫,張云霄
(大連民族大學 計算機科學與工程學院,遼寧 大連 116650)
隨著并發(fā)癥出現(xiàn)概率越來越高,聯(lián)合用藥成為患者治療疾病的普遍方法,但藥物使用后出現(xiàn)了許多嚴重的不良反應威脅著患者的生命健康。藥物關聯(lián)(Drug-drug interactions,DDIs)預測是鏈接預測在生物醫(yī)學領域方面一個很重要的應用。DDIs指同時或先后應用兩種或兩種以上藥物時,在機體因素參與下藥物彼此之間的交互作用發(fā)生藥動學或藥效學變化[1],臨床表現(xiàn)為藥效增強和毒副作用加重或藥效減弱和毒副作用減輕。目前DDIs是藥物治療中一個非常重要的風險因子,它可能給患者帶來嚴重的副作用,甚至是死亡;在藥物開發(fā)階段,雖然可以通過大量體內(nèi)和體外實驗篩查出一些可能發(fā)生DDIs的藥物組合,但需要一定的試驗周期和高昂的成本。當藥物投入市場后,由于人類生命的復雜性,仍有可能會出現(xiàn)大量新的DDIs。
因此,確定藥物間的相互作用對整個醫(yī)療行業(yè),甚至整個人類社會都具有重要的研究意義。本文主要從以下幾個方面進行總結分析:基于分子表示的方法、機器學習的方法、知識圖譜的方法、分類的方法及其它方法進行DDIs預測,并對各個代表性方法的研究背景、優(yōu)缺點及作用影響進行描述。本文最后介紹了DDIs預測方法中使用的數(shù)據(jù)源,并分析了該方向面臨的挑戰(zhàn),對未來研究趨勢進行展望。
首先,DDIs預測研究有助于藥物研發(fā)。一個藥物的成功研發(fā)往往需要經(jīng)歷三個階段:候選藥物確定、臨床前研究和臨床研究[2]。在藥物研發(fā)過程中,能真正達到臨床研究級別的藥物占比一般不超過千分之一,會產(chǎn)生巨大的成本浪費,而DDIs預測研究將極大地減少藥物研發(fā)成本。
其次,隨著中國人口老齡化的到來,如何減少聯(lián)合用藥時產(chǎn)生的藥物副作用成為臨床治療的重點研究內(nèi)容[3]。DDIs預測可幫助醫(yī)生避免在聯(lián)合用藥時產(chǎn)生潛在的DDIs風險,對藥物的臨床治療有著非比尋常的意義。DDIs預測研究意義總結如下:
(1)DDIs預測可提高發(fā)現(xiàn)新藥物不良相互作用的機率。通過提前預測新DDIs,藥物開發(fā)部門或藥物安全部門專業(yè)人員可從預測出的藥物對中進行實驗篩選,從而提高藥物開發(fā)的效率。
(2)DDIs預測可提高新藥物的開發(fā)效率和安全性。在藥物關聯(lián)預測過程中會發(fā)現(xiàn)許多發(fā)生DDIs的藥物有著共同的化學結構信息。因此,在藥物開發(fā)過程中有意地避免此類結構,從而減少DDIs發(fā)生幾率。
(3)DDIs預測增強了個性化藥物治療方案的安全性。根據(jù)患者醫(yī)療記錄為患者推薦個性化治療方案,可避免對患者造成嚴重的健康威脅。
2.1.1 方法介紹
Zeng等人[4]提出了基于分子結構相似性的方法進行DDIs預測,用于解決臨床試驗方法中存在的耗資大、費人力等缺陷。主要步驟為:(1)收集和處理藥物結構,在數(shù)據(jù)庫中獲取化合物結構信息及線性文本表示,再使用Wash模塊對分子結構進行預處理,為最終建模過程做準備;(2)學習結構表示,將分子表示為編碼向量結構特征,為每個特征都分配一個特定位置[5];(3)計算相似性度量和數(shù)據(jù)表示,使用不同度量比較兩分子指紋間的相似性,并根據(jù)指紋存在的特征數(shù)[6]構建相似矩陣,從而獲取藥物對間的相似性度量
2.1.2 作用與影響
此方法在描述分子結構方面僅需要較少的計算,避免了藥物3D結構計算和疊加等問題。未來可以將結構相似性測量和藥理學數(shù)據(jù)庫中的知識整合到包含有關靶標和代謝信息的藥理學數(shù)據(jù)庫中,實現(xiàn)更可靠、更復雜的DDIs預測系統(tǒng)。
2.1.3 優(yōu)點
此方法簡單、高效,可將結構相似性信息應用于指定藥物中,用于分析由代謝酶、轉運蛋白、代謝酶抑制引起的藥物相互作用[7]原理。
2.2.1 方法介紹
基于輪廓指紋相似性方法[8]主要通過使用Tanimoto系數(shù)比較不同藥物間的交互指紋[9],其結果使用Drugs.com等數(shù)據(jù)庫作為參考標準進行驗證。模型交互作用圖相似性矩陣分兩步進行計算:(1)將特定藥物表示為載體,通過編纂特定位置代碼來預測藥物間相互作用的存在;(2)基于藥物間的TC相互作用譜相似性進行矩陣計算,模型如圖1。
圖1 基于輪廓指紋相似性DDIs預測模型圖
2.2.2 優(yōu)點及存在的問題
通過整合化學數(shù)據(jù)庫提供的信息,并引入其它模型集成到系統(tǒng)中,可促進 DDIs預測的完成。但此方法包含的信息有限。
2.3.1 方法介紹
基于大規(guī)模分子結構相似性方法[10]可追溯到藥物相互作用候選者信息。研究過程中將藥物3D結構作為模板,通過藥效團形狀篩選識別出具有相似形狀和靜電特性的其它藥物,在協(xié)議中使用比對算法計算藥物間的相似性[11]。再通過與其它大規(guī)模分析方法相結合來完成最終預測,使用交叉驗證方法來測試模型[12]的性能,在完善 DDIs預測參考標準數(shù)據(jù)庫的基礎上,整合了藥物相似性信息。
2.3.2 優(yōu)點及存在的問題
2D和3D分子結構方法可提供捕捉同一藥理學類別藥物間分子相似性的機會,使研究人員能夠檢測屬于不同藥理學類別藥物對之間的高度相似性[13],但缺點是此過程包含的藥物目標或不良事件概況信息是有限的,從而限制模型的性能。
3.1.1 方法介紹
基于圖卷積網(wǎng)絡方法[14]通過構建藥物副作用的多模式圖來解決副作用具有不同類型的邊緣性問題。首先基于探索節(jié)點網(wǎng)絡鄰域的隨機游走方法來學習節(jié)點神經(jīng)特征對,然后通過學習藥物特征表示用作邏輯回歸分類器的輸入[15],模型如圖2。
圖2 基于圖卷積網(wǎng)絡進行DDIs預測模型圖
3.1.2 作用與影響
此方法進行DDIs預測是將不同種類藥物關聯(lián)信息融合到一個圖中,可對不同類型的DDIs事件采用不同模塊進行學習,取得了較好的效果。
3.1.3 優(yōu)點
此方法無需手動完成特征工程操作,可為具有大量邊緣類型的多模態(tài)圖提供有效權重共享形式。
3.2.1 方法介紹
基于注意力機制的方法[16]可準確預測出擁有潛在關系的藥物集,此方法將藥物關聯(lián)預測視為二分類任務,輸入是藥物SMILES序列。首先將藥物分為一維特征編碼器和二維特征編碼器編碼。再將藥物的二維原子圖特征向量和一維序列特征向量送入多維度特征解碼器,通過特征混合生成高維向量。最后在向量上進行解碼得到是否發(fā)生DDIs作用的標識,模型如圖3。
圖3 基于注意力機制的DDIs預測模型
3.2.2 優(yōu)點
此方法證明了多維度特征在DDIs預測中的巨大潛力,此模型可以推廣到藥物靶點、癌癥風險預測等領域。
3.3.1 方法介紹
基于多重網(wǎng)絡嵌入方法[17]可用于整合多種方法不同方面的有用信息,可用來確定每個網(wǎng)絡的定量重要性。首先通過構建包括基于類別的相似網(wǎng)絡的多重藥物-藥物相似網(wǎng)絡。然后對每種藥物的化學式進行分析,得到藥物化學指紋圖譜構建為基礎的網(wǎng)絡。最后,對復用網(wǎng)絡信息進行采樣和節(jié)點特征向量學習,通過Skip-Gram模型對目標函數(shù)進行優(yōu)化,模型如圖4。
圖4 基于多重關系網(wǎng)絡的DDIs預測模型
3.3.2 優(yōu)點及存在的問題
此模型優(yōu)點是能準確地評估出不同網(wǎng)絡的重要性,并利用隨機游走等方法提取不同網(wǎng)絡拓撲信息,最后確定每個網(wǎng)絡定量的重要性。其缺點是模型的性能和伸縮性方面較差。
3.4.1 方法介紹
多源藥物特征融合方法[18]首先利用自編碼器的隱向量作為藥物對的新特征進行不同方式的組合,再將組合后的藥物特征輸入到不同藥物融合網(wǎng)絡中,得到最終的潛在特征向量,模型如圖5。
圖5 基于多源藥物、特征融合的DDIs預測模型
3.4.2 優(yōu)點
此方法具有混合數(shù)據(jù)增強策略的有效性,也具有較強的魯棒性性能。
3.5.1 方法介紹
基于圖增強卷積網(wǎng)絡[19]將圖卷積神經(jīng)網(wǎng)絡與注意力網(wǎng)絡相結合用于提取藥物對間的結構關系,進而實現(xiàn)DDIs預測。首先采用簡化分子來分別提取每個DDIs對中的藥物圖,再通過應用權重共享圖卷積神經(jīng)網(wǎng)絡來生成圖表示,最后使用sigmoid函數(shù)決定最終分類[20]。
3.6.1 方法介紹
基于深度學習的方法[21]首先將輸入藥物對中的藥物結構信息生成特征向量,再將該特征與報告的DDIs類型進行關聯(lián),最后將深度學習方法與另一種異質(zhì)基因網(wǎng)絡結合一同進行DDIs預測研究,使用化學結構、藥物靶標分類系統(tǒng)作為輸入生成描述相關DDIs[22]。
3.6.2 優(yōu)點
此方法通過給定藥物對的輸出神經(jīng)元活性值來優(yōu)先考慮被替代的藥物成員,可更好地了解DDIs。未來可將此方法擴展到DFI等多種化合物的研究。
4.1.1 方法介紹
知識圖譜嵌入方法[23]通過捕獲局部和全局重要的藥物特征進行DDIs預測。數(shù)據(jù)以知識圖的形式出現(xiàn),將提取到的信息作為交互預測器特征,使用嵌入方法將圖中節(jié)點投影到密集向量。然后在數(shù)據(jù)集中收集DDIs信息創(chuàng)建集成圖譜,再應用不同知識圖譜嵌入技術進行實驗,模型如圖6。
圖6 基于知識圖譜與LSTM技術進行DDIs流程圖
4.1.2 優(yōu)點及存在的問題
通過組合CNN和LSTM構建網(wǎng)絡,其優(yōu)點是CNN使用卷積濾子捕獲藥物特征中的局部關系,LSTM從CNN提取特征中提取整體關系,能夠捕捉到重要的藥物特征,但局限是無法為DDIs預測提供解釋,可能會產(chǎn)生數(shù)據(jù)不平衡問題。
4.2.1 方法介紹
基于知識圖譜與圖神經(jīng)網(wǎng)絡方法[24]通過挖掘KG中每個實體的拓撲結構信息,從各自局部感知域中聚合所有鄰域拓撲信息提升DDIs預測性能。從數(shù)據(jù)集中收集提取包含藥物對的DDIs數(shù)據(jù)源并構建相應的KG;通過在DDIs矩陣和構建的知識圖譜中提取藥物特征及相關實體鄰域結構信息,輸出藥物潛在表示及當前藥物對間的鄰域拓撲信息,計算得分并輸出預測值。
4.2.2 優(yōu)點
通過有選擇地多次聚合鄰域信息,將基于空間的圖神經(jīng)網(wǎng)絡方法擴展到知識圖譜中,能夠學習到拓撲結構信息和知識圖譜中的語義關系,進而提升DDIs預測效果。
4.3.1 方法介紹
基于高效知識圖譜的方法[25]是在多類型關系網(wǎng)絡上進行評價的,其中子圖結構包含圖學習任務的豐富信息,通過在子圖上設計一個圖摘要模塊來獲得易處理路徑,再集成一種新的多通道神經(jīng)編碼機制,從而提高預測性能。
4.3.2 作用與影響
此方法可有效地錨定KG的相關子圖,利用大量外部生物醫(yī)學知識顯著改善多類型DDIs預測性能,為DDIs的潛在機制提供合理的線索。
4.3.3 優(yōu)點
此模型在預測過程中具有可伸縮性;每次傳播中采用不同子圖形成歸納偏差,可提升模型的泛化能力。
4.4.1 方法介紹
基于知識圖譜膠囊網(wǎng)絡方法[26]證明了模型的有效性及可解釋性??蚣苡扇齻€主要部分組成。(1)負樣本構造:構建訓練過程中所涉及的高質(zhì)量負樣本,對其提出更高的要求;(2)圖嵌入層:迭代地從實體接受域中聚合鄰居信息并學習實體的表示;為每條邊生成注意力權重,然后確定該實體的接受域;(3)膠囊網(wǎng)絡層:通過處理給定關系空間下的實體表示來預測兩實體在關系空間下是否發(fā)生DDIs。
4.4.2 優(yōu)點
此方法通過結合膠囊網(wǎng)絡可捕捉實體在語義空間下的非線性信息并豐富實體的表達,提升模型的預測能力。
5.1.1 方法介紹
聯(lián)合用藥模式和圖匹配的方法[27]使用支持向量機進行DDIs預測,其任意順序的藥物組合新內(nèi)核均在 SVM 框架內(nèi)進行開發(fā),通過對新內(nèi)核與其它卷積內(nèi)核進行比較,找到兩個圖之間的最佳頂點對應關系。圖匹配大致分為兩類:第一類是精確圖匹配,即找到圖和子圖的同構并使兩圖之間的頂點映射是雙射的和保邊的;第二類是不精確的圖匹配,允許在匹配過程中出現(xiàn)錯誤,最大限度地減少尋找最佳圖匹配的總錯誤。
5.2.1 方法介紹
基于多任務二元分類方法[28]將DDIs預測表述為二元回歸問題,可預測數(shù)據(jù)實體對之間的二元關系,進而捕獲不同數(shù)據(jù)視圖之間所有高階交互關系。
5.2.2 優(yōu)點及存在的問題
此模型靈活,允許學習共享和非共享的低秩因子,可對多實體交互進行建模,但各種數(shù)據(jù)域的交互順序必須手動確定且依賴應用程序,無法涵蓋所有DDIs案例。
多任務半監(jiān)督學習方法[29]解決DDIs標簽稀疏性問題有三個技術亮點:(1)利用無重力數(shù)據(jù)有利于DDIs預測的信息;(2)降低表示特征復雜性并降低過度擬合的風險;(3)利用DDIs信息,可協(xié)調(diào)集成多種藥物特征和多任務學習。
6.1.1 方法介紹
分子結構信息增強文本方法[30]通過獲得分子圖結構中藥物對表示,將其與卷積神經(jīng)網(wǎng)絡獲得的文本表示連接起來,然后共享任務文本數(shù)據(jù)集中的標記來訓練整個模型。通過對藥物進行隨機配對并去除陽性對中的藥物,以便生成相同數(shù)量的偽陰性對,再用分子結構從文本中提取 DDIs關系。
6.1.2 優(yōu)點及存在的問題
此方法可從分子結構信息中高精度地實現(xiàn)DDIs預測,可減輕標簽的差異,進而提升模型的預測能力。
6.2.1 方法介紹
基于標簽傳播方法[31]通過高階相似性來預測 DDIs。首先使用臨床 SEs作為預測 DDIs關鍵特征;然后通過考慮高階相似性,使用標簽傳播方法進行DDIs預測。
6.2.2 優(yōu)點及存在的問題
此方法通過信息最大化來更新藥物嵌入,使其具有魯棒性,能夠獨立地傳播每種特定類型的標簽。
目前主要通過DrugBank數(shù)據(jù)集[32]進行DDIs預測。數(shù)據(jù)集包含藥物相互作用、靶點、酶等綜合信息,支持全面而復雜的搜索。通過結合可視化軟件可非常容易地檢索到新藥物靶標、藥物結構等信息,數(shù)據(jù)集介紹見表1。
表1 數(shù)據(jù)集介紹
采用AUPR、AUC和F1評分等評價指標對DDIs代表性模型性能在以下實驗環(huán)境結果進行對比:(1)開發(fā)框架TensorFlow/PyTorch;(2)GPU:Geforce GTX 1660Ti;(3)Hard disk:200G;(4) Memory:32G;(5)開發(fā)語言:python。
在DrugBank數(shù)據(jù)集上進行實驗得到各結果指標對比如下,模型結果見表2,各個模型的AUPR、F1、Predictor、Mcc、AP@50、AUPRC指標模型圖如圖7。
表2 各模型實驗結果
圖7 最新方法各個指標對比柱狀圖
DDIs預測研究是公共衛(wèi)生和藥物安全監(jiān)測的重要課題。本文圍繞藥物關聯(lián)預測的背景,存在的問題及意義對其進行研究。將藥物關聯(lián)預測方法分為五類:基于分子表示的方法、基于機器學習的方法、知識圖譜的方法、基于分類的方法及基于其它方法進行DDIs預測。本文對DDIs預測五大類中代表性方法進行闡述與分析。最后,本文討論了當前DDIs預測研究所面臨的挑戰(zhàn)和未來發(fā)展方向。從國內(nèi)外近幾年研究成果可以看出,越來越多的研究學者們通過多途徑、多方法、多角度去進行深刻的DDIs預測研究。確定藥物之間的相互作用不僅增強個性化藥物治療方案制定的安全性,還可以大大提高藥物研發(fā)的效率并為患者推薦個性化的治療方案。DDIs預測研究對于整個醫(yī)療行業(yè),具有重要的研究意義。