国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

注意力特征融合的蛋白質(zhì)-藥物相互作用預(yù)測

2022-09-06 07:30李金星馮振華宋曉寧於東軍
關(guān)鍵詞:集上卷積蛋白質(zhì)

華 陽 李金星 馮振華 宋曉寧 孫 俊 於東軍

1(江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院 江蘇無錫 214100)

2(薩里大學(xué)計(jì)算機(jī)系 英國吉爾福德 GU2 7XH)

3(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

(7211905018@stu.jiangnan.edu.cn)

預(yù)測蛋白質(zhì)-藥物相互作用是早期藥物篩選中的關(guān)鍵步驟.據(jù)美國藥物研究與制造商協(xié)會調(diào)查,新藥研究成本[1]占用整個(gè)制藥業(yè)收益的75%.此外,僅有不到5%的經(jīng)初篩命中的化合物可用于臨床實(shí)驗(yàn),傳統(tǒng)的篩選方法更是要消耗2~3年的時(shí)間,極大程度地耗費(fèi)了研究人員的精力和時(shí)間.借助計(jì)算機(jī)進(jìn)行虛擬篩選[2]藥物花費(fèi)時(shí)間短、準(zhǔn)確性高,有效降低了該任務(wù)的成本.而該方案的核心是依靠計(jì)算機(jī)預(yù)測出蛋白質(zhì)和藥物之間的相互作用(protein-drug interaction, PDI)進(jìn)行藥物篩選[3].

預(yù)測蛋白質(zhì)-藥物的相互作用主要包含3個(gè)步驟:1)對藥物分子式進(jìn)行量化并提取其特征;2)對蛋白序列進(jìn)行量化并提取其特征;3)選擇合適的分類模型,預(yù)測藥物和蛋白質(zhì)是否存在相互作用[4].不難看出,與其他模式識別任務(wù)類似,有效提取特征的方法是進(jìn)行蛋白質(zhì)-藥物相互作用預(yù)測的關(guān)鍵.

在提取藥物特征方面,藥物分子量化的理論來源于定量結(jié)構(gòu)與活性關(guān)系(quantitative structure activity relationship, QSAR)[5].該關(guān)系源自傳統(tǒng)構(gòu)效關(guān)系,并在此基礎(chǔ)上與化學(xué)中常見的經(jīng)驗(yàn)方程相結(jié)合,在藥物化學(xué)領(lǐng)域具有廣泛且深遠(yuǎn)的影響.該方法把人們對構(gòu)效關(guān)系的認(rèn)知從定性水平上升到定量水平.從其實(shí)際影響來看,定量結(jié)構(gòu)與活性關(guān)系揭示了藥物分子與生物大分子結(jié)合[6]的模式,指示化合物的某些生物活性可以通過數(shù)學(xué)模型量化其分子結(jié)構(gòu)特征[7]來獲得,并給出了量化特征的理論依據(jù).在蛋白質(zhì)特征提取方面,蛋白序列的量化方式[8]主要來源于對氨基酸殘基的特征[9]嵌入.當(dāng)下主流的做法有自相關(guān)矩陣嵌入和殘基序列[10]結(jié)合嵌入等.

除了蛋白質(zhì)和藥物的特征提取方式,分類模型的選擇[11]和設(shè)計(jì)也是預(yù)測蛋白質(zhì)和藥物相互作用的重要研究內(nèi)容.現(xiàn)有的預(yù)測算法主要分為兩大類:傳統(tǒng)機(jī)器學(xué)習(xí)[12]方法和深度神經(jīng)網(wǎng)絡(luò)[13]方法.傳統(tǒng)機(jī)器學(xué)習(xí)方法包括支撐向量機(jī)(support vector machine, SVM)[14]、隨機(jī)森林(random forests. RF)[15]、K最近鄰(k-nearest neighbor, KNN)[16]分類算法以及邏輯回歸模型等.基于深度神經(jīng)網(wǎng)絡(luò)的方法主要包括長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[17]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[18]和圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)[19]等.在現(xiàn)有算法中,大多方法都根據(jù)靶蛋白種類劃分成4類去解決,即分別在酶、離子通道、G蛋白耦聯(lián)受體和核受體蛋白中進(jìn)行預(yù)測.這么做的主要原因是這4類蛋白的類間差異過大,混在一起訓(xùn)練會使模型變得很難收斂.因此,這些方法訓(xùn)練出的模型可適用面較窄,往往只局限于預(yù)測某一類蛋白和藥物的相互作用.當(dāng)無法判斷一種新的未知蛋白的真實(shí)屬性時(shí),該類方法的魯棒性和實(shí)用價(jià)值會大大降低.

為解決上述模型泛化能力不足的問題,由Lee等人[20]提出的DeepConv-DTI模型對變長的蛋白序列進(jìn)行補(bǔ)零定長,將差異較大的蛋白序列特征固定在相同維度空間中,并采用卷積神經(jīng)網(wǎng)絡(luò)提取蛋白質(zhì)的低維實(shí)值特征,有效拓寬了模型的泛化性.與之相似的是,?ztürk等人[21]提出的DeepDTA模型還額外添加配體最大公共結(jié)構(gòu)和蛋白質(zhì)結(jié)構(gòu)域特征來提升模型的效能.然而,這2個(gè)模型提取藥物特征的方法仍然存有不足,僅使用擴(kuò)展連通性指紋Morgan[22]作為量化藥物的方法無法提取分子的結(jié)構(gòu)信息.Morgan指紋編譯是一種圓形拓?fù)渲讣y,先枚舉藥物分子中所有可能的原子位次,然后將各原子周邊的原子信息增加到該原子上形成數(shù)組,并散列至一個(gè)數(shù)字,最后通過計(jì)算連通性選擇最合適的位次得到對應(yīng)的分子指紋.這種方法可有效提供分子特征的細(xì)節(jié),但藥物分子結(jié)構(gòu)信息的缺乏導(dǎo)致蛋白質(zhì)-藥物相互作用預(yù)測的性能明顯不足.而CPI-GNN[23]和GraphDTA[24]等模型借助圖卷積網(wǎng)絡(luò)提取藥物特征一定程度上獲取了藥物分子的結(jié)構(gòu)特征,在其實(shí)驗(yàn)中取得相對不錯(cuò)的效果.但是圖卷積模型對分子結(jié)構(gòu)的辨識度會隨著藥物種類的增多而下降,也會致使模型的整體性能下降.

此外,文獻(xiàn)[20-21,23-24]所提的方法大都使用多層感知器(MLP)模型[25]預(yù)測蛋白質(zhì)-藥物的相互作用.該方法無法凸顯藥物特征中重要的局部信息,致使整個(gè)模型的預(yù)測性能達(dá)不到最佳效果.為解決這一問題,Wang等人[26]在2020年初提出了一種使用深度長短期記憶網(wǎng)絡(luò)(deep long short-term memory, DeepLSTM)的方法預(yù)測蛋白質(zhì)-藥物相互作用,在酶和G蛋白耦聯(lián)受體的作用預(yù)測中都取得了最佳效果.雖然這一方法無法有效預(yù)測大規(guī)模數(shù)據(jù)下的PDI,但論述了通過添加時(shí)序信息可有效捕捉更多的鑒別PDI的特征.2020年Chen等人[27]提出基于自然語言處理(natural language processing, NLP)中Transformer骨干網(wǎng)絡(luò)[28]中的TransformerCPI模型.該模型利用自注意力機(jī)制有效地捕捉化合物和蛋白質(zhì)之間的關(guān)聯(lián)特性,在各公開數(shù)據(jù)集中均表現(xiàn)良好.但因?yàn)槠涮崛〉牡鞍滋卣鞑粔虺浞謱?dǎo)致其在Kinase數(shù)據(jù)集上的收斂效果不夠理想.

為進(jìn)一步提升在大規(guī)模數(shù)據(jù)下PDI實(shí)驗(yàn)的預(yù)測效果,本文結(jié)合前人的工作提出了一種將深度卷積神經(jīng)網(wǎng)絡(luò)與自注意力循環(huán)網(wǎng)絡(luò)相結(jié)合的模型.在藥物特征提取方面,由于Morgan無法提取藥物分子的子結(jié)構(gòu)特征,本文在其基礎(chǔ)上增加了Mol2Vec向量[29]嵌入.Mol2Vec是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,用于學(xué)習(xí)分子亞結(jié)構(gòu)[30]的向量表示.與Word2Vec模型[31]一致,密切相關(guān)單詞的向量在向量空間中非常接近,Mol2Vec可以學(xué)習(xí)指向與化學(xué)相關(guān)子結(jié)構(gòu)方向相似的分子子結(jié)構(gòu)的向量表示,并以對各個(gè)子結(jié)構(gòu)做向量求和的方式來編碼化合物.Mol2Vec模型克服了常見復(fù)合特征表示的缺點(diǎn),如稀疏性和位沖突,在多個(gè)化合物特性和生物活性數(shù)據(jù)集上驗(yàn)證了其預(yù)測能力.為了補(bǔ)充更多藥物特征信息,本文在原基礎(chǔ)上額外添加由消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing neural networks, MPNNs)[32]提供的圖特征,經(jīng)實(shí)驗(yàn)驗(yàn)證在數(shù)據(jù)規(guī)模較小的實(shí)驗(yàn)中添加該特征可有效提升模型的性能,但對數(shù)據(jù)規(guī)模較大的實(shí)驗(yàn)?zāi)P托Ч幻黠@.據(jù)此,本文先用循環(huán)網(wǎng)絡(luò)采集Morgan指紋和Mol2Vec向量的重要信息并將兩者進(jìn)行融合,再根據(jù)數(shù)據(jù)規(guī)模差異考慮是否融合圖特征,最后本文用密集型卷積網(wǎng)絡(luò)進(jìn)一步提取出藥物分子的特征.

在蛋白特征提取方面,本文根據(jù)生物活性對蛋白質(zhì)的氨基酸序列進(jìn)行歸類[33],這樣可有效減少蛋白嵌入特征的稀疏性.并借鑒了Lee等人[20]的經(jīng)驗(yàn),對變長的蛋白序列編碼進(jìn)行補(bǔ)零定長并嵌入至等長的特征空間中.為了模型收斂得更好以及蛋白質(zhì)特征采集得更詳細(xì),本文選擇密集型卷積網(wǎng)絡(luò)DenseNet[34]提取蛋白特征,該模型可直接連接來自不同層的蛋白特征,通過特征重用可有效提升效率和精度.接著利用藥物特征對蛋白特征進(jìn)行注意力針對訓(xùn)練,這樣得到的蛋白特征除了包含蛋白序列本身信息之外還包含蛋白藥物的關(guān)系信息.其結(jié)果與藥物特征一同放入雙方向門控循環(huán)單元提取PDI的特征信息.

門控循環(huán)單元[35]是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)中的一種門控機(jī)制.與其他門控機(jī)制相似,門控循環(huán)單元旨在解決標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失(爆炸)問題,并同時(shí)保留序列的長期信息.由此得到的PDI特征信息再經(jīng)過自注意力機(jī)制對重要區(qū)域進(jìn)行加權(quán),以及經(jīng)過全連接層映射成長度為2的1維向量.最后放入Softmax激活函數(shù)中進(jìn)行歸一化處理作為蛋白質(zhì)-藥物相互作用的預(yù)測結(jié)果.除此之外,本文結(jié)合所提模型設(shè)計(jì)了可用于藥學(xué)研究的界面,并提供了篩選抑制乙酰膽堿脂酶(AChE)和丁酰膽堿酯酶(BuChE)藥物的方法.這類藥物對治療阿爾茲海默癥具有重要意義[36],本文也借此進(jìn)一步闡述了模型的實(shí)用價(jià)值.

綜上所述,本文的主要?jiǎng)?chuàng)新點(diǎn)包括:

1) 提出一種復(fù)合提取藥物特征的方法,將Morgan指紋編譯、Mol2Vec向量以及MPNNs圖結(jié)構(gòu)特征合理融合,豐富了藥物特征信息;

2) 根據(jù)生物活性對氨基酸進(jìn)行歸類,有效降低蛋白特征的稀疏性,采用密集型卷積網(wǎng)絡(luò)提取特征,實(shí)現(xiàn)特征重用,提升模型的效率和精度;

3) 發(fā)現(xiàn)深度網(wǎng)絡(luò)結(jié)合門控循環(huán)單元提取蛋白質(zhì)和藥物特征,結(jié)合能強(qiáng)化蛋白質(zhì)和藥物關(guān)系特征的注意力網(wǎng)絡(luò),可有效提升模型的性能.

1 本文方法

1.1 藥物特征表示

藥物特征提取是預(yù)測PDI的重要環(huán)節(jié).其目的是提取藥物的鑒別特征,使得分類器可以更好地理解藥物性質(zhì)并能區(qū)分出不同藥物之間的差異.因此,有效的藥物特征需要具備可鑒別性和典型性,且類間的距離相對較遠(yuǎn)而類內(nèi)的距離相對較近.這樣便于提升分類模型的預(yù)測精度.常用的藥物特征嵌入方法有2種,包括Morgan指紋和Mol2Vec向量.

Morgan指紋又稱擴(kuò)展連通性指紋,是一種圓形指紋.借助Morgan指紋編碼藥物分子式如圖1所示:

Fig. 1 Drug feature embedding圖1 藥物特征嵌入

藥物特征嵌入的步驟為:首先根據(jù)給定的半徑分析每個(gè)原子的環(huán)境和連通性;然后散列編碼所有可能形成的結(jié)構(gòu);最后根據(jù)散列算法將編碼信息放縮到預(yù)定長度.這種方法的代表性雖然很全面,但由于尺寸較大且信息過于離散,難以合理地表達(dá)藥物的子結(jié)構(gòu)信息.另一種常用的嵌入藥物分子式特征的方法是Mol2Vec向量編碼.Mol2Vec是從NLP中的Word2Vec演變而來,可以學(xué)習(xí)分子間化學(xué)性質(zhì)指向相似的子結(jié)構(gòu)信息.其編碼方式為將各個(gè)子結(jié)構(gòu)向量的和作為化合物的特征向量.該方式可將藥物的子結(jié)構(gòu)特征表示得很清晰,具有很強(qiáng)的典型性,也是對Morgan特征的一項(xiàng)重要補(bǔ)充.

Fig. 2 The feature fusion module圖2 特征融合模塊

為了提取具備鑒別性和典型性的特征,本文將圖1所示的2種藥物特征嵌入方法結(jié)合使用.首先,通過雙向門控循環(huán)單元對嵌入特征進(jìn)行特征抽取;然后將2種方法所得藥物特征按照圖2的方式融合;最后將融合特征放入密集型卷積網(wǎng)絡(luò)特征抽取,作為與蛋白結(jié)合預(yù)測的藥物特征.其中,融合方法為先用1維卷積(1×3)將原特征轉(zhuǎn)至下層特征,隨后使用映射矩陣分別將Morgan特征和Mol2Vec特征映射到與對方相同的特征空間中并與下層特征相加,2個(gè)映射矩陣互為轉(zhuǎn)置,公式為:

FM1=Conv1d(FM0)+VFN0,

(1)

FN1=Conv1d(FN0)+VTFM0,

(2)

其中,FM0和FM1分別是Morgan原特征與下層特征,F(xiàn)N0和FN1分別是Mol2Vec原特征與下層特征,V是可訓(xùn)練的映射矩陣,其維度分別是FM0和FN0的長度.使用同映射矩陣可以使2類特征的關(guān)聯(lián)性更強(qiáng)、模型更容易收斂,最后將兩者下層特征相加得到融合特征.

同時(shí),本文發(fā)現(xiàn)消息傳遞網(wǎng)絡(luò)可以抽取藥物的平面結(jié)構(gòu)特征,存有提升實(shí)驗(yàn)效果的可能.MPNNs由Google的研究人員提出并用于預(yù)測量子化學(xué)性質(zhì),可有效應(yīng)用于小樣本模型[37].具體算法為:首先,構(gòu)造初始狀態(tài)集,每個(gè)狀態(tài)用于圖中的每個(gè)節(jié)點(diǎn);然后,使每個(gè)節(jié)點(diǎn)與其鄰居交換信息以進(jìn)行消息傳遞,這樣每個(gè)節(jié)點(diǎn)狀態(tài)將包含對其直接鄰居的感知.重復(fù)這2個(gè)步驟,每個(gè)節(jié)點(diǎn)便可獲得其2階鄰域的信息,依此類推.達(dá)到預(yù)想次數(shù)的“消息回合”,便可將所有上下文的節(jié)點(diǎn)的狀態(tài)轉(zhuǎn)換表征為整個(gè)圖的特征.其節(jié)點(diǎn)更新權(quán)重的公式為

(3)

(4)

如圖3所示,本文嘗試采用特征融合模塊將MPNNs模塊所提取的藥物圖特征與由Morgan和Mol2Vec融合的特征相融,然而實(shí)驗(yàn)效果在不同規(guī)模數(shù)據(jù)集上的表現(xiàn)有所差異,具體的內(nèi)容將3.2節(jié)進(jìn)行詳細(xì)的論述.實(shí)驗(yàn)表明,MPNNs提供的圖結(jié)構(gòu)特征會讓模型在小規(guī)模數(shù)據(jù)集上表現(xiàn)得更好,但對數(shù)據(jù)規(guī)模較大的實(shí)驗(yàn)效果不明顯.

Fig. 3 The drug feature extraction model圖3 藥物特征提取模型

1.2 蛋白質(zhì)特征表示

本文沿用Lee等人[20]的方法對蛋白質(zhì)一級結(jié)構(gòu)氨基酸殘基序列進(jìn)行編碼,將字符形的序列嵌入到離散的整形向量中.本文對蛋白質(zhì)序列做了一步預(yù)處理,在本文所提各數(shù)據(jù)集中蛋白質(zhì)序列是由22類氨基酸混合組成,若以此作為文本,3個(gè)氨基酸片段作為詞劃分蛋白,便有22×22×22=10 648種組合,這便導(dǎo)致蛋白的特征矩陣過于稀疏.為解決這一問題,本文借用Che等人[33]使用的方案,根據(jù)生物化學(xué)的特性將22種氨基酸歸類為6種:a={H,R,K},b={D,E,N,Q},c={C,X},d={S,T,P,A,G,U},e={M,I,L,V},f={F,Y,W}.

這樣序列MSPLNQSAEGLPQEASNRSLN便可以轉(zhuǎn)化為eddebbddbdedbbddbadeb,該方法得到組合數(shù)為6×6×6=216種可顯著降低特征矩陣的維數(shù).同時(shí),本文使用DenseNet提取蛋白特征.DenseNet提出了一個(gè)非常激進(jìn)的密集連接機(jī)制,即互相連接所有的層.具體來說就是每個(gè)層都會接受其前面所有層作為其額外的輸入,每層都會與前面所有層在維度上連接在一起并作為下一層的輸入.對于一個(gè)L層的網(wǎng)絡(luò),DenseNet共包含(L+1)L/2個(gè)連接.如圖4所示,直接連接來自不同層的蛋白特征可有效提升實(shí)驗(yàn)的效率和精度.

本文采用1維卷積從上層模型提取特征,卷積提取特征的公式為

(5)

其中,函數(shù)x(t)和q(t)表示卷積的變量,p表示積分變量,t表示使函數(shù)q(t-p)位移的量,*表示卷積.蛋白質(zhì)序列信息在經(jīng)過特征嵌入、密集型卷積網(wǎng)絡(luò)、最大池化、全連接后轉(zhuǎn)變?yōu)?28維的特征向量,與藥物的特征向量一同放在分類模型中以預(yù)測PDI結(jié)果.

Fig. 4 The dense protein feature extraction model圖4 密集型蛋白特征提取模型

1.3 模型整體框架

本文方法的整體框架如圖5所示.該框架由3個(gè)部分組成:蛋白質(zhì)、藥物特征提取模塊以及預(yù)測PDI模塊.本文采用的是端到端的訓(xùn)練模型,即分類器與2個(gè)特征模型的訓(xùn)練任務(wù)同時(shí)進(jìn)行.流程包括:

Fig. 5 The overall framework of the proposed method圖5 本文方法框架

1) 藥物分子經(jīng)過2種特征嵌入后,由雙向門控循環(huán)單元和鄰域卷積先后抽取藥物特征,并對由卷積模塊所提取的蛋白特征做注意力權(quán)值增強(qiáng).具體做法即給定一個(gè)藥物分子特征向量Fdrug和蛋白質(zhì)子序列特征向量P=(P1,P2,…,Pi),隨后為其構(gòu)造一個(gè)關(guān)于Fdrug的注意力矩陣.根據(jù)不同注意力權(quán)重來計(jì)算不同子序列對藥物分子的重要性.公式為

(6)

2) 拼接蛋白質(zhì)特征和藥物特征,并用自注意力機(jī)制[38]對PDI信息進(jìn)行加權(quán)提取,具體做法即給定拼接后PDI特征向量cinter,訓(xùn)練一個(gè)自注意力矩陣Wself-atten對相互作用信息區(qū)域進(jìn)行加權(quán)學(xué)習(xí),公式為

(7)

本文將在3.2節(jié)對2塊注意力機(jī)制的使用效果進(jìn)行驗(yàn)證.

1.4 損失函數(shù)和模型優(yōu)化

本文使用交叉熵?fù)p失作為訓(xùn)練模型的損失函數(shù):

(8)

為了避免發(fā)生過擬合的情況,本文用L2范式作為懲罰項(xiàng)來約束模型的優(yōu)化:

(9)

其中,W和b是模型全局的權(quán)重和偏置,λ是懲罰因子.同時(shí)本文嵌入dropout層[40]來輔助解決這個(gè)問題.為兼顧訓(xùn)練的效率和分類的精度,本文用Adam優(yōu)化器[41]來更新模型的權(quán)值.

2 數(shù)據(jù)集

本文使用BindingDB,Kinase,Human,C.elegans這4個(gè)數(shù)據(jù)集來驗(yàn)證模型的效果.BindingDB是從大量科學(xué)文獻(xiàn)中采集的可公開訪問的蛋白質(zhì)藥物相互作用數(shù)據(jù)庫.在2018年,由Gao等人[42]按照以下規(guī)則從該數(shù)據(jù)庫中采集39 747個(gè)正樣本和31 218個(gè)負(fù)樣本制成用于評估PDI模型的BindingDB數(shù)據(jù)集.規(guī)則為:

1) 所記錄的藥物分子具有化學(xué)標(biāo)識符(PubChem CID)以及以smiles表示的化學(xué)結(jié)構(gòu);

2) 所記錄的蛋白質(zhì)也需具有數(shù)據(jù)標(biāo)識符(Uniprot ID)以及序列表示和基因本體注釋;

3) 記錄具有IC50值,即相互作用的主要指標(biāo);

4) 因?yàn)閷W⒂谛》肿铀幬铮械幕瘜W(xué)分子量均需小于1 000道爾頓;

5) 遵循Wang等人關(guān)于活動閾值的討論,若IC50小于100 nm則記為正,IC50大于10 000 nm則記為負(fù).

該數(shù)據(jù)集按如表1的方案來劃分訓(xùn)練、驗(yàn)證和測試的子集,其中驗(yàn)證和測試的子集包含訓(xùn)練集中未被觀察到配體或蛋白質(zhì)的PDI樣本.因此,BindingDB數(shù)據(jù)集可以評估模型對未知藥物和蛋白質(zhì)的魯棒性.

Kinase數(shù)據(jù)集是由Chen等人[27]基于KIBA數(shù)據(jù)集構(gòu)建而成,包含229個(gè)蛋白樣本和1 644個(gè)藥物樣本.KIBA數(shù)據(jù)集已涉及多種用于測試活性的評價(jià)機(jī)制.對比多種生物活性評分,可有效減少由人為因素給數(shù)據(jù)集造成的偏差.同時(shí)Kinase的負(fù)樣本遠(yuǎn)多于正樣本,如表2所示.

Table 1 The Distribution of BindingDB Dataset表1 BindingDB數(shù)據(jù)集分布

Table 2 The Distribution of Kinase Dataset表2 Kinase數(shù)據(jù)集分布

用此數(shù)據(jù)集可有效測試模型在樣本不平衡下的性能,而在實(shí)際藥物篩選過程中,沒有相互作用的樣本顯然比有相互作用的樣本多得多,因此模型在不平衡數(shù)據(jù)集下的表現(xiàn)也十分重要.

數(shù)據(jù)集Human和C.elegans是由Tsubaki等人[23]在2019年根據(jù)前人的工作匯總而成,其中Human數(shù)據(jù)集涵蓋852種人類蛋白以及1 052種藥物分子,數(shù)據(jù)共存有3 369個(gè)正樣本和2 843個(gè)高度可信的負(fù)樣本.C.elegans數(shù)據(jù)集包含2 504種線蟲蛋白和1 434種藥物分子,數(shù)據(jù)共存有4 000個(gè)正樣本和3 511個(gè)高度可信的負(fù)樣本.然而這2個(gè)數(shù)據(jù)集沒有劃分出訓(xùn)練和測試的子集,因此本文采用交叉驗(yàn)證的方式來評估模型在這2個(gè)數(shù)據(jù)集上的表現(xiàn).本文所有數(shù)據(jù)及所提出的模型程序[43]均可從github上獲取.

3 實(shí)驗(yàn)結(jié)果與討論

3.1 實(shí)驗(yàn)環(huán)境以及參數(shù)設(shè)置

本文實(shí)驗(yàn)所配置的硬件:采用的中央處理器和顯卡分別為Intel Core i7-8700k和NIVADA GeForce RTX 2060 s,并配用Windows10的操作系統(tǒng).本文在Python3環(huán)境下的Keras深度學(xué)習(xí)框架上訓(xùn)練和評估模型,并使用Sklearn等機(jī)器學(xué)習(xí)工具處理實(shí)驗(yàn)數(shù)據(jù).訓(xùn)練模型時(shí),超參數(shù)的設(shè)置對模型優(yōu)化有很大影響.本文優(yōu)先固定參數(shù)優(yōu)化的學(xué)習(xí)率,在此基礎(chǔ)上使用網(wǎng)格搜索法對其他各參數(shù)進(jìn)行尋優(yōu).多輪實(shí)驗(yàn)最終確定了模型的超參數(shù)設(shè)置,如表3所示:

Table 3 The Hyper-Parameter Settings表3 超參數(shù)設(shè)置

本文使用2個(gè)指標(biāo)評估各模型:

1) ROC曲線下的面積AUC.ROC曲線上的每個(gè)點(diǎn)是由2個(gè)指標(biāo)的值來確定坐標(biāo),即真陽率(true positive rate,TPR)和假陽率(false positive rate,FPR),TPR=TP/(TP+FN),FPR=FP/(TN+FP).其中TP表示陽例預(yù)測為正例子的個(gè)數(shù),F(xiàn)P表示陰例預(yù)測為正例子的個(gè)數(shù),TN表示陰例預(yù)測為負(fù)例子的個(gè)數(shù),F(xiàn)N表示陽例預(yù)測為負(fù)例子的個(gè)數(shù).

2) PR曲線下的面積AUPR.PR曲線上的每個(gè)點(diǎn)是由2個(gè)指標(biāo)的值來確定坐標(biāo),即精準(zhǔn)率(precision,P)和召回率(recall,R),P=TP/(TP+FP),R=TP/(TP+FN).

3.2 消融實(shí)驗(yàn)

本文仿照DeepconvDTI的方法提取藥物特征,即藥物的表征由Morgan向量構(gòu)成.結(jié)合本文所提模型在BindingDB數(shù)據(jù)集上的訓(xùn)練,在測試集上的最優(yōu)結(jié)果的AUC=0.954.經(jīng)調(diào)研發(fā)現(xiàn),僅用Morgan向量表征藥物易于忽視分子的亞結(jié)構(gòu)信息,而這部分內(nèi)容對量化藥物特征信息十分重要.因此,本文使用涵蓋藥物亞結(jié)構(gòu)信息的Mol2Vec向量對Morgan向量進(jìn)行補(bǔ)充,并用DenseNet多尺度提取分子特征進(jìn)一步優(yōu)化了模型,最優(yōu)結(jié)果AUC=0.963.該結(jié)果證實(shí)了藥物特征提取方法的優(yōu)化對模型整體預(yù)測能力的提升具有積極意義.

Riba等人[37]在研究圖網(wǎng)絡(luò)主動學(xué)習(xí)分子隱式結(jié)構(gòu)特征的過程中表明:消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing neural networks,MPNNs)可以幫助模型學(xué)習(xí)分子的結(jié)構(gòu)信息.在此基礎(chǔ)上,本文試圖添加分子平面結(jié)構(gòu)圖的特征來進(jìn)一步優(yōu)化模型,并在原框架基礎(chǔ)上添加MPNNs模塊,然而在BindingDB數(shù)據(jù)集上測試效果相比原先模型下降了0.5%,這并不符合本文的預(yù)期.經(jīng)仔細(xì)查閱發(fā)現(xiàn),在Riba等人的工作中,數(shù)據(jù)的規(guī)模相對較小,于是本文在Human和C.elegans數(shù)據(jù)集上做了相同的消融實(shí)驗(yàn),結(jié)果如表4所示:

Table 4 The Ablation Study Based on Four Datasets表4 基于4個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)

實(shí)驗(yàn)發(fā)現(xiàn),添加MPNNs模型,會使模型整體在Human數(shù)據(jù)集和C.elegans數(shù)據(jù)集上提升0.2%,而在規(guī)模相對較大的BindingDB數(shù)據(jù)集和Kinase數(shù)據(jù)集上的效果分別下降了0.1%和0.2%.對此本文根據(jù)訓(xùn)練周期(epoch)的更迭,在BindingDB和Human數(shù)據(jù)集上繪制了不同藥物特征組合下的樣本類內(nèi)距離和類間距離的變化趨勢圖.樣本類內(nèi)距離和類間距離計(jì)算公式為

(10)

(11)

根據(jù)圖6所示,在數(shù)據(jù)規(guī)模相對較大的BindingDB數(shù)據(jù)集中,僅使用Morgan指紋和Mol2Vec向量結(jié)合量化特征,會讓樣本隨著epoch的迭代類間距變得更遠(yuǎn)、類內(nèi)距離變得更近,這為分類器的判別提供了很大的便利.而添加MPNNs模型后在BindingDB數(shù)據(jù)集上的效果略微下降,但在Human數(shù)據(jù)集上的效果卻有所提升,也從側(cè)面論證了MPNNs的介入有益于模型在中小規(guī)模數(shù)據(jù)下的收斂,但對數(shù)據(jù)規(guī)模較大的實(shí)驗(yàn)效果不明顯.

Fig. 6 The trend of intra-class distances and inter-class distances圖6 類內(nèi)距離和類間距離趨勢圖

確定了提取藥物特征的模塊后,據(jù)多輪實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),使用雙方向門控循環(huán)單元做分類模塊的性能最佳.在此基礎(chǔ)上,本文開始研究如何利用注意力模塊增強(qiáng)模型對重要信息的感知.如表4的方法4~7所示,模型在BindingDB測試集上的初始AUC=0.951.本文試圖增強(qiáng)蛋白特征與對應(yīng)藥物特征的關(guān)聯(lián)性,便在兩者之間添加注意力模塊,其結(jié)果相比初始AUC提升了0.3%.在此基礎(chǔ)上,本文通過自注意力模塊對合并的特征向量進(jìn)行重要信息加權(quán)將模型的性能提升到最佳,其測試的AUC=0.963.除此之外,本文也附加僅添加自注意力模塊的實(shí)驗(yàn)和在其他數(shù)據(jù)集上的測試結(jié)果,發(fā)現(xiàn)在各數(shù)據(jù)集上自注意力模塊都可以使模型的精度提升近1%.

3.3 對比實(shí)驗(yàn)

本文用4個(gè)數(shù)據(jù)集檢驗(yàn)所提模型,并與前人所提的同類模型進(jìn)行對比實(shí)驗(yàn),其中包括Tsubaki工作中提到的最近鄰模型(KNN)、隨機(jī)森林(RF)、L2邏輯回歸、支持向量機(jī)以及CPI-GNN模型,不過因?yàn)樵谖墨I(xiàn)[23]中未涉及除了CPI-GNN以外的各個(gè)模型的參數(shù)細(xì)節(jié),所以除了Human和C.elegans數(shù)據(jù)集外本文不再討論前4類模型的性能.此外,本文還添加由Nguyen等人[24]提出的GraphDTA模型、由Lee等人[20]提出的DeepConvDTI模型以及由Chen等人[27]提出的GCN模型和TransformerCPI模型的討論.值得注意的是,這些模型均是近年來PDI預(yù)測的典型模型.

如表5所示,本文依次在BindingDB數(shù)據(jù)集上比較提到的GraphDTA,GCN,CPI-GNN,Trans-formerCPI,DeepConvDTI和本文所提模型,前4個(gè)模型結(jié)果均從文獻(xiàn)[27]中獲取,DeepConvDTI模型與本文所提模型的結(jié)果都是在實(shí)驗(yàn)中經(jīng)過調(diào)整參數(shù)所得到的最優(yōu)結(jié)果.從表5可清晰地發(fā)現(xiàn),本文所提模型的預(yù)測結(jié)果比當(dāng)前前沿模型更佳;AUC較基線水準(zhǔn)提升了0.019,與TransformerCPI相比提升了0.012.

Table 5 Comparative Experiments on BindingDB Dataset表5 BindingDB數(shù)據(jù)集上的對比實(shí)驗(yàn)

在實(shí)際應(yīng)用中,蛋白質(zhì)和藥物相互作用的負(fù)例個(gè)數(shù)遠(yuǎn)超正例個(gè)數(shù),因此控制負(fù)例樣本遠(yuǎn)多于正例樣本更貼合實(shí)際情形.為驗(yàn)證模型在這一情形上的性能,本文在Kinase數(shù)據(jù)集上與文獻(xiàn)[27]所涉及的各個(gè)模型進(jìn)行對比.在第2節(jié)詳細(xì)介紹了Kinase數(shù)據(jù)集因樣本不平衡問題導(dǎo)致很多模型在此數(shù)據(jù)集上很難收斂.而從表6可以發(fā)現(xiàn),與另外4個(gè)模型相比,本文方法在仿真的不平衡數(shù)據(jù)集上的表現(xiàn)依舊優(yōu)異,具備突出的實(shí)際應(yīng)用價(jià)值.

Table 6 Comparative Experiments on Kinase Dataset表6 Kinase數(shù)據(jù)集上的對比實(shí)驗(yàn)

最后,本文再次在廣泛使用的Human和C.elegans數(shù)據(jù)集上評估新模型的性能.由于這2個(gè)數(shù)據(jù)集未劃分出用于訓(xùn)練和測試的子集,本文采用交叉驗(yàn)證的方式評估各個(gè)模型.為了證明實(shí)驗(yàn)結(jié)果具備比較價(jià)值,本文劃分?jǐn)?shù)據(jù)的方式與前人相同,即按4∶1的比例劃分訓(xùn)練集和測試集,評估體系也與Tsubaki等人[23]保持一致.本文將數(shù)據(jù)次序打亂隨機(jī)劃分了10次,實(shí)驗(yàn)結(jié)果的均值和方差分別如表7和表8所示.結(jié)果足以證明,本文方法在精確度以及穩(wěn)定性上相比其他同類模型都更為優(yōu)異.

Table 7 Comparative Experiments on Human Dataset表7 Human數(shù)據(jù)集上的對比實(shí)驗(yàn)

因?yàn)镃.elegans數(shù)據(jù)集樣本種類豐富、樣本彼此的相似度很高,所以各深度模型在該數(shù)據(jù)集上的表現(xiàn)都很好.但從表8可以看出,在交叉驗(yàn)證下,本文所提模型在該數(shù)據(jù)集上的表現(xiàn)更為穩(wěn)定一些.

與當(dāng)前前沿模型相比,本文所提模型在4個(gè)公開數(shù)據(jù)集上均能取得最佳的識別效果,一定程度上可以驗(yàn)證其優(yōu)越性.為了更好地展示模型的實(shí)際價(jià)值,本文將在3.4節(jié)根據(jù)具體的醫(yī)學(xué)案例,介紹所提模型的使用方法并給出仿真實(shí)驗(yàn)的結(jié)果.

Table 8 Comparative Experiments on C.elegans Dataset表8 C.elegans數(shù)據(jù)集上的對比實(shí)驗(yàn)

3.4 模型在篩選治愈阿爾茲海默癥藥物的應(yīng)用

癡呆癥是公共衛(wèi)生管理中最值得關(guān)注的問題之一,而80%以上的癡呆癥患者患有阿爾茨海默病(AD)[44].然而,當(dāng)前普及的治療方案僅可起緩解作用,無法根據(jù)病理學(xué)使患者痊愈或逆轉(zhuǎn)患者的疾病進(jìn)程.因此,當(dāng)前醫(yī)學(xué)界仍急需一種可延緩或阻止疾病進(jìn)展的新型治療方案.神經(jīng)遞質(zhì)乙酰膽堿(ACh)的減少導(dǎo)致膽堿能神經(jīng)元的丟失在醫(yī)學(xué)界是公認(rèn)的AD病因,而通過抑制乙酰膽堿酯酶(AChE)可以提升ACh的水平,以此提高患者的認(rèn)知能力[43].

雖然乙酰膽堿酯酶(AChE)在疾病晚期的活性會降低,但與圖7所示的AChE結(jié)構(gòu)類似的丁酰膽堿酯酶(BuChE)含量在疾病晚期會有增加的可能[36],而BuChE的含量增加也會水解ACh從而再次加重患者的病情.敲除乙酰膽堿酯酶基因的小鼠實(shí)驗(yàn)[45]支持了這一假設(shè),也證實(shí)了通過抑制BuChE可以改善認(rèn)知能力以及提升患者的記憶力.因此,尋找抑制AChE和BuChE的靶向藥物是治療AD的關(guān)鍵方向.根據(jù)這一理論,本文將所提出的模型設(shè)計(jì)成一套可應(yīng)用的藥物篩選工具[46],并用之篩選抑制AChE和BuChE的藥物.具體操作步驟:1)將待測蛋白質(zhì)序列數(shù)據(jù)與大量的藥物分子式數(shù)據(jù)同時(shí)放入篩選工具中;2)系統(tǒng)會根據(jù)訓(xùn)練好的模型對藥物進(jìn)行篩選;3)系統(tǒng)會給出Top15的藥物序號,并將這些藥物與待測蛋白質(zhì)相互作用的預(yù)測結(jié)果以直方圖的形式自高而低展現(xiàn).為了證實(shí)文本所提模型的價(jià)值,在該項(xiàng)任務(wù)中選擇用于測試的藥物分子均不在訓(xùn)練集中,但需要指明的是,訓(xùn)練集中包含AChE的序列數(shù)據(jù)但不包含BuChE的序列數(shù)據(jù),而AChE序列與BuChE序列相似性為65%.當(dāng)然,PDI預(yù)測模型的核心原理是通過學(xué)習(xí)已有的蛋白質(zhì)藥物相互作用關(guān)系并從中擬合出一個(gè)規(guī)律函數(shù)來推斷未知的相互作用關(guān)系.所以,如果測試的樣本與訓(xùn)練的內(nèi)容毫無關(guān)聯(lián),那么其推斷的依據(jù)便失去了理論支撐.

Fig. 7 Mimic diagram of protein-drug interaction圖7 蛋白質(zhì)-藥物相互作用模擬圖

本文借用Kumar等人[47]提供的藥物數(shù)據(jù)作為測試的目標(biāo),測試數(shù)據(jù)中包含的35種化合物是由Kumar等人[47]在Asinex庫中手動篩選出的,具有高度可信性.文獻(xiàn)[47]中給出了藥物分子的2維結(jié)構(gòu)式以及Asinex編號,本文通過相關(guān)編號以及藥物的結(jié)構(gòu)式在PubChem上檢索出用于預(yù)測PDI的SMILES式.同時(shí),Kumar給出了這部分藥物分子對AChE和BuChE的抑制率(inhibition rate,IR),本文按照其定義的準(zhǔn)則,將IR<0.5記為無相互作用,IR>0.5記為有相互作用,獲得的最終測試數(shù)據(jù)如表9所示.

值得注意的是,測試藥物皆不存在于訓(xùn)練集中,但訓(xùn)練集中不排除具有相似結(jié)構(gòu)以及相同官能團(tuán)的藥物分子.根據(jù)系統(tǒng)的預(yù)測結(jié)果,本文按預(yù)測值高低將分子序號排列,得到Top15的直方圖.如圖8所示,其中灰色直方圖表示在原數(shù)據(jù)中該藥物與測試酶具有相互作用,條紋直方圖表示原數(shù)據(jù)中該藥物與測試酶沒有相互作用.

Table 9 The Manual Screening Drug Data Sets of AChE and BuChE Inhibition表9 手動篩選的AChE和BuChE抑制藥物數(shù)據(jù)集

Fig. 8 The test results of protein-drug interaction圖8 蛋白藥物相互作用測試結(jié)果

由圖8可以看出,有相互作用的蛋白質(zhì)藥物組合基本存在于預(yù)測的Top15范圍內(nèi),說明本文提供的模型具有實(shí)際的應(yīng)用性.但不排除部分僅可抑制丁酰膽堿酯酶的藥物在預(yù)測和乙酰膽堿酯酶相互作用時(shí)成正相互作用,這在所難免.具備相似氨基酸序列的蛋白質(zhì),其與藥物相互作用的預(yù)測值也十分貼近,近似結(jié)構(gòu)蛋白具備近似生物活性是預(yù)測PDI的重要理論支撐點(diǎn)但也是難以區(qū)分細(xì)節(jié)差異的原因,同時(shí)也是當(dāng)前深度模型僅能做藥物篩選而不能做藥物設(shè)計(jì)的原因.想實(shí)現(xiàn)端到端模型設(shè)計(jì)藥物分子還需更深入的研究.

4 結(jié) 論

本文提出了一種基于自注意力機(jī)制和多藥物特征融合的蛋白質(zhì)-藥物相互作用預(yù)測算法.首先,合理融合基于藥物分子結(jié)構(gòu)特征的Morgan指紋、Mol2Vec表示向量以及消息傳遞網(wǎng)絡(luò)所提特征;隨后,將融合結(jié)果對由密集型卷積所提取的蛋白特征做注意力加權(quán);最后綜合兩者特征,利用自注意力機(jī)制和雙向門控循環(huán)單元預(yù)測蛋白質(zhì)藥物相互作用.本文在BindingDB,Kinase,Human,C.elegans這4個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,無論是與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比還是與當(dāng)前各深度學(xué)習(xí)算法相比,本文的算法都明顯更優(yōu).同時(shí),本文根據(jù)所訓(xùn)練模型針對抑制丁酰膽堿酯酶和乙酰膽堿酯酶做藥物篩選實(shí)驗(yàn).結(jié)果表明,本文所提模型具備可靠的應(yīng)用性,但依然存在提升空間.首先,與其他基于深度學(xué)習(xí)的方法類似,黑盒模型依舊缺乏可解釋性[48].其次,利用同源蛋白以及相似結(jié)構(gòu)藥物具備相似生物活性原理預(yù)測PDI和解決由細(xì)節(jié)差異帶來藥性影響的問題存有矛盾,當(dāng)前還缺乏對此的深入研究.未來,會基于這2個(gè)問題繼續(xù)探索,不斷為藥物篩選工作提供新的解決方案.

作者貢獻(xiàn)聲明:華陽負(fù)責(zé)數(shù)據(jù)采集、實(shí)驗(yàn)設(shè)計(jì)、編程實(shí)現(xiàn)和論文撰寫;李金星負(fù)責(zé)數(shù)據(jù)采集和實(shí)驗(yàn)設(shè)計(jì);馮振華參與論文修改;宋曉寧負(fù)責(zé)實(shí)驗(yàn)指導(dǎo),參與論文修改;孫俊參與論文修改;於東軍參與實(shí)驗(yàn)指導(dǎo)和論文修改.

猜你喜歡
集上卷積蛋白質(zhì)
幼雞怎么喂蛋白質(zhì)飼料
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
人工智能與蛋白質(zhì)結(jié)構(gòu)
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
卷積神經(jīng)網(wǎng)絡(luò)概述
幾道導(dǎo)數(shù)題引發(fā)的解題思考
2008年高考考前模擬試題(二)及略解
桃园县| 慈溪市| 凤翔县| 新营市| 秀山| 贵阳市| 蓝山县| 西乌| 金坛市| 长寿区| 改则县| 泰州市| 高台县| 如东县| 沭阳县| 额尔古纳市| 江永县| 年辖:市辖区| 民县| 绥宁县| 平顶山市| 德保县| 夹江县| 江西省| 乌拉特前旗| 青海省| 南充市| 孝义市| 甘泉县| 高密市| 伊金霍洛旗| 昌江| 德清县| 石林| 高邮市| 阳山县| 科尔| 开鲁县| 太和县| 赣州市| 宜黄县|