国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)和局部描述符的大規(guī)模蛋白質(zhì)互作預(yù)測(cè)方法

2019-04-15 07:46:22桂元苗王儒敬魏圓圓
關(guān)鍵詞:氨基酸準(zhǔn)確率蛋白質(zhì)

桂元苗 王儒敬 王 雪,3 魏圓圓

1(中國科學(xué)院合肥物質(zhì)科學(xué)研究院智能機(jī)械研究所 安徽 合肥 230031) 2(中國科學(xué)技術(shù)大學(xué)信息技術(shù)學(xué)院 安徽 合肥 230026) 3(中國科學(xué)院合肥物質(zhì)科學(xué)研究院技術(shù)生物與農(nóng)業(yè)工程研究所 安徽 合肥 230031)

0 引 言

蛋白質(zhì)相互作用PPI是生物體中眾多生命活動(dòng)過程的重要組成部分,在許多細(xì)胞生物學(xué)過程中起著重要的作用。新陳代謝、信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞周期調(diào)控、新陳代謝、細(xì)胞凋亡及免疫應(yīng)答等一系列生命活動(dòng)都是通過蛋白質(zhì)相互作用實(shí)現(xiàn)的。蛋白質(zhì)互作預(yù)測(cè)是研究蛋白質(zhì)互作的重要途徑。近幾年涌現(xiàn)了諸多預(yù)測(cè)蛋白質(zhì)相互作用的高通量實(shí)驗(yàn)方法,例如:酵母雙雜交方法[1]、質(zhì)譜蛋白質(zhì)復(fù)合物鑒別[2]、質(zhì)譜分析[3]以及蛋白質(zhì)芯片方法[4]等。然而,這些使用化學(xué)實(shí)驗(yàn)的方法,需要耗費(fèi)大量的人力、財(cái)力和時(shí)間,難以應(yīng)用于大規(guī)模的蛋白互作預(yù)測(cè)。機(jī)器學(xué)習(xí)的出現(xiàn),使大規(guī)模的蛋白互作預(yù)測(cè)成為可能。到目前為止,已經(jīng)出現(xiàn)的大量機(jī)器學(xué)習(xí)模型,包括支持向量SVM[5]、神經(jīng)網(wǎng)絡(luò)NN(Neural Networks)[6]、樸素貝葉斯[7]、K-最近鄰[8]等已經(jīng)被用來預(yù)測(cè)PPI。 盡管上述PPI預(yù)測(cè)方法很流行,但仍然存在一定的局限性,一般的機(jī)器學(xué)習(xí)模型無法很好地處理蛋白序列噪聲輸入中的隱性關(guān)聯(lián)[9-11]。深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),為這類問題提供了強(qiáng)有力的解決方案。

深度神經(jīng)網(wǎng)絡(luò)(DNN)是機(jī)器學(xué)習(xí)中最活躍的領(lǐng)域之一,可自動(dòng)從數(shù)據(jù)中提取高層抽象信息,用于復(fù)雜預(yù)測(cè)任務(wù),如語音和圖像識(shí)別[12]、自然語言理解[13]、決策制定[14]以及最近的計(jì)算生物學(xué)[15-17]。Leung等[16]利用深度神經(jīng)網(wǎng)絡(luò)和rna-seq數(shù)據(jù),建立了一個(gè)預(yù)測(cè)個(gè)體組織和組織間剪接模式差異的模型;Zhou等[17]使用深度神經(jīng)網(wǎng)絡(luò)開發(fā)了深度學(xué)習(xí)框架(DeepSEA http://deepsea.princeton.edu/)。該框架可以從染色質(zhì)譜分析序列中學(xué)習(xí)調(diào)控序列代碼,并且可以改進(jìn)功能變體的優(yōu)先級(jí)。與基于序列的其他機(jī)器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)具有幾個(gè)優(yōu)點(diǎn):(1) Bengio等[18]證明深度神經(jīng)網(wǎng)絡(luò)能夠減少噪聲對(duì)原始數(shù)據(jù)的影響,并學(xué)習(xí)真正隱藏的高層特征;(2) Alipanahi等[19]發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)可以使用各種實(shí)驗(yàn)數(shù)據(jù)和評(píng)估指標(biāo)自動(dòng)學(xué)習(xí)蛋白質(zhì)的特定序列基序;(3) Krizhevsky等[20]人為地將噪聲引入基于深度神經(jīng)網(wǎng)絡(luò)的方法來減少過度擬合,并且揭示深度神經(jīng)網(wǎng)絡(luò)可以增強(qiáng)模型泛化。最近,深度神經(jīng)網(wǎng)絡(luò)用于蛋白網(wǎng)絡(luò)互作也取得了良好的結(jié)果[15,21],Tian等[21]提出了一種稱為DL-CPI(復(fù)合蛋白質(zhì)相互作用預(yù)測(cè)的深度學(xué)習(xí)的縮寫)的方法。該方法使用深度神經(jīng)網(wǎng)絡(luò)通過分層提取來學(xué)習(xí)復(fù)合蛋白對(duì)的有用特征,從而在平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集上取得了比現(xiàn)有方法更好的預(yù)測(cè)性能,有效地提高復(fù)合蛋白互作的預(yù)測(cè)性能。Du等[15]使用深度神經(jīng)網(wǎng)絡(luò)基于氨基酸序列來研究蛋白互作預(yù)測(cè),并分別獲得了92.50%的準(zhǔn)確率和90.50%的召回率。盡管深度神經(jīng)網(wǎng)絡(luò)算法在蛋白質(zhì)互作預(yù)測(cè)中取得了成功的結(jié)果,但基于深度神經(jīng)網(wǎng)絡(luò)和局部描述符的蛋白互作預(yù)測(cè)的研究很少見。

本文首先采用局部描述符將蛋白質(zhì)序列編碼成固定長度的向量,并隨機(jī)分成訓(xùn)練集和測(cè)試集;然后將訓(xùn)練集輸入深度神經(jīng)網(wǎng)絡(luò),調(diào)整并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)率、丟棄率等模型參數(shù),訓(xùn)練蛋白互作預(yù)測(cè)模型DPPI;最后DPPI模型經(jīng)過測(cè)試和驗(yàn)證用于蛋白質(zhì)互作預(yù)測(cè),并將預(yù)測(cè)的結(jié)果和前人的蛋白質(zhì)互作預(yù)測(cè)方法進(jìn)行比較。

1 基礎(chǔ)方法

1.1 局部描述符

深度學(xué)習(xí)等機(jī)器學(xué)習(xí)方法的輸入均為某一維數(shù)空間中的向量。為使深度學(xué)習(xí)方法學(xué)習(xí)并預(yù)測(cè)蛋白互作關(guān)系成為可能,必然要求將長度不統(tǒng)一的蛋白序列編碼成某一維數(shù)空間中的向量。為了將蛋白質(zhì)序列編碼成維數(shù)相同的空間向量,Yang等[22]首次將局部描述符LD(Local Descriptor)應(yīng)用于蛋白互作預(yù)測(cè),在酒釀酵母數(shù)據(jù)集上達(dá)到86.15%的準(zhǔn)確率。LD[23]是一種無需序列比對(duì)的方法,其效果在很大程度上取決于潛在的氨基酸分類。首先,依據(jù)氨基酸側(cè)鏈的偶極性和體積將20種氨基酸分成7組(見表1),并將蛋白序列中的所有氨基酸替換成對(duì)應(yīng)的分組編碼。例如,蛋白序列“MESSKKMDSPGALQTNP”轉(zhuǎn)換成“363355363211

24342”。

表1 基于側(cè)鏈的偶極子和體積的氨基酸分類

然后,依據(jù)氨基酸官能團(tuán)在蛋白質(zhì)初級(jí)序列中發(fā)生的變化計(jì)算Composition(C)、Transition(T)和Distribution(D)。其中:Composition為各組氨基酸在整條蛋白序列中所占的比例;Transition指一組氨基酸中的氨基酸殘基和另外一組氨基酸中的氨基酸殘基相鄰的頻率;Distribution指在一條蛋白質(zhì)序列中每組氨基酸的氨基酸殘基數(shù)目的第一個(gè)、25%、50%、75%和100%在整個(gè)蛋白質(zhì)序列中所占位置的比例。所以一個(gè)氨基酸片段可以用63維的向量表示:7(計(jì)算C得到的)+21(計(jì)算T得到的(7×6)/2)+35(計(jì)算D得到的7×5)。

為了更好地從蛋白質(zhì)的氨基酸片段中捕捉蛋白質(zhì)相互作用信息,本實(shí)驗(yàn)將每條蛋白質(zhì)序列劃分為10個(gè)局部區(qū)域(A-J),見圖1。區(qū)域(A-D)是把一條蛋白質(zhì)序列分成四個(gè)相等的區(qū)域;區(qū)域(E-F)是把一條蛋白質(zhì)序列分成二個(gè)相等的區(qū)域;區(qū)域G表示位于蛋白質(zhì)序列中間的50%氨基酸片段;區(qū)域H表示整條蛋白質(zhì)序列的前75%的氨基酸片段;區(qū)域I表示整條蛋白質(zhì)序列的后75%的氨基酸片段;區(qū)域J表示整條蛋白質(zhì)序列的中間75%的氨基酸片段。一條蛋白質(zhì)序列的所有局部區(qū)域氨基酸片段的編碼,串聯(lián)在一起就形成了一條蛋白質(zhì)序列的編碼,得到630維向量。因此,本文構(gòu)造了一個(gè)1 260維向量來表示每個(gè)蛋白質(zhì)對(duì),并將其作為DPPI模型的輸入向量。

圖1 一條蛋白質(zhì)劃分為10個(gè)區(qū)域的劃分方法示意圖

1.2 深度神經(jīng)網(wǎng)絡(luò)

DNN是指一組模仿人類大腦設(shè)計(jì)的,旨在識(shí)別模式的算法。DNN由輸入層、一個(gè)或多個(gè)隱藏層以及輸出層三部分組成,如圖2所示。一般來說,第一層是輸入層,最后一層是輸出層,而中間的層都是隱藏層。相鄰層之間全連接,即第i層的任意一個(gè)神經(jīng)元與第i+1層的任意一個(gè)神經(jīng)元相連。DNN類似于一般的人工神經(jīng)網(wǎng)絡(luò),然而,隱藏層的數(shù)量和訓(xùn)練過程是不同的。Hinton等[24]利用預(yù)訓(xùn)練方法緩解了局部最優(yōu)解問題,將隱含層推動(dòng)到了7層后,DNN才有了真正意義上的“深度”。DNN在輸入層接收數(shù)據(jù),在各個(gè)節(jié)點(diǎn)中將輸入數(shù)據(jù)與權(quán)重相結(jié)合以非線性方式轉(zhuǎn)換這些數(shù)據(jù),通過計(jì)算平均梯度并相應(yīng)地調(diào)整權(quán)重和激活函數(shù),最后在輸出層計(jì)算最終輸出。

圖2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

雖然DNN很復(fù)雜,但是從局部模型來說,還是和感知機(jī)一樣,由一個(gè)線性關(guān)系加上一個(gè)非線性激活函數(shù)組成,用矩陣法表示,第l層的輸出為:

al=δ(Zi)=δ(wlal-1+bl)

(1)

式中:l=1,2,…,N;al-1是第l層的輸入數(shù)據(jù);wl是第(l-1)層和第l層之間的連接權(quán)重矩陣;bl是第l層的偏置,δ表示第l層的激活函數(shù)。

目前,在DNN中,通常使用ReLU(Rectified linear unit)作為神經(jīng)元的激活函數(shù)。如式(2)所示,ReLU具有單側(cè)抑制特性,把所有的負(fù)值都變?yōu)?,而正值不變。這種單側(cè)抑制會(huì)使神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元具有稀疏激活性,實(shí)現(xiàn)稀疏后的模型能夠更好地挖掘相關(guān)特征和擬合訓(xùn)練數(shù)據(jù)。

δ(z)=max(0,z)

(2)

2 模型構(gòu)建

2.1 數(shù)據(jù)集

本實(shí)驗(yàn)采用由Pan等[30]發(fā)布于http://www.csbio.sjtu.edu.cn/bioinf/LR_PPI/Data.htm的人類蛋白序列對(duì)數(shù)據(jù)集。該數(shù)據(jù)集包含36 630條陽性樣本(有互作關(guān)系蛋白質(zhì)序列對(duì))和36 480條陰性樣本(無互作關(guān)系蛋白質(zhì)序列對(duì))。其中:陽性樣本取自人類蛋白質(zhì)參考數(shù)據(jù)庫(HPRD)2007版;陰性樣本取自瑞士Swiss-Prot數(shù)據(jù)庫57.3版。

實(shí)驗(yàn)側(cè)重20種常見氨基酸組成的蛋白質(zhì)序列,并且蛋白質(zhì)序列編碼方法要求蛋白質(zhì)序列的長度不易太短。所以,實(shí)驗(yàn)過程中除去蛋白質(zhì)序列長度少于50及含有B、J、O、U、X、Z的蛋白質(zhì)序列對(duì),得到36 591對(duì)陽性樣本和36 324對(duì)陰性樣本,分別從陽性樣本和陰性樣本隨機(jī)選取30 000條蛋白質(zhì)序列對(duì)組成訓(xùn)練集,剩下的12 915條蛋白質(zhì)序列對(duì)作為測(cè)試集。

2.2 性能評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、召回率(Recall)、損失率(Loss)和受試者工作特征曲線下面積AUC四個(gè)指標(biāo)來評(píng)價(jià)模型性能。其中準(zhǔn)確率和召回率計(jì)算公式如下:

(3)

(4)

式中:TP、TN、FP和FN分別代表真正、真負(fù)、假正和假負(fù)。AUC通過開源代碼計(jì)算[37]。損失率是用來衡量模型的實(shí)際輸出與期望輸出的距離,損失函數(shù)越小,表示兩個(gè)概率分布就越接近,模型的擬合性和魯棒性就越好。損失率通過交叉熵函數(shù)計(jì)算公式如下:

(5)

2.3 構(gòu)建流程

DPPI模型是基于Tensorflow平臺(tái)在Python環(huán)境下構(gòu)建的,其構(gòu)建流程如圖3所示。主要包括以下幾步:首先,使用LD分別對(duì)有關(guān)序列對(duì)和無關(guān)序列對(duì)的氨基酸序列進(jìn)行編碼,生成有關(guān)序列集和無關(guān)序列集;其次,使用隨機(jī)選擇的60 000條訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,生成DPPI模型;接著,使用剩下的12 915條測(cè)試集數(shù)據(jù)對(duì)DPPI模型進(jìn)行測(cè)試;最后,對(duì)DPPI模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià),并根據(jù)評(píng)價(jià)結(jié)果調(diào)整參數(shù),優(yōu)化DPPI模型。

圖3 DPPI模型構(gòu)建流程圖

2.4 參數(shù)調(diào)整

參數(shù)調(diào)整是模型訓(xùn)練過程中很重要的一步,是訓(xùn)練出健壯模型的關(guān)鍵要素之一。實(shí)驗(yàn)中,激活函數(shù)使用ReLU、優(yōu)化器選擇Adam、代價(jià)函數(shù)使用交叉熵。在優(yōu)化器方面,目前已經(jīng)開發(fā)了諸如RMSprop,Adagrad[27]和Adam[28]等優(yōu)化方法,其中,Adam集合了RMSprop和Adagrad兩個(gè)算法的優(yōu)點(diǎn),能夠較好地處理噪聲樣本。交叉熵代價(jià)函數(shù)是用來衡量深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值與實(shí)際值的一種方式,可以彌補(bǔ)sigmoid型函數(shù)的導(dǎo)數(shù)形式易發(fā)生飽和的缺陷,使訓(xùn)練更快收斂。

學(xué)習(xí)率決定了權(quán)值更新的速度,設(shè)置得太大易越過最優(yōu)值,出現(xiàn)振蕩現(xiàn)象;太小會(huì)使下降速度過慢,長時(shí)間無法收斂。因此,學(xué)習(xí)率直接決定著算法的性能表現(xiàn)。Bengio[29]認(rèn)為一般常用的學(xué)習(xí)率有0.000 01、0.000 1、0.001、0.01、0.1,推薦使用的是0.01,同時(shí)Bengio也指出,學(xué)習(xí)率的選擇要根據(jù)數(shù)據(jù)集的大小、特征提取方法等實(shí)際情況來確定。實(shí)驗(yàn)中,設(shè)定隱含層節(jié)點(diǎn)數(shù)為64、激活函數(shù)為ReLU、優(yōu)化算法為Adam、批處理大小為128、迭代次數(shù)為300 000次,調(diào)整學(xué)習(xí)率的結(jié)果如表2所示。可以看出,學(xué)習(xí)率為0.001時(shí)的準(zhǔn)確率最高、平均損失最小。

表2 DPPI模型學(xué)習(xí)率的調(diào)整

為了確定模型的寬度,設(shè)定激活函數(shù)為ReLU、優(yōu)化算法為Adam、學(xué)習(xí)率為0.001、批處理大小為128、迭代次數(shù)為300 000次,調(diào)整模型寬度的結(jié)果如表3所示??梢钥闯觯瑢挾葹?12時(shí),模型的準(zhǔn)確率最高,同時(shí)訓(xùn)練時(shí)間比寬度為256時(shí)增加了近一倍,而準(zhǔn)確率、平均損失分別比寬度為256時(shí)僅僅提高了0.003 1、0.001 3,考慮到時(shí)間復(fù)雜度,本模型寬度選擇256。

表3 DPPI模型寬度的調(diào)整

模型的寬度、激活函數(shù)、優(yōu)化算法、學(xué)習(xí)率等確定之后,本文通過調(diào)整隱含層層數(shù)來確定模型的深度,調(diào)整深度的結(jié)果如表4所示。根據(jù)表4,可知網(wǎng)絡(luò)深度為[256-128-64-32]時(shí)的準(zhǔn)確率較高、平均損失較低,訓(xùn)練時(shí)間較短。

表4 DPPI模型深度的調(diào)整

丟棄率是DNN中防止過擬合、提高性能的一個(gè)很重要的參數(shù)。為了優(yōu)化DPPI模型,本文通過調(diào)整丟棄率得到7個(gè)預(yù)測(cè)模型,各預(yù)測(cè)模型的最優(yōu)結(jié)果如表5所示。從表5可知,丟棄率為0.025時(shí)準(zhǔn)確率最高,達(dá)到96.81%,平均損失為15.72%;丟棄率為0.05時(shí),準(zhǔn)確率比丟棄率為0.025時(shí)的準(zhǔn)確率降低了0.08%,同時(shí)平均損失降低了2.52%;不使用丟棄率時(shí),準(zhǔn)確率、AUC、Recall、平均損失分別為95.84%、97.44%、98.25%、45.38%。雖然不使用丟棄率時(shí)準(zhǔn)確率和使用丟棄率時(shí)準(zhǔn)確率差別不大,但不使用丟棄率的平均損失較高,所以不推薦使用。由此,DPPI-2和DPPI-3的性能較好,可以作為DPPI的最終預(yù)測(cè)模型。

表5 DPPI模型的最優(yōu)預(yù)測(cè)性能

經(jīng)過超參數(shù)調(diào)整后,本文構(gòu)建了一個(gè)包含4個(gè)隱藏層,各隱藏層節(jié)點(diǎn)數(shù)分別為256、128、64、32的DPPI模型。經(jīng)過大量實(shí)驗(yàn)和調(diào)試,總結(jié)了本實(shí)驗(yàn)采用的參數(shù),如表6所示。

表6 DPPI模型參數(shù)表

3 實(shí) 驗(yàn)

3.1 DPPI模型實(shí)驗(yàn)

參照表6的DPPI模型參數(shù),根據(jù)使用和不使用丟棄率以及不同的丟棄率值,使用7個(gè)不同的DPPI模型進(jìn)行計(jì)算。每個(gè)模型各迭代60萬次,每1萬次輸出一個(gè)測(cè)試結(jié)果,各輸出60個(gè)實(shí)驗(yàn)結(jié)果。所有實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)值見表7??梢钥吹剑珼PPI-2的準(zhǔn)確率最高,DPPI-1和DPPI-3稍微次之。DPPI-3的AUC、召回率和平均損失這三個(gè)指標(biāo)比其他6組表現(xiàn)更優(yōu)異。特別地,DPPI-3的平均損失(15.34%)比DPPI-2的平均損失(16.99%)降低了1.65%。

表7 DPPI模型預(yù)測(cè)性能平均值

圖4為7個(gè)DPPI預(yù)測(cè)模型不同評(píng)價(jià)指標(biāo)的趨勢(shì)圖。其中:1代表DPPI-1預(yù)測(cè)指標(biāo)趨勢(shì)圖;2代表DPPI-2預(yù)測(cè)指標(biāo)趨勢(shì)圖;3代表DPPI-3預(yù)測(cè)指標(biāo)趨勢(shì)圖;4代表DPPI-4預(yù)測(cè)指標(biāo)趨勢(shì)圖;5代表DPPI-5預(yù)測(cè)指標(biāo)趨勢(shì)圖;6代表DPPI-6預(yù)測(cè)指標(biāo)趨勢(shì)圖;7代表DPPI-7預(yù)測(cè)指標(biāo)趨勢(shì)圖。從圖4(a)中可以看出,模型DPPI-6和DPPI-7隨著迭代次數(shù)的增加,準(zhǔn)確率呈下降趨勢(shì)。DPPI-5的準(zhǔn)確率雖然比DPPI-6和DPPI-3好,但DPPI-5準(zhǔn)確率不穩(wěn)定,振蕩幅度稍大。從準(zhǔn)確率來看,模型DPPI-1、DPPI-2、DPPI-3和DPPI-4準(zhǔn)確率后期都比較穩(wěn)定,DPPI-2的準(zhǔn)確率最好。(b)是7個(gè)DPPI模型AUC趨勢(shì)圖,可以看出,模型DPPI-2、DPPI-3和DPPI-4后期結(jié)果比較平穩(wěn),雖然DPPI-1的結(jié)果開始較好,但后期較差。(c)是7個(gè)模型的召回率趨勢(shì)圖,DPPI-3的召回率性能較好,DPPI-5、DPPI-6和DPPI-7召回率較低,不平穩(wěn)且振蕩幅度較大。(d)是7個(gè)模型平均損失的趨勢(shì)圖,趨勢(shì)圖顯示模型DPPI-2、DPPI-3和DPPI-4結(jié)果較好,但DPPI-2振蕩幅度比DPPI-3稍大。

(a)

(b)

(c)

(d)圖4 DPPI模型各個(gè)指標(biāo)預(yù)測(cè)趨勢(shì)圖

綜合表7和圖4得到最終的預(yù)測(cè)模型DPPI-3,其準(zhǔn)確率為95.6%,平均損失為15.34%。

3.2 方法比較

近幾年,已經(jīng)有許多研究者對(duì)人蛋白互作預(yù)測(cè)提出了不同的計(jì)算方法。這些人蛋白互作預(yù)測(cè)方法以及DPPI的性能比較結(jié)果見表8??梢钥闯?,所列方法獲得的精度均在83.90%和97.19%之間,同時(shí),除了Sun[34]使用SAE+AC方法獲得97.19%的準(zhǔn)確率以外,DPPI模型獲得了最好的準(zhǔn)確率。和Sun的結(jié)果相比,雖然DPPI的準(zhǔn)確率不算突出,但是Sun使用SAE+CT的準(zhǔn)確率沒有DPPI模型的準(zhǔn)確率高。從表9可見,在酒釀酵母數(shù)據(jù)集上,DPPI模型和其他采用LD編碼的方法比較,也取得最高準(zhǔn)確率。

表8 不同方法的預(yù)測(cè)性能的比較

表9 不同算法采用LD編碼方式結(jié)果比較

SAE+AC結(jié)果優(yōu)于DPPI的原因可能在于特征提取方法的不同。AC編碼是通過選擇物理化學(xué)性質(zhì),解釋了氨基酸與序列中相隔一定數(shù)量的氨基酸之間的相互作用,該方法考慮了最長序列30 bp的鄰近效應(yīng)[32]。LD為了更好地從蛋白質(zhì)的氨基酸片段中捕捉蛋白質(zhì)相互作用信息,將一條蛋白質(zhì)序列劃分為10個(gè)局部區(qū)域,這樣分組,局部信息突出不明顯,致使丟失某些關(guān)鍵信息[37]。LD的這種缺陷在以后的研究中,可以通過增加局部區(qū)域的劃分等方法來減少特征信息的丟失。

雖然DPPI模型準(zhǔn)確率和SAE+AC方法相比不算突出,但在蛋白互作預(yù)測(cè)方面也取得了良好的結(jié)果,且DNN去噪能力優(yōu)于SAE,代碼也比SAE簡潔,LD編碼簡單、速度快。特別地,由表10可知,LD和AC編碼72 915對(duì)人蛋白質(zhì)的時(shí)間可見在相同軟硬件計(jì)算環(huán)境下LD編碼速度比AC編碼速度快3.5倍以上。通過上面的比較可知,本文的DPPI模型與其他方法相比可以顯著提高大規(guī)模蛋白互作預(yù)測(cè)性能。

表10 AC和LD編碼時(shí)間的比較

4 結(jié) 語

深度學(xué)習(xí)算法已經(jīng)涉足許多領(lǐng)域,但是在蛋白互作的研究中還沒有被廣泛的應(yīng)用。因此,本文采用深度神經(jīng)網(wǎng)絡(luò)DNN和LD蛋白質(zhì)序列編碼方法相結(jié)合的方法構(gòu)建了蛋白互作預(yù)測(cè)模型DPPI。DPPI模型獲得準(zhǔn)確率96.73%、AUC 99.00%、召回率99.21%和平均損失13.2%的最優(yōu)性能,以及95.60%準(zhǔn)確率、98.65%AUC、98.89%召回率和15.34%平均損失的平均性能。和其他研究者提出的人蛋白互作預(yù)測(cè)方法比較,DPPI模型的準(zhǔn)確率優(yōu)于Shen、You、Guo、Du、Pan等結(jié)果,但DPPI的結(jié)果沒有Sun采用的SAE+AC方法預(yù)測(cè)結(jié)果性能好。LD的這種缺陷在以后的研究中,可以通過增加局部區(qū)域等方法來減少特征信息的丟失。

本文首次采用DNN結(jié)合LD對(duì)人蛋白互作數(shù)據(jù)集構(gòu)建的,用于蛋白互作預(yù)測(cè)的模型DPPI。該模型具有較強(qiáng)的去噪能力、編碼簡單、代碼簡潔、計(jì)算速度快、運(yùn)行時(shí)間段等優(yōu)點(diǎn),可以通過分層抽象學(xué)習(xí)蛋白質(zhì)對(duì)的有用特征,從數(shù)據(jù)中自動(dòng)學(xué)習(xí)內(nèi)部分布式特征表示。鑒于以上優(yōu)點(diǎn),DPPI模型可以作為蛋白互作預(yù)測(cè)的有益補(bǔ)充。

猜你喜歡
氨基酸準(zhǔn)確率蛋白質(zhì)
蛋白質(zhì)自由
肝博士(2022年3期)2022-06-30 02:48:48
人工智能與蛋白質(zhì)結(jié)構(gòu)
海外星云(2021年9期)2021-10-14 07:26:10
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
月桂酰丙氨基酸鈉的抑菌性能研究
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
中成藥(2018年1期)2018-02-02 07:20:05
蛋白質(zhì)計(jì)算問題歸納
一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
都江堰市| 沛县| 安仁县| 灵武市| 揭阳市| 安溪县| 南丹县| 马公市| 东辽县| 河源市| 阿坝县| 威宁| 扶余县| 呼伦贝尔市| 阳新县| 双流县| 通海县| 噶尔县| 临桂县| 莱芜市| 三门县| 伊金霍洛旗| 双辽市| 伊吾县| 龙山县| 固阳县| 永福县| 新平| 莱西市| 太谷县| 永城市| 隆子县| 阳泉市| 吉安县| 巴南区| 离岛区| 海兴县| 休宁县| 额尔古纳市| 菏泽市| 库伦旗|