国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于密集連接神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)的賴氨酸戊二?;稽c(diǎn)的預(yù)測

2023-10-12 06:35:08呂佩諾賈建華
關(guān)鍵詞:?;?/a>賴氨酸密集

呂佩諾,賈建華

(景德鎮(zhèn)陶瓷大學(xué) 信息工程學(xué)院,江西 景德鎮(zhèn) 333403)

0 引言

賴氨酸戊二酰化廣泛存在于真核生物和原核生物中,戊二?;鶊F(tuán)(如戊二酰輔酶A)通過酶的催化共價(jià)結(jié)合到賴氨酸殘基上。賴氨酸戊二酰化主要發(fā)生在線粒體中[1],線粒體功能障礙可導(dǎo)致衰老和相關(guān)疾病,如癌癥,代謝性、神經(jīng)性疾病等[2]。賴氨酸戊二?;瘜⒂绊懢€粒體代謝及功能[3],目前已經(jīng)證實(shí)了賴氨酸戊二?;瘜Π柶澓DY、帕金森病等神經(jīng)退行性疾病的影響,以及對神經(jīng)細(xì)胞的損傷[4]。2014年Tan等[5]首次通過生化實(shí)驗(yàn)在大腸桿菌和小鼠肝細(xì)胞中驗(yàn)證了賴氨酸戊二?;稽c(diǎn),證明了脫戊二酰化酶(SIRT5)和營養(yǎng)物可以對賴氨酸戊二?;M(jìn)行調(diào)節(jié)。2016年,Xie等[6]利用實(shí)驗(yàn)方法從24條蛋白質(zhì)中鑒定了41個(gè)賴氨酸戊二?;稽c(diǎn)。使用實(shí)驗(yàn)方法鑒定賴氨酸戊二?;稽c(diǎn)雖然準(zhǔn)確但耗時(shí)耗力,需要尋找新的計(jì)算方法提高預(yù)測效率。

采用計(jì)算方法對賴氨酸戊二?;稽c(diǎn)的預(yù)測研究相對較少,這項(xiàng)工作具有挑戰(zhàn)性。2018年Ju等[7]首次開發(fā)了賴氨酸戊二酰化位點(diǎn)的預(yù)測工具GlutPred,研究結(jié)合多種特征編碼方法,采用偏置向量機(jī)模型處理數(shù)據(jù)的不平衡問題。同年,Xu等[8]采用氨基酸指數(shù)、K間隔氨基酸對組成、位置特異性氨基酸傾向、位置特異性傾向矩陣四種不同的特征編碼方案,構(gòu)建了iGlu-Lys預(yù)測器。iGlu-Lys性能高于GlutPred,但他們采用的數(shù)據(jù)集較小,且敏感性得分都較低。2019年Huang等[9]基于序列特征編碼和最大依賴性分解(MDD)捕捉位置間的相互依賴,利用SVM算法構(gòu)建了MDDGlutar分類器,該分類器所有性能比較均衡但準(zhǔn)確率略低。Al-barakati等[10]利用序列編碼方法和隨機(jī)森林算法構(gòu)建了RF-GlutarySite分類器,該模型使用了一個(gè)更大的數(shù)據(jù)集,但訓(xùn)練和測試時(shí)都是平衡數(shù)據(jù)集,不能很好地反映真實(shí)情況。2020年,Dou等[11]開發(fā)了基于AdaBoost算法和三種特征編碼方法的iGlu-AdaBoost分類器,采用混合采樣法對訓(xùn)練數(shù)據(jù)集進(jìn)行處理,該測試數(shù)據(jù)集是非平衡的。2022年Liu等[12]提出了深度學(xué)習(xí)預(yù)測算法,該算法基于詞嵌入和深度神經(jīng)網(wǎng)絡(luò)框架搭建而成,評估了不同單詞嵌入和不同深度學(xué)習(xí)模型的預(yù)測性能。2022年Qiao等[13]針對不平衡數(shù)據(jù)采用SMOTE和Tomek Links篩選重組數(shù)據(jù),應(yīng)用六種特征編碼方法并基于XGBoost算法建模構(gòu)建了DEXGB_Glu預(yù)測器。同年Indriani等[14]將傳統(tǒng)的基于序列的特征提取方法與預(yù)訓(xùn)練的transformer的特征提取模型相結(jié)合,篩選出了性能最好的分類器ProtTrans-Glutar。盡管目前關(guān)于賴氨酸戊二?;稽c(diǎn)已經(jīng)開發(fā)了一些預(yù)測工具,但和其他位點(diǎn)相比,賴氨酸戊二酰化的預(yù)測模型相對較少,且性能不夠理想,準(zhǔn)確性和真實(shí)性還有很大的提升空間。

越來越多的研究表明,深度學(xué)習(xí)方法可以成功運(yùn)用在蛋白質(zhì)位點(diǎn)預(yù)測上。過去應(yīng)用在預(yù)測賴氨酸戊二?;稽c(diǎn)的深度學(xué)習(xí)方法主要有卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM[15])等,類似的方式,密集連接神經(jīng)網(wǎng)絡(luò)(Densely connected convolutional networks,DenseNets[16])開始用于挖掘其他氨基酸序列信息,并且實(shí)現(xiàn)了比傳統(tǒng)模型更好的性能。本研究中引入密集連接神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò),提出了一種新的預(yù)測方法來鑒定蛋白質(zhì)中的賴氨酸戊二?;稽c(diǎn)。實(shí)驗(yàn)表明,對序列做簡單編碼后再利用深度學(xué)習(xí)模型提取特征信息,不僅能提高數(shù)據(jù)處理的效率,還能提高預(yù)測的性能。

1 材料與方法

1.1 基準(zhǔn)數(shù)據(jù)集

在這項(xiàng)研究中采用了Al-barakati等人[10]構(gòu)建的非平衡數(shù)據(jù)集。該數(shù)據(jù)集來源于蛋白質(zhì)賴氨酸修飾數(shù)據(jù)庫(PLMD)、SWISS-PROT數(shù)據(jù)庫以及國家生物技術(shù)中心(NCBI),包括四種不同物種(小家鼠、結(jié)核分枝桿菌、大腸桿菌和HeLa細(xì)胞),共有234個(gè)蛋白質(zhì)的749個(gè)位點(diǎn)。使用CD-Hit[17]去除了同一性大于40%的同源性序列,滑動窗口提取序列片段,得到長度為23的肽序列。最后保留了400個(gè)陽性位點(diǎn)和1703個(gè)陰性位點(diǎn)作為訓(xùn)練集,44個(gè)陽性位點(diǎn)和203個(gè)陰性位點(diǎn)作為獨(dú)立測試集。如表1所示:

表1 基準(zhǔn)數(shù)據(jù)集

1.2 one-hot編碼

在這項(xiàng)工作中使用one-hot編碼[18]方式對蛋白質(zhì)序列進(jìn)行編碼。這是一種離散型表示,一條序列中氨基酸對應(yīng)的指數(shù)為1,其他位置為0。如丙氨酸的編碼為10…0,半胱氨酸的編碼為01…0??偣灿?0個(gè)氨基酸個(gè)數(shù),加上未知項(xiàng)X,one-hot編碼的長度為21。對于長度為L的序列片段,最終得到L*21維向量。本研究的數(shù)據(jù)序列長度L=23,得到一個(gè)23*21維度的矩陣。

1.3 模型結(jié)構(gòu)

本研究建立了一個(gè)深度學(xué)習(xí)模型去預(yù)測賴氨酸戊二?;稽c(diǎn)。在這個(gè)模型中,通過密集連接的卷積塊和LSTM層進(jìn)行特征提取后得到相關(guān)矩陣,輸入到兩個(gè)層數(shù)為300層的全連接層中,最后利用softmax層進(jìn)行分類,從而有效地預(yù)測賴氨酸戊二?;稽c(diǎn)。Glu-DClstm整體模型如圖1所示:

圖1 Glu-DClstm模型結(jié)構(gòu)

1.3.1密集連接神經(jīng)網(wǎng)絡(luò)

密集連接神經(jīng)網(wǎng)絡(luò)的密集連接機(jī)制,在一定程度上減輕了梯度消失,加強(qiáng)了特征的傳遞,在參數(shù)與計(jì)算量更小的情況下取得更優(yōu)良的性能,優(yōu)于傳統(tǒng)的CNN和ResNet[18]。

在應(yīng)用密集卷積塊之前,首先輸入one-hot編碼矩陣,通過一維卷積層生成序列信息的低級特征信息圖。如公式(1)所示:

h0=a(E×W+b)

(1)

其中,E是one-hot編碼,one-hot編碼的長度為21。W是權(quán)重矩陣,大小為21×S×D,S是卷積核的大小,D是卷積核的數(shù)量。S=4,D=96,b是偏置項(xiàng),h0是一維卷積層的輸出,大小為L×D。a是ELU激活函數(shù),實(shí)現(xiàn)非線性變換。

特征編碼經(jīng)過卷積層后的輸出向量是密集卷積塊的輸入向量,密集卷積塊對上一層的信息進(jìn)行一系列的卷積運(yùn)算后獲得高級特征表示圖。如公式(2)所示:

hk=a([h0;h1;…;h(k-1)]×W′+b′)

(2)

其中,hk-1表示密集卷積塊中第(k-1)個(gè)卷積生成的特征向量,W′∈RD′×S×D″是權(quán)重矩陣,D′由K決定,D″是每一層卷積核的數(shù)量,這里設(shè)置為32,b′是偏差,[h0;h1;…;hk-1]表示將密集卷積塊的輸出h0;h1;…;hk-1沿特征維度串聯(lián)。

然后,在兩個(gè)密集卷積塊之間使用一個(gè)過渡層對密集卷積塊輸出的高級特征圖進(jìn)行卷積和池化操作。如公式(3)所示:

hk=a([h0;h1;…;h(k-1)]*W′+b″)

(3)

W′∈R(D′+D″)×S′×(D′+D″)是權(quán)重矩陣,S′是卷積核的大小,設(shè)置為1,b″ 是偏置項(xiàng),最后對hk采用平均池化操作降維。

將多個(gè)密集卷積塊和過渡層串聯(lián)起來即構(gòu)建出密集連接神經(jīng)網(wǎng)絡(luò),本研究中,設(shè)置了4個(gè)密集卷積塊,最終可以提取蛋白質(zhì)序列的高級特征。

1.3.2長短期記憶網(wǎng)絡(luò)

長短期記憶網(wǎng)絡(luò)(LSTM)是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),相較于傳統(tǒng)的RNN,LSTM解決了其梯度爆炸和梯度消失問題[15]。LSTM主要由三個(gè)門(遺忘門、輸入門、輸出門)、細(xì)胞態(tài)(cell state)、記憶體和候選態(tài)構(gòu)成。其中細(xì)胞態(tài)是LSTM的核心,也是與RNN的最大區(qū)別之處。細(xì)胞態(tài)負(fù)責(zé)數(shù)據(jù)的長期記憶,數(shù)據(jù)將沿著細(xì)胞態(tài)流動。三個(gè)門能控制細(xì)胞態(tài)中信息的增加或移除,結(jié)構(gòu)如圖2所示。

圖2 LSTM結(jié)構(gòu)

其中,t時(shí)刻的隱藏狀態(tài)為ht,細(xì)胞態(tài)為Ct,輸入特征Xt。t-1時(shí)刻的隱藏狀態(tài)為ht-1,細(xì)胞態(tài)為Ct-1。σ是sigmoid激活函數(shù),tanh為tanh激活函數(shù)。ft代表遺忘門,it代表輸入門,ot代表輸出門。

1.4 評估指標(biāo)

本研究中采用十折交叉驗(yàn)證和獨(dú)立測試集來評估模型的性能。十折交叉驗(yàn)證是將訓(xùn)練集平均分成十個(gè)子集,其中九個(gè)用于訓(xùn)練,一個(gè)用于測試,重復(fù)十次直到每個(gè)子集都作為一次測試集,十次訓(xùn)練的平均結(jié)果為訓(xùn)練集結(jié)果。同樣,獨(dú)立測試集的結(jié)果也用來評估構(gòu)建的模型。本研究中計(jì)算了四個(gè)統(tǒng)計(jì)指標(biāo):敏感性(Sn),特異性(Sp),準(zhǔn)確性(Acc),馬修斯相關(guān)系數(shù)(MCC)。這些指標(biāo)的公式如下:

其中TP、TN、FP、FN分別表示真陽性(正確預(yù)測賴氨酸戊二?;稽c(diǎn)的數(shù)量)、真陰性(正確預(yù)測非賴氨酸戊二?;稽c(diǎn)的數(shù)量)、假陽性(錯誤預(yù)測賴氨酸戊二?;稽c(diǎn)的數(shù)量)和假陰性(錯誤預(yù)測非賴氨酸戊二?;稽c(diǎn)的數(shù)量)。Sn是用來衡量陽性準(zhǔn)確率即識別賴氨酸戊二酰化位點(diǎn)的準(zhǔn)確性的指標(biāo),Sp是用來衡量陰性準(zhǔn)確率即識別非賴氨酸戊二?;稽c(diǎn)的準(zhǔn)確性的指標(biāo),Acc代表分類正確的樣本占總樣本個(gè)數(shù)的比例[20]。MCC可以合理評估非平衡數(shù)據(jù)集下的二元分類模型的效果,MCC越高,證明該分類模型對非平衡數(shù)據(jù)的預(yù)測效果越好[20]。另外,還測量了受試者特征(Receiver Operating Characteristic,ROC)曲線和曲線下的面積(Area under ROC,AUC)。AUC值越接近1,表示分類器精度越高[21]。

2 結(jié)果分析

2.1 十折交叉驗(yàn)證

在本研究中,構(gòu)建了Glu-DClstm模型預(yù)測戊二?;稽c(diǎn),選擇了目前最新的數(shù)據(jù)集之一。Glu-DClstm模型采用one-hot編碼,結(jié)合密集連接神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)模型挖掘序列信息。本研究采用十折交叉驗(yàn)證和獨(dú)立測試集評估了模型的Sn、Sp、Acc、MCC和AUC的性能。

Al-barakati等人構(gòu)建的RF-GlutarySite模型將數(shù)據(jù)集提前處理為平衡數(shù)據(jù)集,而本研究構(gòu)建的模型是在非平衡數(shù)據(jù)集下訓(xùn)練和預(yù)測的。因此為了保證比較的準(zhǔn)確性,本研究同采用非平衡數(shù)據(jù)的ProTrans-Glutar模型進(jìn)行了比較。

另外為了進(jìn)一步驗(yàn)證密集連接神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)組合模型的優(yōu)勢,本研究嘗試去掉LSTM模型,單獨(dú)對DenseNets模型進(jìn)行驗(yàn)證。十折交叉驗(yàn)證的結(jié)果如表2所示,DenseNets和LSTM的組合模型效果更加均衡且優(yōu)良,Sn,Sp,Acc,MCC分別為0.6750、0.6735、0.6738、0.2842,高于目前最新的預(yù)測器ProTrans-Glutar。Glu-DClstm具有穩(wěn)健性,AUC為0.744,ROC曲線如圖3所示。

圖3 訓(xùn)練集ROC曲線

表2 十折交叉驗(yàn)證結(jié)果

2.2 獨(dú)立測試集與現(xiàn)有模型的比較

為了驗(yàn)證構(gòu)建的模型具有良好的泛化能力且優(yōu)于其他預(yù)測模型,本研究將獨(dú)立測試集的結(jié)果與其他的預(yù)測器進(jìn)行了比較。為保證模型不會因?yàn)橛?xùn)練集不同而造成結(jié)果偏差,本研究采用了相同的獨(dú)立測試集分別對GluPred、iGlu-Lys、MDDGlutar、iGlu-AdaBoost、ProtTrans-Glutar進(jìn)行對比。結(jié)果如表3所示,GluPred和iGlu-Lys雖然Acc較高,但其Sn只達(dá)到了隨機(jī)預(yù)測水平,模型實(shí)際意義不大,不具有可參考性。Glu-DClstm的Sn和Sp的值更均衡,相比Sn低Sp高的模型更具有實(shí)際意義。Glu-DClstm與MDDGlutar、iGlu-AdaBoost、ProtTrans-Glutar相比Sp至少提高了3%,Acc至少提高了4%,MCC至少提高了1%,AUC至少提高了9%。ROC曲線如圖4所示。

圖4 獨(dú)立測試集ROC曲線

表3 獨(dú)立測試集對比結(jié)果

如表3所示,Glu-DClstm的預(yù)測結(jié)果:Sn=0.7045、Sp=0.7684、Acc=0.7570、MCC=0.3894、AUC=0.7984,與最新的預(yù)測器ProtTrans-Glutar相比,Glu-DClstm 的Sp提高了14%,ACC提高了10%,MCC提高了7%,AUC提高了9%。盡管Sn略有降低,但總的來說Glu-DClstm模型對賴氨酸戊二酰化位點(diǎn)預(yù)測更平衡,MCC和AUC作為整體模型性能的評估指標(biāo),在對非平衡數(shù)據(jù)集的預(yù)測時(shí),研究者更關(guān)注MCC和AUC的值是否有所提高。其他預(yù)測器的敏感性和特異性差異較大,在實(shí)際運(yùn)用中容易造成較大的誤差。Glu-DClstm模型解決了這個(gè)問題,給出了一個(gè)比較平衡的結(jié)果,優(yōu)于現(xiàn)有的預(yù)測模型。本研究的數(shù)據(jù)集樣本正負(fù)比例約為1∶4.5,數(shù)據(jù)較不平衡。Glu-DClstm在非平衡數(shù)據(jù)集的處理上采用類權(quán)重的方法,避免了直接采樣帶來的信息損失,對賴氨酸戊二?;稽c(diǎn)預(yù)測能提供較大幫助,更具有實(shí)用價(jià)值。

3 討論

本研究首先對蛋白質(zhì)序列進(jìn)行one-hot編碼,利用密集連接神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)模型充分挖掘序列信息,建立了一種新的預(yù)測賴氨酸戊二酰化位點(diǎn)的模型。同時(shí)獨(dú)立測試集的評估表明,該模型對正負(fù)樣本數(shù)據(jù)不平衡問題的處理是有效的。正負(fù)樣本的預(yù)測結(jié)果比較均衡,與其他預(yù)測器相比該模型表現(xiàn)更加優(yōu)良,具有良好的泛化能力。

另外,一個(gè)公開友好的在線預(yù)測網(wǎng)站將大大提高研究效率,因此在未來工作中,將致力于建立一個(gè)公開穩(wěn)定的Web在線服務(wù)器,為廣大研究者提供便利。

猜你喜歡
酰化賴氨酸密集
耕地保護(hù)政策密集出臺
密集恐懼癥
英語文摘(2021年2期)2021-07-22 07:56:52
2016年第一季度蛋氨酸、賴氨酸市場走勢分析
廣東飼料(2016年3期)2016-12-01 03:43:11
內(nèi)源信號肽DSE4介導(dǎo)頭孢菌素C酰化酶在畢赤酵母中的分泌表達(dá)
內(nèi)源信號肽DSE4介導(dǎo)頭孢菌素C?;冈诋叧嘟湍钢械姆置诒磉_(dá)
黃顙魚幼魚的賴氨酸需要量
促酰化蛋白對3T3-L1脂肪細(xì)胞炎性反應(yīng)的影響
歐盟等一大波家電新標(biāo)準(zhǔn)密集來襲
人參二醇磺酰化反應(yīng)的研究
賴氨酸水楊醛SCHIFF堿NI(Ⅱ)配合物的合成及表征
元朗区| 汝南县| 开远市| 台山市| 深圳市| 临夏县| 龙游县| 昭觉县| 乐东| 金寨县| 景洪市| 石景山区| 睢宁县| 无棣县| 新闻| 洮南市| 磐石市| 五台县| 三河市| 宁晋县| 富裕县| 兴隆县| 屯昌县| 固始县| 宁安市| 大名县| 老河口市| 抚州市| 五家渠市| 大足县| 晋州市| 松溪县| 玉屏| 鄂尔多斯市| 奇台县| 长兴县| 吴川市| 大姚县| 聂拉木县| 寿光市| 松江区|