国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

帶有蛋白質(zhì)輸入的RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測方法

2022-03-18 05:01何如吉
關(guān)鍵詞:集上位點(diǎn)卷積

梅 杰 何如吉 呂 強(qiáng)

(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 蘇州 215006)(江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室 江蘇 蘇州 215006)

0 引 言

RNA和RNA結(jié)合蛋白(RNA Binding Proteins,RBP)的交互作用是理解轉(zhuǎn)錄后調(diào)控機(jī)制的關(guān)鍵,對蛋白質(zhì)合成、基因融合和可變mRNA加工具有廣泛的影響[1-3]。RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測是指僅以RNA作為模型輸入,并為每一個(gè)RBP訓(xùn)練一個(gè)模型用于預(yù)測RBP是否結(jié)合于輸入的RNA。得益于高通量測序技術(shù)的高速發(fā)展如CLIP-Seq[4],數(shù)以百計(jì)的RBP對應(yīng)的大量RNA-蛋白質(zhì)結(jié)合位點(diǎn)得以發(fā)現(xiàn)[5-8]。因此,通過機(jī)器學(xué)習(xí)方法預(yù)測RNA上的RNA-蛋白質(zhì)結(jié)合位點(diǎn)成為了當(dāng)前的研究熱點(diǎn)。其中深度學(xué)習(xí)相比傳統(tǒng)機(jī)器學(xué)習(xí)方法由于無需特征工程即可獲得良好的性能,近年來被廣泛應(yīng)用到此問題上。

DeepBind第一個(gè)將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)用于提取RNA序列特征,在當(dāng)時(shí)取得了突破性的進(jìn)展[9]。隨后,沈紅斌課題組的系列模型(iDeep[10]、iDeepM[11]、iDeepA[12]、iDeepV[13]、iDeepE[14]、iDeepS[15]和CRIP[16])及Deepnet-rbp[17]、mmCNN[18]、CircSLNN[19]等模型運(yùn)用深度學(xué)習(xí)方法對RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測問題進(jìn)行了廣泛而深入的研究,包括長短時(shí)記憶網(wǎng)絡(luò)[20](Long Short-Term Memory,LSTM)、殘差神經(jīng)網(wǎng)絡(luò)[21](Residual Network,ResNet)及注意力機(jī)制[22](Attention Mechanism)等方法都陸續(xù)被使用。盡管如此,這些方法都沒有考慮將RBP本身作為模型的輸入之一從而進(jìn)一步擴(kuò)大數(shù)據(jù)集并挖掘不同RNA-蛋白質(zhì)結(jié)合位點(diǎn)問題的聯(lián)系。

從更高的視角來看,不同于RNA-蛋白質(zhì)結(jié)合位點(diǎn)問題,RNA-蛋白質(zhì)交互作用對問題同時(shí)需要RNA和RBP以一定形式作為輸入。由于同時(shí)獲取RNA和RBP數(shù)據(jù)的成本高昂,有限的數(shù)據(jù)量使得端到端的深度學(xué)習(xí)方法仍不能有效應(yīng)用于這一問題[23]。而盡管高通量測序技術(shù)可以獲得單個(gè)RBP在特定細(xì)胞系和組織下的大量RNA-蛋白質(zhì)結(jié)合位點(diǎn),但將不同體內(nèi)環(huán)境下的RNA-蛋白質(zhì)結(jié)合位點(diǎn)進(jìn)一步整合并構(gòu)建更大的數(shù)據(jù)集可以進(jìn)一步發(fā)揮深度學(xué)習(xí)模型的優(yōu)勢。另一方面,模型通過對其他RNA-蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)的學(xué)習(xí)可能挖掘出與自身有關(guān)的知識。如在命名實(shí)體識別任務(wù)中,BioNER通過整合不同類型實(shí)體的數(shù)據(jù)集取得了性能的提升[24]。因此,本文提出一個(gè)整合不同CLIP數(shù)據(jù)的模型,并將RBP實(shí)驗(yàn)編號以獨(dú)熱編碼的形式作為模型的輸入之一用來區(qū)別RNA序列將被哪個(gè)RBP結(jié)合。

在評估該模型效果時(shí),將該模型在兩個(gè)RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測的權(quán)威數(shù)據(jù)集上與其他模型進(jìn)行對比,結(jié)果表明該模型在這兩個(gè)數(shù)據(jù)集上相比其他模型均具有一定優(yōu)勢。

1 算法介紹

本文提出的模型將不同RBP對應(yīng)的實(shí)驗(yàn)數(shù)據(jù)合并作為本模型的數(shù)據(jù)集,將RNA序列和RBP的實(shí)驗(yàn)編號作為輸入并最終輸出對兩者結(jié)合概率的預(yù)測,模型結(jié)構(gòu)如圖1所示。

圖1 模型結(jié)構(gòu)

RNA序列以獨(dú)熱編碼的形式表示,對于序列不等長的數(shù)據(jù)集,取訓(xùn)練集中序列的最大長度n作為序列的輸入長度,并對長度不足的序列兩端以N補(bǔ)齊,其中N=[0.25,0.25,0.25,0.25]。RBP實(shí)驗(yàn)編號的輸入向量寬度與訓(xùn)練集中的實(shí)驗(yàn)總數(shù)m一致,如RBP實(shí)驗(yàn)編號為0的獨(dú)熱編碼表示為第0位為1而其他m-1位均為0的向量。

將RNA序列的獨(dú)熱編碼作為卷積層的輸入。第k個(gè)卷積核對齊到RNA序列位置i的輸出如式(1)所示。

(1)

式中:S是RNA序列的獨(dú)熱編碼表示,它是一個(gè)n×4的矩陣;Mk表示第k個(gè)卷積核的權(quán)重矩陣;b取值為1到4,表示A、U、C和G四種堿基,l表示卷積核長度;1≤i≤n-l+1且1≤k≤f,其中f指卷積核的數(shù)量。按以上步驟依次計(jì)算f個(gè)卷積核對RNA序列的輸出,則能得到一個(gè)大小為n×f的矩陣,即為CNN的輸出。一個(gè)卷積核就相當(dāng)于一個(gè)特征選擇器,這里卷積運(yùn)算用于學(xué)習(xí)RNA序列的局部特征,類比于圖像處理任務(wù)中的卷積運(yùn)算得到圖像特征。

CNN層卷積處理后,應(yīng)用修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)和批量歸一化層處理[25](Batch Normalization,BN)。ReLU可以對CNN的輸出進(jìn)行非線性形變,批量歸一化層則可以加速模型收斂,并在一定程度上避免過擬合。

然后使用雙向門控神經(jīng)單元[26](Bidirectional Gated Recurrent Unit,Bi-GRU)進(jìn)一步提取RNA序列的全局特征??紤]到RBP對RNA序列的結(jié)合在生物學(xué)上并沒有一定的方向,所以這里使用雙向的設(shè)計(jì)。

一個(gè)GRU對于t時(shí)的輸入xt按式(2)-式(5)進(jìn)行運(yùn)算。而Bi-GRU包含正反兩個(gè)方向的GRU,它們在t時(shí)的輸出按式(6)合并。

zt=σ(Wz×[ht-1,xt])

(2)

rt=σ(Wr×[ht-1,xt])

(3)

(4)

(5)

(6)

Bi-GRU的輸出經(jīng)過全局最大池化層,得到了代表序列信息的特征向量。將特征向量與RBP實(shí)驗(yàn)的獨(dú)熱編碼拼接起來,作為一個(gè)兩層均帶Dropout[27]的全連接層的輸入,它的輸出經(jīng)過一個(gè)Sigmoid單元得到一個(gè)0到1之間的預(yù)測值,表示RNA序列在RBP實(shí)驗(yàn)中的結(jié)合概率。

2 實(shí)驗(yàn)與結(jié)果分析

為了評估本文模型的性能,本文選擇在RNA-蛋白質(zhì)結(jié)合位點(diǎn)問題的兩個(gè)權(quán)威數(shù)據(jù)集(RBP-24和RBP-31)上與其他模型進(jìn)行對比。

2.1 實(shí)驗(yàn)數(shù)據(jù)與評價(jià)指標(biāo)

RBP-24可在GraphProt[28]處下載,它由24個(gè)CLIP實(shí)驗(yàn)組成并包含了21個(gè)不同的RBP。24個(gè)實(shí)驗(yàn)中每個(gè)實(shí)驗(yàn)的數(shù)據(jù)量不同,將24個(gè)實(shí)驗(yàn)的訓(xùn)練集合并并打亂后作為模型的訓(xùn)練集,總計(jì)包含約120萬個(gè)樣本,訓(xùn)練集序列的長度范圍在38個(gè)堿基對到375個(gè)堿基對之間。由于CLIP數(shù)據(jù)僅包含正樣本(即結(jié)合序列),GraphProt通過打亂結(jié)合序列順序的方式提供了數(shù)量相當(dāng)?shù)呢?fù)序列。

RBP-31可在iONMF[29]處下載,它由31個(gè)CLIP實(shí)驗(yàn)組成并包含了19個(gè)RBP。iONMF為每個(gè)CLIP實(shí)驗(yàn)提供了劃分好的三組交叉驗(yàn)證數(shù)據(jù),每組數(shù)據(jù)的訓(xùn)練集為30 000條,測試集為10 000條。iONMF選擇使用基因組上未被任何RBP結(jié)合的序列作為負(fù)序列,訓(xùn)練集和測試集的正負(fù)樣本比例均為1 ∶4,序列長度為固定的101個(gè)堿基對。

兩組數(shù)據(jù)均以AUC(Area Under the ROC Curve)作為評價(jià)指標(biāo),見式(7)。

(7)

式中:M是正樣本的數(shù)量;N是負(fù)樣本的數(shù)量;positiveClass是正樣本的集合;通過對正樣本預(yù)測值進(jìn)行排序,正樣本的最小預(yù)測值對應(yīng)為rank1,以此類推ranki。

2.2 實(shí)驗(yàn)環(huán)境與模型參數(shù)

實(shí)驗(yàn)機(jī)器硬件配置為:CPU為兩塊Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10 GHz,GPU為三塊GeForce GTX 1080 Ti(每次訓(xùn)練只使用一塊),內(nèi)存大小為128 GB。模型是由Keras 2.2.2以TensorFlow 1.9.0為后端(backend)編程實(shí)現(xiàn)的。

本模型在RBP-24和RBP-31數(shù)據(jù)集上的主要參數(shù)設(shè)置分別如表1所示。權(quán)重和偏置均為Keras 2.2.2的默認(rèn)設(shè)置。本模型的損失函數(shù)為交叉熵?fù)p失函數(shù)(CrossEntropy Loss),優(yōu)化器選擇了Adam[30],學(xué)習(xí)率初始值是0.001。同時(shí),本文還使用了早停技術(shù)及時(shí)中斷訓(xùn)練,同時(shí)設(shè)置了檢查點(diǎn)來保存驗(yàn)證損失最小的模型。

表1 模型主要超參數(shù)

2.3 RBP-24數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

本模型在RBP-24測試集上計(jì)算的AUC分布與其他模型對比的結(jié)果如圖2所示,對比模型的結(jié)果均來源于公開發(fā)表的論文。其中僅以序列作為輸入而不使用其他外源數(shù)據(jù)(如RNA的二/三級結(jié)構(gòu)、region type和clip-cobinding等)的模型均以*標(biāo)記,是對比的主要對象。特別要說明的是,Deepnet-rbp在原文中同時(shí)提供了僅以RNA序列作為輸入的結(jié)果,以及以RNA序列和RNA三級結(jié)構(gòu)作為輸入的結(jié)果,本文使用的是前者。圖2中豎線表示模型在RBP-24測試集上24個(gè)RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測的AUC的平均值;圓圈為異常值,表示模型在某個(gè)測試集上的表現(xiàn)顯著低于其他測試集。

可以看出,本模型的預(yù)測結(jié)果整體分布較好,下界和均值分別是84.7%和93.9%,分別比iDeepE高出了8.9百分點(diǎn)和0.8百分點(diǎn)。

2.4 RBP-31數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

本模型在RBP-31測試集上計(jì)算的AUC分布和其他模型對比的結(jié)果如圖3所示??梢钥吹?,使用傳統(tǒng)機(jī)器學(xué)習(xí)方法的GraphProt和iONMF盡管使用了RNA序列之外的數(shù)據(jù)源,相比深度學(xué)習(xí)方法仍然沒有優(yōu)勢。而在所有僅以RNA序列作為輸入的模型中,本模型的平均AUC為87.3%排名第一,比DeeperBind[31]高出1.6百分點(diǎn),甚至比額外使用了RNA結(jié)構(gòu)信息的iDeepS還要高1.2百分點(diǎn),與iDeepS的成對t-檢驗(yàn)的單尾p-value遠(yuǎn)小于1百分點(diǎn),具有顯著差異性。而iDeep使用了RNA序列信息、結(jié)構(gòu)信息、region type motif及clip-cobinding作為模型輸入,相比本文模型仍然有較大優(yōu)勢。

圖3 不同模型在RBP-31測試集上的AUC分布

2.5 結(jié)果分析

從RBP-24和RBP-31的對比結(jié)果來看,本文模型相比現(xiàn)有的僅以RNA序列作為輸入的模型具有一定優(yōu)勢。本文在處理RNA序列信息時(shí)使用了獨(dú)熱編碼+CNN+Bi-GRU的結(jié)構(gòu),這與DeeperBind的獨(dú)熱編碼+CNN+LSTM及iDeepS的獨(dú)熱編碼+CNN+Bi-LSTM均較為相似。但是,本文模型在RBP-31上卻取得了更好的結(jié)果,這說明了由于不同的RNA-蛋白質(zhì)結(jié)合位點(diǎn)問題中存在著公共知識,具有生物學(xué)上的相關(guān)性,通過對其他RNA-蛋白質(zhì)結(jié)合位點(diǎn)任務(wù)的學(xué)習(xí)確實(shí)帶來了目標(biāo)任務(wù)的性能提升。同時(shí),本文模型在參數(shù)規(guī)模上也有一定優(yōu)勢。以iDeepS為例,它的卷積核數(shù)為16個(gè),那么在RBP-31上的總卷積核數(shù)為496個(gè),而本文模型僅使用了80個(gè)卷積核,這表明本文模型更有效地利用了模型參數(shù)。另外,從表1可以發(fā)現(xiàn),盡管RBP-24和RBP-31在RNA序列長度上存在巨大差別,數(shù)據(jù)規(guī)模和RBP實(shí)驗(yàn)數(shù)量也有不同,但是本文提出的模型卻可以以一套相同的超參數(shù)在兩個(gè)數(shù)據(jù)集上均取得出色的成績,這說明本文模型具有較強(qiáng)的泛化性能,不易過擬合,這也與訓(xùn)練集的規(guī)模擴(kuò)大有關(guān)。

3 結(jié) 語

本文提出的模型通過CNN-GRU結(jié)構(gòu)提取RNA的序列特征,并通過將RBP的實(shí)驗(yàn)編號以獨(dú)熱編碼的形式作為模型的另一輸入,擴(kuò)展了模型訓(xùn)練集的規(guī)模,深挖不同RNA-蛋白質(zhì)結(jié)合位點(diǎn)問題的公共知識,進(jìn)一步發(fā)揮了深度學(xué)習(xí)模型的優(yōu)勢。在RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測任務(wù)中,本文模型在RBP-24和RBP-31這兩個(gè)數(shù)據(jù)集上均取得了比其他模型更好的結(jié)果。但是,如此大規(guī)模的訓(xùn)練集對于RNA-蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測問題是一個(gè)相對陌生的領(lǐng)域,盡管使用CNN-GRU這一結(jié)構(gòu)已經(jīng)取得了一定進(jìn)步,但是如何使用更復(fù)雜的技術(shù)、更深的網(wǎng)絡(luò)模型去充分挖掘數(shù)據(jù)中的信息仍然有進(jìn)一步研究的空間。

猜你喜歡
集上位點(diǎn)卷積
Pd改性多活性位點(diǎn)催化劑NH3-SCR脫硝反應(yīng)機(jī)理研究
多環(huán)境下玉米保綠相關(guān)性狀遺傳位點(diǎn)的挖掘
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
相信科學(xué)!DNA追兇是如何實(shí)現(xiàn)的?
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
一種改進(jìn)的多聚腺苷酸化位點(diǎn)提取方法
師如明燈,清涼溫潤
幾道導(dǎo)數(shù)題引發(fā)的解題思考
2008年高考考前模擬試題(二)及略解
毕节市| 武清区| 新巴尔虎左旗| 沂源县| 池州市| 乌拉特后旗| 定日县| 萝北县| 涞水县| 岳阳县| 乐亭县| 邵武市| 广水市| 波密县| 洛南县| 关岭| 辛集市| 商都县| 泰顺县| 驻马店市| 巨野县| 长寿区| 湖南省| 桦南县| 杂多县| 凤凰县| 汪清县| 昭通市| 辽宁省| 黔西县| 嘉兴市| 阿克陶县| 兖州市| 昌吉市| 石台县| 云阳县| 贵德县| 和静县| 常德市| 孟州市| 抚顺县|