国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成改進(jìn)ELM的蛋白質(zhì)結(jié)晶偏好預(yù)測

2015-05-13 02:34敖培張紀(jì)李明楊百順

敖培 張紀(jì) 李明 楊百順

摘 要:由于基于蛋白質(zhì)結(jié)晶的X射線晶體成像技術(shù)存在成功率較低的問題,因此引入計(jì)算方法篩選容易結(jié)晶的蛋白質(zhì)序列對于節(jié)約測定蛋白質(zhì)序列實(shí)現(xiàn)成本意義重大。該文提出一種基于旋轉(zhuǎn)森林的集成極端學(xué)習(xí)機(jī)分類方法,用以提高蛋白質(zhì)結(jié)晶偏好預(yù)測的準(zhǔn)確性。選擇蛋白質(zhì)序列及序列衍生的信息和蛋白質(zhì)相關(guān)的物理、化學(xué)等性質(zhì)在內(nèi)的20個(gè)特征作為分類特征,采用旋轉(zhuǎn)森林增加集成極端學(xué)習(xí)機(jī)基分類器之間的差異性。實(shí)驗(yàn)結(jié)果表明,該文方法具有較高預(yù)測精度。

關(guān)鍵詞:旋轉(zhuǎn)森林 極端學(xué)習(xí)機(jī) 蛋白質(zhì)結(jié)晶

中圖分類號:TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1674-098X(2015)01(c)-0023-01

該文選擇蛋白質(zhì)序列及序列衍生的信息和蛋白質(zhì)相關(guān)的物理、化學(xué)等性質(zhì)在內(nèi)的20個(gè)特征作為分類特征,采用旋轉(zhuǎn)森林增加集成極端學(xué)習(xí)機(jī)基分類器之間的差異性,建立了集成改進(jìn)的極端學(xué)習(xí)機(jī)蛋白質(zhì)結(jié)晶偏好預(yù)測模型,以有效提高預(yù)測的準(zhǔn)確性。

1 極端學(xué)習(xí)機(jī)

極端學(xué)習(xí)機(jī)[1](ELM,Extreme Learning Machine)在隨機(jī)給定輸入權(quán)值與神經(jīng)元參數(shù)的基礎(chǔ)上,將傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練問題轉(zhuǎn)化為求解線性方程組,以直接計(jì)算輸出權(quán)值的最小二乘解的方式完成網(wǎng)絡(luò)訓(xùn)練過程。

2 旋轉(zhuǎn)森林算法

旋轉(zhuǎn)森林[2](ROF,Rotation Forest)主要是對集成分類器的原始樣本特征進(jìn)行處理,通過一定的特征提取變換獲得集成所需的新樣本,并且在保證分類準(zhǔn)確性的前提下,增加集成分類器個(gè)體間的差異性。

3 基于ROF的極端學(xué)習(xí)機(jī)集成預(yù)測算法

為了提高集成系統(tǒng)中各分類器之間的差異性,該文提出了一種是用ROF集成多個(gè)ELM神經(jīng)網(wǎng)絡(luò)分類器的方法。具體步驟如下。

步驟1:訓(xùn)練數(shù)據(jù)集輸入初始樣本集X,樣本包括D個(gè)特征,集成ELM神經(jīng)網(wǎng)絡(luò)分類器個(gè)數(shù)L。

步驟2:對X的D個(gè)特征進(jìn)行等劃分,獲得K個(gè)具有不同特征的樣本子集,Xk表示第D個(gè)樣本子集每個(gè)子集具有D個(gè)特征:M=D/K。

步驟3:對K個(gè)子集進(jìn)行如下處理:

對Xk進(jìn)行bootstrap重抽樣,獲得新樣本Xknew;

采用主成分分析對Xknew進(jìn)行變換處理,獲得主成分系數(shù)向量:ak1,ak2,…,

(M*≤M);

循環(huán)步驟1)和2),獲得K組主成分系數(shù),合并得主成分系數(shù)組R。

步驟4:對R重新排列的R*,獲得新樣本Xnew:Xnew=XR*。

步驟5:用Xnew作為ELM神經(jīng)網(wǎng)絡(luò)分類器的樣本訓(xùn)練一個(gè)集成子分類器Cl(l=1,…,l),循環(huán)次獲得集成ELM神經(jīng)網(wǎng)絡(luò)分類器組:Ω={C1,…,Cl}。

步驟6:分別使用個(gè)ELM神經(jīng)網(wǎng)絡(luò)分類器對測試樣本集進(jìn)行分類,獲得預(yù)測函數(shù){fl}和預(yù)測標(biāo)記{hl}。

步驟7:對預(yù)測函數(shù)和預(yù)測標(biāo)記進(jìn)行投票處理,獲得ELM神經(jīng)網(wǎng)絡(luò)集成分類器最終預(yù)測標(biāo)記Hend。

4 基于集成改進(jìn)ELM的蛋白質(zhì)結(jié)晶偏好預(yù)測

該文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見參考文獻(xiàn)[2]。經(jīng)過篩選,分別選擇952條不可結(jié)晶數(shù)據(jù)和可結(jié)晶數(shù)據(jù)集合。從這1904條數(shù)據(jù)集中隨機(jī)抽取1522條數(shù)據(jù)作為訓(xùn)練集,其余的作為測試集。采用第4部分所提出的的方法進(jìn)行預(yù)測。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比,集分類器個(gè)數(shù)均選擇為10,如表1所示。從表1中可以看出,采用本文方法的平均預(yù)測準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測試準(zhǔn)確率僅為79.04%。

5 結(jié)語

該文采用旋轉(zhuǎn)森林算法提高集成極端學(xué)習(xí)機(jī)基分類器之間的差異性,并將改進(jìn)后的集成分類器用于對蛋白質(zhì)結(jié)晶偏好進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,該文方法具有較高預(yù)測精度。

參考文獻(xiàn)

[1] YU Q,MICHE Y,EIROLA E, et al.Regularized extreme learning machine for regression with missing data[J].Neurocomputing,2013,102:45-51.

[2] 毛莎莎,熊霖,焦李成,等.利用旋轉(zhuǎn)森林變換的異構(gòu)多分類器集成算法[J].西安電子科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2014,41(5):55-61.endprint

新田县| 沾化县| 太白县| 武邑县| 筠连县| 鄱阳县| 精河县| 方城县| 尼木县| 北川| 绥芬河市| 治多县| 普洱| 阳城县| 东阳市| 克东县| 通化市| 石楼县| 沁源县| 东乌| 商南县| 枝江市| 赤壁市| 佳木斯市| 靖边县| 新乡县| 东港市| 稻城县| 石台县| 安宁市| 定襄县| 兴业县| 井陉县| 怀集县| 民勤县| 贵港市| 呼图壁县| 鄂尔多斯市| 石首市| 龙岩市| 缙云县|