国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于不平衡數(shù)據(jù)的蛋白質(zhì)結(jié)晶偏好性改進(jìn)SVM集成預(yù)測(cè)

2014-12-13 08:51:18敖培趙四方馮志鵬李延強(qiáng)

敖培++趙四方++馮志鵬++李延強(qiáng)

摘要:針對(duì)不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明,采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性,可以有效提高預(yù)測(cè)精度。

關(guān)鍵詞:支持向量機(jī)集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶

中圖分類號(hào):TM715 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0091-01

1 引言

為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性,提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器,并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上,取得了較好的預(yù)測(cè)效果。

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)

為了處理不平衡數(shù)據(jù),這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機(jī)投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:

步驟1:利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:

(1)對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。

(2)對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷,當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí),保留Xj,否則從少數(shù)類樣本中刪除Xj。

(4)剔除產(chǎn)生的可能噪聲樣本,即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí),其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。

(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達(dá)到過抽樣參數(shù)T%。

步驟2:將樣本的特征隨即劃分為K個(gè)特征子集(無重復(fù)抽?。?,每個(gè)特征子集的特征數(shù)為M=D/K。

步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。

步驟4:重復(fù)以上步驟L次,就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。

步驟5:分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){f;}和預(yù)測(cè)標(biāo)記{h;}。

步驟6:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。

3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)

本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè),T取2000,K取3,采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值,如表1所示。從表中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。

4 結(jié)語

對(duì)于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,本文方法具有較高預(yù)測(cè)精度。

參考文獻(xiàn)

[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué),2013,40(3):266-270,290.

[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文,2014.endprint

摘要:針對(duì)不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明,采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性,可以有效提高預(yù)測(cè)精度。

關(guān)鍵詞:支持向量機(jī)集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶

中圖分類號(hào):TM715 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0091-01

1 引言

為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性,提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器,并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上,取得了較好的預(yù)測(cè)效果。

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)

為了處理不平衡數(shù)據(jù),這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機(jī)投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:

步驟1:利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:

(1)對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。

(2)對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷,當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí),保留Xj,否則從少數(shù)類樣本中刪除Xj。

(4)剔除產(chǎn)生的可能噪聲樣本,即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí),其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。

(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達(dá)到過抽樣參數(shù)T%。

步驟2:將樣本的特征隨即劃分為K個(gè)特征子集(無重復(fù)抽取),每個(gè)特征子集的特征數(shù)為M=D/K。

步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。

步驟4:重復(fù)以上步驟L次,就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。

步驟5:分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){f;}和預(yù)測(cè)標(biāo)記{h;}。

步驟6:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。

3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)

本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè),T取2000,K取3,采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值,如表1所示。從表中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。

4 結(jié)語

對(duì)于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,本文方法具有較高預(yù)測(cè)精度。

參考文獻(xiàn)

[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué),2013,40(3):266-270,290.

[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文,2014.endprint

摘要:針對(duì)不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明,采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性,可以有效提高預(yù)測(cè)精度。

關(guān)鍵詞:支持向量機(jī)集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶

中圖分類號(hào):TM715 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0091-01

1 引言

為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性,提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器,并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上,取得了較好的預(yù)測(cè)效果。

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)

為了處理不平衡數(shù)據(jù),這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機(jī)投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:

步驟1:利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:

(1)對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。

(2)對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷,當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí),保留Xj,否則從少數(shù)類樣本中刪除Xj。

(4)剔除產(chǎn)生的可能噪聲樣本,即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí),其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。

(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達(dá)到過抽樣參數(shù)T%。

步驟2:將樣本的特征隨即劃分為K個(gè)特征子集(無重復(fù)抽?。?,每個(gè)特征子集的特征數(shù)為M=D/K。

步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。

步驟4:重復(fù)以上步驟L次,就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。

步驟5:分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){f;}和預(yù)測(cè)標(biāo)記{h;}。

步驟6:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。

3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)

本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè),T取2000,K取3,采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值,如表1所示。從表中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。

4 結(jié)語

對(duì)于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,本文方法具有較高預(yù)測(cè)精度。

參考文獻(xiàn)

[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué),2013,40(3):266-270,290.

[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文,2014.endprint

栾城县| 富平县| 紫云| 辛集市| 吴桥县| 麻江县| 鹤峰县| 乌海市| 麦盖提县| 金川县| 察哈| 永年县| 磐石市| 邵东县| 自贡市| 威信县| 裕民县| SHOW| 固原市| 安康市| 临夏市| 米脂县| 浪卡子县| 泸水县| 洪湖市| 政和县| 昌图县| 米脂县| 汉寿县| 灌云县| 合江县| 辉南县| 西峡县| 巴林右旗| 博客| 洛阳市| 松江区| 齐河县| 桐庐县| 洪泽县| 浑源县|