敖培++趙四方++馮志鵬++李延強(qiáng)
摘要:針對(duì)不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明,采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性,可以有效提高預(yù)測(cè)精度。
關(guān)鍵詞:支持向量機(jī)集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶
中圖分類號(hào):TM715 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0091-01
1 引言
為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性,提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器,并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上,取得了較好的預(yù)測(cè)效果。
2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)
為了處理不平衡數(shù)據(jù),這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機(jī)投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:
步驟1:利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:
(1)對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。
(2)對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷,當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí),保留Xj,否則從少數(shù)類樣本中刪除Xj。
(4)剔除產(chǎn)生的可能噪聲樣本,即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí),其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。
(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達(dá)到過抽樣參數(shù)T%。
步驟2:將樣本的特征隨即劃分為K個(gè)特征子集(無重復(fù)抽?。?,每個(gè)特征子集的特征數(shù)為M=D/K。
步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。
步驟4:重復(fù)以上步驟L次,就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。
步驟5:分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){f;}和預(yù)測(cè)標(biāo)記{h;}。
步驟6:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。
3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)
本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè),T取2000,K取3,采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值,如表1所示。從表中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。
4 結(jié)語
對(duì)于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,本文方法具有較高預(yù)測(cè)精度。
參考文獻(xiàn)
[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué),2013,40(3):266-270,290.
[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文,2014.endprint
摘要:針對(duì)不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明,采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性,可以有效提高預(yù)測(cè)精度。
關(guān)鍵詞:支持向量機(jī)集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶
中圖分類號(hào):TM715 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0091-01
1 引言
為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性,提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器,并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上,取得了較好的預(yù)測(cè)效果。
2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)
為了處理不平衡數(shù)據(jù),這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機(jī)投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:
步驟1:利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:
(1)對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。
(2)對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷,當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí),保留Xj,否則從少數(shù)類樣本中刪除Xj。
(4)剔除產(chǎn)生的可能噪聲樣本,即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí),其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。
(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達(dá)到過抽樣參數(shù)T%。
步驟2:將樣本的特征隨即劃分為K個(gè)特征子集(無重復(fù)抽取),每個(gè)特征子集的特征數(shù)為M=D/K。
步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。
步驟4:重復(fù)以上步驟L次,就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。
步驟5:分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){f;}和預(yù)測(cè)標(biāo)記{h;}。
步驟6:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。
3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)
本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè),T取2000,K取3,采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值,如表1所示。從表中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。
4 結(jié)語
對(duì)于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,本文方法具有較高預(yù)測(cè)精度。
參考文獻(xiàn)
[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué),2013,40(3):266-270,290.
[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文,2014.endprint
摘要:針對(duì)不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明,采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性,可以有效提高預(yù)測(cè)精度。
關(guān)鍵詞:支持向量機(jī)集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶
中圖分類號(hào):TM715 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0091-01
1 引言
為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性,提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器,并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上,取得了較好的預(yù)測(cè)效果。
2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)
為了處理不平衡數(shù)據(jù),這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機(jī)投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:
步驟1:利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:
(1)對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。
(2)對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷,當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí),保留Xj,否則從少數(shù)類樣本中刪除Xj。
(4)剔除產(chǎn)生的可能噪聲樣本,即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí),其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。
(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達(dá)到過抽樣參數(shù)T%。
步驟2:將樣本的特征隨即劃分為K個(gè)特征子集(無重復(fù)抽?。?,每個(gè)特征子集的特征數(shù)為M=D/K。
步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。
步驟4:重復(fù)以上步驟L次,就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。
步驟5:分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){f;}和預(yù)測(cè)標(biāo)記{h;}。
步驟6:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。
3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)
本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè),T取2000,K取3,采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值,如表1所示。從表中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。
4 結(jié)語
對(duì)于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,本文方法具有較高預(yù)測(cè)精度。
參考文獻(xiàn)
[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué),2013,40(3):266-270,290.
[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文,2014.endprint