基于不平衡數(shù)據(jù)的蛋白質(zhì)結(jié)晶偏好性改進(jìn)SVM集成預(yù)測(cè)

2014-12-13 08:51:18敖培趙四方馮志鵬李延強(qiáng)

數(shù)字技術(shù)與應(yīng)用 2014年8期

敖培++趙四方++馮志鵬++李延強(qiáng)

摘要：針對(duì)不平衡數(shù)據(jù)集分類問題，本文提出一種基于改進(jìn)ROF的集成SVM分類方法。實(shí)驗(yàn)結(jié)果表明，采用本文提出的方法預(yù)測(cè)蛋白質(zhì)結(jié)晶偏好性，可以有效提高預(yù)測(cè)精度。

關(guān)鍵詞：支持向量機(jī)集成算法旋轉(zhuǎn)森林蛋白質(zhì)結(jié)晶

中圖分類號(hào)：TM715 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2014）08-0091-01

1 引言

為了解決數(shù)據(jù)的不平衡性和增強(qiáng)集成SVM基分類器之間的差異性，提出了一種基于改進(jìn)的旋轉(zhuǎn)森林算法SVM訓(xùn)練基分類器，并將此方法應(yīng)用在蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)上，取得了較好的預(yù)測(cè)效果。

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)

為了處理不平衡數(shù)據(jù)，這里采用了一種改進(jìn)的SMOTE。為了提高SVM集成泛化的性能，這里采用隨機(jī)投影（RP）方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下：

步驟1：利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下：

（1）對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。

（2）對(duì)每個(gè)少數(shù)類樣本Xj的k個(gè)最近鄰進(jìn)行判斷，當(dāng)這k個(gè)樣本均為少數(shù)類實(shí)例時(shí)，保留Xj，否則從少數(shù)類樣本中刪除Xj。

（4）剔除產(chǎn)生的可能噪聲樣本，即當(dāng)所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時(shí)，其才是滿足條件的虛擬少數(shù)樣本，否則，將其刪除。

（5）循環(huán)執(zhí)行（3）和（4），直到產(chǎn)生足夠多的樣本數(shù)，即達(dá)到過抽樣參數(shù)T%。

步驟2：將樣本的特征隨即劃分為K個(gè)特征子集（無重復(fù)抽?。?，每個(gè)特征子集的特征數(shù)為M=D/K。

步驟3：采用RP方法，將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上，獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。

步驟4：重復(fù)以上步驟L次，就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。

步驟5：分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類，獲得預(yù)測(cè)函數(shù){f；}和預(yù)測(cè)標(biāo)記{h；}。

步驟6：對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理，獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。

3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)

本文實(shí)驗(yàn)數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈，特征選取和計(jì)算方法見文獻(xiàn)[2]。經(jīng)過篩選，分別將166955條和5721條蛋白質(zhì)實(shí)驗(yàn)序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進(jìn)行預(yù)測(cè)，T取2000，K取3，采用3折交叉驗(yàn)證法來估計(jì)預(yù)測(cè)誤差。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果，選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比，集分類器個(gè)數(shù)均選擇為10。在數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果取10次實(shí)驗(yàn)的平均值，如表1所示。從表中可以看出，采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%，而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。

4 結(jié)語

對(duì)于不平衡數(shù)據(jù)集分類問題，本文提出一種基于改進(jìn)旋轉(zhuǎn)森林算法的SVM集成分類方法，并將改進(jìn)的方法用于對(duì)蛋白質(zhì)結(jié)晶偏好性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明，與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比，本文方法具有較高預(yù)測(cè)精度。

參考文獻(xiàn)

[1]姚旭，王曉丹，張玉璽，等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué)，2013，40（3）：266-270，290.

[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文，2014.endprint

關(guān)鍵詞：支持向量機(jī)集成算法旋轉(zhuǎn)森林蛋白質(zhì)結(jié)晶

中圖分類號(hào)：TM715 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2014）08-0091-01

1 引言

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)

步驟1：利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下：

（1）對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。

（5）循環(huán)執(zhí)行（3）和（4），直到產(chǎn)生足夠多的樣本數(shù)，即達(dá)到過抽樣參數(shù)T%。

步驟2：將樣本的特征隨即劃分為K個(gè)特征子集（無重復(fù)抽取），每個(gè)特征子集的特征數(shù)為M=D/K。

步驟3：采用RP方法，將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上，獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。

步驟4：重復(fù)以上步驟L次，就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。

步驟5：分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類，獲得預(yù)測(cè)函數(shù){f；}和預(yù)測(cè)標(biāo)記{h；}。

步驟6：對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理，獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。

3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)

4 結(jié)語

參考文獻(xiàn)

[1]姚旭，王曉丹，張玉璽，等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué)，2013，40（3）：266-270，290.

[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文，2014.endprint

關(guān)鍵詞：支持向量機(jī)集成算法旋轉(zhuǎn)森林蛋白質(zhì)結(jié)晶

中圖分類號(hào)：TM715 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2014）08-0091-01

1 引言

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進(jìn)

步驟1：利用改進(jìn)的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下：

（1）對(duì)少數(shù)類中的每個(gè)樣本Xj求它的k個(gè)最近鄰的樣本。

（5）循環(huán)執(zhí)行（3）和（4），直到產(chǎn)生足夠多的樣本數(shù)，即達(dá)到過抽樣參數(shù)T%。

步驟2：將樣本的特征隨即劃分為K個(gè)特征子集（無重復(fù)抽?。?，每個(gè)特征子集的特征數(shù)為M=D/K。

步驟3：采用RP方法，將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上，獲得各投影矩陣中的每個(gè)元素采用Binary方法產(chǎn)生[1]。

步驟4：重復(fù)以上步驟L次，就可以得到各個(gè)分類器的訓(xùn)練集。這里的基分類器選擇為SVM。

步驟5：分別使用L個(gè)SVM分類器對(duì)測(cè)試樣本集進(jìn)行分類，獲得預(yù)測(cè)函數(shù){f；}和預(yù)測(cè)標(biāo)記{h；}。

步驟6：對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理，獲得SVM集成分類器最終預(yù)測(cè)標(biāo)記Hend。

3 基于改進(jìn)SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè)

4 結(jié)語

參考文獻(xiàn)

[1]姚旭，王曉丹，張玉璽，等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計(jì)算機(jī)科學(xué)，2013，40（3）：266-270，290.

[2]王同友.基于集成學(xué)習(xí)的蛋白質(zhì)結(jié)晶偏好性預(yù)測(cè) [D].吉林大學(xué)碩士學(xué)位論文，2014.endprint

數(shù)字技術(shù)與應(yīng)用2014年8期

數(shù)字技術(shù)與應(yīng)用的其它文章: 基于虛擬電阻法的LCL濾波器特性分析; 云計(jì)算軍事應(yīng)用的SWOT分析及發(fā)展對(duì)策研究; 云計(jì)算在機(jī)場(chǎng)信息系統(tǒng)中的典型設(shè)計(jì)及應(yīng)用; GIS在景區(qū)保護(hù)性規(guī)劃與管理中的應(yīng)用分析; 基于自適應(yīng)shearlet域約束下的圖像去噪研究; 淺談SNG在電視新聞直播中的應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于不平衡數(shù)據(jù)的蛋白質(zhì)結(jié)晶偏好性改進(jìn)SVM集成預(yù)測(cè)