国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于新的森林優(yōu)化算法的特征選擇算法

2020-06-07 07:06程耕國陳和平
計(jì)算機(jī)應(yīng)用 2020年5期
關(guān)鍵詞:特征選擇適應(yīng)度樹木

謝 琪,徐 旭,程耕國,陳和平

(1.武漢科技大學(xué)信息科學(xué)與工程學(xué)院,武漢430081; 2.格勒諾布爾高等商學(xué)院高等商業(yè)學(xué)院,格勒諾布爾38000,法國)

(?通信作者電子郵箱85169023@qq.com)

0 引言

特征選擇是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)之一[1]。特征選擇是從一組特征中挑選出一些最有效的特征以降低特征空間維數(shù)的過程[2-3]。特征選擇在數(shù)據(jù)預(yù)處理的過程中會(huì)去除冗余和無關(guān)的特征,能減輕維度災(zāi)難所產(chǎn)生的問題,同時(shí)能降低學(xué)習(xí)任務(wù)的難度,提升學(xué)習(xí)效果[4-5]。在分類問題中,特征選擇能提高分類的準(zhǔn)確性,能生成更快和更有效的分類器,能更好地了解關(guān)鍵特征的信息[6]。特征選擇已被許多學(xué)者證明是有效的[7-9]。因此,特征選擇是機(jī)器學(xué)習(xí)過程的重要組成部分,可以為之后的學(xué)習(xí)任務(wù)保留有用的特征,同時(shí)忽略不相關(guān)和不重要的特征[10]。

在2016年,Ghaemi等[11]提出基于森林優(yōu)化算法的特征選擇(Feature Selection using Forest Optimization Algorithm,F(xiàn)SFOA)算法[12],該算法將森林優(yōu)化算法(Forest Optimization Algorithm,F(xiàn)OA)用于特征選擇。FSFOA與基于混合遺傳算法的特征選擇(Hybrid Genetic Algorithm for Feature Selection,HGAFS)算 法[13]、基 于 粒 子 群 優(yōu) 化(Particle Swarm Optimization,PSO)算法的特征選擇算法[14]和基于支持向量機(jī)的 特 征 選 擇 算 法[15](a novel Support Vector Machine based feature selection method using a fuzzy Complementary criterion,SVM-FuzCoc)等算法相比取得了不錯(cuò)的效果。FSFOA算法能提高特征學(xué)習(xí)的準(zhǔn)確率,有效地除去冗余特征,并且還具備全局搜索能力。但是FSFOA算法存在一些不足:第一,F(xiàn)SFOA算法初始特征采用隨機(jī)生成策略,隨機(jī)初始化策略在非凸函數(shù)中可能會(huì)陷入局部最優(yōu),無法搜索到全局最優(yōu);第二,F(xiàn)SFOA算法遠(yuǎn)處播種使用的是候選森林中的樹木,候選森林會(huì)產(chǎn)生優(yōu)劣樹不完備問題,影響到全局搜索;第三,實(shí)驗(yàn)發(fā)現(xiàn),在最優(yōu)樹更新階段會(huì)有相同適應(yīng)度但是特征不同的樹木,F(xiàn)SFOA算法會(huì)將這些樹木淘汰,但是淘汰樹木中存在維度更小或者能產(chǎn)生更高精度的樹木。針對(duì)以上的問題,本文提出了基于一種新的森林優(yōu)化算法的特征選擇(New Feature Selection Using Forest Optimization Algorithm,NFSFOA)算法,該算法分別從森林的初始化、候選森林的生成和森林的更新3個(gè)方面作了改進(jìn)。最后將新算法與傳統(tǒng)算法在相同的測試數(shù)據(jù)下進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,新的算法表現(xiàn)出了更準(zhǔn)確的分類性能,并且能更有效地縮減維度。

1 特征選擇綜述

在機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域中,特征選擇的好壞會(huì)直接影響分類器的性能,因此特征選擇的方法非常重要。Dash等[16]提出了特征選擇的框架。特征選擇共分為4個(gè)部分:特征子集的搜索機(jī)制、特征子集的評(píng)價(jià)機(jī)制、停止準(zhǔn)則和驗(yàn)證方法[17-18]。當(dāng)前主要研究集中在搜索機(jī)制和評(píng)價(jià)機(jī)制。

根據(jù)特征子集評(píng)價(jià)機(jī)制的不同,可將特征選擇方法分為三 類 :過 濾 式(Filter)、包 裹 式(Wrapper)和 嵌 入 式(Embeding)[4]。過濾式方法[10,19]是先對(duì)數(shù)據(jù)進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)。過濾式特征選擇方法一般使用評(píng)價(jià)函數(shù)來增加特征與類別之間的相關(guān)性,削減特征之間的相關(guān)性[1,16]。典型的過濾式特征選擇是Relief。Kira等[20]提出 Relief方法是一種特征權(quán)重法,計(jì)算每個(gè)特征和類別之間的相關(guān)性,選擇相關(guān)性大于一定閾值的特征作為特征子集或者指定要選擇的特征個(gè)數(shù)K,然后選擇相關(guān)性最大的K個(gè)特征作為特征子集。Relief方法只能處理二分類問題不能處理多分類問題。Kononenko[21]提出Relief-F方法,該方法用于處理多分類問題。過濾式方法的關(guān)鍵是選取評(píng)價(jià)函數(shù),評(píng)價(jià)函數(shù)可分為四類:距離度量、信息度量、依賴性度量和一致性度量[16]。包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則[4]。典型的包裹式特征選擇是拉斯維加斯包裹式特征選擇(Las Vegas Wrapper,LVW)。Liu等[22]提出LVW方法在拉斯維加斯方法框架下,使用隨機(jī)策略來進(jìn)行子集搜索,并以最終分類器的誤差作為特征子集的評(píng)價(jià)標(biāo)準(zhǔn)[4]。學(xué)者們使用不同機(jī)器學(xué)習(xí)算法用于包裹式特征選擇,如決策樹算法[23]、遺傳算法(Genetic Algorithm,GA)[24]和 支 持 向 量 機(jī)(Support Vector Machine,SVM)[25]等。嵌入式特征選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個(gè)優(yōu)化過程中完成,即在學(xué)習(xí)器訓(xùn)練過程中自動(dòng)地進(jìn)行了特征選擇[4]。正則化是典型的嵌入式特征的方法。Tikhonov等[26]提出嶺回歸算法在平方誤差損失函數(shù)中引入L2范數(shù)正則化。Tibshirani等[27]提出套索算法(Least Absolute Shrinkage and Selection Operator,LASSO),與嶺回歸算法類似該算法使用平方誤差函數(shù)作為損失函數(shù),區(qū)別在于該算法使用范數(shù)正則化替代L2范數(shù)正則化。使用正則化求解得到的非零權(quán)重對(duì)應(yīng)的特征就是最終求解的特征。正則化將特征選擇和學(xué)習(xí)器訓(xùn)練同時(shí)完成,學(xué)習(xí)器訓(xùn)練完成則特征選擇完成。

進(jìn)化算法是通過模擬自然界生物不斷進(jìn)化的過程以實(shí)現(xiàn)隨機(jī)搜索的一類算法[28]。進(jìn)化算法具有高魯棒性和自適應(yīng)性,能有效處理傳統(tǒng)優(yōu)化算法難以解決的復(fù)雜問題,可用于求解全局最優(yōu)解問題[29]?;谶M(jìn)化算法具備的上述優(yōu)點(diǎn),學(xué)者們使用進(jìn)化算法用于特征選擇[5]。遺傳算法是進(jìn)化算法的一種,Yang等[30]提出使用遺傳算法進(jìn)行特征選擇。Dong等[31]提出一種顆粒信息與遺傳算法相結(jié)合的特征算法,該方法使用改進(jìn)的特征粒度遺傳算法用于特征選擇。Dorigo等[32-33]提出蟻群算法(Ant Colony Optimization,ACO),該算法是啟發(fā)式算法,并用于求解組合優(yōu)化問題。Kabir等[34]提出一種混合蟻群優(yōu)化算法用于特征選擇,該算法結(jié)合了過濾式特征選擇和包裹式特征選擇的優(yōu)點(diǎn)。Wan等[35]提出一種改進(jìn)的二進(jìn)制編碼蟻群算法用于特征選擇,該算法使用遺傳算法初始化蟻群算法的信息素的初始信息。Kenned等[36-37]提出粒子群優(yōu)化(PSO)算法,該算法利用個(gè)體信息共享使整個(gè)群體的運(yùn)動(dòng)在問題求解空間中產(chǎn)生從無序到有序的演化過程。Xue等[14]提出了分類問題中基于粒子群算法的特征選擇算法,該算法提出了三種新的初始化策略和三種新的個(gè)體最佳和全局最佳的更新機(jī)制。Zhang等[38]提出基于裸骨粒子群算法,該算法設(shè)計(jì)了一種增強(qiáng)記憶策略來更新粒子的局部領(lǐng)導(dǎo)者,避免了粒子中優(yōu)秀基因的退化。Tran等[39]總結(jié)了粒子群優(yōu)化算法在特征選擇中的運(yùn)用。最近幾年進(jìn)化算法產(chǎn)生了一個(gè)新的分支,Ghaemi等[11]根據(jù)森林中樹木優(yōu)勝劣汰的生長過程提出了森林優(yōu)化算法(Forest Optimization Algorithm,F(xiàn)OA)。森林優(yōu)化算法是一種仿生類智能優(yōu)化算法,它模擬森林中種子傳播的過程進(jìn)行搜索最優(yōu)解,用于解決非線性連續(xù)型優(yōu)化問題[40]。

2 基于森林優(yōu)化算法的特征選擇

FSFOA算法共分為5個(gè)步驟:初始化森林(Initialize Trees)、本地播種(Local Seeding)、規(guī)模限制(Population Limiting)、遠(yuǎn)處播種(Global Seeding)和更新最優(yōu)樹(Update the Best Tree)。

步驟1 初始化森林。隨機(jī)產(chǎn)生一些樹木初始化生成一個(gè)森林,每棵樹木由特征值、樹齡(Age)和適應(yīng)度(Fitness)值組成。特征值是一個(gè)隨機(jī)產(chǎn)生的“0”或“1”的一維向量,“0”代表了對(duì)應(yīng)的特征被刪除,“1”代表了對(duì)應(yīng)的特征被選擇。Age設(shè)置為0。適應(yīng)度是評(píng)價(jià)這棵樹選擇的特征在數(shù)據(jù)集上的學(xué)習(xí)能力,F(xiàn)SFOA算法使用的適應(yīng)度函數(shù)為:鄰近算法(K-Nearest Neighbor,KNN)[41]、支持向量機(jī)算法[42]和C4.5算法[43]。

步驟2 本地播種。在本地播種階段,將森林中樹齡為0的樹參與本地播種,其余樹木不參與本地播種。將樹齡為0的樹依據(jù)參數(shù)本地播種變換(Local Seeding Change,LSC)值復(fù)制生成若干個(gè)相同特征值的樹木。每棵新生成的樹特征值隨機(jī)選擇一位取反,如果值為“0”則變成“1”,反之亦然。最后森林中所有樹木的Age值加1,新樹Age值置0,并將新樹加入森林之中。本地播種的過程用于算法的局部搜索。

步驟3 規(guī)模限制。FSFOA算法把控制樹木數(shù)量的過程稱為規(guī)模限制(Population Limiting)。規(guī)模限制的方式有兩種:第一種,將樹齡大于年齡上限(Life Time)值的樹木淘汰,這種方式模擬樹木正常死亡的過程;第二種,在淘汰掉樹齡大于“Life Time”值的樹木之后,森林?jǐn)?shù)量的規(guī)模如果還大于規(guī)模上限(Area Limit)值,將所有樹木的適應(yīng)度(Fitness)做降序排列,淘汰掉適應(yīng)度小的樹木,將森林的規(guī)模控制在“Area Limit”值以內(nèi),這種方式模擬自然界適者生存法則。

步驟4 遠(yuǎn)處播種。FSFOA算法通過模擬遠(yuǎn)處播種的過程為算法提供全局搜索方法。算法依據(jù)轉(zhuǎn)移率(Transfer Rate)的值隨機(jī)選擇候選森林中一定比例的樹木用于遠(yuǎn)處播種。每棵遠(yuǎn)處播種的樹木依據(jù)遠(yuǎn)處播種變化(Global Seeding Change,GSC)值隨機(jī)選擇若干個(gè)特征值取反。

步驟5 更新最優(yōu)樹。在更新最優(yōu)樹階段,選擇森林中適應(yīng)度最大的樹,將這些樹的年齡值置為0,重新放入森林中。

3 基于改進(jìn)的森林優(yōu)化算法的特征選擇

3.1 FSFOA算法的不足

FSFOA算法在以下3個(gè)方面存在不足:

1)FSFOA算法在初始化森林階段,初始化的樹木采用完全隨機(jī)方式,完全隨機(jī)策略在非凸函數(shù)問題中容易陷入局部最優(yōu)解。

2)FSFOA算法在規(guī)模限制階段通過兩種策略限制森林的規(guī)模,并將淘汰的樹木生成候選森林,并按一定比例數(shù)量用于遠(yuǎn)處播種。這種會(huì)產(chǎn)生“優(yōu)劣”樹不完備問題,影響全局搜索。

規(guī)模限制的第一種方式是模擬優(yōu)質(zhì)樹的自然死亡,將樹齡達(dá)到“Life Time”值淘汰進(jìn)入候選森林,樹齡能達(dá)到“Life Time”值的樹以前沒有被淘汰說明這類樹的fitness會(huì)大于一般的樹,否則之前就會(huì)被淘汰,這樣的樹是一種“優(yōu)質(zhì)樹”。規(guī)模限制的第二種方式是如果森林的規(guī)模超過了“Area Limit”值,淘汰fitness最小的樹。這種方式是模擬森林中優(yōu)勝劣汰的過程,有的樹由于基因或者環(huán)境的問題還沒有長大就死亡了,說明這種樹是一種“劣質(zhì)樹”。將優(yōu)質(zhì)樹和劣質(zhì)樹混在一起形成候選森林,按一定比例進(jìn)行遠(yuǎn)處播種,由于優(yōu)質(zhì)樹和劣質(zhì)樹混在一起選擇,有可能選擇到的都是優(yōu)質(zhì)樹或者都是劣質(zhì)樹,最終影響到全局搜索。

3)在最優(yōu)樹更新階段會(huì)有相同適應(yīng)度但是特征不同的樹木,F(xiàn)SFOA算法是將這些樹木淘汰,但是淘汰樹木中存在維度更小或者能產(chǎn)生更高精度的樹木。

3.2 FSFOA算法的改進(jìn)

針對(duì)FSFOA算法以上的不足,本文相應(yīng)提出了3點(diǎn)改進(jìn):

1)初始化策略的改進(jìn)。初始化策略共分為兩步:第一步,計(jì)算數(shù)據(jù)所有特征與標(biāo)簽之間的皮爾森相關(guān)系數(shù),取相關(guān)系數(shù)為正的特征作為備選特征集;第二步,將備選特征集使用L1正則化特征選擇法選出權(quán)重為非0的特征。

通過使用皮爾森相關(guān)系數(shù)和L1正則化兩次選擇之后產(chǎn)生的特征集合與標(biāo)簽之間具有很高的關(guān)聯(lián)性。與隨機(jī)初始化策略相比,新的初始化策略選擇的特征集合能夠快速地收斂到極值,并有助于搜索到最優(yōu)的特征子集。

皮爾森相關(guān)系數(shù)(Pearson Correlation Coefficient)也稱皮爾森積矩相關(guān)系數(shù)(Pearson Product-moment Correlation Coefficient),是一種線性相關(guān)系數(shù)。皮爾森相關(guān)系數(shù)是用來反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)量。相關(guān)系數(shù)描述的是兩個(gè)變量間線性相關(guān)強(qiáng)弱的程度,相關(guān)系數(shù)的絕對(duì)值越大表明相關(guān)性越強(qiáng)。皮爾森相關(guān)系數(shù)等于兩個(gè)向量的協(xié)方差除以各自的標(biāo)準(zhǔn)差,如式(1)所示:其中:Cov(X,Y)代表向量X和向量Y的協(xié)方差,σx代表向量X的標(biāo)準(zhǔn)差,σy代表向量Y的標(biāo)準(zhǔn)差,E代表期望,ρxy代表向量X和向量Y的皮爾森相關(guān)系數(shù)。

皮爾森相關(guān)系數(shù)的取值范圍在-1到1之間:相關(guān)系數(shù)為0,說明兩個(gè)向量不是線性相關(guān);如果相關(guān)系數(shù)大于0,說明兩個(gè)向量正相關(guān);如果相關(guān)系數(shù)小于0,說明兩個(gè)向量負(fù)相關(guān)。皮爾森相關(guān)系數(shù)特征選擇法是過濾式特征選擇的一種。

2)候選森林的改進(jìn)。根據(jù)規(guī)模限制的兩個(gè)策略將候選森林分為“優(yōu)質(zhì)森林”和“劣質(zhì)森林”,將“優(yōu)質(zhì)森林”和“劣質(zhì)森林”分別按“Transfer Rate”的值隨機(jī)選擇樹木進(jìn)行遠(yuǎn)處播種。由于規(guī)模限制的策略不同,“優(yōu)質(zhì)森林”和“劣質(zhì)森林”會(huì)產(chǎn)生“類別不平衡”問題,即“優(yōu)質(zhì)森林”的數(shù)量會(huì)遠(yuǎn)大于“劣質(zhì)森林”的數(shù)量或者相反。為了解決“類別不平衡”問題,當(dāng)“優(yōu)質(zhì)森林”數(shù)量大于“劣質(zhì)森林”數(shù)量時(shí),在森林中選擇fitness最小的若干個(gè)樹木補(bǔ)足“優(yōu)質(zhì)森林”和“劣質(zhì)森林”之間數(shù)量的差額;反之則在森林中選擇fitness最大的若干個(gè)樹木補(bǔ)足差額。

3)最優(yōu)樹更新和選擇的改進(jìn)。在FSFOA算法中,當(dāng)遠(yuǎn)處播種生成的新樹的最大fitness與森林中最大fitness相同時(shí),新樹被淘汰。在新的更新機(jī)制中,如果新樹的最大fitness等于森林中最大的fitness時(shí),則將這些新樹Age置0后添加到森林中。這是因?yàn)楫?dāng)新樹和舊樹fitness相同時(shí),存在維度更小的新樹,因此將新樹添加到森林之中有利于維度的縮??;如果fitness相同但新樹的維度大于等于舊樹,將這樣的新樹也添加到森林中,因?yàn)檫@樣的新樹再通過傳播存在產(chǎn)生性能更好的樹,以提高了搜索全局最優(yōu)解的可能。最后,在最優(yōu)樹選擇階段,選擇fitness最大的樹,如果有多個(gè)fitness最大的樹則選擇特征數(shù)量最少的樹。

3.3 算法的流程

改進(jìn)算法的流程如圖1所示。

圖1 NFSFOA算法流程Fig.1 Flowchart of NFSFOA algorithm

4 實(shí)驗(yàn)

為了證明新算法的有效性,實(shí)驗(yàn)采用與FSFOA算法相同的數(shù)據(jù)集和參數(shù),實(shí)驗(yàn)從UCI機(jī)器學(xué)習(xí)庫[44]中獲得10個(gè)數(shù)據(jù)集。實(shí)驗(yàn)程序用python3編寫,使用scikit-learn工具包編寫L1嵌入式特征選擇、皮爾森相關(guān)系數(shù)過濾式特征選擇以及其他機(jī)器學(xué)習(xí)的算法。所有實(shí)驗(yàn)都在MacBook Pro 3.5 GHz Intel Core i7處理器下執(zhí)行。

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)一共包含了10個(gè)數(shù)據(jù)集合,分別是:Wine、Ionosphere、Vehicle、Glass、Segmentation、SRBCT、Heart-statlog、Cleveland、Sonar和Dermatology。FSFOA算法將實(shí)驗(yàn)數(shù)據(jù)集根據(jù)特征數(shù)量的個(gè)數(shù)分為“小維度”“中維度”和“大維度”數(shù)據(jù)集,分別對(duì)應(yīng)的特征數(shù)量的范圍是[0,19]、[20,49]、[50,∞][12]。根據(jù)以上劃分的依據(jù),數(shù)據(jù)集中包含6個(gè)小維數(shù)據(jù)集、2個(gè)中維數(shù)據(jù)集和2個(gè)大維數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集合的相關(guān)說明如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集說明表Tab.1 Descriptions of experimental data

4.2 實(shí)驗(yàn)參數(shù)

新算法的參數(shù)與FSFOA算法的參數(shù)一致,F(xiàn)SFOA算法共有5個(gè)參數(shù):樹的年齡上限(Life Time)、樹的規(guī)模上限(Area Limit)、遠(yuǎn)處播種的比例(Transfer Rate)、本地播種變化個(gè)數(shù)(LSC)和遠(yuǎn)處播種變化個(gè)數(shù)(GSC)。FOA指出參數(shù)“Life Time”“Area Limit”和“Transfer Rate”與數(shù)據(jù)集的數(shù)量無關(guān)[11]。FSFOA算法將這3個(gè)參數(shù)設(shè)定為固定值,“Life Time”為15、“Area Limit”為 50、“Transfer Rate”為5%[12]。FOA指出LSC 和GSC與特征的個(gè)數(shù)相關(guān)[11]。FSFOA算法設(shè)定了10個(gè)數(shù)據(jù)集的LSC和GSC值,如表2所示。

表2 實(shí)驗(yàn)數(shù)據(jù)集參數(shù)表Tab.2 Parametersof experimental data

為了防止產(chǎn)生過擬合問題,通常會(huì)將實(shí)驗(yàn)數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測試集,使用驗(yàn)證集來減少過擬合問題的產(chǎn)生。由于本次實(shí)驗(yàn)的數(shù)據(jù)較少,如果增加驗(yàn)證集,訓(xùn)練集較少將會(huì)產(chǎn)生欠擬合。因此實(shí)驗(yàn)不使用驗(yàn)證集,而使用10折交叉驗(yàn)證、2折交叉驗(yàn)證和70%訓(xùn)練集與30%測試集。10折交叉驗(yàn)證是指將數(shù)據(jù)集合分為10份,其中9份作為訓(xùn)練集,1份作為測試集,重復(fù)10次每次使用的測試集不同,最后將10次測試結(jié)果求均值。

評(píng)價(jià)算法的性能使用兩個(gè)函數(shù):分類精確性(Classification Accuracy,CA)和 維 度 減 少 率(Dimension Reduction,DR),CA和DR如式(2)和式(3)所示:

其中:N_CC是測試數(shù)據(jù)中分類正確的數(shù)據(jù)個(gè)數(shù),N_AC是測試數(shù)據(jù)的總數(shù)。

其中:N_SF是通過算法選擇到的特征個(gè)數(shù),N_AF是特征的總數(shù)。

CA和DR的值域?yàn)椋?,1]。CA是分類算法的準(zhǔn)確性,CA值越大說明該算法分類性能越好;DR是特征選擇算法特征維度選擇能力,DR值越大說明算法維度縮減能力越強(qiáng)。

適應(yīng)度函數(shù)使用KNN、C4.5、SVM,參數(shù)如表3所示。

表3 適應(yīng)度函數(shù)和參數(shù)Tab.3 Fitness functions and parameters

4.3 實(shí)驗(yàn)結(jié)果

如表4所示,NFSFOA算法和FSFOA算法在不同數(shù)據(jù)集、不同適應(yīng)度函數(shù)和不同驗(yàn)證方式下的實(shí)驗(yàn)結(jié)果。通過表4可以發(fā)現(xiàn),在數(shù)據(jù)集Sonar、Dermatology、Ionosphere、Segmentation和Vehicle中,NFSFOA算法的測試精度和維度縮減能力相較于FSFOA算法在相同測試條件下都有提高。在SRBCT數(shù)據(jù)集中,NFSFOA算法和FSFOA算法測試精度相同,NFSFOA算法維度縮減能力提高。在Heart-statlog和Wine數(shù)據(jù)集中,NFSFOA算法在部分條件下測試精度有提高,維度縮減能力全部有提高。在Cleveland和Glass數(shù)據(jù)集中,測試精度都有提高,部分條件下維度縮減能力下降。

4.4 實(shí)驗(yàn)結(jié)果分析

第一,在SRBCT數(shù)據(jù)集中,NFSFOA算法和FSFOA算法測試精度相同是因?yàn)镾RBCT數(shù)據(jù)集特征個(gè)數(shù)為2 308但數(shù)據(jù)只有63條,特征個(gè)數(shù)遠(yuǎn)大于數(shù)據(jù)個(gè)數(shù),這樣的數(shù)據(jù)集容易陷入過擬合。SRBCT數(shù)據(jù)集采用70%訓(xùn)練30%測試的方式,一共測試數(shù)據(jù)19條,94.73%的測試準(zhǔn)確率,19條數(shù)據(jù)中18條數(shù)據(jù)分類正確,只有1條分類錯(cuò)誤。94.73%的測試準(zhǔn)確率達(dá)到了分類器的極限,如果精確率再提高則分類正確率達(dá)到100%。

第二,在Heart-statlog和Wine數(shù)據(jù)集中,在部分情況下分類精度有下降。在Cleveland和Glass數(shù)據(jù)集中,在部分情況下維度縮減能力有下降。主要原因是與其他數(shù)據(jù)集相比,Heart-statlog、Wine、Cleveland和Glass這四個(gè)數(shù)據(jù)集的特征維度最小,分別是13個(gè)特征和9個(gè)特征。說明NFSFOA算法在維度太小的數(shù)據(jù)集上分類性能和維度縮減能力有限。

第 三 ,在 數(shù) 據(jù) 集 Sonar、Dermatology、Ionosphere、Segmentation和Vehicle中,NFSFOA算法分類性能和維度縮減能力都有提高。說明NFSFOA算法在中大維度的數(shù)據(jù)集中有不錯(cuò)的性能。

表4 NFSFOA算法和FSFOA算法在不同數(shù)據(jù)上性能的對(duì)比Tab.4 Performancecomparison between NFSFOA algorithmand FSFOA algorithmon different data

5 結(jié)語

本文針對(duì)FSFOA算法存在的三個(gè)問題,提出了一種基于改進(jìn)的森林優(yōu)化算法的特征選擇算法。該算法提出了三個(gè)方面的改進(jìn):第一,在初始化階段使用皮爾森相關(guān)系數(shù)和L1正則化代替隨機(jī)初始化;第二,在候選森林生成階段將優(yōu)質(zhì)樹和劣質(zhì)樹分開采用差額補(bǔ)足的方法解決優(yōu)劣樹不平衡問題;第三,在更新解決段將精度相同但維度不同的樹添加到森林中。本文通過實(shí)驗(yàn),測試了小維度、中維度和大維度的數(shù)據(jù)集,新算法在中大維度數(shù)據(jù)上分類性能和維度縮減能力均有提高。

猜你喜歡
特征選擇適應(yīng)度樹木
改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
樹木之最
辨認(rèn)樹木
啟發(fā)式搜索算法進(jìn)行樂曲編輯的基本原理分析
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護(hù)中的應(yīng)用研究
一種多特征融合的中文微博評(píng)價(jià)對(duì)象提取方法
樹木之最
基于人群搜索算法的上市公司的Z—Score模型財(cái)務(wù)預(yù)警研究
富蕴县| 上林县| 丰镇市| 同仁县| 玉林市| 虹口区| 昆明市| 乌拉特前旗| 盘锦市| 桐柏县| 昭通市| 洪洞县| 泰兴市| 万山特区| 新河县| 通河县| 明溪县| 麦盖提县| 莆田市| 濮阳县| 肇州县| 承德县| 墨竹工卡县| 尚义县| 洛隆县| 桃源县| 镇赉县| 疏附县| 新兴县| 五寨县| 凭祥市| 邳州市| 渝北区| 同江市| 怀集县| 抚宁县| 福州市| 炎陵县| 衡东县| 应城市| 邛崃市|