国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自調(diào)優(yōu)自適應(yīng)遺傳算法的WKNN特征選擇方法

2021-10-28 05:53:32陳倩茹李雅麗許科全劉銥龍王淑琴
計算機工程與應(yīng)用 2021年20期
關(guān)鍵詞:特征選擇分類器遺傳算法

陳倩茹,李雅麗,許科全,劉銥龍,王淑琴

天津師范大學 計算機與信息工程學院,天津 300387

隨著大數(shù)據(jù)時代的到來,高維數(shù)據(jù)集的處理已不可避免。訓練時間隨著特征空間維數(shù)的增加而增加,不斷增加的維度會導致“維度詛咒”的問題[1]。特征選擇是解決“維度詛咒”問題的重要降維方法之一[2]。通常情況下,分類器處理的數(shù)據(jù)集中存在許多冗余或不相關(guān)的特征,這不僅增加了訓練時間,而且降低了學習后分類器的分類精度。特征選擇是克服這類問題的一項重要的數(shù)據(jù)預(yù)處理技術(shù),它涉及到從原始的特征空間中選擇相關(guān)特征的最小子集,從而減少訓練時間,提高學習性能[3]。

在過去的幾十年里,特征選擇算法得到了廣泛的應(yīng)用。根據(jù)特征選擇搜索如何與分類模型的構(gòu)建相結(jié)合,特征選擇方法一般分為三類:Filter、Wrapper和Embedded[4]。Filter方法通過只考慮數(shù)據(jù)的內(nèi)在屬性來評估特征的相關(guān)性,并基于統(tǒng)計或信息度量選擇高級特征。Wrapper方法利用所選特征訓練分類器,根據(jù)分類器在測試集上的表現(xiàn)來評價所選特征。Embedded方法在考慮分類器構(gòu)造的同時,篩選出關(guān)鍵特征。

K近鄰(K-Nearest Neighbors,KNN)算法是一種基于對象相似度的原型方法,常用于解決分類和回歸任務(wù)[5]。近年來,K近鄰被擴展成不同的方式,應(yīng)用于特征選擇。Park等[6]提出了一種基于最近鄰集成分類器的Wrapper特征選擇方法。該方法利用序列隨機K近鄰(SRKNN)作為隨機森林在高維數(shù)據(jù)建模中的替代方法,通過迭代過程尋找重要特征。Wang等[7]提出了一種利用嵌入KNN分類器來加速基于Wrapper的特征子集選擇方法。該方法通過構(gòu)造一個分類器距離矩陣來存儲映射到所選特征上的實例之間的距離,從而加速基于Wrapper的特征選擇。宋寶燕等[8]提出了一種基于Voronoi劃分的位置數(shù)據(jù)KNN查詢處理方法,通過R樹確定查詢點所在的Voronoi單元,進一步通過VHash獲得KNN查詢結(jié)果;在VHash、VR二級索引更新期間,針對變化的位置數(shù)據(jù),實現(xiàn)了近似查詢及精確查詢。大多方法在計算兩個樣本距離時都認為每個特征的重要程度是相同的,但事實上,大多特征對類別的貢獻度應(yīng)不同。因此,本文使用加權(quán)K近鄰(WeightedK-Nearest Neighbor,WKNN)計算距離。

進化計算(Evolutionary computation,EC)方法中的自適應(yīng)機制引起了研究者的廣泛關(guān)注[9]。一般而言,具有自適應(yīng)機制的EC算法可以在迭代過程中自動調(diào)整算法的參數(shù)。特別是遺傳算法,種群規(guī)模在遺傳算法整個尋優(yōu)過程中扮演著重要的角色,它規(guī)定了搜索樣本的數(shù)目,交叉算子是生成新個體的主要方法,可以從全局搜索優(yōu)良的個體,變異算子能夠從局部搜索出發(fā),使個體更加接近最優(yōu)解,從而提高算法的局部搜索能力。通過自適應(yīng)地調(diào)整遺傳算法的參數(shù),可以避免算法過早收斂和后處理速度慢。Koromyslova等[10]提出了一種自配置遺傳算法(SCGA)。所有類型的遺傳算子用相同的概率用于新的子代,通過評估遺傳算子類型的適應(yīng)度,對概率進行動態(tài)調(diào)整。自適應(yīng)遺傳算法(AGAs)[11]通過同時修改交叉值和變異值來確保種群多樣性,從而為神經(jīng)網(wǎng)絡(luò)學習提供理想的初始權(quán)值。這一現(xiàn)象對于消除局部收斂和防止算法停滯是很重要的。

針對大多已有基于K近鄰和遺傳算法的特征選擇方法中沒有考慮各個特征的重要度不同,以及出現(xiàn)的過早收斂,特別是局部最優(yōu)解問題,本文提出了一種基于自調(diào)優(yōu)自適應(yīng)遺傳算法的WKNN特征選擇方法,簡記為WKNNSTA_GAFS(WeightedK-Nearest Neighbor Feature Selection Based on Self-Tuning Adaptive Genetic Algorithm)。該方法將WKNN和自調(diào)優(yōu)自適應(yīng)遺傳算法結(jié)合起來,首先使用WKNN預(yù)測樣本的類別,為每個特征分配一個權(quán)重來衡量特征的分類能力。在計算樣本類別時既考慮了每個特征的不同分類能力,又考慮了最近鄰的距離。然后利用自調(diào)優(yōu)自適應(yīng)遺傳算法,對變異率、種群規(guī)模和收斂閾值進行參數(shù)調(diào)整,在迭代過程中搜索最優(yōu)特征權(quán)重向量。不僅能克服局部最優(yōu)解問題,還能消除過早收斂和防止由于參數(shù)調(diào)優(yōu)反饋不穩(wěn)定而產(chǎn)生的過高的計算成本。

1 自調(diào)優(yōu)自適應(yīng)遺傳算法的WKNN特征選擇方法

1.1 加權(quán)K近鄰

傳統(tǒng)的KNN方法中,預(yù)測樣本類別時,使用相同權(quán)重的K個最近鄰,即權(quán)值為1/K。但事實上不同近鄰的重要性可能是不同的,兩個樣本越接近,類別可能越相同,對目標類別預(yù)測的影響越大。因此,應(yīng)該根據(jù)K個近鄰與預(yù)測樣本之間的距離,為每個近鄰分配相應(yīng)的權(quán)值。距離越近,分配的權(quán)值越大。

在本文中,如果沒有特殊說明,均假設(shè)處理回歸任務(wù)。給定一個回歸問題D=(F,X,Y),F(xiàn)={f1,f2,…,f m}為特征集合,X={x1,x2,…,xn}為包含n個樣本的數(shù)據(jù)集,Y={y1,y2,…,y n}為目標變量集合。給定一個特征權(quán)重向量ωf=(ωf1,ωf2,…,ωf m),則特征加權(quán)后測試樣本x i=(x i1,xi2,…,xi m)(1≤i≤n)的觀測值可以用Hadamard積表示為:

使用特征加權(quán)后樣本x i與x j的歐幾里德距離公式為:

則基于距離和特征加權(quán)K近鄰的樣本xi的預(yù)測值Pi(ωf)為:

其中,j∈N Ki表示樣本xi的K個近鄰的指標集,即x j為x i的第j個近鄰。

本文采用的距離加權(quán)函數(shù)定義為:

1.2 自調(diào)優(yōu)自適應(yīng)遺傳算法

遺傳算法是一類借鑒生物界自然選擇和遺傳機制的隨機搜索算法[12-13]。傳統(tǒng)的遺傳算法在遺傳進化的過程中采用固定參數(shù),容易導致進化過程中出現(xiàn)過早收斂和停滯現(xiàn)象。因此,一種自調(diào)優(yōu)自適應(yīng)遺傳算法(簡稱為STA_GA)被提出對遺傳算法參數(shù)和收斂閾值進行自動調(diào)整,以提高收斂精度。

由于種群的多樣性是保證遺傳算法找到全局最優(yōu)解的前提條件,因此,STA_GA算法的目的是通過對遺傳算法參數(shù)的更新增加種群的多樣性。在進化過程中,遺傳算法的選擇操作削弱了種群的多樣性,交叉算子只有滿足一定的條件才能保持種群的多樣性,而變異操作則是保持種群多樣性的有效算子[14]。種群規(guī)模越大也可以增加種群多樣性,因此,本文提出方法將在遺傳迭代過程中,對變異率、種群規(guī)模和收斂閾值三個參數(shù)進行自適應(yīng)調(diào)整。

為了便于敘述,首先設(shè)在靜態(tài)遺傳算法中,Pm表示初始變異率,PS表示種群規(guī)模,Time表示迭代次數(shù),cgen為當前代的迭代次數(shù),θ表示收斂閾值。STA_GA采用傳統(tǒng)的初始化策略,根據(jù)特征的數(shù)量和單個特征的組合,隨機初始化每個粒子。

STA_GA將一個預(yù)定的候選評估數(shù)定義為收斂閾值,然后在自適應(yīng)調(diào)整的過程中,判斷當前代的靜態(tài)迭代次數(shù)是否大于收斂閾值或者全局最優(yōu)解是否更新,如果當前代的靜態(tài)迭代次數(shù)大于收斂閾值,或者全局最優(yōu)解始終沒有得到更新,則對變異率、種群規(guī)模和收斂閾值三個參數(shù)進行重新調(diào)整。

變異率的更新公式為:

種群規(guī)模也會隨之更新,更新公式為:

其中,gaiter表示靜態(tài)迭代次數(shù),即迭代過程中一代或幾代連續(xù)沒有獲得更好最優(yōu)解的個體總數(shù)。那么種群規(guī)模會增加這個個體總數(shù)的G倍。

如果當前靜態(tài)迭代次數(shù)大于收斂閾值時,表示已經(jīng)有超過收斂閾值個數(shù)的連續(xù)個體未更新最優(yōu)解,本文中收斂閾值的初值為種群規(guī)模PS,即連續(xù)至少超出種群規(guī)模個體都未更新最優(yōu)解,則種群規(guī)模會更新變大,因此,收斂閾值也應(yīng)隨之增加,本文中其增量為上一代種群規(guī)模,其更新公式為:

相比參數(shù)更新前,更新后的種群會包含更多個體,多樣性也會更大,種群產(chǎn)生最優(yōu)個體的概率也更高,有利于算法搜索到全局最優(yōu)解。更新后的變異算子可以產(chǎn)生較多的新個體,種群多樣性同樣得到了提高,并且擴展了搜索空間,變異算子能夠從局部搜索出發(fā),使個體更加接近最優(yōu)解,提高了算法的局部搜索能力,加快了遺傳算法的收斂速度[15]。

仿真過程中發(fā)生收斂時,STA_GA進行參數(shù)更新,以便獲得更高數(shù)量的候選種群和變異率,而不是在每次迭代中使用相同的遺傳算子參數(shù)。當前代的靜態(tài)迭代次數(shù)小于等于收斂閾值或全局最優(yōu)解更新時,STA_GA采用靜態(tài)的遺傳算法參數(shù)設(shè)置。與靜態(tài)的遺傳參數(shù)設(shè)置相比,STA-GA參數(shù)調(diào)優(yōu)機制的優(yōu)點在于允許啟發(fā)式搜索方法動態(tài)地在目標搜索空間中搜索全局最優(yōu)解。

為了確保反饋的穩(wěn)定,以及防止由于參數(shù)變化過大而導致的不一致的性能,限定了參數(shù)值的浮動范圍,其中Pm小于等于0.5或者PS不能超過初始種群的三倍。對于每一代STA_GA,通過判斷當前代的靜態(tài)迭代次數(shù)是否大于收斂閾值或者全局最優(yōu)解是否更新,對上述參數(shù)值進行重新評估。只有當滿足停止條件時,自適應(yīng)參數(shù)調(diào)優(yōu)才會終止。

1.3 WKNNSTA_GAFS

WKNNSTA_GAFS算法主要包括初始種群、計算預(yù)測樣本的類別、計算個體適應(yīng)度、參數(shù)調(diào)優(yōu)、執(zhí)行遺傳算子和最后得到最優(yōu)權(quán)重向量六個部分。迭代結(jié)束后,對結(jié)果數(shù)組進行排序,得到全局最優(yōu)特征權(quán)重向量ωbestf。通過對最優(yōu)特征權(quán)重降序排序,依次選取對應(yīng)的前N個特征組成一個子集。然后,利用分類器對其進行評價。

(1)初始化種群。使用[0,1]間的實數(shù)隨機初始化含有m位基因的個體,種群中每個個體代表一個特征權(quán)重向量。

(2)適應(yīng)度函數(shù)。種群初始化后,使用適應(yīng)度函數(shù)計算每個個體的適應(yīng)度值。第t個個體適應(yīng)度函數(shù)定義為:

式中,Max是人為給出的使F t(ωf)≥0的正整數(shù)。C(ωf)為成本函數(shù),表示為所有訓練樣本損失函數(shù)的平均值。成本函數(shù)越小說明整體的預(yù)測誤差越小。成本函數(shù)定義為:

式中,L為損失函數(shù),用預(yù)測值P i(ωf)與目標函數(shù)的真實值yi之間的差表示。本文損失函數(shù)定義為:

(3)STA_GA參數(shù)調(diào)優(yōu)。通過判斷,當本次迭代的靜態(tài)迭代次數(shù)大于收斂閾值或全局最優(yōu)解未更新時,開始進行參數(shù)調(diào)優(yōu)。

(4)選擇算子。選擇是在個體適應(yīng)度評價的基礎(chǔ)上,從上一代中選擇好的個體到下一代的操作。適應(yīng)度值越高的個體被選擇的概率越高。本文采用輪盤賭選擇方法[16]。

(5)交叉算子。交叉操作是生成新個體的主要方法,決定了遺傳算法的全局搜索能力。為了下一代能產(chǎn)生優(yōu)秀的個體,本文采用算術(shù)交叉算子。首先根據(jù)概率隨機選擇一對父代個體P1、P2作為雙親,然后進行如下隨機線性組合,產(chǎn)生兩個新的子代個體P'1、P'2。

式中,α、β為(0,1)間的隨機數(shù),個體基因的取值范圍為[Gmin,Gmax]。如果(1-α)?P1+β?P2的值小于Gmin(或大于Gmax),則P1'的值為Gmin(或Gmax);P2'的值同理。

(6)變異算子。本文采用高斯變異算子,原因是它能重點搜索原個體附近的某個局部區(qū)域。它用符合均值為μ、方差為σ2的正態(tài)分布的一個隨機數(shù)Q來替換原來的基因值。Q可由等式(12)求得:

式中,r i是在[0,1]范圍內(nèi)均勻分布的隨機數(shù),μ和σ的計算如下:

(7)停止標準。當變異率Pm大于最高變異率max_Pm或者種群規(guī)模PS超過初始種群的三倍時,算法停止。算法的流程如圖1所示。

圖1 WKNNSTA_GAFS算法流程Fig.1 Flow of WKNNSTA_GAFS

1.4 WKNNSTA_GAFS的收斂性分析

1.4.1 遺傳算法收斂性定義

遺傳算法的收斂性通常指算法所生成的迭代種群逐漸趨于某一穩(wěn)定狀態(tài),或其適應(yīng)值的最大或平均值迭代收斂于解的最優(yōu)值。

設(shè)X t={x1(t),x2(t),…,x M(t)}為遺傳算法的t代種群,x i(t)為t代種群中的第i個個體,i=1,2,…,M,M為種群規(guī)模。設(shè)Z t=max{f(xi(t)|i=1,2,…,M)}為種群中所包含的個體的適應(yīng)度函數(shù)值的最大值,F(xiàn)?=max{f(x)|x∈S}表示全局最優(yōu)解,S為個體空間,x為S中的任意一個個體。則遺傳算法的全局收斂性定義如下:

其中,P{Zt=F?}表示第t代種群中的最優(yōu)個體為全局最優(yōu)的概率。

1.4.2 馬爾科夫鏈定義

設(shè)隨機序列X={X n,n=0,1,…}的離散空間為E,如果對于任意n≥0,以及i0,i1,…,i n,j∈E,滿足條件概率:則稱這類隨機過程為離散馬爾科夫鏈。馬爾科夫鏈有無后效性的特點,即當前狀態(tài)只與前一狀態(tài)有關(guān),而與其他狀態(tài)無關(guān)。

1.4.3WKNNSTA_GAFS收斂性證明

將WKNNSTA_GAFS看作是一個離散狀態(tài)下的隨機序列,把每一代種群P(1),P(2),…看作是一種狀態(tài),種群的代代演化可以看作是狀態(tài)之間的轉(zhuǎn)移,當前種群的狀態(tài)僅僅依賴于相鄰的上一代種群,而與以往的種群狀態(tài)無關(guān)。因此,可以利用馬爾科夫鏈證明算法的收斂性。

假設(shè)總體狀態(tài)空間為H,算法中每一代種群h(t)對應(yīng)馬爾科夫鏈中的一個狀態(tài),種群的逐代進化則對應(yīng)馬爾科夫模型中不同狀態(tài)間的轉(zhuǎn)移過程。標記每個h(i)∈H是否包含最優(yōu)個體。由WKNNSTA_GAFS收斂性可知,一旦轉(zhuǎn)移后的狀態(tài)包含了當前最優(yōu)個體,在以后的轉(zhuǎn)移過程中將不斷逼近包含最優(yōu)個體的狀態(tài)。最終即WKNNSTA_GAFS以概率1收斂到全局最優(yōu)解。

1.4.4與WKNNSTA_GAFS算法收斂性能有關(guān)的參數(shù)

與算法收斂性有關(guān)的參數(shù)主要包括種群規(guī)模、交叉率和變異率。通常,種群規(guī)模太小,算法性能很差,甚至得不到問題的可行解;種群規(guī)模太大,盡管可以防止發(fā)生早熟收斂,但是計算量會增大,收斂速度緩慢。交叉率過大,容易使種群中高適應(yīng)度值的個體被破壞掉,過小則會造成算法停滯不收斂;變異率過大容易使遺傳算法成為隨機搜索算法,過小則不會產(chǎn)生新個體。本文提出的WKNNSTA_GAFS采用自調(diào)優(yōu)自適應(yīng)遺傳算法,自適應(yīng)地調(diào)整算法變異率、種群規(guī)模和收斂閾值,在保證種群多樣性得到提高的同時,加快了種群的進化速度,其收斂速度明顯快于其他比較特征選擇算法。

1.5 WKNNSTA_GAFS時間復雜度分析

傳統(tǒng)遺傳算法的時間復雜度為O(Max_Time×PS),其中Max_Time為最大迭代次數(shù);PS為種群規(guī)模。

WKNNSTA_GAFS算法的時間復雜度也是算法迭代次數(shù)Time和種群規(guī)模PS的函數(shù)。與傳統(tǒng)遺傳算法不同的是迭代次數(shù)和種群規(guī)模是不固定的,在迭代過程中是變化的。

WKNNSTA_GAFS算法的時間復雜度可表示為O(t0×PS0+t1×PS1+…+t n×PSn),其中t i表示第i次參數(shù)更新與第i+1次參數(shù)更新之間迭代的次數(shù),PS i表示相應(yīng)的種群規(guī)模。

根據(jù)參數(shù)更新公式(5)~(7)可知,當?shù)^程中連續(xù)至少超出種群規(guī)模個體都未更新最優(yōu)解時,則種群規(guī)模會更新變大。因此,本文算法的時間復雜度也會高于傳統(tǒng)遺傳算法。

2 實驗與性能分析

為了驗證WKNNSTA_GAFS算法是否正確和有效,在5個數(shù)據(jù)集上,使用3種分類器,與其他7種特征選擇算法進行比較實驗。在實驗中對所有數(shù)據(jù)集進行了歸一化處理。

2.1 數(shù)據(jù)集

實驗中使用數(shù)據(jù)集的簡要描述如表1所示。其中,Z-Alizideh、Q_green、brain、TNCI來自UCI機器學習知識庫[17],Leukemia1下載自基因表達數(shù)據(jù)庫。

表1 數(shù)據(jù)集信息Table 1 Information of datasets

2.2 實驗環(huán)境及參數(shù)設(shè)置

在Pycharm集成開發(fā)環(huán)境下進行實驗。對每個數(shù)據(jù)集使用五重交叉檢驗,并與7種特征選擇方法進行比較,包括生成子集的GAFS[12]、FCBF[18]和IG-GA[19]方法,以及排序的MIFS[20]、mRMR[21]、WKNNFS[22]和AGASVM[23]方法。使用KNN、支持向量機(Support Vector Machine)和隨機森林(Random Forest)3種分類器進行分類預(yù)測。

在實驗中,種群規(guī)模、迭代次數(shù)、收斂閾值等參數(shù)的初始值設(shè)置如表2所示。其中收斂閾值的初始值為初始種群規(guī)模PS,根據(jù)公式(7)收斂閾值的迭代公式可以看出,如果當前靜態(tài)迭代次數(shù)大于收斂閾值時,表示已經(jīng)有超過收斂閾值個數(shù)的連續(xù)個體未更新最優(yōu)解,本文中收斂閾值的初值為種群規(guī)模PS,即連續(xù)至少超出種群規(guī)模個體都未更新最優(yōu)解,則種群規(guī)模會更新變大,因此,收斂閾值也應(yīng)隨之增加,而收斂閾值越大也就意味著靜態(tài)迭代次數(shù)更大時才會更新參數(shù),因此需要的執(zhí)行時間也會越長,但是算法的性能不一定會隨之增大。為了確定初始的收斂閾值,本文在3個數(shù)據(jù)集上做了不同初始收斂閾值對算法性能影響的實驗,實驗結(jié)果如表3所示。從表3中可以看出初始收斂閾值不同,算法性能也不同,當初始收斂閾值為初始種群規(guī)模PS的值時,算法性能也最好,因此,本文選定種群規(guī)模PS的值為收斂閾值的初始值。

表2 算法的參數(shù)初始化選擇Table 2 Algorithm parameter initialization selection

表3 不同初始收斂閾值對算法性能的影響Table 3 Influence of different initial convergence thresholds on algorithm performance

2.3 實驗結(jié)果及性能分析

為了合理比較WKNNSTA_GAFS方法與GAFS、FCBF、IG-GA、MIFS、mRMR、WKNNFS和AGASVM特征選擇方法的性能,進行了兩組實驗。首先,選擇WKNNSTA_GAFS與MIFS、mRMR、WKNNFS和AGASVM四種排序特征選擇方法獲得的特征排序結(jié)果中相同個數(shù)的特征,分別使用上述3種分類器在5個數(shù)據(jù)集上進行分類預(yù)測,相應(yīng)實驗結(jié)果如圖2所示,橫坐標為排在前面的特征的個數(shù)(N),縱坐標為選擇前面N個特征后使用上述3分類器進行分類預(yù)測獲得的準確率的平均值(mean F1 score)。

圖2 WKNNSTA_GAFS、MIFS、mRMR、WKNNFS和AGASVM在5個數(shù)據(jù)集上的F1 score平均值比較Fig.2 Comparison of mean F1 score of WKNNSTA_GAFS,MIFS,mRMR,WKNNFS and AGASVM on 5 datasets

為了評價所提出算法的性能,計算了不同特征選擇方法在不同數(shù)據(jù)集和不同分類器上獲得的F1 score平均值以及標準差。實驗結(jié)果如表4(Mean±std)所示。Mean表示每種算法獲得最優(yōu)分類性能的F1 score平均值,std表示標準差。其中Avg表示算法在給定數(shù)據(jù)集上使用KNN、SVM和RF三種分類器的F1 score平均值,表中黑體部分表示同一數(shù)據(jù)集中F1 score平均值最高。

表4 各算法使用不同分類器在5個數(shù)據(jù)集上的均值和標準差Table 4 Mean and standard deviation of each algorithm by using different classifiers on 5 datasets

從表4可以看出,WKNNSTA_GAFS最優(yōu)分類性能占比和F1 score平均值方面基本上都高于其他對比算法。在Z-Alizideh、Q_green、Leukemia1、brain和TNCI五個數(shù)據(jù)集上,WKNNSTA_GAFS與生成子集的方法比較,得到了更高的F1 score平均值。WKNNSTA_GAFS與FCBF相比,分別提高了15%、11%、8%、15%和9%;與GAFS相比,分別提高了8%、8%、16%、8%和9%;與IG-GA相比,分別提高了4%、8%、12%、3%和9%。其次,與排序方法的F1 score平均值進行比較,WKNNSTA_GAFS相比MIFS,分別提高了17%、16%、28%、1%和13%;與mRMR相比,分別提高了13%、16%、15%、1%和13%;與AGASVM相比,分別提高了2%、3%、9%、2%和7%;與WKNNFS相比,分別提高了1%、2%、10%、1%和7%。雖然在Z-Alizideh、Q_green和brain數(shù)據(jù)集上,WKNNSTA_GAFS與WKNNFS的F1 score平均值差異并不顯著,但是WKNNSTA_GAFS的std更低,分類性能更加穩(wěn)定。綜上所述,WKNNSTA_GAFS方法優(yōu)于其他FS方法。

3 結(jié)束語

本文提出了一種基于自調(diào)優(yōu)自適應(yīng)遺傳算法的WKNN特征選擇方法,該方法利用WKNN算法預(yù)測樣本的類別,為每個特征分配一個權(quán)重來衡量特征的分類能力。在計算樣本類別時既考慮了每個特征的不同分類能力,又考慮了最近鄰樣本的距離。并使用自調(diào)優(yōu)自適應(yīng)遺傳算法搜索最優(yōu)的特征權(quán)重向量。通過STA-GA的自適應(yīng)參數(shù)調(diào)優(yōu)機制對變異率、種群規(guī)模和收斂閾值進行調(diào)整,以獲得理想的搜索空間,避免局部收斂;其次自定義停止標準,使參數(shù)調(diào)優(yōu)反饋穩(wěn)定,同時避免優(yōu)化過早終止。在5個真實的數(shù)據(jù)集上,將該方法與現(xiàn)有的7種特征選擇方法分別進行了對比實驗。實驗結(jié)果表明,該特征選擇方法賦予重要的特征更高的權(quán)重,從而有效地提高了分類精度。在未來的工作,將努力進一步提高WKNNSTA_GAFS的分類精度,使用更多的分類器評估其應(yīng)用潛力。

猜你喜歡
特征選擇分類器遺傳算法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于自適應(yīng)遺傳算法的CSAMT一維反演
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
基于遺傳算法和LS-SVM的財務(wù)危機預(yù)測
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
聯(lián)合互信息水下目標特征選擇算法
基于改進的遺傳算法的模糊聚類算法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
托克托县| 澄迈县| 清新县| 平昌县| 新津县| 湖北省| 武安市| 苍溪县| 建德市| 呼图壁县| 张家港市| 青海省| 峡江县| 元阳县| 肥东县| 山东省| 镇平县| 泸定县| 刚察县| 苍溪县| 大方县| 沙田区| 南开区| 奇台县| 磐石市| 孝义市| 曲阳县| 昆明市| 新津县| 沾化县| 靖西县| 虎林市| 瑞昌市| 嘉兴市| 津市市| 玉山县| 米林县| 侯马市| 松原市| 唐河县| 建瓯市|