国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多目標(biāo)優(yōu)化特征選擇研究綜述

2023-02-14 10:30:58張夢(mèng)婷杜建強(qiáng)羅計(jì)根熊旺平趙書含
關(guān)鍵詞:特征選擇子集文獻(xiàn)

張夢(mèng)婷,杜建強(qiáng),羅計(jì)根,聶 斌,熊旺平,劉 明,趙書含

江西中醫(yī)藥大學(xué) 計(jì)算機(jī)學(xué)院,南昌 330004

近年來,許多研究者對(duì)特征選擇進(jìn)行了大量的研究。特征選擇是指從已有的M個(gè)特征(feature)中選擇N個(gè)特征(M>N),使得系統(tǒng)的特定指標(biāo)最優(yōu)化,是從原始特征中選擇出一些最有效特征以降低數(shù)據(jù)集維度的過程,也是提高學(xué)習(xí)算法性能的一個(gè)重要手段。在機(jī)器學(xué)習(xí)[1]、圖像處理[2]、數(shù)據(jù)挖掘[3]、生物信息學(xué)[4]和自然語言[5]等領(lǐng)域有著廣泛的應(yīng)用。特征選擇要達(dá)到最大精度和最小特征子集兩個(gè)目標(biāo),而單目標(biāo)特征選擇算法易融入主觀偏好,從而影響特征選擇的質(zhì)量。因此多目標(biāo)優(yōu)化特征選擇成為比較新且常見的方法之一,已經(jīng)通過多種多目標(biāo)技術(shù)和算法對(duì)特征選擇進(jìn)行了多項(xiàng)研究,亦成為眾多機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域的研究熱點(diǎn)。

多目標(biāo)優(yōu)化(multi-objective optimization algorithms,MOA)的概念的初次出現(xiàn)是在1881年經(jīng)濟(jì)學(xué)領(lǐng)域,用于研究對(duì)平衡不同顧客要求的問題上。如今,多目標(biāo)優(yōu)化被應(yīng)用在各個(gè)領(lǐng)域,如在工程領(lǐng)域[6]、工業(yè)污染[7]以及在焊接上[8]等;MOA的概念是在某個(gè)問題中在需要達(dá)到多個(gè)目標(biāo)時(shí),由于存在目標(biāo)間的內(nèi)在沖突,一個(gè)目標(biāo)的優(yōu)化可能會(huì)導(dǎo)致其他目標(biāo)的劣化,因此很難出現(xiàn)唯一最優(yōu)解,取而代之的是在他們中間做出協(xié)調(diào)和折衷處理,使總體的目標(biāo)盡可能的達(dá)到最優(yōu)。

在這個(gè)數(shù)據(jù)爆炸的時(shí)代,得到的數(shù)據(jù)來自各個(gè)領(lǐng)域,對(duì)凝煉特征質(zhì)量的要求也越來越高。特征選擇旨在去除冗余和無關(guān)特征,為達(dá)到最大精度的同時(shí)要求特征子集個(gè)數(shù)最小。為此,研究者將特征選擇看作一個(gè)多目標(biāo)優(yōu)化問題,從最初使用基于先驗(yàn)的方法將多目標(biāo)問題轉(zhuǎn)換成單目標(biāo)問題,到現(xiàn)在使用不同的進(jìn)化算法來求解,取得了一些成果。李郅琴等人[9]對(duì)特征選擇的方法進(jìn)行綜述,介紹了特征選擇方法框架,描述了生成特征子集、評(píng)價(jià)準(zhǔn)則兩個(gè)過程,并根據(jù)特征選擇和學(xué)習(xí)算法的不同結(jié)合方式對(duì)特征選擇算法分類,但未涉及到多目標(biāo)特征選擇。Al-tashi等人[10]對(duì)多目標(biāo)特征選擇問題的挑戰(zhàn)和問題進(jìn)行系統(tǒng)的文獻(xiàn)綜述,并批判性地分析用于解決該問題的建議技術(shù),但沒有對(duì)多目標(biāo)特征選擇進(jìn)行分類討論。本文對(duì)多目標(biāo)特征選擇研究進(jìn)行綜述,將其方法進(jìn)行分類討論,并分析此研究當(dāng)前存在的問題。

1 特征選擇

特征選擇(feature selection)是一個(gè)重要的數(shù)據(jù)預(yù)處理過程,常見的特征選擇方法大致分為三種:過濾式(filter)[11]、嵌入式(embedding)[12]和包裹式(wrapper)[13]。過濾式是先用特征選擇的過程對(duì)初始的特征進(jìn)行篩選,然后用篩選后的特征進(jìn)行模型的訓(xùn)練,并不會(huì)與學(xué)習(xí)器進(jìn)行交互也不考慮特征與特征之間的關(guān)系。雖然過濾式的可擴(kuò)展性好且速度快,但準(zhǔn)確性并不高。嵌入式是將特征選擇的過程與學(xué)習(xí)器的訓(xùn)練過程融為一體,在學(xué)習(xí)器的訓(xùn)練過程中,自動(dòng)地進(jìn)行了特征的選擇,但只能在特定的模型中使用。包裹式的使用最為廣泛,它的特征選擇考慮到具體的學(xué)習(xí)器,是根據(jù)學(xué)習(xí)器上的誤差來評(píng)價(jià)特征子集的優(yōu)劣,在子集的搜索方式上使用了隨機(jī)策略,考慮了特征與特征之間的關(guān)系,但是面對(duì)高維數(shù)據(jù)時(shí)計(jì)算量非常大。

特征選擇是一個(gè)NP-hard[14]組合優(yōu)化問題,假設(shè)一個(gè)n維數(shù)據(jù)集,可能存在2n的特征子集,仔細(xì)搜索這全部的特征子集顯然是不可能的。如今,各種搜索方法已被應(yīng)用于特征選擇,如順序向前選擇(SFS)[15]、順序向后選擇(SBS)[15]等。然而這些方法存在局部搜索、計(jì)算量大以及嵌套效應(yīng)等問題,而一些基于進(jìn)化算法的元啟發(fā)式搜索[16]可以提高搜索效率和解的質(zhì)量,因此進(jìn)化算法被廣泛地應(yīng)用于特征選擇。

特征選擇是許多分類和回歸任務(wù)中常見的關(guān)鍵問題,特征選擇有兩個(gè)彼此沖突的目標(biāo):特征子集最小化和性能最大化。雖然子集個(gè)數(shù)增加會(huì)提高準(zhǔn)確率,但子集的個(gè)數(shù)過多時(shí)可能會(huì)導(dǎo)致過度擬合以及泛化能力差等問題。特征選擇方法傾向于使用最少數(shù)量的特征來提高算法(例如分類器)的學(xué)習(xí)性能,因此近年來使用多目標(biāo)優(yōu)化方法來解決特征選擇的情況顯著增長(zhǎng)。與單目標(biāo)優(yōu)化方法相比,借助多目標(biāo)優(yōu)化方法在特征選擇上可以更有效地探索搜索空間,并找出質(zhì)量更高的特征子集。

單目標(biāo)特征選擇,即采用單一的指標(biāo)(如模型的精度或特征子集的個(gè)數(shù))對(duì)特征子集進(jìn)行評(píng)估,這種方法常專注于某一指標(biāo)而忽略另一個(gè)。在實(shí)際研究中,模型預(yù)測(cè)的精準(zhǔn)度和特征子集的數(shù)目都是特征選擇中的主要問題。因此,許多研究者試圖同時(shí)解決特征選擇的多個(gè)問題,并采用多目標(biāo)優(yōu)化的方法來解決特征選擇問題,稱為多目標(biāo)特征選擇。

2 多目標(biāo)優(yōu)化

基于元啟發(fā)式搜索的特征選擇問題可以根據(jù)目標(biāo)的數(shù)量將優(yōu)化問題分為兩類:?jiǎn)文繕?biāo)和多目標(biāo)優(yōu)化。單目標(biāo)優(yōu)化的情況下,只有一個(gè)目標(biāo),任何兩個(gè)解都可以依據(jù)單一目標(biāo)來比較其好壞,最后得出無可爭(zhēng)議的最優(yōu)解。而多目標(biāo)優(yōu)化與傳統(tǒng)的單目標(biāo)優(yōu)化相對(duì),多目標(biāo)優(yōu)化問題要解決的是使給定的多個(gè)目標(biāo)函數(shù)盡可能同時(shí)達(dá)到最佳,不存在唯一的全局最優(yōu)解。多目標(biāo)優(yōu)化的解通常是一組均衡解,即一組由眾多Pareto最優(yōu)解[17]組成的集合,其中Pareto解又稱非支配解或不受支配解,在有多個(gè)目標(biāo)時(shí),由于目標(biāo)之間的沖突和無法比較的現(xiàn)象,在改進(jìn)任何目標(biāo)函數(shù)的同時(shí),必然會(huì)削弱至少一個(gè)其他目標(biāo)函數(shù)的解稱為Pareto解。

2.1 多目標(biāo)優(yōu)化的方法

多目標(biāo)優(yōu)化需要同時(shí)優(yōu)化兩個(gè)或者兩個(gè)以上的目標(biāo)函數(shù),且各目標(biāo)函數(shù)之間相互沖突,不能顯式地平衡它們,即一個(gè)目標(biāo)的優(yōu)化可能引起另一個(gè)目標(biāo)的衰落,不能使每個(gè)目標(biāo)函數(shù)達(dá)到最優(yōu)。多目標(biāo)優(yōu)化的方法主要分為基于先驗(yàn)[18]和基于后驗(yàn)的方法[19]。在解決多目標(biāo)的實(shí)際問題時(shí),特征選擇將被視為最大化或最小化問題。如果目標(biāo)數(shù)量為n,則一個(gè)標(biāo)準(zhǔn)的多目標(biāo)優(yōu)化數(shù)學(xué)模型應(yīng)該表示見公式(1)所示。多目標(biāo)優(yōu)化方法旨在獲取一組非支配最優(yōu)解或特征子集。

2.1.1 基于先驗(yàn)的方法

基于先驗(yàn)的方法又稱傳統(tǒng)優(yōu)化算法,包括加權(quán)法[20]、約束法[21]和最小最大法[22]等方法。傳統(tǒng)的多目標(biāo)優(yōu)化算法是通過分析、分解和替換將多目標(biāo)問題轉(zhuǎn)為單目標(biāo)問題再用單目標(biāo)優(yōu)化技術(shù)進(jìn)行求解,因而每次只能得到Pareto解集中的一個(gè)。

(1)加權(quán)法

加權(quán)法就是對(duì)多目標(biāo)優(yōu)化問題中的N個(gè)目標(biāo)按其重要程度賦以適當(dāng)?shù)臋?quán)系數(shù),其乘積和作為新的目標(biāo)函數(shù),再求最優(yōu)解。使用加權(quán)求和法求解特征選擇問題,如加權(quán)求和法可以將多目標(biāo)優(yōu)化表示為:

(2)約束法

在1971年約束法被提出,其原理是將某個(gè)目標(biāo)函數(shù)作為優(yōu)化目標(biāo),而約束其他目標(biāo)函數(shù)的方法來求解多目標(biāo)優(yōu)化問題。多目標(biāo)優(yōu)化中的約束法的數(shù)學(xué)模型可表示為:

為了得到不同的Pareto最優(yōu)解,εi作為上界可以取不同的值,Xf則為解的集合。

(3)最大最小法

起源于博弈論的最小最大法是為了求解多目標(biāo)問題而設(shè)計(jì)的,其原理是通過最小化各個(gè)目標(biāo)函數(shù)值與預(yù)設(shè)目標(biāo)值之間的最大偏移量來尋求問題的最優(yōu)解。其數(shù)學(xué)模型可以表示為:

基于先驗(yàn)的方法的優(yōu)勢(shì)在于可以利用已有且成熟的單目標(biāo)優(yōu)化技術(shù)來求解,有計(jì)算量小、速度快、有充分理論支撐等優(yōu)點(diǎn),使其更適合于實(shí)際應(yīng)用,但其要求決策者在不知道任何替代方案之前明確且準(zhǔn)確地權(quán)衡不同的目標(biāo),導(dǎo)致該方式存在一些缺陷,如多個(gè)目標(biāo)函數(shù)的單位不統(tǒng)一;分配的權(quán)值是否存在主觀性等。

2.1.2 基于后驗(yàn)的方法

受自然界生物系統(tǒng)的啟發(fā),智能優(yōu)化法已成為多目標(biāo)優(yōu)化領(lǐng)域的一個(gè)熱門話題。它以其全局搜索能力而聞名,因此廣泛應(yīng)用于特征選擇。而大多數(shù)的智能優(yōu)化算法是基于后驗(yàn)的方法來實(shí)現(xiàn)的,關(guān)鍵點(diǎn)是它們?cè)趦?yōu)化過程的每次迭代中操縱一組解決方案。換句話說,可以在一次運(yùn)行中產(chǎn)生多個(gè)權(quán)衡解決方案,這使它們能夠在多目標(biāo)優(yōu)化中顯示出良好的效果。智能優(yōu)化算法克服了線性加權(quán)等傳統(tǒng)方法受權(quán)值影響的缺點(diǎn),有著快速的全局搜索能力且不依賴于先驗(yàn)知識(shí)。

自Schaffer[23]首次將進(jìn)化算法用于解決多目標(biāo)優(yōu)化問題后,很多研究者不斷提出新的多目標(biāo)進(jìn)化算法,目前已有遺傳算法(GA)[24]、粒子群算法(PSO)[25]、蟻群算法(ACO)[26]等一系列智能優(yōu)化算法用來解決多目標(biāo)優(yōu)化問題。近年來,使用智能優(yōu)化算法解決特征選擇問題的文獻(xiàn)顯著增多?;诤篁?yàn)的多目標(biāo)優(yōu)化方法也已被應(yīng)用于處理現(xiàn)實(shí)世界的問題,例如顏景斌等人[27]采用基于NSGA-II算法的多目標(biāo)優(yōu)化方法來解決SWISS整流器的性能問題;李琳等人[28]根據(jù)動(dòng)態(tài)變化的外部環(huán)境調(diào)整面向服務(wù)軟件的部署方案,對(duì)傳統(tǒng)多目標(biāo)蟻群算法進(jìn)行改進(jìn),引入摒棄精英解策略以避免算法早熟收斂,提出一種求解面向服務(wù)軟件部署優(yōu)化問題的多目標(biāo)蟻群算法。

基于后驗(yàn)的方法通過進(jìn)化算法的代與代之間維持由潛在解組成的種群來實(shí)現(xiàn)全局搜索,從而解決多目標(biāo)優(yōu)化問題,是一類模擬生物進(jìn)化機(jī)制而形成的全局性概率優(yōu)化搜索方法。但當(dāng)目標(biāo)是高維時(shí),非支配個(gè)體在種群所占的比例隨著目標(biāo)個(gè)數(shù)的增多而上升,部分個(gè)體變成非支配解,從而大大削弱了基于Pareto支配進(jìn)行排序與選擇的效果,導(dǎo)致進(jìn)化算法搜索能力下降。

2.2 多目標(biāo)優(yōu)化的評(píng)價(jià)準(zhǔn)則

多目標(biāo)優(yōu)化問題的評(píng)價(jià)標(biāo)準(zhǔn)不同于單目標(biāo),單目標(biāo)的評(píng)價(jià)直接取決于最終解的好壞,而想要驗(yàn)證一個(gè)多目標(biāo)優(yōu)化算法的好壞往往取決于一個(gè)解集的質(zhì)量。多目標(biāo)優(yōu)化算法主要有兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn):收斂性、多樣性,多樣性又包括解集分布的均勻性和廣泛性。多目標(biāo)優(yōu)化解集方案的性能評(píng)估一直也是研究的熱點(diǎn),最新文獻(xiàn)表明現(xiàn)如今有70多種性能指標(biāo)[29],其最常用的性能指標(biāo)有世代距離(GD)、最大分散度(MS)、SP、逆世代距離(IGD)、ε指標(biāo)和超體積度量(HV)。其中,后三個(gè)性能指標(biāo)能綜合考慮兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。

(1)世代距離(generational distance,GD)

Veldhuizen和Lamont[30]在1999年提出了GD指標(biāo),它表示求出的最優(yōu)邊界PFknown和真正的最優(yōu)邊界PFture之間的間隔距離,該距離表示偏離真正邊界的程度。GD的值越大,偏離真正的最遠(yuǎn)邊界越遠(yuǎn)程度越高,收斂性就越差。GD的公式表示為:

其中,p表示目標(biāo)維數(shù),當(dāng)p=2時(shí)為歐幾里德距離。n表示PFknown中點(diǎn)的個(gè)數(shù)。di表示目標(biāo)空間上第i個(gè)解與PFture上相距最近的參考點(diǎn)之間的歐式距離。

(2)最大分散度(maximum spread,MS)

MS[31]是一個(gè)廣泛使用的分布性指標(biāo),用于衡量所得PFknown對(duì)PFture的覆蓋程度,它通過考慮每個(gè)目標(biāo)的最大范圍來衡量解決方案的范圍。其中,aj和a′j表示兩個(gè)不同的目標(biāo),m為目標(biāo)的個(gè)數(shù),當(dāng)m=2時(shí),非支配解集的MS值是其兩個(gè)極值解的歐氏距離。它沒有考慮集合的收斂性,遠(yuǎn)離帕累托前沿的解通常對(duì)MS值有很大貢獻(xiàn),因此很多研究者對(duì)其進(jìn)行了相應(yīng)的改進(jìn)。MS的數(shù)學(xué)公式表示為:

(3)SP(spacing metric)

SP是Schott[32]提出的性能指標(biāo),度量每個(gè)解到其他解的最小距離的標(biāo)準(zhǔn)差,是最受歡迎的分布性指標(biāo)。SP值越小,說明解集分布的越均勻。但SP僅度量解集的均勻性,沒有考慮它的廣泛性。

其中,A=a1,a2,…,aN,dˉ是所有d1平均值,即ai與集合A/ai的L1范數(shù)距離。

(4)逆世代距離(inverted generational distance,IGD)

逆世代距離(IGD)[33]是世代距離的逆向映射,它表示問題真正的最優(yōu)邊界PFture到算法所求得的非支配解集PFknown的平均距離,如圖1所示,IGD計(jì)算的是圖中Reference Solutions到最近的Solutions的平均距離,即Pareto近似前沿上的每個(gè)參考點(diǎn)到解集中最近的解的平均距離。

圖1 IGD指標(biāo)Fig.1 Inverted generational distance indicator

IGD的值越小,獲得的解集越好,它不僅能反應(yīng)解集的收斂性,還能反應(yīng)解集的均勻性和廣泛性。IGD的公式表示為:

其中,F(xiàn)*是PFture上均勻選取一定數(shù)目的個(gè)體,F(xiàn)為算法求得的最優(yōu)解集。mindis(x,F)表示F中的個(gè)體到個(gè)體x之間的最小歐幾里德距離。

(5)ε指標(biāo)

ε指標(biāo)是Zitzler等人[34]在2003年提出的,考慮了解集之間的最大差異,它給出了一個(gè)因子,在考慮所有目標(biāo)的情況下,一個(gè)近似集比另一個(gè)更差。形式上,設(shè)A和B為兩個(gè)近似集,則ε(A,B)等于最小因子,使得對(duì)于B中的任何解,A中至少有一個(gè)解不會(huì)因考慮所有目標(biāo)的因素而變差。ε指標(biāo)有兩個(gè)版本加法ε+指標(biāo)和乘法ε×指標(biāo),數(shù)學(xué)公式表示如下。兩個(gè)版本都是指標(biāo)值越小越好,當(dāng)ε+(A,B)≤0或ε×(A,B)≤1時(shí)意味著A弱支配B。

其中,m為目標(biāo)的個(gè)數(shù),a和b分別是A和B中的解,aj表示a的第j個(gè)目標(biāo)。

(6)超體積度量(hypervolume,HV)

HV性能指標(biāo)最早是由Zitzler等人[35]提出的,如圖2所示,它表示由解集中的個(gè)體(圖中Solutions)與參考點(diǎn)(圖中的Reference Solutions)在目標(biāo)空間中所圍成的超立方體的體積(圖中的陰影部分)。HV是當(dāng)前評(píng)價(jià)多目標(biāo)優(yōu)化算法中可信度最高的指標(biāo),能同時(shí)衡量算法的收斂性和多樣性,但受參考點(diǎn)的影響比較大。它的評(píng)價(jià)方式與Pareto一致,如果一個(gè)解集S優(yōu)于另一個(gè)解集S1,那么解集S的HV指標(biāo)也會(huì)大于解集S1的。

圖2 HV指標(biāo)Fig.2 Hypervolume indicator

3 多目標(biāo)優(yōu)化特征選擇

多目標(biāo)問題具有多個(gè)目標(biāo)函數(shù),現(xiàn)實(shí)世界大多數(shù)的問題本質(zhì)上都是多目標(biāo)問題,特征選擇問題也被認(rèn)為是其中之一。將特征選擇作為一項(xiàng)多目標(biāo)任務(wù)進(jìn)行研究,在這種情況下,選擇特征的準(zhǔn)確性和數(shù)量的目標(biāo)函數(shù)一起演變,這允許同時(shí)評(píng)估不同維度的特征集。多目標(biāo)特征選擇的方法可以消除在處理基于適應(yīng)度的探索和利用階段時(shí)觀察到的陷阱,在特征數(shù)量和性能兩個(gè)目標(biāo)之間取得最佳平衡。

研究者起初使用傳統(tǒng)的優(yōu)化方式將兩個(gè)目標(biāo)合并成一個(gè)目標(biāo)進(jìn)行特征選擇,如Chuang等人[36]使用加權(quán)求和法將特征數(shù)量和分類精度兩個(gè)目標(biāo)合并為一個(gè)目標(biāo)求解;Tran等人[37]將分類精度和距離兩個(gè)目標(biāo)一起考慮。隨后,研究者試圖同時(shí)優(yōu)化特征選擇的兩個(gè)目標(biāo),將基于進(jìn)化計(jì)算的特征選擇算法引入多目標(biāo)優(yōu)化,如Got等人[38]提出了一種使用鯨魚優(yōu)化算法(WOA)的新型混合過濾器包裝的多目標(biāo)特征選擇方法;Wang等人[39]研究了一種基于樣本縮減策略和進(jìn)化算法的多目標(biāo)特征選擇框架,將基于粒子更新模型的改進(jìn)人工蜂群算法嵌入到框架中,提出了一種快速多目標(biāo)進(jìn)化特征選擇算法。根據(jù)特征選擇的評(píng)估措施不同,將多目標(biāo)特征選擇分為基于過濾式的、基于包裹式的和基于混合式的三類。

3.1 基于過濾式的多目標(biāo)特征選擇

基于過濾式的方法是使用信息理論準(zhǔn)則來評(píng)估一組特征的優(yōu)度,通過性能度量選擇特征,再使用學(xué)習(xí)器進(jìn)行訓(xùn)練,所以基于過濾式的方法不依賴于學(xué)習(xí)器。過濾式的評(píng)價(jià)準(zhǔn)則包括:信息度量、距離度量、依賴性度量以及一致性度量(只適用于分類)等。其中,信息度量和依賴性度量使用最為廣泛?;谶^濾式的多目標(biāo)特征選擇通常需要優(yōu)化的矛盾目標(biāo)為相關(guān)性、冗余和特征子集大小。下面對(duì)近些年基于過濾式的多目標(biāo)特征選擇的研究進(jìn)行綜述,過濾式中各種方法的對(duì)比見表1。

表1 基于過濾式多目標(biāo)特征選擇Table 1 Filter based multi-objective feature selection

文獻(xiàn)[40]綜合考慮特征子集的稀疏性、分類能力和信息量等多個(gè)目標(biāo)函數(shù),提出一種基于子集評(píng)價(jià)多目標(biāo)優(yōu)化的特征選擇框架,使用多目標(biāo)粒子群算法(MOPSO)進(jìn)行特征權(quán)值向量尋優(yōu),實(shí)現(xiàn)基于權(quán)值向量排序的特征選擇,將特征子集的信息量作為評(píng)價(jià)函數(shù)之一,使得該方法有較好的穩(wěn)定性且信息損失度低;文獻(xiàn)[41]采用互信息和基于增益比的熵作為濾波器評(píng)價(jià)指標(biāo),使用二元杜鵑優(yōu)化算法與非支配排序遺傳算法NSGAIII和NSGAII相結(jié)合,提出了兩種不同的基于多目標(biāo)濾波器的特征選擇框架,來尋找具有最小錯(cuò)誤率的更少特征,使用成對(duì)評(píng)估來衡量?jī)蓚€(gè)特征之間的關(guān)系,不涉及相關(guān)性和冗余的復(fù)雜計(jì)算,故速度快且特征子集性能較好,過濾器更快擴(kuò)展到大型數(shù)據(jù)集但缺乏良好的分類性能。文獻(xiàn)[42]提出了多目標(biāo)相對(duì)判別準(zhǔn)則(MORDC)的方法來平衡最小冗余特征和與目標(biāo)類最大相關(guān)的特征使特征子集冗余度低,并采用多目標(biāo)進(jìn)化框架來搜索解決方案空間,計(jì)算效率快。文獻(xiàn)[43]提出了一種基于精英主義的多目標(biāo)差分進(jìn)化特征選擇算法(FAEMODE)的過濾方法,考慮了特征之間的線性和非線性依賴,以處理數(shù)據(jù)集的冗余和無關(guān)特征,這導(dǎo)致選擇一個(gè)特征子集,該子集對(duì)數(shù)據(jù)集的良好和穩(wěn)定分類具有很高的潛力且預(yù)測(cè)準(zhǔn)確性高,但未考慮時(shí)間成本。文獻(xiàn)[44]基于非支配排序和擁擠距離思想以及二元粒子群(BPSO)開發(fā)了兩種新穎的多目標(biāo)分類特征選擇框架,應(yīng)用互信息和熵作為兩個(gè)不同的過濾器評(píng)估標(biāo)準(zhǔn),得到一組使用較少特征的解,熵作為評(píng)價(jià)標(biāo)準(zhǔn)可以發(fā)現(xiàn)一組特征之間的多向相關(guān)性和冗余性,從而進(jìn)一步提高分類性能且使用更少的特征,但由于更新機(jī)制失去了群的多樣性。文獻(xiàn)[45]首次對(duì)多目標(biāo)粒子群算法(PSO)進(jìn)行特征選擇的研究,考慮了兩種基于PSO的多目標(biāo)特征選擇算法,即NSPSOFS和CMDPSOFS。前者將非支配排序的思想引入到PSO中,以解決特征選擇問題。后者將擁擠、突變和優(yōu)勢(shì)的思想應(yīng)用于PSO,以搜索Pareto前沿解,CMDPSOFS采用不同的機(jī)制來維持領(lǐng)導(dǎo)者和群體的多樣性,使計(jì)算時(shí)間更少,但在NSPSOFS中快速丟失群多樣性的潛在局限性限制了其特征選擇的性能,故特征子集質(zhì)量欠佳。

基于過濾式的方法獨(dú)立于學(xué)習(xí)算法,使用數(shù)據(jù)的統(tǒng)計(jì)特征進(jìn)行評(píng)估。與基于包裹式方法相比計(jì)算成本更低,有效地消除無關(guān)和嘈雜的特征,但忽略了特征組合的影響。

3.2 基于包裹式的多目標(biāo)特征選擇

基于包裹式的多目標(biāo)特征選擇與基于過濾式的不同,前者會(huì)通過一些優(yōu)化算法來考慮特征之間的關(guān)系,需要用學(xué)習(xí)器來評(píng)估特征子集的優(yōu)劣?;诎降姆椒ㄖ杏靡栽u(píng)價(jià)特征的學(xué)習(xí)算法是多種多樣的,例如決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類器、近鄰法以及支持向量機(jī)等。其通常優(yōu)化的目標(biāo)為最大化精度,同時(shí)最小化特征子集大小。目前,已經(jīng)有許多研究者使用包裹式來做多目標(biāo)特征選擇且取得了一些成果,本文對(duì)近幾年的基于包裹式的多目標(biāo)特征選擇文獻(xiàn)進(jìn)行綜述,具體方法之間的對(duì)比見表2。

表2 基于包裹式多目標(biāo)特征選擇Table 2 Wrapper based multi-objective feature selection

文獻(xiàn)[46]提出一種改進(jìn)的基于擁擠、變異和支配策略的多目標(biāo)粒子群特征選擇(CMDPSOFS-II),引入了差分進(jìn)化的變異和選擇方式,解決了之前均勻變異帶來的收斂速度慢的問題,更好地平衡了全局和局部搜索能力,在特征數(shù)相等時(shí),CMDPSOFS-Ⅱ可以選出錯(cuò)誤率更低的特征組合,特征子集的質(zhì)量高,但未考慮計(jì)算成本。文獻(xiàn)[47]提出了一種基于森林優(yōu)化算法(FOA)的多目標(biāo)特征選擇算法,使用了存檔、網(wǎng)格和基于區(qū)域的選擇概念,通過選擇較少的特征數(shù)量,在大多數(shù)情況下能夠減少分類錯(cuò)誤,使用簡(jiǎn)單的算子來產(chǎn)生新的解并用存檔來保存非支配解,故花費(fèi)更少的計(jì)算時(shí)間,與高維數(shù)據(jù)集中的其他多目標(biāo)方法相比,該算法無法選擇較少數(shù)量的特征。由于最初的多目標(biāo)灰狼優(yōu)化器(MOGWO)不能直接用于解決本質(zhì)上是離散的多目標(biāo)特征選擇問題,文獻(xiàn)[48]提出了基于sigmoid傳遞函數(shù)的MOGWO的二進(jìn)制版,且通過包裹式的人工神經(jīng)網(wǎng)絡(luò)(ANN)來評(píng)估選定特征子集的分類性能,該算法參數(shù)較少,這對(duì)于大型數(shù)據(jù)集在時(shí)間消耗方面更有幫助,且適用于各類數(shù)據(jù)集,適用性高,但未考慮穩(wěn)定性。文獻(xiàn)[49]提出了一種基于多目標(biāo)優(yōu)化的多標(biāo)簽特征選擇算法(MMFS),通過改進(jìn)具有兩個(gè)檔案的NSGAIII算法來提高它的多樣性和收斂性。該方法可以平衡多個(gè)目標(biāo),去除不相關(guān)和冗余特征且獲得滿意的分類結(jié)果,由于使用包裹式,計(jì)算成本較大。文獻(xiàn)[50]提出了多節(jié)優(yōu)化器(MVO)的二元多目標(biāo)變體(MOMVO)來處理特征選擇任務(wù)。該方法基于三個(gè)宇宙學(xué)概念:白洞、黑洞和蟲洞。此外,針對(duì)標(biāo)準(zhǔn)MOMVO存在局部最優(yōu)停滯的問題,還提出了MOMVO的一種變體,該變體在更新中納入了個(gè)人最佳解決方案。與大多數(shù)進(jìn)化的包裹式方法不同,所提出的基于MOMVO的方法將模型的準(zhǔn)確性和維數(shù)的減少作為多目標(biāo)優(yōu)化問題,由于傳統(tǒng)MOMVO的探索性和開發(fā)性優(yōu)勢(shì),提高了分類精度,包裹式在選擇相關(guān)子集時(shí)可以使用標(biāo)簽或依賴項(xiàng),進(jìn)而提高特征子集的質(zhì)量,但計(jì)算時(shí)間長(zhǎng)。文獻(xiàn)[51]為了避免包裹式方法通常會(huì)遇到的過度擬合問題,提出了一種基于多目標(biāo)進(jìn)化算法的特征選擇包裹式方法,精心設(shè)計(jì)了該方法中個(gè)體或潛在解的表示以及育種算子和目標(biāo)函數(shù),以選擇小部分具有良好泛化能力的特征,兩個(gè)目標(biāo)函數(shù)旨在避免對(duì)群體中的每個(gè)個(gè)體應(yīng)用交叉驗(yàn)證評(píng)估,這將需要更多的計(jì)算時(shí)間,為了分析所提出的包裝方法的穩(wěn)定性,還提出了一種新的特征排序。文獻(xiàn)[52]介紹了一種用于信用評(píng)分中特征選擇的多目標(biāo)利潤(rùn)驅(qū)動(dòng)框架,將預(yù)期最大利潤(rùn)(EMP)和特征數(shù)量似為兩個(gè)適應(yīng)度函數(shù),以解決盈利能力和可理解性問題。使用遺傳算法NSGA-II執(zhí)行多目標(biāo)優(yōu)化,提出的方法比傳統(tǒng)特征選擇策略更少的特征產(chǎn)生更高的預(yù)期利潤(rùn),但未考慮計(jì)算時(shí)間。文獻(xiàn)[53]提出了基于NSGA-II和MOPSO的兩種新方法來預(yù)測(cè)華法林劑量。與經(jīng)典方法相比,多目標(biāo)優(yōu)化方法具有更高的準(zhǔn)確性,且通過實(shí)驗(yàn)對(duì)比,使用多目標(biāo)粒子群算法(MOPSO)有更高的精度和準(zhǔn)確性,但未考慮時(shí)間復(fù)雜度。文獻(xiàn)[54]針對(duì)分類問題中缺失數(shù)據(jù)的問題,將可靠性作為特征選擇的第三個(gè)目標(biāo),提出了非支配排序遺傳算法III(NSGA-III)并采用平均插補(bǔ)法來處理缺失數(shù)據(jù),有很好的可靠性。NSGA-III將個(gè)體與每個(gè)參考點(diǎn)相關(guān)聯(lián),并有效地選擇了與參考點(diǎn)相關(guān)性較小的個(gè)體,故有更好的性能,其與四種流行的多目標(biāo)優(yōu)化算法相比,在IGD和HV方面都優(yōu)于其他方法,但未考慮計(jì)算成本。

基于包裹式的方法相對(duì)于過濾式的方法來說,找到的特征子集更優(yōu),但選出的特征通用性不強(qiáng),且計(jì)算復(fù)雜度很高,特別是面對(duì)高維數(shù)據(jù)時(shí)需要更大的成本代價(jià),算法的執(zhí)行時(shí)間很長(zhǎng)。

3.3 基于混合式的多目標(biāo)特征選擇

結(jié)合過濾式和包裹式的優(yōu)點(diǎn)提出了混合式特征選擇方法,其應(yīng)用過濾式技術(shù)來減少特征空間,再使用包裹式方法進(jìn)行最終的特征選擇。如今,基于混合式的多目標(biāo)特征選擇的應(yīng)用不斷增多,尤其是在處理一些高維數(shù)據(jù),同時(shí)利用過濾式的速度和包裹式的精度能有效實(shí)現(xiàn)高質(zhì)量的特征子集。下面對(duì)基于混合式的多目標(biāo)特征選擇的最新文獻(xiàn)進(jìn)行綜述,具體對(duì)比見表3。

表3 基于混合式多目標(biāo)特征選擇Table 3 Hybrid based multi-objective feature selection

文獻(xiàn)[55]利用自適應(yīng)突變操作來擾動(dòng)種群,避免粒子群算法陷入局部最優(yōu)的問題,以及利用互信息來表示數(shù)據(jù)間的依賴程度,提出了混合互信息和粒子群算法的多目標(biāo)特征選擇的方法(HMIPSO),因此能夠很好地降低特征個(gè)數(shù)以及分類錯(cuò)誤率。結(jié)合互信息和新的集合知識(shí)提出了一種局部搜索策略,刪除了不相關(guān)和冗余特征,篩選出的特征子集冗余度低,但未考慮時(shí)間復(fù)雜度問題;文獻(xiàn)[56]結(jié)合互信息和皮爾遜相關(guān)系數(shù)兩種評(píng)價(jià)準(zhǔn)則提出一種慢性腎病預(yù)測(cè)的多目標(biāo)特征選擇模型。在GWO的基礎(chǔ)上采用精英反向?qū)W習(xí)、非線性控制參數(shù)和聯(lián)想記憶策略三個(gè)改進(jìn)算子來提高對(duì)慢性腎病的預(yù)測(cè)準(zhǔn)確率,考慮了最大化特征數(shù)與類別之間的相關(guān)性以及最小化特征之間的依賴性使特征子集冗余度低,但該模型不適用于其他醫(yī)學(xué)臨床數(shù)據(jù)。文獻(xiàn)[57]針對(duì)進(jìn)化算法特征選擇穩(wěn)定性問題,提出一種面向穩(wěn)定特征選擇的多目標(biāo)蟻群優(yōu)化方法。采用信息增益、卡方檢驗(yàn)和ReliefF三種特征排序法作為多目標(biāo)蟻群優(yōu)化的穩(wěn)定性指導(dǎo)信息,聚合特征的費(fèi)舍爾分值和最大信息系數(shù)值啟發(fā)式信息,很好地平衡了分類性能和穩(wěn)定性能,且穩(wěn)定性變化趨勢(shì)較為穩(wěn)定有著很好的魯棒性,但該方法未考慮篩選出特征子集的個(gè)數(shù)。文獻(xiàn)[58]對(duì)于高維數(shù)據(jù)的特征選擇問題,提出一種基于兩級(jí)粒子協(xié)作的特征選擇多目標(biāo)優(yōu)化。同時(shí)考慮特征數(shù)量、分類錯(cuò)誤率和距離度量三個(gè)目標(biāo),使用二進(jìn)制粒子群優(yōu)化兩級(jí)粒子合作策略,有效地減少特征數(shù)量,將隨機(jī)生成的普通粒子和經(jīng)過ReliefF過濾的粒子組合,保持快速收斂,加快了速度,雖然實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的分類精度,但NSGA-COPSO在平均分類精度方面略優(yōu)于MOEA/D-COPSO。文獻(xiàn)[59]充分利用filter法和wrapper法的優(yōu)點(diǎn),提出了一種交互式過濾式-包裹式多目標(biāo)進(jìn)化算法。該方法采用引導(dǎo)和修復(fù)策略來選擇高質(zhì)量的特征子集,準(zhǔn)確性和所選特征數(shù)量方面優(yōu)于現(xiàn)有的現(xiàn)有技術(shù),隨著實(shí)例數(shù)量的增加,算法中包裹式評(píng)估時(shí)間變得更長(zhǎng),這導(dǎo)致GR-MOEA的總運(yùn)行時(shí)間變長(zhǎng),時(shí)間成本欠佳。文獻(xiàn)[60]提出了一種結(jié)合遺傳算法和局部搜索進(jìn)行特征選擇的多目標(biāo)混合方法。優(yōu)化兩個(gè)過濾式目標(biāo),即特征數(shù)量和互信息,以及一個(gè)與精度相對(duì)應(yīng)的包裹式目標(biāo),以降低特征的維數(shù)并提高分類性能,平衡了全局和局部搜索獲得更好的性能,將過濾式和包裹式結(jié)合,保持分類性能并降低成本,但只考慮了epsilon指標(biāo),沒有使用其他質(zhì)量指標(biāo),故有效性欠佳。文獻(xiàn)[61]為了實(shí)現(xiàn)最小的基因子集和最大化分類準(zhǔn)確性兩個(gè)目標(biāo),提出了使用多目標(biāo)斑點(diǎn)鬣狗優(yōu)化器(MOSHO)和薩爾普群算法(SSA)進(jìn)行基因選擇的框架(C-HMOSHSSA),利用SSA和MOSHO的特性來促進(jìn)其探索和利用能力,有較好的性能,在四個(gè)分類器上訓(xùn)練后,結(jié)果顯示所提出的技術(shù)成功地識(shí)別了新的信息和生物相關(guān)基因集,且可以應(yīng)用于特征選擇其他的問題領(lǐng)域,適用性高,穩(wěn)定性也是特征選擇的一大難題,但該方法未考慮穩(wěn)定性。

4 總結(jié)與展望

本文闡述了多目標(biāo)優(yōu)化的方法和評(píng)價(jià)準(zhǔn)則和特征選擇的本質(zhì),然后詳細(xì)分析了多目標(biāo)優(yōu)化特征選擇的方法和區(qū)別。將特征選擇問題描述為多目標(biāo)優(yōu)化問題有助于獲得一組最優(yōu)特征子集,以滿足決策者的各種需求。盡管各種多目標(biāo)特征選擇的方法被提出,但仍然存在一些問題需要深入研究。

(1)在多目標(biāo)優(yōu)化特征選擇中,基本是使用特征子集的個(gè)數(shù)和性能兩個(gè)目標(biāo)。而在做特征選擇時(shí)往往有多個(gè)評(píng)價(jià)指標(biāo)如穩(wěn)定性、復(fù)雜性等,且這些評(píng)價(jià)指標(biāo)會(huì)影響最終解的選擇。因此,將多個(gè)評(píng)價(jià)指標(biāo)同時(shí)作為優(yōu)化目標(biāo)也具有一定的挑戰(zhàn)性。

(2)當(dāng)優(yōu)化目標(biāo)增多時(shí),會(huì)一定程度上帶來決策選擇和復(fù)雜度等問題。因此,當(dāng)優(yōu)化目標(biāo)增多時(shí)如何解決其帶來的問題也有待研究。

(3)對(duì)于高維特征選擇問題,Pareto最優(yōu)解通常是稀疏的,大多數(shù)決策變量為零。而使用大多數(shù)現(xiàn)有的多目標(biāo)進(jìn)化算法解決此類問題是困難的。

(4)分類和回歸問題是機(jī)器學(xué)習(xí)的主要問題。目前大多數(shù)多目標(biāo)優(yōu)化特征選擇都用于分類,很少用于回歸問題中,而現(xiàn)實(shí)問題中回歸依然很重要。因此,多目標(biāo)特征選擇的回歸問題很值得研究。

(5)從進(jìn)化算法的角度來講,目前已有遺傳算法(GA)、粒子群算法(PSO)、蟻群算法(ACO)等一系列算法用來解決多目標(biāo)優(yōu)化問題,但用的比較多的還是遺傳算法和粒子群算法。隨著一些新興的進(jìn)化算法的出現(xiàn),未來還有更多的算法值得挖掘并應(yīng)用在多目標(biāo)特征選擇上。

猜你喜歡
特征選擇子集文獻(xiàn)
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
關(guān)于奇數(shù)階二元子集的分離序列
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
每一次愛情都只是愛情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
苏尼特右旗| 青铜峡市| 阜阳市| 民丰县| 仪陇县| 曲靖市| 东阿县| 长乐市| 榆中县| 昭平县| 庄河市| 仁怀市| 沭阳县| 马关县| 南城县| 黑水县| 南和县| 桐城市| 调兵山市| 海林市| 桓台县| 南漳县| 鹤山市| 石首市| 开封县| 阜新市| 洪洞县| 怀安县| 平利县| 天长市| 武功县| 麻城市| 晋中市| 湛江市| 柏乡县| 松滋市| 中超| 华蓥市| 织金县| 迭部县| 山阴县|