国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向不均衡數(shù)據(jù)的多分類集成算法

2022-01-25 18:54鑫,徐華,朱
計算機工程與應用 2022年2期
關鍵詞:子集特征選擇集上

崔 鑫,徐 華,朱 亮

江南大學 人工智能與計算機學院,江蘇 無錫 214122

在機器學習中最為普遍的問題是分類問題。傳統(tǒng)分類算法都是建立在數(shù)據(jù)類別分布均衡的基礎上,然而在實際問題中并不能保證數(shù)據(jù)類別分布平衡,例如異常檢測、故障診斷、醫(yī)學數(shù)據(jù)分析等。不均衡分類問題可以分為絕對不均衡和相對不均衡。絕對不均衡指的是數(shù)據(jù)中某一類樣本數(shù)量非常少比如只有10到20個,甚至不足10個,此類樣本數(shù)量過少并不足夠用于分類器的訓練。相對不均衡指的是雖然少數(shù)類的數(shù)量很大比如1 000或者更多,但是多數(shù)類和少數(shù)類樣本數(shù)比例卻大于1或者更大,傳統(tǒng)分類算法在處理此類數(shù)據(jù)會偏向多數(shù)類而忽略更具有分類價值的少數(shù)類。由于上述不均衡數(shù)據(jù)的特點,傳統(tǒng)分類算法用以解決不均衡數(shù)據(jù)分類的問題往往并不能獲得讓人滿意的效果。因此學術界有必要針對不均衡數(shù)據(jù)的特點尋找更加有針對性的算法。

面向不均衡數(shù)據(jù)分類的研究[1-2]是近年來機器學習、數(shù)據(jù)挖掘等領域的熱點之一,針對不均衡數(shù)據(jù)的算法主要可以分為數(shù)據(jù)層面和算法層面。數(shù)據(jù)層面算法即對原數(shù)據(jù)進行重采樣以平衡數(shù)據(jù)分布,重采樣包括過采樣和欠采樣。最簡單的欠采樣方法是隨機欠采樣(random under-sampling,RUS),使用隨機算法去除部分多數(shù)類樣本以平衡數(shù)據(jù)分布,由于其實現(xiàn)簡單且性能良好,該算法常被用作比較算法。但是由于采用隨機算法,隨機欠采樣的性能不穩(wěn)定且易丟失數(shù)據(jù)分布信息。2016年,Ha等人提出了基于遺傳算法的欠采樣GAUS(genetic algorithm based under-sampling)[3],通過最小化損失以選擇最優(yōu)的多數(shù)類子集,與RUS相比采樣更加合理且性能更穩(wěn)定,但是具有更高的時間復雜度。2017年,Rayhan等人提出了基于聚類的欠采樣方法[4],將聚類和隨機算法相結(jié)合降低了采樣的盲目性。

少數(shù)類樣本合成過采樣技術[5](synthetic minority oversampling technique,SMOTE)是目前最流行的過采樣算法之一,該算法在少數(shù)類與其最近鄰間線性插值引入新樣本。雖然SMOTE算法一定程度上緩解了過采樣算法會引起過擬合的問題,但是卻存在使用噪聲樣本合成新樣本以及模糊類間邊界的問題。針對SMOTE算法的不足,許多研究人員提出了SMOTE的改進算法[6-7],例如He等人提出基于SMOTE的自適應合成采樣[8](adaptive synthetic sampling,ADASYN),該算法與SMOTE相比實現(xiàn)了對少數(shù)類樣本的區(qū)別對待,對難以區(qū)分的少數(shù)類合成更多的樣本,而易于區(qū)分的樣本則合成較少的樣本。2018年,趙清華等人拋棄了將正類樣本點分組的思想提出了最遠點少數(shù)類樣本合成過采樣技術[9](max distance SMOTE,MDSMOTE),在少數(shù)類質(zhì)心和距離質(zhì)心點最遠距離的樣本點間合成新樣本。易未等人于2018年提出了改進的SMOTE算法improvedSMOTE[10],該算法增大了合成樣本的分布范圍,緩解了過擬合的問題。

算法層面包括代價敏感[11]、特征選擇[12]和集成學習方法[13]。在不均衡分類問題中少數(shù)類具有更高的分類價值,代價敏感學習通過給予錯分的少數(shù)類樣本更高的錯分代價,改善分類器對少數(shù)類的分類效果。如果數(shù)據(jù)集中樣本分布不均衡,特征的分布也可能會不均衡,因此選用易于區(qū)分的特征可以提高分類性能。集成學習即組合多個基分類器得到一個強分類器,由于其獨立性,集成學習常與抽樣方法、特征選擇方法相結(jié)合,例如Guo等人于2016年提出的集成學習方法[14](BPSOAdaboost-KNN),該算法將特征選擇方法與Adaboost相結(jié)合,以及Liu等人提出的基于遺傳欠采樣和基于多目標蟻群優(yōu)化的特征選擇[15](genetic under-sampling and multiobjectie ant colony optimization based feature selection,GU-MOACOFS),該算法更是同時使用了欠抽樣、特征選擇和集成方法。

集成算法所得的多個基分類器中,有些分類器精度較差,有些分類器分類結(jié)果相似,即不具備多樣性,這些分類器不會提高集成分類的性能。因此,有研究人員將多樣性度量用于選擇性集成,試圖通過提高分類器的多樣性從而提高集成分類的性能。雖然多樣性對集成算法的性能有重大的影響,但是目前學術界未能明確多樣性與集成算法性能間的關系。所以將多樣性度量顯式地應用在集成算法中會存在一定的爭議。然而,除了顯式的使用多樣性度量,通過增加數(shù)據(jù)集的多樣性來提高基分類器的多樣性也是一種行之有效方法。因此,本文提出了一種基于采樣和特征選擇的不均衡數(shù)據(jù)集成分類算法(imbalanced data ensemble classification algorithm based on sampling and feature selection,IDESF)。IDESF算法采用有放回采樣+SMOTE的兩階段采樣方法,不僅可以平衡數(shù)據(jù)分布,而且可以通過增加數(shù)據(jù)集的差異性來隱式提高基分類器的多樣性。為了降低過采樣引入噪聲樣本的風險,IDESF引入了數(shù)據(jù)清洗操作。此外,IDESF算法引入了基于SPSO的特征選擇算法,試圖降低算法的復雜度。最后,通過多個對比實驗驗證了IDESF算法的有效性。

1 IDESF算法

1.1 兩階段采樣

集成算法如果集成多個完全一致的分類器,那么對最終的分類效果沒有任何幫助。基分類器間存在適當?shù)亩鄻有?,那么如果某個樣本被一個或者多個基分類器所錯誤分類,但是通過某種規(guī)則組合基分類器的分類結(jié)果卻仍然可能獲得正確的結(jié)果。此外,Kuncheva等人的研究[16]也同樣表明設計多樣化分類器的總體動機是正確的。因此,為了提高集成算法的分類性能,研究人員會采用一定的策略來保證基分類器間的多樣性。研究人員試圖對多樣性進行顯式度量,并在多樣性度量的指導下進行選擇性集成。但是多樣性與集成系統(tǒng)精度的關系不明確,顯式地度量分類器間的多樣性并用來構(gòu)建集成系統(tǒng)仍存在爭議。然而像Bagging這樣隱式地產(chǎn)生分類器間多樣性的集成算法是十分具有價值的研究方向。對原數(shù)據(jù)集按照某種策略進行多次采樣可以獲得不同的數(shù)據(jù)集,分別在不同數(shù)據(jù)集上訓練得到的分類器必然相互之間存在一定的差異,所以采樣策略可以保證基分類器間的差異性。常用的算法例如SMOTEBoost、Bagging都是單階段采樣,單階段采樣使用同一策略獲得了多個數(shù)據(jù)集,雖然可以保證數(shù)據(jù)集間存在一定的差異性,但是難以保證訓練所得的分類器之間仍存在足夠的差異性。為了進一步提高數(shù)據(jù)集間的差異性,從而提高基分類器的多樣性,提出了有放回采樣+SMOTE兩階段采樣策略。

如圖1所示,圖(a)為原始數(shù)據(jù)集,(b)為有放回采樣處理后的數(shù)據(jù)集,(c)為在(b)的基礎上進行SMOTE過采樣后的數(shù)據(jù)集,圓形為多數(shù)類,星型為少數(shù)類。假設原數(shù)據(jù)集中樣本數(shù)量為n,x為原數(shù)據(jù)集中的一個樣本,在此基礎上進行有放回采樣。以樣本x為例,極端情況下樣本x可能被采樣n次也可能并未被采樣,所以(b)中與x相同的樣本數(shù)量在0到n之間。由此可知,(b)中的數(shù)據(jù)樣本皆為原數(shù)據(jù)集中采樣所得,并未對樣本本身進行處理,保存了原數(shù)據(jù)集中樣本信息。因此,圖(a)和圖(b)中數(shù)據(jù)的分布趨勢較為一致。此外,圖(a)和圖(b)在數(shù)據(jù)密集程度上呈現(xiàn)了一定的差異,這是由于有放回采樣導致數(shù)據(jù)集中部分樣本被采樣多次,而部分樣本未采樣。有放回采樣是對原數(shù)據(jù)集進行隨機采樣,所得多個數(shù)據(jù)集的樣本總數(shù)雖然相等但是某個樣本的數(shù)量卻存在差異,因此保證了數(shù)據(jù)集間的差異性。SMOTE過采樣算法用少數(shù)類與其近鄰的少數(shù)類合成新樣本,因此參與合成的樣本的合理性將直接影響新樣本的合理性。有放回采樣并未改變樣本本身的信息,并且觀察圖1可知圖(b)中的數(shù)據(jù)分布與原數(shù)據(jù)集圖(a)中數(shù)據(jù)分布保持一致,因此在有放回采樣所得的數(shù)據(jù)集上使用SMOTE算法可以保證參與合成的樣本的合理性。同時,圖(a)與圖(c)數(shù)據(jù)分布趨勢一致也表明SMOTE引入新樣本的合理性。SMOTE過采樣不僅可以獲得分布均衡且合理的數(shù)據(jù)集,在有放回采樣所得的多個數(shù)據(jù)集上分別進行SMOTE過采樣,可以進一步擴大數(shù)據(jù)集間的差異。有放回采樣所得的數(shù)據(jù)集間的差異體現(xiàn)于某一樣本的數(shù)量,假設有放回采樣得到兩個數(shù)據(jù)集A和B,原數(shù)據(jù)集中某個樣本x在數(shù)據(jù)集A中存在,在數(shù)據(jù)集B不存在。如果在數(shù)據(jù)集A和B中分別進行SMOTE過采樣,數(shù)據(jù)集A通過樣本x合成所得的新樣本必然與數(shù)據(jù)集B中所得的新樣本存在一定的區(qū)別。所以,在有放回采樣的基礎上進行SMOTE過采樣會導致合成不同的新樣本,數(shù)據(jù)集間的差異進一步擴大。綜上所述,兩階段采樣可以保證所得數(shù)據(jù)集的合理性,同時也可以保證數(shù)據(jù)集間的差異性。差異化的數(shù)據(jù)集上更易獲得多樣化的基分類器。因此,兩階段采樣通過增大數(shù)據(jù)集間的差異,從而提高了基分類器的多樣性。

圖1 采樣情況Fig.1 Sample situation

1.2 IDESF算法

IDESF算法框架如圖2所示,首先使用有放回采樣獲得多個訓練子集,每個數(shù)據(jù)子集的樣本數(shù)量均與原數(shù)據(jù)集的樣本數(shù)量保持一致,子集的個數(shù)作為超參數(shù)進行調(diào)優(yōu)。然后在訓練子集上依次使用SMOTE算法、數(shù)據(jù)清洗以及特征選擇方法,在每個訓練子集上獲得一個分類器,最后使用加法法則獲得最終分類結(jié)果。下文將介紹算法相結(jié)合的具體過程,各個模塊以及模塊間的聯(lián)系。

如圖2所示,首先對原數(shù)據(jù)集進行n次有放回的采樣獲得n個數(shù)據(jù)子集,此階段獲得數(shù)據(jù)子集的特點:(1)改變了某一個樣本的數(shù)量,所以子集間存在一定的差異。(2)并未改變某一個樣本自身的內(nèi)容,所以又保存了原數(shù)據(jù)的信息。由于上述特點,在此階段數(shù)據(jù)子集上進行SMOTE過采樣可以保證獲得的子集不會偏離原數(shù)據(jù)分布,又可以進一步擴大數(shù)據(jù)子集間的差異。少數(shù)類樣本數(shù)量過少是不均衡分類中最為突出的問題:(1)分類器在訓練過程中會追求正確率的最大化,少數(shù)類數(shù)量過少會導致分類偏向多數(shù)類,可能會將部分少數(shù)類當作噪聲數(shù)據(jù)。如果少數(shù)類有多個子集且分布稀疏,則更易被當作噪聲數(shù)據(jù)。(2)少數(shù)類數(shù)量少,則原數(shù)據(jù)集中所包含的分類信息自然就較少,信息的欠缺可能會導致分類器對訓練集和測試集中的少數(shù)類樣本都難以保證可靠的分類效果。SMOTE合成少數(shù)類的過采樣技術,在少數(shù)類樣本與其近鄰的少數(shù)類樣本間隨機線性插值引入新樣本,增加少數(shù)類樣本數(shù)量獲得均衡的數(shù)據(jù)集。SMOTE算法引入的新樣本與原數(shù)據(jù)集中的樣本存在一定差異,所以可以豐富少數(shù)類的分布,降低了過擬合的風險。有放回采樣+SMOTE的兩階段采樣方法可以獲得分布均衡的數(shù)據(jù)集,同時在1.1節(jié)中也表明了其可以保證數(shù)據(jù)集的差異性和合理性,所以IDESF算法可以在不同的數(shù)據(jù)集上訓練得到多樣化的分類器。本文實驗部分選用的數(shù)據(jù)集為多類別數(shù)據(jù)集,假設數(shù)據(jù)集中樣本數(shù)量最多的類為y,y類的樣本數(shù)量為N,IDESF算法在每個數(shù)據(jù)子集上分別使用SMOTE算法將所有類的樣本數(shù)量擴充到N,得到各個類別分布均衡的數(shù)據(jù)子集。

圖2 IDESF算法框架Fig.2 IDESF algorithm framework

由于實際情況的復雜性,在數(shù)據(jù)的獲取和記錄過程中難免發(fā)生錯誤而引入噪聲樣本。此外,目前所提出的過采樣算法雖已獲得較好的分類性能,但是都存在一定的局限性,例如有放回采樣可能多次采樣噪聲樣本,增加所得數(shù)據(jù)子集中噪聲樣本數(shù)量;SMOTE算法可能使用噪聲樣本參與合成新樣本,難以保證所得新樣本的合理性??紤]到采樣策略的局限性以及原數(shù)據(jù)集中存在的噪聲樣本,過采樣算法難以保證引入的新樣本都符合原數(shù)據(jù)分布,所以兩階段采樣后的數(shù)據(jù)集中必然含有一定數(shù)量的噪聲樣本。分布于邊界的噪聲樣本可能會模糊類間邊界,降低數(shù)據(jù)的可分性。噪聲樣本數(shù)量過多甚至會改變數(shù)據(jù)集原有的數(shù)據(jù)分布,導致分類器對測試數(shù)據(jù)出現(xiàn)大量的錯誤分類。噪聲樣本的存在嚴重損害了分類性能,所以保證新樣本的合理性是十分必要的。為了提高采樣算法所引入新樣本的合理性,提高各類之間的可分性,IDESF算法在兩階段采樣后使用了數(shù)據(jù)清洗操作。IDESF算法所采用的數(shù)據(jù)清洗操作是去除數(shù)據(jù)中互為最近異類的樣本對,多類別數(shù)據(jù)集需對每對類組合進行清洗操作。例如對a類和b類進行數(shù)據(jù)清洗,樣本點xi屬于a類,以歐氏距離為評價標準,分別計算每個b類樣本與樣本點xi的歐氏距離,若b類樣本xj與xi之間的距離最小,則xj為xi最近鄰的b類樣本。然后分別計算每個a類樣本與樣本xj間的歐氏距離,若xi為xj最近鄰的a類樣本,則xi與xj構(gòu)成了互為最近異類的樣本對,去除樣本對xi和xj。分別對每個a類樣本按照上述規(guī)則進行清洗,則完成了a和b類組合的數(shù)據(jù)清洗操作。

數(shù)據(jù)集中特征可以分為:相關特征,對分類問題有幫助,可以提高分類性能;無關特征,對分類器的訓練沒有幫助,不能提高分類性能;冗余特征,不能為分類器的訓練帶來新的信息,或者該特征的信息可以由其他的特征推斷出。冗余特征和無關特征的存在會增加算法的時間復雜度,同時也會耗費過多的內(nèi)存空間。特征選擇算法可以去除冗余特征和無關特征,從而降低時間復雜度和空間消耗,并且提高分類效果。IDESF算法采用基于簡化粒子群算法(simple particle swarm optimization,SPSO)的特征選擇算法。SPSO基于群體隨機搜索機制,利用群體中個體間信息交互與合作實現(xiàn)尋優(yōu)。在迭代過程中每個粒子不斷更新位置信息,最終得到滿足終止條件的最優(yōu)解。特征選擇可以看作0-1組合優(yōu)化問題,解為一個由0和1組成的向量為1表示第i個粒子在t次迭代的第d維特征被選中,為0則未選中。借鑒于文獻[17],通過設定閾值δ將粒子的位置信息轉(zhuǎn)換為解向量,如公式(1)所示:

SPSO算法使用粒子的位置、個體極值以及種群極值獲得下次迭代粒子的位置。表示第i個粒子在t次迭代的第d維分量,w為慣性因子,c1和c2是學習因子,r1和r2是服從U(0,1)的隨機數(shù),pgd表示種群極值的第d維分量,pid表示第i個粒子個體極值的第d維分量,進化公式如公式(2)所示:

IDESF采用的特征選擇算法——SPSO算法:

輸入:訓練集(xi,yi),i=1,2,…,N,種群大小M,最大迭代次數(shù)T,閾值δ。

輸出:特征子集。

(1)初始化種群,隨機生成M個粒子,粒子的每維分量都是服從U(0,1)的隨機數(shù)。

(2)將每個粒子的位置信息根據(jù)公式(1)轉(zhuǎn)化為特征向量,根據(jù)特征向量從原訓練集中選取各自的訓練子集,在訓練子集上可得一個分類器H,根據(jù)分類器H所預測的結(jié)果可得一組ROC曲線下的面積(area under the curve,AUC),然后根據(jù)公式(4)得到AUCarea[18]并將其作為適應度,用粒子的位置信息初始化對應粒子的個體極值pi,最高適應度對應的位置信息作為種群極值pg。

(3)判斷是否達到停止條件(最大迭代次數(shù)T或者最大適應度),如果達到停止條件則轉(zhuǎn)步驟(5),否則轉(zhuǎn)到步驟(4)。

(4)使用公式(2)更新所有粒子的位置,計算其適應度值,如果出現(xiàn)更優(yōu)的pi和pg,則更新其值,然后轉(zhuǎn)到步驟(3)。

(5)將pg轉(zhuǎn)換為特征向量并輸出,算法結(jié)束。

在數(shù)據(jù)子集上根據(jù)其各自的特征子集訓練得到一組基分類器,最后采用加法法則組合基分類器得到最終的強分類器。加法法則即對每個類求得n個基分類器的分類概率和,預測結(jié)果即為分類概率和中最大的類別。設n為基分類器的個數(shù),m為類別的個數(shù),類標簽為{C1,C2,…,Cm},Pij為第i個基分類器將預測樣本預測為Cj類的概率,RCj為Cj類上n個基分類器的概率之和,pre為最終的預測結(jié)果,則pre=arg max{RC1,。

1.3 算法復雜度分析

定義n為數(shù)據(jù)集中樣本數(shù)量,m為數(shù)據(jù)集類別數(shù)量,k為基分類器的數(shù)量。有放回采樣的時間復雜度為O(n),有放回采樣后樣本數(shù)量仍為n。在此基礎上進行SMOTE過采樣,假設采樣的倍率為t,則時間復雜度為O(n(n+t))。由于t一般遠小于n,所以SMOTE的時間復雜度可以簡化為O(n2)。數(shù)據(jù)清洗操作的時間復雜度為。假設迭代次數(shù)為t,粒子數(shù)為p,以決策樹為分類器為例,基于SPSO算法的特征選擇算法的時間復雜度為O(tp(n+m2))=O(n)。綜上,IDESF算法的時間復雜度為O(k(n+n2+n2+n)),即O(n2)。IDESF算法的空間復雜度取決于有放回采樣中所存儲的多個數(shù)據(jù)集。因此,IDESF算法的空間復雜度為O(n)。

2 實驗

2.1 數(shù)據(jù)集和評價指標

實驗所選用的數(shù)據(jù)集均來自于KEEL(http://www.keel.es/datasets.php),源于不同的實際應用領域。數(shù)據(jù)集的詳細信息見表1,其中IR表示多數(shù)類與少數(shù)類的數(shù)目之比。

不均衡分類實驗中常用的度量指標是AUC,越大的AUC代表分類的效果越好。AUC可以定量比較不同分類器的性能,但是AUC是針對于二分類問題所設計的,而對于多分類問題AUC不能直接使用需對其進行擴展,常用的兩種擴展方法:(1)一對一方法;(2)一對多方法。假設數(shù)據(jù)類標簽集合Y={y1,y2,…,ym},第一種方法,計算每對類組合(yi,yj)(i≠j)的AUC。第二種方法,為每個類yi∈Y創(chuàng)建一個二分類問題,其中屬于yi類樣本為正類,其他樣本為負類,然后為每個二分類問題計算AUC。以上兩種方法都可以得到一組AUC值,取其平均值avgAUC作為多分類問題的評價指標。

兩種擴展方法都易于理解和計算,但是平均值avgAUC并不能反映極端情況,例如一組AUC值中一個值較差只有0.5,其他的AUC值較高0.9以上,而avgAUC可能反映分類效果良好。這種情況在不均衡分類中更加有可能出現(xiàn),從而錯誤判斷少數(shù)類的分類效果。此外對于不同分類器,可能每個AUC值都不同,但是avgAUC卻相等,此時就無法判斷哪種分類器更優(yōu)。

為此,Hassan等人提出了基于一對一的新的評價指標AUCarea,將一組AUC值在極坐標上表示,將極坐標上所覆蓋的面積作為評價指標AUCarea,面積越大越好。假設數(shù)據(jù)類標簽集合Y={y1,y2,…,ym},計算每對類組合(yi,yj)(i≠j)的AUC,可得一組AUC值{r1,r2,…,rq},q=C2m。坐標圖的角度設置為2π,圖中每個等角線代表一個AUC,所以圖中有q個等角線。等角線的長度代表AUC的值,所以其長度最大為1。此外,{r1,r2,…,rq}在圖中的表示需按照:r2為r1的近鄰,r3為r2的近鄰,…,rq為r1的近鄰。連接近鄰點所形成的圖形面積即評價指標AUCarea。如圖3所示,是一個三分類的AUCarea極坐標圖示,虛線圍成的三角形面積就是AUCarea。AUCarea的計算公式如公式(3)所示:

當所有AUC值為1時,可得AUCarea的最大值AUCarea_max=(q/2)sin(2π/q),為了AUCarea在[0,1]范圍內(nèi)取值對其進行歸一化操作,如公式(4)所示:

為了書寫方便,公式(4)所得的值仍記為AUCarea。與avgAUC相比,AUCarea除了可視化之外,AUCarea對于單個差的AUC更加敏感。假設ri變?yōu)閞i-l,avgAUC和AUCarea的變化分別為:。因為單個AUC值都是大于等于0.5,所以如果某個AUC值下降,則AUCarea降低的幅度會更大。在不均衡分類問題中,少數(shù)類與其他類的AUC可能會較低,所以AUCarea更加適用于不均衡分類問題。

2.2 分類器類別及數(shù)量對分類性能的影響

為了研究分類器類別對分類性能的影響,實驗固定基分類器個數(shù)為10,在決策樹(decision tree,DT)、最近鄰(k-nearest neighbor,KNN)以及邏輯回歸(logistic regression,LR)三個不同的分類器中進行實驗。實驗結(jié)果如圖4所示,不同分類器的分類效果各有不同。在balance數(shù)據(jù)集上,LR優(yōu)勢十分明顯可以比DT和KNN分別高出0.087 6、0.098 4,且在dermatology和wine數(shù)據(jù)集上同樣取得了較高的分類性能。但是在contraceptive和hayes-roth數(shù)據(jù)集上LR分類效果很差,特別在hayes-roth數(shù)據(jù)集上所得AUC比DT和KNN低了0.4左右。分類器DT和KNN在五個數(shù)據(jù)集上的分類效果相近,但是DT在contraceptive、dermatology、hayes-roth和wine數(shù)據(jù)集上均取得了最高的AUC。從五個數(shù)據(jù)集上的均值來看,DT、KNN和LR所得平均AUCarea分別為0.899 3、0.891 7、0.814 8,DT仍然取得了最高值。綜上所述,下文的實驗均采用DT作為基分類器。

為了研究分類器數(shù)量對分類性能的影響,實驗設置決策樹為基分類器,并設置分類器的數(shù)量為5、10、15、20、25、30。IDESF算法不同分類器數(shù)量的分類性能以及均值如圖5所示。在dermatology數(shù)據(jù)集,基分類器數(shù)量達到10之后分類性能便趨于穩(wěn)定。wine數(shù)據(jù)集上分類性能并未隨著基分類器個數(shù)變化而產(chǎn)生波動,而是一直保持著最高的分類性能。balance數(shù)據(jù)集在基分類器數(shù)量為5和30時分類性能較低,而基分類器數(shù)量在10~25時分類性能較高且在小范圍內(nèi)波動。在contraceptive數(shù)據(jù)集上,分類性能隨著基分類器數(shù)量的增加而增加,在基分類器數(shù)量達到20時性能趨于穩(wěn)定。hayes-roth數(shù)據(jù)集,基分類器數(shù)量在5~20時分類性能保持上升且波動,在數(shù)量為20時性能達到峰值,之后隨著基分類器數(shù)量增加,性能有所下降?;诸惼鲾?shù)量為20和25時整體的分類性能均較高且相近,但基分類器數(shù)量為25僅在contraceptive數(shù)據(jù)集取得了最高的AUCarea,而基分類器數(shù)量為20在balance、dermatology、hayes-roth、wine以及均值取得了最高的AUCarea。綜上所述,考慮到算法的分類性能和復雜度,下文實驗將基分類器數(shù)量設置為20。

圖5 基分類器數(shù)量對分類性能的影響Fig.5 Influence of base classifier number on classification performance

2.3 閾值對分類性能的影響

IDESF的特征選擇算法通過設定閾值將粒子的位置信息轉(zhuǎn)換為解向量,所以閾值設定必然會影響特征選取,進一步影響算法的分類性能。為了研究其對分類性能的影響,本文選擇-0.2、-0.1、0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9這12個數(shù)值作為閾值,對比研究不同閾值下算法的性能。IDESF算法不同閾值的分類性能以及均值如圖6所示。在balance數(shù)據(jù)集上閾值為0時AUCarea達到最大值,而閾值為其他值時AUCarea差別較小,性能曲線較為平滑。在contraceptive數(shù)據(jù)集上,在-0.2~0.1之間性能曲線略有上升,在0.1之后性能曲線劇烈波動,而在0.7之后性能曲線又急劇下降。dermatology數(shù)據(jù)集上,在-0.2~0.2和0.4~0.6區(qū)間內(nèi)曲線較為平穩(wěn),而在0.3和0.8處曲線出現(xiàn)了凹點。hayes-roth數(shù)據(jù)集上,性能曲線在-0.2~0間小幅度上升,在0之后曲線波動且呈下降趨勢。wine數(shù)據(jù)集上,性能曲線十分平穩(wěn)且保持著最高的AUCarea。閾值為0時,在balance、dermatology、hayes-roth以及wine數(shù)據(jù)集上均獲得了最高的AUCarea。此外,平均值曲線在閾值為0時取得了峰值,閾值為0與其他值相比優(yōu)勢較為明顯?;谏鲜鰧嶒灲Y(jié)果,下文實驗中閾值選擇為0。

圖6 閾值對分類性能的影響Fig.6 Influence of thresholds on classification perform

2.4 IDESF算法性能研究

為了進一步研究IDESF算法的有效性,將IDESF算法與BPSO-Adaboost-KNN[14]、基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法[19](imbalanced data ensemble classification based on cluster-based under-sampling algorithm,ECUA)、文獻[20]所提出的兩種算法與bagging結(jié)合(分別簡記為Centers和Centers_NN)以及有效不平衡分類的代價敏感決策樹集成算法[21](cost-sensitive decision tree ensembles for effective Imbalanced classification,CS-MCS)進行對比?;谏衔膶嶒灒琁DESF選擇DT作為基分類器,基分類器數(shù)量設置為20,閾值設置為0。SPSO算法的參數(shù)設置:種群粒子數(shù)為50,最大迭代次數(shù)為40,學習因子c1=c2=2,慣性因子w=0.8。采用AUCarea和另外一個廣泛使用的不平衡分類評價指標GM(G-Mean)對算法進行評價,實驗結(jié)果列于表2、3。

在表2中可以看出在所有數(shù)據(jù)集以及平均值上,IDESF與對比算法相比均獲得了更高AUCarea。其中在balance數(shù)據(jù)集上IDESF的優(yōu)勢最為明顯,與對比算法相比平均可以高出0.176。在contraceptive和hayes-roth數(shù)據(jù)集上,IDESF依然優(yōu)勢明顯。contraceptive數(shù)據(jù)集上,IDESF比對比算法平均高出0.163。在hayes-roth數(shù)據(jù)集上,IDESF比對比算法平均高出0.097。dermatology和wine數(shù)據(jù)集上,六個算法均取得了較高的AUCarea。IDESF在dermatology數(shù)據(jù)集上AUCarea達到了1,Centers、Centers_NN、CS-MCS和IDESF在wine數(shù)據(jù)集上AUCarea達到了1,表明這些算法在對應的數(shù)據(jù)集中完全正確分類所有的測試數(shù)據(jù),達到了最好的效果。從均值來看IDESF依然優(yōu)勢明顯,IDESF比BPSO-Adaboost-KNN、ECUA、Centers、Centers_NN和CS-MCS分別高出了0.112、0.117、0.06、0.063、0.143。同時根據(jù)表3可知,IDESF同樣在GM指標上獲得了較好的結(jié)果,在contraceptive、dermatology和wine數(shù)據(jù)集上排在第一位,在hayes-roth數(shù)據(jù)集上排在第二位。從均值來看,IDESF比BPSOAdaboost-KNN、ECUA、Centers、Centers_NN和CS-MCS分別高出了0.016、0.116、0.056、0.033、0.024。

表2 六種算法的AUCarea值對比Table 2 AUCarea value comparison of six algorithms

表3 六種算法的GM值對比Table 3 Comparison of GM values of six algorithms

綜上所述,通過一系列實驗可知IDESF算法在評價指標AUCarea和GM上均獲得較為可靠的性能,表明針對不均衡數(shù)據(jù)分類問題提出的IDESF算法是有效的。

3 結(jié)束語

針對不均衡分類問題,本文提出了一種集成分類算法IDESF,該算法融合了有放回采樣+SMOTE的兩階段采樣、去除互為最近異類樣本對的數(shù)據(jù)清洗操作以及基于SPSO的特征選擇方法。放回采樣+SMOTE的兩階段采樣通過增加數(shù)據(jù)集間的差異性,達到隱式提高分類器間多樣性的目的。此外,放回采樣+SMOTE的兩階段采樣可以平衡數(shù)據(jù)分布,避免分類器傾向于多數(shù)類。數(shù)據(jù)清洗方法去除過采樣引入的噪聲樣本,提高數(shù)據(jù)的可分性。特征選擇可以去除冗余特征和無關特征,降低算法復雜度并提高分類性能。多個對比實驗表明,IDESF算法與對比算法相比具有更好的分類效果,可以有效解決數(shù)據(jù)集中樣本分布不均衡的問題。IDESF算法效率較低,所以下一步將試圖在不降低性能的前提下提高其分類效率。

猜你喜歡
子集特征選擇集上
正交基低冗余無監(jiān)督特征選擇法
GCD封閉集上的冪矩陣行列式間的整除性
拓撲空間中緊致子集的性質(zhì)研究
網(wǎng)絡入侵檢測場景下的特征選擇方法對比研究
基于互信息的多級特征選擇算法
Carmichael猜想的一個標注
關于奇數(shù)階二元子集的分離序列
基于特征聚類集成技術的在線特征選擇
Kmeans 應用與特征選擇
師如明燈,清涼溫潤