趙軍陽(yáng),韓崇昭,韓德強(qiáng),張春霞
(1.第二炮兵工程大學(xué)202教研室, 710025, 西安;2.西安交通大學(xué)電子與信息工程學(xué)院, 710049, 西安;3.西安交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 710049, 西安)
?
采用互補(bǔ)信息熵的分類器集成差異性度量方法
趙軍陽(yáng)1,2,韓崇昭2,韓德強(qiáng)2,張春霞3
(1.第二炮兵工程大學(xué)202教研室, 710025, 西安;2.西安交通大學(xué)電子與信息工程學(xué)院, 710049, 西安;3.西安交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 710049, 西安)
針對(duì)多分類器系統(tǒng)差異性評(píng)價(jià)中無法直接處理模糊數(shù)據(jù)的問題,提出了一種采用互補(bǔ)信息熵的分類器集成差異性度量(CIE)方法。首先利用訓(xùn)練數(shù)據(jù)生成一系列基分類器,并對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類,將分類結(jié)果依次組合生成分類數(shù)據(jù)空間;然后采用模糊關(guān)系條件下的互補(bǔ)信息熵度量分類數(shù)據(jù)空間蘊(yùn)含的不確定信息量,據(jù)此信息量判斷基分類器間的差異性;最后以加入基分類器后數(shù)據(jù)空間差異性增加為選擇分類器的基本準(zhǔn)則,構(gòu)建集成分類器系統(tǒng),用于驗(yàn)證CIE差異性度量與集成分類精度之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,與Q統(tǒng)計(jì)方法相比,利用CIE方法進(jìn)行分類器集成,平均集成分類精度提高了2.03%,分類器系統(tǒng)集成規(guī)模降低約17%,而且提高了集成系統(tǒng)處理多樣化數(shù)據(jù)的能力。
分類器集成;差異性;互補(bǔ)信息熵;模糊關(guān)系
分類器集成是指針對(duì)某一問題,將一系列基分類器進(jìn)行組合,來提高分類的精度和泛化性能的方法。目前,多分類器集成已得到廣泛而深入的研究,并成為機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域的主要研究方向之一。很顯然,如果進(jìn)行組合的是相同且無差異的分類器,集成系統(tǒng)并不能提高整體分類效果。因此,要提高多分類器系統(tǒng)的性能,基分類器必須具有一定的差異性,即要求B分類器能將A分類器錯(cuò)誤分類的樣本重新劃分到正確的類別。
分類器差異性的研究主要涉及分類器差異性生成模式、差異性度量方法、差異性與集成分類性能關(guān)系以及如何利用差異性度量?jī)?yōu)化分類器集成系統(tǒng)等方面的研究[1-2]。其中,分類器差異性生成模式的研究是提高集成系統(tǒng)性能的基礎(chǔ)[3],也是眾多文獻(xiàn)的研究熱點(diǎn)。差異性的獲得可通過采用不同類型的分類器、設(shè)置分類器的不同參數(shù)配置和采用不同的訓(xùn)練數(shù)據(jù)集來實(shí)現(xiàn)[4]。如何度量分類器間的差異性是研究者需要關(guān)注的另一個(gè)重要問題。分類器差異性的正確度量和分析對(duì)于設(shè)計(jì)性能優(yōu)良的分類器系統(tǒng)至關(guān)重要。目前,國(guó)內(nèi)外學(xué)者已經(jīng)提出一些度量分類器差異性的方法,以期對(duì)分類器系統(tǒng)差異特性進(jìn)行統(tǒng)計(jì)分析[5-9],如Kuncheva總結(jié)的Q統(tǒng)計(jì)、雙錯(cuò)度量和熵度量等[5],Windeatt提出的基于模式的度量方法[6];或者指導(dǎo)分類器集成系統(tǒng)的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)[10-14],以提高分類器的集成性能?,F(xiàn)有的一些方法雖然能在一定程度上表示分類器之間的差異性,但主要是從分類器正確分類和錯(cuò)誤分類的一致性角度出發(fā)進(jìn)行定義,必須根據(jù)標(biāo)準(zhǔn)類別信息首先對(duì)分類器輸出結(jié)果的正確性進(jìn)行判別,無法直接度量分類器本身蘊(yùn)含的分類信息。為此本文從信息熵角度出發(fā)研究如何直接度量分類器的差異性,提出一種基于互補(bǔ)信息熵的分類器差異性度量(CIE)方法,根據(jù)不同分類器所蘊(yùn)含不確定信息量的差別來實(shí)現(xiàn)分類器的差異性評(píng)價(jià),并分析差異性度量方法與系統(tǒng)集成性能之間的聯(lián)系。數(shù)據(jù)實(shí)驗(yàn)表明,本文方法能有效度量分類器差異性,在降低分類器集成規(guī)模的同時(shí),提高或保持集成系統(tǒng)的集成分類精度。
目前比較常用的差異性度量方法主要可以分為兩類:成對(duì)度量方法[5]和非成對(duì)度量方法[15]。
1.1 成對(duì)度量方法
成對(duì)差異度量方法首先計(jì)算分類器系統(tǒng)中每一對(duì)分類器之間的差異性度量值,L個(gè)分類器對(duì)應(yīng)L(L-1)/2對(duì)差異值,然后對(duì)各差異值求取平均值得到系統(tǒng)的差異度。以下介紹幾種常見的成對(duì)度量方法。
(1)相關(guān)系數(shù)(Correlation Coefficient,ρ)
ρi,j=(N11N00-N01N10)/[((N11+N10)(N01+
N00)(N11+N01)(N10+N00))1/2]
(1)
式中:N01表示分類器Di和Dj的聯(lián)合分類輸出概率,0表示Di分類錯(cuò)誤,1表示Di分類正確;其余定義類似。
(2)Q統(tǒng)計(jì)(Q-statistic,Q)
(2)
(3)不一致度量(Disagreement Measure,Dis)
(3)
(4)雙錯(cuò)度量(Double-Fault Measure,DDF)
(4)
1.2 非成對(duì)度量方法
非成對(duì)差異性度量方法不強(qiáng)調(diào)分類器兩兩之間的關(guān)系,而是對(duì)整個(gè)分類器集合進(jìn)行計(jì)算得到系統(tǒng)的差異度。
(1)熵度量(Entropy,E)
(5)
式中:l(xi)表示在一組L個(gè)分類器中,將樣本xi正確分類的分類器個(gè)數(shù);N為樣本數(shù)。
(2)KW方差(Kohavi-Wolpert variance,DKW)
(6)
(3)Kappa度量(Interrater agreement,κ)
(7)
(4)難點(diǎn)度量(Difficulty,θ)
θ=var(Z)
(8)
式中:Z表示對(duì)于隨機(jī)給定的輸入x,分類正確的分類器在所有集成分類器中的比率。
(5)廣義差異性度量(Generalised Diversity,DG)
(9)
式中:p(1)表示1個(gè)分類器的出錯(cuò)概率;p(2)表示2個(gè)分類器的出錯(cuò)概率。
(6)一致錯(cuò)誤差異性度量(Coincident Failure Diveristy,DCF)
(10)
式中:p0表示所有個(gè)體部分類正確;pi表示L個(gè)分類器中有i個(gè)得出錯(cuò)誤分類結(jié)果的概率。
2.1 模糊近似空間中的互補(bǔ)信息熵
為了度量數(shù)據(jù)空間蘊(yùn)含的不確定信息,目前已提出多種信息熵度量方法,但無論是Shannon信息熵[16]還是梁吉業(yè)提出的粗糙集中的信息熵模型[17]均要求數(shù)據(jù)空間滿足一定的等價(jià)關(guān)系,只能處理離散數(shù)據(jù)。然而,實(shí)際的數(shù)據(jù)未必存在明確的邊界區(qū)分,需利用連續(xù)特征函數(shù)進(jìn)行描述,通過模糊隸屬函數(shù)進(jìn)行處理。為了適應(yīng)任意模糊關(guān)系下的信息度量,文獻(xiàn)[18]對(duì)Shannon熵進(jìn)行改進(jìn),提出了模糊關(guān)系下的信息熵模型;作者則在文獻(xiàn)[19]中考慮類別劃分的補(bǔ)集,提出了任意模糊關(guān)系下的互補(bǔ)信息熵模型,可以直接處理連續(xù)或模糊數(shù)據(jù)。
定義1 設(shè)U={x1,x2,…,xn}為有限非空論域,R是U上的任意模糊關(guān)系,則模糊近似空間(U,R)的互補(bǔ)信息熵[19]定義為
(11)
2.2 互補(bǔ)信息熵差異性度量方法
上節(jié)介紹的差異性度量方法不僅要求分類器的輸出結(jié)果為0/1模式,而且需要預(yù)先判斷分類器輸出的正確性,無法直接度量分類器輸出信息,不能適應(yīng)連續(xù)或模糊數(shù)據(jù)的集成處理?;パa(bǔ)信息熵則不僅能應(yīng)用于模糊信息系統(tǒng)的信息處理,而且無需預(yù)先離散化,也可以度量分類器系統(tǒng)所蘊(yùn)含的信息量。為此,本文將其用于分析分類器的差異性,提出一種采用互補(bǔ)信息熵的差異性度量方法。
假設(shè)分類器系統(tǒng)中基分類器ci的分類輸出結(jié)果為Oi={oi1,oi2,…,oiN},將各基分類器的輸出組合起來構(gòu)成一個(gè)新的分類數(shù)據(jù)空間,即U={oij|i=1,…,L;j=1,…,N},其中,L表示分類器個(gè)數(shù),N表示樣本個(gè)數(shù),每一個(gè)分類器的輸出即為數(shù)據(jù)空間U中的一個(gè)數(shù)據(jù)對(duì)象,各個(gè)分類器間的差異性越大,則蘊(yùn)含的互補(bǔ)信息熵也越大,由此得到一種新的差異性度量方法。
定義2 設(shè)O={o1,o2,…,oL}為有限非空論域,R是O上的任意模糊關(guān)系,則基于互補(bǔ)信息熵的差異性度量方法(Complement Information Entropy, CIE)定義為
(12)
式中:|[oi]R|表示在第i個(gè)分類器輸出的各樣本對(duì)象結(jié)果在模糊關(guān)系R下的勢(shì)。
定義2基于不同分類器間的相似關(guān)系,綜合度量基分類器對(duì)各個(gè)原始樣本數(shù)據(jù)的分類效果及其互補(bǔ)信息,給出基分類器集合的差異性,省略了對(duì)分類器輸出結(jié)果的正確性判別過程,具有更好的適應(yīng)性。DCIE值越大,則差異性越大,可用于指導(dǎo)基分類器的評(píng)價(jià)和選擇。為此,本文依據(jù)互補(bǔ)信息熵差異性度量方法提出增量式的基分類器差異重要性評(píng)價(jià)方法,其定義如下。
定義3 給定一個(gè)基分類器集成系統(tǒng)(O,C),O為有限非空論域,C為所有分類器集合,B?C,?ci∈C-B,則分類器ci關(guān)于分類器集合B中的差異重要性定義為
S(ci,B)=DCIE(B∪{ci})-DCIE(B)
(13)
該定義以基分類器集成系統(tǒng)差異性增加為基本準(zhǔn)則。若加入一個(gè)基分類器后,集成系統(tǒng)的差異性增加,則保留該分類器;若集成系統(tǒng)的差異性降低,則舍去該分類器。基于該準(zhǔn)則可實(shí)現(xiàn)基分類器的自動(dòng)選擇,有利于降低集成規(guī)模。
2.3 基于互補(bǔ)信息熵差異重要性評(píng)價(jià)的選擇性集成方法
為了驗(yàn)證CIE差異性度量方法與集成分類精度之間的關(guān)系,設(shè)計(jì)了一種基于互補(bǔ)信息熵分類器差異性評(píng)價(jià)的集成方法(簡(jiǎn)稱CIE集成方法),即首先將原始數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,然后采用Bootstrap采樣方法在訓(xùn)練集上生成N個(gè)數(shù)據(jù)子集,再基于這些數(shù)據(jù)子集對(duì)基分類器進(jìn)行訓(xùn)練得到每個(gè)數(shù)據(jù)對(duì)象的分類輸出結(jié)果。在基分類器訓(xùn)練結(jié)束后,基于定義3評(píng)價(jià)當(dāng)前分類器對(duì)基分類器集合的重要程度。如果重要性大于0,則保留該分類器;若重要性小于等于0,則舍去該分類器,繼續(xù)評(píng)價(jià)下一個(gè)分類器。將選擇的基分類器輸出結(jié)果通過多數(shù)投票法進(jìn)行組合,可得到最終的分類結(jié)果。
CIE集成方法步驟如下。
步驟1 初始條件。令U←有限數(shù)據(jù)集,C←初始空分類集成系統(tǒng)。
步驟2 生成訓(xùn)練子集。利用Bootstrap采樣方法生成N個(gè)訓(xùn)練子集。
步驟3 訓(xùn)練基分類器。在每個(gè)訓(xùn)練子集上訓(xùn)練單一分類器,得到N個(gè)分類器集合{Ci}i=1,…,N。
步驟4 基分類器性能評(píng)價(jià)與選擇。根據(jù)式(13)分類器差異重要性評(píng)價(jià)結(jié)果自動(dòng)選擇分類器加入集成系統(tǒng)C。
步驟5 生成分類器集成系統(tǒng)。將加入的各基分類器組合得到最終的分類器集成系統(tǒng)C*,利用多數(shù)投票方法組合輸出結(jié)果。
步驟6 集成系統(tǒng)分類精度評(píng)價(jià)?;?0折交叉驗(yàn)證方法評(píng)價(jià)集成系統(tǒng)C*的分類精度。
CIE集成方法在運(yùn)行過程中無需重復(fù)進(jìn)行類別標(biāo)記,利用差異性評(píng)價(jià)方法對(duì)在樣本采樣后的訓(xùn)練子集中生成的基分類器進(jìn)行選擇,不僅能夠提高分類器間的差異性,也有助于降低分類器系統(tǒng)的集成規(guī)模和復(fù)雜度,提高系統(tǒng)的識(shí)別效果。
3.1 實(shí)驗(yàn)數(shù)據(jù)
本文利用機(jī)器學(xué)習(xí)領(lǐng)域常用的加州大學(xué)Irvine分校UCI(University of California Irvine)數(shù)據(jù)庫(kù)[20]中的12種數(shù)據(jù)集對(duì)CIE集成方法的性能進(jìn)行驗(yàn)證實(shí)驗(yàn),涉及醫(yī)學(xué)診斷、客戶分類、污水處理、車輛分析和葡萄酒識(shí)別等方面,詳細(xì)信息如表1所示。12種數(shù)據(jù)集的類別數(shù)為2~13類,特征值均為數(shù)值類型,特征既有連續(xù)型,也有離散型,特征維數(shù)在4~56之間,樣本數(shù)在32到1 000之間。
表1 UCI實(shí)驗(yàn)數(shù)據(jù)
3.2 CIE集成方法分類性能比較實(shí)驗(yàn)
在開始算法性能實(shí)驗(yàn)前,需首先設(shè)置基分類器的訓(xùn)練個(gè)數(shù)N,各方法的分類精度為P。從表1中隨機(jī)選取Wbc、Cre、Wat和Wdbc 4個(gè)數(shù)據(jù)集,并選擇常用的決策樹(decision tree, DT)和支持向量機(jī)(support vector machine, SVM)作為基分類器,其中SVM核函數(shù)采用徑向基函數(shù)。在此基礎(chǔ)上,分析集成系統(tǒng)訓(xùn)練的基分類器數(shù)量對(duì)CIE方法集成分類性能的影響,實(shí)驗(yàn)結(jié)果如圖1所示。
(a)WBC (b)Cre
(c)Wat (d)Wdbc圖1 不同基分類器數(shù)對(duì)算法分類性能的影響
由圖1可知,隨著分類器數(shù)量的增加,集成分類精度存在先升后穩(wěn)的趨勢(shì),甚至還會(huì)降低,表明分類器數(shù)量并非越多越好,滿足集成系統(tǒng)的選擇需要即可。為提高集成系統(tǒng)的訓(xùn)練效率,以下統(tǒng)一設(shè)置N=10。
進(jìn)行CIE集成方法的分類性能驗(yàn)證實(shí)驗(yàn),并將結(jié)果與Bagging(Bag)、Adaboost(Ada)和RSM等主要集成算法進(jìn)行分析比較。首先將數(shù)據(jù)集樣本隨機(jī)劃分為20份,循環(huán)將其中9份組合作為訓(xùn)練集,剩余1份作為測(cè)試集,并在每個(gè)循環(huán)中生成10個(gè)基分類器作為候選集合,然后根據(jù)重要性評(píng)價(jià)方法自動(dòng)選擇合適的分類器組合得到分類器集成系統(tǒng)。Bagging、Adaboost和RSM等集成算法采用新西蘭Waikato大學(xué)開發(fā)的WEKA機(jī)器學(xué)習(xí)軟件對(duì)數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn)。所有算法的參數(shù)設(shè)置均為WEKA的默認(rèn)設(shè)置。
(a)BC (b)WBC
(c)Cre (d)Cle
(e)Der (f)LC
(g)Iris (h)Veh
(i)Wat (j)Win
(k)Ion (l)Wdbc圖2 以決策樹為基分類器時(shí)幾種集成算法的分類性能比較
(a)BC (b)WBC
(c)Cre (d)Cle
(e)Der (f)LC
(g)Iris (h)Veh
(i)Wat (j)Win
圖2和圖3分別為采用決策樹和SVM為基分類器時(shí),上述方法在這些數(shù)據(jù)集上的分類性能比較結(jié)果。從圖中結(jié)果可以得出:
(k)Ion (l)Wdbc圖3 以SVM為基分類器時(shí)幾種集成算法的分類性能比較
(1)CIE集成方法的分類性能在多數(shù)數(shù)據(jù)集上接近或超過Bagging、Adaboost和RSM算法,表明以差異性評(píng)價(jià)作為選擇分類器的標(biāo)準(zhǔn)是可行的;
(2)當(dāng)采用決策樹為基分類器時(shí),CIE集成方法在半數(shù)數(shù)據(jù)集上獲得最優(yōu)性能,而當(dāng)采用SVM為基分類器時(shí),CIE集成方法在8個(gè)數(shù)據(jù)集上性能表現(xiàn)突出,在Cle、LC、Iris、Wat和Wdbc這5個(gè)數(shù)據(jù)集上表現(xiàn)更為明顯,如在Cle上的分類精度相比Bagging算法提高了38.5%。
3.3 CIE差異性度量方法性能分析實(shí)驗(yàn)
在CIE集成方法框架下,為了比較CIE度量方法與其他差異性度量方法的性能差異,引入Q統(tǒng)計(jì)、熵度量、KW方差和雙錯(cuò)度量等常用方法替換CIE差異性度量方法,并與原始CIE集成方法進(jìn)行比較。圖4和圖5是分別以決策樹和SVM為基分類器時(shí)的精度對(duì)比結(jié)果。對(duì)圖4、圖5的結(jié)果分析可得如下結(jié)果。
圖4 以決策樹為基分類器時(shí)幾種差異性度量方法的集成分類性能比較
圖5 以SVM為基分類器時(shí)幾種差異性度量方法的集成分類性能比較
(1)采用決策樹作為基分類器時(shí),基于CIE度量集成后的系統(tǒng)分類精度與基于其他4種差異性度量方法相比,在6個(gè)數(shù)據(jù)集上獲得最佳分類效果;采用SVM作為基分類器時(shí)也在4個(gè)數(shù)據(jù)集上獲得最高精度;在其余數(shù)據(jù)集上的分類性能則與其他方法相近,表明CIE差異性度量方法可有效應(yīng)用于分類器集成系統(tǒng)的差異性評(píng)價(jià),并指導(dǎo)分類器集成系統(tǒng)設(shè)計(jì)和優(yōu)化。
(2)通過對(duì)圖4和圖5實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)分析可以看出,CIE度量方法綜合性能最優(yōu),在不同基分類器條件下均取得了最高平均分類精度,如表2所示。其次是熵度量和雙錯(cuò)度量方法。熵度量和雙錯(cuò)度量在文獻(xiàn)[5]中也指出其具有較好的差異性度量能力,整體性能表現(xiàn)要優(yōu)于Q統(tǒng)計(jì)和KW方差。
表2 幾種差異性度量方法下CIE集成方法的
圖6 以決策樹為基分類器時(shí)幾種差異性度量方法集成的分類器個(gè)數(shù)比較
圖7 以SVM為基分類器時(shí)幾種差異性度量方法集成的分類器數(shù)比較
圖6和圖7給出了本節(jié)實(shí)驗(yàn)過程中,基于上述差異性度量方法的集成系統(tǒng)最終選擇的基分類器個(gè)數(shù)。由圖中可知,無論采用何種差異性度量方法,多分類器系統(tǒng)集成的平均分類器個(gè)數(shù)在2.1~4.0之間。與傳統(tǒng)上多達(dá)幾十甚至上百個(gè)分類器的復(fù)雜集成系統(tǒng)相比,CIE方法可在選擇少量基分類器的同時(shí),獲得較優(yōu)的分類性能,平均比Q統(tǒng)計(jì)方法生成的集成系統(tǒng)規(guī)模降低17%左右。
通過上述實(shí)驗(yàn),基于CIE差異性評(píng)價(jià)的集成算法具有在選擇較少基分類器的基礎(chǔ)上,保持或提高分類器系統(tǒng)性能的能力。互補(bǔ)信息熵差異性度量方法在度量多分類器系統(tǒng)差異性方面是有效的,在分類器集成過程中的應(yīng)用也是可行的。
為了滿足直接度量分類器差異性的多樣性需求,提高分類數(shù)據(jù)處理的能力,本文提出了一種互補(bǔ)信息熵差異性度量方法,并利用分類器重要性評(píng)價(jià)選擇基分類器進(jìn)行集成。該方法能夠直接處理分類器的輸出結(jié)果,不受0/1模式限制;此外,通過對(duì)分類器系統(tǒng)信息量的直接度量,省略了對(duì)分類結(jié)果正確性的判別,適用于半標(biāo)記和未標(biāo)記數(shù)據(jù)的處理。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法在分類器集成應(yīng)用方面的有效性和可行性。
需要指出的是,CIE集成方法在分類器選擇過程中僅采用了差異性指標(biāo),雖然有效降低了系統(tǒng)的集成規(guī)模,但未考慮與集成精度的平衡問題,對(duì)系統(tǒng)的泛化能力可能會(huì)有一定影響。目前在如何實(shí)現(xiàn)分類器系統(tǒng)差異性和集成精度的有效平衡以及對(duì)系統(tǒng)的影響方面尚缺乏理論依據(jù),下一步工作將在集成系統(tǒng)的優(yōu)化方面進(jìn)行研究和探索。
[1] KUNCHEVA L I, SKURICHINA M, DUIN R P W. An experimental study on diversity for bagging and boosting with linear classifiers [J]. Information Fusion, 2002, 3(4): 245-258.
[2] BROWN G, KUNCHEVA L I. “Good” and “bad” diversity in majority vote ensembles [C]∥Proceedings of International Conference on Multiple Classifier Systems. Berlin, Germany: Springer, 2010: 124-133.
[3] 張宏達(dá), 王曉丹, 韓鈞, 等. 分類器集成差異性研究 [J]. 系統(tǒng)工程與電子技術(shù), 2009, 31(12): 307-3012. ZHANG Hongda, WANG Xiaodan, HAN Jun, et al. Survey of diversity researches on classifier ensembles [J]. Systems Engineering and Electronics, 2009, 31(12): 3007-3012.
[4] NASCIMENTO D, COELHO A, CANUTO A. Integrating complementary techniques for promoting diversity in classifier ensembles: a systematic study [J]. Neurocomputing, 2014, 138: 347-357.
[5] KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy [J]. Machine Learning, 2003, 51: 181-207.
[6] WINDEATT T. Diversity measures for multiple classifier system analysis and design [J]. Information Fusion, 2005, 6(1): 21-36.
[7] HAGHIGHI M S, VAHEDIAN A, YAZDI H S. Creating and measuring diversity in multiple classifier systems using support vector data description [J]. Applied Soft Computing, 2011, 11(8): 4931-4942.
[8] KRAWCZYK B, WOZNIAK M. Diversity measures for one-class classifier ensembles [J]. Neurocomputing, 2004, 126: 36-44.
[9] YIN X C, HUANG K Z, HAO H W, et al. A novel classifier ensemble method with sparsity and diversity [J]. Neurocomputing, 2014, 134: 214-221.
[10]BI Y X. The impact of diversity on the accuracy of evidential classifier ensembles [J]. International Journal of Approximate Reasoning, 2012, 53(4): 584-607.
[11]AKSELA M, LAAKSONEN J. Using diversity of errors for selecting members of a committee classifier [J]. Pattern Recognition, 2006, 39(4): 608-623.
[12]RASHEED S, STASHUK D W, KAMEL M S. Diversity-based combination of non-parametric classifiers for EMG signal decomposition [J]. Pattern Anal Applic, 2008, 11(3/4): 385-408.
[13]楊春, 殷緒成, 郝紅衛(wèi), 等. 基于差異性的分類器集成有效性分析及優(yōu)化集成 [J]. 自動(dòng)化學(xué)報(bào), 2014, 40(4): 660-674. YANG Chun, YIN Xucheng, HAO Hongwei, et al. Classifier ensemble with diversity: effectiveness analysis and ensemble optimization [J]. Acta Automatica Sinica, 2014, 40(4): 660-674.
[14]楊長(zhǎng)盛, 陶亮, 曹振田, 等. 基于成對(duì)差異性度量的選擇性集成方法 [J]. 模式識(shí)別與人工智能, 2010, 23(4): 565-571. YANG Changsheng, TAO Liang, CAO Zhentian, et al. Pairwise diversity measures based selective ensemble method [J]. PR&AI, 2010, 23(4): 565-571.
[15]谷雨. 分類器集成中的多樣性度量 [J]. 云南民族大學(xué)學(xué)報(bào): 自然科學(xué)版, 2012, 21(1): 59-65. GU Yu. Measure diversity classifier ensemble [J]. Journal of Yunnan National University: Natural Science, 2012, 21(1): 59-65.
[16]LIU W Y, WU Z H, PAN G. An entropy-based diversity measure for classifier combining and its application to face classifier ensemble thinning [C]∥Proceedings of International Conference on Sinobiometrics. Berlin, Germany: Springer, 2004: 118-124.
[17]LIANG J, CHIN K, DANG C. A new method for measuring uncertainty and fuzziness in rough set theory [J]. International Journal of General Systems, 2002, 31(4): 331-342.
[18]YU D, HU Q, WU C. Uncertainty measures for fuzzy relations and their applications [J]. Applied Soft Computing, 2007, 7(3): 1135-1143.
[19]ZHAO J, ZHANG Z, HAN C, et al. Complement information entropy for uncertainty measure in fuzzy rough set and its application [J]. Soft Computing, 2015, 19(7): 1997-2010.
[20]BLAKE C L. MERZ C L. UCI repository of machine learning databases [EB/OL]. (2007-10-12) [2015-05-08]. http:∥www.ics.uci.edu/~mlearn/MLRepository.html.
[本刊相關(guān)文獻(xiàn)鏈接]
蘭景宏,劉勝利,吳雙,等.用于木馬流量檢測(cè)的集成分類模型.2015,49(8):84-89.[doi:10.7652/xjtuxb201508014]
喻明讓,張英杰,陳琨,等.考慮調(diào)整時(shí)間的作業(yè)車間調(diào)度與預(yù)防性維修集成方法.2015,49(6):16-21.[doi:10.7652/xjtuxb201506003]
楊宏暉,王蕓,孫進(jìn)才,等.融合樣本選擇與特征選擇的AdaBoost支持向量機(jī)集成算法.2014,48(12):63-68.[doi:10.7652/xjtuxb201412010]
王羨慧,覃征,張選平,等.采用仿射傳播的聚類集成算法.2011,45(8):1-6.[doi:10.7652/xjtuxb201108001]
馬超,陳西宏,徐宇亮,等.廣義鄰域粗集下的集成特征選擇及其選擇性集成算法.2011,45(6):34-39.[doi:10.7652/xjtuxb201106006]
(編輯 劉楊)
A Novel Measure Method for Diversity of Classifier Integrations Using Complement Information Entropy
ZHAO Junyang1,2,HAN Chongzhao2,HAN Deqiang2,ZHANG Chunxia3
(1. Staff Room 202, The Second Artillery Engineering University, Xi’an 710025, China; 2. School of Electronic and Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China; 3. School of Mathematics and Statistics,Xi’an Jiaotong University, Xi’an 710049, China)
A novel diversity measure method using complement information entropy (CIE) is proposed to solve the problem that the diversity estimation of multiple classifier systems is unable to deal directly with fuzzy data. A set of base classifiers is generated by using training data, and then is used to label test data. The outputs of the classifiers are reorganized into a new classification data space. Then the complement information entropy model is introduced under fuzzy relation to measure uncertainty information of the new space and the uncertainty information is used to estimate the diversity of base classifiers. Finally, an ensemble system is constructed based on the criterion that the ensemble diversity of the classifier set increases when a base classifier is added, and the ensemble system is used to validate the performance of CIE. Experimental results and a comparison with theQ-statistic method show that the average classification accuracy of CIE increases by 2.03%, and the number of ensemble classifiers reduces by 17%. Moreover, CIE also improves the ability of ensemble systems to process diverse data.
classifier ensemble; diversity; complement information entropy; fuzzy relation
2015-06-21。
趙軍陽(yáng)(1981—),男,講師,博士后;韓崇昭(通信作者),男,教授,博士生導(dǎo)師。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61074176,41174162);中國(guó)博士后科學(xué)基金資助項(xiàng)目(2013M532048)。
時(shí)間:2015-11-27
10.7652/xjtuxb201602003
TP391.4
A
0253-987X(2016)02-0013-07
網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20151127.2115.002.html