国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類融合的不平衡數(shù)據(jù)分類方法

2015-12-02 03:01:00祿鎧銑
關(guān)鍵詞:識(shí)別率聚類數(shù)量

祿鎧銑

(澳門大學(xué))

0 引言

不平衡數(shù)據(jù)集的特征就是在數(shù)據(jù)集里有一種樣本的數(shù)量大大小于其他的樣本數(shù)量.對(duì)于不平衡數(shù)據(jù)級(jí)來(lái)說(shuō),使用比較傳統(tǒng)的分類手段對(duì)其進(jìn)行分類的話,其結(jié)果會(huì)十分的傾向多數(shù)類,一般來(lái)說(shuō),人們極為重視少數(shù)類,如果少數(shù)類被錯(cuò)分,那么付出的代價(jià)十分的大,假如將入侵?jǐn)?shù)據(jù)看作是正常數(shù)據(jù)來(lái)對(duì)待,有極大幾率會(huì)導(dǎo)致不必要的損失.

在數(shù)據(jù)挖掘與模式識(shí)別等等行業(yè)越來(lái)越喜歡用聚類算法了.如今聚類算法有很多種,可是,幾乎所有的聚類算法都有明顯的缺陷.因此,該文使用聚類融合技術(shù),用來(lái)讓算法更加穩(wěn)定.

1 基于聚類融合的不平衡數(shù)據(jù)分類方法

1.1 聚類融合

最近幾年內(nèi),融合方法大量應(yīng)用在分類和回歸中,而且已經(jīng)進(jìn)入到了聚類行業(yè)中.Fred A L參考傳感器融合與分類器融合的成功經(jīng)驗(yàn),發(fā)現(xiàn)了新的方法.它的詳細(xì)定義就是:把一組數(shù)據(jù)進(jìn)行聚類的不一樣的結(jié)果相互融合,而不會(huì)使用該數(shù)據(jù)原來(lái)的自身特點(diǎn).

主要在兩個(gè)方面進(jìn)行探究:(1)怎樣生成有效果的聚類成員;(2)怎么對(duì)共識(shí)函數(shù)進(jìn)行設(shè)計(jì),讓聚類成員能夠合并到一起.具體就是聚類成員之間的區(qū)別,究竟對(duì)聚類融合結(jié)果有何影響,是否會(huì)影響聚類融合的穩(wěn)定.聚類融合重點(diǎn):

如果有包括n個(gè)對(duì)象的數(shù)據(jù)集X={x1,x2,…,xn},使用h次聚類的算法讓X數(shù)據(jù)集能夠得到 h 個(gè)結(jié)果,H={C1,C2,…,Ch},當(dāng)中 Ck(k=1,2,…,h)為了可以得出聚類結(jié)果重點(diǎn)在于對(duì)第k次算法.將h個(gè)聚類成員的不同的聚類結(jié)果加在一起,然后利用比較專業(yè)的共識(shí)函數(shù),得出有關(guān)結(jié)果.

相比于單一算法,聚類融合算法可以得到更好地結(jié)果.

(1)魯棒性:不論是何種領(lǐng)域與數(shù)據(jù)集,這種方法的平均性能無(wú)疑是最強(qiáng)的.

(2)適用性:聚類結(jié)果是一般是單一聚類方法不能比擬的.

(3)穩(wěn)定性與確定性評(píng)價(jià):聚類結(jié)果有一定的不確定性,可以從融合布局方面來(lái)進(jìn)行評(píng)估噪聲、孤立點(diǎn)與抽樣,這對(duì)于聚類結(jié)果來(lái)說(shuō),沒(méi)有多大的影響.

(4)并行與可擴(kuò)展性:可以讓數(shù)據(jù)子集并行合并或者是并行聚類,還可以合并分布式的數(shù)據(jù)源聚類結(jié)果或者是數(shù)據(jù)屬性的聚類結(jié)果.

1.2 不平衡數(shù)據(jù)分類方法

機(jī)器學(xué)習(xí)行業(yè)的重點(diǎn)探究對(duì)象就是分類問(wèn)題,部分分類方法都日漸成熟,用這些分類方法來(lái)對(duì)平衡數(shù)據(jù)進(jìn)行分類,肯定可以有不錯(cuò)的效果.但是,很多行業(yè)里還是有很多不均衡數(shù)據(jù)及存在的.以往傳統(tǒng)分類方法似乎偏向于對(duì)多數(shù)類有比較高的識(shí)別率,少數(shù)類識(shí)別率則相對(duì)比較低.所以,對(duì)不均衡數(shù)據(jù)集有關(guān)分類問(wèn)題的探究,必須要找到一些新的手段與辨別準(zhǔn)則.

不平衡數(shù)據(jù)的分類大致可以分為兩種:以數(shù)據(jù)層面作為基礎(chǔ)與將算法層面作為基礎(chǔ)的方法.

1.2.1 數(shù)據(jù)層面的處理方法

數(shù)據(jù)層面的處理方法就是將數(shù)據(jù)進(jìn)行重抽樣,包括兩種處理辦法,分別是過(guò)抽樣和欠抽樣.

一致子集(consistent subset).

編輯技術(shù)(常用的是W ilson.s editing)

以及單邊選擇(one-sided selection)等[1-2].

以上技術(shù)最重要的是啟發(fā)性的使用(加權(quán))歐氏距離和K-近鄰規(guī)則去辨別能夠科學(xué)刪除的樣本.Barandela 等人[3]和 Batista 等人[4]都對(duì)以上多種欠抽樣方法進(jìn)行了細(xì)致的試驗(yàn)與深入的探究.Dehmeshki等人[5]發(fā)現(xiàn)了以規(guī)則作為基礎(chǔ)的數(shù)據(jù)過(guò)濾技術(shù),實(shí)際上也屬于欠抽樣方法.

和欠抽樣對(duì)立,過(guò)抽樣技術(shù)是想方設(shè)法的來(lái)讓少數(shù)類的學(xué)習(xí)樣本增多.最具代表的就是Chawla等人[6]發(fā)明的SMOTE 技術(shù).SMOTE 技術(shù)理論就是利用插值產(chǎn)生全新人工樣本,并不是對(duì)樣本進(jìn)行復(fù)制.Han等人[7]以此作為參考,發(fā)明了Borderline-SMOTE技術(shù).

1.2.2 算法層面的處理方法

根據(jù)有關(guān)記載,我們得知,如今重點(diǎn)集中在四個(gè)不一樣的方法,包括代價(jià)敏感與單類學(xué)習(xí)、組合方法和支持向量機(jī)方法.

1.3 算法描述

所提出分類算法是將聚類融合的不平衡數(shù)據(jù)作為基礎(chǔ),就是 CE-Under,CE-SMOTE與CE-SMOTE+CE-Under方法.

2 實(shí)驗(yàn)與分析

2.1不平衡數(shù)據(jù)分類的評(píng)價(jià)準(zhǔn)則

精準(zhǔn)度accuracy=(TP+TN)/(TP+TN+FP+FN)是分類問(wèn)題里經(jīng)常使用的評(píng)估標(biāo)準(zhǔn)(見(jiàn)表1).

表1 混合矩陣

從上可以得知分類器在數(shù)據(jù)集的整體分類方面的作用,可是不會(huì)發(fā)擰出不平衡數(shù)據(jù)集的分類作用.因此,在不平衡數(shù)據(jù)方面,必須要制定更為科學(xué)的評(píng)判標(biāo)準(zhǔn),經(jīng)常使用的標(biāo)準(zhǔn)包括:查全率 recall、F-value 值、查準(zhǔn)率 precision、G-mean值、AUC.屬于少數(shù)類 recall、precision、G-mean、F-value值的計(jì)算手段如下:

F-value可以說(shuō)是不平衡數(shù)據(jù)集學(xué)習(xí)里比較有效地評(píng)判標(biāo)準(zhǔn),它將Recall與Precision相互組合,當(dāng)中β是可調(diào)參數(shù),一般取值為1.只有在Recall與Precision的值比較大的時(shí)候,F(xiàn)-value才會(huì)更大,所以它可以準(zhǔn)確的反映出少數(shù)類的分類作用.另外,G-mean也如F-value一樣,是比較有效的評(píng)判標(biāo)準(zhǔn),它是少數(shù)類里TP/(TP+FN)和多數(shù)類里TN/(TN+FP)的乘積的平方根,當(dāng)這兩者的值都比較大的時(shí)候,G-mean才會(huì)變得更大,所以G-mean可以科學(xué)的評(píng)判不平衡數(shù)據(jù)集的整體分類作用.

2.2 實(shí)驗(yàn)結(jié)果與分析

在該文里,選擇十個(gè)少數(shù)類與多數(shù)類樣本比例不均衡的UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集做實(shí)驗(yàn),每個(gè)數(shù)據(jù)集的基本信息見(jiàn)表2.在表2里,N是樣本的數(shù)量總和,NMIN是少數(shù)類樣本的數(shù)量,NMAJ為多數(shù)類樣本的數(shù)量,CD是少數(shù)類與多數(shù)類的樣本比例,NA為屬性數(shù)量(包括類別屬性).

表2 數(shù)據(jù)集的基本信息

在試驗(yàn)里,與C4.5決策樹算法(直接對(duì)原數(shù)據(jù)集進(jìn)行分類學(xué)習(xí))和七類不均衡數(shù)據(jù)分類方法的作用作比較.上文所述不平衡數(shù)據(jù)分類方法全部利用C4.5決策樹算法,分類學(xué)習(xí)重抽樣后的數(shù)據(jù)集.

為了能夠讓上述的不均衡數(shù)據(jù)分類方法的比較更具客觀性,下面全部的實(shí)驗(yàn)數(shù)據(jù)都是10折交叉驗(yàn)證之后得出的結(jié)論.

使用weka軟件里的Simple Means聚類算法來(lái)多次聚類數(shù)據(jù).對(duì)一致性系數(shù)CI閾值α進(jìn)行聚類,之后取全部樣本的平均數(shù)值.依據(jù)過(guò)抽樣率與欠抽樣率的概念我們可以知道,SMOTE方法產(chǎn)生的合成樣本數(shù)量和原有少數(shù)類樣本數(shù)量一模一樣,就是全部少數(shù)類樣本數(shù)量多出了一倍,而Random Under方法剔除的多數(shù)類樣本數(shù)量則是原有多數(shù)類樣本的一半.為了能夠?qū)⑦^(guò)抽樣與欠抽樣后的數(shù)據(jù)集作比較,該論文對(duì)不平衡程度指標(biāo)I-degree做出定義,它的數(shù)值就是數(shù)據(jù)集里少數(shù)類與多數(shù)類樣本的比值,I-degree的值越高代表著數(shù)據(jù)集里少數(shù)類樣本數(shù)量越大,多數(shù)類樣本的數(shù)量越少.當(dāng)I-degree值幾乎等于1的時(shí)候,代表著數(shù)據(jù)集里面的多數(shù)類與少數(shù)類的樣本數(shù)量比較均衡.圖1顯示十個(gè)UCI的初始數(shù)據(jù)集OldDataSet和使用CE-SMOTE+CEUnder,CE-SMOTE與CE-Under方法進(jìn)行重抽樣之后數(shù)據(jù)集的I-degree值,而且每種I-degree值全部經(jīng)過(guò)10折交叉驗(yàn)證之后得出的結(jié)論.從圖1我們可以知道,該論文所提出的CESMOTE+CE-Under、CE-SMOTE 與 CE-Under方法都能夠讓數(shù)據(jù)集不平衡的程度有所降低.因?yàn)镃E-SMOTE+CE-Under方法可以對(duì)少數(shù)類與多數(shù)類同時(shí)做處理,所以進(jìn)行重抽樣之后數(shù)據(jù)集I-degree值是最高的,而CE-SMOTE方法的I-degree值稍微高于CE-Un-der方法的I-degree值.

圖1 10個(gè)數(shù)據(jù)集的I-degree值

表3 8種方法在10個(gè)UCI數(shù)據(jù)集的少數(shù)類F-value值對(duì)比

表4 8種方法的G-mean值對(duì)比

表3與表4分別列舉了8種方法在十個(gè)UCI數(shù)據(jù)集上的少數(shù)類F-value值與數(shù)據(jù)集總體的G-mean值.而表中最底部的一行則列舉出了每一個(gè)方法在全部數(shù)據(jù)集里的平均結(jié)果.對(duì)于每一個(gè)數(shù)據(jù)集來(lái)說(shuō),分別得來(lái)對(duì)結(jié)合法、過(guò)抽樣法與欠抽樣法里每一種方法的F-value與G-mean值做對(duì)比,同時(shí)用黑體字來(lái)代表這三種方法里最高的F-value與G-mean值.

從表3與表4當(dāng)中可以知道,上文提到的七類不平衡數(shù)據(jù)分類方法的少數(shù)類F-value值與數(shù)據(jù)集總體的G-mean值比原始數(shù)據(jù)集進(jìn)行分類的C4.5算法都要高..

三種方法經(jīng)過(guò)橫向?qū)Ρ瓤梢缘贸鋈缦陆Y(jié)果,結(jié)合法里面的CE-SMOTE+CE-Under方法很顯然要比SMOTE+RandomUnder方法更加優(yōu)秀,而欠抽樣法里面的CE-Under方法一般來(lái)說(shuō)要比Random Under方法更具優(yōu)勢(shì).把三種方法進(jìn)行縱向?qū)Ρ龋覀兊贸龅慕Y(jié)論是,過(guò)抽樣法與結(jié)合法作比較,欠抽樣法則更具優(yōu)勢(shì),同時(shí)結(jié)合法與過(guò)抽樣法的少數(shù)類F-value值與G-mean值相對(duì)比較大,綜上所述,上文提出的這些方法都是極為優(yōu)秀的方法.

總之,該論文提到的有關(guān)基于聚類融合的不平衡數(shù)據(jù)分類方法的識(shí)別率相對(duì)較高,特別是對(duì)于部分少數(shù)類和部分?jǐn)?shù)據(jù)集總體也有著不錯(cuò)的識(shí)別率.通過(guò)一系列的實(shí)驗(yàn),并且對(duì)比各個(gè)實(shí)驗(yàn)數(shù)據(jù),我們可以得出以下的結(jié)論,CE-SMOTE+CE-Under方法與CE-SMOTE方法對(duì)不平衡數(shù)據(jù)集的分類作用比較強(qiáng),CE-Under方法則相對(duì)較弱,但是它的對(duì)比算法與其他的算法相比更具優(yōu)勢(shì),這類方法的優(yōu)勢(shì)還是比較多的,不論在不一樣的過(guò)抽樣率、還是不一樣的欠抽樣率下乃至是聚類次數(shù)下,這種方法的少數(shù)類F-value值總是十分的穩(wěn)定.綜上所述,筆者提出的有關(guān)基于聚類融合的不平衡數(shù)據(jù)分類方法在不同條件下都可以良好降低數(shù)據(jù)集的不平衡程度,同理,在數(shù)據(jù)集整體G-mean值不下調(diào)的情況下,可以讓少數(shù)類的F-value值有所提升,這對(duì)多數(shù)類和少數(shù)類的均值都有不錯(cuò)的識(shí)別率.

[1] Batista G E A P A,Pratir C,MONARDM C.A study of the behavior of several methods for balancing machine learning training data[J].Slgkdd Explorations,2004,6(1):20-29.

[2] KuBatm,Matwin S.Addressing the curse of imbalanced training sets:one-sided selection[C]//Proc of 14th International Conference on Machine Learning(ICML.97).Nashville:[s.n.],1997.179-186.

[3] Barandela R,Valdovindos R M,Snchez J S,et al.The imbalanced training sample problem:under or over sampling[C]//Proc of International Workshops on Structura,l Syntactic,and Statisti cal Pattern ecognition(SSPR/SPR.04).Lisbon:[s.n.],2004,806-814.

[4] Batista G E A P A,Pratir C,Monardm C.A study of the behavior of several methods for balancing machine learning training data[J].S IGKDD Explorations,2004,6(1):20-29.

[5] Dehmeshki J,Karak Y M,Casique M V.A rule-based scheme for filtering examples from majority class in an imbalanced training set[C] //Proc of MLDM,2003.215-223.

[6] Chawlanv,Halllo,Bowyer K W,et al.Smote:synthetic minority over sampling technique[J].Journal of Articial Intelligence Research,2002,16:321-357.

[7] Han H,Wang Wenyuan,Mao Binghuan.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C] //Proc of International Conference on Intelligent Computing(ICIC.05).Hefe:i[s.n.],2005.878-887.

猜你喜歡
識(shí)別率聚類數(shù)量
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
統(tǒng)一數(shù)量再比較
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
基于DBSACN聚類算法的XML文檔聚類
高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
頭發(fā)的數(shù)量
基于改進(jìn)的遺傳算法的模糊聚類算法
我國(guó)博物館數(shù)量達(dá)4510家
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
保亭| 武鸣县| 布尔津县| 吉木萨尔县| 镇原县| 舞阳县| 卢湾区| 东乡族自治县| 邵东县| 吴忠市| 饶河县| 娄底市| 叙永县| 绥江县| 高雄县| 阳曲县| 孟连| 大化| 镇巴县| 江孜县| 从江县| 济源市| 晋中市| 申扎县| 武平县| 景东| 将乐县| 丹巴县| 呼伦贝尔市| 昭觉县| 沽源县| 鱼台县| 久治县| 缙云县| 鄂州市| 祥云县| 怀安县| 河曲县| 汉中市| 定安县| 北安市|