一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法

2015-02-11 02:30:59何華平陳光建

鄭州大學(xué)學(xué)報(bào)(理學(xué)版) 2015年1期

關(guān)鍵詞：約簡(jiǎn)代價(jià)增益

何華平，陳光建

(四川理工學(xué)院計(jì)算機(jī)學(xué)院四川自貢 643000)

一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法

何華平，陳光建

(四川理工學(xué)院計(jì)算機(jī)學(xué)院四川自貢 643000)

傳統(tǒng)屬性約簡(jiǎn)的目標(biāo)是在決策表中的所有條件屬性中，選擇一組分類代價(jià)最小的約簡(jiǎn)，算法構(gòu)建了測(cè)試代價(jià)最小的約簡(jiǎn).以往的測(cè)試代價(jià)約簡(jiǎn)算法查找成功率不夠理想，性能不穩(wěn)定，提出了一種改進(jìn)的測(cè)試代價(jià)約簡(jiǎn)算法.通過運(yùn)行2個(gè)UCI數(shù)據(jù)集實(shí)驗(yàn)，證明算法是有效的，并為提高測(cè)試代價(jià)約簡(jiǎn)算法性能提供了新途徑.

代價(jià)敏感學(xué)習(xí)；屬性約簡(jiǎn)；最小測(cè)試代價(jià)

0 引言

在數(shù)據(jù)挖掘中，要?jiǎng)h除冗余數(shù)據(jù)是十分困難的，屬性約簡(jiǎn)是目前最廣泛采用的方法之一[1-3].以前的一些約簡(jiǎn)算法在大多數(shù)情況下是可以找到最小約簡(jiǎn)的，但性能和穩(wěn)定性不夠好[4].文[5]解釋了測(cè)試代價(jià)敏感約簡(jiǎn)，定義并實(shí)現(xiàn)了該算法.測(cè)試代價(jià)敏感約簡(jiǎn)算法與傳統(tǒng)約簡(jiǎn)算法相比具有更強(qiáng)的通用性，該算法關(guān)心測(cè)試代價(jià)，而不再像傳統(tǒng)算法只關(guān)注分類的精度.測(cè)試代價(jià)在很多應(yīng)用場(chǎng)合是很重要的，不同的約簡(jiǎn)產(chǎn)生相同的分類精度，而測(cè)試代價(jià)各不相同.文[6]提出了算法框架用于解決該問題.測(cè)試代價(jià)敏感約簡(jiǎn)算法的性能總是不能令人滿意.本文提出了一種算法：首先利用條件信息熵找出核，再把除核之外的屬性添加到核集中，形成(N-L)個(gè)集合(N代表決策屬性數(shù)，L代表決策屬性中除核之外的屬性數(shù))，然后對(duì)每個(gè)集合使用文[6]的框架算法求最小代價(jià)約簡(jiǎn)，最后把(N-L)個(gè)可能的最小代價(jià)約簡(jiǎn)進(jìn)行比較，找出測(cè)試代價(jià)最小的約簡(jiǎn)作為本次約簡(jiǎn)的結(jié)果.通過2個(gè)UCI數(shù)據(jù)集實(shí)驗(yàn)，把改進(jìn)的算法和文[6]的算法進(jìn)行比較，結(jié)果表明不管是在查找成功率、最大超出率和平均超出率上均有大幅的提高，穩(wěn)定性大大增強(qiáng).

1 問題定義

1.1 測(cè)試代價(jià)獨(dú)立決策系統(tǒng)

文[7]定義了一個(gè)測(cè)試代價(jià)獨(dú)立決策系統(tǒng)(TCI-DS)S，它是一個(gè)6元組，

(1)

其中，U是一個(gè)有窮對(duì)象集，稱為域，C是條件屬性集合，D是決策屬性集合，Va是a∈C∪D的所有值的集合，Ia：U→Va，a∈C∪D的一個(gè)信息功能，c：C→R+∪ {0}是測(cè)試代價(jià)功能.

任何的φ?A?C，可以使用公式

(2)

式(2)表明所有屬性測(cè)試代價(jià)之間是相互獨(dú)立的.例如，如果醫(yī)生給病人做測(cè)體溫和量血壓兩項(xiàng)測(cè)試，假設(shè)測(cè)試代價(jià)相應(yīng)為5.00元和10.00元，那么總的測(cè)試代價(jià)為5.00+10.00=15.00元.

1.2 最小測(cè)試代價(jià)約簡(jiǎn)

本文只考慮最基本的概念,例如基于正區(qū)域的約簡(jiǎn)算法[8].為了提出定義，需要明白粗糙集理論的一些基本概念.任何的φ≠B?C∪D決定了在域U上的一個(gè)關(guān)系I(B).一個(gè)被B決定的分割記為U/I(B)，或者簡(jiǎn)寫為U/B.把B(X)記為X的下近似，則把B?C，D的正區(qū)域定義為：POSB(D) = ∪X∈U/DB(X).

定義1任何B?C是S的一個(gè)決策關(guān)系約簡(jiǎn)，當(dāng)且僅當(dāng)：

1)POSB(D)=POSC(D)；

2) ?a∈B,POSB{a}(D)?POSC(D).

定義1的條件表明，該約簡(jiǎn)是充分的，必須維持決策系統(tǒng)的特有特性[5].S上所有可能的約簡(jiǎn)記為Red(S).約簡(jiǎn)的核是所有約簡(jiǎn)的共有屬性集合，即Core(S)=∩Red(S)[8].

2 算法描述

文[6]提出了一種通用的測(cè)試代價(jià)感知約簡(jiǎn)算法代碼框架，該算法主要分為3個(gè)主要步驟：1)通過計(jì)算各條件信息熵的辦法，找出約簡(jiǎn)的核；2)以核為基礎(chǔ)再把其余的屬性添加進(jìn)去，計(jì)算各屬性的加權(quán)信息增益，把最大的添加進(jìn)去，直到POSB(D) ≠POSC(D)；3)把冗余的屬性去掉，剩下的就是此次查找成功的最小代價(jià)約簡(jiǎn).該算發(fā)是啟發(fā)式算法，查找到的約簡(jiǎn)可能是最終最小代價(jià)約簡(jiǎn)，也可能失敗.通過分析文[8]中的實(shí)例，發(fā)現(xiàn)：第1)步驟都是成功的，第3)步驟總是能剔出候選約簡(jiǎn)中的冗余屬性，查找失敗總是發(fā)生在第2)步驟.在通過加權(quán)的信息增益添加屬性到候選約簡(jiǎn)中，算法基于這樣一種假設(shè)：前一輪添加的是信息增益大屬性，那么后面一定添加信息增益大的屬性，則一定得到的約簡(jiǎn)是最小代價(jià)約簡(jiǎn).當(dāng)所有屬性測(cè)試代價(jià)相等時(shí)，這種假設(shè)是成立的，但測(cè)試代價(jià)是隨機(jī)產(chǎn)生的，它的大小影響了屬性代價(jià)函數(shù)，使前面的假設(shè)不成立，所以可能產(chǎn)生失敗.

基于前面的分析，本文把算法框架的第2)步驟，即在核上直接開始執(zhí)行根據(jù)信息增益的約簡(jiǎn)，直到該約簡(jiǎn)具有原決策系統(tǒng)的完備性，修改為在核上直接添加一個(gè)其余的非核屬性，得到多個(gè)集合.例如：有8個(gè)決策屬性{a,b,c,d,e,f,g,h}，其中核屬性有2個(gè)Core={a,c},則可以得到{a,b,c},{a,c,d},{a,c,e},{a,c,f},{a,c,g},{a,c,h}.然后分別基于每個(gè)集合進(jìn)行約簡(jiǎn)及去冗余屬性，再分別計(jì)算最小代價(jià).最后再選擇代價(jià)最小的作為最終的結(jié)果.

定義3Ri=Core∪ {ai},ai∈C,i=1,2,…，N-L.Ri為核屬性再增加一個(gè)非核屬性的關(guān)系，i為關(guān)系編號(hào).

定義4Reducti=Reduction(Ri),i=1,2,…,N-L.Reducti為定義3中的用文[5]算法查找到的最小代價(jià)約簡(jiǎn)關(guān)系Ri.

定義5Mj=Reductj,j=minimal(c(Reducti)),i=1,2,…,N-L；c為式(2)定義的函數(shù)，Mj就是本文改進(jìn)算法所得到的最小代價(jià)約簡(jiǎn).算法的描述如下：

Output:Areductwithsub-minimaltest-cost

Method:tcs-reduction

1:B0←?

3:if(POSC→{ai}(D)≠POSC(D))then

4:B0←B0∪{ai}//aiisacoreattribute

5:endif

6:endfor

8:Bj=B0∪{ak}//ak?B0,andak∈C

9:while(POSBj(D) ≠POSC(D))do

10:a=anelementof(C-Bj)suchthatf(B,a,c,gc)ismaximal

11:Bj=Bj∪{a}

12:endwhile

14:if(ai∈Bj&&POSBj-{ai}(D)=POSBj(D))then

15:Bj=Bj- {ai}//removeredundantattributes

16:endif

17:endfor

18:endfor

20:returnB0.

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

表1 屬性集信息Tab.1 Information about attribute set

3.2 測(cè)試代價(jià)的設(shè)定和結(jié)果評(píng)價(jià)

本文把各屬性的測(cè)試代價(jià)的值限定在[1, 100]范圍的整數(shù)，通過一個(gè)隨機(jī)發(fā)生器產(chǎn)生并把它們送給各屬性作為測(cè)試代價(jià).

圖1 查找成功率(FOF)

圖2 最大超出率(AEF)

圖3 平均超出率(AEF)

4 結(jié)論

本文提出了一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法.實(shí)驗(yàn)結(jié)果表明，它比原算法有更高的性能和穩(wěn)定性.從2個(gè)UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明，該改進(jìn)算法具有更高的查找成功率，最大超出率和平均超出率均低于原算法.實(shí)驗(yàn)結(jié)果表明，實(shí)驗(yàn)數(shù)據(jù)的曲線更加平滑，算法的性能更加穩(wěn)定.實(shí)際應(yīng)用過程中可以進(jìn)行多級(jí)構(gòu)建來進(jìn)一步提高性能，但同時(shí)算法的時(shí)間復(fù)雜度會(huì)大量增加，在構(gòu)建算法過程中可以采用折中的辦法來解決.

[1] 毛華，趙小娜，史田敏，等．多部圖的最大匹配算法[J]．鄭州大學(xué)學(xué)報(bào)：理學(xué)版，2013，45(1)：27-29．

[2] 王瑜．NMF方法在遮擋人耳識(shí)別中的應(yīng)用[J]．鄭州大學(xué)學(xué)報(bào)：理學(xué)版，2013，45(1)：61-64．

[3] 王長(zhǎng)明，聶建軍．基于遺傳算法的二次曲面提取技術(shù)研究[J]．鄭州大學(xué)學(xué)報(bào)：理學(xué)版，2013，45(1)：65-68．

[4] 申雪芬，謝珺，劉海峰，等．一種改進(jìn)的基于相對(duì)正域的增量式屬性約簡(jiǎn)算法[J]．廣西師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2013，31(3)：45-49．

[5] Yao J T, Yao Y Y.Information granulation for web based information retrieval support systems[C]// Proceedings of SPIE.Florida，2003:138-146.

[6] Min F，Liu Q. A hierarchical model for test-cost-sensitive decision systems[J]. Information Sciences, 2009, 179(14): 2442-2452.

[7] Pawlak Z. Rough sets[J].International Journal of Computer and Information Sciences, 1982, 11(2):341-356.

[8] 許長(zhǎng)志，閔帆.帶權(quán)約簡(jiǎn)及其在漢語詞性標(biāo)注自動(dòng)校對(duì)中的應(yīng)用[J].控制與決策，2007, 22(7): 740-744.

An Improved Algorithm of Minimal Test-cost Attributes Reduction in Decision Systems

HE Hua-ping, CHEN Guang-jian

(DepartmentofComputerScience,SichuanUniversityofScience&Engineering,Zigong643000,China)

The traditional attribute reduction problem was aimed at constructing a minimal reduct. As later on, it aimed at constructing a minimal test-cost reduct under the model. The current test-cost reduction algorithm could not ensure a satisfactory performance. And an enhanced algorithm was designed for better performance.The experimental results in two UCI datasets showed that this algorithm was efficient and effective. This algorithm was a new way to improve the performance.

cost-sensitive learning; attribute reduction; minimal test-cost

2014-09-06

國(guó)家自然科學(xué)基金資助項(xiàng)目，編號(hào)60873077;企業(yè)信息化與物聯(lián)網(wǎng)測(cè)控技術(shù)四川省高校重點(diǎn)實(shí)驗(yàn)室項(xiàng)目，編號(hào)2013WZY02;四川理工學(xué)院培育項(xiàng)目，編號(hào)2013PY06;四川省教育廳科研項(xiàng)目，編號(hào)12ZB083.

何華平(1976-)，男，四川自貢人，副教授，主要從事代價(jià)敏感學(xué)習(xí)研究，E-mail:hehuaping_001@163.com.

TP181

1671-6841(2015)01-0074-04

10.3969/j.issn.1671-6841.2015.01.016

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法

0 引言

1 問題定義

2 算法描述

3 實(shí)驗(yàn)

4 結(jié)論