国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法

2015-02-11 02:30:59何華平陳光建
關(guān)鍵詞:約簡(jiǎn)代價(jià)增益

何華平, 陳光建

(四川理工學(xué)院 計(jì)算機(jī)學(xué)院 四川 自貢 643000)

?

一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法

何華平, 陳光建

(四川理工學(xué)院 計(jì)算機(jī)學(xué)院 四川 自貢 643000)

傳統(tǒng)屬性約簡(jiǎn)的目標(biāo)是在決策表中的所有條件屬性中,選擇一組分類代價(jià)最小的約簡(jiǎn),算法構(gòu)建了測(cè)試代價(jià)最小的約簡(jiǎn).以往的測(cè)試代價(jià)約簡(jiǎn)算法查找成功率不夠理想,性能不穩(wěn)定,提出了一種改進(jìn)的測(cè)試代價(jià)約簡(jiǎn)算法.通過運(yùn)行2個(gè)UCI數(shù)據(jù)集實(shí)驗(yàn),證明算法是有效的,并為提高測(cè)試代價(jià)約簡(jiǎn)算法性能提供了新途徑.

代價(jià)敏感學(xué)習(xí); 屬性約簡(jiǎn); 最小測(cè)試代價(jià)

0 引言

在數(shù)據(jù)挖掘中,要?jiǎng)h除冗余數(shù)據(jù)是十分困難的,屬性約簡(jiǎn)是目前最廣泛采用的方法之一[1-3].以前的一些約簡(jiǎn)算法在大多數(shù)情況下是可以找到最小約簡(jiǎn)的,但性能和穩(wěn)定性不夠好[4].文[5]解釋了測(cè)試代價(jià)敏感約簡(jiǎn),定義并實(shí)現(xiàn)了該算法.測(cè)試代價(jià)敏感約簡(jiǎn)算法與傳統(tǒng)約簡(jiǎn)算法相比具有更強(qiáng)的通用性,該算法關(guān)心測(cè)試代價(jià),而不再像傳統(tǒng)算法只關(guān)注分類的精度.測(cè)試代價(jià)在很多應(yīng)用場(chǎng)合是很重要的,不同的約簡(jiǎn)產(chǎn)生相同的分類精度,而測(cè)試代價(jià)各不相同.文[6]提出了算法框架用于解決該問題.測(cè)試代價(jià)敏感約簡(jiǎn)算法的性能總是不能令人滿意.本文提出了一種算法:首先利用條件信息熵找出核,再把除核之外的屬性添加到核集中,形成(N-L)個(gè)集合(N代表決策屬性數(shù),L代表決策屬性中除核之外的屬性數(shù)),然后對(duì)每個(gè)集合使用文[6]的框架算法求最小代價(jià)約簡(jiǎn),最后把(N-L)個(gè)可能的最小代價(jià)約簡(jiǎn)進(jìn)行比較,找出測(cè)試代價(jià)最小的約簡(jiǎn)作為本次約簡(jiǎn)的結(jié)果.通過2個(gè)UCI數(shù)據(jù)集實(shí)驗(yàn),把改進(jìn)的算法和文[6]的算法進(jìn)行比較,結(jié)果表明不管是在查找成功率、最大超出率和平均超出率上均有大幅的提高,穩(wěn)定性大大增強(qiáng).

1 問題定義

1.1 測(cè)試代價(jià)獨(dú)立決策系統(tǒng)

文[7]定義了一個(gè)測(cè)試代價(jià)獨(dú)立決策系統(tǒng)(TCI-DS)S,它是一個(gè)6元組,

(1)

其中,U是一個(gè)有窮對(duì)象集,稱為域,C是條件屬性集合,D是決策屬性集合,Va是a∈C∪D的所有值的集合,Ia:U→Va,a∈C∪D的一個(gè)信息功能,c:C→R+∪ {0}是測(cè)試代價(jià)功能.

任何的φ?A?C,可以使用公式

(2)

式(2)表明所有屬性測(cè)試代價(jià)之間是相互獨(dú)立的.例如,如果醫(yī)生給病人做測(cè)體溫和量血壓兩項(xiàng)測(cè)試,假設(shè)測(cè)試代價(jià)相應(yīng)為5.00元和10.00元,那么總的測(cè)試代價(jià)為5.00+10.00=15.00元.

1.2 最小測(cè)試代價(jià)約簡(jiǎn)

本文只考慮最基本的概念,例如基于正區(qū)域的約簡(jiǎn)算法[8].為了提出定義,需要明白粗糙集理論的一些基本概念.任何的φ≠B?C∪D決定了在域U上的一個(gè)關(guān)系I(B).一個(gè)被B決定的分割記為U/I(B),或者簡(jiǎn)寫為U/B.把B(X)記為X的下近似,則把B?C,D的正區(qū)域定義為:POSB(D) = ∪X∈U/DB(X).

定義1任何B?C是S的一個(gè)決策關(guān)系約簡(jiǎn),當(dāng)且僅當(dāng):

1)POSB(D)=POSC(D);

2) ?a∈B,POSB{a}(D)?POSC(D).

定義1的條件表明,該約簡(jiǎn)是充分的,必須維持決策系統(tǒng)的特有特性[5].S上所有可能的約簡(jiǎn)記為Red(S).約簡(jiǎn)的核是所有約簡(jiǎn)的共有屬性集合,即Core(S)=∩Red(S)[8].

2 算法描述

文[6]提出了一種通用的測(cè)試代價(jià)感知約簡(jiǎn)算法代碼框架,該算法主要分為3個(gè)主要步驟:1)通過計(jì)算各條件信息熵的辦法,找出約簡(jiǎn)的核;2)以核為基礎(chǔ)再把其余的屬性添加進(jìn)去,計(jì)算各屬性的加權(quán)信息增益,把最大的添加進(jìn)去,直到POSB(D) ≠POSC(D);3)把冗余的屬性去掉,剩下的就是此次查找成功的最小代價(jià)約簡(jiǎn).該算發(fā)是啟發(fā)式算法,查找到的約簡(jiǎn)可能是最終最小代價(jià)約簡(jiǎn),也可能失敗.通過分析文[8]中的實(shí)例,發(fā)現(xiàn):第1)步驟都是成功的,第3)步驟總是能剔出候選約簡(jiǎn)中的冗余屬性,查找失敗總是發(fā)生在第2)步驟.在通過加權(quán)的信息增益添加屬性到候選約簡(jiǎn)中,算法基于這樣一種假設(shè):前一輪添加的是信息增益大屬性,那么后面一定添加信息增益大的屬性,則一定得到的約簡(jiǎn)是最小代價(jià)約簡(jiǎn).當(dāng)所有屬性測(cè)試代價(jià)相等時(shí),這種假設(shè)是成立的,但測(cè)試代價(jià)是隨機(jī)產(chǎn)生的,它的大小影響了屬性代價(jià)函數(shù),使前面的假設(shè)不成立,所以可能產(chǎn)生失敗.

基于前面的分析,本文把算法框架的第2)步驟,即在核上直接開始執(zhí)行根據(jù)信息增益的約簡(jiǎn),直到該約簡(jiǎn)具有原決策系統(tǒng)的完備性,修改為在核上直接添加一個(gè)其余的非核屬性,得到多個(gè)集合.例如:有8個(gè)決策屬性{a,b,c,d,e,f,g,h},其中核屬性有2個(gè)Core={a,c},則可以得到{a,b,c},{a,c,d},{a,c,e},{a,c,f},{a,c,g},{a,c,h}.然后分別基于每個(gè)集合進(jìn)行約簡(jiǎn)及去冗余屬性,再分別計(jì)算最小代價(jià).最后再選擇代價(jià)最小的作為最終的結(jié)果.

定義3Ri=Core∪ {ai},ai∈C,i=1,2,…,N-L.Ri為核屬性再增加一個(gè)非核屬性的關(guān)系,i為關(guān)系編號(hào).

定義4Reducti=Reduction(Ri),i=1,2,…,N-L.Reducti為定義3中的用文[5]算法查找到的最小代價(jià)約簡(jiǎn)關(guān)系Ri.

定義5Mj=Reductj,j=minimal(c(Reducti)),i=1,2,…,N-L;c為式(2)定義的函數(shù),Mj就是本文改進(jìn)算法所得到的最小代價(jià)約簡(jiǎn).算法的描述如下:

Output:Areductwithsub-minimaltest-cost

Method:tcs-reduction

1:B0←?

3:if(POSC→{ai}(D)≠POSC(D))then

4:B0←B0∪{ai}//aiisacoreattribute

5:endif

6:endfor

8:Bj=B0∪{ak}//ak?B0,andak∈C

9:while(POSBj(D) ≠POSC(D))do

10:a=anelementof(C-Bj)suchthatf(B,a,c,gc)ismaximal

11:Bj=Bj∪{a}

12:endwhile

14:if(ai∈Bj&&POSBj-{ai}(D)=POSBj(D))then

15:Bj=Bj- {ai}//removeredundantattributes

16:endif

17:endfor

18:endfor

20:returnB0.

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

表1 屬性集信息Tab.1 Information about attribute set

3.2 測(cè)試代價(jià)的設(shè)定和結(jié)果評(píng)價(jià)

本文把各屬性的測(cè)試代價(jià)的值限定在[1, 100]范圍的整數(shù),通過一個(gè)隨機(jī)發(fā)生器產(chǎn)生并把它們送給各屬性作為測(cè)試代價(jià).

圖1 查找成功率(FOF)

圖2 最大超出率(AEF)

圖3 平均超出率(AEF)

4 結(jié)論

本文提出了一種最小測(cè)試代價(jià)約簡(jiǎn)的改進(jìn)算法.實(shí)驗(yàn)結(jié)果表明,它比原算法有更高的性能和穩(wěn)定性.從2個(gè)UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明,該改進(jìn)算法具有更高的查找成功率,最大超出率和平均超出率均低于原算法.實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)數(shù)據(jù)的曲線更加平滑,算法的性能更加穩(wěn)定.實(shí)際應(yīng)用過程中可以進(jìn)行多級(jí)構(gòu)建來進(jìn)一步提高性能,但同時(shí)算法的時(shí)間復(fù)雜度會(huì)大量增加,在構(gòu)建算法過程中可以采用折中的辦法來解決.

[1] 毛華,趙小娜,史田敏,等.多部圖的最大匹配算法[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2013,45(1):27-29.

[2] 王瑜.NMF方法在遮擋人耳識(shí)別中的應(yīng)用[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2013,45(1):61-64.

[3] 王長(zhǎng)明,聶建軍.基于遺傳算法的二次曲面提取技術(shù)研究[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2013,45(1):65-68.

[4] 申雪芬,謝珺,劉海峰,等.一種改進(jìn)的基于相對(duì)正域的增量式屬性約簡(jiǎn)算法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013,31(3):45-49.

[5] Yao J T, Yao Y Y.Information granulation for web based information retrieval support systems[C]// Proceedings of SPIE.Florida,2003:138-146.

[6] Min F,Liu Q. A hierarchical model for test-cost-sensitive decision systems[J]. Information Sciences, 2009, 179(14): 2442-2452.

[7] Pawlak Z. Rough sets[J].International Journal of Computer and Information Sciences, 1982, 11(2):341-356.

[8] 許長(zhǎng)志,閔帆.帶權(quán)約簡(jiǎn)及其在漢語詞性標(biāo)注自動(dòng)校對(duì)中的應(yīng)用[J].控制與決策,2007, 22(7): 740-744.

An Improved Algorithm of Minimal Test-cost Attributes Reduction in Decision Systems

HE Hua-ping, CHEN Guang-jian

(DepartmentofComputerScience,SichuanUniversityofScience&Engineering,Zigong643000,China)

The traditional attribute reduction problem was aimed at constructing a minimal reduct. As later on, it aimed at constructing a minimal test-cost reduct under the model. The current test-cost reduction algorithm could not ensure a satisfactory performance. And an enhanced algorithm was designed for better performance.The experimental results in two UCI datasets showed that this algorithm was efficient and effective. This algorithm was a new way to improve the performance.

cost-sensitive learning; attribute reduction; minimal test-cost

2014-09-06

國(guó)家自然科學(xué)基金資助項(xiàng)目,編號(hào)60873077;企業(yè)信息化與物聯(lián)網(wǎng)測(cè)控技術(shù)四川省高校重點(diǎn)實(shí)驗(yàn)室項(xiàng)目,編號(hào)2013WZY02;四川理工學(xué)院培育項(xiàng)目,編號(hào)2013PY06;四川省教育廳科研項(xiàng)目,編號(hào)12ZB083.

何華平(1976-),男,四川自貢人,副教授,主要從事代價(jià)敏感學(xué)習(xí)研究,E-mail:hehuaping_001@163.com.

TP181

A

1671-6841(2015)01-0074-04

10.3969/j.issn.1671-6841.2015.01.016

猜你喜歡
約簡(jiǎn)代價(jià)增益
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
基于單片機(jī)的程控增益放大器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
基于二進(jìn)制鏈表的粗糙集屬性約簡(jiǎn)
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
實(shí)值多變量維數(shù)約簡(jiǎn):綜述
愛的代價(jià)
海峽姐妹(2017年12期)2018-01-31 02:12:22
基于模糊貼近度的屬性約簡(jiǎn)
代價(jià)
成熟的代價(jià)
一種改進(jìn)的分布約簡(jiǎn)與最大分布約簡(jiǎn)求法
河南科技(2014年7期)2014-02-27 14:11:29
葫芦岛市| 福建省| 玛纳斯县| 高碑店市| 高淳县| 富宁县| 南木林县| 沿河| 漳州市| 青海省| 屯昌县| 开化县| 岳普湖县| 舞阳县| 高台县| 塔河县| 义乌市| 沛县| 无为县| 南汇区| 托克逊县| 拉孜县| 固原市| 兰坪| 特克斯县| 巴青县| 鹤山市| 卢湾区| 昌都县| 新民市| 轮台县| 新化县| 嘉祥县| 宜兴市| 靖西县| 临漳县| 治县。| 乐山市| 吉安市| 太仓市| 石首市|