李 萍,儲(chǔ)亞偉,范 敏
(阜陽(yáng)師范學(xué)院 信息工程學(xué)院, 安徽 阜陽(yáng) 236041)
基于粒度商的連續(xù)屬性離散化方法
李 萍,儲(chǔ)亞偉,范 敏
(阜陽(yáng)師范學(xué)院 信息工程學(xué)院, 安徽 阜陽(yáng) 236041)
連續(xù)數(shù)值屬性的離散化是粒計(jì)算理論應(yīng)用的重要步驟,提出粒度商的連續(xù)屬性離散化方法。通過(guò)給出粒度商的概念,根據(jù)粒度商的大小來(lái)選取合適的區(qū)間粒,從而達(dá)到連續(xù)屬性離散化的目的。最后給出實(shí)例分析,說(shuō)明該算法的有效可行性。
粗糙集;連續(xù)屬性;離散化;粒度商
粗糙集中提到,在對(duì)決策表進(jìn)行屬性約簡(jiǎn)的過(guò)程中,需要考慮屬性是連續(xù)型的還是離散型,運(yùn)用粗糙集理論處理離散型屬性要比處理連續(xù)型屬性簡(jiǎn)便,對(duì)屬性的離散化能夠降低問(wèn)題的復(fù)雜度[1-2]。離散化方法可分為有監(jiān)督和無(wú)監(jiān)督兩種,有監(jiān)督方法需要把樣本數(shù)據(jù)的類別屬性考慮進(jìn)來(lái),較無(wú)監(jiān)督方法更科學(xué),有監(jiān)督方法主要包括基于信息熵的離散化方法,基于屬性類別關(guān)聯(lián)度的離散方法及基于聚類的k均值方法等[3-4]。粒計(jì)算理論是現(xiàn)階段人工智能領(lǐng)域的新的研究熱點(diǎn),其理論模型主要有兩種,分別為以處理不確定性為目標(biāo)的模型和以多粒度計(jì)算為目標(biāo)的模型,如商空間理論[5-6]。從粒度商的角度對(duì)連續(xù)屬性離散化可分自底向上的逐步粗化和自頂向下的逐步細(xì)化?;谧缘紫蛏系碾x散化算法選擇初始的區(qū)間粒集可以把不同的屬性值相互分開(kāi),然后按照一定的規(guī)則選擇相鄰的兩個(gè)或多個(gè)區(qū)間粒進(jìn)行合并,得到新的區(qū)間粒集,依次循環(huán),直到所得的區(qū)間粒集滿足一定的終止條件。
本文依據(jù)粒度商的值選取合適的粒度集,完成自底向上的對(duì)連續(xù)屬性進(jìn)行離散化,提出了基于粒度商的連續(xù)屬性離散化方法該算法。一種基于條件熵的粗糙集連續(xù)屬性離散化方法在對(duì)連續(xù)屬性進(jìn)行離散化時(shí)需要人為給出由細(xì)到粗的區(qū)間粒集,通過(guò)比較條件熵選出合適的區(qū)間粒集,從而達(dá)到連續(xù)屬性離散化的目的,而本文所提方法無(wú)需提前給出由細(xì)到粗的區(qū)間粒集,操作起來(lái)更為方便。
定義6粒度商。假設(shè)S=(U,C∪D,V,f)是一個(gè)決策系統(tǒng),Q?C,粒度關(guān)聯(lián)商,也可簡(jiǎn)稱為粒度商定義為:
對(duì)于決策表而言,如果對(duì)連續(xù)的條件屬性劃分較粗,可能會(huì)出現(xiàn)不相容的情況; 反之,如果劃分較細(xì),又會(huì)增加屬性約簡(jiǎn)的計(jì)算量[8-9]。總之,在對(duì)連續(xù)屬性離散化時(shí),要保證決策表的相容性的條件下,盡可能的對(duì)連續(xù)屬性劃分的更粗,從而提高屬性約簡(jiǎn)效率。在對(duì)不同的區(qū)間粒進(jìn)行合并時(shí),按照粒度商值變化較小的 那些區(qū)間粒度進(jìn)行合并,在保證決策表相容性的條件下,離散化后的條件屬性相對(duì)于決策屬性的粒度商越小越好。
(1)
每個(gè)區(qū)間粒只含有一個(gè)屬性值。然后對(duì)相鄰的m個(gè)區(qū)間粒進(jìn)行合并,直到滿足給出的?;?guī)則,這時(shí)所得的每個(gè)區(qū)間粒對(duì)應(yīng)一個(gè)離散值,實(shí)現(xiàn)了連續(xù)屬性離散化的目的。
以下是基于粒度商的連續(xù)屬性離散化算法:
輸出:e的離散后的結(jié)果e′。
s1:將e的值由小到大排序;
s2:按照(1)式,選擇初始的區(qū)間粒集I,然后把具有相同分類屬性值的相鄰區(qū)間粒合并到一起,作為一個(gè)新的區(qū)間粒,得到新的區(qū)間粒集重新記為I;
s4:選擇使得粒度商變化量|QG(C∪{e′},D)-QG(C∪{e″},D)|最小的,e′對(duì)應(yīng)的區(qū)間粒集I′;如當(dāng)前步的粒度商變化量小于等于前一步的n倍,令I(lǐng)=I′,轉(zhuǎn)s3;否則轉(zhuǎn)s5;
s5:輸出根據(jù)I離散化e后的值e′,算法結(jié)束。
根據(jù)經(jīng)驗(yàn),四個(gè)條件屬性中b,c,d取值較為確定,直接將它們離散化,將條件屬性中的32、0.1、0.5記為1;65、0.2、1記為2;130、0.3、2記為3。記每次合并的區(qū)間粒個(gè)數(shù)m=2,參數(shù)n=1,對(duì)于條件屬性a的值由小到大排序,得出初始區(qū)間粒集I1,可由細(xì)到粗選取四種區(qū)間粒集,把具有相同分類屬性值的相鄰區(qū)間粒合并到一起,作為一個(gè)新的區(qū)間粒,得到新的區(qū)間粒集I2,按照已得的區(qū)間粒度集I2對(duì)e離散化,離散結(jié)果記為e″,計(jì)算
表1 材料加工數(shù)據(jù)
表2 屬性a的各步驟所得區(qū)間粒集
表3 離散化后的決策表
本文利用粒度商對(duì)決策表中的連續(xù)條件屬性離散化,整個(gè)過(guò)程既考慮到了決策屬性也顧及到了條件屬性,利用粒度商的值作為?;瘻?zhǔn)則對(duì)區(qū)間粒進(jìn)行合并,最后,通過(guò)實(shí)例分析說(shuō)明該方法的可行性和有效性,并且相對(duì)于一種基于條件熵的粗糙集連續(xù)屬性離散化方法來(lái)說(shuō)操作起來(lái)更為方便,對(duì)決策表中連續(xù)屬性的離散化有一定的實(shí)際意義和參考價(jià)值。目前,從粒度的角度還提出了其他一些連續(xù)屬性離散化方法,下一步將對(duì)這些方法進(jìn)行深入研究,與本文方法進(jìn)行比較,在比較的基礎(chǔ)上再進(jìn)行改進(jìn)。
[1] 賀 躍,鄭建軍,朱 蕾.一種基于熵的連續(xù)屬性離散化算法[J].計(jì)算機(jī)應(yīng)用,2005,25(3):637-638, 651.
[2] 謝 宏,程浩忠,牛東曉.基于信息熵的粗糙集連續(xù)屬性離散化算法[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1570-1574.
[3] 史志才,夏永祥,周金祖.基于粒計(jì)算的離散化算法及其應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(S1):133-135.
[4]KerberRC.Discretizationofnumericattributes[C]//Proceedingsofthe10thNationalConferenceonArtificialIntelligence:mitpress, 1992: 123-128.
[5] 周丹晨.采用粒計(jì)算的屬性權(quán)重確定方法[J].智能系統(tǒng)學(xué)報(bào),2015,10(2):273-280.
[6] 張 鈸,張 鈴.粒計(jì)算未來(lái)發(fā)展方向探討[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2010,22(5):538-540.
[7] 周 軍,林 慶,胡瑞瑞.基于動(dòng)態(tài)粒度商的屬性約簡(jiǎn)算法[J].計(jì)算機(jī)應(yīng)用,2009,29(6):1608-1611.
[8] 丁 劍,白鳳偉.一種基于相似性度量的離散化方法[J].西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,48(5):43-47.
[9] 陳 貞,邢笑雪.粗糙集連續(xù)屬性離散化的k均值方法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(5):642-646.
[10]閆 華.一種基于條件熵的粗糙集連續(xù)屬性離散化方法[J].現(xiàn)代制造工程,2009(3):87-89.
Discretizationalgorithmofcontinuousattributesbasedonquotientgranularity
LIPing,CHUYa-wei,F(xiàn)ANMin
(CollegeofInformationEngineering,FuyangNormalUniversity,FuyangAnhui236041,China)
Thediscretizationofcontinuousnumericalattributesisanimportantstepfortheapplicationofgranularcomputing.Amethodofdiscretizationofcontinuousattributesbasedonquotientgranularityisproposed.Bycomputingthequotientofgranularity,thesuitablesectiongranularisselectedtodiscretethecontinuousattribute.Intheend,anexampleanalysisshowsthatthisalgorithmisfeasibleandeffective.
roughset;continuousattributes;discretization;quotientgranularity
2015-07-08
安徽省高等學(xué)校省級(jí)教學(xué)研究重點(diǎn)項(xiàng)目(2013jyxm553);安徽省高等學(xué)校省級(jí)專業(yè)綜合改革試點(diǎn)項(xiàng)目(2014zy138,2013zy167);阜陽(yáng)師范學(xué)院信息工程學(xué)院院級(jí)項(xiàng)目(2015FXXSK01 ); 阜陽(yáng)師范學(xué)院信息工程學(xué)院院級(jí)項(xiàng)目(2015FXXZK01)資助。
李 萍(1985-),女,碩士,助教,研究方向:模式識(shí)別、智能計(jì)算。
O235
A
1004-4329(2015)04-080-04
10.14096/j.cnki.cn34-1069/n/1004-4329(2015)04-080-04