国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于聚類劃分的并行粗糙集屬性值約簡算法

2015-07-18 13:02:33陳燕云肖坤楠邱建林
電腦知識與技術(shù) 2015年12期
關(guān)鍵詞:粗糙集聚類

陳燕云 肖坤楠 邱建林

摘要:將MATLAB模糊工具箱和粗糙集數(shù)據(jù)處理工具Rosetta結(jié)合在一起使用,提出一種基于模糊C聚類劃分的并行粗糙集屬性值約簡算法,將數(shù)據(jù)集劃分到一個個子系統(tǒng)中處理,大大提高了約簡的效率。采用聚類算法進(jìn)行劃分,將相似度高的規(guī)則放到一個簇中,便于約簡,同時由于不同簇的相異程度較高,可以采用直接合并的方式進(jìn)行全局選擇。

關(guān)鍵詞:粗糙集;屬性值約簡;聚類;并行

中圖法分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)12-0176-03

A Parallel Rough Set Attribute Value Reduction Algorithm Based on Clustering Partition

CHEN Yan-yun1 ,XIAO Kun-nan1, QIU jian-lin2

(1.Nantong University Engineering Training Center, Nantong 226019,China;2.College of Computer Science and Technology, Nantong University, Nantong 226019,China)

Abstract: Adopt the parallel idea into rough set attribute value reduction, diving the data set into several sub-systems and processing at the same time, which greatly improve the reduction efficiency. Using clustering division to put the high similarity rules into a cluster to reduce easily, meanwhile, the difference between different clusters contributes to merger directly in global section. Apply the algorithm to corn breeding and it performs better.

Key words: rough set; attribute value reduction; clustering; parallel

粗糙集是由波蘭科學(xué)家Z.Pawlak[1]提出的一種處理不確定、不精確、不完整信息的新的數(shù)據(jù)挖掘工具,并從中發(fā)現(xiàn)隱含的知識,揭示潛在的信息。與人工智能領(lǐng)域其他一些處理不確定問題的數(shù)學(xué)工具相比,粗糙集有著它自身的優(yōu)點。比如統(tǒng)計理論需要知道數(shù)據(jù)先驗概率、模糊集理論需要知道隸屬函數(shù)等,而粗糙集無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,避免了帶入人為的模糊性,從而更具客觀性,這一優(yōu)點也決定它成為分析不精確系統(tǒng)的一種理想方法。

約簡是粗糙集理論的核心問題,可以作為大規(guī)模數(shù)據(jù)集處理的預(yù)處理工具,為進(jìn)一步的數(shù)據(jù)挖掘工作做準(zhǔn)備。約簡包括屬性約簡和屬性值約簡。屬性約簡是刪除冗余的或不重要的屬性,是一個橫向約簡,目前關(guān)于粗糙集屬性約簡的研究已經(jīng)比較成熟。但屬性約簡后的數(shù)據(jù)集還不是最簡的,屬性值約簡實際就是除去多余的屬性值,用較少的條件屬性來區(qū)分每個決策類,從而得到最簡的規(guī)則集。目前已經(jīng)提出了一些屬性值約簡算法,比較經(jīng)典的是文獻(xiàn)[2],它根據(jù)刪除某個屬性值后決策表出現(xiàn)的不同狀況標(biāo)記不同的符號,并對不同的符號用不同的處理方法,從而刪除冗余的記錄。此外,還有黃燕等[3]提出的基于相似矩陣的約簡算法,以及張學(xué)斌等[4]提出的啟發(fā)式的屬性值約簡算法等等。

本文在常規(guī)屬性值約簡算法的基礎(chǔ)上,用并行的思想來處理約簡。決策表的每一行代表一條規(guī)則,采用基于聚類的劃分思想,將相似度較高的規(guī)則放到一個簇中,這樣容易產(chǎn)生冗余或矛盾,并且由于簇與簇之間的相異度較大,因而在全局選擇時,就將個子系統(tǒng)約簡后的規(guī)則之間合并得到最終結(jié)果。

1 基礎(chǔ)知識

定義1:知識表達(dá)系統(tǒng)S可以表示為四元組,即S=(U, A, V, f)。其中,U是一個有限的非空集合,稱為論域;A=[C?D]是屬性集合,C是條件屬性,D為決策屬性,[C?D=φ,V=a∈AVa],性值的集合;f : U [×]A [→]V 是一個信息函數(shù),它為每個對象賦予一個信息值。在粗糙集理論中,知識表達(dá)系統(tǒng)又被稱為信息系統(tǒng),通常用S=(U,A)表示[2]。

定義2:設(shè)S=(U,A)為一信息系統(tǒng),[B?A],則不可分辨關(guān)系表示如下:

[IND(B)=(x,y)∈U×U|?b∈B,f(x,b)=f(y,b)]

若[(x,y)∈IND(B)],則稱[x]和[y]是B不可區(qū)分的,即相對于B是不可分辨的。不可分辨關(guān)系又稱為等價關(guān)系。對于[x∈U],它的B等價類定義為[[x]B=y∈U|(x,y)∈IND(B)],[U/IND(B)=X1,X2…,XK]表示關(guān)系[IND(B)]在U上的等價類族,簡記為[UB]。

定義3:對于任意的[x?U,B?A], X 的 B下近似集和 B上近似集分別描述為:

[B(X)=?x∈U:IB(x)?X]

[B(X)=?x∈U:IB(x)?X≠φ]

集合X的B邊界域為:[BNB(X)=B(X)-B(X)]

[B(X)]是由那些根據(jù)B判斷一定屬于X的U中元素組成的集合;[B(X)]是那些根據(jù)B判斷可能屬于X的U中的元素組成的集合;而那些根據(jù)B判斷可能屬于但又不能完全肯定屬于X的對象所組成的集合稱為邊界域。

另外,正域、負(fù)域定義如下:

正域:[POSB(X)=BX];

負(fù)域:[NEGB(X)=BX]。

定義4:粗糙度是表示知識的不完全程度,由等價關(guān)系B定義集合X的粗糙度為:

[ρB(X)=1-B(X)B(X)]

其中[X≠φ,X]表示集合X的基數(shù),顯然有[0≤ρR(X)≤1]。

2 基于模糊聚類劃分的并行粗糙集屬性值約簡算法

2.1 劃分策略

對于并行約簡來說,最終的約簡是建立在對子表進(jìn)行并行計算的基礎(chǔ)上實現(xiàn)的,因此,如何劃分子表是并行約簡的前提,并且劃分策略的好壞將直接影響到最終并行約簡的結(jié)果。找到一種高效、易實現(xiàn)、兼顧精準(zhǔn)性的子表劃分策略一直都是并行計算研究工作的重點。

本文將采用基于聚類的劃分思想,將將相似度較高的規(guī)則放到一個簇中,這樣容易產(chǎn)生冗余和矛盾,便于約簡,另外由于簇與簇之間的相異度較大,因而在全局選擇時,就將個子系統(tǒng)約簡后的規(guī)則之間合并得到最終結(jié)果。這里的聚類算法我們選擇模糊C均值聚類,算法對于滿足正態(tài)分布的數(shù)據(jù)聚類效果會很好,但對孤立點是敏感的。不過我們這里只是進(jìn)行劃分,聚類的效果不用特別精確。我們可以采用MATLAB模糊工具箱中的聚類函數(shù)直接處理數(shù)據(jù)。用到的幾個函數(shù)如下:

[center, U, obj_fcn]=fcm (data, cluster_n);

maxU=max(U);

index1=find(U(1,:)==max U); %查看第一類別的元素

……;

Index n=find(U(n,:)==max U);

其中:data為給定數(shù)據(jù)集,cluster_n為用戶提供的聚類中心的個數(shù),center為迭代以后得到的聚類中旬,U為所有數(shù)據(jù)點對聚類中心的隸屬度函數(shù)矩陣,obj_fcn為迭代計算過程中的變化值。

2.2 基于模糊聚類劃分的并行粗糙集屬性約簡算法

輸入:決策系統(tǒng)[S=(U,C?D,V,f)];

輸出:約簡后的決策規(guī)則。

1) 用值在0,1間的隨機數(shù)初始化隸屬矩陣U,使其滿足式[i=1cuij=1,?j=1,2,…,n]

2) 用式[ci=j=1nuijmxjj=1nuijm]計算c個聚類中心[ci],i=1,…,c。

3) 根據(jù)[J(U,c1,…,cc)=i=1cJi=i=1cjnuijmdij2],計算價值函數(shù)。如果它小于某個確定的閥值,或它相對上次價值函數(shù)值的改變量小于某個閥值,則算法停止。

4) 用[uij=1k=1c(dijdkj)2/(m-1)]計算新的U矩陣。返回步驟2

5) 并行地在各類別中進(jìn)行屬性值約簡;

6) 將各值約簡后的規(guī)則合并,去除冗余得整體的最終約簡。

本文的模糊C均值聚類算法采用MATLAB模糊工具箱里的FCM函數(shù)進(jìn)行處理,而屬性值約簡在粗糙集數(shù)據(jù)處理軟件Rosetta上進(jìn)行。

3 實例分析

實例選用屬性約簡后的南通市2006年年終匯總(Y組)玉米樣本集(表1)為例,實現(xiàn)粗糙集屬性值約簡算法的應(yīng)用。該樣本集包括51個玉米樣本和9個重要屬性,分別是生育期、株高、穗高、穗長、穗粗、千粒重、穗行數(shù)、行粒數(shù)、小區(qū)產(chǎn)量。其中前面八個是條件屬性,區(qū)產(chǎn)量為決策屬性。

1) 如果采用對該數(shù)據(jù)集直接進(jìn)行屬性值約簡,得到的結(jié)果如表2。

2) 我們采用并行處理方法:① 用MATLAB得到的聚類結(jié)果如表3。

②各類簇分別進(jìn)行屬性值約簡最終合并的規(guī)則如表4。

3) 實驗結(jié)果分析

將實例最后的約簡結(jié)果與不進(jìn)行劃分而直接屬性約簡的結(jié)果進(jìn)行對照分析可以看到,并行處理結(jié)果無論在規(guī)則的數(shù)量上減少了,并且在規(guī)模上有了很大的壓縮,這說明,該數(shù)據(jù)集得到了較好的數(shù)據(jù)挖掘,得到了大量數(shù)據(jù)中最為關(guān)鍵的知識,并行方法的運用是切實有效的。

4 結(jié)束語

粗糙集理論已經(jīng)被證明是十分有效的工具,它在工業(yè)、商業(yè)等領(lǐng)域都已經(jīng)成功運用,本文采用并行粗糙集屬性約簡方法來處理農(nóng)業(yè)領(lǐng)域的玉米品種資源數(shù)據(jù),為后續(xù)步驟中選育優(yōu)良品種提供了有效支持。最后這樣一個并行的處理方式將便于增量式管理,可以新增加的樣本可以的單獨作為一個簇參與處理,因而它將發(fā)揮更大的作用。

參考文獻(xiàn):

[1] Pawlak Z. Rough Set [J]. International Journal of Information and Computer Science, 1982,11(5): 314-356.

[2] 常犁云,王國胤, 吳渝. 一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學(xué)報, 1999, 10(11): 1206-1211.

[3] 黃艷, 沈維燕. 基于粗集理論的屬性值約簡算法研究[J]. 金陵科技學(xué)院學(xué)報, 2009, 25(4): 29-32.

[4] 張學(xué)斌, 丁曉明. 一種基于關(guān)聯(lián)規(guī)則的屬性值約簡算法[J]. 西南師范大學(xué)學(xué)報, 2005, 30(3): 440-443.

猜你喜歡
粗糙集聚類
基于Pawlak粗糙集模型的集合運算關(guān)系
基于K-means聚類的車-地?zé)o線通信場強研究
基于二進(jìn)制鏈表的粗糙集屬性約簡
優(yōu)勢直覺模糊粗糙集決策方法及其應(yīng)用
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
多?;植诩再|(zhì)的幾個充分條件
條紋顏色分離與聚類
雙論域粗糙集在故障診斷中的應(yīng)用
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實現(xiàn)
兩個域上的覆蓋變精度粗糙集模型
绥中县| 安溪县| 田阳县| 焦作市| 崇礼县| 柘城县| 和田县| 文安县| 洪江市| 定边县| 招远市| 湟源县| 通许县| 汉中市| 准格尔旗| 洪泽县| 和林格尔县| 兰州市| 连南| 思茅市| 南岸区| 嘉鱼县| 依安县| 五河县| 正定县| 凉山| 景洪市| 兴化市| 曲阳县| 乌拉特后旗| 康马县| 乌拉特中旗| 固原市| 霍山县| 柳江县| 曲沃县| 临邑县| 武平县| 克什克腾旗| 正镶白旗| 鲜城|