国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于粗糙集和模糊聚類方法的屬性約簡算法

2012-04-29 00:44黃楠
電腦知識與技術 2012年32期
關鍵詞:模糊集粗糙集

黃楠

摘要:屬性約簡算法是數(shù)據(jù)挖掘領域發(fā)展的核心內(nèi)容,是確保我們能夠從海量的數(shù)據(jù)中快速、準確的找到最具價值數(shù)據(jù)內(nèi)容的關鍵。但目前的屬性約簡算法還并不夠完善,遠遠跟不上互聯(lián)網(wǎng)飛快發(fā)展的腳步,存在運算效率還不夠高、應用范圍太過狹隘等缺陷,還有待我們?nèi)プ鐾黄菩匝芯俊R虼?,?shù)據(jù)挖掘技術的研究和開發(fā)應側重于努力從屬性約簡算法上尋找突破口,進而優(yōu)化算法,提高數(shù)據(jù)挖掘技術的工作效率。粗糙集理論方法及模糊集理論方法在處理不確定數(shù)據(jù)過程中各具特點,兩者都可用來硯察、側試數(shù)據(jù)并進行推理。雖然它們之間有一些重處,但兩者的粉眼點和計算方法是不一樣的,因此不能相互替代,而是必須結合起來使用。該文在研究粗粗集和模栩集理論的基礎上將兩者相結合,提出了一個斷的篇性約簡算法。

關鍵詞:粗糙集;模糊集;約簡算法

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2012)32-7718-02

1背景

隨著網(wǎng)絡計算機及數(shù)據(jù)庫的大量建立并迅速發(fā)展,世界范圍整體數(shù)據(jù)庫所存儲的數(shù)據(jù)總量也隨之飛速龐大起來。然而,大量數(shù)據(jù)庫的建立起初目的僅僅是作為存儲數(shù)據(jù),數(shù)據(jù)庫內(nèi)部及各數(shù)據(jù)庫之間大部分數(shù)據(jù)是相互孤立的,許多數(shù)據(jù)長時間得不到有效利用,長期處于冗余狀態(tài),因此,海量的數(shù)據(jù)雖然豐富,但其知識卻處于貧乏狀態(tài),這就要求數(shù)據(jù)庫工具具有極強的數(shù)據(jù)分析能力。數(shù)據(jù)挖掘領域的發(fā)展應能夠從海量的數(shù)據(jù)中快速、準確的找到相應的數(shù)據(jù)內(nèi)容,能夠正確的理解歷史數(shù)據(jù)并作出合理解釋,從而對未來的行為發(fā)展作出準確預測。數(shù)據(jù)挖掘是結合人工智能、統(tǒng)計學、并行計算、模式識別、數(shù)據(jù)庫及模糊智能等技術而興起的一個全新的科學領域,并受到有關學者的密切關注。一個優(yōu)秀的數(shù)據(jù)挖掘方法應具備有效、新穎、高效及轉為可視等特點。目前,常用的方法包括數(shù)理統(tǒng)計學、概率論、模糊集、粗糙集、遺傳算法、神經(jīng)網(wǎng)絡及決策樹等,或是結合了上述兩種或多種方法。

近些年,粗糙集數(shù)據(jù)挖掘方法從各種方法中脫穎而出,成為了人們的研究重點,它能夠在各種運行環(huán)境下有效地獲取知識,并能對不確定和模糊數(shù)據(jù)進行不可分辨類型及不可分辨關系處理,過程中不需要對知識做任何附加信息處理或先驗知識處理。粗糙集數(shù)據(jù)挖掘方法首先要做的是將數(shù)據(jù)系統(tǒng)做約簡處理(值約簡及屬性約簡),這同時也是該方法的重要步驟之一。值約簡過程是指將數(shù)據(jù)系統(tǒng)中那些沒有價值的重復內(nèi)容刪除。屬性約簡過程是指在保證數(shù)據(jù)系統(tǒng)分類能力不發(fā)生改變的條件下進行一系列信息變換,最終得到一個最小的條件屬性子集。

2粗糙集及模糊集

純粗糙集屬性約簡過程中,要求數(shù)據(jù)通常具有一定的精確性,要求數(shù)據(jù)屬性對應等價。約簡計算中過程中,計算內(nèi)容必須是經(jīng)離散化后屬性值,而現(xiàn)實的數(shù)據(jù)系統(tǒng)通常無法做到這一點,例如氣象數(shù)據(jù)系統(tǒng)中濕度、風速、溫度等屬性值均不是確切的固定值,而是隨時間在不斷變化。所以,利用粗糙集數(shù)據(jù)挖掘方法做屬性約簡前,必須將這些連續(xù)屬性值做離散化處理,這就有可能在某種程度上對一些數(shù)據(jù)造成不可避免的數(shù)據(jù)缺失,這是因為屬性值離散化后與其實數(shù)值所存在的差異信息沒有被保留。

粗糙集方法是傳統(tǒng)集合論的延拓,它將用于分類的數(shù)據(jù)嵌入集合中,并視為集合的組成部分??梢罁?jù)現(xiàn)有的理論來判斷對象a是否包含于集合X,通常將其分為三種類型:①已確定集合X包含對象a;②已確定集合X不包含對象a;③集合X可能包括對象a也可能不包含對象a。集合的劃分與我們現(xiàn)有的論域知識具有密切關系,具有相對性。論域U是一個有限非空集合,U中的一族與I為等效關系,則稱K=(U,I)為其一個近似空間。設x對象及X子集均包含于U,I(x)則表示為與x不可分辨的所有對象構成的一個集合,也就是說,該等效類是由x對象所決定,I(x)包含的所有對象均和x有共同的屬性特征。

模糊集理論同樣也是數(shù)據(jù)系統(tǒng)中不精確、不完善數(shù)據(jù)內(nèi)容的研究理論,側重于數(shù)據(jù)的模糊性研究。粗糙集理論同時結合模糊集理論便可以實現(xiàn)決策屬性及條件屬性均能符合模糊性要求,因此,屬性約簡的對象是相似類數(shù)據(jù)。在屬性約簡過程中,其約簡對象的屬性值無須經(jīng)過離散化,固可以保持其原有性,粗糙集理論每個經(jīng)離散化符號與其屬性下的模糊等價類相對應,相應地,因此,屬性模糊化也將替代相應的過程離散化。

模糊集又被稱為模糊集或模糊子集,指的是模糊性數(shù)據(jù)的集合。一般的集合指的是具有某種特定屬性值的全體對象。通常這種特定屬性值指的是一個精確的值,具有明確的區(qū)分界限,這個集合中的每個對象與其集合的關系是明確的隸屬關系,反之,則每個對象或部分對象與集合的隸屬關系并不明晰。然而,在人的思維意識中有著太多模糊概念(如大小、很快、一點、很高等等),這類模糊概念所指對象的屬性并不能直接明確其“是”或“否”。這是因為模糊類概念自身并沒有清晰、明確的界限值,有時還會隨著條件的變化而產(chǎn)生變化。

模糊集的表示:

猜你喜歡
模糊集粗糙集
基于Pawlak粗糙集模型的集合運算關系
基于上下截集的粗糙模糊集的運算性質
復圖片模糊集及其在信號處理中的應用
基于二進制鏈表的粗糙集屬性約簡
區(qū)間直覺模糊集相似度構造
優(yōu)勢直覺模糊粗糙集決策方法及其應用
多?;植诩再|的幾個充分條件
雙論域粗糙集在故障診斷中的應用
基于粗糙模糊集的輸電桿塔塔材實際強度精確計算
兩個域上的覆蓋變精度粗糙集模型