何宗順
摘要:智能信息處理技術(shù)作為一項(xiàng)可以處理大量數(shù)據(jù)的技術(shù)得到了廣泛的應(yīng)用,其中,粗糙集技術(shù)作為其中一項(xiàng)具有廣闊的發(fā)展前景的技術(shù)引起了人們的注意。它可以幫助企業(yè)解決多方面問(wèn)題,對(duì)企業(yè)的發(fā)展起到了非常良好的作用。本文介紹了粗糙集技術(shù)在企業(yè)中包括內(nèi)部運(yùn)營(yíng)和外部評(píng)估等各方面的應(yīng)用。
關(guān)鍵詞:智能信息處理;粗糙集;聚類;應(yīng)用企業(yè)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)22-0001-03
1概述
隨著當(dāng)前互聯(lián)網(wǎng)技術(shù)的發(fā)展,企業(yè)各部門、各流程中產(chǎn)生的各種數(shù)據(jù)越來(lái)越多,迫切需要一種技術(shù)來(lái)對(duì)這些數(shù)據(jù)進(jìn)行處理。智能信息處理技術(shù)作為一種涵蓋多個(gè)學(xué)科的技術(shù),對(duì)各領(lǐng)域企業(yè)的數(shù)據(jù)處理過(guò)程產(chǎn)生了巨大的推動(dòng)作用。例如在金融和市場(chǎng)分析中,人們可以利用數(shù)據(jù)挖掘技術(shù),分析股票、市場(chǎng)的走向,而在企業(yè)中,智能信息處理技術(shù)可以幫助企業(yè)進(jìn)行決策,提高企業(yè)決策科學(xué)、合理性,為企業(yè)發(fā)展做出貢獻(xiàn);在某些處理數(shù)據(jù)量較大的環(huán)境中,傳統(tǒng)數(shù)據(jù)處理技術(shù)并不能很好的利用大規(guī)模數(shù)據(jù),但智能信息處理技術(shù)不僅能夠?qū)墒星闆r作出準(zhǔn)確判斷并預(yù)測(cè)金融趨勢(shì);在企業(yè)生產(chǎn)和運(yùn)營(yíng)過(guò)程中,利用智能信息處理技術(shù)能夠?qū)ζ髽I(yè)生產(chǎn)進(jìn)行科學(xué)規(guī)劃和管理,提高效率與產(chǎn)值,提高運(yùn)營(yíng)管理效率。粗糙集是一種處理缺失和非精確的數(shù)據(jù)有效工具,基于粗糙集及其擴(kuò)展模型的聚類算法研究是智能信息處理領(lǐng)域的核心問(wèn)題之一。將該技術(shù)引入信息量爆炸的現(xiàn)代企業(yè),不僅可以為企業(yè)的經(jīng)營(yíng)提供有效支持,而且能夠發(fā)現(xiàn)某些為人忽略的問(wèn)題。因此本文對(duì)粗糙集方法以及粗糙集方法在企業(yè)中的應(yīng)用前景做了概述。本文首先介紹了多種粗糙集理論,然后對(duì)基于粗糙集理論所衍生的聚類方法進(jìn)行了概述,最后則是對(duì)粗糙集聚類方法在企業(yè)中的應(yīng)用進(jìn)行了綜述。
2粗糙集理論基礎(chǔ)
2.1經(jīng)典粗糙集
粗糙集(Rough Set)理論是由波蘭教授Pawlak于1982年提出的一種能夠定量分析處理不精確、不一致、不完整信息與知識(shí)的數(shù)學(xué)工具。粗糙集理論的主要思想是利用已有的知識(shí)分類來(lái)近似的逼近不精確的或是不完整的知識(shí)。它是一種建立在分類機(jī)制上的一種工具,通過(guò)等價(jià)關(guān)系來(lái)對(duì)空間進(jìn)行劃分,使用上下近似集來(lái)逼近空間中的任意一個(gè)集合。粗糙集理論最大的特點(diǎn)就是它無(wú)需提供問(wèn)題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,所以對(duì)問(wèn)題的不確定性的描述或處理可以說(shuō)是比較客觀的。
粗糙集理論中的“知識(shí)”實(shí)際上是人們通過(guò)自己的認(rèn)知來(lái)對(duì)所有事物分類后得到的事物的狀態(tài)。知識(shí)必須與人類創(chuàng)造的各種分類模式聯(lián)系在一起,這些分類模式是人們?cè)谔剿魇澜绾蛯?duì)世界進(jìn)行抽象的過(guò)程中得到的。所有我們可以分類的對(duì)象就是粗糙集理論所要研究的對(duì)象,稱為全域或者論域。
定義2.1設(shè)S=(U,A,V,f)為一個(gè)信息系統(tǒng),也稱為知識(shí)表示系統(tǒng)。其中U={U1,U2,…,U|U|}是所有要討論的個(gè)體的集合,它是有限非空集合,稱為全域或論域(umverse);u的任何子集Ui稱為u的一個(gè)分類;A={A1,A2,…,A|A|}為屬性的有限非空集合;V=∪Va,其中a∈A,Va是屬性a的值域,集合V是屬性
由以上粗糙集的基本概念可知,集合的不確定性存在于邊界上,集合的邊界越大,就越可能存在不確定性,同時(shí)粗糙集理論認(rèn)為邊界的不確定性主要是由于基礎(chǔ)屬性的分類不精確所以導(dǎo)致無(wú)法精確的表示某一個(gè)集合。因此粗糙集不需要精確的數(shù)值來(lái)表述不精確的知識(shí),而是采用分類(包括上近似集和下近似集)來(lái)逼近模糊的邊界。這也是粗糙集最大的特點(diǎn)之一。
2.2粗糙集擴(kuò)展模型
2.2.1鄰域粗糙集模型
由于經(jīng)典粗糙集理論是基于不可分辨關(guān)系實(shí)現(xiàn)的,所以只能處理名詞型數(shù)據(jù),但現(xiàn)實(shí)中更多的存在的是名詞和數(shù)值屬性都包含的混合型數(shù)據(jù)。為了解決這一問(wèn)題,Lint31等利用鄰域關(guān)系替代等價(jià)關(guān)系,提出了鄰域粗糙集模型,該模型利用鄰域關(guān)系來(lái)對(duì)知識(shí)進(jìn)行劃分,從而直接處理混合型數(shù)據(jù)。
2.2.2多粒度粗糙集模型
經(jīng)典粗糙集模型和鄰域粗糙集模型,都是基于單個(gè)不可關(guān)系或單個(gè)鄰域關(guān)系來(lái)對(duì)論域進(jìn)行分類,進(jìn)而逼近未知概念,都是從唯一的角度對(duì)問(wèn)題進(jìn)行分析。但實(shí)際生活中,我們經(jīng)常需要多角度對(duì)問(wèn)題分析和處理。因此錢宇華和梁吉業(yè)等提出,采用多個(gè)屬性來(lái)對(duì)論域進(jìn)行分類,構(gòu)造多粒度的論域空間,進(jìn)而在多粒度論域空間上進(jìn)行目標(biāo)概念的近似逼近。他們分別定義了兩種具體的多粒度模型:樂(lè)觀多粒度粗糖集模型和悲觀多粒度粗糖集模型。
2.2.3變精度模型
現(xiàn)實(shí)生活中一直存在著一對(duì)多或是一對(duì)多的關(guān)系,因此經(jīng)典粗糙集中的一對(duì)一的關(guān)系就不能完全適用了。因此采取可變精度粗糙集模型,允許某一對(duì)象可以錯(cuò)誤分配到其他類中,以此來(lái)加強(qiáng)粗糙集的抗干擾能力。可變精度粗糙集模型通過(guò)定義一個(gè)精度,來(lái)調(diào)節(jié)誤分類的概率,從而增大粗糙集模型的容錯(cuò)性。
3基于粗糙集的聚類方法
Lingras和West于2004年首次將粗糙集理論引入到了k-means聚類算法中,用于處理邊界問(wèn)題。提出了基于粗糙集的聚類算法有三條必須符合的條件:
(1)如果一個(gè)對(duì)象屬于一個(gè)類簇的下近似集那么它就不可能再屬于其他類簇了。
(2)一個(gè)類簇的下近似集一定是該類簇上近似集的子集。
(3)如果一個(gè)對(duì)象不屬于任何一個(gè)下近似集,那么它至少屬于兩個(gè)上近似集。
Petersm在Lingras和West的基礎(chǔ)上對(duì)粗糙k-means算法進(jìn)行了進(jìn)一步的改進(jìn),步驟如下:
(1)首先確定將要輸出的類簇?cái)?shù)目K。
(3)確定大于0的閾值∈,以此來(lái)判斷某對(duì)象是屬于下近似集還是邊界集。首先將某個(gè)對(duì)象離各個(gè)中心點(diǎn)之間的距離ti(1≤i≤K)按從小到大排列,若存在ti-t1≤E,則將該對(duì)象分配到ti所代表的中心點(diǎn)的上近似集中,若不存在,則將該對(duì)象分配至最近的中心點(diǎn)(即t1所代表的中心點(diǎn))的下近似集中。endprint
Viswanath和Suresh在2009年提出了一種可以應(yīng)用于混合大數(shù)據(jù)集的基于粗糙集的DBSCAN算法(Rough DBSCAN)。
原始DBSCAN算法由以下三步構(gòu)成:
(1)初始狀態(tài),給出一個(gè)數(shù)據(jù)集D,并設(shè)置半徑和MinDs,將D中的所有對(duì)象標(biāo)記為“unvisited”(未被訪問(wèn))。
(2)隨機(jī)從D中選取一個(gè)未被訪問(wèn)的對(duì)象p,并標(biāo)記為“vis-ited”(已被訪問(wèn)),檢查p的一鄰域內(nèi)是否至少包含MinPts個(gè)對(duì)象(即p是否是核心對(duì)象),若不是,則將p標(biāo)記為噪聲點(diǎn),否則,為p創(chuàng)建一個(gè)新的簇C,把p的一鄰域中所有標(biāo)記為“unvisited”的對(duì)象放入候選集合N中,并迭代的將N中的"unvisited"的對(duì)象q標(biāo)記為“visited”,若q的—鄰域至少包含MinPts個(gè)對(duì)象,則將q的一鄰域中所有的對(duì)象加入到C中,直到C不再擴(kuò)大,N為空的時(shí)候,此時(shí)簇C完成聚類,并輸出。
(3)繼續(xù)從D中隨機(jī)選取未被訪問(wèn)的對(duì)象s,同樣使用(2)中的聚類方法,直到對(duì)象集D中所有對(duì)象都被訪問(wèn)。
由于原始DBSCAN算法需要計(jì)算每個(gè)點(diǎn)的鄰域內(nèi)對(duì)象的個(gè)數(shù),這就造成在該算法應(yīng)用于大數(shù)據(jù)集消耗時(shí)間過(guò)多,不適用于大數(shù)據(jù)集。但是Rough DBSCAN算法改進(jìn)了這一點(diǎn),能夠適用于超大規(guī)模數(shù)據(jù)集,該算法使用了領(lǐng)導(dǎo)點(diǎn)的概念,即從第一個(gè)點(diǎn)開(kāi)始,找到所有在該點(diǎn)的T(T《∈)鄰域內(nèi)的點(diǎn)并標(biāo)記,然后在剩下的未標(biāo)記過(guò)的點(diǎn)中繼續(xù)這一流程,結(jié)果如圖1所示,我們將所有的點(diǎn)都分為了多個(gè)小塊。接下來(lái)我們使用這些對(duì)象塊來(lái)代替原始DBSCAN算法中每個(gè)對(duì)象點(diǎn),如圖2所示。若Ii在,的鄰域內(nèi),則,的∈鄰域內(nèi)的個(gè)數(shù)card(1)設(shè)定為∑count(Ii)。然后再按照DBSCAN算法的流程進(jìn)行聚類。
Parmar和Wu與2007年提出了一種使用粗糙集的對(duì)名詞型屬性數(shù)據(jù)進(jìn)行聚類的方法,首先對(duì)每個(gè)屬性進(jìn)行分類,計(jì)算平均粗糙度,通過(guò)最小平均粗糙度得到最小粗糙度MR,通過(guò)最小MR得到MMR,以MMR最小的屬性為起始,迭代的對(duì)每個(gè)屬性進(jìn)行二分,最后就可以得到基于粗糙集的分類了,該種分類方法的粗糙度也是較低的。
4聚類方法在企業(yè)中的應(yīng)用
涂袁志等于2012年提出了一種基于粗糙聚類的針對(duì)航空制造企業(yè)零件生產(chǎn)周期分析的方法,通過(guò)對(duì)工序加工周期進(jìn)行粗糙聚類,分析后得到合理的工序周期范圍,然后通過(guò)工序的離散度計(jì)算零件周期粗糙聚類的閾值,然后對(duì)零件加工周期進(jìn)行粗糙聚類,這樣就可以得到合適的零件周期范圍,這樣我們通過(guò)周期類上、下近似方法刻畫企業(yè)實(shí)際生產(chǎn)周期樣本的歸屬,并將不同類別的周期表達(dá)為一種覆蓋關(guān)系。
鮑新中等于2013年提出一種基于聚類-粗糙集-神經(jīng)網(wǎng)絡(luò)的企業(yè)財(cái)務(wù)危機(jī)預(yù)警方法,首先利用粗糙集方法對(duì)財(cái)務(wù)預(yù)警的對(duì)象進(jìn)行約簡(jiǎn),然后再使用層次聚類方法對(duì)約簡(jiǎn)后的數(shù)據(jù)集進(jìn)行聚類并分析。
2008年吳曉彬提出了一種基于金融時(shí)間序列的粗糙聚類分析方法。首先通過(guò)小波多尺度變換,改善時(shí)間相似性度量。通過(guò)隔點(diǎn)采樣將原序列分解成低頻系數(shù)列跟高頻系數(shù)列,由于低頻系數(shù)列保留了原序列的大致形狀信息,且長(zhǎng)度較短。因此我們繼續(xù)對(duì)上一次得到的低頻系數(shù)列進(jìn)行分解,得到下一層低頻系數(shù)列與下一層高頻系數(shù)列。在研究了時(shí)序相似性度量的基礎(chǔ)上,選取幾十只股票將粗糙集聚類方法應(yīng)用于金融分析中,根據(jù)聚類結(jié)果進(jìn)行分析,得出股票變化的信息。
徐煒等于2013年提出一種基于二階聚類與粗糙集的模型,該模型二階聚類模型對(duì)歷史水文數(shù)據(jù)進(jìn)行聚類,然后分析各種因素對(duì)洪水分類的影響程度。再使用遺傳算法來(lái)確定相應(yīng)的模型參數(shù),同時(shí)通過(guò)粗糙集挖掘影響因素與洪水類型間的隱含關(guān)系,驗(yàn)證后發(fā)現(xiàn)可以在實(shí)際應(yīng)用中,根據(jù)當(dāng)前獲得的洪水的參數(shù)來(lái)辨別出所發(fā)生洪水的類型同時(shí)對(duì)有關(guān)部門進(jìn)行洪水預(yù)警。并將相應(yīng)的模型應(yīng)用于實(shí)例當(dāng)中。
彭?xiàng)羁蓪⒒谝蜃臃治龊痛植诩木垲惙治瞿P蛻?yīng)用于城市發(fā)展?fàn)顩r評(píng)估中。首先對(duì)樣本數(shù)據(jù)做出因子分析,得到降維后的數(shù)據(jù)結(jié)果,然后對(duì)得到的結(jié)果進(jìn)行基于粗糙集思想的K均值聚類分析,得到包括上下近似集的聚類分析結(jié)果,然后對(duì)聚類結(jié)果進(jìn)行分析。同樣的,該方法也可以用于居民生活水平評(píng)估,企業(yè)也可以通過(guò)這一手段來(lái)判別哪一城市更具有投資價(jià)值。
徐節(jié)龍也提出了一種基于收益風(fēng)險(xiǎn)優(yōu)化屬性約簡(jiǎn)的聚類分析方法,首先利用面粗糙聚類算法進(jìn)行聚類得到一個(gè)小粒度的聚類結(jié)果;然后使用基于收益風(fēng)險(xiǎn)優(yōu)化屬性約簡(jiǎn)的聚類算法,用收益風(fēng)險(xiǎn)優(yōu)化的函數(shù)來(lái)指導(dǎo)合并過(guò)程,減少不必要的粒,然后采用層次聚類的形式得到一個(gè)合適的聚類結(jié)果,并對(duì)聚類過(guò)程進(jìn)行評(píng)估,直到滿足聚類算法的終止條件。
5總結(jié)
綜合上文所述,我們雖然粗糙集理論從提出至今只有二十幾年的發(fā)展歷史,但在粗糙集研究上取得的成果還是引人矚目的。尤其基于粗糙集所提出的各種聚類和約簡(jiǎn)算法,如粗糙k-means,粗糙DBSCAN算法,以及各種約簡(jiǎn)算法,這些方法在企業(yè)的應(yīng)用中極為廣泛。對(duì)于企業(yè)來(lái)說(shuō),基于粗糙集的各種方法的應(yīng)用無(wú)疑是一座巨大的金礦,可以使用這些方法進(jìn)行多方面的分析。同時(shí)由于粗糙集可以與模糊集等數(shù)學(xué)工具結(jié)合。這就更擴(kuò)大了企業(yè)應(yīng)用粗糙集的范圍。endprint