富雨晴
摘要:粗糙集理論是一種處理不確定信息的有效工具,利用其可在無任何先驗信息下獲取屬性約簡子集。本文采用優(yōu)勢粗糙集理論中的排列互信息和最大相關(guān)最小冗余相融合技術(shù)進行屬性子集選取,在每個屬性子集上對五種決策樹進行訓(xùn)練并作為基礎(chǔ)分類器,并按照投票機制融合個體分類器的輸出得到最終決策結(jié)果。在實際數(shù)據(jù)集上的實驗表明,基于排列互信息和最大相關(guān)最小冗余方法得到屬性子集能夠反映數(shù)據(jù)本質(zhì)信息,使得分類算法有較好的準確率。同時,與單個決策樹的分類結(jié)果相比,融合決策樹具有較好的分類效果。
Abstract: Rough set theory offers a new effective tool for dealing with uncertain information. Its typical feature is to obtain a subset of attribute reductions without any prior information. In this study, a fusion technique by combining the attributes' mutual information and the maximum relevance minimum redundancy in the dominant rough set theory are used to select the attribute subsets. Five decision trees are learned on each attribute reduction subset as some basic classifiers, and then the output of the individual classifier is fused according to the voting mechanism to obtain the final decision result. The numerical experiments on the actual dataset illustrate that the attribute subsets can capture the essential information of the data based on the arrangement mutual information and the maximum relevance minimum redundancy method, so the classification algorithm has better accuracy than the classification result of the single decision tree.
關(guān)鍵詞:優(yōu)勢粗糙集;決策樹;最大相關(guān)最小冗余;屬性約簡
Key words: dominant rough sets;decision tree;maximum relevance minimum redundancy;attribute reduct
中圖分類號:TP18;O225? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)28-0226-04
0? 引言
粗糙集理論是Pawlak于1982年首次提出的[1],它具有處理不完全和不精確數(shù)據(jù)的能力,因而引起了許多學(xué)者的關(guān)注。利用粗糙集理論中上下近似逼近來挖掘一些有用的信息,并用于指導(dǎo)實踐活動。該理論已被廣泛用于特征選擇[2-3],規(guī)則提取[4],分類[5-6]等相關(guān)問題求解中。在Pawlak粗糙集中,利用等價關(guān)系生成的等價類來近似目標集,其操作過程簡單,但會受到信息系統(tǒng)數(shù)值類型的限制。因此,基于等價關(guān)系定義的經(jīng)典粗糙集只能處理離散的信息表,對于連續(xù)型信息表則要通過離散化方法對數(shù)據(jù)集進行預(yù)處理。然而,離散化過程未考慮結(jié)果的語義描述,缺少可解釋性。連續(xù)型數(shù)據(jù)往往具有序關(guān)系特性,而離散化后的結(jié)果是完全無序的,容易導(dǎo)致信息損失。此外,面對包含名義型、區(qū)間型等多種數(shù)據(jù)類型且?guī)в胁煌陚浜投喑叨忍卣鞯臄?shù)據(jù)集,許多研究者引入了不同的二元關(guān)系來提升粗糙集問題求解的能力,相應(yīng)地,Pawlak粗糙集的多個擴展模型已被提出。
通常減少有序結(jié)構(gòu)信息損失的粗糙集方法有兩種:模糊粗糙集和考慮序關(guān)系的粗糙集?;趦?yōu)勢關(guān)系的粗糙集方法(DRSA)考慮了屬性值的有序性[6-9],其將不可分辨關(guān)系擴充到了優(yōu)勢關(guān)系,不同對象在條件屬性上與類標簽單調(diào)的比較可用單調(diào)關(guān)系來表示。優(yōu)勢粗糙集以優(yōu)勢類實現(xiàn)集合上下近似逼近,在此基礎(chǔ)上處理多準則決策和多準則排序問題[10-13]。DRSA自被提出以來,已被擴展為多種形式來處理各類序信息系統(tǒng)中的知識獲取問題,包含特征優(yōu)勢關(guān)系[14]、相似優(yōu)勢關(guān)系[15]和優(yōu)勢等價關(guān)系[16]的優(yōu)勢粗糙集。
優(yōu)勢粗糙集的一個關(guān)鍵應(yīng)用是可對信息系統(tǒng)和決策系統(tǒng)進行屬性約簡和規(guī)則提取。Hu等人[17]提出了一種基于排列熵的單調(diào)分類決策樹。排列熵可以作為一種新的有序信息測度,它比Shannon信息熵[18]對單調(diào)分類具有更好的魯棒性。Qian等學(xué)者通過在學(xué)習基分類器中引入一種保留序關(guān)系的屬性約簡方法,來建立集成單調(diào)決策樹[19-20]。受以上工作的啟發(fā),本文采用優(yōu)勢粗糙集理論中的排列互信息和最大相關(guān)最小冗余相融合進行屬性子集選取,并在每個屬性約簡子集上對不同決策樹進行訓(xùn)練來作為基礎(chǔ)分類器,進而按照投票機制融合這些個體分類器的輸出得到最終分類結(jié)果。