鮑忠奎
1.安徽大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,合肥 230601
2.合肥工業(yè)大學(xué) 管理學(xué)院,合肥 230009
集值序信息系統(tǒng)的信息熵和知識(shí)粒度
鮑忠奎
1.安徽大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,合肥 230601
2.合肥工業(yè)大學(xué) 管理學(xué)院,合肥 230009
粗糙集理論是波蘭數(shù)學(xué)家Pawlak于1982年提出的一種數(shù)據(jù)分析理論[1],它是一種新的處理不確定性知識(shí)的數(shù)學(xué)工具。經(jīng)典的粗糙集理論是在完備信息系統(tǒng)中建立等價(jià)關(guān)系來(lái)研究分析的,但實(shí)際問(wèn)題復(fù)雜多樣,一些對(duì)象在某些屬性下的取值往往不是一個(gè),而是取幾個(gè)值,這樣的信息系統(tǒng)稱為集值信息系統(tǒng)[2]。目前,集值信息系統(tǒng)中的屬性取值(下面說(shuō)成屬性集值)一般有合取和析取兩種不同的語(yǔ)義解釋。文獻(xiàn)[3]在屬性集值為合取型的集值信息系統(tǒng)中定義了相容關(guān)系,并給出基于相容關(guān)系的屬性約簡(jiǎn)和規(guī)則提取問(wèn)題;文獻(xiàn)[4]認(rèn)為相容關(guān)系過(guò)于寬松,提出了兩種擴(kuò)展的相容關(guān)系。另外,實(shí)際中屬性值域很多是帶有偏好關(guān)系的,尤其在企業(yè)管理中,值域具有偏好關(guān)系的屬性最為常見(jiàn),如投資報(bào)酬率、市場(chǎng)占有率、債務(wù)比率等。文獻(xiàn)[5]在屬性集值為合取和析取兩種不同類型的集值信息系統(tǒng)中分別引入了基于優(yōu)勢(shì)關(guān)系的粗糙集方法[6]。但析取型集值序信息系統(tǒng)中定義的二元優(yōu)勢(shì)關(guān)系太過(guò)寬松,沒(méi)有考慮對(duì)象之間的不同優(yōu)勢(shì)程度,容易將優(yōu)勢(shì)關(guān)系不明顯的對(duì)象劃分到優(yōu)勢(shì)類中。
信息系統(tǒng)的不確定度量是另一重要問(wèn)題。目前,熵[7]已被廣泛用于系統(tǒng)的不確定性度量[8-9]。文獻(xiàn)[10]提出了一種信息增益具有補(bǔ)特征的信息熵,給出其條件熵和互信息,并應(yīng)用于度量粗糙集和粗糙分類的模糊性;文獻(xiàn)[11]在非完備信息系統(tǒng)中引入組合熵的概念,其信息增益函數(shù)具有可能知識(shí)含量的特性,并用于度量非完備信息系統(tǒng)的不確定性?;诹6扔^點(diǎn),文獻(xiàn)[12]在序信息系統(tǒng)中給出了知識(shí)的粒度、粗糙熵以及知識(shí)的不確定性度量;文獻(xiàn)[4]在擴(kuò)展相容關(guān)系的同時(shí),基于粒度也給出了集值信息系統(tǒng)的不確定性度量(更多的基于粒度的不確定性度量可參看文獻(xiàn)[13])。但對(duì)于集值序信息系統(tǒng)的不確定性度量文獻(xiàn)中尚不多見(jiàn)。
鑒于以上考慮,本文首先針對(duì)文獻(xiàn)[5]在屬性集值為析取型的集值序信息系統(tǒng)中定義的優(yōu)勢(shì)關(guān)系太過(guò)寬松的不足,提出一種δ-優(yōu)勢(shì)關(guān)系,然后基于δ-優(yōu)勢(shì)關(guān)系對(duì)論域的分劃,將信息熵和知識(shí)粒度引入集值序信息系統(tǒng)中,給出了集值序信息系統(tǒng)不確定性的度量方法。
2.1 集值序信息系統(tǒng)
設(shè) S=<U,AT,V,f>為一集值信息系統(tǒng)[2],其中U是非空的有限對(duì)象集,A是非空的有限屬性集,V是屬性值集合,f是從U×AT到V的冪集P(V)的一個(gè)映射,使得?x∈U,a∈AT,f(x,a)∈P(V)。
根據(jù)集值的不同語(yǔ)義解釋,集值信息系統(tǒng)可分為合取型集值信息系統(tǒng)和析取型集值信息系統(tǒng)。若在集值信息系統(tǒng)的某個(gè)屬性值域上建立了偏序關(guān)系,稱這個(gè)屬性為一個(gè)準(zhǔn)則。當(dāng)所有的屬性均為準(zhǔn)則時(shí),則稱集值信息系統(tǒng)為集值序信息系統(tǒng)。本文僅討論屬性集值為析取型的集值序信息系統(tǒng),表1所示的是一析取型集值序信息系統(tǒng)。例如,對(duì)象x2在屬性a3下的取值為{1,2},表示取值為1或2。
表1 析取型集值序信息系統(tǒng)
2.2 集值序信息系統(tǒng)中的優(yōu)勢(shì)關(guān)系
文獻(xiàn)[5]在屬性集值為析取型的集值序信息系統(tǒng)中,定義了下面的二元優(yōu)勢(shì)關(guān)系。
定義1對(duì)于給定的集值序信息系統(tǒng)S=<U,AT,V,f>,A?AT,定義A上的優(yōu)勢(shì)關(guān)系:
事實(shí)上,優(yōu)勢(shì)關(guān)系R≥
A也可以寫成下面的等價(jià)形式:
其中,maxf(x,a)表示 f(x,a)中的最大值,minf(y,a)表示 f(y,a)中的最小值。
本章首先給出對(duì)象x在屬性a下關(guān)于對(duì)象 y的可能優(yōu)勢(shì)程度:
其中,|f(x,a)≥f(y,a)|=|{(vx,vy)|vx≥vy,vx∈f(x,a),vy∈f(y,a)}|,(|~|表示集合的基數(shù))。
基于對(duì)象之間的優(yōu)勢(shì)程度,在集值序信息系統(tǒng)中給出δ-優(yōu)勢(shì)關(guān)系的定義。
定義2給定集值序信息系統(tǒng) S=<U,AT,V,f>,A?AT,δ∈(0,1],定義A上的δ-優(yōu)勢(shì)關(guān)系:
定義中δ-優(yōu)勢(shì)關(guān)系的自反性的構(gòu)造是合理的,因?yàn)閷?duì)象的屬性集值是析取型的,盡管不知道會(huì)取哪個(gè)值,但一旦取定某個(gè)值,對(duì)象的屬性值就確定下來(lái),不會(huì)再去取其他的值。比如 f(x,a)={2,4},一旦確定 f(x,a)=2,f(x,a)就不會(huì)再取4,所以,f(x,a)=f(x,a)。
與定義1中優(yōu)勢(shì)關(guān)系的過(guò)于寬松相比,定義2要求兩個(gè)不同對(duì)象只有在屬性集值的優(yōu)勢(shì)程度達(dá)到預(yù)先給定的參數(shù)值δ時(shí),才認(rèn)為這兩個(gè)對(duì)象滿足優(yōu)勢(shì)關(guān)系。另外,參數(shù)δ是可以根據(jù)實(shí)際問(wèn)題特點(diǎn)和需要進(jìn)行選取的,這樣可以得到更加適宜的優(yōu)勢(shì)關(guān)系,從而對(duì)對(duì)象的分類更加準(zhǔn)確。
由δ-優(yōu)勢(shì)關(guān)系的定義容易得出下面的結(jié)論。
定理1給定集值序信息系統(tǒng) S=<U,AT,V,f>,B?A?AT,0<δ1≤δ2≤1,有:
定義3給定集值序信息系統(tǒng) S=<U,AT,V,f>,B,A?AT
文獻(xiàn)[8-9]在單值信息系統(tǒng)中提出知識(shí)的信息熵和知識(shí)粒度來(lái)進(jìn)行系統(tǒng)的不確定性度量,接下來(lái),在集值序信息系統(tǒng)中,引入知識(shí)的信息熵和知識(shí)粒度,并討論其滿足的重要性質(zhì)。
4.1 知識(shí)的信息熵
證畢
由信息熵以及δ-優(yōu)勢(shì)關(guān)系的定義容易看出,知識(shí)的信息熵與δ的取值相關(guān),并隨參數(shù)δ的變化而變化,所以,可將知識(shí)A的信息熵寫作E(A)(δ)。
定理3給定集值序信息系統(tǒng) S=<U,AT,V,f>,A?AT,當(dāng)0<δ1≤δ2≤1時(shí),有E(A)(δ1)≤E(A)(δ2)。
定理表明,在集值序信息系統(tǒng)中,知識(shí)越精細(xì),知識(shí)的信息熵越大;δ-優(yōu)勢(shì)關(guān)系中參數(shù)δ取值越大,知識(shí)的信息熵也越大。
4.2 知識(shí)粒度
定理4給定集值序信息系統(tǒng) S=<U,AT,V,f>,B,C?AT,若B?C,有GK(B)<GK(C)。
定理5給定集值序信息系統(tǒng) S=<U,AT,V,f>,A?AT,當(dāng)0<δ1≤δ2≤1時(shí),GK(A)(δ2)≤GK(A)(δ1)。
以上兩定理的證明過(guò)程分別與定理2和3的證明過(guò)程類似,這里不再一一贅述。結(jié)果表明,在集值序信息系統(tǒng)中,知識(shí)越精細(xì),知識(shí)粒度越??;實(shí)際中,隨著優(yōu)勢(shì)關(guān)系中參數(shù)δ取值的增大,優(yōu)勢(shì)類會(huì)變小,知識(shí)粒度也變小。
4.3 信息熵與知識(shí)粒度之間的關(guān)系
定理6對(duì)集值序信息系統(tǒng)S=<U,AT,V,f>,A?AT,知識(shí)A的信息熵與知識(shí)粒度有下面的關(guān)系:GK(A)+ E(A)=1。
證明 由定義4和5易得。
例5對(duì)于表1所示的析取型集值序信息系統(tǒng),由上面的例3、例4知,對(duì)于不同的δ取值,均有E(A)+GK(A)=1,E(B)+GK(B)=1。
實(shí)際問(wèn)題中許多信息系統(tǒng)由于各種原因(如噪聲、信息缺損等)均可看作是集值序信息系統(tǒng)。為此,本文在集值序信息系統(tǒng)中提出一種廣義的二元優(yōu)勢(shì)關(guān)系—δ-優(yōu)勢(shì)關(guān)系,充分考慮對(duì)象間的優(yōu)勢(shì)程度,結(jié)合實(shí)際選取參數(shù)δ,從而確定合適的優(yōu)勢(shì)關(guān)系,使得對(duì)象的分類更加符合實(shí)際。同時(shí),將知識(shí)的信息熵和知識(shí)粒度引入到集值序信息系統(tǒng)中進(jìn)行知識(shí)的不確定性度量,并證明了知識(shí)的信息熵隨知識(shí)分辨能力的增強(qiáng)而上升,知識(shí)粒度隨知識(shí)分辨能力增強(qiáng)而下降等結(jié)論。這些都為集值序信息系統(tǒng)的知識(shí)發(fā)現(xiàn)和獲取提供了理論基礎(chǔ)。
[1]Pawlak Z.Rough sets:theoretical aspects of reasoning about data[M].Boston:Kluwer Academic Publishers,1991.
[2]張文修,梁怡,吳偉志.信息系統(tǒng)與知識(shí)發(fā)現(xiàn)[M].北京:科學(xué)出版社,2003.
[3]Guan Yanyong,Wang Hongkai.Set-valued information systems[J].Information Sciences,2006,176(17):2507-2525.
[4]Dai J,Tian H,Liu L.Entropy measures and granularity measures for set-valued information systems[J].Information Sciences,2013,240:72-82.
[5]Qian Y H,Dang C,Liang J Y,et al.Set-valued ordered information systems[J].Information Sciences,2009,179:2809-2832.
[6]Greco S,Matarazzo B,Slowinski R.Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research,2001,129(1):1-47.
[7]Shannon C.A mathematical theory of communication[J]. The Bell System Technical Journal,1948,27:379-423,623-656.
[8]Liang J Y,Shi Z Z.The information entropy,rough entropy and knowledge granulation in rough set theory[J].International Journal of Uncertainty Fuzziness and Knowledge-Based Systems,2004,12:37-46.
[9]Liang J Y,Shi Z Z,Li D Y,et al.Information entropy,rough entropy and knowledge granulation in incomplete information systems[J].International Journal of General Systems,2006,35:641-654.
[10]Liang J Y,Chin K S,Dang C Y,et al.A new method for measuring uncertainty and fuzziness in rough set theory[J].International Journal of General Systems,2002,31(4):331-342.
[11]Qian Y H,Liang J Y.Combination entropy and combination granulation in incomplete information system[C]// Lecture Notes in Computer Sciecne,2006,4062:184-190. [12]Xu W H,Zhang X Y,Zhang W X.Knowledge granulation,knowledge entropy and knowledge uncertainty measure in ordered information systems[J].Applied Soft Computing,2009,9:1244-1251.
[13]Yao Y Y,Zhao L.A measurement theory view on the granularity of partitions[J].Information Sciences,2012,213:1-13.
BAO Zhongkui
1.School of Mathematical Sciences,Anhui University,Hefei 230601,China
2.School of Management,Hefei University of Technology,Hefei 230009,China
To overcome the shortcoming of the existing dominance relations,a new δ-dominance relation that considers the superiority degree between objects is proposed for set-valued ordered information systems.And then,based on δ-dominance relation,the concepts of information entropy and knowledge granulation are introduced in set-valued ordered information systems to measure the uncertainty.Results show that information entropy and knowledge granulation can evaluate the uncertainty of knowledge in set-valued ordered information systems.
set-valued ordered information systems;δ-dominance relation;information entropy;knowledge granulation
針對(duì)已有文獻(xiàn)中二元優(yōu)勢(shì)關(guān)系定義過(guò)于寬松的不足,在集值序信息系統(tǒng)中結(jié)合對(duì)象間的不同優(yōu)勢(shì)程度,提出δ-優(yōu)勢(shì)關(guān)系的概念;基于δ-優(yōu)勢(shì)關(guān)系,將信息熵和知識(shí)粒度引入集值序信息系統(tǒng)中進(jìn)行不確定性的度量。結(jié)論表明提出的信息熵和知識(shí)粒度可以精確地度量集值序信息系統(tǒng)的不確定性。
集值序信息系統(tǒng);δ-優(yōu)勢(shì)關(guān)系;信息熵;知識(shí)粒度
A
TP18
10.3778/j.issn.1002-8331.1402-0056
BAO Zhongkui.Information entropy and knowledge granulation for set-valued ordered information systems.Computer Engineering and Applications,2014,50(24):38-41.
國(guó)家自然科學(xué)基金(No.71201044,No.71131002,No.71071045);安徽省教育廳資助項(xiàng)目(No.KJ2011Z018);安徽大學(xué)青年科學(xué)研究基金資助項(xiàng)目(No.33050054)。
鮑忠奎(1981—),男,博士研究生,講師,主要研究領(lǐng)域?yàn)榇植诩碚摷捌鋺?yīng)用、決策分析。E-mail:zkbao@ahu.edu.cn
2014-02-11
2014-04-10
1002-8331(2014)24-0038-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-11-04,http∶//www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-0056.html
◎理論研究、研發(fā)設(shè)計(jì)◎