基于信息?；膮^(qū)間值信息系統(tǒng)不確定性度量方法

2021-08-12 08:53:00甘秀娜王月波

計(jì)算機(jī)應(yīng)用與軟件 2021年8期

甘秀娜李明王月波

1(石家莊鐵路職業(yè)技術(shù)學(xué)院組織人事部河北石家莊 050041)2(石家莊鐵道大學(xué)四方學(xué)院經(jīng)濟(jì)管理系河北石家莊 051132)3(河北銀行股份有限公司信息技術(shù)部河北石家莊 050000)

0 引言

信息系統(tǒng)的不確定性度量是目前信息科學(xué)領(lǐng)域的研究熱點(diǎn)。粗糙集是波蘭學(xué)者Pawlak[1]提出的一種信息分析理論，尤其在處理不確定性數(shù)據(jù)方面表現(xiàn)出了良好的性能，因此目前廣泛用于數(shù)據(jù)的不確定性度量[2]。

區(qū)間值信息系統(tǒng)是一種較為常見(jiàn)的信息系統(tǒng)形式，其廣泛存在于醫(yī)療和金融領(lǐng)域[3]。針對(duì)這種類型的信息系統(tǒng)，Yao等[4]將傳統(tǒng)的粗糙集理論推廣至區(qū)間值信息系統(tǒng)中，提出了上下近似的定義，建立了區(qū)間值粗糙集模型。在文獻(xiàn)[4]的基礎(chǔ)上，Dai等[5-7]利用區(qū)間值粗糙集模型提出區(qū)間值信息系統(tǒng)的多種不確定性度量方法，其方法都是利用區(qū)間值粗糙集上下近似來(lái)度量近似對(duì)象集的粗糙度，然后用粗糙度去表示區(qū)間值信息系統(tǒng)的不確定性度量結(jié)果。譚佳德等[8]做了進(jìn)一步改進(jìn)，提出了基于覆蓋方法的區(qū)間值信息系統(tǒng)不確定性度量，并提出對(duì)應(yīng)的屬性約簡(jiǎn)算法。

近年來(lái)，Liang等[9]指出傳統(tǒng)的基于粗糙集上下近似的不確定性度量存在一定的局限性，即隨著信息系統(tǒng)屬性的增加，不確定性度量逐漸降低，而粗糙度可能會(huì)存在不變的情形，進(jìn)一步利用粒計(jì)算的知識(shí)粒度方法進(jìn)行度量可以改善這一局限[9]。粒計(jì)算是著名學(xué)者Zadeh[10]提出的一種信息計(jì)算理論，Liang等[11]將該理論進(jìn)一步引入粗糙集模型中。苗奪謙等[12]利用粒計(jì)算方法進(jìn)行信息系統(tǒng)的不確定性分析，Zhang等[13]利用粒計(jì)算模型對(duì)信息系統(tǒng)進(jìn)行信息?；?，然后利用?；Y(jié)果進(jìn)行不確定性度量。同樣地，Chen等[14]利用信息?；椒ㄟM(jìn)行鄰域信息系統(tǒng)的不確定性度量，Qin等[15]進(jìn)行不完備信息系統(tǒng)的不確定性度量，徐風(fēng)等[16]在模糊鄰域信息系統(tǒng)進(jìn)行信息粒化，并設(shè)計(jì)出一種不確定性度量方法。

針對(duì)區(qū)間值信息系統(tǒng)的不確定性度量，本文首先將通過(guò)實(shí)例方法驗(yàn)證粗糙度度量的缺陷，然后在目前粒計(jì)算度量方法的研究成果上，將信息?；姆椒ㄒ?yún)^(qū)間值信息系統(tǒng)中，定義了區(qū)間值信息系統(tǒng)下的信息粒結(jié)構(gòu)，并進(jìn)一步地提出區(qū)間值信息系統(tǒng)的知識(shí)粒度度量方法，理論分析證明了該方法在信息系統(tǒng)不確定性度量方面的有效性。同時(shí)基于區(qū)間值信息系統(tǒng)的信息粒結(jié)果，本文進(jìn)一步地提出一種區(qū)間值信息系統(tǒng)的粗糙熵度量，理論證明了粗糙熵的嚴(yán)格單調(diào)性，同樣可以用于區(qū)間值信息系統(tǒng)的不確定性度量。最后通過(guò)實(shí)驗(yàn)分析驗(yàn)證了所提出的知識(shí)粒度和粗糙熵均優(yōu)于傳統(tǒng)的粗糙熵度量。

1 區(qū)間值信息系統(tǒng)與不確定性度量

區(qū)間值信息系統(tǒng)是一種常見(jiàn)的信息系統(tǒng)類型，該信息系統(tǒng)中，屬性值以一種區(qū)間值的數(shù)據(jù)來(lái)表示。

設(shè)區(qū)間數(shù)為[R]={r=[r-,r+]|r-,r+∈R,r-≤r+}，其中R表示實(shí)數(shù)域，對(duì)于常數(shù)?a∈R，可表示成區(qū)間值形式為a=[a,a]。

對(duì)于a,b∈[R]，那么有：

(1)a=b?a-=b-,a+=b+。

(2)a≤b?a-≤b-,a+≤b+;a

定義1[4]設(shè)區(qū)間數(shù)a,b∈[R]，a關(guān)于b的概率定義為：

(1)

根據(jù)定義1，區(qū)間數(shù)滿足如下關(guān)系[4]:

(1)a,b∈[R],0≤P(a,b)≤1。

(2)a∈[R],P(a,a)=1。

(3)a,b∈[R],P(a,b)+P(b,a)=1。

定義2[4]設(shè)區(qū)間數(shù)a,b∈[R]，a與b之間的相似度定義為：

S(a,b)=1-|P(a,b)-P(b,a)|

(2)

根據(jù)定義2，區(qū)間數(shù)滿足如下關(guān)系[4]：

(1)a,b∈[R],S(a,b)=S(b,a)。

(2)a,b∈[R],0≤S(a,b)≤1。

(3)a,b∈[R],S(a,b)=1?a=b。

設(shè)區(qū)間值信息系統(tǒng)表示為IS=(U,A)，其中：U為信息系統(tǒng)的論域；A為信息系統(tǒng)的屬性集。

定義3[6]考慮區(qū)間值信息系統(tǒng)IS=(U,A)，設(shè)θ∈(0,1]和屬性子集B?A，定義屬性子集B在論域U上誘導(dǎo)的相似關(guān)系為：

(3)

(4)

區(qū)間值信息系統(tǒng)上的相似關(guān)系對(duì)論域誘導(dǎo)出的相似類，可以進(jìn)一步建立區(qū)間值信息系統(tǒng)的粗糙集模型。

(5)

(6)

式中：θ近似度反映的是在閾值θ下，屬性集B對(duì)對(duì)象集X的近似逼近程度；θ粗糙度則與θ近似度相反，反映的是屬性集B近似逼近的不確定性程度，因此θ粗糙度也被學(xué)者們用來(lái)度量區(qū)間值信息系統(tǒng)的不確定性[6]。

2 區(qū)間值信息系統(tǒng)不確定性度量方法

2.1 傳統(tǒng)區(qū)間值信息系統(tǒng)不確定性度量的局限性

雖然粗糙度是度量信息系統(tǒng)的一種重要的方法，但是近年來(lái)，一些學(xué)者指出該種度量方法存在一定的不足，隨著屬性的變化，粗糙度不一定滿足嚴(yán)格單調(diào)，從而不能很好地進(jìn)行信息系統(tǒng)的不確定性評(píng)估[9]。下面通過(guò)一個(gè)例子來(lái)說(shuō)明。

例1表1所示為一個(gè)區(qū)間值信息系統(tǒng)，其中：U為信息系統(tǒng)的論域；{a,b,c,d,e}為信息系統(tǒng)的屬性集。

表1 區(qū)間值信息系統(tǒng)

設(shè)P={a,b}，Q={a,b,c}，并且θ=0.4，對(duì)于X={x2,x5}有：

根據(jù)定義4有:

但是，對(duì)象在屬性集Q下的相似類均小于在屬性集P下的相似類，因此屬性集Q的不確定性要小于屬性集P，而θ粗糙度值是一樣的，因此該度量方法不能很好地反映區(qū)間值信息系統(tǒng)的不確定性程度。

2.2 區(qū)間集信息系統(tǒng)信息?；Ｐ?/h3>
本節(jié)將在文獻(xiàn)[9,11]信息系統(tǒng)的粒化模型基礎(chǔ)上，將信息?；Ｐ屯茝V至區(qū)間值信息系統(tǒng)中，提出相應(yīng)的知識(shí)粒度度量方法。
(7)
性質(zhì)1設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，給定θ∈(0,1]和屬性子集P,Q?A，若P?Q，則有：
(8)
證畢。
性質(zhì)2設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，設(shè)屬性子集P?A，若0<θ1≤θ2≤1，則有：
(9)
證畢。
下面在區(qū)間值信息系統(tǒng)粒化模型的基礎(chǔ)上，進(jìn)一步研究信息系統(tǒng)的知識(shí)粒度度量。
定義7設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，給定θ∈(0,1]，設(shè)Gθ:2A→(-∞,+∞)是一個(gè)映射函數(shù)，Gθ被稱為知識(shí)粒度需滿足如下3個(gè)條件：
(1) 非負(fù)性：?B?A，Gθ(B)≥0。
接下來(lái)將定義一種知識(shí)粒度的表達(dá)形式。
定義8設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，|U|=n，給定θ∈(0,1]，對(duì)于屬性子集B?A在論域U下的知識(shí)粒度Gθ(B)定義為：
(10)
可以看出，定義8中區(qū)間值信息系統(tǒng)的知識(shí)粒度定義滿足定義7的3個(gè)基本條件。
即
證畢。
性質(zhì)4設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，|U|=n，給定θ1,θ2∈(0,1]以及屬性子集P,Q?A，則滿足：
亦即Gθ1(P)≤Gθ2(Q)，則(1)成立，同理(2)成立。
證畢。
性質(zhì)4的(1)表明，隨著區(qū)間值信息系統(tǒng)的信息?；泳?xì)時(shí)，其區(qū)間值信息系統(tǒng)的知識(shí)粒度是逐漸減小的，并且性質(zhì)4的(2)表明知識(shí)粒度是嚴(yán)格單調(diào)性變化的，因此利用知識(shí)粒度進(jìn)行區(qū)間值信息系統(tǒng)的不確定性度量是適用的。
性質(zhì)5設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，|U|=n，那么滿足:
(1) 若P?Q?A且θ∈(0,1]，那么Gθ(Q)≤Gθ(P)。
(2) 若0<θ1≤θ2≤1且B?A，那么Gθ2(B)≤Gθ1(B)。
證畢。
例2區(qū)間值信息系統(tǒng)如表1所示。設(shè)P={a,b}，Q={a,b,c}，并且θ=0.4，根據(jù)例1有：
比較例1可以發(fā)現(xiàn)，從P至Q隨著屬性的增加，知識(shí)粒度的結(jié)果發(fā)生了變化，因此知識(shí)粒度更加嚴(yán)格單調(diào)。

2.3 基于熵的區(qū)間值信息系統(tǒng)不確定性度量

通過(guò)信息系統(tǒng)的?；Ｐ停梢詫⑿畔⑾到y(tǒng)的論域分解成一個(gè)個(gè)信息粒，通過(guò)這些信息粒，學(xué)者們提出了信息系統(tǒng)的熵模型[11]，并利用這些熵的方法去進(jìn)行信息系統(tǒng)的不確定性度量。本節(jié)將這些方法進(jìn)一步推廣，提出區(qū)間值信息系統(tǒng)下的熵模型，并構(gòu)造相應(yīng)的不確定性度量方法。

(11)

區(qū)間值信息系統(tǒng)下的粗糙熵滿足性質(zhì)6-性質(zhì)8。

0≤Eθ(B)≤nlog2n

(12)

則有

證畢。

性質(zhì)7設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，|U|=n，給定θ1,θ2∈(0,1]以及P,Q?A，則：

即Eθ1(P)≤Eθ2(Q)，所以(1)成立，同理(2)也成立。

證畢。

性質(zhì)7的(1)表明，隨著區(qū)間值信息系統(tǒng)的信息?；泳?xì)時(shí)，其區(qū)間值信息系統(tǒng)的粗糙熵是逐漸減小的，即粗糙熵滿足單調(diào)性，并且性質(zhì)7的(2)表明粗糙熵滿足嚴(yán)格單調(diào)性變化的。

性質(zhì)8設(shè)區(qū)間值信息系統(tǒng)IS=(U,A)，|U|=n，那么：

(1) 若P,Q?A且P?Q，對(duì)于θ∈(0,1]有Eθ(Q)≤Eθ(P)。

(2) 若0<θ1≤θ2≤1，對(duì)于B?A有Eθ2(B)≤Eθ1(B)。

證畢。

例3區(qū)間值信息系統(tǒng)如表1所示。設(shè)P={a,b}，Q={a,b,c}，并且θ=0.4，根據(jù)例1有:

上述結(jié)果同樣表明粗糙熵具有更嚴(yán)格的單調(diào)性。

3 實(shí)驗(yàn)與結(jié)果分析

本節(jié)將通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證本文方法的有效性，表2所示的是實(shí)驗(yàn)中的區(qū)間值信息系統(tǒng)，其中數(shù)據(jù)集1-數(shù)據(jù)集3選取自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集庫(kù)，所有非區(qū)間值的屬性已進(jìn)行刪除，數(shù)據(jù)集4-數(shù)據(jù)集5是本文實(shí)驗(yàn)隨機(jī)生成的人工數(shù)據(jù)集。

表2 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)將每個(gè)數(shù)據(jù)集按照屬性依次增加的順序計(jì)算信息系統(tǒng)的粗糙度、知識(shí)粒度和粗糙熵的結(jié)果，這些結(jié)果表示的是不同度量方法對(duì)信息系統(tǒng)不確定性度量的值。如圖1-圖5所示，其中區(qū)間值信息系統(tǒng)的θ值選取為0.7。

(a) 粗糙度

圖1中，隨著屬性數(shù)量的增加，三種不確定性度量值均是不斷降低的，這主要是由于屬性的增加意味著可獲取的知識(shí)越來(lái)越多，那么信息系統(tǒng)的不確定性程度則越來(lái)越小。比較圖1中粗糙度、知識(shí)粒度和粗糙熵的結(jié)果可以發(fā)現(xiàn)，在屬性由1增加至2時(shí)，粗糙度的值保持不變，而知識(shí)粒度和粗糙熵的值均是減小的，說(shuō)明屬性由1增加至2時(shí)，信息系統(tǒng)的不確定性發(fā)生了減小，但是粗糙度并沒(méi)有刻畫出這種變化。產(chǎn)生這種現(xiàn)象的主要原因是由于屬性由1增加至2時(shí)，雖然對(duì)象的相似類發(fā)生了變化，但是信息系統(tǒng)決策類的近似程度并沒(méi)有發(fā)生變化。正如本文例1展示的那樣，發(fā)生變化的相似類不改變粗糙集的上下近似集，因此粗糙度不能很好地反映信息系統(tǒng)不確定性程度。相反，屬性由1增加至2時(shí)，知識(shí)粒度和粗糙熵的值是降低的，因此知識(shí)粒度和粗糙熵的評(píng)估程度要更好一些。在圖2數(shù)據(jù)集的不確定性度量中，當(dāng)屬性由2增加至3時(shí)，粗糙度保持不變，而知識(shí)粒度和粗糙熵是減小，其原因與圖1也是一樣的。同樣地，在圖3中，屬性由1增加至5，粗糙度的不確定性度量結(jié)果保持不變，其余兩種度量方法的度量值是降低的，均表現(xiàn)出了信息系統(tǒng)不確定性的變化。此外觀察圖3可以發(fā)現(xiàn)一個(gè)有趣的結(jié)果，在數(shù)據(jù)集屬性由20增加至21時(shí)，三種度量結(jié)果表現(xiàn)一致，均大幅度減小，這說(shuō)明屬性21的增加使得信息系統(tǒng)的不確定性大幅度降低，從而證明知識(shí)粒度和粗糙熵能達(dá)到粗糙度同樣的度量效果。在圖3中屬性32增加至33，粗糙度和知識(shí)粒度均大幅度減小，粗糙熵也有一定幅度的減小。在圖4中屬性由1增加至2，圖5屬性由1增加至5和屬性由9增加至12，這些情形粗糙度度量值均未發(fā)生變化，而另外兩種度量方法均表現(xiàn)出了信息系統(tǒng)不確定性的改變。

綜合以上實(shí)驗(yàn)結(jié)果，表明本文所提出的區(qū)間值信息系統(tǒng)知識(shí)粒度度量和粗糙熵度量不僅可以改善傳統(tǒng)粗糙度度量的局限，而且還能表現(xiàn)出粗糙度同樣的不確定性度量性能。由于知識(shí)粒度度量和粗糙熵度量均具有嚴(yán)格的單調(diào)性，因此實(shí)際應(yīng)用中可以任意選擇其中一種進(jìn)行應(yīng)用。

4 結(jié) 語(yǔ)

不確定性度量是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等領(lǐng)域的重要研究?jī)?nèi)容，粗糙集和粒計(jì)算理論是進(jìn)行信息系統(tǒng)不確定性度量的強(qiáng)有力工具。針對(duì)區(qū)間值信息系統(tǒng)，本文揭示了傳統(tǒng)粗糙集中粗糙度在進(jìn)行不確定度量時(shí)的不足，同時(shí)提出一種區(qū)間值信息系統(tǒng)的知識(shí)?；Ｐ汀Ｍㄟ^(guò)定義區(qū)間值信息系統(tǒng)上的粒結(jié)構(gòu)，進(jìn)一步地提出知識(shí)粒度度量，理論分析證明了該度量隨知識(shí)?；膯握{(diào)性，可以用作區(qū)間值信息系統(tǒng)的不確定性度量。同時(shí)基于該信息?；Ｐ?，通過(guò)信息熵的角度提出了區(qū)間值信息系統(tǒng)的粗糙熵度量，同樣證明了可以用作信息系統(tǒng)的不確定性度量。實(shí)驗(yàn)分析表明，所提出的兩種度量方法均改善了區(qū)間值信息系統(tǒng)傳統(tǒng)粗糙度度量的局限性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于信息?；膮^(qū)間值信息系統(tǒng)不確定性度量方法

0 引 言