駱公志,梅 燾
南京郵電大學(xué) 管理學(xué)院,南京 210003
粗糙集理論作為一種有效處理不精確和不確定性信息的有效工具[1],當(dāng)前已廣泛應(yīng)用于數(shù)據(jù)挖掘、聚類(lèi)分析、預(yù)警系統(tǒng)和圖像處理等領(lǐng)域[2-5]。經(jīng)典Pawlak 粗糙集將論域分為正域和邊界域的集合,而未恰當(dāng)解釋決策類(lèi)的負(fù)域,導(dǎo)致經(jīng)典粗糙集中負(fù)域恒為空。
鑒于經(jīng)典Pawlak 粗糙集存在無(wú)法描述決策類(lèi)負(fù)域的問(wèn)題,Yao 在長(zhǎng)期研究概率粗糙集過(guò)程中,用概率粗糙集將論域分為三個(gè)區(qū)域[6],即正域、負(fù)域和邊界域,提出符合人類(lèi)實(shí)際認(rèn)知能力的三支決策模式,并依據(jù)貝葉斯最小風(fēng)險(xiǎn)決策規(guī)則,定義概率粗糙集中兩個(gè)參數(shù)在現(xiàn)實(shí)里的語(yǔ)義解釋?zhuān)Q策粗糙集模型[7-8]。之后有學(xué)者針對(duì)Yao 的三支決策模型并未考慮決策時(shí)所遇到的多樣性以及適應(yīng)性的現(xiàn)實(shí)問(wèn)題,將其引入到鄰域[9]、動(dòng)態(tài)粒度[10-11]、群決策[12]等方面。
技術(shù)上的進(jìn)步促進(jìn)了信息科技的飛速發(fā)展,隨之導(dǎo)致了信息處理量的劇增,梁吉業(yè)等學(xué)者針對(duì)單一粒度空間下粗糙集的缺點(diǎn),考慮粒計(jì)算[13]下多粒度的特點(diǎn),提出了多粒度粗糙集[14],同時(shí)定義了悲觀多粒度粗糙集和樂(lè)觀多粒度粗糙集[15-16]。由于多粒度粗糙集模型不但可以處理分布式數(shù)據(jù)[17-18],且在處理時(shí)間上呈現(xiàn)出更加高效的特性,因此在應(yīng)用上有更加寬廣的前景。Dai 等針對(duì)多粒度粗糙集的屬性約簡(jiǎn)問(wèn)題,將粒子群算法引入其中,提出一種新的多知識(shí)快速約簡(jiǎn)方法[19]。Jing 將知識(shí)粒度與視圖相結(jié)合,提出新的增量式屬性約簡(jiǎn)方法[20]。
錢(qián)宇華等學(xué)者進(jìn)一步將多粒度數(shù)據(jù)分析的理念引入決策粗糙集中,建立了多粒度決策粗糙集模型[21-23]。史進(jìn)玲從決策信息表視角出發(fā),著眼于粒度劃分?jǐn)?shù)量和?;瘺Q策權(quán)重,提出了基于風(fēng)險(xiǎn)最小化的多粒度三支決策模型[24]。Wu針對(duì)多粒度標(biāo)記信息系統(tǒng)考慮了不同標(biāo)記尺度,提出了多粒度劃分粗糙集分析方法[25]。顧沈明在多粒度標(biāo)記信息系統(tǒng)的前提下,尋求單個(gè)粒度的最優(yōu)點(diǎn),提出了多粒度決策系統(tǒng)下的局部最優(yōu)粒度選擇[26]。Li 從集合近似的角度出發(fā),將多粒度與三支決策相結(jié)合,給定了一種新的學(xué)習(xí)認(rèn)知概念[27]。
傳統(tǒng)多粒度決策粗糙集使用單一閾值,大大限制了對(duì)論域?;约敖档托畔⒉淮_定性的能力。本文借助監(jiān)督學(xué)習(xí)中對(duì)象現(xiàn)有或預(yù)測(cè)的標(biāo)記信息[28],引入類(lèi)內(nèi)閾值和類(lèi)間閾值的概念,結(jié)合多粒度數(shù)據(jù)分析的優(yōu)勢(shì),構(gòu)建新的多粒度決策粗糙模型,提出了基于監(jiān)督機(jī)制的多粒度決策粗糙集,驗(yàn)證了模型的相關(guān)性質(zhì),并討論了模型之間的關(guān)系。該模型是傳統(tǒng)多粒度決策粗糙集的推廣形式,通過(guò)理論分析和實(shí)例證明,該模型可以通過(guò)變更類(lèi)內(nèi)閾值和類(lèi)間閾值來(lái)提升多粒度決策粗糙集刻畫(huà)不確定性知識(shí)的能力,幫助優(yōu)化決策,具有更好的實(shí)用性。
設(shè)信息系統(tǒng)S=<U,A=C?D,V,f >,A=C?D,其中U={x1,x2,…,xn}為有限對(duì)象集,稱為論域;A表示全體屬性集,C為條件屬性集,D為決策屬性集,Va為屬性a∈A的值域,f(x,a)表示對(duì)象x在屬性a上的取值。
定義1[1]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中屬性子集Ai?A,可構(gòu)成二元不可分辨關(guān)系:
IND(A)稱為自反的、對(duì)稱的和傳遞的。
定義2[6]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中屬性子集Ai?A,對(duì)于任意X?U,決策粗糙集的下近似、上近似和邊界區(qū)為:
其中:0 ≤β < α≤ 1 。
定義3[15]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集,對(duì)于任意X?U,樂(lè)觀多粒度粗糙集的下近似、上近似和邊界區(qū)分別為:
定義4[16]設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集,對(duì)于任意X?U,悲觀多粒度粗糙集的下近似、上近似和邊界區(qū)分別為:
為區(qū)分類(lèi)內(nèi)關(guān)系和類(lèi)外關(guān)系,本文在已有研究基礎(chǔ)的前提下,給出參數(shù)λ的定義:即X與Y的交集超過(guò)一半及以上可判定為類(lèi)內(nèi),否則判定為類(lèi)外。
本文規(guī)定當(dāng)P(Dk|[x]Ai)>λ時(shí),采用類(lèi)內(nèi)閾值α0、β0,否則采用類(lèi)間閾值α1、β1。
定義5設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。給定類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1 。Dk的關(guān)于屬性子集A1,A2,…,Am的樂(lè)觀多粒度監(jiān)督?jīng)Q策粗糙集的下近似、上近似以及邊界區(qū)為:
當(dāng)α0=1,α1=β1=β0=0 時(shí),基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集退化為傳統(tǒng)的樂(lè)觀多粒度粗糙集。為降低信息的不確定性,采用如下方法:使類(lèi)內(nèi)閾值α0等于傳統(tǒng)下近似閾值α,減小類(lèi)間閾值α1,即0 ≤α1<α0≤1。
定理1設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。給定類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 ??芍?/p>
證明
同理可證(2)。
由定理1可知,基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的下、上近似是各粒度分類(lèi)規(guī)則下的下、上近似集合的并。
定義6設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。給定類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1。Dk的關(guān)于屬性子集A1,A2,…,Am的悲觀多粒度監(jiān)督?jīng)Q策粗糙集的下近似、上近似以及邊界區(qū)作如下定義:
當(dāng)α0=1,α1=β1=β0=0 時(shí),基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集退化為傳統(tǒng)的悲觀多粒度粗糙集。為降低信息的不確定性,采用如下方法使類(lèi)內(nèi)閾值α0等于傳統(tǒng)下近似閾值α,減小類(lèi)間閾值α1,即0 ≤α1<α0≤1。
定理2設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。給定類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:
證明
同理可證(2)。
定理3設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。給定類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 ??芍?/p>
證明
同理可證(2)。
由定理3可知,基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似是各粒度分類(lèi)規(guī)則下的下、上近似集合的交。
定理4設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。給定類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則基于監(jiān)督機(jī)制的多粒度決策粗糙集有如下性質(zhì):
證明由定義5和定義6可得。
定義7設(shè)S=<U,A=C?D,V,f >是一個(gè)完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個(gè)屬性子集。決策屬性D將U劃分為K個(gè)決策類(lèi),表示為D={Dk},k=1,2,…,n。且類(lèi)內(nèi)閾值α0,β0和類(lèi)間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則集合X在樂(lè)觀與悲觀條件下的分類(lèi)精度作如下定義:
分類(lèi)質(zhì)量分別定義為:
為說(shuō)明該算法的可行性和有用性,本章將基于監(jiān)督機(jī)制的多粒度決策粗糙集應(yīng)用于工地項(xiàng)目建設(shè)后的評(píng)價(jià)問(wèn)題??紤]15個(gè)已經(jīng)完成的工地項(xiàng)目,表1從三個(gè)一級(jí)指標(biāo):項(xiàng)目建設(shè)質(zhì)量評(píng)價(jià)、技術(shù)評(píng)價(jià)、環(huán)境保護(hù)評(píng)價(jià),以及相對(duì)應(yīng)的8個(gè)二級(jí)指標(biāo)(以分號(hào)劃分):樁基工程質(zhì)量、基礎(chǔ)工程質(zhì)量、主體工程質(zhì)量;工藝流程、工藝路線、工藝創(chuàng)新;“三廢”排放情況、環(huán)保設(shè)施運(yùn)行狀況進(jìn)行判別,從而得到的關(guān)于工地項(xiàng)目建設(shè)后的評(píng)估數(shù)據(jù)表。
將整個(gè)評(píng)估表看做一個(gè)完備決策信息系統(tǒng),論域U={x1,x2,…,x15}表示15個(gè)已經(jīng)完成的工地項(xiàng)目,條件屬性集合C={a1,a2,a3,a4,a5,a6,a7,a8} ,決策屬性集合D={D1,D2}分別表示驗(yàn)收通過(guò)和不通過(guò),并分別用1和2表示,決策信息系統(tǒng)的條件屬性子集族為R={R1,R2,R3}={{a1,a2,a3},{a4,a5,a6},{a7,a8}}。其中評(píng)價(jià)指標(biāo)被分成4類(lèi)e={1,2,3,4},分別表示e={優(yōu),良,中,差}。
表1 工地項(xiàng)目建設(shè)評(píng)價(jià)
基于專(zhuān)家經(jīng)驗(yàn),在這里以β0=0.45,β1=0.4,λ=0.5為例,調(diào)整類(lèi)內(nèi)閾值α0和類(lèi)間閾值α1,獲取不同情況下基于監(jiān)督機(jī)制的多粒度決策粗糙集的下、上近似集。
步驟1根據(jù)決策屬性D劃分決策類(lèi)如下:
步驟2在條件屬性集子集族下,根據(jù)表1劃分等價(jià)類(lèi)如下:
根據(jù)定義5~7,計(jì)算基于監(jiān)督機(jī)制的多粒度決策粗糙集的下近似和上近似分別如下。
(1)當(dāng)α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí) ,基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的下、上近似求得為:
基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似求得為:
(2)當(dāng)α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5時(shí),基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的下、上近似求得為:
基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似求得為:
(3)當(dāng)α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí),基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的下、上近似求得為:
基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下、上近似求得為:
(4)當(dāng)α0=0.7,α1=0.4,λ=0.5 時(shí),此時(shí)α1< β0=0.45,因此只考慮下近似,基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的下近似求得為:
基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下近似求得為:
(5)當(dāng)α0=0.7,α1=0.25,λ=0.5 時(shí),此時(shí)α1< β0=0.45,因此只考慮下近似,基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的下近似求得為:
基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的下近似求得為:
步驟3以基于監(jiān)督機(jī)制的樂(lè)觀和悲觀多粒度決策粗糙集為例,求得三種情況下決策類(lèi)的分類(lèi)質(zhì)量。
(1)當(dāng)α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí):
(2)當(dāng)α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí):
(3)當(dāng)α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時(shí):
以β0=0.45,β1=0.4,λ=0.5 為例,求得三種不同類(lèi)內(nèi)閾值情況下,基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集的分類(lèi)質(zhì)量均為100%,基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集的分類(lèi)質(zhì)量分別為40%、60%、80%。對(duì)比發(fā)現(xiàn)固定β0、β1,隨著給定類(lèi)內(nèi)閾值α0的不斷減少,決策信息系統(tǒng)中的對(duì)象越能被正確分類(lèi),這表明調(diào)整閾值α0,在一定程度上可降低噪聲的影響。通過(guò)實(shí)例也能看出,隨著類(lèi)間閾值α1的減少也會(huì)使得樂(lè)觀與悲觀多粒度決策粗糙集的下近似集變多,即正域變大。因此根據(jù)監(jiān)督信息合理控制和調(diào)整類(lèi)內(nèi)、類(lèi)間閾值,能夠提高決策屬性D關(guān)于條件屬性C的分類(lèi)精度,使模型具有一定的容錯(cuò)能力和很強(qiáng)的分類(lèi)能力。而且觀察表1可以發(fā)現(xiàn),第五個(gè)工地屬性均為良及以上,卻被認(rèn)為驗(yàn)收不通過(guò),基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集在三種情況下均能將該工地正確分類(lèi),可見(jiàn)由于人工處理的時(shí)候,會(huì)出現(xiàn)一定的誤差,而基于監(jiān)督機(jī)制的多粒度決策粗糙集能夠及時(shí)發(fā)現(xiàn),幫助人們進(jìn)行正確決策。
為進(jìn)一步驗(yàn)證模型在決策信息系統(tǒng)能夠有效分類(lèi),與經(jīng)典樂(lè)觀、悲觀多粒度決策粗糙集進(jìn)行對(duì)比,并以本文表1 案例的數(shù)據(jù)為例。當(dāng)α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5,α=0.7,β=0.4 時(shí),基于監(jiān)督機(jī)制的樂(lè)觀多粒度決策粗糙集分類(lèi)質(zhì)量為100%,基于監(jiān)督機(jī)制的悲觀多粒度決策粗糙集分類(lèi)質(zhì)量為60%,經(jīng)典樂(lè)觀多粒度決策粗糙集分類(lèi)質(zhì)量為100%,經(jīng)典悲觀多粒度決策粗糙集分類(lèi)質(zhì)量為53%。結(jié)果表明基于監(jiān)督機(jī)制的多粒度決策粗糙集對(duì)決策信息系統(tǒng)分類(lèi)后,相比經(jīng)典多粒度決策粗糙集,在分類(lèi)質(zhì)量上有所提高。這是由于本文構(gòu)建的新模型不僅借鑒了多粒度決策粗糙集能夠從多層次、多角度綜合考慮不同屬性子集的優(yōu)點(diǎn),更能通過(guò)調(diào)整類(lèi)內(nèi)和類(lèi)間閾值,使模型具有一定的容錯(cuò)能力,同時(shí)兼顧考慮屬性子集的特征,使得對(duì)象分類(lèi)更為準(zhǔn)確。
為降低信息不確定性,本文引入類(lèi)內(nèi)閾值和類(lèi)間閾值,使決策系統(tǒng)中類(lèi)對(duì)象內(nèi)的數(shù)量增加而減少類(lèi)間對(duì)象的數(shù)量,將其應(yīng)用在多粒度決策粗糙集,提出一種基于監(jiān)督機(jī)制的多粒度決策粗糙集,給出了樂(lè)觀多粒度決策粗糙集和悲觀多粒度決策粗糙集兩種模型的完整定義,并著重討論了基本性質(zhì)和度量參數(shù)。通過(guò)類(lèi)內(nèi)和類(lèi)間閾值的不同取值可以得到不同程度的對(duì)象分類(lèi),使得本文提出的模型具有一定的穩(wěn)定性和靈活性,并有效提升多粒度決策粗糙集刻畫(huà)不確定性知識(shí)的能力。接下來(lái),將進(jìn)一步研究類(lèi)內(nèi)和類(lèi)間上近似閾值間的關(guān)系、決策規(guī)則獲取和屬性約簡(jiǎn)等問(wèn)題。