陶 志,何丹峰,潘麗平
(中國(guó)民航大學(xué)理學(xué)院,天津 300300)
條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系粗糙集模型
陶 志,何丹峰,潘麗平
(中國(guó)民航大學(xué)理學(xué)院,天津 300300)
基于先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙集模型是對(duì)粗糙集理論的重要擴(kuò)充,然而卻有其不足之處。本研究提出的基于條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙集模型是建立在對(duì)不完備偏序關(guān)系決策系統(tǒng)屬性值數(shù)據(jù)統(tǒng)計(jì)的基礎(chǔ)上,既考慮到同一屬性取值的不同情況又考慮到不同屬性之間的關(guān)聯(lián)性,充分利用各種先驗(yàn)信息,因此有效提高了分類(lèi)精度和分類(lèi)質(zhì)量。理論分析和實(shí)例計(jì)算均證明了該模型的有效性和實(shí)用性。
粗糙集;不完備偏序關(guān)系決策系統(tǒng);條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系
粗糙集理論自在1982年被波蘭學(xué)者Z Pawlak[1]提出以來(lái),已被普遍使用于處理各種不完整和不確定性問(wèn)題。然而,Pawlak所提出的經(jīng)典粗糙集理論只適用于完備的信息系統(tǒng),并且將屬性看作常規(guī)屬性(屬性值之間不具有優(yōu)劣順序)。事實(shí)上,由于數(shù)據(jù)缺失和受人們主觀(guān)偏好的影響,在許多實(shí)際問(wèn)題中碰到更多的是含有偏序關(guān)系的不完備信息系統(tǒng),為處理這一問(wèn)題,Greco等[2]提出了基于優(yōu)勢(shì)關(guān)系的粗糙集模型,這是人們首次在多屬性分析決策問(wèn)題中使用優(yōu)勢(shì)關(guān)系而非等價(jià)關(guān)系。在此之后,針對(duì)帶有偏序關(guān)系的多準(zhǔn)則不完備信息系統(tǒng),學(xué)者們又給出許多新的優(yōu)勢(shì)關(guān)系模型。例如,擴(kuò)展優(yōu)勢(shì)關(guān)系模型[3]和限制擴(kuò)展優(yōu)勢(shì)關(guān)系模型[4],但前者過(guò)于寬松,后者的要求又過(guò)于嚴(yán)格,均有自身的局限性。同時(shí),由于上述模型都沒(méi)有考慮已知信息對(duì)未知屬性值的影響,因此普遍存在分類(lèi)精度不高、分類(lèi)不盡合理等方面的不足。針對(duì)這些情況,有學(xué)者提出了先驗(yàn)概率優(yōu)勢(shì)關(guān)系[5]粗糙集模型和加權(quán)先驗(yàn)概率優(yōu)勢(shì)關(guān)系[6]粗糙集模型。但是,這些利用先驗(yàn)信息來(lái)推測(cè)未知屬性值的粗糙集模型均只單方面考慮了屬性值之間的關(guān)系,忽視了屬性與屬性之間的關(guān)聯(lián)性,具有某種局限性。實(shí)際上在含有偏序關(guān)系的不完備決策系統(tǒng)中,條件屬性間經(jīng)常是具有某種關(guān)聯(lián)關(guān)系存在的,例如,某高中生的化學(xué)成績(jī)由于某種原因缺失(缺考或其他原因),那么應(yīng)如何判斷其化學(xué)成績(jī)所屬的可能等級(jí),如果僅僅根據(jù)所有學(xué)生化學(xué)成績(jī)出現(xiàn)概率最大的那一等級(jí)來(lái)劃分,顯然不太合理,因?yàn)槿绻@名學(xué)生擅長(zhǎng)理科,那么其理科類(lèi)成績(jī)會(huì)比文科類(lèi)成績(jī)更好,于是他的數(shù)學(xué)、物理等這些理科成績(jī)也是判斷其化學(xué)成績(jī)的關(guān)鍵因素。此例表明,為了更加準(zhǔn)確地補(bǔ)充未知屬性值的數(shù)據(jù)信息,在處理不完備系統(tǒng)中的先驗(yàn)知識(shí)時(shí)還應(yīng)該充分考慮對(duì)象本身已給出的其它屬性值[7-8]信息。
本文提出了以不同屬性之間的相互關(guān)系為基礎(chǔ)的條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系粗糙集模型,并對(duì)這一模型的特點(diǎn)和性質(zhì)進(jìn)行了分析和討論。新模型與其他已有的先驗(yàn)概率優(yōu)勢(shì)關(guān)系模型相比提高了分類(lèi)精度和分類(lèi)質(zhì)量,為在含有偏序關(guān)系的不完備偏好決策系統(tǒng)中進(jìn)行規(guī)則的提取和優(yōu)化提供了一種更加合理且有用的手段。
1.1 不完備偏序關(guān)系決策系統(tǒng)
一般地,用四元組 S=(U,AT=C∪D,V,f)表示一個(gè)含有偏序關(guān)系的決策系統(tǒng),U是包含有限對(duì)象的非空集合;AT=C∪D是包含所有屬性的非空屬性集,其中條件屬性集用C表示,決策屬性集用D表示;V表示屬性值集,VC={Vq∶q∈C}與 VD={Vd∶d∈D}分別表示帶有偏序關(guān)系的條件屬性值與決策屬性值集;f∶U×AT→V表示一個(gè)信息函數(shù),即對(duì)每個(gè)a∈AT,x∈U,都有f(x,a)∈Va。若存在一個(gè)x∈U,a∈C使得f(x,a)=*(*代表缺損值),則稱(chēng)S是一個(gè)含有偏序關(guān)系的不完備決策系統(tǒng)(簡(jiǎn)稱(chēng)不完備偏序關(guān)系決策系統(tǒng))。
對(duì)于上述不完備偏序關(guān)系決策系統(tǒng),可假定以下2種情況:
1)Vd不含有任何空值;
2)?x∈U,至少有一個(gè)屬性q∈C存在,使得f(x,q)≠*。
假設(shè)D=syggg00,其中U被d分成有限個(gè)決策類(lèi),Cl={Clt,t∈T},T={1,2,…,n},則?x∈U,x 屬于且只能屬于一個(gè)Clt。而且,假設(shè)這種對(duì)象間的劃分是按照一定次序,即?r,s∈T,如果 r> s,則 Clr中的每一個(gè)對(duì)象就不劣于Cls中的每一個(gè)對(duì)象,如果x∈Clr,y∈Cls,記為xDy。
同時(shí),針對(duì)每個(gè)決策類(lèi)給出向上累積集和向下累積集的定義如下:
上述定義[3]表明,如果,則 x至少屬于 Clt;如果,則 x至多屬于 Clt。
由定義1可得到如下性質(zhì)[3]:
1.2 先驗(yàn)概率優(yōu)勢(shì)關(guān)系
文獻(xiàn)[5]在不完備偏序關(guān)系決策系統(tǒng)中引進(jìn)先驗(yàn)概率優(yōu)勢(shì)關(guān)系的概念,從而可利用已知統(tǒng)計(jì)信息對(duì)缺損值進(jìn)行推斷。
定義2 若S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng),集合A?C,x,y∈U,則A上的先驗(yàn)概率優(yōu)勢(shì)關(guān)系FDOM(A)定義[5]為
式中
其中:Vq={v1,v2,…,vm}是 q 的值域是Vq中屬性q取不同屬性值的概率。如果有對(duì)象x、y滿(mǎn)足上述關(guān)系,亦稱(chēng)“y先驗(yàn)概率優(yōu)勢(shì)于x”,簡(jiǎn)記為
顯然,在上述模型中“*”的可能取值是依據(jù)Vq中出現(xiàn)次數(shù)最多的屬性值來(lái)推斷的(最大可能準(zhǔn)則),其忽略了其他不同屬性取值對(duì)其可能產(chǎn)生的影響,因此容易出現(xiàn)信息利用不充分使得分類(lèi)結(jié)果出現(xiàn)較大誤差的現(xiàn)象。
針對(duì)此問(wèn)題,下節(jié)將給出條件先驗(yàn)概率的概念,條件先驗(yàn)概率不僅考慮了同一屬性取值對(duì)空值“*”的影響,而且還對(duì)屬性之間的關(guān)聯(lián)性信息加以提取和利用,使得不完備偏序關(guān)系決策系統(tǒng)中對(duì)象的劃分更加精細(xì)和準(zhǔn)確,分類(lèi)質(zhì)量和分類(lèi)精度也得以提升。
2.1 條件先驗(yàn)概率
若在不完備系統(tǒng)中實(shí)現(xiàn)對(duì)象間的合理分類(lèi),需詳細(xì)分析系統(tǒng)中的每個(gè)屬性,特別需注重分析這些屬性間的相互聯(lián)系。
若 S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng),則?x∈U,A?C,對(duì)于對(duì)象x,屬性集A可分為以下兩類(lèi):
下面給出條件先驗(yàn)概率的定義。
定義 3 設(shè) S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng),為屬性的值域
則屬性ai=vij的條件先驗(yàn)概率定義為
條件先驗(yàn)概率是指某一對(duì)象x在其確定性屬性取值已經(jīng)發(fā)生且不變的情況下,其非確定性屬性取某一值的概率。條件先驗(yàn)概率考慮了屬性間的內(nèi)在影響,比較先驗(yàn)概率而言可提供相對(duì)充分的統(tǒng)計(jì)信息。
2.2 條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系
依據(jù)條件先驗(yàn)概率的定義,在不完備偏序關(guān)系決策系統(tǒng)中給出了新的條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系的概念如下:
定義 4 設(shè) S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng),集合A?C,x,y∈U,A上的條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系HFDOM(A)定義為
式中
條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系是通過(guò)屬性間的內(nèi)在聯(lián)系來(lái)推測(cè)未知屬性值,進(jìn)而對(duì)對(duì)象之間的優(yōu)劣關(guān)系進(jìn)行合理而準(zhǔn)確的劃分。由定義我們可以證明,條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系滿(mǎn)足傳遞性和自反性,但是不滿(mǎn)足對(duì)稱(chēng)性。
定義5 設(shè)S=(U,AT=C∪D,V,f)是一個(gè)不完備偏序關(guān)系決策系統(tǒng),則對(duì)于A?C,x∈U,稱(chēng)為A的條件先驗(yàn)概率優(yōu)勢(shì)集;稱(chēng)為A的條件先驗(yàn)概率劣勢(shì)集。
某對(duì)象x的條件先驗(yàn)概率優(yōu)勢(shì)集是由所有依A的條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系“優(yōu)于”x的對(duì)象所構(gòu)成的集合,而x的條件先驗(yàn)概率劣勢(shì)集是由所有依A的條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系“劣于”x的對(duì)象所構(gòu)成的集合。
定理 1 設(shè) S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng),在條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系下:
2)證明方法同 1)。
證畢。
上述定理指出了條件先驗(yàn)概率優(yōu)勢(shì)集與劣勢(shì)集之間的關(guān)系。
2.3 基于條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙近似
Clt為給定的某一決策類(lèi),對(duì)于Clt的向上、向下累積集,下面給出基于條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙近似的定義。
定義6 設(shè)S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng)分別表示Clt的向上累積集和向下累積集,則的基于條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙上、下近似集及邊界域分別為
定理2 設(shè)S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng),A?C,x∈U,則在條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系下有:
證明 由定理1和定義6可直接證明。
定義7 設(shè)S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng)1,2,…,n,則在條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系下的粗糙近似分類(lèi)精度分別為
分類(lèi)精度表示對(duì)某一確定的決策類(lèi),依條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系對(duì)對(duì)象進(jìn)行分類(lèi)時(shí),可能的決策中正確決策的百分比,也是系統(tǒng)針對(duì)某一確定決策分類(lèi)精度的一個(gè)度量。
定義8 設(shè)S=(U,AT=C∪D,V,f)為一個(gè)不完備偏序關(guān)系決策系統(tǒng)1,2,…,n,則在條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系下的粗糙近似分類(lèi)質(zhì)量可被定義為
分類(lèi)質(zhì)量是衡量帶有偏序關(guān)系的不完備決策系統(tǒng)中總體對(duì)象分類(lèi)精度的一種方法。
表1所示為某中學(xué)學(xué)生的身體素質(zhì)測(cè)評(píng)結(jié)果,每名學(xué)生身體素質(zhì)測(cè)評(píng)標(biāo)準(zhǔn)的條件屬性集是A={a1,a2,a3,a4,a5},決策屬性集為 D=syggg00,其中,a1、a2、a3、a4、a5表示 5 種課程,d 是學(xué)生的綜合測(cè)評(píng),a1、a2、a3、a4、a5、d 均為偏好屬性,其中,Vai={1,2,3},i=1,2,…,5,1<2<3,表示單科成績(jī) ai所屬的等級(jí),Vd= {1,2,3},1<2<3,表示學(xué)生綜合測(cè)評(píng)等級(jí)。條件屬性值的先驗(yàn)概率分別為。決策屬性 d 把對(duì)象劃分為 3 個(gè)決策類(lèi),Cl={Cl1,Cl2,Cl3},其中
則有
表1 不完備偏序關(guān)系決策系統(tǒng)Tab.1 Incomplete partial order relation decision system
利用先驗(yàn)概率優(yōu)勢(shì)關(guān)系粗糙決策模型進(jìn)行分類(lèi)計(jì)算,其結(jié)果如下
利用條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系粗糙決策模型分類(lèi)計(jì)算,其結(jié)果如下
從以上計(jì)算可看出,按先驗(yàn)概率優(yōu)勢(shì)關(guān)系可推斷x1優(yōu)于x2,而這與兩者的決策屬性取值正好相反,這種偏差是由于先驗(yàn)概率優(yōu)勢(shì)關(guān)系忽略了條件屬性間的內(nèi)在聯(lián)系所造成的。然而,由條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系可推斷出x2優(yōu)于x1,這恰好與實(shí)際已發(fā)生的數(shù)據(jù)結(jié)果相符。另外,由先驗(yàn)概率優(yōu)勢(shì)關(guān)系無(wú)法推斷對(duì)象x4和x11的優(yōu)劣關(guān)系,而由條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系可推知x11優(yōu)于x4,這也與決策屬性的取值結(jié)果相符。上述實(shí)例充分說(shuō)明,條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系模型比先驗(yàn)概率優(yōu)勢(shì)關(guān)系模型分類(lèi)更加精細(xì),減少了不確定性。同時(shí),從分類(lèi)精度和分類(lèi)質(zhì)量的計(jì)算結(jié)果比較來(lái)看,也進(jìn)一步說(shuō)明此結(jié)論是正確的。
基于條件先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙集模型是在分析了先驗(yàn)概率優(yōu)勢(shì)關(guān)系粗糙集模型的缺點(diǎn)和不足后,所提出的在不完備偏序關(guān)系決策系統(tǒng)中對(duì)對(duì)象間優(yōu)劣關(guān)系進(jìn)行劃分的一種新方法。新模型充分利用了不完備偏序關(guān)系決策系統(tǒng)所提供的各種先驗(yàn)信息,使得數(shù)據(jù)分類(lèi)更加準(zhǔn)確和精細(xì)。在處理屬性間存在內(nèi)在關(guān)系且未知屬性值相對(duì)較少的大規(guī)模數(shù)據(jù)信息時(shí),新模型具有明顯優(yōu)勢(shì)。理論分析和實(shí)例計(jì)算均說(shuō)明,新模型克服了傳統(tǒng)先驗(yàn)概率優(yōu)勢(shì)關(guān)系模型的缺點(diǎn)和不足,并且提供了一種更加接近于實(shí)際決策過(guò)程的粗糙決策新方法。
[1]PAWLAK Z.Rough set[J].International Journal of Computer and Information Science,1984,11:341-356.
[2] GRECO S,MATARAZZO B,SLOWINSKI R.Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research,2001,129(1):1-47.
[3] 何亞群,胡壽松.不完備信息的多屬性粗糙決策分析方法[J].系統(tǒng)工程學(xué)報(bào),2004,19(2):117-120.
[4] 駱公志,楊曉江,周德群.基于限制擴(kuò)展優(yōu)勢(shì)關(guān)系的粗糙決策分析模型[J].系統(tǒng)管理學(xué)報(bào),2009,18(4):391-396.
[5] 陶 志,卞文靜.基于先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙決策分析模型[J].中國(guó)民航大學(xué)學(xué)報(bào),2013,31(4):60-64.
[6] 駱公志,李 震,黃衛(wèi)東.加權(quán)先驗(yàn)概率優(yōu)勢(shì)關(guān)系的粗糙決策分析模型[J].統(tǒng)計(jì)與決策,2015(20):67-70.
[7] 陶 志,劉彩平.一種改進(jìn)的先驗(yàn)概率粗集模型[J].中國(guó)民航大學(xué)學(xué)報(bào),2014,32(4):48-51.
[8]TAO ZHI,HU SHUQIN,GUAN JING.Rough set model with tolerance relation based on conditional prior probability[J].Applied Mechanics and Materials,2014,687:1312-1315.
(責(zé)任編輯:楊媛媛)
Rough set model based on conditions prior probability dominance relation
TAO Zhi,HE Danfeng,PAN Liping
(College of Science,CAUC,Tianjin 300300,China)
Rough set model based on prior probability dominance relation is an important expansion of rough set theory.However,it has its own defects and shortcomings.Rough set model based on conditions prior probability dominance relation is established on the basis of attribute value data statistics of incomplete partial order relation decision system.It not only takes into account different conditions of the same attribute values,but also the correlation between different attributes,so that a variety of prior information can be fully utilized.Therefore,the classification accuracy and quality can be improved effectively.This new model is proved to be effective and practical by theoretical analysis and practical example.
rough set;incomplete partial order relation decision system;conditions prior probability dominance relation
TP18
A
1674-5590(2017)03-0059-06
2016-09-18;
2016-11-23
國(guó)家自然科學(xué)基金項(xiàng)目(60672178);中國(guó)民航大學(xué)科研基金項(xiàng)目(2010kys01)
陶志(1963—),男,遼寧沈陽(yáng)人,教授,博士,研究方向?yàn)閺?fù)雜系統(tǒng)建模、粗糙集理論及其應(yīng)用等.