李艷,李坤燕*,李法朝,*,靳晨霞
(1.河北科技大學(xué) 理學(xué)院,河北 石家莊 050018;2.河北科技大學(xué) 經(jīng)濟管理學(xué)院,河北 石家莊 050018)
自1982年波蘭數(shù)學(xué)家Pawlak[1]提出粗糙集(稱之為經(jīng)典粗糙集)概念以來,學(xué)者們結(jié)合不同的背景推廣了粗糙集模型,并取得了諸多成功的應(yīng)用。在理論研究方面,文獻[2-3]針對經(jīng)典粗糙集模型不能直接處理具有連續(xù)屬性值的大規(guī)模數(shù)據(jù)集問題,結(jié)合具體案例分析指出,無論采用何種方式的數(shù)據(jù)離散化方法,均可能導(dǎo)致關(guān)鍵信息丟失、數(shù)據(jù)過渡擬合、結(jié)論失真等現(xiàn)象;文獻[4]將經(jīng)典粗糙集模型中的等價關(guān)系推廣為相似關(guān)系,提出了基于相似關(guān)系的粗糙集模型;文獻[5-6]將經(jīng)典粗糙集模型中的等價關(guān)系和目標(biāo)集推廣為模糊等價關(guān)系和模糊集,提出了粗糙模糊集模型和模糊粗糙集模型,為模糊環(huán)境下的數(shù)據(jù)處理奠定了基礎(chǔ);文獻[7]提出了覆蓋粗糙集模型,在一定程度上解決了基于相似關(guān)系的粗糙集模型不能有效處理關(guān)聯(lián)對象之間的傳遞性問題;文獻[8]針對研究對象的重要性不同,提出了概率空間上的粗糙集模型,給出了粗糙模糊集在概率近似空間上的粗糙性度量模式,為構(gòu)建數(shù)據(jù)價值不同的數(shù)據(jù)決策方法提供了一種理論支撐;文獻[9]針對經(jīng)典粗糙集模型缺乏抗噪音能力和容錯性差等問題,以集合之間的包含程度為基礎(chǔ),提出了具有良好可解釋性的變精度粗糙集模型;文獻[10]提出了三類基于邊界域的變精度粗糙集模型;文獻[11]以覆蓋為基礎(chǔ),對變精度粗糙直覺模糊集進行研究;文獻[12]針對現(xiàn)實世界中多個論域之間信息分類和屬性約簡問題,提出了U×W型雙論域變精度粗糙集模型;文獻[13]將結(jié)構(gòu)化技術(shù)用于變精度粗糙集模型,提出結(jié)構(gòu)化變精度粗糙集模型;文獻[14]為了提高對混合型數(shù)據(jù)的抗噪能力,提出一種混合信息系統(tǒng)的變精度粗糙集模型,并進一步提出對象增加和減少時的動態(tài)變精度粗糙集模型。在應(yīng)用方面,學(xué)者們圍繞數(shù)據(jù)挖掘、模式識別等領(lǐng)域存在的現(xiàn)實問題開展了深入的研究,其中最具代表性的應(yīng)用是屬性約簡。文獻[15]以某種鄰域體系下的數(shù)據(jù)結(jié)構(gòu)特征不變?yōu)榛鶞?zhǔn),提出了一種基于鄰域粗糙集的屬性約簡方法;文獻[16]通過引入局部等價類的概念,提出了一種稱為雙局部粗糙集的增強局部粗糙集框架;文獻[17]結(jié)合粗糙集和人工神經(jīng)網(wǎng)絡(luò),提出基于公差關(guān)系的粗糙集理論,并利用近似分類質(zhì)量不變的條件,提供屬性歸約算法;文獻[18]提出了一種基于模糊粗糙集的廣義無監(jiān)督混合屬性約簡模型;文獻[19]在區(qū)間值決策系統(tǒng)中的β分布約簡基礎(chǔ)上提出了基于差別矩陣的特定類β分布約簡算法;文獻[20]在辨識矩陣的輔助下研究了具體度量偏好直覺模糊序決策信息系統(tǒng)下的分布約簡方法;文獻[21]提出了一種改進的概率復(fù)合粗糙集模型及分布屬性約簡方法;文獻[22]通過將Pawlak決策系統(tǒng)中的等價關(guān)系擴展到區(qū)間值決策系統(tǒng)中的相容關(guān)系,提出了區(qū)間值決策系統(tǒng)的分布約簡目標(biāo);文獻[23]以某種粗糙精度下的數(shù)據(jù)結(jié)構(gòu)特征不變?yōu)榛鶞?zhǔn),提出了一種基于變精度粗糙集的屬性約簡方法;文獻[24]將決策表中相同決策規(guī)則出現(xiàn)的次數(shù)作為權(quán),提出了帶權(quán)的決策表的概念,通過辨識矩陣給出了帶權(quán)決策表的變精度約簡算法;文獻[25]提出了一種基于最小誤分類程度的變精度模糊粗糙集模型,以誤分代價不變?yōu)闇?zhǔn)則,給出了一種啟發(fā)式屬性約簡算法。
綜合上面的文獻概述可以得到:1)以包含度為基礎(chǔ)的相關(guān)理論可以有效地描述數(shù)據(jù)決策、數(shù)據(jù)處理問題中的不確定性特征;2)變精度粗糙集模型是最具應(yīng)用價值的數(shù)據(jù)處理工具;3)在粗糙集的逼近性能方面,雖然有關(guān)于錯誤價值的一些研究,但缺乏對“錯找到”和“未找到”的兩類錯誤價值的系統(tǒng)化討論。由于現(xiàn)實中的數(shù)據(jù)集大都存在不同形式的不確定性(如:數(shù)據(jù)采集的隨機波動性、數(shù)據(jù)的不完備性、屬性值的模糊性),且“錯找到”和“未找到”的兩類錯誤在數(shù)據(jù)決策過程中的作用價值不同,因而,構(gòu)建包容“錯找到”和“未找到”兩類錯誤價值的粗糙性度量用以體現(xiàn)或確定變精度意義下的最佳粗糙集具有廣泛應(yīng)用價值。本文以尋求目標(biāo)集的數(shù)據(jù)決策問題為應(yīng)用面向,以目標(biāo)集無法準(zhǔn)確描述的數(shù)據(jù)集為研究對象,以構(gòu)建不確定環(huán)境下具有結(jié)構(gòu)特征和可解釋性的數(shù)據(jù)處理方法為宗旨,以變精度粗糙集模型中的上(下)近似集作為目標(biāo)集的描述策略,主要做了以下幾個方面的工作:1)以“未找到”和“錯找到”兩類偏差的效用不同為背景,構(gòu)建一種包含偏差價值的效用誤差度量模式(簡記為UE);2)討論了UE模式下的上(下)近似集的逼近性能,給出了最佳上(下)近似集和最佳粗糙精度的具體刻劃模式;3)結(jié)合具體算例進一步分析了最佳上(下)近似集的特征。
在為了敘述方便,本文約定:1)U={u1,u2,…,un}為有限論域;2)|C|表示有限集合 C 中的元素個數(shù);3)對于U 上的等價關(guān)系R(即 R∈U×U且滿足:i)(x,x)∈R對任何x∈U恒成立;ii)(x,y)∈ R ?(y,x)∈ R;iii)當(dāng) (x,y)∈ R,(y,z)∈ R 時,必有 (x,z)∈ R),[x]R={y|(x,y)∈ R}表示 x的R等價類,U/R={[x]R|x∈U},并稱(U,R)為一個近似空間;4)對X,Y?U,X≠?,稱
為X包含于Y的程度。
定義1[1]設(shè)U為有限論域,(U,R)為一個近似空間,X?U,X≠?,
定義2[4]設(shè)U為有限論域,(U,R)為一個近似空間,β ∈(0.5,1]。稱
為X關(guān)于(U,R)的β下近似集;稱
為X關(guān)于(U,R)的β上近似集。
在粗糙集理論中,通常稱定義2為變精度粗糙集模型(其中的β稱之為粗糙精度,X稱之為目標(biāo)集)。不難看出:
在尋找某種特定事物的過程中,經(jīng)常會面對“未找到”和“錯找到”兩種不同的困境。比如,在病情診斷過程中,經(jīng)常會遇到“無法確診患者病情”和“誤診患者病情”兩種困境;在規(guī)劃模型的求解過程中,經(jīng)常會遇到“無法設(shè)計出適當(dāng)?shù)那蠼馑惴ā焙汀霸O(shè)計了錯誤的求解算法”兩種困境;在數(shù)據(jù)處理過程中,經(jīng)常會遇到“數(shù)據(jù)缺失”和“噪音干擾”兩種困境;在命題型專業(yè)技能測試過程中,經(jīng)常會遇到“不會做”和“做錯了”兩種困境。不難看出,上述問題在現(xiàn)實中廣泛存在,其中的一個核心問題是兩種不同困境在后續(xù)工作中的作用(或影響)是不同的。
若將上述問題中的某種特定事物視為某論域U上的一個集合,Y表示X的近似描述,那么“未找到”即可表示為X?Y(稱之為Ⅰ型偏差),“錯找到”即可表示為Y?X(稱之為II型偏差)。由于Ⅰ型偏差和Ⅱ型偏差在眾多諸如數(shù)據(jù)決策、理療水平評估問題中的效用不同,因而,若用w和1?w分別表示Ⅰ型偏差和Ⅱ型偏差的效用權(quán)重(其中w∈[0, 1]),那么
即為Y關(guān)于X的一種體現(xiàn)偏差效用的近似性度量。
不難看出,在考慮多個對象集Y關(guān)于一個目標(biāo)集X的逼近性能時,H(X,Y, w)與具有相同的作用效果,但在考慮不同的對象集Y關(guān)于多個目標(biāo)集X的綜合逼近性能時,以H(X,Y, w)和?(X,Y, w)作為基本度量模式的度量結(jié)果卻存在本質(zhì)的不同,而 H(X,Y, w)對應(yīng)的度量結(jié)果更具有統(tǒng)計意義下的合理性。由于在數(shù)據(jù)決策和數(shù)據(jù)挖掘過程中經(jīng)常要同時兼顧多個不同的目標(biāo)集,因而,本文將以(6)作為度量模式來分析變精度上(下)近似集的逼近性能,為進一步構(gòu)建兼顧錯誤價值的數(shù)據(jù)決策(數(shù)據(jù)挖掘)方法提供一種理論依據(jù)。下面給出UE的一些基本性質(zhì)。
本部分和第4部分主要討論以UE為度量模式的變精度粗糙集的逼近性能。其基本思想是以UE為基礎(chǔ)來分析何種粗糙精度的上(下)近似集具有較好的逼近性能。對X?U,X≠?,β ∈(0.5, 1],若記
定理2 設(shè)(U,R)為近似空間,U/R={U1,U2,…,Um},X ? U,X ≠ ?,β ∈(0.5, 1],w∈[0,1],αi=D(Ui? X),i∈{1,2,…,m},(U/R,X,(0.5,1))={Ui|i∈{1,2, …, m} }且 0.5<αi<1。
2.1 ) 當(dāng) w<0.5 且存在 s∈{ 1, 2, …, r } 使 得 αs?1<1? w ≤ αs時 ,H(X,(X,β),w)=H(X,(X,1?w),w ) 對 任 何 β ∈(αs?1, αs] 恒 成 立 , 且 H(X,(X,1 ? w),w)=
2.2 ) 當(dāng) w<0.5 且不存在 s∈{ 1, 2, …, r }使 得 αs?1<1?w≤αs時 ,H(X,(X,β),w)=H(X,(X,1?w), )w 對任何 β∈(αr, 1]恒成立,且
2.2 ) 由 不 存 在 s∈{1,2,…,r} 使 得 αs?1<1?w≤ αs成 立 可 知 αk<1?w 對 任 何k∈{1,2,…,r},恒 成 立 ,由此及引理 1 可 得(R, X, β)>0 對 任 何 β ∈(0.5, 1]恒 成 立 ,H(X,(X, 1 ? w), w)= min{H(X,(X, β), w)|0.5< β ≤ 1}。
2.3 ) 由 w≥0.5可 知 αk>1?w 對 任 何 k∈{ 1, 2,…, r }恒 成 立 ,由 此 及 引 理 1可 得 :①(R, X, β)<0 對 任 何 β ∈(0.5,1]恒 成 立 ;②(R,X,β)關(guān) 于 β 在 (0.5,1]上 單 調(diào) 不 減 ;③H(X,(X,β),w)=H(X,(X,α1),w)對 任 何 β ∈(0.5,α1]恒 成 立 ;④ H(X,(X, α1), w)=min{H(X,(X, β), w)|0.5< β ≤ 1}。
定理2給出了各種情形下逼近效果最佳的下近似集以及相對應(yīng)的粗糙精度范圍。若記Best((X, β))? min{H(X,(X, β), w)| 0.5< β ≤ 1}(即 X 關(guān)于近似空間(U,R)的逼近效果最佳的下近似集,簡稱為最佳下近似集),并采用定理2的相關(guān)符號約定,則定理2可以系統(tǒng)地表述為:
2.1 ) 由 αs≤1?w<αs+1可知 αk≤1?w 對任何 k∈{1,2,…,s}恒成立,αk>1?w 對任何k∈{s+1,s+2,…, r}恒成立 ,由 此 及 引 理 2 可得:① 當(dāng) 1?β∈[0,α1)(即 β∈(1?α1,1])時,(U/R, X, β)={Ui|i∈{1, 2,…, m} 且 0< αi≤ 1? β }=?,(R, X, β)=0;② 當(dāng) 1 ? β ∈[αk,αk?1)(即 β ∈(1 ? αk+1,1 ? αk]),k∈{1,2,…,r}時,
2.2 ) 由不存在 s∈{1,2,…,r}使得 αs≤1? w< αs+1成立可知 αk>1?w(即 αk+w? 1>0)對 任 何 k∈{ 1, 2, …, r } 恒 成 立 ,由此及引理2可得知(R, X, β)=H(X,(X, β), w)?H(X,(X, 1), w)>0 對任何 β∈(0.5,1]恒成立,H(X,(X,w),w)=min{H(X,(X,β),w)|0.5<β≤1}。
2.3 ) 由w≤0.5可知αk<1?w(即αk+w?1<0)對任何k∈{1,2,…,r}恒成立,由此及引理2 可 得 :①(R,X,β)=H(X,(X,β),w)? H(X,(X,1),w)<0 對 任何 β∈(0.5,1]恒 成 立 ;②(R,X,β)關(guān)于 1-β 在[0,0.5]上單調(diào)不減(即關(guān)于 β 在 ( 0.5, 1 ]上單調(diào)不增);③ H(X,(X, 1?αr), w)=H(X,(X, β), w) 對任何 1? β ∈[αr,0.5)( 即 β ∈(0.5,1? αr]) 恒成立 ; ④H(X,(X, 1 ? α1), w)=min{H(X,(X, β), w)|0.5< β ≤ 1}。
綜合上面的分析可以看出,在UE模式下,目標(biāo)集X的最佳上(下)近似集與效用權(quán)重密切相關(guān)、且均具有具體的表示形式。由于效用權(quán)重是刻劃偏差處理意識的參數(shù),在具體的數(shù)據(jù)決策(數(shù)據(jù)處理)問題中可以認為是事先給定的數(shù)值,因而,定理2和定理3在本質(zhì)上解決了最佳上(下)近似集的計算問題。
本部分將結(jié)合一個具體算例來進一步分析不同粗糙精度的上(下)近似集的逼近性能。
其具體取值如表1。
由表1、定理2和定理3可知:
3) X1和X2的幾種不同偏差效用下的最佳上(下)近似集如表2和表3;4)X1和X2的幾種不同偏差效用和不同粗糙精度下的上(下)近似集效用誤差如表4。
自表2―4可以看出:
1) 最佳上(下)近似集隨著偏差效用的變化而變化,甚至有較大的差異(比如:w=0.2時,Best((X2, β ))=U7;w=0.8 時,Best((X2, β ))=U3∪ U6∪ U7∪ U8∪ U9);
2) 不同的偏差效用對應(yīng)的最佳上(下)近似集可能相同,但對應(yīng)的效用誤差不同(比如,w=0.4 與 w=0.6 時 , 都有(X1,β?)=U1∪U4∪U6∪U8∪U9,但 H(X1,(X1,β?),0.4)=0.23,H(X1,(X1,β?),0.6)=0.22);
3) 相同偏差效用下,同一集合的最佳上近似集和最佳下近似集的粗糙精度不一定相同(比如,w=0.5 時,
4) 對于給定的偏差效用,最佳上(下)近似集的效用誤差一定是最小的(比如:
上述事實進一步反映了效用粗糙集的特征以及最佳上(下)近似集的有效性,與第4-5部分的理論分析完全一致。
本文針對變精度粗糙集的逼近性能問題,以“錯找到”和“未找到”的作用價值不同為背景,建立了一種集合的效用誤差(UE)度量模式,討論了UE模式下變精度粗糙集的逼近性能,給出了不同情況下的最佳上(下)近似集的具體形式及確定步驟,同時給出了最佳粗糙精度的范圍,最后結(jié)合具體算例分析了上(下)近似集的變化特征。理論分析和實例計算表明,UE具有良好的結(jié)構(gòu)特征和可解釋性,可以簡捷地將誤差效應(yīng)融入到度量體系中。由于數(shù)據(jù)集之間的差異性度量是不確定環(huán)境下的數(shù)據(jù)決策必須面對的問題,因而,本文的討論不僅在一定程度上豐富了現(xiàn)有的相關(guān)理論,而且在數(shù)據(jù)挖掘、資源管理、模式識別等眾多領(lǐng)域具有廣泛的應(yīng)用價值。但值得注意的是本文的討論僅適用于一個目標(biāo)集的情形,而對于多個目標(biāo)集的情況,可以結(jié)合各目標(biāo)集的特征,通過各目標(biāo)集的綜合效用誤差度量來考慮最佳逼近問題。該方面的工作將另行文討論。