閻紅燦,姚美紅,郭小雨
(1. 華北理工大學 理學院,河北 唐山 063210;2. 河北省數(shù)據(jù)科學與應用重點實驗室,河北 唐山 063210)
現(xiàn)如今,評價某件事物的好壞已經(jīng)不再通過單一的屬性進行判斷,事物的性質多由多個屬性指標共同決定。因此,如何準確利用所給的多個屬性數(shù)據(jù),正確地對事物進行分類或排序問題不容小覷。屬性權重體現(xiàn)了屬性的重要程度,影響事物的排序結果,因而,準確客觀地確定多屬性權重的方法顯得尤為重要。
自1965年查德提出模糊集合理論[1]的概念后,模糊綜合評判法便越來越廣泛地被應用到多屬性權重確定。其中,模糊綜合評判法的權重向量確定大多采用專家經(jīng)驗法或專家經(jīng)驗法與層次分析法[2](AHP)相結合的指標權重確定方法,這需要一定的背景知識,無法直接從所給數(shù)據(jù)得到想要的結果,因而在一些實際問題應用中存在一定的局限性。商空間[3]是粒計算三大主要模型與計算方法其中之一。商空間理論通過等價關系劃分等價類,將等價類看成新元素,由這種新元素構成的空間就叫做商空間。不同的等價關系,可以劃分不同的等價類,進而構成不同的商空間。在多屬性權重的確定上,周丹晨把商空間理論與粗糙集理論結合應用于工作績效綜合評價[4]或系統(tǒng)日志挖掘[5]。前者不具有決策屬性,通過樣本之間的相似關系,利用模糊集的截集性質,建立分層遞階的商空間族,分析刪除各屬性后的等價類與商空間族的關系,以此得到屬性的重要度。后者具有決策屬性,但由于核屬性集為空,無法用前者方式進行屬性權重的計算與賦值,文章中采用條件熵的形式得到相對約簡集,在相對約簡集的基礎上,進行識別規(guī)則的判斷,得到不同樣本的差異性。從后者可以看出,核屬性集為空的狀態(tài)下,無法進行多屬性的權重賦值工作,只能通過置信度和覆蓋度的差異得到不同樣本之間的對比。
研究既無決策屬性又無核屬性時屬性權重的計算問題。利用商空間理論下的分層遞階結構和信息熵的物理意義,在商空間基礎上利用信息熵賦予屬性以科學權重。提出的商空間理論上利用信息熵計算屬性權重的方法,不需要背景知識,可以直接采用該方法對所給數(shù)據(jù)計算獲得屬性的客觀權值,得到關于多目標方案的優(yōu)劣排序。最后將此方法應用到油田開發(fā)的實例,將所得的油田開發(fā)排序結果與模糊綜合評價法開發(fā)結果比較,驗證該項研究所用方法的有效性和可靠性。
商空間理論用三元組(X,f,T)描述問題。X代表論域,f代表屬性函數(shù),T代表論域X的拓撲結構。按照等價關系對集合元素進行劃分,把劃分為同一類的元素整體看成一個新元素,由這種新元素構成的集合就是商集。通過劃分,把原來的三元組(X,f,T)映射成(X1,f1,T1)。衡量構成的商空間是否符合需要解決的問題粒度時,可以借助效用函數(shù)(如近似精度與?;潭?進行判斷[6]。
不同的等價關系可以劃分不同的商集。對于同一問題,可以在(X1,f1,T1)、...(Xn,fn,Tn)進行不同層次上的分析,最后對這些分析結果進行綜合,得到關于問題的最佳解決方案。
定義1[7]:設R是X上的一個模糊等價關系,令Rλ={(x,y)|R(x,y)≥λ},0≤λ≤1}則Rλ是X上的一個普通等價關系,稱Rλ為R的截關系。令等價關系Rλ對應的商空間為X(λ),可得到如下性質:若0≤λ2≤λ1≤1則Rλ1≥Rλ2,X(λ2)是X(λ1)的商集。于是,商空間族{X(λ)|0≤λ≤1}按照商集的包含關系構成一個有序鏈,稱{X(λ)|0≤λ≤1}為X上的一個分層遞階結構。
信息熵用來衡量不確定程度,即可以通過計算信息熵來判斷一個事件的隨機性及無序程度,也可以用來判斷某個指標的離散程度[8]。熵通常被用來表述體系的混亂程度,熵越大,不確定程度越大,包含的信息量越小。
商空間理論的思想就是從多個維度上對問題進行?;治?降低處理問題的復雜度。商空間理論不僅對論域進行分類,同時也對屬性和結構進行分類,某種層面上體現(xiàn)了拓撲結構思想[10]。通過選取不同的閾值得到對應不同截集下的空間,這些空間構成了分層遞階結構的商空間。因此,在無決策屬性的情況下,可以通過得到的商空間結果,作為決策分類結果。信息熵[11,12]是用來衡量系統(tǒng)混亂程度的指標,熵值越大分布越混亂,提供的信息量越小。因此,在對屬性重要度進行分析與計算時,可以通過衡量屬性的信息熵得出屬性的權重。
屬性權重的計算可以通過衡量刪除屬性前后等價類產(chǎn)生的變化[13],就是比較U/ind(C)與U/ind(C-ai)分類中樣本所在等價類發(fā)生改變的個數(shù)。在無核屬性的數(shù)據(jù)類型中,刪除單個屬性等價類不發(fā)生改變,考慮商空間理論下運用信息熵確定屬性權重。
定義3:將閾值λ確定的商空間分類記為{X1,X2,...Xn},其中Xi代表等價類,數(shù)據(jù)的屬性值類別記作sj。在閾值為λ的商空間中,屬性的信息熵計算公式為:
(1)
|Xi|代表等價類中樣本個數(shù),|Xi(sj)|代表在Xi等價類下,屬性的數(shù)據(jù)類別為sj的個數(shù)。通過計算Hλ,可以得到在閾值λ的空間下,屬性所屬類別在等價類中分布的混亂程度。Hλ越大,說明屬性對該空間分類的貢獻度越低,進而在該空間下的權重應越小。運用商空間下信息熵的方法計算屬性權重,可以直接對等價類分析確定權重,保證方法的普適性。
由于最初數(shù)據(jù)存在屬性量綱不同的問題,導致屬性數(shù)據(jù)之間處于不對等地位,因此在對屬性重要度分析之前,首先要對數(shù)據(jù)進行規(guī)范化處理,使不同屬性間的數(shù)據(jù)處于同一層面上時,才能對屬性值進行操作,進而科學地得出各個屬性的重要度。對于最初的數(shù)據(jù),按屬性是成本型或是效益型進行規(guī)范化處理,保證數(shù)據(jù)的整體統(tǒng)一性與處理便捷性。
屬性值越小,對于綜合評價時的樣本起到正面影響的屬性,稱之為成本型屬性,按公式(2)處理。
(2)
屬性值越大,對于綜合評價的樣本起到正面影響的屬性,稱之為效益型屬性,按公式(3)進行處理。
(3)
對于樣本之間的相近程度,利用公式(4)余弦相似度計算每個樣本之間的相似度rij(0≤rij≤1)。樣本之間屬性取值越接近,則樣本間相似度越大。通過對樣本相似度的計算,得到樣本間的相似度矩陣R。
(4)
3.3.1構造分層遞階的商空間
對相似度矩陣進行傳遞閉包的計算,得到樣本間的等價關系矩陣。利用樣本之間的等價關系rij,取閾值λ,當rij≥λ時,將這2個樣本劃在一個等價類中,否則就在不同的等價類中,以此規(guī)則得到閾值為λ的商空間結構X(λ)。
取不同的λ,可以得到不同的分類,對應商空間中的不同層次,按閾值大小對層次排列,構成商空間的分層遞階結構。閾值越大,商空間中元素個數(shù)越多,λ=1時,每個樣本單獨一類。
3.3.2商空間多層結構下屬性權重的計算
得到分層遞階結構后,利用定義的信息熵公式按3步計算屬性權重。
(1)對規(guī)范化后的樣本劃分數(shù)據(jù)類別,即確定sj。通常按照[0,25),[25,50),[50,75),[75,100]分別對應1,2,3,4進行分類,例如xi=36則xi→2。對樣本的屬性空間做四分類處理,把商空間中的等價類元素由原始的x1,x2,x3,...形式,變成1,2,3,4,...形式。
(3)利用信息熵計算屬性權重。屬性在所有層次下的信息熵取平均值,作為屬性的信息熵。信息熵越大,屬性的重要度越小。對屬性信息熵取倒數(shù),作為屬性重要度,為確保屬性權重和為1,對屬性重要度歸一化處理,得到屬性權重。
采用上述步驟處理可以做到直接對等價類分析確定屬性的重要度,對比以往查看刪除屬性前后分類變化的方法,商空間下信息熵計算屬性權重的方法對于無核屬性的數(shù)據(jù)同樣適用。
為驗證商空間理論下信息熵確定屬性權重方法的可操作性和合理性,對某地區(qū)的8個油田,分別記為A、B、...、H,進行開發(fā)排序。油田的初始數(shù)據(jù)見表1所示。
表1 原始數(shù)據(jù)表
(1)其中:滲透率、孔隙度、含油飽和度、探明地質儲量、含油面積、內部收益率屬于效益型屬性,采用(5)式進行計算處理。
(5)
剩余4個指標(原油黏度、產(chǎn)能建設投資、投資回收期、平均的單位成本)屬于成本型屬性,采用(6)式計算處理,得到表2。
(6)
采用上述方法處理原始數(shù)據(jù),可以消除不同屬性數(shù)據(jù)量綱的影響,為之后劃分數(shù)據(jù)類別和確定等價類做基礎。
將上述經(jīng)過公式(5)與公式(6)計算后的數(shù)據(jù),按照[0,25)、[25,50)、[50,75)、[75,100]分別對應1、2、3、4劃分數(shù)據(jù)類別,得到表3。
表3 屬性類別表
通過夾角余弦法如公式(7)計算,得到樣本之間的模糊相似矩陣。
(7)
(8)
(2)利用模糊相似矩陣,建立傳遞閉包得到等價矩陣(9),建立分層遞階結構的商空間。
(9)
表4 樣本商空間
通過計算刪除各個屬性后的等價類發(fā)現(xiàn),分類結果不改變如式(10),因此無法使用刪除屬性后的分析等價類變化確定屬性權重的方法。
(10)
在利用商空間理論得到分層遞階商空間結構的基礎上,利用定義的信息熵公式計算屬性ai在某個截集結構λ商空間下的信息熵Hλ。最后計算商空間族下的平均值,作為屬性ai的信息熵H(ai),權重處理后歸一化確定各屬性的權重。
(11)
(12)
利用上述公式,舉例屬性a2在商空間λ5中的信息熵計算過程:
(1)通過表4查看商空間λ5樣本聚類結果,通過表3查看屬性a2的樣本類別值。
商空間λ5的樣本聚類結果:
λ5=X(0.803 4) {x2,x3,x4,x5,x8},{x1,x6},{x7}
樣本的a2屬性類別值:
x1=4,x2=4,x3=2,x4=2,x5=2,x6=2,x7=1,x8=1
(2)通過上步結果寫出商空間等價類中屬性的類別結果a2/λ5,利用商空間下信息熵公式計算。
商空間λ5下對屬性a2的聚類結果為:a2/λ5={4,2,2,2,1},{4,2}{1}
故a2在λ5下的信息熵為:
以此方法所有屬性在商空間下的信息熵,得到表5。
表5 屬性在商空間下的信息熵/%
利用公式(11)取商空間信息熵總和的平均作為屬性 在商空間下的信息熵,之后利用公式(12)進行權重處理以及歸一化,得到屬性的權重為:
利用屬性權重對上述8個油田排序,排序結果與按照層次分析法和專家調查法綜合[14]得到的排序結果相同。這進一步說明在商空間確定的分層遞階結構上通過定義信息熵計算屬性權重的方法是合理科學的,并且該方法可以直接應用到客觀數(shù)據(jù)上,不需要決策者有油田領域的背景知識,保證處理問題的方法具有便捷性和普適性。
提出了一種商空間理論上利用信息熵確定屬性權重的方法,該方法成功地解決了多屬性多目標排序問題中既無決策屬性又無核屬性的情況。通過將該方法應用于油田開發(fā)方案優(yōu)選實例中,科學地對油田開發(fā)方案進行了排序。下一步將會在屬性權重的基礎上,研究屬性約簡。