国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于鄰域依賴度融合信息熵屬性約簡

2024-05-19 14:36:42李朝清孫潔原頔李毅
電腦知識與技術(shù) 2024年7期

李朝清 孫潔 原頔 李毅

摘要:鄰域粗糙集是經(jīng)典粗糙集理論的一個重要擴(kuò)展,它已成功應(yīng)用于諸多領(lǐng)域,其中屬性約簡是其最主要的應(yīng)用之一。鄰域依賴度與信息熵是鄰域粗糙集中的重要內(nèi)容,鄰域依賴度屬則是通過識別出那些對決策屬性具有顯著依賴關(guān)系的屬性,鄰域信息熵可以用來衡量條件屬性對決策屬性的重要性。通過它們構(gòu)建約簡算法可以消除數(shù)據(jù)集中的冗余信息,提高數(shù)據(jù)處理和分析的效率。基于此,本文以鄰域依賴度融合信息熵為基礎(chǔ),提出了基于鄰域依賴度融合信息熵屬性約簡算法。使用公開數(shù)據(jù)集,實驗結(jié)果表明該算法可以選擇較少的屬性來保持或提高聚類算法的性能,這充分證明了該算法具有較強(qiáng)的有效性。

關(guān)鍵詞:屬性約簡;鄰域依賴度;鄰域信息熵

中圖分類號:TP311? ? ?文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2024)07-0028-05

開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)

0 引言

屬性約簡(Attribute Reduction) [1]是數(shù)據(jù)預(yù)處理的一個重要步驟,通常在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識別等領(lǐng)域中使用。其核心目的是識別并移除數(shù)據(jù)中的不相關(guān)的、冗余的或不重要的屬性(特征),以便減少特征空間的維度并簡化后續(xù)的分析或模型學(xué)習(xí)過程。這項技術(shù)不僅可以降低高維空間數(shù)據(jù)的復(fù)雜性,還可以提高數(shù)據(jù)處理的效率。屬性約簡的研究和應(yīng)用一直是數(shù)據(jù)科學(xué)領(lǐng)域活躍的研究方向,科研工作者不斷提出新技術(shù)和算法以適應(yīng)不斷增長和變化的數(shù)據(jù)分析需求。

粗糙集理論(Rough Set Theory) [2]是由Pawlak在1980年初提出,是一種處理不確定性和不完整信息的數(shù)學(xué)工具。該理論廣泛應(yīng)用于數(shù)據(jù)挖掘、模式識別和人工智能等領(lǐng)域,特別在屬性約簡方面展示了其有效性。經(jīng)典粗糙集理論的應(yīng)用限于標(biāo)稱型數(shù)據(jù),而非數(shù)值型數(shù)據(jù)。但在現(xiàn)實生活中的數(shù)據(jù)集通常為,為了將數(shù)值型數(shù)據(jù)納入粗糙集分析,一個常見的做法是離散化,但是,離散化處理通常是導(dǎo)致數(shù)據(jù)信丟失的重要原因。為了有效處理數(shù)值型數(shù)據(jù)。Lin等人提出了鄰域粗糙集的概念,Hu等人針對鄰域粗糙集理論進(jìn)行了廣泛的討論和研究,并提供一種有效的工具來克服離散化處理[3-4]。

信息熵起源于信息論[5],它是一種能夠建立衡量不確定性競爭機(jī)制的方法。Hu等人在傳統(tǒng)信息熵的基礎(chǔ)上,將其拓展到鄰域粗糙集,提出了鄰域信息熵的概念[4]。Chen等人進(jìn)一步發(fā)展了鄰域信息熵理論,提出了一種有效的基于鄰域信息熵的不確定性度量方法。迄今為止,鄰域信息熵已被成功應(yīng)用于屬性約簡[6]。

基于此本文提出了基于鄰域依賴度及信息熵的屬性約簡算法。

1 鄰域粗糙集理論

本節(jié)將回顧本文后續(xù)章節(jié)中關(guān)于鄰域粗糙集理論的一些定義及符號。

定義1[1,4]信息系統(tǒng)(Information System,IS)可以用一個四元組來表示,即[IS=(U,A,V,f)]。其中:[U={x1,x2,...,xn}]是非空有限對象集,稱為論域;[A]為屬性集,它是一個非空有限集;[V=a∈AVa],[Va]為屬性[a]的值域;[f:U×A→V]是一個信息函數(shù),它滿足對[?xi∈U(1≤i≤n)]及[?a∈A]有[f(xi,a)∈Va]。對于決策信息系統(tǒng)(Decision System,DS),屬性[A]可以分為2個互不相交的子集:條件屬性子集[C={c1,c2,...,cm}]和決策屬性集[D],[C?D=?],[C?D=A]。決策信息系統(tǒng)可以簡記為[DS=(U,C?D,V,f)]。

通過信息函數(shù)[f]定義不可區(qū)分關(guān)系。

定義2[1,4]給定一個信息系統(tǒng)[DS=(U,C?D,V,f)],對[?B?C],關(guān)于屬性子集[B]的不可區(qū)分關(guān)系[IND(B)]可定義為:

[IND(B)={(xi,xj)∈U×U|f(xi,ck)=f(xj,ck),?ck∈B}]? (1)

顯然,等價關(guān)系僅使用于標(biāo)稱型數(shù)據(jù)集。

為了處理數(shù)值型數(shù)據(jù)集,本文將引入距離函數(shù)來構(gòu)建鄰域信息系統(tǒng)。

定義3[1,4]給定一個[DS=(U,C?D,V,f)]對[?xi,xj,xp∈U] [(1≤i,j,p≤n)] ,假設(shè)[B={ck1,ck2,...,ckh}(1≤h≤m)?C],距離函數(shù)[ΔB(xi,xj)]需要滿足如下關(guān)系:

[(1)ΔB(xi,xj)≥0,ΔB(x,y)=0當(dāng)且僅當(dāng)x=y(非負(fù)性);(2)ΔB(xi,xj)=ΔB(xj,xi)(對稱性);(3)ΔB(xi,xp)≤ΔB(xi,xj)+ΔB(xi,xp)(傳遞性)。]

[ΔB(xi,xj)]計算對象[xi,xj]在屬性子集[B]下的距離函數(shù)。本文采用歐式距離函數(shù),即:

[ΔB(xi,xj)=(l=1h(f(xi,ckl)-f(xj,ckl))2)12]? ?(2)

其中,[f(xi,ckl)]與[f(xj,ckl)]分別表示對象[xi]與[xj]在屬性[ckl]下的屬性值。

基于距離函數(shù)并引入鄰域半徑[ε(ε≥0)]來粒化論域,形成鄰域關(guān)系和鄰域類。

定義3[1,4]給定一個[DS=(U,C?D,V,f)],對[?xi∈U], [ε≥0], [?B?C],那么[xi]在屬性子集[B]上的[ε-]鄰域定義為:

[nεB(xi)={xj|ΔB(xi,xj)≤ε,xj∈U}]? (3)

性質(zhì)1[1,4] 對于[?xi,xj∈U],有定義3可以得到[ε-]鄰域具有如下性質(zhì):

[(1)nεB(xi)≠?;(2)xj∈nεB(xi)?xi∈nεB(xj);(3)i=1nnεB(xi)=U。]

定義4[1,4]給定一個[DS=(U,C?D,V,f)],對[?B?C],[ε≥0],那么鄰域關(guān)系[nrεB]定義如下:

[nrεB={(xi,xj)|xi,xj∈U且xj∈nεB(xi)}]? (4)

由此可見,鄰域關(guān)系實際上刻畫了論域[U]中對象之間的相似性和不可區(qū)分性。

定義5[1,4]給定一個決策信息系統(tǒng)[DS=(U,C?D,V,f)],對[?B?C]及[ε≥0],[U/nrεB]構(gòu)成[U]的鄰域覆蓋,稱其為[U]上的一個鄰域知識。其中,每個鄰域稱為一個鄰域知識或鄰域類。

基于給定距離函數(shù)和鄰域半徑來構(gòu)建鄰域信息系統(tǒng)。

定義6[1,4]給定一個[DS=(U,C?D,V,f)]對[?B?C]和[ε≥0],[nrεB]為屬性子集[B]導(dǎo)出的[U]上[B-ε]鄰域關(guān)系:[NRεC={nrεB}]為[U]上全體鄰域關(guān)系全體,稱四元組[NIS=(U,NRεC,V,f)]為鄰域信息系統(tǒng)。相應(yīng)地,[NDS=(U,NRεC?D,V,f)]稱為鄰域決策信息系統(tǒng)。

在鄰域信息系統(tǒng)中可以定義相關(guān)的上下近似集,其相關(guān)定義如下。

定義7[1,4]給定一個[NIS=(U,NRεC,V,f)],對[X?U],[nrεB∈NRεC],那么[X]基于鄰域關(guān)系[nrεB]的上近似集[nrεB(X)]與下近似集[nrεB(X)]分別定義為:

[nrεB(X)={xi|nεB(xi)?X≠?,xi∈U}]? (5)

[nrεB(X)={xi|nεB(xi)?X,xi∈U}]? (6)

其中,稱[POSnrεB(X)=nrεB(X)]為[X]的[nrεB]正域,稱[NEGnrεB(X)=U-nrεB(X)]為[X] 的[nrεB]負(fù)域,稱[BNDnrεB(X)=nrεB(X)-nrεB(X)]為[X]的[nrεB]邊界域。

基于上述鄰域粗糙集理論相關(guān)知識,還可以定義一些有實際應(yīng)用價值的概念,如鄰域信息熵。

定義8[5]給定一個[NIS=(U,NRεC,V,f)],鄰域關(guān)系[nrεB∈NRεC]確定的鄰域知識為[U/nrεB={N1,N2,...,Nq}]。那么,鄰域關(guān)系[nrεB]所關(guān)聯(lián)的鄰域信息熵[NEε(B)]可以定義為:

[NEε(B)=-i=1qNiUlog2NiU] (7)

其中,[NiU]為鄰域知識元素[Ni]對于論域[U]的隸屬度概率。

2 基于鄰域依賴度融合信息熵屬性約簡

在本節(jié)中,首先建議鄰域依賴度融合信息熵屬性選擇模型,接著提出了一種基于鄰域依賴度融合信息熵屬性選擇模型,然后基于具體模型對其進(jìn)行分析。此外,還設(shè)計了相應(yīng)的屬性約簡算法。

2.1 基于鄰域依賴度融合信息熵屬性選擇模型建立

給定一個[NIS=(U,NRεB,V,f)],條件屬性集[C={c1,c2,...,cm}]。設(shè)[B={ck1,ck2,...,ckh}][(1≤h≤m)] ,且[B?C],對[?xi,xj∈U] 在屬性子集[B]下的領(lǐng)域關(guān)系可以用[rBij]來表示如下:

[rBij=1,ΔB(xi,xj)≤ε;0,ΔB(xi,xj)>ε.]? ?(8)

從公式(8) 可以看出,當(dāng)對象[xi]與[xj]之間的距離小于等領(lǐng)域半徑[ε]時,認(rèn)為它們的領(lǐng)域相似度為1;大于領(lǐng)域半徑[ε]時;認(rèn)為它們的相似度為0.其中鄰域半徑[ε]是可以調(diào)的。[nrεB]是[U]上關(guān)于[B]的鄰域關(guān)系,則鄰域關(guān)系矩陣[MnrεB]表示如下:

[MnrεB=rB11rB12…rB1nrB21rB22…rB2n????rBn1rBn2…rBnn]? (9)

由此可見,在屬性[B]下,[U]中對象[xi]的[ε-] 領(lǐng)域可以表示成[0-1]向量形式,即[nεB(xi)=(rBi1,rBi2,...,rBin)]。

定義9 決策[D]相對于條件[B]的鄰域正域的定義如下:

[POSεB(D)=X∈UnrεB(X)]? (10)

鄰域正域定義了決策[D]相對于條件[B]的變精度領(lǐng)域下近似集的并。

定義10 決策[D]相對于條件[B]的鄰域正域的定義如下:

[γεB(D)=|POSεB(D)|U]? (11)

定義11 如果[γεB(D)=γεB-(D)],稱[b]在[B]中是冗余的;否則,稱[b]在[B]是必要的。如果[B]中每一個屬性都是有必要的,則稱[B]是獨立的。

定義12 假設(shè)給定[B?C],如果[B]滿足條件:

[(1)γεB(D)=γεC(D);(2)?b∈B,γεB-(D)<γεB(D),]

定義13 [?b∈C-B],把[b]相對于[B]的重要度定義為:

[IMP(b,B,D)=γεB?(D)-γεB(D)]? (12)

由于[0≤γεB(D)≤1]且[γεB?(D)≥γεB(D)],有[0≤IMP(b,B,D)≤1]。如果[IMP(b,B,D)=0],則稱屬性[b]在[B]中冗余;否則稱[b]是必要的。

則稱[B]是[C]的一個約簡集。

在上述定義中,條件(1)要求約簡不能降低系統(tǒng)的區(qū)分能力,約簡后的條件屬性與全部的條件屬性具有相同的區(qū)分能力。條件(2)要求在屬性約簡后條件屬性中不存在多余的條件屬性,所有的條件屬性都是必要的。

2.2 基于鄰域依賴度融合信息熵選擇算法

到目前為止,本文已經(jīng)建立了鄰域依賴融合信息的選擇模型,稱為“基于鄰域依賴度融合信息屬性約簡算法”。接下來,本小節(jié)將分析一個特定的基于鄰域依賴度融合信息熵的屬性約簡算法。

在基于鄰域粗糙集模型的數(shù)據(jù)處理中,通常需要對數(shù)據(jù)集進(jìn)行歸一化處理,其計算模型如下:

[F(f(xi,ck))=f(xi,ck)-minckmaxck-minck]? (13)

其中,[f(xi,ck)] 為對象[xi]在條件屬性[ck]下對應(yīng)的值,[maxck]和[minck]分別是論域[U]中對象關(guān)于條件屬性[ck] 下的最大值和最小值。歸一化后,這些屬性的屬性值取值范圍為[0,1]。

算法:基于鄰域依賴度融合信息熵屬性約簡算法(NDIEAR)

輸入:[DIS=(U,NRεC?D,V,f)],其中[|C|=m],鄰域半徑參數(shù)[ε]

輸出:一個約簡集[red]

1) 初始化[red←?,B←C-red]

2) 計算每個條件屬性[ck∈C]的鄰域信息熵[NEε({ck})]

3) 選擇最大的鄰域信息熵[NEε({ck})],選擇屬性[ck],即[red={ck}]

4) 當(dāng)[B≠?]時

5) 對[?ckj∈B]

6) 計算屬性[ckj]的重要度[IMP(ckj,red,D)=γεred?{ckj}(D)-γεred(D)]

7) end

8) 選擇屬性[ckj'],使得[IMP(ckj',red,D)=max(IMP(ckj,red,D)]

9) 如果[IMP(ckj',red,D)>0]

10) [red=red?{ckj'}]

11) else

12) break

13) end

基于鄰域依賴度融合信息熵屬性約簡算法以空集為起點,首先,計算每個條件屬性的鄰域信息熵,選擇最大的鄰域信息熵的屬性加入約簡集合。接著,每次計算全部剩余屬性的屬性重要度,從中選擇重要度值最大的屬性加入約簡集合中,一直到所有剩余屬性重要度為0。算法的時間復(fù)雜度主要集中在步驟6-8中,計算所有對象鄰域依賴度。分析算法可知,鄰域依賴度的計算在最壞情況下的時間復(fù)雜度為[O(n2)]。假設(shè)系統(tǒng)中有[n] 個樣本,[m] 個條件屬性,約簡屬性子集有[q]個屬性。在步驟6中需要計算每個對象在不同屬性下的鄰域依賴度,其時間復(fù)雜[O(mn2+(m -1)n2+...+(m - q)n2)= O(12(2m - q)(q +1)n2)]。

3 實驗及分析

本節(jié)通過在聚類任務(wù)中的性能來評估VPNDAR算法,主要包括實驗數(shù)據(jù)集、實驗方案、實驗結(jié)果、參數(shù)分析等內(nèi)容。

3.1 實驗數(shù)據(jù)集

從公開數(shù)據(jù)庫中選取6個數(shù)值屬性數(shù)據(jù)進(jìn)行實驗。對于某些數(shù)據(jù)集中的缺失值,采用最大概率值法來填充缺失值,即用該屬性上其他樣本上出現(xiàn)頻率最高的值來填充缺失的屬性值。用于聚類的數(shù)據(jù)集描述如表1。

3.2 實驗方案

本文所提基于變精度鄰域依賴度屬性約簡(NDIEAR)算法作用于表1列出的數(shù)據(jù)集為每一個數(shù)據(jù)集選擇一個最優(yōu)的屬性子集。

對于聚類實驗中,本文調(diào)用k-Means和FCM(Fuzzy C-Means)聚類算法來評估算法的性能。聚類算法返回數(shù)據(jù)集的預(yù)測決策,本節(jié)使用聚類準(zhǔn)確率(ACC)來評估聚類算法的性能。其定義如下:

[ACC=i=1nδ(f(xi),f'(xi))n]? (14)

其中,[f(xi)]表示[xi]的真實決策屬性值,[f'(xi)]為[xi]的預(yù)測決策屬性值。如果[f(xi)=f'(xi)],則[δ(f(xi),f'(xi))=1]。反之,則等于0。一個聚類算法的ACC值越大,說明其性能越好。由于k-Means和FCM聚類算法具有隨機(jī)性,所以重復(fù)實驗10次。最后,使用聚類ACC值的平均值和標(biāo)準(zhǔn)差來作為最終的結(jié)果。

NDIEAR算法,計算鄰域半徑[ε]在[0.1,1]步長為0.1的最優(yōu)結(jié)果。同時,對于NDIEAR算法,通過大量實驗表明對于數(shù)值屬性數(shù)據(jù)集,通常很難達(dá)到以所有剩余屬性的重要度為0的停止條件。因此本文設(shè)置重要度停止條件為0.000 1。

3.3 實驗結(jié)果分析

本節(jié)首先給基于鄰域依賴度融合信息熵屬性約簡結(jié)果,如表2所示。

表2給出了k-Means和FCM聚類算法的平均最優(yōu)屬性個數(shù)。NDIEAR算法選擇的屬性數(shù)在所有數(shù)據(jù)集上均小于原始數(shù)據(jù)節(jié)屬性個數(shù)。例如,對于WDBC、Iono、WPBC及Wine3數(shù)據(jù)集而言,NDIEAR算法選擇的平均屬性個數(shù)為8.0、2.0、1.0及1.0,明顯小于原始屬性個數(shù)。此外,對于屬性數(shù)均值而言,NDIEAR算法遠(yuǎn)小于原始屬性個數(shù)。

接下來,分別給出約簡數(shù)據(jù)關(guān)于聚類算法的聚類ACC(%)。如表3和表4所示。

表3和表4分別給出了基于k-Means算法和FCM算法的最優(yōu)聚類ACC的結(jié)果。其中,粗體部分顯示最優(yōu)值。通過表3和表4中的結(jié)果,得到一些相應(yīng)的分析如下:

1) NDIEAR算法相比原始屬性有10種情形達(dá)到了最好的聚類ACC,而原始屬性只有2種情形。

2) 從ACC的均值來看,所提NDIEAR算法在兩種聚類算法中都取得了比較高的均值。

綜上所述,本文所提NDIEAR算法獲得了較好的聚類性能。它可以選擇較小的屬性子集,同時能保持或者提高聚類ACC。因此,NDIEAR算法適用于在聚類任務(wù)中的數(shù)值屬性約簡。

3.4 實驗參數(shù)分析

鄰域半徑參數(shù)[ε] 在NDIEAR算法中起著至關(guān)重要的作用,它可以用于控制數(shù)據(jù)分析的鄰域粒度,最終影響約簡的結(jié)果。

接下來,本文將給出不同鄰域半徑[ε]下約簡屬性數(shù)和平均聚類準(zhǔn)確率曲線,如圖1所示。

NDIEAR算法,可以通過調(diào)整鄰域半徑參數(shù)ε在每個數(shù)據(jù)集上得到不同的屬性子集。圖1描述了不同鄰域半徑參數(shù)ε約簡屬性數(shù)和平均聚類準(zhǔn)確率曲線。接下來,本文將從屬性約簡的個數(shù)和聚類ACC兩個方面進(jìn)行分析。

通過分析圖1,可以看到,在一些數(shù)據(jù)集上隨著鄰域半徑參數(shù)ε的增加,約簡屬性的個數(shù)先保持平穩(wěn),接著逐漸降低,最后保持相對平穩(wěn),如Yest和Wine3。大部分?jǐn)?shù)據(jù)集隨著變精度閾值[ε]的增加,約簡屬性的個數(shù)大體上呈逐增加的趨勢到達(dá)某個峰值,然后逐漸減少,如WBC、WDBC、Iono及WPBC。

在平均聚類準(zhǔn)確方面,從圖1可知,對于大多數(shù)數(shù)據(jù)集,在多個鄰域半徑[ε]下可以取得高平均聚類精度。對于每個數(shù)據(jù)集,可以根據(jù)圖1選擇合適的鄰域半徑[ε]。因此,使用NDIEAR算法進(jìn)行屬性約簡是可行的。

4 結(jié)論

本文設(shè)計了相應(yīng)的NDIEAR算法。從公開數(shù)據(jù)庫中選取6個數(shù)據(jù)在所提NDIEAR算法上進(jìn)行實驗。實驗結(jié)果表明,該算法可以選擇較少的屬性來保持或提高學(xué)習(xí)算法的能力。

參考文獻(xiàn):

[1] 徐波.鄰域粗糙集的啟發(fā)式屬性約簡算法研究[D].成都:四川師范大學(xué),2019.

[2] PAWLAK Z.Rough sets[J].International Journal of Computer & Information Sciences,1982,11(5):341-356.

[3] HU Q H,YU D R,LIU J F,et al.Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences,2008,178(18):3577-3594.

[4] 胡清華.混合數(shù)據(jù)知識發(fā)現(xiàn)的粗糙計算模型和算法[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.

[5] 袁鐘.混合數(shù)據(jù)無監(jiān)督知識發(fā)現(xiàn)的模糊粗糙計算方法研究[D].成都:西南交通大學(xué),2022.

[6] CHEN Y M,WU K S,CHEN X H,et al.An entropy-based uncertainty measurement approach in neighborhood systems[J].Information Sciences,2014,279:239-250.

【通聯(lián)編輯:梁書】

股票| 灌云县| 永康市| 桐庐县| 石嘴山市| 安乡县| 安徽省| 北京市| 舒城县| 郸城县| 师宗县| 黎城县| 抚松县| 兴和县| 中阳县| 靖州| 布拖县| 文昌市| 神农架林区| 柯坪县| 防城港市| 蒙山县| 青冈县| 崇礼县| 永德县| 上杭县| 天镇县| 永善县| 于都县| 玛沁县| 无棣县| 台东市| 祁阳县| 左权县| 惠安县| 乡城县| 怀来县| 页游| 若尔盖县| 山丹县| 乐至县|