基于鄰域依賴度融合信息熵屬性約簡

2024-05-19 14:36:42李朝清孫潔原頔李毅

電腦知識與技術(shù) 2024年7期

李朝清孫潔原頔李毅

摘要：鄰域粗糙集是經(jīng)典粗糙集理論的一個重要擴(kuò)展，它已成功應(yīng)用于諸多領(lǐng)域，其中屬性約簡是其最主要的應(yīng)用之一。鄰域依賴度與信息熵是鄰域粗糙集中的重要內(nèi)容，鄰域依賴度屬則是通過識別出那些對決策屬性具有顯著依賴關(guān)系的屬性，鄰域信息熵可以用來衡量條件屬性對決策屬性的重要性。通過它們構(gòu)建約簡算法可以消除數(shù)據(jù)集中的冗余信息，提高數(shù)據(jù)處理和分析的效率。基于此，本文以鄰域依賴度融合信息熵為基礎(chǔ)，提出了基于鄰域依賴度融合信息熵屬性約簡算法。使用公開數(shù)據(jù)集，實驗結(jié)果表明該算法可以選擇較少的屬性來保持或提高聚類算法的性能，這充分證明了該算法具有較強(qiáng)的有效性。

關(guān)鍵詞：屬性約簡；鄰域依賴度；鄰域信息熵

中圖分類號：TP311? ? ?文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2024）07-0028-05

開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）

0 引言

屬性約簡（Attribute Reduction） [1]是數(shù)據(jù)預(yù)處理的一個重要步驟，通常在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識別等領(lǐng)域中使用。其核心目的是識別并移除數(shù)據(jù)中的不相關(guān)的、冗余的或不重要的屬性（特征），以便減少特征空間的維度并簡化后續(xù)的分析或模型學(xué)習(xí)過程。這項技術(shù)不僅可以降低高維空間數(shù)據(jù)的復(fù)雜性，還可以提高數(shù)據(jù)處理的效率。屬性約簡的研究和應(yīng)用一直是數(shù)據(jù)科學(xué)領(lǐng)域活躍的研究方向，科研工作者不斷提出新技術(shù)和算法以適應(yīng)不斷增長和變化的數(shù)據(jù)分析需求。

粗糙集理論（Rough Set Theory） [2]是由Pawlak在1980年初提出，是一種處理不確定性和不完整信息的數(shù)學(xué)工具。該理論廣泛應(yīng)用于數(shù)據(jù)挖掘、模式識別和人工智能等領(lǐng)域，特別在屬性約簡方面展示了其有效性。經(jīng)典粗糙集理論的應(yīng)用限于標(biāo)稱型數(shù)據(jù)，而非數(shù)值型數(shù)據(jù)。但在現(xiàn)實生活中的數(shù)據(jù)集通常為，為了將數(shù)值型數(shù)據(jù)納入粗糙集分析，一個常見的做法是離散化，但是，離散化處理通常是導(dǎo)致數(shù)據(jù)信丟失的重要原因。為了有效處理數(shù)值型數(shù)據(jù)。Lin等人提出了鄰域粗糙集的概念，Hu等人針對鄰域粗糙集理論進(jìn)行了廣泛的討論和研究，并提供一種有效的工具來克服離散化處理[3-4]。

信息熵起源于信息論[5]，它是一種能夠建立衡量不確定性競爭機(jī)制的方法。Hu等人在傳統(tǒng)信息熵的基礎(chǔ)上，將其拓展到鄰域粗糙集，提出了鄰域信息熵的概念[4]。Chen等人進(jìn)一步發(fā)展了鄰域信息熵理論，提出了一種有效的基于鄰域信息熵的不確定性度量方法。迄今為止，鄰域信息熵已被成功應(yīng)用于屬性約簡[6]。

基于此本文提出了基于鄰域依賴度及信息熵的屬性約簡算法。

1 鄰域粗糙集理論

本節(jié)將回顧本文后續(xù)章節(jié)中關(guān)于鄰域粗糙集理論的一些定義及符號。

定義1[1，4]信息系統(tǒng)（Information System，IS）可以用一個四元組來表示，即[IS=（U，A，V，f）]。其中：[U={x1，x2，...，xn}]是非空有限對象集，稱為論域；[A]為屬性集，它是一個非空有限集；[V=a∈AVa]，[Va]為屬性[a]的值域；[f：U×A→V]是一個信息函數(shù)，它滿足對[?xi∈U（1≤i≤n）]及[?a∈A]有[f（xi，a）∈Va]。對于決策信息系統(tǒng)（Decision System，DS），屬性[A]可以分為2個互不相交的子集：條件屬性子集[C={c1，c2，...，cm}]和決策屬性集[D]，[C?D=?]，[C?D=A]。決策信息系統(tǒng)可以簡記為[DS=（U，C?D，V，f）]。

通過信息函數(shù)[f]定義不可區(qū)分關(guān)系。

定義2[1，4]給定一個信息系統(tǒng)[DS=（U，C?D，V，f）]，對[?B?C]，關(guān)于屬性子集[B]的不可區(qū)分關(guān)系[IND（B）]可定義為：

[IND（B）={（xi，xj）∈U×U|f（xi，ck）=f（xj，ck），?ck∈B}]? （1）

顯然，等價關(guān)系僅使用于標(biāo)稱型數(shù)據(jù)集。

為了處理數(shù)值型數(shù)據(jù)集，本文將引入距離函數(shù)來構(gòu)建鄰域信息系統(tǒng)。

定義3[1，4]給定一個[DS=（U，C?D，V，f）]對[?xi，xj，xp∈U] [（1≤i，j，p≤n）] ，假設(shè)[B={ck1，ck2，...，ckh}（1≤h≤m）?C]，距離函數(shù)[ΔB（xi，xj）]需要滿足如下關(guān)系：

[（1）ΔB（xi，xj）≥0，ΔB（x，y）=0當(dāng)且僅當(dāng)x=y（非負(fù)性）;（2）ΔB（xi，xj）=ΔB（xj，xi）（對稱性）;（3）ΔB（xi，xp）≤ΔB（xi，xj）+ΔB（xi，xp）（傳遞性）。]

[ΔB（xi，xj）]計算對象[xi，xj]在屬性子集[B]下的距離函數(shù)。本文采用歐式距離函數(shù)，即：

[ΔB（xi，xj）=（l=1h（f（xi，ckl）-f（xj，ckl））2）12]? ?（2）

其中，[f（xi，ckl）]與[f（xj，ckl）]分別表示對象[xi]與[xj]在屬性[ckl]下的屬性值。

基于距離函數(shù)并引入鄰域半徑[ε（ε≥0）]來粒化論域，形成鄰域關(guān)系和鄰域類。

定義3[1，4]給定一個[DS=（U，C?D，V，f）]，對[?xi∈U]， [ε≥0]， [?B?C]，那么[xi]在屬性子集[B]上的[ε-]鄰域定義為：

[nεB（xi）={xj|ΔB（xi，xj）≤ε，xj∈U}]? （3）

性質(zhì)1[1，4] 對于[?xi，xj∈U]，有定義3可以得到[ε-]鄰域具有如下性質(zhì)：

[（1）nεB（xi）≠?;（2）xj∈nεB（xi）?xi∈nεB（xj）;（3）i=1nnεB（xi）=U。]

定義4[1，4]給定一個[DS=（U，C?D，V，f）]，對[?B?C]，[ε≥0]，那么鄰域關(guān)系[nrεB]定義如下：

[nrεB={（xi，xj）|xi，xj∈U且xj∈nεB（xi）}]? （4）

由此可見，鄰域關(guān)系實際上刻畫了論域[U]中對象之間的相似性和不可區(qū)分性。

定義5[1，4]給定一個決策信息系統(tǒng)[DS=（U，C?D，V，f）]，對[?B?C]及[ε≥0]，[U/nrεB]構(gòu)成[U]的鄰域覆蓋，稱其為[U]上的一個鄰域知識。其中，每個鄰域稱為一個鄰域知識或鄰域類。

基于給定距離函數(shù)和鄰域半徑來構(gòu)建鄰域信息系統(tǒng)。

定義6[1，4]給定一個[DS=（U，C?D，V，f）]對[?B?C]和[ε≥0]，[nrεB]為屬性子集[B]導(dǎo)出的[U]上[B-ε]鄰域關(guān)系：[NRεC={nrεB}]為[U]上全體鄰域關(guān)系全體，稱四元組[NIS=（U，NRεC，V，f）]為鄰域信息系統(tǒng)。相應(yīng)地，[NDS=（U，NRεC?D，V，f）]稱為鄰域決策信息系統(tǒng)。

在鄰域信息系統(tǒng)中可以定義相關(guān)的上下近似集，其相關(guān)定義如下。

定義7[1，4]給定一個[NIS=（U，NRεC，V，f）]，對[X?U]，[nrεB∈NRεC]，那么[X]基于鄰域關(guān)系[nrεB]的上近似集[nrεB（X）]與下近似集[nrεB（X）]分別定義為：

[nrεB（X）={xi|nεB（xi）?X≠?，xi∈U}]? （5）

[nrεB（X）={xi|nεB（xi）?X，xi∈U}]? （6）

其中，稱[POSnrεB（X）=nrεB（X）]為[X]的[nrεB]正域，稱[NEGnrεB（X）=U-nrεB（X）]為[X] 的[nrεB]負(fù)域，稱[BNDnrεB（X）=nrεB（X）-nrεB（X）]為[X]的[nrεB]邊界域。

基于上述鄰域粗糙集理論相關(guān)知識，還可以定義一些有實際應(yīng)用價值的概念，如鄰域信息熵。

定義8[5]給定一個[NIS=（U，NRεC，V，f）]，鄰域關(guān)系[nrεB∈NRεC]確定的鄰域知識為[U/nrεB={N1，N2，...，Nq}]。那么，鄰域關(guān)系[nrεB]所關(guān)聯(lián)的鄰域信息熵[NEε（B）]可以定義為：

[NEε（B）=-i=1qNiUlog2NiU] （7）

其中，[NiU]為鄰域知識元素[Ni]對于論域[U]的隸屬度概率。

2 基于鄰域依賴度融合信息熵屬性約簡

在本節(jié)中，首先建議鄰域依賴度融合信息熵屬性選擇模型，接著提出了一種基于鄰域依賴度融合信息熵屬性選擇模型，然后基于具體模型對其進(jìn)行分析。此外，還設(shè)計了相應(yīng)的屬性約簡算法。

2.1 基于鄰域依賴度融合信息熵屬性選擇模型建立

給定一個[NIS=（U，NRεB，V，f）]，條件屬性集[C={c1，c2，...，cm}]。設(shè)[B={ck1，ck2，...，ckh}][（1≤h≤m）] ，且[B?C]，對[?xi，xj∈U] 在屬性子集[B]下的領(lǐng)域關(guān)系可以用[rBij]來表示如下：

[rBij=1，ΔB（xi，xj）≤ε;0，ΔB（xi，xj）>ε.]? ?（8）

從公式（8）可以看出，當(dāng)對象[xi]與[xj]之間的距離小于等領(lǐng)域半徑[ε]時，認(rèn)為它們的領(lǐng)域相似度為1；大于領(lǐng)域半徑[ε]時；認(rèn)為它們的相似度為0.其中鄰域半徑[ε]是可以調(diào)的。[nrεB]是[U]上關(guān)于[B]的鄰域關(guān)系，則鄰域關(guān)系矩陣[MnrεB]表示如下：

[MnrεB=rB11rB12…rB1nrB21rB22…rB2n????rBn1rBn2…rBnn]? （9）

由此可見，在屬性[B]下，[U]中對象[xi]的[ε-] 領(lǐng)域可以表示成[0-1]向量形式，即[nεB（xi）=（rBi1，rBi2，...，rBin）]。

定義9 決策[D]相對于條件[B]的鄰域正域的定義如下：

[POSεB（D）=X∈UnrεB（X）]? （10）

鄰域正域定義了決策[D]相對于條件[B]的變精度領(lǐng)域下近似集的并。

定義10 決策[D]相對于條件[B]的鄰域正域的定義如下：

[γεB（D）=|POSεB（D）|U]? （11）

定義11 如果[γεB（D）=γεB-（D）]，稱[b]在[B]中是冗余的；否則，稱[b]在[B]是必要的。如果[B]中每一個屬性都是有必要的，則稱[B]是獨立的。

定義12 假設(shè)給定[B?C]，如果[B]滿足條件：

[（1）γεB（D）=γεC（D）;（2）?b∈B，γεB-（D）<γεB（D），]

定義13 [?b∈C-B]，把[b]相對于[B]的重要度定義為：

[IMP（b，B，D）=γεB?（D）-γεB（D）]? （12）

由于[0≤γεB（D）≤1]且[γεB?（D）≥γεB（D）]，有[0≤IMP（b，B，D）≤1]。如果[IMP（b，B，D）=0]，則稱屬性[b]在[B]中冗余；否則稱[b]是必要的。

則稱[B]是[C]的一個約簡集。

在上述定義中，條件（1）要求約簡不能降低系統(tǒng)的區(qū)分能力，約簡后的條件屬性與全部的條件屬性具有相同的區(qū)分能力。條件（2）要求在屬性約簡后條件屬性中不存在多余的條件屬性，所有的條件屬性都是必要的。

2.2 基于鄰域依賴度融合信息熵選擇算法

到目前為止，本文已經(jīng)建立了鄰域依賴融合信息的選擇模型，稱為“基于鄰域依賴度融合信息屬性約簡算法”。接下來，本小節(jié)將分析一個特定的基于鄰域依賴度融合信息熵的屬性約簡算法。

在基于鄰域粗糙集模型的數(shù)據(jù)處理中，通常需要對數(shù)據(jù)集進(jìn)行歸一化處理，其計算模型如下：

[F（f（xi，ck））=f（xi，ck）-minckmaxck-minck]? （13）

其中，[f（xi，ck）] 為對象[xi]在條件屬性[ck]下對應(yīng)的值，[maxck]和[minck]分別是論域[U]中對象關(guān)于條件屬性[ck] 下的最大值和最小值。歸一化后，這些屬性的屬性值取值范圍為[0，1]。

算法：基于鄰域依賴度融合信息熵屬性約簡算法（NDIEAR）

輸入：[DIS=（U，NRεC?D，V，f）]，其中[|C|=m]，鄰域半徑參數(shù)[ε]

輸出：一個約簡集[red]

1）初始化[red←?，B←C-red]

2）計算每個條件屬性[ck∈C]的鄰域信息熵[NEε（{ck}）]

3）選擇最大的鄰域信息熵[NEε（{ck}）]，選擇屬性[ck]，即[red={ck}]

4）當(dāng)[B≠?]時

5）對[?ckj∈B]

6）計算屬性[ckj]的重要度[IMP（ckj，red，D）=γεred?{ckj}（D）-γεred（D）]

7） end

8）選擇屬性[ckj']，使得[IMP（ckj'，red，D）=max（IMP（ckj，red，D）]

9）如果[IMP（ckj'，red，D）>0]

10） [red=red?{ckj'}]

11） else

12） break

13） end

基于鄰域依賴度融合信息熵屬性約簡算法以空集為起點，首先，計算每個條件屬性的鄰域信息熵，選擇最大的鄰域信息熵的屬性加入約簡集合。接著，每次計算全部剩余屬性的屬性重要度，從中選擇重要度值最大的屬性加入約簡集合中，一直到所有剩余屬性重要度為0。算法的時間復(fù)雜度主要集中在步驟6-8中，計算所有對象鄰域依賴度。分析算法可知，鄰域依賴度的計算在最壞情況下的時間復(fù)雜度為[O（n2）]。假設(shè)系統(tǒng)中有[n] 個樣本，[m] 個條件屬性，約簡屬性子集有[q]個屬性。在步驟6中需要計算每個對象在不同屬性下的鄰域依賴度，其時間復(fù)雜[O（mn2+（m -1）n2+...+（m - q）n2）= O（12（2m - q）（q +1）n2）]。

3 實驗及分析

本節(jié)通過在聚類任務(wù)中的性能來評估VPNDAR算法，主要包括實驗數(shù)據(jù)集、實驗方案、實驗結(jié)果、參數(shù)分析等內(nèi)容。

3.1 實驗數(shù)據(jù)集

從公開數(shù)據(jù)庫中選取6個數(shù)值屬性數(shù)據(jù)進(jìn)行實驗。對于某些數(shù)據(jù)集中的缺失值，采用最大概率值法來填充缺失值，即用該屬性上其他樣本上出現(xiàn)頻率最高的值來填充缺失的屬性值。用于聚類的數(shù)據(jù)集描述如表1。

3.2 實驗方案

本文所提基于變精度鄰域依賴度屬性約簡（NDIEAR）算法作用于表1列出的數(shù)據(jù)集為每一個數(shù)據(jù)集選擇一個最優(yōu)的屬性子集。

對于聚類實驗中，本文調(diào)用k-Means和FCM（Fuzzy C-Means）聚類算法來評估算法的性能。聚類算法返回數(shù)據(jù)集的預(yù)測決策，本節(jié)使用聚類準(zhǔn)確率（ACC）來評估聚類算法的性能。其定義如下：

[ACC=i=1nδ（f（xi），f'（xi））n]? （14）

其中，[f（xi）]表示[xi]的真實決策屬性值，[f'（xi）]為[xi]的預(yù)測決策屬性值。如果[f（xi）=f'（xi）]，則[δ（f（xi），f'（xi））=1]。反之，則等于0。一個聚類算法的ACC值越大，說明其性能越好。由于k-Means和FCM聚類算法具有隨機(jī)性，所以重復(fù)實驗10次。最后，使用聚類ACC值的平均值和標(biāo)準(zhǔn)差來作為最終的結(jié)果。

NDIEAR算法，計算鄰域半徑[ε]在[0.1，1]步長為0.1的最優(yōu)結(jié)果。同時，對于NDIEAR算法，通過大量實驗表明對于數(shù)值屬性數(shù)據(jù)集，通常很難達(dá)到以所有剩余屬性的重要度為0的停止條件。因此本文設(shè)置重要度停止條件為0.000 1。

3.3 實驗結(jié)果分析

本節(jié)首先給基于鄰域依賴度融合信息熵屬性約簡結(jié)果，如表2所示。

表2給出了k-Means和FCM聚類算法的平均最優(yōu)屬性個數(shù)。NDIEAR算法選擇的屬性數(shù)在所有數(shù)據(jù)集上均小于原始數(shù)據(jù)節(jié)屬性個數(shù)。例如，對于WDBC、Iono、WPBC及Wine3數(shù)據(jù)集而言，NDIEAR算法選擇的平均屬性個數(shù)為8.0、2.0、1.0及1.0，明顯小于原始屬性個數(shù)。此外，對于屬性數(shù)均值而言，NDIEAR算法遠(yuǎn)小于原始屬性個數(shù)。

接下來，分別給出約簡數(shù)據(jù)關(guān)于聚類算法的聚類ACC（%）。如表3和表4所示。

表3和表4分別給出了基于k-Means算法和FCM算法的最優(yōu)聚類ACC的結(jié)果。其中，粗體部分顯示最優(yōu)值。通過表3和表4中的結(jié)果，得到一些相應(yīng)的分析如下：

1） NDIEAR算法相比原始屬性有10種情形達(dá)到了最好的聚類ACC，而原始屬性只有2種情形。

2）從ACC的均值來看，所提NDIEAR算法在兩種聚類算法中都取得了比較高的均值。

綜上所述，本文所提NDIEAR算法獲得了較好的聚類性能。它可以選擇較小的屬性子集，同時能保持或者提高聚類ACC。因此，NDIEAR算法適用于在聚類任務(wù)中的數(shù)值屬性約簡。

3.4 實驗參數(shù)分析

鄰域半徑參數(shù)[ε] 在NDIEAR算法中起著至關(guān)重要的作用，它可以用于控制數(shù)據(jù)分析的鄰域粒度，最終影響約簡的結(jié)果。

接下來，本文將給出不同鄰域半徑[ε]下約簡屬性數(shù)和平均聚類準(zhǔn)確率曲線，如圖1所示。

NDIEAR算法，可以通過調(diào)整鄰域半徑參數(shù)ε在每個數(shù)據(jù)集上得到不同的屬性子集。圖1描述了不同鄰域半徑參數(shù)ε約簡屬性數(shù)和平均聚類準(zhǔn)確率曲線。接下來，本文將從屬性約簡的個數(shù)和聚類ACC兩個方面進(jìn)行分析。

通過分析圖1，可以看到，在一些數(shù)據(jù)集上隨著鄰域半徑參數(shù)ε的增加，約簡屬性的個數(shù)先保持平穩(wěn)，接著逐漸降低，最后保持相對平穩(wěn)，如Yest和Wine3。大部分?jǐn)?shù)據(jù)集隨著變精度閾值[ε]的增加，約簡屬性的個數(shù)大體上呈逐增加的趨勢到達(dá)某個峰值，然后逐漸減少，如WBC、WDBC、Iono及WPBC。

在平均聚類準(zhǔn)確方面，從圖1可知，對于大多數(shù)數(shù)據(jù)集，在多個鄰域半徑[ε]下可以取得高平均聚類精度。對于每個數(shù)據(jù)集，可以根據(jù)圖1選擇合適的鄰域半徑[ε]。因此，使用NDIEAR算法進(jìn)行屬性約簡是可行的。

4 結(jié)論

本文設(shè)計了相應(yīng)的NDIEAR算法。從公開數(shù)據(jù)庫中選取6個數(shù)據(jù)在所提NDIEAR算法上進(jìn)行實驗。實驗結(jié)果表明，該算法可以選擇較少的屬性來保持或提高學(xué)習(xí)算法的能力。

參考文獻(xiàn)：

[1] 徐波.鄰域粗糙集的啟發(fā)式屬性約簡算法研究[D].成都：四川師范大學(xué)，2019.

[2] PAWLAK Z.Rough sets[J].International Journal of Computer & Information Sciences，1982，11（5）：341-356.

[3] HU Q H，YU D R，LIU J F，et al.Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences，2008，178（18）：3577-3594.

[4] 胡清華.混合數(shù)據(jù)知識發(fā)現(xiàn)的粗糙計算模型和算法[D].哈爾濱：哈爾濱工業(yè)大學(xué)，2008.

[5] 袁鐘.混合數(shù)據(jù)無監(jiān)督知識發(fā)現(xiàn)的模糊粗糙計算方法研究[D].成都：西南交通大學(xué)，2022.

[6] CHEN Y M，WU K S，CHEN X H，et al.An entropy-based uncertainty measurement approach in neighborhood systems[J].Information Sciences，2014，279：239-250.

【通聯(lián)編輯：梁書】

電腦知識與技術(shù)2024年7期

電腦知識與技術(shù)的其它文章: 基于物聯(lián)網(wǎng)技術(shù)的社會治理智能感知體系研究; 基于?？漳繕?biāo)畫像的大數(shù)據(jù)標(biāo)簽體系構(gòu)建方法; Apache Flink流式計算模型在數(shù)據(jù)處理中的應(yīng)用與性能優(yōu)化研究; 茶文化互動式體驗系統(tǒng)的設(shè)計與實現(xiàn); 基于國產(chǎn)存儲及地學(xué)軟件數(shù)據(jù)容災(zāi)建設(shè); 基于低代碼開發(fā)框架的職業(yè)院校信息化平臺的設(shè)計與實現(xiàn)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于鄰域依賴度融合信息熵屬性約簡