国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙空間模糊鄰域相似關(guān)系的多標(biāo)記特征選擇

2022-10-17 13:08:22徐久成申凱麗
模式識(shí)別與人工智能 2022年9期
關(guān)鍵詞:粗糙集特征選擇集上

徐久成 申凱麗

在傳統(tǒng)的分類學(xué)習(xí)中,每個(gè)樣本只包含一個(gè)類別標(biāo)簽,即單標(biāo)記學(xué)習(xí).然而,在實(shí)際應(yīng)用中,大部分樣本同時(shí)包含多個(gè)類別標(biāo)簽,即多標(biāo)記學(xué)習(xí)[1-3].多標(biāo)記學(xué)習(xí)與單標(biāo)記學(xué)習(xí)一樣遇到維數(shù)災(zāi)難的問(wèn)題,多標(biāo)記數(shù)據(jù)中存在一些可能與分類任務(wù)不相關(guān)或冗余的特征,導(dǎo)致諸如計(jì)算成本過(guò)高、過(guò)擬合、多標(biāo)記分類學(xué)習(xí)算法的性能較低和分類學(xué)習(xí)過(guò)程較長(zhǎng)等問(wèn)題.特征選擇作為一種常用的解決維數(shù)災(zāi)難問(wèn)題的有效方法,在多標(biāo)記分類任務(wù)中占有重要位置[4].

經(jīng)典粗糙集[5]是一種處理不確定數(shù)據(jù)的數(shù)學(xué)工具,廣泛應(yīng)用于特征選擇.為了擴(kuò)展經(jīng)典粗糙集的適用性,學(xué)者們提出鄰域粗糙集模型(Neighborhood Rough Sets, NRS)[6]、模糊粗糙集模型(Fuzzy Rough Sets, FRS)[7]和模糊鄰域粗糙集模型(Fuzzy Neigh-borhood Rough Sets, FNRS)[8-9].NRS可處理連續(xù)數(shù)值數(shù)據(jù),已成為多標(biāo)記學(xué)習(xí)研究熱點(diǎn)和處理特征選擇的新方向.然而,NRS使用鄰域相似類近似描述決策等價(jià)類,無(wú)法表示模糊背景下實(shí)例的模糊性[10-11].Lin等[12]利用不同的模糊關(guān)系度量不同標(biāo)簽下樣本之間的相似度,提出基于FRS的多標(biāo)記特征選擇算法.趙晉歡等[13]基于FRS,構(gòu)造模糊辨識(shí)矩陣,對(duì)連續(xù)型數(shù)據(jù)進(jìn)行屬性約簡(jiǎn).姚二亮等[14]同樣在FRS中基于模糊辨識(shí)關(guān)系,分別從樣本和標(biāo)記角度計(jì)算多標(biāo)記特征重要度.然而,F(xiàn)RS只使用模糊相似度劃分決策類,并未劃分樣本之間的相似度閾值.FNRS可構(gòu)造一個(gè)魯棒的距離函數(shù),使用模糊信息粒度描述實(shí)例決策,降低數(shù)據(jù)分類的錯(cuò)誤率[15].FNRS在特征選擇中具有一定的優(yōu)勢(shì),初步處理多標(biāo)記數(shù)據(jù)集的同時(shí)具有鄰域粗糙集和模糊粗糙集的優(yōu)勢(shì),既從鄰域關(guān)系角度將多標(biāo)記數(shù)據(jù)集上的特征進(jìn)行分類,又從模糊相似關(guān)系的角度計(jì)算每個(gè)樣本之間特征值的相似度.雖然基于FNRS的特征選擇方法已在單標(biāo)記數(shù)據(jù)集上廣泛應(yīng)用,然而少有針對(duì)多標(biāo)記數(shù)據(jù)集的研究.因此,開(kāi)發(fā)基于FNRS的多標(biāo)記特征選擇方法是有必要的.

現(xiàn)有的基于模糊鄰域粗糙集的多標(biāo)記特征選擇算法多從特征或標(biāo)記的單一角度刻畫(huà)特征對(duì)標(biāo)記的重要程度,未綜合考慮特征空間和標(biāo)記空間對(duì)樣本相似度的影響,并且大部分基于鄰域關(guān)系的特征選擇方法是借鑒專家的經(jīng)驗(yàn)選取鄰域參數(shù)值,具有一定的主觀性.因此,本文基于模糊鄰域粗糙集模型,引入自適應(yīng)鄰域計(jì)算公式,并在特征和標(biāo)記空間上利用樣本間特征值的相似性對(duì)標(biāo)記值相似性的關(guān)聯(lián)程度度量特征的重要度,設(shè)計(jì)基于雙空間模糊鄰域相似關(guān)系的多標(biāo)記特征選擇算法(Multi-label Fea-ture Selection Based on Fuzzy Neighborhood Similarity Relations in Double Spaces, DSFNS).首先,設(shè)計(jì)自適應(yīng)鄰域半徑的計(jì)算方法,構(gòu)建特征空間下樣本的模糊鄰域相似矩陣.再根據(jù)模糊鄰域相似關(guān)系,得出特征空間下的樣本相似度及標(biāo)記空間下的樣本相似度.然后,通過(guò)權(quán)重將特征空間和標(biāo)記空間上的樣本相似度進(jìn)行融合,基于融合后的度量計(jì)算屬性重要度.最后,運(yùn)用前向貪心算法構(gòu)建多標(biāo)記特征選擇算法.在12個(gè)多標(biāo)記數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)驗(yàn)證本文算法的有效性.

1 相關(guān)知識(shí)

1.1 模糊鄰域粗糙集

定義1[16]設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),U={x1,x2,…,xn},B為論域U中的屬性子集,B?A,由B引出一個(gè)模糊二元關(guān)系RB,對(duì)于?x∈U,y∈U,RB(x,y)稱為模糊相似關(guān)系.RB滿足

1)自反性:RB(x,x)=1,?x∈U;

2)對(duì)稱性:RB(x,y)=RB(y,x),?x∈U,y∈U.

定義2[16]給定一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng)

MFNDS=〈U,A∪D,δ〉,

B?A,?a∈B,Ra為由特征a引出的模糊相似關(guān)系,定義

對(duì)于?x∈U,y∈U,模糊相似矩陣

[x]a(y)=Ra(x,y),

則x在U上關(guān)于B的模糊相似矩陣定義為

定義3[16]設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),對(duì)于?B?A,x∈U,y∈U,參數(shù)化的模糊鄰域信息粒構(gòu)造如下:

其中,δ表示模糊鄰域半徑,0≤δ≤1.通過(guò)模糊相似關(guān)系RB和鄰域半徑δ可確定?x∈U的模糊鄰域粒.

1.2 自適應(yīng)鄰域半徑

模糊鄰域粗糙集上的鄰域半徑是根據(jù)樣本之間的距離決定的.當(dāng)選取鄰域半徑δ過(guò)大時(shí),樣本的鄰域粒子變大、正域變小,分類準(zhǔn)確率下降;當(dāng)選取的鄰域半徑δ過(guò)小時(shí),分類準(zhǔn)確率雖得到提高,但樣本的鄰域可能變成樣本本身,達(dá)不到特征選擇的目的.目前,為不同的數(shù)據(jù)集選取合適的鄰域半徑是提高特征選擇性能的重要因素.在大多數(shù)模糊鄰域粗糙集上,鄰域值是根據(jù)以往專家的經(jīng)驗(yàn)人為給出,主觀性較強(qiáng)[17],在不同的數(shù)據(jù)集上選取的鄰域半徑值相同,未結(jié)合每個(gè)數(shù)據(jù)集自身的分布特征進(jìn)行選取.此外,部分方法將鄰域半徑值按一定的步長(zhǎng)進(jìn)行全選,計(jì)算每個(gè)鄰域值求出的分類結(jié)果,再?gòu)闹羞x取最優(yōu)鄰域值,這不僅浪費(fèi)時(shí)間,而且會(huì)增加很多不必要的工作量,增加特征選擇的復(fù)雜性.因此,本文提出自適應(yīng)鄰域半徑公式,自適應(yīng)調(diào)整每個(gè)數(shù)據(jù)集的不同分布結(jié)構(gòu).

定義4[17]設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),對(duì)于?dk∈D,

B?A,B={a1,a2,…,am},

?aj∈B,設(shè)標(biāo)記D對(duì)論域U劃分為

U/D={D0,D1},

決策類

Dr={x1,x2,…,xp},r=0,1,

則決策類Dr中樣本相對(duì)于標(biāo)記dk的特征集B的標(biāo)準(zhǔn)差為:

定義5[17]給定多標(biāo)記模糊鄰域決策系統(tǒng)

MFNDS=〈U,A∪D,δ〉,B?A,B={a1,a2,…,am}

2 多標(biāo)記模糊鄰域決策系統(tǒng)中的模糊鄰域相似關(guān)系

多標(biāo)記數(shù)據(jù)集上每列標(biāo)記是二分值,每列特征為數(shù)值型數(shù)據(jù),在計(jì)算某列特征下樣本的相似度時(shí),應(yīng)在一定范圍內(nèi)從樣本間的特征差值上定義,這個(gè)范圍即為鄰域半徑,模糊鄰域相似關(guān)系即為樣本的相似性.特征之間的相似性與標(biāo)記之間的相似性具有一定的關(guān)聯(lián)性,從這一角度將模糊鄰域相似關(guān)系應(yīng)用在特征空間和標(biāo)記空間下的樣本相似度的度量中.

定義6設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),?aj?A,x∈U,y∈U,其參數(shù)化的模糊鄰域信息粒構(gòu)造如下:

其中,δ表示由定義5得出的模糊鄰域自適應(yīng)半徑,0≤δ≤1.通過(guò)模糊相似關(guān)系Raj和鄰域半徑δ可確定?x∈U的模糊鄰域粒.

定義7設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),U為論域,?x∈U,y∈U,

A={a1,a2,…,am}

為特征集,?aj∈A決定的模糊鄰域相似關(guān)系定義為

其中,F(xiàn)NSajD(U)表示特征aj的相似樣本對(duì)的集合,|FNSajD(U)|表示特征aj的相似樣本對(duì)的個(gè)數(shù).

例1給定多標(biāo)記決策表MLDT=〈U,A∪D〉,如表1所示,

U={x1,x2,x3,x4,x5,x6},A={a1,a2,a3},D={d1,d2,d3},

設(shè)模糊鄰域半徑δ=1.

表1 多標(biāo)記決策表Table 1 Multi-label decision table

根據(jù)

對(duì)表1中的數(shù)據(jù)進(jìn)行歸一化,如表2所示.

表2 歸一化數(shù)據(jù)Table 2 Normalized data

特征ak在樣本xi、xj之間的模糊相似關(guān)系為[16]:

Rak(xi,xj)=1-|xik-xjk|

.

由定義6可得

由定義7可得

FNSa1D(U)={(x1,x1),(x1,x2),(x1,x3),(x1,x4),

(x1,x6),(x2,x1),(x2,x2),(x3,x1),

(x3,x3),(x3,x4),(x3,x5),(x3,x6),

(x4,x1),(x4,x3),(x4,x4),(x4,x5),

(x4,x6),(x5,x3),(x5,x4),(x5,x5),

(x5,x6),(x6,x1),(x6,x3),(x6,x4),

(x6,x5),(x6,x6)},

FNSa2D(U)={(x1,x1),(x1,x3),(x1,x4),(x1,x6),

(x2,x2),(x2,x5),(x3,x1),(x3,x3),

(x3,x4),(x3,x6),(x4,x1),(x4,x3),

(x4,x4),(x4,x6),(x5,x2),(x5,x5),

(x6,x1),(x6,x3),(x6,x4),(x6,x6)},

FNSa3D(U)={(x1,x1),(x1,x4),(x2,x2),(x2,x3),

(x2,x5),(x2,x6),(x3,x2),(x3,x3),

(x3,x5),(x3,x6),(x4,x1),(x4,x4),

(x5,x2),(x5,x3),(x5,x5),(x5,x6),

(x6,x2),(x6,x3),(x6,x5),(x6,x6)}.

因此

|FNSa1D(U)|=26, |FNSa2D(U)|=20, |FNSa3D(U)|=20.

定義8給定多標(biāo)記模糊鄰域決策系統(tǒng)

MFNDS=〈U,A∪D,δ〉,

?a∈B,B?A,特征子集B的多標(biāo)記模糊鄰域相似關(guān)系定義為

其中FNSBD(U)表示特征子集B的相似樣本對(duì)的集合.

性質(zhì)1設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),?B1?B2?A,則

FNSB1D(U)?FNSB2D(U).

證明根據(jù)定義8,

由B1?B2,可得

進(jìn)而可證

FNSB1D(U)?FNSB2D(U).

由性質(zhì)1可知,

|FNSB1D(U)|≤|FNSB2D(U)|.

上述內(nèi)容從特征空間角度計(jì)算樣本間的相似度.例如:例2中樣本x1、x3相似,樣本x1、x4也相似,但樣本x1、x3間只有一個(gè)相同標(biāo)記,樣本x1、x4間有兩個(gè)相同的標(biāo)記.由于FNSaD(U)只關(guān)心樣本之間是否相似,并不關(guān)心相似的程度,因此,不能準(zhǔn)確反映特征對(duì)標(biāo)記的關(guān)聯(lián)程度.

接下來(lái),在標(biāo)記空間上計(jì)算樣本的相似度,進(jìn)而刻畫(huà)特征的重要度.

定義9給定多標(biāo)記模糊鄰域決策系統(tǒng)

MFNDS=〈U,A∪D,δ〉,

?a∈A,特征a下相似樣本的一致標(biāo)記對(duì)個(gè)數(shù)為:

其中,

SD(x,y)={dk|dk(x)=dk(y),?dk∈D}

表示樣本x、y之間一致的標(biāo)記集合,|SD(x,y)|表示樣本x和樣本y之間一致標(biāo)記的個(gè)數(shù).

性質(zhì)2設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),?B1?B2?A,則

|FNSB1D(U)|D≤|FNSB2D(U)|D.

證明已知?B1?B2?A,由定義9可知

由性質(zhì)1可知

FNSB1D(U)?FNSB2D(U),

因此,可得

|FNSB1D(U)|D≤ |FNSB2D(U)|D.

例2在例1中,?a∈A的相似對(duì)樣本對(duì)應(yīng)的相同標(biāo)記對(duì)個(gè)數(shù)為:

|SD(x1,x1)|=3, |SD(x1,x2)|=1, |SD(x1,x3)|=1, |SD(x1,x4)|=2, |SD(x1,x5)|=2, |SD(x1,x6)|=2, |SD(x2,x1)|=1, |SD(x2,x2)|=3, |SD(x2,x3)|=1, |SD(x2,x4)|=2, |SD(x2,x5)|=2, |SD(x2,x6)|=0, |SD(x3,x1)|=1, |SD(x3,x2)|=1, |SD(x3,x3)|=3, |SD(x3,x4)|=0, |SD(x3,x5)|=0, |SD(x3,x6)|=2, |SD(x4,x1)|=2, |SD(x4,x2)|=2, |SD(x4,x3)|=0, |SD(x4,x4)|=3, |SD(x4,x5)|=3, |SD(x4,x6)|=1, |SD(x5,x1)|=2, |SD(x5,x2)|=2, |SD(x5,x3)|=0, |SD(x5,x4)|=3,

|SD(x5,x5)|=3, |SD(x5,x6)|=1, |SD(x6,x1)|=2, |SD(x6,x2)|=0, |SD(x6,x3)|=2, |SD(x6,x4)|=1, |SD(x6,x5)|=1, |SD(x6,x6)|=3.

由定義9可得,

|FNSa1D(U)|D=44, |FNSa2D(U)|D=38,

|FNSa3D(U)|D=34.

例1中特征a2、a3的相似樣本對(duì)數(shù)都為20.因此,從特征的模糊鄰域相似關(guān)系角度上看,特征a2、a3具有相同的重要性.然而,由例2可知,特征a2、a3對(duì)應(yīng)的一致標(biāo)記數(shù)分別為38和34.從標(biāo)記的模糊鄰域相似關(guān)系角度上看,特征a2比特征a3重要.

綜上所述,對(duì)于多標(biāo)記特征選擇問(wèn)題,從特征和標(biāo)記兩個(gè)空間刻畫(huà)特征的重要度優(yōu)于單純從特征空間刻畫(huà).

定義10給定多標(biāo)記模糊鄰域決策系統(tǒng)

MFNDS=〈U,A∪D,δ〉,

對(duì)于B?A,標(biāo)記集D關(guān)于特征子集B的依賴度為:

其中,ω表示權(quán)重參數(shù),0≤ω≤1.

性質(zhì)3設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),若?B1?B2?A,則

γB1(D)≤γB2(D).

證明由定義10可知:

由性質(zhì)1與性質(zhì)2可知,

|FNSB1D(U)|≤|FNSB2D(U)|, |FNSB1D(U)|D≤|FNSB2D(U)|D,

所以γB1(D)≤γB2(D).

性質(zhì)3表明,γB(D)關(guān)于特征集具有單調(diào)性,即增加任何新的候選特征a∈A-B到已選的特征子集B上時(shí),對(duì)應(yīng)的依賴度

γB(D)≤γB∪a(D).

因此,可基于γB(D)設(shè)計(jì)前向啟發(fā)式多標(biāo)記特征選擇算法.

定義11設(shè)MFNDS=〈U,A∪D,δ〉為一個(gè)多標(biāo)記模糊鄰域決策系統(tǒng),?B?A,

D={d1,d2,…,dt},

?a∈B,特征a在B中相對(duì)于D的特征重要度為:

SIG(a,B,D)=γB∪a(D)-γB(D)

.

3 多標(biāo)記特征選擇算法

基于定義11給出的特征重要度,運(yùn)用前向貪心策略,設(shè)計(jì)基于雙空間模糊鄰域相似關(guān)系的多標(biāo)記特征選擇算法(DSFNS),具體步驟如下.

算法DSFNS

輸入MFNDS=〈U,A∪D,δ〉

輸出最優(yōu)特征子集R

1.初始化R=?;

2.計(jì)算鄰域半徑δ;

3.for ?aj∈Ado

4. 計(jì)算FNSajD(U);

5.End for

6.for ?dt∈D,?x∈U,y∈Udo

7. 計(jì)算|SD(x,y)|;

8.End for

9.for ?as∈A-Rdo

10. 計(jì)算|FNSR∪asD(U)|,|FNSR∪asD(U)|D,

γB∪as(D)和SIG(as,B,D);

11.End for

13.ifSIG(at,B,D)>0 then

14.R=R∪at,執(zhí)行step 9;

15.Else

16. 執(zhí)行step 18;

17.End if

18.返回最優(yōu)特征子集R;

19.End.

在算法中,假設(shè)多標(biāo)記模糊鄰域決策系統(tǒng)包含n個(gè)樣本、m維特征和t個(gè)標(biāo)記,step 2的時(shí)間復(fù)雜度為O(nmt).step 3~step 5計(jì)算特征的相似樣本個(gè)數(shù)的時(shí)間復(fù)雜度為O(n2m).step 6~step 8判斷相似的樣本在t個(gè)標(biāo)記上是否一致的時(shí)間復(fù)雜度為O(n2t).step 9~step 18的時(shí)間復(fù)雜度為O(n2m).因此,算法提出的依賴度選擇最優(yōu)特征子集的時(shí)間復(fù)雜度為O(n2max(m,t)).

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境

為了評(píng)估DSFNS的有效性,本文在來(lái)自不同領(lǐng)域的12個(gè)多標(biāo)記數(shù)據(jù)集(http://mulan.sourceforge.net/datasets.html和http://www.uco.es/kdis/mllre

sources)上進(jìn)行實(shí)驗(yàn).這些數(shù)據(jù)集的基本信息如表3所示,

表示標(biāo)記的基數(shù),

表示標(biāo)記的密度,[dj(xi)=+1]表示樣本xi中存在標(biāo)簽dj.當(dāng)[dj(xi)=+1]滿足時(shí),[·]等價(jià)于1;否則為0[18].

表3 多標(biāo)記數(shù)據(jù)集信息Table 3 Information of multi-label datasets

本文實(shí)驗(yàn)均在Inter(R)Core(TM) i5-8500 CPU @3.00 GHz的處理器,16.00 GB的內(nèi)存,Windows10系統(tǒng)及MatlabR2019a的實(shí)驗(yàn)平臺(tái)上進(jìn)行.采用ML-KNN(Multi-labelK-Nearest Neighbor)[18]和MLFE(Multi-label Learning with Feature-Induced Labeling Information Enrichment)[19]分類器驗(yàn)證DSFNS的分類性能,ML-KNN與MLFE中的平滑參數(shù)均設(shè)為1,最近鄰K值均設(shè)為10[20].

此外,DSFNS的權(quán)重值ω設(shè)為固定值0.5,其它算法中權(quán)重的取值范圍為[0,1],設(shè)定步長(zhǎng)為0.1.通過(guò)實(shí)驗(yàn)選取各數(shù)據(jù)集上可使性能指標(biāo)均為最優(yōu)時(shí)的最佳權(quán)重值,并與其它算法進(jìn)行對(duì)比[14],而本文通過(guò)選取固定值0.5作為后續(xù)實(shí)驗(yàn)的權(quán)重值,更能展現(xiàn)算法在隨機(jī)選取權(quán)重值時(shí)的優(yōu)越性.

實(shí)驗(yàn)中選取多標(biāo)簽分類中常用的7個(gè)評(píng)價(jià)指標(biāo),包括:平均精度(Average Precision, AP)、覆蓋率(Coverage, CV)、漢明損失(Hamming Loss, HL)、1-錯(cuò)誤率(One Error, OE)、排序損失(Rank Loss, RL)、宏平均F1(Macro-Averaging F1, MacF1)和微平均F1(Micro-Averaging F1, MicF1)[21].AP、MacF1、MicF1值越高,分類性能越優(yōu);CV、OE、RL、HL值越低,分類性能越優(yōu).

4.2 在ML-KNN分類器下的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)選取如下6種相關(guān)的多標(biāo)記特征選擇算法:MDDMp(Multilabel Dimensionality Reduction via Dependence Maximization with Uncorrelated Projection Constraint)[21]、MDDMf(Multilabel Dimensionality Re-duction via Dependence Maximization with Uncorrela-ted Feature Constraint)[21]、PMU[22]、RF-ML(ReliefF for Multi-label Feature Selection)[23]、MLDFC(Multi-label Feature Selection Based on Label Distribution and Feature Complementarity)[24]、MFSFN(Multi-label Feature Selection Algorithm Based on Fuzzy Neighbor-hood Rough Sets)[25].在ML-KNN分類器上,各算法

在12個(gè)數(shù)據(jù)集上的指標(biāo)值對(duì)比如表4~表8所示,表中黑體數(shù)字表示最優(yōu)值,“-”表示數(shù)據(jù)缺失,無(wú)相應(yīng)的對(duì)比數(shù)據(jù).

各算法的AP值對(duì)比如表4所示.在Plant、Virus、Gnegative、BBC、Guardian、Gpositive、Yeast、Medical數(shù)據(jù)集上,DSFNS的AP值均最高.在Birds、Scene、Business數(shù)據(jù)集上,DSFNS的AP值居第二,分別僅次于MLDFC、MDDMf和PMU.在Flags數(shù)據(jù)集上,DSF-NS的AP值比最優(yōu)值0.835 7下降0.005 7.

各算法的CV值對(duì)比如表5所示.除了Scene、Flags數(shù)據(jù)集以外,DSFNS在其它10個(gè)數(shù)據(jù)集上均最優(yōu).在Birds、Gnegative、BBC、Medical數(shù)據(jù)集上,DSFNS的CV值均顯著低于其它算法,超過(guò)0.1,在Flags數(shù)據(jù)集上,DSFNS的CV值優(yōu)于PMU和RF_ML,在Scene數(shù)據(jù)集上,DSFNS的CV值僅次于MDDMf.

表4 各算法在12個(gè)數(shù)據(jù)集上的AP值對(duì)比Table 4 AP value comparison of different algorithms on 12 datasets

表5 各算法在12個(gè)數(shù)據(jù)集上的CV值對(duì)比Table 5 CV value comparison of different algorithms on 12 datasets

表6 各算法在12個(gè)數(shù)據(jù)集上的OE值對(duì)比Table 6 OE value comparison of different algorithms on 12 datasets

表7 各算法在12個(gè)數(shù)據(jù)集上的RL值對(duì)比Table 7 RL value comparison of different algorithms on 12 datasets

表8 各算法在12個(gè)數(shù)據(jù)集上的HL值對(duì)比Table 8 HL value comparison of different algorithms on 12 datasets

各算法的OE值對(duì)比如表6所示.DSFNS在超一半數(shù)據(jù)集上均具有顯著的優(yōu)勢(shì),在Birds、Virus、BBC、Guardian、Medical數(shù)據(jù)集上低于部分對(duì)比算法,超過(guò)0.1.在Scene、Business數(shù)據(jù)集上分別僅次于MDDMf和PMU.

各算法的RL值對(duì)比如表7所示.DSFNS在Plant、Virus、Gnegative、BBC、Guardian、Gpositive數(shù)據(jù)集上表現(xiàn)較優(yōu);在Business數(shù)據(jù)集上的RL值僅次于PMU,與RF_ML相當(dāng).

各算法的HL值對(duì)比如表8所示.在Plant、Flags、Yeast、Scene、Business數(shù)據(jù)集上,DSFNS表現(xiàn)最優(yōu),在BBC數(shù)據(jù)集上僅次于RF_ML,在Birds數(shù)據(jù)集上比MLDFC僅高0.002 5,在Guardian數(shù)據(jù)集上比RF_ML和MDDMp僅高出0.002 8.

綜上所述,在不同的評(píng)價(jià)指標(biāo)中,DSFNS都能獲得較高的指標(biāo)值和排名,在各評(píng)價(jià)指標(biāo)中最優(yōu)結(jié)果出現(xiàn)的頻率最高,在所有數(shù)據(jù)集上的擴(kuò)展能力明顯優(yōu)于其它算法.因此,DSFNS具有顯著的有效性.

4.3 在MLFE分類器下的實(shí)驗(yàn)結(jié)果

本節(jié)選取如下對(duì)比算法:PCT-CHI2(Pair-wise Comparison Transformation Method Combined with Chi-square Statistics)[26]、CSFS(Convex Semi-super-vised Multi-label Feature Selection)[27]、SFUS(Sub-Feature Uncovering with Sparsity)[28]、文獻(xiàn)[29]算法.在分類器MLFE下對(duì)比算法性能,在Yeast、Flags、Scene數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).

各算法的指標(biāo)值對(duì)比如表9~表14所示.DSFNS的AP、macroF1、microF1值均最高,CV、OE、RL值均最低,總之,在3個(gè)數(shù)據(jù)集上,DSFNS均取得較理想的分類結(jié)果.

表9 各算法在3個(gè)數(shù)據(jù)集上的AP值對(duì)比Table 9 AP value comparison of different algorithms on 3 datasets

表10 各算法在3個(gè)數(shù)據(jù)集上的CV值對(duì)比Table 10 CV value comparison of different algorithms on 3 datasets

表11 各算法在3個(gè)數(shù)據(jù)集上的OE值對(duì)比Table 11 OE value comparison of different algorithms on 3 datasets

表12 各算法在3個(gè)數(shù)據(jù)集上的RL值對(duì)比Table 12 RL value comparison of different algorithms on 3 datasets

表13 各算法在3個(gè)數(shù)據(jù)集上的MacF1值對(duì)比Table 13 MacF1 value comparison of different algorithms on 3 datasets

表14 各算法在3個(gè)數(shù)據(jù)集上的MicF1值對(duì)比Table 14 MicF1 value comparison of different algorithms on 3 datasets

5 結(jié) 束 語(yǔ)

為了提高多標(biāo)記模糊鄰域決策系統(tǒng)的分類性能,本文提出基于雙空間模糊鄰域相似關(guān)系的多標(biāo)記特征選擇算法.在模糊鄰域粗糙集框架下,提出自適應(yīng)鄰域半徑,并通過(guò)模糊鄰域相似矩陣計(jì)算樣本間的模糊鄰域相似關(guān)系,將特征和標(biāo)記兩個(gè)空間上所得樣本相似度融合成新的度量方法,用于計(jì)算特征的重要度.本文還設(shè)計(jì)多標(biāo)記特征選擇算法.與以往的基于模糊鄰域粗糙集的多標(biāo)記特征選擇算法不同,本文運(yùn)用特征和標(biāo)記兩個(gè)空間上樣本相似度之間的影響程度度量特征的重要性,全面刻畫(huà)特征對(duì)標(biāo)記的重要性.在12個(gè)多標(biāo)記數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文算法的有效性.本文算法是在完備信息系統(tǒng)中進(jìn)行特征選擇,在今后的工作中,將設(shè)計(jì)針對(duì)不完備信息系統(tǒng)的多標(biāo)記特征選擇算法,并將標(biāo)記分布和標(biāo)記增強(qiáng)的因素加入到今后的特征選擇方法研究中.

猜你喜歡
粗糙集特征選擇集上
基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
復(fù)扇形指標(biāo)集上的分布混沌
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
多?;植诩再|(zhì)的幾個(gè)充分條件
雙論域粗糙集在故障診斷中的應(yīng)用
聯(lián)合互信息水下目標(biāo)特征選擇算法
兩個(gè)域上的覆蓋變精度粗糙集模型
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
济源市| 张家港市| 阿克| 阿荣旗| 禄丰县| 阿瓦提县| 同德县| 沾化县| 新巴尔虎右旗| 博野县| 延津县| 临湘市| 称多县| 类乌齐县| 焉耆| 临泉县| 慈利县| 桓台县| 天门市| 长春市| 军事| 阿图什市| 西乡县| 新化县| 定襄县| 陆良县| 邹城市| 本溪| 元阳县| 祁东县| 呼和浩特市| 合作市| 东平县| 永顺县| 稻城县| 乌兰县| 巴楚县| 沁源县| 高阳县| 堆龙德庆县| 姚安县|