国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于矩陣分解填充的無監(jiān)督特征選擇方法*

2021-08-30 05:58:04范林歌武欣嶸曾維軍
通信技術(shù) 2021年8期
關(guān)鍵詞:特征選擇集上標(biāo)簽

范林歌,武欣嶸,童 瑋,曾維軍

(陸軍工程大學(xué),江蘇 南京 210007)

0 引言

隨著科技的飛速發(fā)展,產(chǎn)生了大量數(shù)據(jù),而且用于數(shù)據(jù)挖掘的數(shù)據(jù)維數(shù)越來越大,但高維數(shù)據(jù)不可避免地含有冗余信息,這不利于后續(xù)的數(shù)據(jù)分析與挖掘。特征選擇和特征提取是處理這些高維數(shù)據(jù)的有力工具。它們的主要區(qū)別是特征選擇保留原有特征,而特征提取產(chǎn)生新的特征。但是特征選擇更具有可解釋性,所以本文將重點(diǎn)放在特征選擇技術(shù)上。

特征選擇的目標(biāo)是從原始特征中選擇一個(gè)子集,這些子集對(duì)后續(xù)的任務(wù)具有信息性和價(jià)值。此外,所選特征還可以加快數(shù)據(jù)處理速度,提高模型的泛化能力。根據(jù)是否使用標(biāo)簽信息,特征選擇方法可以分為監(jiān)督特征選擇[1]、半監(jiān)督特征選擇[2-3]和無監(jiān)督特征選擇[4](Unsupervised Feature Selection,UFS)3 種不同類型。有監(jiān)督特征選擇通過評(píng)估特征與類標(biāo)簽的相關(guān)性來確定特征相關(guān)性,半監(jiān)督特征選擇同時(shí)使用有標(biāo)簽(數(shù)量少)和無標(biāo)簽(數(shù)量多)數(shù)據(jù),而UFS 利用數(shù)據(jù)方差和可分離性來評(píng)估沒有任何類標(biāo)簽的特征的相關(guān)性。在許多現(xiàn)實(shí)應(yīng)用程序中,數(shù)據(jù)標(biāo)簽難以獲得,重建模型的代價(jià)也很高。因此,無監(jiān)督和半監(jiān)督的特征選擇方法更為實(shí)用。本文主要研究UFS。

傳統(tǒng)的UFS 方法,比如主成分分析分?jǐn)?shù)法(Principal Components Analysis,PCAScore)[5]和拉普拉斯分?jǐn)?shù)法(Laplacian Score,LapScore)[6],根據(jù)為每個(gè)特征計(jì)算的分?jǐn)?shù)選擇排名最高的特征。Liu 等人[7]提出了一種新的稱為多群集特征選擇(Multi-Cluster Feature Selection,MCFS)的方法,用于UFS。MCFS 考慮了不同特征之間可能的相關(guān)性,并使用了數(shù)據(jù)的光譜分析(流形學(xué)習(xí))和正則化模型進(jìn)行子集選擇。Liu 等人[8]提出了一種新的嵌入式模型的光譜特征選擇算法,聯(lián)合評(píng)估了一組特征的效果,可以有效地消除冗余特征。

然而,在實(shí)際應(yīng)用中,一些樣本中含有未觀察到的信息。一方面,一個(gè)工業(yè)數(shù)據(jù)集甚至可能會(huì)遺漏整個(gè)信息的90%[9-10]。另一方面,大多數(shù)UFS 技術(shù)的設(shè)計(jì)針對(duì)完整的數(shù)據(jù)集。該數(shù)據(jù)集的整個(gè)信息都是可觀察的,因此這些技術(shù)不能直接應(yīng)用于不完整的數(shù)據(jù)集。最近,人們提出了一些解決方案來處理未觀察到的數(shù)據(jù),對(duì)不完整數(shù)據(jù)集進(jìn)行特征選擇。

文獻(xiàn)[11]等設(shè)計(jì)兩階段策略對(duì)不完整數(shù)據(jù)集進(jìn)行特征選擇,即使用估算方法猜測(cè)未觀測(cè)信息的值,然后使用已有的技術(shù)對(duì)估算數(shù)據(jù)集進(jìn)行特征選擇。例如,基于條件熵[12]的特征選擇方法,使用基于熵的不確定性度量來處理未觀察到的信息進(jìn)行特征選擇。然而,傳統(tǒng)的特征選擇算法只是簡(jiǎn)單地使用統(tǒng)計(jì)特征來對(duì)特征進(jìn)行排序,沒有對(duì)變換矩陣進(jìn)行有效地學(xué)習(xí)。在不填充直接進(jìn)行UFS 方面,文獻(xiàn)[13]考慮到樣本的重要性,提出了一種新的在不完全數(shù)據(jù)集上進(jìn)行UFS 的方法。該方法利用指標(biāo)矩陣對(duì)未觀測(cè)信息進(jìn)行處理,過濾掉特征選擇過程中的未觀測(cè)信息,并利用半二次最小化技術(shù)自動(dòng)地給離群點(diǎn)分配較小甚至為零的權(quán)值,給重要樣本分配較大的權(quán)值,從而減少離群點(diǎn)的影響。

本文基于先填充后特征選擇的流程對(duì)不完整數(shù)據(jù)集進(jìn)行UFS。傳統(tǒng)的填充方法只單一地參考某一列或某些樣本對(duì)缺失值進(jìn)行填充,不準(zhǔn)確的填充會(huì)進(jìn)一步影響后續(xù)的數(shù)據(jù)分析。針對(duì)以往方法填充不夠準(zhǔn)確的問題,本文提出使用矩陣分解的方法對(duì)不完整數(shù)據(jù)集進(jìn)行估算,利用矩陣乘法的固有特性對(duì)數(shù)據(jù)集中的可觀測(cè)信息進(jìn)行充分利用,并結(jié)合基于?2,1范數(shù)的無監(jiān)督最大間隔特征選擇方法,將特征選擇和K-means 聚類結(jié)合成一個(gè)連貫的框架來自適應(yīng)地選擇最具鑒別性的子空間,以 ?2,1范數(shù)作為稀疏約束,迫使投影矩陣W行稀疏,進(jìn)而更有效地選擇最相關(guān)的特征,通過對(duì)最優(yōu)子空間和聚類的交替學(xué)習(xí),得到特征選擇結(jié)果。最后,本文分別在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行方法驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本文所提方法和其他經(jīng)典算法相比獲得了較高的分類準(zhǔn)確率。

1 基于矩陣分解的缺失值填充方法

考慮不完整數(shù)據(jù)集X=[x1,x2,…,xn]∈RM×N,其中n=1,…,N,N為樣本數(shù),M為特征數(shù),xn為第n個(gè)給定樣本,xn(j)表示第n個(gè)樣本的第j個(gè)特征,j=1,…,M。

首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理操作。一般來說,數(shù)據(jù)標(biāo)準(zhǔn)化方法包括最小最大標(biāo)準(zhǔn)化和Z-score 標(biāo)準(zhǔn)化等方法。為了便于分析,本文采用最小最大標(biāo)準(zhǔn)化將數(shù)據(jù)值轉(zhuǎn)化為[0,1]區(qū)間內(nèi)的值,計(jì)算公式為:

式中,j=1,…,M。

由于直接使用不完整數(shù)據(jù)集中所有樣本來預(yù)估缺失值計(jì)算量較大,本文先對(duì)不完整數(shù)據(jù)集進(jìn)行K近鄰(K-Nearest Neighbor,KNN)預(yù)填充,再使用經(jīng)典的K-means 聚類方法將原始無標(biāo)簽數(shù)據(jù)集進(jìn)行聚類,給予每個(gè)樣本一個(gè)偽標(biāo)簽。K-means 聚類是一種基于距離的無監(jiān)督聚類算法,在給定聚類個(gè)數(shù)和初始類簇中心點(diǎn)的情況下,把每個(gè)點(diǎn)分到離其最近的類簇中心點(diǎn)所代表的類簇中。假設(shè)第i簇?cái)?shù)據(jù)集為X i,為第n個(gè)樣本經(jīng)過第一次K-means 聚類后對(duì)應(yīng)的偽標(biāo)簽,=1,2,…,T,其中T為聚類個(gè)數(shù),每一簇?cái)?shù)據(jù)集樣本選擇為:

式中:第i個(gè)簇中包含Ti個(gè)樣本。

X i具體表示為:

本文基于假設(shè)具有相同偽標(biāo)簽的兩個(gè)樣本相似度比具有不同偽標(biāo)簽的兩個(gè)樣本高。通過初始分簇達(dá)到在減少計(jì)算量的基礎(chǔ)上不降低填充準(zhǔn)確性的目的,之后分別對(duì)每簇中的缺失值進(jìn)行估計(jì)。

在計(jì)算過程中利用置信度矩陣對(duì)未觀察到的信息進(jìn)行過濾,從而達(dá)到利用完整和不完整樣本中所有有效信息的目的。對(duì)于給定的不完整數(shù)據(jù)集X,定義置信度矩陣I,其中In(j)反映第n個(gè)樣本的第j個(gè)特征的缺失情況,元素取值為:

則第i簇?cái)?shù)據(jù)集X i對(duì)應(yīng)的指示矩陣為I i。

本文期望將X i分解為矩陣U和V的乘積,其中U∈RL×K,V∈RM×K。由于現(xiàn)實(shí)應(yīng)用中大多數(shù)矩陣不能做出這樣完美的分解,因此本文尋找第i簇?cái)?shù)據(jù)集X i的一個(gè)近似矩陣??梢苑纸鉃榫仃嘦和V的乘積,通過求解來代替原始數(shù)據(jù)簇中缺失的值,定義為:

近似矩陣可分解為U和V矩陣,使得:

式中:矩陣U和V分別表示數(shù)據(jù)集樣本和特征的隱藏特征。比如在一個(gè)用戶對(duì)多部電影評(píng)分的數(shù)據(jù)集中,xq(j)表示第q個(gè)用戶對(duì)第j部電影的評(píng)分,此時(shí)U和V分別描述用戶的特征(比如年齡段等)和電影的特征(比如演員、題材、主題等)。

均方根誤差(Root Mean Squared Error,RMSE)可以用來衡量真實(shí)值與預(yù)估值之前的差距,本文通過計(jì)算目標(biāo)矩陣X i與近似矩陣的均方根誤差RMSE 來評(píng)估模型性能,X i與的均方根誤差RMSE 定義為:

RMSE 值越小則表示填補(bǔ)效果越好。本文通過求解一組U和V使相似矩陣與目標(biāo)矩陣X i的RMSE 最小,至此該問題可以優(yōu)化為:

這里采用梯度下降的方式迭代計(jì)算U和V,首先固定V,對(duì)U求導(dǎo),如:

uq的更新公式為:

式中:α為更新速率,表示迭代的步長。

其次,固定U,對(duì)V求導(dǎo),得:

vj的更新公式為:

重復(fù)式(11)與式(13),迭代優(yōu)化U和V,直到RMSE<ζ為止,ζ為自定義誤差。

遍歷所有i,對(duì)每一簇?cái)?shù)據(jù)進(jìn)行如上操作,直到Io=0 即數(shù)據(jù)集無缺失為止。至此,求出X i的近似矩陣,用中對(duì)應(yīng)位置的數(shù)據(jù)填充X i中的缺失值。Io定義為:之后對(duì)填充好的數(shù)據(jù)集X進(jìn)行UFS。

2 基于 ?2,1 范數(shù)的無監(jiān)督最大間隔特征選擇

2.1 最大間隔準(zhǔn)則

最大間隔準(zhǔn)則(Maximum Margin Criterion,MMC)是基于特征空間的類間散度與類內(nèi)散度的差的最大化,其目的是尋求一組最佳鑒別矢量為投影軸進(jìn)行投影變換,使得特征空間樣本的類間散度最大和類內(nèi)散度最小。因此,特征選擇標(biāo)準(zhǔn)的定義為:

式中:Ti和Ta分別表示第i類和第a類的數(shù)量;pi和pa分別為第i類和第a類的先驗(yàn)概率;Ci和Ca分別表示第i類和第a類,類間隔定義為:

式中:mi和ma分別為類Ci和類Ca的均值向量;而Si和Sa分別為類Ci和類Ca的協(xié)方差矩陣。通過簡(jiǎn)單的數(shù)學(xué)運(yùn)算,可以得到公式:

式中:Sb為類間散射矩陣,Sw為類內(nèi)散射矩陣,定義為:

式中:Ti為類Ci的數(shù)量;m為所有數(shù)據(jù)的平均向量。至此,MMC 可以表述為:

式中:W∈RM×d為投影矩陣;d

W由Sb-Sw的前d個(gè)最大特征值對(duì)應(yīng)的特征向量組成。這里不需要計(jì)算Sw的逆,可以避免小樣本量的問題。

2.2 無監(jiān)督最大間隔特征選擇

本文數(shù)據(jù)集為X=[x1,x2,…,xn]∈RM×N,M個(gè)特征,N個(gè)樣本,選擇d個(gè)特征來代表原始數(shù)據(jù),構(gòu)造對(duì)角矩陣D∈RM×M,其取值如:

式中:w j表示矩陣W的第j行,聚類簇的數(shù)目初始為C,定義指示矩陣F∈RN×C,則有:

然后通過稀疏約束(Unsupervised Maximum Margin Feature Selection via Sparse Constraints,UMMFSSC)表示無監(jiān)督最大間隔的特征選擇:

式中,α為正則化項(xiàng)參數(shù),這里可以很容易地驗(yàn)證下列兩個(gè)方程:

式中,A為單位陣??山徊交癁椋?/p>

由式(27)可知,需要優(yōu)化的變量分別為W、D、F。同時(shí)計(jì)算它們比較困難,在這里對(duì)它們進(jìn)行交替優(yōu)化。

首先,固定W,計(jì)算F。優(yōu)化問題可以轉(zhuǎn)化為:

本文使用譜分解技術(shù)來解決這個(gè)問題。矩陣XTWWTX的前c個(gè)最大特征值對(duì)應(yīng)的特征向量即為形成的最優(yōu)F。

其次,固定F,計(jì)算W和D。此時(shí)仍有兩個(gè)變量需要優(yōu)化,所以這里使用嵌套優(yōu)化技術(shù)。首先固定W,此時(shí)可以根據(jù)式(27)更新D,其次固定D,此時(shí)優(yōu)化問題變?yōu)椋?/p>

這里仍然可以使用譜分解技術(shù)來解決這個(gè)問題。最優(yōu)的W是由矩陣X(A-2FFT)XT+D的前d個(gè)最小特征值所對(duì)應(yīng)的特征向量形成的。重復(fù)迭代過程直到算法收斂。至此,可以使用計(jì)算出的W來進(jìn)行特征選擇,稀疏約束迫使W的許多行為零,按降序?qū)γ總€(gè)特征進(jìn)行排序,并選擇排名最高的特征。

至此,將基于矩陣分解的缺失值填充方法與基于 ?2,1范數(shù)的無監(jiān)督最大間隔特征選擇方法結(jié)合起來,形成基于矩陣分解的不完整數(shù)據(jù)集UFS 算法(Matrix Factorization_ Unsupervised Maximum Margin Feature Selection via Sparse Constraints,MF_UMMFSSC)具體描述如下所示。

輸入:不完整數(shù)據(jù)集X∈RN×M,特征選擇數(shù)目d,正則化參數(shù)α;

輸出:W∈RM×d;

初始化U,V和D;

步驟1:根據(jù)式(1)將原始數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理;

步驟2:根據(jù)式(2)、式(3)將原始數(shù)據(jù)集分簇,讀取第i簇?cái)?shù)據(jù),

重復(fù);

步驟3:根據(jù)式(10)更新U;

步驟4:根據(jù)式(12)更新V;

直到RMSE<ξ

步驟5:遍歷所有i,填充所有缺失值

重復(fù);

步驟6:固定W,由式(28)求得此時(shí)的最優(yōu)F;

步驟7:固定F;

步驟8:固定W,計(jì)算對(duì)角陣D,其元素取值為djj=1/(2||w j||2);

步驟9:固定D,計(jì)算W,由式(29)求得此時(shí)的最優(yōu)W;

直到收斂;

步驟10:使用計(jì)算得到的W進(jìn)行特征選擇,根據(jù)W降序排列特征,選擇排名靠前的特征。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 評(píng)估指標(biāo)及數(shù)據(jù)集

為了評(píng)估所提算法的有效性,分別在6 個(gè)不完整數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與4 種已有的特征選擇方法進(jìn)行比較,評(píng)估它們?cè)诟呔S數(shù)據(jù)上的聚類性能。

本節(jié)使用了兩個(gè)評(píng)估指標(biāo):分類精度(Accuracy,ACC)和歸一化互信息(Normalized Mutual Informaion,NMI)。ACC 表示樣本分類正確的百分比,即:

式中,N為樣本總數(shù),Nc為正確被分類的樣本個(gè)數(shù)。

NMI 則揭示預(yù)測(cè)情況和實(shí)際情況之間的相關(guān)性,定義為:

式中:I(X,Y)表示預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的互信息;H(·)為熵運(yùn)算。

本小節(jié)分別從LIBSVM 數(shù)據(jù)網(wǎng)站、UCI website等知名數(shù)據(jù)集網(wǎng)站下載6 個(gè)真實(shí)數(shù)據(jù)集:CNAE、cifar、connect-4、vehicle、USPSt、yale。其中:CNAE是一個(gè)描述巴西公司經(jīng)濟(jì)活動(dòng)業(yè)務(wù)的數(shù)據(jù)集;cifar是一個(gè)用于識(shí)別普適物體的小型數(shù)據(jù)集,一共有60 000 張32×32 像素的彩色圖片;connect-4 數(shù)據(jù)集包含connect-4 游戲中所有合法的8 層位置,USPSt 是美國郵政手寫數(shù)字?jǐn)?shù)據(jù)集,用于模式識(shí)別、機(jī)器學(xué)習(xí)算法的驗(yàn)證;yale 為耶魯大學(xué)的人臉數(shù)據(jù)集數(shù)據(jù)集。詳細(xì)信息如表1 所示。

表1 數(shù)據(jù)集介紹

為了觀察缺失率對(duì)算法的影響,將觀察到的信息隨機(jī)標(biāo)記為未觀察到的信息,不完全樣本率從0%~90%,以10%為間隔遞增,不完整樣本率為不完整樣本占總樣本數(shù)的比率。在此僅考慮缺失機(jī)制為完全隨機(jī)缺失的情況。對(duì)經(jīng)過填充的完整數(shù)據(jù)集,通過特征選擇方法去除50%的特征來分析算法的結(jié)果。

3.2 比較算法

本文使用已有的4 種特征選擇方法來進(jìn)行比較,將用來比較的方法簡(jiǎn)要敘述如下。

(1)拉普拉斯分?jǐn)?shù)法(LaPscore):基于一個(gè)過濾模型,依據(jù)所有特征的拉普拉斯分?jǐn)?shù)來評(píng)估每個(gè)特征的重要性。

(2)基于正則化的無監(jiān)督特征選擇(Regularized Self-Representation,RSR):使用特征級(jí)別的自表示來重構(gòu)每個(gè)特征,然后使用 ?2,1范數(shù)正則化進(jìn)行特征選擇。

(3)通用稀疏正則化框架(General Framework for Sparsity Regularized,GSR):是一種通用的稀疏嵌入模型,可以同時(shí)進(jìn)行特征選擇和通過參數(shù)調(diào)整來減少異常值。

(4)魯棒特征選擇(Robust Feature Selection,RFS):是典型的特征選擇嵌入模型,驗(yàn)證了其減小異常值影響的有效性。

在本文實(shí)驗(yàn)中,將每個(gè)不完整數(shù)據(jù)集分為兩個(gè)子集,即包含所有不完整樣本的不完整集(Incomplete Set,IS)和包含所有觀察樣本的觀察集(Observed Set,OS)。具體流程如下:

(1)將基于OS 原始特征進(jìn)行K-means 聚類的方法標(biāo)注為Baseline。

(2)采用上述的過濾模型,即LaPscore,和3種嵌入式特征選擇方法,即RSR、GSR 和RFS,對(duì)OS 進(jìn)行特征選擇,然后對(duì)選擇的特征在OS 上進(jìn)行K-means 聚類。

(3)利用OS 中的信息通過填充方法,即均值填充(Mean-Value Imputation Method)和KNN 填充(KNN Imputation Method)來填充IS中未觀察到的值。

(4)對(duì)OS 和IS 的結(jié)合(即OS ∪IS)進(jìn)行特征選擇,即GSR,得到GSR_mean 和GSR_knn,然后對(duì)所選特性在OS 上進(jìn)行K-means 聚類。

(5)使用本文提出的算法即MF_UMMFSSC 在IS 上填充,然后在OS ∪IS 上進(jìn)行特征選擇然后利用所選特征在OS 上進(jìn)行K-means 聚類。

3.3 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)環(huán)境為MATLAB2019a,如前文所述,K為矩陣U和V的維度,當(dāng)其取不同值時(shí)均方根誤差RMSE 的收斂速度如圖1 所示。這里分別取K=1、5、10、15、20。可以看到,K=1 和5 時(shí)收斂速度較慢并且無法收斂到0;當(dāng)K=10、15、20 時(shí)均方根誤差收斂較快,并且可以收斂到0。可見,K的取值不光影響均方根誤差收斂速度,還會(huì)影響最終收斂結(jié)果。為了不增加計(jì)算量并且防止過擬合,本文所有實(shí)驗(yàn)均設(shè)置K值取10。

圖1 不同K 值均方根誤差隨迭代次數(shù)變化

不止K的取值,學(xué)習(xí)速率α的取值不同也會(huì)影響均方根誤差的收斂速度,如圖2 所示。α分別取0.1、0.01、0.001、0.000 1,由圖2 可見,α取0.01時(shí)收斂速度最快,α取0.000 1 時(shí)收斂速度最慢。由此可知,步長越小,損失函數(shù)到達(dá)底部的時(shí)間越長;步長越大,損失函數(shù)收斂越快。但步長并不能無限大,經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)α取0.1 時(shí),目標(biāo)函數(shù)不會(huì)收斂,所以在該合成數(shù)據(jù)集上α取0.01。經(jīng)過在不同數(shù)據(jù)集上的實(shí)驗(yàn)也發(fā)現(xiàn),同一個(gè)步長并不適用于所有數(shù)據(jù)集,要多次實(shí)驗(yàn)發(fā)現(xiàn)最適合本數(shù)據(jù)集的步長,本文中所有數(shù)據(jù)集步長設(shè)置均經(jīng)過多次實(shí)驗(yàn),并設(shè)其為最恰當(dāng)?shù)臄?shù)值。

圖2 不同α 值均方根誤差隨迭代次數(shù)變化

本文采用10 倍交叉驗(yàn)證方案,將每種方法在每個(gè)數(shù)據(jù)集上重復(fù)10 次并展示這10 次的平均結(jié)果,每一次都是10 個(gè)K-means 聚類結(jié)果的平均值。這里將K-means 聚類中的簇?cái)?shù)設(shè)為數(shù)據(jù)集的真實(shí)類數(shù)。

3.4 實(shí)驗(yàn)結(jié)果

表2 和表3 為本文提出的算法MF_UMMFSSC在不同不完整樣本比時(shí)在不同數(shù)據(jù)集上的聚類結(jié)果,這里展示ACC 和NMI 指標(biāo),每一行的最大值加粗表示。

由表2 和表3 可知:在大部分?jǐn)?shù)據(jù)集上本文提出的算法取得了較好的ACC 和NMI,MF_UMMFSSC 在大數(shù)據(jù)集上的改進(jìn)大于在相應(yīng)小數(shù)據(jù)集上的改進(jìn)。整體來說,隨著不完全樣本比的增加,所有方法的聚類性能都有所下降。在vehicle 數(shù)據(jù)集上,不完整樣本比為0.1 和0.9 時(shí),聚類準(zhǔn)確率下降了5.2%。在CNAE 數(shù)據(jù)集上,RFS 的效果較好,本文提出的算法效果并不是最優(yōu),但是和其他的先填充再進(jìn)行特征選擇的方法相比,MF_UMMFSSC仍取得了不錯(cuò)的效果。由此可見,同樣的方法在不同數(shù)據(jù)集上效果是不同的。在cifar 數(shù)據(jù)集上,準(zhǔn)確率也有一定的提升,尤其是在不完整樣本率90%時(shí),該方法準(zhǔn)確率提高了10%;在connect-4 數(shù)據(jù)集上,本文提出的算法也基本達(dá)到了最高的準(zhǔn)確率;在不完整樣本率為50%時(shí),GSR_mean 方法的準(zhǔn)確率最高;在vehicle 數(shù)據(jù)集上,MF_UMMFSSC 效果最好,和之前的算法相比,在所有的不完整樣本率條件下,準(zhǔn)確率都提高了10%左右,隨之NMI也有大幅提升;在USPSt 數(shù)據(jù)集上,本文提出的算法也取得了較好的結(jié)果;在yale 數(shù)據(jù)集上,RSR 方法在不完整樣本比較低時(shí)效果較好,本文提出的方法在該數(shù)據(jù)集上效果不是最好,但也比大部分方法好。綜上所述,MF_UMMFSSC 在大部分的數(shù)據(jù)集上取得了較好的聚類準(zhǔn)確率,提高了填充效果。

表2 各個(gè)數(shù)據(jù)集在不同不完整樣本比下進(jìn)行聚類的ACC 結(jié)果

表3 各個(gè)數(shù)據(jù)集在不同不完整樣本比下進(jìn)行聚類的NMI 結(jié)果

4 結(jié)語

現(xiàn)實(shí)應(yīng)用中,高維數(shù)據(jù)中存有大量包含未觀測(cè)信息的樣本,獲取樣本標(biāo)簽也較為困難而且消耗大量成本,此時(shí)UFS 方法的研究更具有現(xiàn)實(shí)意義。然而大多現(xiàn)有的方法不能直接應(yīng)用于不完整數(shù)據(jù)集,現(xiàn)有填充方法對(duì)不完整數(shù)據(jù)集的信息利用不夠完全。針對(duì)這些特點(diǎn),本文提出MF_UMMFSSC,該方法利用所有已知信息對(duì)不完整數(shù)據(jù)集進(jìn)行填充,之后利用基于 ?2,1范數(shù)的無監(jiān)督最大間隔特征選擇方法進(jìn)行特征選擇,在6 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的算法提高了聚類精度和填補(bǔ)效果。

猜你喜歡
特征選擇集上標(biāo)簽
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
復(fù)扇形指標(biāo)集上的分布混沌
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
標(biāo)簽化傷害了誰
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
建昌县| 平乐县| 永靖县| 墨竹工卡县| 曲阳县| 衡南县| 柏乡县| 汝州市| 武功县| 岑溪市| 自贡市| 文山县| 前郭尔| 四平市| 都江堰市| 简阳市| 大埔县| 宾阳县| 会昌县| 长汀县| 乐平市| 镶黄旗| 吕梁市| 札达县| 吉安市| 冀州市| 宁陵县| 榆林市| 洪泽县| 茶陵县| 大化| 西平县| 汉中市| 凌源市| 栖霞市| 雷州市| 霸州市| 新和县| 清远市| 滁州市| 临漳县|