国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

正交基低冗余無監(jiān)督特征選擇法

2022-01-21 05:10:30簡彩仁翁謙
關(guān)鍵詞:特征選擇子集準(zhǔn)確率

簡彩仁,翁謙

(1.廈門大學(xué)嘉庚學(xué)院, 福建 漳州 363105; 2.福州大學(xué)計算機(jī)與大數(shù)據(jù)學(xué)院, 福建 福州 350108)

0 引言

高維數(shù)據(jù)廣泛存在于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識別等領(lǐng)域.這些數(shù)據(jù)存在許多無用或者冗余的特征,從而影響高維數(shù)據(jù)的識別研究.此外, 大量的冗余特征會占用內(nèi)存空間,從而影響存儲和計算效率.高維數(shù)據(jù)往往帶來“維數(shù)災(zāi)難”[1-4].因此研究高維數(shù)據(jù)的降維具有重要的意義,而特征選擇是數(shù)據(jù)降維的一種常用手段,本研究分析數(shù)據(jù)集的特征選擇.

特征選擇旨在從原始數(shù)據(jù)集中選出具有判別特性且相關(guān)的特征子集,同時減少冗余、不相關(guān)、高噪聲的特征.許多研究人員提出了各種特征選擇法,并廣泛應(yīng)用于機(jī)器學(xué)習(xí)的各個領(lǐng)域.根據(jù)樣本的標(biāo)簽信息,特征選擇可以分為有監(jiān)督特征選擇、半監(jiān)督特征選擇和無監(jiān)督特征選擇[1].由于獲得樣本的類別信息需要大量的工作,因此研究無監(jiān)督的特征選擇具有重要意義.不僅如此, 無監(jiān)督特征選擇在發(fā)現(xiàn)數(shù)據(jù)集內(nèi)部隱含的信息也有一定的作用.基于此,本研究分析了無監(jiān)督特征選擇法.

一般地,無監(jiān)督特征選擇法可以分為過濾型特征選擇法、捆綁型特征選擇法和嵌入型特征選擇法[4].過濾型特征選擇法根據(jù)一定的規(guī)則給每一個特征打分排序選擇特征,其典型代表是最大方差特征選擇法(MV)和拉普拉斯特征選擇法(LS)[5],MV選擇方差最大的特征增加區(qū)分度,而LS利用局部近鄰信息選擇保持局部信息的特征.捆綁型特征選擇法利用機(jī)器學(xué)習(xí)方法定義評價準(zhǔn)則,從模型的表達(dá)能力選擇特征,其典型代表是多簇特征選擇法(MCFS)[6],利用保持多簇結(jié)構(gòu)為準(zhǔn)則選擇特征.得益于表示理論的發(fā)展,嵌入型特征選擇法得到了很好的發(fā)展.嵌入型特征選擇法通過數(shù)據(jù)表示和l2, 1范數(shù)的組稀疏性選擇特征.關(guān)于嵌入型特征選擇法的研究層出不窮,Han等[7]提出一種基于正則回歸的無監(jiān)督并行正交基聚類特征選擇法(SOCFS),該方法基于正交基構(gòu)建目標(biāo)矩陣來捕獲投影數(shù)據(jù)的潛在簇中心進(jìn)而選擇具有更強(qiáng)識別能力的特征;Lim等[8]引入特征成對依賴的觀點改進(jìn)了該方法,提出特征依賴無監(jiān)督特征選擇法(DUFS),該方法可以選擇更少的特征提高識別準(zhǔn)確率.Mohsen等[9]提出自適應(yīng)相似性學(xué)習(xí)與子空間聚類無監(jiān)督特征選擇法(SCFS),該方法不僅通過子空間聚類保持樣本的相似性,同時也考慮了基于正則化回歸模型的數(shù)據(jù)底層結(jié)構(gòu).因為嵌入型特征選擇法能全面考慮數(shù)據(jù)的內(nèi)部結(jié)構(gòu),是較好的一類特征選擇方法,得到了研究學(xué)者的青睞.更多關(guān)于特征選擇的研究可以參考相關(guān)綜述 [3-4].

SOCFS基于正交基重構(gòu)數(shù)據(jù)集從而選擇具有判別能力的信息,然而沒有考慮選擇特征之間的相關(guān)信息,容易選擇冗余特征.針對這一不足,借鑒最大互信息系數(shù)(MIC),提出正交基低冗余無監(jiān)督特征選擇法.

1 相關(guān)工作

1.1 符號說明

1.2 SOCFS

因為這種基于正則化回歸的特征選擇方法已被證明在有監(jiān)督和無監(jiān)督的情況下都能有效地處理數(shù)據(jù),形如下式的特征選擇方法被廣泛應(yīng)用. 在有監(jiān)督的特征選擇中,Y可以通過給定的標(biāo)簽信息來定義. 然而,在無監(jiān)督特征選擇中,由于標(biāo)簽信息不可用,聚類結(jié)果(如k-means)通常被用來代替Y.目標(biāo)矩陣的因式分解在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中表現(xiàn)出了良好的性能. 此外,矩陣分解在無監(jiān)督特征選擇中有顯著的效果. SOCFS將隱式Y(jié)分解為A∈Rc×c和H∈Rn×c,得到如下的目標(biāo)函數(shù):

(1)

其中,I是單位矩陣,正交約束ATA=I使得A的列向量是獨(dú)立的.H的正交性和非負(fù)約束使得H的每一行只有一個非零元. 約束條件使投影數(shù)據(jù)WTX進(jìn)行正交聚類.最小化問題意味著W選擇的特征子集實現(xiàn)正交聚類[7].

2 正交基低冗余無監(jiān)督特征選擇法

2.1 目標(biāo)函數(shù)

特征選擇矩陣W在去除不相關(guān)特征的同時,也會選擇有區(qū)別的特征.然而,同時選擇具有高冗余率的特征可能會導(dǎo)致機(jī)器學(xué)習(xí)算法的性能退化.例如,訓(xùn)練具有冗余特征的分類器可能會降低分類的準(zhǔn)確率.因此,有必要施加一個懲罰項來最小化所選特征的冗余程度.最大互信息系數(shù)(maximal information coefficient, MIC)[10]適用于測量線性和非線性數(shù)據(jù)的相關(guān)性,本研究采用最大互信息系數(shù)作為相關(guān)性評價標(biāo)準(zhǔn).基于MIC的低冗余懲罰項定義如下:

(2)

利用SOCFS得到的W可以選擇具有判別能力的特征,然而容易導(dǎo)致選擇的特征子集具有高冗余率.最大互信息系數(shù)(MIC)能降低選擇特征子集的冗余性,因此利用MIC改進(jìn)SOCFS,將公式(1)~(2)合并得到如下的目標(biāo)函數(shù):

(3)

其中,β≥0是正則參數(shù),目標(biāo)函數(shù)的第三項是低冗余懲罰項,用于選擇冗余度較低的特征.

公式(3)通過低冗余懲罰項改進(jìn)SOCFS得到具有選擇低冗余特征子集的無監(jiān)督特征選擇法,將這種方法稱為正交基低冗余無監(jiān)督特征選擇法(orthogonal basis minimization redundancy unsupervised feature selection method,OBMRFS).

2.2 模型求解

(4)

其中,γ>0是另一個正則化參數(shù),用于控制其他項之間的比例.當(dāng)其他變量不變時,這個公式在每個變量上都是凸的.因此,可以用一次求解一個變量的方式求解公式(4)[7-8].將公式(4)的目標(biāo)函數(shù)記為:

(5)

W=(XXT+αD+βT)-1XHAT

(6)

2) 更新A.目標(biāo)函數(shù)關(guān)于A的部分為:

(7)

其中:P=WTX.

定理1最優(yōu)的A可以通過奇異值向量得到A=UVT,PHT=UΣVT,Σ=diag(w),其中(U,Σ,V)是PHT的SVD分解.

證明 公式(7)可以轉(zhuǎn)化為:

根據(jù)定理1,可得A的最優(yōu)解為:

A=UVT

(8)

其中:WTXHT=UΣVT. 式(3)更新H,目標(biāo)函數(shù)關(guān)于H的部分為:

類似于定理1,最優(yōu)的H可以通過奇異值向量得到H=UVT,XTWA+γG=UΣVT,Σ=diag(w),其中(U,Σ,V)是XTWA+γG的SVD分解. 因此,H的最優(yōu)解為:

H=UVT

(9)

其中,XTWA+γG=UΣVT.

式(4)更新G,輔助矩陣G滿足:

(10)

則不難得到:

(11)

2.3 正交基低冗余無監(jiān)督特征選擇算法

將2.2的算法流程總結(jié)成本研究提出的正交基低冗余無監(jiān)督特征選擇法.

算法1: 正交基低冗余無監(jiān)督特征選擇法(OBMRFS)Input: 數(shù)據(jù)集X, 最大互信息系數(shù)矩陣M, 參數(shù)α, β, γ, 類別數(shù)量c, 選擇特征數(shù)量pInitialize: t=0, D, T, A, H當(dāng)t≤maxIter 執(zhí)行:利用公式(6)更新W; 利用公式(8)更新A; 利用公式(9)更新H; 利用公式(10)更新G; 更新D和T: Dii=12wi2, Tii=∑mj=1wj2Mij2wi2, i=1, 2, …, m; 結(jié)束while循環(huán)Output: 將wi2按降序排列, 選擇前p個特征為特征子集.

2.4 收斂性與計算復(fù)雜度分析

定理2當(dāng)固定A,H和G時,用公式(6)更新W,目標(biāo)函數(shù)都是單調(diào)不增的.

定理2說明每次更新W目標(biāo)函數(shù)都是單調(diào)不增的.當(dāng)W和H固定時,有:

上式是一個具有等式約束的二次函數(shù)優(yōu)化問題,基于KKT條件[11],利用拉格朗日乘數(shù)法得到A的最優(yōu)解,因此更新A,目標(biāo)函數(shù)是單調(diào)不增的. 當(dāng)W,A和G固定時,則:

上式是一個具有等式約束的二次函數(shù)優(yōu)化問題,基于KKT條件[11],利用拉格朗日乘數(shù)法得到H的最優(yōu)解,因此更新H,目標(biāo)函數(shù)是單調(diào)不增的.

固定Ht利用公式(10)更新G,有:

根據(jù)文獻(xiàn)[8],顯然有L(Ht,Gt+1)≤L(Ht,Gt),于是利用公式(10)更新G,目標(biāo)函數(shù)是單調(diào)不增的. 因此,通過以上分析,保證了算法1的收斂性.

公式(3)的求解過程,主要運(yùn)行時間消耗在計算矩陣W、A、H和G上,其中,W的計算量主要涉及矩陣乘法和矩陣求逆,時間復(fù)雜度為O(m3);A和H的計算時間復(fù)雜度主要表現(xiàn)在奇異值分解上,SVD的時間復(fù)雜度為O(mcn);G的計算主要涉及矩陣加法,時間復(fù)雜度為O(cn). 一般地,m>n>c,因此本研究提出的求解方法的一次迭代的時間復(fù)雜度為O(m3).

3 實驗分析

3.1 實驗數(shù)據(jù)與參數(shù)設(shè)置

沿用文獻(xiàn)[12]研究的FERET、PIE、ORL和Yale 4個圖像數(shù)據(jù)集進(jìn)行實驗,其基本信息如表1所示.

表1 數(shù)據(jù)信息

為驗證OBMRFS選擇的特征子集的有效性,將選擇的特征子集用k-means進(jìn)行聚類.對比方法為最大方差特征選擇法(MV),拉普拉斯特征選擇法(LS),多簇特征選擇法(MCFS),正交基聚類特征選擇法(SOCFS),特征依賴無監(jiān)督特征選擇法(DUFS),自適應(yīng)相似性學(xué)習(xí)與子空間聚類無監(jiān)督特征選擇法(SCFS).計算所有方法選擇的特征子集的聚類準(zhǔn)確率,對給定樣本,令ri和si分別為聚類方法得到的標(biāo)簽和樣本自帶標(biāo)簽,定義聚類準(zhǔn)確率[13]為:

其中:n為樣本總數(shù);map(ri)將每一個標(biāo)簽ri映射成與樣本自帶的標(biāo)簽等價的類標(biāo)簽. 即有

因為OBMRFS、SOCFS、DUFS和SCFS等方法都涉及參數(shù)的選擇問題,因此統(tǒng)一將參數(shù)的搜索空間設(shè)置為{10-3, 10-2, 10-1, 100, 101, 102, 103, 104, 105, 106}, 選擇特征數(shù)量設(shè)置為{30, 60, 90, 120, 150, 180, 210, 240, 270, 300}.

3.2 實驗結(jié)果與分析

對比4個數(shù)據(jù)集在不同特征選擇方法下選擇的特征子集其使用k-means聚類得到的聚類準(zhǔn)確率.圖1給出了各種方法選出的特征子集下的聚類準(zhǔn)確率,表2給出了其平均聚類準(zhǔn)確率.其中,ALL表示不進(jìn)行特征選擇,對原始數(shù)據(jù)集聚類得到的聚類準(zhǔn)確率.

(a) FERET

(b) PIE

(c) ORL

(d) Yale

表2 不同方法的平均聚類準(zhǔn)確率

圖1表明OBMRFS選擇的特征子集可以得到較高的聚類準(zhǔn)確率.除了在ORL數(shù)據(jù)集上,OBMRFS都取得了最高的聚類準(zhǔn)確率.表2的平均聚類準(zhǔn)確率說明OBMRFS選擇的特征子集是有效的,可以提高聚類方法識別的準(zhǔn)確率.盡管在ORL數(shù)據(jù)集上,OBMRFS的聚類準(zhǔn)確率沒有超過ALL,但是OBMRFS在選擇120個特征時的聚類準(zhǔn)確率優(yōu)于ALL方法.不僅如此,在4個數(shù)據(jù)集上,OBMRFS的聚類準(zhǔn)確率都優(yōu)于其他特征選擇方法.對比OBMRFS和SOCFS,不難發(fā)現(xiàn),OBMRFS有明顯的優(yōu)勢,因此本研究提出的改進(jìn)方法是有效的.利用低冗余懲罰項可以降低選擇特征子集的冗余性,選擇更有效的特征子集.

3.3 參數(shù)分析

(a) FERET

(b) PIE

(c) ORL

(d) Yale

圖2的實驗結(jié)果表明,α和β的選擇對OBMRFS的影響是明顯的,但是不難發(fā)現(xiàn)較小的α和較大的β可以得到較好的聚類準(zhǔn)確率.因此,在使用OBMRFS進(jìn)行特征選擇時可以選擇較小的α和較大的β,從圖2的實驗結(jié)果,不難發(fā)現(xiàn)α在10-3到1取值,β在104到105取值時,OBMRFS選擇的特征子集得到的聚類準(zhǔn)確率較為理想.不僅如此,較大的β說明低冗余懲罰項對特征選擇有重要的作用,加大這一項可以選擇有效的特征子集,進(jìn)而提高聚類準(zhǔn)確率.這一發(fā)現(xiàn),表明本研究提出的方法可以降低選擇特征子集的冗余度.

3.4 收斂性分析

通過實驗分析驗證算法的收斂性,固定參數(shù)α=0.1,β=107,γ=10時,50次迭代下目標(biāo)函數(shù)的取值情況如圖3所示.圖3的收斂曲線表明了本研究提出的算法是收斂的,驗證了2.4小節(jié)的收斂性分析.此外,從圖中可以發(fā)現(xiàn)本研究所提的算法可以快速收斂.

(a)FERET

(b) PIE

(c) ORL

(d)Yale

4 結(jié)論

本文提出正交基低冗余無監(jiān)督特征選擇法,該方法在正交基下選擇具有判別能力的特征,并用最大互信息系數(shù)矩陣選擇低冗余性的特征子集.在4個圖像數(shù)據(jù)集上的實驗表明,該方法可以選擇有效的特征子集提高聚類準(zhǔn)確率.所提的最大互信息系數(shù)矩陣的構(gòu)造需要較大的運(yùn)行時間開銷,如何更高效地去除冗余特征將在以后的研究中給出.

猜你喜歡
特征選擇子集準(zhǔn)確率
由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
關(guān)于奇數(shù)階二元子集的分離序列
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
每一次愛情都只是愛情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
深州市| 东山县| 澜沧| 滨海县| 邳州市| 砀山县| 甘孜| 峨眉山市| 乐陵市| 汤原县| 庆阳市| 内江市| 苏尼特右旗| 阿荣旗| 邵阳市| 桃园县| 昆山市| 镇赉县| 栾川县| 赫章县| 吴忠市| 特克斯县| 临猗县| 黄大仙区| 堆龙德庆县| 仁布县| 德庆县| 封丘县| 灵武市| 徐汇区| 武鸣县| 峡江县| 石景山区| 峨山| 山东省| 道孚县| 上饶市| 胶南市| 舟山市| 三原县| 贺兰县|