劉欣宇,韓曉紅,宋 可
(太原理工大學 大數(shù)據(jù)學院,山西 晉中 030600)
降維[1]常用的方法是特征選擇,根據(jù)所使用數(shù)據(jù)集的不同來源,特征選擇可分為單視圖特征選擇方法與多視圖特征選擇方法。較早的特征選擇方法大多使用單視圖特征,但目前單視圖特征已經(jīng)滿足不了日常生活的需要,所以高維度的多視圖特征被廣泛用于各種研究領域中,例如多媒體計算、機器學習和數(shù)據(jù)挖掘[2]。多視圖特征可以從不同角度更精確、更全面地表征數(shù)據(jù),其主要問題在于怎樣有效地將多視圖特征的多樣性和一致性結合起來識別特征,以此來保留原始特征的一些關鍵特征。但是高維多視圖特征將不可避免地產(chǎn)生昂貴的計算成本及大量的存儲成本。這個問題的解決方法在于將多視圖特征整合,并將多視圖特征看成單視圖特征進行特征選擇。代表性的方法包括拉普拉斯分數(shù)(LapScor)[3]、光譜特征選擇(SPEC)[4]、最小冗余譜特征選擇算法(MRSF)[5]等。盡管這些方法取得了一定的成功,但這類方法忽略了視圖內部間的特征相關性和不同視圖特征間的關聯(lián)性,使特征選擇的性能受到了影響。為了解決以上的問題,本文將自適應相似性應用到無監(jiān)督多視圖特征選擇中,并考慮視圖內部特征的相關性及不同視圖之間的特征關聯(lián)性,同時,通過引入圖正則化以利用數(shù)據(jù)的局部幾何特性,使得同類別特征之間的聯(lián)系更加密切,從而增加算法的魯棒性。為了降低特定視圖相似結構中潛在的數(shù)據(jù)噪聲對特征選擇的影響,本文引入L1/2稀疏范數(shù)在降低噪聲的同時提高分類模型的準確率。
給定訓練集X=[X1,X2,…,XV]∈RN×d, 其表示第V個視圖的全部特征數(shù)據(jù)集,XV∈RN×dV代表第V個視圖的樣本,dV表示第V個視圖的特征維數(shù),xi表示矩陣X的第i行,xj表示矩陣X的第j列,為了選擇最具有代表性的特征,本文首先要利用最小損失函數(shù)來使特征間的差距最小化
(1)
(2)
(3)
本文方法具有兩個優(yōu)勢:①由于本文模型的每個變量都存在約束條件,所以可以采用固定某一變量,求其它變量的迭代優(yōu)化算法;②我們并不是直接的對X進行聚類,而是將X投影到對應的聚類中心F附近,這樣能夠選擇更具有分辨性的特征。
更新Q:固定F,S和W,使Q最小化,Q的優(yōu)化可以推導為
(4)
對于L1/2稀疏約束項,我們參照已有的添加稀疏約束的方法[7]
(5)
更新F:固定其它變量,F(xiàn)的優(yōu)化可以推導為
(6)
由文獻[8]可知,圖正則化理論中引入以下公式
(7)
對R進行變換,可得
(8)
我們對F進行更新時,需要考慮Tr(FLFT), 我們根據(jù)文獻[9]中的方法,最終可得公式
(9)
其中,δij是步長參數(shù)。
令δij=-fij/(XTXF+FDT)i,j可得
(10)
最終可得到更新規(guī)則如下
(11)
更新S:固定其它變量,S的優(yōu)化能夠寫成如下形式
(12)
式(12)能夠被寫成
(13)
Si,j表示S矩陣第i行、第j列的元素,S矩陣的優(yōu)化過程是獨立的,因此,S又能夠被寫成
(14)
(15)
式(15)可由文獻[10]所求得。
更新W:與更新S類似,W也是獨立于其它變量,因此,W矩陣的第j列能夠被表示成
(16)
(17)
利用拉格朗日函數(shù)可得
(18)
ψ是拉格朗日乘數(shù),通過對上式Wj求導,并令其為0,最終獲得
(19)
算法1給出了求解(3)的迭代過程。
算法1:QFSW的更新與多視圖特征選擇
輸出:協(xié)作相似結構S, 投影矩陣Q, 識別到的特征l。
(2)更新
(3)利用等式(5)來更新Q
(4)利用等式(11)來更新F
(5)利用等式(15)來更新S
(6) 利用等式(19)來更新W
(7) 直到收斂特征選擇
(8)找出Qi,i=1,2,…,d并對其排序,最終將具有最高排名的一個特征確定為要選擇的特征。
本實驗采用4個數(shù)據(jù)集。包括MSRC-v1、Outdoor Scene、Handwritten Numeral、YouTube這4個數(shù)據(jù)集。詳細的描述見表1。對于每個數(shù)據(jù)集,我們將數(shù)據(jù)集分類,然后再從每張圖片中提取5類視覺特征,其中包括顏色矩特征、GIST特征、SIFT特征、CENTRIST特征和LBP特征。然后將提取出的特征改為.mat形式的文件加以應用。
表1 實驗數(shù)據(jù)集相關描述
對每個數(shù)據(jù)集,本文將提出的方法與其它無監(jiān)督多視圖特征選擇方法進行比較,其中進行比較的方法包括:LapScor[3]、SPEC[4]、MRSF[5]、AMFS[11]、MVFS[12]和AUMFS[13]。每次利用K-means聚類將實驗重復50次,并取其平均值。
參數(shù)設置:在執(zhí)行上述方法時,α,β,γ的取值范圍為10-4到104。圖1為MSRC-v1數(shù)據(jù)集的不同參數(shù)選擇情況。
我們采用兩個經(jīng)典的評價指標:標準化互信息NMI和聚類準確率ACC。ACC和NMI的值越大,代表特征選擇的效果越好,根據(jù)文獻[14],ACC與NMI的定義如下:
ACC
(20)
其中,N為數(shù)據(jù)集的個數(shù),yi是真實類別標簽,ci預測類別標簽。 δ(yi,c) 為函數(shù),當y=c時,該函數(shù)值為1,否則為0。map(·)為最優(yōu)映射函數(shù)。
NMI
(21)
其中,P表示K-means聚類結果,Q表示真實標簽值,H(*) 表示熵,I(P,Q) 表示P、Q的互信息。
實驗結果見表2、表3和圖2、圖3所示。表2、表3展示了在不同特征維度情況下的不同特征選擇方法的ACC與NMI結果。圖2、圖3不同特征維度情況下的不同特征選擇方法的ACC與NMI折線圖。將本文提出的方法與LapScor、SPEC、MRSF、MVFS、AUMFS、AMFS進行比較,采用ACC評價指標,在數(shù)據(jù)集MSRC-v1、Outdoor Scene、Handwritten Numeral中,與最優(yōu)方法SPEC、LapScor、LapScor相比分別提升了2%、10%、2%。采用NMI評價指標,在數(shù)據(jù)集MSRC-v1、Outdoor Scene、Handwritten Numeral中,與最優(yōu)方法SPEC、LapScor、LapScor相比分別提升了10%、5%、1%。對比本文的方法與其它方法,ACC和NMI在各個數(shù)據(jù)集上均大于后者,驗證了本文方法確實能夠提高聚類學習的性能。
表2 聚類準確率
表3 標準化互信息
圖2 不同算法的ACC對比
圖3 不同算法的NMI對比
本文提出了一種基于自適應相似性的特征選擇學習方法,該方法考慮了視圖內部與視圖間的相關性,同時將圖正則化,L1/2正則化同時結合在目標函數(shù)中,在算法中,圖正則化能夠表現(xiàn)出較高的識別率、較好的魯棒性和可解釋性,從而更準確選擇具有判別性的特征。L1/2正則化能夠產(chǎn)生更加稀疏的解,降低噪聲。結合這兩種算法,本文提出的方法不但可以有效降低數(shù)據(jù)集的維度,也能提高數(shù)據(jù)分類的準確度。同時對數(shù)據(jù)的類別標簽進行稀疏性約束將有助于提高分類的準確度。在很大程度上能夠提高算法性能,通過在真實數(shù)據(jù)集上的實驗能夠驗證所提算法的優(yōu)越性。