楊 蕓,李 彪,王帥磊
(海軍航空工程學(xué)院a.研究生管理大隊;b.基礎(chǔ)部,山東煙臺264001)
一種魯棒的概率核主成分分析模型
楊蕓a,李彪b,王帥磊a
(海軍航空工程學(xué)院a.研究生管理大隊;b.基礎(chǔ)部,山東煙臺264001)
大數(shù)據(jù)時代面臨的數(shù)據(jù)維數(shù)越來越高,對數(shù)據(jù)降維處理越發(fā)顯得重要。經(jīng)典的主成分分析模型已被證明是一種有效的數(shù)據(jù)降維方法。但它在處理非線性、存在噪聲和異常點的數(shù)據(jù)時存在效果較差的問題。對此,文章提出了一種魯棒概率核主成分分析模型。該模型將核方法與基于高斯隱變量模型的極大似然框架相結(jié)合,用多元t分布作為先驗分布,以同時解決主成分分析在這3個方面的弊端。提出混合魯棒概率核主成分分析模型,使其可直接用于對混合的非線性數(shù)據(jù)進行降維和聚類分析。在不同數(shù)據(jù)集上進行的實驗結(jié)果表明,與標準的混合概率核主成分分析模型相比,文中模型在數(shù)據(jù)聚類方面有更高的準確率。
主成分分析;魯棒降維;EM算法;聚類分析;核方法;隱變量模型
隨著信息技術(shù)的飛速發(fā)展,面對的數(shù)據(jù)維數(shù)越來越高。在進行數(shù)據(jù)分析時,為能有效地從高維數(shù)據(jù)集中挖掘有用的信息,線性和非線性的數(shù)據(jù)降維技術(shù)變得越來越重要,受到了計算機視覺和圖像分析等領(lǐng)域的廣泛關(guān)注[1-3]。主成分分析(Principal Component Analysis,PCA)是一種經(jīng)典的數(shù)據(jù)分析方法[4],它本身及其拓展作為有效的數(shù)據(jù)降維技術(shù)在數(shù)據(jù)降維或數(shù)據(jù)的低秩恢復(fù)、數(shù)據(jù)聚類、模式識別等方面得到了重要的應(yīng)用[5-6]。
經(jīng)典的PCA方法雖然在數(shù)據(jù)降維方面簡潔有效,求解起來也較容易,但其存在幾個方面的不足。第一,它沒有考慮數(shù)據(jù)本身的分布特征,而這一點對于混合數(shù)據(jù)建模十分重要;第二,它只是一種線性的降維方法,會損失掉高位統(tǒng)計信息;第三,降維效果受異常點的影響很大,數(shù)據(jù)中異常點的存在可能導(dǎo)致不穩(wěn)定的主成分,從而影響數(shù)據(jù)降維和在低維空間進行聚類的準確性。針對第一個方面的不足,一些文獻將基于高斯隱變量模型的極大似然框架引入PCA中,使得可以用一種獨立的方式來組合PCA模型,在高維數(shù)據(jù)的混合建模分析方面取得了較好的效果[7-9]。在對非線性數(shù)據(jù)進行建模分析方面,核方法是一種較好的將非線性數(shù)據(jù)線性化的方法。它先將數(shù)據(jù)映射到高維核空間,對非線性數(shù)據(jù)進行線性化處理,然后在核空間中對數(shù)據(jù)進行處理[10]。所以,對于第二個方面的不足,有些文獻將核方法用于主成分分析,即先將數(shù)據(jù)映射到高維核空間,然后在核空間中對數(shù)據(jù)進行降維,對第二個方面的不足進行了有效的建模分析[11]。而針對第三個方面的不足,一些文獻通過將PCA與新的理論相結(jié)合,比如譜圖理論[6],貝葉斯統(tǒng)計推斷[12]等,提出了大量魯棒性方法[13-15],來減少異常點的影響。而文獻[16]通過將核方法與基于高斯隱變量模型的極大似然框架相結(jié)合,對PCA中存在的第一個和第二個方面的不足進行了建模分析。但它以多元正態(tài)分布作為先驗分布,使得模型對于異常點較為敏感,從而影響對數(shù)據(jù)降維和聚類的準確率。相比于正態(tài)分布,t分布是“肥尾”分布,也就意味著它對于異常點有更小的敏感性。且對于有些問題,并不能收集到足夠多的數(shù)據(jù),因而在這種情況下,假設(shè)樣本服從正態(tài)分布是不合理的。所以,文獻[17]用多元t分布代替文獻[7]中的多元正態(tài)分布來作為先驗分布,有效的減少了異常點的影響,加強了魯棒性,使得模型的準確率有了較大的提高,并在手寫數(shù)字的識別上取得了較好的效果。但它無法直接用于對混合的非線性數(shù)據(jù)的降維和聚類分析,限制了模型的應(yīng)用范圍。
本文提出一種魯棒概率核主成分分析(Robust Probabilistic Kernel Principal Component Analyzer,RPKPCA)模型,是對經(jīng)典的PCA方法的改進。一方面,使其在小樣本情形下也能有較高的準確率;另一方面,減少模型對于異常點的敏感性,使其用于數(shù)據(jù)聚類和降維時的準確率得到提高。并在此基礎(chǔ)上,構(gòu)建混合魯棒概率核主成分分析模型(Mixtures of Robust Probabilistic Kernel Principal Component Analyzers,MRPKPCA),便于模型直接用于對混合數(shù)據(jù)的降維和聚類分析,且能同時解決上文提出的經(jīng)典PCA方法的一些不足之處。相比于以前提出的方法,本文所提方法的優(yōu)勢在于將PCA方法與基于高斯隱變量模型的極大似然框架相結(jié)合,充分考慮了樣本本身的分布。并且利用多元t分布作為先驗分布,減少了模型對于異常點的敏感性,提高了模型對于數(shù)據(jù)降維和聚類結(jié)果的準確率。同時,結(jié)合核方法,使得模型能直接處理混合的非線性數(shù)據(jù),與文獻[17]中所提方法相比,模型的應(yīng)用范圍更加廣泛。
對于數(shù)據(jù)集{y1,y2,…,yN},yn∈?D,1≤n≤N,先通過非線性映射φ:?D→?f將其映射到高維特征空間(也稱核空間),其中,f>D,甚至可以是無窮大,然后在高維特征空間中對其進行處理。而對于D維數(shù)據(jù)向量y,在其高維特征空間,可以假設(shè)它服從一個特別的因素分析模型[16],表示為:
式(1)中:φ(y)表示數(shù)據(jù)向量y到其高維特征空間的映射函數(shù);x~N(0,Id)為一個d維的隱空間向量;ε~N(0,ρIf)表示 f維噪聲向量;W為一個D×d維的載荷矩陣;μ表示y的均值向量,且d<<f。
1.1一些基本定義
核函數(shù)即映射φ有多種定義方式,包括線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)(或RBF核函數(shù))。近些年有大量的文獻對其進行探討,包括核函數(shù)選擇和參數(shù)優(yōu)化[10,18-19]。其中,高斯核函數(shù)在應(yīng)用方面相對較廣泛。所以,本文也將用高斯核函數(shù)進行探討。其形式為:
式(2)中:?yi,yj∈?D;σ為控制核寬度的參數(shù)。
對于特征空間中的均值和協(xié)方差矩陣,定義為:
定義sN×1=N-11,1∈?N,表示每個元素均為1的列向量。則有
另外,定義:
S的前d個最大特征值對應(yīng)的特征向量[16]
式(7)中:Λd和Vd=[v1,v2,…,vd]分別為該矩陣K的前d個最大特征值與其對應(yīng)特征向量組成的矩陣,且Vd∈?D×d,Λd∈?d×d。
1.2基本模型
在式(1)所提到的核空間統(tǒng)計因素分析模型中,許多文獻往往是通過假設(shè)樣本在低維空間中服從正態(tài)分布來進行分析的。根據(jù)小樣本理論,當樣本數(shù)量有限且較少時,假設(shè)其服從正態(tài)分布會使得整個推斷出現(xiàn)較大的偏差,且受異常點的影響很大,從而使模型的準確率較低。因此,為了增強標準的概率核主成分分析模型(Probabilistic Kernel Principal Component Analyzer,PKPCA)的魯棒性,使其在樣本較少時也能有較高的準確率,并減少異常點的影響。本文使用多元t分布(關(guān)于多元t分布的介紹可參見文獻[20])代替多元Gaussian分布作為先驗分布,即假設(shè)樣本在低維隱空間中服從多元 t分布[17]。這樣,在給定μ、Σ、v的情況下,有
式(9)、(10)中,規(guī)模協(xié)方差是數(shù)據(jù)獨立的,且對每一個φ(yn)指定不同的規(guī)模變量un。另外,每一個規(guī)模變量un的gamma先驗分布由隱向量xn和觀測映射向量φ(yn)所共享。因此,隱空間和高維特征空間的魯棒性由單獨的參數(shù)v決定。所以,當一個數(shù)據(jù)點在高維特征空間被認為是一個異常點時,它將不會對主子空間的鑒別有任何貢獻,因而它在隱空間,即投影空間也被認為是一個異常點[17]。
1.3權(quán)重矩陣W的估計
以多元t分布作為隱變量的先驗分布,在給定μ、Σ、v的情況下,有:
式中,μ和Σ分別表示高維特征空間中的均值和協(xié)方差矩陣,且有
所以,可得全部數(shù)據(jù)的對數(shù)似然函數(shù)的期望為:[21]
通過貝葉斯法則,得規(guī)模變量un的后驗分布為:
當W的列向量張成高維特征空間的主子空間時,式(13)所示的對數(shù)似然函數(shù)最大[7]。所以,可以求得
式(14)中:R為任意d×d維正交矩陣;Id表示d×d維單位矩陣;Q定義為N×d維矩陣,
從式(15)看出,W位于φ的線性子空間。故通過算法求得矩陣Q就可對數(shù)據(jù)進行降維和聚類分析[16]。
用一個RPKPCA無法對混合數(shù)據(jù)進行建模分析?,F(xiàn)實中處理的數(shù)據(jù)分析任務(wù),需要從高維混合數(shù)據(jù)中挖掘出某些有用信息。因此,對數(shù)據(jù)進行建模分析時,混合多個魯棒概率主成分分析器是必要的。所以,將混合的M個魯棒概率主成分分析模型定義為:
式(16)中:πi為混合比例,θi為分析器的參數(shù),對所有的i,有θi={μi,Qi,ρi,vi}。
2.1用EM算法對模型進行訓(xùn)練
本文選擇用最大化似然函數(shù)L0來估計模型的參數(shù){μ,Q,ρ,v}。但是,由于v和 f未知,無法一開始就給出準確的J矩陣的值,因而無法通過直接求取K的特征值和特征向量來給出Q矩陣,所以通過合適的算法來對其進行求解。EM算法是應(yīng)用最廣泛的一種求解混合概率模型參數(shù)的算法,它的基本原理為通過迭代使得模型的對數(shù)似然函數(shù)最大化[22]。因而,本文也用EM算法對模型進行求解。得到似然函數(shù)為[17]:
式中,zni為指示器參數(shù),表示的是數(shù)據(jù)點n屬于分析器i的幾率,且,定義
具體過程為,首先(E步),固定各參數(shù)給出隱變量的后驗分布,并計算出對應(yīng)的期望值;然后(M步),對參數(shù)進行更新,直到參數(shù)收斂。
E步:計算所示量。
由于 f未知,且可能為無限大,所以無法用式(20)、(21)對相應(yīng)值進行計算。但是,通過在本文第3部分所示3個數(shù)據(jù)集上進行測試,發(fā)現(xiàn) f=9時,在3個數(shù)據(jù)集上均得到了較好的結(jié)果。所以,文中在利用式(20)、(21)進行計算時,將 f設(shè)置為固定值9。
M步:對參數(shù)進行更新,具體公式為:
式(22)~(25)中:Λdi=diag(λ1i,λ2i,…,λdi),其中,(λ1i,λ2i,…,λdi)分別表示Sni的前d個最大特征值;Vdi為Sni的前d個最大特征值對應(yīng)的特征向量。
通過對數(shù)似然函數(shù)L0可求得于ρi與 f成反比,而 f值本身較大,且可能是無限大,無法根據(jù)公式估計出。另外,求得的ρi值的估計式十分復(fù)雜,用迭代計算 ρi值并不合適。而 ρi值與 f成反比,其本身是很小的,因而在迭代計算的時候,可以通過人為選擇,設(shè)定ρi為一個固定的很小的值。而在ρi固定的情況下,選擇式(25)迭代計算Qi值是可行的。因此,對所有的類別i,將 ρi設(shè)成固定的比較小的一個常數(shù),即ρi≡ρ=c。并且,如果能先行計算出K和K0值,則每一次迭代計算的計算復(fù)雜度為O(dN2)。而每個數(shù)據(jù)點的貢獻就由來衡量,它是和的乘積。當數(shù)據(jù)點n遠離第i類的中心μi時,的取值會很小,從而確保了算法對于異常點的魯棒性。
類似于式(4),可以將Sni寫成:
因此,可以通過求矩陣Ki=JiTK0Ji的特征值和特征向量,從而得到Λdi和Vdi。
2.2各分析器參數(shù)vi的確定
由于各分析器的“魯棒性”由唯一的參數(shù)vi決定,所以對于參數(shù)vi的設(shè)置十分重要。文獻[23]中提出通過求解如下非線性函數(shù)來得到vi的值:
在具體計算中,可以通過一個線性搜索算法[24]來求取式(28)的最優(yōu)數(shù)值解。但為了減少計算復(fù)雜度,在本文中,采用文獻[22]中提到的數(shù)值近似方法,
本文的實驗測試環(huán)境為MATLAB R2014a,通過在人工數(shù)據(jù)集和實際數(shù)據(jù)集上進行仿真分析,來驗證模型的有效性。
3.1低維人工數(shù)據(jù)集聚類分析
為了使得測試結(jié)果更直觀且進行有效的比較,構(gòu)造重構(gòu)誤差百分比η來比較模型的有效性,其具體形式為:
根據(jù)文獻[16]中所示,最好的φ(yn)的擬合值為:
進一步可以得到:
式中,Π=If-W(WTW)-1WT。
從式(32)可以看出,當聚類效果不好時,會存在一些聚類不準確的點,使得εni的值較大。從而使得rni×εni較大,進而影響重構(gòu)誤差百分比的值,使其較大。
為了驗證模型在低維數(shù)據(jù)集上的有效性,選擇由如下函數(shù)產(chǎn)生的人工數(shù)據(jù)集
進行仿真分析時,使用式(33)所示函數(shù),共產(chǎn)生了441個數(shù)據(jù)點,分布在一個三維的雙曲面上。并且在雙曲面上加入了40個異常點,分布在雙曲面的4個方向上,見圖1。
圖1是根據(jù)標準的混合概率核主成分模型MPKPCA(Mixtures of Probabilistic Kernel Principal Component Analyzers)得到的結(jié)果,各參數(shù)取值分別為d=5,σ=0.90,ρ=0.005,而圖2是根據(jù)MRPKPCA模型得到的結(jié)果,各參數(shù)取值為d=5,σ=0.85,ρ=0.001。
圖1 通過MPKPCA模型得到的投影圖Fig.1 Projection by model of MPKPCA
圖2 通過MRPKPCA模型得到的投影圖Fig.2 Projection by model of MRPKPCA
通過圖1與圖2進行對比,可以看出,在使用MRPKPCA模型對數(shù)據(jù)進行聚類時,得到的各個類別所包含的數(shù)據(jù)點的個數(shù)比較均勻。且位于圖中間的類別所包含的數(shù)據(jù)點的數(shù)量不會很多、很分散,這就有效的保證了數(shù)據(jù)的集中度與分類的準確性,使得重構(gòu)誤差平均百分比η相比而言較小。圖1中對應(yīng)的η值為1.25%,而圖2中對應(yīng)的η值為0.38%。
為了更直觀的進行比較,表1給出了MRPKPCA模型和MPKPCA模型在不同最終降維數(shù)d下的平均重構(gòu)誤差百分比和最小重構(gòu)誤差百分比(其他參數(shù)均為在調(diào)試后較優(yōu)的值)。
由表1可看出,MRPKPCA模型相較標準的MPKPCA模型有更小的重構(gòu)誤差百分比。這表明MRPKPCA模型在對數(shù)據(jù)聚類時,每一類的數(shù)據(jù)點更加均勻且集中,受異常點的影響較小,從而使分類結(jié)果的準確性得到較大的提高。所以,根據(jù)表1的對比分析,可以知道,MRPKPCA模型對異常點有著較好的魯棒性,且在對低維數(shù)據(jù)進行聚類時有著較高的準確率。
表1 不同最終降維數(shù)下的η值Tab.1 Values ofηunder different final number of dimensionality reduction
3.2高維數(shù)據(jù)聚類分析
數(shù)據(jù)來源于經(jīng)典的UCI數(shù)據(jù)庫中的“Image Segmentation”數(shù)據(jù)集[25]。該數(shù)據(jù)集包含用于訓(xùn)練的“segmentation_data”和用于測試的“segmentation_test”的數(shù)據(jù)?!皊egmentation_data”中共210條數(shù)據(jù),每條數(shù)據(jù)有19個維度,為7種不同戶外景物在30種不同情境下的照片分割信息。而“segmentation_test”中共2 100條數(shù)據(jù),為與“segmentation_data”中對應(yīng)的7種景物在300種不同情境下的照片分割信息。
為了驗證模型對于高維數(shù)據(jù)聚類的有效性,從“segmentation_test”中選取前3種景物的照片分割信息,共900條數(shù)據(jù)(即900×19的矩陣)來進行聚類比較分析。圖3給出的是在最終降維數(shù)d=2時,MRPKPCA模型根據(jù)Q矩陣給出的降維效果圖。
圖3 通過MRPKPCA模型得到的降維效果圖Fig.3 Effect picture after dimensionality reduction by MRPKPCAmodel
從圖3中可以看出,MRPKPCA模型能有效的對高維數(shù)據(jù)進行降維,使得相同類型的數(shù)據(jù)在降維后能聚在一起。由于圖3給出的只是單次降維后的效果圖,其結(jié)果并不具有很大的說服力。因而,在表2中給出了在不同最終降維數(shù)下,不同模型的平均聚類準確率,其中KFC-M表示基于核方法的模糊C均值聚類算法。將聚類準確率定義如下,
式(34)中:t表示一次聚類中分類正確的樣本數(shù);h表示用于聚類的樣本總數(shù)。
通過對表2的分析可看出,MRPKPCA模型在減少數(shù)據(jù)異常點的影響,提高聚類準確率方面,有著相當大的潛力。雖然在維數(shù)很低時,模型的平均準確率比標準的MPKPCA模型要小,但其單次準確率可能很大,明顯大于標準的MPKPCA模型。且隨著最終降維數(shù)的逐漸增加,MRPKPCA模型的準確率也在不斷增加。當最終降維數(shù)d=5時,MRPKPCA模型的準確率已經(jīng)遠大于標準的MPKPCA模型和KFC-M算法。
表2 不同最終降維數(shù)下的θ值Tab.2 Values ofθunder different final number of dimensionality reduction
根據(jù)表2中的對比分析,可以知道,在對高維數(shù)據(jù)進行降維和聚類時,與標準的MPKPCA模型、KFC-M算法[26]相比,MRPKPCA模型有著較高的準確率。
3.3高維小樣本數(shù)據(jù)聚類分析
為驗證模型在對小樣本數(shù)據(jù)進行降維和聚類時的有效性,這部分選取“2015年全國研究生建模競賽B題第3小題(c)問”中提供的數(shù)據(jù)進行實驗測試[27]。數(shù)據(jù)的維度為2 016×20,每1列表示1幅不同光照強度下的人臉圖像,即數(shù)據(jù)中共包含人臉圖像20幅。要求將這20幅圖分成2類,具體情形如圖4所示。
表3給出了在不同最終降維數(shù)下,MRPKPCA模型、標準的MPKPCA模型和KFC-M的平均聚類準確率以及平均完全聚類準確率,另外2個參數(shù)都是在調(diào)試后較優(yōu)的情況下給出的。
將完全聚類準確率定義為:
圖4 不同光照強度下的人臉圖像Fig.4 Face image under different illumination intensity
表3 不同最終降維數(shù)下的θ和值Tab.3 Values ofθandin different final number of dimensionality reduction
表3 不同最終降維數(shù)下的θ和值Tab.3 Values ofθandin different final number of dimensionality reduction
?
對表3中所示結(jié)果進行分析可知,在對模型的各參數(shù)進行優(yōu)化后,與MPKPCA模型、KFC-M算法相比,MRPKPCA模型有著較高的聚類準確率,且聚類完全正確的比率也較高。因此,可知MRPKPCA模型在對小樣本數(shù)據(jù)進行聚類分析時,有著較好的魯棒性和較高的準確率。
經(jīng)典的PCA方法是一種已被證明的有效的探索數(shù)據(jù)聚類和數(shù)據(jù)可視化的基礎(chǔ)性的工具。但用于處理實際問題時,由于實際數(shù)據(jù)往往為非線性、存在噪聲和異常點的混合數(shù)據(jù),因此,將其進行拓展是必不可少的。本文提出的魯棒概率核主成分分析模型,首先,將數(shù)據(jù)映射到高維核空間,將非線性數(shù)據(jù)進行線性化;然后,在高維核空間中,將經(jīng)典PCA方法與基于高斯隱變量模型的極大似然框架相結(jié)合,利用了樣本本身的分布來提高結(jié)果的準確率。同時,用t分布作為先驗分布,增強了模型的魯棒性,減少了異常點的影響。并且,在實驗測試中,通過與經(jīng)典MPKPCA模型、KFC-M算法進行比較,可看出MRPKPCA模型有著較高的準確率。所以,MRPKPCA模型在數(shù)據(jù)降維和聚類方面是有效的。
本文所建的MRPKPCA模型并未考慮求得的主成分中包含異質(zhì)主成分的情況,且模型的自由參數(shù)過多,下一步將修改模型以解決這些方面的問題。
[1]SHAHID N,PERRAUDIN N,KALOFOLIAS V,et al. Fast robust pca on graphs[J/OL].ArXiv Preprint,2015:1507.08173.
[2]GUPTA B.Analyzing face recognition using principal component analysis[J].Akgec International Journal of Technology,2009,5(1):5-8.
[3]BRO R,SMILDE A K.Principal component analysis[J]. Analytical Methods,2014,6(9):2812-2831.
[4]UDELL M,HORN C,ZADEH R,et al.Generalized low rank models[J/OL].ArXiv Preprint,2014:1410.0342.
[5]WANG Y,JIANG Y,WU Y,et al.Spectral clustering on multiple manifolds[J].IEEE Transactions on Neural Networks,2011,22(7):1149-1161.
[6]SHAHID N,KALOFOLIAS V,BRESSON X,et al.Robust principal component analysis on graphs[C]//Proceedings of the IEEE International Conference on Computer Vision.Chile:IEEE,2015:2812-2820.
[7]TIPPING M E,BISHOP C M.Mixtures of probabilistic principal component analyzers[J].Neural Computation,1999,11(2):443-482.
[8]SU T,DY J G.Automated hierarchical mixtures of probabilistic principal component analyzers[C]//Proceedings of the Twenty-first International Conference on Machine Learning.Canada:ACM,2004:98.
[9]ZHAO J.Efficient model selection for mixtures of probabilistic PCA via hierarchical BIC[J].IEEE Transactions on Cybernetics,2014,44(10):1871-1883.
[10]FILIPPONE M,CAMASTRA F,MASULLI F,et al.A survey of kernel and spectral methods for clustering[J]. Pattern Recognition,2008,41(1):176-190.
[11]SCH?LKOPF B,SMOLAA,MüLLER K R.Kernel principal component analysis[C]//Artificial Neural Networks-ICANN'97.Berlin:Springer,1997:583-588.
[12]DING X,HE L,CARIN L.Bayesian robust principal component analysis[J].IEEE Transactions on Image Processing,2011,20(12):3419-3430.
[13]CANDèS E J,LI X,MA Y,et al.Robust principal component analysis[J].Journal of theACM,2011,58(3):11.
[14]WRIGHT J,GANESH A,RAO S,et al.Robust principal component analysis:exact recovery of corrupted lowrank matrices via convex optimization[C]//Advances in NeuralInformationProcessingSystems.Vancouver,2009:2080-2088.
[15]XU H,CARAMANIS C,SANGHAVI S.Robust PCA via outlier pursuit[C]//Advances in Neural Information Processing Systems.Vancouver,2010:2496-2504.
[16]ZHOU S.Probabilistic analysis of kernel principal components:mixture modeling and classification[C]//Submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence.IEEE,2003:1-26.
[17]ARCHAMBEAU C,DELANNAY N,VERLEYSEN M. Mixtures of robust probabilistic principal component analyzers[J].Neurocomputing,2008,71(7):1274-1282.
[18]JIANG L,ZENG B,JORDAN F R,et al.Kernel function and parameters optimization in kica for rolling bearing fault diagnosis[J].Journal of Networks,2013,8(8):1913-1919.
[19]VEMULAPALLI R,PILLAI J,CHELLAPPA R.Kernel learning for extrinsic classification of manifold features [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE,2013:1782-1789.
[20]LIU C,RUBIN D B.ML estimation of the t distribution using EM and its extensions,ECM and ECME[J].Statistica Sinica,1995,5(1):19-39.
[21]SHY SHOHAM.Robust clustering by deterministic agglomeration EM of mixtures of multivariate t distributions [J].Pattern Recognition,2002,35(5):1127-1142.
[22]SHOHAM S,F(xiàn)ELLOWS M R,NORMANN R A.Robust,automatic spike sorting using mixtures of multivariate t-distributions[J].Journal of Neuroscience Methods,2003,127(2):111-122.
[23]PEEL D,MCLACHLAN G J.Robust mixture modellingusing the t distribution[J].Statistics and Computing,2000,10(4):339-348.
[24]NOCEDAL J,WRIGHT S.Numerical optimization[M]. Berlin:Springer,2000:10-54.
[25]LICHMAN M.UCI machine learning repository[Z/OL].(2013-07-01)[2016-05-21].http://archive.ics.uci.edu/ml/ datasets.html.
[26]周巧萍,潘晉孝,楊明.基于核函數(shù)的混合C均值聚算[J].模糊系統(tǒng)與數(shù)學(xué),2008,22(6):148-151. ZHOU QIAOPING,PAN JINXIAO,YANG MING.Hybrid clustering algorithm based on the kernel function[J]. Fuzzy Systems and Mathematics,2008,22(6):148-151.(in Chinese)
[27]MINISTRY OF EDUCATION AND GRADUATE EDUCATION DEVELOPMENT CENTER.2015 National graduate student contest[Z/OL].(2015-06-15)[2016-05-21].http://www.shumo.com/home/html/3179.html.
A Robust Probabilistic Kernel Principal Component Analysis Model
YANG Yuna,LI Biaob,WANG Shuaileia
(Naval Aeronautical and Astronautical University a.Graduate Students’Brigade;b.Department of Basic Sciences,Yantai Shandong 264001,China)
The dimension of the processed data have become more and more higher,so dimensionality reduction becomes more and more important.The classical PCA(Principal component analysis)has proven to be an effective dimensionality reduction method.But its effect was poor when used it to disposing nonlinear,noise and outliers data set,so,a robust probabilistic kernel principal component analysis model(RPKPCA)was proposed.It combined kernel method with maximum likelihood frame based on Gaussian process latent variable model and used t-distribution as prior distribution to solve its three disadvantages at the same time.In addition,a mixtures of robust probabilistic kernel principal component analysis model(MRPKPCA),and it could be used directly to dimensions reduction and data mining of mixture and nonlinear data. The experimental results in different data set showed that the model of proposed in this paper had higher accuracy than the standard probabilistic kernel principal component analysis model.
principal component analysis;dimensionality reduction of robustness;EM algorithm;cluster analysis;kernel method;latent variable model
TP391.41
A
1673-1522(2016)04-0415-08
10.7682/j.issn.1673-1522.2016.04.003
2016-05-26;
2016-06-28
楊蕓(1991-),男,碩士生。