基于偽柯西類核函數(shù)的主成分降維方法

2021-10-15 10:38劉文博梁盛楠

東北師大學(xué)報（自然科學(xué)版） 2021年3期

劉文博，梁盛楠

(1.黔南民族師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院，貴州都勻 558000； 2.黔南民族師范學(xué)院復(fù)雜系統(tǒng)與智能優(yōu)化實驗室，貴州都勻 558000)

0 引言

目前，諸多領(lǐng)域的數(shù)據(jù)呈現(xiàn)出高維度特點，即數(shù)據(jù)集包含幾百甚至幾千個變量，往往這些變量之間存在高度相關(guān)性且有些變量甚至與決策不相關(guān).隨著變量數(shù)目的增加，更會產(chǎn)生所謂的“維數(shù)災(zāi)難”[1]，若直接利用機器學(xué)習(xí)算法進行處理勢必大量增加時間開銷.對高維數(shù)據(jù)進行降維、有效去除數(shù)據(jù)的冗余特征、降低特征之間的相關(guān)性是十分必要的.變量降維方法在基因表達數(shù)據(jù)識別[2]、圖像聚類[3]、機器學(xué)習(xí)[4-5]等領(lǐng)域起到了數(shù)據(jù)預(yù)處理的關(guān)鍵作用.

降維技術(shù)主要分為特征選擇[6]與特征提取[7].本文主要從特征提取的角度對高維基因表達數(shù)據(jù)進行維度約減研究，提高樣本類別的識別率.特征提取的典型代表為主成分分析法(Principal Component Analysis，PCA)，其基本思想是利用較少的主成分(綜合變量)來替代原來較多的特征，而這些主成分能夠盡可能多地包含原始特征的信息，并且彼此不相關(guān)[8]，PCA擅長處理線性、高斯型分布數(shù)據(jù).但是，在很多情況下，數(shù)據(jù)往往呈現(xiàn)出非線性分布，若仍采用線性降維，則將丟失原本的低維結(jié)構(gòu).因此，一些非線性降維技術(shù)應(yīng)運而生，其中最為典型的代表就是基于核技巧的非線性特征提取方法.如Scholkopf等[9]提出的基于核主成分分析(Kernel Principal Component Analysis，KPCA)，該方法通過非線性映射將低維空間中線性不可分的數(shù)據(jù)映射到高維空間，實現(xiàn)高維空間中的線性可分.

核主成分分析的關(guān)鍵之處在于核函數(shù)的選擇，好的核函數(shù)可以更好地實現(xiàn)高維空間中樣本的線性可分.鑒于此，本文構(gòu)造了一類新的核函數(shù)——偽柯西類核函數(shù)，對高維數(shù)據(jù)進行降維.通過在4個癌癥基因表達數(shù)據(jù)集的實驗分析，與全變量、高斯核、多項式核、雙曲正切核相比，在多數(shù)情況下，偽柯西類核函數(shù)的降維效果要優(yōu)于傳統(tǒng)的核函數(shù)以及全變量情形.

1 核主成分分析

傳統(tǒng)的主成分分析可以較好地處理變量間的線性關(guān)系，但是當(dāng)處理的數(shù)據(jù)呈現(xiàn)出非線性關(guān)系時，會導(dǎo)致各主成分貢獻率過于分散，不能找到有效代表原樣本的綜合變量，處理效果不夠理想[10].基于核技巧的主成分分析是一種較為理想的處理非線性問題的方法，其基本原理如下所述.

令原始樣本數(shù)據(jù)矩陣為

X=(xij)n×p，i=1，2，…，n；j=1，2，…，p.

其中：xi=(xi1，xi2，…，xip)′為數(shù)據(jù)集的第i個樣本，n為樣本容量，p為變量個數(shù).

給定非線性映射Φ，將低維空間中的樣本映射到高維空間Y中，即

xi∈Rp→Φ(xi)∈Y.

在高維特征空間中利用主成分分析進行特征提取，使得原樣本空間中線性不可分?jǐn)?shù)據(jù)在新空間下線性可分，如圖1所示.

圖1 KPCA樣本分離原理示意圖

核主成分分析計算過程如下：

令zi=φ(xi)為xi在高維特征空間中的樣本，其協(xié)方差矩陣為

(1)

KPCA的求解目標(biāo)為

(2)

由于φ(x)形式一般未知，引入形式已知的核函數(shù)

κ(xi，xj)=φT(xi)φ(xj)，

(3)

常用的核函數(shù)[11]：

(4)

(5)

把(5)式帶入(4)式可得

(6)

將(6)式兩側(cè)同乘φT(X)=(φT(x1)，…，φT(xn))T可得

Kαj=λjαj.

(7)

將(5)式帶入(2)式最終得到核主成分解

(8)

在進行維度約減時，一般取前d(d

2 偽柯西類核函數(shù)

核主成分的主要目標(biāo)是基于核函數(shù)對數(shù)據(jù)進行維度約減，那么核函數(shù)選擇是否恰當(dāng)就成為核降維的關(guān)鍵所在，這就需要不斷探尋新的核函數(shù)以提高核降維效果，以提高后續(xù)機器學(xué)習(xí)分類算法的預(yù)測性能.受到柯西核函數(shù)的啟發(fā)并依據(jù)如下定理1，本節(jié)構(gòu)造新的偽柯西類核函數(shù).

定理1[12]設(shè)f：X→R是有界可積連續(xù)函數(shù)，則k(x-x′)=f(x-x′)為核函數(shù)的充要條件是f(0)>0，且其傅里葉變換

定理2 令

(9)

則(9)式為核函數(shù).

令t=-x，有

所以

因此

(10)

其中c>0，則(10)式為核函數(shù).

(11)

其中c>0，0

(9)—(10)式的表達形式與柯西密度函數(shù)較為相似，故本節(jié)構(gòu)造的核函數(shù)稱之為偽柯西類核函數(shù)，將上述核函數(shù)應(yīng)用于高維數(shù)據(jù)的特征約減，通過實驗分析將偽柯西類核函數(shù)與傳統(tǒng)核函數(shù)的維度約減效果進行對比.

3 實驗結(jié)果與分析

利用本文構(gòu)造的偽柯西核函數(shù)以及已有的高斯核、多項式核、線性核、雙曲正切核對真實數(shù)據(jù)集進行降維，然后采用目前主流的機器學(xué)習(xí)方法包括支持向量機(SVM)[13]、K近鄰[14](KNN)、樸素貝葉斯(NB)[15]在降維后的數(shù)據(jù)集與原始數(shù)據(jù)上進行分類預(yù)測，最后將不同核函數(shù)的降維效果進行對比研究.

3.1 實驗設(shè)計

實驗環(huán)境設(shè)置為：Windows10，64位操作系統(tǒng)，Intel i7-9 700、3.0 GHz CUP，16 GB內(nèi)存，本文提出的算法和實驗基于R語言(R 3.6.3)編碼實現(xiàn).使用來自Broad Institute Genome Data Analysis Center(http：∥portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi)的4個真實癌癥基因表達數(shù)據(jù)集進行實驗分析，數(shù)據(jù)的基本信息如表1所示.為了評價不同維度下機器學(xué)習(xí)方法的分類性能，使用的性能度量指標(biāo)為分類精度.

表1 數(shù)據(jù)集信息

基于核主成分分析的數(shù)據(jù)維度約減與分類識別步驟如下：

① 對數(shù)據(jù)集進行標(biāo)準(zhǔn)化處理，消除量綱的影響；

② 選取核函數(shù)以及設(shè)定核函數(shù)參數(shù)；

③ 依據(jù)步驟②的核函數(shù)計算核矩陣；

④ 計算核矩陣的特征值與特征向量并對特征向量進行歸一化處理；

⑤ 依據(jù)(8)式，計算原始數(shù)據(jù)在高維特征空間中的核主成分解yj，j=1，2，…，d；

⑥ 依據(jù)yj，j=1，2，…，d，利用機器學(xué)習(xí)分類方法對原始數(shù)據(jù)進行分類識別.

3.2 對比實驗結(jié)果與分析

由于本文所使用的核函數(shù)均帶有參數(shù)，高斯核參數(shù)σ2，多項式核參數(shù)d，雙曲正切核參數(shù)β和θ，本文構(gòu)造的偽柯西核函數(shù)(10)式中的參數(shù)c，需要對上述參數(shù)進行合理設(shè)定，即經(jīng)過上述核降維后，使得后續(xù)的機器學(xué)習(xí)分類性能達到相對最優(yōu).由于每個核函數(shù)至多包含2個參數(shù)，在參數(shù)不多的情況下，采取較為適宜的網(wǎng)格搜索(Grid Search)策略，對每個核函數(shù)中的參數(shù)設(shè)定取值范圍并按等步長取值，使得后續(xù)分類算法達到精度最高的參數(shù)即為最終選取的參數(shù).最終確定的參數(shù)分別為σ2=50，d=2，β=6，θ=-0.1，c=1.對比實驗結(jié)果見表2—4.

表2 基于全變量、高斯核、多項式核、雙曲正切核與偽柯西核的SVM五折交叉驗證精度比較

表3 基于全變量、高斯核、多項式核、雙曲正切核與偽柯西核的KNN五折交叉驗證精度比較

表4 基于全變量、高斯核、多項式核、雙曲正切核與偽柯西核的NB五折交叉驗證精度比較

根據(jù)表2給出的實驗結(jié)果可以看出，若不對原始數(shù)據(jù)進行降維，而直接應(yīng)用SVM進行分類，在4個數(shù)據(jù)集上的精度僅有52%，31.88%，70%和19.33%，分類精度過低，這表明SVM對高維度小樣本數(shù)據(jù)集異常敏感，因此有必要對數(shù)據(jù)進行維度約減.經(jīng)過核降維后，其分類精度有了明顯提升，與傳統(tǒng)的高斯核、多項式核和雙曲正切核相比，經(jīng)過本文構(gòu)造的偽柯西核函數(shù)降維后，SVM的分類精度達到最高分別為91.84%，98.79%，96.41%和98.05%.根據(jù)表3可以看到，偽柯西類核降維使得KNN的分類精度在Leukemia和Muliti-A數(shù)據(jù)集精度達到最高，在Breast和Lung數(shù)據(jù)集達到次最優(yōu).根據(jù)表4的結(jié)果，偽柯西類核降維使得NB在3個數(shù)據(jù)集上的分類精度達到最大，在1個數(shù)據(jù)集上精度達到次最大.

通過表2—4的實驗結(jié)果，總體上可以得出，與全變量、高斯核、多項式核以及雙曲正切核相比，經(jīng)過偽柯西核類函數(shù)降維后可以使目前主流的機器學(xué)習(xí)方法如SVM、KNN和NB的分類性能有較為顯著的提升.這表明，核降維可以較為充分的提取原始數(shù)據(jù)集的信息.通過在4個癌癥基因表達數(shù)據(jù)上的數(shù)據(jù)分析，與傳統(tǒng)核函數(shù)相比，偽柯西核的降維效果要更為出色.

4 結(jié)論

針對數(shù)據(jù)集高維度、高冗余性特點，為了提高后續(xù)機器學(xué)習(xí)算法的分類性能且能夠降低分類預(yù)測過程中的復(fù)雜度，本文提出一種基于偽柯西類核函數(shù)的主成分降維方法，即構(gòu)造新的核函數(shù)對高維數(shù)據(jù)進行維度約減.通過在4個癌癥基因表達數(shù)據(jù)集的實驗分析，與全變量、高斯核、多項式核以及雙曲正切核相比，在多數(shù)情況下，偽柯西類核函數(shù)可更為有效地提高主流機器學(xué)習(xí)方法的預(yù)測精度.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡