王 梅,許傳海,劉 勇
(1.東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江大慶 163318;2.黑龍江省石油大數(shù)據(jù)與智能分析重點(diǎn)實(shí)驗(yàn)室(東北石油大學(xué)),黑龍江大慶 163318;3.中國(guó)人民大學(xué)高瓴人工智能學(xué)院,北京 100872;4.大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué)),北京 100872)
(?通信作者電子郵箱liuyonggsai@ruc.edu.cn)
核方法,如支持向量機(jī)(Support Vector Machine,SVM)[1]、最小二乘支持向量機(jī)[2]等,是一類重要的機(jī)器學(xué)習(xí)方法。這些方法隱式地將數(shù)據(jù)點(diǎn)從輸入空間映射到一些特征空間,并在特征空間中學(xué)習(xí)線性學(xué)習(xí)器。隱式特征映射是由核函數(shù)誘導(dǎo)生成,因此核函數(shù)選擇的好壞決定核方法的性能。然而,傳統(tǒng)的核函數(shù)如線性核函數(shù)、多項(xiàng)式核函數(shù)和高斯核函數(shù)等只具有淺層結(jié)構(gòu),表示能力較弱。
雖然核方法能使線性方法這樣簡(jiǎn)單的算法表現(xiàn)出令人印象深刻的性能,但是它們都是基于單個(gè)核函數(shù)的單核方法,它們?cè)谔幚順颖局邪悩?gòu)信息[3-7]、樣本規(guī)模較大[8-9]、數(shù)據(jù)不規(guī)則或者數(shù)據(jù)分布不平坦[10]時(shí)存在很多的不足。為此,人們提出了多核學(xué)習(xí)方法代替單核方法,不僅能增強(qiáng)決策函數(shù)的可解釋性,還能獲得比單核模型更優(yōu)的性能[11]。
為了提高多核學(xué)習(xí)方法的精度,一些人開始在規(guī)定的一組連續(xù)參數(shù)化的基本核函數(shù)的凸集中學(xué)習(xí)核問題[12],但大多數(shù)的多核學(xué)習(xí)算法所使用的度量通常是基于半徑邊緣或其他相關(guān)的正則化泛函,通常具有較慢的收斂速度。
為解決上述問題,本文提出了一種基于神經(jīng)正切核(Neural Tangent Kernel,NTK)的多核學(xué)習(xí)方法。首先,用NTK 替代傳統(tǒng)的核函數(shù)如線性核、高斯核和多項(xiàng)式核等作為多核學(xué)習(xí)方法的基核函數(shù);接著,采用主特征值比例的度量方法證明了一種收斂速度較快的泛化誤差界,相比現(xiàn)有的度量方法,該度量定義在核矩陣上,可以很容易通過訓(xùn)練數(shù)據(jù)進(jìn)行估計(jì);然后將主特征值度量求出的特征值比例與核目標(biāo)對(duì)齊方法相結(jié)合,求出每個(gè)基核函數(shù)的最優(yōu)權(quán)重系數(shù),采用線性合成的方法求出多核決策函數(shù)進(jìn)行問題的求解;最后,在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出的方法有著較好的效果。
與單核只學(xué)習(xí)單個(gè)核函數(shù)不同的是,多核學(xué)習(xí)遵循不同的方式學(xué)習(xí)一組基本核函數(shù)的組合系數(shù)[13]。但是,如何通過學(xué)習(xí)獲得最優(yōu)的組合系數(shù)是一個(gè)需要解決的難題。針對(duì)這一問題,近年來(lái)學(xué)者們通過理論研究和經(jīng)驗(yàn)證明提出了多種多核學(xué)習(xí)方法。如基于Boosting[14]的多核組合方法,基于半無(wú)限線性規(guī)劃[15]的學(xué)習(xí)方法,以及簡(jiǎn)單多核學(xué)習(xí)[16]方法和基于無(wú)限核[17]的學(xué)習(xí)方法等。在這些多核學(xué)習(xí)框架內(nèi),最終的內(nèi)核函數(shù)通常是有限個(gè)基本核函數(shù)的凸組合,且基核函數(shù)需要進(jìn)行提前設(shè)置。
在過去的幾年中,人們針對(duì)多核學(xué)習(xí)方法展開了大量的研究,提出了許多有效的算法來(lái)提高學(xué)習(xí)效率和預(yù)測(cè)(分類)的精度。如Alioscha-Perez 等[18]采用隨機(jī)方差縮減梯度方法,避免了大量的矩陣運(yùn)算和內(nèi)存分配,解決了多核學(xué)習(xí)方法無(wú)法擴(kuò)展到大規(guī)模樣本的問題;Wang等[19]基于類內(nèi)散布矩陣的跡,提出了一種名為跡約束多核學(xué)習(xí)的方法,該方法可以在學(xué)習(xí)基核權(quán)重的過程中同時(shí)調(diào)整正則化參數(shù)C,節(jié)省訓(xùn)練時(shí)間;Liu等[20]根據(jù)每個(gè)樣本的觀測(cè)通道對(duì)樣本進(jìn)行分類,提出了一種無(wú)需進(jìn)行任何插補(bǔ)的缺失多核學(xué)習(xí)方法,提高了算法的分類性能。針對(duì)基核函數(shù)的組合策略,王梅等[21]通過求解秩空間差異性對(duì)核函數(shù)進(jìn)行組合;賈涵等[22]采用模糊約束理論求解各核函數(shù)的權(quán)重得到組合核函數(shù);He等[23]通過使用核目標(biāo)對(duì)齊的方法計(jì)算單核的權(quán)重,進(jìn)而構(gòu)造最終的合成核。
基核選擇對(duì)于多核學(xué)習(xí)具有重要影響,它與泛化誤差算法密切相關(guān),一般泛化誤差最小的核被認(rèn)為是最優(yōu)核。近年來(lái),人們利用局部拉德馬赫復(fù)雜度推導(dǎo)出了更緊的泛化界。Koltchinskii 等[24]首次提出局部拉德馬赫復(fù)雜度的概念,利用迭代的方法獲得數(shù)據(jù)相關(guān)的上界。Bartlett等[25]基于局部拉德馬赫復(fù)雜度導(dǎo)出了泛化界,并進(jìn)一步提出了凸函數(shù)在分類和預(yù)測(cè)問題中的一些應(yīng)用?;诰植坷埋R赫復(fù)雜度和積分算子尾部特征值的關(guān)系,Kloft 等[26]導(dǎo)出了多核學(xué)習(xí)的泛化界。然而核函數(shù)積分算子的特征值很難計(jì)算,為此Cortes等[27]利用核矩陣的尾特征值設(shè)計(jì)了新的核學(xué)習(xí)算法。但對(duì)于不同類型的核函數(shù),核特征值的差異可能很大,因此核函數(shù)的尾特征值不能很好地反映不同核函數(shù)的優(yōu)度。對(duì)此,Liu等[28]首先考慮了核函數(shù)的特征值的相對(duì)值,并在文獻(xiàn)[29]中將特征值相對(duì)值的另一度量——主特征值比例應(yīng)用到多核學(xué)習(xí)方法中。
神經(jīng)網(wǎng)絡(luò)和核方法之間的聯(lián)系在二十幾年前就已經(jīng)開始研究。Williams[30]的早期工作已經(jīng)注意到具有無(wú)限寬度的單隱層的神經(jīng)網(wǎng)絡(luò)和高斯過程之間具有等價(jià)性。Lee 等[31]又將該結(jié)果擴(kuò)展到深度完全連接的神經(jīng)網(wǎng)絡(luò)上,只對(duì)最后一層進(jìn)行訓(xùn)練,其余層都保留初始值。最近Jacot等[32]研究表明過參數(shù)化深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以用一種名為神經(jīng)切線核的核回歸訓(xùn)練動(dòng)力學(xué)來(lái)進(jìn)行表征。NTK在無(wú)限寬極限下趨于一個(gè)確定的核,而且在梯度下降的訓(xùn)練過程中保持不變。雖然上述理論結(jié)果僅在無(wú)限寬度限制下是精確的,但Lee 等[33]通過實(shí)驗(yàn)發(fā)現(xiàn),即使對(duì)于有限寬度的實(shí)際網(wǎng)絡(luò),原始網(wǎng)絡(luò)的預(yù)測(cè)與線性化版本的預(yù)測(cè)之間也具有很好的一致性。除了在全連接網(wǎng)絡(luò)上,NTK 還被應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)[34]、殘差網(wǎng)絡(luò)[35]和圖神經(jīng)網(wǎng)絡(luò)[36]等多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。此外,Li 等[37]從經(jīng)驗(yàn)上表明,使用NTK 進(jìn)行分類可以獲得具有相應(yīng)結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò)的性能。最近的工作還比較了NTK 與普通核函數(shù)的性能,Arora等[38]通過實(shí)驗(yàn)表明NTK優(yōu)于高斯核和低次多項(xiàng)式核。
下面將簡(jiǎn)要介紹NTK、主特征值比例和核對(duì)齊等概念,然后對(duì)本文提出的基于NTK 的多核學(xué)習(xí)方法(Neural Tangent Kernel-Multi-Kernel Learning,NTK-MKL)進(jìn)行闡述。
令k:X×X→R 表示d維輸入空間X∈Rd中的核函數(shù),它對(duì)應(yīng)于再生核希爾伯特空間H中輸入向量的點(diǎn)積。也就是,存在映射函數(shù)φ將輸入數(shù)據(jù)從輸入空間X映射到核空間H中,使得k(xi,xj)=φ(xi)?φ(xj),其中xi,xj∈X。
泛化誤差(風(fēng)險(xiǎn))R(f)是度量算法性能的常用評(píng)價(jià)準(zhǔn)則:
其中?(f(x),y):Y×Y→[0,B]為損失函數(shù),B為常數(shù)。在本文中,對(duì)于分類? 是鉸鏈損失:?(t,y)=max(0,1-yt)。由于概率分布P是未知的,那么R(f)就不能被明確地計(jì)算出來(lái),因此使用它的經(jīng)驗(yàn)分布:
支持向量機(jī)(SVM)是一種比較常用的核方法。假設(shè)在二分類問題中,SVM 的目的是在特征空間中找到一個(gè)能以最小錯(cuò)誤率將數(shù)據(jù)分開的分類超平面vTφ(x) +b=0,其中v是超平面的法向量,b為偏置。超平面的獲得可通過求解以下優(yōu)化問題解決:
其中:ξ=(ξ1,ξ2,…,ξn)T是松弛變量的向量形式;C是權(quán)衡訓(xùn)練誤差和泛化之間的正則化參數(shù)。假設(shè)αi是式(3)中第i個(gè)不等式對(duì)應(yīng)的拉格朗日乘子,那么式(3)的對(duì)偶問題可以寫成:
對(duì)式(4)進(jìn)行求解后,SVM的決策函數(shù)可以寫成:
其中樣本xi是具有拉格朗日乘子ai>0的支持向量。
與用一個(gè)固定的核進(jìn)行學(xué)習(xí)不同的是,多核學(xué)習(xí)通常組合不同的基核函數(shù)來(lái)獲得更好的映射性能,其采用φ(?)=的形式進(jìn)行映射,且這些基核可以由不同類型的核函數(shù)或具有不同核參數(shù)的核構(gòu)建。本文采用線性組合合成方法對(duì)多個(gè)基核函數(shù)進(jìn)行凸組合,則最終的組合核函數(shù)Kd可表示為:
首先定義一個(gè)含L個(gè)隱層的全連接神經(jīng)網(wǎng)絡(luò),其中第0層為輸入層,第L層為輸出層。讓x∈Rd表示為輸入數(shù)據(jù),則,那么L隱層的全連接神經(jīng)網(wǎng)絡(luò)可以被遞歸定義為:
其中:h=1,2,…,L;表示為第h層的權(quán)重矩陣,dh為隱層的寬度;σ:R →R 是激活函數(shù);cσ是縮放因子。本文中,對(duì)于全連接神經(jīng)網(wǎng)絡(luò),將σ設(shè)置為ReLU激活函數(shù),對(duì)于NTK 考慮其為具有ReLU 激活函數(shù)的全連接神經(jīng)網(wǎng)絡(luò)所誘導(dǎo)出的核函數(shù)。神經(jīng)網(wǎng)絡(luò)的最后一層被表示為:
給定n個(gè)數(shù)據(jù)點(diǎn),y′=,則神經(jīng)網(wǎng)絡(luò)的輸出函數(shù)可以表示為:
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,使用無(wú)窮小學(xué)習(xí)速率的梯度下降最小化目標(biāo)的平方損失來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù)w。對(duì)于時(shí)間t≥0 時(shí),可以將網(wǎng)絡(luò)參數(shù)w視為在優(yōu)化過程中出現(xiàn)的隨時(shí)間變化的連續(xù)變量wt。
當(dāng)隱層寬度趨于無(wú)限寬限制時(shí),即d1,d2,…,dL→∞,文獻(xiàn)[32]證明了wt在優(yōu)化過程中保持恒定等于w0,即NTK 核在無(wú)限寬限制下不隨時(shí)間變化。此外,該文獻(xiàn)中還證明了在一定的隨機(jī)初始化和無(wú)限寬限制下,NTK 核概率收斂到一個(gè)確定的極限核,這意味著在某些初始化下對(duì)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)與使用NTK 核進(jìn)行的核回歸之間是等價(jià)的。NTK 核的極限梯度核形式可以寫為:
由式(11)可知NTK 核相當(dāng)于一個(gè)具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),相對(duì)于一般多核學(xué)習(xí)方法使用淺層結(jié)構(gòu)的基核函數(shù),NTK 對(duì)于復(fù)雜數(shù)據(jù)有著更好的表示能力,且最近的實(shí)驗(yàn)工作表明,使用NTK 核的核方法的性能與具有相似網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)性能相似,某些情況下甚至更好,所以本文采用NTK核作為多核學(xué)習(xí)方法的基核函數(shù)。
核對(duì)齊是由Cristianini等[39]引入的一種核度量標(biāo)準(zhǔn),它定義了理想核函數(shù),主要度量目標(biāo)核函數(shù)與理想核函數(shù)之間的相似性,兩者的對(duì)齊值越大,分類器在特征空間中泛化能力越強(qiáng)。
定義1核對(duì)齊。設(shè)K1和K2是兩個(gè)來(lái)自數(shù)據(jù)集S={(x1,y1),(x2,y2),…,(xm,ym)}上的核k1和k2所導(dǎo)出的核矩陣,那么這兩個(gè)核之間的核對(duì)齊定義為:
當(dāng)K2為從標(biāo)簽y(x)中導(dǎo)出時(shí),式(12)轉(zhuǎn)換為:
其中:K為核函數(shù)k對(duì)應(yīng)的Gram 矩陣;y=(y1,y2,…,ym)T,yyT為理想核矩陣。
從式(13)可知,其值越大,目標(biāo)核矩陣與理想核矩陣之間的距離越小,目標(biāo)核函數(shù)對(duì)樣本數(shù)據(jù)的特征選擇和表示能力就越好,可以很好地度量核函數(shù)k的性能,所以本文采用核對(duì)齊方法對(duì)基核函數(shù)進(jìn)行度量,計(jì)算對(duì)應(yīng)基核函數(shù)的權(quán)重參數(shù)。
定義2主特征值比例。設(shè)K是一個(gè)核函數(shù),K=是它的核矩陣。那么K的主特征值比例被定義為:
其中:t∈{1,2,…,n-1};λi(K)是矩陣K降序排列的第i個(gè)特征值;tr(K)是矩陣K的跡。
定理1假設(shè)?是一個(gè)L-Lipschitz損失函數(shù),?K∈КNTK有:
其中:ΦK(x)是關(guān)于NTK 核的特征映射函數(shù),КNTK是一組有限的NTK 核函數(shù),概率為1-δ,那么當(dāng)?k≥1 且時(shí),下面的不等式成立,
其中:c3=40Δ2L2k,c4=。
證明 該定理是基于前期工作導(dǎo)出的,首先基于局部拉德馬赫復(fù)雜度證明了NTK 核再生希爾伯特空間關(guān)于主特征值的界。然后根據(jù)文獻(xiàn)[40]定理4.1的不等式
導(dǎo)出了關(guān)于泛化誤差R(f)和經(jīng)驗(yàn)誤差的不等式。上式中f為一類范圍在[-1,1]中的函數(shù),B為常數(shù)為子根函數(shù)(sub-root function)的定點(diǎn)。最后,估計(jì)了,并給出了的范圍,完成了定理的證明。具體的證明過程可以參考文獻(xiàn)[29]的定理2。與之不同的是,本文把以前的傳統(tǒng)核換成了NTK核,當(dāng)令k=log(n)時(shí),的收斂速率為:
當(dāng)n較大時(shí),可以知道,所以R(f) -??梢钥吹剑瑢?duì)于任意的t,的值越大,其泛化界就越緊,導(dǎo)出的界也就越好。
其中:λ為正則化參數(shù),分別表示為第i個(gè)基核函數(shù)的主特征值比例和核對(duì)齊值。將上式進(jìn)行歸一化得到:
式(16)即為最終的基核函數(shù)的權(quán)重系數(shù)。那么式(6)可以改寫為:
參考式(7),最終基于SVM 的多核學(xué)習(xí)方法求解優(yōu)化問題后,得到的決策函數(shù)可表示為:
綜上所述,本文基于NTK 核提出了一種名為NTK-MKL的多核學(xué)習(xí)算法,將傳統(tǒng)的單層次的基核函數(shù)改為具有深層結(jié)構(gòu)的NTK 核,將核對(duì)齊方法和主特征值比例結(jié)合來(lái)求取基核函數(shù)的權(quán)重參數(shù),最后以線性加權(quán)組合的方式來(lái)構(gòu)造多核函數(shù)進(jìn)行問題的求解,算法的具體流程如算法1所示。
算法1 NTK-MKL。
3)基于步驟1)、2)根據(jù)式(16)求得基核函數(shù)權(quán)重參數(shù)αi;
4)將αi根據(jù)式(16)進(jìn)行歸一化得到最終的權(quán)重參數(shù);
6)將Kd代入多核SVM 中求解優(yōu)化問題,求出決策函數(shù)f(x)。
假設(shè)數(shù)據(jù)集的規(guī)模為n,基核函數(shù)個(gè)數(shù)為m,特征值個(gè)數(shù)為t,輸入數(shù)據(jù)的維度為d,則計(jì)算基核函數(shù)的主特征值比例的時(shí)間復(fù)雜度為O(tn2),計(jì)算基核函數(shù)的相似性度量的時(shí)間復(fù)雜度為O(n2),計(jì)算具有L個(gè)隱層全連接神經(jīng)網(wǎng)絡(luò)的NTK 的時(shí)間復(fù)雜度為O(n2(d+L)),應(yīng)用梯度下降法求解優(yōu)化問題的時(shí)間復(fù)雜度為O(n2)。由此可知,本文提出的NTK-MKL 算法的時(shí)間復(fù)雜度為O(tmn2)+O(mn2)+O(n2)+O(mn2(d+L))。
本文采用6 個(gè)UCI 數(shù)據(jù)集來(lái)驗(yàn)證所提算法的性能,其中包括汽車評(píng)估數(shù)據(jù)集(car)、避孕方法選擇數(shù)據(jù)集(cmc)、紅酒質(zhì)量數(shù)據(jù)集(red-wine)、苗圃數(shù)據(jù)集(nursery)、網(wǎng)上購(gòu)物者購(gòu)買意圖數(shù)據(jù)集(shoppers)和阿維拉(avila)數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 UCI數(shù)據(jù)集信息Tab.1 UCI dataset information
雖然UCI 數(shù)據(jù)集是標(biāo)準(zhǔn)數(shù)據(jù)集,但其官網(wǎng)提供的原始數(shù)據(jù)中還是會(huì)出現(xiàn)一些格式的問題,不能直接用于程序的計(jì)算,需要對(duì)其進(jìn)行相應(yīng)的處理。如avila 數(shù)據(jù)集標(biāo)簽屬性的值為A-I和W-Y 共計(jì)12類,為方便進(jìn)行分類任務(wù),需將連續(xù)數(shù)值離散化,本文根據(jù)不同類別所占的數(shù)據(jù)規(guī)模,將數(shù)據(jù)分為三類,其中A 和B-F各為一類,G-I與W-Y 合成為一類,分別用0、1、2表示。還有一些數(shù)據(jù)集中存在一些字符型離散型數(shù)據(jù),需要將其根據(jù)某種規(guī)則轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。如car 數(shù)據(jù)集中的low、med、high和vhigh等屬性值,本文在[-1,1]區(qū)間內(nèi)平均取n個(gè)實(shí)數(shù)進(jìn)行替換,n為字符型屬性個(gè)數(shù),那么low、med、high和vhigh根據(jù)規(guī)則被轉(zhuǎn)換為-1、-0.5、0.5和1。
本節(jié)將通過2 類實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的多核學(xué)習(xí)方法的有效性和可行性。實(shí)驗(yàn)1 為NTK 與傳統(tǒng)的核函數(shù)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)2 為在本文提出的多核學(xué)習(xí)方法上分別使用傳統(tǒng)核和NTK 與其他分類算法的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)采用準(zhǔn)確率(accuracy)、召回率(recall)和精確率(precision)三個(gè)指標(biāo)來(lái)對(duì)多核學(xué)習(xí)算法的性能進(jìn)行評(píng)價(jià),其中召回率和精確率為宏召回率和宏精確率。所有實(shí)驗(yàn)均隨機(jī)選取70%數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),30%作為測(cè)試數(shù)據(jù)。
3.2.1 單核對(duì)比實(shí)驗(yàn)及結(jié)果
首先利用Google 開發(fā)的NEURAL TANGENTS 軟件包來(lái)隨機(jī)初始化3 個(gè)NTK 函數(shù),分別用ntk1、ntk2和ntk3表示,隨機(jī)數(shù)的范圍為{0,1,2}。每個(gè)ntk的網(wǎng)絡(luò)結(jié)構(gòu)均為3層,第0層為輸入層,第3 層為輸出層,激活函數(shù)為ReLU,第一層的神經(jīng)元數(shù)均為2 048;第二層的神經(jīng)元數(shù)均為2。然后將3 個(gè)NTK 函數(shù)與高斯核函數(shù)和多項(xiàng)式核函數(shù)應(yīng)用到支持向量模型,在car數(shù)據(jù)集和shoppers 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),其中高斯核函數(shù)的參數(shù)為0.1,多項(xiàng)式核函數(shù)的參數(shù)為3,car 數(shù)據(jù)集和shoppers 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2。由表2 可以看出,NTK 的準(zhǔn)確率在兩個(gè)數(shù)據(jù)集上均高于傳統(tǒng)的核函數(shù),說明NTK 相較于傳統(tǒng)的核函數(shù)有著更好的效果。除此之外,在表2 中傳統(tǒng)核雖然有著不錯(cuò)的準(zhǔn)確率,但精確率和召回率相對(duì)較低,也就是說傳統(tǒng)核在進(jìn)行多分類時(shí)對(duì)數(shù)據(jù)規(guī)模較大的類別識(shí)別效果較好,但對(duì)于規(guī)模較小的類識(shí)別效果較差。由此,也可看出NTK 相較于傳統(tǒng)的核函數(shù),在數(shù)據(jù)集較大且數(shù)據(jù)分布不均衡時(shí)有著更好的表示能力。
表2 car數(shù)據(jù)集和shoppers數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Experimental results on car dataset and shoppers dataset unit:%
3.2.2 分類算法對(duì)比實(shí)驗(yàn)及結(jié)果
首先采用與上一節(jié)相同的方法來(lái)完成NTK 的初始化,然后對(duì)傳統(tǒng)核和NTK 采用2.6 節(jié)所描述的算法,在cmc、redwine、nursery、shoppers 和avila 數(shù)據(jù)集上與Adaboost 算法和K近鄰(K-Nearest Neighbor,KNN)算法進(jìn)行對(duì)比。其中Adaboost 算法的最大迭代次數(shù)(n_estimators)設(shè)置為50,學(xué)習(xí)率(learning_rate)設(shè)置為1;KNN 算法的k值設(shè)置為5,近鄰樣本的權(quán)重(weights)設(shè)置為uniform。分類算法在數(shù)據(jù)集上的準(zhǔn)確率結(jié)果如表3 所示,其中:MKL(r+p)表示使用高斯核和多項(xiàng)式核采用本文所提算法進(jìn)行組合計(jì)算,NTK-MKL 表示使用ntk2和ntk3使用本文算法組合計(jì)算。由表3 可以看出,MKL(r+p)和NTK-MKL 的效果在所有數(shù)據(jù)集上都比Adaboost和KNN 算法要好,說明本文的NTK-MKL 算法是有效且可行的。除此之外,在nursery、shoppers 和avila 等規(guī)模較大的數(shù)據(jù)集上NTK-MKL 效果要好于MKL(r+p),說明NTK 核相較于傳統(tǒng)的核函數(shù)在處理較大規(guī)模的數(shù)據(jù)時(shí)具有更好的表示能力。
表3 分類算法對(duì)比實(shí)驗(yàn)結(jié)果 單位:%Tab.3 Experimental results comparison of classification algorithms unit:%
本文基于主特征值比例和目標(biāo)核對(duì)齊度量,提出了一種新的多核學(xué)習(xí)算法NTK-MKL。該算法首先使用NTK 作為多核學(xué)習(xí)的基核函數(shù),然后將主特征值比例和核對(duì)齊相結(jié)合作為基核函數(shù)的度量準(zhǔn)則,求出每個(gè)基核函數(shù)的權(quán)值比例,根據(jù)權(quán)值比例將基核函數(shù)進(jìn)行線性加權(quán)組合,基于SVM 形成多核學(xué)習(xí)分類器,完成分類任務(wù)。相較于傳統(tǒng)的多核學(xué)習(xí)方法,NTK-MKL 擁有更好的表示能力和更快收斂速率的泛化誤差界。實(shí)驗(yàn)結(jié)果表明,本文提出的多核學(xué)習(xí)方法在多個(gè)數(shù)據(jù)集上的學(xué)習(xí)結(jié)果較佳。由于NTK 核具有多層結(jié)構(gòu),在對(duì)其進(jìn)行計(jì)算時(shí)需要消耗較多的時(shí)間,如何減少計(jì)算時(shí)間將是下一步需要解決的問題。