張文杰 韓紀(jì)慶
摘要:偏最小二乘法是解決自變量和因變量關(guān)系的一種常用的特征提取方法。同時(shí)可以用來(lái)對(duì)因變量進(jìn)行回歸,或者引入類別標(biāo)識(shí)信息提取更有區(qū)分性的特征。在引人類別標(biāo)識(shí)信息提取特征的過(guò)程中,偏最小二乘方法可以通過(guò)常用的兩種方法進(jìn)行求解,一種是非線性迭代的偏最小二乘法,另一種是基于奇異值分解的偏最小二乘法。本文通過(guò)分析兩種方法在求解過(guò)程上的差異,以及在心音分類上的性能,對(duì)兩種偏最小二乘方法進(jìn)行了比較。
關(guān)鍵詞:偏最小二乘法:特征提取:心音分類
0引言
偏最小二乘法是解決自變量和因變量關(guān)系的一種常用的特征提取方法。同時(shí)考慮因變量和自變量,使得二者之間的相關(guān)性最大,從而使得提取的特征同時(shí)包含二者的信息。在特征提取方法中,尤其是在小樣本的特征提取方法中,偏最小二乘法通常是有效而穩(wěn)定的,且被廣泛使用。
除了解決因變量和自變量之間的關(guān)系,當(dāng)自變量是類別標(biāo)識(shí)信息時(shí),偏最小二乘法還可以引入類別標(biāo)識(shí)信息提取更有區(qū)分性的特征。在這個(gè)過(guò)程中,偏最小二乘法將類別標(biāo)識(shí)信息融入到提取的特征里,使得到的特征含有類別標(biāo)識(shí)信息,從而更加具有區(qū)分性。
使用偏最小二乘法引入類別標(biāo)識(shí)信息,提取更有區(qū)分性的特征,根據(jù)具體的求解算法,可以將偏最小二乘法分為兩類。一類是非線性迭代偏最小二乘法(Nonlinear iterative partial least squares.NIPLS),其在每次迭代的時(shí)候,根據(jù)最大化特征和類別標(biāo)識(shí)信息得到的權(quán)值向量,求得得分向量,根據(jù)得分向量分別對(duì)原始特征和類別標(biāo)識(shí)信息進(jìn)行表示,得到殘差矩陣,最終求得每次迭代得到的權(quán)值向量,構(gòu)成權(quán)值矩陣。另一類是基于奇異值分解的偏最小二乘法(Partial least squares based 0n singularvalue decomposition.PLS-SVD),其目標(biāo)函數(shù)仍然是最大化特征和類別標(biāo)識(shí)信息得到的權(quán)值向量,所不同的是,根據(jù)目標(biāo)函數(shù)PLS-SVD方法進(jìn)行SVD分解,得到的原始特征對(duì)應(yīng)的奇異矩陣的前n個(gè)向量構(gòu)成方法PLS-SVD的權(quán)值矩陣,無(wú)須進(jìn)行迭代。由于特殊的求解過(guò)程PLS-SVD方法無(wú)法實(shí)現(xiàn)自變量對(duì)因變量的回歸,也即是原始特征對(duì)類別標(biāo)識(shí)的回歸。但這里主要用偏最小二乘法進(jìn)行特征提取,而無(wú)須進(jìn)行回歸。因此PLS-SVD方法在提取特征的時(shí)候是可以使用的。
NIPLS方法在心音識(shí)別中取得了一定的效果,而PLS-SVD方法在心音識(shí)別上的效果還沒有被充分挖掘。本文在基于規(guī)整頻譜的基礎(chǔ)上,對(duì)NIPLS和PLS-SVD方法,分別在PASCAL心音挑戰(zhàn)賽,上的數(shù)據(jù)集Dataset-A和Dataset-B進(jìn)行了實(shí)驗(yàn),并分析了二者的實(shí)驗(yàn)結(jié)果。
1NIPLS方法概述
對(duì)于心音識(shí)別,假設(shè)心音樣本的特征用x來(lái)表示,對(duì)應(yīng)的類別標(biāo)識(shí)信息用Y來(lái)表示,則NIPLS方法主要是基于迭代的過(guò)程求解使得原始特征X和類別標(biāo)識(shí)信息Y最相關(guān)的權(quán)值向量,
迭代以上6個(gè)步驟直到收斂,既可以得到第一次迭代的權(quán)值向量w.根據(jù)權(quán)值向量w.得到得分向量t=Xw.再根據(jù)得分向量分別對(duì)原始特征x和類別標(biāo)識(shí)信息Y進(jìn)行降解,
2PLS-SVD方法概述
PLS-SVD方法與NIPLS方法的目標(biāo)一致,同樣是求解使得原始特征X和類別標(biāo)識(shí)信息Y最相關(guān)的權(quán)值向量,也即是:
所不同的是,PLS-SVD方法沒有進(jìn)行迭代,所有的權(quán)值向量都是通過(guò)對(duì)XTY進(jìn)行SVD分解得到的,其中對(duì)應(yīng)的左奇異矩陣的前n個(gè)向量構(gòu)成方法PLS-SVD的權(quán)值矩陣,
事實(shí)上,PLS-SVD方法,也可以看成一種迭代的求解過(guò)程,只不過(guò)與NIPLS的降解方法不一樣。首先按照NIPLS方法可以求得權(quán)值向量,W和c.根據(jù)w和C分別對(duì)原始特征X和類別標(biāo)識(shí)信息Y進(jìn)行降解,
根據(jù)求得的X(2)和Y(2),可以進(jìn)行下一輪的迭代,直到迭代合適的次數(shù)。按照這種迭代求得的權(quán)值矩陣和直接對(duì)XTY進(jìn)行SVD分解得到的權(quán)值矩陣是等價(jià)的。
上述過(guò)程即為PLS-SVD的求解方法,以及對(duì)于測(cè)試樣本的求解。
3實(shí)驗(yàn)結(jié)果
在介紹了NIPLS和PLS-SVD方法之后,根據(jù)具體的求解過(guò)程分別對(duì)NIPLS方法和PLS-SVD方法求取特征的性能進(jìn)行比較。主要使用PASCAL心音挑戰(zhàn)賽的數(shù)據(jù)集Dataset-A和Dataset-B進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)過(guò)程中,使用論文中的評(píng)估方法進(jìn)行評(píng)估。同時(shí)使用支持向量機(jī)(Support vectormachine.SVM)進(jìn)行分類,SVM分類器使用徑向基核函數(shù),其中核參數(shù)的取值集合為:[1.0.1.0.01.0.001.0.0001];SVM分類器的懲罰因子的取值集合為:[1.10.100.1000]。使用網(wǎng)格搜索法確定最終選擇的參數(shù)。
3.1數(shù)據(jù)集Dataset-A的實(shí)驗(yàn)結(jié)果
方法NIPLS和PLS-SVD在數(shù)據(jù)集Dataset-A上的實(shí)驗(yàn)結(jié)果見表1。其中方法NIPLS使用的分類器的參數(shù)為徑向基核函數(shù)的參數(shù)為0.01.使用的懲罰因子為100。方法PLS-SVD方法使用的徑向基核函數(shù)的參數(shù)為0.001.使用的懲罰因子同樣是100。
由實(shí)驗(yàn)結(jié)果可以看出:方法NIPLS和PLS-SVD相比較,Extra Heart Sound類別和Artifact類別的準(zhǔn)確率有所下降,但是總體準(zhǔn)確率和歸一化準(zhǔn)確率有所提升。綜合兩種方法的所有差別,NIPLS的性能更好一些,
3.2數(shù)據(jù)集Dataset-B的實(shí)驗(yàn)結(jié)果
方法NIPLS和PLS-SVD在數(shù)據(jù)集Dataset-B上的實(shí)驗(yàn)結(jié)果見表2。其中方法NIPLS使用的分類器為徑向基核函數(shù),參數(shù)值為0.01.懲罰因子為1。方法PLS-SVD使用的徑向基核函數(shù)的參數(shù)為0.001.懲罰因子為100。
從實(shí)驗(yàn)結(jié)果可以看出:方法NIPLS和PLS-SVD相比較,Normal類別的準(zhǔn)確率有所下降,但是總體準(zhǔn)確率和歸一化準(zhǔn)確率有所提升。綜合來(lái)看,NIPLS的性能更好一些。
4結(jié)束語(yǔ)
本文介紹了兩種偏最小二乘方法一NIPLS和PLS-SVD。并分別介紹了其求解過(guò)程,比較了求解過(guò)程中的異同點(diǎn)。并對(duì)二種方法各自在心音數(shù)據(jù)上的性能表現(xiàn)進(jìn)行了實(shí)驗(yàn)。由實(shí)驗(yàn)結(jié)論分析,NIPLS方法相比PLS-SVD方法的性能有所提升。