李亞擎
摘要:
本文提出一種基于支持向量機(jī)(Support Vector Machine,SVM)算法的擾動(dòng)判別和擾動(dòng)模式識(shí)別的方法,算法首先通過(guò)穩(wěn)定性競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(SCARS)提取信號(hào)時(shí)域和頻域特征,其次基于時(shí)域和頻域特征建立了SVM算法分類器,最后通過(guò)分類器進(jìn)行擾動(dòng)模式識(shí)別研究。
關(guān)鍵詞:SVM;φ-OTDR;分類器;模式識(shí)別;SCARS
一、SCARS的特征選擇原理
穩(wěn)定性競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣[15](SCARS)算法的度量標(biāo)準(zhǔn)是算法的穩(wěn)定性,當(dāng)算法越穩(wěn)定時(shí),變量被選擇的概率越大。全部計(jì)算過(guò)程里包含N個(gè)循環(huán)數(shù)據(jù),首先,需要計(jì)算出所有特征的穩(wěn)定性,然后通過(guò)強(qiáng)制變量的篩選和自適應(yīng)重加權(quán)采樣法[16](adapting reweighted sampling, ARS)計(jì)算出穩(wěn)定性較大的變量,把這些變量放入一個(gè)集合中。循環(huán)結(jié)束后,可以得到N個(gè)穩(wěn)定性較大的變量集合,其次,對(duì)每個(gè)集合進(jìn)行PLS建模,最后,根據(jù)模型中RMSECV值最小原則選擇出最合適的集合。變量穩(wěn)定性的評(píng)價(jià)規(guī)則如下:
矩陣 為所測(cè)樣本的特征矩陣,n為樣本數(shù),p為變量數(shù),表示目標(biāo)性質(zhì)變量,建立PLS回歸模型時(shí),X與y的關(guān)系可以表示為
?其中 和 ?分別表示M次采樣后第j個(gè)變量自回歸系數(shù)的平均值和標(biāo)準(zhǔn)偏差,從式(6)可以看出, ?值越大, ?值越小,該變量的穩(wěn)定值越大,重要性越強(qiáng)。
同上所述,整個(gè)循環(huán)結(jié)束后將獲得N個(gè)變量子集,對(duì)每個(gè)變量子集進(jìn)行PLS建模,然后根據(jù)模型RMSECV值最小原則選擇最優(yōu)的變量子集。SCARS具體算法步驟如下:
Step1:當(dāng)循環(huán)次數(shù) 時(shí),計(jì)算原始變量集V中各變量的穩(wěn)定性值;
Step2:通過(guò)衰減指數(shù)函數(shù)將較為穩(wěn)定的變量保存,變量的保留率 ?其中 , ,p為原始變量數(shù);
Step3:通過(guò)ARS采樣技術(shù)從Step2將穩(wěn)定值較大的變量保存,把所篩選的變量作為第i次變量子集 ;循環(huán)次數(shù) ;
Step4:第i次循環(huán) 時(shí),計(jì)算變量子集 中各變量的穩(wěn)定性值,依次執(zhí)行Step2,Step3;
Step5:若 ,執(zhí)行Step4;若 ,執(zhí)行Step6;
Step6:將以上步驟進(jìn)行N次循環(huán),共獲得N個(gè)穩(wěn)定性強(qiáng)的變量集合 ,建立每個(gè)變量的PLS模型,計(jì)算它們的RMSECV值;
Step7:根據(jù)計(jì)算的RMSECV值,選擇其中最小的值,將此值對(duì)應(yīng)的集合視作最優(yōu)集合。
二、特征選擇結(jié)果
隨著采樣運(yùn)行次數(shù)的增加,特征的數(shù)量迅速下降,然后緩慢下降??梢哉J(rèn)為首先進(jìn)行了初步選擇,然后進(jìn)行了精細(xì)選擇。在1-34次的采樣運(yùn)行中,(五倍交叉驗(yàn)證的最小均方誤差)RMSECV逐漸減小,這意味著冗余特征不斷被刪除。在進(jìn)行了34次采樣后,RMSECV逐漸增加,這意味影響分類性能的關(guān)鍵特征被刪除了。在回歸系數(shù)路徑的變化中,每條線代表一個(gè)變量,當(dāng)線條觸及y=0時(shí)將其消除,說(shuō)明關(guān)鍵特征被掩蓋。綜合來(lái)看,當(dāng)進(jìn)行第34次的特征篩選時(shí),RMSECV達(dá)到最小值,共選擇了172個(gè)關(guān)鍵特征,特征變量個(gè)數(shù)由1600個(gè)減小到172個(gè),刪除了絕大部分的冗余特征。
三、SVM分類原理
支持向量機(jī)根據(jù)數(shù)據(jù)的特征值,找到其最優(yōu)超平面將其分為兩種類型。對(duì)于在低維空間無(wú)法線性可分的數(shù)據(jù)集,SVM利用核函數(shù)將它們變換到高維度的空間,這樣在低緯度線性不可分的數(shù)據(jù)集在高維度就線性可分了。本文選擇徑向核函數(shù)作為SVM的分類核函數(shù)。
利用網(wǎng)格搜索法計(jì)算這兩個(gè)參數(shù),這可以提高分類器的分類性能。為了提高計(jì)算效率,使用GPU進(jìn)行網(wǎng)格搜索。同時(shí),為了避免欠擬合于過(guò)擬合現(xiàn)象的發(fā)生,將交叉驗(yàn)證法與正則表達(dá)式引入公式中。當(dāng)交叉驗(yàn)證法的值最高時(shí),認(rèn)為此時(shí)c和g的取值是最佳的[17]。
四、 SVM分類結(jié)果
在SVM分類之前需要?jiǎng)澐钟?xùn)練集和預(yù)測(cè)集,訓(xùn)練集用來(lái)建立SVM模型。同時(shí),使用預(yù)測(cè)集驗(yàn)證分類效果。本文共包含4個(gè)類別,它們的樣本數(shù)量分別為:1510個(gè)、103個(gè)、366個(gè)與306個(gè),共2285個(gè)樣本。在每個(gè)類別中隨機(jī)選擇80%的樣本作為訓(xùn)練集,剩余的20%作為預(yù)測(cè)集。這樣訓(xùn)練集共包含1828個(gè)樣本,測(cè)試集共包含457個(gè)樣本。不同的參數(shù)組合對(duì)SVM的分類影響很大。因此,需要使用參數(shù)優(yōu)化方法對(duì)SVM分類效果進(jìn)行優(yōu)化[18]。
在網(wǎng)格搜索中,步長(zhǎng)為0.1,c和g的范圍均是(2-10, 210)??梢钥闯霎?dāng)最高交叉驗(yàn)證準(zhǔn)確率達(dá)到88.2385%時(shí),獲得最佳參數(shù)c為36.7583,最佳參數(shù)g為0.047366。通過(guò)基于最佳參數(shù)建立的SVM模型的預(yù)測(cè)集分類結(jié)果得出,最終統(tǒng)計(jì)獲得了85.3392%的分類準(zhǔn)確率。