国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息熵度量的局部線性嵌入算法

2022-01-21 13:06宮子棟
關(guān)鍵詞:鄰域降維信息熵

劉 均, 宮子棟, 吳 力

(1. 東北石油大學(xué) 電氣信息工程學(xué)院, 黑龍江 大慶 163318; 2. 大慶油田有限責(zé)任公司 天然氣分公司培訓(xùn)中心, 黑龍江 大慶 163453)

在現(xiàn)代工業(yè)環(huán)境中, 隨著數(shù)據(jù)采集設(shè)備不斷地進(jìn)行更新迭代, 采集的數(shù)據(jù)通常具有高維特征, 致使機(jī)器學(xué)習(xí)算法出現(xiàn)兩個(gè)問(wèn)題: 1) 隨著維數(shù)的增加, 計(jì)算量會(huì)呈指數(shù)倍增長(zhǎng), 降低了算法的計(jì)算效率[1]; 2) 維數(shù)災(zāi)難增加了評(píng)估數(shù)據(jù)間相似性的難度, 影響算法性能. 通過(guò)將數(shù)據(jù)采用維數(shù)約簡(jiǎn)算法進(jìn)行處理, 減少數(shù)據(jù)的維度冗余[2], 是解決上述問(wèn)題的有效方法, 已廣泛應(yīng)用于圖像識(shí)別[3]和高維數(shù)據(jù)可視化[4]等領(lǐng)域.

維數(shù)約簡(jiǎn)方法一般可分為線性降維算法[5-6]與非線性降維算法[7]. 線性降維算法基于線性映射進(jìn)行降維, 僅可處理線性數(shù)據(jù)集. 例如, 目前廣泛使用的主成分分析(PCA)方法[8], 目的是找到最優(yōu)投影方向, 使數(shù)據(jù)在投影方向上的方差最大且相互正交. 非線性降維算法通過(guò)非線性映射或局部線性變換處理復(fù)雜流形, 常見(jiàn)的算法有核化線性降維(KPCA)[9]、 等距特征映射(Isomap)[10]和局部線性嵌入(local linear embedding, LLE)[11-12]等, 其中LLE算法利用局部線性重構(gòu)權(quán)重系數(shù)表示局部結(jié)構(gòu), 能保留數(shù)據(jù)的本質(zhì)特征, 且算法參數(shù)選擇較少, 計(jì)算復(fù)雜度相對(duì)較小、 易實(shí)現(xiàn), 因此被廣泛應(yīng)用[13-16].

在LLE算法中, 構(gòu)建最優(yōu)鄰域進(jìn)行低維重構(gòu)是保持?jǐn)?shù)據(jù)拓?fù)浣Y(jié)構(gòu)不變的關(guān)鍵, 而鄰域的結(jié)構(gòu)挖掘取決于空間距離度量方法[17]. Daza-Santacoloma等[18]提出了一種相關(guān)誘導(dǎo)度量, 使用類標(biāo)簽作為額外信息估計(jì)近鄰點(diǎn), 以減輕距離差異給近鄰點(diǎn)選擇帶來(lái)的影響; Liu等[19]提出了一種快速識(shí)別k近鄰的方法, 通過(guò)求取相對(duì)方差和均值差形成表征相鄰點(diǎn)數(shù)據(jù)分布的空間相關(guān)指數(shù), 得到最佳k值選擇鄰域; 文獻(xiàn)[20]提出了一種cam加權(quán)距離, 具有方向和尺度自適應(yīng)性, 能充分利用原型間關(guān)系的相關(guān)信息. 上述算法在對(duì)空間度量方式的改進(jìn)方面都取得了顯著成效, 但目前在實(shí)際工程應(yīng)用中, 由于采集到的大多數(shù)是非對(duì)齊數(shù)據(jù), 當(dāng)采用歐氏距離[21]度量非對(duì)齊數(shù)據(jù)時(shí), 過(guò)于關(guān)注特征數(shù)據(jù)間的對(duì)應(yīng)關(guān)系, 故受數(shù)據(jù)位置差影響較大, 難以構(gòu)造最優(yōu)鄰域結(jié)構(gòu), 從而影響了算法的計(jì)算精度.

為解決上述問(wèn)題, 本文利用信息熵度量[22]統(tǒng)計(jì)每個(gè)樣本點(diǎn)的概率分布[23], 得到數(shù)據(jù)的混亂程度, 排列后進(jìn)行近鄰點(diǎn)選擇, 構(gòu)造最優(yōu)鄰域. 實(shí)驗(yàn)結(jié)果表明, 基于信息熵度量的局部線性嵌入(ILLE)降維效果更好, 分類更精確, 聚類效果更緊湊.

1 局部線性嵌入

局部線性嵌入是將高維數(shù)據(jù)通過(guò)局部的線性關(guān)系表示, 即將高維數(shù)據(jù)樣本點(diǎn)X映射到低維空間中進(jìn)行重構(gòu), 如圖1所示.實(shí)驗(yàn)結(jié)果表明, 局部線性嵌入在圖像或其他不封閉流形上降維效果均較好.

圖1 局部線性嵌入示意圖Fig.1 Schematic diagram of local linear embedding

首先需要確定近鄰點(diǎn)樣本個(gè)數(shù)以線性表示中心樣本點(diǎn), 假設(shè)該值為k, 通過(guò)歐氏距離度量選擇某個(gè)樣本的k個(gè)最近鄰.在尋找某個(gè)樣本xi的k個(gè)最近鄰后, 再求出xi與這k個(gè)最近鄰之間的線性關(guān)系, 即找到線性關(guān)系的權(quán)重系數(shù), 從而變?yōu)橐粋€(gè)回歸問(wèn)題.假設(shè)有m個(gè)n維樣本(x1,x2,…,xm)用均方差作為回歸問(wèn)題的損失函數(shù), 即

(1)

其中Q(i)表示i的k個(gè)最近鄰樣本集合.對(duì)權(quán)重系數(shù)wij做歸一化的限制, 即權(quán)重系數(shù)需滿足:

(2)

將式(2)代入式(1)中矩陣化為

(3)

其中zi=(xi-xj)T(xi-xj),wi=(wi1,wi2,…,wik)T.然后利用Lagrange乘子法, 對(duì)式(1)求解如下:

(4)

其中1k表示k維全1向量.利用wij重構(gòu)向量y, 使得最小化二次型J(y)為

(5)

引入約束條件:

令M=(I-w)T(I-w), 則式(5)可轉(zhuǎn)換為

J(Y)=tr(YMYT).

(6)

計(jì)算M的(m+1)個(gè)特征向量, 構(gòu)成LLE的新低維嵌入坐標(biāo).

2 信息熵度量

信息熵解決了信息的度量化問(wèn)題. 信息熵越大表明樣本數(shù)據(jù)分布越分散(分布均衡), 信息熵越小則表明樣本數(shù)據(jù)分布越集中(分布不均衡). 針對(duì)LLE在特征提取中使用歐氏距離選擇近鄰點(diǎn)時(shí)存在受非對(duì)齊樣本位置差影響過(guò)大的問(wèn)題, 本文提出一種基于信息熵度量的局部線性嵌入算法. 給定一個(gè)高維數(shù)據(jù)集X=(x1,x2,…,xN)∈D×N, 其中xi(i=1,2,…,N)表示任意樣本點(diǎn), 具有D個(gè)特征,xi=(xi1,xi2,…,xiD)∈D×1, 其中D表示特征數(shù)目.為選擇樣本xi的鄰域, 首先需求出xi中每個(gè)特征xij出現(xiàn)的概率P(xij)(j=1,2,…,D), 然后計(jì)算出特征集xi的信息熵值E(xi):

(7)

Ixij=log2Pxij,

(8)

由于信息用二進(jìn)位編碼, 故log對(duì)數(shù)函數(shù)底數(shù)取2. 根據(jù)式(7),(8)計(jì)算出的原始數(shù)據(jù)集X中所有的樣本點(diǎn)的信息熵值表征每個(gè)樣本點(diǎn)的特征混亂程度.將樣本xi的熵值與數(shù)據(jù)集X中其他樣本點(diǎn)的熵值做差, 表示為

θ=E(xi)-E(xl),l=1,2,…,N.

(9)

按式(9)計(jì)算結(jié)果, 選擇前k個(gè)最小差值對(duì)應(yīng)的樣本點(diǎn)構(gòu)造局部鄰域.根據(jù)xi的k個(gè)近鄰點(diǎn), 計(jì)算重構(gòu)權(quán)重系數(shù):

(10)

ILLE算法描述如下.

輸入: 高維樣本集X=(x1,x2,…,xN)∈D×N, 低維維數(shù)d, 近鄰點(diǎn)個(gè)數(shù)k;

輸出: 樣本集X對(duì)應(yīng)的低維嵌入結(jié)果Y;

步驟1) 利用式(7),(8)計(jì)算xi(i=1,2,…,N)的信息熵值;

步驟2) 根據(jù)式(9)計(jì)算熵差, 從小到大排列后選出前k個(gè)差值所對(duì)應(yīng)的樣本點(diǎn)構(gòu)造xi的鄰域;

步驟3) 根據(jù)式(10)計(jì)算樣本數(shù)據(jù)的局部重構(gòu)權(quán)重;

步驟4) 通過(guò)在低維空間中保持權(quán)重系數(shù)不變, 利用式(5)計(jì)算出原始數(shù)據(jù)集X對(duì)應(yīng)的低維嵌入結(jié)果Y.

ILLE算法參數(shù)選擇方法如下:d為低維維數(shù), 從低維到高維逐漸增加;k為近鄰點(diǎn)數(shù)目, 值越大計(jì)算量越大.ILLE算法流程如圖2所示.

圖2 ILLE算法流程Fig.2 Flow chart of ILLE algorithm

3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文方法的有效性, 在標(biāo)準(zhǔn)軸承故障數(shù)據(jù)集和從實(shí)際操作臺(tái)上采集的軸承數(shù)據(jù)集上進(jìn)行可視化結(jié)果分析、 量化聚類分析、 不同度量方法的對(duì)比實(shí)驗(yàn)及精度對(duì)比實(shí)驗(yàn), 并分析各項(xiàng)實(shí)驗(yàn)結(jié)果.

3.1 數(shù)據(jù)集

實(shí)驗(yàn)采用的數(shù)據(jù)集1為國(guó)美凱斯西儲(chǔ)大學(xué)(CWRU)軸承數(shù)據(jù)中心網(wǎng)站上的應(yīng)用于故障診斷基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)集, 該軸承數(shù)據(jù)集包括正常狀態(tài)、 滾珠狀態(tài)、 內(nèi)圈故障和外圈故障4種類型的數(shù)據(jù), 其中每種數(shù)據(jù)包含100個(gè)樣本. 故障軸承直徑為0.017 78 cm, 采樣頻率為12 kHz, 電機(jī)轉(zhuǎn)速為1 720 r/min, 截取1 024個(gè)特征作為樣本數(shù)據(jù), 即維數(shù)為1 024.

數(shù)據(jù)集2(DATA2)為東北石油大學(xué)智能儀器研發(fā)中心實(shí)驗(yàn)室自采數(shù)據(jù)集, 振動(dòng)信號(hào)由加速度計(jì)和模擬量采集模塊采集, 如圖3所示. 采樣頻率為1 kHz, 電機(jī)速度為1 400 r/min, 數(shù)據(jù)維數(shù)為1 024.

圖3 數(shù)據(jù)采集平臺(tái)Fig.3 Data acquisition platform

3.2 可視化結(jié)果

第一組實(shí)驗(yàn)將ILLE算法與局部切空間排列算法(LTSA)、 LLE算法和主成分分析算法(PCA)3種降維算法在CWRU數(shù)據(jù)集中進(jìn)行可視化比較, 實(shí)驗(yàn)結(jié)果如圖4所示, 其中紅點(diǎn)表示正常數(shù)據(jù), 綠點(diǎn)表示內(nèi)圈故障數(shù)據(jù), 藍(lán)點(diǎn)表示滾珠故障數(shù)據(jù), 黑點(diǎn)表示外圈故障數(shù)據(jù).

圖4 不同降維方法的可視化結(jié)果Fig.4 Visualization results of different dimensionality reduction methods

由圖4可見(jiàn), LLE和LTSA算法在特征選擇上有較大重疊, 而PCA算法雖然分類效果顯著, 但是類內(nèi)距離較大, 聚類效果較差. ILLE算法綜合結(jié)果優(yōu)于其他3種算法, 在聚類和分類效果上都有更好的表現(xiàn).

3.3 量化聚類評(píng)價(jià)

本文使用Fisher準(zhǔn)則[24]對(duì)所提方法進(jìn)行定量分析. Fisher判據(jù)是一種比較兩個(gè)變分級(jí)數(shù)方差的靜態(tài)方法, 其定義如下:

其中Sb和Sw分別表示類間和類內(nèi)的距離.F值越大, 對(duì)應(yīng)算法的性能越好.

本組實(shí)驗(yàn)選取LLE算法、 LE(Laplacian Eignmaps)算法、 線性判別分析(LDA)算法和PCA算法與ILLE算法作為對(duì)比算法, 分別在CWRU數(shù)據(jù)集和DATA2數(shù)據(jù)集上進(jìn)行性能比較, 實(shí)驗(yàn)結(jié)果列于表1, 其中F1表示通過(guò)CWRU數(shù)據(jù)集評(píng)測(cè)的結(jié)果,F2表示通過(guò)DATA2數(shù)據(jù)集測(cè)評(píng)的結(jié)果. 由表1可見(jiàn), ILLE算法的F1值在CWRU數(shù)據(jù)集上遠(yuǎn)大于其他4種對(duì)比算法, 具有良好的聚類效果. 在數(shù)據(jù)集DATA2中, PCA算法F2值大于LLE,LE和LDA算法, 但略低于ILLE算法. ILLE算法在兩個(gè)數(shù)據(jù)集上都具有良好的聚類效果, 證明了本文方法的有效性.

表1 定量聚類評(píng)價(jià)結(jié)果

3.4 不同度量方法對(duì)比實(shí)驗(yàn)

實(shí)驗(yàn)對(duì)比LLE算法在使用各距離度量方法上的差異, 并與信息熵度量進(jìn)行比較, 實(shí)驗(yàn)結(jié)果如圖5所示. 由圖5可見(jiàn): 在使用Manhattan距離和Chebyshev距離度量時(shí), 數(shù)據(jù)的聚類和分類效果均較差, 數(shù)據(jù)分散且混亂; 在采用歐氏距離時(shí), 雖然聚類性有所提高, 但分類情況也不是很好, 有較多的重疊情況; 而使用信息熵作為度量, 分類性和聚類性均優(yōu)于其他算法, 適合特征提取, 證明了本文算法的有效性.

圖5 不同度量方法的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Comparison of experimental results of different measurement methods

3.5 精度對(duì)比實(shí)驗(yàn)

在本組實(shí)驗(yàn)中, 分別在CWRU和DATA2兩個(gè)數(shù)據(jù)集上進(jìn)行算法性能對(duì)比. 先將數(shù)據(jù)集通過(guò)預(yù)處理后得到的29維特征作為原始輸入, 然后引入ILLE算法中實(shí)現(xiàn)特征的降維, 最后利用SVM構(gòu)建故障診斷模型, 實(shí)驗(yàn)結(jié)果如圖6所示. 由圖6可見(jiàn), 在CWRU數(shù)據(jù)集上通過(guò)與PCA和LLE算法相比較, 發(fā)現(xiàn)在任何特征數(shù)目下, ILLE算法都是識(shí)別精度最高的; 而在DATA2數(shù)據(jù)集上, 雖然ILLE和PCA算法在特征數(shù)目為26~29時(shí), 識(shí)別精度非常接近, 但整體上ILLE算法的識(shí)別精度非常穩(wěn)定并較好, 表明經(jīng)過(guò)ILLE方法降維后的特征可較好地表現(xiàn)原始高維輸入.

圖6 不同維數(shù)約簡(jiǎn)算法在CWRU數(shù)據(jù)集(A)和DATA2數(shù)據(jù)集(B)上的識(shí)別精度對(duì)比結(jié)果Fig.6 Comparison results of recognition accuracy of different dimension reduction algorithms on CWRU dataset (A) and DATA2 dataset (B)

綜上所述, 本文提出了一種基于信息熵度量的局部線性嵌入方法, 通過(guò)統(tǒng)計(jì)每個(gè)樣本的類混亂程度構(gòu)建樣本鄰域結(jié)構(gòu), 該方法避免了非對(duì)齊數(shù)據(jù)給鄰域選擇帶來(lái)的影響. 將本文算法應(yīng)用到CWRU數(shù)據(jù)集和東北石油大學(xué)的自采數(shù)據(jù)集中, 得到的結(jié)果與其他降維算法進(jìn)行比較, 具有更直觀的可視化結(jié)果和更高的類間類內(nèi)比, 證明了本文算法的有效性.

猜你喜歡
鄰域降維信息熵
基于混合變鄰域的自動(dòng)化滴灌輪灌分組算法
基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
含例鄰域邏輯的薩奎斯特對(duì)應(yīng)理論
降維打擊
近似邊界精度信息熵的屬性約簡(jiǎn)
基于信息熵的承運(yùn)船舶短重風(fēng)險(xiǎn)度量與檢驗(yàn)監(jiān)管策略研究
信息熵及其在中醫(yī)“證癥”關(guān)聯(lián)中的應(yīng)用研究
幾種降維算法的研究及應(yīng)用
對(duì)函數(shù)極值定義的探討