基于偽標(biāo)簽的弱監(jiān)督遷移學(xué)習(xí)模型

2022-02-02 02:07:12侯鑫燁董增壽劉鑫

機(jī)床與液壓 2022年24期

侯鑫燁，董增壽，劉鑫

(1.太原科技大學(xué)電子信息工程學(xué)院，山西太原 030024；2.陽泉市區(qū)域創(chuàng)新促進(jìn)中心，山西陽泉 045000)

0 前言

近年來，采用深度學(xué)習(xí)算法的智能故障診斷技術(shù)在制造業(yè)中得到了廣泛應(yīng)用，取代了耗時(shí)的人工分析方法，提高了故障診斷效率[1-3]。然而，研究者發(fā)現(xiàn)，深度學(xué)習(xí)方法只有當(dāng)有足夠的標(biāo)記訓(xùn)練數(shù)據(jù)且訓(xùn)練和測(cè)試數(shù)據(jù)服從相同分布，深度學(xué)習(xí)方法才能很好地工作，當(dāng)訓(xùn)練集和測(cè)試集來自不同工況或者不同機(jī)器時(shí)，深度學(xué)習(xí)方法的作用可能會(huì)下降甚至無效。遷移學(xué)習(xí)法旨在解決這類跨域問題，試圖利用一個(gè)域的知識(shí)解決另一個(gè)域新的相關(guān)任務(wù)[4]。

許多學(xué)者嘗試?yán)脭?shù)據(jù)建立域不變模型，最小化特征空間分布差異。ZHANG等[5]提出的方法實(shí)現(xiàn)了滾動(dòng)軸承故障診斷的端到端深度模型，但模型中沒有用到遷移學(xué)習(xí)算法。一些利用最大平均差異(MMD)[6-7]的遷移神經(jīng)網(wǎng)絡(luò)模型在轉(zhuǎn)移任務(wù)上可取得良好的效果，但學(xué)習(xí)過程中會(huì)出現(xiàn)梯度消失和爆炸。ARJOVSKY等[8]提出了一種適用于變速旋轉(zhuǎn)機(jī)械故障診斷的深度半監(jiān)督域泛化網(wǎng)絡(luò)DSDGN，引入Wasserstein解決了梯度消失的問題。但上述研究方法存在一定的局限性：它們的研究對(duì)象是同一臺(tái)機(jī)器上使用的軸承的遷移學(xué)習(xí)任務(wù)，僅從一種操作條件遷移到另一種操作條件；實(shí)際機(jī)器中使用的軸承帶標(biāo)記的數(shù)據(jù)很少，當(dāng)目標(biāo)域缺乏標(biāo)簽信息時(shí)，目標(biāo)域中的未標(biāo)記數(shù)據(jù)不能用于充分訓(xùn)練智能診斷模型。

為此，本文作者提出一種基于偽標(biāo)簽的弱監(jiān)督遷移學(xué)習(xí)模型WSTLPL。該方法通過構(gòu)建帶有偽標(biāo)簽的目標(biāo)域數(shù)據(jù)集，幫助帶標(biāo)簽的源域數(shù)據(jù)一起訓(xùn)練WSTLPL模型，Wasserstein度量用于計(jì)算源域和目標(biāo)域的分布差異；通過迭代學(xué)習(xí)，一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)便可學(xué)習(xí)到可遷移特征，實(shí)現(xiàn)域自適應(yīng)。該模型中利用原始振動(dòng)信號(hào)作為輸入，自適應(yīng)學(xué)習(xí)故障特征。在CWRU、IMS、MPC數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，證明了該模型具有更好的遷移效果。

1 理論基礎(chǔ)

1.1 遷移學(xué)習(xí)

遷移學(xué)習(xí)中，域是學(xué)習(xí)的主體[9-10]，主要指相應(yīng)的數(shù)據(jù)空間和數(shù)據(jù)分布。假設(shè)源域和目標(biāo)域分別Ds和Dt，它們的特征空間相同、數(shù)據(jù)分布不同。遷移學(xué)習(xí)目標(biāo)就是從帶標(biāo)簽的源數(shù)據(jù){Xs,Yt}中學(xué)習(xí)一個(gè)分類器并遷移到未標(biāo)記的數(shù)據(jù){Xt}中進(jìn)行預(yù)測(cè)?；谔卣鞯挠蜃赃m應(yīng)方法是遷移學(xué)習(xí)的一類，可將2個(gè)域映射到1個(gè)域不變的特征空間以減少源域與目標(biāo)域的差異。

1.2 Wasserstein距離

Wasserstein距離為評(píng)價(jià)標(biāo)準(zhǔn)，用于度量源域數(shù)據(jù)分布和目標(biāo)域數(shù)據(jù)分布的距離。假設(shè)一個(gè)度量空間(M,ρ)，ρ(x,y)為距離函數(shù)，x、y為集合M上的樣本，P、Q為M上的任意2個(gè)概率分布，其p階的Wasserstein距離[11-12]定義為

(1)

其中：π(x,y)為從位置x到位置y的遷移策略；∏(P,Q)為集合M×M上以P、Q為邊緣分布的聯(lián)合分布。p=1和p=2為最有效的2個(gè)階數(shù)，相比于W2、W1距離更靈活，更容易約束，通過Kantorovich-Rubinstein對(duì)偶[12]構(gòu)造，W1可以表示為

(2)

2 WSTLPL模型

WSTLPL模型如圖1所示，用一個(gè)域共享神經(jīng)網(wǎng)絡(luò)從源域和目標(biāo)域的原始振動(dòng)數(shù)據(jù)中提取可傳遞的特征。然后，通過域自適應(yīng)網(wǎng)絡(luò)減少學(xué)習(xí)到的可轉(zhuǎn)移特征的分布差異。最后，給目標(biāo)域中未標(biāo)記的樣本分配偽標(biāo)簽，幫助訓(xùn)練域共享網(wǎng)絡(luò)。

圖1 WSTLPL網(wǎng)絡(luò)結(jié)構(gòu)

2.1 域共享網(wǎng)絡(luò)

域共享網(wǎng)絡(luò)由卷積層、池化層、全連接層組成，其參數(shù)如表1所示。卷積層對(duì)輸入矩陣進(jìn)行卷積操作，提取輸入矩陣不同的特征。池化層對(duì)提取的特征壓縮映射，獲得主要特征。

表1 域共享網(wǎng)絡(luò)參數(shù)

用于圖像分類的典型卷積層包含輸入圖像I和核K，二維卷積[13]定義如下：

(3)

由于數(shù)據(jù)是一維振動(dòng)信號(hào)，因此在每個(gè)卷積層中用一維卷積。令m=1時(shí)，得到一維卷積，則上式就可以寫成如下形式:

(4)

全連接層輸出定義為

yl=φ(Wlyl-1+bl)

(5)

其中：Wl為上一層與當(dāng)前層的權(quán)重矩陣;yl-1為上一層的輸出;bl為當(dāng)前層的偏置。

2.2 域自適應(yīng)網(wǎng)絡(luò)

域自適應(yīng)網(wǎng)絡(luò)也由卷積神經(jīng)網(wǎng)絡(luò)組成，幫助域共享網(wǎng)絡(luò)學(xué)習(xí)可遷移特征，其參數(shù)如表2所示。為減少從不同域數(shù)據(jù)中學(xué)習(xí)到的可轉(zhuǎn)移特征的分布差異，域自適應(yīng)網(wǎng)絡(luò)通過最大最小化學(xué)習(xí)到的可轉(zhuǎn)移特征的Wasserstein距離來訓(xùn)練域共享神經(jīng)網(wǎng)絡(luò)的參數(shù)，計(jì)算公式如下：

表2 域自適應(yīng)網(wǎng)絡(luò)參數(shù)

(6)

2.3 學(xué)習(xí)策略

在弱監(jiān)督訓(xùn)練前，先進(jìn)行預(yù)訓(xùn)練。根據(jù)表1和表2的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建WSTLPL網(wǎng)絡(luò)，將源域數(shù)據(jù)集劃分成訓(xùn)練、驗(yàn)證、測(cè)試3個(gè)數(shù)據(jù)集，然后將訓(xùn)練集輸入該網(wǎng)絡(luò)，利用式(7)計(jì)算Softmax輸出的預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的交叉熵?fù)p失，利用BP算法訓(xùn)練網(wǎng)絡(luò)參數(shù)。

(7)

其中：n為樣本個(gè)數(shù)；K為樣本種類；F為Softmax輸出值；Y為樣本的真實(shí)標(biāo)簽。

由于目標(biāo)域中的樣本缺乏標(biāo)簽信息，不能直接用于訓(xùn)練模型，所以引入偽標(biāo)簽學(xué)習(xí)[14-15]。預(yù)訓(xùn)練結(jié)束后，取目標(biāo)域中小批次樣本作為輸入進(jìn)行預(yù)測(cè)，并將這批次樣本打?qū)?yīng)的偽標(biāo)簽。通過公式(8)計(jì)算目標(biāo)域樣本的預(yù)測(cè)標(biāo)簽和偽標(biāo)簽之間的誤差，并反傳回網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)參數(shù)。最后將打偽標(biāo)簽的目標(biāo)域數(shù)據(jù)和帶標(biāo)簽的源域數(shù)據(jù)混合，作為新的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

(8)

結(jié)合公式(6)—(8)，最終的優(yōu)化目標(biāo)表示為

minLc+αLp+LD

(9)

其中：α∈(0,1)為平衡系數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證模型效果，分兩部分進(jìn)行研究：(1)與現(xiàn)有學(xué)習(xí)算法的對(duì)比實(shí)驗(yàn)；(2)討論系數(shù)α對(duì)WSTLPL模型的影響。實(shí)驗(yàn)在Tensorflow框架下進(jìn)行，計(jì)算機(jī)配置為Intel(R)Xeon(R)CPU E5-2660、中央處理器CPU的主頻為2.20 GHz，32 GB內(nèi)存GTX1080Ti GPU。深度學(xué)習(xí)網(wǎng)絡(luò)都由ADAM優(yōu)化，學(xué)習(xí)率設(shè)為0.001、衰減率為0.99、實(shí)驗(yàn)訓(xùn)練次數(shù)為10 000、預(yù)訓(xùn)練次數(shù)為2 000。

3.1 數(shù)據(jù)集介紹

實(shí)驗(yàn)用到3個(gè)數(shù)據(jù)集：西儲(chǔ)大學(xué)軸承數(shù)據(jù)集CRWU、辛辛那提大學(xué)軸承壽命數(shù)據(jù)集IMS、多級(jí)離心泵數(shù)據(jù)集MCP，以實(shí)現(xiàn)不同機(jī)器軸承知識(shí)的遷移學(xué)習(xí)。每個(gè)數(shù)據(jù)集都包含正常、外圈故障、內(nèi)圈故障、滾動(dòng)體故障4種狀態(tài),每個(gè)狀態(tài)500個(gè)樣本。由于數(shù)據(jù)分布隨著工作條件的不同而變化，則根據(jù)工作條件，將它分成不同的域，如表3所示。

表3 數(shù)據(jù)集描述

3.2 與現(xiàn)有學(xué)習(xí)算法的對(duì)比實(shí)驗(yàn)

將CRWU、IMS、MCP數(shù)據(jù)集分別作為源域或目標(biāo)域，共有6個(gè)遷移任務(wù)實(shí)驗(yàn)。在每個(gè)實(shí)驗(yàn)中，訓(xùn)練數(shù)據(jù)集包括來自源域數(shù)據(jù)的所有標(biāo)記數(shù)據(jù)樣本和來自目標(biāo)域的1/2的未標(biāo)記數(shù)據(jù)樣本，目標(biāo)域的另1/2數(shù)據(jù)樣本用于測(cè)試。如表4所示，將WSTLPL模型在不同遷移任務(wù)的識(shí)別率與CNN、TCA[16]、DDC[17]作對(duì)比，分別在6個(gè)遷移實(shí)驗(yàn)中進(jìn)行驗(yàn)證，其中：A-B表示源域A向目標(biāo)域B遷移，其他遷移任務(wù)類似。從表4可以看出：所提模型的平均識(shí)別率達(dá)88.72%，在4種方法中最高；CNN沒有遷移能力，平均識(shí)別率為55.16%；TCA由于不能提取樣本深層特征，識(shí)別率僅為33.20%，不適合域差異大的遷移任務(wù)；DDC方法通過最小化MMD減小分布差異，識(shí)別率達(dá)76.36%，比WSTLPL小，比其他方法高。該結(jié)果證明了Wasserstein引導(dǎo)的域自適應(yīng)和偽標(biāo)簽學(xué)習(xí)的有效性。

表4 不同方法的識(shí)別率單位：%

3.3 系數(shù)α對(duì)WSTLPL模型的影響

在遷移任務(wù)C-A中研究系數(shù)α對(duì)WSTLPL模型的影響。設(shè)一個(gè)參數(shù)i，其值分別取 0、0.05、0.1、0.15、0.2、0.3，令α=i，依次輸入WSTLPL模型的識(shí)別率，結(jié)果如圖2所示?？芍篧STLPL的分類準(zhǔn)確率隨α的增大而先增大后減??；α=0時(shí)，準(zhǔn)確率很低；當(dāng)α=0.15時(shí)，WSTLPL的分類準(zhǔn)確率達(dá)到最高；當(dāng)α=0.2時(shí)，準(zhǔn)確率迅速下降。因此，當(dāng)α為0.15左右時(shí)，模型分類效果好。

圖2 系數(shù)α對(duì)WSTLPL模型的影響

3.4 遷移效果

利用Wasserstein距離來度量WSTLPL模型的遷移效果。圖3所示為各遷移任務(wù)在弱監(jiān)督訓(xùn)練時(shí)，源域和目標(biāo)域特征分布的Wasserstein距離變化情況?？芍涸谌醣O(jiān)督訓(xùn)練開始時(shí)，Wasserstein距離很大，隨著迭代次數(shù)的增加，Wasserstein距離減小，并趨于平穩(wěn)。結(jié)果表明：WSTLPL模型可以很好地減少學(xué)習(xí)到的分布差異，提高了模型的泛化能力。

圖3 WSTLPL模型不同遷移任務(wù)時(shí)Wasserstein距離的變化

4 結(jié)論

針對(duì)遷移學(xué)習(xí)中目標(biāo)域標(biāo)記樣本不足，且源域和目標(biāo)域數(shù)據(jù)分布差異大時(shí)，訓(xùn)練出的模型存在泛化能力弱的問題，提出一種基于偽標(biāo)簽的半監(jiān)督遷移學(xué)習(xí)模型WSTLPL。在CWRU、IMS、MCP 3個(gè)數(shù)據(jù)集的遷移任務(wù)中進(jìn)行實(shí)驗(yàn)對(duì)比，結(jié)果表明WSTLPL模型具有更高的識(shí)別率，并且通過觀察Wasserstein距離的變化趨勢(shì)，證明了WSTLPL模型可以減少源域和目標(biāo)域的特征分布差異，模型遷移效果顯著。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡