摘 要:當(dāng)前基于深度學(xué)習(xí)的故障診斷方法依賴(lài)于標(biāo)注完備的訓(xùn)練樣本,當(dāng)數(shù)據(jù)集中存在噪聲標(biāo)簽時(shí),模型會(huì)對(duì)噪聲數(shù)據(jù)過(guò)擬合,影響泛化能力。為實(shí)現(xiàn)模型在采用標(biāo)簽噪聲進(jìn)行訓(xùn)練的情況下對(duì)設(shè)備運(yùn)行工況的精確識(shí)別,提出一種結(jié)合對(duì)比學(xué)習(xí)與鄰域樣本分析的故障診斷方法。首先采用對(duì)比學(xué)習(xí)方法對(duì)模型進(jìn)行預(yù)訓(xùn)練,拉近模型特征空間中的相似樣本映射距離,實(shí)現(xiàn)判別能力增強(qiáng);隨后,基于特征相似度尋找每個(gè)樣本最相似的近鄰用以計(jì)算訓(xùn)練標(biāo)簽可靠性并據(jù)此執(zhí)行樣本劃分以及標(biāo)簽糾正,構(gòu)建更為可靠的訓(xùn)練子集;最后在訓(xùn)練過(guò)程中引入標(biāo)簽重加權(quán)以及一致性正則化操作增強(qiáng)模型魯棒性。此外,通過(guò)同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)模型以交替構(gòu)建訓(xùn)練子集用于另一網(wǎng)絡(luò)訓(xùn)練過(guò)程,緩解單網(wǎng)絡(luò)模型訓(xùn)練框架易引起的認(rèn)知偏差問(wèn)題。在公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明所提方法能夠有效識(shí)別并糾正噪聲標(biāo)簽,在較高噪聲標(biāo)簽情況下仍能保持良好的診斷性能。
關(guān)鍵詞:對(duì)比學(xué)習(xí);標(biāo)簽噪聲;標(biāo)簽糾正;故障診斷
中圖分類(lèi)號(hào):TH133.33 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)10-023-3044-09
doi:10.19734/j.issn.1001-3695.2024.02.0036
Fault diagnosis method via contrastive learning and neighborhood sample analysis under label noise
Jin Zezhong,Ye Chunming
(Business School,University of Shanghai for Science & Technology,Shanghai 200093,China)
Abstract:Nowadays due to the dependence of fault diagnosis method based on deep learning on well-labeled training dataset,which will lead to the problem that deep neural network can easily overfit those noisy labels and affect the generalization of network under the condition of label noise.In order to achieve accurate recognition of equipment operating conditions in the network trained with label noise,this paper proposed a fault diagnosis method via contrastive learning and neighborhood sample analysis.Firstly,the method used contrastive learning to pre-train the model,which could reduce the embedding distance of similar samples in the feature space and achieved improving the ability of optimizing the feature representation ability of the network.Then,the method utilized the feature similarity to find each sample’s closest neighbors to estimate the reliability of training labels which could separate all training samples into a clean or noisy subset and implemented label correction on noisy subset.After that,it established a more reliable training subset.Lastly,the proposed method made use of label reweighting and consistency regularization to enhance robustness of network.In particular,two networks got trained simultaneously where each network used the dataset division from the other network during the training process,which could mitigate confirmation bias caused by single network model training framework.The experimental results on public dataset demonstrate that proposed method can verify and correct the noisy labels impressively well and maintain great fault diagnosis performance under the condition of high-level noisy labels.
Key words:contrastive learning;noisy label;label correction;fault diagnosis
0 引言
軸承作為機(jī)械傳動(dòng)的關(guān)鍵零件,被廣泛應(yīng)用于各種機(jī)械設(shè)備中,其健康狀況對(duì)于機(jī)械設(shè)備的安全性與穩(wěn)定性具有重要影響[1]。然而設(shè)備在一些惡劣環(huán)境下運(yùn)行時(shí),軸承將會(huì)不可避免地發(fā)生退化,產(chǎn)生裂紋、磨損等。一旦發(fā)生故障將直接影響整個(gè)設(shè)備的正常運(yùn)行,輕則給企業(yè)造成經(jīng)濟(jì)損失,重則引發(fā)事故,威脅生命安全[2,3]。因此,有必要對(duì)傳動(dòng)系統(tǒng)中的軸承展開(kāi)系統(tǒng)性的故障診斷。
當(dāng)前基于深度學(xué)習(xí)的故障診斷方法因能有效對(duì)故障信息進(jìn)行表征而被廣泛應(yīng)用于故障診斷領(lǐng)域[4]。Zhang等人[5]提出一種基于通道-空間注意力機(jī)制與特征融合的深度殘差故障診斷網(wǎng)絡(luò),診斷準(zhǔn)確率可達(dá)99.87%。Xu等人[6]針對(duì)復(fù)雜環(huán)境下系統(tǒng)故障診斷中多尺度模型外推效率低的問(wèn)題,提出權(quán)重軟投票的多尺度決策加權(quán)融合模型,該模型能夠有效地捕獲采集多尺度的時(shí)間與頻率信息,具有較為良好的泛化能力。然而,以上這些框架大多基于標(biāo)簽正確標(biāo)注的前提,而忽略了存在標(biāo)簽噪聲的情況。
在實(shí)際工業(yè)活動(dòng)中,一方面由于部分故障特征微弱且處于不斷發(fā)展的狀態(tài),使得故障模式與相應(yīng)的故障表征信息映射關(guān)系模糊,導(dǎo)致故障模式標(biāo)注工作困難;另一方面由于機(jī)械設(shè)備系統(tǒng)日趨復(fù)雜化,故障模式增多,在標(biāo)注人員缺乏相關(guān)專(zhuān)業(yè)知識(shí)的情況下,易賦予故障模式錯(cuò)誤的標(biāo)簽分類(lèi)[7]。因而在真實(shí)的工業(yè)數(shù)據(jù)集中,標(biāo)注錯(cuò)誤即標(biāo)簽噪聲問(wèn)題是不可避免的。然而,當(dāng)前大多數(shù)基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法依賴(lài)標(biāo)注完備的數(shù)據(jù)集,當(dāng)存在著標(biāo)簽噪聲時(shí),模型會(huì)因擬合于噪聲標(biāo)簽數(shù)據(jù)而導(dǎo)致模型特征表達(dá)能力不足,即認(rèn)知偏差問(wèn)題,影響診斷精度。因此,研究一種對(duì)于噪聲標(biāo)簽數(shù)據(jù)具有較好魯棒性的故障診斷算法,能夠有效減少人力、物力資源投入,緩解實(shí)際生產(chǎn)活動(dòng)中故障信息分辨標(biāo)注困難問(wèn)題。
近年來(lái),標(biāo)簽噪聲學(xué)習(xí)方法引起廣泛關(guān)注,當(dāng)前故障診斷領(lǐng)域?qū)τ跇?biāo)簽噪聲問(wèn)題的研究主要圍繞構(gòu)建魯棒性損失函數(shù)以及元學(xué)習(xí)等方面展開(kāi)。Wang等人[8]針對(duì)交叉熵?fù)p失函數(shù)易導(dǎo)致模型對(duì)噪聲數(shù)據(jù)過(guò)擬合的現(xiàn)象,提出多級(jí)對(duì)抗損失函數(shù),在訓(xùn)練初期采用廣義交叉熵作為損失函數(shù),防止模型迅速擬合噪聲數(shù)據(jù),隨后引入逆交叉熵項(xiàng)以減少噪聲樣本梯度表示,有效地平衡了模型的魯棒性與學(xué)習(xí)性。Liang等人[9]將雙溫邏輯損失函數(shù)引入故障診斷模型訓(xùn)練中,減少了噪聲標(biāo)簽數(shù)據(jù)的負(fù)面影響。Zhang等人[10]通過(guò)引入加權(quán)網(wǎng)絡(luò)并采用元學(xué)習(xí)方法構(gòu)建樣本標(biāo)簽分布以動(dòng)態(tài)調(diào)整損失函數(shù),避免模型過(guò)擬合于噪聲數(shù)據(jù)。上述方法雖然在一定程度上能夠減少標(biāo)簽噪聲的負(fù)面影響,但仍存在諸多不足,例如采用魯棒性損失函數(shù)易使得模型產(chǎn)生欠擬合現(xiàn)象,無(wú)法對(duì)故障信息進(jìn)行有效表征;基于元學(xué)習(xí)的方法仍需正確標(biāo)記的訓(xùn)練子集數(shù)據(jù)用于權(quán)值更新。
目前,基于噪聲樣本劃分的方法引起廣泛關(guān)注,其核心思想是依據(jù)噪聲數(shù)據(jù)驗(yàn)證策略將原始訓(xùn)練樣本數(shù)據(jù)集劃分為正確標(biāo)簽樣本組以及噪聲標(biāo)簽樣本組,隨后將噪聲標(biāo)簽樣本組予以舍棄或參照半監(jiān)督學(xué)習(xí)范式為其賦予偽標(biāo)簽以參與訓(xùn)練,避免模型在訓(xùn)練過(guò)程中記憶原始錯(cuò)誤標(biāo)簽[11]。根據(jù)模型訓(xùn)練過(guò)程總是先學(xué)習(xí)真實(shí)標(biāo)簽樣本,再對(duì)噪聲標(biāo)簽樣本進(jìn)行暴力擬合,使得正確標(biāo)注樣本在訓(xùn)練早期階段具有較小的損失,即損失較小的樣本較有可能為正確標(biāo)注樣本的發(fā)現(xiàn)[12],Han等人[13]提出協(xié)同學(xué)習(xí)策略,即同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò),在每個(gè)批量訓(xùn)練過(guò)程中,網(wǎng)絡(luò)將損失值較小的樣本視為可用樣本,并且把這些樣本送到對(duì)等網(wǎng)絡(luò)中更新參數(shù)。兩個(gè)網(wǎng)絡(luò)具有不同的初始化參數(shù)與訓(xùn)練批次,因而具有不同的學(xué)習(xí)能力,能夠有效篩選出噪聲樣本,減少在訓(xùn)練過(guò)程中產(chǎn)生的認(rèn)知偏差問(wèn)題。INCV[14]方法隨機(jī)劃分標(biāo)簽噪聲數(shù)據(jù)以應(yīng)用交叉驗(yàn)證計(jì)算每個(gè)樣本損失,對(duì)具有較大損失的樣本予以剔除。Li等人[15]提出Dividemix框架,采用高斯混合算法(Gaussian mixture model,GMM)對(duì)樣本損失進(jìn)行建模,將訓(xùn)練樣本動(dòng)態(tài)劃分為具有正確標(biāo)簽樣本組以及無(wú)標(biāo)簽的噪聲樣本組,然后以半監(jiān)督學(xué)習(xí)的方法對(duì)模型進(jìn)行訓(xùn)練。Wei等人[16]利用模型歷史預(yù)測(cè)的波動(dòng)情況以劃分出噪聲數(shù)據(jù),并采用FixMatch[17]范式進(jìn)行半監(jiān)督學(xué)習(xí)訓(xùn)練。然而,上述方法在標(biāo)簽噪聲率較高的情況下劃分效果欠佳[18]。
對(duì)比學(xué)習(xí)[19]作為特征表示學(xué)習(xí)的一種,能夠通過(guò)構(gòu)建正負(fù)樣本對(duì)以執(zhí)行實(shí)例判別任務(wù)使得模型以無(wú)監(jiān)督學(xué)習(xí)的方式使得模型獲得良好特征表示,其特征學(xué)習(xí)過(guò)程能夠有效避免標(biāo)簽噪聲影響。Li等人[20]通過(guò)對(duì)比學(xué)習(xí)優(yōu)化模型特征空間,并通過(guò)集成訓(xùn)練樣本的鄰域樣本預(yù)測(cè)值逐步糾正錯(cuò)誤標(biāo)簽。Tan等人[21]在噪聲標(biāo)簽學(xué)習(xí)訓(xùn)練過(guò)程中引入對(duì)比學(xué)習(xí)框架以維持樣本在特征空間映射中的結(jié)構(gòu)相似性,避免模型過(guò)度擬合錯(cuò)誤樣本信息。Huang等人[22]根據(jù)對(duì)比學(xué)習(xí)損失動(dòng)態(tài)劃定樣本置信度以執(zhí)行噪聲標(biāo)簽糾正。因此,如何利用對(duì)比學(xué)習(xí)所取得的良好特征表示優(yōu)化噪聲樣本劃分方法值得進(jìn)一步探究。
據(jù)此,本文提出一種結(jié)合對(duì)比學(xué)習(xí)與鄰域樣本分析(CLNSA)的故障診斷方法以增強(qiáng)模型在噪聲標(biāo)簽情況下的魯棒性。首先通過(guò)對(duì)比學(xué)習(xí)對(duì)故障判別網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,使得模型充分挖掘故障信號(hào)內(nèi)在的判別信息,增強(qiáng)模型特征表達(dá)能力。隨后參照文獻(xiàn)[13]采用兩個(gè)網(wǎng)絡(luò)模型交替式訓(xùn)練的方式在特征空間中選取鄰近樣本進(jìn)行鄰域樣本劃分與糾正構(gòu)建訓(xùn)練子集。并對(duì)得到的訓(xùn)練子集引入標(biāo)簽重加權(quán)以及一致性正則化以進(jìn)一步增強(qiáng)模型魯棒性。在帕德博恩大學(xué)以及凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集中進(jìn)行實(shí)證分析,結(jié)果表明本文CLNSA方法在較高噪聲率情況下仍能保持良好的診斷精度。
1 問(wèn)題描述及相關(guān)工作
1.1 問(wèn)題描述
標(biāo)簽噪聲問(wèn)題[11]可以定義為在監(jiān)督學(xué)習(xí)情況下,假設(shè)帶噪數(shù)據(jù)集Dtrain={(x(i),y(i))}li=1,其中x(i)為其訓(xùn)練樣本而y(i)∈y={1,…,C}為相應(yīng)的噪聲標(biāo)簽,C為其故障類(lèi)別數(shù),值得注意的是y(i)可能并不為x(i)的真實(shí)樣本標(biāo)簽而具有被錯(cuò)誤標(biāo)記的可能,即噪聲標(biāo)簽數(shù)據(jù)。故障診斷模型f由特征編碼模塊f(·)以及分類(lèi)層c(·)組成,模型將軸承振動(dòng)信號(hào)作為輸入,并通過(guò)f(·)將其映射至高維特征空間,再經(jīng)分類(lèi)層c(·)解碼,輸出最后分類(lèi)結(jié)果。如圖1所示,在采用具有標(biāo)簽噪聲數(shù)據(jù)集進(jìn)行模型訓(xùn)練時(shí)易使得模型根據(jù)樣本標(biāo)注錯(cuò)誤標(biāo)簽進(jìn)行分類(lèi),構(gòu)建錯(cuò)誤決策邊界。為此本文旨在設(shè)計(jì)對(duì)于噪聲標(biāo)簽具有較高魯棒性的學(xué)習(xí)算法訓(xùn)練模型,以避免噪聲標(biāo)簽負(fù)面影響,實(shí)現(xiàn)對(duì)于待測(cè)故障信號(hào)的精確診斷。
1.2 相關(guān)工作
針對(duì)標(biāo)簽噪聲問(wèn)題,目前主流的標(biāo)簽噪聲學(xué)習(xí)方法可以分為魯棒性損失函數(shù)、噪聲轉(zhuǎn)移矩陣、正則化方法以及噪聲樣本劃分[11]。由于分類(lèi)任務(wù)中所常用的交叉熵?fù)p失函數(shù)非對(duì)稱(chēng)且無(wú)界,所以對(duì)于噪聲標(biāo)簽較為敏感,魯棒性損失函數(shù)旨在修正模型最小化風(fēng)險(xiǎn)損失,使得模型在噪聲標(biāo)簽情況下的最小化風(fēng)險(xiǎn)與標(biāo)注正確情況下一致,Ghosh等人[23]證明對(duì)稱(chēng)式損失函數(shù)具有較好的噪聲魯棒性,并由此設(shè)計(jì)平均絕對(duì)誤差以及逆交叉熵?fù)p失,但模型在訓(xùn)練過(guò)程易產(chǎn)生欠擬合現(xiàn)象。Zhang等人[24]在此基礎(chǔ)上將平均絕對(duì)誤差與交叉熵?fù)p失結(jié)合,提出了廣義交叉熵?fù)p失函數(shù),提高了模型學(xué)習(xí)擬合速度。Ma等人[25]提出主動(dòng)被動(dòng)損失(active passive loss,APL),結(jié)合兩個(gè)對(duì)稱(chēng)式損失函數(shù),較好地平衡了模型學(xué)習(xí)能力與噪聲魯棒性。噪聲轉(zhuǎn)移矩陣方法通過(guò)模型預(yù)測(cè)或其特征表示構(gòu)建各類(lèi)別樣本被錯(cuò)誤標(biāo)記的概率矩陣以探索噪聲標(biāo)簽的分布,Zhu等人[26]通過(guò)執(zhí)行相似表征匹配探索模型特征空間中鄰近樣本標(biāo)簽一致性概率以推測(cè)訓(xùn)練樣本噪聲轉(zhuǎn)移矩陣,并據(jù)此修正模型訓(xùn)練過(guò)程中輸出預(yù)測(cè)值。正則化方法通過(guò)分析深度學(xué)習(xí)模型在標(biāo)簽噪聲情景下的學(xué)習(xí)特性并以隱式或顯式的方法避免模型過(guò)度擬合噪聲數(shù)據(jù)。MixUp[27]作為一種典型的隱式正則化方法,通過(guò)加權(quán)組合不同類(lèi)別樣本數(shù)據(jù),在各類(lèi)之間的決策邊界中進(jìn)行線(xiàn)性轉(zhuǎn)換,使得模型趨向于學(xué)習(xí)結(jié)構(gòu)化特征,限制其過(guò)擬合于非結(jié)構(gòu)化標(biāo)簽噪聲信息。LSR[28]通過(guò)標(biāo)簽平滑(label smoothing)引入收縮正則化,使得模型權(quán)重收斂于小范數(shù)解,避免產(chǎn)生過(guò)度自信現(xiàn)象。顯式正則化方法通過(guò)修改模型訓(xùn)練損失函數(shù),例如添加正則化項(xiàng)以根據(jù)模型訓(xùn)練狀況動(dòng)態(tài)調(diào)整梯度更新。Lu等人[29]根據(jù)模型早期學(xué)習(xí)的特點(diǎn),設(shè)計(jì)注意力權(quán)重分支以表征模型對(duì)噪聲數(shù)據(jù)以及正確標(biāo)注樣本學(xué)習(xí)情況,并將其作為正則化項(xiàng)引入損失函數(shù),減少了噪聲數(shù)據(jù)的梯度表示。Iscen等人[30]將高維特征嵌入空間中鄰域樣本特征相似性作為正則化項(xiàng),減少了標(biāo)簽噪聲的負(fù)面影響。基于噪聲樣本劃分的方法由于能夠劃分出噪聲樣本,促使模型在學(xué)習(xí)過(guò)程中的訓(xùn)練樣本趨向于真實(shí)分布,減少了標(biāo)簽噪聲的影響。Arazo等人[31]采用貝塔混合模型(beta mixture model,BMM)對(duì)訓(xùn)練損失進(jìn)行建模以劃分正確標(biāo)簽樣本組以及噪聲樣本組,并根據(jù)其劃分結(jié)果賦予各樣本組樣本以不同置信度權(quán)重。Zhang等人[32]選取每個(gè)類(lèi)別中模型輸出置信度較高的樣本視作標(biāo)注正確訓(xùn)練集,隨后采用K-means算法將置信樣本劃分為每類(lèi)K個(gè)的訓(xùn)練子集,并獲得其聚類(lèi)中心的原型特征向量,對(duì)于待測(cè)樣本根據(jù)特征空間中鄰近原型特征向量投票結(jié)果劃分其標(biāo)簽屬性。Karim等人[33]通過(guò)衡量模型預(yù)測(cè)與標(biāo)注標(biāo)簽的JS散度動(dòng)態(tài)劃分訓(xùn)練數(shù)據(jù)集。
2 本文方法描述
2.1 對(duì)比學(xué)習(xí)預(yù)訓(xùn)練
對(duì)比學(xué)習(xí)(contrastive learning,CL)[19]的提出,主要是為了解決基于監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法依賴(lài)于大量標(biāo)注完備數(shù)據(jù)的問(wèn)題。對(duì)比學(xué)習(xí)旨在構(gòu)建映射函數(shù),將輸入信息映射至超球體空間,通過(guò)構(gòu)建正負(fù)樣本對(duì)以執(zhí)行實(shí)例判別任務(wù),拉近正樣本對(duì)在超球體空間中的映射距離、推遠(yuǎn)負(fù)樣本特征距離,優(yōu)化特征空間以增強(qiáng)模型特征表達(dá)能力。SimCLR[34]作為一種經(jīng)典對(duì)比學(xué)習(xí)算法,通過(guò)對(duì)樣本進(jìn)行組合數(shù)據(jù)增強(qiáng),將同一樣本經(jīng)不同增強(qiáng)方式進(jìn)行數(shù)據(jù)增強(qiáng)后的樣本作為正對(duì),并最大化其互信息,不斷減小相似樣本度量距離,實(shí)現(xiàn)同類(lèi)樣本特征表示相似,不同類(lèi)特征表示互異。算法流程如圖2所示。當(dāng)前對(duì)比學(xué)習(xí)因其強(qiáng)大的特征提取能力而被廣泛應(yīng)用于噪聲標(biāo)簽學(xué)習(xí)領(lǐng)域。
在對(duì)比學(xué)習(xí)訓(xùn)練過(guò)程中,首先隨機(jī)抽樣N批次大小的故障信號(hào)樣本{x(i)}Ni=1,i∈{1,2,…,N},對(duì)于批次中每個(gè)樣本實(shí)行兩種不同數(shù)據(jù)增強(qiáng)方法Ta,Tb~T以獲得其相關(guān)實(shí)例{x(1)a,…,x(N)a,x(1)b,…,x(N)b}。對(duì)于其中一個(gè)樣本x(i)a,可以與其余2N-1個(gè)樣本組成樣本對(duì),其中(x(i)a,x(i)b)為正樣本對(duì),相較于余下的2N-2樣本為負(fù)樣本。隨后將其引入特征編碼模塊f(·)提取特征表示,對(duì)于得到相應(yīng)表示向量:h(i)a=f(x(i)a),隨后參照文獻(xiàn)[34]通過(guò)引入投影層g(·)將特征h映射至單位超球體空間,以獲取其表示向量z(i)a=g(h(i)a),并在單位超球體向量空間中采用余弦相似度以衡量各表示向量相似程度:
sim(z(i)a,z(j)b)=(z(i)a)T(z(j)b)z(i)az(j)b(1)
隨后采用InfoNCE作為損失函數(shù):
lai=-logexp(sim(z(i)a,z(i)b)/τ)∑Nj=1[[j≠i]exp(sim(z(i)a,z(j)a)/τ)+exp(sim(z(i)a,z(j)b)/τ)](2)
lbi=-logexp(sim(z(i)a,z(i)b)/τ)∑Nj=1[[j≠i]exp(sim(z(i)b,z(j)b)/τ)+exp(sim(z(i)a,z(j)b)/τ)](3)
其中:τ為對(duì)比學(xué)習(xí)溫度系數(shù);[j≠i]為指示函數(shù)。為了識(shí)別整個(gè)數(shù)據(jù)集中的所有正對(duì),以獲得更多實(shí)例之間的關(guān)系,在每個(gè)增強(qiáng)樣本上計(jì)算實(shí)例級(jí)對(duì)比損失:
Lc=12N∑Ni=1(lai+lbi)(4)
在完成對(duì)比學(xué)習(xí)預(yù)訓(xùn)練后,能夠有效拉近同類(lèi)健康狀態(tài)樣本在特征空間中的嵌入距離,增強(qiáng)模型特征判別能力,隨后將訓(xùn)練好特征提取網(wǎng)絡(luò)f(·)嵌入到2.2節(jié)中,為后續(xù)鄰域樣本分析算法提供更為良好的初始化特征表示。
2.2 鄰域樣本分析算法
針對(duì)實(shí)際機(jī)械設(shè)備系統(tǒng)檢測(cè)數(shù)據(jù)集中存在著標(biāo)簽誤標(biāo)記的問(wèn)題,提出一種鄰域樣本分析算法,參照文獻(xiàn)[13],本文通過(guò)引入兩個(gè)相同結(jié)構(gòu)網(wǎng)絡(luò)模型fA、 fB并同時(shí)執(zhí)行標(biāo)簽噪聲訓(xùn)練以避免模型記憶錯(cuò)誤樣本的認(rèn)知偏差問(wèn)題。如圖3所示,所提方法訓(xùn)練過(guò)程包括鄰域樣本劃分、鄰域樣本糾正和魯棒性訓(xùn)練三個(gè)階段。
2.2.1 鄰域樣本劃分
在模型經(jīng)對(duì)比學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練后,能夠有效使得同類(lèi)樣本在特征空間內(nèi)聚集,為充分利用模型特征信息以執(zhí)行樣本劃分,本文參照文獻(xiàn)[35,36]通過(guò)衡量特征空間中鄰近樣本預(yù)測(cè)與其標(biāo)簽分布不一致特性以判斷樣本標(biāo)簽可信度執(zhí)行樣本劃分。以圖4為例,O為待測(cè)樣本,虛線(xiàn)框內(nèi)其他樣本為其最近鄰樣本A~E,其在特征空間中彼此接近。不同的顏色表示不同的標(biāo)簽(模型預(yù)測(cè)標(biāo)簽或標(biāo)注標(biāo)簽),考慮到同類(lèi)樣本在特征空間內(nèi)的映射距離更為接近,因而對(duì)于待測(cè)樣本O,若其標(biāo)注標(biāo)簽與鄰域樣本集預(yù)測(cè)標(biāo)簽差異較大,則該樣本更有可能為噪聲標(biāo)簽樣本。
對(duì)于待測(cè)樣本(x(c),y(c))∈Dtrain,本文根據(jù)余弦相似度在特征空間中搜尋其K個(gè)最近鄰樣本以構(gòu)建鄰域樣本集。
{x(c)k},k=1,…,K←KNN(x(c);Dtrain;K)(5)
其中:KNN(x(c);Dtrain;K)表示通過(guò)挖掘待測(cè)樣本x(c)k在Dtrain數(shù)據(jù)集中特征空間中K個(gè)最相似的樣本構(gòu)建鄰域樣本訓(xùn)練子集。
隨后采用JS散度計(jì)算其樣本標(biāo)簽不確定度:
J(pi,pj)=12KL(pi‖pi+pj2)+12KL(pj‖pi+pj2)(6)
Sver(x(c),y(c))=1K∑Kk=1J(py(y(c)),p(y|x(c)k))(7)
其中:KL(·‖·)表示KL散度,J(·,·)為JS散度,用于衡量?jī)蓚€(gè)概率分布的相似性,其取值為0~1,J(pi,pj)→0表示pi與pj較為相似,而當(dāng)J(pi,pj)→1則表示兩個(gè)樣本分布差異較大;py(y(c))為待測(cè)樣本的標(biāo)注標(biāo)簽的獨(dú)熱編碼;p(y|x(c)k)表示模型fA或fB對(duì)于所構(gòu)建鄰域樣本集第k個(gè)鄰域樣本輸出的分類(lèi)概率分布。通過(guò)集成多個(gè)鄰近樣本與待測(cè)樣本的標(biāo)簽不確定度進(jìn)行樣本劃分能夠有效避免因過(guò)度依賴(lài)單個(gè)樣本預(yù)測(cè)而引起的認(rèn)知偏差問(wèn)題。
在計(jì)算每個(gè)待測(cè)樣本的樣本標(biāo)簽不確定度后,若待測(cè)樣本的訓(xùn)練標(biāo)簽與其鄰域樣本的模型預(yù)測(cè)值差異度較高(Sver(x(c),y(c))→1),則該待測(cè)樣本較為可能為標(biāo)簽噪聲樣本。因此,本文通過(guò)設(shè)置篩選閾值,即當(dāng)Sver(x(c),y(c))≥Euclid Math OneTAp時(shí),將候選樣本x(c)劃分為噪聲樣本,否則將其歸類(lèi)為標(biāo)注正確樣本??蓳?jù)此可將樣本劃分為
Dclean←{(xi,yi)|Sver(xi,yi)<Euclid Math OneTAp,(xi,yi)∈Dtrain}Dnoisy←{(xi,yi)|Sver(xi,yi)≥Euclid Math OneTAp,(xi,yi)∈Dtrain}(8)
值得注意的是,若存在噪聲樣本被錯(cuò)誤地分組于Dclean中,模型易逐漸過(guò)度擬合這些錯(cuò)誤標(biāo)記的樣本并錯(cuò)誤拉近其在特征空間中的距離。為了克服這個(gè)問(wèn)題,本文通過(guò)引入雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)方法,即兩個(gè)網(wǎng)絡(luò)框架模型fA和fB,并同時(shí)訓(xùn)練,一個(gè)網(wǎng)絡(luò)由另一個(gè)網(wǎng)絡(luò)所劃分的樣本數(shù)據(jù)進(jìn)行訓(xùn)練以及參數(shù)更新[13]。由于兩個(gè)具有不同的訓(xùn)練批次以及初始化參數(shù),緩解單網(wǎng)絡(luò)模型記憶錯(cuò)誤標(biāo)簽樣本的問(wèn)題,避免認(rèn)知偏差現(xiàn)象。
2.2.2 鄰域樣本糾正
在鄰域樣本劃分階段之后,本文對(duì)于被劃分為Dnoisy中的樣本標(biāo)簽予以舍棄,以防止模型過(guò)擬合于噪聲樣本數(shù)據(jù),分別將Dclean和Dnoisy中的樣本分別視為標(biāo)記和未標(biāo)記的樣本。同時(shí)考慮到在較高標(biāo)簽噪聲率情況下,僅采用原始噪聲數(shù)據(jù)作為訓(xùn)練集時(shí),雖能有效保證模型的魯棒性,但由于可用的正確標(biāo)注樣本過(guò)少,無(wú)法有效地使得模型預(yù)測(cè)趨于樣本真實(shí)分布。本文進(jìn)一步設(shè)置了鄰域樣本糾正階段以充分利用未標(biāo)記的樣本特征信息,該階段依靠特征空間中鄰近正確標(biāo)記樣本執(zhí)行噪聲標(biāo)簽數(shù)據(jù)糾正,以獲取更為無(wú)偏的偽標(biāo)簽。
{(x(u)k,y(u)k)},k=1,…,K←KNN(x(u);Dclean;K)(9)
在鄰域樣本糾正過(guò)程中,首先對(duì)于每個(gè)待測(cè)樣本x(u)∈Dnoisy,在訓(xùn)練子集Dclean中選取K個(gè)鄰近樣本(x(u)k,y(u)k)構(gòu)建鄰域樣本數(shù)據(jù)集。隨后,對(duì)于每個(gè)待測(cè)樣本與其鄰近樣本之間執(zhí)行以下標(biāo)簽一致性檢驗(yàn),以進(jìn)一步挖掘在特征和標(biāo)簽結(jié)構(gòu)空間中與其相鄰樣本相似的噪聲標(biāo)簽樣本:
Scor(x(u))=1K∑Kk=1J(p(y|x(u)),py(y(u)k))(10)
其中:J(p(y|x(u)),py(y(u)k))為模型fA或fB對(duì)于待測(cè)樣本x(u)所輸出概率分布與其鄰域樣本數(shù)據(jù)集中第k個(gè)鄰近樣本標(biāo)注標(biāo)簽的獨(dú)熱編碼的一致性。當(dāng)Scor(x(u))趨近于1時(shí)表明待測(cè)樣本的預(yù)測(cè)值與其鄰近樣本的差異性較大,即該待測(cè)樣本可能位于模型的決策邊界附近,易被賦予錯(cuò)誤樣本標(biāo)簽。為進(jìn)一步提升所構(gòu)建訓(xùn)練子集偽標(biāo)簽準(zhǔn)確率,本文通過(guò)引入糾正閾值Euclid Math OneTApr,即對(duì)于滿(mǎn)足Scor(x(u))≥Euclid Math OneTApr的樣本予以剔除,而對(duì)于滿(mǎn)足Scor(x(u))<Euclid Math OneTApr的待測(cè)樣本更有可能遠(yuǎn)離決策邊界,并且可以從其鄰近樣本推導(dǎo)出更為可靠的偽標(biāo)簽。在此基礎(chǔ)上,本文對(duì)于滿(mǎn)足Scor(x(u))<Euclid Math OneTApr的待測(cè)樣本執(zhí)行以下標(biāo)簽糾正操作:
(u)=argmaxc∑Kk=1w(x(u);k)×py(y(u)k)(11)
其中:(u)表示為待測(cè)樣本x(u)經(jīng)鄰域樣本糾正后的標(biāo)簽,并采用w(x(u);k)=1-J(p(y|x(u)),py(y(u)k))以表示第k個(gè)鄰近樣本標(biāo)簽可靠性。基于以上篩選標(biāo)準(zhǔn),可得以下重標(biāo)記訓(xùn)練子集:
Drelab←{(xi,i)|Scor(xi)<Euclid Math OneTApr,xi∈Dnoisy}(12)
值得注意的是,與鄰域樣本劃分過(guò)程相同,在鄰域樣本糾正過(guò)程中,本文同樣采用雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)方法,將一個(gè)網(wǎng)絡(luò)模型所劃分樣本交予另一模型進(jìn)行訓(xùn)練以及參數(shù)更新以避免認(rèn)知偏差問(wèn)題。鄰域樣本劃分及糾正算法如圖5所示。
2.2.3 魯棒性訓(xùn)練
在經(jīng)過(guò)鄰域樣本劃分以及鄰域樣本糾正后,可得訓(xùn)練子集Dclean以及Drelab,為進(jìn)一步增強(qiáng)模型魯棒性,本文參照文獻(xiàn)[36]分別對(duì)Dclean以及Drelab執(zhí)行標(biāo)簽重加權(quán)以及一致性正則化以減輕訓(xùn)練過(guò)程中誤標(biāo)記對(duì)模型產(chǎn)生的負(fù)面影響。
對(duì)于訓(xùn)練子集Dclean中的數(shù)據(jù),本文首先對(duì)其執(zhí)行以下標(biāo)簽細(xì)化操作:
=(1-Sver(x,y))py(y)+Sver(x,y)py(y|x)(13)
其中:py(y)表示為標(biāo)簽的獨(dú)熱編碼,(1-Sver(x,y))為另一網(wǎng)絡(luò)模型所輸出的標(biāo)簽可靠性,減少因錯(cuò)誤劃分樣本而引起的負(fù)面影響。
隨后對(duì)其進(jìn)行銳化操作以降低其熵:
y=Sharpen(,T)=c1T/∑Cc=1c1T c=1,…,C(14)
其中:T為溫度系數(shù)。
最后采用MixUp[27]方法加權(quán)組合不同類(lèi)別樣本數(shù)據(jù),構(gòu)建更為平滑的決策邊界,限制模型過(guò)擬合于非結(jié)構(gòu)化噪聲標(biāo)簽,在Dclean同一訓(xùn)練批次量為B的批次中,隨機(jī)選取訓(xùn)練樣本xi、xj以及相應(yīng)經(jīng)細(xì)化和銳化操作的訓(xùn)練標(biāo)簽yi、yj,對(duì)其進(jìn)行權(quán)值為λ的加權(quán)組合:
=λxi+(1-λ)xj,=λyi+(1-λ)yj(15)
其中:參數(shù)λ服從Beta分布:λ~Beta(α),α為其標(biāo)量參數(shù)。其加權(quán)訓(xùn)練樣本及其加權(quán)標(biāo)簽損失函數(shù)為
Lmix=-∑Bb=1blogp(y|b)(16)
對(duì)于訓(xùn)練子集Drelab,本文通過(guò)對(duì)其引入一致性正則化即對(duì)輸入樣本施行數(shù)據(jù)增強(qiáng)并迫使模型輸出相同目標(biāo)分類(lèi)值,實(shí)現(xiàn)判別能力增強(qiáng),以避免模型產(chǎn)生過(guò)度擬合于噪聲標(biāo)簽數(shù)據(jù)[37],進(jìn)一步提升模型魯棒性:
Lrel=∑B′b′=1py(yb′)logp(y|Aug(xb′))(17)
其中:B′為訓(xùn)練批量大?。籄ug(·)表示對(duì)樣本進(jìn)行數(shù)據(jù)增強(qiáng)操作。
總體訓(xùn)練目標(biāo)為最小化以下綜合損失:
L=Lmix+Lrel(18)
對(duì)于測(cè)試樣本數(shù)據(jù)xtest,模型對(duì)其輸出預(yù)測(cè)test為fA以及fB的集成預(yù)測(cè)值:
test=12(fA(xtest)+fB(xtest))(19)
所提鄰域樣本分析算法如算法1所示。
算法1 鄰域樣本分析算法
輸入:訓(xùn)練集故障診斷模型fA以及fB;總訓(xùn)練輪次Ttr;模型采用交叉熵?fù)p失函數(shù)預(yù)熱輪次Twu。
輸出:訓(xùn)練完備模型fA以及fB。
a)while t<Ttr do
b) if t<Twu
c) fA,fB=WarmUp(CE,fA,fB) /*采用交叉熵?fù)p失對(duì)模型進(jìn)行預(yù)熱訓(xùn)練*/
d) else
e) 采用fB執(zhí)行式(8)鄰域樣本劃分與式(12)鄰域樣本糾正劃分fA的訓(xùn)練子集{D(A)clean,D(A)relab}
f) 采用fA執(zhí)行式(8)鄰域樣本劃分與式(12)鄰域樣本糾正劃分fB的訓(xùn)練子集{D(B)clean,D(B)relab}
g) for k in A,B do
h) 對(duì)于訓(xùn)練子集D(k)clean,采用式(15)獲取其加權(quán)樣本以及加權(quán)標(biāo)簽
i) 對(duì)于訓(xùn)練子集D(k)relab,獲取其數(shù)據(jù)增強(qiáng)樣本Aug(x)
j) L(k)=Lmix+Lrel
k) end for
l) L=12(L(A)+L(B))
m) fA,fB=SGD(L,fA,fB)//采用隨機(jī)梯度下降更新模型參數(shù)
n)end while
3 實(shí)驗(yàn)驗(yàn)證
本文在公共數(shù)據(jù)集上對(duì)所提CLNSA方法進(jìn)行驗(yàn)證以進(jìn)一步證明方法有效性。首先對(duì)數(shù)據(jù)集進(jìn)行系統(tǒng)性介紹,然后提供模型框架及其相關(guān)參數(shù)設(shè)置,最后闡述了本文算法與其他方法的比較實(shí)驗(yàn)結(jié)果,并開(kāi)展消融實(shí)驗(yàn)以驗(yàn)證所提不同模塊有效性。
3.1 實(shí)驗(yàn)數(shù)據(jù)集介紹
a)德國(guó)帕德博恩大學(xué)(Paderborn University,PU)軸承數(shù)據(jù)集,其實(shí)驗(yàn)臺(tái)主要由軸承測(cè)試模塊、扭矩測(cè)量軸以及電機(jī)組成。實(shí)驗(yàn)軸承為6203型球軸,采樣頻率為64 kHz。根據(jù)軸承故障位置及損壞尺度可將其劃分為如表1所示的5類(lèi)健康狀態(tài)。
b)凱斯西儲(chǔ)大學(xué)(Case Western Reserve University,CWRU)軸承數(shù)據(jù)集,實(shí)驗(yàn)臺(tái)主要由電機(jī)、扭矩傳感器以及控制電子設(shè)備組成。軸承型號(hào)為深溝球軸承SKF6205,采樣頻率為12 kHz。實(shí)驗(yàn)中通過(guò)電火花加工技術(shù)模擬常見(jiàn)軸承故障類(lèi)型,每種故障類(lèi)型的損傷直徑分別為0.18 mm、0.36 mm、0.54 mm三種尺寸,此外包括正常運(yùn)行狀態(tài)的軸承振動(dòng)信號(hào),如表2所示共計(jì)10種健康狀態(tài),每類(lèi)狀態(tài)訓(xùn)練樣本數(shù)為100。
表2 CWRU實(shí)驗(yàn)數(shù)據(jù)集
參照文獻(xiàn)[7]對(duì)訓(xùn)練數(shù)據(jù)集標(biāo)簽進(jìn)行隨機(jī)翻轉(zhuǎn)以引入標(biāo)簽噪聲。圖6為PU數(shù)據(jù)集40%噪聲率情況下的標(biāo)簽轉(zhuǎn)移矩陣。
(i)=y(i)→(i)with probability 1-ηy(i)→(j)j∈C,j≠i,with probability η/(C-1)(20)
其中:η為噪聲率;C為樣本類(lèi)別數(shù)。
3.2 模型參數(shù)設(shè)置
本文所提故障診斷特征提取網(wǎng)絡(luò)由一維殘差神經(jīng)網(wǎng)絡(luò)[38]構(gòu)成,模型結(jié)構(gòu)如圖7(a)所示,投影層由兩層全連接層構(gòu)成,隱藏層維度為512維,輸出128維低維嵌入向量。同時(shí)為更好地提取故障信號(hào)中的時(shí)域信息,本文采用經(jīng)Z-score歸一化的一維振動(dòng)信號(hào)作為模型輸入。模型對(duì)比學(xué)習(xí)預(yù)訓(xùn)練過(guò)程中所用優(yōu)化器為Adam優(yōu)化算法,學(xué)習(xí)率設(shè)置為0.02,對(duì)比溫度參數(shù)設(shè)置為0.2,迭代輪次為200。并選取序列轉(zhuǎn)置、加入高斯噪聲、信號(hào)放縮、隨機(jī)信號(hào)置零作為增強(qiáng)方式,數(shù)據(jù)增強(qiáng)效果如圖7(b)所示。在對(duì)比學(xué)習(xí)預(yù)訓(xùn)練結(jié)束后,將獲得的特征提取主干網(wǎng)絡(luò)引入鄰域樣本分析任務(wù)中。模型首先采用交叉熵?fù)p失函數(shù)進(jìn)行預(yù)熱(warm up)10輪后執(zhí)行鄰域樣本分析算法。為使故障診斷模型效果達(dá)到最佳診斷精度,本文在CWRU數(shù)據(jù)集中80%噪聲率下對(duì)3個(gè)關(guān)鍵超參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn),獲得了其在設(shè)置不同搜索鄰近樣本數(shù)量K、閾值Euclid Math OneTAp以及糾正閾值Euclid Math OneTApr下的診斷精度,結(jié)果如圖8所示。最終確定搜索鄰近樣本數(shù)量K為20,閾值Euclid Math OneTAp以及糾正閾值Euclid Math OneTApr分別設(shè)置為0.7和0.01。標(biāo)簽重加權(quán)過(guò)程中溫度系數(shù)Euclid Math OneTAp設(shè)置為0.5,標(biāo)量參數(shù)α設(shè)置為4,PU數(shù)據(jù)集中迭代輪次設(shè)置為50,CWRU數(shù)據(jù)集迭代輪次設(shè)置為150。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文將采用交叉熵?fù)p失(cross entropy,CE)訓(xùn)練模型的方法作為基準(zhǔn)故障診斷方法,并選取APL[25]、Coteaching+[39]、MixUp[27]、SAT[40]、NAL[29]、DivideMix[15]作為對(duì)比方法,在四種標(biāo)簽噪聲率下進(jìn)行故障診斷實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示,經(jīng)對(duì)比學(xué)習(xí)預(yù)訓(xùn)練后的特征t-SNE可視化圖如圖9(a)(b)所示,80%k73fL7ekVYYQ9VEnWMjLbA==噪聲率情況下各方法分類(lèi)準(zhǔn)確率對(duì)比圖如圖9(c)(d)所示。
僅采用交叉熵進(jìn)行模型訓(xùn)練的方法易因過(guò)擬合于噪聲數(shù)據(jù)而使得診斷精度急速下降,進(jìn)一步說(shuō)明傳統(tǒng)的深度學(xué)習(xí)方法對(duì)于標(biāo)簽噪聲數(shù)據(jù)魯棒性較差。而APL通過(guò)采用魯棒性損失函數(shù)增強(qiáng)了模型在較低噪聲率情形下的診斷精度,然而在較高噪聲率情況下仍易產(chǎn)生欠擬合現(xiàn)象,無(wú)法有效表征故障信息。MixUp通過(guò)加權(quán)組合不同類(lèi)別樣本數(shù)據(jù),在各類(lèi)數(shù)據(jù)之間的決策邊界中進(jìn)行線(xiàn)性轉(zhuǎn)換,使得模型趨向于學(xué)習(xí)結(jié)構(gòu)化特征,限制其過(guò)擬合于非結(jié)構(gòu)化標(biāo)簽,有效增強(qiáng)模型對(duì)于標(biāo)簽噪聲的魯棒性。通過(guò)小損失準(zhǔn)則進(jìn)行樣本篩選,Coteaching+在低中等噪聲率情形下實(shí)現(xiàn)了良好的診斷結(jié)果。然而,隨著噪聲率的增加,訓(xùn)練數(shù)據(jù)的丟棄比例以及識(shí)別噪聲樣本難度隨之提高,使其在一些高噪聲情況下表現(xiàn)不佳,在PU以及CWRU數(shù)據(jù)集中80%噪聲率情況下故障診斷精度僅為77.46%以及57.81%。SAT通過(guò)分析模型早期學(xué)習(xí)特性,通過(guò)集成模型預(yù)測(cè)以糾正訓(xùn)練樣本標(biāo)簽,防止模型過(guò)度擬合原始噪聲標(biāo)簽,在各噪聲率情況下均取得了良好的效果。NAL通過(guò)分析模型對(duì)于噪聲樣本早期訓(xùn)練狀況,引入注意力權(quán)重分支以表征模型對(duì)噪聲數(shù)據(jù)以及正確標(biāo)注樣本學(xué)習(xí)情況,并將其輸出注意力權(quán)重值作為正則化項(xiàng)引入損失函數(shù),減少了噪聲數(shù)據(jù)的梯度表示。DivideMix通過(guò)高斯混合算法分離噪聲樣本,并采用MixMatch算法增強(qiáng)其對(duì)噪聲樣本魯棒性,在各種噪聲率情況下均能取得良好的診斷精度。本文CLNSA方法采用對(duì)比學(xué)習(xí)預(yù)訓(xùn)練增強(qiáng)模型特征表示,能夠基本實(shí)現(xiàn)同類(lèi)樣本在特征空間的聚集,并采用雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)策略,有效減緩了模型認(rèn)知偏差問(wèn)題,在此基礎(chǔ)上結(jié)合鄰域樣本分析算法以及魯棒性學(xué)習(xí)策略充分利用樣本特征空間信息以構(gòu)建完備標(biāo)簽空間映射關(guān)系,在各噪聲率下均能達(dá)到最優(yōu)診斷精度。
為進(jìn)一步證明本文CLNSA方法劃分標(biāo)簽噪聲的有效性,采用式(8)對(duì)CWRU數(shù)據(jù)集80%噪聲率情況下訓(xùn)練輪次為20,以及120情況下樣本標(biāo)簽不確定性進(jìn)行分析,如圖10所示,clean代表標(biāo)注正確樣本,noisy代表標(biāo)注錯(cuò)誤樣本,圖(a)(b)為不采用對(duì)比學(xué)習(xí)預(yù)訓(xùn)練的本文方法,圖(c)(d)為本文方法,可知所提鄰域樣本劃分方法能夠較好地識(shí)別噪聲樣本,并給予其較大的樣本不確定性,從而有效地劃分噪聲樣本以及正確標(biāo)注樣本。同時(shí),在模型經(jīng)過(guò)對(duì)比學(xué)習(xí)預(yù)訓(xùn)練后,能夠有效提升模型劃分噪聲樣本的能力,減少了其錯(cuò)誤擬合于噪聲樣本的可能,進(jìn)一步增強(qiáng)模型噪聲魯棒性。
為進(jìn)一步探究本文所提CLNSA方法在標(biāo)簽噪聲情況下的魯棒性,參照文獻(xiàn)[29,41],對(duì)標(biāo)簽噪聲下模型對(duì)訓(xùn)練樣本擬合過(guò)程進(jìn)行分析,如圖11所示,圖(a)(b)為CWRU數(shù)據(jù)集在40%以及80%噪聲率下采用交叉熵?fù)p失函數(shù)訓(xùn)練所得各參數(shù)示意圖,其中correct代表模型對(duì)于標(biāo)注錯(cuò)誤樣本輸出正確預(yù)測(cè)值的樣本個(gè)數(shù)占總標(biāo)注錯(cuò)誤樣本的比例,memorized代表模型輸出與標(biāo)注錯(cuò)誤樣本標(biāo)簽一致的比例,incorrect代表模型輸出預(yù)測(cè)既與樣本實(shí)際標(biāo)簽不一致,也與錯(cuò)誤標(biāo)注標(biāo)簽不一致的比例。可知采用交叉熵進(jìn)行模型訓(xùn)練的方法在早期訓(xùn)練階段會(huì)首先學(xué)習(xí)正確標(biāo)注樣本,而對(duì)錯(cuò)誤標(biāo)注樣本輸出正確預(yù)測(cè)值,但隨著訓(xùn)練輪次的增加,模型會(huì)因標(biāo)簽噪聲影響使得特征表示受損,習(xí)得特征表述逐步偏離真實(shí)特征分布,并最終完全擬合于噪聲樣本分布,使得分類(lèi)精度不佳。圖(c)(d)為采用CLNSA進(jìn)行訓(xùn)練的噪聲數(shù)據(jù)擬合狀況,可知本文方法受標(biāo)簽噪聲樣本影響較小,具有較為良好的標(biāo)簽噪聲魯棒性。這可能是由于本文方法開(kāi)始逐步擬合于噪聲樣本前執(zhí)行鄰域樣本劃分以及鄰域樣本糾正方法,分離噪聲樣本,減少模型記憶錯(cuò)誤樣本數(shù)量,緩解了噪聲樣本對(duì)模型特征表示訓(xùn)練的負(fù)面影響,使得模型訓(xùn)練樣本趨向于樣本真實(shí)分布,緩解了模型認(rèn)知偏差問(wèn)題,具有較好的魯棒性。
3.4 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證本文所提模塊:雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)、對(duì)比學(xué)習(xí)預(yù)訓(xùn)練、標(biāo)簽重加權(quán)以及一致性正則化,通過(guò)設(shè)計(jì)以下五組對(duì)比實(shí)驗(yàn)以探究各模塊效果,消融實(shí)驗(yàn)結(jié)果如表4所示,w/o代表移除該模塊。
a)雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)策略。采用單網(wǎng)絡(luò)訓(xùn)練框架架構(gòu)在訓(xùn)練過(guò)程中易受錯(cuò)誤樣本劃分及偽標(biāo)簽糾正影響,通過(guò)雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)策略,能夠有效減輕模型認(rèn)知偏差問(wèn)題,分別在40%以及80%噪聲率情況下提高0.28%以及0.88%的診斷精度??紤]到采用雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)需要同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò),會(huì)帶來(lái)額外的運(yùn)算成本,本文對(duì)模型運(yùn)行時(shí)間以及測(cè)試推理時(shí)間進(jìn)行進(jìn)一步分析,如表5所示??芍m然采用協(xié)同學(xué)習(xí)策略使得模型訓(xùn)練時(shí)間增長(zhǎng),但在測(cè)試推理環(huán)節(jié),所用時(shí)間相差無(wú)幾,且采用協(xié)同學(xué)習(xí)方法能夠?qū)崿F(xiàn)更為可靠的故障診斷,能夠達(dá)成較為迅速且準(zhǔn)確的故障推理。
b)對(duì)比學(xué)習(xí)預(yù)訓(xùn)練。在經(jīng)對(duì)比學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練后模型在各噪聲率水平情況下故障診斷精度均有提升,鄰域樣本劃分及糾正準(zhǔn)確率如圖12所示,在引入對(duì)比學(xué)習(xí)預(yù)訓(xùn)練過(guò)程后,能夠減少錯(cuò)誤樣本劃分,使得模型訓(xùn)練樣本趨向于真實(shí)分布,進(jìn)一步提高模型從噪聲數(shù)據(jù)集中的學(xué)習(xí)故障信息的能力和穩(wěn)定性。
c)標(biāo)簽重加權(quán)。為進(jìn)一步驗(yàn)證標(biāo)簽重加權(quán)方法的有效性,對(duì)80%噪聲率下的鄰域樣本劃分和糾正準(zhǔn)確率以及模型訓(xùn)練樣本擬合情況進(jìn)行分析,如圖13所示??芍P驮谟?xùn)練初期無(wú)法較好地?cái)M合樣本分布,易導(dǎo)致大量數(shù)據(jù)被錯(cuò)誤劃分,僅采用交叉熵?fù)p失進(jìn)行訓(xùn)練易使得模型逐漸擬合于噪聲樣本數(shù)據(jù),并逐漸損害模型特征表示,而通過(guò)引入標(biāo)簽重加權(quán)機(jī)制能夠有效結(jié)合標(biāo)簽不確定性并采用MixUp正則化方法對(duì)于所構(gòu)建劃分樣本子集魯棒性,減少模型因錯(cuò)誤劃分樣本而引起的梯度表示。分別在40%以及80%噪聲率情況下提高模型0.88%以及11.52%的診斷精度。
d)一致性正則化。在鄰域樣本糾正過(guò)程中,仍有部分樣本會(huì)被賦予錯(cuò)誤標(biāo)記樣本,通過(guò)引入一致性正則化能夠有效使得模型趨向于學(xué)習(xí)結(jié)構(gòu)化特征,進(jìn)一步提升模型泛化能力。
4 結(jié)束語(yǔ)
針對(duì)實(shí)際故障數(shù)據(jù)集中因人工誤標(biāo)而引起的標(biāo)簽噪聲,導(dǎo)致模型特征表達(dá)能力減弱,診斷精度下降的問(wèn)題,本文提出一種結(jié)合對(duì)比學(xué)習(xí)與鄰域樣本分析(CLNSA)的故障診斷方法。首先通過(guò)引入對(duì)比學(xué)習(xí)預(yù)訓(xùn)練方法,為后續(xù)鄰域樣本分析算法提供較為良好的特征表示,提升所構(gòu)建訓(xùn)練子集標(biāo)簽可靠性,減少噪聲數(shù)據(jù)的負(fù)面影響。其次提出鄰域樣本分析方法,通過(guò)分析特征空間中同類(lèi)樣本具有更為相近的映射距離的特點(diǎn),執(zhí)行鄰域樣本劃分及糾正,并針對(duì)所構(gòu)建訓(xùn)練子集提出魯棒性訓(xùn)練方法,增強(qiáng)模型魯棒性。此外,通過(guò)引入雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)策略,減少訓(xùn)練過(guò)程中所引起的認(rèn)知偏差問(wèn)題。最后通過(guò)分析與實(shí)驗(yàn)驗(yàn)證,證明了本文方法的有效性。然而,在數(shù)據(jù)標(biāo)注過(guò)程中,同樣可能將與目標(biāo)標(biāo)注樣本特征分布不一致的分布外樣本(out of distribution,OOD)誤標(biāo)注為目標(biāo)標(biāo)注樣本,即分布外噪聲標(biāo)簽數(shù)據(jù)問(wèn)題[42],在未來(lái)的研究中將進(jìn)一步探究如何解決分布外噪聲標(biāo)簽問(wèn)題。
參考文獻(xiàn):
[1]曹正志,葉春明.基于并聯(lián)CNN-SE-Bi-LSTM的軸承剩余使用壽命預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2021,38(7):2103-2107.(Cao Zhengzhi,Ye Chunming.Prediction of bearing remaining useful life based on parallel CNN-SE-Bi-LSTM[J].Application Research of Computers,2021,30(3):126-133.)
[2]曹正志,葉春明.改進(jìn)CNN-LSTM模型在滾動(dòng)軸承故障診斷中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(3):126-133.(Cao Zhengzhi,Ye Chunming.Application of improved CNN-LSTM model in fault diagnosis of rolling bearings[J].Computer Systems & Applications,2021,30(3):126-133.)
[3]曹正志,葉春明.考慮轉(zhuǎn)動(dòng)周期的軸承剩余使用壽命預(yù)測(cè)[J].計(jì)算機(jī)集成制造系統(tǒng),2023,29(8):2743-2750.(Cao Zhengzhi,Ye Chunming.Prediction of bearing remaining useful life involving rotation period[J].Computer Integrated Manufacturing Systems,2023,29(8):2743-2750.)
[4]周華鋒,程培源,邵思羽,等.基于動(dòng)態(tài)卷積多層域自適應(yīng)的軸承故障診斷[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2098-2103.(Zhou Huafeng,Cheng Peiyuan,Shao Siyu,et al.Bearing fault diagnosis based on dynamic convolution multi-layer domain adaptive[J].Application Research of Computers,2022,39(7):2098-2103.)
[5]Zhang Shuo,Liu Zhiwen,Chen Yunping,et al.Selective kernel convolution deep residual network based on channel-spatial attention mecha-nism and feature fusion for mechanical fault diagnosis[J].ISA Transactions,2023,133:369-383.
[6]Xu Zifei,Bashir M,Zhang Wanfu,et al.An intelligent fault diagnosis for machine maintenance using weighted soft-voting rule based multi-attention module with multi-scale information fusion[J].Information Fusion,2022,86:17-29.
[7]Nie Xiaoyin,Xie Gang.A novel framework using gated recurrent unit for fault diagnosis of rotary machinery with noisy labels[J].Measurement Science and Technology,2021,32(5):1271-1288.
[8]Wang Huan,Li Yanfu.Robust mechanical fault diagnosis with noisy label based on multistage true label distribution learning[J].IEEE Trans on Reliability,2022,72(3):1-14.
[9]Liang Pengfei,Wang Wenhui,Yuan Xiaoming,et al.Intelligent fault diagnosis of rolling bearing based on wavelet transform and improved ResNet under noisy labels and environment[J].Engineering Applications of Artificial Intelligence,2022,115:105269.
[10]Zhang Kai,Tang Baoping,Deng Lei,et al.A fault diagnosis method for wind turbines gearbox based on adaptive loss weighted meta-ResNet under noisy labels[J].Mechanical Systems and Signal Proces-sing,2021,161:107963.
[11]Song Huanjun,Kim M,Park D,et al.Learning from noisy labels with deep neural networks:a survey[J].IEEE Trans on Neural Networks and Learning Systems,2022,34(11):1-15.
[12]Arpit D,Jastrzbski S,Ballas N,et al.A closer look at memorization in deep networks[C]//Proc of the 34th International Conference on Machine Learning.[S.l.]:JMLR.org,2017:233-242.
[13]Han Bo,Yao Quanming,Yu Xingrui,et al.Co-teaching:robust trai-ning of deep neural networks with extremely noisy labels[C]//Proc of the 32nd Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:8527-8537.
[14]Chen Pengfei,Liao Benben,Chen Guangyong,et al.Understanding and utilizing deep neural networks trained with noisy labels[C]//Proc of the 36th International Conference on Machine Learning.[S.l.]:PMLR,2019:1062-1070.
[15]Li Junnan,Richard S,Steven C H.DivideMix:learning with noisy labels as semi-supervised learning[C]//Proc of the 8th International Conference on Learning Representations.[S.l.]:OpenReview.net,2020:1-13.
[16]Wei Qi,Sun Haoliang,Lu Xiankai,et al.Self-filtering:a noise-aware sample selection for label noise with confidence penalization[C]//Proc of the 17th European Conference on Computer Vision.Berlin:Springer,2022:516-532.
[17]Kihyuk S,David B,Nicholas C,et al.FixMatch:simplifying semi-supervised learning with consistency and confidence[C]//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2020:596-608.
[18]Zheltonozhskii E,Chaim B,Avi M,et al.Contrast to divide:self-supervised pre-training for learning with noisy labels[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:1657-1667.
[19]Wang Tongzhou,Isola P.Understanding contrastive representation learning through alignment and uniformity on the hypersphere[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]:PMLR,2020:9871-9881.
[20]Li Junnan,Xiong Caiming,Steven C H.Learning from noisy data with robust representation learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:9485-9494.
[21]Tan Cheng,Xia Jun,Wu Lirong,et al.Co-learning:learning from noisy labels with self-supervision[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:1405-1413.
[22]Huang Bin,Alhudhaifet A,F(xiàn)ayadh A,et al.Balance label correction using contrastive loss[J].Information Sciences,2022(607):1061-1073.
[23]Ghosh A,Kumar H,Sastry P S.Robust loss functions under label noise for deep neural networks[C]//Proc of the 31st Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1919-1925.
[24]Zhang Zhilu,Sabuncu M R.Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Proc of the 32nd Confe-rence on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:8778-8788.
[25]Ma Xingjun,Huang Hanxun,Wang Yisen,et al.Normalized loss functions for deep learning with noisy labels[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]:JMLR.org,2020:6543-6553.
[26]Zhu Zhaowei,Song Yiwen,Liu Yang.Clusterability as an alternative to anchor points when learning with noisy labels[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]:PMLR,2021:12912-12923.
[27]Zhang Hongyi,Cisse M,Dauphin Y N,et al.MixUp:beyond empirical risk minimization[C]//Proc of the 6th International Conference on Learning Representations.[S.l.]:OpenReview.net,2018:1-13.
[28]Lukasik M,Bhojanapalli S,Menon A K,et al.Does label smoothing mitigate label noise?[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]:JMLR.org,2020:6404-6414.
[29]Lu Yangdi,Bo Yang,He Wenbo.Noise attention learning:enhancing noise robustness by gradient scaling[C]//Proc of the 36th Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2024:23164-23177.
[30]Iscen A,Valmadre J,Arnab A,et al.Learning with neighbor consistency for noisy labels[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:4662-4671.
[31]Arazo E,Ortego D,Albert P,et al.Unsupervised label noise modeling and loss correction[C]//Proc of the 36th International Conference on Machine Learning.[S.l.]:PMLR,2019:465-474.
[32]Zhang Ziyi,Chen Weikai,F(xiàn)ang Chaowei,et al.RankMatch:fostering confidence and consistency in learning with noisy labels[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:1644-1654.
[33]Karim N,Rizve M N,Rahnavard N,et al.UNICON:combating label noise through uniform selection and contrastive learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:9666-9676.
[34]Chen Ting,Kornblith S,Norouzi M,et al.A simple framework for con-trastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]:JMLR.org,2020:1575-1585.
[35]Ortego D,Arazo E,Albert P,et al.Multi-objective interpolation trai-ning for robustness to label noise[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:6602-6611.
[36]Li Jichang,Li Guanbin,Liu Feng,et al.Neighborhood collective estimation for noisy label identification and correction[C]//Proc of the 17th European Conference on Computer Vision.Cham:Springer,2022:128-145.
[37]Englesson E,Azizpour H.Consistency regularization can improve robustness to label noise[EB/OL].(2021-10-04).https://arxiv.org/abs/2110.01242.
[38]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Identity mappings in deep residual networks[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:630-645.
[39]Yu Xingrui,Han Bo,Yao Jiangchao,et al.How does disagreement help generalization against label corruption?[C]//Proc of the 36th International Conference on Machine Learning.[S.l.]:PMLR,2019:7164-7173.
[40]Huang Lang,Zhang Chao,Zhang Hongyang.Self-adaptive training:beyond empirical risk minimization[C]//Proc of the 34th Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associa-tes Inc.,2020:19365-19376.
[41]Liu Sheng,Niles-Weed J,Razavian N,et al.Early-learning regularization prevents memorization of noisy labels[C]//Proc of the 34th Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2020:1-12.
[42]Wu Zhifan,Wei Tong,Jiang Jianwen,et al.NGC:a unified framework for learning with open-world noisy data[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:62-71.