徐 凱,張會妨
(1.新鄉(xiāng)職業(yè)技術(shù)學(xué)院 數(shù)控技術(shù)學(xué)院,河南 新鄉(xiāng) 453000;2.新鄉(xiāng)職業(yè)技術(shù)學(xué)院 教務(wù)處,河南 新鄉(xiāng) 453000)
隨著科學(xué)技術(shù)的發(fā)展,工程數(shù)據(jù)處理與挖掘技術(shù)的進步為復(fù)雜系統(tǒng)的控制和可靠性的提高提供了可能性[1-3]。
對機械設(shè)備中的關(guān)鍵零部件進行有效分析,進而對設(shè)備進行缺陷識別,這已經(jīng)成為工業(yè)界廣泛關(guān)注的問題[4]。滾動軸承在機械設(shè)備中承擔旋轉(zhuǎn)、支承和傳遞載荷等功能,而套圈溝道的表面缺陷直接影響著軸承服役的性能和壽命。因此,研究軸承溝道的缺陷識別具有重要意義[5]。
近幾年來,隨著傳感器技術(shù)的發(fā)展,大量的監(jiān)測數(shù)據(jù)被記錄了下來。針對零部件觀測數(shù)據(jù)呈現(xiàn)大規(guī)模、非線性、高維度的特點,為了充分利用觀測到的數(shù)據(jù),目前采取的較流行的方法是利用機器學(xué)習(xí)構(gòu)建模型,從而實現(xiàn)特征與輸出結(jié)果的非線性映射。由于算法的輸出與輸入的特征關(guān)系密切,并非所有的輸入都是有效信息,因此,需要對原始信號特征進行特征選擇[6]。特征選擇是從原始特征中選擇出一些有效特征,其目的是降低數(shù)據(jù)集維度,過濾冗余特征,提高算法的表現(xiàn)性能。由于在初始特征提取階段無法確定原始信號特征對機器學(xué)習(xí)模型預(yù)測結(jié)果的影響程度,因此,需要盡可能保留更多采集到的信號特征,這導(dǎo)致構(gòu)建影響軸承表面完整性的特征集合呈現(xiàn)復(fù)雜特性,極大地增加了訓(xùn)練成本。史楊梅等人[7]基于小波多尺度分析和極度梯度提升樹(XGBoost),提出了一種融合特征選擇相結(jié)合的軸承故障診斷算法,實現(xiàn)了故障有效特征選擇的目的,提高了軸承故障的識別精度。侯鈺哲等人[8]將灰狼優(yōu)化算法與過濾法相結(jié)合,提出了一種軸承缺陷識別方法,實現(xiàn)了冗余特征過濾的目的,顯著提高了軸承缺陷識別的準確率。范春旸等人[9]提出了一種基于平均精確率減少的故障特征選擇方法,并借此對軸承故障進行了分析,結(jié)果表明該方法能夠選擇出對軸承狀態(tài)較為重要的特征,實現(xiàn)對原始數(shù)據(jù)進行降維的目的,提高了軸承狀態(tài)的識別準確率,并且具有較好的普適性。
上述這些方法雖然能夠?qū)崿F(xiàn)軸承故障特征選擇的目的,但只考慮了特征與標簽之間的潛在關(guān)系,而忽略了特征之間的復(fù)雜關(guān)系。
進行故障特征篩選后,采用合適的機器學(xué)習(xí)算法,能夠有效地提高機械表面缺陷的識別精度。GUAN Shan-yue等人[10]將頻域信號的特征與遺傳算法(genetic algorithm,GA)、支持向量機(support vector machine,SVM)相結(jié)合,用以識別機械表面的缺陷信息,取得了一定的成效。侯智等人[11]采用前饋神經(jīng)網(wǎng)絡(luò)(back propagation,BP),建立了主成分與溝道表面粗糙度之間的映射關(guān)系模型,并且有效地提高了軸承套圈溝道磨削過程的質(zhì)量監(jiān)控能力。劉文芳等人[12]將數(shù)字信號處理與支持向量機相結(jié)合,實現(xiàn)了對機械表面缺陷位置進行準確計算的目的。曾昭洋等人[13]采用多維尺度法(multidimensional scaling,MDS)和主成分分析法(principal component analysis,PCA),對軸承內(nèi)圈溝道表面粗糙度的數(shù)據(jù)進行了研究,分析了數(shù)據(jù)之間的關(guān)系,探索了航空發(fā)動機主軸軸承運行時的滑蹭特性。
上述研究結(jié)果表明:雖然機器學(xué)習(xí)方法被廣泛用于軸承溝道的缺陷檢測,但是在該領(lǐng)域,針對自動化參數(shù)調(diào)整方法的研究卻相對較少。
針對這些問題和不足,筆者提出一種基于RFE-BXGBoost的軸承套圈溝道表面缺陷的識別模型。
首先,針對軸承溝道表面缺陷信號特征的高維度監(jiān)測特征,筆者采用遞歸特征消除法(recursive feature elimination,RFE)[14]對信號特征進行篩選;然后,將篩選后的特征作為經(jīng)過改進的極度梯度提升樹模型的輸入,建立軸承套圈溝道的缺陷識別模型,以期實現(xiàn)對軸承套圈溝道缺陷的準確識別。
RFE[15]是一種基于模型訓(xùn)練結(jié)果進行特征選擇的貪婪優(yōu)化算法,可以用于對軸承溝道的監(jiān)測特征進行排序,選出最優(yōu)的特征,以此來構(gòu)建軸承的缺陷類別識別模型,有效減少影響軸承溝道缺陷識別精度的冗余特征,提高學(xué)習(xí)器對軸承溝道缺陷的識別性能。
RFE通過反復(fù)迭代,在每次迭代時保留最佳特征或剔除影響程度最低的監(jiān)測特征,進行下次迭代時,通過使用上一輪未被選擇的監(jiān)測特征構(gòu)建新的模型,直到所有影響軸承溝道表面缺陷識別精度的特征被充分利用。
筆者根據(jù)保留或者剔除缺陷特征的順序?qū)ΡO(jiān)測特征進行排名,從而獲得構(gòu)成代表軸承溝道信息的最佳監(jiān)測特征集合。
XGBoost算法由CHEN Tian-qi等人[16]提出,致力于讓提升樹突破自身計算極限,以達到快速運算、提升性能的目的。
和傳統(tǒng)的梯度提升算法相比,XGBoost進行了改進,能夠比其他使用梯度提升的集成算法更加高效,具有強大的預(yù)測性能。
XGBoost被用于軸承套圈溝道的缺陷識別,能夠充分利用代表軸承溝道特征集合的有效信息,在提高識別精度的同時降低過擬合的風(fēng)險。
其整體迭代的數(shù)學(xué)表達式為:
Hk(xi)=Hk-1(xi)+fk(xi)
(1)
式中:Hk(xi)為k棵樹上i號樣本的預(yù)測結(jié)果;Hk-1(xi)為第i號樣本在前k-1棵樹上的預(yù)測結(jié)果;fk(xi)為第i號樣本在第k棵樹上的預(yù)測結(jié)果。
XGBoost的訓(xùn)練流程如圖1所示。
圖1 XGBoost的訓(xùn)練流程
在訓(xùn)練過程中,XGBoost實現(xiàn)了樹模型的學(xué)習(xí)能力和過擬合風(fēng)險之間平衡的目的。
其目標函數(shù)數(shù)學(xué)表達式為:
(2)
(3)
式中:T為每棵樹中的葉子節(jié)點數(shù)量;w為葉子權(quán)重。
對XGBoost而言,fk只和單個樣本的預(yù)測精度有關(guān),T與樹的結(jié)構(gòu)有關(guān),wj與精度和樹結(jié)構(gòu)都有關(guān)系。
因此,由二階泰勒展開式可得:
(4)
(5)
式中:gik和hik分別為第k棵樹上第i個樣本的一階導(dǎo)函數(shù)和二階導(dǎo)函數(shù)。
對于任意的葉子節(jié)點j上的樣本i,在數(shù)值上fk(xi)=wj。
因此,對于整棵樹有:
(6)
(7)
最終,獲得的XGBoost目標函數(shù)為:
(8)
通過對式(8)中的wj求偏導(dǎo),使其為0,可得:
(9)
將最優(yōu)的wj代入到原目標函數(shù)中,可得所有葉子節(jié)點的損失為:
(10)
對于一片葉子節(jié)點而言,有:
(11)
在分支的過程中,希望目標函數(shù)越小越好,因此可以獲得:
(12)
式中:Gain為信息增益;R為右孩子節(jié)點;L為左孩子節(jié)點;P為父節(jié)點。
針對軸承溝道的監(jiān)測數(shù)據(jù)呈現(xiàn)大規(guī)模、非線性、高維度的特性,筆者基于RFE和XGBoost算法,構(gòu)建了一種改進的機器學(xué)習(xí)算法RFE-BXGBoost軸承套圈溝道缺陷識別模型。
該模型組成如圖2所示。
圖2 RFE-BXGBoost軸承套圈溝道缺陷診斷模型
在RFE-BXGBoost中,筆者首先利用遞歸特征減少法的交叉驗證(recursive feature elimination cross validation,RFECV)對監(jiān)測信號進行特征選擇,確定最恰當?shù)拇磔S承溝道的信息子集;然后,根據(jù)確定后的信息子集,利用貝葉斯優(yōu)化的XGBoost軸承套圈溝道缺陷識別的弱分類器,使用有放回隨機抽樣對構(gòu)建的弱分類器進行隨機采樣,以進一步降低軸承套圈溝道缺陷識別模型的方差;最后,基于隨機采樣的結(jié)果,使用投票法獲得最終的軸承套圈溝道缺陷識別結(jié)果。
在實際工程中,由于設(shè)備儀器、網(wǎng)絡(luò)信號等因素,傳感器采集到的數(shù)據(jù)存在異常值、缺失值,以及量綱不統(tǒng)一等問題,若直接將原始數(shù)據(jù)用于構(gòu)建軸承套圈溝道缺陷識別模型,會導(dǎo)致預(yù)測結(jié)果與真實結(jié)果誤差較大。
因此,要對采集到的數(shù)據(jù)進行預(yù)處理。筆者需對獲取的監(jiān)測數(shù)據(jù)集進行min-max歸一化處理,將數(shù)據(jù)壓縮至(0,1)之間。
首先,筆者使用RFECV確定影響軸承套圈溝道的最佳特征數(shù)據(jù)集,將經(jīng)過預(yù)處理后的信息特征作為XGBoost的輸入,實現(xiàn)RFECV的初始化;
然后,根據(jù)XGBoost計算的權(quán)重對該軸承溝道的監(jiān)測特征進行排名,獲得初始化的特征重要性的排序結(jié)果;
最后,采用自適應(yīng)過濾法[17]獲得能夠代表軸承溝道表面缺陷的特征信息,從而實現(xiàn)對監(jiān)測特征最佳子集進行選擇的目的。
筆者將經(jīng)過RFECV選擇出來的監(jiān)測特征作為XGBoost輸入進行訓(xùn)練,將輸出的樣本缺陷類別與該樣本的真實類別進行對比,不斷縮小迭代得到的輸出誤差,從而更新權(quán)重矩陣;
采用貝葉斯優(yōu)化算法對XGBoost的超參數(shù)進行優(yōu)化,得到訓(xùn)練好的弱分類器,使用有放回隨機抽樣對構(gòu)建的弱分類器進行隨機采樣,以獲得訓(xùn)練好的模型;將測試集代入訓(xùn)練好的XGBoost模型,最終得到軸承套圈溝道表面缺陷類型的預(yù)測結(jié)果。
筆者選取準確率(accuracy)、召回率(recall)、精確度(precision)、F1-Score對缺陷診斷的結(jié)果進行評價。
其計算公式如下:
(13)
(14)
(15)
(16)
式中:TP為真實為正樣本,預(yù)測為正樣本;FN為真實為正樣本,但是預(yù)測為負樣本;FP為實際值為負樣本,預(yù)測為正樣本;TN為實際值為負樣本,預(yù)測為負樣本;accuracy為分類模型所有判斷正確的結(jié)果占總觀測值的比重;precision為預(yù)測樣本,為正樣本中的真實樣本,為正樣本所占的比例;recall為真實標簽,為正樣本中預(yù)測正確的樣本所占的比例;F1-Score為precision和recall的調(diào)和平均數(shù)。
此處的實驗均在Anaconda環(huán)境下,程序由python 3.7進行編寫。
程序的運行硬件環(huán)境如表1所示。
表1 程序運行硬件環(huán)境
為了驗證RFE-BXGBoost的有效性,筆者還使用了傳統(tǒng)的機器學(xué)習(xí)算法,包括自適應(yīng)提升法(AdaBoost)[19]、隨機森林[20]、梯度提升樹[21]。機器學(xué)習(xí)框架使用了“sklearn”、“XGBoost”及“hyperopt”庫函數(shù)。
此處使用傳統(tǒng)算法的參數(shù)均為默認參數(shù)。
此處使用的軸承套圈數(shù)據(jù)來自某軸承制造企業(yè)(其利用超聲檢測技術(shù)獲得了軸承振動信號)。
根據(jù)文獻[18],筆者在加速度傳感器獲得的振動信號的基礎(chǔ)上,采用頻域積分法獲得了位移信號,并使用溫度傳感器采集獲得了非振動信號的數(shù)據(jù)。
軸承型號部分參數(shù)如表2所示。
表2 軸承的基本參數(shù)
部分信號采集設(shè)備如圖3所示。
圖3 測試現(xiàn)場圖
在圖3中,筆者通過加速度傳感器和溫度傳感器進行了數(shù)據(jù)采集,傳感器采樣頻率為12 kHz,每秒采集12 000個點;針對每個軸承,筆者取12 000個數(shù)據(jù)點為一個樣本。
基于文獻[19-20]所述的特征衍生思想,筆者針對所獲得的位移信號和溫度信號,利用時域和頻域分析,獲取了數(shù)據(jù)統(tǒng)計特征和數(shù)據(jù)分布特征,通過超聲檢測獲得了損傷的類型、損傷程度等特征。
筆者提取的部分信號特征如圖4所示。
圖4 部分參數(shù)信號特征
筆者最終獲得包含24個特征的實測數(shù)據(jù)集,共1 655個數(shù)據(jù)樣本,無異常值;并根據(jù)不同缺陷類型為獲取的信號特征確定標簽。
圖4中,數(shù)據(jù)集特征包括溫度、位移信號的時域和頻域的均值、方差、峭度、偏斜度。
筆者由超聲檢測獲得表面光度、缺陷軸向邊界大小、缺陷周向邊界大小、缺陷最小軸向邊界距離、缺陷深度等。
缺陷類別包括凹陷刮痕、凸起變形、其他缺陷這3個類別。
該數(shù)據(jù)樣本中,以劃痕為代表的其他類別最短劃痕長度大于2 mm,凹陷區(qū)域直徑大于3 mm,深度大于等于0.5 mm,凸起直徑大于2 mm,高度大于0.3 mm。
為避免樣本不平衡對模型精度造成的影響,3種缺陷類別所占總體樣本比例近似為1∶1∶1。筆者通過隨機劃分獲得1 324條訓(xùn)練樣本,331條測試樣本。
4.2.1 不同特征子集下的預(yù)測結(jié)果
此處筆者對軸承套圈實測數(shù)據(jù)集進行了min-max歸一化處理,將處理好的原始數(shù)據(jù)作為XGBoost的輸入,實現(xiàn)RFECV的初始化;將獲得的特征子集作為貝葉斯優(yōu)化的XGBoost算法進行訓(xùn)練,將測試樣本代入到模型中,獲得測試的識別精度。
不同的特征子集下,測試集的識別精度如圖5所示。
圖5 不同樣本子集的評分
圖5中,XGBoost被用于RFECV的基模型,當子數(shù)據(jù)集中的特征包含14個時,在測試樣本上的準確率、召回率、精確度、F1-Score均達到最大值;當特征數(shù)量超過14時,衡量指標均有下降,并且趨向平穩(wěn)趨勢。
因此,可以確定選出的最佳子集含有14個特征。筆者將其作為貝葉斯改進的自適應(yīng)提升法(Bayesian AdaBoost,BAdaBoost)預(yù)測模型的輸入。
4.2.2 貝葉斯優(yōu)化前后的精度對比
此處,貝葉斯優(yōu)化[21]被用于XGBoost的超參數(shù)調(diào)整,它利用過去目標的評估結(jié)果建立替代函數(shù),以找到目標函數(shù)的最小值。與網(wǎng)格搜索相比較,優(yōu)化模型參數(shù)的過程更加簡單,運行的速度更快,可以提高超參數(shù)調(diào)整的效率。該實驗要追求最大的F1-Score構(gòu)建目標函數(shù)。
貝葉斯的調(diào)參范圍與結(jié)果如表3所示。
表3 部分參數(shù)調(diào)參范圍
由表3可知:在筆者使用的數(shù)據(jù)集中,random_sample的參數(shù)為50,subsample的調(diào)參結(jié)果為0.8,表示當貝葉斯優(yōu)化下的XGBoost組成的弱分類器的總數(shù)為50,被用于有抽樣放回的比例為整體的0.8時,可獲得最優(yōu)結(jié)果。
實驗結(jié)果如圖6所示。
圖6 使用貝葉斯優(yōu)化前后的對比
從圖6中可以看出:使用貝葉斯優(yōu)化后,模型的識別精度相對于原始模型能夠有效提升。
使用貝葉斯優(yōu)化算法和隨機網(wǎng)格搜索的結(jié)果如表4所示。
表4 不同優(yōu)化算法的計算結(jié)果
從表4中可知:貝葉斯優(yōu)化算法在保證了精度的同時,其計算時間也大幅度下降,時間減少了27.86%。
4.2.3 不同算法的影響
為了探究不同算法在該軸承套圈溝道缺陷診斷數(shù)據(jù)集上的預(yù)測精度,筆者將RFE-BXGBoost算法和AdaBoost、隨機森林、梯度提升樹分別進行對比。
實驗結(jié)果如圖7所示。
圖7 不同算法的對比結(jié)果
由圖7可知:在該數(shù)據(jù)集上,采用傳統(tǒng)機器學(xué)習(xí)算法表現(xiàn)最優(yōu)的是GBDT,對于準確率、召回率、精確度,F1-score這4個指標,RFE-BXGBoost相較梯度提升決策樹(gradient boosting decision tree,GBDT)仍然有較為明顯的提升,分別提高了6.38%、5.24%、5.79%、5.52%。
這說明,筆者所建立的模型能夠準確識別出缺陷的類別。
RFE-BAdaBoost在測試集上的混淆矩陣如表5所示。
表5 RFE-BXGBoost在測試集上的混淆矩陣
由表5可知:RFE-BXGBoost能夠用于準確地識別出劃痕類型缺陷和其他類型的缺陷。
GBDT在測試集上的混淆矩陣如表6所示。
對比表5和表6可知:RFE-BXGBoost能夠用于準確地識別出劃痕類型缺陷和其他類型的缺陷,對于凸起的缺陷類型的預(yù)測精度則有所下降。
一個有趣的現(xiàn)象是:凸起缺陷和劃痕缺陷較為容易被混淆,RFE-BAdaBoost對劃痕的誤識別有了極大的改善;
在筆者所使用的測試集中,對劃痕識別的準確率為0.875,相對于GBDT提高了12.5%;而對于凸起缺陷的識別,RFE-BAdaBoost則相對于GBDT提高了2.8%。
針對軸承套圈溝道缺陷診斷問題,筆者提出了一種改進的軸承溝道表面缺陷識別模型。
首先,基于特征衍生的思想,對軸承溝道的時域、頻域等特征進行了提取,面對高維度的特征,使用XGBoost作為RFE的基學(xué)習(xí)器,對影響軸承溝道表面缺陷最佳特征子集進行了選擇,且將其作為弱分類器的輸入;然后,使用有放回隨機抽樣方式,對貝葉斯優(yōu)化下XGBoost模型組成弱分類器進行了選取,并在此基礎(chǔ)上,使用投票法獲取了最終的表面缺陷識別結(jié)果;最后,根據(jù)實際的軸承溝道缺陷數(shù)據(jù),對上述的算法模型進行了實驗驗證。
研究結(jié)果表明:
1)利用XGBoost作為RFE的基分類器,在考慮特征之間復(fù)雜潛在關(guān)系的同時,對軸承套圈溝道樣本進行特征選擇,可以減少數(shù)據(jù)規(guī)模,從而改善數(shù)據(jù)高維度的問題;
2)根據(jù)特征選擇的結(jié)果,利用貝葉斯優(yōu)化建立了XGBoost軸承套圈溝道缺陷識別的弱分類器模型,可實現(xiàn)弱分類器參數(shù)自動化調(diào)整的目的。在實測數(shù)據(jù)集中,相較于隨機網(wǎng)格搜索算法,計算時間降低了27.86%,F1-Score提高了1.7%;
3)利用隨機抽樣對弱分類器進行有放回抽樣。根據(jù)抽樣結(jié)果可知,利用投票法可降低模型的方差,提高模型的泛化能力。經(jīng)由軸承套圈實測數(shù)據(jù)集進行實例驗證,結(jié)果表明,RFE-BXGBoost算法對軸承溝道缺陷類別識別準確率為0.9,F1-Score為0.879,其性能相較于傳統(tǒng)機器學(xué)習(xí)算法具有明顯提升,證明了該方法可以對軸承圈溝道進行有效的缺陷識別。
在實際工程中,由于噪聲的影響及特征種類的增加,會增加軸承表面缺陷識別的難度。因此,在未來的研究工作中,筆者將使用更多樣本、監(jiān)測特征及特征衍生方法,創(chuàng)建大規(guī)模特征,挖掘潛在關(guān)系,以完成軸承缺陷的識別任務(wù)。