安 猛,孟新宇,陳長征,安文杰
(沈陽工業(yè)大學(xué) 機械工程學(xué)院,遼寧 沈陽 110027)
在汽車零件裝配過程中,螺栓聯(lián)接是最基礎(chǔ)、最廣泛、標準化最高的連接方式。整車裝配時,一輛汽車大概有4 000個~6 000個螺紋聯(lián)接部件[1],螺栓聯(lián)接在汽車裝配中發(fā)揮著重要的作用,有些甚至關(guān)系到人身安全。汽車生產(chǎn)線上關(guān)鍵部位最常使用的螺栓打緊方法為 “扭矩轉(zhuǎn)角法”[2],這種方法依據(jù)最終扭矩判斷打緊是否合格,沒有對過程數(shù)據(jù)進行分析,但過程數(shù)據(jù)往往反映打緊質(zhì)量。螺栓打緊過程曲線發(fā)生較大變化時,雖然打緊結(jié)果能滿足要求,但過程存在異常;出廠檢驗及用戶使用時也證明打緊過程異常的螺栓多為不合格的故障螺栓[3]。本文主要對螺栓打緊過程進行研究,針對這種潛在的質(zhì)量隱患,通過建立異常狀態(tài)識別模型對其進行判別并及時做出提示。
實驗數(shù)據(jù)為某一工位螺栓打緊數(shù)據(jù)集,打緊設(shè)備內(nèi)有傳感器,實時記錄過程數(shù)據(jù),主要包括過程的轉(zhuǎn)角值和扭矩值、打緊時間等。對打緊樣本數(shù)量統(tǒng)計,總樣本為19 000條,正常樣本為18 800條,異常樣本為200條,僅占樣本總體的1.05%,異常樣本數(shù)量少且占比小,樣本存在著類間不平衡問題。其中異常樣本有兩種:一種是打緊結(jié)果不合格樣本,打緊設(shè)備可以識別;另一種是打緊結(jié)果合格,但過程異常,出廠檢測時不符合要求,需要長時間反饋[4]。
原始螺栓打緊過程數(shù)據(jù)如圖1所示。原始數(shù)據(jù)易受到外界噪聲干擾,導(dǎo)致類別間的特征顯著性降低,影響特征提取[5],過程數(shù)據(jù)在時間維度也有一定漂移,因此建模前需要對原始數(shù)據(jù)進行處理。
圖1 原始螺栓打緊過程數(shù)據(jù) 圖2 部分處理后的數(shù)據(jù) 圖3 按固定角度切分扭矩
依據(jù)螺栓打緊工藝,清除停頓產(chǎn)生的噪聲及打緊結(jié)束后引入的噪聲。過程數(shù)據(jù)點計為{(Ai,Ti)∣i∈[1,n]},表示第i個打緊過程,Ai為轉(zhuǎn)角值,Ti為扭矩值,n為數(shù)據(jù)點的個數(shù)。依據(jù)打緊過程中噪聲扭矩值遠小于左右兩側(cè)扭矩的特點除噪,以i=1為起點,遍歷數(shù)據(jù)集所有數(shù)據(jù)點。步驟如下:
(1) 差分計算每一個數(shù)據(jù)點,即Ti在i處一階差分ΔTi為:
ΔTi=Ti+1-Ti.
(1)
(2) 當(dāng)ΔTi<0時,把第i個數(shù)據(jù)點記作(Aflag,Tflag),依據(jù)式(2)計算出ΔTflag,對滿足ΔTflag≤0條件的(Ai,Ti)進行標記。
ΔTflag=Ti+1-Tflagi∈(flag,n).
(2)
(3) 當(dāng)ΔTflag>0時,重復(fù)(2)、(3)步驟,直到遍歷所有數(shù)據(jù)點并去掉標記數(shù)據(jù)。
當(dāng)扭矩達到設(shè)定的最大值附近時,即視為打緊結(jié)束,記打緊結(jié)束點為(Af,Tf),理想狀態(tài)下結(jié)束點為(Ad,Td),求得二者差值為S=Af-Ad,當(dāng)S>0時,向左移動|S|個單位,當(dāng)S<0時,向右移動|S|個單位。對所有過程樣本進行此操作,完成主體數(shù)據(jù)集中。部分處理后的數(shù)據(jù)如圖2所示。
數(shù)據(jù)集直接特征為扭矩值[6],打緊時扭矩有較大變化,對過程扭矩值特征進行提取。采集數(shù)據(jù)時,轉(zhuǎn)動速度是變化的,不能利用采樣點分割過程曲線,但轉(zhuǎn)過的角度值A(chǔ)是固定的,現(xiàn)提出一種按角度值切分扭矩、提取特征的方法[7,8]。如圖3所示,將過程曲線按一定角度切分,每個區(qū)域為一個目標窗口,計算窗口里扭矩平均值,將轉(zhuǎn)角、扭矩轉(zhuǎn)化為一定長度的扭矩向量[9]。第i條過程曲線扭矩向量Ti為:
Ti=[t1,t2,…,tA].
(3)
其中:tA為螺栓轉(zhuǎn)動角度(A-1,A]中的扭矩均值。這樣數(shù)據(jù)集由{(Ai,Ti)|i∈[0,n]}變?yōu)閧Ti|i∈[0,A]}。在螺栓轉(zhuǎn)動角度 [36°,58°]的范圍內(nèi),以1°的間隔切分扭矩,可獲取22個特征值。
在評價分類器性能時,基于混淆矩陣提出不平衡數(shù)據(jù)學(xué)習(xí)指標[10]。二分類中,分類結(jié)果為4種情況,如表1所示。
表1 二分類混淆矩陣
(1) ACC(分類精度)。ACC為分類正確的樣本與分類器分類樣本的比值,定義為:
(4)
(2) 特異性(Specificity)。特異性為分類器對少數(shù)樣本的敏感程度,數(shù)值越大,對少數(shù)類樣本分類性能越好,定義為:
(5)
(3) G-means。G-mean為多數(shù)類和少數(shù)類樣本分類準確度的集合平均值,其可以合理評價整體分類性能,定義為:
(6)
(4) AUC面積(Area Under the Curve)。以FP/(FP+TN)為橫坐標,TP/(TP+FN)為縱坐標,繪制ROC(Receiver Operating Characteristic)曲線[11],中文名為“受試者工作特征曲線”,假設(shè)ROC曲線上有n個數(shù)據(jù)點,AUC定義為:
(7)
其中:x為TP/(TP+FN);y為Specificity。 AUC值一般在[0.5,1],數(shù)值越大說明分類器性能越好。
原SMOTE算法存在兩方面問題[12-14]:合成的新樣本只是來自兩個少數(shù)樣本對應(yīng)的線段上,潛在出現(xiàn)范圍僅在此線段上;在維度較高的特征空間中,對潛在少數(shù)樣本的分布不足以完全描述。本文數(shù)據(jù)特征向量為22,維度較高,原SMOTE算法不再適用,需要改進。
改進思路是通過D個少數(shù)樣本合成新樣本,D是特征空間維數(shù)。首先,計算少數(shù)類樣本k個同近鄰樣本,選取其中D個樣本,以 0到1/D的權(quán)值對其矢量加和構(gòu)建新樣本。新樣本空間從一維擴展到D維,下面是改進算法的具體流程。
首先輸入以下參數(shù):P={P1,…,Pn},為訓(xùn)練集中少數(shù)類樣本集合;Pa為P中的一個樣本;n為少數(shù)類樣本個數(shù)。設(shè)k為近鄰個數(shù);D為參與合成新樣本的近鄰個數(shù),D 接著,完成以下算法: (1) 利用集合P構(gòu)建Kd樹; (2) fori=1 tondo; (3) 通過Kd樹找出Pi的k近鄰:Kni={kni1,kni2,…,knik}; (4) fora=1 toNdo; (5) 在Kni中隨機選取D個近鄰樣本:Kn′a={kn′a1,kn′a2,…,kn′aD}; (6) 在[0,1/D]中隨機選取D個實數(shù)(能夠重復(fù)):da={da1,da2,…,daD}; (7) 計算被選取的近鄰樣本和Pa的向量差:vecan=kn′an-Pa; (9) 新樣本加入集合:newa→Samples; (10) End for。 最后輸出:新樣本集Samples。 如圖4所示,P點為合成新樣本的目標樣本點,A和B為兩個同類近鄰樣本點,C和D為合成樣本點。圖4(b)中,A、B樣本點的合成權(quán)值為dA、dB,取值范圍(0,0.5],特征向量P′=P+dA(A-P)+dB(B-P)。平行四邊形邊長分別為0.5PA與0.5PB,合成的新樣本C、D位置范圍在平行四邊形內(nèi)。而在圖4(a)中,原算法生成的樣本點C、D在PA和PB線段間。 圖4 算法改進前、后對比圖 一個已訓(xùn)練完的隨機森林模型[15-17]決策樹數(shù)量為T,測試集為X,類別數(shù)為C,模型輸出為: (8) 其中:ht(X)為第t棵決策樹的輸出;I(·)為一個指示函數(shù)。 由式(8)可知,每棵決策樹投票權(quán)重都為1,但各決策樹的分類準確度不同[18]。對此本文提出了加權(quán)隨機森林模型,即在訓(xùn)練時評估出每棵決策樹的分類性能,并根據(jù)性能賦予對應(yīng)權(quán)重,在投票時,乘上對應(yīng)的權(quán)重值,能夠降低訓(xùn)練精度不高的決策樹對整個模型的影響。因此,公式(8)可改寫為: (9) 其中:wt為第t棵決策樹的權(quán)重值。 利用袋外樣本[19]作為每棵決策樹的測試集來評估分類性能,并據(jù)此結(jié)果賦予相應(yīng)權(quán)重,使性能好的決策樹擁有更重要的位置。 使用Kappa系數(shù)(CK)評價決策樹整體分類性能,CK是評價一致性程度的指標,能夠考慮到各種漏分與錯分樣本,能表示分類與隨機分類錯誤減少的比例。一般情況下CK為(0,1),CK值越大,說明結(jié)果與實際結(jié)果越一致,分類器性能越好[20]。CK由下式計算: (10) 其中:CKc為分類的偶然一致性比率,計算公式如下: CKc= (11) 為了把較大的權(quán)重分配給性能更優(yōu)的分類器,文獻[21]指出:一組相互獨立的分類器L1,L2,…,LM,準確度為p1,p2,…,pM,各分類器的權(quán)重與相應(yīng)準確度關(guān)系如式(12)所示: (12) 將式(12)中的p替換成CK,其中CK的取值范圍為(-1,1),公式(12)可改寫為: (13) 依據(jù)公式(13),決策樹的CK值越大,其分配到的權(quán)重也越大,對最終投票結(jié)果影響也越大。CK與wt的關(guān)系如圖5所示??蓪⑹?13)代入式(9),從而得到最終的輸出結(jié)果。加權(quán)隨機森林算法流程如圖6所示,根據(jù)得到的CK值決定每棵樹的投票權(quán)重,降低分類性能差的決策樹對最終結(jié)果的影響,輸出的結(jié)果更合理,也能夠提高整體的分類性能。 圖5 CK與wt的關(guān)系 圖6 加權(quán)隨機森林算法流程 本文算法均使用Python語言編寫,在Jupyter notebook平臺上調(diào)試并測試。為驗證改進的SMOTE和加權(quán)隨機森林算法對螺栓打緊數(shù)據(jù)集分類效果的影響,將SMOTE(SM)、改進SMOTE(ISM))、隨機森林(RF)、加權(quán)隨機森林(WRF),根據(jù)不同的組合形成不同算法模型,即SM+RF、ISM+RF、SM+WRF與本文的ISM+WRF模型。在經(jīng)處理后的打緊數(shù)據(jù)集上,實驗這4種算法,并對得到的結(jié)果進行比較。 根據(jù)不同算法建立模型并訓(xùn)練、測試,結(jié)果如表2所示,ISM、WRF與SM、RF相比,都能提高分類結(jié)果的Specificity,表明經(jīng)過改進的算法都能提高少數(shù)類樣本的分類準確性。從SM+RF和SM+WRF的對比結(jié)果看出,數(shù)據(jù)集的G-mean、CK和AUC均有提升,與未改進的SM+RF算法相比,SM+WRF算法的G-mean提升了3.6%,CK提升了8.23%,AUC提升了3.8%,說明加權(quán)隨機森林比傳統(tǒng)隨機森林的分類性能更好。從SM+RF和ISM+RF的對比結(jié)果也可看出,ISM對數(shù)據(jù)集的分類效果也有提升,各指標均提高3%以上,也說明改進的SMOTE算法比原算法的分類性能更好。從數(shù)據(jù)層面改進的ISM與從算法層面改進的WRF對分類效果均有提升,結(jié)合ISM和WRF的算法模型對不平衡數(shù)據(jù)集的少數(shù)類及整體分類效果最好,在螺栓打緊數(shù)據(jù)集非常適用。 表2 不同算法與本文算法分類結(jié)果對比 對ISM+WRF模型調(diào)參至最優(yōu),獲得159棵決策樹并求得各決策樹權(quán)重值,如圖7所示,數(shù)值范圍在[0.002,0.007]。不同的決策樹分類性能不一致,對隨機森林的貢獻不同,權(quán)重值也不同。繪制參數(shù)調(diào)優(yōu)后模型的學(xué)習(xí)曲線,如圖8所示,當(dāng)數(shù)據(jù)增加時,訓(xùn)練集分類準確性曲線(虛線)和測試集預(yù)測準確性曲線(直線)靠的較近但有一定距離,并隨數(shù)據(jù)增加相持平,最后收斂于0.998以上,說明模型不過擬合也不欠擬合,效果較好。 圖7 加權(quán)隨機森林決策樹權(quán)重值 圖8 隨機森林模型學(xué)習(xí)曲線 對螺栓異常狀態(tài)識別模型進行實驗驗證,在打緊數(shù)據(jù)庫提取600條樣本,其中正常樣本521條,異常樣本79條,輸入到模型中得出識別后的結(jié)果,如圖9所示。由圖9可知,所有打緊正常螺栓及74條打緊異常螺栓被正確識別,僅5條打緊異常螺栓被誤分到正常類中,對打緊異常螺栓識別率達93%以上,說明模型識別打緊異常螺栓效果較好。 圖9 測試效果 汽車生產(chǎn)線上螺栓打緊設(shè)備的打緊結(jié)果只通過最終扭矩值判斷,缺乏對過程數(shù)據(jù)分析,會漏掉少量打緊異常螺栓。出廠檢測時,發(fā)現(xiàn)異常螺栓,多為不合格螺栓,需重新打緊,影響生產(chǎn)效率,增加生產(chǎn)時間和成本。同時,打緊質(zhì)量在檢測和初期使用中也難以評估,本文提出的螺栓打緊異常狀態(tài)識別模型是針對過程,能夠有效識別異常螺栓,并及時采取措施。在后期研究中,探索打緊過程與打緊質(zhì)量的關(guān)系將成為分析螺栓聯(lián)接質(zhì)量的一種新途徑。2.3 加權(quán)隨機森林算法
3 建立模型并驗證
3.1 算法對比結(jié)果
3.2 實驗驗證
4 結(jié)論