李 秀
(鄭州大學(xué) 商學(xué)院,鄭州 450001)
隨著智能制造的迅猛發(fā)展和全球一體化的日益加深,產(chǎn)品質(zhì)量成為了制造企業(yè)獲取競爭優(yōu)勢的關(guān)鍵。作為制造業(yè)的核心,復(fù)雜產(chǎn)品的質(zhì)量對我國經(jīng)濟(jì)健康發(fā)展起著重要作用。由于復(fù)雜產(chǎn)品普遍采用單件小批的生產(chǎn)方式,質(zhì)量數(shù)據(jù)呈現(xiàn)出小樣本、高維度的特點(diǎn),易造成維度災(zāi)難和過擬合問題,這在很大程度上降低了復(fù)雜產(chǎn)品質(zhì)量預(yù)測的精度。在實(shí)際生產(chǎn)應(yīng)用中,只有少數(shù)關(guān)鍵質(zhì)量特性(Critical-To-Quality,CTQ)對最終產(chǎn)品質(zhì)量有顯著影響,因此識別CTQ是構(gòu)建質(zhì)量預(yù)測模型的關(guān)鍵,對控制產(chǎn)品質(zhì)量具有重要意義。
目前,CTQ識別方法主要集中在兩個方面:一是基于傳統(tǒng)線性回歸的關(guān)鍵質(zhì)量特性識別,如TSUNG[1]利用狀態(tài)空間波動傳遞模型進(jìn)行多階段制造過程的CTQ識別;二是將CTQ識別問題抽象為特征選擇的過程,通過數(shù)據(jù)挖掘構(gòu)建產(chǎn)品質(zhì)量特性與最終質(zhì)量的關(guān)系模型,從而識別出對最終產(chǎn)品質(zhì)量具有顯著影響的CTQ,如王化強(qiáng)等[2]針對復(fù)雜產(chǎn)品質(zhì)量特性數(shù)據(jù)不相關(guān)和冗余特征問題,引入Lasso算法識別復(fù)雜產(chǎn)品CTQ??偟膩砜矗F(xiàn)有研究多數(shù)僅考慮了復(fù)雜產(chǎn)品質(zhì)量數(shù)據(jù)集的高維度、小樣本、數(shù)據(jù)不平衡特點(diǎn)中的一個或兩個,但實(shí)際生產(chǎn)過程中復(fù)雜產(chǎn)品質(zhì)量數(shù)據(jù)集往往同時兼具上述3個特點(diǎn)。因此,針對復(fù)雜產(chǎn)品的加工質(zhì)量特點(diǎn),本文構(gòu)建了基于B-K-Lasso模型的復(fù)雜產(chǎn)品關(guān)鍵質(zhì)量特性識別方法,從而為復(fù)雜產(chǎn)品的質(zhì)量控制提供有效參考。
Lasso是一種高維數(shù)據(jù)變量選擇算法,其基本思想是通過構(gòu)造一個懲罰項(xiàng)來壓縮模型回歸系數(shù),即通過調(diào)整變量的回歸系數(shù)使殘差平方和最小,從而將沒有影響或影響較小的自變量的回歸系數(shù)壓縮至0,實(shí)現(xiàn)高維數(shù)據(jù)的系數(shù)估計(jì)和變量選擇[3]。針對高維小樣本的數(shù)據(jù),直接使用Lasso易導(dǎo)致計(jì)算量大、過擬合問題。馬嘯等[4]通過將特征隨機(jī)均勻地劃分為K份,并對每份特征子集用Lasso算法進(jìn)行特征選擇,得到了K份選出的特征子集,然后將K份特征子集合并得到最優(yōu)特征集。該方法通過特征分塊有效降低了數(shù)據(jù)維度,減少了計(jì)算量。然而,在實(shí)際生產(chǎn)過程中,K-split Lasso模型并不能完全有效識別出復(fù)雜產(chǎn)品的關(guān)鍵質(zhì)量特性。其原因如下:第一,復(fù)雜產(chǎn)品的制造過程復(fù)雜,生產(chǎn)批量小,質(zhì)量特征維度可能遠(yuǎn)大于樣本量;第二,產(chǎn)品生產(chǎn)過程中面臨數(shù)據(jù)不平衡問題,即合格產(chǎn)品的數(shù)據(jù)遠(yuǎn)高于不合格品的數(shù)據(jù),模型傾向于將不合格品分為合格品,從而給企業(yè)帶來較大損失。
為解決上述不足,本文從兩個方面對K-split Lasso模型進(jìn)行改進(jìn)。一方面,采用合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)處理復(fù)雜產(chǎn)品質(zhì)量特性數(shù)據(jù)集,從而得到平衡質(zhì)量特性。SMOTE是一種過采樣技術(shù),它可利用少數(shù)類樣本及其鄰近樣本隨機(jī)生成新的樣本,使得少數(shù)類樣本量增加,從而達(dá)到平衡樣本的目的[5]。另一方面,依托Bootstrap算法反復(fù)模擬原高維小樣本數(shù)據(jù)集,從而得到多個自助樣本,實(shí)現(xiàn)小樣本的擴(kuò)充[6]。Bootstrap的基本思想是在原始樣本的基礎(chǔ)上通過多次重復(fù)有放回的隨機(jī)抽樣,得到多個與原有樣本同分布的樣本,從而構(gòu)建大樣本數(shù)據(jù)集[7-9]?;贐-K-Lasso模型的CTQ識別如圖1所示。
第一,明確復(fù)雜產(chǎn)品的生產(chǎn)特點(diǎn),在制造過程中采集質(zhì)量特性數(shù)據(jù),獲得原始質(zhì)量特性數(shù)據(jù)集。第二,對原始數(shù)據(jù)進(jìn)行預(yù)處理,并對預(yù)處理后的數(shù)據(jù)采用SMOTE技術(shù),獲得平衡質(zhì)量特性數(shù)據(jù)集X=(X1,X2,…,Xn),第j個樣本Xj是m維特征向量,j∈[1,n]。第三,用Bootstrap抽樣,即在原始數(shù)據(jù)集X上進(jìn)行Q輪隨機(jī)有放回抽樣,得到Q個自助樣本X*=(X1*,X2*,…,XQ*),其中樣本的數(shù)量為n×Q。第四,對每個自助樣本Xi*構(gòu)建K-split Lasso特征選擇模型,即把m個特征均分成K份得到M=(Mi1,Mi2,…,MiK),然后對每一份M用Lasso進(jìn)行特征選擇,得到特征集合F=(Fi1,Fi2,…,FiK),其中i∈[1,Q]。第五,通過Lasso算法對合并后的特征集合F=(Fi1,Fi2,…,FiK)進(jìn)行特征選擇,得到每個自助樣本的特征選擇結(jié)果Fi*。第六,集成Q個自助樣本特征選擇的結(jié)果。通過對對應(yīng)特征系數(shù)平均加權(quán)實(shí)現(xiàn)集成,最終得到整個數(shù)據(jù)集的特征選擇結(jié)果F*即是復(fù)雜產(chǎn)品的關(guān)鍵質(zhì)量特性集。
本文選用UCI數(shù)據(jù)庫中的SECOM數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)及結(jié)果分析。該數(shù)據(jù)集共包含1 570個樣本,每個樣本有590個質(zhì)量特性。其中,合格品1 466個,不合格品104個。由于數(shù)據(jù)存在缺失問題,需要進(jìn)行預(yù)處理,即將原始數(shù)據(jù)標(biāo)準(zhǔn)化,并將數(shù)據(jù)集中質(zhì)量特性缺失大于20%的項(xiàng)刪除,其他缺失項(xiàng)用均值替換。實(shí)驗(yàn)分別使用Lasso、K-split Lasso、Bootstrap-Lasso和B-K-Lasso進(jìn)行CTQ識別。
分類準(zhǔn)確度(Accuracy,ACC)能反映整體分體精度,AUC值在二分類、不平衡數(shù)據(jù)集上具備更好的鑒別能力。因此,本文采用ACC、AUC指標(biāo)進(jìn)行綜合評價。
首先,針對預(yù)處理后的數(shù)據(jù),采用SMOTE技術(shù)生成不合格樣本,得到平衡質(zhì)量數(shù)據(jù)集。其次,設(shè)置參數(shù)Q=50,K分別為3、4、5、8、10、15、20、25、30,然后使用B-K-Lasso進(jìn)行CTQ識別,并輸出K取不同值時的關(guān)鍵質(zhì)量特性集。最后,根據(jù)選取的不同關(guān)鍵質(zhì)量特性數(shù)據(jù)集,測試分類結(jié)果。由于支持向量機(jī)(Support Vector Machine,SVM)在小樣本數(shù)據(jù)集上效果很好,且RF能夠通過集成具有不同特征的決策樹提高分類準(zhǔn)確率,從而擁有更強(qiáng)的泛化能力,因此本文分別以RF和SVM作為分類器對模型進(jìn)行性能測試。將每種算法運(yùn)行20次,然后以運(yùn)行結(jié)果取均值作為最終結(jié)果,具體結(jié)果如表1所示。
表1所示為各種算法所得降維水平和分類精度,由表1可以看出,B-K-Lasso集成算法下的RF和SVM算法總體上都能夠有效去除冗余特征,關(guān)鍵質(zhì)量特性數(shù)在150個左右。B-K-Lasso RF和B-K-Lasso SVM算法都具有較高的分類準(zhǔn)確率,最高值分別為93.42%和94.27%,分別在K=25和K=20時取得。但是,針對不合格產(chǎn)品的識別性能方面,B-K-Lasso SVM算法較差,AUC值較低,最大為62.55%;B-K-Lasso RF算法較為穩(wěn)定,AUC值在75.81%左右波動,最大為79.52%。對于復(fù)雜產(chǎn)品生產(chǎn)企業(yè)來說,將不合格產(chǎn)品判定為合格產(chǎn)品要遠(yuǎn)比將合格產(chǎn)品判定為不合格產(chǎn)品帶來的損失大。因此,綜合考慮ACC和AUC的值可知:本文算法可以有效識別復(fù)雜產(chǎn)品的CTQ,所識別的CTQ對產(chǎn)品也具有較好的預(yù)測能力。此外,RF集成分類算法對不合格產(chǎn)品的質(zhì)量預(yù)測效果更好。
表1 B-K-Lasso RF和B-K-Lasso SVM獲得的關(guān)鍵質(zhì)量特性測試結(jié)果對比
由表1可知,針對不平衡數(shù)據(jù),RF分類器的分類性能優(yōu)于SVM,因此本文將B-K-Lasso、Lasso、K-split Lasso、Bootstrap Lasso這4種算法分別與RF進(jìn)行結(jié)合,結(jié)果分別如圖2和圖3所示。
綜合圖2和圖3的結(jié)果,Lasso算法的ACC值為91.30%,AUC值為75.73%。與其他3種算法相比,Lasso的ACC值較低,AUC值較高,且不管K如何取值都保持不變。因此,Lasso對于不平衡數(shù)據(jù)中的少數(shù)類樣本較為友好,能有效識別復(fù)雜產(chǎn)品中不合格品的關(guān)鍵質(zhì)量特性。B-K-Lasso算法的ACC和AUC的值基本都比其他算法大,對于復(fù)雜產(chǎn)品的整體識別度較高且對不合格品的識別度也較好。從圖中可以看到,將特征均分成K塊,即引入K-split Lasso算法后,不管K取何值,模型整體識別率均顯著提高,但AUC值比較小,即對不合格品的識別率較差。當(dāng)引入Bootstrap進(jìn)行樣本重構(gòu)后,B-K-Lasso算法分類結(jié)果明顯比K-split Lasso波動小,模型結(jié)果更穩(wěn)定。
綜上可知,在復(fù)雜產(chǎn)品的關(guān)鍵質(zhì)量特性識別中,相比于K-split Lasso和Lasso算法,本文的B-K-Lasso集成特征選擇算法在提高不合格樣本準(zhǔn)確率的同時,確保了總的識別率不會下降,特別是基于Bootstrap方法對樣本重構(gòu)后,B-K-Lasso模型不僅穩(wěn)定性顯著提高,而且可以有效去除冗余特征,從而識別復(fù)雜產(chǎn)品的關(guān)鍵質(zhì)量特性,保證產(chǎn)品質(zhì)量預(yù)測的效果。
識別復(fù)雜產(chǎn)品的CTQ是當(dāng)前制造企業(yè)普遍存在并亟待解決的問題。由于復(fù)雜產(chǎn)品質(zhì)量特性數(shù)據(jù)高維度、小樣本、不平衡的特點(diǎn),給復(fù)雜產(chǎn)品質(zhì)量控制的成本和效率都帶來了極大的挑戰(zhàn)。本文通過采用Bootstrap重復(fù)抽樣,生成多個自助樣本,并在重構(gòu)后的樣本上構(gòu)建K-split Lasso模型進(jìn)行特征選擇,從而解決了上述問題。仿真實(shí)驗(yàn)結(jié)果表明:該方法具有一定的合理性和可行性,一方面能夠準(zhǔn)確有效地識別復(fù)雜產(chǎn)品的關(guān)鍵質(zhì)量特性,另一方面可以在提高不合格品識別準(zhǔn)確率的同時確??偟臏?zhǔn)確率不會下降。