趙 宇 李艷婷
上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海,200240
統(tǒng)計(jì)過(guò)程控制(statistical process control,SPC)是利用數(shù)據(jù)對(duì)生產(chǎn)過(guò)程和產(chǎn)品質(zhì)量進(jìn)行監(jiān)控的重要工具,也是貫徹實(shí)施全面質(zhì)量管理的重要工具和質(zhì)量保證手段。隨著大數(shù)據(jù)時(shí)代的到來(lái)以及數(shù)據(jù)感知和收集技術(shù)的成熟,質(zhì)量數(shù)據(jù)向著多維度高頻次方向發(fā)展,多元統(tǒng)計(jì)過(guò)程控制(MSPC)成為了一個(gè)重要的研究問(wèn)題。
隨著數(shù)據(jù)量的增加,不符合傳統(tǒng)正態(tài)性、低維度和樣本充足假設(shè)的數(shù)據(jù)越來(lái)越常見(jiàn),例如:半導(dǎo)體制造企業(yè)通過(guò)傳感器技術(shù)實(shí)時(shí)收集和監(jiān)控的工業(yè)生產(chǎn)中的關(guān)鍵質(zhì)量指標(biāo)維度超過(guò)500維[1];生產(chǎn)過(guò)程穩(wěn)定的電子元器件的壽命數(shù)據(jù)近似服從指數(shù)分布[2];機(jī)械結(jié)構(gòu)的疲勞壽命、磨損壽命、疲勞強(qiáng)度數(shù)據(jù)大多服從威布爾分布;供應(yīng)商產(chǎn)品質(zhì)量檢驗(yàn)中常見(jiàn)的單側(cè)截尾的非正態(tài)數(shù)據(jù)和雙側(cè)截尾的非正態(tài)數(shù)據(jù)等;人造衛(wèi)星、運(yùn)載火箭、精密數(shù)控機(jī)床等產(chǎn)品受生產(chǎn)周期、實(shí)驗(yàn)條件、研發(fā)成本等因素的限制,產(chǎn)量較少,收集到的數(shù)據(jù)十分有限;航空發(fā)動(dòng)機(jī)中機(jī)匣轉(zhuǎn)子的碎片擊穿率評(píng)估、復(fù)合材料的許用值估計(jì)、武器射程評(píng)估等都屬于小樣本問(wèn)題。
面向高維、非正態(tài)和小樣本數(shù)據(jù)的控制圖是當(dāng)前多元統(tǒng)計(jì)過(guò)程控制研究的熱門(mén)方向。ZOU等[3]基于非參數(shù)似然比檢驗(yàn)的方法設(shè)計(jì)了一個(gè)改進(jìn)的非參數(shù)EWMA控制圖;李靜等[4]研究了控制圖參數(shù)k的動(dòng)態(tài)更新和迭代,設(shè)計(jì)了監(jiān)測(cè)過(guò)程方差微小波動(dòng)的改進(jìn)CUSUM控制圖;趙春華等[5]提出了一種基于融合特征約減的KPCA-SVM控制圖;BAE等[6]提出了一種基于數(shù)據(jù)深度的非參數(shù)多變量控制圖;HE等[7]運(yùn)用了支持向量機(jī)監(jiān)控多元過(guò)程的方法,提出了一種基于距離的控制圖。DENG等[8]基于實(shí)時(shí)對(duì)比的策略設(shè)計(jì)非參控制圖(記為RTC控制圖);CHEN等[9]將Wilcoxon秩和檢驗(yàn)與提出的多元經(jīng)驗(yàn)分布檢驗(yàn)融合,設(shè)計(jì)出的EWMA控制圖對(duì)高維監(jiān)控很有效(記為DFEWMA控制圖);ZOU等[10]在多元符號(hào)檢驗(yàn)的基礎(chǔ)上,設(shè)計(jì)了EWMA控制圖(記為SREWMA控制圖);HAWKINS等[11]基于未知參數(shù)和已知參數(shù)的轉(zhuǎn)化設(shè)計(jì)了具有自啟動(dòng)結(jié)構(gòu)的EWMA控制圖(記為SSEWMA控制圖);LI等[12]基于游程檢驗(yàn)的雙樣本檢驗(yàn)設(shè)計(jì)了在高維度大漂移情況下表現(xiàn)優(yōu)異的多元非參數(shù)控制圖(記為HAMEWMA控制圖)。本文設(shè)計(jì)的HREWMA非參數(shù)控制圖在監(jiān)測(cè)高維數(shù)據(jù)的大漂移時(shí)具有非常優(yōu)異的表現(xiàn),因此選擇上述在此條件下表現(xiàn)優(yōu)異的多元非參控制圖進(jìn)行對(duì)比。QIU[13]系統(tǒng)地分類(lèi)并總結(jié)了非參數(shù)控制圖的研究進(jìn)展。
針對(duì)變量相關(guān)性未知、分布未知、高維度等情況的數(shù)據(jù)監(jiān)測(cè)問(wèn)題,本文結(jié)合文獻(xiàn)[14]基于高維數(shù)據(jù)秩序的雙樣本檢驗(yàn),提出了基于高維數(shù)據(jù)秩序與EWMA結(jié)合的高維非參數(shù)控制圖(HREWMA)。通過(guò)馬爾可夫鏈的方法求解HREWMA控制圖的平均運(yùn)行鏈長(zhǎng)(ARL),研究多種參數(shù)條件下控制圖ARL的表現(xiàn)。對(duì)比RTC控制圖[8]、DFEWMA控制圖[9]、SREWMA控制圖[10]、SSEWMA控制圖[11]、HAMEWMA控制圖[12],證明在高維度小漂移的情況下HREWMA控制圖的表現(xiàn)更好。
假設(shè)Xij=(Xij1,Xij2,…,Xijp)T是相同且獨(dú)立分布的觀測(cè)值,i=1,2分別表示第1個(gè)、第2個(gè)樣本;j=1,2,…,ni,用n=n1+n2表示總樣本量,其中,n1、n2分別為樣本1與樣本2的樣本量。N=p(n1+n2)是總樣本量n對(duì)應(yīng)的p個(gè)維度的全部觀測(cè)值。
(1)
1≤rijk≤n
(2)
定義邊際分布函數(shù)的平均值為
定義漸近秩變換為
Yij=(Yij1,Yij2,…,Yijp)T
Yijk=H(Xijk)
(3)
(4)
u∈[0,n1]v∈[1,n1]u∈Nv∈N
(5)
(6)
(7)
(ni)k=ni!/(ni-k)!
j1∈[1,ni]j2∈[1,ni]j3∈[1,ni]
j4∈[1,ni]j1,j2,j3,j4∈N
經(jīng)過(guò)文獻(xiàn)[14]改進(jìn)的檢驗(yàn)統(tǒng)計(jì)量的第一類(lèi)錯(cuò)誤概率更低,并且該檢驗(yàn)統(tǒng)計(jì)量更適用于非參數(shù)假設(shè),因此本文采用文獻(xiàn)[14]提出的檢驗(yàn)統(tǒng)計(jì)量進(jìn)行EWMA控制圖的設(shè)計(jì)。
本文秩檢驗(yàn)的方法過(guò)程均值偏移的方向是已知的(向上漂移),采用傳統(tǒng)的雙邊EWMA控制圖監(jiān)控過(guò)程的效果并不理想,為了充分利用過(guò)程均值的方向信息,采用單邊EWMA控制圖來(lái)監(jiān)控過(guò)程。設(shè)定單邊EWMA控制圖的統(tǒng)計(jì)量為
(8)
圖1 HREWMA控制圖的監(jiān)控過(guò)程Fig.1 The monitoring process of HREWMA control chart
計(jì)算HREWMA控制圖平均運(yùn)行鏈長(zhǎng)的方法如下:
(1)設(shè)定平滑系數(shù)λ和滑動(dòng)窗口D的值;
(2)設(shè)定控制限常數(shù)L并計(jì)算控制圖的控制限(n表示所計(jì)算樣本的數(shù)據(jù)量):
(9)
(3)設(shè)定HREWMA控制圖檢驗(yàn)統(tǒng)計(jì)量初始值Z0=0;
(4)根據(jù)式(8)求得Zn;
(5)通過(guò)馬爾可夫鏈求解受控狀態(tài)下的平均運(yùn)行鏈長(zhǎng)ARL,然后通過(guò)蒙特卡羅隨機(jī)模擬法求解失控狀態(tài)下的ARL。
針對(duì)本文檢驗(yàn)統(tǒng)計(jì)量的計(jì)算,采用常規(guī)的計(jì)算方法將耗費(fèi)大量的時(shí)間,因此,針對(duì)本文檢驗(yàn)統(tǒng)計(jì)量的計(jì)算,尤其是針對(duì)比率一致估計(jì)σn的計(jì)算,給出以下程序加速建議。
1.3.1減少重復(fù)計(jì)算項(xiàng)
基于該程序加速規(guī)則,使用該方法的理論程序運(yùn)行時(shí)間減少至未使用該加速方法的1/8。對(duì)于一個(gè)受控樣本量m0=50、滑動(dòng)窗口D=10、數(shù)據(jù)維度p=10的HREWMA控制圖,使用該加速方法與未使用該加速方法相比,計(jì)算量從105數(shù)量級(jí)減小至104數(shù)量級(jí)。
圖2 檢驗(yàn)統(tǒng)計(jì)量加速方法:減少重復(fù)項(xiàng)
1.3.2矩陣跡的加速計(jì)算
在計(jì)算式(6)時(shí),涉及到兩方陣相乘后取矩陣的跡的計(jì)算,采用常規(guī)的計(jì)算方法,需要先將兩個(gè)方陣相乘后的矩陣求出,再將矩陣的對(duì)角線元素相加取跡?;趫D3所示的計(jì)算方法,可以減少矩陣中行列相乘的計(jì)算次數(shù),加快程序速度。
圖3 檢驗(yàn)統(tǒng)計(jì)量加速方法:矩陣跡的加速計(jì)算Fig.3 Test statistics acceleration method:acceleratedcalculation of matrix trace
基于該程序加速規(guī)則,使用該方法的理論程序運(yùn)行時(shí)間減少至未使用該加速方法的1/p。對(duì)于一個(gè)受控樣本量m0=50、滑動(dòng)窗口D=10、數(shù)據(jù)維度p=10的HREWMA控制圖,使用該加速方法與未使用該加速方法相比,將計(jì)算量從104數(shù)量級(jí)減小至103數(shù)量級(jí),程序運(yùn)行時(shí)間減少至未使用該加速方法的1/10。
基于該程序加速規(guī)則,使用該方法的理論程序運(yùn)行時(shí)間減少至未使用該加速方法的4/m0。對(duì)于一個(gè)m0=50、D=10、p=10的HREWMA控制圖,使用該加速方法與未使用該加速方法相比,將計(jì)算量從103數(shù)量級(jí)減小至102數(shù)量級(jí),程序運(yùn)行時(shí)間減少至未使用該加速方法的2/25。
平均運(yùn)行鏈長(zhǎng)(ARL)表示從檢測(cè)開(kāi)始直到控制圖發(fā)出警報(bào)所抽取的平均樣本數(shù)量。當(dāng)過(guò)程是受控的,為了避免誤報(bào)情況的發(fā)生,希望ARL越大越好;當(dāng)過(guò)程是失控的,希望控制圖可以盡快報(bào)警,希望失控的ARL盡可能小。在比較不同控制圖的性能時(shí),ARL是不容忽視的指標(biāo)。控制圖ARL的計(jì)算方法有:蒙特卡羅隨機(jī)模擬法、積分法和馬氏鏈法。本文采用馬氏鏈法計(jì)算HREWMA控制圖的平均運(yùn)行鏈長(zhǎng)。
首先,對(duì)HREWMA控制圖進(jìn)行區(qū)間劃分。將控制限區(qū)間[t0,LHCL]劃分成t個(gè)子區(qū)間,每個(gè)子區(qū)間的寬度為d=(LHCL-k0)/t,此時(shí)HREWMA控制圖的統(tǒng)計(jì)量Zn在控制限區(qū)間[t0,LHCL]的變化過(guò)程可以看作具有(t+2)個(gè)狀態(tài)的馬爾可夫鏈轉(zhuǎn)移問(wèn)題。
然后,定義每個(gè)區(qū)間的狀態(tài)Sn,n=1,2,…,k,統(tǒng)計(jì)量Zn處于狀態(tài)Sn的條件可以表示為
LHCL-nd≤Zn≤LHCL-(n-1)dn=1,2,…k
最后,構(gòu)造出HREWMA控制圖的狀態(tài)轉(zhuǎn)移概率矩陣
(10)
其中,pi,j代表統(tǒng)計(jì)量Zn從狀態(tài)Si轉(zhuǎn)移到狀態(tài)Sj的概率。
綜上可知,P是t+1階方陣,最后一行(0,0,…,0,1)代表從吸收狀態(tài)St+1到轉(zhuǎn)移狀態(tài)Si的概率,最后一列(v1,v2,…,vt,1)T代表從轉(zhuǎn)移狀態(tài)Si到吸收狀態(tài)St+1的概率??梢钥吹剑珹RL的取值只受前t行的影響,因此對(duì)一步轉(zhuǎn)移概率矩陣進(jìn)行分塊:
(11)
其中,R矩陣是將P矩陣去掉最后一行和最后一列得到的t階矩陣,I是t階單位矩陣,1是一個(gè)元素全是1的t×1列向量,0是一個(gè)元素全是0的t×1列向量。
(12)
根據(jù)馬爾可夫鏈的性質(zhì)可得,第i步轉(zhuǎn)移概率矩陣Pi可以表示為
(13)
因此鏈長(zhǎng)LRL=i的概率:
Pr(LRL=i)=Pini(Ri-1-Ri)1
(14)
因此平均運(yùn)行鏈長(zhǎng)ARL可以表示為
(15)
HREWMA控制圖的優(yōu)勢(shì)在于對(duì)高維度、大漂移數(shù)據(jù)的檢測(cè),所以選擇此狀況下具有優(yōu)異表現(xiàn)的多元非參數(shù)控制圖作對(duì)比:RTC控制圖[8],DFEWMA控制圖[9],SREWMA控制圖[10],SSEWMA控制圖[11],HAMEWMA控制圖[12]。
(1)HREWMA控制圖平滑系數(shù)λ,分別取值0.05和0.1;
(2)受控樣本數(shù)量m0分別取值50,60,70,80,90;
(3)受控樣本和待檢測(cè)樣本的維度p分別取值10,20,30,40,50;
(4)均值漂移量δ分別取值0.5,1,2,4;
(5)滑動(dòng)窗口寬度D分別取值10,20,30,40,50;
(6)檢測(cè)數(shù)據(jù)的分布考慮以下3種分布類(lèi)型:①多元正態(tài)分布,記作Normp;②多元t分布,自由度是ξ,記作tp,ξ,其中ξ=5;③多元Gamma分布,形狀參數(shù)φ,尺寸參數(shù)是1,記作Gamp,φ,其中φ=3。
運(yùn)用馬爾可夫鏈得到HREWMA控制圖受控狀態(tài)的平均運(yùn)行鏈長(zhǎng),記為IC ARL(ARL受控); 因?yàn)闊o(wú)法估計(jì)失控狀態(tài)下檢驗(yàn)統(tǒng)計(jì)量的分布情況,故通過(guò)蒙特卡羅隨機(jī)模擬法求解HREWMA控制圖失控狀態(tài)的平均運(yùn)行鏈長(zhǎng),記為OC ARL(ARL失控)。在IC ARL相同的設(shè)定下,比較不同控制圖OC ARL的大小,OC ARL越小,說(shuō)明控制圖的性能更好。
2.2.1受控過(guò)程分析(ICARL)
在初始受控平均運(yùn)行鏈長(zhǎng)200的設(shè)定下,對(duì)比HREWMA控制圖與一些代表性的多元非參數(shù)控制圖(HAMEWMA、SREWMA、DFEWMA、SSEWMA、MSEWMA、MEWMA、RTC)在受控?cái)?shù)據(jù)監(jiān)測(cè)中的平均運(yùn)行鏈長(zhǎng)(IC ARL),結(jié)果如表1所示。
由表1可知,HREWMA控制圖的IC ARL大致在200左右,并且標(biāo)準(zhǔn)差也大致為200。表中的MSEWMA、MEWMA、RTC控制圖的ICARL顯著低于預(yù)期設(shè)定值,在實(shí)際的監(jiān)控過(guò)程中會(huì)頻繁報(bào)警,在受控狀態(tài)下HREWMA控制圖的監(jiān)控效果比較穩(wěn)定。
表1 控制圖表現(xiàn)對(duì)比(IC ARL)
2.2.2失控過(guò)程分析(OCARL)
在不同分布類(lèi)型、漂移量、滑動(dòng)窗口寬度、數(shù)據(jù)維度、平滑系數(shù)及受控樣本量的條件下,各個(gè)控制圖在失控狀態(tài)下的表現(xiàn)情況如下。
(1)滑動(dòng)窗口的影響。由圖5可知,隨著滑動(dòng)窗口的增大,3種分布的OC ARL均逐漸減小,其中,多元t分布的OC ARL減小的程度更加明顯,說(shuō)明滑動(dòng)窗口寬度越大,HREWMA控制圖的控制效果越好。
(2)數(shù)據(jù)維度的影響。由圖6可知,對(duì)于多元正態(tài)分布、多元t分布、多元Gamma分布,隨著數(shù)據(jù)維度的增大,OC ARL逐漸減小,數(shù)據(jù)維度越高,HREWMA控制圖的控制效果越好,因此HREWMA控制圖處理高維數(shù)據(jù)時(shí)有更好的表現(xiàn)。
(3)受控樣本量的影響。由圖7可知,隨著受控樣本量的增大,3種分布的OC ARL均逐漸減小,但是減小程度明顯小于滑動(dòng)窗口和數(shù)據(jù)維度的影響,證明HREWMA控制圖不需要過(guò)高的受控樣本量。
(a)Norm10 (b)t10,5
(c)Gam10,m3圖5 HREWMA控制圖在不同滑動(dòng)窗口下的OC ARL比較Fig.5 Comparison of OC ARL of HREWMA controlchart under different sliding windows
(a)Norm10 (b)t10,m5
(c)Gam10,3圖6 HREWMA控制圖在不同維度下的OC ARL比較Fig.6 Comparison of OC ARL of HREWMA controlchart in different dimensions
(a)Norm10 (b)t10,5
(c)Gam10,3圖7 HREWMA控制圖在不同受控樣本量下的OC ARL比較Fig.7 Comparison of OC ARL of HREWMA controlchart under different controlled sample sizes
(4)漂移量的影響。由圖8可知,隨著漂移量的增大,3種分布的OC ARL均逐漸減小,尤其是HREWMA控制圖在大漂移時(shí)具有很好的監(jiān)控效果。
結(jié)合表2、表3以及圖8中HREWMA與其他控制圖的比較,詳述仿真的6個(gè)因素對(duì)HREWMA控制圖監(jiān)控效果的影響。
(1)平滑系數(shù)。對(duì)比發(fā)現(xiàn),DFEWMA、SREWMA、SSEWMA控制圖在平滑系數(shù)λ=0.05時(shí)對(duì)小漂移控制效果不佳,HREWMA控制圖在λ=0.05時(shí)對(duì)小漂移有較好的控制效果。因此當(dāng)平滑系數(shù)較小時(shí)HREWMA控制圖同樣具有良好的監(jiān)控效果。
(2)樣本量。當(dāng)受控樣本在50和90之間變化時(shí),監(jiān)控效果較為穩(wěn)定,因此推斷樣本量增至50以上,監(jiān)控效果較好且基本不受樣本量的影響。
(3)滑動(dòng)窗口。隨著滑動(dòng)窗口的增大,3種分布的監(jiān)控效果均有更優(yōu)的表現(xiàn)。其中多元t分布下,大的滑動(dòng)窗口監(jiān)控效果更好。
(4)數(shù)據(jù)維度。數(shù)據(jù)維度越大,HREWMA控制圖的監(jiān)控效果越,因此推斷HREWMA適用于高維數(shù)據(jù)的檢測(cè)。
(5)漂移量。與其他多元非參數(shù)控制圖對(duì)比發(fā)現(xiàn),HREWMA控制圖在小漂移與大漂移的情況下均有較好的監(jiān)控效果,其中對(duì)大漂移的監(jiān)控效果極佳,在參與對(duì)比的控制圖中達(dá)到最優(yōu)水平。
(6)分布類(lèi)型。HREWMA控制圖在3種分布中均有較好的控制效果,對(duì)多元正態(tài)分布和多元Gamma分布有更優(yōu)的監(jiān)控效果。因此,HREWMA控制圖具有普適性,能夠有效監(jiān)控分布未知的數(shù)據(jù),并且推測(cè)對(duì)于多元正態(tài)分布和多元Gamma分布的數(shù)據(jù)具有較突出的表現(xiàn)。
為了用高維數(shù)據(jù)集驗(yàn)證HREWMA控制圖的性能,本文選取來(lái)自于MICHAEL[17]的數(shù)據(jù)集SECOM,記錄了2008年7月至2008年10月通過(guò)半導(dǎo)體生產(chǎn)過(guò)程中的測(cè)量點(diǎn)的傳感器收集得到的數(shù)據(jù)。共收集了1567個(gè)半導(dǎo)體產(chǎn)品的591維質(zhì)量數(shù)據(jù),得到的數(shù)據(jù)匯總為一個(gè)1567×591的矩陣。每個(gè)產(chǎn)品有分類(lèi)標(biāo)簽,將該產(chǎn)品區(qū)分為合格樣本和缺陷樣本(±1)。在該數(shù)據(jù)集中合格品的樣本量是1463個(gè),不合格品的樣本量為104個(gè)。挖掘龐大的高維數(shù)據(jù),可以獲得諸如產(chǎn)品質(zhì)量特性分布、產(chǎn)品質(zhì)量特性的變化趨勢(shì)、質(zhì)量特性之間的相關(guān)關(guān)系等信息。對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),根據(jù)圖9中的QQ圖和直方圖,在不同維度下數(shù)據(jù)分布并非滿(mǎn)足正態(tài)性假設(shè),運(yùn)用傳統(tǒng)的基于正態(tài)性假設(shè)的控制圖對(duì)SECOM數(shù)據(jù)進(jìn)行檢測(cè),不能得到可靠的監(jiān)控效果。
(a)Norm10(λ=0.05) (b)t10,5(λ=0.05) (c)Gam10,3(λ=0.05)
(d)Norm10(λ=0.1) (e)t10,5(λ=0.1) (f)Gam10,3(λ=0.1)圖8 當(dāng)λ=0.05/0.1、m0=50、維度p=10時(shí)控制圖對(duì)比(OC ARL)Fig.8 Comparison of control charts when λ=0.05/0.1,m0=50 and dimension p=10(OC ARL)
表2 當(dāng)λ=0.05、m0=50、維度p=10時(shí)控制圖OC ARL對(duì)比
表3 當(dāng)λ=0.1、m0=50、維度p=10時(shí)控制圖OC ARL對(duì)比
圖9 半導(dǎo)體制造中高維數(shù)據(jù)的產(chǎn)生Fig.9 The generation of high-dimensional data in semiconductor manufacturing
運(yùn)用HREWMA控制圖對(duì)數(shù)據(jù)進(jìn)行監(jiān)控。在合格樣本數(shù)據(jù)集中隨機(jī)選取m0=50作為受控樣本,控制圖基本參數(shù)設(shè)置為L(zhǎng)ARL0=200,λ=0.05,D=10。首先根據(jù)控制圖參數(shù)的設(shè)置利用受控?cái)?shù)據(jù)集得到控制限,待監(jiān)測(cè)樣本由隨機(jī)選取的15個(gè)合格樣本數(shù)據(jù)和85個(gè)不合格樣本數(shù)據(jù)組成,得到控制圖見(jiàn)圖10。在第17個(gè)數(shù)據(jù)時(shí)控制圖判斷數(shù)據(jù)異常并報(bào)警。
將HREWMA控制圖在SECOM數(shù)據(jù)集上的運(yùn)行結(jié)果與其他非參數(shù)控制圖在SECOM數(shù)據(jù)集上的運(yùn)行結(jié)果進(jìn)行對(duì)比。LI等[12]提出的HAMEWMA控制圖在含變點(diǎn)的SECOM數(shù)據(jù)集上(由15個(gè)受控樣本和85個(gè)不合格樣本數(shù)據(jù)組成)進(jìn)行數(shù)據(jù)監(jiān)控,在第25個(gè)數(shù)據(jù)時(shí)判定異常數(shù)據(jù)加入,控制圖報(bào)警。CHEN等[9]提出的 DFEWMA控制圖監(jiān)控含變點(diǎn)的SECOM數(shù)據(jù)集(由63個(gè)受控樣本和37個(gè)不合格樣本數(shù)據(jù)組成),在第71個(gè)數(shù)據(jù)點(diǎn)時(shí)控制圖判定異常并且報(bào)警。與其他在SECOM數(shù)據(jù)集上進(jìn)行監(jiān)控的非參數(shù)控制圖對(duì)比發(fā)現(xiàn),本文提出的HREWMA控制圖對(duì)異常數(shù)據(jù)的加入更敏感,控制圖報(bào)警更快速,監(jiān)控效果更佳。
(a)受控的SECOM數(shù)據(jù)(b)含變點(diǎn)的SECOM數(shù)據(jù)
(c)失控的SECOM數(shù)據(jù)圖10 HREWMA在受控、含變點(diǎn)、失控SECOM數(shù)據(jù)的監(jiān)控效果Fig.10 Monitoring effect of HREWMA on SECOM dataunder control, including change points, and out of control
本文采用白葡萄酒生產(chǎn)中的高維數(shù)據(jù)來(lái)證明HAMEWMA控制圖的實(shí)用性。白葡萄酒數(shù)據(jù)集(Wine Quality數(shù)據(jù)集)由CORTEZ等[18]提供,從UCI機(jī)器學(xué)習(xí)的資料庫(kù)[17]中獲取。數(shù)據(jù)集的時(shí)間區(qū)間為2004年3月至2007年2月,由生產(chǎn)白葡萄酒的自動(dòng)化系統(tǒng)在多個(gè)采樣點(diǎn)收集得到。白葡萄酒數(shù)據(jù)集由11個(gè)連續(xù)變量與1個(gè)分類(lèi)變量組成,共包含4898個(gè)樣本點(diǎn)。其中,11個(gè)連續(xù)變量表征白葡萄酒的性質(zhì),分別為:游離二氧化硫、總二氧化硫、密度、檸檬酸、揮發(fā)性酸度、固定酸度、硫酸鹽、酒精度、殘?zhí)?、氯化物、pH值。1個(gè)分變量表征白葡萄酒的質(zhì)量,共包含從LV0(極差)到LV10(極好)的11個(gè)等級(jí)。
(a)受控的Wine Quality數(shù)據(jù)(b)含變點(diǎn)的Wine Quality數(shù)據(jù)
(c)失控的Wine Quality數(shù)據(jù)圖11 HREWMA在受控、含變點(diǎn)、失控Wine Quality數(shù)據(jù)的監(jiān)控效果Fig.11 Monitoring effect of HREWMA on WineQuality data under control, including change points,and out of control
依據(jù)HREWMA控制圖對(duì)Wine Quality數(shù)據(jù)集進(jìn)行監(jiān)控,從LV7的數(shù)據(jù)中取m0=20個(gè)樣本作為受控樣本。設(shè)置控制圖的基本參數(shù)LARL0=200,λ=0.05,D=10,根據(jù)仿真得到HREWMA控制圖的控制限。按照順序從LV7的數(shù)據(jù)集中隨機(jī)抽取20個(gè)樣本,從LV6的數(shù)據(jù)集中抽取80個(gè)樣本,得到HREWMA控制圖的監(jiān)控效果如圖11所示。在第25個(gè)數(shù)據(jù)點(diǎn)時(shí)控制圖判斷數(shù)據(jù)異常并且報(bào)警。ZOU等[10]在含有變點(diǎn)的Wine Quality數(shù)據(jù)集(由30個(gè)從LV7中選取的受控?cái)?shù)據(jù)和70個(gè)從LV6中選取的不合格數(shù)據(jù)組成)上進(jìn)行監(jiān)控,在第55個(gè)數(shù)據(jù)點(diǎn)時(shí)控制圖報(bào)警。與ZOU等[10]提出的SREWMA控制圖相比,HREWMA控制圖具有更好的監(jiān)控效果,實(shí)用性更強(qiáng)。
針對(duì)一些工業(yè)生產(chǎn)中存在的高維度、未知分布、受控樣本小的數(shù)據(jù)特性,本文基于雙樣本高維秩檢驗(yàn)設(shè)計(jì)了多元非參數(shù)HREWMA控制圖,通過(guò)仿真分析和實(shí)例檢驗(yàn),證明HREWMA控制圖具有更好的監(jiān)控效果;并且通過(guò)與其他控制圖的對(duì)比,證明HREWMA控制圖對(duì)高維、小樣本數(shù)據(jù)具有更好的表現(xiàn);此外,HREWMA控制圖在非正態(tài)數(shù)據(jù)中依然有良好的監(jiān)控效果。與傳統(tǒng)的多元非參數(shù)控制圖比較發(fā)現(xiàn),HREWMA控制圖具有較好的監(jiān)控效果,可以運(yùn)用到實(shí)際生產(chǎn)控制中。