国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于游程檢驗(yàn)的多元非參控制圖

2020-05-03 06:02:46裴德昭李艷婷
工業(yè)工程 2020年2期
關(guān)鍵詞:樣本量正態(tài)分布寬度

裴德昭,李艷婷

(上海交通大學(xué) 機(jī)械與動(dòng)力工程學(xué)院,上海200240)

多元控制圖是同時(shí)監(jiān)控多個(gè)質(zhì)量指標(biāo)的控制圖,很多學(xué)者對(duì)其進(jìn)行了研究。Hotelling[1]提出了Hotelling T2控制圖。Lowry等[2]提出多元指數(shù)移動(dòng)平均(MEWMA)控制圖。Croseier[3]提出多元累積和(MCUSUM)控制圖。Makis[4]提出一種尋找最小平均成本及最優(yōu)控制限的算法并設(shè)計(jì)了多元Bayesian控制圖。Qiu[5]對(duì)多元控制圖的研究進(jìn)行了總結(jié)。

大部分多元控制圖被設(shè)計(jì)用于具有正態(tài)分布數(shù)據(jù)的監(jiān)控,在非正態(tài)條件下監(jiān)控效果并不理想。根據(jù)Qiu[6]的分析,關(guān)于非正態(tài)分布監(jiān)控的研究主要分為2個(gè)方向。1)對(duì)傳統(tǒng)參數(shù)控制圖的改進(jìn)。一些學(xué)者(Borror等[7],Stoumbos等[8],Testik等[9])認(rèn)為若參數(shù)變換合理,基于正態(tài)分布的控制圖仍可用于非正態(tài)分布的監(jiān)控。2) 發(fā)展面向未知分布的多元非參控制圖。Qiu等[10]認(rèn)為傳統(tǒng)的參數(shù)轉(zhuǎn)換只能改善控制效果,在很多運(yùn)用中并不能達(dá)到理想的效果。同時(shí),當(dāng)受控樣本過少時(shí),參數(shù)估計(jì)準(zhǔn)確程度的下降也會(huì)影響最終監(jiān)控效率。因此,多元非參控制圖在應(yīng)對(duì)未知分布監(jiān)控的情況時(shí)更有潛力。

Liu[11]基于數(shù)據(jù)深度設(shè)計(jì)控制圖。Hawkins等[12]將未知參數(shù)向量轉(zhuǎn)化為已知參數(shù)向量,設(shè)計(jì)自啟動(dòng)結(jié)構(gòu)的EWMA控制圖。Deng等[13]運(yùn)用實(shí)時(shí)對(duì)比(RTC)的方法設(shè)計(jì)非參控制圖。Li等[14]基于空間符號(hào)和數(shù)據(jù)深度設(shè)計(jì)了多元CUSUM控制圖等。許多控制圖應(yīng)用需要一些前提條件。Sun等[15]運(yùn)用支持向量機(jī)計(jì)算核距離,在T2控制圖基礎(chǔ)上設(shè)計(jì)了K控制圖。Qiu[16]基于對(duì)數(shù)線性模型設(shè)計(jì)多元CUSUM控制圖。Zou等[17]通過構(gòu)造在橢球方向分布簇內(nèi)仿射不變的符號(hào)檢驗(yàn),設(shè)計(jì)多元EWMA控制圖。這些控制圖需要足夠的受控樣本提取信息。Sullivan等[18]在Lowry等[2]的基礎(chǔ)上提出自啟動(dòng)結(jié)構(gòu)的多元EWMA控制圖。Zou等[19]將套索算法(LASSO)變量挑選與貝葉斯信息準(zhǔn)則(BIC)相結(jié)合設(shè)計(jì)多元統(tǒng)計(jì)控制方法。Zou等[20]基于空間秩設(shè)計(jì)多元EWMA控制圖。當(dāng)變量數(shù)過大時(shí),這些控制圖的表現(xiàn)效果并不理想。Chen等[21]提出的面向分布未知的EWMA控制圖很好地解決了高維度監(jiān)控的問題。

已有的多元非參控制圖運(yùn)用了很多非參數(shù)檢驗(yàn)方法。Chen等[21]將Bickel[22]提出的多元經(jīng)驗(yàn)分布的檢驗(yàn)方式與Wilcoxon秩和檢驗(yàn)結(jié)合,設(shè)計(jì)了EWMA控制圖。Mukherjee等[23]提出了一種將Wilcoxon秩和檢驗(yàn)與Ansari-Bradley檢驗(yàn)相結(jié)合的Shewhart控制圖。Zou等[17]提出基于多元符號(hào)檢驗(yàn)的EWMA控制圖。Li等[14]在空間符號(hào)檢驗(yàn)的基礎(chǔ)上,設(shè)計(jì)了CUSUM控制圖。Boone等[24]提出基于Wilcoxon符號(hào)秩檢驗(yàn)的Shewhart控制圖。Zhou等[25]將多元擬合優(yōu)度檢驗(yàn)與最小生成樹結(jié)合,設(shè)計(jì)SMMST控制圖。Li等[26]基于Mann-Whitney雙樣本檢驗(yàn)設(shè)計(jì)CPDP控制圖。Chowdhury等[27]運(yùn)用Cucconi檢驗(yàn)設(shè)計(jì)Shewhart控制圖。然而,很多檢驗(yàn)對(duì)于小樣本、高維度的數(shù)據(jù)并沒有很好的檢出力。Biswas等[28]在2014年提出了在高維數(shù)據(jù)且未知分布情況下的一種基于游程檢驗(yàn)的雙樣本檢驗(yàn)方法,并證明該方法在面對(duì)小樣本、高維度數(shù)據(jù)時(shí)有很好的效果。

游程檢驗(yàn)是以游程個(gè)數(shù)或游程長度為統(tǒng)計(jì)量所做的兩分變量的隨機(jī)性檢驗(yàn),用于檢驗(yàn)一組變量數(shù)列有無趨勢項(xiàng),也可以檢驗(yàn)兩組變量有無顯著差異,在總體分布不明確時(shí)也有良好的檢驗(yàn)效果。在Nelson[29-30]之后,游程檢驗(yàn)用于控制圖設(shè)計(jì)的研究很少。Zhou等[25]運(yùn)用最小生成樹設(shè)計(jì)的自啟動(dòng)結(jié)構(gòu)控制圖,并論證了在較大漂移時(shí)比Zou等[20]的SREWMA控制圖效果好。

針對(duì)受控樣本少、高維度、分布未知、變量相關(guān)性未知等條件的數(shù)據(jù)監(jiān)控,本文結(jié)合Biswas等[28]的基于游程檢驗(yàn)的雙樣本檢驗(yàn),提出了非參控制圖HAMEWMA。通過蒙特卡洛模擬,分析多種參數(shù)組合條件下平均運(yùn)行鏈長(ARL)的表現(xiàn)。對(duì)比Chen等[21]列舉的DFEWMA、SREWMA、SSEWMA和RTC控制圖,證明在較大漂移時(shí)本控制圖表現(xiàn)良好。選擇Chen等[21]作對(duì)比的原因:首先其選取的變量數(shù)多,受控樣本量少,變量之間有相關(guān)性,且選擇了多種分布,滿足橫向比較的條件;其次這篇論文是本領(lǐng)域較新的研究成果,對(duì)近幾年多個(gè)控制圖進(jìn)行比較總結(jié),數(shù)據(jù)有很強(qiáng)的借鑒意義。

1多元非參控制圖HAMEWMA設(shè)計(jì)

1.1基于Kruskal的最短漢密爾頓路徑

設(shè)一個(gè)無向圖G中有N個(gè)頂點(diǎn),漢密爾頓路徑H*是將N個(gè)頂點(diǎn)用N-1段連起來,且每個(gè)頂點(diǎn)的自由度不超過2。對(duì)于擁有N個(gè)頂點(diǎn)的圖G,共有N/2條漢密爾頓路徑。N-1段長度加和最小的路徑,即為最短漢密爾頓路徑。挑選最短漢密爾頓路徑的方法有很多,例如,遺傳算法[31]、粒子群算法[32]、隨機(jī)蛙跳算法[33]等。但通常情況下,啟發(fā)式算法得到漸優(yōu)的結(jié)果,形成的最短漢密爾頓路徑不唯一,導(dǎo)致檢驗(yàn)統(tǒng)計(jì)量具有隨機(jī)性。

Biswas等[28]運(yùn)用Kruskal的思想得到最短漢密爾頓路徑。先對(duì)圖G中的所有邊從小到大進(jìn)行排列,以最小邊為最短路徑的入選段,依次入選;若之后的入選段與之前的段能形成環(huán),或者加入后單個(gè)頂點(diǎn)的自由度大于2,則放棄該入選段;依次下去,直到遍歷圖G中所有邊;最終得到唯一的最短漢密爾頓路徑。

圖1展示了將6個(gè)樣本點(diǎn)排成最短漢密爾頓路徑的過程。(a)表示圖G中有A、B、C、D、E、F6個(gè)點(diǎn),有21條邊。(b)~(d)表示依次選擇最短邊(A,C)、(D,F)和(B,E)作 為入選段。(e)表示選擇(C,F)作為入選段,與之前入選段不構(gòu)成環(huán)且最大自由度在C、F取得,均為2,滿足入選規(guī)則。(f)中(B,C)<(A,B),應(yīng)考慮入選(B,C),但其加入導(dǎo)致C的自由度大于2,不滿足入選規(guī)則,故選擇(A,B)。

根據(jù)上述形成的最短漢密爾頓路徑設(shè)計(jì)游程檢驗(yàn)統(tǒng)計(jì)量,并構(gòu)造多元非參控制圖。

圖1基于Kruskal的最短漢密爾頓路徑形成示意圖Figure 1 Schematic diagram of the shortest Hamiltonpath based on Kruskal

1.2多元非參控制圖HAMEWMA的構(gòu)造

原假設(shè)H0為所有的樣本點(diǎn)來自同一分布,備擇假設(shè)H1為S2中存在單個(gè)變點(diǎn)τ將S分為2部分,即前一部分樣本點(diǎn)x1,···,xτ來自分布F0,后一部分樣本點(diǎn)xτ+1,···,x m0+n來自分布F1,即

將S對(duì)應(yīng)到圖G中的m0+n個(gè)頂點(diǎn),x i與x j之間的距離記為‖x i-x j‖,即樣本點(diǎn)x i與x j間的歐氏距離。運(yùn)用Kruskal方法得到最短漢密爾頓路徑 H*, H*有m0+n-1段,每段記為Ut(1≤t≤m0+n-1),得到檢驗(yàn)統(tǒng)計(jì)量

其中,

因?yàn)門m0,n使用最短漢密爾頓路徑 H*中的秩,以及x1,···,x m0+n間的可交換性,所以高維和單維均與分布無關(guān)。參考Mood[34],在H0成立的條件下

根據(jù)上述公式可得Tm0,n的概率分布。

若原假設(shè)H0成立,則 H*中會(huì)有2部分樣本點(diǎn)混合均勻的趨勢,導(dǎo)致T m0,n較大;若H0不成立,則H*中同一部分樣本點(diǎn)會(huì)相距很近,導(dǎo)致T m0,n較小。令控制限為hm0,n,當(dāng)T m0,n<hm0,n時(shí)拒絕H0,表明存在變點(diǎn)且為檢測樣本中第n個(gè)樣本點(diǎn)。

控制圖常用的性能評(píng)價(jià)標(biāo)準(zhǔn)是平均運(yùn)行鏈長ARL(average run length),設(shè)每個(gè)檢測樣本中數(shù)據(jù)的出界概率為Pα,則ARL=1/Pα,需要調(diào)節(jié)控制限hm0,n達(dá)到預(yù)期的Pα。hm0,n由T m0,n的分布決定,而Tm0,n的分布是離散的且隨著參數(shù)m0,n值的變化而變化,如表1所示。假設(shè)(m0,n)=(50,5),Tm0,n最小為2,最大為11,共有10個(gè)可能值。根據(jù)式(5)和式(6)分別計(jì)算所取值的概率。當(dāng)hm0,n=4,有0.013%的概率出界;當(dāng)hm0,n=5,有0.160%的概率出界;當(dāng)hm0,n=6,有0.561%的概率出界;當(dāng)hm0,n=9,有33%的概率出界。

表1T m0,n的概率表Table 1 Probability table of T m0,n

本文考慮建立指數(shù)加權(quán)移動(dòng)平均(EWMA)控制圖,將歷史數(shù)據(jù)里蘊(yùn)含的過程信息累積,達(dá)到快速報(bào)警的目的。

根據(jù)式(7)得到EWMA統(tǒng)計(jì)量Zm0,n。E xm0,n(由式(5)和式(6)得到)為受控樣本為m0,檢測樣本為n時(shí)的Tm0,n的期望。λ為平滑系數(shù),EWMA控制圖通常選擇λ為0.05,0.1或0.2。因?yàn)棣巳≈递^小時(shí)漂移更靈敏,同時(shí)參考Chen等[21],本文取λ為0.05,0.1。

當(dāng)m0固定時(shí),n過大會(huì)增加求取hm0,n的計(jì)算量,同時(shí),時(shí)間軸上相距較遠(yuǎn)監(jiān)測點(diǎn)的影響研究價(jià)值不大。因此,考慮設(shè)置滑動(dòng)窗口,當(dāng)監(jiān)控樣本數(shù)大于滑動(dòng)窗口寬度時(shí),新的樣本點(diǎn)會(huì)取代窗口中最久的樣本點(diǎn)形成新的檢測窗口。此外, H*是基于樣本點(diǎn)間的歐氏距離生成的,需要保證每個(gè)變量的改變對(duì)總體距離的影響相同。因此,在監(jiān)控前需依次對(duì)各變量歸一化。p維樣本向量根據(jù)式(8)、式(9)分別得到受控樣本m0的均值、標(biāo)準(zhǔn)差,根據(jù)式(10)歸一化。

基于上述分析,本文提出HAMEWMA控制圖。該控制圖的平均運(yùn)行鏈長計(jì)算方法如下。

步驟1S1={x1,···,xm0}為受控情況下的m0個(gè)p維樣本向量,對(duì)所有變量數(shù)據(jù)歸一化。

步驟2設(shè)定滑動(dòng)窗口寬度wmax以及平滑系數(shù)λ的值。

步驟3設(shè)定L的值并計(jì)算控制線

步驟4設(shè)定HAMEWMA控制圖統(tǒng)計(jì)量的初始值Zm0,0=0。

步驟5根據(jù)式(5)和式(6)計(jì)算樣本組成( m0,n)為(m0,1),···,(m0,wmax)時(shí) Tm0,n的期望,分別記為 E x1,···,

E xwmax。

步驟6根據(jù)式(12)得到Zm0,w。

步驟7將步驟6得到的Zm0,w與LCL比較。若Zm0,w>LCL,則繼續(xù)計(jì)算 Zm0,w+1并比較其與LCL的大??;若Zm0,w≤LCL,記錄此時(shí)的w-1為RL1。

循環(huán)2 0 000次 得到RL1, ···,R L20000,根據(jù)式(13)計(jì)算當(dāng)前的平均運(yùn)行鏈長ARLnow。

2仿真檢驗(yàn)

因?yàn)镠AMEWMA控制圖的優(yōu)勢為對(duì)高維度、小樣本數(shù)據(jù)的監(jiān)控,所以比較對(duì)象為此條件下表現(xiàn)優(yōu)異的多元非參控制圖:MEWMA控制圖(Lowry等[2]),SSEWMA控制圖(Hawkins等[12]),RTC控制圖(Deng等[13]),MSEWMA控制圖(Zou等[17]),SREWMA控制圖(Zou等[20])和DFEWMA控制圖(Chen等[21])。

2.1仿真設(shè)定

本文仿真是對(duì)于均值漂移的監(jiān)控。漂移模型為

仿真過程中考慮6個(gè)因素的影響。

1)EWMA控制圖的平滑系數(shù)λ,分別取0.05和0.1;

2)受控樣本的數(shù)目m0,分別取15,25,50,75和100;

3)受控樣本的維度p,分別取10,20,30,40和50;

4)漂移量的大小δ,分別取0.5,1.0,2.0和4.0;

5) 滑動(dòng)窗口的寬度wmax,分別取5,10,15,20,25,30,35,40,45和50;

6)監(jiān)控?cái)?shù)據(jù)的分布類型,考慮3種分布。

①多元正態(tài)分布,記為Normp;

②多元t分布,自由度為ξ,記為 tp,ξ,ξ=5;

③多元Gamma分布。參照Stoumbos[8]的方法生成分布。令形狀參數(shù)為φ,尺寸參數(shù)為1,記為G amp,φ,φ=3。

這3種分布均值向量為 Xˉ=(0,···,0)T,協(xié)方差矩陣均設(shè)定為其中,σii=1,σij=0.5|i-j|(i,j=1,2,···, p;i ≠j)。

2.2仿真結(jié)果

通過蒙特卡洛模擬得到在受控和失控狀態(tài)下的平均運(yùn)行鏈長,分別記作IC ARL(ARL in control)和OC ARL(ARL out of control)。在IC ARL相同的情況下,OC ARL越小,表明控制圖性能越好。

2.2.1受控過程分析(IC ARL)

在設(shè)置初始平均運(yùn)行鏈長為200的前提下,比較HAMEWMA控制圖和一些具有代表性的多元非參控制圖(DFEWMA、SREWMA、SSEWMA、MSEWMA、MEWMA、RTC)在監(jiān)控受控?cái)?shù)據(jù)時(shí)的平均運(yùn)行鏈長表現(xiàn)(IC ARL),結(jié)果如表2和表3所示。

表2受控情況下對(duì)于多元正態(tài)分布HAMEWMA,DFEWMA,SREWMA, SSEWMA,MEWMA以及RTC的控制圖表現(xiàn)Table 2 Control chart performance for the multivariate normal distribution of HAMEWMA,DFEWMA,SREWMA, SSEWMA,MEWMA and RTC under controlled conditions

可以看出,HAMEWMA控制圖的IC ARL可以控制在200左右,且標(biāo)準(zhǔn)差也在200左右,有部分SDRL稍微偏離,但橫向?qū)Ρ绕渌刂茍D,屬于正常現(xiàn)象。表2中的SEWMA、MEWMA、RTC控制圖的IC ARL明顯低于初始設(shè)定值,在實(shí)際監(jiān)控中會(huì)出現(xiàn)頻繁報(bào)警的情況,說明HAMEWMA控制圖在受控狀態(tài)下的監(jiān)控效果穩(wěn)定。

2.2.2失控過程分析(OC ARL)

在不同分布類型、漂移量、滑動(dòng)窗口寬度、數(shù)據(jù)維度、平滑系數(shù)及受控樣本量的條件下,各控制圖在受控狀態(tài)下的整體表現(xiàn)情況如下。

1)滑動(dòng)窗口寬度的影響。由圖2可知,對(duì)于多元正態(tài)分布和多元t分布,當(dāng)δ=0.5時(shí),隨著滑動(dòng)窗口寬度的增加,ARL逐漸減小,窗口寬度為50的ARL是初始窗口寬度為5的ARL的70%,有大幅減??;當(dāng)δ=1.0時(shí),ARL基本不受窗口寬度的影響;當(dāng)δ>1.0時(shí),隨著窗口寬度增加,ARL逐漸增大并有趨于平穩(wěn)的趨勢。對(duì)于多元Gamma分布,當(dāng)δ=0.5時(shí),隨著滑動(dòng)窗口寬度的增加,ARL輕微減小后趨于平穩(wěn);當(dāng)δ>0.5時(shí),隨著滑動(dòng)窗口寬度增加,ARL逐漸增大并趨于平穩(wěn)。

2)數(shù)據(jù)維度的影響。由圖3可知,對(duì)于多元正態(tài)分布和多元t分布,當(dāng)δ<4.0時(shí),隨著數(shù)據(jù)維度的增加,ARL逐漸減?。划?dāng)δ=4.0時(shí),ARL逐漸減小并趨于平穩(wěn)。對(duì)于多元Gamma分布,當(dāng)δ<2.0時(shí),隨著數(shù)據(jù)維度的增加,ARL逐漸減??;當(dāng)δ≥2.0時(shí),ARL基本不受數(shù)據(jù)維度的影響,說明對(duì)于多元Gamma分布,HAMEWMA控制圖對(duì)于低維度數(shù)據(jù)的較大漂移也有良好的監(jiān)控效果。

3)受控樣本量的影響。由圖4可知,對(duì)于3種分布,隨著受控樣本量從15增至25,不同漂移量下失控ARL均明顯減?。浑S著受控樣本量從25增至100,失控ARL變化不明顯。由此可得在一定的受控樣本量范圍內(nèi),HAMEWMA控制圖的性能受樣本量大小的影響并不大,可以實(shí)現(xiàn)對(duì)較小的受控樣本的監(jiān)控。

4)比較不同控制圖性能及分析平滑系數(shù)的影響。表4選擇m0=50,p=10進(jìn)行控制圖橫向比較,其中,HAMEWMA控制圖選擇滑動(dòng)窗口寬度為5。對(duì)表4的內(nèi)容進(jìn)行整理,得到圖5(a)~(f)。該圖展示了3種分布以及2種平滑系數(shù)時(shí)各控制圖的ARL隨漂移量變化的情況。分析3種數(shù)據(jù)分布,對(duì)于多元正態(tài)分布和多元t分布,當(dāng)δ>1.0時(shí),HAMEWMA控制圖表現(xiàn)最優(yōu);對(duì)于多元Gamma分布,當(dāng)δ>0.5時(shí),HAMEWMA控制圖表現(xiàn)最優(yōu)。當(dāng)δ較小時(shí),DFEWMA,SREWMA,SSEWMA控制圖在λ=0.05條件下表現(xiàn)更好;當(dāng)δ較大時(shí),DFEWMA,SREWMA,SSEWMA控制圖在λ=0.1條件下表現(xiàn)更好。不同于上述現(xiàn)象,HAMEWMA控制圖在λ=0.05時(shí)的表現(xiàn)優(yōu)于λ=0.1時(shí)。

表3受控情況下對(duì)于多元t分布和多元Gamma分布HAMEWMA的控制圖表現(xiàn)Table 3 Control chart performance for multivariate t distribution and multivariate Gamma distribution of HAMEWMA under controlled conditions

圖2滑動(dòng)窗口寬度與OC ARL的關(guān)系Figure 2 The relationship between sliding window width and OC ARL

圖3數(shù)據(jù)維度與OC ARL的關(guān)系Figure 3 The relationship between data dimension and OC ARL

圖4受控樣本量與OC ARL的關(guān)系Figure 4 The relationship between controlled sample size and OC ARL

2.3仿真結(jié)果討論

結(jié)合2.2的結(jié)果,分析仿真的6個(gè)因素對(duì)監(jiān)控效果的影響。

1)平滑系數(shù)。不同于DFEWMA,SREWMA和SSEWMA控制圖在λ=0.05時(shí)控制大漂移效果好,在λ=0.1時(shí)控制小漂移效果好,HAMEWMA控制圖在λ=0.05時(shí)表現(xiàn)優(yōu)于λ=0.1時(shí)的表現(xiàn)。因此具有較小平滑系數(shù)的HAMEWMA控制圖監(jiān)控效果好。

表4受控樣本m0=50,數(shù)據(jù)維度p=10時(shí)HAMEWMA,DFEWMA,SREWMA,SSEWMA以及RTC的OC ARL比較Table 4 Comparison of OC ARL between HAMEWMA, DFEWMA, SREWMA,SSEWMAand RTC when m0=50 and p=10

圖5 m 0=50,p=10時(shí)HAMEWMA,DFEWMA,SREWMA,SSEWMA和RTC控制圖的OC ARL的比較Figure 5 Comparison of OC ARL between HAMEWMA, DFEWMA, SREWMA,SSEWMA and RTC when m0=50 and p=10

2)樣本量。當(dāng)受控樣本量較小時(shí),監(jiān)控效果不佳,而隨著樣本量增大到一定范圍,監(jiān)控效果變優(yōu)且基本不受樣本量的影響。

3)窗口寬度。較大的窗口寬度會(huì)增強(qiáng)大漂移的監(jiān)控效果,但會(huì)減弱小漂移的監(jiān)控效果。結(jié)合具體分析,建議選擇較小的滑動(dòng)窗口寬度。

4)維度。數(shù)據(jù)維度越高,HAMEWMA控制圖監(jiān)控效果越好。

5)量。HAMEWMA控制圖與其他多元非參控制圖相比,對(duì)較小的漂移監(jiān)控效果優(yōu)勢不突出,對(duì)較大的漂移監(jiān)控效果良好,甚至達(dá)到參與比較的控制圖中的最優(yōu)水平。

6)分布。HAMEWMA控制圖對(duì)3種分布均有良好的控制效果,對(duì)Gamma分布有更突出的表現(xiàn)。因此,HAMEWMA控制圖對(duì)于未知分布的數(shù)據(jù)具有普適性,并推測對(duì)于非正態(tài)分布有更好的監(jiān)控效果。

3實(shí)例檢驗(yàn)

本文運(yùn)用半導(dǎo)體制造過程中的高維數(shù)據(jù)來說明HAMEWMA控制圖的有效性。采用的數(shù)據(jù)來源于Michael[35]的SECOM數(shù)據(jù)集,記錄區(qū)間為2008年7月到2008年10月,由半導(dǎo)體制造過程中多個(gè)測量點(diǎn)的傳感器采集得到。

數(shù)據(jù)集包含1 567個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)由591個(gè)連續(xù)變量組成。數(shù)據(jù)集還提供了一個(gè)分類標(biāo)簽,表示經(jīng)過生產(chǎn)線測試后是否合格(±1)。在這個(gè)數(shù)據(jù)集中,經(jīng)過測試后合格的樣本量為1 463個(gè),記為合格樣本;不合格的樣本量為104個(gè),記為不合格樣本。數(shù)據(jù)分析的目標(biāo)是根據(jù)傳感器得到的數(shù)據(jù)進(jìn)行建模并監(jiān)控生產(chǎn)質(zhì)量。

該問題屬于高維數(shù)據(jù)監(jiān)控,因此,考慮多變量統(tǒng)計(jì)過程控制(MSPC)的方法。預(yù)處理過程中移除117個(gè)不發(fā)生變化的變量和存在連續(xù)性缺失值的426個(gè)變量,剩余48個(gè)變量。在對(duì)數(shù)據(jù)進(jìn)行監(jiān)控分析前,判斷數(shù)據(jù)的相關(guān)性及正態(tài)性。以受控樣本為例,先將48個(gè)變量分別記作x1,···,x48,隨機(jī)選取3個(gè)變量評(píng)估其相關(guān)性和正態(tài)性。本文選擇x10、x20、x30進(jìn)行分析。圖6(a)~(c)分別為x10、x20、x30變量間的散點(diǎn)圖,說明任意2個(gè)變量的聯(lián)合分布不符合二元正態(tài)分布;圖6(d)~(f)分別為x10、x20、x30的正態(tài)QQ圖,表明邊際分布也不全是正態(tài)分布。因此,多元正態(tài)性假設(shè)無效,本文期望設(shè)計(jì)的與分布無關(guān)的HAMEWMA控制圖與傳統(tǒng)控制圖相比具有良好的魯棒性。

運(yùn)用HAMEWMA控制圖對(duì)該數(shù)據(jù)集進(jìn)行監(jiān)控。從合格樣本中隨機(jī)抽取m0=50作為受控樣本,設(shè)置控制圖的基本參數(shù)為λ=0.05,ARL0=200,wmax=5。首先根據(jù)參數(shù)設(shè)置仿真得到控制限,其次按順序依次監(jiān)控從剩余合格樣本中隨機(jī)抽取的15個(gè)樣本和不合格樣本,得到如下控制圖(圖7)。在第25個(gè)數(shù)據(jù)時(shí)判定異常數(shù)據(jù)加入,控制圖報(bào)警。這表明HAMEWMA控制圖可以高效地監(jiān)控高維數(shù)據(jù)流,有很強(qiáng)的實(shí)用性。

圖6 x10,x20,x303變量的散點(diǎn)圖及正態(tài)Q-Q圖Figure 6 Scatterplots of x 10,x20,x30and normal Q-Q plots

圖7 HAMEWMA控制圖對(duì)SECOM數(shù)據(jù)的監(jiān)控效果Figure 7 Monitoring SECOM data by HAMEWMA control chart

4結(jié)論

針對(duì)受控樣本少、高維度、分布未知、變量相關(guān)性未知等條件的數(shù)據(jù)監(jiān)控,本文基于游程檢驗(yàn)的雙樣本檢驗(yàn),設(shè)計(jì)了多元非參控制圖HAMEWMA。通過仿真和實(shí)例分析,證明其在選擇較小滑動(dòng)窗口寬度,較小EWMA平滑系數(shù)的情況下,對(duì)具有較大漂移的高維數(shù)據(jù)有卓越的監(jiān)控效果;對(duì)于非正態(tài)分布數(shù)據(jù),HAMEWMA監(jiān)控表現(xiàn)良好甚至優(yōu)于對(duì)正態(tài)分布數(shù)據(jù)的監(jiān)控,例如對(duì)Gamma分布數(shù)據(jù)的監(jiān)控。此外,HAMEWMA控制圖對(duì)小漂移的數(shù)據(jù)監(jiān)控效果一般,需要后續(xù)的研究工作進(jìn)行改進(jìn)。與傳統(tǒng)多元非參控制圖相比,HAMEWMA控制圖有良好的魯棒性和監(jiān)控優(yōu)勢,可在實(shí)際生產(chǎn)控制中運(yùn)用。

猜你喜歡
樣本量正態(tài)分布寬度
醫(yī)學(xué)研究中樣本量的選擇
航空裝備測試性試驗(yàn)樣本量確定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
基于對(duì)數(shù)正態(tài)分布的出行時(shí)長可靠性計(jì)算
馬屁股的寬度
正態(tài)分布及其應(yīng)用
正態(tài)分布題型剖析
χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
紅細(xì)胞分布寬度與血栓的關(guān)系
孩子成長中,對(duì)寬度的追求更重要
人生十六七(2015年5期)2015-02-28 13:08:24
虞城县| 根河市| 县级市| 太保市| 和顺县| 神木县| 龙山县| 安平县| 图木舒克市| 宁陕县| 普宁市| 吉林省| 峡江县| 建水县| 泊头市| 广丰县| 达州市| 屏东县| 富川| 阿鲁科尔沁旗| 四子王旗| 东乌珠穆沁旗| 安达市| 嘉定区| 苏尼特左旗| 石台县| 呼伦贝尔市| 库伦旗| 小金县| 鱼台县| 大安市| 克东县| 江华| 蒲江县| 陵水| 镇赉县| 梁河县| 常州市| 伊川县| 福建省| 西乌珠穆沁旗|