馬海南,張應(yīng)山
零成分搜索法的模擬分析
馬海南1,張應(yīng)山2
(1.浙江工業(yè)職業(yè)技術(shù)學(xué)院人文社科部,浙江紹興312000; 2.華東師范大學(xué)統(tǒng)計(jì)與精算學(xué)系,上海200241)
主要考察了零成分搜索法的模擬分析.首先簡(jiǎn)述了零成分搜索法的計(jì)算步驟,其次用一個(gè)模擬例子闡述了零成分搜索法的應(yīng)用過(guò)程;最后模擬計(jì)算了零成分搜索法進(jìn)行列顯著性判斷時(shí)所犯兩類錯(cuò)誤概率的大小.模擬分析結(jié)果表明,零成分搜索法不僅可以較好地識(shí)別不顯著列,而且對(duì)誤差方差的估計(jì)也有不錯(cuò)的結(jié)果.
正交表;矩陣像;飽和模型;子成分;零成分搜索
針對(duì)飽和正交表模型,文[1]提出了非中心F統(tǒng)計(jì)量[2]和零效應(yīng)搜索[3]兩種方法,鑒于零效應(yīng)搜索法在兩水平飽和正交表上的成功應(yīng)用,我們將該思想推廣到任意水平以及混合水平,提出了零成分搜索法[4].雖然文[4]中已經(jīng)證明,零成分搜索法中使用的W統(tǒng)計(jì)量具有一些比較好的性質(zhì),但是其在識(shí)別零成分時(shí)是否真如我們預(yù)料的那么有效,仍然需要我們做進(jìn)一步研究.本文通過(guò)模擬分析表明,零成分搜索法不僅可以較好地識(shí)別不顯著列,而且對(duì)誤差方差的估計(jì)也有不錯(cuò)的結(jié)果.
全文主要由三部分構(gòu)成.第一部分簡(jiǎn)述了零成分搜索法的計(jì)算步驟;第二部分模擬零成分搜索法的實(shí)際應(yīng)用過(guò)程;第三部分考察零成分搜索法在列顯著性判時(shí)所犯兩類錯(cuò)誤概率的大小.
假設(shè)飽和正交表Ln(v1,…,vm)和列對(duì)應(yīng)的矩陣像依次為A1,…,Am,總均值列所對(duì)應(yīng)的矩陣像為A0(矩陣像的定義可參看文[5-7]).由矩陣像的定義,如下分解式成立:這里簡(jiǎn)述零成分搜索法的計(jì)算步驟:
1、進(jìn)行成分分解,得到子成分及子矩陣陣像,求出子平方和,得到如下分解式:
計(jì)算平方和SSj,x=YTAj,xY,x=1,…,(vj-1),j=1,…,m,并且有
2、對(duì)這n-1個(gè)部分平方和進(jìn)行排序,得到n-1個(gè)次序統(tǒng)計(jì)量ξ1,…,ξn-1,利用這些次序統(tǒng)計(jì)量構(gòu)造W統(tǒng)計(jì)量:
從W2,…,Wn-1中找出第一個(gè)比相應(yīng)W統(tǒng)計(jì)量臨界值(由模擬分布確定)大的那個(gè),之前的那些次序統(tǒng)計(jì)量對(duì)應(yīng)的子成分都可以看做是零成分,其余都是非零成分.
3、不妨假設(shè)前u個(gè)次序統(tǒng)計(jì)量相應(yīng)的子成分為零成分,誤差方差的估計(jì)公式為:
對(duì)其他的非零成分θv(對(duì)應(yīng)的次序統(tǒng)計(jì)量為ξv)考慮假設(shè)檢驗(yàn)問(wèn)題:
構(gòu)造F統(tǒng)計(jì)量:
在原假設(shè)條件下Fv服從F(1,u)分布.
4、參數(shù)向量的最小二乘無(wú)偏估計(jì)值:^Θt=AtY,t=0,1,…,m.
取飽和正交表其相應(yīng)統(tǒng)計(jì)分析模型
不妨簡(jiǎn)記為:
約束條件:β11+β12+β13=0,β21+β22+β23=0,β31+β32+β33=0,β41+β42+β43=0.另外記β1=(β11,β12,β13)T, β2=(β21,β22,β23)T,β3=(β31,β32,β33)T,β4=(β41,β42,β43)T.
先隨機(jī)取定參數(shù)(由約束條件每個(gè)列向量中都有一個(gè)參數(shù)是由其他參數(shù)所決定的),再產(chǎn)生9個(gè)隨機(jī)數(shù)εi~N(0,σ2),這里需要注意控制所取參數(shù)的大小.如果要使得該參數(shù)為顯著,則其絕對(duì)值應(yīng)該大于3σ;如果該參數(shù)不顯著,則可以取該參數(shù)值比較小或?yàn)榱?由上述模型,就可以得到9個(gè)觀測(cè)值,再根據(jù)9個(gè)觀測(cè)值,可以對(duì)參數(shù)進(jìn)行估計(jì)并且做方差分析.
下面通過(guò)一個(gè)具體的模擬例子來(lái)看看零成分搜索法的應(yīng)用過(guò)程,先給定各個(gè)主效應(yīng)參數(shù)的值(P377表4),再產(chǎn)生9個(gè)隨機(jī)數(shù)(P377表1),這樣得到9個(gè)觀測(cè)值(P377表1),有了這9個(gè)觀測(cè)值,就可以按照零成分搜索法的數(shù)據(jù)分析步驟進(jìn)行計(jì)算,得到以下結(jié)果(表2,表3,表4).
表1 隨機(jī)數(shù)及測(cè)值(σ2=4)Table 1 Random Numbers and Observations(σ2=4)
表2 零成分搜索表Table 2 The Table of Searching Zero-Decompositon
表3 非零子成分方差分析表Table 3 The Table of Variance Analysis to Non-Zero-Decompostion
表4 效應(yīng)參數(shù)估計(jì)及顯著性判斷Table 4 Estimation of Main Effect Parameters and Judgement of Column Significant
結(jié)果分析:正交表第四列的效應(yīng)值被人為設(shè)置為0,表2的零成分搜索結(jié)果也正好將該列對(duì)應(yīng)的兩個(gè)子成分都識(shí)別為零成分,這表明零成分搜索法的確能夠識(shí)別出零成分;表3中的誤差方差的估計(jì)在0.5倍左右,這個(gè)結(jié)果在飽和情形已經(jīng)算是相當(dāng)不錯(cuò)的結(jié)果;表4中對(duì)各列效應(yīng)參數(shù)的估計(jì)也是比較令人滿意的,估計(jì)誤差基本在σ的一倍左右.
上節(jié)對(duì)零成分搜索法進(jìn)行了模擬分析,然而僅僅模擬一次具有很大的偶然性,本節(jié)應(yīng)用模擬的辦法來(lái)計(jì)算零成分搜索法進(jìn)行列顯著性判斷時(shí)犯兩類錯(cuò)誤的概率.
對(duì)飽和正交表列效應(yīng)的顯著與否,用統(tǒng)計(jì)量進(jìn)行判斷,必然導(dǎo)致兩類錯(cuò)誤的產(chǎn)生,這兩類錯(cuò)誤分別是:將不顯著列誤判為顯著(第一類錯(cuò)誤);將顯著列誤判為不顯著(第二類錯(cuò)誤),對(duì)我們的問(wèn)題來(lái)講,第二類錯(cuò)誤應(yīng)該盡量減少.
應(yīng)用模擬的辦法來(lái)計(jì)算這兩類錯(cuò)誤發(fā)生的概率,具體做法如下:選取一張飽和正交表,對(duì)該表的所有列都安排因子,但是每列對(duì)應(yīng)的因子是否顯著則用隨機(jī)的方法給出.如果該列被指定為顯著,則正效應(yīng)取一個(gè)大于σ的隨機(jī)值(負(fù)效應(yīng)由這些約束條件決定),如果該列被指定為不顯著,則所有效應(yīng)取為比較小或零.然后產(chǎn)生隨機(jī)數(shù),得到觀測(cè)數(shù)據(jù),對(duì)這些以觀測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到一個(gè)關(guān)于各列顯著性判斷的結(jié)果.將這個(gè)結(jié)果與真實(shí)結(jié)果進(jìn)行比較,得到是否誤判的結(jié)論.
進(jìn)行一定次數(shù)的模擬,統(tǒng)計(jì)模擬過(guò)程中隨機(jī)得到某列是顯著或不顯著的次數(shù),并統(tǒng)計(jì)該列顯著時(shí)被誤判為不顯著的次數(shù)以及該列不顯著時(shí)被誤判為顯著的次數(shù).利用后面的次數(shù)除以前面對(duì)應(yīng)的次數(shù),就分別得到第一和第二類錯(cuò)誤的概率.此外,還可以計(jì)算列顯著性判斷時(shí)誤判次數(shù)的一個(gè)統(tǒng)計(jì)數(shù)字.
仍然以飽和正交表L9(34)為例,進(jìn)行模擬.
模擬一:考慮顯著性列正效應(yīng)在(3σ,8σ)隨機(jī)取值(見表5).
表5 正效應(yīng)在(3σ,8σ)隨機(jī)取值時(shí)一千次模擬誤判次數(shù)與兩類錯(cuò)誤概率Table 5 Counts of errors and probability of two types of errors to 1 000 times simulation when positive effects are random numbers in(3σ,8σ)
模擬二:考慮顯著性列正效應(yīng)在(2σ,4σ)隨機(jī)取值(見表6).
表6 正效應(yīng)(2σ,4σ)隨機(jī)取值時(shí)一千次模擬誤判次數(shù)與兩類錯(cuò)誤概率Table 6 Counts of errors and probability of two types of errors to 1 000 times simulation when positive effects are random numbers in(2σ,4σ)
模擬三:考慮顯著性列正效應(yīng)在(σ,3σ)隨機(jī)取值(見表7).
表7 正效應(yīng)(σ,3σ)隨機(jī)取值時(shí)一千次模擬誤判次數(shù)與兩類錯(cuò)誤概率Table 7 Counts of Errors and Probability of Two Types of Errors to 1000 Times Simulation when positive effects are random numbers in(σ,3σ)
從誤判次數(shù)的統(tǒng)計(jì)數(shù)據(jù)情況來(lái)看,零成分搜索法全誤判次數(shù)為0,無(wú)誤判次數(shù)所占比重可以達(dá)到70%以上,誤判兩個(gè)以上的次數(shù)比較小,誤判一個(gè)的次數(shù)相對(duì)較多,不過(guò)仍然在可以接受的范圍之內(nèi).
從兩類錯(cuò)誤概率的模擬計(jì)算數(shù)據(jù)我們可以發(fā)現(xiàn),隨著顯著效應(yīng)取值逐漸靠近誤差方差,犯兩類錯(cuò)誤的概率也在逐漸變大.另外該方法犯第二類錯(cuò)誤的概率比較小,而犯第一類錯(cuò)誤的概率比較大,這與本問(wèn)題的要求一致,即寧可接受將一個(gè)不顯著的列判為顯著列,也不能忍受將一個(gè)顯著列誤判為不顯著列.當(dāng)然如果使得犯兩類錯(cuò)誤的概率都比較小,最好的辦法就是增加試驗(yàn)次數(shù).
[1] 張曉琴.正交飽和效應(yīng)模型的統(tǒng)計(jì)分析[D].上海:華東師范大學(xué),2007.
[2] 張曉琴.正交飽和設(shè)計(jì)的統(tǒng)計(jì)分析[J].應(yīng)用概率統(tǒng)計(jì),2007,23(1):91-101.
[3] 張曉琴.二水平正交飽和設(shè)計(jì)的統(tǒng)計(jì)分析-零效應(yīng)搜索法[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,24(1):51-59.
[4] 潘長(zhǎng)緣,陳雪平,張應(yīng)山.正交表列效應(yīng)的約束條件檢驗(yàn)[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,31(3):380-384.
[5] 張應(yīng)山.多邊矩陣?yán)碚揫M].北京:中國(guó)統(tǒng)計(jì)出版社,1993.
[6] 張應(yīng)山.正交表的數(shù)據(jù)分析及其的構(gòu)造[D].上海:華東師范大學(xué),2005.
[7] ZHANG Y S,LU Y Q,PANG S Q.Orthogonal Arrays Obtained by Orthogonal Decomposition of Projection Matrices[J]. Statistica Sinica,1999,9:595-604.
Simulation Analysis of Searching Zero-Decomposition
MA Hai-nan1,ZHANG Ying-shan2
(1.Department ofHumanities and Social Sciences,Zhejiang Industry Polytechnic College,Shaoxing312000,China; 2.Department of Statistics and Actuarial Science,East China Normal University,Shanghai200241,China)
The simulation analysis of Searching Zero-Decompostion was studied.Firstly,the step of Searching Zero-Decompostion was listed.Secondly an example to simulate the procedure of Searching Zero-Decompostion was specified.Thirdly the probability of two types of errors was also calculated when judging a colume is significant or not.The results simulation analysis illustrated that Searching Zero-Decompostion not only distinguishs the non-signficant column from unknown column successfully,but also estimates the variance of errors well.
orthogonal arrays;matrix images;saturated model;decompositon;searching Zero-Decompostion
O212.6
A
0253-2395(2010)03-0375-05
2009-10-22
國(guó)家自然科學(xué)基金(10571045);國(guó)家自然科學(xué)基金(44k55050);高校博士點(diǎn)專項(xiàng)基金
馬海南(1978-),浙江嵊州人,在職碩士,講師,主要從事概率統(tǒng)計(jì)方面的研究.E-mail:mhn78@sina.com