陳 維
(天津職業(yè)技術(shù)師范大學(xué),中國 天津300222)
在試驗(yàn)法研究調(diào)查中,我們常常采取最傳統(tǒng)的方法,分為試驗(yàn)組和對(duì)照組兩組進(jìn)行研究。然而,在實(shí)際生活中由于研究問題的復(fù)雜性,往往需要研究多于兩組的研究對(duì)象之間的差異,其中多組數(shù)據(jù)位置的比較就是最基本的問題,我們正是通過方差分析來解決這一問題。在參數(shù)統(tǒng)計(jì)中,常常需要數(shù)據(jù)符合正態(tài)分布假定[1-3],但是,當(dāng)先驗(yàn)信息不滿足或者不足以支持正態(tài)分布時(shí),就要采取非參數(shù)方法解決。
根據(jù)試驗(yàn)設(shè)計(jì)的不同,我們采取不同的方差分析方法
當(dāng)影響因素只有一個(gè)時(shí),如例1,分析這樣的數(shù)據(jù)的方法就叫做單因素方差分析,這是最簡(jiǎn)單的實(shí)驗(yàn)設(shè)計(jì)。
例1:對(duì)三個(gè)工廠生產(chǎn)的燈泡進(jìn)行壽命測(cè)試,每品牌隨機(jī)試驗(yàn),結(jié)果得如下數(shù)據(jù)(單位:天)
表1
完全隨機(jī)設(shè)計(jì)必須具備的兩個(gè)條件:
(1)試驗(yàn)材料(材質(zhì),地質(zhì),動(dòng)植物)是同質(zhì)
(2)每種處理(溫度,照明)要隨機(jī)安排試驗(yàn)材料
假設(shè)檢驗(yàn)H0∶μ1=μ2=μ3H1∶?i,j,i≠j,i,j=1,2,3,μi≠μj(至少有一種處理的均值不等)
假設(shè)需要對(duì)A,B,C三種處理的車(在這里三種處理就相當(dāng)于三種品牌,車包括自行車,摩托車和汽車)油耗設(shè)計(jì)比較試驗(yàn),每種處理方法重復(fù)觀測(cè)5次。也就是說,將15輛車分為五組,每組三輛,分別接受三種不同的處理,共生成3×5=15份報(bào)告,供三種處理方法進(jìn)行比較。而實(shí)際中,我們知道,由于每輛車自身的不同,油耗的差異可能比較大,若剛好油耗少的分配到較好的處理方法,而油耗大的分配到較差的處理方法,結(jié)果可能測(cè)不到哪種處理方法更好。這是由于在該實(shí)驗(yàn)中,不同的車自身構(gòu)成除了處理之外的另一個(gè)因素,稱為區(qū)組。如果只取汽車,這就是完全隨機(jī)區(qū)組設(shè)計(jì),如例2,其中汽車為區(qū)組。
例2:下表是世界三大汽車公司的五種不同的車型某年產(chǎn)品的油耗
表2
完全區(qū)組的實(shí)驗(yàn)設(shè)計(jì)的需具備的條件:
(1)試驗(yàn)材料不同應(yīng)根據(jù)需要分成幾組,幾個(gè)性質(zhì)相近的實(shí)驗(yàn)單位為一區(qū)組,從而減小區(qū)組內(nèi)個(gè)體差異,增大區(qū)組間差異。
(2)每個(gè)區(qū)組內(nèi)的試驗(yàn)個(gè)體隨機(jī)的全部參加各種處理。
(3)每個(gè)區(qū)組內(nèi)的試驗(yàn)數(shù)等于處理數(shù)。
假設(shè)檢驗(yàn)H0∶μ1=μ2=μ3H1∶μi≠ μj,?i,j
因?yàn)椴荒鼙WC每個(gè)區(qū)組都有對(duì)應(yīng)的樣本出現(xiàn),這就產(chǎn)生了不完全區(qū)組設(shè)計(jì)。如處理組很大,但同一組的樣本數(shù)又不允許太大,在一個(gè)區(qū)組中可能不能完全包含所有的處理,則只能在一個(gè)區(qū)組內(nèi)安排部分處理,也就是說不是所有區(qū)組的處理都被用于各組的試驗(yàn)中[4],稱這種區(qū)組設(shè)計(jì)為不完全區(qū)組設(shè)計(jì),其中最常用的就是均衡不完全區(qū)組設(shè)計(jì)。
均衡區(qū)組設(shè)計(jì),記為BIB(k,b,r,t,λ),需具備以下條件:
(1)在同一區(qū)組中每個(gè)處理最多出現(xiàn)一次。
(2)每個(gè)區(qū)組的樣本數(shù)為t,t小于處理個(gè)數(shù)k。
(3)每個(gè)處理出現(xiàn)在同樣多的r個(gè)區(qū)組中。即:b≥r或kffgt;t
(4)在同一區(qū)組中,每?jī)蓚€(gè)區(qū)組相遇次數(shù)一樣(λ次)。
即:(1)kr=bt
(2)λ(k-1)=r(t-1) (1.1)
(3)b≥r或kffgt;t
特別的:t=k,r=b,則為完全隨機(jī)區(qū)組設(shè)計(jì)
對(duì)于一個(gè)完全區(qū)組設(shè)計(jì),如果觀測(cè)值只有“是”或“否”,“同意”或“不同意”,“1”或“0”等等,這些二元定性數(shù)據(jù)。因?yàn)橹貜?fù)的數(shù)據(jù)太多,秩方法受到了限制,這就要使用Q檢驗(yàn)法,來分析多數(shù)據(jù)之間的差異是否存在。
假設(shè)有k個(gè)處理和m個(gè)區(qū)組,樣本為計(jì)數(shù)數(shù)據(jù),如表3。
假設(shè)檢驗(yàn)
H0:k個(gè)總體分布相同(或各處理發(fā)生概率相等)
H1:k個(gè)總體分布不相同(或各處理發(fā)生概率不相等)
表3
分析:
n.j為第j個(gè)處理中1的個(gè)數(shù),即之間的差異可以顯示出各個(gè)處理之間的差異。ni.為每一個(gè)區(qū)組中1的個(gè)數(shù)表示每格成功概率。
H0成立時(shí),每一區(qū)組i內(nèi)的成功概率Pi,j相等,對(duì)?j=1,2,…,k,?I,Pi1=Pi2=…=Pik=Pi.,nij服從兩點(diǎn)分布b(1,Pi.)。
一般n.j之間并非相互獨(dú)立,但是當(dāng)n.j足夠大時(shí),認(rèn)為n.j近似獨(dú)立,得到自由度為v=k-1的近似χ2分布,即Cochran值為
結(jié)論:當(dāng)檢驗(yàn)統(tǒng)計(jì)量的值Q<χ2
0.05,k-1,不能拒絕H0,反之接受H1。
由前面提到,數(shù)據(jù)組很大,但是區(qū)組允許的樣本量有限,一個(gè)區(qū)組中很難包含所有處理。較常見的就是BIB設(shè)計(jì),這里我們介紹一種秩檢驗(yàn),能夠應(yīng)用于均衡不完全區(qū)組設(shè)計(jì)。
分析:
Xij表示第j個(gè)處理第i個(gè)區(qū)組中的觀測(cè)值,Rij為第i個(gè)區(qū)組中第j個(gè)處理的秩,Ri.=Rij,i=1,2,…,b。
H0成立時(shí),k個(gè)處理的秩和非常接近,反之,當(dāng)某處理效應(yīng)大時(shí),秩和與總體平均之間的差異也較大,于是統(tǒng)計(jì)量為
結(jié)論:對(duì)于顯著性水平α,如果D很大,比如大于或等于D1-α,D1-α為最小滿足PH0(D≥D1-α)=α的值,就可以拒絕零假設(shè)。在零假設(shè)下,對(duì)于固定的k和t,當(dāng)r→∞時(shí),D→χ2(k-1)。
試驗(yàn)一:現(xiàn)有A,B,C,D四種殺蟲劑,在南方四個(gè)地區(qū)試用,由于試驗(yàn)用蚊子不足,故每種藥劑只能使用于三個(gè)地方,每一次試驗(yàn)使用400只蚊子,其死亡數(shù)如下。如何檢驗(yàn)四種藥劑的藥效是否不同?
表4
分析數(shù)據(jù):得到下表,括號(hào)內(nèi)的數(shù),為各組內(nèi)按4種處理觀測(cè)值大小。
表5
假設(shè)檢驗(yàn)問題為
H0:四種藥劑的藥效相同
H1:四種藥劑的藥效不同
統(tǒng)計(jì)分析:
t=3,k=4,r=3,自由度v=4-1=3,由(1.1)可知此設(shè)計(jì)為不完全區(qū)組設(shè)計(jì)。要采用Durbin不完全區(qū)組分析法,由(2.2)則:
結(jié)論:實(shí)際測(cè)得D=6.75<χ20.05,3=7.82,不能拒絕H0,沒有明顯的跡象表明四種藥劑藥效之間存在差異。
實(shí)驗(yàn)二:為了考察其中三種殺蟲劑的殺蟲能力,又設(shè)計(jì)了一個(gè)實(shí)驗(yàn)[5],選取12位使用者,對(duì)產(chǎn)品投票,若使用者認(rèn)為滿意,則給1分,否則給0分,所得結(jié)果如下,分析三種產(chǎn)品效果是否相同。
表6
分析數(shù)據(jù),得到下表,分別求出每一區(qū)組,和每種處理的得分和
表7
假設(shè)檢驗(yàn)問題為
H0:三種產(chǎn)品滿意程度相同
H1:三種產(chǎn)品滿意程度不同
統(tǒng)計(jì)分析:
由于各使用者每人殺蟲的手法和使用習(xí)慣的不同,對(duì)藥劑的殺蟲效果也有差異,故應(yīng)以使用者為區(qū)組,由(2.1),則
結(jié)論:實(shí)際測(cè)得Q=8.2222>χ20.05,2=5.991,接受H1,表明三種殺蟲劑滿意程度不同,即表明三種藥劑殺蟲效果不同,C比較受歡迎。
實(shí)際上,我們也可以計(jì)算一下三種藥劑的概率點(diǎn)估計(jì)
由計(jì)算可得p^.,1=0.12,p^.,2=0.35,p^.,3=0.53也支持了這一結(jié)論。
通過以上兩種試驗(yàn)設(shè)計(jì),第一組試驗(yàn)并沒有表明四種藥劑的藥效區(qū)別,依然無法決策。而第二組試驗(yàn),則分析出了其中三種之中C產(chǎn)品的滿意度最好,即藥效最好,這就方便了我們做決策。同樣的道理,我們還可以分別將三種藥劑進(jìn)行試驗(yàn),最終得到四種藥劑中效果最好的產(chǎn)品。
[1]Rice J.Mathematical Statistics and Date Analysis[M].3rd ed.Boston:Duxbury Press India 2007:22-57.
[2]Vapnik V N.Statistical Learning Theory[M].New York:Wiley-Interscience 1998:8-27.
[3]張堯庭.高等數(shù)理統(tǒng)計(jì)[M].北京:北京大學(xué)出版社,1998:4-34.
[4]劉勤,金丕煥.分類數(shù)據(jù)的統(tǒng)計(jì)分析及SAS編程[M].上海:復(fù)旦大學(xué)出版社,2002:57-75.
[5]David Hand,等.數(shù)據(jù)挖掘原理[M].張銀奎,等,譯.北京:機(jī)械工業(yè)出版社,2003:173-183.