實驗數(shù)據(jù)的隨機化檢驗及R語言實現(xiàn)

2019-05-24 07:47呂小康付英濤

心理技術(shù)與應(yīng)用 2019年5期

呂小康付英濤

摘?要?隨機化檢驗是基于實驗中對實驗處理的隨機化分配，通過計算所有可能分配方法的結(jié)果得出某一統(tǒng)計量的隨機化分布，并據(jù)此進行實驗效應(yīng)是否存在的統(tǒng)計推斷。相較基于從某一總體中進行重復(fù)隨機抽樣而得到抽樣分布推論模式，隨機化檢驗不需要正態(tài)總體假定，尤其適合樣本數(shù)據(jù)存在明顯離群值或小樣本情形，更適合作為隨機化實驗的推論框架。借助免費開源的R軟件及相關(guān)軟件包已能快速實現(xiàn)雙處理組和多處理組均值差比較及其他統(tǒng)計量比較的隨機化檢驗，但在心理統(tǒng)計教育與應(yīng)用中還需進一步推廣。

關(guān)鍵詞?隨機化分布; 隨機化檢驗; 顯著性檢驗; 置換檢驗; 心理統(tǒng)計

分類號?B841.2

DOI： 10.16842/j.cnki.issn2095-5588.2019.05.001

1?統(tǒng)計推論中的總體模型與隨機化模型

目前心理統(tǒng)計教材中介紹的統(tǒng)計推論方法大多基于抽樣分布（sampling distribution）的框架，即將樣本數(shù)據(jù)視為從特定總體中隨機抽樣得到的一次觀測結(jié)果，并考慮對該總體進行同樣本容量的重復(fù)抽樣，以得到所關(guān)注的樣本統(tǒng)計量的假想分布，進而計算相關(guān)p值來判斷實驗效應(yīng)是否存在。心理統(tǒng)計的相關(guān)教材、包括其他領(lǐng)域的諸多入門統(tǒng)計教材一般都只是將隨機化實驗得到的數(shù)據(jù)默認為隨機樣本處理，對數(shù)據(jù)的正態(tài)性進行檢驗后，直接應(yīng)用抽樣分布進行統(tǒng)計推論。但從嚴格意義上說，這些隨機化實驗的數(shù)據(jù)并不是在總體中抽樣得到的隨機樣本，并未直接滿足應(yīng)用抽樣分布進行統(tǒng)計推論的條件。同時，隨機化實驗的目的通常也不是像基于隨機抽樣的研究那樣要求將樣本結(jié)論推論至總體、即追求外在效度，而是驗證實驗的處理效應(yīng)是否真實存在、即追求內(nèi)在效度。

事實上，統(tǒng)計學中進行統(tǒng)計推論有兩種模型（Ludbrook， 2005）：總體模型（population model）和隨機化模型（randomization model）。將隨機化實驗的數(shù)據(jù)視為隨機樣本屬于總體模型的思想，此模型假定實驗數(shù)據(jù)是相應(yīng)總體的隨機樣本，統(tǒng)計推論用到的抽樣分布常為正態(tài)分布或由正態(tài)分布推導(dǎo)出的其他理論分布，對正態(tài)性假定的依賴性較強。而隨機化模型不需要總體和樣本的假定，其思想基于實驗中的隨機化操作，其統(tǒng)計推論無需依賴正態(tài)性前提、而是一種精確分布——隨機化分布（randomization distribution），基于此種分布進行的顯著性檢驗可稱為隨機化檢驗（randomization test）。

基于隨機化分布進行顯著性檢驗的思想，從其起源上講并不晚于基于抽樣分布的顯著性檢驗，但囿于計算便利性上的欠缺而一直沒有得到足夠重視。隨著計算機軟件的發(fā)展，隨機化分布的計算或模擬已不是問題，因此其思想又重新得到重視與實踐。隨機化檢驗早期常用來檢驗t檢驗或F檢驗的正確性，F(xiàn)isher（1936）曾指出與隨機化方法不一致的結(jié)論（t檢驗和F檢驗）是不合理的，因為其他方法通常涉及理論上的近似，而數(shù)據(jù)的真實形態(tài)可能并不能夠滿足使用這些近似公式所需要的前提條件。而在當代，隨機化檢驗甚至被一些統(tǒng)計學家認為是“隨機化實驗情形下的金標準”（Edgington & Onghega， 2007），基于隨機化分布的檢驗?zāi)Ｊ郊跋嚓P(guān)探討日漸增多（Basu， 2011; Dugard， 2014; Lu， Ding， & Dasgupta， 2015; Mielke， Berry， & Johnston， 2011），相關(guān)教材也不斷面世（Berry， Johnston， & Mielke， 2014; Berry， Mielke， & Johnston， 2016; Dugard， File， & Todman， 2011）。但此種推論方式目前在國內(nèi)外心理統(tǒng)計教材中仍介紹不多、在實踐研究中的應(yīng)用也較少，因此有必要加以說明與推廣。本文將介紹隨機化分布的理論假定及其實現(xiàn)方法，用免費開源軟件R模擬隨機化實驗數(shù)據(jù)及其隨機化分布，對比隨機化分布和抽樣分布的異同，并提出相應(yīng)的教學與應(yīng)用建議。鑒于國內(nèi)心理學界的教學與研究目前多數(shù)仍使用商業(yè)化的SPSS或SAS等軟件，對R軟件的認識與應(yīng)用尚未普及，正文中有少數(shù)R語言命令的示范，所有圖片也使用R軟件繪制，以增進國內(nèi)對該軟件的了解。

2?隨機化檢驗的基本思想

隨機化檢驗的思想其實在20世紀初期就已經(jīng)出現(xiàn)。較早的一個例子可見于統(tǒng)計學家Fisher（1935）的“女士品茶”名例。其情境大致如下。一名女士聲稱自己可以辨別奶茶里面先放的奶還是先放的茶，F(xiàn)isher想通過實驗驗證這一點。故選取8杯奶茶，隨機選取其中4杯先放奶，另外4杯先放茶，其他條件保持一致。以隨機順序讓女士品嘗后辨別出哪4杯先放了奶，哪4杯先放了茶。結(jié)果如表1。

該女士正確辨別出了先加奶的4杯中的3杯，能否據(jù)此說明該女士具有辨別能力？Fisher的推論模式如下：假設(shè)該女士沒有辨別能力，那么其判斷是完全隨機的，此時的辨別結(jié)果共有84=70種。其中（從判斷先加奶的4杯來說），0對4錯有1種;1對3錯有16種;2對2錯有36種;3對1錯有16種;4對0錯有1種。則得出此結(jié)果的概率為p=17/70=0.24。從雙側(cè)檢驗的角度看，此結(jié)果的p=34/70=0.486。故以0.05的顯著性水平看，不能由此認為該女士具有辨別能力;在這個實驗設(shè)計中，此顯著性水平下只有該女士全部辨別正確，才可以認為她具有辨別能力。

此例中隨機化檢驗的思想已有所體現(xiàn)，即在原假設(shè)成立的條件下，根據(jù)所有可能的實驗結(jié)果判斷出現(xiàn)實際結(jié)果的可能性。但嚴格來說，F(xiàn)isher的這種檢驗思想應(yīng)稱為置換檢驗（permutation test，其中permutation即排列的意思）而不是隨機化檢驗，因為這一實驗中并未涉及隨機化分組。隨機化檢驗實際上利用了置換檢驗的計算方式進行p值計算，但置換檢驗本身不一定僅適用于隨機化實驗的情形，也可適用于隨機抽樣的情形，是含義更為寬泛的一種檢驗。換言之，隨機化檢驗可視為置換檢驗的一個子集（Edgington & Patrick， 2007）。不過，由于兩者的區(qū)分主要在應(yīng)用情境的區(qū)別而非計算方法的區(qū)分，在實際使用中兩種方法也常被視為是同一種方法。

此外，F(xiàn)isher（1935）在另一個配對比較問題中應(yīng)用了隨機化檢驗的思想。問題是比較有15個觀測值的配對樣本，兩個樣本的差異值是314。在此配對設(shè)計中給被試隨機分配實驗處理共有215種方式，在零假設(shè)條件下，所有可能的結(jié)果中有1726種情況大于等于314，即p=0.05267。而根據(jù)抽樣分布得出的t值算出的p=0.0497，兩者相差較小。

在Fisher（1925）、Geary（1927）、Eden和Yates（1933）、Pitman（1937a， 1937b， 1938）等人置換檢驗思想的基礎(chǔ)上，Kempthorne（1955）等人開始著手發(fā)展更具一般性的隨機化分布及檢驗的理論框架。實驗設(shè)計中比較重要的一步是給被試分配實驗處理，隨機化要求這一過程在實驗的約束條件下（比如區(qū)組內(nèi)）是完全隨機的，即在有限的所有可能的分配方式中隨機選取一種，每種方式被選中的概率相等。選定一個統(tǒng)計量，計算零假設(shè)條件下所有可能的分配方式下該統(tǒng)計量的值，即得到該統(tǒng)計量的隨機化分布。根據(jù)實驗結(jié)果得出的統(tǒng)計量在隨機化分布中的相對位置和設(shè)定的顯著性水平，即可得出相應(yīng)p值并判斷是否拒絕零假設(shè)。

Kempthorne（1955）提出，隨機化分布的應(yīng)用依賴于被試—處理可加性假定（unit-treatment additivity）。其基本思想如下：每名被試的觀測值可以視為被試本身的基本量和所接受處理效應(yīng)的加和。用i表示參加實驗的被試，i=1，2 …，N;t表示實驗處理，t=1，2，…，T。隨機分配每名被試接受一種實驗處理，如果被試i接受了實驗處理t，得到的觀測值可以表示為：

在假設(shè)實驗處理效應(yīng)相同的條件下，只需要對實驗結(jié)果進行隨機化排列即可得到所有可能的結(jié)果，進而選擇某個適合的統(tǒng)計量并計算它在每種分配方式下的取值，就可以得到該統(tǒng)計量對應(yīng)的隨機化分布。再通過計算該分布中如此次樣本觀測值這么極端、更為極端值（所謂“極端”即指偏離原假設(shè)的設(shè)定）占整個分布中所有可能取值的比例，即可得到相應(yīng)p值。這就是利用隨機化分布進行顯著性檢驗的基本模式。

隨機化分布的思想框架較為直觀，并不需要假想存在實驗處理組之外的一個“（正態(tài)）總體”，這對于實際研究者理解統(tǒng)計推論的思維框架是較為便利的。問題在于其計算過程比較麻煩。隨著樣本量和處理組數(shù)的增加，實驗結(jié)果的可能性會大大增加;對于復(fù)雜問題的可能結(jié)果排列需要花費相當長的時間，往往超過手動計算或公式推導(dǎo)的可能。因此隨機化檢驗在計算機軟件興起之前并未得到太多重視。但隨著計算機的發(fā)展，隨機化結(jié)果的計算不再是問題，并且可以通過軟件對隨機化分布實現(xiàn)可視化，理論假定更少、結(jié)果更加精確的隨機化檢驗又逐漸開始受到重視（Ludbrook & Dudley， 1998; Rubin， 1991）。

3?基于隨機化分布的統(tǒng)計推論示例：基于R的應(yīng)用

隨機化檢驗通常用于檢驗不同實驗組之間的處理效應(yīng)是否真實存在，故通常不能應(yīng)用于單樣本數(shù)據(jù)的情形。這里僅就最一般意義上的雙處理組和多處理組情形做出示例。

3.1?雙處理組情形：與傳統(tǒng)t檢驗的比較

不妨先考慮隨機分配被試到兩種實驗處理的情況，此時的隨機化過程發(fā)生在被試之間，實驗結(jié)果為獨立的雙樣本數(shù)據(jù)。用R模擬服從特定正態(tài)分布的隨機數(shù)，樣本量為7。

此時=20.29，s2x=18.90，=15.57，s2y=21.95。能否根據(jù)上面的數(shù)據(jù)得出結(jié)論：實驗處理X的效果大于處理Y的效果？

這顯然是一個單側(cè)檢驗問題?；趥鹘y(tǒng)抽樣分布的統(tǒng)計推斷模式如下：將兩種實驗處理下的結(jié)果看作是來自兩個獨立同方差的正態(tài)分布總體的簡單隨機樣本。結(jié)果可算得t=1.95，p=0.037，在0.05顯著性水平下可認為實驗處理X的效應(yīng)大于Y。由于這一檢驗公式較為常見，故這里不再具體敘述相關(guān)過程。R中的命令如下：

t.test（X， Y， var.equal=TRUE， alternative="greater"） # 執(zhí)行同方差前提下的雙樣本單側(cè)t檢驗

基于隨機化分布的統(tǒng)計推斷模式如下：實驗?zāi)康氖且獙Ρ葍蓚€處理組的差異，最簡單直接的統(tǒng)計量是兩個處理組的均值差X-Y。在總體方差未知的情況下，這一統(tǒng)計量的精確抽樣分布不易從公式推導(dǎo)得出，目前使用t檢驗公式僅是一種近似公式。但是，計算3432種分配方式下的X-Y則可得到此統(tǒng)計量的精確隨機化分布（圖1（a））。此例中，分別隨機分配14名被試到兩種處理中，分配方法共有147=3432種，這一數(shù)字并不龐大，可以利用R中的combn函數(shù)窮盡所有情況，命令為：

calcu.stat<-function（x）{

Sx<-sum（x）

Sy<-sum（c（X， Y））-Sx

return（mean（x）-Sy/length（Y））

} # 定義計算均值差的函數(shù)

stat<-combn（c（X， Y）， length（X）， calcu.stat） # 計算3432種分配方法下的均值差

通過計算這3432種分配方式后的X-Y值，再求出其值大于等于此次實驗結(jié)果中x-y=20.29-15.57=4.72的概率，此即為隨機化分布中的p值，可求得p值約為0.042。此結(jié)果與基于抽樣分布得到的結(jié)果（0.037）相差并不大。

如要直接對上述過程進行R語言計算，需要進行程序代碼的編寫，可能超出R語言初學者的要求。但若能靈活使用已有的R包中的命令，則可簡化上述流程。使用perm包（初次使用時需在聯(lián)網(wǎng)狀態(tài)下用install.packages（"perm"）自行安裝），使用如下命令即可得出隨機化檢驗的p值：

library（perm） # 調(diào)用perm包

permTS（X，Y，alternative="greater"， method="exact.ce"） # 對X、Y兩組數(shù)據(jù)進行隨機化檢驗

其中，alternative="greater"表示備擇假設(shè)為處理X的效應(yīng)大于處理Y的效應(yīng)， method="exact.ce"表示使用精確隨機化分布進行計算。另外，permTS命令中的TS表示two samples。結(jié)果給出的p值為0.04225。

除此之外，還可以另一種思路進行隨機化檢驗，即計算每種排列情形下的傳統(tǒng)雙樣本t檢驗觀測值，從而求出此t值的隨機化分布。再基于分布計算此次實驗中的t觀測值在多大程度上偏離原假設(shè)（t=0），從而得到相應(yīng)p值。圖1（b）是覆蓋了t分布曲線的隨機化分布，p（r）表示隨機化（randomization）情形下的p值，p（t）表示傳統(tǒng)抽樣分布t檢驗下的p值。此次實驗得出的結(jié)果為t=1.95，在此隨機化分布中p（t≥1.95）=0.042。顯然，以X-Y作為統(tǒng)計量計算出的p值和以t值作為統(tǒng)計量得出的p值相同，這是因為根據(jù)每種分配方式的結(jié)果計算出的t值和X-Y是一一對應(yīng)的。

對于上述實驗處理數(shù)和樣本量比較少的情況，可以計算所選統(tǒng)計量的精確隨機化分布，這里所謂“精確”（exact），其實只是“完整”的意思，即窮盡了所有可能的隨機分配情況。但在實際研究中經(jīng)常會遇到實驗處理和樣本量比較多的情況，即使有計算機的幫助，計算所有的分配方式也往往不現(xiàn)實，但可以在R中運用sample函數(shù)進行一定次數(shù)的模擬，即在所有可能的分配方式中進行重復(fù)抽樣，得出近似隨機化分布。用R對此例進行10000次抽樣得出的近似隨機化分布，p值為0.039，與精確隨機化分布稍有差異，這是因為隨機取樣所產(chǎn)生的抽樣誤差所致。

現(xiàn)考慮上文中的隨機數(shù)為配對樣本的情形。傳統(tǒng)t檢驗?zāi)Ｊ较?，可算得p值為0.08248，在0.05的顯著性水平下沒有充分理由認為 X的實驗處理效應(yīng)顯著高于 Y 的實驗處理效應(yīng)。R語言命令如下：

t.test（X， Y， paired=TRUE， alternative="greater"）

如果采用隨機化檢驗，此例中由于隨機化發(fā)生在每個被試內(nèi)部，每個被試共有2種處理分配順序，故共有27=124種分配方式。通過計算每種分配方式下的配對均值差，即可得到其精確隨機化分布。再計算此分布中大于等于此次實驗結(jié)果中的配對差值所占的比例，即可得到相應(yīng)p值。這里使用exactRankTests包中的函數(shù)來做示范。

library（exactRankTests）

perm.test（X， Y， alternative="greater"， paired=TRUE）

結(jié)果給出的p值為0.09375，與配對樣本t檢驗的結(jié)果也很接近。

3.2?多處理組情形：與傳統(tǒng)方差分析的比較

如果把上例中實驗處理數(shù)擴大為四組，其結(jié)果如表3。其中A、B、C和D的數(shù)據(jù)分別取自正態(tài)分布總體N1（20， 52），N2（17， 52），N3（15， 52），N4（13， 52）。其命令如下：

檢驗多個實驗組的均值是否具有顯著差異的常用方法是方差分析。此例中所有樣本數(shù)據(jù)來自同方差的正態(tài)總體，故適宜使用傳統(tǒng)方差分析進行顯著性檢驗，結(jié)果為F=3.74，p=0.0246，在0.05顯著性水平下可認為各實驗處理的效應(yīng)并不完全相同。對應(yīng)的R語言命令如下（這里先對數(shù)據(jù)格式進行變動，以變成軟件處理所需要的長格式數(shù)據(jù)）：

dataABCD<-data.frame（A， B， C， D）

library（tidyr） # 調(diào)用tidyr包，以進行數(shù)據(jù)操縱

ABCD<-gather（dataABCD， group， value， factor_key=TRUE） # 將數(shù)據(jù)變成長格式數(shù)據(jù)，各分組信息存為一列，命令為group，各取值信息存為另一列，命令為value，factor_key=TRUE 用于確保group為因子變量、即類型變量

fit1<-aov（value～group， data=ABCD） # 進行方差分析

summary（fit1） # 給出方差分析結(jié)果

基于隨機化分布的統(tǒng)計推斷模式如下。此例中隨機分配28名被試到4種處理中的方式共有

287×217×147×77=4.73×1014

種。此時要窮盡所有的分配方式得出精確的隨機化分布是不現(xiàn)實的，但可以通過對所有分配方式的隨機抽樣得到近似的隨機化分布。先選取F值作為統(tǒng)計量，分別計算每種分配方式下的F統(tǒng)計量即得其近似隨機化分布，再根據(jù)此分布、此次觀察結(jié)果得到的F值，即可算出相應(yīng)p值。F值得隨機化分布如圖2，由此得到的p值為0.0226，這與傳統(tǒng)F檢驗的結(jié)果非常接近。

c=10000 # 設(shè)定模擬次數(shù)

F.stat<-numeric（c） # 構(gòu)建F統(tǒng)計量變量

F.stat[1]<-summary（aov（value～group， data=ABCD））[[1]][4][[1]][1] # 設(shè)此次觀察為第一個值

set.seed（1234） # 設(shè)定循環(huán)種子數(shù)

for（i in 2：c）{

F.stat[i]<-summary（aov（sample（value）～group， data=ABCD）） [[1]] [4][[1]][1]

} # 隨機抽取其他分配方法的F值

p=mean（F.stat>=F.stat[1]） # 計算p值

對上述過程進行編程計算稍顯麻煩，使用用coin包中的函數(shù)可簡介上述過程：

library（coin）

oneway_test（value～group， data=ABCD， distribution=approximate（B=10000））

其中B=10000即表示進行10000次模擬。計算結(jié)果可得p值為0.02433。這與傳統(tǒng)F檢驗的p值非常接近。實際上，當方差分析的假定未被明顯違背時，隨機化檢驗的優(yōu)勢并不明顯。但當數(shù)據(jù)明顯呈現(xiàn)偏態(tài)、尤其是各組方差相差較大時，使用傳統(tǒng)檢驗方法會存在統(tǒng)計上二類錯誤的增大問題，此時使用隨機化檢驗來做判定則可使統(tǒng)計決策更為穩(wěn)健。值得注意的是oneway_test函數(shù)使用的隨機化檢驗方法為Pitman-Fisher法，其檢驗統(tǒng)計量的選取與前面的模擬有所不同，具體可參見Boik（1987）。

下面考慮隨機區(qū)組設(shè)計的情形。將表2問題的表述稍作變動，假設(shè)表中的數(shù)據(jù)是7個區(qū)組接受4種實驗處理的情況，每個區(qū)組有4名被試，每名被試隨機接受一種實驗處理。此時就變成了一個隨機區(qū)組問題，從數(shù)據(jù)處理方法上講則是雙因素方差分析的過程。傳統(tǒng)方差分析結(jié)果為F=3.46，p=0.0382。R中的命令如下：

library（dplyr）

block<-as.factor（c（1：7）） # 生成區(qū)組標簽

blockABCD<-data.frame（A， B， C， D， block）

newABCD<-gather（blockABCD， group， value，-block， factor_key=TRUE）

fit2<-aov（value～block+group， data=newABCD）

summary（fit2）

隨機化檢驗的模式如下。在4種處理沒有差異的原假設(shè)下，由于對隨機化在區(qū)組內(nèi)進行，此時隨機化分配方式共有（4×3×2×1）7=4586471424種。雖然用軟件可以一一計算各分配下的F值，但耗時較長，故仍可考慮使用隨機抽樣的方式進行模擬。這里只用coin包中的oneway_test函數(shù)進行示范。

library（coin）

oneway_test（value～group | block， data=newABCD， distribution=approximate（B=100000）） # | block表示指定區(qū)組名稱

結(jié)果得到的p值為0.03259，與傳統(tǒng)檢驗的結(jié)果也很接近。

4?隨機化分布和抽樣分布的比較：樣本量與離群值的影響

對于正態(tài)性擬合良好的數(shù)據(jù)，抽樣分布是隨機化分布的良好近似。在圖1（a）和圖2中，將t分布和F分布曲線覆蓋在相應(yīng)隨機化分布上，兩者均擬合良好。這是因為用R模擬的數(shù)據(jù)均是來自正態(tài)分布總體，數(shù)據(jù)的正態(tài)性可以得到保證。下面以兩個處理組的情況為例，考慮兩個影響數(shù)據(jù)正態(tài)性的因素——樣本量和離群值（outliers）。

此處考慮服從偏態(tài)分布和正態(tài)分布的兩種數(shù)據(jù)。對數(shù)正態(tài)分布是一種右偏態(tài)分布，對服從對數(shù)正態(tài)分布的數(shù)據(jù)取對數(shù)可以得到正態(tài)分布數(shù)據(jù)。圖3（a），（c），（e）的樣本是從對數(shù)正態(tài)分布中抽樣得到的右偏態(tài)數(shù)據(jù)，樣本量分別為5，10和20。圖3（b），（d），（f）的樣本是對相應(yīng)樣本量的右偏態(tài)數(shù)據(jù)取對數(shù)得到的正態(tài)數(shù)據(jù)。

取樣本量為5的偏態(tài)樣本程序如下：

set.seed（123）

x<-rlnorm（5， 1）

set.seed（321）

y<-rlnorm（5， 0.5）

其他樣本量的情形可依此得出。圖3中可以直觀地看到不同分布形態(tài)和不同樣本量的數(shù)據(jù)對隨機化分布和t分布擬合狀況的影響。可以發(fā)現(xiàn)：（1）偏態(tài)數(shù)據(jù)和正態(tài)數(shù)據(jù)相比而言，正態(tài)數(shù)據(jù)的隨機化分布和t分布擬合得較好，這一點在樣本量較小的情況下體現(xiàn)得尤其明顯;（2）當樣本量較小的時候，即便對于正態(tài)性數(shù)據(jù)而言，抽樣分布與隨機化分布的擬合狀況也是比較差的;（3）而樣本量較大時，即使數(shù)據(jù)呈現(xiàn)偏態(tài)，抽樣分布與隨機化分布也擬合得較好，這正是傳統(tǒng)t檢驗在雙處理組數(shù)據(jù)中得到普遍應(yīng)用的原因之一。

另外，比較由隨機化分布和t分布得出的p值可以作為衡量擬合狀況的一個指標。圖4是對于偏態(tài)數(shù)據(jù)而言，樣本量從5～50變化時，由隨機化分布和t分布得出的p值變化。圖4（a）隨機化分布p值和t分布p值隨樣本量的變化情況，（b）是兩個p值差隨樣本量的變化情況。

從圖4可以看出，總體而言隨機化分布和t分布得出的p值是比較一致的。對于偏態(tài)數(shù)據(jù)而言，樣本量的增加可以有效地使p值減小，尤其是在樣本量增加到30之后。這一方面增大了統(tǒng)計檢驗力，另一方面也使隨機化分布和t分布得出的p值差異逐漸減小。

下面考慮離群值的影響。以表2中的數(shù)據(jù)為例，圖5中（a），（b），（c），（d）是假設(shè)表2中X組最大值分別為28，38，48，58時的隨機化分布。可以發(fā)現(xiàn)，離群值距離均值越遠，隨機化分布和t分布的擬合狀況越差，根據(jù)兩者得出的p值相差越大。Ernst（2009）通過設(shè)置樣本最小值的方法探討了離群值對隨機化分布和t分布擬合狀況的影響，與此結(jié)論一致。由于t檢驗假定其數(shù)據(jù)是取自正態(tài)分布總體的隨機樣本，因此當不能保證樣本的隨機性和正態(tài)性時，t檢驗的結(jié)果理論上不能保證其準確性。而基于隨機化分布的檢驗不需要正態(tài)性假定，也無需隨機樣本。若其分布呈現(xiàn)偏態(tài)、樣本量較少或存在離群值時，基于隨機化分布的檢驗結(jié)果更令人信服。不過，當樣本量較大時，t檢驗的結(jié)果對數(shù)據(jù)的正態(tài)性要求不高，與隨機化分布的結(jié)果差異不大。

5?總結(jié)與建議

隨機化檢驗依賴于實驗處理的隨機化分配和處理效應(yīng)的可加性假定，不適合觀測數(shù)據(jù)，但較適合具有兩個或多個處理組的隨機化實驗結(jié)果的顯著性檢驗。在推理框架上，隨機化檢驗并不需要假想總體的存在，這更有利于初學者理解隨機化實驗的實際情境，更適宜作為隨機化實驗的統(tǒng)計推論框架。同時，隨機化檢驗并不需要假定總體的分布形態(tài)，因此比基于抽樣分布的假設(shè)更具靈活性，可以適用于傳統(tǒng)顯著性檢驗不能勝任的情形。雖然目前隨機化實驗的顯著性檢驗常常通過抽樣分布理論給出，這是因為很多情況下抽樣分布理論對數(shù)據(jù)正態(tài)性的要求并不十分嚴格。隨著實驗處理數(shù)和被試數(shù)的增多，基于抽樣分布的顯著性檢驗與基于隨機化分布的顯著性檢驗越來越接近。在許多情況下，兩者在實驗處理數(shù)和被試數(shù)較少時仍有良好的近似性。因此，運用抽樣分布對隨機化實驗的結(jié)果進行推論多數(shù)情況下是比較可靠的。

但在以下幾種情況中，建議基于隨機化分布進行推論而非抽樣分布，或者至少將隨機化分布的結(jié)果作為必要參考。（1）樣本數(shù)據(jù)量過少。樣本數(shù)據(jù)量過少帶來的問題是無法保證數(shù)據(jù)的正態(tài)性，即使是從正態(tài)總體中抽取的小樣本，抽樣分布和隨機化分布的擬合狀況也很差。（2）樣本中存在較嚴重的離群值。此時或者找出產(chǎn)生離群值的原因，將離群值進行剔除使數(shù)據(jù)符合抽樣分布條件，或者沒有合理的理由剔除離群值，此時需考慮隨機化分布方法。（3）需選取的統(tǒng)計量難以從公式推導(dǎo)得出。隨機化分布的統(tǒng)計量選取更加自由，許多統(tǒng)計量的抽樣分布難以計算，但是研究者可以根據(jù)需要選擇合適的統(tǒng)計量計算其隨機化分布。例如離群值對于抽樣分布的統(tǒng)計量往往影響較大，但對中位數(shù)、四分位數(shù)之類的統(tǒng)計量影響就較小，它們的理論分布通常難以求得。除此之外，對于計數(shù)數(shù)據(jù)和等級數(shù)據(jù)而言，常常利用一些近似估計和檢驗，可能會造成近似誤差，此時隨機化分布的應(yīng)用更應(yīng)當?shù)玫街匾暎‥udey， Kerr， & Trumbo， 2010）。

最后需要說明的是，對于心理統(tǒng)計的教育與應(yīng)用而言，隨機化檢驗的思想并不復(fù)雜，但計算比較繁瑣，教學過程中可以借助R之類的軟件進行輔助教學或計算。這需要對軟件的應(yīng)用有一定了解。鑒于目前R、Python等開源統(tǒng)計軟件尚未成為國內(nèi)心理統(tǒng)計主流軟件，加強對此類軟件的宣傳和應(yīng)用仍是必要的。實際上，這些軟件已經(jīng)具備不亞于SPSS或SAS的統(tǒng)計分析功能，在某些方面甚至更勝一籌。促進軟件應(yīng)用的開源化、免費化，對于國內(nèi)的心理學教學和研究單位節(jié)省統(tǒng)計軟件方面的支出或避免軟件使用上的版權(quán)問題，也是具有積極意義的。其中，除了文中提到的perm、exactRankTests、coin等R包外，還有ez、AUtests、flip、jmuOutlier、jmuOutlier、treeperm等軟件包提供了豐富的隨機化檢驗函數(shù)與算法，可供研究者進一步探索利用。當然，相較于發(fā)展更為成熟的總體模型推論，一些復(fù)雜實驗設(shè)計的隨機化檢驗?zāi)Ｊ饺赃€有待開發(fā)，基于這一模式的統(tǒng)計功效與效應(yīng)值探討也還有待深入。

參考文獻

Basu， D.（2011）. Randomization analysis of experimental data： The fisher randomization test. Journal of the American Statistical Association， 75（371）， 305-325.

Berry， K. J.， Johnston， J. E.， & Mielke， Jr， P. W.（2014）. A chronicle of permutation statistical methods： 1920-2000 and beyond. Cham， Switzerland： Springer.

Berry， K. J.， Mielke， Jr， P. W. & Johnston， J. E.（2016）. Permutation statistical methods： an integrated approach. Cham， Switzerland： Springer.

Boik， R. J.（1987）. The fisher-pitman permutation test： A non-robust alternative to the normal theoryFtest when variances are heterogeneous. British Journal of Mathematical & Statistical Psychology， 40（1）， 26-42.

Box， G. E. P.， & Anderson， S. L.（1955）. Permutation theory in the derivation of robust criteria and the study of departures from assumption. Journal of the Royal Statistical Society， 17（1）， 1-34.

Dugard， P.（2014）. Randomization tests： A new gold standard？Journal of Contextual Behavioral Science， 3（1）， 65-68.

Dugard， P.， File， P.， & Todman， J.（2011）. Single-case and small-n experimental designs： A practical guide to randomization tests. London： Routledge.

Eden， T.， & Yates， F.（1933）. On the validity of Fishersztest when applied to an actual example of non-normal data. Journal of Agricultural Science， 23（1）， 6-17.

Edgington， E. S.， & Onghena， P.（2007）. Randomization tests. Boca Raton， FL： CRC Press.

Ernst， M. D.（2009）. Teaching inference for randomized experiments. Journal of Statistics Education， 7（1）.

Eudey， T. L.， Kerr， J. D.， & Trumbo， B. E.（2010）. Using R to simulate permutation distributions for some elementary experimental designs. Journal of Statistics Education， 18（1）.

Fisher， R. A.（1925）. Statistical Methods for Research Workers. Edinburgh： Oliver and Boyd.

Fisher， R. A.（1935）. The Design of Experiments. Edinburgh： Oliver and Boyd.

Fisher， R. A.（1936）. The coefficient of racial likeness and the future of craniometry. The Journal of the Royal Anthropological Institute of Great Britain and Ireland， 66， 57-63.

Geary， R. C.（1927）. Some properties of correlation and regression in a limited universe. Metron Rivista Internazionale de Statistica， 7， 83-119.

Kempthorne， O.（1955）. The Randomization Theory of Experimental Inference. Journal of the American Statistical Association. 50（271）， 946-967.

Lu， J.， Ding， P.， & Dasgupta， T.（2015）. Construction of alternative hypotheses for evaluation of randomization tests with ordinal outcomes. Statistics & Probability Letters， 107（12）， 348-355.

Ludbrook， J. & Dudley， H. A. F.（1998）. Why permutation tests are superior tot- andF-tests in biomedical research. The American Statistician， 52（2）， 127-132.

Ludbrook， J.（2005）. Randomization based tests. Encyclopedia of statistics in behavioral science. Hoboken， NJ： John Wiley & Sons， Inc.

Mielke， P. W.， Berry， K. J.， & Johnston， J. E.（2011）. Robustness without rank order statistics. Journal of Applied Statistics， 38（1）， 207-214.

Pitman， E. J. G.（1937a）. Significance tests which may be applied to samples from any populations. Supplement to the Journal of the Royal Statistical Society， 4（1）， 119-130.

Pitman， E. J. G.（1937b）. Significance tests which may be applied to samples from any populations II： The correlation coefficient test. Supplement to the Journal of the Royal Statistical Society， 4（2）， 225-232.

Pitman， E. J. G.（1938）. Significance tests which may be applied to samples from any populations III： The analysis of variance test. Biometrika， 29（201）， 322-335.

Rubin， D. B.（1991）. Practical applications of modes of statistical inference for causal effects and the critical role of the assignment mechanism. Biometrics， 47（4）， 1213-1234.

心理技術(shù)與應(yīng)用2019年5期

心理技術(shù)與應(yīng)用的其它文章: “心理學研究的新模式與新方法”專題簡介; 虛擬圓桌會議發(fā)言主持人語; 建設(shè)面向新時代的心理學數(shù)據(jù)分析入門課程體系; 將預(yù)注冊的重復(fù)實驗納入心理學研究方法的課程; 團隊科學研究方法在可重復(fù)的心理與腦科學研究中的應(yīng)用; 統(tǒng)計檢驗力的分析流程與多層模型示例

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

實驗數(shù)據(jù)的隨機化檢驗及R語言實現(xiàn)