效應(yīng)量置信區(qū)間的原理及其實(shí)現(xiàn)

2019-05-24 07:47王珺宋瓊雅許岳培賈彬彬胡傳鵬

心理技術(shù)與應(yīng)用 2019年5期

王珺宋瓊雅許岳培賈彬彬胡傳鵬

摘?要?在心理學(xué)可重復(fù)危機(jī)的背景之下，報(bào)告效應(yīng)量及其置信區(qū)間正逐漸成為主流心理學(xué)界所要求的新標(biāo)準(zhǔn)，但是研究者可能對效應(yīng)量的置信區(qū)間缺乏足夠的理解。為增強(qiáng)研究者對效應(yīng)量置信區(qū)間的理解及應(yīng)用，本文介紹了心理學(xué)研究中最常用的效應(yīng)量指標(biāo)——Cohen's d與η2——置信區(qū)間的基本原理，即在備擇假設(shè)（H1）為真時(shí)，需要通過迭代估計(jì)的方式來估計(jì)相應(yīng)非中心分布的非中心分布參數(shù)，從而構(gòu)建Cohen's d與η2的置信區(qū)間。其中Cohen's d對應(yīng)的是非中心t分布;而η2對應(yīng)的則是非中心F分布。使用現(xiàn)有的計(jì)算機(jī)程序，能夠?qū)ohen's d與η2的置信區(qū)間進(jìn)行計(jì)算，例如 R與JASP，本文對此進(jìn)行了分別展示。報(bào)告效應(yīng)量置信區(qū)間不僅有助于研究者更好地進(jìn)行統(tǒng)計(jì)推斷，也有利于整個(gè)科學(xué)界知識的積累，因此本文介紹的方法對研究者具有十分重要的意義。

關(guān)鍵詞?效應(yīng)量;置信區(qū)間;Cohen's d;Eta squared;R

分類號?B841.2

DOI： 10.16842/j.cnki.issn2095-5588.2019.05.003

1?引言

統(tǒng)計(jì)推斷是研究者根據(jù)數(shù)據(jù)進(jìn)行邏輯推導(dǎo)從而驗(yàn)證研究假設(shè)的必要手段。虛無假設(shè)顯著性檢驗(yàn)（null hypothesis significance test， NHST）是心理學(xué)研究中最為常用的統(tǒng)計(jì)推斷手段（Cumming et al.， 2007）。但該方法以p值是否小于0.05作為決定統(tǒng)計(jì)顯著性的指標(biāo)，間接導(dǎo)致了心理學(xué)研究的假陽性過高;且p值受抽樣樣本的影響較大，不適合作為重復(fù)研究或跨實(shí)驗(yàn)研究比較的統(tǒng)計(jì)指標(biāo)（胡傳鵬，王非，過繼成思，宋夢迪，隋潔，彭凱平， 2016）。近年來，隨著對心理學(xué)研究可重復(fù)性的廣泛關(guān)注，NHST的局限性再次引起眾多學(xué)者的重視（Kline， 2004; Wagenmakers， Wetzels， Borsboom， & van der Maas， 2011）。為了彌補(bǔ)NHST的不足，新的統(tǒng)計(jì)方法開始逐漸被引入心理學(xué)研究，例如基于估計(jì)的統(tǒng)計(jì)（estimates-based statistics）（Cumming， 2012， 2014）、貝葉斯因子（胡傳鵬，孔祥禎， Wagenmakers， Ly，彭凱平， 2018; Wagenmakers et al.， 2018）、似然性方法（Etz， 2018）。其中，基于估計(jì)的統(tǒng)計(jì)方法由于易于理解，且能夠彌補(bǔ)NHST的不足，被國內(nèi)外研究者推薦。該方法所強(qiáng)調(diào)的效應(yīng)量（effect size）及其置信區(qū)間（confidence intervals， CIs）正逐漸成為國際、國內(nèi)重要心理學(xué)期刊論文中必須報(bào)告的統(tǒng)計(jì)指標(biāo)（APA Publications Communications Board Working Group on Journal Article Reporting Standards， 2008; Appelbaum， Cooper， Kline， Mayo-Wilson， Nezu， & Rao， 2018; Cumming， 2014）。

盡管如此，相比“統(tǒng)治”了心理學(xué)數(shù)十年的NHST，效應(yīng)量及其置信區(qū)間在心理學(xué)研究中的使用仍十分有限，極少研究報(bào)告效應(yīng)量的置信區(qū)間（Fritz， Morris， & Richler， 2012）。國內(nèi)研究者雖對效應(yīng)量的概念進(jìn)行過不少的介紹（胡竹菁， 2010; 盧謝峰，唐源鴻，曾凡梅， 2011;鄭昊敏，溫忠麟，吳艷， 2011），但卻很少提及效應(yīng)量的置信區(qū)間。

值得注意的是，心理學(xué)專業(yè)研究人員、學(xué)生對置信區(qū)間仍有一定誤解（胡傳鵬等， 2016; Hoekstra， Morey， Rouder， & Wagenmakers， 2014）。例如，胡傳鵬等人（2016）針對國內(nèi)研究者對CI的理解情況進(jìn)行了調(diào)查。在該調(diào)查中，呈現(xiàn)一個(gè)假想的研究，其效應(yīng)的95%置信區(qū)間為[0.1， 0.4]，受訪者需要判斷是否能夠根據(jù)這個(gè)置信區(qū)間推斷出如下6個(gè)陳述：A. 真實(shí)的均值大于0的可能性至少是95%;B. 真實(shí)的均值等于0的可能性小于5%;C. 真實(shí)的均值等于0的“零假設(shè)”很可能是不正確的;D. 真實(shí)的均值有95%的可能性在0.1和0.4之間;E. 我們有95%的信心認(rèn)為真實(shí)的均值在0.1和0.4之間;F. 如果我們重復(fù)該實(shí)驗(yàn)，則95%的時(shí)候，真實(shí)的均值會在0.1和0.4之間。上述6個(gè)陳述均屬于對置信區(qū)間的誤解（Hoekstra et al.， 2014），但是大部分受訪者或多或少將其判斷為正確解讀。（見圖1，數(shù)據(jù)來自Lyu， Peng， & Hu， 2018）。實(shí)際上，置信區(qū)間的正確解讀應(yīng)該是，如果不斷重復(fù)該實(shí)驗(yàn)并計(jì)算置信區(qū)間，在所有計(jì)算出來的置信區(qū)間中，約有95%的置信區(qū)間包含真實(shí)的均值。因此這里的[0.1，0.4]是理論上眾多置信區(qū)間中的一個(gè)，其是否包括真值是未知的（Cumming， 2014）。

為加深研究者對效應(yīng)量及其置信區(qū)間的理解，同時(shí)便于研究者準(zhǔn)確計(jì)算和報(bào)告效應(yīng)量及其置信區(qū)間，本文首先介紹效應(yīng)量的置信區(qū)間及其優(yōu)勢，然后以兩種常用的效應(yīng)量（Cohen's d及Eta squared， η2）為例，介紹其置信區(qū)間的原理及如何在開源軟件（如R和JASP）中實(shí)現(xiàn)。但值得注意的是，本文提及的效應(yīng)量并不僅限于Cohen's d等標(biāo)準(zhǔn)化的效應(yīng)量指標(biāo)。根據(jù)Cumming（2014）的定義，效應(yīng)量是研究者感興趣的任何效應(yīng)的量。因此效應(yīng)量既可以是標(biāo)準(zhǔn)化的，也可以是未標(biāo)準(zhǔn)化的、帶有原始單位的。研究者應(yīng)根據(jù)實(shí)際情況，選擇報(bào)告那些能夠合理反映數(shù)據(jù)信息且易于解讀的效應(yīng)量。

2?報(bào)告效應(yīng)量及其置信區(qū)間的優(yōu)勢

與NHST中的p值相比，報(bào)告效應(yīng)量及其置信區(qū)間為結(jié)果提供了更詳細(xì)、更多元的信息。具體而言，報(bào)告效應(yīng)量及其置信區(qū)間有如下優(yōu)勢：

第一，能夠比較不同實(shí)驗(yàn)之間的誤差大小。假如研究者進(jìn)行了三個(gè)實(shí)驗(yàn)，其效應(yīng)量及置信區(qū)間分別如圖2所示。如果根據(jù)傳統(tǒng)的NHST方法，研究者能夠得出的結(jié)論為：在實(shí)驗(yàn)1和實(shí)驗(yàn)3中，p<0.05，即兩組均值均與0有顯著差異;而實(shí)驗(yàn)2的p值大于0.05，即其均值與0沒有顯著差異。在這種情況下，研究者根據(jù)實(shí)驗(yàn)1和實(shí)驗(yàn)3得出的結(jié)論幾乎是相同的。至于兩組均值的差異到底有多大？數(shù)據(jù)的抽樣誤差如何？三組數(shù)據(jù)哪一組能為假設(shè)提供最可靠的證據(jù)？p值無法給出答案。

在傳統(tǒng)的報(bào)告規(guī)范中，研究者通常利用未經(jīng)標(biāo)準(zhǔn)化的點(diǎn)估計(jì)指標(biāo)（例如：均值）及標(biāo)準(zhǔn)誤來彌補(bǔ)上述不足，同樣的報(bào)告效應(yīng)量（此處為均值差）及其置信區(qū)間則能夠達(dá)到相同目的。根據(jù)圖2可知，實(shí)驗(yàn)1與實(shí)驗(yàn)3雖然均顯著，但是相對而言，實(shí)驗(yàn)1的效應(yīng)量較小、變異也較小，實(shí)驗(yàn)3則效應(yīng)量較大，變異也較大。由于對效應(yīng)量及其置信區(qū)間的分析，研究者對實(shí)驗(yàn)1和實(shí)驗(yàn)3的結(jié)論就會有所區(qū)別。

第二，效應(yīng)量及其置信區(qū)間能幫助研究者得出正確的結(jié)論。在僅參考效應(yīng)量及置信區(qū)間的情況下，大部分研究者能夠在比較不同研究的結(jié)果時(shí)得出符合邏輯的結(jié)論;但僅憑NHST和效應(yīng)量時(shí)，能夠得出正確結(jié)論的人數(shù)減少（Coulson， Healey， Fidler， & Cumming， 2010; Lyu et al.， 2018）。相比NHST的二分思想，報(bào)告效應(yīng)量及其置信區(qū)間將研究者引向一種“估計(jì)”“定量”的取向（Cumming & Fidler， 2009）。在這種思維取向下，研究者也更傾向于提出量化的問題。仍以圖2為例，實(shí)驗(yàn)2的結(jié)果雖然不顯著，但是從效應(yīng)量及其置信區(qū)間上來看，該實(shí)驗(yàn)的趨勢與實(shí)驗(yàn)1和實(shí)驗(yàn)3是相同的。這也使得研究者對研究產(chǎn)生進(jìn)一步深化的思考。例如，是否是實(shí)驗(yàn)2中數(shù)據(jù)的“噪音”過大導(dǎo)致了不顯著的結(jié)果？

第三，可以展現(xiàn)關(guān)于研究更豐富的信息。在圖2中，實(shí)驗(yàn)1的效應(yīng)量其實(shí)很小，換言之實(shí)驗(yàn)1中的兩組實(shí)際差異可能不大。但是也許由于實(shí)驗(yàn)抽樣誤差小、樣本量較大，實(shí)驗(yàn)1的置信區(qū)間很窄，研究者可以在很高的置信水平上得到差異顯著的結(jié)論。這就是統(tǒng)計(jì)顯著性與實(shí)際顯著性不相稱的實(shí)例。與之相反，對于實(shí)驗(yàn)2，雖然其置信區(qū)間包含0，但其效應(yīng)量的點(diǎn)估計(jì)值卻是最高的，由此可見在實(shí)驗(yàn)2數(shù)據(jù)的“噪音”過大，導(dǎo)致了其數(shù)據(jù)變異過大、置信區(qū)間過寬。實(shí)驗(yàn)3的結(jié)果則較為理想，其效應(yīng)量及其置信區(qū)間都在較為合理的水平。

第四，由于效應(yīng)量從理論上講不依賴于樣本的大?。ūR謝峰等， 2011），相比依賴樣本的p值，它更適用于跨實(shí)驗(yàn)的綜合分析及元分析研究中。從頻率主義統(tǒng)計(jì)的角度來講，任何一個(gè)單獨(dú)的研究可以看作是進(jìn)行一次獨(dú)立的抽樣并對總體的參數(shù)進(jìn)行一次估計(jì)，因此單個(gè)的研究很可能是片面的，但通過多個(gè)研究的數(shù)據(jù)積累，研究者可以通過元分析（meta-analysis）對總體進(jìn)行更加精確地估計(jì)。元分析不僅能擴(kuò)大樣本量，提高統(tǒng)計(jì)檢驗(yàn)力，還可以縮小置信區(qū)間的范圍，使得對總體效應(yīng)量的估計(jì)更加精確（Cumming， 2012）。相比p值，效應(yīng)量及其置信區(qū)間的研究更便于進(jìn)行元分析統(tǒng)計(jì)，且定量報(bào)告效應(yīng)量及其置信區(qū)間的過程本身也蘊(yùn)含了元分析思想。

正是由于效應(yīng)量與置信區(qū)間的優(yōu)勢，其得到了研究者的廣泛推薦。在美國心理學(xué)會（American Psychological Association， APA）出版手冊（第六版）中，推薦了報(bào)告效應(yīng)量及其置信區(qū)間。而在2018年《美國心理學(xué)家》（American Psychologist）所介紹的期刊報(bào)告標(biāo)準(zhǔn)中，也推薦報(bào)告效應(yīng)量及其置信區(qū)間（Appelbaum et al.， 2018）。

總之，在當(dāng)前的研究中，雖然報(bào)告效應(yīng)量及其置信區(qū)間得到了廣泛的支持，但是效應(yīng)量的置信區(qū)間卻應(yīng)用較少（Fritz et al.， 2012）。一個(gè)主要的原因可能在于研究者都對效應(yīng)量的置信區(qū)間知之不多，而且缺乏相應(yīng)的工具進(jìn)行實(shí)現(xiàn)（例如心理學(xué)常用的統(tǒng)計(jì)軟件SPSS并沒有常用效應(yīng)量指標(biāo)的置信區(qū)間輸出）。為了解決這個(gè)問題，接下來，本文將以Cohen's d和Eta squared（η2）為例，介紹其置信區(qū)間的原理與計(jì)算公式，并展示如何使用開源的軟件來實(shí)現(xiàn)置信區(qū)間的計(jì)算。

3?標(biāo)準(zhǔn)化的差異量（Cohen's d）

Cohen最早對d的定義是以總體的標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)化單位，然而在實(shí)際研究中總體的標(biāo)準(zhǔn)差常常是未知的，因此更常見的做法是使用樣本的標(biāo)準(zhǔn)差作為標(biāo)準(zhǔn)化單位（后文以樣本標(biāo)準(zhǔn)差s為單位進(jìn)行描述）。Cohen's d的原理即為樣本的均值和虛無假設(shè)（H0）的均值差異除以標(biāo)準(zhǔn)差的比值：

其中，s表示樣本的標(biāo)準(zhǔn)差，μ表示我們希望用來測量d的參考值。Cohen's d就可以簡單理解為樣本均值與參考值μ之間相差幾個(gè)標(biāo)準(zhǔn)差s。不過，對比不同的研究目的，關(guān)于Cohen's d的計(jì)算公式有多種形式，具體可以參考Cumming（2014）， Hedges（1981）和Lakens（2013）。

3.1?Cohen's d置信區(qū)間的原理

要理解Cohen's d的置信區(qū)間，首先需要理解t值在虛無假設(shè)（null hypothesis，H0）為真（即沒有效應(yīng)）和備擇假設(shè)（alternative hypothesis，H1）為真這兩種情況下的分布。假設(shè)從一個(gè)正態(tài)分布（N（μ，δ））中隨機(jī)抽取無數(shù)個(gè)樣本量為N的樣本。對于其中的一個(gè)樣本，其均數(shù)為M，標(biāo)準(zhǔn)差為s。如果想檢驗(yàn)這個(gè)樣本是否屬于標(biāo)準(zhǔn)正態(tài)分布的總體，在NHST的框架下，我們可以基于虛無假設(shè)H0： μ=μ0進(jìn)行單樣本t檢驗(yàn)，可以通過如下公式計(jì)算t值：

在虛無假設(shè)為真的情況下，假如我們無數(shù)次進(jìn)行抽取樣本量為N的樣本并進(jìn)行t檢驗(yàn)，那么這些t值會形成一個(gè)自由度df=（N-1）的t分布。在這種情況下，t分布是以0為中心，兩邊對稱的分布。此時(shí)，我們也可以將t檢驗(yàn)的統(tǒng)計(jì)量看作是M與μ之間以s/N（標(biāo)準(zhǔn)誤）為單位的距離。對于每一個(gè)樣本，我們都可以使用t分布表計(jì)算p值，并進(jìn)行假設(shè)檢驗(yàn)。

但是，如果虛無假設(shè)（H0）不為真，那么備擇假設(shè)（H1）即為真，即μ=μ1（μ1≠μ0）。在這種情況下，我們實(shí)際上是從均值為μ1的總體中進(jìn)行抽樣，那么無數(shù)次抽取樣本量為N的樣本而計(jì)算出來的均值M就會更加接近μ1而非μ0。如果仍用上面的公式進(jìn)行t檢驗(yàn)，那么無數(shù)次計(jì)算到的t值不再是以0為中心兩側(cè)對稱的t分布，而是中心不在零點(diǎn)的偏態(tài)的非中心t分布。對于這樣一個(gè)非中心t分布，其參數(shù)除了自由度（df）外，還包括一個(gè)非中心參數(shù)Δ（讀為：delta），Δ可以看作是μ0和μ1之間以標(biāo)準(zhǔn)誤為單位的距離。在其他條件相同的情況下，Δ值越大，說明這個(gè)非中心t分布的中心越偏離0（如圖3所示，其中非中心參數(shù)ncp表示R軟件中Δ的取值）。

將公式（3.1）和公式（3.2）結(jié)合，可以得出

公式（3.1）說明d表示M與μ之間以s（即標(biāo)準(zhǔn)差）為單位的距離;公式（3.2）說明t表示M與μ之間以s/N（即標(biāo)準(zhǔn)誤）為單位的距離。公式（3.3）則表明，Cohen's d與t值有一一對應(yīng)關(guān)系。因此，Cohen's d的抽樣分布也是非中心t分布，在計(jì)算Cohen's d的置信區(qū)間時(shí)需要用到非中心t分布。

由于t值在備擇假設(shè)（H1）為真時(shí)為非中心t分布，這種情況下d也是一個(gè)非中心t分布。也就是說d的置信區(qū)間是一個(gè)非對稱的區(qū)間，上下限到中心的距離不一致，所以我們需要用迭代估計(jì)（iterative approximations）的方法來構(gòu)建d的置信區(qū)間。我們可以結(jié)合下圖來詳細(xì)說明。

假如有一個(gè)總體效應(yīng)為Cohen's d=1.21，需要構(gòu)建其95%的置信區(qū)間（如圖4所示）。也就是說，如果無數(shù)次構(gòu)建這樣的區(qū)間，約有95%的區(qū)間包含1.21。那么，以區(qū)間的下限dL為中心時(shí)，d的抽樣分布拒絕dL而選擇真值的概率為 2.5%（x軸上1.21右側(cè)的陰影部分）;同時(shí)，對于以置信區(qū)間上限dU為中心時(shí)，d的抽樣分布拒絕dU而選擇真值的概率同樣為2.5%（x軸上1.21左側(cè)的陰影部分）。這就意味著，區(qū)間的上限和下限為中心的分布包含真值的可能性之和正好為5%;而將區(qū)間下限或者上限向中心移動時(shí)，包含真值的可能性變大。同理，如果需要估計(jì)99%置信區(qū)間的范圍，相比于95%的置信區(qū)間，區(qū)間的上限和下限會更遠(yuǎn)離中心，區(qū)間的上限和下限為中心的分布包含真值的可能性之和為1%，那么x軸上陰影部分應(yīng)該是0.005。

Exploratory Software for Confidence Intervals（ESCI）是由Geoff Cumming 設(shè)計(jì)開發(fā)的一系列Excel文件，可以僅僅依托我們常用的Microsoft Excel軟件完成復(fù)雜的統(tǒng)計(jì)計(jì)算，這其中包括效應(yīng)量Cohen's d及其置信區(qū)間（Cumming， 2001）。使用ESCI可以更加直觀地理解區(qū)間上限與下限與d值的關(guān)系。在ESCI中，將以區(qū)間下限dL為中心的分布往左移動，dL就會變小，該分布右側(cè)超過真值的區(qū)域也會變小;這意味著真值所對應(yīng)的p值也會變小，那么能夠拒絕dL選擇真值的概率就會變小。同樣的，如果將以區(qū)間下限dL為中心的分布往右移動，那么dL值就會變大，該分布右側(cè)超過真值的區(qū)域就會變大，那么能夠拒絕dL選擇真值的概率就會變大。為了能得到一個(gè)準(zhǔn)確的95%的置信區(qū)間，我們需要移動以dL為中心的分布使得它右側(cè)超過d值的區(qū)域?yàn)?.025，同時(shí)移動以dU為中心的分布，使得其左側(cè)超d值的區(qū)域也為0.025。這樣得到的dL和dU就是我們需要的置信區(qū)間的上下限。

因?yàn)檫@兩個(gè)曲線都是非中心t分布，所以我們可以改變d值來調(diào)整曲線向左右滑動。這種不斷地調(diào)整以達(dá)到我們需要的區(qū)間的方法，即為迭代估計(jì)。簡單來說就是在保持自由度不變的情況，通過代入不同的非中心參數(shù)Δ（在一些研究中也會寫作δ）進(jìn)行相應(yīng)的計(jì)算，并進(jìn)行下一步的調(diào)整。在計(jì)算置信區(qū)間時(shí)，不斷地調(diào)整Δ，從而不斷調(diào)整非中心t分布的位置，使得我們得到的在曲線上的臨界值正好在0.025和0.975的雙尾范圍之間，這樣我們就得到了Cohen's d的置信區(qū)間。那么，我們應(yīng)該如何確定分別以置信區(qū)間上限和下限為中心的分布的非中心參數(shù)呢？

對于單樣本的研究，非中心參數(shù)Δ的計(jì)算公式為

關(guān)于Cohen's d置信區(qū)間的原理，更多細(xì)節(jié)可參考Cumming（2012）第11章。

3.2?實(shí)例與軟件分析

在研究實(shí)踐中，研究者不需要自己進(jìn)行迭代來估計(jì)Cohen's d的置信區(qū)間。目前，R語言（R Core Team， 2018）中有不少成熟的工具包可以用于計(jì)算Cohen's d的置信區(qū)間。而JASP是基于R所開發(fā)的用戶界面友好的軟件可以進(jìn)行傳統(tǒng)的統(tǒng)計(jì)分析和貝葉斯因子分析（胡傳鵬等， 2018;

Wagenmakers et al.， 2015），也可以實(shí)現(xiàn)Cohen's d的置信區(qū)間的計(jì)算。（關(guān)于SPSS中計(jì)算Cohen's d置信區(qū)間的插件，見：http：//dl.dropbox.com/u/1857674/CIstuff/CI.html; 基于Microsoft Excel所開發(fā)的ESCI計(jì)算Cohen's d置信區(qū)間，見： https：//thenewstatistics.com/itns/esci。）

我們將使用JASP示例數(shù)據(jù)“Kitchen Rolls”（具體數(shù)據(jù)，見：https：//osf.io/q9387/）進(jìn)行說明。Topolinski和Sparenberg（2012）發(fā)現(xiàn)，轉(zhuǎn)動紙卷的方向能夠改變個(gè)體在人格量表上開放性的得分，Wagenmakers等（2015）對此實(shí)驗(yàn)進(jìn)行重復(fù)實(shí)驗(yàn)，這里使用的數(shù)據(jù)即為Wagenmakers等（2015）的重復(fù)實(shí)驗(yàn)數(shù)據(jù)。該示例數(shù)據(jù)包含兩組被試在人格量表中關(guān)于開放性的得分，其中一組被試在填寫問卷時(shí)順時(shí)針旋轉(zhuǎn)桌面上的紙卷，而另一組則逆時(shí)針旋轉(zhuǎn)。數(shù)據(jù)分析中，NEO PI-R的平均得分作為因變量，被試的分組（順時(shí)針或逆時(shí)針）為自變量，采用獨(dú)立樣本t檢驗(yàn)進(jìn)行數(shù)據(jù)分析。

3.2.1?使用JASP計(jì)算Cohen's d的置信區(qū)間

將樣例數(shù)據(jù)使用JASP打開后，選擇T-Tests → Independent Samples T-Test，得到如下界面。根據(jù)要求將需要統(tǒng)計(jì)的變量導(dǎo)入對應(yīng)變量框中（與SPSS類似），在下方界面點(diǎn)選需要進(jìn)行的統(tǒng)計(jì)操作，其中在Additional Statistics下可以勾選Effect Size和Confidence interval的選項(xiàng)，根據(jù)公式（3.5）-（3.8）計(jì)算結(jié)果即為效應(yīng)量Cohen's d及其置信區(qū)間。

結(jié)果顯示因變量滿足正態(tài)分布和方差齊性假設(shè)，因此選擇Student t test進(jìn)行分析。結(jié)果顯示兩組的NEO PI-R的平均得分沒有顯著差異（t（100）=0.754，p=0.453），Cohen's d=0.149， 95% CI=[-0.240， 0.538]。

3.2.2?使用R計(jì)算Cohen's d的置信區(qū)間

R語言中有多個(gè)工具包可以完成獨(dú)立樣本t檢驗(yàn)，如car和MBESS。假如我們使用car工具包上的t.test函數(shù)，得到兩組被試在NEO PI-R的平均得分沒有顯著差異，t（100）=0.754，p=0.453（當(dāng)然，也可以使用JASP或者SPSS得到t值與p值）。在得到t值之后，則可通過使用如下命令來計(jì)算Cohen's d的置信區(qū)間，R代碼如下：

library（“MBESS”） # 打開MBESS工具包

#定義相關(guān)參數(shù)并計(jì)算Cohen's d的95%置信區(qū)間

MBESS：： ci.smd（ncp=0.75361， n.1=48， n.2=54， conf.level=0.95）

其中ncp（非中心參數(shù)）是t值，n.1和n.2代表兩組的樣本量，MBESS采用公式（3.5）-（3.8）通過運(yùn)行程序可以獲得結(jié)果。

3.3?結(jié)果報(bào)告與解釋

如上所示，使用兩種不同的軟件對于順時(shí)針旋轉(zhuǎn)組的被試與逆時(shí)針旋轉(zhuǎn)組的被試的人格量表得分差異進(jìn)行估計(jì)，并且得到了95%的置信區(qū)間。輸出的結(jié)果都表明，兩組被試的NEO PI-R的平均得分沒有顯著差異，對于效應(yīng)量及其95%的置信區(qū)間的估計(jì)也是相同的——效應(yīng)量d為0.149，其95%置信區(qū)間為[-0.240， 0.538]?；谶@些結(jié)果，我們可以得到的結(jié)論：目前的數(shù)據(jù)無法拒絕零假設(shè)，即無法推斷出被試進(jìn)行順時(shí)針旋轉(zhuǎn)或者逆時(shí)針旋轉(zhuǎn)對于NEO PI-R的得分存在顯著影響的。（注意，這里p>0.05及Cohen's d的置信區(qū)間包含0均無法得到零假設(shè)為真的結(jié)論，即無法使用p值來支持兩組沒有差異的結(jié)論，因?yàn)閜值的計(jì)算是以零假設(shè)為真作為前提條件的。要為零假設(shè)為真這個(gè)結(jié)論提供證據(jù)，需要借助其他的統(tǒng)計(jì)手段。）

4?方差分析中效應(yīng)量及其置信區(qū)間

心理學(xué)研究中另一個(gè)最為常見的效應(yīng)量指標(biāo)是方差分析（analysis of variance， ANOVA）中的Eta-squared（η2）（Fritz et al.， 2012），其最早由Pearson（1905）提出，可以理解為單個(gè)或者多個(gè)因素（交互作用）引起的變異在總變異中所占的比例（Cohen & Cohen， 2010）。η2的計(jì)算公式如下：

非常值得注意的是，SPSS輸出的效應(yīng)量指標(biāo)ηp2在心理學(xué)研究中應(yīng)用廣泛，但是意義與η2不完全相同并且容易引起誤解。例如有研究指出很多研究者很容易混淆η2和ηp2，這種混淆可能會造成一些比較嚴(yán)重的后果，如在元分析（meta-analysis）中如果錯(cuò)誤的使用ηp2代替η2，會使得元分析結(jié)果出現(xiàn)嚴(yán)重的偏差（Levine & Hullett， 2002）。此外誤用η2和ηp2對理論的建構(gòu)也十分不利（Pierce， Block， & Aguinis， 2004）。因此報(bào)告ηp2的時(shí)候一定要注明報(bào)告的是哪個(gè)指標(biāo)（對論文中η2與ηp2不明確情況下，可對各個(gè)影響因素的效應(yīng)量相加，一般結(jié)果等于1的情況下是η2 ，如果結(jié)果大于1，則是ηp2）。另外在樣本量比較小的時(shí)候（自變量和樣本的比值小于1∶10），ω2則成為研究者更為推薦報(bào)告的效應(yīng)量指標(biāo)（盧謝峰等， 2011）。當(dāng)然與ω2類似的效應(yīng)量統(tǒng)計(jì)指標(biāo)還有ε2（詳見Maxwell & Delaney， 2018）。下面結(jié)合公式4.1主要對η2置信區(qū)間計(jì)算進(jìn)行說明。

4.1?η2置信區(qū)間計(jì)算的原理

要理解η2的置信區(qū)間，同樣需要理解與其相關(guān)參數(shù)有關(guān)的非中心性分布。在這里，η2置信區(qū)間的建構(gòu)需要方差分析中F值的分布以及方差分析中另一個(gè)效應(yīng)量指標(biāo)Cohen's f。以最簡單的單因素被試間設(shè)計(jì)方差分析為例，其總體變異可以被分解成為組間變異和組內(nèi)變異：

這是一個(gè)自由度為k-1的χ2分布，且這個(gè)χ2分布是中心性的（注意，這里的中心性并非指的是該分布是中心對稱，而是說其是從中心對稱的分布中抽出來的數(shù)據(jù)的平方和的分布）。對照之前方差分析中F值的計(jì)算公式，如果將分子和分母同時(shí)除以σ2between（處理引起的變異）和σ2error（誤差引起的變異）（在ANOVA的H0為真的情況下，假設(shè)處理變異同誤差引起的變異相同即σ2between=σ2error，所以在公式中相互抵消了），則F值（F（df1，df2），以下簡寫為F）的分子和分母分別對應(yīng)一個(gè)χ2分布。

在ANOVA中，由虛無假設(shè)為組間均數(shù)相等，實(shí)驗(yàn)誤差服從正態(tài)分布N（0，σerror）可知，此時(shí)的分子分母對應(yīng)的χ2分布是中心性。在此類情況下，F(xiàn)分布也呈中心性。

當(dāng)虛無假設(shè)為假時(shí)，組間均數(shù)不相等，分子對應(yīng)的χ2分布呈非中心性，分母作為實(shí)驗(yàn)誤差對應(yīng)的分布還是中心性的χ2分布。此時(shí)的F分布也變成了非中心性的，可以表示為F（df1，df2， δ）。實(shí)際上，中心分布是非中心分布的特殊情況。非中心參數(shù)ncp決定了分布的具體形態(tài)，例如中心F（2， 52， ncp=0）分布（更高的曲線）和非中心F（2， 52， ncp=1）分布（更矮的曲線），如下圖所示。

計(jì)算效應(yīng)量的前提就是承認(rèn)H0為假（組間均數(shù)不相等），其對應(yīng)的F分布是非中心分布。如果計(jì)算η2的置信區(qū)間是基于非中心F分布，則其區(qū)間估計(jì)的上下限過程中，存在與Cohen's d置信區(qū)間估計(jì)過程中同樣的問題：在置信區(qū)間的上限與下限位置的F分布的非中心參數(shù)不相同。因此，對于η2的置信區(qū)間的估計(jì)，同樣需要使用反演原理（inversion confidence interval principle）（Steiger & Fouladi， 1997）。

我們通過三個(gè)階段得到置信區(qū)間：統(tǒng)計(jì)檢驗(yàn)→非中心參數(shù)→效應(yīng)量統(tǒng)計(jì)。首先我們需要建立統(tǒng)計(jì)檢驗(yàn)值（方差分析下的F值）和非中心參數(shù)以及效應(yīng)量η2之間的關(guān)系。由公式4.3可得，因此，可以推出

當(dāng)虛無假設(shè)為假時(shí)，F(xiàn)（df1，df2）的非中心參數(shù)的估計(jì)值δ（非中心參數(shù)的符號表達(dá)方式可能會有不同，常用的符號包括δ、λ）的計(jì)算公式如下（Smithson， 2001）：

結(jié)合公式（4.5），我們得到非中心參數(shù)的估計(jì)：

至此我們建立起了統(tǒng)計(jì)值F和非中心參數(shù)之間的關(guān)系。再綜合公式（4.2），（4.3）和（4.7），可以推斷出η2和f2與非中心參數(shù)δ的關(guān)系如下：

至此，我們得到了η2與F值、F分布的非中心參數(shù)之間的關(guān)系。接下來，我們就可以使用置信區(qū)間反演原理來計(jì)算η2的置信區(qū)間。假設(shè)給定我們一個(gè)樣本F（5，194），我們需要構(gòu)建一個(gè)100（1-α）%（α=0.05）的雙側(cè)的置信區(qū)間（如圖7所示）。

下限對應(yīng)F（5，194）右側(cè)的α/2處，上限對應(yīng)F（5，194）左側(cè)的α/2處。在得到與上下限對應(yīng)的非中心參數(shù)δ后，我們可以將其轉(zhuǎn)換為η2的置信區(qū)間，轉(zhuǎn)換公式如下：

這樣我們就完成了對η2的置信區(qū)間的估計(jì)。

值得注意的是，對ANOVA效應(yīng)量置信區(qū)間的計(jì)算，通常報(bào)告90%的置信區(qū)間即可。原因在于均值之間的差異可以是正值也可以是負(fù)值，但是由于η2或R2是平方值，所以只有正值。計(jì)算95%的置信區(qū)間時(shí)，可能會得到包含0的置信區(qū)間，但此時(shí)p值可能小于0.05，此時(shí)置信區(qū)間的結(jié)果與p值出現(xiàn)了矛盾（見Karl Wuensch的解釋：http：//core.ecu.edu/psyc/wuenschk/spss/spss-programs.htm）。而且Steiger（2004）指出均值比較的95%置信區(qū)間和90%置信區(qū)間得到的檢驗(yàn)效力是一樣的，并且η2不可能小于0，所以與0不存在顯著差異的置信區(qū)間（通常情況下不包含0）的下限至少要從0開始（Steiger， 2004）。

4.2?η2及其置信區(qū)間在R上的實(shí)現(xiàn)

同樣，我們將采用由JASP提供的樣例數(shù)據(jù)來演示如何使用R計(jì)算η2的90%CI。該數(shù)據(jù)名為Tooth Growth和Bugs，分別用來展示被試間設(shè)計(jì)和被試內(nèi)設(shè)計(jì)方差分析中η2及其CI的實(shí)現(xiàn)（在SPSS上如何實(shí)現(xiàn)，見： http：//core.ecu.edu/psyc/wuenschk/spss/spss-programs.htm）。

4.2.1?被試間設(shè)計(jì)η2及其置信區(qū)間在R上的實(shí)現(xiàn)

Tooth Growth數(shù)據(jù)來自兩因素完全隨機(jī)設(shè)計(jì)，60只豚鼠被隨機(jī)分配到6種處理?xiàng)l件下，用以研究不同類型的營養(yǎng)品（維生素C即VC和橙汁OJ）在不同抗壞血酸劑量條件下（0.5mg、1mg和2mg）對豚鼠牙齒生長的影響，因變量選取的是豚鼠牙齒的長度。

首先使用統(tǒng)計(jì)軟件獲得計(jì)算置信區(qū)間所需的統(tǒng)計(jì)值。這里你可以使用R中自帶的函數(shù)aov或者一些帶統(tǒng)計(jì)功能的工具包（如ez、car等等），這里需要注意的是用R進(jìn)行方差分析時(shí)，不同的工具包或者函數(shù)使用的平方和類型會有所不同，例如aov函數(shù)進(jìn)行計(jì)算的時(shí)候默認(rèn)使用的是Type I SS（sun of square），ezANOVA默認(rèn)使用的是Type II SS（可以在R中使用type對平方和類型進(jìn)行調(diào)整，詳見https：//cran.r-project.org/web/packages/ez/ez.pdf），而SPSS在進(jìn)行方差分析計(jì)算的時(shí)候默認(rèn)的是Type III SS（可以在SPSS中模型選項(xiàng)進(jìn)行調(diào)整）。當(dāng)數(shù)據(jù)不同組間的被試量相同時(shí)，不同類型平方和計(jì)算結(jié)果出現(xiàn)的差異不大，但是當(dāng)數(shù)據(jù)不平衡的時(shí)候，則要謹(jǐn)慎考慮平方和類型，因?yàn)椴煌钠椒胶皖愋蜁聿煌慕y(tǒng)計(jì)結(jié)果（可參考Langsrud， 2003）。當(dāng)然更為便捷的辦法是應(yīng)用JASP直接進(jìn)行統(tǒng)計(jì)分析并獲得相應(yīng)的統(tǒng)計(jì)值。例如對于以上數(shù)據(jù)，可得F（2，54）=92，隨后在R中下載并打開MBESS工具包，輸入相關(guān)的統(tǒng)計(jì)值進(jìn)行置信區(qū)間的計(jì)算，R中的命令如下：

library（“MBESS”） # 打開MBESS工具包

ci.pvaf（F.value=92，df.1=2，df..2=54，N=60，conf.level=0.90） # 輸入F值、自由度計(jì)算對應(yīng)的90%置信區(qū)間

4.2.2?被試內(nèi)設(shè)計(jì)η2及其置信區(qū)間在R上的實(shí)現(xiàn)

Bugs數(shù)據(jù)來自兩因素混合設(shè)計(jì)，用以研究不同性別（男、女）人群對于不同類型（不嚇人不惡心、不嚇人很惡心、很嚇人不惡心和很嚇人很惡心）蟲子圖片的敵意指數(shù)，并采用10點(diǎn)評分表明想要?dú)⑺阑蛘唑?qū)趕蟲子的程度（Ryan， Wilde， & Crist， 2013）。通過JASP，我們可以得到F（2.64， 224.48）（注意被試內(nèi)設(shè)計(jì)數(shù)據(jù)在違背球形假設(shè)的情況下使用校正后的自由度），然后在R中使用如下命令得到置信區(qū)間：

# 打開MBESS工具包

library（“MBESS”）

# 輸入F值及自由度

Lims<-conf.limits.ncf（F.value=20.14，conf.level=0.90，df.1=2.64，df.2=224.48）

# 計(jì)算90%置信區(qū)間的下限

Lower.lim<-LimsMYMLower.Limit/（LimsMYM Lower.Limit+df.1+df.2+1）

# 計(jì)算 90%置信區(qū)間的上限

Upper.lim<-LimsMYMUpper.Limit/（LimsMYMUpper.Limit+df.1+df.2+1）

4.3?結(jié)果報(bào)告與解釋

對于η2及其置信區(qū)間的解釋主要參照η2的定義，也就是實(shí)驗(yàn)效應(yīng)引起的變異占總體變異的比例，因此η2的大小說明了在具體的實(shí)驗(yàn)研究中對于自變量操作的有效性。也就是說η2越大，相關(guān)變量之間的關(guān)系越緊密，當(dāng)然這種關(guān)系的屬性，即相關(guān)還是因果關(guān)系主要由實(shí)驗(yàn)設(shè)計(jì)的類型（如準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)設(shè)計(jì)）決定。但是由于η2置信區(qū)間不可能小于0，這也就決定了對于η2的解釋不可能像前面提到的Cohen's d的置信區(qū)間一樣，把包含0的置信區(qū)間作為我們拒絕或者接受零假設(shè)的依據(jù)。而且方差分析的應(yīng)用作為一般線性模型下的特例，往往只是對涉及變量間關(guān)系檢驗(yàn)的第一步。因此我們一般把η2及其置信區(qū)間作為評價(jià)實(shí)驗(yàn)變量操控有效性的指標(biāo)，接下來具體的組間比較才是研究者關(guān)注的重點(diǎn)（例如主效應(yīng)顯著后的多重比較、交互作用顯著后的簡單效應(yīng)分析），而在組間比較中可以再次使用如t檢驗(yàn)下的Cohen's d作為評價(jià)組間差異可靠性的效應(yīng)量指標(biāo)。

5?總結(jié)

近年來心理學(xué)中的可重復(fù)危機(jī)已經(jīng)對心理學(xué)界產(chǎn)生了深遠(yuǎn)的影響，而統(tǒng)計(jì)報(bào)告標(biāo)準(zhǔn)的變化，組成了期刊論文報(bào)告標(biāo)準(zhǔn)變化中非常重要的部分（劉宇等， 2018; Appelbaum et al.， 2018; Levitt， Bamberg， Creswell， Frost， Josselson， & Suárez-Orozco， 2018）。Cohen's d與η2作為基于估計(jì)統(tǒng)計(jì)中兩個(gè)最常用的效應(yīng)量指標(biāo)，對于研究者來說具有重要意義（Fritz et al.， 2012）。本文解釋了這兩個(gè)效應(yīng)量置信區(qū)間的原理，并采用實(shí)例演示了如何在R與JASP中實(shí)現(xiàn)這兩種置信區(qū)間（所有演示數(shù)據(jù)與代碼，見：https：//osf.io/4ameb/），可能對研究者具有一定的幫助。雖然本文未對另一個(gè)常見的效應(yīng)量指標(biāo)——相關(guān)系數(shù)的置信區(qū)間也進(jìn)行說明及演示，但是其計(jì)算與實(shí)現(xiàn)在JASP與R中均相對成熟，讀者可以參閱相關(guān)資料（更多關(guān)于置信區(qū)間的原理，可見Smithson， 2003）。

值得注意的是，任何一個(gè)統(tǒng)計(jì)方法均有其優(yōu)缺點(diǎn)（Rouder， Morey， Verhagen， Province， & Wagenmakers， 2016）。對于心理科學(xué)而言，任何新的統(tǒng)計(jì)方法都不足以解決可重復(fù)危機(jī)（胡傳鵬等， 2016; 劉佳，霍涌泉，陳文博，解詩薇，王靜， 2018）。對于研究者以及整個(gè)領(lǐng)域來說，最重要的是充分理解各個(gè)統(tǒng)計(jì)方法的前提及其不足，否則難以真正避免假陽性。本文所介紹的內(nèi)容，可能可以幫助研究者達(dá)到新報(bào)告標(biāo)準(zhǔn)的要求，在結(jié)果中提供更豐富的信息。

參考文獻(xiàn)

胡傳鵬，孔祥禎， Wagenmakers， E. -J.， Ly， A.，彭凱平（2018）. 貝葉斯因子及其在JASP中的實(shí)現(xiàn). 心理科學(xué)進(jìn)展， 26（6）， 951-965.

胡傳鵬，王非，過繼成思，宋夢迪，隋潔，彭凱平（2016）. 心理學(xué)研究中的可重復(fù)性問題：從危機(jī)到契機(jī). 心理科學(xué)進(jìn)展， 24（9）， 1504-1518.

胡竹菁（2010）. 平均數(shù)差異顯著性檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)力和效果大小的估計(jì)原理與方法. 心理學(xué)探新， 30（1）， 68-73.

劉佳，霍涌泉，陳文博，解詩薇，王靜（2018）. 心理學(xué)研究的可重復(fù)性“危機(jī)”：一些積極應(yīng)對策略. 心理學(xué)探新， 38（1）， 86-90.

劉宇，陳樹銓，樊富珉，邸新，范會勇，封春亮， ...胡傳鵬（2018）. 心理研究的元分析報(bào)告標(biāo)準(zhǔn)：現(xiàn)狀與建議. ChinaXiv. Retrieved from http：//www. chinaxiv. org/abs/201809. 00177

盧謝峰，唐源鴻，曾凡梅（2011）. 效應(yīng)量：估計(jì)、報(bào)告和解釋. 心理學(xué)探新， 31（3）， 260-264.

鄭昊敏，溫忠麟，吳艷（2011）. 心理學(xué)常用效應(yīng)量的選用與分析. 心理科學(xué)進(jìn)展， 19（12）， 1868-1878.

Appelbaum， M.， Cooper， H.， Kline， R. B.， Mayo-Wilson， E.， Nezu， A. M.， & Rao， S. M.（2018）. Journal article reporting standards for quantitative research in psychology： The APA Publications and Communications Board task force report. American Psychologist， 73（1）， 3-25.

Cohen， J.（1973）. Eta-squared and partial eta-squared in fixed factor ANOVA designs. Educational & Psychological Measurement， 33（1）， 107-112.

Cohen， J.， & Cohen， P.（2010）. Applied multiple regression/correlation analysis for the behavioral sciences. Journal of the Royal Statistical Society， 52（4）， 691-691.

Coulson， M.， Healey， M.， Fidler， F.， & Cumming， G.（2010）. Confidence intervals permit， but don't guarantee， better inference than statistical significance testing. Frontiers in Psychology， 1：26.

Cumming， G.（2001）. Project design and achieving educational change： from Statplay to ESCI. Melbourne： Biomedical Multimedia Unit， The University of Melbourne，

Cumming， G.（2012）. Understanding the new statistics： effect sizes， confidence intervals， and meta-analysis. New York： Routledge.

Cumming， G.（2014）. The New Statistics： Why and how. Psychological Science， 25（1）， 7-29.

Cumming， G.， & Fidler， F.（2009）. Confidence intervals： Better answers to better questions. Zeitschrift für Psychologie/Journal of Psychology， 217（1）， 15-26.

Cumming， G.， Fidler， F.， Leonard， M.， Kalinowski， P.， Christiansen， A.， Kleinig， A.， ...Wilson， S.（2007）. Statistical reform in psychology： Is anything changing？Psychological Science， 18（3）， 230-232.

Etz， A.（2018）. Introduction to the concept of likelihood and its applications. Advances in Methods and Practices in Psychological Science， 1（1）， 60-69.

Fritz， C. O.， Morris， P. E.， & Richler， J. J.（2012）. Effect size estimates： current use， calculations， and interpretation. Journal of Experimental Psychology： General， 141（1）， 2-18.

Hedges， L. V.（1981）. Distribution Theory for Glass's Estimator of Effect Size and Related Estimators. Journal of Educational Statistics， 6（2）， 107-128.

Hoekstra， R.， Morey， R. D.， Rouder， J. N.， & Wagenmakers， E. J.（2014）. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review， 21（5）， 1157-1164.

Kline， R. B.（2004）. Beyond significance testing： Reforming data analysis methods in behavioral research. Washington， DC： American Psychological Association.

Lakens， D.（2013）. Calculating and reporting effect sizes to facilitate cumulative science： a practical primer for t-tests and ANOVAs. Frontiers in Psychology， 4： 863.

Langsrud， .（2003）. ANOVA for unbalanced data： Use Type II instead of Type III sums of squares. Statistics & Computing， 13（2）， 163-167.

Levine， T. R.， & Hullett， C. R.（2002）. Eta Squared， Partial Eta Squared， and Misreporting of Effect Size in Communication Research. Human Communication Research， 28（4）， 612-625.

Levitt， H. M.， Bamberg， M.， Creswell， J. W.， Frost， D. M.， Josselson， R.， & Suárez-Orozco， C.（2018）. Journal article reporting standards for qualitative primary， qualitative meta-analytic， and mixed methods research in psychology： The APA Publications and Communications Board task force report. American Psychologist， 73（1）， 26-46.

Lyu， Z.， Peng， K.， & Hu， C. P.（2018）. P-value， Confidence Intervals and Statistical Inference： A New Dataset of Misinterpretation. Frontiers in Psychology， 9：868.

Maxwell， S. E.， & Delaney， H. D.（2018）. Designing experiments and analyzing data： a model comparison perspective. New York： Routledge.

Pearson， K.（1905）. Mathematical contributions to the theory of evolution： XIV. On the general theory of skew correlations and nonlinear regression（Draper's Company Research Memoirs， Biometric Series II）. London： Dulau.

Pedhazur， E. J.， & Kerlinger， F. N.（1973）. Multiple regression in behavioral research： explanation and prediction. New York： Holt， Rinehart and Winston.

Pierce， C. A.， Block， R. A.， & Aguinis， H.（2004）. Cautionary Note on Reporting Eta-Squared Values from Multifactor ANOVA Designs. Educational & Psychological Measurement， 64（6）， 916-924.

Publications， A. P. A.， on Journal， C. B. W. G.， & Standards， A. R.（2008）. Reporting standards for research in psychology： Why do we need them？ What might they be？ The American Psychologist， 63（9）， 839-851.

R Core Team.（2018）. R： A language and environment for statistical computing. R foundation for statistical computing. Vienna， Austria. Retrieved from https：//www.R-project. org/.

Rouder， J. N.， Morey， R. D.， Verhagen， J.， Province， J. M.， & Wagenmakers， E. J.（2016）. Is there a free lunch in inference？Topics in Cognitive Science， 8（3）， 520-547.

Ryan， R. S.， Wilde， M.， & Crist， S.（2013）. Compared to a small， supervised lab experiment， a large， unsupervised web-based experiment on a previously unknown effect has benefits that outweigh its potential costs. Computers in Human Behavior， 29（4）， 1295-1301.

Smithson， M. J.（2003）. Confidence Intervals. Thousand Oaks， CA： Sage.

Smithson， M. J.（2001）. Correct Confidence Intervals for Various Regression Effect Sizes and Parameters： The Importance of Noncentral Distributions in Computing Intervals. Educational & Psychological Measurement， 61（4）， 605-632.

Steiger， J. H.（2004）. Beyond the F test： Effect size confidence intervals and tests of close fit in the analysis of variance and contrast analysis. Psychological Methods， 9（2）， 164-182.

Steiger， J. H.， & Fouladi， R. T.（1997）. Noncentrality interval estimation and the evaluation of statistical models. In L. L. Harlow， S. A. Mulaik， & J. H. Steiger（Eds.）， What if there were no significance tests？（pp. 221-257）. Mahwah， NJ， USA： Lawrence Erlbaum Assoc Inc.

Wagenmakers， E. J.， Beek， T. F.， Rotteveel， M.， Gierholz， A.， Matzke， D.， Steingroever， H.， ... Gronau， Q. F.（2015）. Turning the hands of time again： a purely confirmatory replication study and a Bayesian analysis. Frontiers in Psychology， 6：494.

Wagenmakers， E. J.， Marsman， M.， Jamil， T.， Ly， A.， Verhagen， J.， Love， J.， ...Morey， R. D.（2018）. Bayesian inference for psychology. Part I： Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review， 25（1）， 35-57.

Wagenmakers， E. J.， Wetzels， R.， Borsboom， D.， & van der Maas， H. L. J.（2011）. Why psychologists must change the way they analyze their data： the case of psi： comment on Bem（2011）. Journal of Personality and Social Psychology， 100（3）， 426-432.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

效應(yīng)量置信區(qū)間的原理及其實(shí)現(xiàn)