王珺 宋瓊雅 許岳培 賈彬彬 胡傳鵬
摘?要?在心理學(xué)可重復(fù)危機(jī)的背景之下,報(bào)告效應(yīng)量及其置信區(qū)間正逐漸成為主流心理學(xué)界所要求的新標(biāo)準(zhǔn),但是研究者可能對效應(yīng)量的置信區(qū)間缺乏足夠的理解。為增強(qiáng)研究者對效應(yīng)量置信區(qū)間的理解及應(yīng)用,本文介紹了心理學(xué)研究中最常用的效應(yīng)量指標(biāo)——Cohen's d與η2——置信區(qū)間的基本原理,即在備擇假設(shè)(H1)為真時(shí),需要通過迭代估計(jì)的方式來估計(jì)相應(yīng)非中心分布的非中心分布參數(shù),從而構(gòu)建Cohen's d與η2的置信區(qū)間。其中Cohen's d對應(yīng)的是非中心t分布;而η2對應(yīng)的則是非中心F分布。使用現(xiàn)有的計(jì)算機(jī)程序,能夠?qū)ohen's d與η2的置信區(qū)間進(jìn)行計(jì)算,例如 R與JASP,本文對此進(jìn)行了分別展示。報(bào)告效應(yīng)量置信區(qū)間不僅有助于研究者更好地進(jìn)行統(tǒng)計(jì)推斷,也有利于整個(gè)科學(xué)界知識的積累,因此本文介紹的方法對研究者具有十分重要的意義。
關(guān)鍵詞?效應(yīng)量;置信區(qū)間;Cohen's d;Eta squared;R
分類號?B841.2
DOI: 10.16842/j.cnki.issn2095-5588.2019.05.003
1?引言
統(tǒng)計(jì)推斷是研究者根據(jù)數(shù)據(jù)進(jìn)行邏輯推導(dǎo)從而驗(yàn)證研究假設(shè)的必要手段。虛無假設(shè)顯著性檢驗(yàn)(null hypothesis significance test, NHST)是心理學(xué)研究中最為常用的統(tǒng)計(jì)推斷手段(Cumming et al., 2007)。但該方法以p值是否小于0.05作為決定統(tǒng)計(jì)顯著性的指標(biāo),間接導(dǎo)致了心理學(xué)研究的假陽性過高;且p值受抽樣樣本的影響較大,不適合作為重復(fù)研究或跨實(shí)驗(yàn)研究比較的統(tǒng)計(jì)指標(biāo)(胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平, 2016)。近年來,隨著對心理學(xué)研究可重復(fù)性的廣泛關(guān)注,NHST的局限性再次引起眾多學(xué)者的重視(Kline, 2004; Wagenmakers, Wetzels, Borsboom, & van der Maas, 2011)。為了彌補(bǔ)NHST的不足,新的統(tǒng)計(jì)方法開始逐漸被引入心理學(xué)研究,例如基于估計(jì)的統(tǒng)計(jì)(estimates-based statistics)(Cumming, 2012, 2014)、貝葉斯因子(胡傳鵬, 孔祥禎, Wagenmakers, Ly, 彭凱平, 2018; Wagenmakers et al., 2018)、似然性方法(Etz, 2018)。其中,基于估計(jì)的統(tǒng)計(jì)方法由于易于理解,且能夠彌補(bǔ)NHST的不足,被國內(nèi)外研究者推薦。該方法所強(qiáng)調(diào)的效應(yīng)量(effect size)及其置信區(qū)間(confidence intervals, CIs)正逐漸成為國際、國內(nèi)重要心理學(xué)期刊論文中必須報(bào)告的統(tǒng)計(jì)指標(biāo)(APA Publications Communications Board Working Group on Journal Article Reporting Standards, 2008; Appelbaum, Cooper, Kline, Mayo-Wilson, Nezu, & Rao, 2018; Cumming, 2014)。
盡管如此,相比“統(tǒng)治”了心理學(xué)數(shù)十年的NHST,效應(yīng)量及其置信區(qū)間在心理學(xué)研究中的使用仍十分有限,極少研究報(bào)告效應(yīng)量的置信區(qū)間(Fritz, Morris, & Richler, 2012)。國內(nèi)研究者雖對效應(yīng)量的概念進(jìn)行過不少的介紹(胡竹菁, 2010; 盧謝峰, 唐源鴻, 曾凡梅, 2011;鄭昊敏, 溫忠麟, 吳艷, 2011),但卻很少提及效應(yīng)量的置信區(qū)間。
值得注意的是,心理學(xué)專業(yè)研究人員、學(xué)生對置信區(qū)間仍有一定誤解(胡傳鵬等, 2016; Hoekstra, Morey, Rouder, & Wagenmakers, 2014)。例如,胡傳鵬等人(2016)針對國內(nèi)研究者對CI的理解情況進(jìn)行了調(diào)查。在該調(diào)查中,呈現(xiàn)一個(gè)假想的研究,其效應(yīng)的95%置信區(qū)間為[0.1, 0.4],受訪者需要判斷是否能夠根據(jù)這個(gè)置信區(qū)間推斷出如下6個(gè)陳述:A. 真實(shí)的均值大于0的可能性至少是95%;B. 真實(shí)的均值等于0的可能性小于5%;C. 真實(shí)的均值等于0的“零假設(shè)”很可能是不正確的;D. 真實(shí)的均值有95%的可能性在0.1和0.4之間;E. 我們有95%的信心認(rèn)為真實(shí)的均值在0.1和0.4之間;F. 如果我們重復(fù)該實(shí)驗(yàn),則95%的時(shí)候,真實(shí)的均值會在0.1和0.4之間。上述6個(gè)陳述均屬于對置信區(qū)間的誤解(Hoekstra et al., 2014),但是大部分受訪者或多或少將其判斷為正確解讀。(見圖1,數(shù)據(jù)來自Lyu, Peng, & Hu, 2018)。實(shí)際上,置信區(qū)間的正確解讀應(yīng)該是,如果不斷重復(fù)該實(shí)驗(yàn)并計(jì)算置信區(qū)間,在所有計(jì)算出來的置信區(qū)間中,約有95%的置信區(qū)間包含真實(shí)的均值。因此這里的[0.1,0.4]是理論上眾多置信區(qū)間中的一個(gè),其是否包括真值是未知的(Cumming, 2014)。
為加深研究者對效應(yīng)量及其置信區(qū)間的理解,同時(shí)便于研究者準(zhǔn)確計(jì)算和報(bào)告效應(yīng)量及其置信區(qū)間,本文首先介紹效應(yīng)量的置信區(qū)間及其優(yōu)勢,然后以兩種常用的效應(yīng)量(Cohen's d及Eta squared, η2)為例,介紹其置信區(qū)間的原理及如何在開源軟件(如R和JASP)中實(shí)現(xiàn)。但值得注意的是,本文提及的效應(yīng)量并不僅限于Cohen's d等標(biāo)準(zhǔn)化的效應(yīng)量指標(biāo)。根據(jù)Cumming(2014)的定義,效應(yīng)量是研究者感興趣的任何效應(yīng)的量。因此效應(yīng)量既可以是標(biāo)準(zhǔn)化的,也可以是未標(biāo)準(zhǔn)化的、帶有原始單位的。研究者應(yīng)根據(jù)實(shí)際情況,選擇報(bào)告那些能夠合理反映數(shù)據(jù)信息且易于解讀的效應(yīng)量。
2?報(bào)告效應(yīng)量及其置信區(qū)間的優(yōu)勢
與NHST中的p值相比,報(bào)告效應(yīng)量及其置信區(qū)間為結(jié)果提供了更詳細(xì)、更多元的信息。具體而言,報(bào)告效應(yīng)量及其置信區(qū)間有如下優(yōu)勢:
第一,能夠比較不同實(shí)驗(yàn)之間的誤差大小。假如研究者進(jìn)行了三個(gè)實(shí)驗(yàn),其效應(yīng)量及置信區(qū)間分別如圖2所示。如果根據(jù)傳統(tǒng)的NHST方法,研究者能夠得出的結(jié)論為:在實(shí)驗(yàn)1和實(shí)驗(yàn)3中,p<0.05,即兩組均值均與0有顯著差異;而實(shí)驗(yàn)2的p值大于0.05,即其均值與0沒有顯著差異。在這種情況下,研究者根據(jù)實(shí)驗(yàn)1和實(shí)驗(yàn)3得出的結(jié)論幾乎是相同的。至于兩組均值的差異到底有多大?數(shù)據(jù)的抽樣誤差如何?三組數(shù)據(jù)哪一組能為假設(shè)提供最可靠的證據(jù)?p值無法給出答案。
在傳統(tǒng)的報(bào)告規(guī)范中,研究者通常利用未經(jīng)標(biāo)準(zhǔn)化的點(diǎn)估計(jì)指標(biāo)(例如:均值)及標(biāo)準(zhǔn)誤來彌補(bǔ)上述不足,同樣的報(bào)告效應(yīng)量(此處為均值差)及其置信區(qū)間則能夠達(dá)到相同目的。根據(jù)圖2可知,實(shí)驗(yàn)1與實(shí)驗(yàn)3雖然均顯著,但是相對而言,實(shí)驗(yàn)1的效應(yīng)量較小、變異也較小,實(shí)驗(yàn)3則效應(yīng)量較大,變異也較大。由于對效應(yīng)量及其置信區(qū)間的分析,研究者對實(shí)驗(yàn)1和實(shí)驗(yàn)3的結(jié)論就會有所區(qū)別。
第二,效應(yīng)量及其置信區(qū)間能幫助研究者得出正確的結(jié)論。在僅參考效應(yīng)量及置信區(qū)間的情況下,大部分研究者能夠在比較不同研究的結(jié)果時(shí)得出符合邏輯的結(jié)論;但僅憑NHST和效應(yīng)量時(shí), 能夠得出正確結(jié)論的人數(shù)減少(Coulson, Healey, Fidler, & Cumming, 2010; Lyu et al., 2018)。相比NHST的二分思想,報(bào)告效應(yīng)量及其置信區(qū)間將研究者引向一種“估計(jì)”“定量”的取向(Cumming & Fidler, 2009)。在這種思維取向下,研究者也更傾向于提出量化的問題。仍以圖2為例,實(shí)驗(yàn)2的結(jié)果雖然不顯著,但是從效應(yīng)量及其置信區(qū)間上來看,該實(shí)驗(yàn)的趨勢與實(shí)驗(yàn)1和實(shí)驗(yàn)3是相同的。這也使得研究者對研究產(chǎn)生進(jìn)一步深化的思考。例如,是否是實(shí)驗(yàn)2中數(shù)據(jù)的“噪音”過大導(dǎo)致了不顯著的結(jié)果?
第三,可以展現(xiàn)關(guān)于研究更豐富的信息。在圖2中,實(shí)驗(yàn)1的效應(yīng)量其實(shí)很小,換言之實(shí)驗(yàn)1中的兩組實(shí)際差異可能不大。但是也許由于實(shí)驗(yàn)抽樣誤差小、樣本量較大,實(shí)驗(yàn)1的置信區(qū)間很窄,研究者可以在很高的置信水平上得到差異顯著的結(jié)論。這就是統(tǒng)計(jì)顯著性與實(shí)際顯著性不相稱的實(shí)例。與之相反,對于實(shí)驗(yàn)2,雖然其置信區(qū)間包含0,但其效應(yīng)量的點(diǎn)估計(jì)值卻是最高的,由此可見在實(shí)驗(yàn)2數(shù)據(jù)的“噪音”過大,導(dǎo)致了其數(shù)據(jù)變異過大、置信區(qū)間過寬。實(shí)驗(yàn)3的結(jié)果則較為理想,其效應(yīng)量及其置信區(qū)間都在較為合理的水平。
第四,由于效應(yīng)量從理論上講不依賴于樣本的大?。ūR謝峰等, 2011),相比依賴樣本的p值,它更適用于跨實(shí)驗(yàn)的綜合分析及元分析研究中。從頻率主義統(tǒng)計(jì)的角度來講,任何一個(gè)單獨(dú)的研究可以看作是進(jìn)行一次獨(dú)立的抽樣并對總體的參數(shù)進(jìn)行一次估計(jì),因此單個(gè)的研究很可能是片面的,但通過多個(gè)研究的數(shù)據(jù)積累,研究者可以通過元分析(meta-analysis)對總體進(jìn)行更加精確地估計(jì)。元分析不僅能擴(kuò)大樣本量,提高統(tǒng)計(jì)檢驗(yàn)力,還可以縮小置信區(qū)間的范圍, 使得對總體效應(yīng)量的估計(jì)更加精確(Cumming, 2012)。相比p值,效應(yīng)量及其置信區(qū)間的研究更便于進(jìn)行元分析統(tǒng)計(jì),且定量報(bào)告效應(yīng)量及其置信區(qū)間的過程本身也蘊(yùn)含了元分析思想。
正是由于效應(yīng)量與置信區(qū)間的優(yōu)勢,其得到了研究者的廣泛推薦。在美國心理學(xué)會(American Psychological Association, APA)出版手冊(第六版)中,推薦了報(bào)告效應(yīng)量及其置信區(qū)間。而在2018年《美國心理學(xué)家》(American Psychologist)所介紹的期刊報(bào)告標(biāo)準(zhǔn)中,也推薦報(bào)告效應(yīng)量及其置信區(qū)間(Appelbaum et al., 2018)。
總之,在當(dāng)前的研究中,雖然報(bào)告效應(yīng)量及其置信區(qū)間得到了廣泛的支持,但是效應(yīng)量的置信區(qū)間卻應(yīng)用較少(Fritz et al., 2012)。一個(gè)主要的原因可能在于研究者都對效應(yīng)量的置信區(qū)間知之不多,而且缺乏相應(yīng)的工具進(jìn)行實(shí)現(xiàn)(例如心理學(xué)常用的統(tǒng)計(jì)軟件SPSS并沒有常用效應(yīng)量指標(biāo)的置信區(qū)間輸出)。為了解決這個(gè)問題,接下來,本文將以Cohen's d和Eta squared(η2)為例,介紹其置信區(qū)間的原理與計(jì)算公式,并展示如何使用開源的軟件來實(shí)現(xiàn)置信區(qū)間的計(jì)算。
3?標(biāo)準(zhǔn)化的差異量(Cohen's d)
Cohen最早對d的定義是以總體的標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)化單位,然而在實(shí)際研究中總體的標(biāo)準(zhǔn)差常常是未知的,因此更常見的做法是使用樣本的標(biāo)準(zhǔn)差作為標(biāo)準(zhǔn)化單位(后文以樣本標(biāo)準(zhǔn)差s為單位進(jìn)行描述)。Cohen's d的原理即為樣本的均值和虛無假設(shè)(H0)的均值差異除以標(biāo)準(zhǔn)差的比值:
其中,s表示樣本的標(biāo)準(zhǔn)差,μ表示我們希望用來測量d的參考值。Cohen's d就可以簡單理解為樣本均值與參考值μ之間相差幾個(gè)標(biāo)準(zhǔn)差s。不過,對比不同的研究目的,關(guān)于Cohen's d的計(jì)算公式有多種形式,具體可以參考Cumming(2014), Hedges(1981)和Lakens(2013)。
3.1?Cohen's d置信區(qū)間的原理
要理解Cohen's d的置信區(qū)間,首先需要理解t值在虛無假設(shè)(null hypothesis,H0)為真(即沒有效應(yīng))和備擇假設(shè)(alternative hypothesis,H1)為真這兩種情況下的分布。假設(shè)從一個(gè)正態(tài)分布(N(μ,δ))中隨機(jī)抽取無數(shù)個(gè)樣本量為N的樣本。對于其中的一個(gè)樣本,其均數(shù)為M,標(biāo)準(zhǔn)差為s。如果想檢驗(yàn)這個(gè)樣本是否屬于標(biāo)準(zhǔn)正態(tài)分布的總體,在NHST的框架下,我們可以基于虛無假設(shè)H0: μ=μ0進(jìn)行單樣本t檢驗(yàn),可以通過如下公式計(jì)算t值:
在虛無假設(shè)為真的情況下,假如我們無數(shù)次進(jìn)行抽取樣本量為N的樣本并進(jìn)行t檢驗(yàn),那么這些t值會形成一個(gè)自由度df=(N-1)的t分布。在這種情況下,t分布是以0為中心,兩邊對稱的分布。此時(shí),我們也可以將t檢驗(yàn)的統(tǒng)計(jì)量看作是M與μ之間以s/N(標(biāo)準(zhǔn)誤)為單位的距離。對于每一個(gè)樣本,我們都可以使用t分布表計(jì)算p值,并進(jìn)行假設(shè)檢驗(yàn)。
但是,如果虛無假設(shè)(H0)不為真,那么備擇假設(shè)(H1)即為真,即μ=μ1(μ1≠μ0)。在這種情況下,我們實(shí)際上是從均值為μ1的總體中進(jìn)行抽樣,那么無數(shù)次抽取樣本量為N的樣本而計(jì)算出來的均值M就會更加接近μ1而非μ0。如果仍用上面的公式進(jìn)行t檢驗(yàn),那么無數(shù)次計(jì)算到的t值不再是以0為中心兩側(cè)對稱的t分布,而是中心不在零點(diǎn)的偏態(tài)的非中心t分布。對于這樣一個(gè)非中心t分布,其參數(shù)除了自由度(df)外,還包括一個(gè)非中心參數(shù)Δ(讀為:delta),Δ可以看作是μ0和μ1之間以標(biāo)準(zhǔn)誤為單位的距離。在其他條件相同的情況下,Δ值越大,說明這個(gè)非中心t分布的中心越偏離0(如圖3所示,其中非中心參數(shù)ncp表示R軟件中Δ的取值)。
將公式(3.1)和公式(3.2)結(jié)合,可以得出
公式(3.1)說明d表示M與μ之間以s(即標(biāo)準(zhǔn)差)為單位的距離;公式(3.2)說明t表示M與μ之間以s/N(即標(biāo)準(zhǔn)誤)為單位的距離。公式(3.3)則表明,Cohen's d與t值有一一對應(yīng)關(guān)系。因此,Cohen's d的抽樣分布也是非中心t分布,在計(jì)算Cohen's d的置信區(qū)間時(shí)需要用到非中心t分布。
由于t值在備擇假設(shè)(H1)為真時(shí)為非中心t分布,這種情況下d也是一個(gè)非中心t分布。也就是說d的置信區(qū)間是一個(gè)非對稱的區(qū)間,上下限到中心的距離不一致,所以我們需要用迭代估計(jì)(iterative approximations)的方法來構(gòu)建d的置信區(qū)間。我們可以結(jié)合下圖來詳細(xì)說明。
假如有一個(gè)總體效應(yīng)為Cohen's d=1.21,需要構(gòu)建其95%的置信區(qū)間(如圖4所示)。也就是說,如果無數(shù)次構(gòu)建這樣的區(qū)間,約有95%的區(qū)間包含1.21。那么,以區(qū)間的下限dL為中心時(shí),d的抽樣分布拒絕dL而選擇真值的概率為 2.5%(x軸上1.21右側(cè)的陰影部分);同時(shí),對于以置信區(qū)間上限dU為中心時(shí),d的抽樣分布拒絕dU而選擇真值的概率同樣為2.5%(x軸上1.21左側(cè)的陰影部分)。這就意味著,區(qū)間的上限和下限為中心的分布包含真值的可能性之和正好為5%;而將區(qū)間下限或者上限向中心移動時(shí),包含真值的可能性變大。同理,如果需要估計(jì)99%置信區(qū)間的范圍,相比于95%的置信區(qū)間,區(qū)間的上限和下限會更遠(yuǎn)離中心,區(qū)間的上限和下限為中心的分布包含真值的可能性之和為1%,那么x軸上陰影部分應(yīng)該是0.005。
Exploratory Software for Confidence Intervals(ESCI)是由Geoff Cumming 設(shè)計(jì)開發(fā)的一系列Excel文件,可以僅僅依托我們常用的Microsoft Excel軟件完成復(fù)雜的統(tǒng)計(jì)計(jì)算,這其中包括效應(yīng)量Cohen's d及其置信區(qū)間(Cumming, 2001)。使用ESCI可以更加直觀地理解區(qū)間上限與下限與d值的關(guān)系。在ESCI中,將以區(qū)間下限dL為中心的分布往左移動,dL就會變小,該分布右側(cè)超過真值的區(qū)域也會變小;這意味著真值所對應(yīng)的p值也會變小,那么能夠拒絕dL選擇真值的概率就會變小。同樣的,如果將以區(qū)間下限dL為中心的分布往右移動,那么dL值就會變大,該分布右側(cè)超過真值的區(qū)域就會變大,那么能夠拒絕dL選擇真值的概率就會變大。為了能得到一個(gè)準(zhǔn)確的95%的置信區(qū)間,我們需要移動以dL為中心的分布使得它右側(cè)超過d值的區(qū)域?yàn)?.025,同時(shí)移動以dU為中心的分布,使得其左側(cè)超d值的區(qū)域也為0.025。這樣得到的dL和dU就是我們需要的置信區(qū)間的上下限。
因?yàn)檫@兩個(gè)曲線都是非中心t分布,所以我們可以改變d值來調(diào)整曲線向左右滑動。這種不斷地調(diào)整以達(dá)到我們需要的區(qū)間的方法,即為迭代估計(jì)。簡單來說就是在保持自由度不變的情況,通過代入不同的非中心參數(shù)Δ(在一些研究中也會寫作δ)進(jìn)行相應(yīng)的計(jì)算,并進(jìn)行下一步的調(diào)整。在計(jì)算置信區(qū)間時(shí),不斷地調(diào)整Δ,從而不斷調(diào)整非中心t分布的位置,使得我們得到的在曲線上的臨界值正好在0.025和0.975的雙尾范圍之間,這樣我們就得到了Cohen's d的置信區(qū)間。那么,我們應(yīng)該如何確定分別以置信區(qū)間上限和下限為中心的分布的非中心參數(shù)呢?
對于單樣本的研究,非中心參數(shù)Δ的計(jì)算公式為
關(guān)于Cohen's d置信區(qū)間的原理,更多細(xì)節(jié)可參考Cumming(2012) 第11章。
3.2?實(shí)例與軟件分析
在研究實(shí)踐中,研究者不需要自己進(jìn)行迭代來估計(jì)Cohen's d的置信區(qū)間。目前,R語言(R Core Team, 2018)中有不少成熟的工具包可以用于計(jì)算Cohen's d的置信區(qū)間。而JASP是基于R所開發(fā)的用戶界面友好的軟件可以進(jìn)行傳統(tǒng)的統(tǒng)計(jì)分析和貝葉斯因子分析(胡傳鵬等, 2018;
Wagenmakers et al., 2015),也可以實(shí)現(xiàn)Cohen's d的置信區(qū)間的計(jì)算。(關(guān)于SPSS中計(jì)算Cohen's d置信區(qū)間的插件,見:http://dl.dropbox.com/u/1857674/CIstuff/CI.html; 基于Microsoft Excel所開發(fā)的ESCI計(jì)算Cohen's d置信區(qū)間, 見: https://thenewstatistics.com/itns/esci。)
我們將使用JASP示例數(shù)據(jù)“Kitchen Rolls”(具體數(shù)據(jù),見:https://osf.io/q9387/) 進(jìn)行說明。Topolinski和Sparenberg(2012)發(fā)現(xiàn),轉(zhuǎn)動紙卷的方向能夠改變個(gè)體在人格量表上開放性的得分,Wagenmakers等(2015)對此實(shí)驗(yàn)進(jìn)行重復(fù)實(shí)驗(yàn),這里使用的數(shù)據(jù)即為Wagenmakers等(2015)的重復(fù)實(shí)驗(yàn)數(shù)據(jù)。該示例數(shù)據(jù)包含兩組被試在人格量表中關(guān)于開放性的得分,其中一組被試在填寫問卷時(shí)順時(shí)針旋轉(zhuǎn)桌面上的紙卷,而另一組則逆時(shí)針旋轉(zhuǎn)。數(shù)據(jù)分析中,NEO PI-R的平均得分作為因變量,被試的分組(順時(shí)針或逆時(shí)針)為自變量,采用獨(dú)立樣本t檢驗(yàn)進(jìn)行數(shù)據(jù)分析。
3.2.1?使用JASP計(jì)算Cohen's d的置信區(qū)間
將樣例數(shù)據(jù)使用JASP打開后,選擇T-Tests → Independent Samples T-Test, 得到如下界面。根據(jù)要求將需要統(tǒng)計(jì)的變量導(dǎo)入對應(yīng)變量框中(與SPSS類似),在下方界面點(diǎn)選需要進(jìn)行的統(tǒng)計(jì)操作,其中在Additional Statistics下可以勾選Effect Size和Confidence interval的選項(xiàng),根據(jù)公式(3.5)-(3.8)計(jì)算結(jié)果即為效應(yīng)量Cohen's d及其置信區(qū)間。
結(jié)果顯示因變量滿足正態(tài)分布和方差齊性假設(shè),因此選擇Student t test進(jìn)行分析。結(jié)果顯示兩組的NEO PI-R的平均得分沒有顯著差異(t(100)=0.754,p=0.453),Cohen's d=0.149, 95% CI=[-0.240, 0.538]。
3.2.2?使用R計(jì)算Cohen's d的置信區(qū)間
R語言中有多個(gè)工具包可以完成獨(dú)立樣本t檢驗(yàn),如car和MBESS。假如我們使用car工具包上的t.test函數(shù),得到兩組被試在NEO PI-R的平均得分沒有顯著差異,t(100)=0.754,p=0.453(當(dāng)然,也可以使用JASP或者SPSS得到t值與p值)。在得到t值之后,則可通過使用如下命令來計(jì)算Cohen's d的置信區(qū)間,R代碼如下:
library(“MBESS”) # 打開MBESS工具包
#定義相關(guān)參數(shù)并計(jì)算Cohen's d的95%置信區(qū)間
MBESS:: ci.smd(ncp=0.75361, n.1=48, n.2=54, conf.level=0.95)
其中ncp(非中心參數(shù))是t值,n.1和n.2代表兩組的樣本量,MBESS采用公式(3.5)-(3.8)通過運(yùn)行程序可以獲得結(jié)果。
3.3?結(jié)果報(bào)告與解釋
如上所示,使用兩種不同的軟件對于順時(shí)針旋轉(zhuǎn)組的被試與逆時(shí)針旋轉(zhuǎn)組的被試的人格量表得分差異進(jìn)行估計(jì),并且得到了95%的置信區(qū)間。輸出的結(jié)果都表明,兩組被試的NEO PI-R的平均得分沒有顯著差異,對于效應(yīng)量及其95%的置信區(qū)間的估計(jì)也是相同的——效應(yīng)量d為0.149,其95%置信區(qū)間為[-0.240, 0.538]?;谶@些結(jié)果,我們可以得到的結(jié)論:目前的數(shù)據(jù)無法拒絕零假設(shè),即無法推斷出被試進(jìn)行順時(shí)針旋轉(zhuǎn)或者逆時(shí)針旋轉(zhuǎn)對于NEO PI-R的得分存在顯著影響的。(注意,這里p>0.05及Cohen's d的置信區(qū)間包含0均無法得到零假設(shè)為真的結(jié)論,即無法使用p值來支持兩組沒有差異的結(jié)論,因?yàn)閜值的計(jì)算是以零假設(shè)為真作為前提條件的。要為零假設(shè)為真這個(gè)結(jié)論提供證據(jù),需要借助其他的統(tǒng)計(jì)手段。)
4?方差分析中效應(yīng)量及其置信區(qū)間
心理學(xué)研究中另一個(gè)最為常見的效應(yīng)量指標(biāo)是方差分析(analysis of variance, ANOVA)中的Eta-squared(η2)(Fritz et al., 2012),其最早由Pearson(1905)提出,可以理解為單個(gè)或者多個(gè)因素(交互作用)引起的變異在總變異中所占的比例(Cohen & Cohen, 2010)。η2的計(jì)算公式如下:
非常值得注意的是,SPSS輸出的效應(yīng)量指標(biāo)ηp2在心理學(xué)研究中應(yīng)用廣泛,但是意義與η2不完全相同并且容易引起誤解。例如有研究指出很多研究者很容易混淆η2和ηp2,這種混淆可能會造成一些比較嚴(yán)重的后果,如在元分析(meta-analysis)中如果錯(cuò)誤的使用ηp2代替η2,會使得元分析結(jié)果出現(xiàn)嚴(yán)重的偏差(Levine & Hullett, 2002)。此外誤用η2和ηp2對理論的建構(gòu)也十分不利(Pierce, Block, & Aguinis, 2004)。因此報(bào)告ηp2的時(shí)候一定要注明報(bào)告的是哪個(gè)指標(biāo)(對論文中η2與ηp2不明確情況下,可對各個(gè)影響因素的效應(yīng)量相加,一般結(jié)果等于1的情況下是η2 ,如果結(jié)果大于1,則是ηp2)。另外在樣本量比較小的時(shí)候(自變量和樣本的比值小于1∶10),ω2則成為研究者更為推薦報(bào)告的效應(yīng)量指標(biāo)(盧謝峰等, 2011)。當(dāng)然與ω2類似的效應(yīng)量統(tǒng)計(jì)指標(biāo)還有ε2(詳見Maxwell & Delaney, 2018)。下面結(jié)合公式4.1主要對η2置信區(qū)間計(jì)算進(jìn)行說明。
4.1?η2置信區(qū)間計(jì)算的原理
要理解η2的置信區(qū)間,同樣需要理解與其相關(guān)參數(shù)有關(guān)的非中心性分布。在這里,η2置信區(qū)間的建構(gòu)需要方差分析中F值的分布以及方差分析中另一個(gè)效應(yīng)量指標(biāo)Cohen's f。以最簡單的單因素被試間設(shè)計(jì)方差分析為例,其總體變異可以被分解成為組間變異和組內(nèi)變異:
這是一個(gè)自由度為k-1的χ2分布,且這個(gè)χ2分布是中心性的(注意,這里的中心性并非指的是該分布是中心對稱,而是說其是從中心對稱的分布中抽出來的數(shù)據(jù)的平方和的分布)。對照之前方差分析中F值的計(jì)算公式,如果將分子和分母同時(shí)除以σ2between(處理引起的變異)和σ2error(誤差引起的變異)(在ANOVA的H0為真的情況下,假設(shè)處理變異同誤差引起的變異相同即σ2between=σ2error,所以在公式中相互抵消了),則F值(F(df1,df2),以下簡寫為F)的分子和分母分別對應(yīng)一個(gè)χ2分布。
在ANOVA中,由虛無假設(shè)為組間均數(shù)相等,實(shí)驗(yàn)誤差服從正態(tài)分布N(0,σerror)可知,此時(shí)的分子分母對應(yīng)的χ2分布是中心性。在此類情況下,F(xiàn)分布也呈中心性。
當(dāng)虛無假設(shè)為假時(shí),組間均數(shù)不相等,分子對應(yīng)的χ2分布呈非中心性,分母作為實(shí)驗(yàn)誤差對應(yīng)的分布還是中心性的χ2分布。此時(shí)的F分布也變成了非中心性的,可以表示為F(df1,df2, δ)。實(shí)際上,中心分布是非中心分布的特殊情況。非中心參數(shù)ncp決定了分布的具體形態(tài),例如中心F(2, 52, ncp=0)分布(更高的曲線)和非中心F(2, 52, ncp=1)分布(更矮的曲線),如下圖所示。
計(jì)算效應(yīng)量的前提就是承認(rèn)H0為假(組間均數(shù)不相等),其對應(yīng)的F分布是非中心分布。如果計(jì)算η2的置信區(qū)間是基于非中心F分布,則其區(qū)間估計(jì)的上下限過程中,存在與Cohen's d置信區(qū)間估計(jì)過程中同樣的問題:在置信區(qū)間的上限與下限位置的F分布的非中心參數(shù)不相同。因此,對于η2的置信區(qū)間的估計(jì),同樣需要使用反演原理(inversion confidence interval principle)(Steiger & Fouladi, 1997)。
我們通過三個(gè)階段得到置信區(qū)間:統(tǒng)計(jì)檢驗(yàn)→非中心參數(shù)→效應(yīng)量統(tǒng)計(jì)。首先我們需要建立統(tǒng)計(jì)檢驗(yàn)值(方差分析下的F值)和非中心參數(shù)以及效應(yīng)量η2之間的關(guān)系。由公式4.3可得,因此,可以推出
當(dāng)虛無假設(shè)為假時(shí),F(xiàn)(df1,df2)的非中心參數(shù)的估計(jì)值δ(非中心參數(shù)的符號表達(dá)方式可能會有不同,常用的符號包括δ、λ)的計(jì)算公式如下(Smithson, 2001):
結(jié)合公式(4.5),我們得到非中心參數(shù)的估計(jì):
至此我們建立起了統(tǒng)計(jì)值F和非中心參數(shù)之間的關(guān)系。再綜合公式(4.2),(4.3)和(4.7),可以推斷出η2和f2與非中心參數(shù)δ的關(guān)系如下:
至此,我們得到了η2與F值、F分布的非中心參數(shù)之間的關(guān)系。接下來,我們就可以使用置信區(qū)間反演原理來計(jì)算η2的置信區(qū)間。假設(shè)給定我們一個(gè)樣本F(5,194),我們需要構(gòu)建一個(gè)100(1-α)%(α=0.05)的雙側(cè)的置信區(qū)間(如圖7所示)。
下限對應(yīng)F(5,194)右側(cè)的α/2處,上限對應(yīng)F(5,194)左側(cè)的α/2處。在得到與上下限對應(yīng)的非中心參數(shù)δ后,我們可以將其轉(zhuǎn)換為η2的置信區(qū)間,轉(zhuǎn)換公式如下:
這樣我們就完成了對η2的置信區(qū)間的估計(jì)。
值得注意的是,對ANOVA效應(yīng)量置信區(qū)間的計(jì)算,通常報(bào)告90%的置信區(qū)間即可。原因在于均值之間的差異可以是正值也可以是負(fù)值,但是由于η2或R2是平方值,所以只有正值。計(jì)算95%的置信區(qū)間時(shí),可能會得到包含0的置信區(qū)間,但此時(shí)p值可能小于0.05,此時(shí)置信區(qū)間的結(jié)果與p值出現(xiàn)了矛盾(見Karl Wuensch的解釋:http://core.ecu.edu/psyc/wuenschk/spss/spss-programs.htm)。而且Steiger(2004)指出均值比較的95%置信區(qū)間和90%置信區(qū)間得到的檢驗(yàn)效力是一樣的,并且η2不可能小于0,所以與0不存在顯著差異的置信區(qū)間(通常情況下不包含0)的下限至少要從0開始(Steiger, 2004)。
4.2?η2及其置信區(qū)間在R上的實(shí)現(xiàn)
同樣,我們將采用由JASP提供的樣例數(shù)據(jù)來演示如何使用R計(jì)算η2的90%CI。該數(shù)據(jù)名為Tooth Growth和Bugs,分別用來展示被試間設(shè)計(jì)和被試內(nèi)設(shè)計(jì)方差分析中η2及其CI的實(shí)現(xiàn)(在SPSS上如何實(shí)現(xiàn), 見: http://core.ecu.edu/psyc/wuenschk/spss/spss-programs.htm)。
4.2.1?被試間設(shè)計(jì)η2及其置信區(qū)間在R上的實(shí)現(xiàn)
Tooth Growth數(shù)據(jù)來自兩因素完全隨機(jī)設(shè)計(jì),60只豚鼠被隨機(jī)分配到6種處理?xiàng)l件下,用以研究不同類型的營養(yǎng)品(維生素C即VC和橙汁OJ)在不同抗壞血酸劑量條件下(0.5mg、1mg和2mg)對豚鼠牙齒生長的影響,因變量選取的是豚鼠牙齒的長度。
首先使用統(tǒng)計(jì)軟件獲得計(jì)算置信區(qū)間所需的統(tǒng)計(jì)值。這里你可以使用R中自帶的函數(shù)aov或者一些帶統(tǒng)計(jì)功能的工具包(如ez、car等等),這里需要注意的是用R進(jìn)行方差分析時(shí),不同的工具包或者函數(shù)使用的平方和類型會有所不同,例如aov函數(shù)進(jìn)行計(jì)算的時(shí)候默認(rèn)使用的是Type I SS(sun of square),ezANOVA默認(rèn)使用的是Type II SS(可以在R中使用type對平方和類型進(jìn)行調(diào)整,詳見https://cran.r-project.org/web/packages/ez/ez.pdf),而SPSS在進(jìn)行方差分析計(jì)算的時(shí)候默認(rèn)的是Type III SS(可以在SPSS中模型選項(xiàng)進(jìn)行調(diào)整)。當(dāng)數(shù)據(jù)不同組間的被試量相同時(shí),不同類型平方和計(jì)算結(jié)果出現(xiàn)的差異不大,但是當(dāng)數(shù)據(jù)不平衡的時(shí)候,則要謹(jǐn)慎考慮平方和類型,因?yàn)椴煌钠椒胶皖愋蜁聿煌慕y(tǒng)計(jì)結(jié)果(可參考Langsrud, 2003)。當(dāng)然更為便捷的辦法是應(yīng)用JASP直接進(jìn)行統(tǒng)計(jì)分析并獲得相應(yīng)的統(tǒng)計(jì)值。例如對于以上數(shù)據(jù),可得F(2,54)=92,隨后在R中下載并打開MBESS工具包,輸入相關(guān)的統(tǒng)計(jì)值進(jìn)行置信區(qū)間的計(jì)算,R中的命令如下:
library(“MBESS”) # 打開MBESS工具包
ci.pvaf(F.value=92,df.1=2,df..2=54,N=60,conf.level=0.90) # 輸入F值、自由度計(jì)算對應(yīng)的90%置信區(qū)間
4.2.2?被試內(nèi)設(shè)計(jì)η2及其置信區(qū)間在R上的實(shí)現(xiàn)
Bugs數(shù)據(jù)來自兩因素混合設(shè)計(jì),用以研究不同性別(男、女)人群對于不同類型(不嚇人不惡心、不嚇人很惡心、很嚇人不惡心和很嚇人很惡心)蟲子圖片的敵意指數(shù),并采用10點(diǎn)評分表明想要?dú)⑺阑蛘唑?qū)趕蟲子的程度(Ryan, Wilde, & Crist, 2013)。通過JASP, 我們可以得到F(2.64, 224.48)(注意被試內(nèi)設(shè)計(jì)數(shù)據(jù)在違背球形假設(shè)的情況下使用校正后的自由度),然后在R中使用如下命令得到置信區(qū)間:
# 打開MBESS工具包
library(“MBESS”)
# 輸入F值及自由度
Lims<-conf.limits.ncf(F.value=20.14,conf.level=0.90,df.1=2.64,df.2=224.48)
# 計(jì)算90%置信區(qū)間的下限
Lower.lim<-LimsMYMLower.Limit/(LimsMYM Lower.Limit+df.1+df.2+1)
# 計(jì)算 90%置信區(qū)間的上限
Upper.lim<-LimsMYMUpper.Limit/(LimsMYMUpper.Limit+df.1+df.2+1)
4.3?結(jié)果報(bào)告與解釋
對于η2及其置信區(qū)間的解釋主要參照η2的定義,也就是實(shí)驗(yàn)效應(yīng)引起的變異占總體變異的比例,因此η2的大小說明了在具體的實(shí)驗(yàn)研究中對于自變量操作的有效性。也就是說η2越大,相關(guān)變量之間的關(guān)系越緊密,當(dāng)然這種關(guān)系的屬性,即相關(guān)還是因果關(guān)系主要由實(shí)驗(yàn)設(shè)計(jì)的類型(如準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)設(shè)計(jì))決定。但是由于η2置信區(qū)間不可能小于0,這也就決定了對于η2的解釋不可能像前面提到的Cohen's d的置信區(qū)間一樣,把包含0的置信區(qū)間作為我們拒絕或者接受零假設(shè)的依據(jù)。而且方差分析的應(yīng)用作為一般線性模型下的特例,往往只是對涉及變量間關(guān)系檢驗(yàn)的第一步。因此我們一般把η2及其置信區(qū)間作為評價(jià)實(shí)驗(yàn)變量操控有效性的指標(biāo),接下來具體的組間比較才是研究者關(guān)注的重點(diǎn)(例如主效應(yīng)顯著后的多重比較、交互作用顯著后的簡單效應(yīng)分析),而在組間比較中可以再次使用如t檢驗(yàn)下的Cohen's d作為評價(jià)組間差異可靠性的效應(yīng)量指標(biāo)。
5?總結(jié)
近年來心理學(xué)中的可重復(fù)危機(jī)已經(jīng)對心理學(xué)界產(chǎn)生了深遠(yuǎn)的影響,而統(tǒng)計(jì)報(bào)告標(biāo)準(zhǔn)的變化,組成了期刊論文報(bào)告標(biāo)準(zhǔn)變化中非常重要的部分(劉宇等, 2018; Appelbaum et al., 2018; Levitt, Bamberg, Creswell, Frost, Josselson, & Suárez-Orozco, 2018)。Cohen's d與η2作為基于估計(jì)統(tǒng)計(jì)中兩個(gè)最常用的效應(yīng)量指標(biāo),對于研究者來說具有重要意義(Fritz et al., 2012)。本文解釋了這兩個(gè)效應(yīng)量置信區(qū)間的原理,并采用實(shí)例演示了如何在R與JASP中實(shí)現(xiàn)這兩種置信區(qū)間(所有演示數(shù)據(jù)與代碼,見:https://osf.io/4ameb/),可能對研究者具有一定的幫助。雖然本文未對另一個(gè)常見的效應(yīng)量指標(biāo)——相關(guān)系數(shù)的置信區(qū)間也進(jìn)行說明及演示,但是其計(jì)算與實(shí)現(xiàn)在JASP與R中均相對成熟,讀者可以參閱相關(guān)資料(更多關(guān)于置信區(qū)間的原理,可見Smithson, 2003)。
值得注意的是,任何一個(gè)統(tǒng)計(jì)方法均有其優(yōu)缺點(diǎn)(Rouder, Morey, Verhagen, Province, & Wagenmakers, 2016)。對于心理科學(xué)而言,任何新的統(tǒng)計(jì)方法都不足以解決可重復(fù)危機(jī)(胡傳鵬等, 2016; 劉佳, 霍涌泉, 陳文博, 解詩薇, 王靜, 2018)。對于研究者以及整個(gè)領(lǐng)域來說,最重要的是充分理解各個(gè)統(tǒng)計(jì)方法的前提及其不足,否則難以真正避免假陽性。本文所介紹的內(nèi)容,可能可以幫助研究者達(dá)到新報(bào)告標(biāo)準(zhǔn)的要求,在結(jié)果中提供更豐富的信息。
參考文獻(xiàn)
胡傳鵬, 孔祥禎, Wagenmakers, E. -J., Ly, A., 彭凱平(2018). 貝葉斯因子及其在JASP中的實(shí)現(xiàn). 心理科學(xué)進(jìn)展, 26(6), 951-965.
胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平(2016). 心理學(xué)研究中的可重復(fù)性問題:從危機(jī)到契機(jī). 心理科學(xué)進(jìn)展, 24(9), 1504-1518.
胡竹菁(2010). 平均數(shù)差異顯著性檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)力和效果大小的估計(jì)原理與方法. 心理學(xué)探新, 30(1), 68-73.
劉佳, 霍涌泉, 陳文博, 解詩薇, 王靜(2018). 心理學(xué)研究的可重復(fù)性“危機(jī)”: 一些積極應(yīng)對策略. 心理學(xué)探新, 38(1), 86-90.
劉宇, 陳樹銓, 樊富珉, 邸新, 范會勇, 封春亮, ...胡傳鵬(2018). 心理研究的元分析報(bào)告標(biāo)準(zhǔn):現(xiàn)狀與建議. ChinaXiv. Retrieved from http://www. chinaxiv. org/abs/201809. 00177
盧謝峰, 唐源鴻, 曾凡梅(2011). 效應(yīng)量:估計(jì)、報(bào)告和解釋. 心理學(xué)探新, 31(3), 260-264.
鄭昊敏, 溫忠麟, 吳艷(2011). 心理學(xué)常用效應(yīng)量的選用與分析. 心理科學(xué)進(jìn)展, 19(12), 1868-1878.
Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M.(2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 3-25.
Cohen, J.(1973). Eta-squared and partial eta-squared in fixed factor ANOVA designs. Educational & Psychological Measurement, 33(1), 107-112.
Cohen, J., & Cohen, P.(2010). Applied multiple regression/correlation analysis for the behavioral sciences. Journal of the Royal Statistical Society, 52(4), 691-691.
Coulson, M., Healey, M., Fidler, F., & Cumming, G.(2010). Confidence intervals permit, but don't guarantee, better inference than statistical significance testing. Frontiers in Psychology, 1:26.
Cumming, G.(2001). Project design and achieving educational change: from Statplay to ESCI. Melbourne: Biomedical Multimedia Unit, The University of Melbourne,
Cumming, G.(2012). Understanding the new statistics: effect sizes, confidence intervals, and meta-analysis. New York: Routledge.
Cumming, G.(2014). The New Statistics: Why and how. Psychological Science, 25(1), 7-29.
Cumming, G., & Fidler, F.(2009). Confidence intervals: Better answers to better questions. Zeitschrift für Psychologie/Journal of Psychology, 217(1), 15-26.
Cumming, G., Fidler, F., Leonard, M., Kalinowski, P., Christiansen, A., Kleinig, A., ...Wilson, S.(2007). Statistical reform in psychology: Is anything changing?Psychological Science, 18(3), 230-232.
Etz, A.(2018). Introduction to the concept of likelihood and its applications. Advances in Methods and Practices in Psychological Science, 1(1), 60-69.
Fritz, C. O., Morris, P. E., & Richler, J. J.(2012). Effect size estimates: current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141(1), 2-18.
Hedges, L. V.(1981). Distribution Theory for Glass's Estimator of Effect Size and Related Estimators. Journal of Educational Statistics, 6(2), 107-128.
Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E. J.(2014). Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, 21(5), 1157-1164.
Kline, R. B.(2004). Beyond significance testing: Reforming data analysis methods in behavioral research. Washington, DC: American Psychological Association.
Lakens, D.(2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4: 863.
Langsrud, .(2003). ANOVA for unbalanced data: Use Type II instead of Type III sums of squares. Statistics & Computing, 13(2), 163-167.
Levine, T. R., & Hullett, C. R.(2002). Eta Squared, Partial Eta Squared, and Misreporting of Effect Size in Communication Research. Human Communication Research, 28(4), 612-625.
Levitt, H. M., Bamberg, M., Creswell, J. W., Frost, D. M., Josselson, R., & Suárez-Orozco, C.(2018). Journal article reporting standards for qualitative primary, qualitative meta-analytic, and mixed methods research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 26-46.
Lyu, Z., Peng, K., & Hu, C. P.(2018). P-value, Confidence Intervals and Statistical Inference: A New Dataset of Misinterpretation. Frontiers in Psychology, 9:868.
Maxwell, S. E., & Delaney, H. D.(2018). Designing experiments and analyzing data: a model comparison perspective. New York: Routledge.
Pearson, K.(1905). Mathematical contributions to the theory of evolution: XIV. On the general theory of skew correlations and nonlinear regression(Draper's Company Research Memoirs, Biometric Series II). London: Dulau.
Pedhazur, E. J., & Kerlinger, F. N.(1973). Multiple regression in behavioral research: explanation and prediction. New York: Holt, Rinehart and Winston.
Pierce, C. A., Block, R. A., & Aguinis, H.(2004). Cautionary Note on Reporting Eta-Squared Values from Multifactor ANOVA Designs. Educational & Psychological Measurement, 64(6), 916-924.
Publications, A. P. A., on Journal, C. B. W. G., & Standards, A. R.(2008). Reporting standards for research in psychology: Why do we need them? What might they be? The American Psychologist, 63(9), 839-851.
R Core Team.(2018). R: A language and environment for statistical computing. R foundation for statistical computing. Vienna, Austria. Retrieved from https://www.R-project. org/.
Rouder, J. N., Morey, R. D., Verhagen, J., Province, J. M., & Wagenmakers, E. J.(2016). Is there a free lunch in inference?Topics in Cognitive Science, 8(3), 520-547.
Ryan, R. S., Wilde, M., & Crist, S.(2013). Compared to a small, supervised lab experiment, a large, unsupervised web-based experiment on a previously unknown effect has benefits that outweigh its potential costs. Computers in Human Behavior, 29(4), 1295-1301.
Smithson, M. J.(2003). Confidence Intervals. Thousand Oaks, CA: Sage.
Smithson, M. J.(2001). Correct Confidence Intervals for Various Regression Effect Sizes and Parameters: The Importance of Noncentral Distributions in Computing Intervals. Educational & Psychological Measurement, 61(4), 605-632.
Steiger, J. H.(2004). Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of variance and contrast analysis. Psychological Methods, 9(2), 164-182.
Steiger, J. H., & Fouladi, R. T.(1997). Noncentrality interval estimation and the evaluation of statistical models. In L. L. Harlow, S. A. Mulaik, & J. H. Steiger(Eds.), What if there were no significance tests?(pp. 221-257). Mahwah, NJ, USA: Lawrence Erlbaum Assoc Inc.
Wagenmakers, E. J., Beek, T. F., Rotteveel, M., Gierholz, A., Matzke, D., Steingroever, H., ... Gronau, Q. F.(2015). Turning the hands of time again: a purely confirmatory replication study and a Bayesian analysis. Frontiers in Psychology, 6:494.
Wagenmakers, E. J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., ...Morey, R. D.(2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 25(1), 35-57.
Wagenmakers, E. J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J.(2011). Why psychologists must change the way they analyze their data: the case of psi: comment on Bem(2011). Journal of Personality and Social Psychology, 100(3), 426-432.