国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

評(píng)估零效應(yīng)的三種統(tǒng)計(jì)方法

2022-07-28 09:43許岳培陸春雷宋瓊雅賈彬彬胡傳鵬
應(yīng)用心理學(xué) 2022年4期
關(guān)鍵詞:先驗(yàn)貝葉斯等價(jià)

許岳培 陸春雷 王 珺 宋瓊雅 賈彬彬 胡傳鵬

(1.中國科學(xué)院行為科學(xué)重點(diǎn)實(shí)驗(yàn)室(中國科學(xué)院心理研究所),北京 100101;2.中國科學(xué)院大學(xué)心理學(xué)系,北京 100049;3.浙江師范大學(xué)心理與腦科學(xué)研究院,金華 321004;4.中山大學(xué)心理學(xué)系,廣州 510006;5.上海體育學(xué)院心理學(xué)院,上海 200438;6.南京師范大學(xué)心理學(xué)院,南京 210024)

1 引 言

原假設(shè)顯著性檢驗(yàn)(Null hypothesis significance test,NHST,也翻譯為零假設(shè)顯著性檢驗(yàn)或者虛無假設(shè)顯著性檢驗(yàn))是目前使用最為廣泛的統(tǒng)計(jì)推斷方法。在NHST框架下,研究者通常在假定原假設(shè)(null hypothesis,H)為真的前提下,根據(jù)p 值是否小于預(yù)先設(shè)定的α(如:α=0.05)來決定是否拒絕原假設(shè)(Wasserstein&Lazar,2016)。若基于當(dāng)前數(shù)據(jù)計(jì)算得出的p 值小于預(yù)先設(shè)定的α,則認(rèn)為當(dāng)原假設(shè)為真時(shí),在一次抽樣中出現(xiàn)當(dāng)前結(jié)果(及更極端結(jié)果)的可能性非常小,那么研究者就有理由拒絕該原假設(shè)。由于NHST 的理論前提是假定原假設(shè)為真,這就意味著,p 值大于α 的結(jié)果(即統(tǒng)計(jì)意義上不顯著的結(jié)果)并不能作為支持原假設(shè)的證據(jù)(Greenland et al.,2016;Wasserstein&Lazar,2016)。因此,當(dāng)研究者將零效應(yīng)(nil effect,“效應(yīng)量為零”或者“效應(yīng)不存在”)作為原假設(shè)(這樣的原假設(shè)又稱零假設(shè),nil hypothesis) 時(shí),無法通過NHST 和p 值來評(píng)估零效應(yīng)。

實(shí)際研究中,研究者經(jīng)常需要評(píng)估零效應(yīng)(Linde,Tendeiro,Selker,Wagenmakers,&Ravenzwaaij,2020)。例如,研究者欲證實(shí)某干預(yù)方法的非劣性,即欲證實(shí)新興的、更為經(jīng)濟(jì)的治療方案相對(duì)于常規(guī)治療方案同樣有效。又如,在一些實(shí)驗(yàn)組/控制組匹配的研究設(shè)計(jì)中,研究者需要對(duì)無關(guān)變量進(jìn)行匹配(如:兩組被試的性別、年齡),即希望通過統(tǒng)計(jì)推斷得到“兩組被試來自同一總體”的結(jié)論。此外,許多理論會(huì)預(yù)測(cè)在某些情況下某效應(yīng)不存在,此時(shí)證實(shí)該特定情況下的零效應(yīng)可為這些理論提供支持。

另一類常見的情況是,研究者發(fā)現(xiàn)基于收集到的數(shù)據(jù)未能拒絕欲推翻的原假設(shè)(即意外的p>0.05 的結(jié)果),或是在進(jìn)行探索性研究(未有明確的研究假設(shè))時(shí)發(fā)現(xiàn)p>0.05 的結(jié)果。此時(shí),研究者要進(jìn)一步區(qū)分是“證據(jù)不足”(null of evidence,即由于統(tǒng)計(jì)效力低下等其他原因未能探測(cè)到本應(yīng)存在的效應(yīng))還是“效應(yīng)不存在”(evidence of null,即現(xiàn)有數(shù)據(jù)已經(jīng)能夠?yàn)樾?yīng)大小為零提供了足夠證據(jù)),同樣需要合理評(píng)估支持零效應(yīng)的證據(jù)強(qiáng)度(Harms & Lakens,2018)。

NHST 無法評(píng)估零效應(yīng)的局限導(dǎo)致其無法滿足實(shí)際研究的需要,而能夠有效評(píng)估零效應(yīng)的統(tǒng)計(jì)方法在心理學(xué)研究中仍鮮有提及(溫忠麟,方杰,沈嘉琦,譚倚天,李定欣,馬益銘,2021)。這就使得研究者在面對(duì)p>0.05 的結(jié)果時(shí),往往只是將不顯著結(jié)果進(jìn)行簡(jiǎn)單的報(bào)告,而無法運(yùn)用合理的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)推斷。Aczel 等人(2018)的研究發(fā)現(xiàn)在國際知名心理學(xué)期刊上發(fā)表的137 篇提及不顯著結(jié)果的文章中,僅有10.2%的文章利用貝葉斯分析對(duì)不顯著結(jié)果進(jìn)行了統(tǒng)計(jì)推斷;而王珺等(2021)分析了2017 和2018 年發(fā)表在中國心理學(xué)核心期刊上的500 篇文獻(xiàn)后,發(fā)現(xiàn)其中有180篇在摘要中提及了不顯著結(jié)果,但無一運(yùn)用了除NHST 之外的方法對(duì)不顯著結(jié)果進(jìn)行解讀或推斷。這一定程度上表明,大部分國內(nèi)研究者較少了解能夠支持零假設(shè)的方法(王珺等,2021)。而忽視對(duì)不顯著結(jié)果的進(jìn)一步分析或錯(cuò)誤地認(rèn)為所有的不顯著結(jié)果都沒有發(fā)表價(jià)值,會(huì)進(jìn)一步加深發(fā)表偏見(胡傳鵬,王非,過繼成思,宋夢(mèng)迪,隋潔,彭 凱 平,2016;Forstmeier,Wagenmakers,&Parker,2017)。

對(duì)評(píng)估零假設(shè)的統(tǒng)計(jì)方法缺乏了解還間接導(dǎo)致研究者錯(cuò)誤地解讀不顯著結(jié)果。許多研究表明心理學(xué)專業(yè)學(xué)生或心理學(xué)領(lǐng)域的研究者將p 值誤解為原假設(shè)為真的概率,錯(cuò)誤地將NHST 中不顯著結(jié)果作為“支持零效應(yīng)”的證據(jù)(Amrhein,Greenland,&McShane,2019;Gigerenzer,2004,2018;Greenland et al.,2016;X. Lyu,Xu,Zhao,Zuo,& Hu,2020;Z. Lyu,Peng,& Hu,2018)。例如:呂小康等的調(diào)查發(fā)現(xiàn)有超過半數(shù)(54%)的相關(guān)專業(yè)(包括心理學(xué))學(xué)生或研究者將“p>0.05”錯(cuò)誤解讀為“證實(shí)了原假設(shè)”(X.Lyu,et al.,2020);在提及不顯著結(jié)果的已發(fā)表的心理學(xué)論文中,研究者也易將“p>0.05”的結(jié)果作為“支持零效應(yīng)”的證據(jù),將其解讀為“沒有差異或效應(yīng)”(Aczel et al.,2018;王珺等,2021)。

對(duì)不顯著結(jié)果的錯(cuò)誤解讀可能會(huì)直接導(dǎo)致統(tǒng)計(jì)推斷出現(xiàn)偏差。例如:若研究者進(jìn)行了一次單因素兩水平的被試間實(shí)驗(yàn),欲證一種新療法的干預(yù)效果能夠比肩傳統(tǒng)療法,即欲接受兩種療法在某指標(biāo)上治療效果相同的原假設(shè)。通常的做法是,對(duì)因變量進(jìn)行獨(dú)立樣本t 檢驗(yàn),但僅憑統(tǒng)計(jì)檢驗(yàn)不顯著(如p>0.05)或兩組因變量差異的效應(yīng)量較?。ㄈ鏑ohen’s d<0.30),并不能得到兩種療法無差異(或等價(jià))的結(jié)論。此時(shí)如果武斷地給出兩種療法一樣好或等價(jià)的結(jié)論,則可能直接導(dǎo)致對(duì)研究結(jié)論的錯(cuò)誤推斷。利用貝葉斯因子重新分析發(fā)表文章中不顯著結(jié)果的數(shù)據(jù),結(jié)果表明:絕大部分不顯著結(jié)果無法為“證實(shí)了原假設(shè)”這一結(jié)論提供較強(qiáng)證據(jù)(Aczel et al.,2018;王珺等,2021)。

為彌補(bǔ)NHST 無法評(píng)估零效應(yīng)的局限、幫助更多研究者從不顯著結(jié)果中獲取有效信息,本文結(jié)合兩個(gè)實(shí)例來介紹、對(duì)比三種可用于評(píng)估零效應(yīng)的統(tǒng)計(jì)方法——等價(jià)檢驗(yàn)(Equivalence test)(Meyners,2012;Rogers,Howard,& Vessey,1993)、貝葉斯估計(jì)(Bayesian estimation)(Kruschke,2011;McElreath,2020)和貝葉斯因子(Bayes factor)(Aczel et al.,2018;胡傳鵬,孔祥禎,Wagenmakers,Ly,彭凱平,2018)。

2 等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子的原理

評(píng)估零效應(yīng)的思路主要有兩種。一種思路是設(shè)定一個(gè)足夠小的,幾乎可以認(rèn)為效應(yīng)為零的區(qū)間,用于評(píng)估零效應(yīng)(Meyners,2012;Rogers et al.,1993)。這一區(qū)間即為“最小感興趣的效應(yīng)量區(qū)間”,簡(jiǎn)稱為“最小感興趣區(qū)”(smallest effect size of interest,SESOI)。目標(biāo)效應(yīng)量在SESOI 內(nèi)時(shí),研究者可以認(rèn)為效應(yīng)量幾乎為零,可以忽略不計(jì)。采用這種思路進(jìn)行統(tǒng)計(jì)推斷的方法有兩種,分別是頻率統(tǒng)計(jì)框架下的等價(jià)檢驗(yàn)和貝葉斯統(tǒng)計(jì)框架下的貝葉斯估計(jì)。另一種思路,如貝葉斯因子,通過對(duì)比效應(yīng)量為零的原假設(shè)為真時(shí)與效應(yīng)量不為零的備擇假設(shè)為真時(shí),當(dāng)前數(shù)據(jù)出現(xiàn)的可能性,即特定先驗(yàn)分布下不同模型的邊緣似然性之比,從而推斷當(dāng)前數(shù)據(jù)更支持哪個(gè)假設(shè)。

2.1 等價(jià)檢驗(yàn)

等價(jià)檢驗(yàn)從NHST 擴(kuò)展而來,目的是評(píng)估當(dāng)前效應(yīng)量是否足夠小。等價(jià)檢驗(yàn)的邏輯來源于最小效應(yīng)量檢驗(yàn)(Minimal-effects test)(Murphy,Myors,&Wolach,2014)。當(dāng)研究者將零效應(yīng)作為原假設(shè)時(shí)(即,原假設(shè)為“沒有效應(yīng)”的零假設(shè)時(shí)),NHST 是將效應(yīng)量與零做比較,判斷在假定效應(yīng)為零(H)的情況下出現(xiàn)當(dāng)前數(shù)據(jù)或者更極端數(shù)據(jù)的概率是否足夠小,從而推斷是否拒絕原假設(shè)(圖1A)。如果研究者將H設(shè)定為一個(gè)區(qū)間,比如[-0.1,0.1],拒絕原假設(shè)則要求基于樣本得到的效應(yīng)量要么在統(tǒng)計(jì)學(xué)意義上顯著大于0.1,要么在統(tǒng)計(jì)學(xué)意義上顯著小于-0.1(圖1B),需要進(jìn)行兩次單側(cè)檢驗(yàn)。這種做法被稱為最小效應(yīng)量檢驗(yàn)。

等價(jià)檢驗(yàn)則正好將最小效應(yīng)量檢驗(yàn)的H與H所對(duì)應(yīng)的效應(yīng)區(qū)間對(duì)調(diào),H在區(qū)間之內(nèi),而H在區(qū)間之外(Lakens,McLatchie,Isager,Scheel,&Dienes,2018;Lakens,Scheel,&Isager,2018)。如果SESOI為[-0.1,0.1],等價(jià)檢驗(yàn)的原假設(shè)是效應(yīng)量要么大于0.1,要么小于-0.1 的區(qū)間(圖1C),即“存在有意義的效應(yīng)”;其備擇假設(shè)是效應(yīng)量在[-0.1,0.1]之間,即效應(yīng)量太小而可以認(rèn)為“不存在有意義的效應(yīng)”。如果當(dāng)前數(shù)據(jù)拒絕了原假設(shè),則可以接受備擇假設(shè),即“不存在有意義的效應(yīng)”。

圖1 等價(jià)檢驗(yàn)和貝葉斯估計(jì)的原理示意圖

等價(jià)檢驗(yàn)中的原假設(shè)和備擇假設(shè)除了與傳統(tǒng)NHST 的原假設(shè)和備擇假設(shè)具有不同的意義之外,其對(duì)于原假設(shè)的設(shè)定要求更高。相對(duì)于NHST 中原假設(shè)假定效應(yīng)量為零,在等價(jià)檢驗(yàn)中,研究者需要指明原假設(shè)的范圍,即備擇假設(shè)(SESOI)之外的區(qū)間。結(jié)合已有研究和實(shí)際情況,SESOI 的設(shè)定有特定的方式(詳見補(bǔ)充材料:osf.io/6mzr9),且必須有合理的原因。

實(shí)際檢驗(yàn)過程中,等價(jià)檢驗(yàn)需要將實(shí)際數(shù)據(jù)與SESOI 的下限ΔL 和上限ΔU 分別進(jìn)行單側(cè)的顯著性檢驗(yàn),即兩次單側(cè)檢驗(yàn)(Two one-side tests,TOST)。一次單側(cè)檢驗(yàn)的原假設(shè)是當(dāng)前數(shù)據(jù)的效應(yīng)量小于SESOI 的下限ΔL;另一次單側(cè)檢驗(yàn)的原假設(shè)則是當(dāng)前數(shù)據(jù)的效應(yīng)量大于SESOI 的上限ΔU。最后結(jié)合兩個(gè)單側(cè)檢驗(yàn)的統(tǒng)計(jì)結(jié)果進(jìn)行等價(jià)檢驗(yàn)的推斷:當(dāng)且僅當(dāng)TOST 中的兩個(gè)p 值均小于α 水平時(shí),依據(jù)NHST框架的邏輯拒絕原假設(shè),可以接受備擇假設(shè)(“不存在有意義的效應(yīng)”)。此時(shí)研究者可以認(rèn)為存在統(tǒng)計(jì)上的等價(jià)性結(jié)果,即此效應(yīng)足夠小,在這一研究群體中是可以忽略的。但只要TOST 中有一個(gè)p 值大于α水平,就無法拒絕原假設(shè)(“存在有意義的效應(yīng)”),即統(tǒng)計(jì)結(jié)果不能支持等價(jià)的結(jié)論(Lakens,Scheel,&Isager,2018)。

值得注意的是,等價(jià)檢驗(yàn)也可以通過基于參數(shù)估計(jì)的方法實(shí)現(xiàn)。頻率統(tǒng)計(jì)框架下,研究者可以估計(jì)效應(yīng)的值及其置信區(qū)間(王珺等,2019),然后根據(jù)效應(yīng)量置信區(qū)間與SESOI 重合的比例進(jìn)行推斷(Tryon,2001)。例如,當(dāng)研究者把α 水平設(shè)為0.05時(shí),可以對(duì)當(dāng)前數(shù)據(jù)的效應(yīng)量進(jìn)行參數(shù)估計(jì)計(jì)算得到其(1-2α)%(即90%)的置信區(qū)間(由于需獨(dú)立進(jìn)行兩次α 水平為0.05 的單側(cè)檢驗(yàn),因此等價(jià)檢驗(yàn)需對(duì)效應(yīng)量構(gòu)建90%的置信區(qū)間,而非95%的,見Linde et al.,2020)。若其效應(yīng)量90%的置信區(qū)間與設(shè)定的SESOI 沒有重合(即其置信區(qū)間的上下限均不超出SESOI 的上下限),這就等同于TOST 中的兩個(gè)p 值均小于0.05,意味著存在統(tǒng)計(jì)上的等價(jià)性結(jié)果;反之,若其效應(yīng)量90%的置信區(qū)間與設(shè)定的SESOI 出現(xiàn)了重合(即其置信區(qū)間的上限或/和下限超出了SESOI 的上下限),這就意味著當(dāng)前結(jié)果不能支持存在統(tǒng)計(jì)上的等價(jià)性結(jié)果。

2.2 貝葉斯估計(jì)的原理

貝葉斯估計(jì)是貝葉斯統(tǒng)計(jì)框架下的參數(shù)估計(jì)方法(Kruschke&Liddell,2018)。貝葉斯統(tǒng)計(jì)(bayesian statistics)與頻率統(tǒng)計(jì)(frequentist statistics)的主要區(qū)別在于對(duì)概率(probability)的理解。頻率統(tǒng)計(jì)中的概率表示在無數(shù)次的重復(fù)抽樣中對(duì)于頻率(frequency)的期望,即長(zhǎng)期行為表現(xiàn)的結(jié)果。而貝葉斯統(tǒng)計(jì)中的概率表示基于已有的信息,發(fā)生當(dāng)前事件的可信程度(credibility) (Kruschke,2014;McElreath,2018)。具體到推斷統(tǒng)計(jì)中,頻率統(tǒng)計(jì)認(rèn)為總體參數(shù)為固定值,而貝葉斯統(tǒng)計(jì)認(rèn)為總體參數(shù)是對(duì)應(yīng)概率分布下的隨機(jī)取值,并且概率分布可以隨著數(shù)據(jù)的獲取而不斷更新。貝葉斯統(tǒng)計(jì)的核心是貝葉斯法則(Bayes rules)。如果我們?yōu)榱斯烙?jì)某一總體分布的參數(shù)(θ)而抽取了一定樣本或“數(shù)據(jù)”(data),基于貝葉斯法則可以得到下述公式:

其中,P(θ)表示在獲得數(shù)據(jù)前對(duì)于參數(shù)取值的信念, 即先驗(yàn)分布(prior distribution);P(θ|data)表示獲得當(dāng)前數(shù)據(jù)后對(duì)先驗(yàn)分布進(jìn)行更新后所得到的信念或者概率分布, 即后驗(yàn)分布(posterior distribution),通常是研究者想進(jìn)行估計(jì)的。計(jì)算后驗(yàn)分布不僅需要先驗(yàn)信息,還需要P(data|θ)和P(data)。P(θ|data)表示當(dāng)參數(shù)值為θ時(shí),出現(xiàn)當(dāng)前數(shù)據(jù)的可能性,即似然性(likelihood),也有文章將其稱為某個(gè)參數(shù)取值的預(yù)測(cè)充分性(predictive adequacy)(van Doorn et al.,2021);P(data)表示參數(shù)所有可能取值的加權(quán)求和或者積分得到的邊緣概率或者邊緣概率密度,亦可理解為歸一化因子(normalizing factor)。簡(jiǎn)而言之,貝葉斯統(tǒng)計(jì)可以隨著數(shù)據(jù)的累積不斷更新后驗(yàn),進(jìn)而改變對(duì)參數(shù)不同取值的可信度(Kruschke&Liddell,2018)。

應(yīng)用貝葉斯估計(jì)評(píng)估零效應(yīng)時(shí),通過比較效應(yīng)為零時(shí)的參數(shù)取值范圍與后驗(yàn)分布下參數(shù)概率分布的差異進(jìn)行統(tǒng)計(jì)推斷(Kirkwood & Westlake,1981;Rouder,2014;Westlake,1976)。這里后驗(yàn)分布下的參數(shù)概率分布使用最高密度區(qū)間(highest density interval,HDI)表示,而效應(yīng)為零時(shí)的參數(shù)取值范圍是研究者預(yù)先設(shè)定的實(shí)際等價(jià)區(qū)(region of practical equivalence,ROPE)(Kruschke,2014,2018)。ROPE 類似于前文介紹的等價(jià)檢驗(yàn)中SESOI,是一個(gè)包括零的幾乎可以忽略的效應(yīng)區(qū)間。確定ROPE 后,可以考察參數(shù)后驗(yàn)分布的95%HDI 與ROPE 的重合度來評(píng)估零效應(yīng)。當(dāng)95%HDI完全落在ROPE 之內(nèi)時(shí),說明可能性最高的參數(shù)實(shí)際上等價(jià)于0,因此可以接受零效應(yīng)(圖1D);當(dāng)95%HDI 和ROPE 部分重合時(shí),意味著只有部分可能性高的參數(shù)取值等價(jià)于0,此時(shí)無法做出明確判斷(圖1E);當(dāng)95%HDI 完全落在ROPE 之外時(shí),說明可能性最高的參數(shù)全部都不等價(jià)于0,因此可以拒絕零效應(yīng)(圖1F)(Kruschke,2011)。

值得注意的是,貝葉斯估計(jì)本身是基于數(shù)據(jù)進(jìn)行模型擬合的過程,因此研究者可以使用不同的先驗(yàn)和不同的模型。在這個(gè)過程中,需要考慮先驗(yàn)分布設(shè)定的合理性以及MCMC 抽樣收斂(convergence),具體可以參考Depaoli 和van de Schoot(2017)以及van de Schoot 等(2021)。

2.3 貝葉斯因子的原理

貝葉斯因子的基本思路是通過模型比較的方式,獲得不同模型下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性的相對(duì)比值。它嘗試回答的問題是當(dāng)前數(shù)據(jù)更可能在哪個(gè)模型為真的情況下出現(xiàn)。當(dāng)用于假設(shè)檢驗(yàn)時(shí),貝葉斯因子中的模型可參照NHST 中的原假設(shè)和備擇假設(shè)進(jìn)行設(shè)定。例如要評(píng)估效應(yīng)為零的原假設(shè)與效應(yīng)量不為零的備擇假設(shè)時(shí),可將原假設(shè)設(shè)定為零模型M(即point null model,θ=0,效應(yīng)量為0 且無須參數(shù)分布),備擇假設(shè)為M(θ≠0,效應(yīng)量不為0 且需要通過模型內(nèi)先驗(yàn)定義其概率分布)。換而言之,上文式(1)中的P(data|θ)中的參數(shù)θ實(shí)質(zhì)上是在某種模型下的參數(shù)。在進(jìn)行貝葉斯假設(shè)檢驗(yàn)時(shí),原假設(shè)與備擇假設(shè)對(duì)應(yīng)的模型參數(shù)(θ)的取值分布均會(huì)具體化。P(data|θ)在兩個(gè)假設(shè)模型之下分別為:P(data|θ,M)和P(data|θ,M)。而貝葉斯因子就是以這兩者的比值定義的(Keysers,Gazzola,&Wagenmakers,2020;Wagenmakers et al.,2018):

其中,BF的下角標(biāo)中0 在前,1 在后,表示BF為H相對(duì)于H的貝葉斯因子。反之,BF就是將式(2)中的分子分母顛倒,表示H相對(duì)于H的貝葉斯因子。BF=9 表示當(dāng)前數(shù)據(jù)出現(xiàn)在H為真的情況下的可能性是出現(xiàn)在H為真的情況下的9 倍。可依據(jù)貝葉斯因子的大小推斷當(dāng)前數(shù)據(jù)對(duì)兩個(gè)模型的支持證據(jù)的相對(duì)強(qiáng)度。關(guān)于貝葉斯因子的決策標(biāo)準(zhǔn),可參考Lee 和Wagenmakers(2013) 基于Jeffreys(1961)提出的結(jié)果分類陳述(胡傳鵬等,2018)。例如,BF在[3,10]之間時(shí),可以解讀為當(dāng)前數(shù)據(jù)提供了中等強(qiáng)度的證據(jù)(Moderate evidence)來支持原假設(shè)(H)。

作為貝葉斯統(tǒng)計(jì)推斷的一種方法,貝葉斯因子同樣涉及先驗(yàn)的選擇。一般根據(jù)先前研究確定先驗(yàn),比如使用元分析得到的效應(yīng)量及其對(duì)應(yīng)的分布作為先驗(yàn)。而對(duì)于沒有相關(guān)元分析的原創(chuàng)性研究,更常見的做法是使用一個(gè)標(biāo)準(zhǔn)化的先驗(yàn),比如在貝葉斯t 檢驗(yàn)中,用柯西分布作為備擇假設(shè)的先驗(yàn)(Rouder,Speckman,Sun,Morey,&Iverson,2009),δ ~Cauchy(χ=0,γ=1):其中χ 為位置參數(shù)(location parameter),定義分布下的峰值位置,與正態(tài)分布中的均值類似;γ 為尺度參數(shù)(scale parameter),定義分布下包含峰值50%參數(shù)取值范圍的一半寬度,與正態(tài)分布中標(biāo)準(zhǔn)差類似。為了讓備擇假設(shè)的先驗(yàn)更符合心理學(xué)研究中效應(yīng)量分布的真實(shí)狀況,常用的計(jì)算貝葉斯因子的R 包BayesFactor 將默認(rèn)的先驗(yàn)設(shè)定為Cauchy(0,0.707),即以0 為峰值,從-0.707到0.707 包含分布下50%的參數(shù)可能取值(Tendeiro and Kiers 2019)。備擇假設(shè)模型中參數(shù)先驗(yàn)分布的選擇會(huì)對(duì)最終計(jì)算的BF值有較大影響。以貝葉斯t 檢驗(yàn)為例,其他條件相同的前提下,備擇假設(shè)模型內(nèi)的先驗(yàn)Cauchy 分布尺度參數(shù)γ 越大(分布越離散),貝葉斯因子的計(jì)算結(jié)果就偏向零模型(BF越大),因此通常情況下需要研究者對(duì)貝葉斯因子分析結(jié)果進(jìn)行穩(wěn)健性分析,即考察不同先驗(yàn)分布下貝葉斯因子的結(jié)果獲得更為可靠的統(tǒng)計(jì)推斷。

3 等價(jià)檢驗(yàn)、貝葉斯估計(jì)、貝葉斯因子的應(yīng)用和比較

以下將展示如何在兩個(gè)真實(shí)的數(shù)據(jù)中應(yīng)用上述三種方法。此二例數(shù)據(jù)均采用NHST 框架下的獨(dú)立樣本t 檢驗(yàn),且p 值未達(dá)到顯著水平。我們采用等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子對(duì)此二例數(shù)據(jù)進(jìn)行重新分析,并從評(píng)估零效應(yīng)的能力、是否用到SESOI/ROPE、是否報(bào)告不確定信息和可拓展性方面比較了三種方法。分析使用了R統(tǒng)計(jì)軟件包4.0.2(R-Core-Team,2019)。其中,等價(jià)檢驗(yàn)使用的是TOSTER 工具包(Lakens,2017),貝葉斯估計(jì)采用BEST 工具包(Kruschke & Meredith,2020),貝葉斯因子采用BayesFactor 工具包(Morey &Rouder,2018)。實(shí)例1 展示的是數(shù)據(jù)無較強(qiáng)證據(jù)支持零效應(yīng)的情況,而實(shí)例2 展示的是數(shù)據(jù)相對(duì)較強(qiáng)地支持零效應(yīng)的情況。分析涉及的所有的數(shù)據(jù)、代碼、結(jié)果及其解釋見osf.io/54qpv/。

3.1 實(shí)例1:Kitchen Rolls

實(shí)例1 的數(shù)據(jù)來自JASP(jasp-stat.org)分析軟件的示例數(shù)據(jù)“Kitchen Rolls”。該數(shù)據(jù)源自Wagenmakers 等(2015)對(duì)Topolinski 和Sparenberg(2012)進(jìn)行的重復(fù)研究。原研究的第二個(gè)實(shí)驗(yàn)中,兩組被試分別以順時(shí)針方向(N=30)和逆時(shí)針方向(N=30)撥動(dòng)卷紙,然后填寫一個(gè)測(cè)量開放性的問卷。結(jié)果發(fā)現(xiàn),相比于逆時(shí)針撥動(dòng)的被試,順時(shí)針撥動(dòng)的被試的開放性得分更高,t(58)=2.21,p<0.031,d=0.58。Wagenmakers 等(2015)在預(yù)注冊(cè)之后,重復(fù)了該研究的實(shí)驗(yàn)二。研究的數(shù)據(jù)包含兩組被試在開放性人格特質(zhì)上的得分,其中一組被試在填寫問卷前順時(shí)針旋轉(zhuǎn)桌面上的紙卷(N=48),而另一組則在填寫問卷前逆時(shí)針旋轉(zhuǎn)紙卷(N=54)。

由于等價(jià)檢驗(yàn)和貝葉斯估計(jì)在統(tǒng)計(jì)過程中需要用到SESOI 或ROPE,因此首先需要確定SSEOI。本分析參考Simonsohn(2015)提出的重復(fù)研究中確定SESOI 邊界的方法,將SESOI 的等價(jià)邊界設(shè)置為原研究樣本量之下,33%檢驗(yàn)力可探測(cè)到的效應(yīng)量,即SESOI 為[-0.40,0.40](計(jì)算過程見在線R Notebook,osf.io/gn2hm/)。

NHST 未發(fā)現(xiàn)兩組被試在開放性上的得分差異達(dá)到統(tǒng)計(jì)顯著,t(100)=- 0.75,p=0.453,d=-0.149。貝葉斯因子則為零效應(yīng)提供了中等強(qiáng)度的證據(jù),BF∈(3,10),具體而言,不同先驗(yàn)——Cauchy(0,0.707)、Cauchy(0,1)、Cauchy(0,1.5)——之下的貝葉斯因子分別為BF=3.71、5.02、7.31。等價(jià)檢驗(yàn)和貝葉斯估計(jì)的結(jié)果基本一致,即無法判斷數(shù)據(jù)是否支持零效應(yīng):在貝葉斯估計(jì)中,95%HDI 和ROPE 部分重合;在等價(jià)檢驗(yàn)中,TOST 左側(cè)的p 值大于α 水平(圖2A)。綜合三種方法,可認(rèn)為該數(shù)據(jù)無法為零效應(yīng)提供較強(qiáng)的證據(jù),同時(shí)也無法為效應(yīng)的存在提供較強(qiáng)的證據(jù)。這提示研究者需要進(jìn)一步分析實(shí)驗(yàn)設(shè)計(jì)中可能存在的問題,并進(jìn)行下一步研究和分析。

3.2 實(shí)例2:Sociometric status and well-being

實(shí)例2 的數(shù)據(jù)來自Many Labs 2 項(xiàng)目(osf.io/uazdm/)中的一個(gè)研究。Many Labs 2由36 個(gè)國家和區(qū)域的不同實(shí)驗(yàn)室合力完成,共重復(fù)了28 個(gè)經(jīng)典的實(shí)驗(yàn),總樣本量達(dá)15305(Klein et al.,2018)。實(shí)例2 的數(shù)據(jù)來自報(bào)告中的第12 個(gè)重復(fù)研究“Sociometric status and well-being”。該研究重復(fù)原研究中的實(shí)驗(yàn)三,探究相對(duì)于社會(huì)經(jīng)濟(jì)地位,社會(huì)關(guān)系地位與幸福感的關(guān)系是否更緊密(Anderson,Kraus,Galinsky,& Keltner,2012)。原研究中報(bào)告了一個(gè)顯著的簡(jiǎn)單效應(yīng)分析結(jié)果,相對(duì)低社會(huì)關(guān)系地位條件的被試,高社會(huì)關(guān)系地位條件的被試有更高的 主 觀 幸 福 感,t(115)=3.05,p=0.003,d=0.57,95%CI[0.20,0.93]。Many Labs 2 主要重復(fù)了原研究中主觀幸福感有差異的低社會(huì)關(guān)系地位條件和高社會(huì)關(guān)系地位條件,共包括6905 個(gè)樣本。同實(shí)例1,我們用三種統(tǒng)計(jì)方法進(jìn)行分析。在分析之前,我們同樣采用實(shí)例1 的方式確定SESOI 和ROPE為[-0.20,0.20]。

NHST 未 發(fā) 現(xiàn) 顯 著 的 效 應(yīng),t(6903)=-1.76,p=0.079,d=-0.04。然而等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子的統(tǒng)計(jì)檢驗(yàn)結(jié)果均支持了零效應(yīng)(圖2B)。等價(jià)檢驗(yàn)的結(jié)果表明,對(duì)SESOI 的下、上限的兩次單側(cè)檢驗(yàn)均顯著(p<0.001)。對(duì)于貝葉斯估計(jì),兩組差異效應(yīng)量的95%HDI 完全落在ROPE內(nèi)。貝 葉 斯 因 子 在Cauchy(0,0.707)、Cauchy(0,1)、Cauchy(0,1.5)三種先驗(yàn)分布下的結(jié)果分別為:BF=7.87、11.11、16.64,達(dá)到了中等和較強(qiáng)程度支持零效應(yīng)的證據(jù)(Lee&Wagenmakers,2013)。其中,當(dāng)先驗(yàn)分布的尺度參數(shù)變大時(shí),BF趨向于提供較強(qiáng)程度支持零效應(yīng)的證據(jù)。三種評(píng)估零效應(yīng)的方法一致支持了零效應(yīng),研究者可以較有信心地推斷目標(biāo)效應(yīng)為零。

圖2 四種統(tǒng)計(jì)檢驗(yàn)對(duì)兩個(gè)實(shí)例數(shù)據(jù)的分析結(jié)果與推論

3.3 等價(jià)檢驗(yàn)、貝葉斯估計(jì)、貝葉斯因子的比較

在NHST 框架下,以上兩個(gè)實(shí)例數(shù)據(jù)均沒有得到p<0.05 的結(jié)果,即未能拒絕原假設(shè)。然而,這并不意味著當(dāng)前數(shù)據(jù)可以支持零效應(yīng)的存在。實(shí)例1 的結(jié)果表明,雖然NHST 得到的p 值較大,但等價(jià)檢驗(yàn)、貝葉斯估計(jì)、貝葉斯因子分析均表明該數(shù)據(jù)并不能為零效應(yīng)提供較強(qiáng)的證據(jù)。而實(shí)例2的結(jié)果則表明,樣本效應(yīng)量與事先確定的近似于零的區(qū)間(SESOI/ROPE)無差別,而貝葉斯因子也提供了較強(qiáng)的支持零效應(yīng)的證據(jù),因此可以得到零效應(yīng)的推論。兩個(gè)實(shí)例數(shù)據(jù)的研究設(shè)計(jì)相對(duì)簡(jiǎn)單,因此三種方法均可以使用。但在更加復(fù)雜的研究設(shè)計(jì)中,是否能夠同時(shí)使用三種方法可能需要進(jìn)行深入地考察。以TOSTER 包為例,等價(jià)檢驗(yàn)?zāi)壳爸话藅 檢驗(yàn)、元分析、相關(guān)分析等方法(Lakens,2017),這意味著其可拓展性方面存在限制。為了幫助研究者采用合適的方法,本文從幾個(gè)維度對(duì)NHST 和三種方法進(jìn)行比較(表1)。

表1 原假設(shè)檢驗(yàn)、等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子的特征及其對(duì)比。“O”表示有此特征,“X”表示無此特征。

首先,等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子均可以用來支持零效應(yīng),這是它們區(qū)別于NHST 之處。因此,研究者在得到不顯著結(jié)果時(shí),可以采用這三種方法進(jìn)一步從不顯著結(jié)果中提取信息。其次,如果研究者希望支持零效應(yīng),使用等價(jià)檢驗(yàn)與貝葉斯估計(jì)均需要使用SESOI(Kruschke & Liddell,2018;Lakens,Scheel,&Isager,2018),這意味著研究者需要提前確定一個(gè)合理的區(qū)間,才能進(jìn)行合理的推斷。但是計(jì)算貝葉斯因子時(shí),則不需要確定SESOI。第三,等價(jià)檢驗(yàn)和貝葉斯估計(jì)提供了關(guān)于推斷中不確定性的信息,且后者提供的不確定信息更為詳實(shí),描繪了參數(shù)的不同取值出現(xiàn)的相對(duì)概率(Kruschke & Liddell,2018);而貝葉斯因子本身不提供這些信息。第四,從可拓展性上來看,理論上三種方法均可以廣泛適用于各個(gè)情境,但不同情境均需要對(duì)模型進(jìn)行設(shè)定。從實(shí)踐上來看,由于眾多工具包的出現(xiàn)(如R 語言包brms,Bürkner,2017),貝葉斯估計(jì)可以相對(duì)簡(jiǎn)便地運(yùn)用于線性和一般線性回歸模型的(Kruschke &Liddell,2018;Kruschke & Meredith,2020),但是貝葉斯因子和等價(jià)檢驗(yàn)?zāi)壳翱色@得的工具包則仍然較為限制。具體而言,貝葉斯因子目前主要可用于t 檢驗(yàn)、相關(guān)分析、方差分析和線性回歸分析等常用的統(tǒng)計(jì)模型(Morey&Rouder,2018);而等價(jià)檢驗(yàn)(基于TOSTER)主要可用于t 檢驗(yàn)、元分析和相關(guān)分析(Lakens,2017)。對(duì)于更加復(fù)雜的研究設(shè)計(jì),如中介、調(diào)節(jié)分析等,貝葉斯因子和等價(jià)檢驗(yàn)尚未被整合到便利的工具包中。

除了三種方法原理特征上的差異外,隨著樣本量、等價(jià)區(qū)間的變化,三種方法的統(tǒng)計(jì)檢驗(yàn)力(即效應(yīng)量真值在等價(jià)區(qū)間內(nèi)時(shí),統(tǒng)計(jì)結(jié)果判斷為等價(jià)的概率)也有不同。Linde 等研究者(2020)通過一系列的模擬發(fā)現(xiàn)貝葉斯因子相對(duì)另外兩種方法有更強(qiáng)的統(tǒng)計(jì)檢驗(yàn)力,并且在樣本相對(duì)較小的時(shí)候有更高的辨別力。

類似地,以上述兩個(gè)實(shí)例的具體參數(shù)(樣本量、等價(jià)邊界)作為模擬參考,我們的模擬也發(fā)現(xiàn),當(dāng)效應(yīng)量真值在區(qū)間[0,0.5]時(shí),貝葉斯因子的統(tǒng)計(jì)檢驗(yàn)力(即真實(shí)效應(yīng)量落在等價(jià)區(qū)間,統(tǒng)計(jì)方法推斷可以看作是效應(yīng)量為零的比例)較高。但同樣,其假陽性也更高(即真實(shí)效應(yīng)量不在等價(jià)區(qū)間,但統(tǒng)計(jì)方法的結(jié)果認(rèn)為其效應(yīng)量可以看作為零的概率)(見圖3)。貝葉斯因子較高的敏感性在樣本量小的時(shí)候更加明顯,因此貝葉斯因子可能是小樣本研究中用以支持零效應(yīng)較好的方法,而適當(dāng)收緊其判斷標(biāo)準(zhǔn)(如將BF>10 作為等價(jià)標(biāo)準(zhǔn),而非BF>3)是權(quán)衡其較高統(tǒng)計(jì)檢驗(yàn)力和較高一類錯(cuò)誤的有效策略之一。

圖3 等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子在不同樣本量、等價(jià)邊界上的統(tǒng)計(jì)檢驗(yàn)力及一類錯(cuò)誤率

三種方法相對(duì)于NHST 均可以用于支持零效應(yīng),然而結(jié)果解釋上存在理論上的區(qū)別。等價(jià)檢驗(yàn)通過引入SESOI 彌補(bǔ)了NHST 功能上的缺陷,即不能用于推斷效應(yīng)不存在(Greenland et al.,2016;Wasserstein&Lazar,2016)。其所在的統(tǒng)計(jì)框架仍為頻率統(tǒng)計(jì),即將統(tǒng)計(jì)推斷建立在無數(shù)次的重復(fù)抽樣中對(duì)于頻率(frequency)的期望上。而基于貝葉斯統(tǒng)計(jì)框架下的貝葉斯因子和貝葉斯估計(jì)則有所區(qū)別。貝葉斯因子的統(tǒng)計(jì)推斷本質(zhì)上基于模型比較,即比較當(dāng)前數(shù)據(jù)在兩個(gè)相互競(jìng)爭(zhēng)的模型中出現(xiàn)的相對(duì)概率(Keysers et al.,2020;Wagenmakers et al.,2018;胡傳鵬等,2018)。貝葉斯估計(jì)則通過估計(jì)后驗(yàn)分布的95%HDI 與類似于等價(jià)檢驗(yàn)中SESOI 概念的ROPE 進(jìn)行比較得到結(jié)論。推斷的形式上,貝葉斯估計(jì)和等價(jià)檢驗(yàn)相似,然而前者的HDI 與后者的CI 在對(duì)概率的認(rèn)識(shí)上存在本質(zhì)上的區(qū)別,也即貝葉斯統(tǒng)計(jì)和頻率統(tǒng)計(jì)之間對(duì)概率不同認(rèn)識(shí) 上 的 區(qū) 別(Kruschke,2014;McElreath,2020)。

4 總結(jié)與建議

心理學(xué)研究中不同的統(tǒng)計(jì)方法正在相互融合中共同發(fā)展,但對(duì)于評(píng)估零效應(yīng)的方法卻仍然受到相當(dāng)程度的忽視(溫忠麟等,2021)。等價(jià)檢驗(yàn)、貝葉斯估計(jì)和貝葉斯因子等統(tǒng)計(jì)方法的出現(xiàn),一定程度上彌補(bǔ)了傳統(tǒng)NHST 無法評(píng)估零效應(yīng)的缺陷,幫助研究者進(jìn)一步區(qū)分“有證據(jù)支持零效應(yīng)”和“沒有證據(jù)支持有效應(yīng)”這兩種情況。本文介紹的三種方法在多個(gè)方面存在差異,各有特點(diǎn),研究者可以根據(jù)當(dāng)前研究的情況選擇合適的方法。例如從便捷性上考慮,使用JASP 軟件進(jìn)行貝葉斯因子分析是一個(gè)不錯(cuò)的選擇。首先JASP 是一款免費(fèi)使用的開源統(tǒng)計(jì)軟件,能夠覆蓋心理學(xué)研究中常用的統(tǒng)計(jì)分析方法;其次它依托圖形用戶界面進(jìn)行操作,對(duì)編程的需求相比其他兩種方法更低;最后JASP 的使用手冊(cè)比較完備,且有相應(yīng)的分析與結(jié)果報(bào)告指南(van Doorn et al.,2021),此外,在其網(wǎng)站(jasp-stats.org)與論壇(https://forum.cogsci.nl/index.php?p=/categories/jasp-bayesfactor)也可以進(jìn)一步獲取必要的指導(dǎo)信息。如果從方法的嚴(yán)謹(jǐn)性上考慮,研究者可以同時(shí)采用多種方法評(píng)估零效應(yīng),便于交叉驗(yàn)證,提高統(tǒng)計(jì)推斷的可靠性。當(dāng)然這意味著研究者需要投入相當(dāng)?shù)木θカ@取必要的知識(shí)和技能(如形成基本認(rèn)識(shí),明確使用前提,規(guī)范統(tǒng)計(jì)報(bào)告等),避免統(tǒng)計(jì)方法的濫用和誤用(Gigerenzer,2018)。此外,當(dāng)研究設(shè)計(jì)較為復(fù)雜時(shí),缺乏必要的統(tǒng)計(jì)背景和編程技能會(huì)讓一些研究者束手無策或者誤用這些方法,因此,研究初期提出清晰的研究假設(shè)并據(jù)此在實(shí)驗(yàn)設(shè)計(jì)上盡量精簡(jiǎn)會(huì)對(duì)后續(xù)的數(shù)據(jù)分析有裨益(一個(gè)較詳盡的如何選擇恰當(dāng)?shù)姆椒ǖ牧鞒?,可參考補(bǔ)充材料中的流程圖)。

最后,我們建議,評(píng)估零效應(yīng)時(shí)注意以下三點(diǎn):其一,如果采用等價(jià)檢驗(yàn)和貝葉斯估計(jì)的方法,需要清楚地報(bào)告所采用的SESOI/ROPE,并論證其合理性;如果采用貝葉斯估計(jì)或者貝葉斯因子,還需要澄清所采用的先驗(yàn)及其合理性,也可以報(bào)告不同先驗(yàn)下的結(jié)果穩(wěn)定性。其二,如果可行,建議同時(shí)采用多種分析方法,交叉驗(yàn)證同一個(gè)結(jié)果的穩(wěn)定性,例如上文的兩個(gè)實(shí)例分別使用三種方法評(píng)估零效應(yīng)。其三,如有可能,在研究開始前或者數(shù)據(jù)分析前進(jìn)行預(yù)注冊(cè),預(yù)注冊(cè)中可以提供評(píng)估零效應(yīng)的相應(yīng)方法和參數(shù),比如SESOI/ROPE 和先驗(yàn)的確定。

5 補(bǔ)充材料

5.1 最小感興趣區(qū)(SESOI)與實(shí)際等價(jià)區(qū)(ROPE)的確定

在等價(jià)檢驗(yàn)和貝葉斯估計(jì)中,都會(huì)使用一個(gè)區(qū)間來定義一個(gè)足夠小的,或者說可以被忽略的效應(yīng)。在等價(jià)檢驗(yàn)中,稱為最小感興趣區(qū)(SESOI),而貝葉斯估計(jì)將其定義為實(shí)際等價(jià)區(qū)(ROPE)。其他領(lǐng)域的研究者還會(huì)使用其他名稱,如臨床領(lǐng)域的臨床等價(jià)區(qū)間(interval of clinical equivalence)(Lesaffre 2008) 和藥理學(xué)的等價(jià)區(qū)間(equivalence interval)(Schuirmann 1987) 等。但這些概念本質(zhì)上是相似的,都是為了定義一個(gè)包括零效應(yīng)在內(nèi)的足夠小的區(qū)間,或者說更符合實(shí)際研究情況的零效應(yīng)。由于ROPE 與SESOI 的相似,下文將僅從SESOI 視角介紹。通過檢驗(yàn)?zāi)繕?biāo)效應(yīng)與該區(qū)間的相對(duì)關(guān)系可推斷當(dāng)前數(shù)據(jù)支持零效應(yīng)、拒絕零效應(yīng)還是無法做出判斷(Lakens,Scheel et al. 2018,Kruschke and Meredith 2020)。當(dāng)前數(shù)據(jù)的效應(yīng)量區(qū)間一定時(shí),如果SESOI 比較寬松,則效應(yīng)量區(qū)間可能完全落在SESOI 內(nèi),得到支持零效應(yīng)的推斷;而SESOI 范圍較小時(shí),效應(yīng)量區(qū)間可能未完全在SESOI 內(nèi),得到無法判斷當(dāng)前數(shù)據(jù)是否支持零效應(yīng)的結(jié)論。因此SESOI 的設(shè)定會(huì)直接影響零效應(yīng)評(píng)估的結(jié)論。

SESOI 的設(shè)定需要具體問題具體分析。但是無論使用何種方法,研究者均需要對(duì)其設(shè)定合理性進(jìn)行說明(Lakens,Scheel et al.2018)。通常,當(dāng)研究者所感興趣的效應(yīng)量已經(jīng)有先前研究進(jìn)行過探索,則可以參考先前研究的結(jié)果。例如,Simonsohn(2015)建議,在重復(fù)研究中,可將SESOI 的等價(jià)邊界設(shè)置為之前研究的33%檢驗(yàn)力可探測(cè)到的效應(yīng)。其理由在于,檢驗(yàn)力低于33%時(shí)得到的效應(yīng)有多于66%的概率得到的顯著結(jié)果是不可信的(Simonsohn,Nelson et al.2014)。但Simonsohn(2015)的建議并非 唯 一 的 建 議,Kordsmeyer 和 Penke(2017)則建議,在重復(fù)性研究中,可將SESOI 的等價(jià)邊界設(shè)定在先前研究的平均效應(yīng)量上,并檢驗(yàn)當(dāng)前數(shù)據(jù)是否顯著小于之前研究平均水平的效應(yīng)量。然而這種方法無法排除先前研究隨機(jī)性和出版偏見的影響。此外,還有觀點(diǎn)認(rèn)為可以將等價(jià)邊界設(shè)定在之前研究正好可以觀測(cè)到顯著效應(yīng)的臨界值(Lakens,Scheel et al.2018)。另一個(gè)可能更穩(wěn)健的方法是用元分析中估計(jì)效應(yīng)量的置信區(qū)間(90%或95%)的下邊界(效應(yīng)為正的情況下)作為等價(jià)邊界(Perugini,Gallucci et al.2014)。最后,值得注意的是,在頻率學(xué)派和貝葉斯派兩種不同的統(tǒng)計(jì)思想的框架下,SESOI 和ROPE 對(duì)應(yīng)的結(jié)果解釋是有區(qū)別的(Kruschke and Liddell 2018,Kruschke and Meredith 2020)。

5.2 評(píng)估零效應(yīng)的流程圖

圖4 評(píng)估零效應(yīng)的三種統(tǒng)計(jì)方法的使用流程

補(bǔ)充材料參考文獻(xiàn)

Kordsmeyer,T.L. & L. Penke(2017).“The association of three indicators of developmental instability with mating success in humans.”Evolution and Human Behavior 38(6):704-713.

Kruschke,J. & T.M. Liddell(2018).“The Bayesian New Statistics:Hypothesis testing,estimation,meta-analysis,and power analysis from a Bayesian perspective.”Psychonomic Bulletin & Review 25(1):178-206.

Kruschke,J. & M. Meredith(2020). BEST:Bayesian estimation supersedes the t-Test.

Lakens,D.,et al.(2018). “Equivalence testing for psychological research:A tutorial.”Advances in Methods and Practices in Psychological Science 1(2):259-269.

Lesaffre,E.(2008). “Superiority,equivalence,and non-inferiority trials.” Bulletin of the NYU Hospital for Joint Diseases 66(2):150-154.

Perugini,M.,et al.(2014). “Safeguard power as a protection against imprecise power esti mates.”Perspectives on Psychological Science 9(3):319-332.

Schuirmann,D.J.(1987). “A comparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability.”Journal of Pharmacokinetics and Biopharmaceutics 15(6):657-680.

Simonsohn,U. (2015). “Small telescopes:Detectability and the evaluation of replication results.”Psychological Science 26(5):559-569.

Simonsohn,U., Nelson,L.D., & Simmons,J.P.(2014). P-curve: A key to the file-drawer.Journal of Experimental Psychology General, 143(2),534-547.

猜你喜歡
先驗(yàn)貝葉斯等價(jià)
等價(jià)轉(zhuǎn)化
基于暗通道先驗(yàn)的單幅圖像去霧算法研究與實(shí)現(xiàn)
n次自然數(shù)冪和的一個(gè)等價(jià)無窮大
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
貝葉斯網(wǎng)絡(luò)概述
淺論康德美學(xué)中的審美共通感
貝葉斯公式的應(yīng)用和推廣
“圖型”與“類型”
先驗(yàn)的風(fēng)
乐至县| 吴江市| 台湾省| 荥经县| 岳池县| 闻喜县| 翁牛特旗| 娱乐| 丹江口市| 大田县| 白银市| 顺昌县| 凤冈县| 馆陶县| 黑龙江省| 思茅市| 石屏县| 罗定市| 无为县| 昆山市| 灌云县| 徐水县| 西畴县| 济阳县| 外汇| 偃师市| 天水市| 松江区| 宜良县| 金湖县| 剑阁县| 莫力| 牡丹江市| 会宁县| 文安县| 溧水县| 社旗县| 咸宁市| 南汇区| 赤城县| 麟游县|