朱訓(xùn)?顧昕
摘 要 貝葉斯因子檢驗(yàn)是零假設(shè)顯著性檢驗(yàn)的替代方法,心理學(xué)研究者可使用貝葉斯因子評(píng)估數(shù)據(jù)支持或反對(duì)理論模型的證據(jù)。但是,貝葉斯因子的原理較為復(fù)雜,在實(shí)踐中正確使用和解釋貝葉斯因子存在一定難度。為此,本文介紹貝葉斯因子的定義、用法和解釋?zhuān)Y(jié)合案例展示貝葉斯因子在評(píng)估零假設(shè)、區(qū)間假設(shè)、信息假設(shè)時(shí)的具體應(yīng)用,并討論貝葉斯因子在統(tǒng)計(jì)模型和實(shí)證研究中的應(yīng)用進(jìn)展。研究者在使用貝葉斯因子時(shí)應(yīng)重點(diǎn)關(guān)注先驗(yàn)分布的設(shè)置、貝葉斯因子的解釋、后驗(yàn)?zāi)P透怕省?/p>
關(guān)鍵詞 貝葉斯因子;先驗(yàn)分布;后驗(yàn)?zāi)P透怕剩话l(fā)表偏差
分類(lèi)號(hào) B841
DOI:10.16842/j.cnki.issn2095-5588.2023.09.001
1 引言
零假設(shè)顯著性檢驗(yàn)是當(dāng)前心理學(xué)數(shù)據(jù)分析的傳統(tǒng)方法。然而近二十年來(lái),基于p值的零假設(shè)顯著性檢驗(yàn)受到了廣泛的批評(píng)(王珺等, 2019; 溫忠麟等, 2022; 鐘建軍等, 2017; Hoijtink et al., 2019; Masson, 2011; Wagenmakers, 2007)。首先,顯著性檢驗(yàn)是在假定零假設(shè)為真的情況下進(jìn)行的,因此無(wú)法獲得支持零假設(shè)的證據(jù)(許岳培等,2022; Wagenmakers et al., 2018)。其次,研究者將p值與預(yù)先設(shè)置的顯著性水平作比較,推斷是否拒絕零假設(shè)。二分的統(tǒng)計(jì)推斷可能導(dǎo)致發(fā)表偏差和研究不可重復(fù)的問(wèn)題,獲得顯著性結(jié)果的心理學(xué)實(shí)證研究論文更容易被發(fā)表(胡傳鵬等, 2016; Open Science Collaboration, 2015)。例如,同一研究問(wèn)題的十項(xiàng)研究可能僅一項(xiàng)結(jié)果顯著并被發(fā)表,其余九項(xiàng)得到非顯著性結(jié)果的研究被忽略。此外,顯著性檢驗(yàn)結(jié)果無(wú)法簡(jiǎn)單地進(jìn)行數(shù)據(jù)證據(jù)的更新,多重假設(shè)檢驗(yàn)需要校正顯著性水平(Rouder, 2014)。零假設(shè)顯著性檢驗(yàn)的缺點(diǎn)使得研究者重新思考它的使用和替代方法。比如,Wasserstein和Lazar(2016)強(qiáng)調(diào)何時(shí)、何故以及如何正確地使用p值。Benjamin等(2017)提出將常用的顯著性水平從0.05改為0.005。但是,更嚴(yán)格的顯著性水平無(wú)法解決發(fā)表偏差的問(wèn)題,甚至可能使更多的非顯著性結(jié)果被忽略。Trafimow和Marks(2015)則建議研究者不使用統(tǒng)計(jì)推斷決策,僅考慮描述統(tǒng)計(jì)來(lái)呈現(xiàn)數(shù)據(jù)分析結(jié)果。但是,描述統(tǒng)計(jì)通常無(wú)法直接回答研究問(wèn)題。
零假設(shè)顯著性檢驗(yàn)的另一種替代方法是貝葉斯因子檢驗(yàn)(吳凡等, 2018; Heck et al., 2023)。首先,貝葉斯因子量化了數(shù)據(jù)支持零假設(shè)或備擇假設(shè)的證據(jù),這為統(tǒng)計(jì)推斷提供了更多信息。為了控制發(fā)表偏差問(wèn)題,貝葉斯因子可不作二分統(tǒng)計(jì)推斷,僅報(bào)告研究假設(shè)得到的數(shù)據(jù)證據(jù)(Hoijtink et al., 2019)。其次,貝葉斯因子可以同時(shí)評(píng)估多個(gè)假設(shè)或模型,且無(wú)需多重檢驗(yàn)調(diào)整。原因是貝葉斯因子不預(yù)先控制I類(lèi)錯(cuò)誤,不需要調(diào)整顯著性水平。最后,貝葉斯因子可以通過(guò)數(shù)據(jù)的不斷收集更新支持或反對(duì)假設(shè)的證據(jù),即貝葉斯更新。盡管貝葉斯因子不控制I類(lèi)和II類(lèi)錯(cuò)誤率,但研究者仍可以通過(guò)先驗(yàn)分布的設(shè)置調(diào)整貝葉斯因子檢驗(yàn)的I類(lèi)和II類(lèi)錯(cuò)誤率(Gu et al., 2016)。此外,研究發(fā)現(xiàn)貝葉斯更新使得貝葉斯因子檢驗(yàn)相比零假設(shè)顯著性檢驗(yàn)有相同或更小的I類(lèi)和II類(lèi)錯(cuò)誤率,意味著相同的統(tǒng)計(jì)功效,貝葉斯因子檢驗(yàn)的樣本容量要求更低(Sch?nbrodt et al., 2017)。
貝葉斯因子檢驗(yàn)需要設(shè)定假設(shè)模型下的參數(shù)先驗(yàn)分布,不同的先驗(yàn)分布會(huì)影響貝葉斯因子的統(tǒng)計(jì)推斷結(jié)果。Rouder等(2009)使用Jeffreys-Zellner-Siow先驗(yàn),開(kāi)發(fā)了R軟件包BayesFactor用于t檢驗(yàn)、方差分析和回歸分析等模型的零假設(shè)和備擇假設(shè)評(píng)估。Mulder等(2012)使用最小訓(xùn)練樣本定義先驗(yàn),開(kāi)發(fā)了BIEMS軟件用于假設(shè)檢驗(yàn)和模型評(píng)估。Gu等(2018)使用部分樣本似然函數(shù)設(shè)置先驗(yàn),開(kāi)發(fā)了R軟件包bain用于零假設(shè)、區(qū)間假設(shè)、次序假設(shè)等的評(píng)估與比較。該軟件的適用模型廣泛,包括多元正態(tài)線性模型、廣義線性模型、隨機(jī)效應(yīng)模型、結(jié)構(gòu)方程模型等(Hoijtink et al., 2019; Van Lissa et al., 2021)。當(dāng)然,能夠計(jì)算貝葉斯因子評(píng)估假設(shè)或模型的軟件工具還有很多(JASP Team, 2020)。
目前,已有許多文獻(xiàn)從不同視角介紹貝葉斯因子,推廣了其在心理學(xué)研究中的應(yīng)用(Hoijtink et al., 2019; Schmalz et al., 2023; Wagenmakers et al., 2010)。在國(guó)內(nèi)心理學(xué)研究中,胡傳鵬等(2018)介紹了貝葉斯因子的原理、解釋及其在特定軟件JASP中的實(shí)現(xiàn)。吳凡等(2018)重點(diǎn)闡釋了貝葉斯因子的原理、優(yōu)勢(shì)和計(jì)算。但是,以往研究未涉及貝葉斯因子在零假設(shè)、區(qū)間假設(shè)、次序假設(shè)檢驗(yàn)中的具體應(yīng)用,也沒(méi)有討論貝葉斯因子在具體統(tǒng)計(jì)模型中的研究進(jìn)展。為此,本研究結(jié)合數(shù)據(jù)分析實(shí)例,闡述貝葉斯因子的基本方法和實(shí)際應(yīng)用,并討論貝葉斯因子在統(tǒng)計(jì)模型和實(shí)證應(yīng)用中的進(jìn)展。
2 貝葉斯因子
本節(jié)將借助一個(gè)簡(jiǎn)單的例子介紹貝葉斯因子的相關(guān)概念,關(guān)于貝葉斯因子更詳細(xì)的理論介紹可參考Kass和Raftery(1995)。樣例數(shù)據(jù)來(lái)自Bem(2011)提出的關(guān)于超感知覺(jué)(ESP)是否存在的實(shí)驗(yàn)。實(shí)驗(yàn)共有n=40名被試,每人先看兩張卡片,一張正面有數(shù)字,另一張正面有特殊圖片,然后猜測(cè)哪張卡片上有特殊圖片。實(shí)驗(yàn)得到x=26人選擇了正面為圖片的卡片。根據(jù)研究問(wèn)題,構(gòu)建零假設(shè)表示被試猜對(duì)的概率為50%,即ESP不存在;備擇假設(shè)表示被試猜對(duì)的概率不等于50%,即ESP存在。更具體地,在零假設(shè)下可建立模型
M1:x~Binomial(n=40,θ=0.5)
模型假設(shè)成功的次數(shù)服從二項(xiàng)分布,并且猜測(cè)正確的概率為θ=0.5;在備擇假設(shè)下可建立模型
M2:x~Binomial(n=40,θ≠0.5)
該模型表示正確選擇的概率θ不等于0.5。頻率統(tǒng)計(jì)通常通過(guò)估計(jì)參數(shù)θ,并計(jì)算p值或置信區(qū)間進(jìn)行推斷。比如在上述例子中參數(shù)估計(jì)值為=26/40=0.65,95%置信區(qū)間為[0.48,0.79],p值為0.096,因此在α=0.05的顯著性水平下,模型M1不能被拒絕。此時(shí),由于顯著性檢驗(yàn)無(wú)法接受零假設(shè),研究者無(wú)法得到任何結(jié)論。
貝葉斯統(tǒng)計(jì)推斷使用貝葉斯因子量化數(shù)據(jù)對(duì)兩個(gè)競(jìng)爭(zhēng)假設(shè)或模型的支持程度,計(jì)算貝葉斯因子需要指定各模型下參數(shù)θ的先驗(yàn)分布。先驗(yàn)分布反映了觀測(cè)數(shù)據(jù)之前各模型下參數(shù)θ的可能取值及概率。模型M1指定θ恰好等于0.5,相應(yīng)的先驗(yàn)分布也指定θ=0.5是唯一的取值。然而,模型M2并沒(méi)有指定θ,參數(shù)θ≠0.5需要設(shè)定先驗(yàn)分布量化預(yù)期效應(yīng)大小的不確定性。
先驗(yàn)分布的設(shè)定是貝葉斯統(tǒng)計(jì)的重點(diǎn)和難點(diǎn)。研究者既可以指定主觀的先驗(yàn)分布,也可以設(shè)置默認(rèn)的先驗(yàn)分布(Heck et al., 2023)。主觀先驗(yàn)反映研究者的主觀信念,比如相信ESP的研究者可以指定均勻分布θ~Uniform(0.5,0.6),表示θ的取值在[0.5,0.6]之間且可能性相等。該先驗(yàn)反映了如果ESP存在,正確選擇卡片的概率略大于隨機(jī)選擇的概率0.5。一般來(lái)說(shuō),主觀先驗(yàn)分布是模型的擴(kuò)展,將M1與M2的比較變?yōu)棣?0.5與θ~Uniform(0.5,0.6)的比較。默認(rèn)先驗(yàn)分布通常在先驗(yàn)信息不存在時(shí)使用,研究者將得到客觀的、完全基于數(shù)據(jù)的貝葉斯推斷。比如,當(dāng)研究者不知道θ的可能取值時(shí),可設(shè)定θ~Uniform(0,1),即概率θ在0到1區(qū)間內(nèi)取任何值的概率相等。
在指定先驗(yàn)分布后,貝葉斯因子需要計(jì)算每個(gè)模型下數(shù)據(jù)的邊緣似然函數(shù)(marginal likelihood,ML)。比如,邊緣似然ML(x=26|M)是給定特定模型的情況下,在n=40次試驗(yàn)中觀測(cè)到x=26次正確猜測(cè)的概率。邊緣似然值越大,模型結(jié)合先驗(yàn)對(duì)數(shù)據(jù)的預(yù)測(cè)效果越好。在計(jì)算兩個(gè)模型的邊緣似然函數(shù)后,其貝葉斯因子可由下式計(jì)算:
因此,貝葉斯因子直觀地比較了兩個(gè)模型對(duì)數(shù)據(jù)的預(yù)測(cè)能力。
貝葉斯因子可以解釋為數(shù)據(jù)支持兩個(gè)模型的相對(duì)程度。如果貝葉斯因子等于1,說(shuō)明數(shù)據(jù)對(duì)模型M1和M2的支持程度相等;如果貝葉斯因子等于5,表明數(shù)據(jù)對(duì)模型M1的支持程度是M2的5倍;如果貝葉斯因子等于0.2,意味著數(shù)據(jù)對(duì)模型M2的支持程度是M1的5倍。已有研究給出解釋貝葉斯因子的一般準(zhǔn)則(胡傳鵬等, 2018; Kass & Raftery, 1995),并推薦使用3或1/3作為閾值推斷模型是否得到數(shù)據(jù)的支持。若BF12>3,則存在證據(jù)表明數(shù)據(jù)支持模型M1;若BF12<1/3,則數(shù)據(jù)支持模型M2;若1/3<BF12<3,則沒(méi)有足夠的證據(jù)表明數(shù)據(jù)支持任一模型。但是,以3或1/3為閾值的貝葉斯因子同樣會(huì)產(chǎn)生引言中提到的發(fā)表偏差和研究不可重復(fù)的問(wèn)題(Tendeiro & Kiers, 2019)。比如,當(dāng)M1是所期望的模型時(shí),貝葉斯因子BF12>3的研究結(jié)果更有可能被發(fā)表。
為此,統(tǒng)計(jì)學(xué)者提倡不使用貝葉斯因子作二分推斷,僅呈現(xiàn)貝葉斯因子量化數(shù)據(jù)支持模型的程度(Hoijtink et al., 2019)。與顯著性檢驗(yàn)不同的是,貝葉斯因子相比于p值有更具體的含義,故不需要形式上的閾值。如果BF12=2.5,研究者僅需報(bào)告M1得到的數(shù)據(jù)支持程度是M2的2.5倍。當(dāng)然,如果BF12=100,那么研究者自然地認(rèn)為數(shù)據(jù)支持M1的證據(jù)是可信的。如果BF12在1附近,則通常認(rèn)為貝葉斯因子不偏向任何模型。
貝葉斯因子的另一種表達(dá)是后驗(yàn)?zāi)P透怕时扰c先驗(yàn)?zāi)P透怕时鹊谋戎担?/p>
因此,貝葉斯因子可以隨著數(shù)據(jù)的收集不斷更新研究者對(duì)模型的信念。在沒(méi)有先驗(yàn)信念時(shí),研究者可以設(shè)置相等的模型先驗(yàn)概率,即P(M1)=P(M2)=0.5。這時(shí),貝葉斯因子等于模型后驗(yàn)概率的比值。后驗(yàn)?zāi)P透怕时硎驹谟^測(cè)數(shù)據(jù)后,研究者對(duì)模型選擇的信念。比如P(M1|x=26)=0.6表示M1是最佳模型的概率為60%。另外,后驗(yàn)?zāi)P透怕室部杀硎矩惾~斯錯(cuò)誤概率(Bayesian error probability)。與頻率統(tǒng)計(jì)的I類(lèi)和II類(lèi)錯(cuò)誤率不同,貝葉斯錯(cuò)誤概率是在真實(shí)模型未知的情況下,分析數(shù)據(jù)后選擇模型的錯(cuò)誤率。若P(M1|x=26)=0.6,則表示選擇模型M1可能出錯(cuò)的概率為1-0.6=0.4。因此,后驗(yàn)?zāi)P透怕试u(píng)估了貝葉斯因子檢驗(yàn)的不確定性。
3 貝葉斯假設(shè)檢驗(yàn)
3.1 應(yīng)用案例
貝葉斯因子可用于檢驗(yàn)零假設(shè)、區(qū)間假設(shè)、信息假設(shè)等。本節(jié)引入應(yīng)用案例,并在之后的3.2、3.3、3.4節(jié)結(jié)合案例展示貝葉斯因子在以上假設(shè)檢驗(yàn)中的具體應(yīng)用。
案例采用兒童教育電視節(jié)目《芝麻街》(Sesame Street)數(shù)據(jù)(Pituch & Stevens, 2016)。《芝麻街》是教授3~5歲兒童學(xué)前技能的動(dòng)畫(huà)片,該數(shù)據(jù)包含N=240名年齡在34到69個(gè)月的兒童,其中男孩115名,占比47.9%。變量包括兒童觀看節(jié)目后的數(shù)字測(cè)驗(yàn)得分(均值M=29.45,標(biāo)準(zhǔn)差SD=12.59)、觀看節(jié)目前的數(shù)字測(cè)驗(yàn)得分(均值M=20.76,標(biāo)準(zhǔn)差SD=(10.62)、詞匯測(cè)驗(yàn)得分(均值M=46.80,標(biāo)準(zhǔn)差SD=16.08)、年齡(均值M=51.01,標(biāo)準(zhǔn)差SD=6.29)等。該數(shù)據(jù)集可在R軟件包bain中找到。圖1給出了變量的相關(guān)系數(shù)矩陣熱圖。
研究假設(shè)包括:(1)男孩和女孩的數(shù)字測(cè)驗(yàn)后測(cè)平均得分不存在差異。(2)兒童在觀看《芝麻街》后的數(shù)字測(cè)驗(yàn)平均得分高于前測(cè)平均得分。(3)兒童數(shù)字測(cè)驗(yàn)前測(cè)得分對(duì)數(shù)字測(cè)驗(yàn)后測(cè)得分的影響比詞匯測(cè)驗(yàn)得分大,而詞匯測(cè)驗(yàn)得分的影響又比年齡大。
3.2 貝葉斯零假設(shè)檢驗(yàn)
研究者通常通過(guò)證偽零假設(shè)獲得支持研究理論的證據(jù)。零假設(shè)是對(duì)總體參數(shù)的精確表述,比如零假設(shè)H0∶μ1=μ2表示實(shí)驗(yàn)組與對(duì)照組的均值完全相等。檢驗(yàn)零假設(shè)需要將其與備擇假設(shè)相比,備擇假設(shè)與零假設(shè)對(duì)立互斥,比如備擇假設(shè)H1∶μ1≠μ2表示實(shí)驗(yàn)組與對(duì)照組的均值不相等。這里的一個(gè)問(wèn)題是,零假設(shè)是具體的,可使用μ1-μ2=0的先驗(yàn)分布定義,但是備擇假設(shè)非常模糊,我們并不知道均值的具體差異是多少。頻率統(tǒng)計(jì)推斷常以概率的方式表達(dá)備擇假設(shè),如μ1-μ2是服從正態(tài)分布的隨機(jī)值。類(lèi)似地,貝葉斯統(tǒng)計(jì)推斷通過(guò)設(shè)置參數(shù)的先驗(yàn)分布定義備擇假設(shè),如設(shè)置μ1-μ2的正態(tài)先驗(yàn)分布。在定義零假設(shè)和備擇假設(shè)下μ1-μ2的先驗(yàn)分布后,即可計(jì)算貝葉斯因子比較數(shù)據(jù)對(duì)零假設(shè)與備擇假設(shè)的相對(duì)支持程度。
貝葉斯零假設(shè)檢驗(yàn)相較于傳統(tǒng)零假設(shè)顯著性檢驗(yàn)有著諸多優(yōu)點(diǎn)。首先,貝葉斯檢驗(yàn)可以量化數(shù)據(jù)對(duì)零假設(shè)的支持,而顯著性檢驗(yàn)只能拒絕或不拒絕零假設(shè),不能得到支持零假設(shè)的證據(jù)。其次,在收集數(shù)據(jù)的同時(shí),貝葉斯檢驗(yàn)可以不斷更新對(duì)所關(guān)注假設(shè)的支持程度。當(dāng)計(jì)劃和執(zhí)行一項(xiàng)研究時(shí),如果所關(guān)注的理論假設(shè)沒(méi)有得到令人信服的數(shù)據(jù)證據(jù)支持,在貝葉斯范式中,研究者可以選擇繼續(xù)收集更多的數(shù)據(jù)并更新對(duì)假設(shè)的評(píng)估。最后,貝葉斯零假設(shè)檢驗(yàn)不控制I類(lèi)和II類(lèi)錯(cuò)誤率,即在觀測(cè)數(shù)據(jù)前,從總體中重復(fù)抽樣的決策錯(cuò)誤率(I類(lèi)和II類(lèi)錯(cuò)誤在觀測(cè)數(shù)據(jù)之前被確定)。相反,貝葉斯檢驗(yàn)控制貝葉斯錯(cuò)誤概率,即在觀測(cè)數(shù)據(jù)后,根據(jù)數(shù)據(jù)信息做出錯(cuò)誤決策的概率(貝葉斯錯(cuò)誤概率不考慮從總體中重復(fù)抽樣會(huì)發(fā)生什么,而是完全取決于數(shù)據(jù)本身)。因此,研究者在實(shí)驗(yàn)設(shè)計(jì)時(shí)無(wú)需設(shè)置顯著性水平、統(tǒng)計(jì)功效閾值等與I類(lèi)和II類(lèi)錯(cuò)誤率相關(guān)的指標(biāo)。
當(dāng)然,貝葉斯零假設(shè)檢驗(yàn)對(duì)使用者提出了更高的要求。貝葉斯檢驗(yàn)需要思考備擇假設(shè)的實(shí)際含義是什么(Heck et al., 2023)。與傳統(tǒng)顯著性檢驗(yàn)只需指定零假設(shè)不同,貝葉斯檢驗(yàn)比較兩個(gè)實(shí)實(shí)在在的假設(shè),因此必須明確備擇假設(shè)的含義。如在H0∶μ1-μ2=0的零假設(shè)和H1∶μ1-μ2=0.5的備擇假設(shè)下,貝葉斯因子BF01=5表示總體效應(yīng)為0的模型受到數(shù)據(jù)的支持程度是效應(yīng)為0.5的模型的5倍。然而,如果將零假設(shè)與H2∶μ1-μ2=0.2進(jìn)行比較,我們可能得到BF02=0.5,說(shuō)明備擇假設(shè)H2受到的數(shù)據(jù)支持更多。這一現(xiàn)象表明貝葉斯零假設(shè)檢驗(yàn)比零假設(shè)顯著性檢驗(yàn)更為復(fù)雜,研究者需要指定備擇假設(shè)下效應(yīng)的先驗(yàn)分布來(lái)定義備擇假設(shè)是什么。當(dāng)然上面兩個(gè)例子中的備擇假設(shè)都是不合適的,與零假設(shè)相對(duì)的備擇假設(shè)應(yīng)該包括參數(shù)或效應(yīng)的所有可能取值。為此,心理統(tǒng)計(jì)學(xué)者提出默認(rèn)先驗(yàn)定義備擇假設(shè),如標(biāo)準(zhǔn)化均值差異的柯西分布(Rouder et al., 2009)、近似正態(tài)分布(Gu et al., 2018)等。此外,根據(jù)心理學(xué)研究的實(shí)際情況,出現(xiàn)在零假設(shè)周?chē)男?yīng)取值更有可能出現(xiàn),比如對(duì)于標(biāo)準(zhǔn)化均值差異,μ1-μ2=0.2顯然比μ1-μ2=20更有可能出現(xiàn)。在備擇假設(shè)下,若預(yù)期的效應(yīng)量較小,則先驗(yàn)分布的方差較小,可能的取值在零假設(shè)附近;若預(yù)期的效應(yīng)量較大,則先驗(yàn)分布的方差較大,可能的取值遠(yuǎn)離零假設(shè)。
研究者已開(kāi)發(fā)出方便心理學(xué)者使用的貝葉斯檢驗(yàn)軟件,包括SPSS、JASP、R、Python在內(nèi)的諸多軟件均支持貝葉斯零假設(shè)檢驗(yàn)。本文以R軟件包bain(Gu et al., 2019)為例,分析3.1節(jié)應(yīng)用案例中的研究假設(shè)(1):男孩和女孩的數(shù)字測(cè)驗(yàn)后測(cè)平均得分不存在差異。根據(jù)研究問(wèn)題確定零假設(shè)H0∶μ男=μ女和備擇假設(shè)H1∶μ男≠μ女,其中μ男和μ女分別表示男孩和女孩的數(shù)字測(cè)驗(yàn)后測(cè)平均得分。隨后,使用兩獨(dú)立樣本t檢驗(yàn)分析數(shù)據(jù),得到樣本均值差為男-女=1.24,95%置信區(qū)間為[-1.97, 4.45],t值為0.76。零假設(shè)顯著性檢驗(yàn)的結(jié)果為p=0.447,在α=0.05的顯著性水平下無(wú)法拒絕零假設(shè),沒(méi)有得到任何結(jié)論。貝葉斯因子可以作為顯著性檢驗(yàn)p值的替代,在呈現(xiàn)統(tǒng)計(jì)量t值后,報(bào)告貝葉斯因子以及模型的后驗(yàn)概率,解釋假設(shè)被支持的數(shù)據(jù)證據(jù)和不確定性。在案例中,貝葉斯零假設(shè)檢驗(yàn)的結(jié)果為BF01=11.58,表明數(shù)據(jù)支持零假設(shè)H0的證據(jù)是備擇假設(shè)H1的11.58倍,即男孩和女孩的數(shù)字測(cè)驗(yàn)后測(cè)平均得分不存在差異的數(shù)據(jù)證據(jù)是存在差異的11.58倍。通過(guò)BF01又可以計(jì)算零假設(shè)的后驗(yàn)?zāi)P透怕蕿锽F01/(1+BF01)=0.92,表示在觀測(cè)數(shù)據(jù)后,零假設(shè)正確的概率為92%,也表明錯(cuò)誤接受零假設(shè)的概率為8%。該數(shù)據(jù)分析的R代碼見(jiàn)附錄。
3.3 貝葉斯區(qū)間假設(shè)檢驗(yàn)
貝葉斯檢驗(yàn)通常比較零假設(shè)和備擇假設(shè)(Wagenmakers et al., 2018)。但是,研究者應(yīng)該思考零假設(shè)是否能準(zhǔn)確反映研究理論。例如,均值相等的兩個(gè)總體是否真的存在?零假設(shè)所描述的“沒(méi)有任何差異”“沒(méi)有任何效應(yīng)”能否準(zhǔn)確反映真實(shí)總體(Cohen, 1994)。人們更接受總體參數(shù)“接近于零”或者不大于指定的效應(yīng)量的假設(shè)。這時(shí),區(qū)間假設(shè)更能反映研究理論,即總體差異或效應(yīng)是否在某個(gè)區(qū)間范圍內(nèi)(Heck et al., 2023)。
常見(jiàn)的涉及區(qū)間假設(shè)的設(shè)計(jì)類(lèi)型是優(yōu)效性設(shè)計(jì),在這種設(shè)計(jì)中,零假設(shè)(例如,藥物或干預(yù)沒(méi)有效果)與備擇假設(shè)(例如,藥物或干預(yù)有一些積極的效果)形成對(duì)比。經(jīng)典頻率統(tǒng)計(jì)推斷通常使用單側(cè)t檢驗(yàn)分析此類(lèi)設(shè)計(jì)下的實(shí)驗(yàn)數(shù)據(jù)。比如檢驗(yàn)零假設(shè)H0∶μ=0與備擇假設(shè)H1∶μ>0。與優(yōu)效性設(shè)計(jì)相對(duì)的是非劣效設(shè)計(jì),該設(shè)計(jì)的目標(biāo)是證明新的治療藥物或干預(yù)方法不比現(xiàn)有的差,需要在觀測(cè)數(shù)據(jù)之前設(shè)置非劣效臨界值,如μ0。同樣通過(guò)單側(cè)t檢驗(yàn)比較“零假設(shè)”H0∶μ<μ0與備擇假設(shè)H1∶μ≥μ0。使用區(qū)間假設(shè)的另一種設(shè)計(jì)類(lèi)型是等價(jià)設(shè)計(jì),零假設(shè)被定義在0附近的小區(qū)間[-μ0,+μ0],即H0∶-μ0≤μ≤μ0,備擇假設(shè)與區(qū)間假設(shè)對(duì)立,即H1∶μ<-μ0或μ>μ0。
以上三種設(shè)計(jì)下的區(qū)間假設(shè)都可以使用貝葉斯因子評(píng)估(Van Ravenzwaaij et al., 2019)。區(qū)間假設(shè)的范圍大小根據(jù)總體效應(yīng)大小指定,備擇假設(shè)的先驗(yàn)分布可選取以零為中心的柯西分布(Rouder et al., 2009)或正態(tài)分布(Hoijtink et al., 2019)。具體而言,對(duì)于優(yōu)效性設(shè)計(jì)的備擇假設(shè),先驗(yàn)分布可使用截?cái)嗫挛鞣植?,使得?fù)值的分布概率為0,進(jìn)而計(jì)算零假設(shè)與單邊假設(shè)的貝葉斯因子。與顯著性檢驗(yàn)類(lèi)似,貝葉斯單邊檢驗(yàn)比雙邊檢驗(yàn)更容易拒絕零假設(shè),具有更大的統(tǒng)計(jì)功效。對(duì)于非劣性設(shè)計(jì)和等價(jià)設(shè)計(jì),兩種假設(shè)都是區(qū)間假設(shè),都可使用以零為中心的截?cái)嗫挛飨闰?yàn),并計(jì)算兩個(gè)互補(bǔ)假設(shè)的貝葉斯因子。
考慮3.1節(jié)應(yīng)用案例,根據(jù)研究假設(shè)(2):兒童在觀看《芝麻街》后的數(shù)字測(cè)驗(yàn)平均得分高于前測(cè)平均得分,構(gòu)造區(qū)間假設(shè)H0∶μ后>μ前和H1∶μ后≤μ前,其中μ前和μ后分別表示兒童數(shù)字測(cè)驗(yàn)前測(cè)和后測(cè)平均得分。使用配對(duì)樣本t檢驗(yàn)分析數(shù)據(jù),得到樣本均值差為后-前=8.69,95%置信區(qū)間為[7.48,9.90],t值為t=14.15。貝葉斯區(qū)間假設(shè)檢驗(yàn)的結(jié)果為BF01=2.29×1014,H0的后驗(yàn)?zāi)P透怕始s等于100%,選擇H0的貝葉斯錯(cuò)誤概率約等于0。研究者可以很確信地給出兒童數(shù)字測(cè)驗(yàn)后測(cè)平均得分高于前測(cè)平均得分的結(jié)論。數(shù)據(jù)分析的R代碼見(jiàn)附錄。
3.4 貝葉斯信息假設(shè)檢驗(yàn)
第3.2、3.3節(jié)討論了零假設(shè)和區(qū)間假設(shè)檢驗(yàn)的貝葉斯方法。正如前文所述,研究者不應(yīng)該不假思索地使用零假設(shè)。很多情況下即使拒絕了零假設(shè),也只能說(shuō)“發(fā)生了一些事情,但不清楚是什么”。因此,研究者應(yīng)該直接評(píng)估能夠準(zhǔn)確反映研究期望的假設(shè)。研究期望可能是“男孩和女孩的數(shù)學(xué)自我概念不存在差異”,可能是“接受藥物治療的患者疼痛感輕于接受安慰劑的患者”,也可能是“自我意識(shí)是影響大學(xué)生幸福感的最重要因素,其次是學(xué)校學(xué)習(xí)和人際交往”。以上研究期望可以用H0∶μ男=μ女、H1∶μ藥<μ安、H2∶μ自>μ學(xué)>μ人等假設(shè)表達(dá)。這里,H0是零假設(shè),H1是區(qū)間假設(shè),H2被稱(chēng)為次序假設(shè),表示效應(yīng)的大小排序。零假設(shè)、區(qū)間假設(shè)和次序假設(shè)都可以納為信息假設(shè)的范疇(Hoijtink et al., 2019)。信息假設(shè)與無(wú)信息的備擇假設(shè)對(duì)應(yīng),用來(lái)精確表達(dá)研究理論與期望。
信息假設(shè)使用等式和不等式(“等于”“小于”或“大于”)對(duì)現(xiàn)有模型參數(shù)進(jìn)行約束,模型參數(shù)可以是總體均值、方差、回歸系數(shù)、因子負(fù)荷等。例如,若μ代表四個(gè)連續(xù)的測(cè)量平均值,則μ1-μ2>μ2-μ3>μ3-μ4說(shuō)明平均值的差異隨著時(shí)間的推移而減??;若μ代表兩因素方差分析的均值,則μ11-μ12>μ21-μ22表示存在特定的交互效應(yīng);若μ代表標(biāo)準(zhǔn)化回歸系數(shù),則μ1>μ2>μ3表示自變量對(duì)因變量影響的大小排序;若μ代表因子負(fù)荷,則μ1>0.5,... ,μ5>0.5表示每個(gè)因子負(fù)荷都大于0.5。此外,信息假設(shè)也可包含非線性約束 (Klugkist et al., 2010),比如若μ代表列聯(lián)表中的概率,μ11μ22/μ12μ21>1表示優(yōu)勢(shì)比大于1,即兩個(gè)分類(lèi)變量存在關(guān)聯(lián)。信息假設(shè)還可以表述變量的相對(duì)重要性,即變量對(duì)模型擬合的重要性大小(朱訓(xùn), 顧昕, 2023; Gu, 2021)??傊黝?lèi)明確的研究理論與期望都可以用信息假設(shè)表達(dá)。
信息假設(shè)既可以使用傳統(tǒng)頻率統(tǒng)計(jì)p值評(píng)估(Silvapulle & Sen, 2004),也可以使用貝葉斯因子評(píng)估(Gu et al., 2014)。p值可以檢驗(yàn)零假設(shè)與備擇假設(shè)、零假設(shè)與其他信息假設(shè),但是無(wú)法比較除零假設(shè)以外的相互競(jìng)爭(zhēng)的信息假設(shè)。而貝葉斯因子則可以評(píng)估兩個(gè)信息假設(shè)得到的相對(duì)數(shù)據(jù)證據(jù)。當(dāng)只評(píng)估一個(gè)信息假設(shè)時(shí),貝葉斯因子可將其與互補(bǔ)假設(shè)相比較。例如μ1>μ2>μ3的互補(bǔ)假設(shè)為包含μ2>μ1>μ3、μ2>μ3>μ1等其他五個(gè)次序約束的假設(shè),記為互補(bǔ)假設(shè)HC。信息假設(shè)的先驗(yàn)分布可設(shè)置截?cái)嘞闰?yàn),與無(wú)約束的備擇假設(shè)具有相同的先驗(yàn)形式。比如,若設(shè)定備擇假設(shè)下μ1,μ2,μ3的先驗(yàn)為多元正態(tài)分布,則信息假設(shè)μ1>μ2>μ3下的先驗(yàn)分布為限制在該約束條件下的截?cái)喽嘣龖B(tài)分布。
回顧3.1節(jié)應(yīng)用案例,評(píng)估研究假設(shè)(3):兒童數(shù)字測(cè)驗(yàn)前測(cè)得分對(duì)數(shù)字測(cè)驗(yàn)后測(cè)得分的影響比詞匯測(cè)驗(yàn)得分大,而詞匯測(cè)驗(yàn)得分的影響又比年齡大。先建立回歸模型
數(shù)字后測(cè)得分=β0+β1數(shù)字前測(cè)得分+β2詞匯測(cè)驗(yàn)得分+β3年齡
其中β0表示截距,β1,β2,β3表示相應(yīng)的回歸系數(shù)。隨后根據(jù)研究假設(shè)構(gòu)建信息假設(shè)H1∶1 >2>3,其中代表標(biāo)準(zhǔn)化回歸系數(shù)。注意,比較自變量影響大小需使用標(biāo)準(zhǔn)化系數(shù)。分析數(shù)據(jù)得到標(biāo)準(zhǔn)化回歸系數(shù)1,2,3的估計(jì)值分別為0.57,0.15,0.06,95%置信區(qū)間分別為[0.46,0.67],[0.04,0.26],[-0.04,0.16]。將信息假設(shè)H1與互補(bǔ)假設(shè)HC相比較,計(jì)算貝葉斯因子得到BF1C=38.77,表明數(shù)據(jù)支持信息假設(shè)H1的證據(jù)是其互補(bǔ)假設(shè)的38.77倍,意味著有很強(qiáng)的證據(jù)表明在數(shù)字測(cè)驗(yàn)后測(cè)得分的影響因素中,前測(cè)得分的影響大于詞匯測(cè)驗(yàn)得分,又大于年齡。數(shù)據(jù)分析R代碼見(jiàn)附錄。
4 貝葉斯因子的應(yīng)用進(jìn)展
研究者使用t檢驗(yàn)驗(yàn)證正態(tài)總體均值是否等于預(yù)設(shè)值、兩個(gè)正態(tài)總體均值是否存在差異等研究問(wèn)題。貝葉斯t檢驗(yàn)已有完善的統(tǒng)計(jì)方法和軟件工具。在心理學(xué)領(lǐng)域,研究者提出設(shè)定t檢驗(yàn)的效應(yīng)量服從柯西先驗(yàn)分布(Rouder et al., 2009),但是基于柯西先驗(yàn)的貝葉斯因子無(wú)顯式表達(dá)式,計(jì)算較為困難。為此,Morey等(2011)在柯西先驗(yàn)分布下,使用馬爾科夫鏈蒙特卡洛(MCMC)抽樣方法有效估計(jì)t檢驗(yàn)的貝葉斯因子。此外,在該方法的基礎(chǔ)上研究者提出有信息的貝葉斯t檢驗(yàn),展示如何根據(jù)效應(yīng)量的先驗(yàn)信息設(shè)定柯西先驗(yàn)分布(Gronau et al., 2019)。需要指出的是,柯西先驗(yàn)分布不是貝葉斯t檢驗(yàn)的唯一選擇。事實(shí)上,對(duì)于t檢驗(yàn)的總體均值和方差,正態(tài)-逆伽馬共軛先驗(yàn)也應(yīng)用廣泛。Gu等(2016)比較了不同先驗(yàn)分布下,貝葉斯檢驗(yàn)的I類(lèi)和II類(lèi)錯(cuò)誤率,并指出可通過(guò)調(diào)整先驗(yàn)參數(shù)控制錯(cuò)誤率。
方差分析用于三個(gè)及以上總體均值的比較,是實(shí)驗(yàn)心理學(xué)常用的統(tǒng)計(jì)方法。在貝葉斯方差分析中,Rouder等(2012)將柯西先驗(yàn)分布拓展到多正態(tài)總體均值,并使用MCMC抽樣方法估計(jì)貝葉斯因子。該方法可用于固定效應(yīng)、隨機(jī)效應(yīng)、混合效應(yīng)的方差分析,同時(shí)允許連續(xù)協(xié)變量的存在。而Wetzels等(2012)基于正態(tài)-逆伽馬先驗(yàn),介紹了貝葉斯方差分析,并討論了貝葉斯因子的計(jì)算、性質(zhì)和應(yīng)用。此外,對(duì)于比較多個(gè)正態(tài)總體均值大小的次序假設(shè),貝葉斯方差分析的優(yōu)勢(shì)更為明顯。Klugkist等(2005)最早提出均值次序假設(shè)的貝葉斯因子檢驗(yàn),將貝葉斯因子表示為次序假設(shè)限制下的模型擬合度與復(fù)雜度之比。
回歸分析是推斷多變量關(guān)系必不可少的統(tǒng)計(jì)方法。一方面,貝葉斯回歸分析需指定回歸系數(shù)和殘差方差的先驗(yàn)分布,最常用的g先驗(yàn)設(shè)置回歸系數(shù)β在殘差方差σ2給定的條件下服從正態(tài)分布β|σ2~N(0,gσ2(X'X)-1),其中X表示自變量矩陣,g為超參數(shù)(Liang et al., 2008)。在g先驗(yàn)分布下,貝葉斯因子有顯示表達(dá)式,計(jì)算方便。Rouder和Morey(2012)將g先驗(yàn)下的貝葉斯因子推廣到心理學(xué)研究應(yīng)用中,為貝葉斯因子檢驗(yàn)提供了軟件工具。另一方面,變量選擇是回歸分析的關(guān)鍵步驟,旨在找出對(duì)因變量有實(shí)際影響的自變量,排除干擾或冗余變量。與假設(shè)檢驗(yàn)不同,變量選擇需要比較多個(gè)模型,貝葉斯評(píng)價(jià)指標(biāo)為后驗(yàn)?zāi)P透怕省:篁?yàn)?zāi)P透怕时硎緸樨惾~斯因子和先驗(yàn)?zāi)P透怕实某朔e,因此在進(jìn)行貝葉斯變量選擇時(shí),除了要計(jì)算貝葉斯因子,先驗(yàn)?zāi)P透怕实脑O(shè)置也至關(guān)重要。當(dāng)研究者無(wú)任何偏好,且自變量數(shù)目較少時(shí),可設(shè)置各模型的先驗(yàn)概率相等;當(dāng)自變量數(shù)目較多時(shí),則建議使用全貝葉斯(Fully Bayes)方法校正模型先驗(yàn)概率(Gu et al., 2022)。
除了t檢驗(yàn)、方差分析、回歸分析等經(jīng)典模型,貝葉斯因子檢驗(yàn)也已應(yīng)用到列聯(lián)表模型(Klugkist et al., 2010),重復(fù)測(cè)量模型(Mulder et al., 2009),結(jié)構(gòu)方程模型(Van Lissa et al., 2021),多元線性模型(Mulder & Gu, 2022),混合效應(yīng)模型(Van Doorn et al., 2023),高斯圖模型(Williams & Mulder, 2020)等。研究者也開(kāi)發(fā)出多個(gè)統(tǒng)計(jì)軟件支持各類(lèi)模型下的貝葉斯因子計(jì)算,包括R軟件包BayesFactor,bain,BFpack,BayesVarSel,BayestestR等。其中軟件包BayesFactor和bain已集成在可視化統(tǒng)計(jì)軟件JASP中。
不同的貝葉斯因子計(jì)算軟件有不同的先驗(yàn)分布設(shè)置。其中,軟件包BayesFactor設(shè)置備擇假設(shè)下參數(shù)的柯西先驗(yàn)分布,并通過(guò)超參數(shù)調(diào)節(jié)先驗(yàn)方差的大小。默認(rèn)的超參數(shù)將使得95%的先驗(yàn)分布落在社會(huì)科學(xué)研究常用的效應(yīng)量范圍[-1,1]內(nèi)。軟件包bain和BFpack使用部分?jǐn)?shù)據(jù)樣本設(shè)置參數(shù)的共軛先驗(yàn),超參數(shù)為用于先驗(yàn)分布的數(shù)據(jù)樣本比例。默認(rèn)的超參數(shù)將設(shè)置最小訓(xùn)練樣本。此外,軟件包bain正態(tài)近似參數(shù)的后驗(yàn)分布,可用于一般統(tǒng)計(jì)模型的貝葉斯因子計(jì)算,而B(niǎo)Fpack僅限于線性正態(tài)模型的貝葉斯檢驗(yàn)。軟件包BayesVarSel適用于變量選擇,默認(rèn)使用穩(wěn)健g先驗(yàn)設(shè)置回歸系數(shù)的先驗(yàn)分布。軟件包BayestestR需借助其他軟件先獲得參數(shù)的后驗(yàn)分布抽樣,再計(jì)算貝葉斯因子。該軟件包并未提供默認(rèn)的先驗(yàn)分布,但給出了設(shè)置有信息先驗(yàn)的指導(dǎo)。
由于先驗(yàn)分布設(shè)置的差異,不同軟件包可能給出不同的貝葉斯因子。但是,基于默認(rèn)先驗(yàn)的貝葉斯因子通常差異不大,在不考慮閾值的情況下,研究者不會(huì)得到相悖的結(jié)論。而當(dāng)樣本容量較大時(shí),貝葉斯因子具備一致性,不同軟件將給出類(lèi)似的結(jié)果。本文建議研究者在研究設(shè)計(jì)時(shí)明確先驗(yàn)分布和分析軟件,在數(shù)據(jù)分析時(shí)依據(jù)預(yù)先計(jì)劃計(jì)算貝葉斯因子。當(dāng)然,先驗(yàn)分布和分析軟件的選擇往往是主觀的決策,可能影響研究結(jié)果,這些決策被稱(chēng)為“研究者自由度”。需要指出的是,頻率統(tǒng)計(jì)同樣存在研究者自由度,包括顯著性水平的設(shè)定,統(tǒng)計(jì)量的選擇等。比如,對(duì)于相同的研究假設(shè)和數(shù)據(jù),瓦爾德檢驗(yàn)、似然比檢驗(yàn)、bootstrap抽樣方法得到的p值也會(huì)存在差異。因此,盡管研究者試圖客觀,但無(wú)論是頻率統(tǒng)計(jì)還是貝葉斯統(tǒng)計(jì)推斷,都無(wú)法得到完全客觀的結(jié)果。
貝葉斯因子的模型應(yīng)用研究和軟件開(kāi)發(fā)已較為完善,這為貝葉斯因子的實(shí)證應(yīng)用打下了基礎(chǔ)。針對(duì)不同應(yīng)用領(lǐng)域,研究者結(jié)合具體案例闡述了貝葉斯因子數(shù)據(jù)分析的基本方法。例如,在認(rèn)知心理學(xué)領(lǐng)域,Wagenmakers等(2010)給出貝葉斯因子的使用教程,并分析了注意力缺陷多動(dòng)障礙研究的實(shí)證數(shù)據(jù);在實(shí)驗(yàn)心理學(xué)領(lǐng)域,Wetzels等(2011)利用t檢驗(yàn)實(shí)例,展示貝葉斯因子的數(shù)據(jù)分析過(guò)程,并與顯著性檢驗(yàn)p值相比較,結(jié)果顯示兩者得到的數(shù)據(jù)證據(jù)存在差別;在發(fā)展心理學(xué)領(lǐng)域,Van de Schoot等(2014)以人格和人際關(guān)系的交叉滯后模型為例,介紹了貝葉斯數(shù)據(jù)分析策略和結(jié)果報(bào)告范式;在神經(jīng)科學(xué)領(lǐng)域,Keysers等(2020)指出大腦研究明確有效和無(wú)效的實(shí)驗(yàn)操作十分重要,并利用貝葉斯t檢驗(yàn)和方差分析,教程式地展示了貝葉斯因子推斷無(wú)效實(shí)驗(yàn)操作的過(guò)程。這些貝葉斯因子實(shí)證研究教程均在相關(guān)領(lǐng)域得到了廣泛關(guān)注,促進(jìn)了貝葉斯因子在心理學(xué)實(shí)證研究中的應(yīng)用。
在心理學(xué)數(shù)據(jù)分析中,貝葉斯因子有著顯著性檢驗(yàn)不可替代的優(yōu)勢(shì)。與傳統(tǒng)顯著性檢驗(yàn)相比,貝葉斯因子可以得到支持無(wú)效應(yīng)零假設(shè)的證據(jù)。在具體案例中,Keysers等(2020)使用貝葉斯因子得到大鼠前扣帶皮層失活不會(huì)導(dǎo)致非社交性觸發(fā)凍結(jié)行為減少的結(jié)論。此外,貝葉斯因子在推斷研究假設(shè)是否得到數(shù)據(jù)支持的同時(shí),量化數(shù)據(jù)支持假設(shè)的證據(jù)和強(qiáng)度,這也是顯著性檢驗(yàn)所不具備的。比如,Wagenmakers等(2010)根據(jù)貝葉斯因子檢驗(yàn)得出,注意力缺陷多動(dòng)障礙的兒童與正常兒童在威斯康辛卡片分類(lèi)測(cè)驗(yàn)上的表現(xiàn)類(lèi)似,并且支持該結(jié)論的數(shù)據(jù)證據(jù)是反對(duì)該結(jié)論(即表現(xiàn)存在差異)的5倍。
5 總結(jié)與討論
貝葉斯統(tǒng)計(jì)推斷已廣泛應(yīng)用于心理學(xué)數(shù)據(jù)分析(李貴玉, 顧昕, 2021; Van de Schoot et al., 2017)。但是,目前大部分應(yīng)用僅涉及貝葉斯參數(shù)估計(jì),未考慮貝葉斯假設(shè)檢驗(yàn)。參數(shù)估計(jì)和假設(shè)檢驗(yàn)是統(tǒng)計(jì)推斷不可或缺的環(huán)節(jié)。前者關(guān)注特定模型下參數(shù)的估計(jì)值及誤差范圍,解決的是什么樣的參數(shù)值最可信的問(wèn)題;后者比較兩個(gè)或兩個(gè)以上的理論假設(shè),判斷的是哪種理論模型能更準(zhǔn)確地描述數(shù)據(jù)。相比于顯著性檢驗(yàn),貝葉斯檢驗(yàn)在心理學(xué)數(shù)據(jù)分析中的應(yīng)用還不夠廣泛。研究者在計(jì)劃使用貝葉斯因子時(shí)缺乏具體方法、模型和案例指導(dǎo)。為此,本文重點(diǎn)介紹了貝葉斯因子及其應(yīng)用,為研究者正確使用貝葉斯因子評(píng)估零假設(shè)、區(qū)間假設(shè)、信息假設(shè)提供了方法支持。此外,本研究展示了貝葉斯因子在統(tǒng)計(jì)模型和實(shí)證研究中的應(yīng)用進(jìn)展,幫助研究者了解貝葉斯因子的適用模型和應(yīng)用場(chǎng)景。期望本文對(duì)貝葉斯因子的論述能夠推廣其實(shí)際應(yīng)用。
貝葉斯因子檢驗(yàn)為心理學(xué)研究的統(tǒng)計(jì)推斷提供了新方法,但是研究者也可能會(huì)錯(cuò)誤使用、錯(cuò)誤解釋貝葉斯因子。先驗(yàn)分布對(duì)貝葉斯因子至關(guān)重要,它以分布的形式精確表達(dá)研究理論和先驗(yàn)知識(shí)。但是,當(dāng)先驗(yàn)知識(shí)不存在或無(wú)法獲得時(shí),參數(shù)估計(jì)常用的無(wú)信息先驗(yàn)不能用在貝葉斯因子的先驗(yàn)設(shè)置上,否則將導(dǎo)致無(wú)論觀測(cè)數(shù)據(jù)如何,貝葉斯因子永遠(yuǎn)支持零假設(shè)的后果。因此,研究者需要根據(jù)研究問(wèn)題設(shè)置具有實(shí)質(zhì)含義的先驗(yàn),這增加了貝葉斯因子的使用難度。為此,貝葉斯因子檢驗(yàn)軟件給出了默認(rèn)先驗(yàn)設(shè)置,在先驗(yàn)信息缺失的情況下,研究者使用軟件的默認(rèn)設(shè)置即可。
貝葉斯因子作為貝葉斯檢驗(yàn)指標(biāo),能否避免發(fā)表偏差和研究不可重復(fù)的問(wèn)題,取決于研究者如何解釋貝葉斯因子。為方便研究者使用,統(tǒng)計(jì)學(xué)者將貝葉斯因子表達(dá)的數(shù)據(jù)證據(jù)劃分類(lèi)別,如BF12>3表示有令人信服的證據(jù)支持第一個(gè)模型。但是,本文不建議使用嚴(yán)格的貝葉斯因子閾值對(duì)數(shù)據(jù)證據(jù)做二分或三分判斷,更推薦的方法是報(bào)告數(shù)據(jù)支持假設(shè)的相對(duì)證據(jù)。需要注意的是,不作二分推斷的貝葉斯因子能在一定程度上減少發(fā)表偏差的問(wèn)題,但無(wú)法完全避免該問(wèn)題。解決發(fā)表偏差問(wèn)題的一種方法是研究的預(yù)注冊(cè)。預(yù)注冊(cè)要求研究者在收集數(shù)據(jù)之前完成研究設(shè)計(jì)和數(shù)據(jù)分析計(jì)劃,并提交同行評(píng)審。審稿人和期刊根據(jù)研究問(wèn)題的意義和研究設(shè)計(jì)的合理性決定是否接收文章,文章被接收后再開(kāi)展數(shù)據(jù)收集和分析工作。無(wú)論數(shù)據(jù)分析結(jié)果如何,預(yù)期研究假設(shè)是否受到數(shù)據(jù)支持都不影響文章的發(fā)表。但是,預(yù)注冊(cè)對(duì)同行評(píng)審的要求更高,研究設(shè)計(jì)和數(shù)據(jù)分析計(jì)劃的合理性,在收集或分析數(shù)據(jù)之前可能較難判斷。比如,數(shù)據(jù)的正態(tài)性與方差齊次性等可能會(huì)影響統(tǒng)計(jì)方法的選擇。
貝葉斯因子檢驗(yàn)同樣存在不足。首先,貝葉斯因子的原理較為復(fù)雜,不熟悉貝葉斯方法的研究者難以理解。本研究結(jié)合實(shí)例,以較為簡(jiǎn)單的方式闡釋了貝葉斯因子的含義,關(guān)于貝葉斯因子的數(shù)學(xué)原理可參考胡傳鵬等(2018)和Kass和Raftery(1995)。其次,貝葉斯方法需要設(shè)置參數(shù)的先驗(yàn)分布。一方面,對(duì)于主觀先驗(yàn),研究者如何將抽象的先驗(yàn)信息轉(zhuǎn)化為具體的先驗(yàn)分布是貝葉斯方法的難點(diǎn)。盡管已有文獻(xiàn)討論貝葉斯因子檢驗(yàn)的主觀先驗(yàn)分布設(shè)置方法(Gronau et al., 2019),但其應(yīng)用模型十分有限。另一方面,對(duì)于客觀先驗(yàn),貝葉斯因子無(wú)法使用無(wú)信息先驗(yàn),不同默認(rèn)先驗(yàn)下的貝葉斯因子存在差異,研究者面臨選擇。最后,貝葉斯因子的計(jì)算困難,盡管已有許多軟件支持貝葉斯因子的計(jì)算,但在復(fù)雜統(tǒng)計(jì)模型的開(kāi)發(fā)進(jìn)程上還落后于頻率統(tǒng)計(jì)推斷方法。此外,復(fù)雜模型下的貝葉斯因子計(jì)算需要借助MCMC抽樣,計(jì)算效率不如頻率統(tǒng)計(jì)推斷。
貝葉斯因子檢驗(yàn)的未來(lái)研究方向應(yīng)關(guān)注不同默認(rèn)先驗(yàn)的比較與整合,方便研究者理解并選擇合適的先驗(yàn)分布。同時(shí),用戶友好的貝葉斯統(tǒng)計(jì)軟件的開(kāi)發(fā)與優(yōu)化也是未來(lái)研究的重點(diǎn)。盡管目前已有JASP可視化數(shù)據(jù)分析軟件能夠用于貝葉斯數(shù)據(jù)分析,但其功能還不如社會(huì)科學(xué)常用軟件SPSS。最后,統(tǒng)計(jì)方法的學(xué)習(xí)、應(yīng)用和推廣離不開(kāi)課堂教學(xué)和科研訓(xùn)練。期望心理統(tǒng)計(jì)學(xué)者能在日常教學(xué)與學(xué)生培養(yǎng)工作中融入貝葉斯統(tǒng)計(jì)方法。
參考文獻(xiàn)
胡傳鵬, 孔祥禎, Wagenmakers, E.-J., Ly, A., 彭凱平(2018). 貝葉斯因子及其在 JASP 中的實(shí)現(xiàn). 心理科學(xué)進(jìn)展, 26(6), 951-965.
胡傳鵬, 王非, 宋夢(mèng)迪, 隋潔, 彭凱平 (2016). 心理學(xué)研究中的可重復(fù)性問(wèn)題: 從危機(jī)到契機(jī). 心理科學(xué)進(jìn)展, 24(9), 1504-1518.
李貴玉, 顧昕 (2021). 貝葉斯統(tǒng)計(jì)方法的應(yīng)用與現(xiàn)狀. 心理學(xué)探新, 41(5), 466-473.
王珺珺, 宋瓊雅, 許岳培, 賈彬彬, 胡傳鵬 (2019). 效應(yīng)量置信區(qū)間的原理及其實(shí)現(xiàn). 心理技術(shù)與應(yīng)用, 7(5), 284-296.
溫忠麟, 謝晉艷, 方杰, 王一帆 (2022). 新世紀(jì)20年國(guó)內(nèi)假設(shè)檢驗(yàn)及其關(guān)聯(lián)問(wèn)題的方法學(xué)研究. 心理科學(xué)進(jìn)展, 30(8), 1667-1681.
吳凡, 顧全, 施壯華, 高在峰, 沈模衛(wèi) (2018). 跳出傳統(tǒng)假設(shè)檢驗(yàn)方法的陷阱——貝葉斯因子在心理學(xué)研究領(lǐng)域的應(yīng)用. 應(yīng)用心理學(xué), 24(3), 195-202.
許岳培, 陸春雷, 王珺, 宋瓊雅, 賈彬彬, 胡傳鵬 (2022). 評(píng)估零效應(yīng)的三種統(tǒng)計(jì)方法. 應(yīng)用心理學(xué), 28(3), 369-384.
鐘建軍, Dienes,Z., 陳中永 (2017). 心理研究引入貝葉斯統(tǒng)計(jì)推斷的必要性、應(yīng)用思路與領(lǐng)域. 心理科學(xué), 40(6), 1477-1482.
朱訓(xùn), 顧昕 (2023). 變量相對(duì)重要性評(píng)估的方法選擇及應(yīng)用. 心理科學(xué)進(jìn)展, 31(1), 145-158.
Bem, D. J. (2011). Feeling the future: Experimental evide-nce for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425.
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., ... Johnson, V. E. (2017). Redefine statistical significance. Nature Human Behaviour, 2(1),6-10.
Cohen, J. (1994). The earth is round (p<.05). American Psychologist, 49(12),997-1003.
Gronau, Q. F., Ly, A., & Wagenmakers, E.-J. (2019). Informed Bayesian t-Tests. The American Statistician, 74(2), 137-143.
Gu, X. (2021). Evaluating predictors’ relative importance using Bayes factors in regression models. Psychological Methods. Advance online publication. https://doi.org/10.1037/met0000431
Gu, X., Hoijtink, H., & Mulder, J. (2016). Error probabilities in default Bayesian hypothesis testing. Journal of Math-ematical Psychology, 72, 130-143.
Gu, X., Hoijtink, H., & Mulder, J. (2022). Bayesian one-sided variable selection. Multivariate Behavioral Res-earch, 57(2), 264-278.
Gu, X., Hoijtink, H., Mulder, J., & Lissa, C. J. V. (2019). Bain: Bayes factors for informative hypotheses. Retr-ieved from https://CRAN.Rproject.org/package=bain (R package version 0.2.1)
Gu, X., Mulder, J., Dekovic, M., & Hoijtink, H. (2014). Bayesian evaluation of inequality constrained hypo-theses. Psychological Methods, 19(4), 511-527.
Gu, X., Mulder, J., & Hoijtink, H. (2018). Approximated adjusted fractional Bayes factors: A general method for testing informative hypotheses. British Journal of Mathematical and Statistical Psychology, 71(2), 229-261.
Heck, D., Boehm, U., B?ing-Messing, F., Bürkner, P., Derks, K., Dienes, Z., ... Hoijtink, H. (2023). A review of applications of the Bayes factor in psychological research. Psychological Methods, 28(3), 558-579.
Hoijtink, H., Mulder, J., van Lissa, C., & Gu, X. (2019). A tutorial on testing hypotheses using the Bayes factor. Psychological Methods, 24(5), 539-556.
JASP Team (2020). JASP (Version 0.13.1)[Computer software]. Retrieved from https://jasp-stats.org/
Kass, R. E., & Raftery, A. E. (1995). Bayes factors. Journal of the American Statistical Association, 90(430),773-795.
Keysers, C., Gazzola, V., & Wagenmakers, E.-J. (2020). Using Bayes factor hypothesis testing in neuroscience to establish evidence of absence. Nature Neuroscience, 23(7), 788-799.
Klugkist, I., Laudy, O., & Hoijtink, H. (2005). Inequality constrained analysis of variance: A Bayesian approach. Psychological Methods, 10(4), 447-493.
Klugkist, I., Laudy, O., & Hoijtink, H. (2010). Bayesian evaluation of inequality and equality constrained hypot-heses for contingency tables. Psychological Methods, 15(3), 281-299.
Liang, F., Paulo, R., Molina, G., Clyde, M. A., & Berger, J. O. (2008). Mixtures of g priors for Bayesian variable selection. Journal of the American Statistical Association, 103(481), 410-423.
Masson, M. E. (2011). A tutorial on a practical Bayesian alternative to null-hypothesis significance testing. Beh-avioral Research Methods, 43(3), 679-690.
Morey, R. D., Rouder, J. N., Pratte, M. S., & Speckman, P. L. (2011). Using MCMC chain outputs to efficiently estimate Bayes factors. Journal of Mathematical Psy-chology, 55(5), 368-378.
Mulder, J., & Gu, X. (2022). Bayesian testing of scientific expectations under multivariate normal linear models. Multivariate Behavioral Research, 57(5), 767-783.
Mulder, J., Hoijtink, H., & de Leeuw, C. (2012). BIEMS: A Fortran 90 program for calculating Bayes factors for inequality and equality constrained models. Journal of Statistical Software, 46(2),1-39.
Mulder, J., Klugkist, I., Van de Schoot, R., Meeus, M., Selfhout, M., & Hoijtink, H. (2009). Bayesian model selection of informative hypotheses for repeated meas-urements. Journal of Mathematical Psychology, 53(6), 530-546.
Open Science Collaboration. (2015). Estimating the repr-oducibility of psychological science. Science, 349(6251), aac4716.
Pituch, K.A. & Stevens, J.P. (2016). Applied Multivariate Statistics for the Social Sciences (sixth edition). New York: Routledge.
Rouder, J. N. (2014). Optional stopping: No problem for Bay-esians. Psychonomic Bulletin & Review, 21(2),301-308.
Rouder, J. N., & Morey, R. D. (2012). Default Bayes factors for model selection in regression. Multivariate Behavioral Research, 47(6), 877-903.
Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J. M. (2012). Default Bayes factors for ANOVA designs. Journal of Mathematical Psychology, 56(5), 356-374.
Rouder, J. N., Speckman, P. L., Sun, D., Morey, R. D., & Iverson, G. (2009). Bayesian t-tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review, 16(2),225-237.
Schmalz, X., Biurrun Manresa, J., & Zhang, L. (2023). What is a Bayes factor? Psychological Methods, 28(3), 705-718.
Sch?nbrodt, F. D., Wagenmakers, E.-J., Zehetleitner, M., & Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences. Psychological Methods, 22(2),322-339.
Silvapulle, M., & Sen, P. (2004). Constrained Statistical Inference: Order, Inequality, and Shape Constraints. New York: Wiley.
Tendeiro, J. N., & Kiers, H. A. L. (2019). A review of issues about null hypothesis Bayesian testing. Psychological Methods, 24(6),774-795.
Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37, 1-2.
Van de Schoot, R., Kaplan, D., Denissen, J., Asendorpf, J. B., Neyer, F. J., & Van Aken, M. A. (2014). A gentle introduction to Bayesian analysis: Applications to deve-lopmental research. Child Development, 85(3), 842-860.
Van de Schoot, R., Winter, S. D., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A systematic review of Bayesian articles in psychology: The last 25 years. Psychological Methods,22(2), 217-239.
Van Doorn, J., Haaf, J. M., Stefan, A. M., Wagenmakers, E. J., Cox, G. E., Davis-Stober, C.P., ... Aust, F. (2023). Bayes Factors for mixed models: A discussion. Computational Brain & Behavior, 6(1), 140-158.
Van Lissa, C., Gu, X., Mulder, J., Rosseel, Y., Van Zundert, C., & Hoijtink, H. (2021). Teacher’s corner: Evaluating informative hypotheses using the Bayes factor in struct-ural equation models. Structural Equation Modelling: A Multidisciplinary Journal, 28(2),292-301.
Van Ravenzwaaij, D., Monden, R., Tendeiro, J. N., & Ioannidis, J. P. A. (2019). Bayes factors for superiority, non-inferiority, and equivalence designs. BMC Medical-Research Methodology, 19(71), 1-12.
Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.
Wagenmakers, E.-J., Lodewyckx, T., Kuriyal, H., & Grasman, R. (2010). Bayesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method. Cognitive Psychology, 60(3), 158-189.
Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., ... Morey, R. D. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 25, 35-57.
Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129-133.
Wetzels, R., Grasman, R. P., & Wagenmakers, E.-J. (2012). A default Bayesian hypothesis test for ANOVA designs. The American Statistician, 66(2), 104-111.
Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson, G. J., & Wagenmakers, E. J. (2011). Statistical evidence in experimental psychology: An empirical comparison using 855 t tests. Perspectives on Psychological Science, 6(3), 291-298.
Williams, D. R., & Mulder, J. (2020). Bayesian hypothesis testing for Gaussian graphical models: Conditional inde-pendence and order constraints.Journal of Mathematical Psychology, 99, 102441.