国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

統(tǒng)計檢驗力的分析流程與多層模型示例

2019-05-24 07:47趙禮王暉
心理技術(shù)與應(yīng)用 2019年5期
關(guān)鍵詞:假設(shè)檢驗

趙禮 王暉

摘?要?影響統(tǒng)計檢驗力的因素包括研究設(shè)計因素、研究工具因素和統(tǒng)計學(xué)因素。統(tǒng)計檢驗力分析是實驗設(shè)計中非常重要的一部分:先驗統(tǒng)計檢驗力分析可以幫助研究者在實驗開始之前確定樣本量以節(jié)約人力物力;后驗統(tǒng)計檢驗力分析可以在研究完成之后幫助研究者審視研究效力,為后續(xù)研究提供幫助。當(dāng)研究問題或?qū)嶒炘O(shè)計較為復(fù)雜時,可借助Optimal Design設(shè)計多階層統(tǒng)計檢驗力分析。建議在本科及研究生階段重視統(tǒng)計檢驗力分析的教學(xué),在科研中注重統(tǒng)計檢驗力分析的應(yīng)用,以優(yōu)化實驗設(shè)計并增加研究結(jié)果的可靠性。

關(guān)鍵詞?統(tǒng)計檢驗力; 多層分析; 效應(yīng)量; 假設(shè)檢驗; Optimal Design

分類號?B841.2

DOI: 10.16842/j.cnki.issn2095-5588.2019.05.002

統(tǒng)計檢驗力(power)是指能正確拒絕錯誤的零假設(shè)(null hypothesis)的概率,是經(jīng)典統(tǒng)計決策理論和假設(shè)檢驗?zāi)J街胁豢扇鄙俚囊徊糠?。近年來,統(tǒng)計檢驗力分析越來越受到重視,很多學(xué)術(shù)期刊已經(jīng)明確要求研究者在論文中提供統(tǒng)計檢驗力相關(guān)內(nèi)容。但在目前國內(nèi)的心理學(xué)教學(xué)與研究過程中,統(tǒng)計檢驗力分析仍未得到充分的重視。本文著重探討了統(tǒng)計檢驗力影響因素和基本分析流程,并且討論了統(tǒng)計檢驗力分析中可能遇到的實際問題,并借助Optimal Design來展示如何設(shè)計多階層統(tǒng)計檢驗力分析,可為當(dāng)下心理學(xué)教學(xué)與研究中統(tǒng)計檢驗力分析與應(yīng)用提供參考。

1?統(tǒng)計檢驗力的影響因素

影響統(tǒng)計檢驗力的因素有很多,主要包括研究設(shè)計因素、研究工具因素和統(tǒng)計學(xué)因素。

第一,研究設(shè)計因素。例如,問卷設(shè)計中存在的雷區(qū)不只會對研究數(shù)據(jù)產(chǎn)生影響,也會影響統(tǒng)計檢驗力。在用詞與表述上,研究者不應(yīng)使用復(fù)雜難懂、過于專業(yè)的詞匯。研究問題不應(yīng)對被試造成引導(dǎo)性影響,諸如“你是否同意流產(chǎn)——一種謀殺無辜人類的做法——應(yīng)該取締?”這樣的問題在研究中應(yīng)當(dāng)避免。除有意引導(dǎo)外,一些問題可能會因其表意含糊不清而產(chǎn)生歧義。另外,非開放式問題通常比開放式問題的檢驗力要高,因為開放式問題的答案多樣性更高。這些用詞與表述問題會使得研究隨機(jī)誤差增加,從而降低統(tǒng)計檢驗力。并且,由于取悅效應(yīng)以及研究中可能涉及敏感問題的存在,被試可能會隱藏他們的真實想法,從而導(dǎo)致組間差異變小,進(jìn)而降低檢驗力,因此實驗中的保密和匿名原則很重要。同樣,實驗的設(shè)計也會影響統(tǒng)計檢驗力。如果被試間的差異可以得到控制,統(tǒng)計檢驗力會增加,例如重復(fù)測量設(shè)計比獨立樣本設(shè)計的統(tǒng)計檢驗力要高。但是不可單純追求控制被試差異,在取樣過程中,如果抽樣框架是錯誤的(例如包括非理想群體或者理想群體被排除),檢驗力也會降低。

第二,研究工具因素。例如,量表的精細(xì)程度會影響統(tǒng)計檢驗力。粗糙的量表會造成相關(guān)系數(shù)的降低(Aguinis, Pierce, & Culpepper, 2009),這類問題是由于研究工具本身所決定的。例如,李克特量表可以用來測量被試的態(tài)度(例如1表示非常不同意,5表示非常同意),然而由于量表本身的限制,被試只能在1到5這五個數(shù)字中選擇,從而造成1.6與2.6或者2.7與3.4之間的比較無法測得,進(jìn)而降低統(tǒng)計檢驗力。

第三,統(tǒng)計學(xué)因素。(1)數(shù)據(jù)的范圍限制會影響統(tǒng)計檢驗力。例如,要研究大學(xué)GPA和課堂出勤率的關(guān)系,如果對GPA的范圍加以限制,例如只選取GPA在1~4之間的學(xué)生,從而導(dǎo)致研究相關(guān)關(guān)系的數(shù)據(jù)受限,會造成統(tǒng)計檢驗力降低。(2)違反統(tǒng)計假設(shè)也會造成統(tǒng)計檢驗力的降低(Maxwell, Delaney, & Kelley, 2018)。例如對于統(tǒng)計檢驗力的分析通?;谡龖B(tài)分布的假設(shè),如果違反此假設(shè)則需要對統(tǒng)計檢驗力重新進(jìn)行解釋。非參數(shù)檢驗(例如Kruskal-Wallis H檢驗)可以應(yīng)用在非正態(tài)分布的情況,并且變量的轉(zhuǎn)換(例如對數(shù)轉(zhuǎn)換)可以改變分布的形狀使其為正態(tài)分布。(3)測量的信度也會影響統(tǒng)計檢驗力,通常長測驗比短測驗要更加可靠,因為長測驗的變異性較低(Coe, 2002)。例如一個有100個項目的測驗的標(biāo)準(zhǔn)差比一個有10個項目的測驗標(biāo)準(zhǔn)差要低,所以信度較高,進(jìn)而統(tǒng)計檢驗力較高。(4)連續(xù)變量二分化會降低統(tǒng)計檢驗力(Altman & Royston, 2006),此過程會導(dǎo)致很多信息丟失。假設(shè)研究學(xué)生身高和體重之間的關(guān)系,如果把收集到的數(shù)據(jù)只分為“高”“矮”兩類,那么身高和體重之間相關(guān)關(guān)系的測量會因為身高變量的變異性降低而降低準(zhǔn)確性。

2?統(tǒng)計檢驗力分析的組成部分

統(tǒng)計檢驗力分析的主要組成部分為:效應(yīng)量、樣本量、第一類錯誤率(α)和第二類錯誤率(β)。各成分對統(tǒng)計檢驗力的影響在已有文獻(xiàn)中已有不少討論與總結(jié)(參見吳艷,溫忠麟,2011;

溫忠麟,范息濤,葉寶娟,陳宇帥,2016;

鄭昊敏,溫忠麟,吳艷,2011),在本文中將不做重復(fù)說明與討論,只在說明此四部分間基本關(guān)系的基礎(chǔ)上,再做一些補(bǔ)充。

四成分之間的基本關(guān)系如下:(1)效應(yīng)量和樣本量結(jié)合可得非中心參數(shù),即零假設(shè)樣本分布和備擇假設(shè)樣本分布之間的區(qū)別。效應(yīng)量可影響統(tǒng)計檢驗力,兩總體分布的差異可以影響效應(yīng)量,進(jìn)而影響統(tǒng)計檢驗力。當(dāng)差異增大時,統(tǒng)計檢驗力增大,反之亦然。(2)樣本量越大則統(tǒng)計檢驗力越大。(3)隨著第一類錯誤率的增大(例如從0.01到0.05),第二類錯誤率會降低,所以統(tǒng)計檢驗力(1-β)會升高。(4)與使用不同水平的情況類似,使用單側(cè)檢驗或者雙側(cè)檢驗也對統(tǒng)計檢驗力有影響。在同一自由度下,單側(cè)檢驗比雙側(cè)檢驗要更加具有統(tǒng)計檢驗力。(5)當(dāng)變異性增大時,統(tǒng)計檢驗力會變?nèi)酢@缬捎谟绊懕辉囬g差異的因素得到了控制,重復(fù)實驗設(shè)計的統(tǒng)計檢驗力更高。

在計算效應(yīng)量時,觀察值(例如1,2)和變異性(例如s)都假設(shè)與其真實的參數(shù)值(例如μ1,μ2和σ)相等。然而這些真實的參數(shù)值很難測得,所以需要估計效應(yīng)量的值。Howell(2017)提到三種估計效應(yīng)量的方法:(1)根據(jù)先前的研究來決定效應(yīng)量。具體來說,先前的研究可以提供樣本均值和標(biāo)準(zhǔn)差的相關(guān)信息,這些信息可以用來作為其他研究中假定可以體現(xiàn)實驗處理效應(yīng)的參數(shù)值的參考。(2)在沒有相似的先前研究時,效應(yīng)量的估計則應(yīng)建立在個人評估的基礎(chǔ)上,即研究者主觀認(rèn)為的重要差異的大?。é?-μ2)。假如研究者想研究一種減肥藥,他們決定此種減肥藥有效的標(biāo)準(zhǔn)為可以使個體減重5 kg,那么減肥前后的差異(5 kg)就可以用來計算效應(yīng)量。此選定的差異值可以在正式實驗之前通過試驗研究(pilot study)來獲取經(jīng)驗。例如在社會心理學(xué)研究中,研究者經(jīng)常會研究一些特別新奇的問題,所以他們會在正式研究之前來做試驗研究得到可能有實驗處理效應(yīng)的差異值。這個方法不僅可以用來估計效應(yīng)量,也可以幫助研究者找出錯誤,從而避免人力物力的浪費。(3)Cohen指導(dǎo)值(表1)(Cohen, 1988, 1992)。

根據(jù)不同的效應(yīng)量水平,研究者可以計算出在某一顯著性水平下達(dá)到某檢驗力的樣本量的范圍。通過10000個研究的元分析發(fā)現(xiàn)平均效應(yīng)量為0.5(Lipsey & Wilson, 1993),一般推薦研究者為達(dá)到足夠統(tǒng)計檢驗力的效應(yīng)量為0.8(Lenth, 2001)。

在以上三種方法中,方法(1)是最為推薦的,當(dāng)方法(1)和方法(2)都不可用時才根據(jù)方法(3)來估計效應(yīng)量,其原因為此方法中三個水平在一定程度上說為任意制定的(Howell, 2017)。并且Lenth(2001)提出研究者不能只依據(jù)計算效應(yīng)量時的分子和分母的比,也應(yīng)依據(jù)分子和分母本身的數(shù)值,因為在先前提到的減肥例子中,研究者不僅應(yīng)該注重被試服藥前后體重的差和樣本標(biāo)準(zhǔn)差的比,也應(yīng)注重被試服藥前后體重本身數(shù)值的差,更進(jìn)一步地說,應(yīng)注重服藥前后體重本身的數(shù)值。

3?統(tǒng)計檢驗力分析的兩大類型

3.1?先驗檢驗力分析

統(tǒng)計檢驗力分析是實驗設(shè)計中的重要的一部分,此分析可以幫助研究者更加深入地思考如何開展該研究,例如思考如何對實驗設(shè)計進(jìn)行優(yōu)化。由于假設(shè)檢驗在社會和行為科學(xué)中的實證研究有著非常廣泛的應(yīng)用,在實驗研究開始之前研究者通常要對研究做出統(tǒng)計檢驗力分析來確定能夠檢測到統(tǒng)計學(xué)差異的必要樣本量(吳艷,溫忠麟,2011)。一些研究人員不重視對研究進(jìn)行統(tǒng)計檢驗力分析,他們在研究的過程中發(fā)放數(shù)以百計,甚至數(shù)以千計的問卷來收集數(shù)據(jù),然而事實上,這些研究不需要如此之大的樣本量,這樣就造成了人力物力的浪費,然而這些浪費只需要進(jìn)行先驗檢驗力分析(priori power analysis)就可以避免。所以,一個合理的樣本數(shù)量在實驗設(shè)計中是非常重要的,特別是在經(jīng)費緊張或者需要人類作為被試的情況下。

3.2?后驗檢驗力分析

后驗檢驗力分析(post-hoc power analysis)是在數(shù)據(jù)收集和分析之后進(jìn)行的統(tǒng)計檢驗力分析。當(dāng)樣本量和效應(yīng)量(effect size)都已知的情況下,統(tǒng)計檢驗力可以在某個指定的顯著性水平(significance level)(例如0.05,0.01)下計算得到。很多科學(xué)家推薦進(jìn)行事后分析,特別是在研究結(jié)果不顯著以及效應(yīng)量分析為中和大時(吳艷,溫忠麟,2011;Lenth, 2001)。

然而,在實際操作中存在不少不恰當(dāng)使用后驗檢驗力分析的情況。一些研究者認(rèn)為統(tǒng)計顯著性未達(dá)到(例如,p>0.05)且基于效應(yīng)量觀測值計算得到的統(tǒng)計檢驗力值較高的情況為零假設(shè)為真提供了證據(jù),然而這種后驗檢驗力分析是不正確的。Hoenig和Heisey(2001)指出統(tǒng)計檢驗力值是p值的1∶1函數(shù),一旦得知p值,那么計算所得的統(tǒng)計檢驗力值也就不再提供新的信息。并且此1∶1函數(shù)使得非顯著p值與低統(tǒng)計檢驗力值相對應(yīng)(圖1)。當(dāng)p值為0.05時,相對應(yīng)的統(tǒng)計檢驗力值為0.5。當(dāng)p值增大時,統(tǒng)計檢驗力觀測值則會降低,所以拒絕零假設(shè)的同時又有高后驗檢驗力值的情況是不可能的。例如,如果統(tǒng)計檢驗力值1 為0.4,統(tǒng)計檢驗力值2 為0.2,基于圖1它們分別對應(yīng)的p值大約為0.075和0.225。所以越高的統(tǒng)計檢驗力值代表了越大拒絕零假設(shè)的幾率,而不是為證明零假設(shè)為真提供更多的證據(jù)。

后驗檢驗力分析的另一個應(yīng)用為得出可檢測效應(yīng)量(detectable effect size),此效應(yīng)量可根據(jù)變異性和預(yù)期統(tǒng)計檢驗力(例如0.8)計算而得。此后驗檢驗力分析應(yīng)用的支持者認(rèn)為根據(jù)此方法得到的效應(yīng)量為真實效應(yīng)量的上限,即真實的效應(yīng)量越是接近可檢測效應(yīng)量,那么零假設(shè)為真的可能性則越大。然而使用后驗檢驗力分析來計算可檢測效應(yīng)量是不科學(xué)的。第一,在同等顯著性水平下,若兩個實驗的結(jié)果均不顯著、兩總體均值差和樣本量均相同,且如果(假設(shè)為Z檢驗)Z1>Z2,則標(biāo)準(zhǔn)差σ1>σ2。因為可檢測效應(yīng)量可以通過預(yù)期統(tǒng)計檢驗力(例如0.8)和觀測標(biāo)準(zhǔn)差的值(例如σ1,σ2)計算而得,那么第一個實驗的可檢測效應(yīng)量應(yīng)小于第二個實驗的相應(yīng)值,又由于σ1<σ2,那么第一個實驗中的總體均值差要小于第二個實驗的相應(yīng)值。因為Z1>Z2且具有統(tǒng)計顯著性的兩總體均值差是真實差值的上限,那么真實差值越接近具有統(tǒng)計顯著性的差值,則拒絕零假設(shè)的可能性越大。第二,如果兩實驗在同等統(tǒng)計顯著性水平和樣本量下都有非顯著的實驗結(jié)果,且Z1>Z2,那么估計效應(yīng)量應(yīng)為:效應(yīng)量1>效應(yīng)量2,假設(shè)兩實驗的標(biāo)準(zhǔn)差相等,那么要想達(dá)到理想的統(tǒng)計檢驗力水平,可檢測效應(yīng)量應(yīng)相等。所以越接近真實效應(yīng)量的值越代表能拒絕零假設(shè)。另外,用基于標(biāo)準(zhǔn)差觀測值來計算可檢測均值差異也是不可取的,因為我們也應(yīng)考慮到標(biāo)準(zhǔn)差的變異性。

在研究完成之后再修改統(tǒng)計檢驗力是很難的,后驗檢驗力分析永遠(yuǎn)不可以代替事前分析。盡管對于事后分析的結(jié)果有時會有誤解,但是如果研究者可以正確解釋該結(jié)果,那么對未來的研究是非常有利的,例如研究者可能得出使用不同的顯著性水平更加合適(用0.05而不是0.01)或者發(fā)現(xiàn)整個實驗設(shè)計存在缺陷而需要重新設(shè)計。

3.3?存在的問題

在研究者為復(fù)雜實驗設(shè)計做統(tǒng)計檢驗力分析時可能會遇到一些實際問題。第一,當(dāng)研究中的自變量有多組時,需要調(diào)整顯著性水平來控制整體第一類錯誤率。例如如果使用Holm-Bonferroni方法來控制第一類錯誤率,那么統(tǒng)計檢驗力分析則變得復(fù)雜起來。Holm-Bonferroni矯正會導(dǎo)致第二類錯誤增多,因為隨著對比對數(shù)的增多,統(tǒng)計檢驗力會降低。例如如果我們需要對比5組,即共有10組對比,當(dāng)設(shè)顯著性水平為0.05時,即第一類錯誤率為0.05,在Holm-Bonferroni矯正之后,α=0.005,可能導(dǎo)致第二類錯誤率升高。

第二,當(dāng)模型很復(fù)雜時沒有統(tǒng)一的方法做出相應(yīng)的統(tǒng)計檢驗力分析。例如在混合線性模型(linear mixed model)中,相對來說固定效應(yīng)(fixed effects)的統(tǒng)計檢驗力分析比隨機(jī)效應(yīng)(random effects)或者固定效應(yīng)與隨機(jī)效應(yīng)混合在一起時要容易分析。并且若考慮到交互作用或協(xié)方差,模型會變得更加復(fù)雜。然而變量之間的交互對研究者非常重要,但是在統(tǒng)計檢驗力分析軟件中又很難把這一部分添加進(jìn)去,所以一個可以用來做統(tǒng)計檢驗力分析的通用且準(zhǔn)確的方法是很重要的。

第三,統(tǒng)計檢驗力分析的結(jié)果無法泛化。一旦實驗的研究方法、實驗設(shè)計或者統(tǒng)計方法改變,統(tǒng)計檢驗力分析就需要重新計算。并且通過檢驗力分析所得的樣本量為理論上可行樣本量,但針對某些特定統(tǒng)計方法或?qū)嶋H情境,此樣本量可能并不夠,例如邏輯回歸分析(logistic regression analyses)就需要非常大的樣本量,研究者在實驗開始之前通過相應(yīng)的統(tǒng)計檢驗力分析來確定的樣本量對于邏輯回歸分析而言可能依然不夠。如果樣本量不夠,由此而得的研究結(jié)論則不可信。所以在統(tǒng)計檢驗力分析之外,研究者也需要考慮到現(xiàn)實因素。另外,因為統(tǒng)計檢驗力分析是建立在一些假設(shè)和猜想上的,且考慮到缺失值的問題,研究者采用的樣本數(shù)應(yīng)該比計算而得的樣本數(shù)在合理范圍內(nèi)稍大。

第四,用來計算統(tǒng)計檢驗力的軟件也存在一些問題:(1)可以用來計算統(tǒng)計檢驗力的軟件有限,通常使用的只有: SamplePower, GPower, PASS, SAS, R和Optimal Design;(2)這些軟件大部分都比較昂貴,盡管有的大學(xué)提供使用密鑰,但是對于老師學(xué)生以及很多研究者來說還是無法方便地使用;(3)有一些軟件不具備在復(fù)雜實驗設(shè)計下簡便計算統(tǒng)計檢驗力的能力,并且無法在模型中加入交互作用;(4)這些軟件可以進(jìn)行的統(tǒng)計檢驗力分析類型有限,例如計算多層次統(tǒng)計檢驗力可以用Optimal Design或者PASS,選擇并不多,但前者只有Windows版本,而后者又相當(dāng)之昂貴。這些因素都限制了統(tǒng)計檢驗力分析的應(yīng)用與普及。

4?多層模型統(tǒng)計檢驗力分析及Optimal Design實現(xiàn)

多層模型,顧名思義涉及到多個層次的數(shù)據(jù),例如研究者研究在某一大學(xué)中使用幻燈片教學(xué)是否對大一學(xué)生的數(shù)學(xué)學(xué)習(xí)有幫助這一問題,收集到的數(shù)據(jù)可以分為不同的層次。學(xué)生的年齡、性別、數(shù)學(xué)成績等都是學(xué)生本身的變量,而專業(yè)的規(guī)模、男女比例、教學(xué)所使用教學(xué)樓的地理位置等是專業(yè)層次的變量,再往高層次來看,學(xué)校的規(guī)模、地理位置、是否為211或985等因素為學(xué)校層級的變量。如此數(shù)據(jù)在多層模型中發(fā)生了嵌套。多層模型分析方法很多,本文著重統(tǒng)計檢驗力的分析方法。在此以包含一個隨機(jī)截距和一個隨機(jī)斜率的多層線性回歸模型為例來展示檢驗力分析的過程:

假設(shè)研究者研究在某一大學(xué)中使用幻燈片教學(xué)是否對于大一新生的數(shù)學(xué)學(xué)習(xí)有幫助這一問題,大一新生被隨機(jī)分配在實驗組(使用幻燈片教學(xué))或者控制組(不使用幻燈片教學(xué)),研究者設(shè)定實驗區(qū)塊(block)為不同學(xué)生所學(xué)的不同專業(yè)。因此,在每一個專業(yè)中,新生會隨機(jī)分配到使用或不使用幻燈片教學(xué)的班級中。

如果不考慮協(xié)變量,模型使用Raudenbush和Bryk(1992)注釋為:

下面使用Optimal Design(Radudenbush, 2011)來展示多層次統(tǒng)計檢驗力的過程。首先利用此軟件及模型可以計算在研究者期望達(dá)到的統(tǒng)計檢驗力水平下所需的樣本量。其所需要設(shè)定的參數(shù)有:(1)顯著性水平(α=0.05);(2)預(yù)期統(tǒng)計檢驗力(β=0.80);(3)樣本量/簇大?。ù龥Q定);(4)被協(xié)方差解釋的方差大小(R2);(5)被區(qū)塊解釋的方差大?。˙);(6)效應(yīng)量(Δ);(7)效應(yīng)量變異性(σ2)。

假設(shè)研究者預(yù)期使得專業(yè)為區(qū)塊可解釋40%的結(jié)果的變異性,如果使用一個隨機(jī)效應(yīng)模型且將效應(yīng)量變異性設(shè)定為0.05時(如果研究者使用的是固定效應(yīng)模型,效應(yīng)量變異性應(yīng)設(shè)定為0),并且在先前設(shè)定信息的基礎(chǔ)上,假如基于試驗研究,研究者預(yù)期使用幻燈片的學(xué)生比不使用幻燈片的學(xué)生的表現(xiàn)要好0.2個標(biāo)準(zhǔn)差單位,也就是說設(shè)定效應(yīng)量為0.2。所以,當(dāng)研究者想在達(dá)到0.8的統(tǒng)計檢驗力并且從每一個專業(yè)挑選30個學(xué)生的情境下能探測到此效應(yīng)量時,他們一共需要多少個專業(yè)?選擇Person randomized trials → multisite(blocked) trials → Power on y axis → power vs. total number of sites(J),將已設(shè)定的參數(shù)輸入Optimal Design,基于圖2,可以看出需要28個專業(yè),即一共需要840個被試。

如果考慮協(xié)變量,假設(shè)基于一個基線調(diào)查(baseline survey)(例如IQ,SAT, ACT 等的測量),前測(pretest) 可以解釋結(jié)果的60%的變異性,如果我們把協(xié)變量(IQ)也包括在模型里,可計算得一共需要19個專業(yè)(圖3),即一共需要570個被試,比不包括協(xié)變量時少了270個被試,此模型為:

其中假設(shè)IQ可解釋學(xué)生數(shù)學(xué)成績中60%的變異性。

其次,使用Optimal Design還可以計算效應(yīng)量。例如,設(shè)定前測可以解釋結(jié)果的60%的變異性,如果研究者只能從15個專業(yè)中選取被試,并且每個專業(yè)選取30人,那么如果想要達(dá)到0.8的統(tǒng)計檢驗力至少需要的效應(yīng)量是多大?在Optimal Design中需設(shè)定的參數(shù)為:(1)顯著性水平(α=0.05);(2)預(yù)期統(tǒng)計檢驗力(β=0.80);(3)樣本量/簇大?。?5個專業(yè),每個專業(yè)選取30人);(4)被協(xié)方差解釋的方差大?。≧2);(5)被區(qū)塊解釋的方差大小(B);(6)效應(yīng)量(Δ)(待計算);(7)效應(yīng)量變異性(σ2)。

在Optimal Design中選擇Person randomized trials→multisite(blocked) trials→MDES on y-axis→MDES vs. number of clusters(J)。 當(dāng)只能從15個專業(yè)中選被試時, 效應(yīng)量大約為0.29(圖4)。 如果在此分析中考慮協(xié)方差, 效應(yīng)量大約為0.23(圖5)。

5?總結(jié)與建議

統(tǒng)計檢驗力分析是科學(xué)研究中重要的組成部分,在研究開始之初,統(tǒng)計檢驗力分析可以指導(dǎo)研究者確定研究樣本量以達(dá)到不同的效應(yīng)量或統(tǒng)計檢驗力要求。在研究完成之后,統(tǒng)計檢驗力分析可以幫助研究者印證或?qū)徱曪@著或不顯著的研究結(jié)果,進(jìn)而指導(dǎo)研究者不拒絕零假設(shè)或者再增加被試量進(jìn)行進(jìn)一步的研究。

在本科階段,所使用的教材中假設(shè)檢驗相關(guān)章節(jié)已非常普及,但與此相關(guān)的統(tǒng)計檢驗力分析、效應(yīng)量分析等知識章節(jié)并不常見,與此相關(guān)的教學(xué)也并不普及,有一些老師在教學(xué)過程中加入此方面相關(guān)知識,但講解也并不深入。學(xué)生往往只知當(dāng)p值在小于0.01或者0.05時拒絕零假設(shè),說明不同實驗處理之間存在顯著差異,或當(dāng)p值大于設(shè)定的顯著性水平時不拒絕零假設(shè),說明不同實驗處理之間不存在顯著差異。但更進(jìn)一步,學(xué)生不知如何解釋p值、置信區(qū)間、統(tǒng)計檢驗力和產(chǎn)生研究結(jié)果的原因。之后碩士及博士階段,隨著科研難度及數(shù)量的增加,如果研究者不了解統(tǒng)計檢驗力分析相關(guān)知識可能會在研究開始之前無所適從,例如究竟需要多少被試呢?在這種情況下,往往研究者會在未設(shè)定樣本量的情況下開始實驗,直到研究結(jié)果顯著時停止收集數(shù)據(jù),從而影響研究結(jié)果的可靠性。因此,從教學(xué)上來說,從本科階段開始,要逐步普及統(tǒng)計檢驗力分析的重要性及方法,為日后科研工作做出鋪墊。

在研究過程中,研究者應(yīng)謹(jǐn)慎、正確地進(jìn)行統(tǒng)計檢驗力分析。它可以幫助科研人員確定樣本量的大小,從而避免人力物力的浪費,也可以在一定被試量下得出統(tǒng)計檢驗力的信息,例如,如果只有75個可用的被試,而所得統(tǒng)計檢驗力非常低,則沒有必要進(jìn)行這樣的研究。在論文發(fā)表時或者科研基金申請時,通常都要求研究者說明統(tǒng)計檢驗力的相關(guān)信息,統(tǒng)計檢驗力的高低雖不是判斷研究好壞的唯一標(biāo)準(zhǔn),但是高的統(tǒng)計檢驗力是使得研究結(jié)論可靠的重要的一方面。

參考文獻(xiàn)

溫忠麟, 范息濤, 葉寶娟, 陳宇帥(2016). 從效應(yīng)量應(yīng)有的性質(zhì)看中介效應(yīng)量的合理性. 心理學(xué)報, 48(4), 435-443.

吳艷, 溫忠麟(2011). 與零假設(shè)檢驗有關(guān)的統(tǒng)計分析流程. 心理科學(xué), 34(1), 230-234.

鄭昊敏, 溫忠麟, 吳艷(2011). 心理學(xué)常用效應(yīng)量的選用與分析. 心理科學(xué)進(jìn)展, 19(12), 1868-1878.

Aguinis, H., Pierce, C. A., & Culpepper, S. A.(2009). Scale coarseness as a methodological artifact: Correcting correlation coefficients attenuated from using coarse scales. Organizational Research Methods, 12(4), 623-652.

Altman, D. G. & Royston, P.(2006). The cost of dichotomising continuous variables. BMJ, 332(7549), 1080.

Raudenbush, S. W & Bryk, A. S.(1992). Hierarchical linear models: applications and data analysis methods. Chicago, IL: Sage.

Coe, R.(2002). Its the effect size, stupid: what effect size is and why it is important. Retrieved May 25, 2018, from: https://www. leeds. ac. uk/educol/documents/00002182. htm.

Cohen, J.(1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates.

Cohen, J.(1992). A power primer. Psychological Bulletin, 112(1), 155-159.

Hoenig, J. M., & Heisey, D. M.(2001). The abuse of power: the pervasive fallacy of power calculations for data analysis. The American Statistician, 55(1), 19-24.

Howell, D. C.(2017). Fundamental statistics for the behavioral sciences. Boston, MA: Cengage Learning.

Lenth, R. V.(2001). Some practical guidelines for effective sample size determination. The American Statistician, 55(3), 187-193.

Lipsey, M. W., & Wilson, D. B.(1993). The efficacy of psychological, educational, and behavioral treatment: Confirmation from meta-analysis. American Psychologist, 48(12), 1181-1209.

Maxwell, S. E., Delaney, H. D., & Kelley, K.(2018). Designing experiments and analyzing data: A model comparison perspective. New York: Routledge.

Perugini, M., Gallucci, M., & Costantini, G.(2018). A Practical primer to power analysis for simple experimental designs. International Review of Social Psychology, 31(1), ?1-23.

Raudenbush, S. W., et al.(2011). Optimal Design Software for Multi-level and Longitudinal Research. Retrieved May 21, 2018, from http://www. wtgrantfoundation. org.

猜你喜歡
假設(shè)檢驗
假設(shè)檢驗結(jié)果的對立性分析
一種求解假設(shè)檢驗拒絕域和計算p-值的系統(tǒng)化方法
雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
統(tǒng)計學(xué)教學(xué)中關(guān)于假設(shè)檢驗問題探討