高清輝
摘 ?要|在眾多信度指標中,克隆巴赫α (Cronbachs α )系數(shù)最為常用,但α 系數(shù)在使用中常常忽視重要的“基本τ 等價”假設,導致α 系數(shù)并非真正的信度;并且存在著誤用與濫用、閾值不確定等問題,受到很多批評, 被長期廣泛應用是因其易于計算、易于理解等特性。麥克唐納ω 克服了α 系數(shù)的上述缺點,信度估計上明顯優(yōu)于α 系數(shù),但麥克唐納ω 也存在計算要求較高等缺點,尚無法取代克隆巴赫α 。兩個信度指標ω 與α 將長期共存,在研究報告中應同時提供ω 與α 的數(shù)值,互相補充。
關鍵詞|信度估計;克隆巴赫α ;麥克唐納ω
Copyright ? 2022 by author (s) and SciScan Publishing Limited
This article is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. https://creativecommons.org/licenses/by-nc/4.0/
1 引言
在心理學和一些實證行為科學研究中,經(jīng)常要關注一些無法直接測量的量或結(jié)構(gòu),例如某種能力、心理壓力等。多項目測量量表是研究這些量或結(jié)構(gòu)的常用方法:設置若干個能表達隱性目標量的 項目,考察對象的反應,運用某種方式進行數(shù)字的聚合(常見如加總或平均),以生成每個被測量對 象的測量值。在此類測試中,測量結(jié)果的穩(wěn)定程度即信度是一個非常重要的指標。在眾多信度指標中, 克隆巴赫α (Cronbachs α )系數(shù)最為常用。自從克隆巴赫在 1951 年提出α 系數(shù)[1]之后,α 系數(shù)得到了廣泛的應用,且被引用的次數(shù)極高,按谷歌學術(shù)搜索的統(tǒng)計,到 2021 年其被引用次數(shù)已超過54000 次。雖然α 系數(shù)得到如此多的引用,但對其的批評也很多,有的甚至很尖銳。孟慶茂和劉紅云指出“用α 系數(shù)對測驗進行評價的確存在一些問題”[2]。西茨瑪(Sijtsma)認為“想必沒有其他統(tǒng)計數(shù)據(jù)受到如此多的誤解和混淆”[3]。彼得斯(Peters)建議放棄使用α 系數(shù),因為“Cronbachs α 值的
用處十分有限”[4]。許多學者提議用麥克唐納的ω [5]取代α ,認為研究人員應該從α 轉(zhuǎn)向ω ,但因種種原因目前仍是α 占主導地位。在 2021 年,前述克隆巴赫這篇開創(chuàng)性的論文[1]發(fā)表 70 周年之際, 心理測量學界的權(quán)威刊物“Psychometrika”以“克隆巴赫α 的再審視”為專題發(fā)表了 5 篇專欄論文,表明了心理測量學界對該問題的關切。正如溫忠麟所言,α 是“晃而不倒的信度標桿”[6],“晃”是因為其自身的局限性而受到多方批評,“不倒”是它在新條件下仍有存在的價值。那么,作為信度指標, α 系數(shù)具體有哪些缺點?α 系數(shù)既然有那么多的局限性,為何還會被廣泛應用呢?能否用ω 取代α ? 我們將對這些問題作探討。
條件(3)實際意義為“任意兩個項目的真分數(shù)只相差一個常數(shù)”即 Ti=Tj+Cij( i ≠ j), 其中 Cij 是與第 i 第 j 項目有關但與被試無關的常數(shù)。這就是所謂的“基本 tau 等價”(essentially τ equivalent)。只有在“基本τ 等價”的假設滿足時α 才是真正的信度。要求任意兩個項目的真分數(shù)都相等的“τ ?等價”實在是要求過高,即使加上了“基本”,允許相差一個常數(shù),也是過于嚴苛的假設。若違反了“基本τ 等價”,α 可能高估或低估了信度,對于項目數(shù)較少的測試,偏差程度可能很大。格林(Green)與楊(Yang)的模擬發(fā)現(xiàn),違反基本τ 等價,甚至可能使α 低估真實信度達 0.2 之多[8], 將動搖測試者對此測試可靠性的看法。
α 的誤用
α 也有相當多的誤用,誤用最多的是關于α 與同質(zhì)性和內(nèi)部一致性的關系,內(nèi)部一致性(Internal Consistency)是指項目之間的關系,各項目得分之間有較高的相關性,則說其內(nèi)部一致性高。高內(nèi)部一致性是測量測試項目樣本同質(zhì)性或一維性的必要條件,但不是充分條件。將同質(zhì)性和內(nèi)部一致性看 作同一概念,并將α 看作是同質(zhì)性或內(nèi)部一致性的度量,這是典型的誤用。達文波特(Davenport)證明了式(4)。
α =kr/[1+(k-1)r] (4)
其中,r 是所有項目成對相關系數(shù)的平均值,可作為內(nèi)部一致性的度量[9]。從式(4)可以看出, 在固定 r>0 的條件下,只要增加項目數(shù) k ?就可使α 無限接近 1??梢姦?是不能作為內(nèi)部一致性度量的。
閾值問題
將α 看作測試的信度時,就面臨如何確定閾值問題:α 多大才可以認為測試是可以接受的?科蒂納(Cortina)認為α 大于等于 70% 是可接受的[10]。該閾值源于努納利(Nunnally)的建議[11],并在很多論文中得到認可和應用,然而該建議只是從一般的信度考慮,而非歸因于α ?本身的性質(zhì)。努納利的書在 1967 年版時指出信度在 0.5 或 0.6 就足以進行探索性研究,但在 1978 年版時增加到 0.7,人們選擇引用哪一個版本,往往取決于他們的α 高于還是低于 0.7。文圖拉·萊昂(Ventura-León)指出,判斷描述一個測試的質(zhì)量僅靠一個α 的值是不夠,認為“世界不應當圍著‘α ≥ 0.70轉(zhuǎn)”[12]。實際上在某些情況下,α 水平較低的測試可能非常有用。α 的閾值在不同情況下應有不同,需要進行的區(qū)分越精細,信度就必須越高。
刪除項目問題
如果測試的α 值不夠高,達不到測試人所希望的值(例如 0.7),研究人員常常會刪除原測試中某些項目來提高α 值,這樣做并非無懈可擊,刪除項目間相關性較低的項目可能會導致α 值的夸大,會產(chǎn)生樣本的α 水平比總體的α 水平更高的“α 膨脹”現(xiàn)象。雷科夫(Raykov)認為即使項目數(shù)量減少α 似乎也在增加,但實際上量表的真實信度可能反而降低[13]。
α 系數(shù)被廣泛引用的原因
α 系數(shù)有如此多被質(zhì)疑之處,但α 系數(shù)仍被大量引用,有以下幾個原因。
一是論文發(fā)表的需要。多項目測量量表是心理學和許多社會科學學科經(jīng)常使用的重要方法,可以 說有多項目測量量表的地方就有測量信度的要求。許多期刊和組織規(guī)定,發(fā)表關于多項目測量量表的 論文必須報告信度數(shù)據(jù)??频偌{回顧了從 1966 年到 1990 年社會科學文獻引用α 系數(shù)的情況,“在278 種不同期刊上被引用”,列舉出引用的領域有“教育、工業(yè)、社會、臨床、兒童、社區(qū)和異常心理學、實驗心理學、社會學、統(tǒng)計學、醫(yī)學、咨詢、護理、經(jīng)濟學、政治學、犯罪學、老年學、廣播學、人
類學和會計學等”[10]。
二是教學上有關統(tǒng)計學的訓練較少而導致α ? 的誤用。在心理學教育系統(tǒng)中,數(shù)學和統(tǒng)計學訓練不是重點,這就導致只應用α 而不顧α 的應用條件,以至于誤用。針對α 系數(shù)的嚴厲批評文章大部分只能在心理測量學的期刊(如“Psychometrika”等)上或在以方法論家和統(tǒng)計學家為目標讀者的期刊上找到。如前述關于“基本τ ?等價”的問題,雖然在理論上是一個非常重要的假設,但只在測量理論圈受到關注,在實際測量中社會科學家們很少注意這個問題,形成“你講你的新思想,我用我的老 方法”的尷尬局面。
三是α 的計算較為便捷,配套軟件較多。如 SAS、SPSS 等軟件可以幫助研究者們不必深究統(tǒng)計概念、編寫計算機程序,只要輕點鼠標就可以輕松得到所需要的參數(shù),便于應用。
3 α 的挑戰(zhàn)者ω
挑戰(zhàn)α 地位的新指標
70 年來雖然有許多學者指出α 的諸多缺點,但要用新的指標來取代α 系數(shù)卻很不容易。例如:陳希鎮(zhèn)的β 系數(shù)[14],謝小慶的γ 系數(shù)[15],丁樹良和周新蓮的ξ 系數(shù)[16]等所提出的新系數(shù)都只是改進了α 的部分功能,無法得到普及,當然也無法挑戰(zhàn)α 了。
本特勒(Bentler)和伍德沃德(Woodward)提出了信度最大下限glb(Greatest Lower Bound),可以證明, α ≤λ 2 ≤ g1b ≤ρ(X),因此作為信度的下界,glb 比α 要好[17]。雷弗爾(Revelle)和津巴格(Zinbarg) 則建議用麥克唐納的ω [18]。
麥克唐納的ω
1970 年,麥克唐納(McDonald)在論及因子分析的論文的附錄中給出了系數(shù)θ [19],后來在其
1999 年的論文中,他將θ 改稱為ω [5],中文文獻稱為組合信度或合成信度,大多數(shù)文獻將其稱為麥克唐納的歐米伽 McDonalds ω ,ω 的含義如下:
考慮單因子模型,設 Ti=μ i+λ iT i=1,…,k; (5) 其中μi 是常數(shù),滿足∑ μi=0(本節(jié)中,∑表示 i 從1到 k 取和,下同),λ i 是因子負荷,滿足
∑ λi=1,τ 是唯一隱變量,于是可將 Xi 分解為式(6)。
上式中,分子是所有項目的非標準因子載荷和的平方,分母是它再加上項目剩余方差之和,是信度的表達式。麥克唐納(1999)指出,在假定一維的情況下,若所有λi 都相等,則(7)式中的ω 就是Cronbach 的α [5]。這就是說,α 是ω 的特例。注意到ω 沒有假定“基本τ 等價”,而當“基本τ 等價”被滿足時,所有λ i 都相等,ω 就成為α 。這就說明ω 在信度估計中是優(yōu)于α 的選項。滿足“基本τ 等價”的模型,ω 的性能至少能和α 一樣好,而在違反“基本τ 等價”時ω 優(yōu)于α 。
因為ω 明顯優(yōu)于α ,近年來不僅得到理論工作者的大力推薦,隨著方便的計算方法的出現(xiàn),也得到了實證工作者的青睞。例如古伯(Goodboy)和馬?。∕artin)希望“通信學者應該提供信度本身的計算, 即系數(shù)ω ”以取代“學科對α 作為信度估計的慣常依賴”[20]。泰勒(Taylor)提出了過度依賴于克隆巴赫α 的擔憂,鼓勵研究人員更多地使用ω 系數(shù)[21]。目前鄧恩(Dunn)等人所希望的“研究人員應該從α 轉(zhuǎn)向ω[22]”的現(xiàn)象開始出現(xiàn),越來越多的人已接受了ω ,只報告α 的數(shù)據(jù)可能是“過時研究”, 低于標準,因此提供ω 系數(shù)勢在必行。
3.3 ω 計算障礙的掃除
ω 的計算必須使用驗證性因子分析(CFA),計算復雜,沒有專用的軟件包可計算,在推廣普及上不及α 。為改變這種狀態(tài),許多學者在ω 計算軟件方面做了不少工作。例如,溫忠麟和葉寶娟給出了單位測驗計算ω 的 LISREL 程序[23];古伯和馬丁提供了如何利用 MPLUS 軟件在可用數(shù)據(jù)集上計算ω 的方法[20];麥克尼什給出了用 R 軟件包求得ω 的方法[24]等,這些工具大大方便了ω 的計算。
4 取代還是共存——α 和ω 的將來
爭論還在繼續(xù)
α 理論上受到嚴厲的批評,又被證明只是ω 的特例,計算容易的優(yōu)勢正在消失,在應用領域“用ω 取代α ”的呼聲漸高,α 被ω 取代看來只是時間的問題,然而實際上并非如此。在前述以“克隆巴赫α 的再審視”為專題發(fā)表在 2021 年的“Psychometrika”刊物上的 5 篇專欄論文中,西茨瑪?shù)膽B(tài)度轉(zhuǎn)變引起了人們的關注。西茨瑪是 Tilburg 大學社會科學學院統(tǒng)計學教授,2009 年西茨瑪對“克隆巴赫 α 非常有限的有用性”[3]的評論在跨學科信度研究人員中產(chǎn)生了巨大影響,截至 2021 年 3 月,該文是Psychometrika 上發(fā)表的被引用次數(shù)最多的文章,文中他嚴厲批評α ,“α 不是內(nèi)部一致性的衡量標準, 它也不是單位程度的度量”。建議用其他指標來替換α 。12 年后,他卻為α 的缺點做了諸多辯護,認為“使用 CTT 還是 FA 因子分析取決于偏好;兩者在科學上是一致的……系數(shù)α 提供了一個下限,當測試通過近似測量一維或系數(shù)時,該下限很有用”[24]。西茨瑪態(tài)度的變化,說明在學術(shù)界關于是否用ω 取代α 還存在不同的意見。
“挺α 派”的一個重要理由是:ω 與α 實際相差不大。這個問題其實麥克唐納已經(jīng)覺察到了,他指出,α 值遠低于ω 的實際例子“很難找到”[5]。在海斯(Hayes)和考茨(Coutts)的研究中,計算了 17 個量表的α 和ω 值(用 CFA 估計),當四舍五入到兩位小數(shù)時有 11 個量表的α 和ω 沒有差別, 而其余 6 個的差異不過 0.01 而已[26]。經(jīng)實驗研究表明,α 和ω 似乎不太可能有意義的差異。彼得森(Peterson)和金(Kim)用元分析(Meta-analysis)方法研究了這個問題,從 24 種期刊 327 篇文章中獲得了共 2524 對的α 和ω 值,得出結(jié)論:在相同研究條件下,在估計信度上,ω 比α 明確得更好,但一般說來,差異很小[27],α 嚴重低估了真實信度的說法難以讓人信服。
α 與ω 將長期共存
雖然α 有許多缺點,但ω 的計算要求更高,當樣本數(shù)和總體信度較低時,ω 可能顯示出更多的估計失敗,估計信度預期信度之間可能有更大距離,因此ω 并不能完全取代α 。此外,α 還提供了所有條件下的一致低估,確保α 提供內(nèi)部一致性的下限估計,而ω 在同一方向上沒有始終如一的誤差(即時高時低)。Cho 指出,幾乎沒有經(jīng)驗證據(jù)表明ω 信度比α 更準確[28]。過去 70 年發(fā)展起來與α 、ω 相關的研究顯示,α 、ω 與信度之間的關系相當復雜,無論如何,不應簡單化地拋棄α 或不愿前進固守α ,而是應該對測量質(zhì)量的評價通過多種渠道采用多種方法互相參照,體現(xiàn)為α 與ω 的共存。未來實際應用的論文應同時將α 和ω 的數(shù)據(jù)給出,使它們提供的信息互相補充,以示信度達到要求。ω 與α 將長期共存,互相補充。
參考文獻
[1]Cronbach L J.Coe?cient alpha and the internal structure of tests[J].Psychometrika,1951,16(3).
[2]孟慶茂,劉紅云.α系數(shù)在使用中存在的問題[J].心理學探新,2002,22(3).
[3]Sijtsma K.On the use,the misuse,and the very limited usefulness of Cronbachs alpha[J].Psychometrika, 2009,74(1).
[4]Peters G.The alpha and the omega of scale reliability and validity:Why and how to abandon Cronbachs alpha and the route towards more comprehensive assessment of scale quality[J].European Health Psychologist, 2014,16(2).
[5]McDonald R P.Test theory:A unified treatment[M].Mahwah,NJ:Lawrence Erlbaum,1999.
[6]溫忠麟.α系數(shù):晃而不倒的信度標桿[N].中國社會科學報,2011-10-13(12).
[7]TenBerge J M F,Socan G.The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality[J].Psychometrika,2004,69(4).
[8]Green S B,Yang Y.Commentary on coefficient alpha:A cautionary tale[J].Psychometrika,2009,74(1).
[9]Davenport E C,Davison M L,Liou P Y,et al.Reliability,Dimensionality,and Internal Consistency as Defined by Cronbach:Distinct Albeit Related Concepts[J].Educational Measurement:Issues and Practice, 2015,34(4).
[10]Cortina J M.What is coefficient alpha? An examination of theory and applications[J].Journal of Applied Psychology,1993,78(1).
[11]Nunnally J C.Psychometric theory[M].New York,NY:McGraw-Hill,1978.
[12]Ventura-León J,Pea-Calero B N.The world should not revolve around Cronbachs alpha≥70[J]. Adicciones,2020,33(4).
[13]Raykov T.Reliability if deleted,not “alpha if deleted”:Evaluation of scale reliability following component deletion[J].British Journal of Mathematical and Statistical Psychology,2007,60(2).
[14]陳希鎮(zhèn).如何正確使用信度估計公式[J].心理學報,1991(1).
[15]謝小慶.信度估計得γ 系數(shù)[J].心理學報,1998,30(2).
[16]丁樹良,周新蓮.一種新的信度估計[J].江西師范大學學報(自然科學版),2002,26(3): 222-224.
[17]Bentler P M,Woodward J A.Inequalities among lower bounds to reliability:With applications to test construction and factor analysis[J].Psychometrika,1980,45(2).
[18]Revelle W,Zinbarg R E.Coefficients alpha,beta,omega,and the glb:Comments on Sijtsma[J]. Psychometrika,2009,74(1).
[19]McDonald R P.The theoretical foundations of principal factor analysis,canonical factor analysis,and alpha factor analysis[J].British Journal of Mathematical and Statistical Psychology,1970,23(1).
[20]Goodboy A K,Martin M M.Omega over alpha for reliability estimation of unidimensional communication measures[J].Annals of the International Communication Association,2020,44(4).
[21]Taylor J M.Coefficient Omega[J].Journal of Nursing Education,2021,60(8).
[22]Dunn T J,Baguley T,Brunsden V.From alpha to omega:A practical solution to the pervasive problem of internal consistency estimation[J].British Journal of Psychology,2014,105(3).
[23]溫忠麟,葉寶娟.測驗信度估計:從α ?系數(shù)到內(nèi)部一致性信度[J].心理學報,2011,43(7).
[24]McNeish D.Thanks coefficient alpha,well take it from here[J].Psychological Methods,2018,23(3).
[25]Sijtsma K,Pfadt J M.Rejoinder:The Future of Reliability[J].Psychometrika,2021,86(4).
[26]Hayes A F,Coutts J J.Use Omega Rather than Cronbachs Alpha for Estimating Reliability,But……[J]. Communication Methods and Measures,2020,14(1).
[27]Peterson R A,Kim Y.On the relationship between coefficient alpha and composite reliability[J].The Journal of applied psychology,2013,98(1).
[28]Cho E.Neither Cronbachs alpha nor McDonalds omega:A commentary on Sijtsma and Pfadt[J]. Psychometrika,2021,86(4).
Replace or Coexist
—Cronbachs Alpha and McDonalds Omega
Gao Qinghui
Xiamen University, Xiamen
Abstract: Coefficient Cronbachs α is the most widely used for estimating reliability. Researchers have used the index extensively in the papers that need to report its reliability, but many scholars have also questioned it. The α coefficient is used as reliability and must satisfy the “essential tau-equivalence” assumption. This assumption is too strict and difficult to meet, and its violation may lead to α overestimating or underestimating the reliability. Using Cronbachs α to estimate internal consistency is inappropriate. The acceptable lower bound to the reliability of a test is often set empirically, and there is no precise standard. Researchers increase the α value by deleting items, which may also lead to a decrease in the actual reliability of the scale. Although these problems exist, α has been widely used in related research for a long time. This is due to the following reasons: many research fields involve reporting reliability coefficients, researchers have not been taught how to use α correctly for a long time; in addition, standard statistical software has the function of calculating α, which is convenient for calculation; the editors also have requirements for reporting α in the paper. McDonald pointed out that α is a particular case of MacDonalds ω, and ω becomes α when the “essential tau-equivalence” is satisfied. ω is better than α when the “essential tau-equivalence” cannot be satisfied in reliability estimation. However, the calculation of ω must use confirmatory factor analysis (CFA), which is challenging to implement in the pre-computer era. Researchers have gradually started to use ω instead of α in their research, and more and more people have accepted ω. However, whether MacDonalds ω should be used instead of Cronbachs α, there is still a heated debate in the academic community. Opinions on ω mainly focus on the fact that the actual values of ω and α are not significantly different in the calculation. That ω may show more estimation failures when the sample size and overall reliability are small. It is unreasonable to abandon α or be unwilling to move forward and stick to α. In future research, use McDonalds omega and Cronbachs alpha for reliability estimation to coexist for a long time and complement each other.
Key words: Reliability estimation; Cronbachs α; MacDonalds ω