取代還是共存

2022-04-29 19:30:26高清輝

中國心理學前沿 2022年8期

高清輝

摘 ?要|在眾多信度指標中，克隆巴赫α （Cronbachs α ）系數(shù)最為常用，但α 系數(shù)在使用中常常忽視重要的“基本τ 等價”假設，導致α 系數(shù)并非真正的信度;并且存在著誤用與濫用、閾值不確定等問題，受到很多批評，被長期廣泛應用是因其易于計算、易于理解等特性。麥克唐納ω 克服了α 系數(shù)的上述缺點，信度估計上明顯優(yōu)于α 系數(shù)，但麥克唐納ω 也存在計算要求較高等缺點，尚無法取代克隆巴赫α 。兩個信度指標ω 與α 將長期共存，在研究報告中應同時提供ω 與α 的數(shù)值，互相補充。

關鍵詞|信度估計;克隆巴赫α ;麥克唐納ω

This article is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. https：//creativecommons.org/licenses/by-nc/4.0/

1 引言

在心理學和一些實證行為科學研究中，經(jīng)常要關注一些無法直接測量的量或結(jié)構(gòu)，例如某種能力、心理壓力等。多項目測量量表是研究這些量或結(jié)構(gòu)的常用方法：設置若干個能表達隱性目標量的項目，考察對象的反應，運用某種方式進行數(shù)字的聚合（常見如加總或平均），以生成每個被測量對象的測量值。在此類測試中，測量結(jié)果的穩(wěn)定程度即信度是一個非常重要的指標。在眾多信度指標中，克隆巴赫α （Cronbachs α ）系數(shù)最為常用。自從克隆巴赫在 1951 年提出α 系數(shù)[1]之后，α 系數(shù)得到了廣泛的應用，且被引用的次數(shù)極高，按谷歌學術(shù)搜索的統(tǒng)計，到 2021 年其被引用次數(shù)已超過54000 次。雖然α 系數(shù)得到如此多的引用，但對其的批評也很多，有的甚至很尖銳。孟慶茂和劉紅云指出“用α 系數(shù)對測驗進行評價的確存在一些問題”[2]。西茨瑪（Sijtsma）認為“想必沒有其他統(tǒng)計數(shù)據(jù)受到如此多的誤解和混淆”[3]。彼得斯（Peters）建議放棄使用α 系數(shù)，因為“Cronbachs α 值的

用處十分有限”[4]。許多學者提議用麥克唐納的ω [5]取代α ，認為研究人員應該從α 轉(zhuǎn)向ω ，但因種種原因目前仍是α 占主導地位。在 2021 年，前述克隆巴赫這篇開創(chuàng)性的論文[1]發(fā)表 70 周年之際，心理測量學界的權(quán)威刊物“Psychometrika”以“克隆巴赫α 的再審視”為專題發(fā)表了 5 篇專欄論文，表明了心理測量學界對該問題的關切。正如溫忠麟所言，α 是“晃而不倒的信度標桿”[6]，“晃”是因為其自身的局限性而受到多方批評，“不倒”是它在新條件下仍有存在的價值。那么，作為信度指標， α 系數(shù)具體有哪些缺點？α 系數(shù)既然有那么多的局限性，為何還會被廣泛應用呢？能否用ω 取代α ？我們將對這些問題作探討。

條件（3）實際意義為“任意兩個項目的真分數(shù)只相差一個常數(shù)”即 Ti=Tj+Cij（ i ≠ j），其中 Cij 是與第 i 第 j 項目有關但與被試無關的常數(shù)。這就是所謂的“基本 tau 等價”（essentially τ equivalent）。只有在“基本τ 等價”的假設滿足時α 才是真正的信度。要求任意兩個項目的真分數(shù)都相等的“τ ?等價”實在是要求過高，即使加上了“基本”，允許相差一個常數(shù)，也是過于嚴苛的假設。若違反了“基本τ 等價”，α 可能高估或低估了信度，對于項目數(shù)較少的測試，偏差程度可能很大。格林（Green）與楊（Yang）的模擬發(fā)現(xiàn)，違反基本τ 等價，甚至可能使α 低估真實信度達 0.2 之多[8]，將動搖測試者對此測試可靠性的看法。

α 的誤用

α 也有相當多的誤用，誤用最多的是關于α 與同質(zhì)性和內(nèi)部一致性的關系，內(nèi)部一致性（Internal Consistency）是指項目之間的關系，各項目得分之間有較高的相關性，則說其內(nèi)部一致性高。高內(nèi)部一致性是測量測試項目樣本同質(zhì)性或一維性的必要條件，但不是充分條件。將同質(zhì)性和內(nèi)部一致性看作同一概念，并將α 看作是同質(zhì)性或內(nèi)部一致性的度量，這是典型的誤用。達文波特（Davenport）證明了式（4）。

α =kr/[1+（k-1）r] （4）

其中，r 是所有項目成對相關系數(shù)的平均值，可作為內(nèi)部一致性的度量[9]。從式（4）可以看出，在固定 r>0 的條件下，只要增加項目數(shù) k ?就可使α 無限接近 1?？梢姦?是不能作為內(nèi)部一致性度量的。

閾值問題

將α 看作測試的信度時，就面臨如何確定閾值問題：α 多大才可以認為測試是可以接受的？科蒂納（Cortina）認為α 大于等于 70% 是可接受的[10]。該閾值源于努納利（Nunnally）的建議[11]，并在很多論文中得到認可和應用，然而該建議只是從一般的信度考慮，而非歸因于α ?本身的性質(zhì)。努納利的書在 1967 年版時指出信度在 0.5 或 0.6 就足以進行探索性研究，但在 1978 年版時增加到 0.7，人們選擇引用哪一個版本，往往取決于他們的α 高于還是低于 0.7。文圖拉·萊昂（Ventura-León）指出，判斷描述一個測試的質(zhì)量僅靠一個α 的值是不夠，認為“世界不應當圍著‘α ≥ 0.70轉(zhuǎn)”[12]。實際上在某些情況下，α 水平較低的測試可能非常有用。α 的閾值在不同情況下應有不同，需要進行的區(qū)分越精細，信度就必須越高。

刪除項目問題

如果測試的α 值不夠高，達不到測試人所希望的值（例如 0.7），研究人員常常會刪除原測試中某些項目來提高α 值，這樣做并非無懈可擊，刪除項目間相關性較低的項目可能會導致α 值的夸大，會產(chǎn)生樣本的α 水平比總體的α 水平更高的“α 膨脹”現(xiàn)象。雷科夫（Raykov）認為即使項目數(shù)量減少α 似乎也在增加，但實際上量表的真實信度可能反而降低[13]。

α 系數(shù)被廣泛引用的原因

α 系數(shù)有如此多被質(zhì)疑之處，但α 系數(shù)仍被大量引用，有以下幾個原因。

一是論文發(fā)表的需要。多項目測量量表是心理學和許多社會科學學科經(jīng)常使用的重要方法，可以說有多項目測量量表的地方就有測量信度的要求。許多期刊和組織規(guī)定，發(fā)表關于多項目測量量表的論文必須報告信度數(shù)據(jù)?？频偌{回顧了從 1966 年到 1990 年社會科學文獻引用α 系數(shù)的情況，“在278 種不同期刊上被引用”，列舉出引用的領域有“教育、工業(yè)、社會、臨床、兒童、社區(qū)和異常心理學、實驗心理學、社會學、統(tǒng)計學、醫(yī)學、咨詢、護理、經(jīng)濟學、政治學、犯罪學、老年學、廣播學、人

類學和會計學等”[10]。

二是教學上有關統(tǒng)計學的訓練較少而導致α ? 的誤用。在心理學教育系統(tǒng)中，數(shù)學和統(tǒng)計學訓練不是重點，這就導致只應用α 而不顧α 的應用條件，以至于誤用。針對α 系數(shù)的嚴厲批評文章大部分只能在心理測量學的期刊（如“Psychometrika”等）上或在以方法論家和統(tǒng)計學家為目標讀者的期刊上找到。如前述關于“基本τ ?等價”的問題，雖然在理論上是一個非常重要的假設，但只在測量理論圈受到關注，在實際測量中社會科學家們很少注意這個問題，形成“你講你的新思想，我用我的老方法”的尷尬局面。

三是α 的計算較為便捷，配套軟件較多。如 SAS、SPSS 等軟件可以幫助研究者們不必深究統(tǒng)計概念、編寫計算機程序，只要輕點鼠標就可以輕松得到所需要的參數(shù)，便于應用。

3 α 的挑戰(zhàn)者ω

挑戰(zhàn)α 地位的新指標

70 年來雖然有許多學者指出α 的諸多缺點，但要用新的指標來取代α 系數(shù)卻很不容易。例如：陳希鎮(zhèn)的β 系數(shù)[14]，謝小慶的γ 系數(shù)[15]，丁樹良和周新蓮的ξ 系數(shù)[16]等所提出的新系數(shù)都只是改進了α 的部分功能，無法得到普及，當然也無法挑戰(zhàn)α 了。

本特勒（Bentler）和伍德沃德（Woodward）提出了信度最大下限glb（Greatest Lower Bound），可以證明， α ≤λ 2 ≤ g1b ≤ρ（X），因此作為信度的下界，glb 比α 要好[17]。雷弗爾（Revelle）和津巴格（Zinbarg）則建議用麥克唐納的ω [18]。

麥克唐納的ω

1970 年，麥克唐納（McDonald）在論及因子分析的論文的附錄中給出了系數(shù)θ [19]，后來在其

1999 年的論文中，他將θ 改稱為ω [5]，中文文獻稱為組合信度或合成信度，大多數(shù)文獻將其稱為麥克唐納的歐米伽 McDonalds ω ，ω 的含義如下：

考慮單因子模型，設 Ti=μ i+λ iT i=1，…，k; （5）其中μi 是常數(shù)，滿足∑ μi=0（本節(jié)中，∑表示 i 從1到 k 取和，下同），λ i 是因子負荷，滿足

∑ λi=1，τ 是唯一隱變量，于是可將 Xi 分解為式（6）。

上式中，分子是所有項目的非標準因子載荷和的平方，分母是它再加上項目剩余方差之和，是信度的表達式。麥克唐納（1999）指出，在假定一維的情況下，若所有λi 都相等，則（7）式中的ω 就是Cronbach 的α [5]。這就是說，α 是ω 的特例。注意到ω 沒有假定“基本τ 等價”，而當“基本τ 等價”被滿足時，所有λ i 都相等，ω 就成為α 。這就說明ω 在信度估計中是優(yōu)于α 的選項。滿足“基本τ 等價”的模型，ω 的性能至少能和α 一樣好，而在違反“基本τ 等價”時ω 優(yōu)于α 。

因為ω 明顯優(yōu)于α ，近年來不僅得到理論工作者的大力推薦，隨著方便的計算方法的出現(xiàn)，也得到了實證工作者的青睞。例如古伯（Goodboy）和馬?。∕artin）希望“通信學者應該提供信度本身的計算，即系數(shù)ω ”以取代“學科對α 作為信度估計的慣常依賴”[20]。泰勒（Taylor）提出了過度依賴于克隆巴赫α 的擔憂，鼓勵研究人員更多地使用ω 系數(shù)[21]。目前鄧恩（Dunn）等人所希望的“研究人員應該從α 轉(zhuǎn)向ω[22]”的現(xiàn)象開始出現(xiàn)，越來越多的人已接受了ω ，只報告α 的數(shù)據(jù)可能是“過時研究”，低于標準，因此提供ω 系數(shù)勢在必行。

3.3 ω 計算障礙的掃除

ω 的計算必須使用驗證性因子分析（CFA），計算復雜，沒有專用的軟件包可計算，在推廣普及上不及α 。為改變這種狀態(tài)，許多學者在ω 計算軟件方面做了不少工作。例如，溫忠麟和葉寶娟給出了單位測驗計算ω 的 LISREL 程序[23];古伯和馬丁提供了如何利用 MPLUS 軟件在可用數(shù)據(jù)集上計算ω 的方法[20];麥克尼什給出了用 R 軟件包求得ω 的方法[24]等，這些工具大大方便了ω 的計算。

4 取代還是共存——α 和ω 的將來

爭論還在繼續(xù)

α 理論上受到嚴厲的批評，又被證明只是ω 的特例，計算容易的優(yōu)勢正在消失，在應用領域“用ω 取代α ”的呼聲漸高，α 被ω 取代看來只是時間的問題，然而實際上并非如此。在前述以“克隆巴赫α 的再審視”為專題發(fā)表在 2021 年的“Psychometrika”刊物上的 5 篇專欄論文中，西茨瑪?shù)膽B(tài)度轉(zhuǎn)變引起了人們的關注。西茨瑪是 Tilburg 大學社會科學學院統(tǒng)計學教授，2009 年西茨瑪對“克隆巴赫 α 非常有限的有用性”[3]的評論在跨學科信度研究人員中產(chǎn)生了巨大影響，截至 2021 年 3 月，該文是Psychometrika 上發(fā)表的被引用次數(shù)最多的文章，文中他嚴厲批評α ，“α 不是內(nèi)部一致性的衡量標準，它也不是單位程度的度量”。建議用其他指標來替換α 。12 年后，他卻為α 的缺點做了諸多辯護，認為“使用 CTT 還是 FA 因子分析取決于偏好;兩者在科學上是一致的……系數(shù)α 提供了一個下限，當測試通過近似測量一維或系數(shù)時，該下限很有用”[24]。西茨瑪態(tài)度的變化，說明在學術(shù)界關于是否用ω 取代α 還存在不同的意見。

“挺α 派”的一個重要理由是：ω 與α 實際相差不大。這個問題其實麥克唐納已經(jīng)覺察到了，他指出，α 值遠低于ω 的實際例子“很難找到”[5]。在海斯（Hayes）和考茨（Coutts）的研究中，計算了 17 個量表的α 和ω 值（用 CFA 估計），當四舍五入到兩位小數(shù)時有 11 個量表的α 和ω 沒有差別，而其余 6 個的差異不過 0.01 而已[26]。經(jīng)實驗研究表明，α 和ω 似乎不太可能有意義的差異。彼得森（Peterson）和金（Kim）用元分析（Meta-analysis）方法研究了這個問題，從 24 種期刊 327 篇文章中獲得了共 2524 對的α 和ω 值，得出結(jié)論：在相同研究條件下，在估計信度上，ω 比α 明確得更好，但一般說來，差異很小[27]，α 嚴重低估了真實信度的說法難以讓人信服。

α 與ω 將長期共存

雖然α 有許多缺點，但ω 的計算要求更高，當樣本數(shù)和總體信度較低時，ω 可能顯示出更多的估計失敗，估計信度預期信度之間可能有更大距離，因此ω 并不能完全取代α 。此外，α 還提供了所有條件下的一致低估，確保α 提供內(nèi)部一致性的下限估計，而ω 在同一方向上沒有始終如一的誤差（即時高時低）。Cho 指出，幾乎沒有經(jīng)驗證據(jù)表明ω 信度比α 更準確[28]。過去 70 年發(fā)展起來與α 、ω 相關的研究顯示，α 、ω 與信度之間的關系相當復雜，無論如何，不應簡單化地拋棄α 或不愿前進固守α ，而是應該對測量質(zhì)量的評價通過多種渠道采用多種方法互相參照，體現(xiàn)為α 與ω 的共存。未來實際應用的論文應同時將α 和ω 的數(shù)據(jù)給出，使它們提供的信息互相補充，以示信度達到要求。ω 與α 將長期共存，互相補充。

參考文獻

[1]Cronbach L J.Coe?cient alpha and the internal structure of tests[J].Psychometrika，1951，16（3）.

[2]孟慶茂，劉紅云.α系數(shù)在使用中存在的問題[J].心理學探新，2002，22（3）.

[3]Sijtsma K.On the use，the misuse，and the very limited usefulness of Cronbachs alpha[J].Psychometrika， 2009，74（1）.

[4]Peters G.The alpha and the omega of scale reliability and validity：Why and how to abandon Cronbachs alpha and the route towards more comprehensive assessment of scale quality[J].European Health Psychologist， 2014，16（2）.

[5]McDonald R P.Test theory：A unified treatment[M].Mahwah，NJ：Lawrence Erlbaum，1999.

[6]溫忠麟.α系數(shù)：晃而不倒的信度標桿[N].中國社會科學報，2011-10-13（12）.

[7]TenBerge J M F，Socan G.The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality[J].Psychometrika，2004，69（4）.

[8]Green S B，Yang Y.Commentary on coefficient alpha：A cautionary tale[J].Psychometrika，2009，74（1）.

[9]Davenport E C，Davison M L，Liou P Y，et al.Reliability，Dimensionality，and Internal Consistency as Defined by Cronbach：Distinct Albeit Related Concepts[J].Educational Measurement：Issues and Practice， 2015，34（4）.

[10]Cortina J M.What is coefficient alpha？ An examination of theory and applications[J].Journal of Applied Psychology，1993，78（1）.

[11]Nunnally J C.Psychometric theory[M].New York，NY：McGraw-Hill，1978.

[12]Ventura-León J，Pea-Calero B N.The world should not revolve around Cronbachs alpha≥70[J]. Adicciones，2020，33（4）.

[13]Raykov T.Reliability if deleted，not “alpha if deleted”：Evaluation of scale reliability following component deletion[J].British Journal of Mathematical and Statistical Psychology，2007，60（2）.

[14]陳希鎮(zhèn).如何正確使用信度估計公式[J].心理學報，1991（1）.

[15]謝小慶.信度估計得γ 系數(shù)[J].心理學報，1998，30（2）.

[16]丁樹良，周新蓮.一種新的信度估計[J].江西師范大學學報（自然科學版），2002，26（3）： 222-224.

[17]Bentler P M，Woodward J A.Inequalities among lower bounds to reliability：With applications to test construction and factor analysis[J].Psychometrika，1980，45（2）.

[18]Revelle W，Zinbarg R E.Coefficients alpha，beta，omega，and the glb：Comments on Sijtsma[J]. Psychometrika，2009，74（1）.

[19]McDonald R P.The theoretical foundations of principal factor analysis，canonical factor analysis，and alpha factor analysis[J].British Journal of Mathematical and Statistical Psychology，1970，23（1）.

[20]Goodboy A K，Martin M M.Omega over alpha for reliability estimation of unidimensional communication measures[J].Annals of the International Communication Association，2020，44（4）.

[21]Taylor J M.Coefficient Omega[J].Journal of Nursing Education，2021，60（8）.

[22]Dunn T J，Baguley T，Brunsden V.From alpha to omega：A practical solution to the pervasive problem of internal consistency estimation[J].British Journal of Psychology，2014，105（3）.

[23]溫忠麟，葉寶娟.測驗信度估計：從α ?系數(shù)到內(nèi)部一致性信度[J].心理學報，2011，43（7）.

[24]McNeish D.Thanks coefficient alpha，well take it from here[J].Psychological Methods，2018，23（3）.

[25]Sijtsma K，Pfadt J M.Rejoinder：The Future of Reliability[J].Psychometrika，2021，86（4）.

[26]Hayes A F，Coutts J J.Use Omega Rather than Cronbachs Alpha for Estimating Reliability，But……[J]. Communication Methods and Measures，2020，14（1）.

[27]Peterson R A，Kim Y.On the relationship between coefficient alpha and composite reliability[J].The Journal of applied psychology，2013，98（1）.

[28]Cho E.Neither Cronbachs alpha nor McDonalds omega：A commentary on Sijtsma and Pfadt[J]. Psychometrika，2021，86（4）.

Replace or Coexist

—Cronbachs Alpha and McDonalds Omega

Gao Qinghui

Xiamen University， Xiamen

Abstract： Coefficient Cronbachs α is the most widely used for estimating reliability. Researchers have used the index extensively in the papers that need to report its reliability， but many scholars have also questioned it. The α coefficient is used as reliability and must satisfy the “essential tau-equivalence” assumption. This assumption is too strict and difficult to meet， and its violation may lead to α overestimating or underestimating the reliability. Using Cronbachs α to estimate internal consistency is inappropriate. The acceptable lower bound to the reliability of a test is often set empirically， and there is no precise standard. Researchers increase the α value by deleting items， which may also lead to a decrease in the actual reliability of the scale. Although these problems exist， α has been widely used in related research for a long time. This is due to the following reasons： many research fields involve reporting reliability coefficients， researchers have not been taught how to use α correctly for a long time; in addition， standard statistical software has the function of calculating α， which is convenient for calculation; the editors also have requirements for reporting α in the paper. McDonald pointed out that α is a particular case of MacDonalds ω， and ω becomes α when the “essential tau-equivalence” is satisfied. ω is better than α when the “essential tau-equivalence” cannot be satisfied in reliability estimation. However， the calculation of ω must use confirmatory factor analysis （CFA）， which is challenging to implement in the pre-computer era. Researchers have gradually started to use ω instead of α in their research， and more and more people have accepted ω. However， whether MacDonalds ω should be used instead of Cronbachs α， there is still a heated debate in the academic community. Opinions on ω mainly focus on the fact that the actual values of ω and α are not significantly different in the calculation. That ω may show more estimation failures when the sample size and overall reliability are small. It is unreasonable to abandon α or be unwilling to move forward and stick to α. In future research， use McDonalds omega and Cronbachs alpha for reliability estimation to coexist for a long time and complement each other.

Key words： Reliability estimation; Cronbachs α; MacDonalds ω

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

取代還是共存