《中國家庭追蹤調(diào)查》中字詞測試的信度和效度分析

2016-06-05 14:19李佩華

中國考試 2016年11期

吳瓊李佩華

吳瓊李佩華

大型綜合性調(diào)查經(jīng)常包含認知測試部分?；诳刂普{(diào)查成本以及降低數(shù)據(jù)缺失率的要求，大型調(diào)查中的認知測試設(shè)計一般較為簡潔，在這種情況下，其信度和效度可能受到影響。本文運用經(jīng)典測試理論和項目反應(yīng)理論兩種方式來分析“中國家庭追蹤調(diào)查”中字詞測試的信度和效度。我們還同時比較了3種計分方法，它們分別是原始分計分法、最難題計分法以及基于項目反應(yīng)理論的計分法。分析結(jié)果顯示，“中國家庭追蹤調(diào)查”中字詞測試信度較高，其結(jié)構(gòu)效度和效標效度良好。3種計分方法結(jié)果的相關(guān)度很高，在分析截面數(shù)據(jù)時沒有實質(zhì)性的差別。

中國家庭追蹤調(diào)查；字詞測試；認知測試；信度；效度；經(jīng)典測試理論；項目反應(yīng)理論

認知測試在國內(nèi)外大型調(diào)查中經(jīng)常出現(xiàn)，如美國的《健康與退休調(diào)查》（Health and Retirement Study）、《兒童早期發(fā)展追蹤調(diào)查》（Early Childhood Longitudinal Study）以及國內(nèi)的《中國健康與養(yǎng)老追蹤調(diào)查》（China Health and Retirement Longitudinal Study）、《中國家庭追蹤調(diào)查》（China Family Panel Studies,以下簡稱CFPS）等。大型調(diào)查中的認知測試與獨立的認知測試有所不同。前者對控制調(diào)查成本以及減少受訪者負擔(dān)以降低數(shù)據(jù)缺失率更為關(guān)注，于是認知測試的設(shè)計會盡量簡潔。本研究旨在分析全國性大型調(diào)查CFPS中字詞測試部分在簡潔的設(shè)計思路下的信度和效度。

CFPS從2010年正式啟動，在全國25個省、市和自治區(qū)（不含新疆、西藏、青海、內(nèi)蒙古、寧夏、海南）采用分層抽樣的方法，訪問樣本家庭中的每個人，收集社區(qū)、家庭、個人層面的數(shù)據(jù)，內(nèi)容涉及經(jīng)濟、人口、健康、教育等各方面；計劃每兩年對家庭中的核心人員進行追蹤。其基線調(diào)查已經(jīng)收集到來自634個社區(qū)中14 960個家庭中共57 155個成員的數(shù)據(jù)。

本文運用經(jīng)典測試理論方法和項目反應(yīng)理論方法，分析此調(diào)查中字詞測試部分的信度和效度，針對CFPS的設(shè)計，對字詞測試采用3種不同的計分方法，并對其進行比較。

1 CFPS中字詞測試

字詞測試是CFPS中認知測試的一部分，它適用于調(diào)查中年齡在10周歲及以上的人群。訪員向受訪者出示的圖片中的文字，受訪者將所示文字朗讀出來。由于CFPS是追蹤性調(diào)查，因此，為了受訪者在追蹤訪問中不受以前測試的影響，字詞測試共設(shè)計了8套難度相當(dāng)?shù)脑嚲恚茉L者在首次調(diào)查中隨機接受其中的一套試卷，在下次訪問中同樣的受訪者會接受另外一套試卷。每一套字詞試卷共包含34個文字，它們按難度由低到高的順序排列，受訪者從最容易的試題開始，按順序逐字回答，直到他們連續(xù)答錯3道試題或全部完成試題為止。為了盡量縮減訪問時間，提高訪問效率，不同學(xué)歷的受訪者從不同的試題開始回答。具體來說，具有小學(xué)及以下學(xué)歷的受訪者從第1道試題開始，具有初中學(xué)歷的受訪者從第9道題開始，具有高中及以上學(xué)歷的受訪者從第21道題開始。這樣的設(shè)計雖然縮短了調(diào)查用時，降低了受訪者負擔(dān)，但它帶來了試題層面數(shù)據(jù)的兩種系統(tǒng)性缺失，一是試卷一開始那些被認為對某些受訪者太容易的試題（即未呈現(xiàn)的試題），另一種是試卷結(jié)尾部分那些被認為對某些受訪者太難的試題（即未觸及的試題）。

2 心理測量學(xué)模型

信度和效度是心理測量學(xué)中的基本概念，它們是衡量試卷質(zhì)量的重要指標。信度是指測量結(jié)果的一致性或穩(wěn)定性，效度是指測量結(jié)果能準確反映所要測量的特質(zhì)的程度。我們運用以下兩種心理測量學(xué)的模型來分析CFPS字詞測試分數(shù)的信度和效度。

2.1 經(jīng)典測試模型

經(jīng)典測試理論（Classical Test Theory，CTT）認為，我們所觀測到的分數(shù)（O）由兩部分組成：受訪者的真實分數(shù)（T）以及誤差分數(shù)（E）;誤差是隨機的（即O=T+E），并且與真實分數(shù)沒有相關(guān)性。這種定義是完全理論性的，因為在現(xiàn)實中，真實分數(shù)總是不可知的。信度概念建立在平行測試（Parallel Forms）的概念之上，其值定義為兩個平等測試分數(shù)的相關(guān)系數(shù)值；這個定義同樣也是理論性的，因為完全平行的測試很難實現(xiàn)。在現(xiàn)實中，信度的計算方法會采用其他方式，而Cronbach’s alpha便是其中運用最為廣泛的方法。我們將在下文闡述這種方法。所有基于CTT理論的分析都存在一個的根本局限性，那就是結(jié)果受樣本的影響很大。

2.2 項目反應(yīng)理論模型

項目反應(yīng)理論（Item Response Theory，IRT）認為，受訪者有一定的概率答對每一道題，這個概率是受訪者能力（通常用θ表示）以及試題性質(zhì)（如難度、區(qū)分度）的綜合函數(shù)。在IRT理論中，信度的概念主要被測試信息函數(shù)（Test Information Function，TIF）取代，與CTT中提供單一的總體信度值不同，TIF能反映出在不同的受訪者能力區(qū)間該測試所測量的信息量，這個信息量與信度呈正相關(guān)。雖然TIF在IRT中運用廣泛，但為了便于跟CTT中的信度估計值保持一致，IRT框架也提供了一個綜合性信度指數(shù)：邊際信度值（Marginal Reliability Estimate）。

3 計分方法

由于CFPS字詞測試設(shè)計的特殊性，其計分方法至少有原始分計分法、最難題計分法、IRT計分法3種，其中前兩種基于CTT，后一種基于IRT。

3.1 原始分計分法

原始分計分法根據(jù)受訪者答對試題的數(shù)量來計分，這是CTT框架下最直接和最常用的計分法。在CFPS中，由于不同學(xué)歷的人群從不同的試題開始，其原始分需要在最基本的計算上稍做調(diào)整。具體來說，對于小學(xué)及以下學(xué)歷的受訪者，其原始分等于其答對試題的數(shù)目；對于初中學(xué)歷的受訪者，其原始分等于其答對試題的數(shù)目加上8；對于高中及以上學(xué)歷的受訪者，其原始分等于其答對試題的數(shù)目加上20。

3.2 最難題計分法

最難題計分法根據(jù)受訪者答對的最難一道試題的序號來打分。這種計分法基于一種假設(shè)：即試題有絕對的難度順序，答對難題的受訪者具備答對難度較低的所有試題的能力（但由于誤差的存在，其實際答案也許不一定總是正確的）。CFPS字詞測試的設(shè)計思路建立在這個假設(shè)之上。

需要提到的是，以上兩種基于CTT的計分方法，在計分時均忽略了8套試卷之間難度上可能存在的細微差別，并沒有通過統(tǒng)計的方法來進行分數(shù)等值計算（Equating）。這種做法出于兩方面的考慮：第一，計算出各試卷的平均分相差很小，不同試卷平均分的效應(yīng)差均不超過0.10（由實際組間差除以整個樣本的標準方差得出），而且在大部分情況下不具有統(tǒng)計顯著性。在試卷幾乎沒有實質(zhì)性差別的情況下，不進行統(tǒng)計性的等值計算效果可能更好，因為統(tǒng)計性等值計算本身也會引進誤差。第二，原始分計分法和最難題計分法的相對優(yōu)勢（即其在計算及分數(shù)詮釋上的便利）在進行分數(shù)等值計算后會相對削弱。

3.3 IRT計分法

這種計分方法是建立在由IRT中的雙參數(shù)lo?gistic（以下簡稱2PL）模型建模的基礎(chǔ)上，采用貝氏估計的期望后驗法（Expected a Posteriori,EAP）所得的分數(shù)。對于每一套試題，IRT模型將答題人分成3組（即按學(xué)歷而從不同試題開始回答的3組人群），并考慮到這3組人所答試題的不同。相比于CTT來說，IRT的一個特點是即使受訪者答的題不一樣，IRT也能提供可以直接比較的分數(shù)。未呈現(xiàn)給受訪者的試題不在計分模型中，而未觸及的試題算做錯題。為了統(tǒng)計估算的需要，第一組受訪者能力的平均值預(yù)設(shè)為0，其標準方差預(yù)設(shè)為1，IRT的分析由統(tǒng)計軟件BILOG-MG實施。

4 信度

4.1 CTT信度

在CTT下，我們采用最常用的信度估計方法Cronbach’s alpha，對參與同一套試卷的3個教育組分別計算。Cronbach’s alpha將每道試題都視為一個小測試，然后將同一套試卷中的每道試題相互視為平行測試。從數(shù)學(xué)意義上來說，Cronbach’s alpha是信度值的一個低估值，其值在0～1之間，越接近1，指示信度值越高。Cronbach’s alpha的局限性在于受試卷試題數(shù)量的影響很大，試題數(shù)量越多，Cronbach’s alpha值越接近1。前面已經(jīng)提到過，字詞測試的設(shè)計使其存在兩種系統(tǒng)性缺失，在計算Cronbach’s alpha時，我們將未呈現(xiàn)的試題去除，而將未觸及的試題視為錯題。因此，對于3個教育組來說，每套試卷的實際長度分別為34道題、26道題和14道題。

4.2 IRT信度

我們采用EAP估計中所計算的經(jīng)驗信度值（Empirical Reliability）作為IRT中信度的估計。經(jīng)驗信度是由真實分數(shù)方差除以真實分數(shù)方差與誤差分數(shù)方差的和而得出。在EAP估計中，誤差分數(shù)方差是樣本中所有個體能力后估值的方差的平均數(shù)，而真實分數(shù)方差直接由樣本計算出的EAP得分的方差得出。這個值由BILOG-MG直接計算得出。

5 效度

5.1 結(jié)構(gòu)效度

結(jié)構(gòu)效度（Construct Validity）是指測量結(jié)果符合理論設(shè)想的科學(xué)意義的程度。我們利用Mplus軟件將數(shù)據(jù)與單因子驗證性因子分析模型進行擬合。擬合優(yōu)度由以下3個指數(shù)綜合判斷：RMSEA, CFI和TLI。如果RMSEA不大于0.08，且CFI和TLI都不小于0.90，則模型擬合得較好。除驗證性因子分析以外，我們也使用探索性因子分析模型來分析數(shù)據(jù)。

5.2 效標效度

效標效度（Criterion Validity）是指測量結(jié)果與能表示被測概念的標準變量之間的相關(guān)性。我們通過分析字詞測試分數(shù)與兩個效標變量的相關(guān)性來收集相關(guān)效度證據(jù)。這兩個效標變量分別是CFPS的數(shù)學(xué)測試以及受訪者的教育年限。數(shù)學(xué)測試是CFPS認知測試的另外一部分，共有4套試卷，每套24道題，這24道題分別來自12個年級，每個年級水平有2道試題。試題也是按其難度排序，具有小學(xué)學(xué)歷及以下的從最容易的第1道題開始測試，初中學(xué)歷的從第13道題開始測試，高中及以上學(xué)歷的從第19道題開始測試。CFPS的數(shù)學(xué)測試采用最難題計分法。受訪者教育年限來自受訪者自己的陳述，如果其缺失，則從家庭成員的代答中嘗試尋找。無論是CFPS數(shù)學(xué)測試，還是受訪者教育年限，并非都是字詞測試的黃金效標變量，但受訪者的數(shù)學(xué)能力及其教育年限應(yīng)該與其識字能力呈現(xiàn)顯著的正相關(guān)性。

6 結(jié)果

本研究的分析共涉及23 980個樣本，樣本量在8套試卷中大致呈均衡分配，每套試題答題者在2 907～3 072人。樣本人群的平均年齡在42歲，約49%為男性。不同套試卷答題者在年齡和性別的平均分布上沒有差別。每套試卷中，約有52%的人具有小學(xué)及以下文化程度（教育分組1），約30%的人具有初中學(xué)歷（教育分組2），剩下的18%具有高中及以上學(xué)歷（教育分組3）。

6.1 信度

表1展示了分試卷和分組得出的Cronbach’s alpha的值和經(jīng)驗信度值?？傮w來說，信度值處在高區(qū)間，最低值為0.85。跟預(yù)計相符，基于CTT的信度值Cronbach’s alpha受題量多少（即實際試卷長度）的影響，其值總是在第一組中最大（試卷長度為34道題），第二組其次（試卷長度為26道題），在第三組中最?。ㄔ嚲黹L度為14道題）；而基于IRT的信度值并沒有這樣的模式。但不論是CTT，還是IRT，都同樣反映出第三組的信度值最小。

6.2 分數(shù)分布

表2列出了基于3種計分方法得出的分數(shù)分布。原始分計分法和最難題計分法屬于同一度量衡，它們具有直接可比性，最難題計分法的平均分稍高于原始分計分法。3種得分都呈負偏態(tài)分布，說明處在高分區(qū)間的人多于處在低分區(qū)間的人。在3種得分中，IRT計分法的偏度（-0.46）相對其他兩種計分較高。與正態(tài)分布相比，3種得分的分布都相對扁平（峰度為負值），而IRT計分法的峰度（-0.80）比其他兩種得分更接近零。

表1 基于CTT和IRT方法的信度值

表2 不同計分法的分數(shù)分布和描述性統(tǒng)計結(jié)果

表2中同時列出了各教育分組的平均分數(shù)和標準方差。教育程度高的小組的平均得分明顯高于教育程度低的小組，這樣的模式雖然跟原始分計分法和最難題計分法的規(guī)則有很大關(guān)系，但IRT計分法并沒有強制這樣的模式。由于3種計分法并不都處于同樣的度量衡，為了方便比較，我們計算了效應(yīng)差。我們注意到最難題計分法和IRT計分法得出的教育組間效應(yīng)差非常類似，但原始分計分法得出的組1和組3之間的差別要大于基于其他兩種計分法得出的差別。

我們也計算了3組分數(shù)之間的相關(guān)系數(shù)（見表3），3組分數(shù)之間的相關(guān)性非常高，相關(guān)系數(shù)的值不低于0.95。

表3 3種計分法的相關(guān)系數(shù)值

6.3 結(jié)構(gòu)效度

表4所顯示的各擬合優(yōu)度指數(shù)反映出數(shù)據(jù)和單因子驗證性因子模型擬合得比較充分。對于8套試卷所產(chǎn)生的數(shù)據(jù)來說，RMSEA處在0.05到0.08之間，CFI和TLI高達0.99。探索性因子模型的結(jié)果也支持一個因子的假設(shè)，最大的特征值（約在28左右）遠大于第二大特征值（約在2左右），我們不贅述詳細的探索性因子模型分析結(jié)果。

6.4 效標效度

總體來說，3種計分法的得分與兩個效標變量（CFPS數(shù)學(xué)測試得分、教育年限）有很高的相關(guān)性（如圖1和圖2所示）。具體來說，原始分計分法（NR）在3類得分中與兩個效標變量的相關(guān)度在每套試題中都最高；IRT計分法的得分與兩個效標變量的相關(guān)度在大部分情況下都高于最難題計分法，因此總體上最難題計分法（HSN）與效標變量的相關(guān)度最低。我們認為最難題計分法與效標變量相關(guān)度最低的這一發(fā)現(xiàn)是相對穩(wěn)健的，因為數(shù)學(xué)測試得分的計分法也是最難題計分法。

圖1 三種計分法結(jié)果與數(shù)學(xué)測試分數(shù)的相關(guān)系數(shù)

表4 單因子驗證性因子模型擬合優(yōu)度結(jié)果

圖2 三種計分法結(jié)果與教育年限的相關(guān)系數(shù)

7 結(jié)論與討論

本研究運用CTT和IRT方法對CFPS中的字詞測試進行了信度和效度的檢驗。信度由Cronbach’s alpha以及IRT經(jīng)驗信度系數(shù)得出，效度通過因子分析以及相關(guān)性分析得出。無論是CTT還是IRT方法得出的初步結(jié)論都一致，CFPS的字詞測試具有較高的信度，其結(jié)構(gòu)效度較好，與現(xiàn)有的效標變量相關(guān)度很高。

本研究特別比較了3種計分法（原始分計分法，最難題計分法和IRT計分法），基本結(jié)論是這三者之間高度一致，運用任何一種計分法得出的結(jié)論都不會對研究結(jié)果產(chǎn)生實質(zhì)性區(qū)別。盡管如此，我們還是發(fā)現(xiàn)了小的差別。首先，IRT計分法得分的分布在三者當(dāng)中偏度最高（-0.46），峰度最接近正態(tài)分布（-0.80）；其次，原始分計分法得出的教育分組1到組3之間的組間差大于由其他兩種計分法得出的組間差；再次，原始分計分法與兩個效標變量（CFPS數(shù)學(xué)測試分數(shù)、教育年限）的相關(guān)度最高，最難題計分法最低。如果一定要在三者之間推薦一個分數(shù)，原始分計分法也許有微弱優(yōu)勢，這主要是因為其在計算方法上和分數(shù)詮釋方面都比IRT更加便捷。但要注意的是，這種推薦只適用于截面數(shù)據(jù)的分析。如果要做追蹤分析的話，也許其他的計分法（如IRT）更加適用。

本研究的一個主要局限性是缺乏最佳的效標變量。在理想的狀態(tài)下，我們希望擁有受訪者在另一個字詞測試方面的分數(shù)，將這個分數(shù)作為效標變量。但這種黃金的效標變量不存在，我們只能借助于與識字水平高度相關(guān)的其他變量。另一個局限性是我們只有該試題測試的基線數(shù)據(jù)，無法分析測試對時間的敏感性。但我們的樣本人群中有很廣的年齡層，相關(guān)的分析已經(jīng)發(fā)現(xiàn)測試分數(shù)和年齡有很強的相關(guān)性，具體來說，對于16歲以下的青少年來說，其分數(shù)隨年齡增長，而對于成人來說，其分數(shù)隨年齡降低。

當(dāng)大型調(diào)查中包含認知測試時，其設(shè)計通常要在很大程度上考慮調(diào)查成本控制以及受訪者負擔(dān)。在這種情況下，信度和效度也許要受影響。本研究的初步分析發(fā)現(xiàn)CFPS字詞測試的信度和效度均比較理想。

[1]謝宇.中國家庭追蹤調(diào)查（2010）用戶手冊[C/OL].[2016-10-12]. http://www.haihongyuan.com/zhexuelishi/160948.html.

[2]李燦,辛玲.調(diào)查問卷的信度與效度的評價方法研究[J].中國衛(wèi)生統(tǒng)計,2008,25（5）.

[3]NOVICK M.The axioms and principal results of classical test theory [J].Journal of mathematical psychology,1966（3）,1-18.

[4]韓耀風(fēng),郝元濤,方積乾.項目反應(yīng)理論及其在生存質(zhì)量研究中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2006（6）.

[5]HAMBELTON R.Emergence of item response modeling in instru?ment development and data analysis[J].Medical Care,2000（38）: 60-65.

[6]HAMBELTON R.SWAMINATHAN H.Item Response Theory: Principals and Applications[M].Boston:Kluwer Academic Publish?ers,1985.

[7]KOLEN M J,BRENNAN R L.Test equating,scaling,and linking [M].New York,NY:Springer,2004.

[8]BIRNBAUM A.Some latent trait models and their use in inferring an examinee’s ability[M]//LORD F M,NOVICK,M R（Eds.）.Statis?tical theories of mental test scores.MA:Addison-Wesley,1968.

[9]SIJTTSMA K.On the use,the misuse,and the very limited useful?ness of Cronbach’s Alpha[J].Psychometrika,2009（74）:107-120.

[10]MUTHEN L K,MUTHEN B O.Mplus User’s Guide[M].7th ed. Los Angeles,CA:Muthén&Muthén,2013.

[11]HU L,BENTLER P.Fit indices in covariance structure modeling: sensitivity to underparameterized model misspecification[J].Psy?chological Methods,1998（3）:424-453.

[12]徐宏偉，駱為祥.中國家庭追蹤調(diào)查2010年綜合變量（1）:字詞與數(shù)學(xué)測試,中國家庭追蹤調(diào)查技術(shù)報告系列（CFPS-11）[C/ OL].[2016-10-12].http://www.docin.com/p-1729243739.html.

Psychometric Properties of the Literacy Test from China Family Panel Studies

WU Qiong&LI Peihua

Many large scale surveys contain cognitive assessment modules.The design of those cognitive tests is often brief in order to minimize test administration cost and maintain acceptable response rates.This paper evaluated the psychometric properties of the literacy test from China Family Panel Studies（CFPS）using both Classical Test Theory（CTT）and Item Response Theory（IRT）approaches.We also compared three different scoring methods:number-right,highest sequence number,and IRT scaled scores.Both CTT and IRT approaches provided positive evidence for reliability and validity of test scores from the CFPS literacy test.Three scoring methods yielded results that were highly consistent with one another.

Reliability;Validity;Cognitive Assessment;Literacy Test;Classical Test Theory;Item Response Theory;China Family Panel Studies

G405

1005-8427（2016）11-0044-7

（責(zé)任編輯：周黎明）

吳瓊，女，北京大學(xué)中國社會科學(xué)調(diào)查中心，副研究員（北京 100871）

李佩華，女，美國賓夕法尼亞州州立大學(xué)，副教授（美國賓夕法尼亞州 16802）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

《中國家庭追蹤調(diào)查》中字詞測試的信度和效度分析

1 CFPS中字詞測試

2 心理測量學(xué)模型

3 計分方法

4 信度

5 效度

6 結(jié)果

7 結(jié)論與討論