閱讀理解考試篇章數(shù)量與題目數(shù)量擬合度研究

2014-11-28 14:40柴省三

中國(guó)考試 2014年5期

柴省三

柴省三

閱讀篇章的選擇、多項(xiàng)選擇題目的設(shè)計(jì)以及篇章數(shù)量與測(cè)驗(yàn)題目數(shù)量的擬合度問題，是影響閱讀理解能力測(cè)試信度和效度的基本因素。篇章數(shù)量和題目數(shù)量的不同組合方式對(duì)閱讀理解測(cè)驗(yàn)誤差和信度的影響也不相同。本研究以中國(guó)漢語水平考試（HSK）的實(shí)測(cè)數(shù)據(jù)為基礎(chǔ)，隨機(jī)選擇500名考生作為研究樣本，借助概化理論的隨機(jī)雙面嵌套（nested）設(shè)計(jì)s×（i:p）分析了HSK閱讀理解測(cè)驗(yàn)中的誤差來源和結(jié)構(gòu)，對(duì)篇章數(shù)量和題目數(shù)量的匹配合理性進(jìn)行了檢驗(yàn)。研究結(jié)果顯示：增加文章數(shù)量和題目數(shù)量均可以提高測(cè)驗(yàn)的精度，但增加文章數(shù)量比增加題目數(shù)量對(duì)概化系數(shù)（Generalizability coefficient,Eρ2）的提高作用更有效；HSK閱讀理解測(cè)驗(yàn)的篇章數(shù)量和題目數(shù)量的現(xiàn)行組合方式符合誤差控制的原則和信度指標(biāo)的要求。

概化理論；概化系數(shù)；信度；閱讀理解測(cè)驗(yàn)；漢語水平考試（HSK）

在標(biāo)準(zhǔn)化語言測(cè)試中，閱讀理解能力測(cè)驗(yàn)的典型測(cè)量方法是多項(xiàng)選擇題（multiple-choice items），即通過選擇若干篇閱讀理解材料，并針對(duì)每篇閱讀材料設(shè)計(jì)一定數(shù)量的多項(xiàng)選擇題來考查被試的閱讀理解水平。這種測(cè)量方法具備操作思路簡(jiǎn)單和評(píng)分過程客觀的獨(dú)特優(yōu)勢(shì)，但是，由于缺乏一套科學(xué)、公正的具體程序約束命題者的個(gè)人行為，所以閱讀理解材料的選擇和測(cè)驗(yàn)題目的設(shè)計(jì)質(zhì)量等具有較強(qiáng)的主觀性，加之受考生應(yīng)試過程中猜測(cè)因素的干擾，其測(cè)驗(yàn)的信度（reliability）和效度（validity）等在很大程度上都受到了影響。在以往的閱讀理解測(cè)試研究中，黃理兵和郭樹軍（2008）、馬瑞（2012）等分別針對(duì)漢語水平考試（HSK）和英語水平考試中閱讀理解材料的選擇和文本難度對(duì)測(cè)試信度和效度的影響進(jìn)行了探討；柴省三（2012）、Clapham（1996）、Cohen和Upton（2006）分別針對(duì)漢語水平考試（HSK）、國(guó)際英語語言測(cè)試系統(tǒng)（IELTS）、英語作為外語的語言測(cè)試（TOEFL）中閱讀材料的難度差異對(duì)信度和效度的影響進(jìn)行了研究；蔡陽洋（2013）、孔文（2009）和Freedle&Kostin（1993）等分別針對(duì)大學(xué)英語四級(jí)考試（CET4）、大學(xué)英語專業(yè)四級(jí)考試（TEM4）和TOEFL考試中測(cè)驗(yàn)項(xiàng)目的難度因素與測(cè)驗(yàn)效度的關(guān)系進(jìn)行了實(shí)驗(yàn)研究。然而，上述研究過程和方法基本上都是以經(jīng)典測(cè)量理論（CTT）為基礎(chǔ)，孤立地考察由于閱讀理解材料變量和測(cè)驗(yàn)項(xiàng)目變量所產(chǎn)生的構(gòu)想無關(guān)（construct-irrelevant）變異以及構(gòu)想缺失（construct-underrepresentation）變異對(duì)考試信度和效度的影響，而不是將測(cè)驗(yàn)中的閱讀材料和測(cè)驗(yàn)題目因素納入到同一個(gè)測(cè)量模型中，從整體上考察兩者對(duì)閱讀理解測(cè)驗(yàn)信度和效度的影響。因此，本文將借助概化理論（Generalizability Theory，GT）通過考察閱讀理解測(cè)驗(yàn)中的誤差來源和誤差結(jié)構(gòu)，研究中國(guó)漢語水平考試（HSK）閱讀理解測(cè)驗(yàn)中篇章數(shù)量和測(cè)驗(yàn)題目數(shù)量的擬合優(yōu)度問題。

1 閱讀理解測(cè)驗(yàn)的誤差來源

閱讀能力是語言測(cè)試領(lǐng)域中公認(rèn)的復(fù)雜構(gòu)想之一，因此，在語言測(cè)試中還無法針對(duì)這種潛在的特質(zhì)進(jìn)行直接測(cè)量，而只能采取間接測(cè)量的方式推斷被試的閱讀理解水平。在這種傳統(tǒng)的測(cè)量方式中，除了測(cè)驗(yàn)的目標(biāo)構(gòu)想（constructs，在下文概化研究中統(tǒng)一用s表示）以外，閱讀材料本身的內(nèi)容屬性、多項(xiàng)選擇題目中題干的設(shè)問角度以及選項(xiàng)語言的復(fù)雜度乃至干擾項(xiàng)的迷惑程度（plausibility）等都是影響被試考試結(jié)果的重要因素（Bernhardt，2011；亓魯霞，2008）。其中，由于篇章因素對(duì)測(cè)驗(yàn)分?jǐn)?shù)變異所產(chǎn)生的影響，稱為篇章效應(yīng)，由于測(cè)驗(yàn)項(xiàng)目本身的難度和性質(zhì)對(duì)測(cè)驗(yàn)分?jǐn)?shù)所產(chǎn)生的影響則屬于項(xiàng)目效應(yīng)。閱讀理解測(cè)試的整體難度主要取決于閱讀材料的難度、項(xiàng)目本身的難度以及兩者之間的交互作用（見圖1）。

圖1 閱讀測(cè)驗(yàn)分?jǐn)?shù)變異示意圖

在以往的實(shí)證研究中，針對(duì)閱讀理解測(cè)驗(yàn)分?jǐn)?shù)誤差或信度的探討大多都忽視了如下一個(gè)最基本的事實(shí)：在閱讀理解測(cè)驗(yàn)中盡管所選擇的文章在主題知識(shí)和語言理解難度方面比較合理，而且針對(duì)每篇文章所編制的測(cè)驗(yàn)題目也比較科學(xué)，但是，如果文章數(shù)量（number of passages）和題目數(shù)量（number of items）之間的組合結(jié)構(gòu)不合理，那么測(cè)量結(jié)果中的誤差仍有可能比較大，從而影響測(cè)驗(yàn)的信度和效度（Brown，1999）。比如，針對(duì)1篇閱讀材料設(shè)計(jì)20個(gè)測(cè)驗(yàn)題目和針對(duì)20篇閱讀理解材料設(shè)計(jì)20個(gè)測(cè)驗(yàn)題目（每篇文章編制1個(gè)題目）分別對(duì)被試進(jìn)行測(cè)量時(shí)，雖然兩種測(cè)量模式中的題目數(shù)量完全相同，但測(cè)驗(yàn)的誤差結(jié)構(gòu)、誤差來源和誤差權(quán)重等則不完全相同。因?yàn)?，在第一種測(cè)量模式中，文章的抽樣缺乏代表性，篇章的字、詞、句法復(fù)雜度引起的語言理解難度以及理解文章內(nèi)容所需要的背景知識(shí)難度共同引起的篇章效應(yīng)就比較明顯，因而篇章因素在測(cè)驗(yàn)分?jǐn)?shù)中引起的變異就比較顯著；在第二種測(cè)量模式中，如果針對(duì)每篇閱讀理解材料只編制1個(gè)測(cè)驗(yàn)題目，同時(shí)采用較多的閱讀材料進(jìn)行測(cè)量時(shí)，盡管這樣可以有效地抵消（counter-balance）文章抽樣不足引起的隨機(jī)誤差，但被試在測(cè)驗(yàn)中的猜測(cè)行為等隨機(jī)因素引起的誤差卻導(dǎo)致了測(cè)驗(yàn)結(jié)果未必能夠全面反映被試對(duì)相應(yīng)閱讀材料的理解水平，最終也會(huì)影響測(cè)驗(yàn)的信度和效度。在經(jīng)典測(cè)量理論中，閱讀理解測(cè)試研究只能針對(duì)測(cè)驗(yàn)題目的難度、區(qū)分度等指標(biāo)進(jìn)行考察，而無法對(duì)上述誤差來源和結(jié)構(gòu)進(jìn)行全面評(píng)估，但概化理論則可以對(duì)測(cè)驗(yàn)題目數(shù)量和篇章數(shù)量的最佳組合做出選擇，從而降低測(cè)量的誤差。

2 概化理論及研究設(shè)計(jì)

概化理論是在繼承經(jīng)典測(cè)量理論（CTT）的標(biāo)準(zhǔn)化技術(shù)和項(xiàng)目分析技術(shù)的基礎(chǔ)上，進(jìn)一步吸收實(shí)驗(yàn)設(shè)計(jì)的思想，對(duì)真分?jǐn)?shù)理論和參數(shù)估計(jì)方法等進(jìn)行系統(tǒng)改良而產(chǎn)生的現(xiàn)代教育測(cè)量理論之一（Brennan，2001；楊志明、張雷，2003）。由于在實(shí)際的測(cè)量活動(dòng)中，任何一個(gè)測(cè)驗(yàn)都不可能窮盡觀測(cè)全域（universe of admissible observations）中各個(gè)測(cè)量側(cè)面（facets）中的所有條件水平，也不可能在所有側(cè)面的各個(gè)條件水平組合下對(duì)被試進(jìn)行重復(fù)測(cè)量，而且CTT理論下平行試卷的嚴(yán)格假設(shè)難以滿足，因此，GT理論以隨機(jī)平行測(cè)驗(yàn)代替了經(jīng)典測(cè)量理論中的嚴(yán)格平行測(cè)驗(yàn)假設(shè)，因而測(cè)驗(yàn)的條件更容易滿足。概化理論不僅能夠同時(shí)達(dá)到區(qū)分考生與評(píng)估考生真實(shí)能力之目的，而且可以較好地實(shí)現(xiàn)分析和控制各種測(cè)量誤差之目的（張敏強(qiáng)等，2010）。

概化理論的研究步驟包括概化研究（Generalizability Study，簡(jiǎn)稱G研究）和決策研究（Decision Study，簡(jiǎn)稱D研究）兩個(gè)階段。G研究的主要目標(biāo)是輔助設(shè)計(jì)一項(xiàng)具有充分概化能力的D研究，G研究的設(shè)計(jì)需要充分預(yù)計(jì)到測(cè)量的不同目的和用途，并且提供盡可能多的測(cè)量變異來源（variance sources）信息。G研究的內(nèi)容包括：（1）對(duì)測(cè)量過程進(jìn)行完整的邏輯解析，把影響測(cè)量目標(biāo)的所有因素或側(cè)面納入的研究模型中；（2）針對(duì)側(cè)面之間的關(guān)系進(jìn)行測(cè)量模式和測(cè)量結(jié)構(gòu)的實(shí)驗(yàn)設(shè)計(jì)；（3）根據(jù)測(cè)量目標(biāo)和側(cè)面之間的關(guān)系，選擇恰當(dāng)?shù)姆讲罘治黾夹g(shù)（ANOVA），將各種側(cè)面效應(yīng)以及側(cè)面之間的交互效應(yīng)等引起的方差分量分解出來，作為D研究階段的基準(zhǔn)數(shù)據(jù)。D研究則是一個(gè)與研究者的具體目標(biāo)密切相關(guān)的個(gè)性化過程，其主要內(nèi)容包括：（1）根據(jù)研究的目標(biāo)，界定研究的概化全域（universe of generalization）；（2）確定對(duì)測(cè)量結(jié)果所做的決策類型（相對(duì)決策還是絕對(duì)決策），提出測(cè)量側(cè)面的關(guān)系類型；（3）以G研究階段所獲得的方差分量為基礎(chǔ)，估計(jì)不同測(cè)量模式的誤差指標(biāo)、概化系數(shù)（Generalizability coefficient，Eρ2）或可靠性指數(shù)（dependability index，Φ）等，以便對(duì)原型測(cè)驗(yàn)（prototype test）的側(cè)面關(guān)系、條件組合關(guān)系的擬合（match）科學(xué)性等進(jìn)行綜合性評(píng)價(jià)（Brown et al.，1996）。

在上述閱讀理解測(cè)驗(yàn)方式中，用于測(cè)量考生閱讀水平的潛在文章數(shù)量實(shí)際上是無窮大的，所以閱讀材料可以看作從篇章全域（universe of passages）中隨機(jī)抽樣組成的篇章樣本。另外，針對(duì)每篇文章也可以編制若干個(gè)測(cè)驗(yàn)題目對(duì)被試進(jìn)行測(cè)量，因此，測(cè)驗(yàn)題目也可以看作從題目全域（universe of items）中抽取的一個(gè)隨機(jī)樣本。從測(cè)量結(jié)構(gòu)上來說，被試（s）與篇章（p）之間以及被試與測(cè)驗(yàn)題目（i）之間的關(guān)系屬于交叉關(guān)系（crossed），而測(cè)驗(yàn)題目（i）與篇章（p）之間的關(guān)系則屬于嵌套關(guān)系，即測(cè)驗(yàn)題目嵌套于（nested）篇章之中（i：p）。在這種測(cè)量模式中，被試的測(cè)驗(yàn)分?jǐn)?shù)變異是由被試（s）、篇章（p）、題目（i：p）引起的主效應(yīng)以及被試與篇章之間的交互效應(yīng)（sp）、被試與題目之間的交互效應(yīng)（si：p）等引起的變異分量所構(gòu)成（見圖2）（Brennan，2001）。為了對(duì)漢語水平考試（HSK）（初中等）閱讀理解測(cè)驗(yàn)的結(jié)構(gòu)關(guān)系進(jìn)行評(píng)價(jià)，本文將采用隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)進(jìn)行G研究和D研究。

圖2 s×（i：p）雙面嵌套中的分?jǐn)?shù)變異來源維恩圖

3 G研究過程與結(jié)果

中國(guó)漢語水平考試（HSK）是為測(cè)量母語非漢語者的漢語水平而設(shè)計(jì)的標(biāo)準(zhǔn)化考試，HSK（初中等）閱讀理解測(cè)驗(yàn)通過詞匯測(cè)驗(yàn)（20題）和篇章閱讀（30題）兩部分試題共同實(shí)現(xiàn)對(duì)考生閱讀理解能力的全面測(cè)量，其中詞匯測(cè)驗(yàn)和篇章理解部分的信度系數(shù)分別為0.828和0.866（具體結(jié)構(gòu)和α系數(shù)見表1）。本文首先以隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)為基礎(chǔ)，通過G研究估計(jì)各種主效應(yīng)和交互效應(yīng)引起的變異分量，從而為D研究提供決策基礎(chǔ)。

表1 閱讀理解測(cè)驗(yàn)結(jié)構(gòu)

3.1 研究材料

本研究以2011年4月17日在中國(guó)大陸32個(gè)考點(diǎn)參加HSK（初中等）考試的7 258名考生的實(shí)測(cè)數(shù)據(jù)為基礎(chǔ)，從上述閱讀理解測(cè)驗(yàn)部分的6篇文章中隨機(jī)選擇3篇文章作為文章全域的一個(gè)隨機(jī)樣本。由于在HSK（初中等）閱讀理解測(cè)驗(yàn)中，針對(duì)每篇文章所編制的題目數(shù)量并不完全相等，因此，本文從文章樣本的每篇文章中分別隨機(jī)選擇4個(gè)測(cè)驗(yàn)題目作為題目全域的一個(gè)隨機(jī)樣本。然后，采用隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)對(duì)閱讀理解測(cè)驗(yàn)進(jìn)行概化研究（G研究）。

3.2 研究被試

本文在對(duì)文章側(cè)面和題目側(cè)面進(jìn)行上述隨機(jī)抽樣處理的基礎(chǔ)上，從考生全域中隨機(jī)選擇500名被試作為研究樣本。500名被試樣本中最小年齡和最大年齡的考生別是15歲和52歲，平均年齡為20.89歲，其中男、女考生人數(shù)分別為239人和261人，被試樣本來自58個(gè)不同的國(guó)家和地區(qū)，母語背景涉及12種不同的語言。

3.3 概化研究（G研究）結(jié)果

在隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)中，被試的測(cè)驗(yàn)分?jǐn)?shù)總變異σ2（Xpir）可以分解為五個(gè)部分，即被試的閱讀水平差異引起的變異σ2（s）、文章難度差異引起的變異σ2（p）、嵌套在文章中的測(cè)驗(yàn)題目難度差異引起的變異σ2（i：p），以及被試與文章之間的交互效應(yīng)引起的變異σ2（sp）和被試與嵌套在文章中的題目之間的交互效應(yīng)等引起的變異σ2（si：p）。本文首先通過SPSS17.0進(jìn)行方差分析，獲得上述五種效應(yīng)在測(cè)驗(yàn)分?jǐn)?shù)總變異中引起的均方值（MS），然后按照表2提供的方差分量估計(jì)公式（其中ns、np和ni分別取500、3和4，分別代表被試樣本人數(shù)、文章樣本數(shù)量和題目樣本數(shù)量），以Visual FoxPro8.0自編計(jì)算機(jī)程序?qū)ι鲜龈鞣N變異分量和均方值的估計(jì)標(biāo)準(zhǔn)誤等進(jìn)行計(jì)算，最終獲得決策研究（D研究）階段的基準(zhǔn)數(shù)據(jù)（見表3）。

表2 s×（i:p）設(shè)計(jì)中G研究變異分量估計(jì)公式

在G研究的變異分量估計(jì)值中，由被試閱讀水平差異引起的變異分量為0.0193，約占總變異的7.65%，文章之間難度差異引起的變異分量?jī)H為0.0004，占測(cè)驗(yàn)分?jǐn)?shù)總變異的0.16%。被試（s）和文章（p）之間的交互效應(yīng)引起的變異分量為0.0078，占測(cè)驗(yàn)分?jǐn)?shù)總變異的3.09%。由此可見：在HSK（初中等）閱讀理解測(cè)驗(yàn)中所選擇的文章在語言理解難度方面的差異比較小，考生在不同文章上所獲得的測(cè)驗(yàn)分?jǐn)?shù)之間具有很高的相關(guān)性。由嵌套在文章中的測(cè)驗(yàn)題目引起的分?jǐn)?shù)變異和被試與題目之間的交互效應(yīng)引起的變異分量分別為0.0339和0.1910，約占總變異的13.43%和75.67%，即被試與測(cè)驗(yàn)題目之間的交互效應(yīng)引起的變異在測(cè)驗(yàn)分?jǐn)?shù)總變異中所占的比重最高，這說明被試在不同測(cè)驗(yàn)題目之間的相對(duì)位置（relative standing）有較大的差異（Zhang，2006；Brown，1999），這種變異分量結(jié)構(gòu)比較符合HSK閱讀理解測(cè)驗(yàn)的測(cè)量構(gòu)想。

表3 s×（i:p）設(shè)計(jì)模式的G研究變異分量與標(biāo)準(zhǔn)誤

4 D研究過程與結(jié)果

D研究階段的核心內(nèi)容是通過考察在特定的概化全域中各個(gè)側(cè)面的條件樣本容量與概化系數(shù)（Eρ2）、測(cè)量誤差之間的對(duì)應(yīng)關(guān)系，評(píng)估在何種測(cè)量條件水平下測(cè)驗(yàn)的信度可以達(dá)到最大或者達(dá)到預(yù)先設(shè)定的測(cè)量精度要求。漢語水平考試（HSK）屬于常模參照性測(cè)驗(yàn)，因此，反映其測(cè)量誤差大小和信度高低的指標(biāo)主要是相對(duì)誤差（relative error）σ2（δ）和概化系數(shù)Eρ2，兩種指標(biāo)可以分別按照如下公式進(jìn)行估計(jì)（楊志明、張雷，2003；Brennan，2001）。

在以隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)為基礎(chǔ)的D研究中，本文針對(duì)文章側(cè)面在概化全域中的樣本容量（n′p）分別取1至10，題目側(cè)面的樣本容量（n′i）則分別取1至30，按照上述公式可以分別估計(jì)出300種（n′p×n′i=300）不同概化全域上的概化系數(shù)值（見表4）。

上述D研究的結(jié)果顯示：測(cè)量的概化系數(shù)值不僅隨著文章樣本容量的增加而提高，而且隨著題目樣本容量的增加而提高，單位文章數(shù)量的增加對(duì)概化系數(shù)的貢獻(xiàn)比單位測(cè)驗(yàn)題目數(shù)量的增加對(duì)概化系數(shù)的貢獻(xiàn)更為明顯，如果同時(shí)增加文章數(shù)量和測(cè)驗(yàn)題目數(shù)量則可以明顯提高測(cè)驗(yàn)的概化系數(shù)。不過，在實(shí)際的測(cè)量過程中，由于受考試時(shí)間、命題成本和分?jǐn)?shù)合成權(quán)重與分?jǐn)?shù)結(jié)構(gòu)等因素的制約，測(cè)驗(yàn)中的篇章數(shù)量和題目數(shù)量不可能都取最大值，而是在上述D研究結(jié)果中盡可能尋求一個(gè)成本相對(duì)較低、可行性較高和誤差較小的雙側(cè)面樣本組合方式。漢語水平考試（HSK）的現(xiàn)行試卷是由6篇文章和30個(gè)測(cè)驗(yàn)題目組成的一個(gè)特殊概化全域，因此，本研究可以進(jìn)一步對(duì)該測(cè)量模式的合理性進(jìn)行驗(yàn)證。

4.1 固定題目側(cè)面時(shí)文章數(shù)量的合理性研究

從表4的結(jié)果可見：在題目側(cè)面的樣本容量（n′i）保持不變的情況下，HSK閱讀理解測(cè)驗(yàn)的概化系數(shù)（Eρ2）隨著文章側(cè)面樣本容量（n′p）的增加而增加。比如，當(dāng)題目側(cè)面的樣本容量（n′i）固定為5時(shí)（n′i=5，即平均每篇文章5個(gè)測(cè)驗(yàn)題目）、文章側(cè)面的樣本容量取1時(shí)，測(cè)量的概化系數(shù)僅為0.2956，但當(dāng)文章側(cè)面的樣本容量增加到10時(shí)，測(cè)量的概化系數(shù)則提高到了0.8075，文章數(shù)量變化與概化系數(shù)的關(guān)系，可參見圖3。

表4 s×（i:p）設(shè)計(jì)之D研究結(jié)果（概化系數(shù)Eρ2）

圖3 文章側(cè)面樣本容量與概化系數(shù)的關(guān)系

如果只采用1篇文章對(duì)考生的閱讀理解能力進(jìn)行測(cè)量時(shí)，即使針對(duì)該文章設(shè)計(jì)30個(gè)測(cè)驗(yàn)題目，測(cè)量的概化系數(shù)也僅為0.5767；當(dāng)文章數(shù)量由1篇增加到3篇時(shí)，測(cè)驗(yàn)的概化系數(shù)則有非常明顯的提高；當(dāng)文章側(cè)面的樣本容量由3篇增加到5篇時(shí)，測(cè)驗(yàn)的概化系數(shù)仍有比較明顯的提高；但是，當(dāng)文章側(cè)面的樣本容量增加到6篇以后，概化系數(shù)的提高速度就會(huì)趨于平緩（見圖3），因此，為了避免測(cè)量的誤差過大，HSK閱讀理解測(cè)驗(yàn)的文章數(shù)量最好不少于6篇。

4.2 固定文章側(cè)面時(shí)題目數(shù)量的合理性研究

在文章側(cè)面的樣本容量（n′p）保持不變的情況下，HSK閱讀理解測(cè)驗(yàn)的概化系數(shù)（Eρ2）隨著題目側(cè)面樣本容量（n′i）的增加而增加。如果采用6篇文章對(duì)被試的閱讀能力進(jìn)行測(cè)量時(shí)，當(dāng)題目側(cè)面的樣本容量由1（n′i=1，共6個(gè)測(cè)驗(yàn)題目）增加到30（n′i=30，共180個(gè)題目）時(shí)，測(cè)量的概化系數(shù)由0.3681提高到0.8910。題目側(cè)面的樣本容量與概化系數(shù)的關(guān)系，請(qǐng)參見圖4。

由圖4可見：如果針對(duì)每篇文章編制的題目數(shù)量由1增加到3時(shí)（n′i由1增至3），無論n′p取1還是取10，測(cè)量的概化系數(shù)都會(huì)隨著題目數(shù)量的增加而急劇地提高；如果針對(duì)每篇文章平均編制3至5題時(shí)，概化系數(shù)的提高幅度雖沒有前者那么高，但仍然比較明顯；如果針對(duì)每篇文章設(shè)計(jì)的題目數(shù)量達(dá)到或超過6個(gè)以后，概化系數(shù)的提高速率就會(huì)明顯降低，n′p由1到10所對(duì)應(yīng)的所有概化系數(shù)曲線均處于平緩區(qū)，題目數(shù)量對(duì)概化系數(shù)的影響特征表明：為了保證HSK閱讀理解測(cè)驗(yàn)的信度，針對(duì)每篇文章設(shè)計(jì)的題目數(shù)量不應(yīng)該少于5個(gè)或6個(gè)（平均意義上的數(shù)量概念）。

5 研究結(jié)果與討論

現(xiàn)行的HSK閱讀理解測(cè)驗(yàn)?zāi)Ｊ绞窃陔S機(jī)雙面s×（I：P）嵌套設(shè)計(jì)的D研究中，文章樣本容量和題目樣本容量分別為6和5（即題目總數(shù)為30）時(shí)概化全域的一個(gè)特例。盡管D研究的結(jié)果表明：增加文章數(shù)量可以比較明顯地提高測(cè)驗(yàn)的概化系數(shù)，但是文章數(shù)量的增加必然意味著考生閱讀負(fù)擔(dān)的增加、考試時(shí)間的延長(zhǎng)和考試研發(fā)成本的提高，因此，在實(shí)際的測(cè)量活動(dòng)中，不能單純地依靠增加文章數(shù)量或題目數(shù)量來降低測(cè)量的誤差和提高概化系數(shù)，而是在閱讀題目數(shù)量（固定n′i）相同的前提下，尋求篇章數(shù)量和題目數(shù)量之間的最佳組合關(guān)系（Brown，1999）。

由于測(cè)驗(yàn)題目數(shù)量的設(shè)置，是由分測(cè)驗(yàn)構(gòu)想和分?jǐn)?shù)體系事先所決定的，因此，在由30個(gè)測(cè)驗(yàn)題目組成的HSK閱讀理解測(cè)驗(yàn)中，可以通過6種不同的測(cè)量方式實(shí)現(xiàn)對(duì)被試閱讀理解能力的考查（各種測(cè)量模式的結(jié)構(gòu)和測(cè)量精度，見表5）。

圖4 題目側(cè)面樣本容量與概化系數(shù)的關(guān)系

表5 六種概化全域中的各種測(cè)量精度指標(biāo)

由表5中的測(cè)量指標(biāo)可見：六種不同測(cè)量模式下的概化系數(shù)（Eρ2）分別為 0.57665、0.65284、0.68276、0.70885、0.71568和0.72979。在測(cè)驗(yàn)題目數(shù)量固定為30時(shí)，現(xiàn)行HSK閱讀理解測(cè)驗(yàn)?zāi)Ｊ剑╪′p=6，n′i=5）下的相對(duì)誤差、絕對(duì)誤差（absolute error）、可靠性指數(shù)和概化系數(shù)分別為0.00767、0.00887、0.68513和0.71568，如果僅從上述測(cè)驗(yàn)誤差指標(biāo)和概化系數(shù)來看，現(xiàn)行的HSK閱讀理解測(cè)驗(yàn)并不是最理想的測(cè)量模式（n′p=10，n′i=3為理想模式）。然而，閱讀水平的高低不僅體現(xiàn)在篇章閱讀能力方面，而且還反映在考生對(duì)第二語言詞匯掌握的深度（depth）和廣度（breadth）方面（Bernhardt，1998），因此，現(xiàn)行HSK是通過對(duì)篇章閱讀水平和詞匯習(xí)得水平的測(cè)試實(shí)現(xiàn)對(duì)閱讀理解能力的全面測(cè)量的。盡管篇章測(cè)驗(yàn)部分的概化系數(shù)并非是所有測(cè)量模式中的最佳選擇，但是，如果考慮到詞匯測(cè)量（20個(gè)題目）部分的信度貢獻(xiàn)，該測(cè)驗(yàn)仍可以達(dá)到較高的誤差控制要求和較高的信度標(biāo)準(zhǔn)，或者說，現(xiàn)行的HSK閱讀理解測(cè)驗(yàn)?zāi)Ｊ剑╪′p=6，n′i=5）下的篇章數(shù)量和題目數(shù)量擬合關(guān)系不僅滿足誤差控制的基本要求，而且是一個(gè)既經(jīng)濟(jì)又科學(xué)的測(cè)量模式。

[1]蔡陽洋.大學(xué)英語四、六級(jí)考試閱讀理解推斷類題型對(duì)比研究[D].上海：上海交通大學(xué)碩士學(xué)位論文，2013.

[2]柴省三.蘊(yùn)涵量表法在HSK閱讀理解測(cè)驗(yàn)公平性研究中的應(yīng)用[J].考試研究，2012：5，53-61.

[3]黃理兵，郭樹軍.HSK閱讀理解試題的語料和命題[J].世界漢語教學(xué)，2008，2：135-144.

[4]孔文.英語專業(yè)四級(jí)考試閱讀任務(wù)效度研究[M].北京：中國(guó)社會(huì)科學(xué)出版社，2009.

[5]馬瑞.閱讀理解測(cè)試中的難度因素探索[J].英語教師，2012，3：57-62.

[6]亓魯霞.不確定判斷與閱讀多選題的策略[J].中國(guó)考試，2008，7：9-16.

[7]楊志明，張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京：教育科學(xué)出版社，2003.

[8]張敏強(qiáng)，劉淑楨，黎光明.概化理論在英語閱讀精確性研究中的應(yīng)用[J].教育測(cè)量與評(píng)價(jià)，2010：5，4-8.

[9]Bernhardt,E.B.Understanding Advanced Second-Language Reading[M].New York:Taylor&Francis Group,2011.

[10]Brennan,R.L.Generalizability Theory[M].New York:Springer-Verlag New York,Inc,2001.

[11]Brown,J.D.&J.A.Ross.Decision dependability of item types,sections,tests,and the overall TOEFL test battery[A].In Milanovic,M.&N.Saville(Eds.).Performance testing,cognition and assessment[C].Cambridge University Press.1996：231-265.

[12]Brown,J.D.The relative importance of persons,items,subtests and languages to TOEFL test variance[J].Language Testing,1999,2:21-42.

[13]Clapham,C.The Development of IELTS,A Study of the Effect of Background Knowledge on Reading Comprehension[M].Cambridge:Cambridge University Press,1996.

[14]Cohen,A.D.&T.A.Upton.Strategies in responding to the new TOEFL reading tasks[R]TOEFL Research Report(No.RR-06-06).Princeton,NJ:ETS,2006.

[15]Freedle,R.&I.Kostin.The prediction of TOEFL reading item difficulty:implication for construct validity[J].Language Testing 199：2，133-170.

[16]Zhang,S.2006.Investigating the relative effects of persons,items,sections,and languages on TOEIC score dependability[J].Language Testing 2006：3，51-369.

Study of Match Fit between Passage and Item Numbers on Reading Comprehension Subsection of Chinese Proficiency Test

CHAI Xingsan

The selection of passages,the design of multiple choice items based on the passages and match fit between passage and item numbers are among the most important factors affecting reading comprehension test reliability and validity.This study applied generalizability theory to investigate the relative contributions of testtakers,items and passages to the score dependability of the Chinese Proficiency Test（HSK）.The study sampled 500 test takers from total of 7238 participants in the HSK generic data set which was administered in the April 2011 of the China mainland.The analysis isolated the variance components due to persons,items and passages,and their effects on the dependability.The research indicated that the main effect component that took the largest share of variance was the items within a passage;the increase of passage numbers contributed more than that of the item numbers did for the generalizability coefficient（Eρ2）.The findings taken together prove that the match of the passage and item numbers in the HSK is desirable for the measurement error control,reliability and validity.The current HSK prototype test structure of reading comprehension is an economical and practical measurement pattern.

Generalizability Theory；Generalizability Coefficient；Reliability；Reading Comprehension Test；HSK

G405

1005-8427(2014)05-0003-9

本文系教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目“中外留學(xué)生語言測(cè)試體系比較與研究”（編號(hào)：13YJA740002）的階段性成果之一。

柴省三，男，北京語言大學(xué)，副教授（北京 100083）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

閱讀理解考試篇章數(shù)量與題目數(shù)量擬合度研究

1 閱讀理解測(cè)驗(yàn)的誤差來源

2 概化理論及研究設(shè)計(jì)

3 G研究過程與結(jié)果

3.1 研究材料

3.2 研究被試

3.3 概化研究（G研究）結(jié)果

4 D研究過程與結(jié)果

4.1 固定題目側(cè)面時(shí)文章數(shù)量的合理性研究

4.2 固定文章側(cè)面時(shí)題目數(shù)量的合理性研究

5 研究結(jié)果與討論