大規(guī)模教育測評的多題本設(shè)計

2017-06-05 14:14:54何孟姐楊濤辛濤易芹

中國考試 2017年2期

關(guān)鍵詞：題組組塊等值

何孟姐楊濤辛濤易芹

（1.福建省基礎(chǔ)教育質(zhì)量監(jiān)測辦公室，福州 350003；2.中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，北京 100875）

大規(guī)模教育測評的多題本設(shè)計

何孟姐1楊濤2辛濤2易芹2

（1.福建省基礎(chǔ)教育質(zhì)量監(jiān)測辦公室，福州 350003；2.中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，北京 100875）

作為教育質(zhì)量評價的重要手段，大規(guī)模教育測評中常使用多題本設(shè)計。多題本設(shè)計通常采用有共同題的不完全矩陣取樣設(shè)計，共同題又有共同錨和循環(huán)錨兩種設(shè)置方式。共同錨多題本設(shè)計需要考慮共同題的比例、內(nèi)容結(jié)構(gòu)、統(tǒng)計特征、在題本中的放置位置等。循環(huán)錨多題本設(shè)計即平衡的不完全矩陣設(shè)計，往往采用題目組塊的方式組合題本，需要考慮題組數(shù)量、題組內(nèi)部結(jié)構(gòu)、題組的排列等。多題本設(shè)計的測驗數(shù)據(jù)處理涉及項目反應(yīng)理論模型下的量尺分數(shù)估計、量表化方法、等值技術(shù)等。探討這些問題能為教育測驗的設(shè)計提供指導(dǎo)和建議。

大規(guī)模教育測評；多題本設(shè)計；題組設(shè)計；教育質(zhì)量評價；項目反應(yīng)理論

在政府、社會對學(xué)校教育質(zhì)量越來越關(guān)注的今天，作為評價教育質(zhì)量的重要手段，大規(guī)模教育測評項目依靠先進的教育測量技術(shù)與方法，向政府和公眾傳達具有影響力的數(shù)據(jù)和信息。譬如，國際經(jīng)合組織自2000年開始實施的國際學(xué)生成績評估項目（Programme for International Student Assessment, PISA）和國際教育成就評價協(xié)會（International As?sessment for the Evaluation of Educational Achieve?ment,IEA）自1995年以后定期開展的數(shù)學(xué)與科學(xué)學(xué)習(xí)國際比較研究（Trends in International Mathemat?ics and Science Study,TIMSS）均為大規(guī)模教育測評，在世界范圍內(nèi)產(chǎn)生了較大影響。作為對學(xué)生素養(yǎng)或課程規(guī)定的學(xué)習(xí)目標的全面考查，PISA和TIMSS的學(xué)科測驗具有一個與傳統(tǒng)測驗不同的特點——多題本設(shè)計。傳統(tǒng)測驗通常是所有學(xué)生完成一套相同的測驗題，而大規(guī)模教育測評將一個內(nèi)容覆蓋面具有一定廣度、題量相當大的完整的測驗拆分成多個題本，讓每個學(xué)生隨機完成其中一個題本即可。

1 采用多題本設(shè)計的原因

在大規(guī)模教育測評中，要全面考查一個地區(qū)或群體的學(xué)生對廣泛的課程目標或內(nèi)容掌握情況，學(xué)科專家或一線教師通常會先編制目標——學(xué)生應(yīng)該知道什么和會做什么的知識和能力列表，然后根據(jù)列表編制大量試題。但是如果將這些題目全部施測，測試時間將會遠遠超過學(xué)校和學(xué)生所能承受的限度，干擾學(xué)校正常教學(xué)秩序，導(dǎo)致學(xué)校不愿意提供所需的學(xué)生和場所；即使愿意合作，學(xué)生長時間答題產(chǎn)生的疲勞效應(yīng)勢必也會對測試結(jié)果造成嚴重的負面影響，使得測試結(jié)果的有效性得不到保證[1]。采用多題本設(shè)計的目的就是要解決上述矛盾，以期能在較短時間內(nèi)完成覆蓋面較大的目標或內(nèi)容領(lǐng)域的測驗，滿足大規(guī)模教育測評的需要。多題本設(shè)計具有以下特點和優(yōu)勢。

1.1 覆蓋廣泛的測試目標或內(nèi)容

一般來說，大規(guī)模教育測評的測驗題目需要覆蓋較大的領(lǐng)域。例如，想要考查一個地區(qū)的學(xué)生對語文、數(shù)學(xué)和科學(xué)課程的掌握情況，就需要設(shè)計一個覆蓋課程目標所有核心內(nèi)容的標準測驗。傳統(tǒng)的考試方法可能會選擇有代表性的題目向所有學(xué)生施測，這樣就不能保證覆蓋所有核心課程內(nèi)容，同時有可能給學(xué)生和教師帶來錯誤導(dǎo)向，使得教師為了追求學(xué)生成績而將教學(xué)重點集中在測驗內(nèi)容上。而通過多題本設(shè)計的測驗則可以保留全部的知識點，同時避免傳統(tǒng)考試所帶來的弊端[2]。

1.2 在不增加學(xué)生負擔的前提下完成全部內(nèi)容和目標的測驗

多題本設(shè)計將測驗題目分成若干個題本，每個學(xué)生只需要完成一個題本，一般來說將測驗時間控制在2小時以內(nèi)，這就極大地避免了疲勞效應(yīng)對測試結(jié)果產(chǎn)生的負面影響。

1.3 以保證群體層面測驗結(jié)果的可靠性為前提

大規(guī)模教育測評的重要目的是監(jiān)測一個地區(qū)或?qū)W生群體的教育質(zhì)量，因此主要關(guān)注群體水平結(jié)果。傳統(tǒng)成就測驗較多關(guān)注學(xué)生個體之間的差異，個體水平分數(shù)的信度較高，而群體水平的分數(shù)是通過個體學(xué)生的成績均值進行估計的，信度較低。多題本設(shè)計直接對學(xué)生群體的水平分數(shù)進行估計。目前，已有多種估計群體分數(shù)的方法。有研究表明，相對于所有學(xué)生接受一個完全相同的測驗，基于矩陣取樣設(shè)計的學(xué)校平均測驗分數(shù)的標準誤較小[3]。另外，多題本設(shè)計也可以通過共同題等值實現(xiàn)學(xué)生個體之間的比較。不過，個體水平上的分數(shù)信度要低于傳統(tǒng)測驗的結(jié)果。但由于大規(guī)模教育測評首先關(guān)注群體水平結(jié)果，多題本設(shè)計以較小的個體水平測驗信度的損失保證了群體水平測驗信度的大幅提升，是一個可取的選擇。

不僅如此，由于多題本設(shè)計測試內(nèi)容覆蓋課程全部核心內(nèi)容，一方面避免了教師為了提高考試成績而側(cè)重教學(xué)，造成“教授測驗題目效應(yīng)”，另一方面測試中學(xué)生隨機完成一個題本，同一個考場中相鄰學(xué)生之間的題本均不相同，減少了考試作弊的可能性，有利于獲得學(xué)生對課程掌握情況的真實信息，提高測驗結(jié)果的可靠性[2]。

2 多題本設(shè)計的關(guān)鍵問題

多題本設(shè)計也稱為“矩陣取樣”，20世紀50年代中后期由Frederic Lord提出，60年代中期他又對矩陣取樣的原理和潛在的優(yōu)點進行了更加清楚的闡述。從此，教育測評的實踐領(lǐng)域開始不斷探索、運用與改進多題本設(shè)計的技術(shù)[2]。

簡單來說，多題本設(shè)計就是根據(jù)廣泛的內(nèi)容或課程覆蓋范圍開發(fā)一套完整的測試題目，然后將這些題目劃分成若干小套題目，再讓每個學(xué)生接受一小套題目的測試。這樣，通過限制每個學(xué)生所接受的測驗題目數(shù)量來減少測驗時間，同時仍然在學(xué)生間保持了對測試內(nèi)容的廣泛覆蓋范圍[3]。

最早的多題本設(shè)計采用完全矩陣取樣，指的是將覆蓋課程目標的所有測驗題目按照一定的原則分配到多套題本中，每個學(xué)生只需完成隨機分配到的一套題本，通常有30～50道題（如圖1所示）。由于學(xué)生接受的是完全不同的測試題目，這種多題本設(shè)計需要另外的程序來驗證結(jié)果的可比性。同時，這樣的測驗結(jié)果難以向公眾解釋。

圖1 完全矩陣取樣設(shè)計的例子

為實現(xiàn)多題本設(shè)計中參測學(xué)生間結(jié)果的可比性，研究者發(fā)明了一種變式——不完全矩陣取樣。不完全矩陣取樣的方法是，在不同題本之間放置一些共同題（稱錨題），使題本之間建立聯(lián)系；所有題本包含共同題和非共同題，測驗結(jié)果通過共同題進行等值，放到同一量尺上（如圖2所示）。在不完全矩陣取樣設(shè)計增加了學(xué)生結(jié)果的可比性，既能控制測試時長，又能保證測試內(nèi)容的覆蓋面[4]。目前國內(nèi)外大規(guī)模教育測評多應(yīng)用不完全矩陣取樣的多題本設(shè)計。

圖2 不完全矩陣取樣設(shè)計的例子

簡單來說，目前常用的這種不完全矩陣取樣的多題本設(shè)計測驗通過共同題進行等值，將完成不同題本的學(xué)生的學(xué)業(yè)能力水平放到同一個量尺上，能夠獲得僅完成了一個題本的學(xué)生在所有測驗涉及的認知維度和內(nèi)容領(lǐng)域上的學(xué)業(yè)表現(xiàn)，對特定群體學(xué)生的能力進行精細的刻畫，且所有學(xué)生的成績是可比的。其中，等值是關(guān)鍵的一個環(huán)節(jié)，等值的質(zhì)量影響了最終學(xué)生成績的準確性。因此，作為等值過程中基本依據(jù)的共同題的設(shè)計就成了多題本設(shè)計的核心問題。

目前有兩種基本的共同題設(shè)計方式，一種采用共同錨，即所有題本采用相同的共同題，一種采用循環(huán)錨，此時共同題不是特定的幾道題目。

2.1 共同錨多題本設(shè)計

共同錨多題本設(shè)計是從所有測試題目中選出一部分題目作為共同題出現(xiàn)在所有題本中，余下的題目按一定原則分配到各題本中。這樣，每個題本均由兩部分構(gòu)成：所有題本的共同題和該題本的非共同題。每位學(xué)生將接受一份既有共同題又有一部分其他試題的試卷的測試。采用共同錨的多題本設(shè)計需要考慮以下3個問題。

2.1.1 作為共同錨的題目數(shù)量占完整測驗總題目數(shù)的比例問題

共同錨設(shè)計中，理論上共同題比例越大，等值精度越高，而共同題的數(shù)量過多，那么在單個題本長度有限的情況下，需要的題本數(shù)量太多，測驗實施的效率差?？墒牵绻餐}的數(shù)量過少，又將導(dǎo)致等值的精度難以保證。早期研究證明，作為共同錨的題目數(shù)量應(yīng)至少占完整測驗總題目數(shù)量的20%～25%[5]。又有國內(nèi)研究者通過模擬研究證明，測驗長度不同時，共同題比例不同。完整測驗長度較長時，較小比例的共同題就能保證等值精度；而測驗長度較短時，需要較大比例的共同題才能保證等值精度。測驗長度大于600題時，共同題比例達到1/15即可；測驗長度為300題時，共同題比例需達到1/12；測驗長度為240題時，共同題比例需達到1/10；測驗長度為160題、120題、100題或80題時，錨題比例需達到1/5；測驗長度為60題時，共同題比例需達到1/4；測驗長度為40題時，共同題比例則應(yīng)達到1/3以上[6]。

2.1.2 作為共同錨的題目的內(nèi)容結(jié)構(gòu)和統(tǒng)計特征問題

作為共同錨的題目可以視為一個題目數(shù)量較少的小測驗，與原來的完整測驗之間的平行程度是保證等值精度的前提。研究者廣泛認同作為共同錨的題目應(yīng)該是需要進行等值的完整測驗的平行簡縮本。錨測驗等值設(shè)計的質(zhì)量取決于待等值測驗的平行程度以及共同題的質(zhì)量。因此，共同題的選擇很重要。共同題最好是待等值測驗的內(nèi)容和統(tǒng)計特征上的平行簡縮本。從內(nèi)容效度角度，共同題在認知維度、內(nèi)容維度的構(gòu)成上應(yīng)該與完整測驗相似。從題型結(jié)構(gòu)來說，同時使用選擇題和主觀建構(gòu)題的大規(guī)模教育測驗在確定共同題時，為避免等值偏差，除應(yīng)有選擇題外，也要選擇一定比例的主觀建構(gòu)題。從統(tǒng)計特征上來說，為保證共同題對完整測驗在統(tǒng)計特征上的代表性，通常要求共同題的難度均值和難度的分布范圍與完整測驗大致相同[5,7-9]。

2.1.3 作為共同錨的題目在題本中的放置位置問題

共同錨多題本設(shè)計中，作為共同錨的題目可能被放置在題本中的任何位置。然而，如果共同題或相同領(lǐng)域題目的位置在各個題本中相對固定，那么試題的排列組合方式可能會影響結(jié)果，學(xué)生對題本末尾的試題內(nèi)容的掌握水平會由于疲勞效應(yīng)被低估，或由于練習(xí)效應(yīng)而被高估[10]。這種題本設(shè)計難以實現(xiàn)各領(lǐng)域的題目在題本間位置的平衡。

2.2 循環(huán)錨多題本設(shè)計

循環(huán)錨多題本設(shè)計能夠解決位置效應(yīng)問題，也稱為“平衡的不完全矩陣取樣”，指的是每個題目以相同次數(shù)與其他題目配對，每個題目作答的考生人數(shù)相同，每個考生作答相同數(shù)量的題目[11]。也就是說，共同題不是指固定的一些題目，題本兩兩之間的共同題是不同的（如圖3所示）。

圖3 平衡的不完全矩陣取樣設(shè)計的例子

為較好地分配題目，多題本設(shè)計常采用題目組塊的方式將少量題目綁定在一起，然后由組塊組合成題本。共同錨設(shè)計可用組塊設(shè)計，也可不用組塊設(shè)計，而循環(huán)錨多題本設(shè)計則一般都使用組塊設(shè)計。

2.2.1 題組數(shù)量問題

題組的數(shù)量與測驗框架中題目數(shù)量有關(guān)，題目數(shù)量越多，測驗越長，題組數(shù)量越多。一般10～15個題目構(gòu)成一個題組[12]。

2.2.2 題組內(nèi)部結(jié)構(gòu)問題

題組構(gòu)成的基本原則是各題組基本等價，從而使由矩陣取樣設(shè)計組卷的考試的統(tǒng)計量（比如平均值）的方差與偏誤都比較小。具體在操作中應(yīng)注意循序均勻分散原則，即各種類型的題目均勻分散在各題組，各組題數(shù)和總分值相近，時間分配相近。題組在結(jié)合時一般要考慮內(nèi)容維度、認知維度和題目編排格式在組塊間和題本間的平衡，但實際操作中各個組塊中題目類型的分布很難完全相同，比如說有的組塊中選擇題多一些，有的組塊中解答題多一些[13]。

另外，題組內(nèi)部試題的排列應(yīng)注意按照先易后難的順序，避免學(xué)生在沒有能力正確作答的題目上耗費過多時間而無法完成測驗。

2.2.3 題組排列的問題

循環(huán)錨的多題本設(shè)計中，題組在題本中采用螺旋式排列方式，保證施測次數(shù)相同[14]。在題本中進行題組排列時，需要遵循以下原則：每一個題本內(nèi)題組數(shù)量相同；通過計算題組可能組合的數(shù)量算出最小題本數(shù)；每一個題組在所有題本中出現(xiàn)的次數(shù)相同[14]。

下面以2012年度PISA測驗[12]為例，解釋循環(huán)錨的多題本設(shè)計的具體應(yīng)用。

2012年度PISA學(xué)科紙筆測驗標準題本覆蓋數(shù)學(xué)、科學(xué)和閱讀3個學(xué)科領(lǐng)域，以數(shù)學(xué)為主。PISA2012測驗工具總共包含181個題目（數(shù)學(xué)84題，閱讀44題，科學(xué)53題），所有題目被組成13個題組（7個數(shù)學(xué)題組，3個閱讀題組和3個科學(xué)題組），每個題組需要30分鐘的測驗時間。PISA2012將13個題組組成13個測驗題本，每4個題組組成一個測驗題本，每個題本完成時間為2個小時。各個題組以旋轉(zhuǎn)的方式在題本中排列（如表1所示）。PISA將這種題本設(shè)計方式稱為“平衡不完全組塊設(shè)計”。每一個題組在題本中4個組塊的位置均出現(xiàn)一次，題組的兩兩組合在所有題本中均不重復(fù)。

表2、表3和表4分別呈現(xiàn)了PISA2012數(shù)學(xué)、閱讀、科學(xué)題組的內(nèi)部結(jié)構(gòu)。數(shù)學(xué)題組從題目涉及的內(nèi)容、認知過程、題型和情境4個維度進行統(tǒng)計，閱讀題組從題目涉及的文本形式、文本類型、能力和題型4個維度進行統(tǒng)計，科學(xué)題組從題目涉及的能力、應(yīng)用領(lǐng)域、關(guān)注點和題型4個維度進行統(tǒng)計。從數(shù)據(jù)可以看出來，各個學(xué)科的題組之間，組成結(jié)構(gòu)并非完全一致，但在各個題目編制的關(guān)鍵維度上基本都有題目分布。

表1 PISA2012紙筆測驗標準題本設(shè)計

表2 PISA2012數(shù)學(xué)題組結(jié)構(gòu)

表3 PISA2012閱讀題組結(jié)構(gòu)

表4 PISA2012科學(xué)題組結(jié)構(gòu)

3 多題本設(shè)計的數(shù)據(jù)處理

大規(guī)模教育測評通過多題本設(shè)計使測驗廣泛覆蓋課程目標或內(nèi)容，可對學(xué)生的學(xué)業(yè)表現(xiàn)進行細致的描述。在多題本設(shè)計下，學(xué)生的學(xué)業(yè)表現(xiàn)不是通過傳統(tǒng)測驗的原始分來表示，而是通過項目反應(yīng)理論模型進行題目參數(shù)和學(xué)生能力水平的估計，學(xué)生能力水平和試題難度在同一量尺上，同時通過多題本設(shè)計中的特殊題目匹配設(shè)計和等值技術(shù)，獲得僅完成了一個題本的學(xué)生在所有測驗涉及的認知維度和內(nèi)容領(lǐng)域上的學(xué)業(yè)表現(xiàn)，對特定群體學(xué)生的能力進行精細刻畫。具體測驗數(shù)據(jù)處理要點如下：

3.1 使用基于IRT模型的量尺分數(shù)報告測驗結(jié)果

在多題本設(shè)計下，完成不同題本的學(xué)生的原始分數(shù)無法直接進行比較，需要通過量表化獲得量表分數(shù)。量表化是基于IRT模型進行的。IRT模型根據(jù)學(xué)生的作答反應(yīng)估計題目的參數(shù)和學(xué)生能力。

3.2 使用等值技術(shù)和似真值能力估計方法處理多題本設(shè)計中的學(xué)生作答缺失

等值是一種統(tǒng)計調(diào)整方法，它可以將參加同一測試但作答不同題本學(xué)生的分數(shù)置于同一量尺上，使所有學(xué)生的分數(shù)具有可比性。似真值技術(shù)可以基于學(xué)生的作答反應(yīng)和背景變量獲得學(xué)生能力的后驗分布，然后從中抽取隨機數(shù)，即為似真值。似真值的分布與學(xué)生能力分布大致相同，因此通過計算可以獲得總體參數(shù)的一致性估計。

盡管學(xué)生作答缺失使得個體水平分數(shù)的估計信度降低，但等值、似真值技術(shù)的使用保證了多題本設(shè)計對于群體水平分數(shù)的準確估計，滿足了大規(guī)模教育測評對群體學(xué)生學(xué)業(yè)水平數(shù)據(jù)的需求。

4 啟示

第一，大規(guī)模教育測評的對象定位于群體水平，可采用多題本設(shè)計。隨著我國教育的發(fā)展，教育質(zhì)量成為各方關(guān)注的焦點。在大數(shù)據(jù)時代，人們迫切需要全面、真實反映學(xué)生學(xué)習(xí)狀況和發(fā)展水平的教育數(shù)據(jù)，這使得大規(guī)模教育測評成為潮流。開展基于課程標準的教育質(zhì)量評價時，我們要從內(nèi)容和認知的雙向維度進行大范圍、大規(guī)模的測評和考查。我們關(guān)注的不是學(xué)生個體發(fā)展水平，而是學(xué)生組群水平的能力發(fā)展。這時，把廣泛內(nèi)容局限于對單個個體的測評既無必要，也不可行，而應(yīng)該通過多題本設(shè)計把對廣泛意義上的能力考查放置于所有被試之中。

第二，采用多題本設(shè)計前，應(yīng)對所測評的內(nèi)容或目標進行細致分析和清晰呈現(xiàn)。如果測試內(nèi)容非常廣泛，如何對這些內(nèi)容進行梳理與歸類，就成為一個關(guān)鍵問題。這是一個將測試的目標結(jié)構(gòu)化、形成測驗框架的過程，是測驗整體設(shè)計和多題本設(shè)計的根基。

第三，多題本設(shè)計中，既要考慮到題本、題組的內(nèi)容安排，也要考慮到結(jié)構(gòu)的基本要求。多題本設(shè)計操作的關(guān)鍵點是保證題本間等價，在內(nèi)容的差異和結(jié)構(gòu)的匹配間找到平衡。無論是共同錨設(shè)計，還是循環(huán)錨設(shè)計，每個題本的題目在內(nèi)容、認知、題型、難度、分值、情境等各種題目特征維度上的結(jié)構(gòu)安排都非常重要。

第四，多題本設(shè)計中，測試數(shù)據(jù)的整理與分析等多個方面應(yīng)嚴格遵循科學(xué)的規(guī)范和程序，充分運用測量技術(shù)和方法。測試數(shù)據(jù)的處理涉及項目反應(yīng)理論模型中的測驗分數(shù)估計、量表化方法、等值技術(shù)等。這些方法技術(shù)性很強，要求使用者在心理計量學(xué)方面訓(xùn)練有素。這也提示我們，現(xiàn)代的教育與心理測評技術(shù)的發(fā)展能夠不斷滿足實踐的需求，但教育與心理測評工作者需要不斷豐富、更新自己的專業(yè)知識。

[1]LORD F M.Estimating norms by item sampling[J].Educational and Psychological Measurement,1962（22）:259-267.

[2]李凌艷,辛濤,董奇.矩陣取樣技術(shù)在大尺度教育測評中的運用[J].北京師范大學(xué)學(xué)報（社會科學(xué)版）,2007（6）:19-25.

[3]CHILDS R A,JACIW A P.Matrix sampling of items in large-scale assessments[J].Practical Assessment Research&Evaluation,2003, 8（16）:1-9.

[4]DINGS J,CHILDS R,KINGSTON N.The effects of matrix sampling on student score comparability in constructed-response and multi?ple-choice assessments:Technical guidelines for performance as?sessment[R].[S.l.:s.n.],2002:34.

[5]ZHU W.Test equating:What,why,how?[J].Research Quarterly for Exercise&Sport,1998,69（1）:11-23.

[6]XIONG J H,YE X R,DING S L,LUO F.Proceedings of 2010 Third International Conference on Education Technology and Training（Volume 7）[C].Wuhan:[s.n.],2010.

[7]COOK L L,PETERSEN N S.Problems related to the use of conven?tional and item response theory equating methods in less than optimal circumstances[J].Applied Psychological Measurement,1987,11（3）: 225-244.

[8]KOLEN M J,BRENNAN R L.Test equating,scaling and linking. Methods and practices[J].Journal of the American Statistical Associ?ation,2007,102（478）:762-763.

[9]KIM S,KOLEN M J.Robustness to format effects of IRT linking methods for mixed-format tests[J].Applied Measurement in Educa?tion,2006,19（4）:357-381.

[10]NOORTGATE W V,BOECK P D,MEUIDERS M.Cross-classifica?tion multilevel logistic models in psychometrics[J].Journal of Edu?cational&Behavioral Statistics,2003,28（4）:369-386.

[11]SIROTNIK K,WELLINGTON R.Incidence sampling:An integrat?ed theory for“matrix sampling”[J].Journal of Educational Measure?ment,1977,14（4）:343-399.

[12]OECD.PISA 2012 Technical Report[EB/OL].[2016-10-12].http:// www.oecd.org/pisa/pisaproducts/pisa2012technicalreport.htm.

[13]VAN DER LINDER L W J,VELDKAMP B P,CARLSON J E.Opti?mizing balanced incomplete block designs for educational assess?ments[J].Applied Psychological Measurement,2004,28（5）:317-331.

[14]郭伯臣,楊思偉,白曉珊,張鈺卿.BIB與NEAT設(shè)計在不同年度測驗連結(jié)效果之比較[J].測驗統(tǒng)計年刊,2008（12）:125-154.

Key Issues of Multiple Matrix Booklet Designs in Large-scale Assessments

HE Mengjie1,YANG Tao2,XIN Tao2,YI Qin2
（1.Fujian Educational Quality Evaluation Center,Fuzhou 350003,China; 2.Collaborative Innovation Center of Assessment toward Basic Education Quality,Beijing 100875,China）

As an important means of educational quality evaluation,multiple matrix booklet designs are commonly used in large-scale assessments.Multiple matrix booklet designs use common items as anchor items,either a common anchor or a loop anchor.In the common anchor scenario,the proportion,content structure,statistical characteristics of the common items,as well as their location in the booklet,should be carefully considered.In the loop anchor scenario,test booklets are assembled with item blocks,and the number,internal structure,arrangement of the item blocks included in a booklet are the key issues to deal with.Besides,the data processing of multiple matrix booklet designs involves test scaling and equating guided by the Item Response Theory.Exploring these key issues can provide guidance and advice for the design of educational tests.

Large-scale Assessment;Multiple Matrix Booklet Design;Block Design;Educational Quality Evaluation; Item Response Theory

G405

1005-8427（2017）02-0033-7

10.19360/j.cnki.11-3303/g4.2017.02.005

（責任編輯：陳寧）

何孟姐（1988—），女，福建省基礎(chǔ)教育質(zhì)量監(jiān)測辦公室，教研員；楊濤（1967—），女，中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，副教授，博士生導(dǎo)師；辛濤（1968—），男，中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，教授，博士生導(dǎo)師；易芹（1991—），女，中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，在讀碩士。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大規(guī)模教育測評的多題本設(shè)計

1 采用多題本設(shè)計的原因

2 多題本設(shè)計的關(guān)鍵問題

3 多題本設(shè)計的數(shù)據(jù)處理

4 啟示