王燁暉 張纓斌 楊濤 辛濤
(北京師范大學(xué),北京 100875)
國際大型測評項目中等值技術(shù)的應(yīng)用與啟示
王燁暉 張纓斌 楊濤 辛濤
(北京師范大學(xué),北京 100875)
國際大型測評項目在年度內(nèi)題本等值時,主要采用同時估計的方法實(shí)現(xiàn)對題目參數(shù)的估計,并使用似真值實(shí)現(xiàn)對學(xué)生個體能力的報告,各個測評項目之間的等值設(shè)計與處理相對統(tǒng)一與一致。在年度間等值時,不同的項目,依據(jù)各自的設(shè)計特點(diǎn),采用錨題或錨人的方法,使用同時估計,并通過線性轉(zhuǎn)換將學(xué)生能力分?jǐn)?shù)置于同一量尺上,實(shí)現(xiàn)年度間分?jǐn)?shù)的比較。依據(jù)我國國情,建議采用錨題與錨人相結(jié)合的等值設(shè)計方式實(shí)現(xiàn)年度間測評結(jié)果的鏈接。
等值;鏈接;題本設(shè)計;大規(guī)模測評
國際大型測評項目日益受重視,不僅因其有助于人們評估學(xué)生的學(xué)習(xí)現(xiàn)狀和教育目標(biāo)的達(dá)成情況,還因其有助于研究者全面考察學(xué)生發(fā)展的影響因素,為教育政策的制定提供客觀依據(jù)。但這些測試都面臨著同樣的問題——廣泛的測試內(nèi)容與有限的測試時間之間的矛盾。為了解決該問題,矩陣抽樣的多題本設(shè)計技術(shù)應(yīng)運(yùn)而生:根據(jù)測試內(nèi)容開發(fā)一套完整的試題,然后把試題劃分成若干小套試題,每一小套試題就是一個題本,每個學(xué)生只作答其中的一個題本[1]。為了讓學(xué)生的測試分?jǐn)?shù)具有可比性,就需要運(yùn)用等值技術(shù),把作答不同題本的學(xué)生的測試分?jǐn)?shù)鏈接(linking)到同一量尺上,即年度內(nèi)等值。
僅憑一次測試結(jié)果,并不能提供充足而穩(wěn)定的信息。國際大型測評項目越來越重視開展追蹤或趨勢研究。從2003年國際教育成就評價協(xié)會(In?ternational Association for the Evaluation of Education?al Achievement)將其負(fù)責(zé)的一個項目的名稱由Third International Mathematics and Science Study變更為Trends in International Mathematics and Science Study可以看出,趨勢研究已成為TIMSS的一個關(guān)注點(diǎn)。和年度內(nèi)等值類似,若需要分析學(xué)生測試表現(xiàn)的發(fā)展趨勢,就得保證不同年度的測試分?jǐn)?shù)具有可比性。此時,也需要用到等值技術(shù),將不同年份學(xué)生的測試分?jǐn)?shù)轉(zhuǎn)換到同一量尺上,即年度間等值。
在2012年及之前,PISA采用平衡的不完全組塊設(shè)計(balanced incomplete block design,BIB)進(jìn)行題本的設(shè)計。以2012年為例,所有題目組成13個題組:7個數(shù)學(xué)題組,3個閱讀題組和3個科學(xué)題組。在將題目分配到各題組中時,一方面會盡量使每個題組所需的作答時間相同;另一方面,會使同一科目不同題組所含的題目在內(nèi)容維度和認(rèn)知維度上的分布盡量相近。不同題組間無相同題目。劃分好題組后,4個題組構(gòu)成一個題本,題組的兩兩組合在所有題本中均不重復(fù),共有13個題本。每個題組在題本的4個組塊位置均出現(xiàn)一次,以平衡可能存在的順序效應(yīng)。在這種設(shè)計中,大部分題本在不同科目上的題量存在差異,這種差異有可能給學(xué)生作答帶來影響[2]。為了降低這種影響,PISA2015的題本設(shè)計中,大部分題本只考查某兩個科目,且兩個科目的題量相同。由于一個題本只能考查兩個科目,PISA2015的紙筆作答題本數(shù)量多達(dá)30個。
PISA在進(jìn)行年度內(nèi)等值時采用的是同時標(biāo)定法,在一次參數(shù)估計過程中同時估計所有題本的題目參數(shù)和能力參數(shù)[3]。具體做法為:將兩個或更多題本的數(shù)據(jù)合并,對其中由于題本設(shè)計造成的缺失,在估計軟件中將相關(guān)題目標(biāo)識為未施測。以PISA2012為例,首先從每個國家隨機(jī)選取500個學(xué)生,組成一個標(biāo)定樣本;其次,根據(jù)標(biāo)定樣本的作答數(shù)據(jù)標(biāo)定所有題目參數(shù);最后,根據(jù)題目參數(shù)估計所有學(xué)生的能力參數(shù)(似真值①除了IRT模型、題目參數(shù)和學(xué)生作答數(shù)據(jù),PISA、TIMSS和NAEP還會結(jié)合一些背景變量(或?qū)Ρ尘白兞窟M(jìn)行主成分分析后提取得到的變量),對學(xué)生的能力參數(shù)分布進(jìn)行估計。然后,從能力參數(shù)分布中抽出5個值代表學(xué)生能力。這5個值被稱為學(xué)生能力的似真值(plausible value)。)。
PISA2015中,仍然采用同時標(biāo)定法,但與以往的做法有3點(diǎn)不同:(1)以往PISA采用單參數(shù)模型(包括one parameter logistic model和partial credit model,即1PLM和PCM),PISA2015采用的是兩參數(shù)模型(包括two parameter logistic model和generalized partial credit model,即 2PLM 和 GPCM);(2)以往PISA在分析試題時,限定所有參與國家和地區(qū)共享相同的題目參數(shù),即題目具有測量不變性。如果在事先的檢驗(yàn)中發(fā)現(xiàn)某個題目在某個國家或地區(qū)上出現(xiàn)項目功能差異(differential item functioning,DIF),在標(biāo)定題目參數(shù)時,該題會被設(shè)置成未施測給這個國家或地區(qū)的被試。相應(yīng)地,在估計這個國家或地區(qū)的被試能力參數(shù)時,不使用這道題目。而PISA2015在標(biāo)定題目參數(shù)時,在保證具有測量不變性的題目數(shù)量足夠多的前提下,允許少量有DIF的題目在施測國家或地區(qū)偏離國際參數(shù)。一些研究認(rèn)為這種做法在保證測驗(yàn)分?jǐn)?shù)具有跨國家和地區(qū)可比性的同時,能提高測驗(yàn)公平性[4];(3)PISA2015中的標(biāo)定樣本不僅包括2015年度的參與國家和地區(qū)的學(xué)生,還包括往年參加PISA測試的學(xué)生[5]。
NAEP主要包括國家測試、州測試、閱讀和數(shù)學(xué)的長期趨勢測試等幾種類型,其題本設(shè)計主要為平衡的不完全組塊設(shè)計(BIB)和部分平衡的不完全組塊設(shè)計(partial balanced incomplete block design,pBIB)。不同學(xué)科、不同類型的測試會根據(jù)需要采用其中一種設(shè)計方式。BIB設(shè)計能夠保證所有題組在各個組塊出現(xiàn)次數(shù)相同,并且不同題組之間的組合頻率相同。而pBIB設(shè)計則無法滿足這樣的要求。以NAEP2012數(shù)學(xué)長期測試采用的pBIB設(shè)計為例(見表1),每個題組在不同組塊出現(xiàn)的次數(shù)不同,如題組M21在組塊1和組塊3上都出現(xiàn)了兩次,但在組塊2上只出現(xiàn)一次。在各個題本中都沒有MX52和M24的組合。
NAEP采用同時標(biāo)定法估計所有題目的參數(shù)。對于選擇題、二級計分的建構(gòu)題和多級計分的建構(gòu)題,分別使用3PLM、2PLM和GPCM等項目反應(yīng)理論模型處理,并結(jié)合學(xué)生的背景信息,采用似真值報告學(xué)生個體的能力值。
表1 NAEP2012數(shù)學(xué)長期趨勢測試標(biāo)準(zhǔn)題本設(shè)計(9歲年齡段)[6]
從2007年起,TIMSS一直采用同樣的矩陣抽樣設(shè)計對數(shù)學(xué)和科學(xué)兩門學(xué)科進(jìn)行測查:共14個題本,每個題本包括數(shù)學(xué)和科學(xué)兩部分,每個學(xué)科有兩個題組,即每個題本包括4個題組。每個題組的作答時間相近,同一科目不同題組所含的題目在內(nèi)容維度和認(rèn)知維度上的分布相近。不同題組以及不同學(xué)科按照螺旋的方式排列,以平衡題組和學(xué)科在不同題本上的順序效應(yīng)。
TIMSS處理數(shù)據(jù)時采用的模型與NAEP非常類似,用同時標(biāo)定的方法對所有題本進(jìn)行同時估計,其中,選擇題、二級計分的建構(gòu)題和多級計分的建構(gòu)題分別使用3PLM、2PLM和GPCM等進(jìn)行處理[7]。TIMSS一直穩(wěn)定使用這幾個模型進(jìn)行相應(yīng)的參數(shù)估計,并結(jié)合學(xué)生的背景信息,采用似真值報告學(xué)生個體的能力值。
PISA、NAEP和TIMSS三大項目在年度內(nèi)等值設(shè)計方面比較相似,均采用矩陣抽樣的方法進(jìn)行題本分配,使用同時標(biāo)定法實(shí)現(xiàn)對題目參數(shù)的估計,最后采用似真值進(jìn)行學(xué)生能力的報告。PISA在2015年前,采用1PLM進(jìn)行估計,此后采用2PLM和GPCM,與TIMSS和NAEP的估計模型更加一致??傮w而言,在年度內(nèi)等值方面,三個項目的做法比較一致。但三者對于學(xué)生來不及作答的題目處理有所不同。PISA2015中,如果某個學(xué)生沒來得及作答位于題本末尾處的題目,未作答題目會被當(dāng)作是沒有給這位學(xué)生施測,而此前PISA的處理方式是把未作答題目當(dāng)作學(xué)生答錯的題目。NAEP分三種情況處理無時間作答題目:(1)無時間作答的選擇題被設(shè)定為沒有施測;(2)對于無時間作答的開放題,如果該題前一道也未作答,那么該題連同前一道題目都被設(shè)定為沒有施測;(3)如果前一道題目被作答了,則設(shè)定為答錯或完全答錯。TIMSS在標(biāo)定題目參數(shù)時,學(xué)生無時間作答題目會被設(shè)定為沒有給這位學(xué)生施測,但在估計能力參數(shù)時,無時間作答題目則被設(shè)定為該學(xué)生答錯的題目。
PISA在進(jìn)行年度間等值時采用非等組錨題設(shè)計,不同年度的測試之間通過趨勢題(即錨題)進(jìn)行鏈接。如果是該年度的主測科目,該科目的試題中有一部分是錨題,和上一個年度進(jìn)行鏈接;若不是主測科目,則該科目的所有試題都是錨題。以PISA2012為例,主測科目數(shù)學(xué)共110道題,36道錨題;而閱讀共44題,科學(xué)共53題,均為錨題。PISA2015為了提高年度間等值的準(zhǔn)確性,增加了錨題的題量;科學(xué)為主測學(xué)科,總題量為184道,其中錨題85道;而數(shù)學(xué)共83題,閱讀共103題,均為錨題。
2015年之前,PISA進(jìn)行跨年度等值時,采用了均值/均值法[8]。均值/均值法的原理認(rèn)為,錨題在不同測試中的參數(shù)僅僅是量尺原點(diǎn)和單位不同,可以實(shí)現(xiàn)線性轉(zhuǎn)換。通過計算錨題在不同年度的參數(shù)均值之差,得到等值常數(shù),就可以把不同年度的測試分?jǐn)?shù)轉(zhuǎn)換到同一量尺上。以鏈接PISA2012和PISA2009的數(shù)學(xué)能力參數(shù)為例:首先,根據(jù)PISA2012標(biāo)定樣本對題目參數(shù)進(jìn)行估計;然后,基于2012年題目參數(shù)估計值,估計2012年學(xué)生的數(shù)學(xué)能力參數(shù)值;最后,根據(jù)PISA2009標(biāo)定樣本得到的數(shù)學(xué)錨題難度均值,減去根據(jù)PISA2012標(biāo)定樣本得到的數(shù)學(xué)錨題難度均值,得到等值常數(shù),為0.07 logit,PISA2012的能力參數(shù)加上0.07 logit后,就與PISA2009的能力參數(shù)在同一個量尺上了。要把PISA2012的數(shù)學(xué)能力參數(shù)轉(zhuǎn)換到PISA數(shù)學(xué)量尺上,通過一定的線性轉(zhuǎn)換即可實(shí)現(xiàn),原理與上述步驟類似。
PISA2015進(jìn)行跨年度等值時,采用的是同時標(biāo)定法。具體步驟如下:
(1)PISA2015標(biāo)定題目參數(shù)所用的標(biāo)定樣本,不僅包括PISA2015的參與國家和地區(qū)的學(xué)生,還包括最近三輪測試(即PISA2012、PISA2009以及PISA2006)參與國家和地區(qū)的學(xué)生。因?yàn)?015年之前,PISA用的都是單參數(shù)模型,所以PISA2015在標(biāo)定題目參數(shù)時,限定2012年、2009年和2006年三個年度的所有題目以及2015年度的錨題的區(qū)分度相同,以降低使用兩參數(shù)模型進(jìn)行參數(shù)估計可能帶來的影響。此過程中,4個年度的題目都是放一起進(jìn)行參數(shù)標(biāo)定的,所以得到的題目參數(shù)都處于同一量尺上。
(2)根據(jù)(1)中得到的題目參數(shù)估計PISA2015的學(xué)生能力參數(shù),同時重新估計PISA2012、PISA2009以及PISA2006的學(xué)生能力參數(shù)。因?yàn)樗玫念}目參數(shù)都在同一量尺上,所以這個過程得到的各輪測試的能力參數(shù)也在同一量尺上。
(3)過程(2)中得到的PISA2012、PISA2009以及PISA2006學(xué)生能力參數(shù),與對應(yīng)年度的學(xué)生PISA量尺分?jǐn)?shù)(用于結(jié)果報告中的分?jǐn)?shù))存在線性轉(zhuǎn)換關(guān)系。根據(jù)這種線性轉(zhuǎn)換關(guān)系,并且根據(jù)某科目為主考科目的那一輪數(shù)據(jù),計算該科目的轉(zhuǎn)換系數(shù)。例如,PISA2006的主考科目為科學(xué),那么根據(jù)過程(2)中得到的PISA2006學(xué)生科學(xué)能力參數(shù)與PISA2006學(xué)生科學(xué)量尺分?jǐn)?shù)間的轉(zhuǎn)換關(guān)系,就可以計算科學(xué)科目的轉(zhuǎn)換系數(shù)。計算公式如下:
(4)過程(2)得到的各輪測試能力參數(shù)都在同一量尺上,那么就可以根據(jù)過程(3)得到的各科目轉(zhuǎn)換系數(shù),將過程(2)中得到的PISA2015學(xué)生能力參數(shù)轉(zhuǎn)換到PISA量尺上,用于后續(xù)的數(shù)據(jù)分析和報告撰寫。以科學(xué)為例,轉(zhuǎn)換公式如下:
ScienceX2015代表過程(2)得到的PISA2015學(xué)生科學(xué)能力參數(shù),ScienceY2015代表PISA2015學(xué)生科學(xué)量尺分?jǐn)?shù)。
今后,PISA測試將沿用這一做法進(jìn)行跨年的等值,例如PISA2018在標(biāo)定題目參數(shù)時,標(biāo)定樣本將涉及PISA2018、PISA2015、PISA2012和PISA2009的學(xué)生。然后按照上述步驟,將PISA2018的學(xué)生能力參數(shù)轉(zhuǎn)換成PISA量尺分?jǐn)?shù)。
(1)NAEP的國家測試
NAEP的國家測試采用錨題的方式實(shí)現(xiàn)年度間的等值。以數(shù)學(xué)為例,2011年的數(shù)學(xué)測試(四、八年級)有10個題組,其中8個題組來源于2009年測試,四、八年級的8個2009年題組又分別有5個題組和4個題組來自于2007年的測試。
(2)NAEP的長期趨勢測試
NAEP的閱讀和數(shù)學(xué)長期趨勢測試每4年一輪,針對9歲、13歲和17歲的學(xué)生進(jìn)行[9]。閱讀和數(shù)學(xué)的長期發(fā)展趨勢分別可以回溯到1971年和1973年。為了實(shí)現(xiàn)長時間對學(xué)生學(xué)業(yè)發(fā)展的追蹤研究,長期趨勢測試的工具一直保持穩(wěn)定不變。2004年,NAEP對其長期趨勢測試進(jìn)行了唯一一次較大的調(diào)整,主要包括:刪除科學(xué)和寫作測試;面向殘疾和非英語母語的學(xué)生開放;更新不合時宜的題目;更新背景問卷并與測試卷分離;語文和數(shù)學(xué)單獨(dú)成冊;調(diào)整實(shí)施流程。
(1)NAEP的國家測試
由于存在大比例的錨題,NAEP的國家測試中各學(xué)科相鄰輪次之間的測試通過同時估計和線性轉(zhuǎn)換便可將結(jié)果置于同一量尺上。
(2)NAEP的長期趨勢測試
由于2004年的長期趨勢進(jìn)行了較大的改動,因此2004年之后的測試結(jié)果與2004年之前的測試結(jié)果無法簡單地通過同時標(biāo)定來實(shí)現(xiàn)統(tǒng)一量尺化。為了降低這種改動可能對等值結(jié)果造成的影響,NAEP采用了隨機(jī)等組設(shè)計(randomly equivalent samples design)來解決這個問題[10]。2004年度的長期趨勢測試編制了兩套測試工具,一套是與舊有測試相同的工具,稱之為橋測驗(yàn)(bridge assessment),另一套則是根據(jù)新設(shè)計編制的修訂版工具(modi?fied assessment),把2004年的學(xué)生樣本隨機(jī)分為兩個同質(zhì)樣本,將修訂后的2004年長期趨勢測試施測給一個樣本,將舊版2004年橋測驗(yàn)施測給另一樣本[11]。因?yàn)閮蓚€樣本是同質(zhì)的,所以有著相同的能力分布,據(jù)此可以計算轉(zhuǎn)換系數(shù),實(shí)現(xiàn)新版2004年長期趨勢測試分?jǐn)?shù)與舊版2004年長期趨勢測試分?jǐn)?shù)的鏈接。通過同時估計,新版2004年長期趨勢測試的結(jié)果能和之后的所有長期趨勢結(jié)果進(jìn)行鏈接,而舊版2004年長期趨勢測試的結(jié)果則能夠和2004年之前所有的長期趨勢測試結(jié)果進(jìn)行鏈接,加之2004年隨機(jī)等組設(shè)計的這個橋梁,NAEP能夠?qū)崿F(xiàn)所有年份長期趨勢結(jié)果的鏈接。
以TIMSS2015為例,包括14個數(shù)學(xué)題組和14個科學(xué)題組,其中8個數(shù)學(xué)題組和8個科學(xué)題組來自于TIMSS2011,以保證能在TIMSS2015和TIMSS2011之間進(jìn)行等值。
TIMSS年度間的等值方法與NAEP類似,一貫的做法是,年度內(nèi)等值和跨年度等值同時進(jìn)行,把相鄰測試輪次的學(xué)生作答數(shù)據(jù)放一起,對題目參數(shù)進(jìn)行同時標(biāo)定。首先,TIMSS把2015年所有學(xué)生的作答數(shù)據(jù)和2011年所有學(xué)生的作答數(shù)據(jù)放一起,同時標(biāo)定題目參數(shù);其次,估計學(xué)生能力參數(shù)。因?yàn)槭褂迷谕涣砍呱系念}目參數(shù)估計2011年度和2015年度的學(xué)生能力參數(shù),所以得到的兩個年度的學(xué)生能力參數(shù)在同一量尺上。后續(xù)處理與PISA2015類似。以數(shù)學(xué)為例,計算公式如下:
MathX2015代表TIMSS2015學(xué)生科學(xué)能力參數(shù),MathY2015代表TIMSS2015學(xué)生科學(xué)量尺分?jǐn)?shù)。
在跨年度等值中,三大項目的做法既有共同之處,又各有特色。三者之間均采用錨題設(shè)計的方式,通過同時估計實(shí)現(xiàn)各輪次之間的跨年度等值,但不同項目同時進(jìn)行估計的輪次數(shù)量不同。PISA測試閱讀、數(shù)學(xué)和科學(xué),每一輪次只有一個主測學(xué)科。因此,為了實(shí)現(xiàn)同一學(xué)科跨輪次之間的比較,需要至少對4輪次測試進(jìn)行同時估計,才能實(shí)現(xiàn)主測學(xué)科的跨年度比較。NAEP的主測驗(yàn)分學(xué)科進(jìn)行,每次只需和其相鄰的測試輪次進(jìn)行同時估計即可。TIMSS每個輪次都全面測查數(shù)學(xué)和科學(xué),因此相鄰輪次的共同估計便可實(shí)現(xiàn)年度間等值。
NAEP的長期趨勢測驗(yàn)需要對青少年的學(xué)業(yè)發(fā)展進(jìn)行長期的趨勢描述,因此整體設(shè)計與其主測驗(yàn)及PISA和TIMSS均不相同。它要在較長的時間內(nèi)保持工具的穩(wěn)定性,因此通過同時估計可以直接進(jìn)行多年的結(jié)果比較。但是,課程體系隨著時間在不斷進(jìn)行調(diào)整變化,測評技術(shù)也在不斷改進(jìn)與提升。因此,這樣的長期趨勢測驗(yàn)也需要有相應(yīng)的改動與更新。在長期趨勢測驗(yàn)改動更新的年份,則通過隨機(jī)等組的方式(即錨人的方式)實(shí)現(xiàn)新舊版本測試之間的鏈接。
在大規(guī)模的學(xué)業(yè)測評中,矩陣抽樣設(shè)計已經(jīng)成為題本設(shè)計的主要方式,切實(shí)解決了廣泛測試內(nèi)容和有限測試時間之間的矛盾。隨著矩陣抽樣設(shè)計的興起,勢必面臨著題本之間的等值和報告學(xué)生個體學(xué)業(yè)成績。就當(dāng)前來看,題本間的等值(即年度內(nèi)等值)利用錨題對參數(shù)進(jìn)行同時估計,并且合理處理好學(xué)生未能完成題目的缺失,能夠較精確實(shí)現(xiàn)項目參數(shù)的估計。年度間的結(jié)果比較(即跨年度等值設(shè)計)面臨著更多的問題,如何選擇合適的等值方案與測驗(yàn)本身的設(shè)計、測驗(yàn)?zāi)康拿懿豢煞帧?/p>
考試在我國向來是一項高風(fēng)險、高利害關(guān)系的事業(yè)。無論是中考、高考,抑或是國家教育質(zhì)量監(jiān)測,橫向單次的測試結(jié)果所能提供的信息有限。我們希望能夠通過縱向的比較,提供學(xué)生學(xué)業(yè)的動態(tài)發(fā)展?fàn)顩r或者教育發(fā)展趨勢。如果是要進(jìn)行較為嚴(yán)格的追蹤趨勢研究,測評工具需要相對穩(wěn)定(例如NAEP的長期趨勢研究),但測試完成之后會曝光所有題目,這對中考、高考等高風(fēng)險測試并不適合。如何將不同年度或者測試輪次之間的結(jié)果進(jìn)行鏈接,是準(zhǔn)確報告發(fā)展趨勢的關(guān)鍵所在。
年度之間的鏈接主要通過錨題和錨人兩種方法實(shí)現(xiàn)。若采用錨題設(shè)計,為保證估計的穩(wěn)定性,減少估計的誤差,各大項目中錨題占總題量的比例至少在50%左右,且錨題不僅僅只是在相鄰的測試輪次之間,在多個輪次的測試之間都可能存在共同的題目。但是一半以上的錨題,甚至多輪次使用,可能會造成錨題過度曝光,引發(fā)練習(xí)效應(yīng),影響鏈接的準(zhǔn)確性。
采用錨人設(shè)計,若采用同一批考生完成兩套試卷,那么這批考生需要對總體具有很好的代表性,對抽樣設(shè)計要求較高。此外,考生需要完成兩套測試卷,對考試的組織實(shí)施提出了更高的要求。若采用隨機(jī)等組設(shè)計,則需要實(shí)現(xiàn)對考生進(jìn)行相應(yīng)的分組,保證兩組學(xué)生之間完全“等價”,在兩個組中匹配考生成為保證等值效果的關(guān)鍵所在。
就我國國情而言,完全采用錨題設(shè)計,可能會導(dǎo)致錨題過度曝光,但若完全采用錨人設(shè)計,如果是隨機(jī)等組設(shè)計,一方面對等組的要求比較高,不容易實(shí)現(xiàn);另一方面,兩組考生作答兩份不同的試卷,社會大眾不易理解。如果單組設(shè)計,同一批被試同時完成兩份試卷,一方面具體實(shí)施的可行性不大;另一方面樣本的代表性不易得到保證。如果能夠?qū)㈠^題設(shè)計與錨人設(shè)計結(jié)合起來使用,適當(dāng)減少錨題占總題量的比例,降低錨題曝光程度,同時在部分代表性的區(qū)域采用隨機(jī)等組設(shè)計或單組設(shè)計,實(shí)現(xiàn)年度間的穩(wěn)定等值鏈接,可能是適合我國國情的一種有效設(shè)計。
[1]李凌艷,辛濤,董奇.矩陣取樣技術(shù)在大尺度教育測評中的運(yùn)用[J].北京師范大學(xué)學(xué)報(社會科學(xué)版),2007(6):19-25.
[2]OECD.PISA 2012 Technical Report[M].Paris:OECD Publishing,2014.
[3]WINGERSKY M S,LORD F M.An investigation of methods for re?ducing sampling error in certain IRT procedures[J].Applied Psycho?logical Measurement,1983(3):52.
[4]OLIVERI M E,VON D M.Toward increasing fairness in score scale calibrations employed in international large-scale assessments[J].International Journal of Testing,2014,14(1):1-21.
[5]OECD.PISA 2015 Results Volume I:Excellence and Equity in Edu?cation[M].Paris:OECD Publishing,2016.
[6]NCES.Student booklets for the 2012 mathematics long-term trend assessment[EB/OL].(2014-06-02)[2017-04-18].https://nces.ed.gov/nationsreportcard/tdw/instruments/2012/cog_dev_math_booklets 2012.aspx.
[7]MARTIN M O,MULLIS I V S,HOOPER M.Methods and proce?dures in TIMSS 2015[Z].Chestnut Hill,MA:TIMSS&PIRLS Inter?national Study Center,Boston College,2016.
[8]MARCO G L.Item characteistic curve solutions to three intractable testing problems[J].Journal of Educational Measurement,1977,14(2):139-160.
[9]NCES.How were the NAEP long-term trend assessments devel?oped?[EB/OL].(2013-06-25)[2017-04-18].https://nces.ed.gov/nationsreportcard/ltt/howdevelop.aspx.
[10]NCES.Development of the long-term trend cognitive items and in?struments[EB/OL].(2014-06-02)[2017-04-18].https://nces.ed.gov/nationsreportcard/tdw/instruments/cog_dev_ltt.aspx.
[11]NCES.2004 Bridge study[EB/OL].(2013-06-25)[2017-04-18].https://nces.ed.gov/nationsreportcard/ltt/bridge_study.aspx.
Applications and Implications of Test Equating in Large-scale International Educational Assessments
WANG Yehui,ZHANG Yingbin,YANG Tao,XIN Tao
(Beijing Normal University,Beijing,100875,China)
To link scores of different test booklets from the same cycle to the same scale,large-scale international educational assessment programs mainly use concurrent calibration to estimate item parameters.Plausible values are used as students’ability scores.The equating designs and methods are relatively consistent across different assessment programs.To link scores of different tests from different cycles to the same scale,common item design or equivalent groups design,the concurrent calibration and the method of linear transformation are used in educational assessment programs.As for China’s situation,this paper suggests the national assessment use the equating designs of the combination of the common item design and the equivalent groups design to link test scores from different cycles to the same scale.
Equating;Linking;Booklet Design;Large-scale Assessment
G405
A
1005-8427(2017)08-0043-7
10.19360/j.cnki.11-3303/g4.2017.08.008
王燁暉(1982—),女,北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,講師;
張纓斌(1993—),男,北京師范大學(xué)教育學(xué)部,在讀碩士;
楊 濤(1967—),女,北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,副教授;
辛 濤(1968—),男,北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心常務(wù)副主任,教授。
(責(zé)任編輯:陳寧)