聶旭剛 陳 平 張纓斌 何引紅
(1北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心; 2北京師范大學(xué)教育學(xué)部;3北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 北京 100875)
在1984年至1986年的美國(guó)教育進(jìn)展評(píng)估項(xiàng)目(The National Assessment of Educational Progress,NAEP)中, 9歲和17歲受測(cè)群體的閱讀成績(jī)出現(xiàn)難以置信的異常下降, 這一事件引發(fā)一項(xiàng)為期 3年的調(diào)查研究, 也即后來(lái)被大家所熟知的“1986年NAEP閱讀異常研究” (詳見(jiàn)Beaton et al., 1988;Beaton & Zwick, 1990)。后續(xù)研究表明:導(dǎo)致這一現(xiàn)象的主要原因是NAEP中題冊(cè)間錨題位置與情境的變化(Zwick, 1991)。這一現(xiàn)象作為測(cè)量領(lǐng)域的一個(gè)警鐘, 提醒研究者們:題目位置和情境的變化會(huì)對(duì)受測(cè)者的作答反應(yīng)產(chǎn)生不容忽視的影響,尤其是在測(cè)驗(yàn)等值設(shè)計(jì)中。
目前, 測(cè)驗(yàn)中因題目位置變化所產(chǎn)生的影響,主要是從題目位置變化如何影響題目參數(shù)的角度進(jìn)行探究。在此背景下, 本文將題目位置效應(yīng)(Item Position Effect, IPE)定義為:在剔除隨機(jī)誤差的影響之后, 同一個(gè)題目在不同測(cè)驗(yàn)間因題目位置的變化而導(dǎo)致題目參數(shù)的變化。由上述定義并結(jié)合以往研究, 可以看出 IPE會(huì)對(duì)依賴于項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)參數(shù)不變性(parameter invariance)1特征的相關(guān)應(yīng)用、測(cè)驗(yàn)公平性以及考生的作答心理等方面造成不利影響。
首先, 在心理與教育測(cè)量中, 參數(shù)不變性特征是IRT的最大優(yōu)點(diǎn)(羅照盛, 2012)。IRT正是由于具備這一特性, 才使得它在指導(dǎo)題庫(kù)建設(shè)、計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)中發(fā)揮著無(wú)法比擬的作用。同時(shí), 參數(shù)不變性特征也是測(cè)驗(yàn)等值技術(shù)得以實(shí)現(xiàn)的前提條件;在多種等值設(shè)計(jì)中, 非等組錨測(cè)驗(yàn)設(shè)計(jì)(Kolen,2006)是最常見(jiàn)的等值數(shù)據(jù)搜集方法, 這種設(shè)計(jì)通過(guò)一組內(nèi)嵌在兩個(gè)平行測(cè)驗(yàn)中的錨題來(lái)實(shí)現(xiàn)兩個(gè)測(cè)驗(yàn)間的等值。而且該設(shè)計(jì)有一個(gè)關(guān)鍵假設(shè):錨題的統(tǒng)計(jì)學(xué)特性在不同的測(cè)驗(yàn)間應(yīng)該是穩(wěn)定的,即錨題參數(shù)不變性假設(shè)。另外, 在矩陣取樣(matrix sampling)技術(shù)中, 為了實(shí)現(xiàn)不同學(xué)生之間成績(jī)的比較, 需要在不同題冊(cè)間設(shè)置相同的組塊(block)加以鏈接, 并且組塊的位置在各個(gè)題冊(cè)間也是不同的。此時(shí), 鏈接所使用題目的參數(shù)穩(wěn)定性, 對(duì)于矩陣取樣設(shè)計(jì)的有效性具有決定性影響。然而, IPE恰恰是對(duì)IRT參數(shù)不變性特征的一種違反。所以, 系統(tǒng)研究 IPE的影響, 對(duì)于確保IRT應(yīng)用優(yōu)勢(shì)的發(fā)揮、降低等值誤差、優(yōu)化矩陣取樣技術(shù)在大規(guī)模測(cè)評(píng)領(lǐng)域的應(yīng)用, 都具有十分重要的意義。
其次, 從測(cè)驗(yàn)公平性角度來(lái)看, 一個(gè)公平的題目應(yīng)該能夠給受測(cè)者提供平等的機(jī)會(huì), 來(lái)反映他們已掌握的與測(cè)驗(yàn)?zāi)康南嚓P(guān)的技能和知識(shí)(Roever, 2005)。然而在實(shí)踐中, 題目或者測(cè)驗(yàn)水平的公平性很可能會(huì)受到題目位置、性別以及種族等因素的影響, 從而導(dǎo)致題目偏差(item bias),并最終對(duì)受測(cè)者的作答表現(xiàn)產(chǎn)生影響(Zumbo, 1999)。傳統(tǒng)的做法是從題目功能差異(Differential Item Functioning, DIF) (即題目參數(shù)值在不同子群體間存在變化)的角度來(lái)對(duì)這種偏差進(jìn)行分析, 但是也可以從IPE的角度來(lái)分析。IPE和DIF一樣都會(huì)對(duì)測(cè)驗(yàn)的公平性產(chǎn)生不利影響。但是相比較而言,DIF是從被試特征的差異來(lái)探究具有相同目標(biāo)測(cè)量結(jié)構(gòu)的個(gè)體在題目參數(shù)上的差異, 即考查題目功能所導(dǎo)致的偏差; 這種偏差是由于題目本身功能性特征所決定的, 是由于題目開(kāi)發(fā)過(guò)程, 即題目設(shè)計(jì)所導(dǎo)致的; 而 IPE則是從題目特征的差異來(lái)探究題目參數(shù)穩(wěn)定性的影響, 即考查題目情境(即位置)所導(dǎo)致的偏差; 此偏差是由于題目外在情境特征所決定的, 是由于測(cè)驗(yàn)設(shè)計(jì)所導(dǎo)致的。所以, 從偏差產(chǎn)生原因的角度來(lái)看, IPE又有別于DIF, 也有國(guó)內(nèi)研究者將其歸屬為參數(shù)漂移(Item Parameter Drift, IPD)產(chǎn)生的原因, 并對(duì) IPD 與DIF進(jìn)行了系統(tǒng)地區(qū)分(葉萌, 辛濤, 2015)。
總的來(lái)說(shuō), IPE對(duì)測(cè)驗(yàn)的公平性的不利影響主要體現(xiàn)在依據(jù)考生作答反應(yīng)對(duì)其進(jìn)行分類、選拔等政策性的決策中, 進(jìn)而會(huì)對(duì)個(gè)人錄取、學(xué)校資助、地區(qū)課程的調(diào)整產(chǎn)生較大影響(Hill, 2008;Meyers, Miller, & Way, 2009; Wise, Chia, & Park,1989)。特別是在高利害考試中, 減少這種不利因素, 可以為考生提供相同的機(jī)會(huì)、維持高水準(zhǔn)分類的準(zhǔn)確性。
此外, 在認(rèn)知領(lǐng)域的實(shí)驗(yàn)研究中, Weinstein和 Roediger (2010)對(duì)測(cè)驗(yàn)表現(xiàn)中回顧性偏差(retrospective bias)的研究也表明:題目排列方式的不同, 會(huì)使得被試在作答動(dòng)機(jī)、自信心水平以及受測(cè)后自我成就評(píng)價(jià)等方面存在顯著的差異。這說(shuō)明題目位置的變化的確關(guān)系到被試的作答心理, 進(jìn)而會(huì)影響被試的作答表現(xiàn)??荚嚤旧砭褪且环N會(huì)引起受測(cè)者應(yīng)激反應(yīng)的事件, 所以在將考試結(jié)果作為決策依據(jù)使用之前, 任何對(duì)被試的作答心理造成差異性影響的因素, 都值得對(duì)其進(jìn)行慎重且全面的考查。
基于這一研究主題的重要性, 本文旨在對(duì)IPE進(jìn)行系統(tǒng)概括和總結(jié), 以期為測(cè)量研究者與實(shí)踐者了解IPE的研究進(jìn)展以及主要研究思路提供幫助。本文首先對(duì)IPE的相關(guān)概念(比如參數(shù)不變性、題目情境效應(yīng)、題目順序效應(yīng))進(jìn)行梳理; 然后系統(tǒng)總結(jié)檢測(cè) IPE的方法以及相應(yīng)的模型, 同時(shí)從兩個(gè)角度對(duì) IPE的解釋進(jìn)行概括; 最后, 從四個(gè)方面對(duì)今后的研究方向進(jìn)行展望。
關(guān)于IPE的研究集中于探討其對(duì)IRT參數(shù)不變性特征違反所造成的影響, 所以本章節(jié)首先對(duì)IRT參數(shù)不變性特征進(jìn)行簡(jiǎn)要介紹。另外, 關(guān)于IPE的研究也是隨著測(cè)量技術(shù)的發(fā)展以及測(cè)量領(lǐng)域問(wèn)題關(guān)注點(diǎn)的變化而不斷變化的, 所以結(jié)合這一主題的研究進(jìn)程, 我們也對(duì)這期間所涉及的與IPE相似或相關(guān)的概念進(jìn)行區(qū)分。
參數(shù)不變性特征是IRT在測(cè)驗(yàn)領(lǐng)域最實(shí)用的特征, 等值、DIF和 IPD等研究主題都是基于參數(shù)不變性遭到違反以及由此產(chǎn)生的影響來(lái)開(kāi)展相關(guān)研究的。對(duì)于參數(shù)不變性, 可以從兩個(gè)角度進(jìn)行理解:第一, 從同一總體的角度進(jìn)行理解, 即根據(jù)來(lái)自同一總體的不同樣本所估計(jì)得到的參數(shù)值不變。比如, 來(lái)自同一總體的兩批被試樣本作答同一批題目, 通過(guò)作答反應(yīng)估計(jì)得到的兩批題目參數(shù)值近似相同; 第二, 從不同總體的角度進(jìn)行理解, 即根據(jù)來(lái)自不同總體的樣本所估計(jì)得到的參數(shù)值是存在變化的(Rupp & Zumbo, 2006)。但是它們之間存在某種線性關(guān)系, 可以通過(guò)等值來(lái)進(jìn)行轉(zhuǎn)換比較。所以總的來(lái)說(shuō), 參數(shù)不變性是指:使用同一總體內(nèi)不同樣本(題目或被試樣本)所估計(jì)得到的相同被試或相同題目的參數(shù)是不變的。
Hambleton和 Swaminathan (1985)明確表達(dá)“能力參數(shù)的估計(jì)獨(dú)立于特定的選項(xiàng)與題目”是IRT的主要特征, 也是被試間能夠進(jìn)行比較的基礎(chǔ)。Meyers等人(2009)認(rèn)為基于參數(shù)不變性特征,研究者可以將 IRT應(yīng)用到 CAT和預(yù)等值(preequating)。可以說(shuō), 近年來(lái)幾乎所有被記錄的、對(duì)測(cè)驗(yàn)實(shí)踐有益的發(fā)展, 都是伴隨著 IRT, 或者更確切地說(shuō), 是隨著參數(shù)不變性特征一起出現(xiàn)的(Store, 2013)。但 IPE恰恰是對(duì)這一特征的違反(Hill, 2008; Meyers et al., 2009; Wise et al., 1989),所以從這一特征在 IRT應(yīng)用中的重要地位來(lái)看,關(guān)于IPE的研究應(yīng)該引起測(cè)量領(lǐng)域相關(guān)學(xué)者的高度重視。
IPE是在剔除隨機(jī)誤差的影響之后, 同一個(gè)題目在不同測(cè)驗(yàn)間因題目位置的變化而導(dǎo)致題目參數(shù)的變化。事實(shí)上, 這一概念囊括了關(guān)于題目位置變化的所有可能情況, 其中包括單個(gè)題目的位置變化以及多個(gè)題目整體和部分的位置變化(即題目順序或情境)。常見(jiàn)的兩種IPE分別是練習(xí)效應(yīng)(learning effect)和疲勞效應(yīng)(fatigue effect)(Kingston & Dorans, 1984)。在非速度型測(cè)驗(yàn)2在 IPE相關(guān)研究領(lǐng)域里涉及的非速度型測(cè)驗(yàn) (unspeeded tests), 都是按照大型測(cè)評(píng)公司的經(jīng)驗(yàn)法則進(jìn)行定義:可以滿足100%被試完成75%的題目, 或者不少于80%的被試完成100%的測(cè)驗(yàn)題目。中,存在的疲勞效應(yīng), 會(huì)使得位于測(cè)驗(yàn)尾部的題目難度增大; 反之, 練習(xí)效應(yīng)會(huì)使得位于測(cè)驗(yàn)尾部的題目難度降低。
對(duì)以往研究進(jìn)行梳理發(fā)現(xiàn), 題目情境效應(yīng)(item context effect)與題目順序效應(yīng)(item order effect)本質(zhì)上都是研究題目位置改變所產(chǎn)生的影響, 所以兩者都可以歸屬于 IPE的概念范疇, 接下來(lái)對(duì)它們以及彼此的關(guān)系進(jìn)行簡(jiǎn)要說(shuō)明。
Leary和 Dorans (1985)以及 Davey和 Lee(2010, 引自 Store, 2013)等人將題目情境效應(yīng)定義為:受測(cè)者在題目上的作答反應(yīng)直接或間接地受除“測(cè)驗(yàn)想要測(cè)量的主要特質(zhì)或構(gòu)念”以外一些因素的影響而發(fā)生變化。這些影響因素具體包括:題目在測(cè)驗(yàn)中的位置(Hill, 2008; Meyers et al.,2009; Whitely & Dawis, 1976; Yen, 1980)、措辭、內(nèi)容、格式(Kingston & Dorans, 1984; Zwick, 1991)以及該題目周圍的其他題目的特殊特征(Davis &Ferdous, 2005; Haladyna, 1992)。由于題目的位置是題目所在情境的一部分, 因而, IPE可以被看作是題目情境效應(yīng)的特例。
但是, 研究表明:在因情境變化而對(duì)被試能力估計(jì)產(chǎn)生影響的各種因素中, 題目位置變化的影響是最為顯著的(Leary & Dorans, 1985), 因而研究者也集中于探討位置因素的影響。所以本文認(rèn)為在心理與教育測(cè)量情境下, 關(guān)于題目情境效應(yīng)的研究, 如果主要討論的是題目情境因素中位置因素對(duì)被試作答表現(xiàn)的影響, 題目情境效應(yīng)就是特指IPE。
早期的成就測(cè)驗(yàn)中, 經(jīng)常通過(guò)保持測(cè)驗(yàn)內(nèi)容不變而改變題目順序的方式, 來(lái)防止考生抄襲,提高考試安全性。自Mollenkopf (1951)發(fā)現(xiàn)題目順序的變化會(huì)對(duì)題目難度、區(qū)分度有顯著影響后,很多研究者都開(kāi)始探究不同題目排列方式對(duì)測(cè)驗(yàn)總分的影響(Brenner, 1964; Hanson, 1996; Monk &Stallings, 1970; Moses, Yang, & Wilson, 2007)。題目順序效應(yīng)是指一組題目由于題目間順序的變化所帶來(lái)的對(duì)受測(cè)者作答結(jié)果的影響。即同一組題目以不同的順序呈現(xiàn)給同一總體內(nèi)兩組不同的被試作答, 考察兩組被試在同一組題目上作答結(jié)果的差異。
綜合以往的文獻(xiàn)描述, 可以將題目順序和題目位置的研究問(wèn)題都?xì)w為題目排列(item arrangement)方式的研究范疇3題目排列方式即對(duì)題目組合設(shè)計(jì)(如題目順序、題目位置)的總稱, 表示按照某種設(shè)計(jì)對(duì)題目進(jìn)行編排和安放。進(jìn)一步細(xì)分, 題目排列方式還包含:題目的難易排列、按照課程教學(xué)順序排列等。在本文中, 我們統(tǒng)一將其納入題目順序效應(yīng)的范疇內(nèi)。因?yàn)橐酝诳疾槠溆绊憰r(shí), 都是以多個(gè)題目間順序改變的形式, 從測(cè)驗(yàn)整體層面上來(lái)考察其對(duì)被試作答的影響。。本質(zhì)上, 題目順序效應(yīng)是 IPE在測(cè)驗(yàn)層面的概念, 是同一研究問(wèn)題在不同研究階段的名稱, 兩者可以統(tǒng)稱為IPE。兩者的關(guān)系詳見(jiàn)表1。
事實(shí)上, 這一研究主題下的研究視角由測(cè)驗(yàn)整體層面過(guò)渡到單個(gè)題目層面的轉(zhuǎn)換, 得益于 70年代末等值技術(shù)的應(yīng)用——由于在等值設(shè)計(jì)中涉及錨題的使用, 所以在基于 IRT的等值設(shè)計(jì)中,錨題參數(shù)穩(wěn)定性的相關(guān)研究, 使得關(guān)于題目排列順序?qū)忌鞔鸨憩F(xiàn)影響的探究從多個(gè)題目順序?qū)用孓D(zhuǎn)換到單個(gè)題目層面。此后, 越來(lái)越多的研究者(Debeer & Janssen, 2013; Hartig & Buchholz,2012; Hecht, Weirich, Siegle, & Frey, 2015; Meyers et al., 2009; Qian, 2014; Weirich, Hecht, Penk,Roppelt, & B?hme, 2017), 開(kāi)始從題目層面上考察單個(gè)題目位置的改變對(duì)測(cè)驗(yàn)題目或者被試作答造成的影響。
總的來(lái)說(shuō), 以往基于測(cè)驗(yàn)總體層面對(duì)題目順序效應(yīng)的研究, 存在以下的問(wèn)題:首先, 這些研究?jī)H僅是對(duì)某一組特殊的題目進(jìn)行題目順序效應(yīng)的研究, 其結(jié)論很難推論到其他測(cè)驗(yàn)形式中; 其次,對(duì)于題目順序效應(yīng)的研究被限定在:不同題冊(cè)間題目相同只有題目順序不同的等組設(shè)計(jì)中; 最后,這些研究?jī)H僅關(guān)注題目順序效應(yīng)對(duì)測(cè)驗(yàn)總分的影響, 限制了對(duì)這種效應(yīng)的進(jìn)一步解釋, 從而導(dǎo)致IPE可能會(huì)在不同的測(cè)驗(yàn)間相互抵消, 進(jìn)而無(wú)法得到檢測(cè)。
表1 題目位置效應(yīng)和題目順序效應(yīng)的區(qū)別和聯(lián)系
IPE的一般研究思路是:首先, 所考查的測(cè)驗(yàn)必須包括兩個(gè)或多個(gè)題冊(cè), 部分或所有題目在不同題冊(cè)中的位置不同。然后, 將不同題冊(cè)隨機(jī)分配給不同的被試作答, 獲得數(shù)據(jù)后進(jìn)行參數(shù)估計(jì),再考察題目參數(shù)與題目位置的關(guān)系??偨Y(jié)以往研究對(duì) IPE建模的程序, 可以將IPE的研究方法分為兩步法和一步法。
兩步法是先對(duì)同一題目在不同題冊(cè)中的參數(shù)值分別進(jìn)行估計(jì), 再通過(guò)t檢驗(yàn)、方差分析、相關(guān)分析或回歸分析等統(tǒng)計(jì)方法檢驗(yàn)相同題目在不同位置時(shí)的參數(shù)是否有差異, 據(jù)此來(lái)判斷 IPE是否存在以及其對(duì)題目參數(shù)的影響(e.g., Meyers et al.,2009; Whitely & Dawis, 1976; Yen, 1980)。以往基于兩步法的研究主要在以下三個(gè)情境下對(duì)IPE進(jìn)行研究:
首先, 在一般的測(cè)驗(yàn)情境下。Kingston和Dorans(1982, 1984)、Whitely 和 Dawis (1976)、Yen (1980)通過(guò)相關(guān)分析考查了題目位置的改變對(duì)經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory, CTT)中的通過(guò)率, 以及IRT中Rasch難度參數(shù)的影響。這些研究都比較一致地發(fā)現(xiàn)疲勞效應(yīng), 其中 Yen (1980)進(jìn)一步分析后認(rèn)為:相對(duì)于測(cè)驗(yàn)尾部的題目考生會(huì)更認(rèn)真對(duì)待位于測(cè)驗(yàn)前端的題目, 因而將疲勞效應(yīng)解釋為受測(cè)者缺乏耐心。這種對(duì)于疲勞效應(yīng)的理解很具前瞻性, 與近期將 IPE理解為考生努力或者毅力的思路相一致(Debeer, Buchholz, Hartig &Janssen, 2014; Hartig & Buchholz, 2012), 這也進(jìn)一步佐證了在下一步研究中可以將IPE看作為獨(dú)立于目標(biāo)考查維度之外的新維度。
其次, 在測(cè)驗(yàn)等值情境下。Davis和 Ferdous(2005)、Eignor和 Cook (1983) 以及Meyers等人(2009)分別考查預(yù)試測(cè)驗(yàn)(field testing)和正式測(cè)驗(yàn)(living testing)中錨題位置變化對(duì)其題目參數(shù)的影響。研究一致發(fā)現(xiàn)當(dāng)錨題位于預(yù)試和正式測(cè)驗(yàn)的不同位置時(shí), 錨題的 Rasch難度參數(shù)值不同; 而且當(dāng)預(yù)試測(cè)驗(yàn)中的題目, 在正式測(cè)驗(yàn)中的位置越往測(cè)驗(yàn)尾部變化時(shí), 其難度估計(jì)值越大。Meyers等人(2009)認(rèn)為當(dāng)預(yù)試中難度值較小的題目位于正式測(cè)驗(yàn)的前端位置、難度值較大的題目位于正式測(cè)驗(yàn)的尾部時(shí), 存在顯著的與測(cè)驗(yàn)等值設(shè)計(jì)相關(guān)的IPE。這說(shuō)明IPE的確會(huì)對(duì)以IRT為基礎(chǔ)的等值設(shè)計(jì)的實(shí)現(xiàn)有不利影響, 而且這種不利影響對(duì)低能力水平的被試更為明顯。
最后, 在CAT情境下。Wise等(1989)分析軍隊(duì)計(jì)算機(jī)化自適應(yīng)選拔測(cè)試(Army's Computerized Adaptive Screening Test, CAST)中的詞匯知識(shí)和算術(shù)推理測(cè)驗(yàn)。研究結(jié)果表明同一個(gè)題目位于測(cè)驗(yàn)后半部分時(shí)比位于前半部分時(shí)的通過(guò)率更低、難度估計(jì)值更大, 即題目位置的改變會(huì)產(chǎn)生疲勞效應(yīng); 并且平均通過(guò)率達(dá) 75%及以上的題冊(cè)中疲勞效應(yīng)并不顯著, 而平均通過(guò)率只有 50%的題冊(cè)中疲勞效應(yīng)顯著, 即低能力水平的被試更易受疲勞效應(yīng)的影響。
在兩步法的研究方法下, 也有少部分研究考查 IPE對(duì)題目區(qū)分度的影響, 結(jié)果表明在教育測(cè)驗(yàn)中相對(duì)于對(duì)題目區(qū)分度參數(shù)的影響, IPE對(duì)題目難度參數(shù)的影響更為明顯(Kingston & Dorans, 1982;Yen, 1980)??傮w上, 兩步法下的研究結(jié)果都一致地發(fā)現(xiàn)了疲勞效應(yīng), 但是針對(duì)這一發(fā)現(xiàn)研究者們也指出, 必須要首先明晰速度型測(cè)驗(yàn)或者測(cè)驗(yàn)長(zhǎng)度對(duì)受測(cè)者的作答反應(yīng)有怎樣的影響(Davis &Ferdous, 2005; Yen, 1980)。
兩步法的最大優(yōu)勢(shì)是數(shù)據(jù)分析時(shí)的簡(jiǎn)便性,甚至可以在CTT的框架下通過(guò)比較同一題目在不同位置時(shí)的通過(guò)率、題總相關(guān)系數(shù)等檢測(cè)測(cè)驗(yàn)中是否存在 IPE。但是, 兩步法也有一些不足:(1)為了將不同題冊(cè)中的題目參數(shù)鏈接到同一量尺上, 錨題在不同題冊(cè)中需要處于相同的位置; (2)沒(méi)有考慮題目參數(shù)的測(cè)量誤差。具體來(lái)說(shuō), 兩步法將參數(shù)估計(jì)和IPE檢測(cè)分開(kāi)進(jìn)行:第一步得到題目參數(shù)估計(jì)值, 第二步將參數(shù)估計(jì)值和題目位置分別看成因變量和自變量, 并通過(guò)方差分析、回歸分析等統(tǒng)計(jì)方法檢測(cè) IPE的存在。這樣, 在第二步分析位置對(duì)題目參數(shù)的影響時(shí)假定題目參數(shù)估計(jì)值不含測(cè)量誤差, 這樣很可能使得分析結(jié)果出現(xiàn)偏差; (3)易受樣本量的影響。Li, Cohen和 Shen(2012)指出, 當(dāng)不同題冊(cè)上的樣本量較小時(shí), 使用兩步法是不切實(shí)際的(尤其是對(duì)于 CAT而言),因?yàn)闃颖玖刻?huì)導(dǎo)致題目參數(shù)估計(jì)值存在較大誤差, 使得對(duì)IPE的檢測(cè)存在困難。
一步法是直接對(duì) IPE進(jìn)行建模, 即在模型中加入“位置效應(yīng)參數(shù)”, 并將被試在所有題冊(cè)上的作答數(shù)據(jù)放在一起進(jìn)行參數(shù)估計(jì)。通過(guò)比較包含與不包含“位置效應(yīng)參數(shù)”的模型的擬合度, 以及檢驗(yàn)“位置效應(yīng)參數(shù)”是否顯著不為零, 來(lái)判斷是否存在 IPE。相對(duì)于兩步法, 一步法具有以下優(yōu)勢(shì):(1)在模型中加入了量化位置效應(yīng)的參數(shù), 可以實(shí)現(xiàn)題目本身的難度參數(shù)和題目位置參數(shù)的分離, 進(jìn)而實(shí)現(xiàn)對(duì) IPE更精確的分析; (2)在實(shí)現(xiàn)對(duì)題目參數(shù)和位置參數(shù)進(jìn)行分離的同時(shí), 也可以實(shí)現(xiàn)對(duì)二者的同時(shí)估計(jì); 同時(shí)估計(jì)考慮了參數(shù)的測(cè)量誤差, 分析結(jié)果更為精確。此外, 一步法主要是在解釋性項(xiàng)目反應(yīng)理論(Explanatory Item Response Theory, EIRT) (De Boeck & Wilson, 2004)的框架下構(gòu)建各類模型以實(shí)現(xiàn)對(duì) IPE的檢測(cè), 這一框架下的模型不僅可以用于實(shí)現(xiàn)對(duì) IPE的檢測(cè), 也可以用于下一步的研究中實(shí)現(xiàn)對(duì) IPE的解釋(比如Debeer & Janssen, 2013)。
已有研究主要是基于將Rasch模型4關(guān)于 IPE對(duì)于題目區(qū)分度參數(shù)影響的研究主要集中于人格測(cè)驗(yàn)中(Hamilton & Shuminsky, 1990; Steinberg, 1994)。而在成就測(cè)驗(yàn)領(lǐng)域中, 這種影響只在極少數(shù)研究中得到證實(shí)。而本文所討論的情境主要集中于成就測(cè)驗(yàn)領(lǐng)域, 因而所考慮的模型主要基于Rasch模型。進(jìn)行擴(kuò)展后的模型對(duì) IPE進(jìn)行建模, 主要關(guān)注位置效應(yīng)對(duì)題目難度參數(shù)的影響。公式(1)所示的模型(即模型1。注:以下每個(gè)公式都代表一種特定的模型)是對(duì)Rasch模型進(jìn)行l(wèi)ogit變換后的形式, 其中l(wèi)ogit(Ypik=1)即 ln{ P (Ypik=1)/[1-P (Ypik=1)]},表示發(fā)生比的自然對(duì)數(shù),Ypik表示被試p在位于k位置的題目i上的作答反應(yīng),θp表示被試p的能力水平,βik表示題目i的難度參數(shù)5常見(jiàn)的 Rasch模型其難度參數(shù) βi在 IPE的研究情境下可以表示βik, 即題目i在位置k時(shí)的難度, 只是在一般情境下,題目的位置不變或者忽略IPE的影響, 于是將βik 簡(jiǎn)寫(xiě)成βi 。。在模型1中加入“位置效應(yīng)參數(shù)”——f(p,i,k)后得到模型2, 模型2是位置效應(yīng)模型的統(tǒng)一表達(dá),f(p,i,k)代表位置效應(yīng)參數(shù)是關(guān)于題目i、被試p以及位置k的函數(shù)。
根據(jù)研究假設(shè)或f(p,i,k)表達(dá)形式的不同,可以將一步法范式下的位置效應(yīng)模型分為三類:第一類模型假設(shè)位置效應(yīng)只與題目位置有關(guān), 而與題目和被試無(wú)關(guān), 即f(p,i,k)=f(k); 第二類模型假設(shè)位置效應(yīng)取決于題目位置與題目的交互作用, 即f(p,i,k)=f(i,k); 第三類模型假設(shè)位置效應(yīng)取決于題目位置與被試能力的交互作用, 即f(p,i,k)=f(p,k)。
第一類模型假設(shè)題目位置效應(yīng)獨(dú)立于題目和被試, 只取決于題目位置。也即同一測(cè)驗(yàn)中的所有題目在同一位置上的位置效應(yīng)值相同。
Kubinger (2008, 2009)和Hohensinn, Kubinger,Reif, Schleich和Khorramdel (2011)等人詳述了如何基于線性邏輯斯蒂克模型(Linear Logistic Test Model, LLTM)實(shí)現(xiàn)對(duì) IPE的一步法檢測(cè)。LLTM是將 Rasch模型里的題目難度參數(shù)分解為多種基本認(rèn)知成分的線性組合而得到的(Fischer, 1973),即。其中βik表示 Rasch模型中第i個(gè)題目在第k個(gè)位置時(shí)的難度參數(shù),ηj表示第j個(gè)基本認(rèn)知成分的估計(jì)難度,qij表示在一定理論基礎(chǔ)上每個(gè)認(rèn)知成分j影響題目i解答的假定概率,即認(rèn)知成分ηj在題目i上的權(quán)重。若將分解為令(r表示基線成分或目標(biāo)特質(zhì))表示當(dāng)題目i在各測(cè)驗(yàn)或題冊(cè)中位置不變時(shí)其基準(zhǔn)難度值(或者稱在參考位置時(shí)的難度值)。而令(k表示位置成分)用來(lái)量化 IPE, 表示由于位置改變所構(gòu)成的難度值, 即題目在位置k時(shí)相較于參考位置其難度值的變化量。此時(shí),可看作總題目難度值, 即可得到模型3:
將模型 3進(jìn)行 logit轉(zhuǎn)換可得到模型 4-1, 此時(shí)f(p,i,k)=f(k)=δk。
由于模型4-1中并沒(méi)有添加任何關(guān)于IPE的實(shí)質(zhì)結(jié)構(gòu), 所以對(duì)模型進(jìn)行進(jìn)一步限定, 將 IPE的值看作是關(guān)于題目位置的函數(shù), 即將題目位置當(dāng)作一個(gè)解釋性的題目特征加入作答反應(yīng)函數(shù)(De Boeck & Wilson, 2004)。所以在Rasch 模型下,假定難度變化量隨題目位置k線性變化, 即可得到模型 4-2, 其中γ表示位置效應(yīng)的單位改變量,即題目相對(duì)于參考位置每變化1個(gè)題目位置其難度的變化量。若γ顯著不為零, 即表明測(cè)驗(yàn)中IPE的存在。進(jìn)一步來(lái)講, 當(dāng)γ>0時(shí), 表示存在疲勞效應(yīng);γ<0時(shí), 則表示存在練習(xí)效應(yīng)。此時(shí)f(k)=γ(k?1)。
如果難度變化量隨位置k非線性變化, 則f(k)可以表示為k的二次函數(shù)、指數(shù)函數(shù)等。以二次函數(shù)為例,f(k)=γ1(k–1)+ γ2(k–1)2, 即可得模型4-3 (Kang, 2014):
值得注意的是, 在實(shí)際問(wèn)題中, 如果直接在模型中加入二次項(xiàng)系數(shù)來(lái)模擬難度變化量隨位置的非線性變化關(guān)系, 則很難對(duì)該系數(shù)進(jìn)行解釋。
第一類模型假設(shè)位置效應(yīng)的產(chǎn)生獨(dú)立于題目和被試, 僅受題目位置的影響, 以此來(lái)對(duì) IPE進(jìn)行直接建模。這時(shí)得到的位置參數(shù)反映了IPE在所有考生、所有題目上的平均效應(yīng), 也只能獲悉考生能力在測(cè)試過(guò)程中的一般變化規(guī)律, 而無(wú)法對(duì)不同題目的位置效應(yīng)情況以及IPE在個(gè)體間的差異進(jìn)行探究。此外, Kubinger (2008, 2009)提出基于 LLTM 來(lái)檢測(cè) IPE, 實(shí)際上是從題目角度出發(fā)來(lái)對(duì)IPE進(jìn)行研究, 可以看作是在EIRT框架下進(jìn)行IPE檢測(cè)以及解釋性研究的起點(diǎn)。但是這一方法下的研究存在一個(gè)明顯的悖論, 即從題目角度模擬IPE, 但從被試角度來(lái)解釋IPE (如疲勞效應(yīng))。
第二類模型假設(shè)位置效應(yīng)受題目位置與題目交互作用的影響, 即不同題目在參照位置和k位置之間的難度變化不同。
若模型 4-1和 4-2的位置效應(yīng)參數(shù)與題目i有關(guān), 即f(p,i, k)=f(i,k)=δik以及f(p,i,k)=γi(k–1), 即可得到模型5-1和5-2 (Debeer & Janssen,2013):
值得注意的是模型5-1中δik與模型4-1中δk的區(qū)別, 他們分別表示不同題目i在參照位置和k位置之間的難度變化是不同以及相同的, 即難度的變化受到以及不受到題目?jī)?nèi)容的影響。此時(shí)可以令δik=δk + δik', 其中δk即模型 4-1 中位置的主效應(yīng), 也可以理解為平均的位置效應(yīng),δik'則是位置k與題目i交互作用的效應(yīng)值。相應(yīng)地, 在模型5-2 中令γi=γ + γi', 代入公式后γ(k?1)即模型 4-2中位置的主效應(yīng),γi' (k?1)是題目i與位置交互作用的位置效應(yīng)值。若此時(shí)γi顯著不為零, 則表明IPE的確存在; 且可以通過(guò)比較模型5-2和4-2對(duì)同一測(cè)驗(yàn)結(jié)果的擬合度(如AIC、BIC值)是否存在差異, 來(lái)判斷是否存在題目位置與題目的交互效應(yīng)。此外, Kang (2014) 還給出交互效應(yīng)的二次函數(shù)表達(dá)式, 即模型5-3:
Albano (2013)使用模型5-1和5-2研究GRE詞匯和數(shù)學(xué)測(cè)試, 發(fā)現(xiàn)位置與題目間存在顯著的交互作用, 從而證實(shí) IPE在不同題目間存在顯著的差異。另外, Kingston和Dorans (1984)對(duì)不同題目類型中 IPE的差異性進(jìn)行研究, 結(jié)果表明:在語(yǔ)文題(verbal items)、數(shù)學(xué)題(quantitative items)以及分析題(analytical items)三種題型中, 分析題受到題目位置的影響最大, 其次是數(shù)學(xué)題, 而且都是練習(xí)效應(yīng)。這也說(shuō)明第二類模型假設(shè)位置效應(yīng)受題目位置與題目的交互作用影響的合理性。
雖然第二類模型在第一類模型的基礎(chǔ)上考慮了題目位置與題目交互作用的影響, 使得每個(gè)題目都有一個(gè)位置參數(shù)。但是, 第二類模型也是從題目角度來(lái)對(duì) IPE進(jìn)行解釋性研究, 仍存在模擬和解釋IPE不一致的問(wèn)題。
第三類模型假設(shè)位置效應(yīng)受題目位置與被試交互作用的影響, 即不同位置的題目其難度的變化受個(gè)體差異的影響。
由于不能直接對(duì)模型4-1的位置效應(yīng)參數(shù)加上被試p下標(biāo), 所以此處我們只討論基于模型4-2得到的交互作用模型, 即f(p,i,k)=f(p,k)=γp(k–1)時(shí)的模型(Hartig & Buchholz, 2012):
其中γp服從正態(tài)分布, 表示對(duì)于被試p, 題目相對(duì)于參考位置每變化1個(gè)題目位置其難度的變化量。相應(yīng)地, 可以令γp=γ+γp¢, 代入公式 6 后γ(k?1)表示所有被試每答完一道題的平均能力變化量。同樣, 若γp顯著不為零, 則表明 IPE的確存在; 也可以計(jì)算γp與θp的相關(guān)系數(shù), 以此來(lái)判斷 IPE 在個(gè)體間的差異。γp¢ (k?1)表示被試p與位置交互作用的位置效應(yīng)值, 反映被試p每答完一道題其能力在多大程度上(即γp¢絕對(duì)值的大小)、往何種方向(即γp¢的正、負(fù)號(hào))偏離所有被試的平均能力變化量; 而且γp¢可以看作獨(dú)立于目標(biāo)考查維度之外的新維度, 如考生毅力(persistence)或考生努力(examinee effort) (Hartig & Buchholz, 2012;Debeer et al., 2014 )。
IPE的本質(zhì)是被試在測(cè)驗(yàn)過(guò)程中能力的變化,不同被試在測(cè)驗(yàn)過(guò)程中的能力變化必然存在個(gè)體差異。因而第三類模型是最符合實(shí)際情況的, 即模型中每個(gè)被試都有位置參數(shù), 可以得到位置效應(yīng)對(duì)不同被試的影響。此外, Debeer和 Janssen(2013)還對(duì)一步法下的三種建模方法進(jìn)行比較研究, 著重強(qiáng)調(diào)了“IPE應(yīng)被解釋為與被試相關(guān)的某種特質(zhì)”, 并指出下一步的研究重點(diǎn)是“對(duì)檢測(cè)出的效應(yīng)進(jìn)行進(jìn)一步的解釋”, 即對(duì)IPE所代表的新維度進(jìn)行解釋。
總的來(lái)說(shuō), 基于 IRT框架的一步法在檢測(cè)IPE時(shí)有以下優(yōu)勢(shì):(1)可以將題目位置與設(shè)計(jì)中的其他題目特征區(qū)分開(kāi)來(lái), 這樣就可以得到不同的模型, 比如前面討論的三類模型; (2)只要兩個(gè)測(cè)驗(yàn)之間存在錨題, 就可將 IPE當(dāng)作題目本身的屬性進(jìn)行考查, 即模型并不局限于等組設(shè)計(jì), 在復(fù)雜的非等組設(shè)計(jì)中同樣適用; (3)將IPE對(duì)測(cè)驗(yàn)總分的影響, 看作其對(duì)單個(gè)題目分?jǐn)?shù)影響的總和,從而實(shí)現(xiàn)在測(cè)驗(yàn)分?jǐn)?shù)水平對(duì)IPE的考查。比如, 通過(guò)測(cè)驗(yàn)特征曲線可以概述IPE對(duì)測(cè)驗(yàn)總分期望值的影響(Debeer & Janssen, 2013); (4)在題目水平模擬 IPE有助于對(duì)所發(fā)現(xiàn)效應(yīng)的解釋, 比如個(gè)體協(xié)變量(如性別和測(cè)驗(yàn)動(dòng)機(jī)等)可用于解釋 IPE所代表的新維度。
除了上述基于 Rasch模型的擴(kuò)展模型進(jìn)行建模的方法外, 一步法下的建模思路還可以基于多水平 IRT的視角, 對(duì)題目位置的主效應(yīng)和交互效應(yīng)進(jìn)行探究, 即將題目位置作為題目水平的預(yù)測(cè)變量加入第一水平, 通過(guò)定義其第二水平的隨機(jī)性來(lái)確定IPE的類型。
實(shí)質(zhì)上, 這一研究視角是EIRT框架下研究方法的一種變式。兩水平的IRT模型即多水平線性模型中的零模型(劉紅云, 駱?lè)? 2008) 如下所示:
其中p表示被試,i表示題目,k表示位置,N是題目數(shù);Xqip是第p個(gè)被試對(duì)應(yīng)的第q個(gè)虛擬變量(q=1, 2, …,N-1), 當(dāng)q=i時(shí),Xqip=1, 否則Xqip=0。u0p服從均值為0的正態(tài)分布, 可視為被試p的能力值;γ00可視為第N個(gè)題目的容易度(easiness),γq0可視為第q個(gè)題目與第N個(gè)題目容易度的差值。根據(jù)混合模型(mixed models), 可以得到第i個(gè)題目的 Rasch 難度值:– γq0– γ00。
Albano (2013)詳述了如何根據(jù)多水平IRT從主效應(yīng)和交互效應(yīng)角度檢測(cè) IPE。如果位置效應(yīng)獨(dú)立于題目和被試, 在模型 7的水平 1中加入位置效應(yīng)參數(shù)作為預(yù)測(cè)變量, 即可得主效應(yīng)模型8:
其中βNp是位置的主效應(yīng),kip(kip=1, 2,…,N)是被試p作答的題目i(也即q=i)所處的位置,γN0為位置的固定效應(yīng), 表示所有位置間成績(jī)得分的總平均變化。模型8與模型4-2相對(duì)應(yīng)。另外, 如果位置與題目有交互作用, 則在模型 8的水平 1中再加入(N–1)個(gè)題目與位置的交互作用參數(shù), 即可得到交互效應(yīng)模型9:
其中β(N+q)p表示題目與位置交互作用下的位置效應(yīng)。模型9與模型5-2相對(duì)應(yīng)。類似的, 如果位置與被試有交互作用, 則在模型 8中加入位置與被試交互作用參數(shù), 得到交互效應(yīng)模型10。
此時(shí)位置效應(yīng)βNp包括兩部分:固定效應(yīng)——位置的主效應(yīng)γN0和隨機(jī)效應(yīng)——位置與被試的交互作用u1p, 而且u1p服從均值為零的正態(tài)分布。模型10與模型6相對(duì)應(yīng)。Debeer等人(2014)從多水平 IRT的視角出發(fā), 在模型中加入組水平變量來(lái)探究IPE在不同學(xué)校、國(guó)家間的差異。
目前關(guān)于 IPE的檢測(cè)模型, 都可以看作是基于EIRT的框架下探討題目位置的主效應(yīng)、交互效應(yīng)模型。表2對(duì)檢測(cè)IPE的一步法模型進(jìn)行了詳細(xì)對(duì)比。
表2 檢測(cè)IPE一步法的匯總
以上模型都可歸為廣義線性混合模型(generalized linear mixed model), 可用一般的統(tǒng)計(jì)軟件實(shí)現(xiàn)模型的參數(shù)估計(jì), 比如R軟件lme4包中的lmer函數(shù)(Debeer & Janssen, 2013)以及HLM7(Hartig & Buchholz, 2012; Albano, 2013)。如果在以上模型中加入?yún)^(qū)分度, 這些模型則屬于非線性混合模型(De Boeck & Wilson, 2004), 此時(shí)可使用SAS軟件中的 NLMIXED程序包估計(jì)模型參數(shù)(Debeer & Janssen, 2013)。
以往的研究主要是從題目和被試兩個(gè)角度對(duì)IPE進(jìn)行解釋。第一, 從題目角度對(duì) IPE 進(jìn)行解釋時(shí)會(huì)將題目難度參數(shù)看成多種認(rèn)知成分的線性組合(Kubinger, 2008, 2009)?;谶@一角度的研究主要從測(cè)驗(yàn)的整體層面或者單個(gè)題目層面探究題目位置改變對(duì)被試作答結(jié)果的影響, 并且根據(jù)被試作答結(jié)果的變化趨勢(shì), 將 IPE概括為練習(xí)效應(yīng)或疲勞效應(yīng)。但是這一角度的研究思路會(huì)產(chǎn)生一個(gè)悖論, 即模擬時(shí)從題目角度出發(fā), 但解釋時(shí)是從被試角度來(lái)解釋, 比如疲勞效應(yīng)。這一悖論會(huì)使得研究者不能清楚理解IPE或其所指代的真正含義。
第二, 從被試角度對(duì)IPE進(jìn)行解釋, 即將IPE看作獨(dú)立于目標(biāo)考查維度之外的新維度。Hartig和Buchholz (2012)提出的被試和題目的交互效應(yīng)模型, 首次將 IPE看作獨(dú)立于能力維度之外的新維度, 并且標(biāo)記為毅力。另外, Debeer等人(2014)在Hartig和Buchholz (2012)的研究基礎(chǔ)上, 將位置效應(yīng)維度理解為考生努力, 并且使用多水平IRT對(duì) IPE進(jìn)行校際、國(guó)家之間的比較。雖然這些研究將 IPE看成新維度, 但是對(duì)新維度的定義缺乏相應(yīng)的理論支持; 而且研究者往往基于個(gè)人經(jīng)驗(yàn)和實(shí)際研究中的方便, 將 IPE所代表的新維度定義為考生毅力或考生努力, 仍沒(méi)有研究加入與個(gè)體有關(guān)的預(yù)測(cè)變量來(lái)對(duì) IPE進(jìn)行解釋。同時(shí),他們也指出這一新維度還可以從動(dòng)機(jī)、測(cè)驗(yàn)過(guò)程中的學(xué)習(xí)能力等特質(zhì)因素來(lái)理解(Hartig & Buchholz,2012)。所以, 目前這一新維度表示什么特質(zhì)尚未有定論。
IRT依賴其參數(shù)不變性特征, 在測(cè)驗(yàn)等值、CAT、題庫(kù)建設(shè)以及大規(guī)模測(cè)評(píng)中的抽樣設(shè)計(jì)等方面做出突出的貢獻(xiàn), 大大豐富了測(cè)驗(yàn)理論及其在實(shí)踐中的應(yīng)用。在這些應(yīng)用過(guò)程中, 也需要不斷檢驗(yàn)參數(shù)不變性特征是否能夠得到滿足。而IPE是對(duì) IRT參數(shù)不變性的直接違反, 因而會(huì)對(duì)基于該特征的相關(guān)應(yīng)用產(chǎn)生直接的影響。本文首先對(duì)IRT參數(shù)不變性特征的具體含義進(jìn)行了介紹, 然后對(duì)與 IPE相關(guān)或相似的概念進(jìn)行區(qū)分, 希望能夠幫助研究者今后更全面地理解IPE的含義、了解這一主題的發(fā)展過(guò)程。本文在第三部分重點(diǎn)總結(jié)了檢測(cè) IPE的兩種主要方法——兩步法和一步法, 特別對(duì)當(dāng)前主要使用的一步法的三類建模思路進(jìn)行詳細(xì)總結(jié)。從解釋性 IRT的角度來(lái)看, 這三類建模思路實(shí)質(zhì)上也對(duì)應(yīng)著不同的IPE解釋角度, 即從題目角度或從被試角度對(duì)IPE進(jìn)行解釋。綜合以往研究的結(jié)論和局限性, IPE今后的研究方向包括以下四個(gè)方面:
如上文所總結(jié)的, 基于 IRT框架的一步法主要包括三類模型, 其中第一類模型所能提供的信息后兩類模型都能提供。使用第二類模型得到的結(jié)果有助于剔除那些受位置效應(yīng)影響大的題目,從而提高測(cè)試的信效度。使用第三類模型得到的結(jié)果則有助于明晰位置效應(yīng)對(duì)不同被試的作用;這也是最符合實(shí)際的一類模型, 因?yàn)?IPE的本質(zhì)是被試在測(cè)驗(yàn)過(guò)程中的能力波動(dòng), 不同被試在測(cè)驗(yàn)過(guò)程中的能力波動(dòng)理應(yīng)不同。
一步法下的這三類模型雖然考慮了題目參數(shù)的測(cè)量誤差, 相比兩步法更精確, 但是仍存在以下不足:(1)將IPE限定在“個(gè)體對(duì)于題目的作答反應(yīng)是獨(dú)立的”, 即題目間的作答結(jié)果是相互獨(dú)立、互不影響的。但是在實(shí)際情形中該限定條件容易被違反, 比如在練習(xí)效應(yīng)中, 成功的作答相對(duì)于錯(cuò)誤的作答會(huì)產(chǎn)生更大的練習(xí)效應(yīng)。所以, 需要使用諸如動(dòng)態(tài)(dynamic) IRT模型等特殊的模型處理這類情境; (2)不能考查由一個(gè)題目先于另一個(gè)題目(比如一個(gè)難題位于一個(gè)簡(jiǎn)單題目的前面)所產(chǎn)生的效應(yīng), 這種序列效應(yīng)(sequencing effects)也是關(guān)于題目位置的函數(shù), 但是這種效應(yīng)涉及的是某題目的子集(比如一對(duì)題目), 然而目前基于IRT框架的一步法僅僅關(guān)注一個(gè)題冊(cè)內(nèi)的某個(gè)題目;(3)現(xiàn)有研究主要集中于偵查和模擬 IPE, 沒(méi)有引入與個(gè)體有關(guān)的變量對(duì)IPE進(jìn)行解釋性研究。
鑒于以往研究已經(jīng)證明IPE可以看作是獨(dú)立于被試能力維度之外的新維度(Debeer & Janssen,2013; Hartig & Buchholz, 2012), 所以在今后的研究中可以使用多維模型來(lái)進(jìn)一步模擬和檢測(cè) IPE;還可以借鑒追蹤數(shù)據(jù)的分析方法, 將每個(gè)被試在每個(gè)題目位置的測(cè)量, 看作是追蹤研究中每個(gè)被試在每個(gè)時(shí)間點(diǎn)的測(cè)量, 并借助相關(guān)的縱向 IRT模型(Embretson, 1991; Paek, Baek, & Wilson, 2012;Roberts & Ma, 2006; Von Davier, Xu, & Carstensen,2011)進(jìn)行分析。值得注意的是, 針對(duì)一步法的建模范式, 除了 IRT的視角也可以從驗(yàn)證性因子分析的視角探究 IPE, 感興趣的讀者可以參考 Schweizer,Schreiner和 Gold (2009)以及 Schweizer, Troche和Rammsayer (2011)等。
就像DIF的研究進(jìn)程一樣(Zumbo, 2007), 在檢測(cè) IPE并探究其影響之后, 下一步需要對(duì)所發(fā)現(xiàn)效應(yīng)進(jìn)行解釋(Debeer & Janssen, 2013)。研究者可以根據(jù)EIRT中的個(gè)體解釋性模型(person explanatory models) (De Boeck & Wilson, 2004), 對(duì)所發(fā)現(xiàn)的結(jié)果進(jìn)行進(jìn)一步的解釋。例如, 已有研究已經(jīng)證實(shí), 在低利害的測(cè)評(píng)中受測(cè)者會(huì)在測(cè)驗(yàn)動(dòng)機(jī)上存在顯著差異, 因此可以考慮將對(duì)被試動(dòng)機(jī)水平的自我報(bào)告測(cè)量(比如Wise & DeMars, 2005), 或者反應(yīng)時(shí)(比如Wise & Kong, 2005)加入到IRT模型中, 作為額外的被試預(yù)測(cè)變量對(duì) IPE進(jìn)行進(jìn)一步解釋。另外, Borgonovi和Biecek (2016)認(rèn)為目前在低利害的國(guó)際測(cè)評(píng)中, 所測(cè)量的實(shí)際是個(gè)體技能(skill)與意志(will)的組合, 其研究結(jié)果表明:考試毅力可以看作是學(xué)生在測(cè)驗(yàn)過(guò)程中運(yùn)用自我控制能力的函數(shù), 而且這種能力依賴于考試動(dòng)機(jī)。因而他們認(rèn)為, 考試毅力也應(yīng)該是低利害測(cè)評(píng)中所測(cè)量的維度之一。因此, 下一步的解釋性研究可以從考試毅力的角度出發(fā), 在模型中引入與個(gè)體有關(guān)的變量, 探究 IPE在個(gè)體間的差異或者個(gè)體變量對(duì)IPE的預(yù)測(cè)作用, 進(jìn)而實(shí)現(xiàn)對(duì) IPE的進(jìn)一步解釋。
鑒于 IPE影響的廣泛性, 以往研究結(jié)合特定的研究情境對(duì)IPE進(jìn)行多視角的探究。這些研究包括:
首先, Talento-Miller, Rudner, Han和 Guo(2012,引自 Store,2013)在 CAT中研究 IPE, 結(jié)果表明位置的變化會(huì)對(duì)被試的作答表現(xiàn)產(chǎn)生影響(比如疲勞效應(yīng))。另外, 因題目位置變化而導(dǎo)致的參數(shù)差異值的大小, 會(huì)因具有不同反應(yīng)時(shí)的題型而變化。
再者, 在等值設(shè)計(jì)中, Store (2013)在其博士論文中對(duì)該領(lǐng)域內(nèi)有關(guān)IPE的研究進(jìn)行了詳細(xì)論述, 并進(jìn)一步探究不同的等值設(shè)計(jì)是否會(huì)加劇或減弱 IPE。大量的研究表明:錨題位置的變化會(huì)對(duì)等值結(jié)果產(chǎn)生顯著的影響(Whitely & Dawis,1976; Yen, 1980; Davis & Ferdous, 2005; He, Gao,& Ruan, 2009)。在等值設(shè)計(jì)中, 錨題在各個(gè)題冊(cè)中都不應(yīng)該存在 DIF, 而且在各個(gè)題冊(cè)中也應(yīng)該被安排在相同的位置上(Cook & Petersen, 1987)。甚至有研究者認(rèn)為, 錨題題目選項(xiàng)的位置都不應(yīng)該被改變(Cizek, 1994)。IPE的存在會(huì)對(duì)等值技術(shù)的有效性構(gòu)成許多挑戰(zhàn)。Weirich, Hecht和B?hme (2014)還認(rèn)為在進(jìn)行任何基于錨題的鏈接設(shè)計(jì)之前, 都必須首先確定IPE在所有的樣本上是一致的。
正如Kolen和Brennan (2004)所指出的:測(cè)驗(yàn)的開(kāi)發(fā)和等值是密不可分的。我們不應(yīng)該再繼續(xù)忽略等值過(guò)程中因題目設(shè)計(jì)或測(cè)驗(yàn)開(kāi)發(fā)所帶來(lái)的問(wèn)題, 而應(yīng)該盡量去克服這些設(shè)計(jì)所帶來(lái)的問(wèn)題。以往的研究也表明:不論題目的位置產(chǎn)生怎樣的變化(向前、向后或者向中間位置移動(dòng))都會(huì)帶來(lái)一定的影響; 從這一角度看, 建議研究者今后可以考慮更深層次的等值方法, 比如可以考慮用相同的因子載荷來(lái)代替錨題等。
另外, 在表現(xiàn)性評(píng)價(jià)(performance assessments)中, 比如建構(gòu)反應(yīng)性試題、短文以及口頭表述等,相較于傳統(tǒng)的選擇題能更好地測(cè)量出學(xué)生在真實(shí)世界中的復(fù)雜成就和情意表現(xiàn), 因而逐漸受到各領(lǐng)域的青睞(趙德成, 2013)。但是, 對(duì)其進(jìn)行等值設(shè)計(jì)或者對(duì)不同時(shí)間段的測(cè)評(píng)結(jié)果進(jìn)行比較時(shí),則存在很大的挑戰(zhàn), 這其中就包含因題目順序變化所帶來(lái)的偏差問(wèn)題(Muraki, Hombo & Lee, 2000)。
因此, 下一步研究者除了可以繼續(xù)在這些研究主題下進(jìn)一步深化之前的研究, 也可以在其他研究情境下探討 IPE的影響。比如, 由于題組(testlet)的使用越來(lái)越普遍, 針對(duì)題組的等值和DIF都得到相應(yīng)的研究。所以相應(yīng)地, 也可以對(duì)題組位置變化的影響進(jìn)行探究。
無(wú)論在基礎(chǔ)研究領(lǐng)域還是實(shí)踐應(yīng)用領(lǐng)域, IPE的研究都具有很大的必要性。如果忽略這一效應(yīng),將會(huì)對(duì)研究本身和實(shí)際工作產(chǎn)生一系列的不利影響(Wu, 2010; Meyers, Murphy, Goodman, & Turhan,2012; Debeer & Janssen, 2013)。所以, 探究平衡或消除IPE的方法也應(yīng)該引起研究者的關(guān)注。
首先, 測(cè)驗(yàn)設(shè)計(jì)方面的研究表明:可以通過(guò)題目位置平衡設(shè)計(jì)的方法降低由IPE導(dǎo)致的參數(shù)變化。其基本設(shè)計(jì)是:令題目在每個(gè)位置上的呈現(xiàn)次數(shù)完全相同, 此時(shí)由于題目位置變化所產(chǎn)生的效應(yīng)量對(duì)于所有題目是相同的, 從而消除 IPE帶來(lái)的不利影響(Hecht et al., 2015; Weirich et al.,2014)。再者, 也有研究結(jié)果表明:整體移動(dòng)包含多個(gè)題目的閱讀理解題目(即題組), IPE對(duì)題目參數(shù)的影響不明顯(Haladyna, 1992)。對(duì)此有研究者分析認(rèn)為, 這主要是由于題組的移動(dòng)是按照一組題目整體移動(dòng)的, 所以這其中的單個(gè)題目就其周圍的題目而言其位置是相對(duì)不變的, 所以位置變化的影響不明顯(Store, 2013), 但這一觀點(diǎn)有待進(jìn)一步確定。
致謝:感謝美國(guó)明尼蘇達(dá)大學(xué)王純(Chun Wang)博士和加拿大阿爾伯塔大學(xué)崔迎(Ying Cui)博士對(duì)本文的英文摘要進(jìn)行修改和潤(rùn)色, 感謝北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心的高一珠同學(xué)和陳冠宇同學(xué)對(duì)文章行文結(jié)構(gòu)的建議。
劉紅云, 駱?lè)?(2008).多水平項(xiàng)目反應(yīng)理論模型在測(cè)驗(yàn)發(fā)展中的應(yīng)用.心理學(xué)報(bào), 40(1), 92–100.
羅照盛.(2012).項(xiàng)目反應(yīng)理論基礎(chǔ).北京: 北京師范大學(xué)出版社.
葉萌, 辛濤.(2015).題目參數(shù)漂移: 概念厘定及相關(guān)研究.心理科學(xué)進(jìn)展, 23(10), 1859–1868.
趙德成.(2013).表現(xiàn)性評(píng)價(jià): 歷史、實(shí)踐及未來(lái).課程.教材.教法,(2), 97–103.
Albano, A.D.(2013).Multilevel modeling of item position effects.Journal of Educational Measurement, 50(4),408–426.
Beaton, A.E., Ferris, J.J., Johnson, E.G., Johnson, J.R.,Mislevy, R.J., & Zwick, R.(1988).The NAEP 1985–86 reading anomaly: A technical report.Princeton, NJ:Educational Testing Service.
Beaton, A.E., & Zwick, R.(1990).The effect of changes in the national assessment: Disentangling the NAEP 1985–86 reading anomaly.Princeton, NJ: Educational Testing Service.
Borgonovi, F., & Biecek, P.(2016).An international comparison of students' ability to endure fatigue and maintain motivation during a low-stakes test.Learning and Individual Differences, 49, 128–137.
Brenner, M.H.(1964).Test difficulty, reliability, and discrimination as functions of item difficulty order.Journal of Applied Psychology, 48(2), 98–100.
Cizek, G.J.(1994).The effect of altering the position of options in a multiple-choice examination.Educational and Psychological Measurement, 54(1), 8–20.
Cook, L.L., & Petersen, N.S.(1987).Problems related to the use of conventional and item response theory equating methods in less than optimal circumstances.Applied Psychological Measurement, 11(3), 225–244.
Davis, J., & Ferdous, A.(2005).Using item difficulty and item position to measure test fatigue.Paper presented at the annual meeting of the American Educational Research Association, Montreal, Quebec.
Debeer, D., Buchholz, J., Hartig, J., & Janssen, R.(2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.Journal of Educational and Behavioral Statistics, 39(6),502–523.
Debeer, D., & Janssen, R.(2013).Modeling item-position effects within an IRT framework.Journal of Educational Measurement, 50(2), 164–185.
De Boeck, P., & Wilson, M.(2004).Explanatory item response models: A generalized linear and nonlinear approach.New York, NY: Springer.
Eignor, D.R., & Cook, L.L.(1983).An investigation of the feasibility of using item response theory in the pre-equating of aptitude tests.Paper presented at the annual meeting of the American Educational Research Association, Montreal, Quebec.
Embretson, S.E.(1991).A multidimensional latent trait model for measuring learning and change.Psychometrika,56(3), 495–515.
Fischer, G.H.(1973).The linear logistic test model as an instrument in educational research.Acta Psychologica,37(6), 359–374.
Haladyna, T.M.(1992).Context-dependent item sets.Educational Measurement: Issues and Practice, 11(1),21–25.
Hambleton, R.K., & Swaminathan, H.(1985).Item response theory: Principles and Applications(Vol.7).Boston:Kluwer Academic Pub.
Hamilton, J.C., & Shuminsky, T.R.(1990).Self-awareness mediates the relationship between serial position and item reliability.Journal of Personality & Social Psychology,59(6), 1301–1307.
Hartig, J., & Buchholz, J.(2012).A multilevel item response model for item position effects and individual persistence.Psychological Test and Assessment Modeling, 54(4), 418–431.
He, W., Gao, R., & Ruan, C.Y.(2009).Does pre-equating work? An investigation into pre-equated testlet-based college placement exam using post administration data.Paper presented at the annual meeting of the National Council on Measurement in Education, San Diego, California.
Hecht, M., Weirich, S., Siegle, T., & Frey, A.(2015).Effects of design properties on parameter estimation in large-scale assessments.Educational and Psychological Measurement,75(6), 1021–1044.
Hill, R.(2008).Using P-value statistics to determine the believability of equating results.Paper presented at the National Conference on student assessment, Orlando,Florida.
Hohensinn, C., Kubinger, K.D., Reif, M., Schleicher, E., &Khorramdel, L.(2011).Analysing item position effects due to test booklet design within large-scale assessment.Educational Research and Evaluation, 17(6), 497–509.
Hanson, B.A.(1996).Testing for differences in test score distributions using loglinear models.Applied Measurement in Education, 9(4), 305–321.
Kang, C.(2014).Linear and nonlinear modeling of item position effects(Unpublished master’s thesis).University of Nebraska-Lincoln.
Kingston, N.M., & Dorans, N.J.(1982).The effect of the position of an item within a test on item responding behavior: An analysis based on item response theory.Research Report RR-82–22.Princeton, NJ: Educational Testing Service.
Kingston, N.M., & Dorans, N.J.(1984).Item location effects and their implications for IRT equating and adaptive testing.Applied Psychological Measurement,8(2), 147–154.
Kolen, M.J.(2006).The kernel method of test equating.Psychometrika, 71(1), 211–214.
Kolen, M.J., & Brennan, R.L.(2004).Test equating, scaling,and linking: Methods and practices.New York: Springer.
Kubinger, K.D.(2008).On the revival of the Rasch model-based LLTM: From constructing tests using item generating rules to measuring item administration effects.Psychology Science Quarterly, 50(3), 311–327.
Kubinger, K.D.(2009).Applications of the linear logistic test model in psychometric research.Educational and Psychological Measurement, 69(2), 232–244.
Leary, L.F., & Dorans, N.J.(1985).Implications for altering the context in which test items appear: A historical perspective on an immediate concern.Review of Educational Research, 55(3), 387–413.
Li, F.M., Cohen, A., & Shen, L.J.(2012).Investigating the effect of item position in computer–based tests.Journal of Educational Measurement, 49(4), 362–379.
Meyers, J.L., Miller, G.E., & Way, W.D.(2009).Item position and item difficulty change in an IRT-Based common item equating design.Applied Measurement in Education, 22(1), 38–60.
Meyers, J.L., Murphy, S., Goodman, J., & Turhan, A.(2012).The impact of item position change on item parameters and common equating results under the 3PL model.Paper presented at the annual meetings of the National Council on Measurement in Education,Vancouver, British Columbia.
Mollenkopf, W.G.(1951).Prediction of second-year and third-year grade-point averages at the U.S.naval postgraduate school.ETS Research Bulletin, 1951(2), i–36.
Monk, J.J., & Stallings, W.M.(1970).Effects of item order on test scores.Journal of Educational Research, 63(10),463–465.
Moses, T., Yang, W.L., & Wilson, C.(2007).Using kernel equating to assess item order effects on test scores.Journal of Educational Measurement, 44(2), 157–178.
Muraki, E., Hombo, C.M., & Lee, Y.W.(2000).Equating and linking of performance assessments.Applied Psychological Measurement, 24(4), 325–337.
Paek, I., Baek, S.G., & Wilson, M.(2012).An IRT modeling of change over time for repeated measures item response data using a random weights linear logistic test model approach.Asia Pacific Education Review, 13(3), 487–494.
Qian, J.H.(2014).An investigation of position effects in large-scale writing assessments.Applied Psychological Measurement, 38(7), 518–534.
Roberts, J.S., & Ma, Q.(2006).IRT models for the assessment of change across repeated measurements.In R.W.Lissitz (Ed.),Longitudinal and value added models of student performance(pp.100–127).Maple Grove, MN:JAM Press.
Roever, C.(2005).“That’s not fair!” Fairness, bias and differential item functioning inlanguage testing.Retrieved February 10, 2012, from http://www2.hawaii.edu/~roever/brownbag.pdf
Rupp, A.A., & Zumbo, B.D.(2006).Understanding parameter invariance in unidimensional IRT models.Educational and Psychological Measurement, 66(1), 63–84.
Schweizer, K., Schreiner, M., & Gold, A.(2009).The confirmatory investigation of APM items with loadings as a function of the position and easiness of items: A two–dimensional model of APM.Psychology Science Quarterly, 51(1), 47–64.
Schweizer, K., Troche, S.J., & Rammsayer, T.H.(2011).On the special relationship between fluid and general intelligence: New evidence obtained by considering the position effect.Personality and Individual Differences,50(8), 1249–1254.
Steinberg, L.(1994).Context and serial-order effects in personality measurement: Limits on the generality of measuring changes the measure.Journal of Personality &Social Psychology, 66(2), 341–349.
Store, D.(2013).Item parameter changes and equating: An examination of the effects of lack of item parameter invariance on equating and score accuracy for different proficiency levels(Unpublished doctorial dissertations).The University of North Carolina at Greensboro.
Von Davier, M., Xu, X.L., & Carstensen, C.H.(2011).Measuring growth in a longitudinal large-scale assessment with a general latent variable model.Psychometrika, 76(2),318–336.
Weinstein, Y., & Roediger, H.L.(2010).Retrospective bias in test performance: Providing easy items at the beginning of a test makes students believe they did better on it.Memory & Cognition, 38(3), 366–376.
Weirich, S., Hecht, M., & B?hme, K.(2014).Modeling item position effects using generalized linear mixed models.Applied Psychological Measurement, 38(7), 535–548.
Weirich, S., Hecht, M., Penk, C., Roppelt, A., & B?hme, K.(2017).Item position effects are moderated by changes in test-taking effort.Applied Psychological Measurement,41(2), 115–129.
Whitely, S.E., & Dawis, R.V.(1976).The influence of test context on item difficulty.Educational and Psychological Measurement, 36(2), 329–337.
Wise, L., Chia, W., & Park, R.(1989).Item position effects for test of word knowledge and arithmetic reasoning.Paper presented at the annual meeting of the American Educational Research Association, San Francisco, California.
Wise, S.L., & DeMars, C.E.(2005).Low examinee effort in low-stakes assessment: Problems and potential solutions.Educational Assessment, 10(1), 1–17.
Wise, S.L., & Kong, X.J.(2005).Response time effort: A new measure of examinee motivation in computer–based tests.Applied Measurement in Education, 18(2), 163–183.
Wu, M.(2010).Measurement, sampling, and equating errors in large-scale assessments.Educational Measurement:Issues and Practice, 29(4), 15–27.
Yen, W.M.(1980).The extent, causes and importance of context effects on item parameters for two latent trait models.Journal of Educational Measurement, 17(4), 297–311.
Zumbo, B.D.(1999).A handbook on the theory and methods of differential item functioning (DIF): Logistic regression modeling as a unitary framework for binary and Likerttype (ordinal) item scores. Ottawa ON: Directorate of Human Resources Research and Evaluation, Department of National Defense.
Zumbo, B.D.(2007).Three generations of DIF analyses:Considering where it has been, where it is now, and where it is going.Language Assessment Quarterly, 4(2), 223–233.
Zwick, R.(1991).Effects of item order and context on estimation of NAEP reading proficiency.Educational Measurement: Issues and Practice, 10(3), 10–16.