張健 任杰
(北京語言大學(xué),北京 100083)
等值是將同一測驗不同版本的分?jǐn)?shù)統(tǒng)一到一個量尺上的過程[1]。經(jīng)過等值的分?jǐn)?shù)才可以直接比較,因此,等值是測驗公平性和科學(xué)性的重要保障。為了實現(xiàn)同一測驗不同版本分?jǐn)?shù)的可比性,目前國內(nèi)外許多大型標(biāo)準(zhǔn)參照測驗均對測驗分?jǐn)?shù)進(jìn)行了等值處理。標(biāo)準(zhǔn)參照測驗是以具體體現(xiàn)教學(xué)目標(biāo)的標(biāo)準(zhǔn)作為依據(jù),確定學(xué)生是否達(dá)到標(biāo)準(zhǔn)以及達(dá)標(biāo)的程度如何的一種評價方法,即“人與標(biāo)準(zhǔn)比較”的方法,它是衡量學(xué)生能做什么的絕對評價。
在我國,大學(xué)英語四、六級考試(CET-4,CET-6),少數(shù)民族漢語水平等級考試(MHK)等均屬于標(biāo)準(zhǔn)參照測驗。對于這類測驗而言,其標(biāo)準(zhǔn)是長期穩(wěn)定的,但是其不同年份的試卷難度和考生能力很難保證完全相同。就難度而言,盡管命題專家在命題過程中盡力保持考試難度的穩(wěn)定性,但是不同試卷之間在難度、分?jǐn)?shù)分布方面的差別還是在所難免的。這種差別不僅會影響到考試的質(zhì)量,也會影響評價標(biāo)準(zhǔn)的客觀性。為了將不同年份的試卷置于同一個量尺上并用同一標(biāo)準(zhǔn)比較,需要對不同試卷進(jìn)行等值處理。此外,隨著我國高考外語“一年兩考”模式的開啟,作為常模參照測驗的高考英語也面臨著同樣的問題。常模參照測驗是將考生測驗分?jǐn)?shù)與其所在考生群體進(jìn)行比較,即“人與人比較”,但同一年份的兩份高考英語試卷很難保證難度完全一致,這使得作答較難試卷的考生處于劣勢,直接影響高考英語的公平性。因此,無論是標(biāo)準(zhǔn)參照測驗還是像高考英語這樣的常模參照測驗,都需要經(jīng)過等值技術(shù)將不同試卷置于同一量尺上,最終實現(xiàn)不同試卷分?jǐn)?shù)的可比性。近年來,雖然等值技術(shù)在我國已得到廣泛應(yīng)用,如CET-4、CET-6、MHK等,但不同研究者對等值結(jié)果的評價標(biāo)準(zhǔn)卻不盡相同。謝小慶使用總平均加權(quán)差異平方和(MSD)對HSK的等值結(jié)果進(jìn)行評價[2],焦麗亞使用變異均方根(RMSD)對湖南某地區(qū)中考數(shù)學(xué)成績的等值結(jié)果進(jìn)行評價[3]。此外,還有學(xué)者采用模擬檢驗、跨樣本一致、標(biāo)準(zhǔn)誤、重要差異等方式評價等值結(jié)果[4-7]。這些等值結(jié)果評價標(biāo)準(zhǔn)的區(qū)別是什么?它們的使用條件是否相同?對于具體的測驗而言應(yīng)該選用哪種標(biāo)準(zhǔn)?目前學(xué)界對這些問題的探討還遠(yuǎn)遠(yuǎn)不夠,這可能導(dǎo)致由于評價標(biāo)準(zhǔn)的不同,使得不同研究者對同一等值結(jié)果的解釋大相庭徑,直接影響研究結(jié)論的可信度。因此,只有深入地認(rèn)識等值結(jié)果的評價標(biāo)準(zhǔn),才能根據(jù)實際需要選擇合適的標(biāo)準(zhǔn)并對等值結(jié)果進(jìn)行合理評價,使等值技術(shù)真正落到實處。
對等值結(jié)果的評價本質(zhì)上是對等值誤差的評價。等值過程中存在著兩類誤差,一類是隨機誤差,一類是系統(tǒng)誤差。隨機誤差來源于樣本,可以通過增加樣本量來減少;系統(tǒng)誤差遠(yuǎn)比隨機誤差復(fù)雜,原因主要有:研究違背了等值方法的統(tǒng)計假設(shè)或數(shù)據(jù)收集原則,一些等值技術(shù)的使用無形中引入了系統(tǒng)誤差等。針對等值過程中存在的誤差,研究者們提出了一系列評價標(biāo)準(zhǔn),然而,沒有一個等值結(jié)果評價標(biāo)準(zhǔn)可以應(yīng)用到所有的等值情境中[8]。對于經(jīng)典測量理論(CTT)等值而言,經(jīng)過等值可以得到分?jǐn)?shù)的等值結(jié)果;對于項目反應(yīng)理論(IRT)等值而言,經(jīng)過等值不僅可以得到分?jǐn)?shù)等值的結(jié)果,還可以得到參數(shù)等值的結(jié)果(包括項目參數(shù)等值結(jié)果和被試能力參數(shù)等值結(jié)果)。因此,我們根據(jù)評價對象的不同,將等值結(jié)果評價標(biāo)準(zhǔn)劃分為以下兩種類型:一類是用于評價等值分?jǐn)?shù)的標(biāo)準(zhǔn),另一類是用于評價等值參數(shù)的標(biāo)準(zhǔn)。下文將以共同題非等組設(shè)計為例,對該等值設(shè)計下的等值結(jié)果評價標(biāo)準(zhǔn)進(jìn)行梳理,以期通過對比不同等值結(jié)果評價標(biāo)準(zhǔn)的原理、適用范圍及其優(yōu)缺點等,深化對等值結(jié)果評價標(biāo)準(zhǔn)的認(rèn)識,并為研究者今后根據(jù)實際需要選擇合理的評價標(biāo)準(zhǔn)提供借鑒。
在共同題非等組設(shè)計中,可以采用共同組作為標(biāo)準(zhǔn)對等值結(jié)果進(jìn)行評價,共同題等值分?jǐn)?shù)結(jié)果和共同組等值分?jǐn)?shù)結(jié)果差異越小,則代表等值方法越優(yōu)。計算指標(biāo)上可以選用總平均加權(quán)差異平方和(MSD):
其中j是原始分?jǐn)?shù),是作為標(biāo)準(zhǔn)的共同組等值分?jǐn)?shù),xj是經(jīng)過等值的分?jǐn)?shù),fj是獲得原始分j的人數(shù)[2],且
這種方法雖然簡單客觀,但是也有其局限性。尤其是在大型標(biāo)準(zhǔn)化考試中很難找到滿足條件的共同組,因為一次測驗不可能讓被試在短時間內(nèi)同時考兩次,即使能找到合適的被試,被試前后參加同一個測驗的動機等因素也會直接影響等值效果。
等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是描述等值隨機誤差的指標(biāo)。通過從總體中重復(fù)抽樣,以一個完全擬合數(shù)據(jù)條件的等值方法進(jìn)行等值,那么,等值結(jié)果分布的平均數(shù)即是真正的等值分?jǐn)?shù),而分布的標(biāo)準(zhǔn)差即是等值分?jǐn)?shù)標(biāo)準(zhǔn)誤[9]。戴海崎認(rèn)為,采用Bootstrap法估計等值分?jǐn)?shù)標(biāo)準(zhǔn)誤比較接近于等值結(jié)果評價標(biāo)準(zhǔn)誤的定義[10],并提出Bootstrap法估計等值分?jǐn)?shù)標(biāo)準(zhǔn)誤主要包括以下幾個步驟:
1)從X測驗一個容量為Nx的樣本中有返回地隨機抽取一個Bootstrap樣本,容量為nx;
2)從Y測驗一個容量為Ny的樣本中有返回地隨機抽取一個Bootstrap樣本,容量為ny;
3)用相應(yīng)的等值方法,在所抽取的兩個Bootstrap樣本上估計X與Y的等值關(guān)系,記為
重復(fù)步驟1)~3)R次,則獲得R個等值關(guān)系式,即
4)在R足夠大情況下,用式(5)求出等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的Bootsrap估計值
其中,
等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是目前主流的對等值分?jǐn)?shù)的評價標(biāo)準(zhǔn),大量的研究均采用這種等值結(jié)果評價標(biāo)準(zhǔn)[11-14]。通過對等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的估計原理分析,我們發(fā)現(xiàn)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的本質(zhì)是考察等值分?jǐn)?shù)受樣本影響的大小,其假設(shè)是在樣本不同的情況下,等值分?jǐn)?shù)結(jié)果越穩(wěn)定的方法越好。然而,在計算過程中,等值分?jǐn)?shù)標(biāo)準(zhǔn)誤也受到了樣本量的影響,當(dāng)樣本量越大時,等值分?jǐn)?shù)標(biāo)準(zhǔn)誤越穩(wěn)定,當(dāng)樣本量較少時,等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的估計結(jié)果不穩(wěn)定。因此,當(dāng)樣本量較小時,不建議采用等值分?jǐn)?shù)標(biāo)準(zhǔn)誤作為等值分?jǐn)?shù)的評價標(biāo)準(zhǔn)。
Dorans提出了一種重要差異(Differences That Matter)作為等值的評價標(biāo)準(zhǔn)。他認(rèn)為,在特定分?jǐn)?shù)點上,等值結(jié)果之間的差異大于0.5倍原始分?jǐn)?shù),則為兩種方法有重要的差異[15]。這種重要差異的標(biāo)準(zhǔn)在SAT測驗等值上已得到廣泛應(yīng)用。Brossman等用等百分位等值結(jié)果作為標(biāo)準(zhǔn),采用重要差異的方法檢驗MIRT真分?jǐn)?shù)法和觀察分?jǐn)?shù)法等值結(jié)果的穩(wěn)定性[16]。由此可見,重要差異方法的本質(zhì)是將一個新方法的等值分?jǐn)?shù)結(jié)果與一個公認(rèn)較好的方法的等值分?jǐn)?shù)結(jié)果對比,以公認(rèn)較好的方法的分?jǐn)?shù)等值結(jié)果為標(biāo)準(zhǔn),比較二者差異,差異越小,則說明新方法的等值效果越好,然而在現(xiàn)實中很難找到一個適用于不同等值情境的公認(rèn)的較好方法。
跨樣本一致性檢驗的基本原理是:由于抽樣會帶來隨機誤差,因此受樣本的影響最小的等值方法就是最穩(wěn)定、最優(yōu)的等值方法??鐦颖疽恢滦詸z驗的操作步驟如下:首先,將總體劃分為幾個樣本,這幾個樣本之間互不包含;其次,用總體數(shù)據(jù)和樣本數(shù)據(jù)分別進(jìn)行等值;最后,比較樣本等值結(jié)果與總體等值結(jié)果的差異,差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法。跨樣本一致性檢驗的計算采用REMSD指標(biāo),公式如下:
共同題非等組設(shè)計包含兩個被試群體。T是由被試組P和被試組Q按照一定比例組成的綜合組。Tj表示從綜合組T中抽取出的小樣本,公式中eTj(x)表示在綜合組小樣本Tj中將X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù),eT(x)表示綜合組T上X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù)。eTj(x)和eT(x)的等值方法相同。ET{ }是指T組在X卷上分布的平均數(shù),Wj表示被試組P和被試組Q的權(quán)重[6]。另外,可以采用前述的重要差異標(biāo)準(zhǔn)判斷REMSD結(jié)果是否在合理范圍??鐦颖疽恢滦詸z驗僅能描述等值方法受樣本影響的程度,一種等值方法的跨樣本一致性越高,表明用該方法等值時的隨機誤差越小,但是該方法對系統(tǒng)誤差無法估計。
等值分?jǐn)?shù)交叉檢驗的方法和跨樣本一致性檢驗類似,也是以大樣本所得的等值分?jǐn)?shù)結(jié)果為標(biāo)準(zhǔn),通過對比小樣本等值分?jǐn)?shù)結(jié)果與大樣本等值分?jǐn)?shù)結(jié)果的差異,差異最小的方法就是較好的方法。與跨樣本一致性檢驗不同的是,交叉檢驗只選取大樣本中的一部分小樣本,僅涉及一個小樣本群體。其計算公式是
其中,Yi表示在等值分?jǐn)?shù)交叉檢驗的樣本中,將測驗X上總分排在第i位的考生采用某種方法等值到測驗Y上的實際分?jǐn)?shù),n是獲得該分?jǐn)?shù)的人數(shù),Yi
'表示在大樣本中將測驗X上總分排在第i位的考生采用同種方法等值到測驗Y上的實際分?jǐn)?shù),N是交叉驗證樣本的總?cè)藬?shù)。T指標(biāo)的值越小,表明各等值方法所得結(jié)果的一致性越高[14]。和跨樣本一致性檢驗一樣,交叉檢驗方法也只能夠選取出隨機誤差最小的等值方法,但對不同等值方法的系統(tǒng)誤差的大小卻無法估計。
在共同題非等組設(shè)計下,共同題是用于連接兩個平行測驗的橋梁。對于共同題參數(shù)而言,從理論上看,用分別校準(zhǔn)法將新測驗的共同題參數(shù)等值到基準(zhǔn)測驗上時,等值后的共同題參數(shù)應(yīng)該是相同的,但實際由于等值誤差的存在,使得經(jīng)過等值后的共同題參數(shù)往往不一致。正因為如此,若經(jīng)過某種等值方法等值后的共同題參數(shù)差別越小,則說明等值誤差越小,等值方法越好。根據(jù)這一思路,研究者提出以RMSD作為分別校準(zhǔn)法下評判項目參數(shù)等值方法精確性的操作性檢驗標(biāo)準(zhǔn),以此衡量各種等值方法的誤差大小[3]。RMSD計算公式如下:
其中,m代表共同題的數(shù)量,Xi為作為基準(zhǔn)測驗的項目參數(shù),X'i為新測驗等值到基準(zhǔn)測驗上的項目參數(shù)。RMSD值越小,表明等值方法的等值誤差越小,經(jīng)過該等值方法等值后的共同題參數(shù)越穩(wěn)定。共同題參數(shù)穩(wěn)定性的估計中既包含了隨機誤差的大小,也包含了系統(tǒng)誤差的大小,因此,相較而言,共同題參數(shù)穩(wěn)定性的方法對等值誤差的估計更全面。但是共同題參數(shù)穩(wěn)定性方法的使用有一定的局限性,它僅適合對共同題非等組設(shè)計下采用分別校準(zhǔn)法所得的參數(shù)等值結(jié)果進(jìn)行評價,對于其他等值方法如同時校準(zhǔn)法、固定校準(zhǔn)法,則共同題參數(shù)穩(wěn)定性指標(biāo)無法適用,這也使得共同題參數(shù)穩(wěn)定性指標(biāo)的使用范圍受到一定限制。
在等值參數(shù)評價標(biāo)準(zhǔn)中,通過模擬研究觀察參數(shù)的返真性是目前主流的評價標(biāo)準(zhǔn),大量的研究均采用這種參數(shù)等值結(jié)果評價標(biāo)準(zhǔn)[4-5,17]。這種方法的操作步驟如下:首先,通過使用IRT模型估計基準(zhǔn)測驗X的參數(shù)(包括項目參數(shù)和能力參數(shù))并給定等值系數(shù)A和B;其次,以測驗X的參數(shù)結(jié)果和等值系數(shù)A和B為真值,采用Monte-Carlo法生成新的測驗X′的數(shù)據(jù)來模擬測驗X的作答情況;然后,估計新測驗X′的項目參數(shù)和能力參數(shù)。再次,采用不同的等值方法將新生成的測驗X′的參數(shù)重新等值到原始的基準(zhǔn)測驗X上;最后,以測驗X的真實參數(shù)結(jié)果作為等值的標(biāo)準(zhǔn),對比新測驗X′等值后的參數(shù)結(jié)果和測驗X的真實參數(shù)結(jié)果的差異,偏差越小代表等值效果越優(yōu),等值方法的參數(shù)返真性越好。
在具體研究中,通常采用以下兩類指標(biāo)衡量偏差的大小,一類是衡量項目參數(shù)返真性指標(biāo),另一類是衡量等值系數(shù)返真性指標(biāo)。
均方根誤差指標(biāo)(RMSE)、偏差(BIAS)均采用X′等值后的難度、區(qū)分度參數(shù)和原來的X的難度、區(qū)分度參數(shù)對比。這里的參數(shù)僅指共同題等值前后的參數(shù)。計算公式如下:
其中表示等值后的各參數(shù),?r表示參數(shù)的真實值,R表示全卷的題目數(shù)量,N表示重復(fù)的次數(shù)[4]。RMSE和BIAS的結(jié)果越小,代表等值后的共同題參數(shù)越接近真值,等值效果越好。
平均絕對離差(ABSE)表示的是等值系數(shù)真值與估計值的差異。其公式如下:
在式(12)中,R代表模擬實驗的總次數(shù),A和B表示等值系數(shù)真值,表示經(jīng)過第r次模擬后的等值系數(shù)估計值,ABSE的值越小,代表等值系數(shù)估計值對真值的修復(fù)程度越好,即等值系數(shù)估計值越接近于真值。
盡管采用模擬研究觀察參數(shù)返真性的方法是目前等值參數(shù)評價的主流方法,但也存在著一些問題,其最突出的問題是模擬數(shù)據(jù)與真實數(shù)據(jù)之間存在一定的差別,這對研究結(jié)果的使用產(chǎn)生很大制約。為了使模擬數(shù)據(jù)的結(jié)果更接近真實數(shù)據(jù),研究者往往會進(jìn)行多次模擬,一般而言,模擬次數(shù)不低于30次。
基于IRT的等值主要包括兩部分,第一部分是參數(shù)等值,包括項目參數(shù)等值和被試能力參數(shù)等值;第二部分是測驗分?jǐn)?shù)的導(dǎo)出,又分為IRT真分?jǐn)?shù)法和IRT觀察分?jǐn)?shù)法兩類。當(dāng)有兩個群體分別參加了兩個測驗X和Y,其中X是基準(zhǔn)測驗,Y是新測驗,X和Y均有j道項目,且包含m個共同題(anchor item)。根據(jù)IRT等值理論,首先應(yīng)進(jìn)行測驗X和Y的項目參數(shù)和被試能力參數(shù)的等值,測驗X和Y的項目參數(shù)和能力參數(shù)具有如下關(guān)系[18]:
其中,A和B就是等值系數(shù),IRT參數(shù)等值的核心就是求解等值系數(shù)A和B。正是由于求解等值系數(shù)A和B時所采用的估計參數(shù)的原理不同,才會產(chǎn)生不同的IRT等值方法。利用一種等值方法求解等值系數(shù)時,不僅會產(chǎn)生等值系數(shù),還會產(chǎn)生等值系數(shù)估計的標(biāo)準(zhǔn)誤,它是衡量等值系數(shù)受隨機誤差影響的程度。等值系數(shù)標(biāo)準(zhǔn)誤越大,表明該等值方法的隨機誤差越大,等值結(jié)果越差。在應(yīng)用方面,吳銳以等值系數(shù)估計的標(biāo)準(zhǔn)誤為衡量標(biāo)準(zhǔn),對IRT項目特征曲線法的等值結(jié)果進(jìn)行分析[19]。但是,這種等值評價標(biāo)準(zhǔn)僅適用于IRT分別校準(zhǔn)法,對IRT同時校準(zhǔn)法和IRT固定校準(zhǔn)法卻不適用。
等值參數(shù)交叉檢驗方法和等值分?jǐn)?shù)交叉檢驗的原理基本相同,即以大樣本所得的參數(shù)等值結(jié)果為標(biāo)準(zhǔn),通過對比小樣本參數(shù)等值的結(jié)果與大樣本參數(shù)等值結(jié)果的差異,差異最小的方法就是較好的方法。其計算公式是:
其中,Yi表示在交叉檢驗的樣本中,Y測驗上第i題等值后的項目參數(shù),N表示測驗的題目個數(shù),Y'i表示在大樣本中Y測驗上第i題等值后的項目參數(shù)。RMSD指標(biāo)的值越小,表明各等值方法所得結(jié)果的一致性越高[3]。等值參數(shù)交叉檢驗的方法僅適用于IRT等值,此外,等值參數(shù)交叉檢驗法也只能夠選取出隨機誤差最小的等值方法,無法對等值方法的系統(tǒng)誤差進(jìn)行估計。
通過梳理國內(nèi)外關(guān)于等值結(jié)果評價標(biāo)準(zhǔn)的文獻(xiàn),我們以共同題非等組設(shè)計為例,根據(jù)評價對象的不同,將等值結(jié)果的評價標(biāo)準(zhǔn)劃分為兩種類型:一類是用于評價等值分?jǐn)?shù)的標(biāo)準(zhǔn),一類是用于評價等值參數(shù)的標(biāo)準(zhǔn),如表1所示。這兩類標(biāo)準(zhǔn)既有聯(lián)系又有區(qū)別,如交叉檢驗的標(biāo)準(zhǔn)既可以用于等值分?jǐn)?shù)的評價也可以用于等值參數(shù)的評價,只是公式內(nèi)容略有不同。而共同題穩(wěn)定性的標(biāo)準(zhǔn)僅適用于等值參數(shù)的評價,重要差異的標(biāo)準(zhǔn)僅適合對等值分?jǐn)?shù)結(jié)果進(jìn)行評價。此外,我們對每種等值結(jié)果評價標(biāo)準(zhǔn)的適用范圍及其局限性進(jìn)行了簡要說明,這將有助于研究者從宏觀上把握等值結(jié)果評價標(biāo)準(zhǔn)的分類,并結(jié)合研究實際選擇合理的等值結(jié)果的評價標(biāo)準(zhǔn)。
表1 等值結(jié)果評價標(biāo)準(zhǔn)概覽
為此,我們提出以下建議:
第一,研究者可根據(jù)其等值研究所選用的等值方法的不同、等值結(jié)果的不同選擇與其相對應(yīng)的等值結(jié)果的評價標(biāo)準(zhǔn)。比如:若研究采用的是CTT等值方法,則只能選取用于評價等值分?jǐn)?shù)的評價標(biāo)準(zhǔn)。
第二,以往的等值研究往往是采用一種標(biāo)準(zhǔn)對多種等值方法的結(jié)果進(jìn)行評價,由于每種等值結(jié)果評價標(biāo)準(zhǔn)都有一定的局限性,僅僅采用一種標(biāo)準(zhǔn)對多種等值結(jié)果進(jìn)行評價的做法過于絕對。因此,我們建議研究者可以根據(jù)研究對象的不同,采用多種評價標(biāo)準(zhǔn)對等值結(jié)果進(jìn)行綜合評價,從不同角度對等值結(jié)果進(jìn)行合理解釋,這不僅有助于深化研究者對各種等值方法的認(rèn)識,也使得等值研究的結(jié)論更加合理、全面、可靠。
[1]謝小慶.對15種測驗等值方法的比較研究[J].心理學(xué)報,2000,32(2):217-223.
[2]謝小慶.謝小慶教育測量學(xué)論文集[M].北京:北京語言大學(xué)出版社,2012:160.
[3]焦麗亞.基于IRT的共同題非等組設(shè)計中五種項目參數(shù)等值方法的比較研究[J].考試研究,2009(2):85-99.
[4]劉玥,劉紅云.不同鉚測驗設(shè)計下多維IRT等值方法的比較[J].心理學(xué)報,2013,45(4):466-480.
[5]YAO L H.Multidimensional linking for domain scores and overall scores for nonequivalent groups[J].Applied Psychological Measurement,2011,35(1):48-66.
[6]張泉慧,黃慧英.IRT理論不同模型下同時校準(zhǔn)等值方法的跨樣本研究[J].中國考試,2016(2):3-8.
[7]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37(6):460-481.
[8]HARRIS D J,CROUSE J D.A study of criteria used in equating[J].Applied Measurement in Education,1993(6):195-240.
[9]羅照盛.經(jīng)典測量理論等值的誤差研究[J].心理科學(xué),2000,23(4):494-501.
[10]戴海崎.等值誤差理論與我國高考等值的誤差控制[J].江西師范大學(xué)學(xué)報,1999,32(1):30-36.
[11]PARSHALL C G,HOUGHTON P D B,KROMREY J D.Equating Error and Statistical Bias in Small Sample Linear Equating[J].Journal of Educational Measurement,1995,32(1):37-54.
[12]HAN YI KIM.A comparation of smoothing methods for the common item nonequivalent groups design[D].Iowa,US:The University of Iowa,2014.
[13]劉玥,劉紅云.多維數(shù)據(jù)IRT真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值研究[J].心理學(xué)探新,2015,35(1):56-61.
[14]焦麗亞,辛濤.基于CTT的錨測驗非等組設(shè)計中四種等值方法的比較研究[J].心理發(fā)展與教育,2006(1):97-102.
[15]DORANS N J,HOLLAND P W,THAYER D T,TATENENI K.Population invariance of score linking:Theory and applications to advanced placement program examinations[M].Princeton,US:Educational Testing Service,2003.
[16]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37(6):460-481.
[17]張軍之.基于多維IRT的測驗等值研究[D].南昌:江西師范大學(xué),2016.
[18]KOLEN M J,BRENNAN R L.Test Equating,Scaling and Linking:Methods and Practices(2nded)[M].New York,US:Springer,2004.
[19]吳銳.含題組測驗的IRT等值問題研究[D].南昌:江西師范大學(xué),2007.