陳飛鵬 詹沛達(dá),4 王立君 陳春曉 蔡 毛
(1浙江師范大學(xué)心理系, 金華 321004) (2杭州第四中學(xué), 杭州 310002)(3杭州第九中學(xué), 杭州 310020) (4北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100875)
經(jīng)典測(cè)量理論(classical test theory, CTT)是在隨機(jī)抽樣理論基礎(chǔ)上建立起來的一套心理與教育測(cè)量理論體系, 其所有數(shù)據(jù)分析的基礎(chǔ)是被試在項(xiàng)目上作答的觀察分?jǐn)?shù)。CTT認(rèn)為觀察分?jǐn)?shù)等于真分?jǐn)?shù)加上誤差分?jǐn)?shù), 但在實(shí)際操作中真分?jǐn)?shù)是無法獲得的。CTT的主要局限性是觀察分?jǐn)?shù)等權(quán)重性累加的不合理性, 測(cè)驗(yàn)對(duì)被試的評(píng)價(jià)依賴于測(cè)驗(yàn)的具體項(xiàng)目組合和項(xiàng)目數(shù)量, 測(cè)驗(yàn)與項(xiàng)目性能指標(biāo)的估計(jì)依賴于具體的被試樣本, 被試能力與項(xiàng)目難度兩個(gè)指標(biāo)含義的非統(tǒng)一性以及測(cè)量誤差估計(jì)的不精確性和籠統(tǒng)性五個(gè)方面(羅照盛,2012; 漆書青, 戴海崎, 丁樹良, 2002)。20世紀(jì)60年代以來, 心理測(cè)量學(xué)在克服CTT這些缺點(diǎn)的基礎(chǔ)上提出了項(xiàng)目反應(yīng)理論(item response theory,IRT), 項(xiàng)目反應(yīng)模型(item response model, IRM)實(shí)現(xiàn)了在項(xiàng)目水平上對(duì)被試能力評(píng)估的模型化, 目前已成為心理測(cè)量學(xué)的核心內(nèi)容。標(biāo)準(zhǔn)項(xiàng)目反應(yīng)模型(standard item response model, SIRM)要求一個(gè)測(cè)驗(yàn)只對(duì)一種潛質(zhì)進(jìn)行測(cè)量, 即需要滿足“單維性假設(shè)”。但該假設(shè)與許多心理或教育測(cè)驗(yàn)的實(shí)際情況并不相符, 會(huì)給項(xiàng)目參數(shù)估計(jì)甚至能力參數(shù)估計(jì)帶來嚴(yán)重的后果(Ansley & Forsyth, 1985)。為了滿足一個(gè)測(cè)驗(yàn)測(cè)量多種能力的需要, 有學(xué)者(Whitely, 1980, 1981; Christoffersson, 1975; McDonald,1985, 1997; Reckase & McKinley, 1982, 1991;Reckase, 1997)提出了多維項(xiàng)目反應(yīng)模型(multidimensional item response model, MIRM), MIRM能同時(shí)估計(jì)被試在多個(gè)維度上的能力, 并且考慮各能力維度之間的關(guān)系, 因此MIRM能更有效地估計(jì)多維能力。此外在實(shí)際測(cè)驗(yàn)中還有一些潛質(zhì)具有層階結(jié)構(gòu)(Golay & Lecerf, 2011), 如:韋氏成人智力量表(Wechsler Adult Intelligence Scale, WAIS)中就測(cè)量了3階潛質(zhì):第1階中包含了13個(gè)子測(cè)驗(yàn)并分別測(cè)量一種潛質(zhì), 在第2階中的13種潛質(zhì)被歸為4種外延更廣的潛質(zhì)(言語能力、知覺推理、工作記憶和信息加工速度), 而在第3階中這4種潛質(zhì)又包含在一般智力(general mental)之中(Ryan& Schnakenberg-Ott, 2003; Huang & Wang, 2013)。針對(duì)具有層階結(jié)構(gòu)的潛質(zhì), 傳統(tǒng)的處理方法是分步采用SIRM或直接采用MIRM來處理。分步采用SIRM時(shí), 需先將某測(cè)驗(yàn)分成若干個(gè)子測(cè)驗(yàn),然后多次采用SIRM來分析不同子測(cè)驗(yàn)的數(shù)據(jù)并得到相應(yīng)的低階潛質(zhì)值, 最后再用SIRM來分析整個(gè)測(cè)驗(yàn)數(shù)據(jù)以求得到高階潛質(zhì)值。但由于該方法忽略了各低階潛質(zhì)間的相關(guān), 所以當(dāng)測(cè)驗(yàn)不夠長(zhǎng)或子測(cè)驗(yàn)數(shù)目過多時(shí), 就無法獲得準(zhǔn)確的參數(shù)估計(jì)值(Yao, 2010; Zhang, 2012; de la Torre &Hong, 2010)。另一種方法是直接采用MIRM來處理該情況, 由于MIRM考慮到了子測(cè)驗(yàn)間的相關(guān)性, 所以相對(duì)于分步采用SIRM能更有效地得到更為精準(zhǔn)的低階潛質(zhì)估計(jì)值(Haberman & Sinharay,2010; Yao, 2011; Yao, 2013; de la Torre, Song, &Hong, 2011; Yao & Boughton, 2009; Okan, 2013),進(jìn)而可對(duì)被試做出更準(zhǔn)確地診斷。但由于MIRM并沒有考慮潛質(zhì)的層階結(jié)構(gòu), 所以被試的高階潛質(zhì)值是無法被直接估計(jì)的, 而高階潛質(zhì)恰是選拔性考試所更為強(qiáng)調(diào)的(Huang, Chen, & Wang,2012)。為了更合理、有效地解決該問題, 可直接處理具有層階結(jié)構(gòu)潛質(zhì)的高階項(xiàng)目反應(yīng)模型(high order item response model, HO-IRM)得到了研究者的關(guān)注(de la Torre & Douglas, 2004; Yanyan &Wikle, 2008; de la Torre & Song, 2009; de la Torre& Hong, 2010; Huang & Wang, 2013; Huang, Wang,Chen & Su, 2013)。本文對(duì)HO-IRM涉及的基本概念和目前常用的模型進(jìn)行了較為詳細(xì)地介紹, 有利于國(guó)內(nèi)學(xué)者全面、清晰地了解HO-IRM, 為國(guó)內(nèi)學(xué)者更好地應(yīng)用HO-IRM來指導(dǎo)心理或教育測(cè)驗(yàn)的開發(fā)、編制及測(cè)驗(yàn)分析提供了理論參考。
為了能合理、有效地處理具有層階結(jié)構(gòu)的潛質(zhì), HO-IRM將SIRM和MIRM的優(yōu)勢(shì)相結(jié)合, 用被試在各個(gè)子測(cè)驗(yàn)中的得分來分析不同的低階潛質(zhì), 且假設(shè)低階潛質(zhì)之間的相關(guān)性可由更高一階的潛質(zhì)來解釋說明(de la Torre et al., 2009b)。HO-IRM在分析具有層階結(jié)構(gòu)的潛質(zhì)時(shí)具有明顯的優(yōu)勢(shì), 它相對(duì)于SIRM來說, 無論是估計(jì)高階潛質(zhì)還是估計(jì)低階潛質(zhì)都可以更高效地得到更精準(zhǔn)的估計(jì)值(de la Torre et al., 2009b; Sheng et al.,2008)。而相對(duì)于MIRM, HO-IRM不僅能與MIRM一樣高效地獲得第1階潛質(zhì)的參數(shù)估計(jì)值, 還能同時(shí)獲得第2階或更高階潛質(zhì)的參數(shù)估計(jì)值(Huang et al., 2013)。為了使讀者更清晰地了解HO-IRM, 下文對(duì)目前已開發(fā)的5個(gè)模型進(jìn)行了較為詳細(xì)地介紹。
目前, 大部分認(rèn)知診斷模型(cognitive diagnosis models, CDM)只報(bào)告了被試的微觀認(rèn)知狀態(tài), 并沒有關(guān)注潛在的更高階的一般能力(general aptitude),而一般能力在解決問題過程中也是極其重要的。在眾多的CDM中, DINA模型(deterministic inputs,noisy “and”gate model) (Haertel, 1989, Junker &Sijtsman, 2001)因其簡(jiǎn)約性受到了研究者們的廣泛關(guān)注, 該模型可描述為:
ηij是描述被試i與項(xiàng)目j的關(guān)系, 即被試I是否掌握項(xiàng)目j所考核的所有屬性。:若ηij=1, 說明被試i掌握了項(xiàng)目j所考核的所有屬性; 若ηij=0, 則說明被試i未掌握項(xiàng)目j所考核的所有屬性。Sj=P(Yij=0|ηij=1)表示被試i在項(xiàng)目j上失誤的概率, 即被試i掌握了項(xiàng)目j所考核的所有屬性, 但答錯(cuò)的概率。gj=P(Yij=1|ηij=0)表示被試i在項(xiàng)目j上猜對(duì)的概率, 即被試未全部掌握項(xiàng)目j考核的所有屬性, 但答對(duì)的概率。
為了能夠同時(shí)報(bào)告宏觀的一般能力和微觀的認(rèn)知狀態(tài), de La Torre和Douglas (2004)以DINA模型為基礎(chǔ)提出了高階DINA模型(high order DINA;HO-DINA), 該模型假設(shè)屬性間相互獨(dú)立且從屬于一更高階的一般能力, 則認(rèn)知屬性與一般能力之間存在如下關(guān)系:
在上面兩個(gè)公式中λ0k為屬性k的截距,λk′表示屬性k在能力維度上的負(fù)荷。HO-DINA模型建立在傳統(tǒng)DINA模型基礎(chǔ)上, 并增加了比屬性更高階的能力參數(shù), 因此該模型不僅能描述被試的一般能力θ, 還能描述被試的屬性掌握情況以及屬性與一般能力間的關(guān)系, 為使用者提供更為豐富的診斷信息。實(shí)際應(yīng)用該模型時(shí), 研究者應(yīng)對(duì)Q矩陣及屬性階層關(guān)系進(jìn)行界定, 確定診斷所涉及的認(rèn)知屬性及屬性間的邏輯關(guān)系; 并進(jìn)行項(xiàng)目設(shè)計(jì)及測(cè)驗(yàn)開發(fā); 最后需對(duì)所測(cè)試的實(shí)際數(shù)據(jù)與HO-DINA模型的擬合度進(jìn)行檢驗(yàn)及評(píng)估。模型檢驗(yàn)可使用log-odds -ration (LOR, 對(duì)數(shù)差異比)指標(biāo)檢驗(yàn)方法, 該指標(biāo)主要是比較待檢驗(yàn)的項(xiàng)目與其它所有項(xiàng)目所構(gòu)成項(xiàng)目對(duì)的觀察LOR指標(biāo)與期望LOR指標(biāo)間的差異, 若所有項(xiàng)目對(duì)觀測(cè)的LOR與期望的LOR的平均絕對(duì)差異足夠小, 則說明該項(xiàng)目資料模型擬合, 否則不擬合。涂冬波、蔡艷、戴海琦和丁樹良(2011)的研究發(fā)現(xiàn):診斷的屬性個(gè)數(shù)越多, 診斷的模式正確率越低, 而診斷的項(xiàng)目數(shù)越多, 診斷的模式正確率越高, 所以在實(shí)際應(yīng)用中應(yīng)根據(jù)實(shí)際情況來決定適當(dāng)?shù)捻?xiàng)目數(shù)及屬性數(shù)。
雖然HO-DINA模型相對(duì)于傳統(tǒng)DINA模型來說, 能夠提供更為豐富的信息, 這也是第一個(gè)能同時(shí)估計(jì)高階潛質(zhì)和低階潛質(zhì)的項(xiàng)目反應(yīng)模型。它雖然在第2階上能處理連續(xù)潛質(zhì)但在第1階上只適合處理二分類別潛質(zhì)(掌握或沒掌握)。為了使HO-IRM能夠處理兩階都為連續(xù)潛質(zhì)的情況,Yanyan和Wikle (2008)提出了高階雙參數(shù)正態(tài)肩型模型(two-parameter normal ogive hierarchical model, 2PNOHM)。該模型對(duì)高階潛質(zhì)和低階潛質(zhì)作了更具體地限制, 即假設(shè)兩者成線性關(guān)系:
上式中,n指第n個(gè)被試,v是指第1階的第v個(gè)潛變量, 高階潛質(zhì), -1<βv<1是指第v個(gè)低階潛質(zhì)對(duì)高階潛質(zhì)的回歸系數(shù),εnv是指誤差, 且各誤差之間相互獨(dú)立。2PNOHM共有兩階, 第1階就是洛德在1952年提出的兩參數(shù)正態(tài)肩型模型(two-parameter normal ogive model,2PNOM), 即
上式中,yvni是指第n個(gè)被試對(duì)第v個(gè)子測(cè)驗(yàn)中第i個(gè)項(xiàng)目的二分反應(yīng),αvi和γvi分別指項(xiàng)目參數(shù)中的區(qū)分度和猜測(cè)度,為能力參數(shù), 這里可指各個(gè)子測(cè)驗(yàn)所測(cè)的低階潛質(zhì)。將公式(4)代到上式即可得到2PNOHM的第2階模型, 即:
上式中,n指第n個(gè)被試,v是指第1階的第v個(gè)潛變量,i指測(cè)驗(yàn)中第i個(gè)項(xiàng)目,αvi和γvi分別為區(qū)分度和猜測(cè)度,為高階潛質(zhì),εnv為誤差且εnv~N(0,1)。2PNOHM可以用來分析具有層階結(jié)構(gòu)的連續(xù)潛質(zhì), 這從很大程度上拓展了HO-IRM的應(yīng)用, 使HO-IRM能更好地應(yīng)用于實(shí)踐。如:Yanyan 等人分別使用2PNOHM 與SIRM分析成就測(cè)驗(yàn)中的大學(xué)基礎(chǔ)學(xué)科考試(College Basic Academic Subjects Examination, CBASE)。研究結(jié)果表明2PNOHM相對(duì)于SIRM在高階潛質(zhì)和低階潛質(zhì)上都更具有高效性和準(zhǔn)確性。該模型在分析CBASE時(shí)認(rèn)為該測(cè)驗(yàn)由閱讀和寫作兩個(gè)子測(cè)驗(yàn)組成, 此時(shí)英語成績(jī)就可看做是2PNOHM中的第2階潛質(zhì)(高階潛質(zhì)), 而兩個(gè)子測(cè)驗(yàn)對(duì)應(yīng)的能力就可以看做是第1階的各低階潛質(zhì)。但需要注意的是2PNOHM只能用來處理只有兩個(gè)低階潛質(zhì)的情況, 而在實(shí)際中, 高階潛質(zhì)通常是由多個(gè)低階潛質(zhì)構(gòu)成的。為了將HO-IRM應(yīng)用于更廣的領(lǐng)域,de la Torre 等人提出了高階logistic模型; Huang等人 提出了高階廣義分部評(píng)分模型(High Order Generalized Partial Credit Model, HO-GPCM)及其它的高階多級(jí)評(píng)分模型; Huang等人提出了高階題組反應(yīng)模型(higher order testlet model, HTM)。下文將對(duì)這3種模型及其應(yīng)用做出詳細(xì)地介紹。
2PNOHM除了只能處理兩個(gè)低階潛質(zhì)的不足之外, 還有以下兩點(diǎn)不足:首先, 2PNOHM是基于2PNOM提出的, 而在實(shí)際應(yīng)用中2PNOM沒有3參數(shù)邏輯斯蒂模型的適用范圍廣; 其次, 2PNOHM沒有對(duì)高階潛質(zhì)與低階潛質(zhì)之間的相關(guān)系數(shù)(βv)進(jìn)行限制, 這導(dǎo)致低階潛質(zhì)與高階潛質(zhì)的邊緣分布和各低階潛質(zhì)間的邊緣分布不在同一量尺(same scale)上。為了使HO-IRM能夠有更廣泛地應(yīng)用,de la Torre等人在克服2PNOHM不足的基礎(chǔ)上提出了高階3參數(shù)邏輯斯蒂模型。這個(gè)模型不僅在2PNOHM的基礎(chǔ)上增加了猜測(cè)系數(shù)(civ), 而且在假設(shè)高階潛質(zhì)與低階潛質(zhì)的回歸系數(shù)為βv的同時(shí), 還假設(shè)子測(cè)驗(yàn)v與子測(cè)驗(yàn)v′之間的相關(guān)系數(shù)為βv×βv′, 這就可以確保所有低階潛質(zhì)與高階潛質(zhì)的邊緣分布在同一量尺上, 還使該模型能夠在高階潛質(zhì)具有多個(gè)低階潛質(zhì)的情況下高效地獲取精確的參數(shù)估計(jì)值。該模型的第1階為:
將公式(4)代入到上式, 就可以得到高階3參數(shù)邏輯斯蒂模型的第2階項(xiàng)目反應(yīng)函數(shù):
公式(7)和公式(8)中的下標(biāo)n, i和v的意義同上,aiv為區(qū)分度,biv為難度系數(shù),civ為猜測(cè)度,εnv是指誤差, 且,指高階潛質(zhì),為低階潛質(zhì), 且。當(dāng)civ=0時(shí),上式就變?yōu)楦唠A2參數(shù)邏輯斯蒂模型的第2階;當(dāng)civ=0,civ=0,aiv=1時(shí), 上式就為高階1參數(shù)邏輯斯蒂模型的第2階。
當(dāng)項(xiàng)目參數(shù)已知時(shí), 能力參數(shù)和回歸系數(shù)的分布不變, 但此時(shí)需要注意的是當(dāng)測(cè)驗(yàn)只有兩個(gè)子測(cè)驗(yàn)時(shí), 兩個(gè)子測(cè)驗(yàn)的回歸系數(shù)β1和β2并不是唯一的, 這導(dǎo)致模型不確定性的同時(shí)還決定了這兩個(gè)回歸系數(shù)不能被分別估計(jì)。所以, 當(dāng)HO-IRM只有兩個(gè)低階潛質(zhì)時(shí), 需要對(duì)回歸系數(shù)進(jìn)行額外的限制。當(dāng)HO-IRM有3個(gè)低階潛質(zhì)時(shí),低階潛質(zhì)之間就有3個(gè)相關(guān)系數(shù), 這正符合目前HO-IRM的公式適合估計(jì)3個(gè)回歸系數(shù)的要求,即HO-IRM最適合此類數(shù)據(jù)。當(dāng)?shù)碗A潛質(zhì)超過3個(gè)時(shí), 線性模型就不再適合分析這種復(fù)雜數(shù)據(jù)。當(dāng)項(xiàng)目參數(shù)和回歸系數(shù)都已知時(shí), 可以使用傳統(tǒng)的參數(shù)估計(jì)方法(如最大似然估計(jì))來獲取準(zhǔn)確的能力參數(shù)。為了進(jìn)一步說明這種構(gòu)建模型方式的有效性, de la Torre 等人使用高階logistic模型對(duì)美國(guó)加州考試局(California Testing Bureau, CTB)所提供的2255名九年級(jí)學(xué)生的數(shù)學(xué)成績(jī)進(jìn)行了分析, 并與對(duì)應(yīng)的logistic模型分析結(jié)果進(jìn)行了比較。結(jié)果顯示, 高階logistic模型在估計(jì)低階能力時(shí)相對(duì)于對(duì)應(yīng)的單層模型具有更好的精確性和高效性, 且當(dāng)子測(cè)驗(yàn)與其他子測(cè)驗(yàn)之間相關(guān)高時(shí),這種優(yōu)勢(shì)更明顯。
高階雙參數(shù)正態(tài)肩型模型和高階logistic模型將HO-IRM拓展到連續(xù)變量數(shù)據(jù)上, 但它們僅能處理二級(jí)評(píng)分?jǐn)?shù)據(jù), 而教育測(cè)量中經(jīng)常出現(xiàn)多級(jí)評(píng)分的情況(如簡(jiǎn)答題和作文題等)。為了使HO-IRM能夠處理多級(jí)評(píng)分項(xiàng)目測(cè)量層階潛質(zhì)的情況, Huang等人(2013)提出了以多級(jí)評(píng)分模型為第1階的高階模型, 如廣義分部評(píng)分模型(generalized partial credit model, GPCM) (Muraki, 1992):
上式中,Pnijv和Pni(j-1)v分別指被試n在測(cè)驗(yàn)v中的第i個(gè)項(xiàng)目中獲得j分和j-1分的概率,δijv是指測(cè)驗(yàn)v中的第i個(gè)項(xiàng)目的第j步的項(xiàng)目參數(shù),δiv是指測(cè)驗(yàn)v中的第i個(gè)項(xiàng)目的整體難度參數(shù)。將公式(4)代入到上式可得到高階廣義分部評(píng)分模型第2階的項(xiàng)目反應(yīng)函數(shù):
如果高階模型是以分部評(píng)分模型(partial credit model, PCM) (Masters, 1982)為第1階而建立的,即αiv=1時(shí), 就可把公式(10)轉(zhuǎn)化為高階分部評(píng)分模型第2階的項(xiàng)目反應(yīng)函數(shù); 如果高階模型是以評(píng)定量表模型(rating scale model, RSM) (Andrich,1978)為第1階而建立的, 即αiv=1,τijv=τjv時(shí), 公式(10)就轉(zhuǎn)化為高階評(píng)定量表模型第2階的項(xiàng)目反應(yīng)函數(shù)。
如果高階模型是以等級(jí)反應(yīng)模型(graded response model, GRM) (Samejima, 1969)為第1階而建立的, 則所得到的高階模型為高階等級(jí)反應(yīng)模型。該模型的第1階即為GRM:
Huang等人(2013)在WinBUGS軟件中(Spiegelhalter, Thomas, & Best, 2003)使用MCMC算法不僅對(duì)多級(jí)評(píng)分的HO-IRM進(jìn)行了準(zhǔn)確的參數(shù)估計(jì), 而且還對(duì)高階潛質(zhì)與低階潛質(zhì)之間是非線性關(guān)系的IRM以及各子測(cè)驗(yàn)符合不同模型的IRM進(jìn)行了準(zhǔn)確的參數(shù)估計(jì)。Huang等人在分析臺(tái)灣中學(xué)生升高中的基本能力測(cè)驗(yàn)(Basic Competence Tests, BCT)的成績(jī)和病理性上網(wǎng)數(shù)據(jù)時(shí), 詳細(xì)地介紹了如何選擇適合的HO-IRM以及如何選擇低階潛質(zhì)與高階潛質(zhì)之間的關(guān)系。這可以使HO-IRM適用于更復(fù)雜的真實(shí)數(shù)據(jù), 如CET-6由聽力、閱讀、翻譯與寫作組成, 其中聽力與閱讀屬于二級(jí)評(píng)分, 翻譯與寫作則為多級(jí)評(píng)分, 可以將聽力、閱讀、翻譯和寫作看做是第一階的4個(gè)子潛質(zhì), 整體測(cè)驗(yàn)則是處于第二階的潛質(zhì)。在使用HO-IRM分析此測(cè)驗(yàn)時(shí)可先分別假設(shè)子潛質(zhì)與整體潛質(zhì)之間呈線性關(guān)系和非線性關(guān)系(如一元二次方程關(guān)系), 然后根據(jù)貝葉斯模型選擇方法確定最適合分析此類數(shù)據(jù)的模型。
以上模型都是在SIRM的基礎(chǔ)上建立的, 也就是說需要滿足標(biāo)準(zhǔn)項(xiàng)目反應(yīng)模型的局部獨(dú)立性假設(shè)。但在實(shí)際的心理或教育測(cè)驗(yàn)中經(jīng)常不能滿足這個(gè)假設(shè), 如出現(xiàn)題組(testlet)的情況(英語中的篇章閱讀理解題型、數(shù)學(xué)中的分步證明題), 而且題組可以比獨(dú)立的選擇題提供更為復(fù)雜的、邏輯關(guān)系更強(qiáng)的閱讀材料, 更容易實(shí)現(xiàn)對(duì)層階潛質(zhì)的測(cè)量。Huang和Wang (2013)將潛質(zhì)的層階概念和題組概念相結(jié)合, 提出了高階題組反應(yīng)模型(higher-order testlet model, HTM)。因?yàn)镠TM的復(fù)雜性, 本文將先介紹題組模型中的邏輯斯蒂克貝葉斯題組模型(Logistic Bayesian Testlet Model)(LBTM; Bradlow et al., 1999; Wainer & Wang, 2000),讓讀者能夠?qū)︻}組模型有一定的了解, 以便更好地理解HTM。
Bradlow等(1999)提出的雙參數(shù)邏輯斯蒂克貝葉斯題組模型(two-parameter logistic Bayesian testlet model, 2-PLBTM)實(shí)現(xiàn)了對(duì)題組項(xiàng)目間的相依性與被試能力進(jìn)行分離的目的, Wainer和Wang(2000)將2-PLBTM拓展為3參數(shù)邏輯斯蒂克貝葉斯題組模型(three parameter Logistic Bayesian testlet model, 3-PLBTM)。3-PLBTM 除了在2-PLBTM的基礎(chǔ)上引入下漸近線參數(shù)外, 其更大的進(jìn)步在于承認(rèn)了同一被試在不同題組內(nèi)受到的題組效應(yīng)存在差異(詹沛達(dá), 王文中, 王立君, 2013)。此時(shí)
上式中aiv為題組v中項(xiàng)目i的區(qū)分度, 但其實(shí)質(zhì)上與SIRM中的區(qū)分度概念并不相同, 關(guān)于兩種不同的詳細(xì)介紹可參見詹沛達(dá)等(2013)一文。biv為項(xiàng)目i的難度,civ為項(xiàng)目i下漸進(jìn)線參數(shù),γnd(i)v為被試n在題組d(i)上的題組效應(yīng)參數(shù)(同一被試在題組內(nèi)不同項(xiàng)目上共享的成分),, 其中反應(yīng)了題組效應(yīng)的大小,即值越大, 題組效應(yīng)越大。當(dāng)時(shí), 即γid(i)v=0時(shí), 3-PLBTM等價(jià)于3PLM; 當(dāng)同一被試在所有題組內(nèi)受到相同的題組效應(yīng), 即相同時(shí), 3-PLBTM就變?yōu)?-PLBTM。
對(duì)比上式與高階3參數(shù)邏輯斯蒂模型第2階的項(xiàng)目反應(yīng)函數(shù)(公式8), 當(dāng)公式(8)中的βv=1時(shí),公式(8)就等價(jià)于上式, 且在進(jìn)一步的代數(shù)運(yùn)算上兩者是相等的(Frank, 2009)。但這兩個(gè)模型之間有著不同的意義, 題組模型把特定子測(cè)驗(yàn)上的變異看做是被試與題組的相互作用造成的隨機(jī)效應(yīng),而HO-IRM認(rèn)為被試在各子測(cè)驗(yàn)成績(jī)上的變異是由各子集中的固定成分造成的(de la Torre et al.,2009b)。
Huang和Wang (2013)以3-PLBTM為第1階,將公式(4)代入到公式(12)得到三參數(shù)邏輯斯蒂克貝葉斯高階題組模型的第2階, 即
上式中以3PLM為基礎(chǔ)模型發(fā)展出來的HTM,當(dāng)基礎(chǔ)模型為多級(jí)評(píng)分模型(如GPCM)時(shí), 則:
方程(13)和方程(14)中各參數(shù)的意義與上文一致, 上式即是以GPCM為基礎(chǔ)模型建立的HTM的第2階的項(xiàng)目反應(yīng)函數(shù), 即廣義分部評(píng)分高階題組模型(generalized partial credit high order testlet model, ), 如果HTM是以PCM為基礎(chǔ)模型而建立的, 即αiv=1時(shí), 就可把上式轉(zhuǎn)化為分部評(píng)分高階題組模型(partial credit high order testlet,PC-HTM)第2階的項(xiàng)目反應(yīng)函數(shù); 如果HTM是以RSM為基礎(chǔ)模型而建立的, 即αiv=1,τijv=τjv時(shí),上式就轉(zhuǎn)化為評(píng)定量表高階題組模型(rating scale high order testlet model, RS-HTM)第2階的項(xiàng)目反應(yīng)函數(shù)。
Huang等人(2013)在Winbugs中獲得了HTM參數(shù)估計(jì)值, 這可以讓HO-IRM適用于具有更復(fù)雜結(jié)構(gòu)的測(cè)驗(yàn)。他們分別使用3參數(shù)邏輯斯蒂模所對(duì)應(yīng)的HTM和高階3參數(shù)邏輯斯蒂模型分析了5000名臺(tái)灣中學(xué)生升入高中時(shí)的BCT成績(jī),可能因?yàn)樵摐y(cè)驗(yàn)的題組效應(yīng)不強(qiáng), 這兩個(gè)模型得到了相似的結(jié)果。但使用這兩個(gè)模型分析題組效應(yīng)強(qiáng)的病理性上網(wǎng)數(shù)據(jù)時(shí), 結(jié)果顯示, 當(dāng)忽略題組效應(yīng)時(shí), 會(huì)明顯低估低階潛質(zhì)的因素負(fù)荷且會(huì)高估低階潛質(zhì)的信度。大陸的考試也會(huì)存在題組現(xiàn)象如高考的理科綜合卷是由物理、化學(xué)和生物三部分構(gòu)成, 而每個(gè)部分又都是由獨(dú)立項(xiàng)目和題組項(xiàng)目構(gòu)成的。HO-IRM可以將三門學(xué)科的項(xiàng)目分別看做測(cè)量第1階的子潛質(zhì), 而三個(gè)子潛質(zhì)構(gòu)成第2階的潛質(zhì), 即理科綜合能力, HTM的應(yīng)用就可以避免直接使用HO-IRM而忽略題組效應(yīng)而帶來的誤差, 從而更準(zhǔn)確地分析此類數(shù)據(jù)。
雖然國(guó)內(nèi)外對(duì)HO-IRM的研究是近些年才興起, 但其在理論和應(yīng)用上都已取得了較大的發(fā)展。首先, HO-IRM將傳統(tǒng)的層階因素分析方法應(yīng)用到IRT框架中, 實(shí)現(xiàn)了在IRT框架中分析被試的高階潛質(zhì)值和低階潛質(zhì)值, 這既是對(duì)IRT的進(jìn)一步拓展, 也改善了傳統(tǒng)方法中以分?jǐn)?shù)代替能力的不足。其次, 在測(cè)量具有層階結(jié)構(gòu)的潛質(zhì)時(shí),HO-IRM能夠同時(shí)準(zhǔn)確地估計(jì)高階潛質(zhì)和低階潛質(zhì)且具有高效性, 這彌補(bǔ)了SIRT估計(jì)的低效性和MIRT不能直接估計(jì)高階潛質(zhì)的不足。本文主要介紹了5種HO-IRM, 其中HO-DINA模型不僅是高階認(rèn)知診斷模型的代表, 而且首先提出被試能否正確作答除了受具體的低階潛質(zhì)影響還受更高階的一般能力影響, 這為HO-IRM的發(fā)展提供了基本思路。2PNOHM將高階潛質(zhì)與低階潛質(zhì)之間的關(guān)系進(jìn)行了具體化, 即假設(shè)兩者之間是線性關(guān)系,而后3種HO-IRM都是在這個(gè)假設(shè)前提發(fā)展出來的, 它們將HO-IRM進(jìn)一步拓展到更多領(lǐng)域。
雖然HO-IRM對(duì)IRT的發(fā)展具有重要的影響,但它也具有一定的不足:首先, 它假設(shè)高階潛質(zhì)與低階潛質(zhì)是呈線性關(guān)系, 但并不是所有的高階潛質(zhì)與低階潛質(zhì)都是線性關(guān)系, 兩者之間還可能是非線性關(guān)系(Huang et al., 2013), 在使用HO-IRM分析數(shù)據(jù)之前應(yīng)先確定兩者之間的關(guān)系,從而選取最適合的模型; 其次, HO-IRM假設(shè)測(cè)驗(yàn)是由多個(gè)單維子測(cè)驗(yàn)構(gòu)成的, 即每個(gè)項(xiàng)目只能屬于一個(gè)子測(cè)驗(yàn), 但處理真實(shí)數(shù)據(jù)時(shí), 有些項(xiàng)目經(jīng)常屬于兩個(gè)甚至更多子測(cè)驗(yàn), 因此, 當(dāng)所測(cè)潛質(zhì)沒有明確的層階結(jié)構(gòu)時(shí), 要謹(jǐn)慎使用HO-IRM。
查閱現(xiàn)有的國(guó)內(nèi)外文獻(xiàn), 發(fā)現(xiàn)國(guó)內(nèi)僅有涂冬波等人(2011)以及涂冬波, 蔡艷和戴海琦(2013)兩篇文獻(xiàn)對(duì)HO-DINA模型有進(jìn)一步的研究, 而沒有相關(guān)文獻(xiàn)對(duì)其他HO-IRM做介紹, 因此加強(qiáng)HO-IRM在國(guó)內(nèi)的研究與應(yīng)用, 對(duì)于推動(dòng)國(guó)內(nèi)心理統(tǒng)計(jì)和測(cè)量的發(fā)展具有重要的意義。而國(guó)外對(duì)HO-IRM的研究也主要集中于它在分析具有層階結(jié)構(gòu)的潛質(zhì)時(shí)相對(duì)于SIRM和MIRM的優(yōu)勢(shì)。這也就是說現(xiàn)有HO-IRM只是對(duì)所測(cè)潛質(zhì)有了進(jìn)一步的考慮, 而在被試方面仍然假設(shè)在同一整體中隨機(jī)選取被試。但在教育和心理測(cè)量中, 選取的被試(學(xué)生)往往嵌套于班級(jí)之中, 而班級(jí)又嵌套于學(xué)校之中。在處理嵌套數(shù)據(jù)時(shí), 通常會(huì)因?yàn)榉纸M取樣、同時(shí)受到外來的援助或干擾、群體間不同的學(xué)習(xí)機(jī)會(huì)或不同的問題解決策略等因素導(dǎo)致群聚效應(yīng)(person clustering effect, PCE)。忽略群聚效應(yīng)會(huì)帶來不準(zhǔn)確的參數(shù)估計(jì), 而且群聚效應(yīng)會(huì)減小有效的樣本大小(Cyr & Davies 2006)。為了讓IRM能夠處理這類數(shù)據(jù), 有研究者(Fox, 2010;Raudenbush & Bryk, 2002; Wang & Qiu, 2013)提出了多水平項(xiàng)目反應(yīng)模型(multilevel item response model, MUIRM)來處理具有嵌套結(jié)構(gòu)的數(shù)據(jù)。多水平IRM將項(xiàng)目反應(yīng)理論和階層線性模型相結(jié)合,是對(duì)項(xiàng)目反應(yīng)理論的進(jìn)一步拓展, 也是對(duì)階層線性模型的有效改進(jìn)(劉慧, 簡(jiǎn)小珠, 張敏強(qiáng), 熊悅欣, 2012)。但多水平IRM只是考慮了被試的嵌套問題并沒有考慮所測(cè)潛質(zhì)的層階結(jié)構(gòu), 所以進(jìn)一步發(fā)展出既能處理所測(cè)潛質(zhì)具有層階結(jié)構(gòu), 又考慮到被試嵌套情況的項(xiàng)目反應(yīng)模型是HO-IRM接下來的一個(gè)研究方向。
SIRM假設(shè)測(cè)驗(yàn)的所有項(xiàng)目只測(cè)量一種潛質(zhì),但通常需要評(píng)估的能力是由不同低階潛質(zhì)組成的,MIRM可以對(duì)這種情況下的能力值進(jìn)行估計(jì)。有些測(cè)驗(yàn)是由多個(gè)子測(cè)驗(yàn)構(gòu)成, 每個(gè)子測(cè)驗(yàn)只測(cè)量一種潛質(zhì), 這被稱之為項(xiàng)目間多維(multidimensional between-item)。而有時(shí)會(huì)出現(xiàn)一個(gè)項(xiàng)目受多種潛質(zhì)影響的情況, 這被稱之為項(xiàng)目?jī)?nèi)多維(multidimen-sional within-item)?,F(xiàn)有的HO-IRM僅能處理項(xiàng)目間多維的情況, 而沒有研究是針對(duì)項(xiàng)目?jī)?nèi)多維而提出的。所以進(jìn)一步將HO-IRM拓展到項(xiàng)目?jī)?nèi)多維的情況可成為下一步的一個(gè)研究方向。
Huang等人指出任何項(xiàng)目反應(yīng)函數(shù)都可以發(fā)展成對(duì)應(yīng)的高階模型, 即將公式(4)代入第1階的項(xiàng)目反應(yīng)函數(shù)即可得到對(duì)應(yīng)的HO-IRM的第2階。但這只是就項(xiàng)目間多維而提出的。而對(duì)于認(rèn)知診斷模型而言, 目前僅有HO-DINA模型, 還沒有開發(fā)出其他認(rèn)知診斷模型對(duì)應(yīng)的高階模型。所以進(jìn)一步開發(fā)高階認(rèn)知診斷模型可以成為將來的一個(gè)研究方向。
現(xiàn)有的研究在對(duì)低階潛質(zhì)進(jìn)行估計(jì)時(shí), 充分考慮到各個(gè)子測(cè)驗(yàn)之間的相關(guān)性, 從而提高測(cè)量的效率和精確度; 但此時(shí)假設(shè)任意兩子測(cè)驗(yàn)之間的相關(guān)都是相等的, 而沒有對(duì)各子測(cè)驗(yàn)之間相關(guān)不等的情況做進(jìn)一步研究。已有研究使用貝葉斯模型選擇指標(biāo)來選取最適合的HO-IRM, 但對(duì)具體條件下使用何種指標(biāo)并沒有做出詳細(xì)的研究,所以對(duì)HO-IRM的模型選擇值得國(guó)內(nèi)研究者關(guān)注。
羅照盛. (2012).項(xiàng)目反應(yīng)理論基礎(chǔ).北京: 北京師范大學(xué)出版社.
漆書青, 戴海崎, 丁樹良. (2002).現(xiàn)代教育與心理測(cè)量學(xué)原理.北京: 高等教育出版社
劉慧, 簡(jiǎn)小珠, 張敏強(qiáng), 熊悅欣. (2012). 多水平IRT的發(fā)展與應(yīng)用述評(píng).心理科學(xué)進(jìn)展, 20(4), 627–632.
涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). HO-DINA模型的MCMC參數(shù)估計(jì)及模型性能研究.心理科學(xué), 34(6),1476–1481.
涂冬波, 蔡艷, 戴海琦. (2013). 基于HO-DINA模型的多級(jí)評(píng)分認(rèn)知診斷模型的開發(fā).心理科學(xué), 36(4), 984–988.
詹沛達(dá), 王文中, 王立君. (2013). 項(xiàng)目反應(yīng)理論新進(jìn)展之題組反應(yīng)理論.心理科學(xué)進(jìn)展, 21(12), 2265–2280
Andrich, D. (1978). A rating formulation for ordered response categories.Psychometrika, 43, 561–573.
Ansley, T. N., & Forsyth, R. A. (1985). An examination of the characteristics of unidimensional IRT parameter estimates derived from two-dimensional data.Applied Psychological Measurement, 9(1), 37–48.
Bradlow, E. T., Wainer, H., & Wang, X. H. (1999). A bayesian random effects model for testlets.Psychometrika,64(2), 153–168.
Christoffersson, A. (1975). Factor analysis of dichotomized variables.Psychometrika, 40(1), 5–32.
Cyr, A., & Davies, A. (2006).Item Response Theory and Latent variable modeling for surveys with complex sampling design the case of the National Longitudinal Survey of Children and Youth in Canada. Paper presented at the conference of the Federal Committee on Statistical Methodology, Office of Management and Budget, Arlington, VA.
de La Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.Psychometrika, 69(3),333–353.
de la Torre, J. (2009a). Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables.Applied Psychological Measurement,33, 465–485.
de la Torre, J., & Song, H. (2009b). Simultaneous estimation of overall and domain abilities: A higher-order IRT model approach.Applied Psychological Measurement, 33(8),620–639.
de la Torre, J., & Hong, Y. (2010). Parameter estimation with small sample size a Higher-Order IRT model approach.Applied Psychological Measurement, 34(4), 267–285.
de la Torre, J., Song, H., & Hong, Y. (2011). A comparison of four methods of IRT subscoring.Applied Psychological Measurement, 35(4), 296–316.
Frank, R. (2009).Three multidimensional models for Testletbased tests: Formal relations and an empirical comparison.Princeton, New Jersey: ETS,
Fox, J.-P. (2010).Bayesian item response modeling: Theory and applications. New York: Springer.
Golay, P., & Lecerf, T. (2011). Orthogonal higher order structure and confirmatory factor analysis of the French Wechsler Adult Intelligence Scale (WAIS-III).Psychological Assessment, 23, 143–152.
Haertel, E. H. (1989). Using restricted latent class models to map the skill structure of achievement items.Journal of Educational Measurement, 26, 301–323.
Haberman, S. J., & Sinharay, S. (2010). Reporting subscores using multidimensional item response theory.Psychometrika,75(2), 209–227.
Huang, H. Y., Chen, P. H., & Wang, W. C. (2012). Computerized adaptive testing using a class of high-order item response theory models.Applied Psychological Measurement, 36(8),689–706.
Huang, H. Y., & Wang, W. C. (2013). Higher order testlet response models for hierarchical latent traits and testlet-based tems.Educational and Psychological Measurement, 73,491–511.
Huang, H. Y., Wang, W. C., Chen, P. H., & Su, C. M. (2013).Higher-order item response models for hierarchical latent traits.Applied Psychological Measurement, 37, 619–637.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement, 25,258–272.
Masters, G. N. (1982). A Rasch model for partial credit scoring.Psychometrika, 47, 149–174.
McDonald, R. P. (1985). Factor analysis and related methods.Applied Psychological Measurement, 9(4), 435–437.
McDonald, R. P. (1997). Normal-ogive multidimensional model.Handbook of Modern Item Response Theory,257–269.
Eiji Muraki (1992). A Generalized Partial Credit Model:Application of an EM Algorithm.Applied Psychological Measurement, 16, 159–176.
Okan, B. (2013).Between-person and within-person subscore reliability: comparison of unidimensional andmultidimensional IRT models(Unpublished doctorial dissertation).Conservancy.University of Minnesota, Education.
Raudenbush, S. W., & Bryk, A. S. (2002).Hierarchical linear models: Applications and data analysis methods(2nd ed.). Thousand Oaks, CA: Sage Publications.
Reckase, M. D., & McKinley, R. L. (1982).Some latent trait theory in a multidimensional latent space. Iowa City, IA:American College Service.
Reckase, M. D., & McKinley, R. L. (1991). The discriminating power of items that measure more than one dimension.Applied Psychological Measurement, 15(4), 361–373.
Reckase, M. D. (1997). The past and future of multidimensional item response theory. AppliedPsychological Measurement,21, 25–36.
Ryan, J. J., & Schnakenberg-Ott, S. D. (2003). Scoring reliability on the Wechsler Adult Intelligence Scale-Third Edition (WAIS- III).Assessment, 10(2), 151–159
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.Psychometrika, 35, 139.
Spiegelhalter, D. J., Thomas, A., & Best, N. (2003).WinBUGS version 1.4 [Computer Program.]. Cambridge,UK: MRC Biostatistics Unit, Institute of Public Health.
Wainer, H., & Wang, X. H. (2000). Using a new statistical model for testlets to score TOEFL.Journal of Educational Measurement, 37(3), 203–220.
Wang, W.-C., & Qiu, X.-L. (2013). A multidimensional and multilevel extension of a random-effect approach to subjective judgment in rating scales.Multivariate Behavioral Research,48, 398–427.
Whitely, S. E. (1980). Multicomponent latent trait models for ability tests.Psychometrika, 45(4), 479–494.
Whitely, S. E. (1981). Measuring aptitude processes with multicomponent latent trait models.Journal of Educational Measurement, 18,67–84.
Yao, L. H. & Boughton, K. A. (2009). Multidimensional linking for tests with mixed item types.Journal of Educational Measurement, 46, 177–197.
Yao, L. H. (2010) Reporting valid and reliable overall scores and domain scores.Journal of Educational Measurement,47(3), 339–360.
Yao, L. H. (2011). Multidimensional linking for domain scores and overall scores for nonequivalent groups.Applied Psychological Measurement, 35, 48–66.
Yao, L. H. (2013). Multidimensional item response theory for score reporting. In Y. Chang & H. H. Cheng (Eds.),Advances in Modern, International Testing: Transition from Summative to Formative Assessment. Charlotte, NC:Information Age Publishing.
Yanyan, S., & Wikle, C. K. (2008). Bayesian multidimensional IRT models with a hierarchical structure.Educational and Psychological Measurement, 68(3), 413–430.
Zhang, J. M. (2012). Calibration of response data using MIRT models with simple and mixed structures.Applied Psychological Measurement, 36(5), 375–398.