国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于項(xiàng)目擬合統(tǒng)計(jì)量RMSEA的Q矩陣估計(jì)方法

2020-02-14 05:57楊亞坤朱仕浩劉芯伶
心理技術(shù)與應(yīng)用 2020年1期

楊亞坤 朱仕浩 劉芯伶

摘 要 Q矩陣在認(rèn)知診斷評(píng)估中至關(guān)重要,Q矩陣可以由相關(guān)領(lǐng)域的專家界定,也可以根據(jù)學(xué)生的作答數(shù)據(jù)進(jìn)行估計(jì)。在已有Q矩陣修正方法的基礎(chǔ)上,研究提出了基于項(xiàng)目擬合統(tǒng)計(jì)量RMSEA的Q矩陣估計(jì)方法,通過模擬和實(shí)證研究驗(yàn)證了該方法的可行性、有效性及效率。結(jié)果表明:(1)基于RMSEA的CSE算法可以有效地估計(jì)新題的屬性向量,且耗時(shí)較少;(2)對(duì)Q矩陣估計(jì)的成功率受屬性數(shù)目和基礎(chǔ)題個(gè)數(shù)影響甚大,尤其是當(dāng)屬性數(shù)目較多時(shí),要求有較多的基礎(chǔ)題個(gè)數(shù);(3)該統(tǒng)計(jì)量對(duì)被試數(shù)量要求不高,即使被試人數(shù)為400人,只要基礎(chǔ)題個(gè)數(shù)足夠多,估計(jì)效果依然較好;(4)該方法應(yīng)用于實(shí)證數(shù)據(jù)的分析,可以一定程度地優(yōu)化已有的分析結(jié)果,提高模型-數(shù)據(jù)的擬合性。

關(guān)鍵詞 認(rèn)知診斷;Q矩陣估計(jì);項(xiàng)目擬合統(tǒng)計(jì)量;DINA模型

分類號(hào) B841.2

DOI: 10.16842/j.cnki.issn2095-5588.2020.01.007

1 引言

在認(rèn)知診斷評(píng)估(Cognitive Diagnostic Assessment, CDA)中,Q矩陣表征了題目與認(rèn)知屬性之間的關(guān)聯(lián),是認(rèn)知診斷測驗(yàn)編制的藍(lán)圖。Q矩陣直接關(guān)系著診斷測驗(yàn)的質(zhì)量,并最終影響著診斷分類的精確性(涂冬波, 蔡艷, 戴海琦, 2012; Chiu, 2013; de la Torre, 2008; de la Torre & Chiu, 2010; Kunina-Habenicht,Rupp & Wilhelm,2012; Rupp & Templin, 2008)。

在CDA實(shí)踐中,可以通過采用多種方法,如文獻(xiàn)分析、學(xué)生口語報(bào)告法和領(lǐng)域?qū)<遗袛嗟却_定測驗(yàn)的Q矩陣,然而,這些方法都或多或少具有一定的主觀性。如,對(duì)于分?jǐn)?shù)減法的屬性界定至今仍存在很多的爭議性(de la Torre, 2008; DeCarlo, 2011, 2012)。因此,研究者提出直接從學(xué)生作答數(shù)據(jù)中估計(jì)測驗(yàn)Q矩陣。DeCarlo(2012)基于DINA模型(Junker, & Sijtsma, 2001),提出可以使用貝葉斯方法直接估計(jì)Q矩陣中不確定的元素。貝葉斯方法在一定程度上克服了主觀性,但需要事先知道Q矩陣中哪些元素或項(xiàng)目是不確定的。Liu,Xu和Ying(2012)嘗試通過最小化S統(tǒng)計(jì)量直接從作答數(shù)據(jù)估計(jì)出Q矩陣,并證明了估計(jì)的Q矩陣收斂于真實(shí)Q矩陣。但此方法在計(jì)算題目數(shù)和屬性個(gè)數(shù)時(shí),計(jì)算量巨大且耗時(shí)。喻曉鋒等人(2015)直接從模型—數(shù)據(jù)擬合的角度,構(gòu)建并使用似然比D2統(tǒng)計(jì)量,在搜索算法的基礎(chǔ)上,通過一定數(shù)量的基礎(chǔ)題(即屬性考核模式已知的項(xiàng)目),使用LROE(Likelihood Ratio Online Estimation)算法,來定義題目考核模式,進(jìn)而估計(jì)Q矩陣。模擬研究顯示,該方法可以較好地用于在線項(xiàng)目估計(jì),在執(zhí)行效率上也較Liu,Xu和Ying(2012, 2013)的S統(tǒng)計(jì)量更高。根據(jù)模型—數(shù)據(jù)擬合的思路,汪大勛,高旭亮,蔡艷,涂冬波(2018)和汪大勛,高旭亮, 韓雨婷,涂冬波(2018)分別通過重現(xiàn)建構(gòu)屬性一致性指標(biāo)(hierarchy consistency index; HCI)和RSS(residual sum of squares)指標(biāo),提出了兩種非參數(shù)的Q矩陣估計(jì)方法,即ICC-IR(ICC based on ideal response)法和基于海明距離的 Q 矩陣估計(jì)方法。非參數(shù)估計(jì)方法操作簡單,但不能獲取題目的相關(guān)參數(shù),不能進(jìn)行項(xiàng)目質(zhì)量的評(píng)估與擬合檢驗(yàn)等。且與喻曉鋒等(2015)方法相似,ICC-IR法和基于海明距離的 Q 矩陣估計(jì)方法通過搜索算法使得項(xiàng)目對(duì)應(yīng)的指標(biāo)或統(tǒng)計(jì)量最大/最小,實(shí)現(xiàn)對(duì)Q矩陣的估計(jì),相比Liu等(2012,2013)的S統(tǒng)計(jì)量方法更簡單明了,便于操作,但由于沒有明確的擬合范圍,在修正階段需要對(duì)Q矩陣中的題目進(jìn)行逐個(gè)修正,直至收斂。如果初步估計(jì)的Q矩陣正確題目較多,就會(huì)浪費(fèi)時(shí)間,如果正確的題目較少,錯(cuò)誤的題目可能會(huì)影響統(tǒng)計(jì)量的準(zhǔn)確性,進(jìn)而把正確的題目重新估計(jì)錯(cuò)誤。

一個(gè)好的用于Q矩陣估計(jì)的擬合統(tǒng)計(jì)量,應(yīng)該簡單高效且有確定的擬合范圍。 von Davier(2005)提出了一個(gè)可以用于認(rèn)知診斷的項(xiàng)目擬合統(tǒng)計(jì)量近似誤差均方根(Root Mean Square Error of Approximation, RMSEA)。Kunina-Habenicht, Rupp和Wilhelm(2009,2012)通過模擬和實(shí)證研究,將該統(tǒng)計(jì)量作為評(píng)估認(rèn)知診斷測驗(yàn)中項(xiàng)目質(zhì)量擬合好壞的指標(biāo),并給出了擬合范圍:RMSEA小于0.05為擬合很好;介于0.05~0.1為中度擬合;大于0.1為不擬合。Kang, Yang和Zeng (2019)進(jìn)一步將該統(tǒng)計(jì)量應(yīng)用于Q矩陣的修正中,并從數(shù)理上證明了該統(tǒng)計(jì)量的合理性,模擬研究表明,該統(tǒng)計(jì)量可以找出Q矩陣的不擬合項(xiàng)目并進(jìn)行修正。然而, Kunina-Habenicht等(2009, 2012)和Kang等(2019)使用RMSEA探測不擬合項(xiàng)目或進(jìn)行Q矩陣修正,但并沒有進(jìn)一步使用RMSEA對(duì)Q矩陣進(jìn)行估計(jì)。借鑒喻曉鋒等(2015)LROE算法的思路,使用項(xiàng)目擬合統(tǒng)計(jì)量RMSEA對(duì)Q矩陣進(jìn)行估計(jì),在修正階段就可以利用其擬合范圍找到不擬合項(xiàng)目,然后僅對(duì)不擬合項(xiàng)目中的項(xiàng)目進(jìn)行修正,應(yīng)該能在一定程度上節(jié)省搜索時(shí)間,提高修正效率。為此,本文擬提出一種基于RMSEA的Q矩陣估計(jì)方法,并通過模擬研究驗(yàn)證其估計(jì)效果。研究包括:(1)基于RMSEA的Q矩陣修正算法; (2)算法的有效性及效率; (3)討論與結(jié)論。

2 基于RMSEA的Q矩陣修正算法

2.1 DINA模型

本研究使用DINA模型來考察該統(tǒng)計(jì)量作為Q矩陣估計(jì)的擬合統(tǒng)計(jì)量,DINA模型易于解釋且簡潔,具有擴(kuò)展到更復(fù)雜認(rèn)知診斷模型的潛力(de la Torre,2009;Park & Lee,2014)。并且DINA模型常被用于Q矩陣估計(jì)和修正方法的研究中(涂冬波,蔡艷,戴海崎,2012; 汪大勛,高旭亮等,2018;喻曉鋒等,2015; DeCarlo, 2012; de la Torre,2008)。

2.2 最小統(tǒng)計(jì)量算法

Chiu(2013)基于非參數(shù)分類方法,提出通過計(jì)算項(xiàng)目的RSS值來為可能存在錯(cuò)誤的項(xiàng)目進(jìn)行重新定義。對(duì)于項(xiàng)目j,如果屬性考察個(gè)數(shù)k已知,那么該項(xiàng)目的可能屬性向量就可以知道。比如,基于DINA模型,不考慮屬性之間的層級(jí)關(guān)系,對(duì)于任何項(xiàng)目,其可能的屬性向量均為2k-1種?;诜菂?shù)方法,計(jì)算項(xiàng)目j在不同屬性向量下的RSS值,找到使得RSS值最小所對(duì)應(yīng)的那個(gè)屬性向量,并把其作為項(xiàng)目j新的屬性向量。類似的,喻曉鋒等(2015)、汪大勛等(2018)在一定數(shù)量的基礎(chǔ)題上,采用“增量”的方式,即每次只考慮一個(gè)項(xiàng)目,通過計(jì)算項(xiàng)目的似然比統(tǒng)計(jì)量D2,利用LROE算法,尋找每個(gè)項(xiàng)目j在不同屬性向量下的最小D2對(duì)應(yīng)的屬性向量,對(duì)項(xiàng)目進(jìn)行逐個(gè)估計(jì),進(jìn)而估計(jì)Q矩陣。為便于表述,本文將這種通過尋找統(tǒng)計(jì)量最小值對(duì)應(yīng)的項(xiàng)目屬性向量來對(duì)項(xiàng)目進(jìn)行重新定義的方法,稱為最小統(tǒng)計(jì)量算法。

最小統(tǒng)計(jì)量算法通過每次估計(jì)一個(gè)項(xiàng)目,來對(duì)Q矩陣進(jìn)行定義或修正,一般包括兩個(gè)階段:估計(jì)階段和校正階段。在估計(jì)階段,利用不同的估計(jì)方法,如非參數(shù)分類方法或EM算法,估計(jì)獲得被試的屬性掌握模式或項(xiàng)目參數(shù),計(jì)算不同屬性向量對(duì)應(yīng)的項(xiàng)目統(tǒng)計(jì)量值,并把項(xiàng)目重新定義為統(tǒng)計(jì)量值最小時(shí)對(duì)應(yīng)的屬性向量。在校正階段,對(duì)所有項(xiàng)目逐個(gè)進(jìn)行估計(jì),直至達(dá)到某個(gè)收斂標(biāo)準(zhǔn)(汪大勛等,2018;喻曉鋒等,2015)。

2.3 基于RMSEA的最小統(tǒng)計(jì)量算法

本文借鑒前人研究的思路,介紹基于最小RMSEA的Q矩陣修正算法,因RMSEA為基于卡方的統(tǒng)計(jì)量,為方便介紹,將基于RMSEA的算法命名為CSE(Chi Square Estimation)算法。假設(shè)已有少量屬性向量正確的項(xiàng)目,稱為基礎(chǔ)題,記為Qbase;屬性未知的項(xiàng)目稱為新題,記為Qnew。CSE算法的具體步驟如下:

第一步,估計(jì)階段:

(1)從需要定義的新題Qnew中選取一個(gè),為qnew,將其加到Qbase中;同時(shí)把受測者在qnew上的作答數(shù)據(jù)也加到Qbase的作答數(shù)據(jù)中。

(2)為qnew選擇可能的屬性向量,根據(jù)選擇的屬性向量組成的新Q矩陣和作答數(shù)據(jù)(Qbase和qnew組合而成),使用EM算法(de la Torre,2009)進(jìn)行參數(shù)估計(jì)。

(3)計(jì)算每種可能的屬性向量下,qnew的項(xiàng)目擬合統(tǒng)計(jì)量RMSEAqj,選擇項(xiàng)目擬合統(tǒng)計(jì)量RMSEAqj最小時(shí),qnew對(duì)應(yīng)的屬性向量為其題目屬性向量,把該題納入Qbase,記作Qbase2

(4)把qnew從Qnew中忽略,即Qnew2=Qnew\(qnew)。

(5)把Qbase2和Qnew2分別賦值給Qbase和Qnew,重復(fù)1~4,直至所有新題估計(jì)完成,得到估計(jì)后的Q矩陣,記為Q0。

第二步,校正階段:

(1)以所有作答數(shù)據(jù)(即Qnew和Qbase上的作答數(shù)據(jù))和Q0矩陣進(jìn)行參數(shù)估計(jì),計(jì)算每題的項(xiàng)目擬合統(tǒng)計(jì)量RMSEAj。

(2)找出其中項(xiàng)目擬合統(tǒng)計(jì)量RMSEAj大于0.05的項(xiàng)目。

(3)計(jì)算每種項(xiàng)目屬性向量下,項(xiàng)目j的項(xiàng)目擬合統(tǒng)計(jì)量RMSEAj,并把項(xiàng)目擬合統(tǒng)計(jì)量RMSEAj最小時(shí)對(duì)應(yīng)的項(xiàng)目屬性向量更新為項(xiàng)目j的屬性向量。直至所有項(xiàng)目擬合統(tǒng)計(jì)量RMSEAj大于0.05的項(xiàng)目都進(jìn)行了校正。

(4)算法結(jié)束,此時(shí)所得Q矩陣作為最終估計(jì)值。

已有的研究使用最小統(tǒng)計(jì)量算法對(duì)Q矩陣的項(xiàng)目逐個(gè)進(jìn)行估計(jì),實(shí)現(xiàn)對(duì)屬性向量未知項(xiàng)目的定義。但是,初步估計(jì)得到Q矩陣仍可能存在錯(cuò)誤,需反復(fù)逐個(gè)項(xiàng)目校正直至達(dá)到某個(gè)收斂標(biāo)準(zhǔn)。這種沒有針對(duì)性的校正耗費(fèi)時(shí)間,且可能出現(xiàn)不收斂的情況。CSE算法使用RMSEA的擬合范圍,只對(duì)擬合不好的項(xiàng)目進(jìn)行重新估計(jì),可以大大縮減算法執(zhí)行時(shí)間,提高修正效率。

3 模擬研究:CSE算法的有效性及效率3.1 研究目的

為了研究最小RMSEA算法對(duì)Q矩陣估計(jì)的有效性和效率,即使用一定數(shù)量的基礎(chǔ)題,逐個(gè)加入新題,利用CSE算法對(duì)新題進(jìn)行估計(jì)。從屬性個(gè)數(shù)、基礎(chǔ)題個(gè)數(shù)和被試人數(shù)等3個(gè)方面考察CSE算法的穩(wěn)健性。

3.2 研究方法

3.2.1 研究設(shè)計(jì)

在被試的屬性掌握模式為均勻分布的情況下,研究為包含3種屬性個(gè)數(shù)(K=3,4,5),4種被試人數(shù)(N=400,500,800,1000),5種基礎(chǔ)題個(gè)數(shù)(J=8,9,10,11,12)的3×4×5的交叉設(shè)計(jì),共60種條件。包含20個(gè)題目的Q矩陣真值(喻曉鋒等,2015; Li ,Xu & Ying, 2012),見圖1。其考察的屬性個(gè)數(shù)遞增,分別為3、4、5,記為Q1、Q2、Q3。

3.2.2 數(shù)據(jù)模擬

DINA模型下,當(dāng)屬性考察個(gè)數(shù)為K時(shí),被試屬性掌握模式為2k種;將被試按均勻分布分配到各屬性掌握模式中,使每種屬性掌握模式上的人數(shù)大致相等。然后使用公式1,分別得到被試在Q1、Q2、Q3上的理想反應(yīng)模式(Ideal Response Pattern, IRP);生成題目參數(shù)s和g,在區(qū)間[ 0.05,0.25 ]隨機(jī)產(chǎn)生且服從均勻分布(喻曉鋒等,2015)。根據(jù)IRP使用公式2,計(jì)算被試在Q1、Q2、Q3上的正確作答概率,并將其與均勻分布U(0,1)的隨機(jī)數(shù)比較,當(dāng)正確作答概率大于隨機(jī)數(shù),則被試作答正確,否則作答錯(cuò)誤。

每種條件模擬100批數(shù)據(jù),從中隨機(jī)抽取不同個(gè)數(shù)的基礎(chǔ)題及其對(duì)應(yīng)的屬性向量作為初始Q矩陣,這樣每種基礎(chǔ)題個(gè)數(shù)下都有100個(gè)初始Q矩陣。

3.2.3 參數(shù)估計(jì)與數(shù)據(jù)分析

以初始Q矩陣和對(duì)應(yīng)的被試作答數(shù)據(jù)作為估計(jì)算法的出發(fā)點(diǎn),使用CSE算法的第一步,逐個(gè)將新題加入到基礎(chǔ)題中進(jìn)行估計(jì),直至所有新題估計(jì)完成。使用CSE算法第二步進(jìn)行校正,確定最終Q矩陣。

3.2.4 評(píng)價(jià)指標(biāo)

對(duì)于不同基礎(chǔ)題個(gè)數(shù),計(jì)算CSE算法在100個(gè)初始Q矩陣下的估計(jì)成功率(估計(jì)得到的Q矩陣與原始Q矩陣的相同率),以此作為算法的評(píng)價(jià)指標(biāo)(汪大勛等,2018;喻曉鋒等,2015; Liu,Xu & Ying,2012)。3.3 研究結(jié)果

3.3.1 CSE算法具有較高的估計(jì)成功率

表1是各條件下CSE算法的估計(jì)結(jié)果。從表1可以看出,CSE算法的成功率分布范圍為25%~100%,除了Q3時(shí)8,9,10個(gè)基礎(chǔ)題下的成功率較低外,其他各條件下的成功率均較高??v觀60個(gè)條件下的成功率(每條件下均為重復(fù)100次的均值),可以發(fā)現(xiàn):在14個(gè)條件下,其成功率為100%(見加黑的數(shù)字),成功率在90%~99%的有18個(gè)條件,在80%~90%的有8個(gè)條件。由此,60種實(shí)驗(yàn)條件下,成功率在80%以上的有40個(gè)。此外,成功率在60%以下的有10個(gè)條件,為屬性個(gè)數(shù)較多基礎(chǔ)題又較少的各個(gè)條件(見表1斜體數(shù)字)。

3.3.2 成功率受樣本容量的影響相對(duì)較小

結(jié)合表1和圖2、圖3、圖4可以看出,相對(duì)屬性數(shù)目(Q矩陣)和基礎(chǔ)題個(gè)數(shù),CSE算法估計(jì)成功率受樣本容量影響甚微。在Q1條件下,5種基礎(chǔ)題個(gè)數(shù)下的成功率在樣本容量上的變量最大只有2%(基礎(chǔ)題9時(shí), 樣本容量400~800變化時(shí)的98%~100%), 多數(shù)條件下成功率基本不變; 在Q2和Q3條件下, 成功率隨樣本容量的變化稍微大點(diǎn),但一般情況下也只變化5、6個(gè)百分點(diǎn),最大也只變化了15個(gè)百分點(diǎn),為Q2條件下8基礎(chǔ)題時(shí),樣本容量500~1000時(shí)的63%~78%。因此,在屬性數(shù)目較少時(shí),樣本容量基本不影響CSE算法的估計(jì)成功率,但隨著屬性數(shù)目的增多,樣本容量也不宜太小。

3.3.3 成功率受屬性數(shù)目和基礎(chǔ)題個(gè)數(shù)影響顯著 ?從表1中的平均估計(jì)成功率,結(jié)合圖2、圖3、圖4縱坐標(biāo)的截距點(diǎn)和變化趨勢明顯地看出, 相對(duì)于樣本容量,CSE算法成功率受屬性數(shù)目和基礎(chǔ)題個(gè)數(shù)影響顯著。從3個(gè)圖中可以看出,各樣本容量的變化趨勢線挨得很近,表明成功率受樣本容量影響甚微。然而,各圖中縱坐標(biāo)的起點(diǎn)和終點(diǎn)差異很大,表明成功率受屬性數(shù)目和基礎(chǔ)題個(gè)數(shù)影響明顯。具體而言:當(dāng)基礎(chǔ)題個(gè)數(shù)從8個(gè)增加到12個(gè)時(shí),成功率的變化為:Q1時(shí), 成功率從98%增加到100%; Q2時(shí), 成功率從70.5%增加逐步遞增到98.5%,起點(diǎn)較Q1時(shí)低,但變化幅度較Q1時(shí)大,增加了28個(gè)百分點(diǎn);Q3時(shí),起點(diǎn)再次降低,幅度再次提升,從30.5%增加到86.5%,上升了56個(gè)百分點(diǎn)。進(jìn)一步對(duì)Q1、Q2、Q3不同基礎(chǔ)題個(gè)數(shù)的估計(jì)成功次數(shù)進(jìn)行Kurskal-Wallis H檢驗(yàn),結(jié)果顯示不同個(gè)數(shù)的基礎(chǔ)題估計(jì)成功率有顯著差異,分別為χ22=14.85, df=4,p<0.01;χ22=16.72, df=4,p<0.01;χ22=17.91, df=4,p<0.001。由此,可以得出:CSE算法估計(jì)成功率隨著屬性數(shù)目的增加而減低,隨著基礎(chǔ)題個(gè)數(shù)的增加而升高,但受樣本容量影響相對(duì)較小。在Q矩陣估計(jì)中,基礎(chǔ)題個(gè)數(shù)非常重要,當(dāng)屬性數(shù)目沒辦法改變時(shí),提高成功率的重要途徑則是增加基礎(chǔ)題個(gè)數(shù)。

3.3.4 CSE算法的執(zhí)行時(shí)間少,具有較高的效率 ?表2列出了各條件下算法完成一次估計(jì)和校正的平均用時(shí)。在60個(gè)條件下,平均用時(shí)的波動(dòng)范圍為約9s(N=1000, J=12, K=3)~15min(N=500,J=8,K=5)??v觀表2的所有數(shù)據(jù),可以發(fā)現(xiàn):執(zhí)行時(shí)間受屬性數(shù)目影響較大,而與基礎(chǔ)題個(gè)數(shù)和樣本容量關(guān)系不大。表2最右側(cè)列出了各條件下的平均用時(shí)。Q1時(shí),所需時(shí)間為10.07~10.70秒;Q2時(shí),所需時(shí)間為139.10~180.11秒;Q3時(shí),所需時(shí)間為635.60~682.50秒。可見,在每個(gè)Q矩陣內(nèi)部,執(zhí)行時(shí)間因樣本容量和基礎(chǔ)題個(gè)數(shù)影響甚小,但在每個(gè)Q矩陣之間,每增加一個(gè)屬性,所需時(shí)間從10秒左右變化到100多秒直至5個(gè)屬性時(shí)的600多秒。

4 實(shí)證研究:CSE算法在實(shí)證數(shù)據(jù)中的應(yīng)用 ?為進(jìn)一步探討CSE算法在實(shí)際應(yīng)用中的效果,本研究使用該方法對(duì)K. K. Tatsuoka (1990)的分?jǐn)?shù)減法數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)包含了536名學(xué)生在15個(gè)測驗(yàn)項(xiàng)目上的作答,測驗(yàn)考察了5個(gè)屬性,測驗(yàn)Q矩陣改編自Missevy(1996)。該數(shù)據(jù)在之前的Q矩陣的估計(jì)和修正研究中均被使用(汪大勛等,2018;DeCarlo, 2012; de la Torre, 2008)。根據(jù)原始作答數(shù)據(jù)和Q矩陣,使用DINA模型計(jì)算出各項(xiàng)目的鑒別度指數(shù)(item discrimination index, IDI; Lee, de la Torre & Park,2012)。將數(shù)據(jù)按IDI從高到低排列,分別選取前6、7、8、9、10題作為基礎(chǔ)題,對(duì)剩余項(xiàng)目逐個(gè)進(jìn)行估計(jì)。分析重新估計(jì)后的Q矩陣與原始Q矩陣的一致性程度,其中Q矩陣共有15×5=75個(gè)元素,計(jì)算相同元素的比例(括號(hào)內(nèi)為相同元素個(gè)數(shù)),結(jié)果如下表。從表3可以看出,使用不同基礎(chǔ)題個(gè)數(shù),估計(jì)得到的Q矩陣與原始Q矩陣一致性程度差異不大,說明不同基礎(chǔ)題個(gè)數(shù)下Q矩陣的估計(jì)結(jié)果趨于穩(wěn)定。

為比較估計(jì)的Q矩陣與原始Q矩陣的合理性,這里分別計(jì)算根據(jù)不同Q矩陣其模型擬合指標(biāo)(即負(fù)2倍的對(duì)數(shù)似然、AIC和BIC指標(biāo))。結(jié)果見表4。從表4可以看出,重新估計(jì)的Q矩陣在擬合指標(biāo)上優(yōu)于原始Q矩陣,且隨著基礎(chǔ)題個(gè)數(shù)的增加,呈現(xiàn)逐漸優(yōu)化的趨勢。在基礎(chǔ)題為10個(gè)時(shí), 各擬合指標(biāo)相比于9個(gè)時(shí)略變差,這可能是因?yàn)榛A(chǔ)題為10個(gè)時(shí),基礎(chǔ)題包含鑒別指數(shù)前10的項(xiàng)目,第10個(gè)項(xiàng)目鑒別指標(biāo)較小,作為基礎(chǔ)題有一定偏差。總體而言,估計(jì)Q矩陣在基礎(chǔ)題9個(gè)時(shí)達(dá)到最優(yōu),且優(yōu)于原始Q矩陣擬合水平。

5 討論

Q矩陣界定是認(rèn)知診斷研究中的一個(gè)重要問題,尤其是在認(rèn)知診斷計(jì)算機(jī)自適應(yīng)測驗(yàn)中,常常需要對(duì)題庫的項(xiàng)目進(jìn)行在線標(biāo)定。為獲得有效、客觀的Q矩陣,本文從項(xiàng)目擬合的角度,提出一種基于項(xiàng)目擬合統(tǒng)計(jì)量RMSEA的Q矩陣項(xiàng)目估計(jì)思路,并通過模擬和實(shí)證研究考察了方法的有效性和穩(wěn)定性。

5.1 RMSEA可以作為題目屬性向量估計(jì)的有效指標(biāo) ?使用CSE算法基于一定數(shù)量的基礎(chǔ)題對(duì)新題逐個(gè)進(jìn)行估計(jì),并把0.05作為擬合臨界值,在校正階段只對(duì)大于擬合值的項(xiàng)目進(jìn)行重新估計(jì),耗時(shí)較短,效率較高。為了說明CSE算法的有效性和效率,加入與同樣基于參數(shù)的Q矩陣估計(jì)的LROE算法的比較。

從表5可以看出,在屬性考察個(gè)數(shù)為3個(gè)或4個(gè)時(shí)CSE算法估計(jì)成功率比LROE算法高,這可能是因?yàn)楫?dāng)屬性個(gè)數(shù)較少時(shí),基于相同數(shù)目的基礎(chǔ)題,RMSEA能準(zhǔn)確地找到項(xiàng)目屬性向量,在校正階段可以有效的識(shí)別并校正錯(cuò)誤項(xiàng)目而不是對(duì)所有項(xiàng)目進(jìn)行重新估計(jì)。當(dāng)屬性考察個(gè)數(shù)為5個(gè)時(shí),CSE算法估計(jì)成功率總體較LROE算法略低,這可能是因?yàn)閷傩詡€(gè)數(shù)為5個(gè)時(shí),基礎(chǔ)題個(gè)數(shù)較少,估計(jì)得到的Q矩陣包含的錯(cuò)誤較多,當(dāng)使用擬合臨界值作為修正臨界值,對(duì)Q矩陣中錯(cuò)誤的項(xiàng)目不能有效的識(shí)別并修正。不過,兩者所呈現(xiàn)的趨勢仍然是一致的,即隨著基礎(chǔ)題個(gè)數(shù)的增加,算法的表現(xiàn)越來越好。因此,當(dāng)屬性個(gè)數(shù)較多時(shí),可以適當(dāng)增加基礎(chǔ)題以達(dá)到較為理想的效果。此外,從表6可以看出,CSE算法在各條件下所花費(fèi)時(shí)間明顯比LROE算法少,這表明CSE算法效率較高。

關(guān)于臨界值的選取,Kunina-Habenicht等(2012)指出I類錯(cuò)誤率相同的情況下,對(duì)于不同條件(樣本大小和屬性考察個(gè)數(shù))沒有單一的截?cái)嘀担芯空呋驊?yīng)用者可以根據(jù)特定的條件進(jìn)行模擬,獲取該條件下更精確的臨界值。不過可以肯定的是,當(dāng)Q矩陣錯(cuò)誤較少時(shí),選擇較為寬松的臨界值可以節(jié)省時(shí)間,且可達(dá)到較好的修正效果(Kang et al., 2019)。這也說明選取一個(gè)合適的截?cái)嘀?,不僅可以有效的識(shí)別和修正Q矩陣中的錯(cuò)誤,也可以減少Q(mào)矩陣估計(jì)時(shí)修正階段所花費(fèi)的時(shí)間。未來研究可以進(jìn)一步探討,不同條件下,臨界值的選取對(duì)Q矩陣估計(jì)的影響。此外,該方法對(duì)被試人數(shù)的要求不高,但對(duì)于基礎(chǔ)題(即屬性向量界定正確的題目)個(gè)數(shù)有一定要求。

5.2 CSE算法用于實(shí)證數(shù)據(jù)分析效果較好

對(duì)于分?jǐn)?shù)減法的屬性界定至今仍存在很多爭議(DeCarlo,2011,2012; de la Torre, 2008),本研究通過將CSE算法應(yīng)用于分?jǐn)?shù)減法數(shù)據(jù)的分析,發(fā)現(xiàn)使用不同數(shù)量的基礎(chǔ)題,能在一定程度上提高數(shù)據(jù)—模型的擬合水平;且隨著基礎(chǔ)題個(gè)數(shù)的增加,該方法的表現(xiàn)逐漸變好,這與模擬研究發(fā)現(xiàn)的結(jié)果一致。在基礎(chǔ)題個(gè)數(shù)為9個(gè)時(shí),估計(jì)Q矩陣擬合情況整體最好, 與汪大勛, 高旭亮, 韓雨婷等(2018)所得結(jié)果較為一致。由此,該方法在用于實(shí)證數(shù)據(jù)的分析時(shí)也可以取得較好的效果。

此外,CSE算法是一種直接從模型—數(shù)據(jù)擬合角度對(duì)Q矩陣進(jìn)行估計(jì)的方法,對(duì)被試數(shù)量要求不高,并且不同認(rèn)知診斷模型RMSEA的計(jì)算在R語言直接調(diào)用即可,具有較強(qiáng)的適用性,可以滿足多種研究或?qū)嵺`的需要。

6 結(jié)論

本研究通過模擬實(shí)驗(yàn)和實(shí)證數(shù)據(jù)分析,探討了將RMSEA用于Q矩陣估計(jì)的方法的可行性、有效性及效率問題,得到以下結(jié)論:(1)基于RMSEA的CSE算法可以有效地估計(jì)新題的屬性向量,且耗時(shí)較少;(2)對(duì)Q矩陣估計(jì)的成功率受屬性數(shù)目和基礎(chǔ)題個(gè)數(shù)影響甚大,尤其是當(dāng)屬性數(shù)目較多時(shí),要求有較多的基礎(chǔ)題個(gè)數(shù);(3)該統(tǒng)計(jì)量對(duì)被試數(shù)量要求不高,即使被試人數(shù)為400人,只要基礎(chǔ)題個(gè)數(shù)足夠多,估計(jì)效果依然較好,可適于中等規(guī)模的測評(píng)中;(4)該方法應(yīng)用于實(shí)證數(shù)據(jù)的分析,可以一定程度的優(yōu)化已有的分析結(jié)果,提高模型—數(shù)據(jù)的擬合性。

參考文獻(xiàn)

涂冬波, 蔡艷, 戴海崎(2012). 基于DINA模型的Q矩陣修正方法. 心理學(xué)報(bào), 44(4), 558-568.

汪大勛, 高旭亮, 韓雨婷, 涂冬波(2018). 一種簡單有效的Q矩陣估計(jì)方法開發(fā):基于非參數(shù)化方法視角. 心理科學(xué), 41(1), 180-188.

汪大勛, 高旭亮, 蔡艷, 涂冬波(2018). 一種非參數(shù)化的Q矩陣估計(jì)方法:ICC-IR方法開發(fā). 心理科學(xué), 41(2), 466-474.

喻曉鋒, 羅照盛, 高椿雷, 李喻駿, 王睿, 王鈺彤(2015). 使用似然比D2統(tǒng)計(jì)量的題目屬性定義方法. 心理學(xué)報(bào), 47(3), 417-426.

Chiu, C. Y. (2013). Statistical Refinement of the Q-matrix in Cognitive Diagnosis. Applied Psychological Measurement, 37(8), 598-618.

DeCarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes, and the Q-matrix. Applied Psychological Measurement, 35(1), 8-26.

DeCarlo, L. T. (2012). Recognizing uncertainty in the Q-matrix via a Bayesian extension of the DINA model. Applied Psychological Measurement, 36(6), 447-468.

de la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4), 343-362.

de la Torre, J. (2009). DINA model and parameter estimation: A didactic. Journal of Educational and Behavioral Statistics, 34(1), 115-130.

de la Torre, J., & Chiu, C. -Y. (2010). A General Method of Empirical QMatrix Validation Osing the GDINA Model Discrimination Index. Paper Presented at the Annual Meeting of the National Council on Measurement in Education, Denver.

Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.

Kang, C., Yang, Y., & Zeng, P. (2019). Q-Matrix Refinement Based on Item Fit Statistic RMSEA. Applied Psychological Measurement, 43(7), 527-542.

Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2009). A practical illustration of multidimensional diagnostic skills profiling: Comparing results from confirmatory factor analysis and diagnostic classification models. Studies in Educational Evaluation, 35(2-3), 64-70.

Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2012). The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models. Journal of Educational Measurement, 49(1), 59-81.

Lee, Y. S., de la Torre, J., & Park, Y. S. (2012). Relationships between cognitive diagnosis, CTT, and IRT indices: An empirical investigation. Asia Pacific Education Review, 13(2), 333-345.

Liu, J., Xu, G., & Ying, Z. (2012). Data-driven learning of Q-matrix. Applied psychological measurement, 36(7), 548-564.

Liu, J., Xu, G., & Ying, Z. (2013). Theory of the self-learning Q-matrix. Bernoulli, 19(5A), 1790-1817.

Mislevy, R. J. (1996). Test theory reconceived. Journal of Educational Measurement, 33(4), 379-416.

Park, Y. S., & Lee, Y. S. (2014). An extension of the DIAN model using covariates: examining factors affecting response probability and latent classification. Applied Psychological Measurement, 38(5), 376-390.

Rupp, A. A., & Templin, J. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model. Educational and Psychological Measurement, 68(1), 78-96.

Tatsuoka, K. K. (1990). Toward an integration of item-response theory and cognitive error diagnosis. Diagnostic monitoring of skill and knowledge acquisition, 453-488.

von Davier, M. (2005). A general diagnostic model applied to language testing data. ETS Research Report Series, 2005(2), 1-35.

Abstract

Usually, cognitive diagnostic assessment (CDA) is based on a test and the corresponding cognitive diagnostic model to construct a diagnostic analysis. Many approaches need a Qmatrix which reflects how attributes are measured in each item when applying the cognitive diagnosis model into an assessment. Qmatrix plays an important role in CDA. Qmatrix can be defined by experts in related fields, and also can be estimated according to students response data. Based on the existing Qmatrix refinement methods, a Qmatrix estimation method using an item fitting statistics RMSEA is proposed. The effectiveness and efficiency of the method are verified by a simulation study. And a real data analysis is also included. The results show that: (1) the CSE algorithm based on RMSEA can effectively estimate the attribute vectors of new items, and it takes less time; (2) the success recovery rate of Qmatrix estimation is greatly affected by the number of attributes and the number of basic items, especially when the number of attributes is large, it requires more basic items to estimate the attribute vectors of new items; (3) The sample size has little effect on the performance of CSE approach and a big sample size is not necessary to implement the Qmatrix modification method. Even if the number of subjects is 400, as long as the number of basic items is enough, it can have a high recovery ratio; (4) The application of this method to the analysis of empirical data can optimize the existing analysis results to a certain extent and improve the fitting of model-data.

Key words: cognitive diagnosis; Qmatrix estimation; item fit statistic; DINA model

宁陵县| 新竹市| 姜堰市| 蒙阴县| 讷河市| 河东区| 巨野县| 雷山县| 安国市| 海伦市| 监利县| 陕西省| 马边| 龙泉市| 汝阳县| 湛江市| 安陆市| 宁乡县| 长岛县| 洛宁县| 东丰县| 体育| 马山县| 辉县市| 齐河县| 英吉沙县| 高青县| 河北省| 安陆市| 加查县| 威宁| 玉溪市| 西乡县| 铜山县| 隆回县| 蓬安县| 阳东县| 阳春市| 汤阴县| 瑞安市| 太保市|