喻曉鋒 羅照盛 秦春影 高椿雷 李喻駿
(1江西師范大學(xué)心理學(xué)院,南昌 330022)(2亳州師范高等專(zhuān)科學(xué)校,亳州 236800)
認(rèn)知診斷評(píng)價(jià)(也稱(chēng)認(rèn)知診斷)是現(xiàn)代心理與教育測(cè)量學(xué)發(fā)展的新方向,它是心理學(xué)(如認(rèn)知心理學(xué)、心理測(cè)量學(xué))、數(shù)學(xué)(如現(xiàn)代統(tǒng)計(jì)數(shù)學(xué))和計(jì)算機(jī)科學(xué)等相結(jié)合的產(chǎn)物。相對(duì)于其它的測(cè)驗(yàn)形式,認(rèn)知診斷最吸引人的地方是能夠提供被試在測(cè)驗(yàn)領(lǐng)域上細(xì)粒度的掌握情況報(bào)告。認(rèn)知診斷通過(guò)被試在測(cè)驗(yàn)項(xiàng)目上的反應(yīng)推斷被試在測(cè)驗(yàn)領(lǐng)域上的知識(shí)掌握詳情(即屬性掌握模式),這個(gè)屬性掌握模式可以使我們更準(zhǔn)確的了解被試在測(cè)驗(yàn)領(lǐng)域上的長(zhǎng)處和不足,有利于進(jìn)一步的學(xué)習(xí)和輔導(dǎo)。近年來(lái),越來(lái)越多的研究者加入到認(rèn)知診斷評(píng)價(jià)的理論和應(yīng)用研究中,認(rèn)知診斷的理論和實(shí)踐都取得了較快的發(fā)展。
在認(rèn)知診斷評(píng)價(jià)研究過(guò)程中發(fā)展出了許多的計(jì)量學(xué)認(rèn)知診斷模型,如規(guī)則空間模型(Rule Space Model,RSM)(Tatsuoka,2009)、屬性層級(jí)方法(Attribute Hierarchy Method,AHM)(Leighton,Gierl,&Hunka,2004)、DINA(Deterministic Inputs,Noisy“And” gate,DINA)(Junker &Sijtsma,2001 )模型等。本文中的認(rèn)知診斷模型特指潛在分類(lèi)模型(Latent Class Model,LCM)(de la Torre &Douglas,2004;Maris,1999),不包括多成分潛在特質(zhì)模型(Multicomponent Latent Trait Model,MLTM)(Embretson &Yang,2013)。在眾多的診斷模型中,DINA模型由于簡(jiǎn)單、易于解釋而受到廣泛的關(guān)注。Q矩陣(Tatsuoka,1983)是認(rèn)知診斷評(píng)價(jià)的一個(gè)重要組成部分,幾乎所有的認(rèn)知診斷評(píng)價(jià)研究都要建構(gòu)一個(gè)Q矩陣。被試的屬性掌握模式是潛在的、不可觀(guān)察的,我們只能通過(guò)可觀(guān)察的項(xiàng)目反應(yīng)來(lái)推斷被試的屬性掌握模式,而這之間的橋梁是Q矩陣。因此,Q矩陣的準(zhǔn)確性對(duì)于認(rèn)知診斷評(píng)價(jià)的準(zhǔn)確性影響很大。已有研究表明,錯(cuò)誤的Q矩陣會(huì)影響診斷模型的識(shí)別和診斷分類(lèi)準(zhǔn)確率(Rupp &Templin,2008)。
通常情況下,Q矩陣是通過(guò)專(zhuān)家根據(jù)經(jīng)驗(yàn)和領(lǐng)域知識(shí)來(lái)界定的,受到專(zhuān)家的知識(shí)和經(jīng)驗(yàn)等主觀(guān)因素的影響較大。在Q矩陣的定義中主要存在兩個(gè)方面的問(wèn)題:一是由于專(zhuān)家對(duì)測(cè)驗(yàn)所測(cè)領(lǐng)域的知識(shí)把握不準(zhǔn)導(dǎo)致測(cè)驗(yàn)整體屬性架構(gòu)定義不準(zhǔn)確,這可能會(huì)造成整個(gè)測(cè)驗(yàn)的屬性個(gè)數(shù)和屬性含義定義不準(zhǔn);二是專(zhuān)家對(duì)某些具體項(xiàng)目的屬性定義不準(zhǔn)確,這會(huì)導(dǎo)致這部分項(xiàng)目的屬性向量定義不準(zhǔn)確。正是基于對(duì)這些問(wèn)題的認(rèn)識(shí),認(rèn)知診斷評(píng)價(jià)中迫切需要研究更加客觀(guān)的推導(dǎo)和驗(yàn)證Q矩陣的方法。國(guó)內(nèi)外的研究者已經(jīng)開(kāi)始關(guān)注這方面的研究,比如de la Torre(2008)提出了一種基于經(jīng)驗(yàn)的方法對(duì)Q矩陣進(jìn)行驗(yàn)證;丁樹(shù)良等人對(duì) Q矩陣?yán)碚撨M(jìn)行了深入研究(丁樹(shù)良,羅芬,汪文義,2012;丁樹(shù)良,毛萌萌,汪文義,羅芬,Cui,2012;丁樹(shù)良,汪文義,羅芬,2012;丁樹(shù)良,祝玉芳,林海菁,蔡艷,2009);涂冬波等人對(duì)DINA模型下的Q矩陣修正進(jìn)行了研究(涂冬波,蔡艷,戴海崎,2012);Liu,Xu和 Ying(2011,2012)研究了在DINA模型下,Q矩陣中部分項(xiàng)目的屬性向量定義不準(zhǔn)確的問(wèn)題。他們通過(guò)構(gòu)建項(xiàng)目作答分布和屬性掌握模式分布之間關(guān)系的T
矩陣,定義了從作答數(shù)據(jù)中推導(dǎo)Q矩陣的判別函數(shù),并據(jù)此推導(dǎo)出擬合該測(cè)驗(yàn)的最佳Q矩陣。但是,Liu等人將猜測(cè)參數(shù)和失誤參數(shù)當(dāng)作已知,直接設(shè)置成某個(gè)固定值。由于正確的Q矩陣本身是未知的,除了在模擬情形下,我們不可能預(yù)先得到項(xiàng)目參數(shù)的值,因此,假定項(xiàng)目參數(shù)值已知限制了該方法的進(jìn)一步應(yīng)用。另一方面,在實(shí)際的應(yīng)用中,關(guān)于測(cè)驗(yàn)整體屬性的個(gè)數(shù)也不是那么容易確定的,比如著名的“分?jǐn)?shù)減法數(shù)據(jù)”的屬性個(gè)數(shù)在二十多年后仍然存在爭(zhēng)議(DeCarlo,2011,2012)。有研究者研究了項(xiàng)目屬性向量界定錯(cuò)誤的情況下對(duì)參數(shù)估計(jì)和分類(lèi)的影響(Rupp &Templin,2008),但是也沒(méi)有涉及到屬性個(gè)數(shù)界定錯(cuò)誤的情況。因此,有必要研究當(dāng)屬性個(gè)數(shù)存在錯(cuò)誤的情況下,Q矩陣的估計(jì)問(wèn)題。本研究基于實(shí)際應(yīng)用的目的,一方面,引入一個(gè)聯(lián)合算法,將 Liu等人的方法進(jìn)行修改,在項(xiàng)目參數(shù)未知的情形下,從作答數(shù)據(jù)和“專(zhuān)家界定的 Q矩陣”中估計(jì)出較準(zhǔn)確的項(xiàng)目參數(shù)和“正確的 Q矩陣”;另一方面,研究了當(dāng)“專(zhuān)家界定的 Q 矩陣”中少了必要的屬性或多了額外的屬性時(shí),如何利用聯(lián)合算法得到的結(jié)果來(lái)判斷Q矩陣的正確性。
本文的內(nèi)容安排如下:第2部分介紹有關(guān)的符號(hào)、概念和聯(lián)合估計(jì)算法;第3部分研究該算法在Q矩陣中存在錯(cuò)誤項(xiàng)目時(shí)的表現(xiàn);第4部分研究Q矩陣中屬性個(gè)數(shù)界定錯(cuò)誤時(shí)該算法的表現(xiàn);第5部分對(duì)研究方法、研究結(jié)果進(jìn)行了總結(jié)和討論。
J
個(gè)項(xiàng)目,考察K
個(gè)屬性,共有N
個(gè)被試參加測(cè)驗(yàn)。本文是基于DINA模型,在Liu等人方法(Liu et al.,2011,2012)的基礎(chǔ)上進(jìn)行的研究,因此首先對(duì)涉及到的相關(guān)概念、DINA模型和Liu等人提出的方法進(jìn)行介紹。為了方便讀者閱讀,本文中的許多符號(hào)和表示方式與Liu等人的論文中保持一致。屬性:在認(rèn)知診斷評(píng)價(jià)中,屬性通常是指為了正確完成某個(gè)任務(wù)或項(xiàng)目,被試所需要擁有的知識(shí)、技能或特質(zhì),它是對(duì)被試知識(shí)掌握狀況的細(xì)粒度描述。
Q矩陣:Q矩陣是用來(lái)描述項(xiàng)目和屬性之間的聯(lián)系,它是一個(gè)J
×K
的矩陣,其中每一行(也稱(chēng)行向量)代表一個(gè)項(xiàng)目,行向量中的每個(gè)值都是二值的,q
取0時(shí)表明項(xiàng)目j
沒(méi)有考察屬性k
,q
取1時(shí)表明項(xiàng)目j
考察了屬性k
。q
向量:Q矩陣中的每一個(gè)行向量都代表了一個(gè)項(xiàng)目,記為q
,其中j
=1,2,…,J
,這個(gè)行向量也稱(chēng)為項(xiàng)目j
的屬性向量。Q矩陣界定錯(cuò)誤:在界定Q矩陣的時(shí)候,存在兩類(lèi)錯(cuò)誤,一種是Q矩陣中的項(xiàng)目界定錯(cuò)誤,這通常是指在屬性個(gè)數(shù)界定正確的前提下,但是部分項(xiàng)目的屬性向量界定有錯(cuò)誤;另一種是Q矩陣的屬性個(gè)數(shù)界定錯(cuò)誤,這樣會(huì)導(dǎo)致即使其它屬性是正確界定的,但是所有項(xiàng)目的屬性向量都是錯(cuò)誤的,因?yàn)镼矩陣中缺少了必要的列或多了不必要的列。如果沒(méi)有特別說(shuō)明,文中所提到的Q矩陣界定錯(cuò)誤均是指Q矩陣中有部分項(xiàng)目的屬性向量界定錯(cuò)誤。
向量β描述的是測(cè)驗(yàn)中每個(gè)項(xiàng)目和項(xiàng)目組合上正確作答人數(shù)的比例。β向量的定義方式為
表1描述了兩個(gè)屬性在被試總體中的分布,其中p
表示被試總體中對(duì) A和 A都沒(méi)掌握的人數(shù)比例,p
表示被試總體中沒(méi)有掌握A,但是掌握了A的被試的比例。表1 測(cè)驗(yàn)考察兩個(gè)屬性時(shí)的總體分布
注:T
中的每個(gè)元素表示列編號(hào)對(duì)應(yīng)的被試在行所表示的項(xiàng)目或項(xiàng)目組合上的正確作答概率Liu等人(2011,2012)提出通過(guò)作答數(shù)據(jù)推導(dǎo)Q矩陣的方法,其模擬實(shí)驗(yàn)結(jié)果表明,當(dāng)固定項(xiàng)目參數(shù)為0.2,考察屬性個(gè)數(shù)為3、4和5,整個(gè)Q矩陣中有3個(gè)項(xiàng)目的屬性向量被界定錯(cuò)誤的條件下,他們的方法恢復(fù)正確Q矩陣的可能性很大。具體結(jié)果請(qǐng)見(jiàn)表2,表2是直接從Liu等(2012)引用的。
表2 100批模擬數(shù)據(jù)中正確估計(jì)Q矩陣的次數(shù)
由于Liu等人(2011,2012)固定失誤和猜測(cè)參數(shù)都為 0.2,而現(xiàn)實(shí)情況中,不同項(xiàng)目參數(shù)通常是不同的。為此,我們對(duì)Liu等人的方法進(jìn)行改進(jìn),設(shè)計(jì)了對(duì)項(xiàng)目參數(shù)和 Q矩陣進(jìn)行同時(shí)估計(jì)的聯(lián)合估計(jì)算法,簡(jiǎn)稱(chēng)為聯(lián)合估計(jì)算法。
算法的具體描述如下:
第一次迭代從Q
(0)出發(fā),迭代的結(jié)果記為Q
(1),作為第二次迭代的初始矩陣。類(lèi)似地,第m
次迭代時(shí),其“出發(fā)點(diǎn)”是算法上一次得到的估計(jì)值Q
(m
-1),第m
次迭代過(guò)程的詳細(xì)描述如下:(5)重復(fù)(2)~(4),直到更新所有J
個(gè)項(xiàng)目的屬性向量為止。(6)重復(fù)上述步驟,直到Q( m )=Q( m-1),即第m
次迭代前后兩次的 Q矩陣不變,則所得到的Q
(m
)和項(xiàng)目參數(shù)即為算法最終的估計(jì)值。執(zhí)行步驟(2)到(4)時(shí)會(huì)固定其它項(xiàng)目的屬性向量不變,只對(duì)項(xiàng)目j
在所有可能的屬性向量(共有2-1種)下計(jì)算S
,選擇使S
值最小的向量作為項(xiàng)目j
的屬性向量。所有項(xiàng)目都完成更新稱(chēng)為一次迭代,在一次迭代中,需要計(jì)算S函數(shù)和調(diào)用EM算法估計(jì)項(xiàng)目參數(shù)的次數(shù)都為J
×(2-
1)
。考查在DINA模型下,聯(lián)合估計(jì)算法在不同條件下的表現(xiàn)。
使用和 Liu等(2012)相同的方法,模擬屬性個(gè)數(shù)為 3、4和 5,被試人數(shù)為 500、1000、2000和 4000,項(xiàng)目個(gè)數(shù)為20,模擬真實(shí)的Q矩陣分別如圖1。
圖1 模擬的真實(shí)Q矩陣
猜測(cè)參數(shù)和失誤參數(shù)按均勻分布進(jìn)行模擬,取值區(qū)間為[0.05,0.25]。分別模擬不同屬性個(gè)數(shù)(3、4和 5),不同被試人數(shù)(500、1000、2000和 4000)條件下的數(shù)據(jù),一共有 3′4=12種數(shù)據(jù),每種數(shù)據(jù)模擬100次。當(dāng)項(xiàng)目個(gè)數(shù)比較大時(shí),飽和的T
矩陣(Liu et al.,2012)是一個(gè)非常龐大的矩陣,因此,為了減少計(jì)算時(shí)間,提高算法的執(zhí)行效率,按照 Liu等人(2012)的做法,在構(gòu)造的T
矩陣中,選擇的項(xiàng)目組合最大到K
+1個(gè),這樣一來(lái),可以顯著減少T
矩陣的行數(shù)。初始Q矩陣的選擇按照Liu等人(2012)的做法,隨機(jī)從Q矩陣中選擇3個(gè)項(xiàng)目進(jìn)行修改,使被選擇的 3個(gè)項(xiàng)目的屬性向量與正確的屬性向量不一致(比如在 Q下,每個(gè)項(xiàng)目可能的屬性向量有 2-1=7種情況,只有一種是正確的,可以隨機(jī)選擇剩余的6種之一作為其屬性向量,這樣就實(shí)現(xiàn)了模擬項(xiàng)目屬性向量界定錯(cuò)誤的情形)。在這里我們不只是考察了錯(cuò)誤項(xiàng)目個(gè)數(shù)為3的情況,而且也考察了錯(cuò)誤項(xiàng)目個(gè)數(shù)為4和5的情況,即在Q矩陣中隨機(jī)選擇3、4或5個(gè)項(xiàng)目進(jìn)行隨機(jī)修改,使得Q矩陣中除了這3、4或5個(gè)項(xiàng)目是被錯(cuò)誤界定的,其它項(xiàng)目的屬性界定都完全正確,以這樣的矩陣作為初始Q矩陣,使用聯(lián)合估計(jì)算法估計(jì)項(xiàng)目參數(shù)和Q矩陣。
所有的模擬過(guò)程使用matlab編寫(xiě)程序,在臺(tái)式機(jī)上實(shí)現(xiàn),CPU為intel I5 3400,內(nèi)存為4G。當(dāng)屬性為3個(gè)、被試為500人、項(xiàng)目為20題時(shí),平均完成一次估計(jì)Q矩陣的時(shí)間在10分鐘左右。
表3列出了在不同屬性個(gè)數(shù),不同被試人數(shù),不同錯(cuò)誤項(xiàng)目個(gè)數(shù)情況下,聯(lián)合估計(jì)算法的表現(xiàn)。當(dāng)被試人數(shù)達(dá)到 1000及以上時(shí),聯(lián)合估計(jì)算法能夠 100%的估計(jì)出正確的 Q矩陣,因此,被試人數(shù)為2000,4000時(shí)的結(jié)果在表3中未列出。
表3 使用聯(lián)合估計(jì)算法從 100批模擬數(shù)據(jù)中正確估計(jì)Q矩陣的次數(shù)
從結(jié)果可以看出,使用聯(lián)合估計(jì)算法對(duì)項(xiàng)目參數(shù)和Q矩陣進(jìn)行估計(jì),即使是在被試人數(shù)為500時(shí),不同屬性個(gè)數(shù)的 Q矩陣恢復(fù)成真值的可能性仍然很大。當(dāng)被試人數(shù)達(dá)到 1000時(shí),各種情況下都能100%恢復(fù)成正確的Q矩陣。
我們也考察了推導(dǎo)失敗的數(shù)據(jù)集,估計(jì)失敗時(shí)包含兩種情況:一種是迭代過(guò)程中“沒(méi)有經(jīng)過(guò)正確的 Q矩陣”,另一種是“經(jīng)過(guò)了正確的Q矩陣”。在這兩種情況下,迭代次數(shù)和目標(biāo)函數(shù)之間的變化關(guān)系,迭代次數(shù)和錯(cuò)誤屬性個(gè)數(shù)之間的關(guān)系,請(qǐng)參考圖2和圖3。圖2和圖3分別描述的是當(dāng)被試人數(shù)為500,屬性個(gè)數(shù)為5,錯(cuò)誤項(xiàng)目個(gè)數(shù)分別為3和5時(shí)的一次失敗估計(jì)過(guò)程。
從表3可以看出,當(dāng)屬性個(gè)數(shù)為5時(shí),聯(lián)合估計(jì)算法需要的被試人數(shù)要大于 500,才能 100%的恢復(fù)正確的Q矩陣。從圖2和圖3可以看出,當(dāng)被試人數(shù)為500時(shí),估計(jì)的Q矩陣可能無(wú)法到達(dá)正確的Q矩陣(如圖2),或者經(jīng)過(guò)正確的 Q矩陣但是并沒(méi)有識(shí)別出來(lái)(如圖3)。因此,在這兩種情況下,增加被試人數(shù)是有效的解決手段,Liu等人(2012)年提到采用提前終止算法的方法來(lái)解決類(lèi)似于圖3的情況,但是這種方法所使用的提前終止策略主觀(guān)性較強(qiáng)。
圖2 估計(jì)的Q矩陣“沒(méi)有經(jīng)過(guò)”正確的Q矩陣
圖3 估計(jì)的Q矩陣“經(jīng)過(guò)”正確的Q矩陣,但算法此時(shí)沒(méi)有收斂
為了更進(jìn)一步考察被試人數(shù)較少和錯(cuò)誤項(xiàng)目個(gè)數(shù)較多時(shí)聯(lián)合估計(jì)算法的適應(yīng)性,我們考察了Q下,被試人數(shù)分別為300,400,錯(cuò)誤項(xiàng)目個(gè)數(shù)為3,4,5,6時(shí)的情況,模擬數(shù)據(jù)的方法與前面相同,每種情況都模擬100次,結(jié)果如表4所示。
表4 使用聯(lián)合估計(jì)算法從 100批模擬數(shù)據(jù)中正確估計(jì)Q矩陣的次數(shù)
表4中的結(jié)果進(jìn)一步表明,聯(lián)合估計(jì)算法在被試人數(shù)較少(比如 300),錯(cuò)誤項(xiàng)目個(gè)數(shù)較多(比如 6個(gè))時(shí),聯(lián)合估計(jì)算法依然有很大的可能估計(jì)出正確的 Q矩陣,成功率達(dá)到 77%。當(dāng)被試人數(shù)達(dá)到400時(shí),成功率達(dá)到81%。提高被試人數(shù)是提高Q矩陣估計(jì)成功率的有效手段,也表明被試人數(shù)是影響聯(lián)合估計(jì)算法準(zhǔn)確性的一個(gè)重要因素。
關(guān)于項(xiàng)目參數(shù)的估計(jì)結(jié)果,分兩種情況,一種是通過(guò)聯(lián)合估計(jì)算法可以得到正確的Q矩陣,在這種情況下,項(xiàng)目參數(shù)的估計(jì)精度與 de la Torre(2009)中的結(jié)果相近;當(dāng)通過(guò)聯(lián)合估計(jì)算法得到的Q矩陣與正確的Q矩陣有差別,此時(shí)項(xiàng)目參數(shù)的估計(jì)精度與 Q矩陣真實(shí)值和估計(jì)值之間的差異有關(guān),Rupp 和 Templin(2008)對(duì)這種情況進(jìn)行了詳細(xì)和深入的研究。
在實(shí)際的應(yīng)用中,測(cè)驗(yàn)整體的屬性個(gè)數(shù)也不是那么容易確定的。因此,有必要研究當(dāng)屬性個(gè)數(shù)存在錯(cuò)誤的情況下,聯(lián)合估計(jì)算法的適應(yīng)性?;诖?考察當(dāng)專(zhuān)家界定的屬性個(gè)數(shù)與正確的屬性個(gè)數(shù)相差為 1(少一個(gè)必要的屬性或多一個(gè)額外的屬性)時(shí),算法所估計(jì)出的 Q矩陣和項(xiàng)目參數(shù)能給我們帶來(lái)什么樣的參考信息,是否能夠估計(jì)出正確的 Q矩陣?
當(dāng)Q矩陣中的屬性個(gè)數(shù)存在錯(cuò)誤時(shí),考察缺少必要屬性或存在多余屬性時(shí)對(duì) Q矩陣估計(jì)和項(xiàng)目參數(shù)估計(jì)的影響。
這里的Q矩陣還是與3.1中的相同,向Q矩陣中添加一個(gè)隨機(jī)的二值列向量作為屬性界定個(gè)數(shù)多一個(gè)的情形,其它未涉及到的列保持不變。在Q中,增加一列有 4種可能,即在第 1列前,第 1與第2列之間,第2與第3列之間,第3列之后。按照這種方法,從Q、Q和Q可以生成包含多余一個(gè)屬性的Q矩陣15個(gè),作答數(shù)據(jù)仍采用前面的數(shù)據(jù),只是在估計(jì)時(shí)的初始Q矩陣是在真實(shí)Q矩陣上增加1個(gè)屬性列后所對(duì)應(yīng)的矩陣,被試分別是500、1000、2000和 4000人,一共就有 15×4=60種情況。
當(dāng)Q矩陣中包含一個(gè)額外的屬性時(shí),這將導(dǎo)致所有項(xiàng)目的屬性向量都是錯(cuò)誤的,但是除了這個(gè)額外屬性之外,其它所有屬性在每個(gè)項(xiàng)目中的界定都是正確的。
C
列,以這個(gè)刪除C
列后得到的矩陣為基礎(chǔ),通過(guò)聯(lián)合估計(jì)算法就可以很容易得到正確的Q矩陣。這說(shuō)明,聯(lián)合估計(jì)算法能很好的處理Q矩陣中有額外屬性的情況。在實(shí)際的數(shù)據(jù)中,如果Q矩陣中出現(xiàn)C
列,可以通過(guò)計(jì)算SQ
值和項(xiàng)目參數(shù)值共同來(lái)決定該列是否多余,如果刪除這個(gè)C
后的Q矩陣對(duì)應(yīng)的SQ
更小,并且包含這些屬性的項(xiàng)目的失誤參數(shù)明顯下降,就表明可以刪除C
所對(duì)應(yīng)的列,即 Q矩陣中有了一個(gè)額外的屬性,可以刪除該屬性,進(jìn)一步使用聯(lián)合估計(jì)算法來(lái)驗(yàn)證或估計(jì)正確的Q矩陣。圖4 存在額外屬性時(shí)聯(lián)合估計(jì)算法得到的Q矩陣
Q矩陣與3.1中相同,隨機(jī)從Q矩陣中刪除一列作為缺少一個(gè)必要屬性的情形。以3個(gè)屬性為例,刪除一列有3種可能,即可以刪除第1、2或3列,在刪除列的時(shí)候,如果導(dǎo)致某行剩下的元素全部為0,則刪除該項(xiàng)目。按照這種方法,從Q、Q和Q可以生成缺少一個(gè)必要屬性的Q矩陣12個(gè),作答數(shù)據(jù)仍采用前面的數(shù)據(jù),只是在估計(jì)時(shí)的初始Q矩陣是在真實(shí)Q矩陣上刪除1個(gè)屬性列后所對(duì)應(yīng)的矩陣,被試分別是500、1000、2000和4000人,一共就有12×4=48種情況。
為了便于說(shuō)明問(wèn)題,以 Q為例說(shuō)明缺少一個(gè)必要屬性的情況。假定項(xiàng)目參數(shù)都為 0.2。某個(gè)項(xiàng)目的屬性向量為(1 0 1),被試總?cè)藬?shù)N
是一個(gè)很大的正整數(shù),并且 8種屬性掌握模式是均勻分布的,則理想情況下,屬性掌握模式為(1 0 1)和(1 1 1)的兩類(lèi)被試可以正確作答該項(xiàng)目,其余6類(lèi)被試只能通過(guò)猜測(cè)。因此,根據(jù) DINA模型假設(shè),應(yīng)該有N
×0.2×2/8的被試發(fā)生失誤而錯(cuò)誤作答,有N
×0.2×6/8的被試發(fā)生猜測(cè)而正確作答。當(dāng)缺少第一個(gè)屬性時(shí),項(xiàng)目變成了(0 1),則導(dǎo)致認(rèn)為屬性掌握模式為(0 0 1),(0 1 1),(1 0 1),(1 1 1)的被試均可以正確作答該項(xiàng)目,人數(shù)為N
×4/8,其余4種被試只能通過(guò)猜測(cè),人數(shù)為N
×4/8。但是實(shí)際上,這部分被試中應(yīng)該正確作答并且確實(shí)正確作答的人數(shù)為N
×0.2×2/8+N
×(1-0.2)×2/8=N
×2/8,應(yīng)該正確作答但是錯(cuò)誤作答的人數(shù)為N
×4/8-N
×2/8=N
×2/8,則采用錯(cuò)誤的 Q矩陣導(dǎo)致失誤參數(shù)為(N
×2/8)/(N
×4/8)=0.5,猜測(cè)參數(shù)為(N
×0.2×4/8)/(N
×4/8)=0.2。但是如果是另一個(gè)項(xiàng)目(0 0 1),刪除屬性后變成(0 1),通過(guò)同樣的分析過(guò)程可知,其猜測(cè)參數(shù)和失誤參數(shù)不會(huì)受到影響。對(duì)于4和5個(gè)屬性的情況,結(jié)論同樣適用。s
和△g
表示兩種情況下參數(shù)估計(jì)的差值。表5 在Q1中刪除屬性1前后項(xiàng)目參數(shù)估計(jì)的結(jié)果比較
表5中的粗體顯示的數(shù)值對(duì)應(yīng)考察了屬性1的項(xiàng)目,從表5中可以看出,凡是考察到屬性1的項(xiàng)目的失誤參數(shù)都有明顯的變化,并且變化量都在0.2以上,而其它未考察到屬性1的項(xiàng)目的參數(shù)變化較小。
因此,當(dāng)懷疑“專(zhuān)家界定的Q矩陣”中有多余屬性時(shí),可以在“專(zhuān)家界定的 Q 矩陣”中刪除一列(多余的屬性所在的列),然后通過(guò)聯(lián)合估計(jì)算法進(jìn)行參數(shù)估計(jì)。結(jié)果中如果發(fā)現(xiàn)有部分項(xiàng)目的失誤參數(shù)明顯上升,猜測(cè)參數(shù)變化較小,其余項(xiàng)目的參數(shù)基本保持不變,并且SQ
值會(huì)變大,這些信息就提示所刪除的列不應(yīng)該被刪除,這個(gè)列所對(duì)應(yīng)的屬性是一個(gè)必要屬性。進(jìn)一步,可以在專(zhuān)家界定的Q矩陣的基礎(chǔ)上使用聯(lián)合估計(jì)算法估計(jì)正確的Q矩陣。當(dāng)項(xiàng)目的屬性向量中包含所有必需的屬性和一個(gè)多余的屬性時(shí),會(huì)導(dǎo)致猜測(cè)參數(shù)上升,但是不會(huì)影響失誤參數(shù)(de la Torre,2008)。以這樣的Q矩陣(包含一個(gè)多余的屬性)為基礎(chǔ),會(huì)導(dǎo)致計(jì)算的目標(biāo)函數(shù)S
偏大。當(dāng)Q矩陣中多余屬性對(duì)應(yīng)的元素值都為“0”時(shí)(即所有項(xiàng)目都未考察該屬性),項(xiàng)目參數(shù)估計(jì)值更接近其真值,此時(shí)目標(biāo)函數(shù)S
達(dá)到最小。因此,聯(lián)合估計(jì)算法可以處理Q矩陣中多余一個(gè)屬性的情況。當(dāng)項(xiàng)目的屬性向量中僅僅只缺少一個(gè)必需的屬性,會(huì)導(dǎo)致失誤參數(shù)上升,但是不會(huì)影響猜測(cè)參數(shù)(de la Torre,2008)。以這樣的Q矩陣(缺少一個(gè)必需的屬性)為基礎(chǔ),會(huì)導(dǎo)致計(jì)算的目標(biāo)函數(shù)S
偏大。項(xiàng)目參數(shù)估計(jì)值總是圍繞真值附近波動(dòng),僅僅考慮通過(guò)項(xiàng)目參數(shù)估計(jì)值來(lái)判斷 Q矩陣的正確性存在較大主觀(guān)性,而這里的目標(biāo)函數(shù)S
同時(shí)考察了項(xiàng)目參數(shù)和作答數(shù)據(jù),項(xiàng)目參數(shù)估計(jì)值越接近于真值,S
越小。并且Liu等(2011)已經(jīng)證明,當(dāng)Q矩陣正確時(shí),隨著被試人數(shù)的增加,目標(biāo)函數(shù)S
會(huì)趨于0。因此,當(dāng)Q矩陣中存在一個(gè)多余的屬性或缺少一個(gè)必需的屬性時(shí),聯(lián)合估計(jì)算法可以提供很好的參考信息。另一方面,在實(shí)際的應(yīng)用過(guò)程中,Q矩陣的錯(cuò)誤大多數(shù)是項(xiàng)目的屬性向量界定錯(cuò)誤,但是有時(shí)候測(cè)驗(yàn)中的屬性個(gè)數(shù)也難以確定。一般來(lái)說(shuō),屬性個(gè)數(shù)在界定的時(shí)候不至于出現(xiàn)較大的偏差,因此本文只考察了 Q矩陣中缺少一個(gè)必要的屬性時(shí)和多余一個(gè)額外的屬性情況下算法的表現(xiàn)。結(jié)果表明,當(dāng)Q矩陣中多出不必要的屬性時(shí),算法能將其“識(shí)別”出來(lái),因?yàn)閹缀跛许?xiàng)目在這個(gè)屬性上都被界定為0,這就提示我們,該 Q矩陣中可能包含了不必要的屬性,在刪除這一列之后,通過(guò)聯(lián)合估計(jì)算法可以得到正確的Q矩陣。當(dāng)在Q矩陣中刪除必要的屬性時(shí),會(huì)導(dǎo)致考察了該屬性的項(xiàng)目的失誤參數(shù)明顯上升,而其它未考察該屬性的項(xiàng)目的參數(shù)基本不變,基于這些信息則基本可以確定該屬性是必要的屬性,不應(yīng)該被刪除,以此為基礎(chǔ),通過(guò)聯(lián)合估計(jì)算法可以估計(jì)出正確的Q矩陣。當(dāng)然,在實(shí)際的應(yīng)用中,通過(guò)聯(lián)合估計(jì)算法得到的Q矩陣最好還要由領(lǐng)域?qū)<疫M(jìn)行進(jìn)一步“確認(rèn)”,或者與其它Q矩陣的估計(jì)和驗(yàn)證方法共同來(lái)估計(jì)和驗(yàn)證Q矩陣。
總之,聯(lián)合估計(jì)算法在部分項(xiàng)目被錯(cuò)誤界定的情況下,有很高的恢復(fù)正確Q矩陣的成功率。相對(duì)于Liu等人的方法,聯(lián)合估計(jì)算法恢復(fù)成功率更高,這也有可能是由于本研究中模擬的項(xiàng)目參數(shù)在大部分情況下更小(Liu等人采用的是固定 0.2,而這里采用的是[0.05,0.25]的均勻分布)的原因?qū)е碌?但是采用聯(lián)合估計(jì)項(xiàng)目參數(shù)和 Q矩陣更加符合現(xiàn)實(shí)情況;另一方面,對(duì)于屬性個(gè)數(shù)界定錯(cuò)誤情況下的 Q矩陣估計(jì),之前并未見(jiàn)有文獻(xiàn)進(jìn)行詳細(xì)報(bào)導(dǎo),當(dāng) Q矩陣中存在一個(gè)額外屬性或缺少一個(gè)必要的屬性時(shí),該方法可以提供很好的參考信息,進(jìn)一步可以通過(guò)聯(lián)合估計(jì)算法估計(jì)出正確的Q矩陣。
聯(lián)合估計(jì)算法存在的一個(gè)問(wèn)題是必須對(duì)正確的Q矩陣有所了解,也就是已經(jīng)有一個(gè)經(jīng)專(zhuān)家初步定義好了的Q矩陣。如果對(duì)Q矩陣一無(wú)所知,聯(lián)合估計(jì)算法就不太可能估計(jì)出正確的Q矩陣。如何在對(duì)Q矩陣一無(wú)所知或了解較少的情況下,通過(guò)作答數(shù)據(jù)估計(jì)出正確的Q矩陣,需要進(jìn)一步的研究。并且本研究只是考慮了 Q矩陣中缺少一個(gè)必要屬性以及添加一個(gè)多余屬性的情況下,聯(lián)合估計(jì)算法能夠提供有用的參考信息。如果缺少或添加了更多的屬性,算法得到的結(jié)果與真實(shí)的Q矩陣的差距就很大了,此時(shí)算法提供的信息的參考價(jià)值就很有限了,需要進(jìn)一步研究推導(dǎo)Q矩陣中屬性個(gè)數(shù)的方法。
de la Torre,J.(2008).An empirically based method of Q-matrix validation for the DINA model:Development and applications.Journal of Educational Measurement,45
(4),343–362.de la Torre,J.(2009).DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34
(1),115–130.de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.Psychometrika,69
(3),333–353.DeCarlo,L.T.(2011).On the analysis of fraction subtraction data:The DINA model,classification,latent class sizes,and the Q-matrix.Applied Psychological Measurement,35
(1),8–26.DeCarlo,L.T.(2012).Recognizing uncertainty in the Q-Matrix via a bayesian extension of the DINA model.Applied Psychological Measurement,36
(6),447–468.Ding,S.L.,Luo,F.,&Wang,W.Y.(2012).Extension to Tatsuoka’s Q matrix theory.Psychological Exploration,32
(5),417–422.[丁樹(shù)良,羅芬,汪文義.(2012).Q矩陣?yán)碚摰臄U(kuò)展.心理學(xué)探新,32
(5),417–422.]Ding,S.L.,Mao,M.M.,Wang,W.Y.,Luo,F.,&Cui,Y.(2012).Evaluating the consistency of test items relative to the cognitive model for educational cognitive diagnosis.Acta Paychologica Sinica,44
(11),1535–1546.[丁樹(shù)良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認(rèn)知診斷測(cè)驗(yàn)與認(rèn)知模型一致性的評(píng)估.心理學(xué)報(bào),44
(11),1535–1546.]Ding,S.L.,Wang,W.Y.,&Luo,F.(2012).Q matrix and Q matrix theory in cognitive diagnosis.Journal of Jiangxi Normal University(Natural Science),36
(5),441–445.[丁樹(shù)良,汪文義,羅芬.(2012).認(rèn)知診斷中 Q 矩陣和 Q矩陣?yán)碚?江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),36
(5),441–445.]Ding,S.L.,Zhu,Y,F.,Lin,H.J.,&Cai,Y.(2009).Modification of Tatsuoka’s Q matrix theory.Acta Psychologica Sinica,41
(2),175–181.[丁樹(shù)良,祝玉芳,林海菁,蔡艷.(2009).Tatsuoka Q 矩陣?yán)碚摰男拚?心理學(xué)報(bào),41
(2),175–181.]Embretson,S.E.,&Yang,X.D.(2013).A multicomponent latent trait model for diagnosis.Psychometrika,78
(1),14–36.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.Applied Psychological Measurement,25
(3),258–272.Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka's rule-space approach.Journal of Educational Measurement,41
(3),205–237.Liu,J.C.,Xu,G.J.,&Ying,Z.L.(2011).Theory of the self-learning Q-matrix.Bernoulli,19
,1790–1817.Liu,J.C.,Xu,G.J.,&Ying,Z.L.(2012).Data driven learning of Q matrix.Applied Psychological Measurement,36
(7),548–564.Maris,E.(1999).Estimating multiple classification latent class models.Psychometrika,64
(2),187–212.Rupp,A.A.,&Templin,J.L.(2008).The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.Educational and Psychological Measurement,68
(1),78–96.Tatsuoka,K.K.(1983).Rule space:An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement,20
(4),345–354.Tatsuoka,K.K.(2009).Cognitive assessment:An introduction to the rule space method
.New York:Taylor &Francis Group.Tu,D.B.,Cai,Y.,&Dai,H.Q.(2012).A new method of Q-Matrix validation based on DINA model.Acta Psychologica Sinica,44
(4),558–568.[涂冬波,蔡艷,戴海崎.(2012).基于DINA模型的Q矩陣修正方法.心理學(xué)報(bào),44
(4),558–568.]