田亞淑 詹沛達 王立君
聯(lián)合作答精度和作答時間的概率態(tài)認知診斷模型*
田亞淑 詹沛達 王立君
(浙江師范大學心理學院; 浙江省兒童青少年心理健康與心理危機干預智能實驗室; 浙江省智能教育技術(shù)與應用重點實驗室, 金華 321004)
對多模態(tài)數(shù)據(jù)的聯(lián)合分析是改進結(jié)果評價、健全綜合評價的主要途徑。針對概率態(tài)認知診斷模型(CDM)僅能分析題目作答精度(RA)的局限, 本文基于聯(lián)合?層級建??蚣芎吐?lián)合?交叉負載建模框架提出三個可聯(lián)合分析RA和題目作答時間(RT)的概率態(tài)聯(lián)合CDM。模擬研究和實證研究結(jié)果表明:(1)新模型參數(shù)估計返真性良好, 額外引入RT有助于提高參數(shù)估計精度并提供有關(guān)個體加工速度的測量; (2)基于聯(lián)合?交叉負載建模框架構(gòu)建的模型對測驗情境的兼容性優(yōu)于基于聯(lián)合?層級建??蚣軜?gòu)建的模型; (3)概率態(tài)屬性比確定態(tài)屬性更精細地反映個體對屬性的掌握情況。
認知診斷, 概率態(tài)屬性, 題目作答時間, 聯(lián)合建??蚣? 交叉負載
認知診斷測評可以提供有關(guān)學生知識結(jié)構(gòu)或加工技能(統(tǒng)稱為“(潛在)屬性”)的診斷信息; 可為教師實施補救教學或有針對性干預提供參考, 有助于促進學生發(fā)展(Tang & Zhan, 2021)。認知診斷模型(cognitive diagnosis model, CDM)是刻畫屬性與外顯行為之間關(guān)系的統(tǒng)計模型, 其建構(gòu)的合理性(如, 模型與測試情境的匹配度)影響診斷結(jié)果的準確性和可解釋性。目前, 大致可將屬性分為兩種:確定態(tài)屬性(deterministic attribute)和概率態(tài)屬性(probabilistic attribute):前者將被試的屬性掌握狀態(tài)診斷為確定的類別(如, “1”表示掌握, “0”表示未掌握); 而后者將被試對屬性的掌握診斷為0到1的連續(xù)狀態(tài), 用于量化被試對屬性的掌握概率(如, “0.8”表示掌握概率為80%) (Zhan, Wang, et al., 2018)。Zhan (2021)進一步指出概率態(tài)屬性是“個體掌握某種屬性的說法是正確的概率(the probability that the statement that a person masters an attribute is true)”, 即概率態(tài)屬性并沒有否定屬性的二分特性, 只是從概率視角對其進行解讀和建模。相比于確定態(tài)屬性, 概率態(tài)屬性能更精細地區(qū)分被試間的個體差異(詹沛達, 田亞淑等, 2020); 尤其是在描述被試發(fā)展情況時, 基于概率態(tài)屬性的反饋比基于確定態(tài)屬性的反饋更精細地反映學生的發(fā)展變化(Zhan, 2021), 更有益于肯定學生的努力。
針對不同的測驗情境和理論假設(shè), 研究者們提出了不同的概率態(tài)CDM (毛秀珍, 2014; 詹沛達, 邊玉芳, 2015; Liu et al., 2018; Zhan, Wang, et al., 2018; Zhan, 2021)。然而, 現(xiàn)有的概率態(tài)CDM僅能分析單一模態(tài)數(shù)據(jù)——題目作答精度(response accuracy, RA), 忽略了諸如題目作答時間(response times, RTs)、鼠標點擊次數(shù)和行動序列等過程數(shù)據(jù)。其中, RT作為一種有代表性的過程數(shù)據(jù), 是指被試作答每道題目花費的時間; 可以反映被試的(潛在)加工速度。目前, 無論是大規(guī)模測評項目[如, 國際學生評估項目(PISA)、美國國家教育進展評估(NAEP)和國際數(shù)學與科學趨勢研究(TIMSS)], 還是一些具有實驗性質(zhì)的小規(guī)模測評(如, 游戲化測評), 記錄RT已經(jīng)成為一種常態(tài)。
近些年, 研究者們開發(fā)了一系列RT分析模型(郭磊等, 2017; de Boeck & Jeon, 2019)。已有研究表明數(shù)據(jù)分析時額外引入RT, 有助于提高被試參數(shù)估計的精度(Bolsinova & Tijmstra, 2018; Zhan, Jiao, & Liao, 2018), 并有助于識別被試的異常作答行為(Wang & Xu, 2015); 通過RT所反映的加工速度還可以進一步探索被試的認知風格(如, Yan, 2010), 豐富診斷反饋所包含的信息(Zhan et al., 2022)。鑒于在數(shù)據(jù)分析中引入RT的諸多優(yōu)勢, 如何將RT引入概率態(tài)CDM以進一步提高參數(shù)估計精度并豐富診斷反饋信息, 是一個有待解決的方法學問題。
目前, 在認知診斷測評中, 聯(lián)合?層級認知診斷建??蚣?Zhan, Jiao, & Liao, 2018)是同時分析RA和RT的主要框架之一, 如圖1所示。在該框架中, RA用于測量被試的屬性和(潛在)能力、RT用于測量被試的加工速度。該框架具有較高靈活性, 可通過替換該框架中的測量模型實現(xiàn)不同的數(shù)據(jù)分析需求(Huang, 2020; Peng et al., 2022; Zhan et al., 2022; 詹沛達, 2022; 鄭天鵬等, 2023)。目前, 該框架下的所有模型都是針對確定態(tài)屬性構(gòu)建的, 難以精細化區(qū)分被試間的個體差異或提供精細化反饋。鑒于該框架的靈活性, 可嘗試將概率態(tài)CDM引入該框架, 構(gòu)建可聯(lián)合分析RA和RT的聯(lián)合?層級概率態(tài)CDM, 這是本研究擬解決的第一個主要問題。
圖1 聯(lián)合?層級認知診斷建??蚣苤袟l件獨立性假設(shè)示意圖
注:RA = 作答精度; RT = 作答時間; θ = 能力; τ = 加工速度; α = 屬性; ρ = 能力與加工速度的相關(guān)系數(shù); 虛線表示模型的條件獨立假設(shè): a = 給定能力和加工速度后, RT和RA條件獨立; b = 給定加工速度后, 能力和RT條件獨立; c = 給定能力和加工速度后, 屬性和RT條件獨立; d = 給定能力后, 加工速度和RA條件獨立; e = 給定能力后, 加工速度和屬性條件獨立。
聯(lián)合?層級認知診斷建模框架作為聯(lián)合?層級建??蚣?van der Linden, 2007)在認知診斷測評中的應用, 盡管得到了較廣泛的研究支持, 但基于該框架所構(gòu)建的聯(lián)合模型至少需要滿足5個條件獨立性假設(shè)才能夠合理、準確地對數(shù)據(jù)進行分析和解釋。如圖1所示:
(1)給定能力和加工速度后, RT和RA之間條件獨立(圖1中a);
(2)給定加工速度后, 能力和RT之間條件獨立(圖1中b);
(3)給定能力后和加工速度后, 屬性和RT之間條件獨立(圖1中c);
(4)給定能力后, 加工速度和RA之間條件獨立(圖1中d);
(5)給定能力后, 加工速度和屬性之間條件獨立(圖1中e)。
然而, 有研究發(fā)現(xiàn)實際測驗中存在違背上述假設(shè)的情況。比如, Meng等人(2015)發(fā)現(xiàn)RT和RA之間存在一個變量(如, 題目難度)使得兩者有相依性; Bolsinova等人(2017)嘗試對RA和RT之間的條件獨立性進行建模; Bolsinova和Tijmstra (2018)釋放能力和RT之間條件獨立性假設(shè)后發(fā)現(xiàn)可以進一步提高能力的估計精度。同時, 上述條件獨立性假設(shè)也使得聯(lián)合?層級認知診斷建??蚣苤荒芡ㄟ^能力和加工速度之間的相關(guān)性(即, 圖1中ρ)來獲取RT中所包含的輔助信息, 進而達到提高診斷分類準確性的目的(詹沛達, 2022); 類似的理論缺陷在聯(lián)合?層級建模框架中也存在(Ranger, 2013; Bolsinova & Tijmstra, 2018)。而在實際測驗中, 可能存在能力和加工速度之間的相關(guān)系數(shù)較低, 甚至趨近于零的情況(Bolsinova et al., 2017); 此時基于聯(lián)合?層級認知診斷建??蚣芩鶚?gòu)建的模型將難以從RT中獲取能力或?qū)傩缘南嚓P(guān)信息。針對上述局限, 詹沛達(2022)提出了聯(lián)合?交叉負載(載荷)認知診斷建??蚣? 該建??蚣芡ㄟ^交叉負載直接利用RT為能力或?qū)傩蕴峁┬畔? 釋放了聯(lián)合?層級認知診斷建模框架的部分條件獨立性假設(shè)(圖1中b或c), 增加了建??蚣艿倪m用范圍。鄭天鵬等人(2023)在聯(lián)合?層級認知診斷建??蚣艿幕A(chǔ)上嘗試釋放了圖1中條件獨立性d, 認為被試的加工速度會影響其正確作答概率。雖然釋放圖1中任一條件獨立性假設(shè)路徑在理論上都是可以的, 但考慮到聯(lián)合建模的主要目的之一是為了促進對核心特質(zhì)(即能力)的估計精度, 所以釋放b或c路徑是一種更常見的選擇(Bolsinova & Tijmstra, 2018; 詹沛達, 2022)?;诖?本研究擬在所構(gòu)建的聯(lián)合?層級概率態(tài)CDM的基礎(chǔ)上, 借鑒聯(lián)合?交叉負載認知診斷建??蚣? 進一步構(gòu)建聯(lián)合?交叉負載概率態(tài)CDM (joint-cross- loading CDM for probabilistic attributes), 這是本研究擬解決的第二個主要問題。
針對上述兩個研究問題, 本研究旨在豐富概率態(tài)CDM的可分析數(shù)據(jù)類型, 并為以精細化診斷作為數(shù)據(jù)分析目標的測評提供框架支持。在實踐中, 全面且精準地了解學生的學習現(xiàn)狀是因材施教的必要前提; 使用聯(lián)合概率態(tài)CDM不僅可以實現(xiàn)對學生學習狀態(tài)的精細化區(qū)分, 為因材施教和精準教學落地提供數(shù)據(jù)支持, 還可以提供有關(guān)學生加工速度的分析結(jié)果, 有助于了解學生的認知或?qū)W習風格。
下文首先簡單回顧聯(lián)合?層級和聯(lián)合?交叉負載認知診斷建模框架, 以及一個有代表性的概率態(tài)CDM——高階概率態(tài)輸入, 噪音連接(higher-order probabilistic-inputs, noisy conjunctive, HO-PINC)模型(Zhan, Wang, et al., 2018)。其次, 依次通過兩個模擬研究分別闡述并探究基于上述兩框架所構(gòu)建的三個新模型。然后, 通過第三個模擬研究來交叉對比三個新模型的表現(xiàn)。再然后, 以一則PISA 2012計算機化數(shù)學測驗數(shù)據(jù)為例來展現(xiàn)三個新模型的實踐可應用性及相對優(yōu)勢。最后, 總結(jié)研究并指出研究局限及未來的拓展方向。
圖2呈現(xiàn)了兩種聯(lián)合認知診斷建??蚣艿氖疽鈭D, 其中圖2(a)為聯(lián)合?層級認知診斷建??蚣?Zhan, Jiao, & Liao, 2018)。該建??蚣馨瑑蓪幽P停旱谝粚訛闇y量模型, 比如以高階DINA(de la Torre & Douglas, 2004)作為RA的測量模型, 并以對數(shù)正態(tài)RT模型(lognormal RT model, LRTM) (van der Linden, 2006)作為RT的測量模型; 第二層為結(jié)構(gòu)模型, 采用二元正態(tài)分布描述能力與加工速度之間的關(guān)系。圖2(b)和圖2(c)為聯(lián)合?交叉負載認知診斷建??蚣芟碌膬煞N建模方式(詹沛達, 2022):前者基于能力, 假設(shè)RT先對能力提供輔助信息(即被試的能力高低會影響RT), 進而間接影響屬性的分類準確性; 后者基于屬性, 假設(shè)RT直接對屬性提供輔助信息(即被試的屬性掌握情況會影響RT)。
圖2 聯(lián)合?層級和聯(lián)合?交叉負載認知診斷建模示意圖
注:RA = 作答精度; RT = 作答時間; θ = 能力; τ = 加工速度; α = 屬性。
目前兩建??蚣苤袑傩跃鶠榇_定態(tài)屬性(即二分屬性), 進而能力與屬性之間的關(guān)系被定義為(de la Torre & Douglas, 2004):
與確定態(tài)屬性不同, 概率態(tài)屬性常被賦值為一個0到1之間的(概率)數(shù)值??紤]到屬性之間的相關(guān)性, Zhan, Wang等(2018)將概率態(tài)屬性構(gòu)建為:
基于公式2, HO-PINC的題目作答函數(shù)(item response function, IRF)可以被構(gòu)建為:
遵循聯(lián)合?層級認知診斷建??蚣? 新模型共包含兩層模型。第一層為測量模型, 其中RA模型采用HO-PINC (公式3), RT模型采用LRTM:
和
基于聯(lián)合?層級建??蚣? 為使模型可識別, JRT-PINC需要滿足如下條件獨立性假設(shè):
(1) 給定θ后, 各m滿足條件獨立;
(2) 給定m后, 各X滿足條件獨立;
(3) 給定τ后, 各logT滿足條件獨立;
(4) 給定θ和τ后,X和logT滿足條件獨立;
(5) 給定θ后, 各τ和m滿足條件獨立;
(6) 給定θ和m, 各τ和X滿足條件獨立;
(7) 給定θ和τ后,m和logT滿足條件獨立;
(8) 給定τ后, θ和logT滿足條件獨立。
其中, 前3個條件獨立性假設(shè)是測量模型自身所需的, 后5個條件獨立性假設(shè)是聯(lián)合?層級建模框架所需的(同引言)。
本研究采用全貝葉斯MCMC算法對JRT-PINC進行參數(shù)估計, 使用R軟件中的R2jags包(Version 0.7-1)調(diào)取JAGS軟件(Version 4.3.0)實現(xiàn)參數(shù)估計。網(wǎng)絡(luò)版附錄S1節(jié)對比了新模型在有經(jīng)驗信息先驗下和低信息先驗下的表現(xiàn), 兩種情況下結(jié)果一致性較高, 表明新模型對包含不同信息量的先驗分布具有一定的魯棒性。新模型的參數(shù)估計JAGS代碼及示例數(shù)據(jù)見https://osf.io/hys7c/?view_only=cb357a6f5032424ab36b7fbda6df4d40, 關(guān)于如何使用JAGS進行貝葉斯參數(shù)估計可參見Zhan等(2019)。
3.3.1 數(shù)據(jù)生成
模擬研究包括4個自變量:(1)樣本量():200和500; (2)題目數(shù)量():15和30; (3)能力與加工速度的相關(guān)系數(shù)(ρθτ):?0.5, ?0.3, 0, 0.3和0.5; (4)數(shù)據(jù)分析模型:JRT-PINC和HO-PINC, 用于探究額外引入RT對參數(shù)估計精度帶來的影響。此外屬性數(shù)()固定為5個, 對應的Q矩陣見圖3。該Q矩陣包含兩個可達矩陣, 以保證其完備性和可識別性(Xu & Zhang, 2016)。研究選擇的題目數(shù)量、樣本量和其他相關(guān)參數(shù)均參考已有研究設(shè)置(如: 詹沛達, 2022)。
注: 灰色為“1”、白色為“0”;標記*的題目為I = 15
表1 研究1中能力和加工速度參數(shù)估計返真性
注: JRT-PINC = 聯(lián)合?層級概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; θ = 能力; τ = 加工速度; N = 樣本量; I = 題目數(shù)量; ρθτ= 能力與加工速度的相關(guān)系數(shù); Bias = 所有被試的平均偏差; RMSE = 所有被試的平均均方根誤差; Cor = 估計值與真值之間的相關(guān)系數(shù)。
另外, 設(shè)定所有題目的時間精度參數(shù)均為1/σ= 2。
被試參數(shù)依據(jù)公式5生成, 其中, 能力的方差σθ2= 1且加工速度的方差σ2= 0.15。被試的概率態(tài)屬性依據(jù)公式2生成, 設(shè)定所有屬性的區(qū)分度參數(shù)為λ1k= 1.5, 屬性截距參數(shù)為λ0= (?1.0, ?0.5, 0.0, 0.5, 1.0)’, 此時各屬性間為中等相關(guān)。最終, 根據(jù)JRT-PINC生成所有被試在所有題目上的RA和RT。為減少隨機誤差, 每種模擬條件下各生成30組數(shù)據(jù)。
3.3.2 分析
分別使用JRT-PINC和HO-PINC分析該數(shù)據(jù)。分析采用兩條馬爾可夫鏈(初始值隨機), 每條鏈包含10,000次迭代, 前5,000次用于預熱(burn-in)。采用潛在量尺縮減因子(potential scale reduction factor, PSRF)檢驗各參數(shù)是否收斂, PSRF < 1.1或1.2表示參數(shù)已收斂(de la Torre & Douglas, 2004; Zhan, Jiao, & Liao, 2018)。使用后驗均值作為貝葉斯參數(shù)估計的“點”估計結(jié)果。使用偏差(bias)、均方根誤差(root mean square error, RMSE)和皮爾遜積差相關(guān)系數(shù)(Cor)作為參數(shù)估計返真性指標。
3.3.3 結(jié)果
結(jié)果顯示所有參數(shù)的PSRF均小于1.2, 表示各參數(shù)均已收斂。表1呈現(xiàn)了能力參數(shù)和加工速度參數(shù)的返真性。首先, JRT-PINC中能力參數(shù)(θ)的估計返真性優(yōu)于HO-PINC的, 表明額外引入RT所包含信息有助于提高能力參數(shù)的估計精度。其次, JRT-PINC的能力參數(shù)和加工速度參數(shù)(τ)在所有模擬條件下的返真性均表現(xiàn)較好, 且Cor指標反映出加工速度參數(shù)的返真性優(yōu)于能力參數(shù)的。1由于能力參數(shù)和加工速度參數(shù)的真值的方差不同(即量尺不同),難以直接通過Bias和RMSE比較兩者的返真性優(yōu)劣; 而Cor指標是從參數(shù)估計值和真值的排序一致性角度反映參數(shù)估計返真性的, 并不受量尺差異的影響。再有, 對JRT-PINC而言, 能力與加工速度的相關(guān)系數(shù)(ρθτ)越高, 能力參數(shù)的返真性越好, 但加工速度參數(shù)的返真性不受影響; 該結(jié)果與已有聯(lián)合模型研究的發(fā)現(xiàn)一致, 即兩特質(zhì)之間的相關(guān)系數(shù)越高, 越有助于能力參數(shù)汲取RT中包含的信息。且即便是在ρθτ= 0的條件下, JRT-PINC中能力參數(shù)的返真性仍略優(yōu)于HO-PINC中的; 這可能由于參數(shù)估計時JRT-PINC仍假設(shè)能力會通過潛在結(jié)構(gòu)(二元正態(tài)分布)去利用RT所包含的信息, 進而自由估計兩者之間的協(xié)方差導致的。此外, ρθτ的正負號對結(jié)果沒有影響。整體而言, 題目數(shù)量越多, 能力與加工速度相關(guān)系數(shù)越高, JRT-PINC的被試參數(shù)返真性越好; 樣本量提高也有助于提高被試參數(shù)的返真性, 但影響較小; 這意味著200被試的樣本量足以滿足JRT-PINC被試參數(shù)估計的要求。
表2呈現(xiàn)了屬性參數(shù)的返真性(bias見網(wǎng)絡(luò)版附錄中表S2.1)。首先, JRT-PINC在各條件下的返真性均較好。題目數(shù)量越多, 能力與加工速度相關(guān)系數(shù)越高, 則屬性的返真性越好; 同樣, 樣本量提高也有助于提高屬性的返真性, 但影響較小。其次, 各條件下JRT-PINC的返真性均優(yōu)于HO-PINC的; 同樣, 即便是在ρθτ= 0的條件下, JRT-PINC中屬性的返真性也略優(yōu)于HO-PINC中屬性的返真性。另外, 不同屬性的返真性與屬性截距參數(shù)有關(guān), 但影響不大, 基本趨勢是:屬性截距參數(shù)越低(即掌握屬性難度越大), 則返真性越好。
題目參數(shù)和方差協(xié)方差矩陣參數(shù)估計返真性見網(wǎng)絡(luò)版附錄S2。整體而言, JRT-PINC的題目參數(shù)返真性優(yōu)于HO-PINC的; JRT-PINC中各題目參數(shù)在各模擬條件下的返真性均表現(xiàn)較好, 且具有較一致的變化趨勢:樣本量和題目數(shù)量越大, 題目參數(shù)的返真性越好, 而能力與加工速度的相關(guān)系數(shù)影響較小。
基于圖2(b)和2(c), 研究2通過兩個子研究分別構(gòu)建基于能力的聯(lián)合?交叉負載PINC (CJRT- PINC-θ)模型(子研究1)和基于屬性的聯(lián)合?交叉負載PINC (CJRT-PINC-)模型(子研究2)。
表2 研究1中概率態(tài)屬性參數(shù)估計的返真性
注: JRT-PINC = 聯(lián)合?層級概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; θ = 能力; τ = 加工速度; N = 樣本量; I = 題目數(shù)量; ρ = 能力與加工速度的相關(guān)系數(shù)。
4.1.1 模型構(gòu)建
基于圖2(b), CJRT-PINC-θ假設(shè)被試的能力變化會影響其作答該題目的耗時, 即釋放了JRT- PINC中能力和RT之間的條件獨立性假設(shè)(圖1中b)。CJRT-PINC-θ同樣包含兩層模型, 其中RA的測量模型為HO-PINC模型(公式3), RT的測量模型為:
另外, 題目參數(shù)之間關(guān)系被描述為:
式中各參數(shù)含義同上。仍采用貝葉斯MCMC算法對CJRT-PINC-θ進行參數(shù)估計, 各待估計參數(shù)的先驗分布見網(wǎng)絡(luò)版附錄S1。
4.1.2 模擬研究:數(shù)據(jù)生成與結(jié)果
為了更符合實際測試的復雜情境, 模擬研究設(shè)置不同題目中θ對RT的影響不同(詹沛達, 2022):設(shè)定自變量交叉負載(φ)滿足方差為0.15的正態(tài)分布, 其中低影響效應μφ= 0.1, 高影響效應μφ= 0.5。固定樣本量= 200, 題目數(shù)量= 15, 其余參數(shù)設(shè)定與研究1相同。根據(jù)CJRT-PINC-θ (公式2~3和公式7~9)生成所有被試在所有題目上的RA和RT。
使用CJRT-PINC-θ和HO-PINC分析該數(shù)據(jù)。結(jié)果顯示所有參數(shù)的PSRF均小于1.2, 表示各參數(shù)均已收斂。表3呈現(xiàn)了能力參數(shù)和加工速度參數(shù)的估計返真性。首先, CJRT-PINC-θ的返真性均優(yōu)于HO- PINC的, 表明額外引入RT所包含信息有助于提高參數(shù)估計精度。其次, 隨著交叉負載均值提高, 能力參數(shù)的返真性有所提高但加工速度參數(shù)的返真性有所下降, 這與詹沛達(2022)的發(fā)現(xiàn)一致。表4呈現(xiàn)了屬性參數(shù)估計返真性。首先, CJRT-PINC-θ在不同模擬條件下屬性參數(shù)的返真性均較好, 且均優(yōu)于HO-PINC的。題目參數(shù)和方差協(xié)方差矩陣參數(shù)的返真性見網(wǎng)絡(luò)版附錄表S3.1和表S3.2。整體而言, 不同模擬條件下CJRT-PINC-θ的參數(shù)返真性均較好, 且優(yōu)于不考慮RT的HO-PINC的。
表3 研究2(子研究1)中被試參數(shù)估計返真性
注: CJRT-PINC-θ = 基于能力的聯(lián)合?交叉負載概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; θ = 能力; τ = 加工速度; μφ= 交叉負載均值; Bias = 所有被試的平均偏差; RMSE = 所有被試的平均均方根誤差; Cor = 估計值與真值之間的相關(guān)系數(shù)。
表4 研究2(子研究1)概率態(tài)屬性參數(shù)估計返真性
注: CJRT-PINC-θ = 基于能力的聯(lián)合?交叉負載概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; μφ= 交叉負載均值;= 概率態(tài)屬性; Bias = 所有被試的平均偏差; RMSE = 所有被試的平均均方根誤差; Cor = 估計值與真值之間的相關(guān)系數(shù)。
4.2.1 模型建構(gòu)
基于圖2(c), CJRT-PINC-假設(shè)被試對屬性的掌握情況會影響其完成該題目的耗時, 被試對題目所考查的所有屬性的掌握概率越高則對RT的影響越大, 即該模型釋放了JRT-PINC中屬性和RT之間的條件獨立性假設(shè)(圖1中c)。CJRT-PINC-同樣包含兩層模型, 其中RA的測量模型為HO-PINC模型(公式3), RT的測量模型為:
式中各參數(shù)含義同上。仍采用貝葉斯MCMC算法對CJRT-PINC-進行參數(shù)估計, 各待估計參數(shù)的先驗分布見網(wǎng)絡(luò)版附錄S1。
4.2.2 模擬研究:數(shù)據(jù)生成與結(jié)果
該部分具體內(nèi)容見網(wǎng)絡(luò)版附錄S3.2。整體而言, CJRT-PINC-在不同模擬條件下模型參數(shù)的返真性良好, 均優(yōu)于不考慮RT的HO-PINC的。
結(jié)果顯示所有參數(shù)的PSRF均小于1.2, 表示各參數(shù)均已收斂。表5呈現(xiàn)了各模型在生成數(shù)據(jù)上的擬合指標。根據(jù)值, 各模型均擬合生成數(shù)據(jù), 即聯(lián)合模型中結(jié)構(gòu)模型的有偏設(shè)定不太影響測量模型對數(shù)據(jù)的絕對擬合。根據(jù)DIC值發(fā)現(xiàn), 當JRT- PINC作為數(shù)據(jù)生成模型時, 其DIC與兩個CJRT- PINC的DIC均接近; 而當任一CJRT-PINC作為數(shù)據(jù)生成模型時, CJRT-PINC對數(shù)據(jù)的擬合明顯優(yōu)于JRT-PINC的, 這表明引入交叉負載的聯(lián)合模型的適用范圍更廣。另外, 當CJRT-PINC-θ作為數(shù)據(jù)生成模型時, 兩個CJRT-PINC的DIC與JRT-PINC的DIC之間的差值在1,000左右; 而當CJRT-PINC-作為數(shù)據(jù)生成模型時, 兩個CJRT-PINC的DIC與JRT-PINC的DIC之間的差值僅為100左右。該結(jié)果表明CJRT-PINC-θ的普適性相對更高:當其他兩個模型為數(shù)據(jù)生成模型時, 它能夠提供與數(shù)據(jù)生成模型幾乎一致的擬合指標; 而當它作為數(shù)據(jù)生成模型時, 其他兩個模型對數(shù)據(jù)的擬合則相對要差一些。另外, 各模型參數(shù)的返真性也呈現(xiàn)類似的趨勢(見網(wǎng)絡(luò)版附錄表S4.1~S4.4)??傊? 研究3結(jié)果表明(1)忽略可能存在的交叉負載所導致的負面結(jié)果比冗余考慮存在交叉負載所導致的更嚴重, 即CJRT-PINC對測驗情境的兼容性優(yōu)于JRT-PINC; 且(2) CJRT-PINC-θ的普適性相對于CJRT-PINC-更高。
表5 研究3中模型?數(shù)據(jù)相對擬合情況
注:DIC = deviance information criterion;.RA = RA的后驗預測概率;.RT = RT的后驗預測概率。
本節(jié)以PISA 2012年計算機化數(shù)學測驗數(shù)據(jù)為例進一步展現(xiàn)新模型在實踐中的可應用性。測驗數(shù)據(jù)共包含32個國家, 研究從中選取了4個國家/地區(qū):中國上海(QCN)、美國(USA)、新加坡(SGP)和斯洛伐克共和國(SVK)。初始樣本量為1754人, 清理后數(shù)據(jù)包含= 1597名被試。PISA 2012的數(shù)學測驗框架(OECD, 2013)已公開的10道題目共包含7個屬性(Zhan, Jiao, & Liao, 2018), 分別是:(K1)變化和關(guān)系、(K2)數(shù)量、(K3)空間與圖形、(K4)不確定性和數(shù)據(jù)、(K5)與職業(yè)相關(guān)的背景、(K6)與社會相關(guān)的背景以及(K7)與科學相關(guān)的背景。測驗Q矩陣見網(wǎng)絡(luò)版附錄表S5.1。另外, CM015Q02D、CM015Q03D和CM020Q01三道題目原為多級評分題目(0, 1, 2), 由于本研究的模型僅針對二級評分數(shù)據(jù)(0, 1), 因此對這三題的作答結(jié)果采用Zhan, Jiao和Liao (2018)的編碼方式:0和1編碼為0, 2編碼為1。
分別使用JRT-PINC、CJRT-PINC-θ、CJRT- PINC-和另外兩個已有模型分析該數(shù)據(jù)——包括僅可分析RA的HO-PINC和基于確定態(tài)屬性的聯(lián)合作答與時間DINA (joint responses and times DINA, JRT-DINA; Zhan, Jiao, & Liao, 2018)。采用DIC統(tǒng)計量作為模型?數(shù)據(jù)相對擬合指標,作為模型?數(shù)據(jù)絕對擬合指標。
表6呈現(xiàn)了各模型在測驗數(shù)據(jù)上的擬合指標。需要注意的是, 由于CJRT-PINC-中有約42.75%的待估計參數(shù)(包括m, s, g, κ, λ0k, λ1k, ξ, σβδ, σβκ, σδκ)未達到收斂標準(PSRF < 1.2), 因此該模型與數(shù)據(jù)的擬合結(jié)果僅供參考, 后續(xù)不在文中進行探討。由結(jié)果可知, 所有模型的值均在0.5左右, 表示各模型均擬合測驗數(shù)據(jù)。根據(jù)DIC指標, 基于概率態(tài)屬性的三個聯(lián)合模型對數(shù)據(jù)的擬合均優(yōu)于基于確定態(tài)屬性的JRT-DINA的。同時, 基于聯(lián)合?交叉負載建??蚣艿膬蓚€CJRT-PINC對數(shù)據(jù)的擬合優(yōu)于基于聯(lián)合?層級建模框架的JRT-PINC。下文將主要基于對數(shù)據(jù)擬合相對最好的CJRT-PINC-θ的分析結(jié)果進行闡述。
表6 實證數(shù)據(jù)中模型?數(shù)據(jù)擬合指標
注:DIC = deviance information criterion;.RA = RA的后驗預測概率;.RT = RT的后驗預測概率; HO-PINC分析的數(shù)據(jù)量少于另外4個聯(lián)合模型, 所以其DIC值不具有可比性。
表7呈現(xiàn)了CJRT-PINC-θ在測驗數(shù)據(jù)中交叉負載φ的后驗均值和置信區(qū)間, 以及其他題目參數(shù)的后驗均值。結(jié)果顯示交叉負載φ后驗均值的估計范圍在?0.027到0.338之間, 所有題目上的交叉負載95%置信區(qū)間都不包含零。題目1和9的φ< 0, 表明這兩個題目上能力越高的被試作答題目的時間越短, 其他題目則相反(φ> 0)。該結(jié)果整體與JRT-PINC的基本一致, JRT-PINC中能力與加工速度呈負相關(guān)(ρθτ= ?0.531), 表示能力越高的被試加工速度越慢(作答題目的時間越長)。能力與加工速度負相關(guān)結(jié)果可能是因為PISA屬于低風險/低動機的測驗, 其結(jié)果對于學生而言影響較小因此學生的作答動機較低, 這一結(jié)論與已有研究(Zhan, Jiao, & Liao, 2018)的結(jié)果一致。此外CJRT-PINC-θ中各題目的交叉負載估計值之間并不一致, 表明各題目的RT為能力提供的輔助信息量具有差異性, 單憑JRT-PINC中的一個籠統(tǒng)相關(guān)系數(shù)可能無法較好地處理該情況。另外, 我們計算了交叉負載和其他3個題目參數(shù)之間的相關(guān)系數(shù), 發(fā)現(xiàn)交叉負載與失誤參數(shù)的相關(guān)系數(shù)最高(0.923), 與時間強度參數(shù)的相關(guān)系數(shù)次之(0.622), 與猜測參數(shù)的相關(guān)系數(shù)最低(?0.599); 結(jié)果表明題目的失誤參數(shù)越高, RT為能力提供的輔助信息越高; 當然, 這種關(guān)系只是該數(shù)據(jù)特有的, 結(jié)論的推廣性有待進一步驗證。
表8呈現(xiàn)了JRT-PINC, CJRT-PINC-θ, JRT-DINA和HO-PINC對個體的分析結(jié)果。4個模型的診斷結(jié)構(gòu)具有一定的一致性, 但同時存在差異。首先, 當概率態(tài)屬性估計結(jié)果大于0.5時, 確定態(tài)屬性的診斷結(jié)果也多為“1”。其次, 基于概率態(tài)屬性的兩個模型比基于確定態(tài)屬性的JRT-DINA能更精細地反饋出學生對屬性的掌握情況及個體差異性。以被試59為例, JRT-DINA診斷被試的屬性2為掌握“1”, 但此時概率態(tài)屬性結(jié)果顯示被試對屬性2的掌握概率僅略高于0.5, 距離熟練/完全掌握還有一定距離, 還需要進一步干預。再次, 與HO-PINC相比, 三個考慮RT信息的聯(lián)合模型均可以提供有關(guān)加工速度的估計值, 豐富了反饋報告的內(nèi)容。
表8 實證數(shù)據(jù)中各模型對個體屬性的診斷結(jié)果示例
隨著實踐者對精細化診斷需求的不斷增加, 傳統(tǒng)基于確定態(tài)屬性的CDM已顯得力不從心, 概率態(tài)CDM應運而生。但是已有的概率態(tài)CDM仍然延續(xù)傳統(tǒng)的建模方式, 無法實現(xiàn)同時分析多模態(tài)數(shù)據(jù)(比如, RA和RT)。對此, 本文基于兩種可聯(lián)合分析RA和RT的認知診斷建模框架提出了三個聯(lián)合概率態(tài)CDM:JRT-PINC、CJRT-PINC-θ和CJRT- PINC-。其中, JRT-PINC是基于聯(lián)合?層級認知診斷建模框架構(gòu)建的, 但該模型需要滿足較多的條件獨立性假設(shè)以保證模型的可識別性; 另外兩個CJRT-PINC是基于聯(lián)合?交叉負載認知診斷建??蚣軜?gòu)建的, 它們釋放了JRT-PINC中部分條件獨立性假設(shè), 增加了適用范圍。三個新模型均具有概率態(tài)CDM的優(yōu)點, 可以實現(xiàn)對屬性掌握狀態(tài)的精細化診斷, 有益于區(qū)分被試間的個體差異, 為因材施教和精準教學提供數(shù)據(jù)支持; 同時, 作為一種聯(lián)合模型, 三者均可利用RT中所包含的信息提高模型參數(shù)估計精度, 并反饋個體加工速度, 豐富診斷反饋信息。
本文通過三個模擬研究探討了新模型在不同模擬條件下的心理計量學性能。模擬研究結(jié)果主要表明:(1)三個新模型的參數(shù)估計返真性均較好; (2)額外引入RT, 不僅有助于提高模型參數(shù)估計精度還可提供有關(guān)個體加工速度的測量; (3) CJRT-PINC-θ比CJRT-PINC-更充分地利用RT所包含信息去提高核心建構(gòu)(能力和屬性)的參數(shù)估計精度; (4)忽略交叉負載所導致的負面結(jié)果比冗余考慮交叉負載所導致的更嚴重。然后, 本文以一則實證數(shù)據(jù)為例對比探究了5個CDM的表現(xiàn), 包括3個聯(lián)合概率態(tài)模型(JRT-PINC、CJRT-PINC-θ、CJRT-PINC-)、1個聯(lián)合確定態(tài)模型(JRT-DINA)和1個僅分析RA的概率態(tài)模型(HO-PINC)。研究結(jié)果表明(1)相比于確定態(tài)屬性, 概率態(tài)屬性可以更精細化地反饋被試對屬性的掌握情況; (2)基于聯(lián)合?交叉負載認知診斷建??蚣軜?gòu)建的CJRT-PINC比基于聯(lián)合?層級認知診斷建模框架構(gòu)建的JRT-PINC更擬合該數(shù)據(jù); (3)額外引入RT, 可豐富診斷反饋內(nèi)容, 提供有關(guān)被試加工速度的測量。
綜上, 新模型的提出豐富了概率態(tài)CDM的適用范圍, 為后續(xù)進一步在技術(shù)增強型測評系統(tǒng)中聯(lián)合分析多模態(tài)數(shù)據(jù)進行精細化全面化診斷提供了方法學引導。當然, 本研究僅在有限的范圍內(nèi)探討并展現(xiàn)了三個聯(lián)合概率態(tài)CDM的表現(xiàn)。由于任何模型都有其適用的測驗情境, 本研究并沒有否定其他對比模型, 更多地是進一步豐富現(xiàn)有的認知診斷模型可選項。在實踐中, 可使用數(shù)據(jù)驅(qū)動方法, 依據(jù)模型?數(shù)據(jù)相對擬合指標來選擇合適的模型。
《深化新時代教育評價改革總體方案》中提出“改進結(jié)果評價, 強化過程評價, 探索增值評價, 健全綜合評價”; 在“改進結(jié)果評價”的基礎(chǔ)上, 未來可面向過程評價、增值評價和綜合評價, 進一步嘗試拓展本文提出的模型, 比如:
(1) “強化過程評價”取向。概率態(tài)屬性的一個有價值的實踐用途是描述被試對屬性的掌握狀況的精細化變化(Zhan, 2021)。本研究暫局限于橫斷測驗, 未關(guān)注被試潛在特質(zhì)的動態(tài)發(fā)展變化。未來可嘗試結(jié)合已有的縱向認知診斷建模, 進一步探索概率態(tài)屬性和加工速度的動態(tài)變化。
(2) “探索增值評價”取向。CDM主要關(guān)注對個體水平特質(zhì)的測量, 暫未關(guān)注對教師和學校層面的投入的評價。結(jié)合“過程評價”取向的未來成果, 精細化診斷適宜于刻畫學生的發(fā)展變化, 不僅有助于肯定學生的努力付出, 也有助于準確反映教師和學校的投入, 進而有利于實現(xiàn)基于學生學習進步來評價教師教學績效的主張(張莉娜等, 2022)。
(3) “健全綜合評價”取向。本研究對多模態(tài)數(shù)據(jù)的利用尚不夠充分, 局限于RA和RT兩種數(shù)據(jù), 進而僅能提供與認知能力和加工速度有關(guān)的診斷反饋。隨著信息技術(shù)及測量方式的發(fā)展, 技術(shù)增強型測評已經(jīng)可以獲取學生問題解決過程中的多模態(tài)數(shù)據(jù)(如, 眼動數(shù)據(jù)、鼠標點擊次數(shù)、行動序列, 以及面部表情、動作和心率等變化數(shù)據(jù)), 后續(xù)可以將更多模態(tài)的數(shù)據(jù)納入分析中(如, Zhan et al., 2022), 以豐富數(shù)據(jù)分析結(jié)果所包含的信息, 為全面化、多元化的綜合評價提供方法學支持。
Bolsinova, M., de Boeck, P., & Tijmstra, J. (2017). Modelling conditional dependence between response time and accuracy., 1126?1148.
Bolsinova, M., & Tijmstra, J. (2018). Improving precision of ability estimation: Getting more from response times.(1), 13?38.
Bradshaw, L., & Levy, R. (2019). Interpreting probabilistic classifications from diagnostic psychometric models.,(2), 79?88.
de Boeck, P., & Jeon, M. (2019). An overview of models for response times and processes in cognitive tests., 102.
de la Torre, J., & Douglas, J. (2004). Higher-order latent trait models for cognitive diagnosis.333?353.
Guo, L. Shang, P., & Xia, L. (2017). Advantages and illustrations of application of response time model in psychological and educational testing.(4), 701?712.
[郭磊, 尚鵬麗, 夏凌翔. (2017). 心理與教育測驗中反應時模型應用的優(yōu)勢與舉例.(4), 701?712.]
Huang, H.-Y. (2020). Utilizing response times in cognitive diagnostic computerized adaptive testing under the higher-order deterministic input, noisy ‘a(chǎn)nd’ gate model.(1), 109?141.
Liu, Q., Wu, R. Z., Chen, E. H., Xu, G. D., Su, Y., Chen, Z. G., & Hu, G. P. (2018). Fuzzy cognitive diagnosis for modelling examinee performance.(4), Article 48.
Mao, X. (2014). The attribute mastery probability cognitive diagnostic model.(3), 437?443.
[毛秀珍. (2014). 基于屬性掌握概率的認知診斷模型.(3), 437?443.]
Meng, X., Tao, J., & Chang, H.-H. (2015). A conditional joint modeling approach for locally dependent item responses and response times.(1), 1?27.
OECD. (2013).OECD Publishing.
Peng, S., Cai, Y., Wang, D., Luo, F., & Tu, D. (2022). A generalized diagnostic classification modeling framework integrating differential speediness: Advantages and illustrations in psychological and educational testing.(6), 940?959.
Ranger, J. (2013). A note on the hierarchical model for responses and response times in tests of van der Linden (2007).(3), 538?544
Tang, F., & Zhan, P. (2021). Does diagnostic feedback promote learning? Evidence from a longitudinal cognitive diagnostic assessment.(1), 1?15.
Tatsuoka, K. K. (1983). Rule Space: An approach for dealing with misconceptions based on item response theory.,(4), 345?354.
van der Linden, W. J. (2006). A lognormal model for response times on test items.(2), 181?204.
van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items., 287?308.
Wang, C., & Xu, G. (2015). A mixture hierarchical model for response times and response accuracy.(3), 456?477.
Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models., 625?649.
Yan, J. H. (2010). Cognitive styles affect choice response time and accuracy., 747?751.
Zhan, P. (2021). Refined learning tracking with a longitudinal probabilistic diagnostic model.(1), 44?58.
Zhan, P. (2022). Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts.(11), 1416?1423
[詹沛達. (2022). 引入眼動注視點的聯(lián)合-交叉負載多模態(tài)認知診斷建模.(11), 1416?1423]
Zhan, P., & Bian, Y. (2015). The probabilistic-inputs, noisy “and” gate model.(5), 1230?1238.
[詹沛達, 邊玉芳. (2015). 概率性輸入, 噪音“與”門(PINA)模型.(5), 1230?1238.]
Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262?286.
Zhan, P., Jiao, H., Man, K., & Wang, L. (2019). Using JAGS for Bayesian cognitive diagnosis modeling: A tutorial.(4), 473?503.
Zhan, P., Man, K., Wind, S. A., & Malone, J. (2022). Cognitive diagnosis modelling incorporating response times and fixation counts: Providing comprehensive feedback and accurate diagnosis.(6), 736rnal.
Zhan, P., Tian, Y., Yu, Z., Li, F., & Wang, L. (2020). A comparative study of probabilistic logic and fuzzy logic in refined learning diagnosis., 1258?1266.
[詹沛達, 田亞淑, 于照輝, 李菲茗, 王立君. (2020). 概率邏輯與模糊邏輯在精細化學習診斷中的對比研究., 1258?1266.]
Zhan, P., Wang, W. C., Jiao, H., & Bian, Y. F. (2018). Probabilistic-input, noisy conjunctive models for cognitive diagnosis., 997.
Zhang, L., Zhong, Z., Liu, H., & You, X. (2022). Exploration and reflection on teachers' performance appraisal in the context of educational evaluation reform-based on the perspective of value-added evaluation., 23?39.
[張莉娜, 鐘祖榮, 劉紅云, 游曉鋒. (2022). 教育評價改革背景下教師績效考評的探索與思考——基于增值評價的視角., 23?39.]
Zheng, T., Zhou, W., & Guo, L. (2023). Cognitive diagnosis modelling based on response times.,(2), 478?490.
[鄭天鵬, 周文杰, 郭磊. (2023). 基于題目作答時間信息的認知診斷模型.,(2), 478?490.]
首先, 根據(jù)條件獨立性假設(shè),X和logT滿足:
其次, 假設(shè)被試參數(shù)先驗分布為:
為了使模型可識別, 約束μθ= 0, μτ= 0, 以及σθ= 1 (Guo et al., 2020; Meng, Tao, & Chang, 2015; van der Linden, 2007; Zhan et al., 2018)。由于矩陣中σθ= 1不能直接使用逆Wishart分布(inverse-Wishart), 因此需要對Σperson進行Cholesky分解(Zhan et al., 2018), 即:
此外, 高階結(jié)構(gòu)參數(shù)的先驗分布設(shè)定為:λ0k~(0, 4), λ1k~N(0, 4)。
最后, 假設(shè)題目參數(shù)先驗分布為:
其中各參數(shù)的超先驗設(shè)定為:
由于CJRT-PINC-θ中潛在能力和速度參數(shù)為獨立分布, 因此假設(shè)被試參數(shù)先驗分布為:
假設(shè)題目參數(shù)先驗分布為:
低信息量先驗分布的設(shè)定以“無知”為前提, 并以大方差(如, 5)為變異范圍。由于S1.1中部分參數(shù)已經(jīng)采用低信息量先驗或超先驗, 所以在S1.1的基礎(chǔ)上, 部分參數(shù)的低信息量先驗分布設(shè)定如下:
其他參數(shù)的先驗分布保持不變。
選用正文模擬研究中= 200,= 15條件下生成的數(shù)據(jù)作為分析模型, Q矩陣見正文圖3; 該模擬條件屬于小樣本短測驗情境, 理論上參數(shù)估計結(jié)果受到先驗分布的影響更大。隨樣本量增大及測驗長度提高, 參數(shù)估計結(jié)果受先驗分布中所含信息量的影響會逐漸降低(即魯棒性會增加)。另外, 對于JRT-PINC模型, 設(shè)定潛在能力與加工速度的相關(guān)系數(shù)ρθτ= 0.5; 對于JRT-PINC-θ, 設(shè)定交叉負載(φ)滿足均值為0.5、方差為0.15的正態(tài)分布; 對于, JRT-PINC-, 設(shè)定交叉負載(κ)滿足均值為0.5、方差為0.15的正態(tài)分布。三個模型的其他參數(shù)設(shè)定與正文研究中保持一致, 且參數(shù)估計設(shè)定(如, 馬爾可夫鏈長)與各模擬研究中保持一致。
表S1.1到表S1.3呈現(xiàn)了3個模型在不同信息量先驗分布下各參數(shù)的返真性。整體而言, 基于研究經(jīng)驗設(shè)定的正常信息量先驗分布下的參數(shù)估計返真性與低信息量先驗分布下的參數(shù)估計返真性具有較高的一致性, 且前者略優(yōu)于后者。另外, 三個模型中, CJRT-PINC-θ受先驗分布信息量的影響略大于另外兩個模型。
表S1.1 不同信息量先驗分布下被試參數(shù)的估計一致性
模型信息量θτ BiasRMSECorBiasRMSECor JRT-PINC正常?0.0000.4580.887?0.0000.1200.902 低?0.0030.4590.888?0.0020.1220.901 CJRT-PINC-θ正常?0.0070.2870.958?0.0010.1940.971 低?0.0080.3850.8910.0000.1920.890 CJRT-PINC-m正常?0.0180.4460.894?0.0050.1360.985 低?0.0180.4480.894?0.0060.1400.941
表S1.2 不同信息量先驗分布下屬性的估計一致性
模型信息量指標m1m2m3m4m5 JRT-PINC正常Bias0.0060.0080.008?0.008?0.022 RMSE0.1280.1390.1440.1470.142 Cor0.8980.8990.8940.8860.874 低Bias0.0070.0070.004?0.011?0.016 RMSE0.1230.1370.1330.1360.134 Cor0.890 0.889 0.886 0.879 0.866 CJRT-PINC-θ正常Bias?0.004?0.030?0.006?0.009?0.002 RMSE0.097 0.118 0.1070.1110.098 Cor0.9520.9490.9520.9500.949 低Bias0.011?0.021?0.002?0.007?0.012 RMSE0.1220.1360.120.1250.112 Cor0.923 0.894 0.896 0.884 0.904 CJRT-PINC-m正常Bias0.012?0.0100.002?0.009?0.005 RMSE0.1270.1240.1320.1350.135 Cor0.9070.9100.9060.8970.882 低Bias0.009?0.010?0.001?0.012?0.010 RMSE0.1270.1240.1320.1350.136 Cor0.9070.9100.9050.8970.882
表S1.3 不同信息量先驗分布下屬性的估計一致性
模型先驗分布gsξ1/σ2交叉負載 BiasRMSEBiasRMSEBiasRMSEBiasRMSEBiasRMSE JRT-PINC正常0.0070.0550.0230.060?0.002 0.0370.011 0.028?? 低0.0140.0560.0350.067?0.0030.0380.0120.028?? CJRT-PINC-θ正常0.0020.0550.0020.0490.0010.0610.0120.062?0.0290.030 低0.0330.1080.0370.1140.0020.061?0.0530.1620.0120.030 CJRT-PINC-m正常0.0020.0480.0090.0540.0350.0970.0100.204?0.1020.028 低0.0100.0490.0180.0580.0200.097?0.0690.1980.0100.028
表S2.1 研究1中概率態(tài)屬性參數(shù)估計的平均Bias
注: JRT-PINC = 聯(lián)合?層級概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; θ = 高階潛在能力; τ = 加工速度; N = 樣本量; I = 題目數(shù)量; ρ = 能力與速度之間相關(guān)。
表S2.2 研究1中題目參數(shù)的返真性
NIρθτJRT-PINCHO-PINC gsξ1/σ2gs BiasRMSEBiasRMSEBiasRMSEBiasRMSEBiasRMSEBiasRMSE 20015?0.50.004 0.0550.0220.056?0.001 0.0370.0110.0280.0550.0770.1180.138 ?0.30.005 0.0540.0220.057?0.001 0.0370.0110.0280.0570.0780.1170.137 00.006 0.0550.0220.056?0.001 0.0360.0110.0280.0560.0780.1190.139 0.30.007 0.0550.0220.057?0.002 0.0370.0110.0280.0570.0790.1180.138 0.50.007 0.0550.0230.060?0.002 0.0370.0110.0280.0570.0800.1200.141
續(xù)表S2.2
NIρθτJRT-PINCHO-PINC gsξ1/σ2gs BiasRMSEBiasRMSEBiasRMSEBiasRMSEBiasRMSEBiasRMSE 30?0.50.005 0.0430.0130.051?0.002 0.0340.0120.0290.0430.0610.1220.143 ?0.30.004 0.0440.0130.051?0.003 0.0340.0120.0290.0420.0610.1240.146 00.005 0.0440.0130.049?0.002 0.0340.0120.0290.0430.0620.1230.145 0.30.005 0.0430.0140.049?0.004 0.0350.0120.0290.0430.0620.1230.145 0.50.004 0.0430.0130.050?0.003 0.0340.0120.0290.0430.0610.1240.145 50015?0.50.006 0.0430.0110.0440.000 0.0220.0040.0170.0460.0610.0830.099 ?0.30.006 0.0440.0100.043?0.001 0.0220.0040.0170.0470.0610.0830.099 00.007 0.0440.0090.045?0.000 0.0220.0040.0170.0490.0630.0840.101 0.30.008 0.0450.0100.045?0.001 0.0220.0040.0170.0490.0630.0820.100 0.50.006 0.0440.0080.045?0.000 0.0220.0040.0170.0490.0640.0830.100 30?0.5?0.000 0.0290.0020.0370.000 0.0210.0050.0170.0270.0390.0800.095 ?0.30.000 0.0290.0030.0360.000 0.0220.0050.0170.0270.0390.0800.096 0?0.001 0.0290.0030.0370.001 0.0210.0050.0170.0270.0390.0790.094 0.3?0.001 0.0290.0010.0350.000 0.0220.0050.0170.0260.0380.0780.093 0.5?0.002 0.0290.0000.0350.001 0.0220.0050.0170.0260.0380.0780.093
表S2.3 研究1中方差協(xié)方差矩陣和題目均值向量的平均Bias
NIρθτΣitemΣperson題目均值向量 Σ11Σ12Σ13Σ22Σ23Σ33Σ12Σ22μζ 20015?0.50.000 0.200 0.026 ?0.037 ?0.053 0.095?0.003 0.0020.055 ?0.179 ?0.001 ?0.3?0.025 0.226 0.031 ?0.065 ?0.056 0.095?0.002 0.0020.073 ?0.194 ?0.001 0?0.027 0.230 0.030 ?0.082 ?0.052 0.0950.001 0.0030.078 ?0.190 ?0.012 0.3?0.025 0.225 0.032 ?0.079 ?0.052 0.0950.003 0.0030.085 ?0.203 ?0.002 0.5?0.002 0.197 0.026 ?0.031 ?0.042 0.0940.002 0.0030.083 ?0.198 ?0.002 30?0.50.033 0.106 ?0.006 ?0.092 ?0.013 0.046?0.006 0.0050.050 ?0.124 ?0.002 ?0.30.037 0.103 ?0.004 ?0.087 ?0.017 0.046?0.007 0.0050.045 ?0.119 ?0.003 00.022 0.114 ?0.002 ?0.107 ?0.015 0.046?0.004 0.0050.059 ?0.142 ?0.007 0.30.043 0.088 ?0.003 ?0.078 ?0.012 0.046?0.002 0.0050.050 ?0.140 ?0.004 0.50.044 0.085 ?0.003 ?0.071 ?0.012 0.046?0.000 0.0050.041 ?0.127 ?0.003 50015?0.50.096 0.053 ?0.004 0.087 ?0.009 0.0960.002 0.0020.053 ?0.090 0.000 ?0.30.100 0.057 ?0.010 0.075 ?0.004 0.0950.002 0.0020.051 ?0.085 ?0.001 00.091 0.072 ?0.005 0.063 ?0.007 0.0960.002 0.0020.071 ?0.085 ?0.011 0.30.079 0.096 ?0.007 0.034 ?0.009 0.0960.003 0.0020.071 ?0.091 ?0.001 0.50.101 0.078 ?0.011 0.048 ?0.005 0.0960.003 0.0020.047 ?0.051 ?0.000 30?0.50.057 ?0.019 ?0.010 0.071 0.020 0.044?0.003 0.002?0.007 0.018 0.000 ?0.30.053 ?0.013 ?0.009 0.063 0.019 0.045?0.002 0.002?0.001 ?0.001 0.000 00.067 ?0.036 ?0.013 0.087 0.025 0.044?0.002 0.002?0.006 0.004 ?0.004 0.30.071 ?0.048 ?0.012 0.096 0.025 0.044?0.002 0.002?0.019 0.024 0.000 0.50.078 ?0.058 ?0.012 0.108 0.025 0.044?0.001 0.002?0.028 0.041 0.001
表S2.4 研究1中方差協(xié)方差矩陣和題目均值向量的平均RMSE
NIρθτΣitemΣperson題目均值向量 Σ11Σ12Σ13Σ22Σ23Σ33Σ12Σ22μξ 20015?0.50.3250.4380.0810.4710.1220.0950.0180.0070.1950.2960.012 ?0.30.2870.4140.0770.4370.1190.0960.0200.0070.1950.3330.010 00.2770.4080.0790.4310.1130.0950.0190.0070.1910.3370.016 0.30.2750.4090.0740.4200.1130.0950.0190.0070.2130.3630.011 0.50.2870.4300.0740.4820.1180.0950.0180.0070.1990.3760.011 30?0.50.1760.2170.0500.2690.0850.0470.0140.0070.1260.2650.008 ?0.30.1840.2180.0510.2570.0890.0460.0150.0080.1370.2660.007 00.1970.2310.0480.2690.0810.0470.0170.0080.1450.2420.010 0.30.1910.2180.0460.2500.0810.0470.0180.0080.1520.2420.009 0.50.1920.2180.0460.2480.0780.0460.0170.0070.1580.2590.008 50015?0.50.2850.3250.0670.4150.0890.0960.0100.0040.2060.3880.005 ?0.30.2840.3310.0660.4320.0840.0950.0110.0050.1910.3680.005 00.2670.3360.0630.4440.0830.0960.0110.0060.1910.3520.012 0.30.2780.3520.0660.4230.0940.0960.0100.0060.2120.3860.005 0.50.2940.3650.0640.4630.0890.0960.0100.0060.2080.3880.005 30?0.50.1630.1950.0360.2900.0710.0450.0080.0040.1140.2610.004 ?0.30.1630.1890.0350.2800.0690.0450.0080.0040.1120.2390.004 00.1740.2020.0360.2880.0710.0440.0100.0040.1200.2610.006 0.30.1700.1970.0360.2950.0710.0450.0100.0040.1230.2480.005 0.50.1730.2020.0370.3110.0720.0440.0080.0030.1240.2350.005
表S3.1 研究2 (子研究1)中題目參數(shù)的返真性
分析模型μφ指標gsξφ1/σ2 CJRT-PINC-θ0.1平均Bias0.0050.0110.000?0.0070.010 平均RMSE0.0530.0550.0490.0460.028 0.5平均Bias0.0020.0020.001?0.0290.012 平均RMSE0.0550.0490.0610.0620.030 HO-PINC0.1平均Bias0.0610.113 平均RMSE0.0810.134 0.5平均Bias0.0650.111 平均RMSE0.0840.131
表S3.2 研究2 (子研究1)中題目參數(shù)方差協(xié)方差矩陣和均值向量的返真性
μφ指標Σitem題目均值向量 Σ11Σ12Σ13Σ22Σ23Σ33μζ 0.1平均Bias?0.0540.2410.025?0.124?0.0420.0940.081?0.0930.000 平均RMSE0.3100.4060.0800.3670.1210.0950.2280.3950.027 0.5平均Bias?0.0230.1720.0090.058?0.0100.0940.0420.0430.001 平均RMSE0.2520.3740.0780.4720.1230.0940.2160.4110.045
為了更符合實際測試的復雜情境, 研究設(shè)置不同題目中理想作答概率對RT的影響不同, 因此數(shù)據(jù)生成中設(shè)定自變量交叉負載(κ)滿足方差為0.15的正態(tài)分布, 其中低影響效應μκ= 0.1, 高影響效應μκ= 0.5。其余參數(shù)設(shè)定與研究1和研究2 (子研究1)相同。根據(jù)CJRT-PINC-(正文公式2~3和10~11)生成所有被試在所有題目上的RA和RT。
使用CJRT-PINC-和HO-PINC分析該數(shù)據(jù)。結(jié)果顯示所有參數(shù)的PSRF均小于1.2, 表示各參數(shù)均已收斂。附錄表S3.3呈現(xiàn)了能力參數(shù)與加工速度參數(shù)的返真性, 附錄表S3.4呈現(xiàn)了屬性參數(shù)的返真性。首先, CJRT-PINC-對所有參數(shù)的返真性均優(yōu)于HO-PINC的。其次, 在CJRT-PINC-中, 由于RT沒有為能力直接提供信息, 所以能力參數(shù)的RMSE與研究1中JRT-PINC的基本一致。再有, 隨著交叉負載均值提高, 能力、加工速度和屬性的返真性均有所提高。題目參數(shù)和方差協(xié)方差矩陣參數(shù)的返真性見附錄表S3.5和表S3.6。整體而言, CJRT-PINC-在不同模擬條件下模型參數(shù)的返真性良好, 均優(yōu)于不考慮RT的HO-PINC的。
表S3.3 研究2 (子研究2)中被試參數(shù)估計返真性
分析模型μφθτ BiasRMSECorBiasRMSECor CJRT-PINC-m0.1?0.0070.4610.8870.0000.1350.978 0.5?0.0180.4460.894?0.0050.1360.985 HO-PINC0.1?0.0090.4820.876 0.5?0.0200.4800.875
注: CJRT-PINC-= 基于屬性的聯(lián)合?交叉負載概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; θ = 能力; τ = 加工速度; μφ= 交叉負載均值; Bias = 所有被試的平均偏差; RMSE = 所有被試的平均均方根誤差; Cor = 估計值與真值之間的相關(guān)系數(shù)。
表S3.4 研究2 (子研究2)概率態(tài)屬性參數(shù)估計返真性
分析模型μφ指標m1m2m3m4m5 CJRT-PINC-m0.1Bias0.006?0.014?0.0210.012?0.026 RMSE0.1290.1310.1400.1540.144 Cor0.9040.9050.9010.8880.873 0.5Bias0.012?0.0100.002?0.009?0.005 RMSE0.1270.1240.1320.1350.135 Cor0.9070.9100.9060.8970.882 HO-PINC0.1Bias0.0400.016?0.006?0.009?0.054 RMSE0.1530.1450.1490.1540.159 Cor0.8910.8940.8880.8770.861 0.5Bias0.0380.012?0.006?0.021?0.065 RMSE0.1540.1480.1540.1560.159 Cor0.8890.8920.8860.8760.859
注: CJRT-PINC-= 基于屬性的聯(lián)合?交叉負載概率態(tài)輸入, 噪音連接模型; HO-PINC = 高階概率態(tài)輸入, 噪音連接模型; μφ= 交叉負載均值;= 概率態(tài)屬性; Bias = 所有被試的平均偏差; RMSE = 所有被試的平均均方根誤差; Cor = 估計值與真值之間的相關(guān)系數(shù)。
表S3.5 研究2 (子研究2)中題目參數(shù)的返真性
表S3.6 研究2 (子研究2)中題目參數(shù)方差協(xié)方差矩陣和均值向量的返真性
μα指標Σitem題目均值向量 Σ11Σ12Σ13Σ22Σ23Σ33μζ 0.1平均Bias?0.1150.3190.048?0.167?0.0500.087?0.0180.1500.026 平均RMSE0.2750.4290.1000.3930.1120.0900.2430.4310.067 0.5平均Bias0.0580.1200.0140.059?0.0310.1050.029?0.0080.035 平均RMSE0.3630.4660.0790.6700.1300.1070.1700.3680.062
表S4.1 研究3中被試參數(shù)的返真性
數(shù)據(jù)生成模型數(shù)據(jù)分析模型θτ BiasRMSECorBiasRMSECor JRT-PINCJRT-PINC0.000 0.4570.887?0.001 0.1200.951 CJRT-PINC-θ?0.002 0.4750.878?0.002 0.1810.885 CJRT-PINC-m?0.001 0.4750.877?0.003 0.1320.943 CJRT-PINC-θJRT-PINC0.007 0.4120.910?0.013 0.4960.600 CJRT-PINC-θ0.009 0.2860.959?0.016 0.1940.886 CJRT-PINC-m0.010 0.3020.954?0.016 0.3560.740 CJRT-PINC-mJRT-PINC0.003 0.4750.8790.008 0.1710.902 CJRT-PINC-θ0.008 0.4660.8840.004 0.1430.936 CJRT-PINC-m0.005 0.4560.8890.005 0.1430.937
表S4.2 研究3中屬性參數(shù)的的平均Bias
數(shù)據(jù)生成模型數(shù)據(jù)分析模型m1m2m3m4m5 JRT-PINCJRT-PINC0.006 0.007 0.008 ?0.008 ?0.022 CJRT-PINC-θ0.005 0.005 0.007 ?0.006 ?0.023 CJRT-PINC-m0.015 0.011 0.010 ?0.004 ?0.028 CJRT-PINC-θJRT-PINC?0.017 ?0.014 ?0.019 ?0.024 ?0.026 CJRT-PINC-θ?0.016 ?0.009 ?0.018 ?0.018 ?0.017 CJRT-PINC-m0.016 0.0120.029 0.020 ?0.038 CJRT-PINC-mJRT-PINC0.031 0.001 ?0.020 0.002 ?0.015 CJRT-PINC-θ0.026 0.009 ?0.024 0.002 ?0.020 CJRT-PINC-m0.033 0.011 ?0.016 ?0.001 ?0.013
表S4.3 研究3中屬性參數(shù)的的平均RMSE
數(shù)據(jù)生成模型數(shù)據(jù)分析模型m1m2m3m4m5 JRT-PINCJRT-PINC0.1260.1380.1420.1470.143 CJRT-PINC-θ0.1280.1400.1460.1480.145 CJRT-PINC-m0.1320.1430.1440.1510.147 CJRT-PINC-θJRT-PINC0.1160.1310.1390.1370.133 CJRT-PINC-θ0.0880.1030.1460.1090.103 CJRT-PINC-m0.1560.1420.1100.1300.150 CJRT-PINC-mJRT-PINC0.1390.1500.1510.1460.143 CJRT-PINC-θ0.1340.1490.1490.1420.141 CJRT-PINC-m0.1370.1430.1420.1390.136
表S4.4 研究3中屬性參數(shù)的的Cor
數(shù)據(jù)生成模型數(shù)據(jù)分析模型m1m2m3m4m5 JRT-PINCJRT-PINC0.8990.8990.8950.8870.874 CJRT-PINC-θ0.8940.8940.8880.8800.866 CJRT-PINC-m0.8930.8940.8890.8790.865 CJRT-PINC-θJRT-PINC0.9170.9160.9130.9070.896 CJRT-PINC-θ0.9560.9550.9540.9530.949 CJRT-PINC-m0.9380.9450.9520.9500.937 CJRT-PINC-mJRT-PINC0.8950.8930.8910.8810.866 CJRT-PINC-θ0.9010.9000.8970.8880.873 CJRT-PINC-m0.9030.9030.9010.8920.877
表S5.1 研究3實證數(shù)據(jù)Q矩陣
題目K1K2K3K4K5K6K7 CM015Q010100100 CM015Q02D1000100 CM015Q03D1000100 CM020Q010010001 CM020Q020010001 CM020Q030010001 CM020Q040010001 CM038Q03T0001010 CM038Q050001010 CM038Q060001010
圖S5.1 實證數(shù)據(jù)中模型加工速度參數(shù)估計值散點圖
注: y軸對應模型比x軸對應模式的估計值更大, 則散點趨勢高于對角線表明; 反之, 散點趨勢低于對角線。
圖S5.2 實證數(shù)據(jù)中模型潛在能力參數(shù)估計值散點圖
注: y軸對應模型比x軸對應模式的估計值更大, 則散點趨勢高于對角線表明; 反之, 散點趨勢低于對角線。
Joint cognitive diagnostic modeling for probabilistic attributes incorporating item responses and response times
TIAN Yashu, ZHAN Peida, WANG Lijun
(School of Psychology, Zhejiang Normal University; Intelligent Laboratory of Child and Adolescent Mental Health and Crisis Intervention of Zhejiang Province; Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Jinhua 321004, China)
Compared with the conventional CDM with deterministic or binary attributes, the CDM with probabilistic attributes (probabilistic-CDM) can achieve a more refined diagnosis of attribute mastery status, which helps distinguish individual differences between students and provides more reference information for teacher feedback. However, existing probabilistic CDMs can only analyze a single modal of data—item response accuracy (RA), ignoring other modals of data such as item response times (RTs). RTs reflect the cognitive processing speed of the participant. With the popularity of computerized testing, recording RT data has become routine. However, how to use RTs in probabilistic CDM to further improve parameter estimation accuracy and enrich the diagnostic feedback information is still an unsolved methodological problem. To this end, the current study proposes three joint probabilistic CDMs based on the joint-hierarchical and joint-cross-loading cognitive diagnostic modeling approaches.
First, based on joint-hierarchical modeling, the joint-hierarchical probabilistic CDM (JRT-PINC) was proposed in Study 1, which achieved the purpose of using RT to improve diagnostic accuracy. A simulation study was conducted to investigate the psychometric performance of the JRT-PINC under various simulated testing conditions, in which three independent variables, including sample size, test length, and the correlation between person parameters, were manipulated. Second, two joint-cross-loading probabilistic CDMs (CJRT- PINC-θ and CJRT-PINC-) were proposed based on the joint-cross-loading modeling. In contrast to the JRT-PINC model, two CJRT-PINC models directly used RTs to provide information for latent abilities or attributes by introducing item-level cross-loading parameters. Two CJRT-PINC models released some conditional independence assumptions in JRT-PINC, increasing their application scope. Two simulation studies were conducted to explore their performance under different simulated conditions with different degrees of cross-loading. Third, Study 3 aims to explore the relative merits of the JRT-PINC and two CJRT-PINC models, that is, the necessity of considering cross-loading in the joint analysis of RA and RT. Finally, an empirical example was conducted to illustrate the practical applicability of the proposed models and to compare them with existing CDMs (e.g., CDMs with deterministic attributes).
The simulation results mainly indicated that: (1) all three proposed models can be well recovered under different simulated conditions; (2) CJRT-PINC-θ makes fuller use of the information contained in RTs and thus improves the accuracy of the parameter estimation of the core constructs (e.g., latent ability and attributes) than CJRT-PINC-; and (3) the adverse effects of ignoring the possible cross-loadings are more severe than redundantly considering them. The results of the empirical example indicated that: (1) probabilistic attributes provide more refined feedback on participants' mastery of attributes than deterministic attributes; and (2) two CJRT-PINC models fit this data better than the JRT-PINC model.
Overall, this paper introduced RTs in probabilistic CDM for the first time and proposed three joint probabilistic CDMs based on two joint cognitive diagnostic modeling approaches. This study enriched the scope of application of probabilistic CDMS and provided methodological guidance for further refined and comprehensive diagnosis by jointly analyzing multi-modal data in technology-enhanced assessment systems.
cognitive diagnosis, probabilistic attribute, item response time, joint modeling framework, cross loading
B841
2022-08-30
* 國家自然科學基金青年基金項目(31900795)資助。
詹沛達, E-mail: pdzhan@gmail.com; 王立君, E-mail: frankwlj@163.com