關(guān)鍵詞 能力 知識(shí)狀態(tài) 2PL模型 DINA 模型 MCMC 算法
1 引言
中共中央和國(guó)務(wù)院(2020)印發(fā)的《深化新時(shí)代教育評(píng)價(jià)改革總體方案》提出改進(jìn)結(jié)果評(píng)價(jià),如何綜合發(fā)揮測(cè)驗(yàn)的診斷作用,將對(duì)推動(dòng)評(píng)價(jià)促進(jìn)學(xué)生發(fā)展具有重要意義。單維項(xiàng)目反應(yīng)理論(itemresponse theory, IRT)構(gòu)建潛在連續(xù)特質(zhì)、測(cè)驗(yàn)題目特征與作答反應(yīng)之間的模型,用來(lái)推斷學(xué)生能力(θ )(Baker amp; Kim, 2004),如兩參數(shù)邏輯斯蒂克模型(two-parameter logistic model,2PLM)。認(rèn)知診斷模型(cognitive diagnosis model, CDM)建立潛在知識(shí)狀態(tài)(α )、題目考查屬性與作答反應(yīng)之間的模型,實(shí)現(xiàn)對(duì)被試微觀認(rèn)知結(jié)構(gòu)的診斷(Henson et al.,2009),如確定性輸入噪音與門(mén)模型(deterministicinput, noisy ‘a(chǎn)nd’ gate, DINA; Haertel, 1989; Junkeramp; Sijtsma, 2001)。這兩類(lèi)模型主要針對(duì)能力測(cè)量或知識(shí)狀態(tài)診斷。
因?yàn)楸辉囎鞔饠?shù)據(jù)中蘊(yùn)含豐富的θ 與α 信息(王璞玨,劉紅云,2019),有學(xué)者在測(cè)量模型中同時(shí)考慮能力和知識(shí)狀態(tài)。為了實(shí)現(xiàn)測(cè)量θ 與α診斷,當(dāng)屬性具有高度相關(guān)性或線(xiàn)性層次結(jié)構(gòu)時(shí),可同時(shí)用單維IRT 模型和CDM 分析測(cè)驗(yàn)(Kang etal., 2017; Wang et al., 2014),但測(cè)驗(yàn)題目是否完全擬合模型仍需要探查(羅芬等, 2020)或進(jìn)行驗(yàn)證(Ruppet al., 2010)。Gitomer 和 Yamamoto(1991) 基于單維IRT 模型與潛在分類(lèi)模型提出混合(Hybird)模型,用于推斷一組被試的能力和另一組被試的知識(shí)狀態(tài),但不能同時(shí)報(bào)告每名被試的能力和知識(shí)狀態(tài)。Bradshaw 和 Templin(2013)開(kāi)發(fā)了SICM 模型(the scaling individuals and classifying misconceptions model),該模型建立θ 與迷思概念對(duì)觀察反應(yīng)的項(xiàng)目反應(yīng)函數(shù),選擇題中正確選項(xiàng)用于能力測(cè)量,錯(cuò)誤選項(xiàng)用于診斷迷思概念。Hong 等人(2015)將非補(bǔ)償多維IRT 模型的項(xiàng)目反應(yīng)函數(shù)Hj(θn)和DINA 模型的項(xiàng)目反應(yīng)函數(shù)Dj(αn) 相乘得到DINA-NIRT 模型的項(xiàng)目反應(yīng)函數(shù)P(αn,θn)=Dj(αn)Hj(θn)。但Hybird、SICM 和DINA-NIRT 模型要求標(biāo)定所有項(xiàng)目(選項(xiàng))所測(cè)量的屬性向量,沒(méi)有考慮θ 與α 之間關(guān)系。
高階DINA(higher-order DINA,HO-DINA; de laTorre amp; Douglas, 2004)模型通過(guò)高階模型描述能力與屬性之間的統(tǒng)計(jì)關(guān)系,實(shí)現(xiàn)基于作答反應(yīng)同時(shí)推斷θ 與α 。HO-DINA 模型即使應(yīng)用于計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn),θ 估計(jì)仍有較大均方根誤差(Hsu amp; Wang,2015)。Zhan 等人(2020)結(jié)合屬性層次結(jié)構(gòu)與HO-DINA 模型,建立了縱向認(rèn)知診斷模型,雖然α 的診斷比較理想,但θ 誤差較大。只有屬性個(gè)數(shù)較多時(shí),θ 估計(jì)精度才高(涂冬波等, 2011; Hsuamp; Wang, 2015),但屬性數(shù)多不利于α 診斷。因此屬性數(shù)量相對(duì)較少時(shí),通過(guò)HO-DINA 模型獲得高精度的能力估計(jì)不太現(xiàn)實(shí)(Kang et al., 2017)。
綜上,同時(shí)使用單維IRT 模型和CDM 的假設(shè)較強(qiáng),SICM 和DINA-NIRT 模型中的能力與一般能力的含義有所區(qū)別,而HO-DINA模型能力精度不高。本研究以一般(高階)能力(de la Torre amp; Douglas,2004)作為連接IRT 模型與CDM 的橋梁,利用不同試題上的作答信息,開(kāi)發(fā)出融入能力信息的認(rèn)知診斷模型,充分利用能力和知識(shí)狀態(tài)之間的關(guān)系提高診斷準(zhǔn)確性。
2 方法
新模型不僅通過(guò)相對(duì)擬合2PLM 項(xiàng)目的作答反應(yīng)推斷能力,還借助高階模型將相對(duì)擬合DINA 模型的項(xiàng)目作答反應(yīng)提高能力估計(jì)精度。反過(guò)來(lái),相對(duì)擬合2PLM 項(xiàng)目的作答反應(yīng)也可輔助診斷知識(shí)狀態(tài)。
2.2 參數(shù)估計(jì)算法
采用廣泛使用的馬爾可夫鏈蒙特卡羅模擬(Markov Chain Monte Carlo, MCMC;de la Torre amp;Douglas, 2004; Patz amp; Junker, 1999)實(shí)現(xiàn)新模型的參數(shù)估計(jì)。在局部獨(dú)立性條件下,給定得分矩陣U=(X,Y)下,所有參數(shù)向量的聯(lián)合后驗(yàn)分布、各參數(shù)向量的全條件分布分別為:
3.3 研究結(jié)果
從表1 來(lái)看,整體能力參數(shù)估計(jì)精度較好。當(dāng)診斷項(xiàng)目是高質(zhì)量、服從對(duì)數(shù)正態(tài)分布,能力估計(jì)精度較高;在高質(zhì)量測(cè)驗(yàn)下,屬性參數(shù)與診斷項(xiàng)目參數(shù)返真性更理想。從表2 可得,當(dāng)診斷項(xiàng)目為高質(zhì)量時(shí)判準(zhǔn)率較好,而為低質(zhì)量,MMR 和PMR 都較低,因?yàn)槭д`越大,易將本該掌握的屬性診斷為未掌握,而猜測(cè)越大,易將未掌握的屬性診斷為掌握。對(duì)照表3 和4,相較于單一的2PLM 和DINA 模型,新模型一定程度上提高了能力參數(shù)和知識(shí)狀態(tài)的返真性。當(dāng)新模型中屬性斜率參數(shù)降低.5 時(shí),其能力與知識(shí)狀態(tài)的返真性如表5 和表6。對(duì)比表1 和表2,可見(jiàn)屬性斜率越大,能力返真性越高,絕大多數(shù)情況下屬性判準(zhǔn)率也越高。
項(xiàng)目擬合指標(biāo)如圖2,當(dāng)PPP 大于.995,用“gt;”標(biāo)注,小于.005,用“l(fā)t;”標(biāo)注,代表其擬合不佳。顏色越深越接近1,顏色越淺越接近0,越接近.5表明其項(xiàng)目與項(xiàng)目之間獨(dú)立性越強(qiáng),對(duì)角線(xiàn)為每個(gè)項(xiàng)目PPP 值。從圖中可以看出,觀察數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)沒(méi)有系統(tǒng)性差異,新模型能夠擬合數(shù)據(jù)并表現(xiàn)良好。
4 研究2 測(cè)驗(yàn)中不同類(lèi)型試題數(shù)量對(duì)參數(shù)估計(jì)的影響
在固定測(cè)驗(yàn)長(zhǎng)度條件下,研究2 考慮不同類(lèi)型試題數(shù)量變化下新模型、DINA 模型和2PLM 參數(shù)估計(jì)的返真性, 還考慮不同題長(zhǎng)條件下屬性斜率變化對(duì)新模型的影響。
4.1 研究設(shè)計(jì)
項(xiàng)目參數(shù)分布a~LN (0, 1), b ~N(0, 1), s , g ~U(.05,.15) 對(duì)于Q 矩陣設(shè)置如表7,其余參數(shù)與研究一相同。
4.2 研究結(jié)果
表8顯示隨著2PLM 長(zhǎng)度的增加,能力誤差逐漸減小。表9 顯示隨著DINA 模型題數(shù)的增加,PMR 和MMR 都呈現(xiàn)遞增趨勢(shì),MMR 增幅高于PMR 增幅。對(duì)照表10 至11,說(shuō)明新模型能夠較好地利用能力和知識(shí)狀態(tài)之間的信息,提高兩者的估計(jì)精度。對(duì)比表8 和9 以及表12 和13,在各種相同題長(zhǎng)條件下,屬性斜率越大,能力和知識(shí)狀態(tài)返真性越高。
5 實(shí)測(cè)數(shù)據(jù)分析
5.1 數(shù)據(jù)預(yù)分析
英語(yǔ)水平證書(shū)考試(ECPE) 數(shù)據(jù)集包含2922 個(gè)被試在28 個(gè)項(xiàng)目的作答數(shù)據(jù)和考察三個(gè)屬性的Q矩陣(Ma amp; de la Torre, 2020)。屬性1 是形態(tài)句法規(guī)則,屬性2 是銜接規(guī)則,屬性3 是詞匯規(guī)則。對(duì)照DINA 與HO-DINA 的項(xiàng)目擬合檢驗(yàn)p 值,HODINA是DINA 的約束版本,DINA 擬合較好,取顯著性水平.05 作為絕對(duì)擬合評(píng)價(jià)標(biāo)準(zhǔn),并將p 值相對(duì)較大所對(duì)應(yīng)的模型作為最佳模型。根據(jù)p 值,項(xiàng)目1、3 、4 、5 、8、10、11、12、14、15、17、18、22、27、28 擬合DINA 模型,其余擬合2PLM。將新模型與HO-DINA 模型、DINA 模型、2PLM、四屬性DINA 模型( 在Q 陣加一列全1,將能力看作一個(gè)屬性) 的結(jié)果進(jìn)行比較分析。
5.2 研究結(jié)果
新模型整體擬合指標(biāo)(表14)優(yōu)于DINA 與HO-DINA 模型,四屬性DINA 模型表現(xiàn)不佳。雖然2PLM 相對(duì)擬合指標(biāo)更小,但模型的選擇還需要綜合考慮模型所能提供的信息,比如新模型能同時(shí)報(bào)告能力與知識(shí)狀態(tài)。
數(shù)據(jù)預(yù)分析發(fā)現(xiàn)項(xiàng)目基本擬合2PLM 和DINA模型,可將DINA 模型分析全部數(shù)據(jù)所得的知識(shí)狀態(tài)、猜測(cè)與失誤參數(shù)為參考標(biāo)準(zhǔn)(視為真值),2PLM分析全部數(shù)據(jù)所得的能力與項(xiàng)目參數(shù)為真值,而擬合兩個(gè)模型的數(shù)據(jù)分別用對(duì)應(yīng)模型估計(jì)參數(shù)(部分?jǐn)M合),從表15 和16 可得,相比部分?jǐn)M合,新模型與全部擬合之間的參數(shù)誤差相對(duì)小一些。
圖3中,新模型與2PLM 所得的能力與測(cè)驗(yàn)總分相關(guān)較高。另外,將除預(yù)燒外鏈長(zhǎng)中每隔100 取樣計(jì)算屬性掌握概率,得出屬性分類(lèi)準(zhǔn)確性(Wanget al., 2015)。從表17 新模型的屬性分類(lèi)準(zhǔn)確性高于部分?jǐn)M合HO-DINA、DINA 模型,能夠利用能力信息提高所有屬性的分類(lèi)準(zhǔn)確性。新模型中三個(gè)屬性的斜率分別是2.93、2.15 和2.94,截距分別是.061、-.466 和-.574。相比部分?jǐn)M合模型,新模型在對(duì)題數(shù)較少的屬性2上分類(lèi)準(zhǔn)確性提高幅度較大。在部分?jǐn)M合Q 矩陣中,屬性1、屬性2 和屬性3 分別被7 題、3 題和10 題所考查。
圖4 給出了被試能力與屬性掌握概率之間的散點(diǎn)圖,可以看出:能力越高,屬性掌握概率越高;屬性1 和3 斜率較屬性2 的斜率大,考察屬性1 和3 的題目的項(xiàng)目參數(shù)的均值(.3215、.3373) 小于屬性2(.4055),同時(shí)考查屬性2 的題數(shù)較少,導(dǎo)致屬性1 和3 的分類(lèi)準(zhǔn)確率高于屬性2。
6 討論
新時(shí)代教育評(píng)價(jià)改革提出嚴(yán)格控制教育評(píng)價(jià)活動(dòng)數(shù)量和頻次,減少多頭評(píng)價(jià)、重復(fù)評(píng)價(jià),切實(shí)減輕基層和學(xué)校負(fù)擔(dān)。開(kāi)發(fā)新的認(rèn)知診斷模型,對(duì)于充分利用測(cè)驗(yàn)上不同試題上作答反應(yīng)中能力與知識(shí)狀態(tài)信息,發(fā)揮評(píng)價(jià)診斷與改進(jìn)功能,具有重要現(xiàn)實(shí)意義。新模型的優(yōu)勢(shì)在于將高階模型的能力作為連接2PLM 和DINA 模型的橋梁,測(cè)驗(yàn)中不需要為所有項(xiàng)目標(biāo)定屬性,也不需要同時(shí)擬合兩類(lèi)模型,擬合2PLM 的試題可以為知識(shí)狀態(tài)分類(lèi)間接提供信息,擬合CDM的試題同樣也可以提高能力估計(jì)精度。
本模型適應(yīng)的場(chǎng)景是一張?jiān)嚲戆瑑深?lèi)試題:一類(lèi)無(wú)需標(biāo)Q 矩陣,用于能力測(cè)評(píng);另一類(lèi)需標(biāo)Q矩陣,用于診斷測(cè)評(píng);兩類(lèi)試題雖不含相同試題而屬于同一章節(jié)測(cè)試范圍。新模型主要服務(wù)于面向?qū)W習(xí)的診斷測(cè)評(píng),新模型中的能力類(lèi)似于部分認(rèn)知診斷模型中能力,并非局限于大規(guī)模測(cè)評(píng)的能力。許多認(rèn)知診斷模型也對(duì)能力進(jìn)行了建模。例如,HODINA模型,借助高階能力構(gòu)建知識(shí)狀態(tài)條件分布。還有目前認(rèn)知診斷研究發(fā)展迅猛的縱向認(rèn)知診斷模型,如基于HO-DINA 模型構(gòu)建的縱向認(rèn)知診斷模型( 詹沛達(dá)等, 2021;Lee, 2017; Wang et al., 2018;Zhan et al., 2019;)和多水平認(rèn)知診斷模型(Huang,2017; Lee, 2017)。
本文的主要貢獻(xiàn)或潛在價(jià)值主要體現(xiàn)在以下五方面。第一,新模型利用能力與屬性狀態(tài)之間的關(guān)系或相互蘊(yùn)含的信息,提高知識(shí)狀態(tài)診斷的準(zhǔn)確性。就如同將能力視為知識(shí)狀態(tài)的協(xié)變量,由協(xié)變量與知識(shí)狀態(tài)之間的橋梁關(guān)系間接利用能力測(cè)評(píng)試題上作答信息。Wang 等(2018)將能力作為協(xié)變量,提出結(jié)合認(rèn)知診斷模型、高階模型和隱馬爾可夫模型的學(xué)習(xí)模型,用于追蹤學(xué)生技能掌握,并用于評(píng)價(jià)不同學(xué)習(xí)干預(yù)措施的效果。第二,新模型充分利用無(wú)需標(biāo)Q 矩陣的試題上提供的能力信息,并附加被試屬性狀態(tài)中蘊(yùn)含的能力信息,減小被試能力估計(jì)的誤差。新模型用于嵌入式測(cè)評(píng)數(shù)據(jù)分析時(shí),測(cè)驗(yàn)長(zhǎng)度相對(duì)較短且含兩類(lèi)試題僅能覆蓋較小范圍內(nèi)容領(lǐng)域,因此,新模型所得能力不具備大規(guī)模測(cè)評(píng)能力的泛化能力。第三,新模型對(duì)于認(rèn)知診斷走進(jìn)課堂具有重要實(shí)際意義。新模型中僅需標(biāo)定部分試題的Q 矩陣,其他試題可以使用常規(guī)測(cè)驗(yàn)試題,減少了Q 矩陣標(biāo)定難度及測(cè)驗(yàn)開(kāi)發(fā)代價(jià)。第四,新模型有助于發(fā)現(xiàn)與再利用已有數(shù)據(jù)的信息。張華華等人利用現(xiàn)有能力測(cè)評(píng)數(shù)據(jù)來(lái)回溯挖掘診斷信息的研究,如果部分試題只可以較好地?cái)M合單個(gè)模型,這些題目便會(huì)被刪除而信息被浪費(fèi),新模型則可以適合此應(yīng)用情景。第五,新模型有可能為認(rèn)知診斷等值研究開(kāi)辟全新思路。新模型結(jié)合能力建模,項(xiàng)目反應(yīng)理論框架下成熟的等值設(shè)計(jì)、等值方法的相關(guān)成果,是否可為認(rèn)知診斷等值研究開(kāi)辟全新思路,值得進(jìn)一步研究。
新模型中采用的是2PLM 和DINA 模型,若采用其他的認(rèn)知診斷模型和項(xiàng)目反應(yīng)理論模型,結(jié)果會(huì)如何?若屬性具有層次結(jié)構(gòu),實(shí)驗(yàn)結(jié)果的影響?多級(jí)計(jì)分項(xiàng)目往往提供更多信息,提高測(cè)驗(yàn)的效率(Chen amp; de la Torre, 2018),如何實(shí)現(xiàn)多級(jí)評(píng)分的新模型。若將其應(yīng)用于雙目標(biāo)CAT 中,為了更好的兼顧能力和屬性模式信息,如何設(shè)計(jì)出高效的選題策略仍是研究的熱點(diǎn)與難點(diǎn)(Akbay amp; Kaplan, 2017;Dai et al., 2016; Kang et al., 2017; McGlohen amp; Chang,2008; Wang et al., 2012, 2014; Zhang amp; Chang, 2016;Zheng et al., 2018)。Bao 等(2021) 為SICM 模型提出的選題方法是否可供參考以及如何將新模型應(yīng)用于心理測(cè)評(píng)(汪大勛,涂冬波,2021),都有待擴(kuò)展研究。
7 結(jié)論
研究結(jié)果表明:(1)通過(guò)項(xiàng)目擬合指標(biāo)為每個(gè)項(xiàng)目選擇相對(duì)最佳的模型,然后使用新模型分析測(cè)驗(yàn)數(shù)據(jù),新模型對(duì)知識(shí)狀態(tài)診斷和能力的估計(jì)有較好表現(xiàn);(2)若擬合2PLM 或DINA 模型的題量較大,能力估計(jì)或知識(shí)狀態(tài)分類(lèi)越準(zhǔn)確;(3)當(dāng)區(qū)分度較高、失誤參數(shù)和猜測(cè)參數(shù)較小、屬性斜率較大時(shí),新模型的能力估計(jì)誤差較小、判準(zhǔn)率較高。