国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

認(rèn)知診斷評(píng)價(jià)中的被試擬合研究

2024-07-20 00:00:00喻曉鋒唐茜秦春影李喻駿
心理科學(xué) 2024年3期
關(guān)鍵詞:模型

摘 要 通常情況下,認(rèn)知診斷需要通過認(rèn)知診斷模型對(duì)被試進(jìn)行診斷評(píng)價(jià)。認(rèn)知診斷模型所生成診斷結(jié)果的有效性依賴于被試作答反應(yīng)是否與所選用的模型擬合。因此,在對(duì)診斷結(jié)果進(jìn)行評(píng)估的時(shí)候,需要通過被試擬合分析來對(duì)被試個(gè)體的作答反應(yīng)與模型的擬合情況進(jìn)行檢驗(yàn),以避免錯(cuò)誤或無效的補(bǔ)救措施。本研究基于加權(quán)的得分殘差,提出認(rèn)知診斷評(píng)價(jià)中新的被試擬合指標(biāo)R 。模擬研究結(jié)果表明,R 指標(biāo)的一類錯(cuò)誤率有較好的穩(wěn)定性,對(duì)隨機(jī)作答、疲勞、睡眠和創(chuàng)造性作答四種異常被試類型均有較高的統(tǒng)計(jì)檢驗(yàn)力。并將R 指標(biāo)應(yīng)用于分?jǐn)?shù)減法實(shí)證數(shù)據(jù),展示指標(biāo)在實(shí)際測(cè)驗(yàn)中的使用過程。

關(guān)鍵詞 認(rèn)知診斷 被試擬合 DINA 模型 異常反應(yīng)作答

1 引言

assessment, CDA)在心理和教育測(cè)量中得到了廣泛的應(yīng)用,它對(duì)考生是否掌握知識(shí)點(diǎn)或技能進(jìn)行分析,為進(jìn)一步學(xué)習(xí)和教學(xué)提供指導(dǎo)(Leighton amp;Gierl, 2007; Rupp et al., 2010; Tatsuoka, 1983)。認(rèn)知診斷模型在認(rèn)知診斷評(píng)價(jià)過程中起到統(tǒng)計(jì)工具的作用,它被用來推斷被試所掌握的屬性,診斷過程需要借助它來對(duì)被試進(jìn)行診斷評(píng)價(jià)(von Davier amp; Lee,2019)。認(rèn)知診斷模型與測(cè)驗(yàn)數(shù)據(jù)的擬合情況,直接影響依據(jù)這個(gè)模型得到的診斷結(jié)果的準(zhǔn)確性,并影響整個(gè)測(cè)驗(yàn)的信度和效度,因此認(rèn)知診斷評(píng)價(jià)需檢驗(yàn)?zāi)P? 資料擬合優(yōu)度。美國(guó)教育和心理測(cè)驗(yàn)標(biāo)準(zhǔn)(American Educational Research Association et al.,2014) 中明確提出在教育和心理測(cè)量中,需要對(duì)所選擇的項(xiàng)目反應(yīng)模型與作答反應(yīng)數(shù)據(jù)進(jìn)行擬合檢驗(yàn)。

考試分?jǐn)?shù)是用來衡量被試的能力水平的,但由于被試可能存在的異常行為,考試分?jǐn)?shù)不一定是被試技能或知識(shí)的真實(shí)反映。在心理測(cè)量學(xué)中,衡量被試的實(shí)際作答反應(yīng)與其模型預(yù)測(cè)的反應(yīng)之間的差異的方法稱為被試擬合(Meijer amp; Sijtsma, 2001)。被試擬合用來檢驗(yàn)被試個(gè)人作答反應(yīng)與認(rèn)知診斷模型的擬合程度,恰當(dāng)?shù)恼J(rèn)知診斷模型應(yīng)該準(zhǔn)確反映被試在項(xiàng)目反應(yīng)過程中的心理加工特征,以有效地推斷被試屬性掌握情況。被試作答反應(yīng)能夠擬合所選擇的認(rèn)知診斷模型,稱為被試擬合(person-fit);反之,如果被試出現(xiàn)異常作答反應(yīng),和所選擇的認(rèn)知診斷模型不擬合,稱為被試不擬合(person-misfit)。如果出現(xiàn)被試不擬合,一方面,根據(jù)失擬被試的作答反應(yīng)數(shù)據(jù)對(duì)其屬性掌握模式進(jìn)行推斷的結(jié)果可能是難以解釋或無效的,進(jìn)一步導(dǎo)致不合適的補(bǔ)救措施,其次,失擬被試的數(shù)據(jù)可能會(huì)影響整個(gè)測(cè)驗(yàn)的信效度,因此被試擬合檢驗(yàn)尤為重要。以往關(guān)于被試擬合的研究大多集中在項(xiàng)目反應(yīng)理論(itemresponse theory, IRT; Baker amp; Kim, 2004)下開展,在認(rèn)知診斷評(píng)價(jià)中,被試擬合檢驗(yàn)在測(cè)驗(yàn)評(píng)價(jià)分析過程中較易被忽視,與被試擬合有關(guān)的研究較少。目前已有的研究主要包括:Liu 等人(2009)基于邊際和聯(lián)合似然比檢驗(yàn),提出了用于判別異常作答被試的似然比檢驗(yàn)統(tǒng)計(jì)量,引入異常反應(yīng)概率變量,并用標(biāo)示變量定義異常反應(yīng)被試類型,其局限性在于實(shí)踐過程中異常被試和異常反應(yīng)類型較難被人為定義;Cui 和 Leighton(2009)開發(fā)了在屬性層級(jí)模型下衡量被試觀察反應(yīng)模式和理想反應(yīng)模式是否匹配的層級(jí)一致性指標(biāo)(hierarchical consistency index,HCI),層級(jí)一致性指標(biāo)基于屬性層級(jí)模型,即強(qiáng)調(diào)屬性間的關(guān)系,當(dāng)測(cè)驗(yàn)所考察的屬性之間只有部分屬性具有層級(jí)關(guān)系或者屬性之間沒有層級(jí)關(guān)系時(shí),HCI 指標(biāo)就不適用;Liu 等人(2009)提出的似然比檢驗(yàn)統(tǒng)計(jì)量被證明在使用DINA 模型時(shí)對(duì)虛假的高分(spuriously high scores)和虛假的低分(spuriouslylow scores)具有較好的檢測(cè)力;Cui 和 Li(2015)將lz 指標(biāo)擴(kuò)展到認(rèn)知診斷框架下,同時(shí)提出了一種新的比較觀察反應(yīng)模式和理想反應(yīng)模式的反應(yīng)一致性指標(biāo)(response conformity index, RCI);還有研究者對(duì)認(rèn)知診斷測(cè)驗(yàn)中的被試擬合檢驗(yàn)進(jìn)行了綜述和分析(陳孚等,2016; 涂冬波等,2014)。正是因?yàn)樵\斷測(cè)驗(yàn)中被試擬合研究的重要性,本研究擬構(gòu)建基于認(rèn)知診斷測(cè)驗(yàn)的被試擬合指標(biāo),并將它與lz 和RCI 指標(biāo)進(jìn)行比較,考察它們?cè)诓煌瑮l件下的表現(xiàn)。有關(guān)lz 和RCI 指標(biāo)的介紹。

2 認(rèn)知診斷評(píng)價(jià)下被試擬合指標(biāo)的提出

殘差是回歸分析中的重要概念,殘差在數(shù)理統(tǒng)計(jì)中是指實(shí)際觀察值與期望值(擬合值)之間的偏差。殘差應(yīng)用其中蘊(yùn)含的邏輯就是,通過對(duì)比理想情況與實(shí)際情況的差異而發(fā)現(xiàn)其中的異常情況。異常偏差會(huì)使殘差統(tǒng)計(jì)量膨脹,這與被試擬合檢驗(yàn)的思想一致。本研究打算構(gòu)建基于殘差的被試擬合統(tǒng)計(jì)量指標(biāo)來進(jìn)行診斷測(cè)驗(yàn)中的被試擬合分析。下面首先給出標(biāo)準(zhǔn)化殘差的定義。

2.1 標(biāo)準(zhǔn)化殘差的定義

在IRT 有關(guān)的很多研究中,尤其是有關(guān)Rasch模型的研究,有很多和標(biāo)準(zhǔn)化殘差xij-E(Xij|θi)/根號(hào)下Var(Xij|θi)有關(guān)的應(yīng)用(Masters amp; Wright, 1997)。其中Var(Xij|θi)是給定能力值θi隨機(jī)變量Xij的方差。對(duì)考生在各項(xiàng)目上標(biāo)準(zhǔn)化殘差求和之后就可以作為被試擬合的評(píng)價(jià)指標(biāo)。一方面,標(biāo)準(zhǔn)化殘差可以看作是一種加權(quán)的殘差,權(quán)重是項(xiàng)目作答的條件標(biāo)準(zhǔn)誤的倒數(shù),它近似服從標(biāo)準(zhǔn)正態(tài)分布。另一方面,因?yàn)楸辉嚁M合關(guān)注的是考生的觀察作答與模型的預(yù)測(cè)作答之間的一致性,當(dāng)觀察作答與模型的預(yù)測(cè)之間存在嚴(yán)重的不一致時(shí),表現(xiàn)在出現(xiàn)這個(gè)觀察作答的概率很小,并且由于它處于分母的位置,是一個(gè)逆向的權(quán)重,就會(huì)導(dǎo)致殘差的取值虛高,因此基于以上的考慮,本研究以觀察作答概率的倒數(shù)作為被試擬合統(tǒng)計(jì)量的權(quán)重,定義新的指標(biāo)R。

2.2 R 指標(biāo)的定義

R 指標(biāo)的數(shù)學(xué)表達(dá)式如下:

其中, 表示被試i 在項(xiàng)目j 上的觀察得分,是被試的屬性掌握模式。在實(shí)際應(yīng)用中,真實(shí)的被試屬性掌握模式是無法得到的,因此本研究采用被試屬性掌握模式估計(jì)值。E(Xij|αi)表示屬性掌握模式為的被試i 在項(xiàng)目j 上的期望得分,如在DINA 模型(de la Torre, 2009)中,每個(gè)項(xiàng)目只包含兩個(gè)參數(shù):失誤參數(shù)s(slipping parameter)和猜測(cè)參數(shù)(guessing parameter)。如果被試i 掌握了項(xiàng)目j 考察的所有屬性,此時(shí)E(Xij|αi)=1-sj,如果被試i 至少有一個(gè)項(xiàng)目j 考察的屬性未掌握,此時(shí)E(Xij|αi)=gj,分子是觀察作答與期望得分之差。分母P(xij|αi)表示屬性掌握模式為αi的被試i 在項(xiàng)目j 上得分的概率,當(dāng)屬性掌握模式為αi的被試i 掌握了項(xiàng)目考j 察的屬性并正確作答時(shí),P(xij=1|αi)=E(Xij|αi)。當(dāng)P(xij|αi)值越小時(shí),被試失擬程度越高,它進(jìn)一步放大了觀察作答和期望作答之間的殘差。Ri是被試i 在所有項(xiàng)目上的R 值的和,其值越大表示越不擬合;而對(duì)于一個(gè)“擬合良好”的被試來說,可以預(yù)期其Ri 值相對(duì)更小。需要注意的是,R 指標(biāo)本身不依賴于特定的診斷模型,因?yàn)镈INA 模型具有參數(shù)簡(jiǎn)單、易于使用、有很多的開源軟件都包含DINA 模型,這是選擇DINA 模型作為實(shí)例的原因,有關(guān)DINA 模型的具體信息請(qǐng)參考(de la Torre, 2009; Junker amp; Sijtsma, 2001; vonDavier amp; Lee, 2019)。

在DINA 模型中,則對(duì)于每個(gè)考生來說,他/她所完成的項(xiàng)目根據(jù)其對(duì)屬性的掌握情況和作答情況可以分成四類:掌握某項(xiàng)目考察的屬性,正確作答(η11)或錯(cuò)誤作答(η10);未完全掌握某項(xiàng)目,錯(cuò)誤作答(η00)或正確作答(η01)。這里η表示考生的類型,它的第一個(gè)下標(biāo)表示被試對(duì)項(xiàng)目屬性的是否完全掌握,第二個(gè)下標(biāo)表示其作答是否正確,它的取值為1 表示完全掌握或正確作答。這樣一來,公式1 可以寫成如下的形式:

3 研究1 R 指標(biāo)與lz、RCI 指標(biāo)比較研究

為了評(píng)價(jià)R 指標(biāo)在診斷測(cè)驗(yàn)的被試擬合檢驗(yàn)上的表現(xiàn),我們展開模擬研究來比較指標(biāo)R 與lz 指標(biāo)、RCI 指標(biāo)的表現(xiàn)。Cui 和 Li(2015)的研究表明,RCI 指標(biāo)優(yōu)于Liu 等人(2009)的似然比統(tǒng)計(jì)量,故沒有將似然比統(tǒng)計(jì)量作為比較對(duì)象。

3.1 研究設(shè)計(jì)

探討在DINA模型下,不同項(xiàng)目長(zhǎng)度、項(xiàng)目質(zhì)量、失擬被試類型下指標(biāo)R 和lz、RCI 指標(biāo)的一類錯(cuò)誤率和統(tǒng)計(jì)檢驗(yàn)力。項(xiàng)目長(zhǎng)度和質(zhì)量是影響診斷性測(cè)量準(zhǔn)確性的關(guān)鍵因素 (Cui et al., 2012)。一類錯(cuò)誤率(type Ⅰ error)也稱“棄真”率,是指正常被試被誤判為失擬被試的比率,統(tǒng)計(jì)檢驗(yàn)力是指正確檢測(cè)出失擬被試的比率。

實(shí)驗(yàn)設(shè)計(jì):采用2×2×6 三因素完全隨機(jī)實(shí)驗(yàn)設(shè)計(jì)。三個(gè)因素分別為項(xiàng)目長(zhǎng)度(20、40)、項(xiàng)目質(zhì)量(高區(qū)分度、低區(qū)分度)、失擬被試類型(創(chuàng)造性作答、隨機(jī)作答、疲勞、睡眠、作弊、隨機(jī)作弊; Cui amp; Li, 2015; Santos et al., 2020)。其中高區(qū)分度項(xiàng)目設(shè)置成失誤參數(shù)s 和猜測(cè)參數(shù)服從均勻分布U(.05, .25) 抽取,低區(qū)分度項(xiàng)目為失誤參數(shù)s 和猜測(cè)參數(shù)服從均勻分布U(.25, .40) 抽取。根據(jù)Cui和 Li(2015),創(chuàng)造性作答指高能力的被試做錯(cuò)簡(jiǎn)單的項(xiàng)目,這里的高能力被試定義為掌握了所有考察屬性的被試,簡(jiǎn)單的項(xiàng)目定義為只測(cè)量一個(gè)屬性的項(xiàng)目,實(shí)驗(yàn)設(shè)置為假設(shè)每個(gè)被試掌握每個(gè)屬性的概率為80%,隨機(jī)生成被試的屬性掌握模式,被試在只測(cè)量一個(gè)屬性的項(xiàng)目上答錯(cuò);隨機(jī)作答指測(cè)驗(yàn)動(dòng)機(jī)低下的被試憑猜測(cè)隨機(jī)作答,本研究設(shè)計(jì)為每個(gè)被試正確作答每題的概率為25%(Yu amp; Cheng,2019);睡眠指考試中未能正確回答前幾題,本研究設(shè)計(jì)為被試在前25% 題目上答錯(cuò);疲勞指考試中未能正確回答后幾題,這里設(shè)計(jì)為被試在后25% 題目上答錯(cuò);作弊指低能力被試抄襲高能力被試的答案,從而答對(duì)較難項(xiàng)目,本研究設(shè)置為按20% 概率掌握各個(gè)屬性的被試中,掌握2 個(gè)屬性以下的被試在考察3 個(gè)屬性以上的項(xiàng)目上正確作答;隨機(jī)作弊指低能力被試以90%的概率答對(duì)10%的難題(Santoset al., 2020)。

本研究控制變量包括:被試數(shù)量控制為1000 人,選用認(rèn)知診斷模型為常見的DINA 模型,考察屬性為6 個(gè),固定Q 矩陣。被試知識(shí)狀態(tài)和項(xiàng)目參數(shù)用R 語(yǔ)言以DINA 模型估計(jì)生成。重復(fù)實(shí)驗(yàn)30 次,評(píng)價(jià)指標(biāo)為一類錯(cuò)誤率和統(tǒng)計(jì)檢驗(yàn)力,檢驗(yàn)水準(zhǔn)α =.05,本研究中一類錯(cuò)誤率設(shè)置為不同實(shí)驗(yàn)條件下在DINA 模型生成的1000 個(gè)正常被試反應(yīng)模式中,被指標(biāo)誤判為失擬被試的比例;統(tǒng)計(jì)檢驗(yàn)力指標(biāo)設(shè)置為每種異常被試類型生成1000 個(gè)失擬被試,被鑒別出的異常被試的比例。取30 次實(shí)驗(yàn)結(jié)果平均值作為最終評(píng)價(jià)指標(biāo)。

lz 指標(biāo)和RCI 指標(biāo)均在顯著性水平為.05 的情況下,根據(jù)理論分布取臨界值,lz 指標(biāo)取5 分位數(shù)為臨界值,RCI 指標(biāo)取95 分位數(shù)為臨界值。對(duì)于R 指標(biāo),本研究采用經(jīng)驗(yàn)臨界值,具體做法是:給定Q矩陣,根據(jù)DINA 模型,假設(shè)被試的知識(shí)狀態(tài)服從均勻分布來估計(jì)被試知識(shí)狀態(tài),生成10000 個(gè)正常被試作答數(shù)據(jù),使用MMLE/EM 估計(jì)項(xiàng)目參數(shù)(dela Torre, 2009),為每位被試計(jì)算Rt 值,從低到高排序,取Rt 值的95 分位數(shù)作為臨界值。

3.2 研究結(jié)果

表1 給出了不同實(shí)驗(yàn)條件下三個(gè)指標(biāo)的一類錯(cuò)誤率和對(duì)不同異常被試類型的統(tǒng)計(jì)檢驗(yàn)力,表2 給出了不同測(cè)驗(yàn)長(zhǎng)度下的模式判準(zhǔn)率和屬性邊際判準(zhǔn)率。一類錯(cuò)誤率的結(jié)果顯示,R 指標(biāo)對(duì)一類錯(cuò)誤率控制得較好,穩(wěn)定在.05,而lz 指標(biāo)和RCI 指標(biāo)一類錯(cuò)誤率出現(xiàn)了略微膨脹,在題目數(shù)量為40 題時(shí),RCI 指標(biāo)一類錯(cuò)誤率趨于合理。這與Cui 等人(2015)研究結(jié)果中l(wèi)z 指標(biāo)和RCI 指標(biāo)一類錯(cuò)誤率在正常范圍有些不一致,原因可能是本研究采用的認(rèn)知診斷模式為DINA 模型,而Cui 等人(2015)研究中使用的是C-RUM 模型。

在統(tǒng)計(jì)檢驗(yàn)力方面,隨著題目區(qū)分度提高,各個(gè)指標(biāo)在不同異常被試類型的統(tǒng)計(jì)檢驗(yàn)力均有所提高,其中指標(biāo)在疲勞、睡眠、創(chuàng)造性作答和隨機(jī)作答的異常被試類型下,隨著題目區(qū)分度提高,統(tǒng)計(jì)檢驗(yàn)力提升尤為明顯,這個(gè)結(jié)果與Cui 和Li(2015)的結(jié)果一致。隨著題目數(shù)量從20 增加到40,大部分統(tǒng)計(jì)檢驗(yàn)力呈現(xiàn)上升趨勢(shì),但lz 指標(biāo)在疲勞和睡眠的異常被試類型下,以及R 指標(biāo)在隨機(jī)作弊的異常被試類型下,隨著題目數(shù)量的增加,統(tǒng)計(jì)檢驗(yàn)力有略微下降。

對(duì)于不同的異常被試類型,模擬研究結(jié)果顯示在隨機(jī)作答和隨機(jī)作弊情況下,R 指標(biāo)表現(xiàn)最好,在疲勞、睡眠和創(chuàng)造性作答情況下lz 指標(biāo)則表現(xiàn)更優(yōu),而隨著題量增加,R 指標(biāo)在這三種情況下的統(tǒng)計(jì)檢驗(yàn)力接近于lz 指標(biāo),這可以用隨著題量的增加,模式判準(zhǔn)率和屬性判準(zhǔn)率都有所提高來解釋。在低區(qū)分度題目上,在疲勞和睡眠的情況下,R 指標(biāo)比lz 指標(biāo)和RCI 指標(biāo)表現(xiàn)更好。在作弊情況下,則是RCI 指標(biāo)表現(xiàn)最好且最穩(wěn)定,lz 指標(biāo)表現(xiàn)不理想。

綜合可以看出:隨著題目數(shù)量和題目質(zhì)量的增加,各個(gè)被試擬合指標(biāo)對(duì)異常被試類型偵察度越好,創(chuàng)造性作答的異常被試類型較容易被檢測(cè)出來;RCI 指標(biāo)適合檢測(cè)作弊的異常被試類型;lz 指標(biāo)則更適合檢測(cè)疲勞、睡眠的異常被試類型;R 指標(biāo)對(duì)創(chuàng)造性作答、隨機(jī)作答和作弊均有較好的統(tǒng)計(jì)檢驗(yàn)力,且在低區(qū)分度的題目上,R 指標(biāo)表現(xiàn)也最穩(wěn)健。

4 研究2 R 指標(biāo)在實(shí)證數(shù)據(jù)中的應(yīng)用研究

教育評(píng)估工具應(yīng)該能反映學(xué)生的學(xué)習(xí)狀態(tài),為教學(xué)改進(jìn)提供反饋信息。認(rèn)知診斷評(píng)估對(duì)被試在測(cè)驗(yàn)所考察屬性上的掌握水平進(jìn)行分類,確定被試對(duì)哪些屬性已經(jīng)掌握,對(duì)哪些屬性需要補(bǔ)救,而被試擬合檢驗(yàn)?zāi)芨玫拇_保被試評(píng)估分類的準(zhǔn)確性和有效性。為了進(jìn)一步檢驗(yàn)R 指標(biāo)在認(rèn)知診斷評(píng)估中應(yīng)用的可行性,本部分將以分?jǐn)?shù)減法的數(shù)據(jù)為例,用R 指標(biāo)進(jìn)行被試擬合檢驗(yàn)與分析。

4.1 實(shí)測(cè)數(shù)據(jù)來源

本研究采用實(shí)測(cè)數(shù)據(jù)為眾多實(shí)證研究中運(yùn)用的Tatsuoka 分?jǐn)?shù)減法數(shù)據(jù),共536 個(gè)被試,題目數(shù)量為11 題(Henson et al., 2009)。該測(cè)驗(yàn)共考察3 個(gè)屬性,A1 從整數(shù)借位(borrowing from wholenumber), A2 將整數(shù)和分?jǐn)?shù)分開(separating wholenumber from fraction), A3 通分(finding commondenominator),其測(cè)驗(yàn)Q 矩陣見表3。

4.2 研究過程與方法

本研究根據(jù)分?jǐn)?shù)減法(Henson et al., 2009)的Q矩陣和作答數(shù)據(jù),采用DINA 模型,通過R 語(yǔ)言中的GDINA包估計(jì)出項(xiàng)目參數(shù)和被試的屬性掌握模式,項(xiàng)目參數(shù)結(jié)果見表4。再根據(jù)估計(jì)出的項(xiàng)目參數(shù),模擬10000 名正常被試的作答數(shù)據(jù),取95 分位數(shù)為判別異常被試的臨界值,最后根據(jù)R 指標(biāo)的臨界值對(duì)實(shí)際作答數(shù)據(jù)進(jìn)行被試擬合檢驗(yàn)。并且,將RCI 指標(biāo)和lz 指標(biāo)也應(yīng)用到這批數(shù)據(jù)上,比較它們?cè)诜治鼋Y(jié)果上的差異。

4.3 研究結(jié)果

結(jié)果顯示,有23 名被試被檢測(cè)出作答反應(yīng)異常,占總?cè)藬?shù)的4.29%。下表列出了部分異常反應(yīng)被試的基本情況。

編號(hào)為24、48 和97 號(hào)的被試答對(duì)了第5、6、9、10 題,這幾題考察第1 個(gè)屬性4 次,考察第2 個(gè)屬性2 次,未考察第3 個(gè)屬性,估計(jì)這幾個(gè)被試屬性掌握模式為[110],其理想作答反應(yīng)為[10011100111,但被試均在第1、4、11 題上答錯(cuò),第1 題和第11題考察屬性A1 和A2,可能還需進(jìn)一步分析被試是否掌握了第2 個(gè)屬性。

編號(hào)為137 號(hào)被試觀察作答反應(yīng)是[00001011111],估計(jì)其屬性掌握模式為[111], 從理論上講被試掌握了所有的屬性,那么他在所有題目上都應(yīng)該答對(duì),但被試在實(shí)際上前四題都答錯(cuò)了,有可能出現(xiàn)了“睡眠”的異常反應(yīng)模式。

編號(hào)為230 號(hào)被試, 模型估計(jì)其屬性掌握模式為[000], 但其觀察作答反應(yīng)為[01100100110],答對(duì)了第2、3、6、9、10 題,有可能有作弊行為。

本研究新提出認(rèn)知診斷評(píng)估中的被試擬合指標(biāo)指標(biāo),并將其與lz 和RCI 指標(biāo)和指標(biāo)進(jìn)行比較。在模擬研究中,R 指標(biāo)一類錯(cuò)誤率穩(wěn)定在.05 左右,較為正常,可用于認(rèn)知診斷評(píng)價(jià)中對(duì)異常反應(yīng)被試進(jìn)行偵察。首先,模擬研究結(jié)果表明,隨著題目數(shù)量增加和題目區(qū)分度提高,R 指標(biāo)檢測(cè)率越高,這與預(yù)期一致。但本研究中,lz 指標(biāo)一類錯(cuò)誤率出現(xiàn)略微膨脹以及l(fā)z 指標(biāo)在疲勞和睡眠兩種異常被試類型下,隨著題目數(shù)量的增加,統(tǒng)計(jì)檢驗(yàn)力出現(xiàn)下降的現(xiàn)象,與Cui 等人(2015)研究結(jié)果不一致,可能是所選模型不同導(dǎo)致,有待進(jìn)一步研究加以探討。

其次,由于目前還不完全了解R 指標(biāo)的理論分布,本研究中R 指標(biāo)的臨界值是采用經(jīng)驗(yàn)分布確定的,這在實(shí)際應(yīng)用中可能不方便使用,探索指標(biāo)的統(tǒng)計(jì)性質(zhì),如果能夠推導(dǎo)出它的理論零分布或近似分布(Andrews, 1993),則更有助于它的應(yīng)用和推廣。

第三,本研究中的R 指標(biāo)是對(duì)各考生所有項(xiàng)目上的求和,如果將R 指標(biāo)定義在各項(xiàng)目在所有考生上的求和,則可以用于項(xiàng)目擬合檢驗(yàn)(Drasgow etal., 1985),因此,將R 指標(biāo)推廣到項(xiàng)目擬合檢驗(yàn)也是值得研究和探索的。

第四,項(xiàng)目質(zhì)量對(duì)于被試擬合檢驗(yàn)有非常大的影響(馬大付等,2023),本研究沒有把項(xiàng)目質(zhì)量納入考慮是一個(gè)不足之處,未來需進(jìn)一步探索項(xiàng)目質(zhì)量對(duì)于R 指標(biāo)的表現(xiàn)。除此之外,Wang 等人(2018)對(duì)確定被試異常作答的類型進(jìn)行了嘗試,這方面的工作也需要進(jìn)行深入的探索。在實(shí)證研究中,由于采用的是其他研究的實(shí)證數(shù)據(jù),故無法對(duì)偵察出的異常被試做進(jìn)一步分析以及補(bǔ)救措施。而且被試出現(xiàn)異常作答反應(yīng)的原因不能僅僅只根據(jù)被試擬合指標(biāo)來確定,因?yàn)楸辉嚁M合指標(biāo)不能直接指出異常反應(yīng)行為的實(shí)際原因,因此,進(jìn)一步分析被試考試行為的輔助信息如被試的口頭報(bào)告、座位安排、考試時(shí)間等是十分必要的。

最后,由于二級(jí)計(jì)分方式的模型只能評(píng)價(jià)被試是否掌握某一知識(shí)或技能,而對(duì)被試在不同知識(shí)或技能的掌握水平或程度不能進(jìn)行有效地評(píng)價(jià),在實(shí)際情景中,教育與心理測(cè)驗(yàn)中的題目形式豐富多樣,如教育考試中的計(jì)算題、論述題、簡(jiǎn)答題、證明題、作文題,心理量表中的Likert 型量表等等,這些題型的數(shù)據(jù)基本都是多級(jí)評(píng)分?jǐn)?shù)據(jù)(丁樹良等,2014;夏夢(mèng)連等,2018; 王鵬等,2019)或多分屬性下的評(píng)分?jǐn)?shù)據(jù)(丁樹良等,2015; 詹沛達(dá)等,2017),未來可將被試擬合檢0 驗(yàn)擴(kuò)展到多級(jí)計(jì)分或多分屬性下的認(rèn)知診斷。

6 結(jié)論

本研究提出在認(rèn)知診斷框架下的被試擬合指標(biāo)R,通過模擬研究比較RCI、和lz 指標(biāo)的一類錯(cuò)誤率及統(tǒng)計(jì)檢驗(yàn)力,并將指標(biāo)應(yīng)用于實(shí)證數(shù)據(jù),驗(yàn)證R指標(biāo)在實(shí)證數(shù)據(jù)中的表現(xiàn)。研究結(jié)果表明,R 指標(biāo)一類錯(cuò)誤率較合理,lz 指標(biāo)和RCI 指標(biāo)一類錯(cuò)誤率出現(xiàn)了略微膨脹。隨著題目區(qū)分度和題目數(shù)量的增加,指標(biāo)的統(tǒng)計(jì)檢驗(yàn)力有所提高。對(duì)于不同的異常被試類型,RCI 指標(biāo)適合檢測(cè)作弊的異常被試類型,lz 指標(biāo)適合檢測(cè)疲勞、睡眠的異常被試類型,R 指標(biāo)對(duì)創(chuàng)造性作答、隨機(jī)作答和作弊的異常被試均有較好的偵察力。

參考文獻(xiàn)

陳孚, 辛濤, 劉彥樓, 劉拓, 田偉. (2016). 認(rèn)知診斷模型資料擬合檢驗(yàn)方法和統(tǒng)計(jì)量. 心理科學(xué)進(jìn)展, 24 (12), 1946-1960.

丁樹良, 汪文義, 羅芬. (2014). 多級(jí)評(píng)分認(rèn)知診斷測(cè)驗(yàn)藍(lán)圖的設(shè)計(jì)——根樹型結(jié)構(gòu). 江西師范大學(xué)學(xué)報(bào)( 自然科學(xué)版), 38 (2), 111-118.

丁樹良, 汪文義, 羅芬, 熊建華. (2015). 多值Q 矩陣?yán)碚? 江西師范大學(xué)學(xué)報(bào)( 自然科學(xué)版), 39 (4), 365-370.

涂冬波, 張心, 蔡艷, 戴海琦. (2014). 認(rèn)知診斷模型- 資料擬合檢驗(yàn)統(tǒng)計(jì)量及其性能. 心理科學(xué), 37(1), 205-211.

王鵬, 孟維璇, 朱干成, 張登浩, 張利會(huì), 董一萱, 司英棟.(2019). 多維項(xiàng)目反應(yīng)理論補(bǔ)償性模型參數(shù)估計(jì): 基于廣義回歸神經(jīng)網(wǎng)絡(luò)集合. 心理學(xué)探新, 39 (3),244-249.

夏夢(mèng)連, 毛秀珍, 楊睿. (2018). 屬性多級(jí)和項(xiàng)目多級(jí)評(píng)分的認(rèn)知診斷模型.江西師范大學(xué)學(xué)報(bào)( 自然科學(xué)版), 42 (2), 134-138.

詹沛達(dá), 丁樹良, 王立君. (2017). 多分屬性層級(jí)結(jié)構(gòu)下引入邏輯約束的理想掌握模式. 江西師范大學(xué)學(xué)報(bào)( 自然科學(xué)版), 41 (3), 289-295.

American Educational Research Association, American Psychological Association,amp; National Council on Measurement in Education. (2014). Standards for"educational and psychological testing . American Educational Research Association.

Andrews, D. W. K. (1993). Tests for parameter instability and structural change"with unknown change point. Econometrica, 61(4), 821-856.

Baker, F. B., amp; Kim, S. H. (2004). Item response theory: Parameter estimation"techniques . Chapman amp; Hall/CRC.

Cui, Y., amp; Li, J. (2015). Evaluating person fit for cognitive diagnostic assessment.Applied Psychological Measurement, 39 (3), 223-238.

Cui, Y., Gierl, M. J., amp; Chang, H. H. (2012). Estimating classification consistencyand accuracy for cognitive diagnostic assessment. Journal of Educational"Measurement, 49 (1), 19-38.

Cui, Y., amp; Leighton, J. P. (2009). The hierarchy consistency index: Evaluating person fit for cognitive diagnostic assessment. Journal of Educational"Measurement, 46 (4), 429-449.

Cui, Y., amp; Li, J. (2015). Evaluating person fit for cognitive diagnostic assessment.Applied Psychological Measurement, 39 (3), 223-238.

de la Torre, J. (2009). DINA model and parameter estimation: A didactic. Journal of Educational and Behavioral Statistics, 34(1), 115-130.

Drasgow, F, Levine, M. V., amp; Williams, E. A. (1985). Appropriateness"measurement with polychotomous item response models and standardized"indices. British Journal of Mathematical and Statistical Psychology, 38 (1), 67-86.

Henson, R. A., Templin, J. L., amp; Willse, J. T. (2009). Defining a family of"cognitive diagnosis models using log-linear models with latent variables.Psychometrika, 74 (2), 191-210.

Junker, B. W., amp; Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement, 25 (3), 258-272.

Leighton, J. P., amp; Gierl, M. J. (2007). Cognitive diagnostic assessment for education: Theory and applications. Cambridge University Press.

Levine, M. V., amp; Rubin, D. B. (1979). Measuring the appropriateness of multiplechoice test scores. Journal of Educational and Behavioral Statistics, 4 (4), 269-290.

Liu, Y., Douglas, J. A., amp; Henson, R. A. (2009). Testing person fit in cognitive diagnosis. Applied Psychological Measurement, 33 (8), 579-598.

Masters, G. N., amp; Wright, B. D. (1997). The partial credit model. In W. J. van der Linden amp; R. K. Hambleton (Eds.), Handbook of modern item response theory"(pp. 101-121). Springer.

Meijer, R. R., amp; Sijtsma, K. (2001). Methodology review: Evaluating person fit.Applied Psychological Measurement, 25 (2), 107-135.

Molenaar, I. W., amp; Hoijtink, H. (1990). The many 1 distributions of person fit indices. Psychometrika, 55 (1), 75-106.

Reise, S. P. (1995). Scoring method and the detection of person misfit in a"personality assessment context. Applied Psychological Measurement, 19 (3),213-229.

Rupp, A. A., Templin, J., amp; Henson, R. A. (2010). Diagnostic measurement:Theory, methods, and applications. Guilford Press.

Santos, K. C. P., de la Torre, J., amp; von Davier, M. (2020). Adjusting person fit index"for skewness in cognitive diagnosis modeling. Journal of Classification, 37(2),399-420.

Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20 (4),345-354.

von Davier, M., amp; Lee, Y. S. (2019). Handbook of diagnostic classification models.Cham: Springer International Publishing.

Wang, C., Xu, G. J., amp; Shang, Z. R. (2018). A two-stage approach to differentiating"normal and aberrant behavior in computer based testing. Psychometrika,83 (1), 223-254.

Yu, X. F., amp; Cheng, Y. (2019). A change-point analysis procedure based on weighted residuals to detect back random responding. Psychological Methods,24 (5), 658-674.

本研究得到教育部教育考試院‘十四五’規(guī)劃支撐專項(xiàng)課題“高考實(shí)施過程中的科目跨年分?jǐn)?shù)的轉(zhuǎn)換研究(NEEA2021050)”和國(guó)家自然科學(xué)基金項(xiàng)目(32360208,62341207)的資助。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
碌曲县| 开江县| 元谋县| 防城港市| 铜梁县| 桂平市| 辛集市| 恩平市| 玉树县| 全州县| 娄烦县| 土默特左旗| 张家界市| 肃南| 正定县| 巴彦淖尔市| 土默特右旗| 长岭县| 故城县| 五峰| 越西县| 耒阳市| 东山县| 普兰店市| 台安县| 灵台县| 越西县| 阳原县| 沅江市| 山阳县| 梁山县| 舟曲县| 上饶县| 昌平区| 红原县| 万全县| 扶沟县| 浦北县| 奉节县| 醴陵市| 德化县|