基于項目類別的多級評分方式比較及探究

2020-07-21 00:43朱仕浩康春花洪清玉

考試研究 2020年3期

朱仕浩康春花洪清玉

一、引言

認知診斷（Cognitive Diagnosis，CD）是指對個體認知過程、加工技能或知識結(jié)構(gòu)的診斷評價[1]。它能夠探討個體內(nèi)部的心理加工機制，實現(xiàn)對個體認知發(fā)展實況的診斷評估。在認知診斷評分方式上，現(xiàn)多以Q 矩陣為基礎(chǔ)，實現(xiàn)以題目對錯為判別的0-1 評分，以及多級評分。與0-1 評分相比，多級評分可以提供更多的被試診斷信息，因而被廣泛使用。

現(xiàn)有多級評分的認知診斷方法大多在Q 矩陣基礎(chǔ)上架構(gòu)，根據(jù)是否需要參數(shù)估計可將認知診斷方法分為參數(shù)方法和非參數(shù)方法[2]。參數(shù)方法已有研究有祝玉芳、丁樹良開發(fā)多級評分的AHM，Templin、Henson、Rupp、Jang 和Ahmed 提出的稱名反應(yīng)診斷模型，涂冬波、蔡艷、戴海琦、丁樹良開發(fā)的多級評分PDINA 模型，Hansen 提出的等級反應(yīng)LCDM 等[3-6]。在非參數(shù)方法上，也有Sun、Xin、Zhang 和de la Torre的拓展多級的廣義距離判別法，康春花、任平、曾平飛開發(fā)的多級評分聚類分析，楊亞坤開發(fā)的曼哈頓距離判別法（Manhattan distance discrimina tion，MDD）等[7-9]。在這兩類方法中，參數(shù)方法可以通過參數(shù)估計獲得項目參數(shù)，為進一步的測驗編制或等值提供有用信息，但需要較長時間和足夠大的樣本量，并且參數(shù)模型選擇困難[10，11]。而非參數(shù)方法作為參數(shù)方法的替代方案用于被試知識狀態(tài)的判別，擁有判準率較高、無需進行參數(shù)估計、條件假設(shè)少、受樣本量的影響較小等特點[12]。

這兩類多級評分認知診斷方法都基于Q 矩陣，并未考慮屬性與項目類別之間的關(guān)系，因而可能會丟失部分項目信息并影響診斷結(jié)果。對此，Ma 和de la Torre 在連續(xù)比鏈接函數(shù)基礎(chǔ)上對CDMs 進行拓廣，并將GDINA 模型作為加工函數(shù)（Processing Function），提出了序列加工的seq-GDINA 模型（Sequential GDINA model）。為充分挖掘項目信息，Ma 等同時定義了一種基于項目類別（item category）的屬性定義法，將傳統(tǒng)的Q 矩陣發(fā)展為基于項目類別的QC 矩陣（a category-level Q-matrix），并借以QC 矩陣提出一種基于項目類別的多級評分方法，為多級評分提供了新的視角[13，14]。其中的項目類別是指被試作答項目可能出現(xiàn)的情況，例如表1，該項目分兩個步驟，被試作答可能有3 種：全錯、答對第一步、答對兩步，所以該項目類別有3 類。與以往的Q 矩陣評分方式不同，QC 矩陣評分方式為按項目類別給分，項目過程具有有限多個步驟，每個步驟考察一些屬性，最后根據(jù)被試所處項目類別給予相對應(yīng)的分數(shù)?，F(xiàn)有QC 矩陣評分方式嚴格按步驟順序評分，即前一步正確作答是后一步的前提，而在實際應(yīng)用中，學(xué)生很可能并未掌握前一步的屬性，但后一步的屬性卻掌握了，對于這種情況該評分方式會出現(xiàn)誤判。以表1項目為例，假設(shè)某被試在作答該項目時，第一步運算結(jié)果為180÷9（正確作答應(yīng)該是180÷10），即第一步計算錯誤，而第二步的運算結(jié)果為20（正確作答是18），雖然最終答案與標準答案不同，但第二步考查的屬性該被試已經(jīng)掌握，故應(yīng)當(dāng)給分。當(dāng)使用順序評分方式時，該被試得0 分，而如果考慮這種情況，該被試應(yīng)得1 分。綜上所述，現(xiàn)有的QC 矩陣評分方式未考慮按步驟的非順序評分情景，并且只被應(yīng)用于參數(shù)方法中，在非參數(shù)方法中的有效性并未驗證。故本文欲將QC 矩陣評分方式與非參數(shù)方法相結(jié)合，并在此基礎(chǔ)上提出一種按步驟的非順序評分方式。

表1 例題對應(yīng)的屬性

本文將在QC 矩陣框架下，開展以下兩個研究：（1）通過對參數(shù)seq-GDINA 模型與非參數(shù)MDD 在不同條件下的比較；以驗證QC 矩陣評分方式在非參數(shù)方法上的適用性。（2）利用MDD 比較順序評分與非順序評分在不同條件下的判準率情況，以驗證非順序評分方式的有效性。

二、基于項目類別的兩種評分方式介紹

QC 矩陣中順序評分的規(guī)則要求題目的前一步正確作答是后一步的基礎(chǔ)，如表2，以附錄1 第15題為例，該題QC 矩陣為分三個步驟，可將被試劃為4 個類別。在順序評分的模擬研究中，為符合順序評分規(guī)則，將QC 矩陣轉(zhuǎn)化為順序的QC 矩陣（見附錄2），并在此基礎(chǔ)上進行模擬研究。模擬研究首先確定QC 矩陣，然后利用QC 矩陣和所有被試可能的知識狀態(tài) （Knowledge State，KS）矩陣相乘生成每個人在每一道題目的每個步驟上的作答情況，最后根據(jù)學(xué)生在每道題目上正確作答的步驟數(shù)給予其相應(yīng)得分，得到基于QC 矩陣的順序評分IRP（Ideal Response Pattern，IRP）。

非順序評分是為了打破QC 矩陣順序評分的限制。同樣以附錄1 第15 題為例，QC 矩陣為因為非順序評分允許項目按步驟非順序評分，故無需對QC 矩陣進行轉(zhuǎn)化便可進行模擬研究，模擬過程與順序評分相同。

表2 第15 題對應(yīng)的屬性

三、研究一：非參數(shù)方法（MDD）在QC 矩陣中的應(yīng)用

1.seq-GDINA 模型與MDD 介紹

Ma 和de la Torre 在連續(xù)比鏈接函數(shù)基礎(chǔ)上對CDMs 進行拓廣，并將GDINA 模型作為加工函數(shù)，提出了序列加工的seq-GDINA 模型，該模型假設(shè)各步驟是獨立且繼時發(fā)生的事件，各事件概率相乘可得最終概率函數(shù)[15]。其表達式如下：

MDD 是楊亞坤基于曼哈頓距離建立起的一種簡單有效的認知診斷方法，由于其不需要參數(shù)計算所以耗時極少，該方法計算公式簡單[16]，其表達式如下：

其中Yi表示被試的觀察反應(yīng)模式（Observed Response Pattern，ORP），ηt表示第t 種IRP，Yij為第i個被試在項目j 上的觀察反應(yīng)，為第t 種IRP 在項目j 上的理想反應(yīng)。MD（Yi，ηt）表示為第i 個被試的ORP 到第t 種IRP 的曼哈頓距離。楊亞坤從數(shù)理上證明這種方法在0-1 計分情況下與海明距離相同，也就是說海明距離是曼哈頓距離在0-1 計分情況下的特例。在對學(xué)生KS 進行判別時，MDD 通過計算學(xué)生的ORP 和IRP 之間的曼哈頓距離實現(xiàn)對學(xué)生的分類[17]。

2.seq-GDINA 模型與MDD 在QC 矩陣中的比較

（1）研究目的

本部分通過比較seq-GDINA 模型與MDD 在QC 矩陣中的判準率，探討QC 矩陣評分方式在非參數(shù)方法上的適用性，同時比較在QC 矩陣評分方式下，參數(shù)方法與非參數(shù)方法在不同條件下的判準率情況。

（2）實驗設(shè)計

實驗采用2×3×6 三因素混合實驗設(shè)計，自變量分別：判別方法、項目質(zhì)量和被試人數(shù)。每個實驗條件重復(fù)進行30 次。采用平均屬性判準率（Average Attribute Match Ratio，AAMR）和模式判準率（Pattern Match Ration，PMR）作為診斷準確率的評價指標，AAMR 表示所有被試認知屬性被判別正確的概率，PMR 表示被判別歸類正確掌握模式的被試個體占總?cè)藬?shù)的比率，其表達式分別為：

其中，N 表示被試數(shù)目，K 表示屬性個數(shù)，Ni-correct表示第i 個被試的屬性掌握模式是否被判別準確，判別正確為1，否則為0。Nik-correct表示被試在認知屬性k 上判別正確與否，正確為1，否則為0。從公式中可以發(fā)現(xiàn)，PMR 相較于AAMR 能更敏感地反映歸類準確率。

（3）實驗流程

第一步：確定QC 矩陣，本研究借鑒Ma 等使用的QC 矩陣（詳見附錄1），并將其轉(zhuǎn)化為順序評分的QC 矩陣[18]。該矩陣包含5 個屬性，21 題，拆分為步驟后一共40 個步驟，其中滿分為2 分的項目有13 個，滿分為3 分的項目有3 個，滿分為1 分的項目有5個，所有題目均為按步驟計分。本研究采用seq-GDINA模型與MDD 兩種方法，模擬被試人數(shù)100、200、300、500、1000、2000 六個水平，用以比較不同樣本量情況下參數(shù)方法與非參數(shù)方法的判準率如何變化，并利用張淑梅、包鈺、郭文海提出的滑動模擬方法模擬高質(zhì)量（滑動概率=0.1）、中質(zhì)量（滑動概率=0.2）、低質(zhì)量（滑動概率=0.3）三個水平[19]。屬性層級結(jié)構(gòu)設(shè)置為獨立型，評分方式為QC 矩陣的順序評分方式。

第二步：根據(jù)屬性個數(shù)與屬性層級結(jié)構(gòu)確定所有被試可能的KS，與QC 矩陣相乘，并按步驟累加得到IRP，再模擬作答反應(yīng)數(shù)據(jù)，作答反應(yīng)數(shù)據(jù)生成的具體步驟為：首先，產(chǎn)生一個服從均勻分布U（0，1）的隨機數(shù)矩陣，維度為N*J，其中N 代表被試數(shù)量，J代表題量。由于前文指出本研究中項目質(zhì)量為高、中、低，即滑動概率為0.1、0.2、0.3，利用滑動矩陣內(nèi)每個分數(shù)的概率與對應(yīng)位置rij進行比較，根據(jù)滑動規(guī)則將不同的rij分別滑動到不同的得分，即得到模擬被試的ORP。

第三步：分別利用MDD 與seq-GDINA 模型對被試的ORP 進行判別，并與真值進行比較，得到兩個評價指標PMR 與AAMR。數(shù)據(jù)模擬程序和MDD判別通過自編R 語言程序?qū)崿F(xiàn)，seq-GDINA 模型判別由自編R 語言程序調(diào)用G-DINA 包實現(xiàn)。

（4）實驗結(jié)果

表3 列出了不同條件下的PMR 與AAMR 統(tǒng)計結(jié)果?？梢钥闯?，在不同實驗條件下，滑動概率越小，PMR 與AAMR 越好；非參數(shù)方法比參數(shù)方法更穩(wěn)定。

具體各判準率之間的對比可查看圖1、圖2。圖1為各水平情況下的PMR，圖中可以清晰反映出在不同的滑動概率情況下，兩種方法受滑動概率影響均較大。在相同滑動概率情況下，人數(shù)對MDD 基本沒有影響，但對seq-GDINA 影響較大，人數(shù)越多seq-GDINA 模型的判準率越高。本文設(shè)置人數(shù)最多為2000 人，但從圖中可以看出，即使人數(shù)達到2000人，seq-GDINA 模式判準率也與MDD 判準率差異不大。且圖中還反映了，在低滑動概率情況下，seq-GDINA 模式判準率受人數(shù)的影響較小，高滑動概率情況下，seq-GDINA 模式判準率受人數(shù)的影響較大。圖2 為各水平情況下的AAMR，大致趨勢與PMR 一致，可以看到AAMR 指標沒有PMR 敏感，與之前判斷一致。

表3 PMR 與AAMR 指標

圖1 各水平下兩種方法判別結(jié)果PMR 值

圖2 各水平下兩種方法判別結(jié)果AAMR 值

（5）小結(jié)

實驗結(jié)果發(fā)現(xiàn)，QC 矩陣評分方式在非參數(shù)方法上適用。在項目質(zhì)量高時，MDD 判別結(jié)果與seq-GDINA 模型在200 人以上時判別結(jié)果相當(dāng)。在項目質(zhì)量中等時，MDD 判別結(jié)果與seq-GDINA 模型在500 人以上時判別結(jié)果相當(dāng)。在項目質(zhì)量低時，MDD判別結(jié)果與seq-GDINA 模型方法在2000 人以上時判別結(jié)果相當(dāng)。以上結(jié)果說明，MDD 方法在QC 矩陣中完全適用，且在不同項目質(zhì)量情況下均有較好的判準率。并且在方法選用上，建議在人數(shù)少于1000人時，使用非參數(shù)MDD 方法更為合適，人數(shù)超過1000 人時，可選用參數(shù)方法。

四、研究二：兩種評分方式在QC 矩陣中的比較

1.研究目的

不同評分方式對被試的判別有著直接影響。本部分使用非參數(shù)方法MDD 比較順序評分與非順序評分在不同項目質(zhì)量、被試人數(shù)下的判準率情況，以驗證非順序評分方法的有效性。

2.實驗設(shè)計

實驗采用2×3×6 四因素混合實驗設(shè)計，自變量分別為：評分方式、項目質(zhì)量和被試人數(shù)。每個實驗條件重復(fù)進行30 次。采用PMR 和AAMR 作為評價指標。

3.實驗流程

第一步：確定QC 矩陣，本研究采用與研究一相同的QC 矩陣（詳見附錄1）。判別方法為MDD。項目質(zhì)量為利用滑動模擬方法模擬高質(zhì)量（滑動概率=0.1）、中等質(zhì)量（滑動概率=0.2）、低質(zhì)量（滑動概率=0.3）三個水平。評分方式為順序評分與非順序評分。被試人數(shù) 為100、200、300、500、1000、2000 六個水平。屬性層級結(jié)構(gòu)為獨立型。

第二步：根據(jù)屬性個數(shù)與屬性層級結(jié)構(gòu)確定所有被試可能的KS，再根據(jù)順序評分與非順序評分確定測驗QC 矩陣，兩者矩陣相乘并按步驟計分得到IRP，并在此基礎(chǔ)上模擬作答反應(yīng)數(shù)據(jù)。作答反應(yīng)數(shù)據(jù)生成的具體步驟與研究一相同。

第三步：分別使用順序評分與非順序評分方式，利用MDD 對模擬被試的ORP 進行判別，并與真值進行比較，得到兩個評價指標PMR 與AAMR。數(shù)據(jù)模擬程序和MDD 均使用自編R 語言程序?qū)崿F(xiàn)。

4.實驗結(jié)果

表4 列出了不同條件下兩種評分方式在兩種判別方法下的PMR 與AAMR 統(tǒng)計結(jié)果?？梢钥闯?，非順序評分方式判準率高于順序評分方式。

具體兩種評分方式判準率之間的對比可查看圖3、圖4。圖3 為兩種評分方式在各水平情況下的PMR，從圖中可以看出，在不同的項目質(zhì)量情況下，兩種評分方式的PMR 均有一個轉(zhuǎn)折點，但可以確定非順序評分判準率優(yōu)于順序評分，且基本不受人數(shù)影響。圖4 為各水平情況下的AAMR，大致趨勢與PMR 一致。

表4 PMR、AAMR 指標

圖3 各水平下兩種評分方式判別結(jié)果PMR 值

5.小結(jié)

上述實驗結(jié)果證明，在不同項目質(zhì)量、不同人數(shù)情況下，非順序評分均優(yōu)于順序評分；同時再次證明非參數(shù)方法基本不受人數(shù)影響，項目質(zhì)量越好，判準率越高。

綜上所述，在實際運用QC 測驗時，非參數(shù)方法十分有效，并且無論被試數(shù)量與項目質(zhì)量，非順序評分方式都可以優(yōu)先被考慮。

五、結(jié)論

圖4 各水平下兩種評分方式判別結(jié)果AAMR 值

本研究探究了非參數(shù)方法（MDD）在QC 矩陣中的適用性，并且在原有QC 矩陣評分方式之上提出了一種新的評分方式。實驗結(jié)果表明：第一，非參數(shù)方法在QC 矩陣中的判準率較高，且當(dāng)樣本量較小時非參數(shù)方法判準率比參數(shù)方法高，證明QC 矩陣評分方式在非參數(shù)方法中完全適用，且非參數(shù)方法比參數(shù)方法更適于小樣本；第二，在不同條件下，非順序評分方式均比順序評分方式擁有更高的判準率。

研究對QC 矩陣的評分方式進行探討，給應(yīng)用者提供理論支持，但依然存在一定不足。第一，對于QC 矩陣中可能存在的多策略問題的評分方式還未加以研究；第二，在實際應(yīng)用中，非順序評分方式需要評分者在評分時進行分步給分，而不是只看最終答案評分，一定程度上會增加評分者工作量，但若是可以實現(xiàn)自動評分技術(shù)，該方法可以更準確地判斷學(xué)生的知識狀態(tài)。

附錄1：QC 矩陣

項目類別 A1 A2 A3 A4 A5 項目類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 0 1 0 0 0 11 2 0 0 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 0 1 0 12 2 0 0 0 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 0 13 2 0 0 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 0 14 2 0 0 0 1 0 5 1 0 0 1 0 0 14 3 0 0 0 0 1 5 2 0 1 0 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 0 6 2 0 1 1 0 0 15 3 0 1 0 0 0 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 0 1 1 16 2 0 1 0 0 0 8 1 0 0 0 0 1 16 3 0 0 1 1 0 8 2 1 1 0 0 0 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 0 0 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 0 0 0 0 21 1 0 0 0 0 1

附錄2：順序的QC 矩陣

項目類別 A1 A2 A3 A4 A5 項目類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 1 1 0 0 0 11 2 1 1 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 1 1 0 12 2 1 1 1 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 1 13 2 1 1 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 1 14 2 1 0 1 1 0 5 1 0 0 1 0 0 14 3 1 0 1 1 1 5 2 0 1 1 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 1 6 2 1 1 1 0 0 15 3 0 1 1 1 1 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 1 1 1 16 2 1 1 0 0 0 8 1 0 0 0 0 1 16 3 1 1 1 1 0 8 2 1 1 0 0 1 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 1 1 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 1 0 1 0 21 1 0 0 0 0 1

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡