朱仕浩 康春花 洪清玉
認知診斷(Cognitive Diagnosis,CD)是指對個體認知過程、加工技能或知識結(jié)構(gòu)的診斷評價[1]。它能夠探討個體內(nèi)部的心理加工機制,實現(xiàn)對個體認知發(fā)展實況的診斷評估。在認知診斷評分方式上,現(xiàn)多以Q 矩陣為基礎(chǔ),實現(xiàn)以題目對錯為判別的0-1 評分,以及多級評分。與0-1 評分相比,多級評分可以提供更多的被試診斷信息,因而被廣泛使用。
現(xiàn)有多級評分的認知診斷方法大多在Q 矩陣基礎(chǔ)上架構(gòu),根據(jù)是否需要參數(shù)估計可將認知診斷方法分為參數(shù)方法和非參數(shù)方法[2]。參數(shù)方法已有研究有祝玉芳、 丁樹良開發(fā)多級評分的AHM,Templin、Henson、Rupp、Jang 和Ahmed 提出的稱名反應(yīng)診斷模型,涂冬波、蔡艷、戴海琦、丁樹良開發(fā)的多級評分PDINA 模型,Hansen 提出的等級反應(yīng)LCDM 等[3-6]。在非參數(shù)方法上, 也有Sun、Xin、Zhang 和de la Torre的拓展多級的廣義距離判別法,康春花、任平、曾平飛開發(fā)的多級評分聚類分析,楊亞坤開發(fā)的曼哈頓距 離 判 別 法 (Manhattan distance discrimina tion,MDD)等[7-9]。在這兩類方法中,參數(shù)方法可以通過參數(shù)估計獲得項目參數(shù),為進一步的測驗編制或等值提供有用信息,但需要較長時間和足夠大的樣本量,并且參數(shù)模型選擇困難[10,11]。而非參數(shù)方法作為參數(shù)方法的替代方案用于被試知識狀態(tài)的判別,擁有判準率較高、無需進行參數(shù)估計、條件假設(shè)少、受樣本量的影響較小等特點[12]。
這兩類多級評分認知診斷方法都基于Q 矩陣,并未考慮屬性與項目類別之間的關(guān)系,因而可能會丟失部分項目信息并影響診斷結(jié)果。對此,Ma 和de la Torre 在連續(xù)比鏈接函數(shù)基礎(chǔ)上對CDMs 進行拓廣,并將GDINA 模型作為加工函數(shù)(Processing Function),提出了序列加工的seq-GDINA 模型(Sequential GDINA model)。為充分挖掘項目信息,Ma 等同時定義了一種基于項目類別(item category)的屬性定義法,將傳統(tǒng)的Q 矩陣發(fā)展為基于項目類別的QC 矩陣(a category-level Q-matrix),并借以QC 矩陣提出一種基于項目類別的多級評分方法,為多級評分提供了新的視角[13,14]。其中的項目類別是指被試作答項目可能出現(xiàn)的情況,例如表1,該項目分兩個步驟,被試作答可能有3 種:全錯、答對第一步、答對兩步,所以該項目類別有3 類。與以往的Q 矩陣評分方式不同,QC 矩陣評分方式為按項目類別給分,項目過程具有有限多個步驟,每個步驟考察一些屬性,最后根據(jù)被試所處項目類別給予相對應(yīng)的分數(shù)?,F(xiàn)有QC 矩陣評分方式嚴格按步驟順序評分,即前一步正確作答是后一步的前提,而在實際應(yīng)用中,學(xué)生很可能并未掌握前一步的屬性,但后一步的屬性卻掌握了,對于這種情況該評分方式會出現(xiàn)誤判。以表1項目為例,假設(shè)某被試在作答該項目時,第一步運算結(jié)果為180÷9(正確作答應(yīng)該是180÷10),即第一步計算錯誤,而第二步的運算結(jié)果為20(正確作答是18),雖然最終答案與標準答案不同,但第二步考查的屬性該被試已經(jīng)掌握,故應(yīng)當(dāng)給分。 當(dāng)使用順序評分方式時,該被試得0 分,而如果考慮這種情況,該被試應(yīng)得1 分。綜上所述,現(xiàn)有的QC 矩陣評分方式未考慮按步驟的非順序評分情景,并且只被應(yīng)用于參數(shù)方法中,在非參數(shù)方法中的有效性并未驗證。故本文欲將QC 矩陣評分方式與非參數(shù)方法相結(jié)合,并在此基礎(chǔ)上提出一種按步驟的非順序評分方式。
表1 例題對應(yīng)的屬性
本文將在QC 矩陣框架下,開展以下兩個研究:(1)通過對參數(shù)seq-GDINA 模型與非參數(shù)MDD 在不同條件下的比較;以驗證QC 矩陣評分方式在非參數(shù)方法上的適用性。(2)利用MDD 比較順序評分與非順序評分在不同條件下的判準率情況,以驗證非順序評分方式的有效性。
QC 矩陣中順序評分的規(guī)則要求題目的前一步正確作答是后一步的基礎(chǔ),如表2,以附錄1 第15題為例,該題QC 矩陣為分三個步驟,可將被試劃為4 個類別。在順序評分的模擬研究中,為符合順序評分規(guī)則,將QC 矩陣轉(zhuǎn)化為順序的QC 矩陣(見附錄2),并在此基礎(chǔ)上進行模擬研究。模擬研究首先確定QC 矩陣,然后利用QC 矩陣和所有被試可能的知識狀態(tài) (Knowledge State,KS)矩陣相乘生成每個人在每一道題目的每個步驟上的作答情況,最后根據(jù)學(xué)生在每道題目上正確作答的步驟數(shù)給予其相應(yīng)得分,得到基于QC 矩陣的順序評分IRP(Ideal Response Pattern,IRP)。
非順序評分是為了打破QC 矩陣順序評分的限制。同樣以附錄1 第15 題為例,QC 矩陣為因為非順序評分允許項目按步驟非順序評分,故無需對QC 矩陣進行轉(zhuǎn)化便可進行模擬研究,模擬過程與順序評分相同。
表2 第15 題對應(yīng)的屬性
Ma 和de la Torre 在連續(xù)比鏈接函數(shù)基礎(chǔ)上對CDMs 進行拓廣,并將GDINA 模型作為加工函數(shù),提出了序列加工的seq-GDINA 模型,該模型假設(shè)各步驟是獨立且繼時發(fā)生的事件,各事件概率相乘可得最終概率函數(shù)[15]。其表達式如下:
MDD 是楊亞坤基于曼哈頓距離建立起的一種簡單有效的認知診斷方法, 由于其不需要參數(shù)計算所以耗時極少,該方法計算公式簡單[16],其表達式如下:
其中Yi表示被試的觀察反應(yīng)模式(Observed Response Pattern,ORP),ηt表示第t 種IRP,Yij為第i個被試在項目j 上的觀察反應(yīng),為第t 種IRP 在項目j 上的理想反應(yīng)。MD(Yi,ηt)表示為第i 個被試的ORP 到第t 種IRP 的曼哈頓距離。楊亞坤從數(shù)理上證明這種方法在0-1 計分情況下與海明距離相同,也就是說海明距離是曼哈頓距離在0-1 計分情況下的特例。在對學(xué)生KS 進行判別時,MDD 通過計算學(xué)生的ORP 和IRP 之間的曼哈頓距離實現(xiàn)對學(xué)生的分類[17]。
(1)研究目的
本部分通過比較seq-GDINA 模型與MDD 在QC 矩陣中的判準率,探討QC 矩陣評分方式在非參數(shù)方法上的適用性,同時比較在QC 矩陣評分方式下,參數(shù)方法與非參數(shù)方法在不同條件下的判準率情況。
(2)實驗設(shè)計
實驗采用2×3×6 三因素混合實驗設(shè)計,自變量分別:判別方法、項目質(zhì)量和被試人數(shù)。每個實驗條件重復(fù)進行30 次。 采用平均屬性判準率(Average Attribute Match Ratio,AAMR)和模式判準率(Pattern Match Ration,PMR) 作為診斷準確率的評價指標,AAMR 表示所有被試認知屬性被判別正確的概率,PMR 表示被判別歸類正確掌握模式的被試個體占總?cè)藬?shù)的比率,其表達式分別為:
其中,N 表示被試數(shù)目,K 表示屬性個數(shù),Ni-correct表示第i 個被試的屬性掌握模式是否被判別準確,判別正確為1,否則為0。Nik-correct表示被試在認知屬性k 上判別正確與否,正確為1,否則為0。從公式中可以發(fā)現(xiàn),PMR 相較于AAMR 能更敏感地反映歸類準確率。
(3)實驗流程
第一步:確定QC 矩陣,本研究借鑒Ma 等使用的QC 矩陣(詳見附錄1),并將其轉(zhuǎn)化為順序評分的QC 矩陣[18]。該矩陣包含5 個屬性,21 題,拆分為步驟后一共40 個步驟,其中滿分為2 分的項目有13 個,滿分為3 分的項目有3 個,滿分為1 分的項目有5個,所有題目均為按步驟計分。本研究采用seq-GDINA模型與MDD 兩種方法,模擬被試人數(shù)100、200、300、500、1000、2000 六個水平,用以比較不同樣本量情況下參數(shù)方法與非參數(shù)方法的判準率如何變化,并利用張淑梅、包鈺、郭文海提出的滑動模擬方法模擬高質(zhì)量(滑動概率=0.1)、中質(zhì)量(滑動概率=0.2)、低質(zhì)量(滑動概率=0.3)三個水平[19]。屬性層級結(jié)構(gòu)設(shè)置為獨立型,評分方式為QC 矩陣的順序評分方式。
第二步:根據(jù)屬性個數(shù)與屬性層級結(jié)構(gòu)確定所有被試可能的KS,與QC 矩陣相乘,并按步驟累加得到IRP,再模擬作答反應(yīng)數(shù)據(jù),作答反應(yīng)數(shù)據(jù)生成的具體步驟為:首先,產(chǎn)生一個服從均勻分布U(0,1)的隨機數(shù)矩陣,維度為N*J,其中N 代表被試數(shù)量,J代表題量。由于前文指出本研究中項目質(zhì)量為高、中、低,即滑動概率為0.1、0.2、0.3,利用滑動矩陣內(nèi)每個分數(shù)的概率與對應(yīng)位置rij進行比較,根據(jù)滑動規(guī)則將不同的rij分別滑動到不同的得分,即得到模擬被試的ORP。
第三步:分別利用MDD 與seq-GDINA 模型對被試的ORP 進行判別,并與真值進行比較,得到兩個評價指標PMR 與AAMR。數(shù)據(jù)模擬程序和MDD判別通過自編R 語言程序?qū)崿F(xiàn),seq-GDINA 模型判別由自編R 語言程序調(diào)用G-DINA 包實現(xiàn)。
(4)實驗結(jié)果
表3 列出了不同條件下的PMR 與AAMR 統(tǒng)計結(jié)果??梢钥闯?,在不同實驗條件下,滑動概率越小,PMR 與AAMR 越好;非參數(shù)方法比參數(shù)方法更穩(wěn)定。
具體各判準率之間的對比可查看圖1、圖2。圖1為各水平情況下的PMR,圖中可以清晰反映出在不同的滑動概率情況下,兩種方法受滑動概率影響均較大。在相同滑動概率情況下,人數(shù)對MDD 基本沒有影響,但對seq-GDINA 影響較大,人數(shù)越多seq-GDINA 模型的判準率越高。 本文設(shè)置人數(shù)最多為2000 人,但從圖中可以看出, 即使人數(shù)達到2000人,seq-GDINA 模式判準率也與MDD 判準率差異不大。且圖中還反映了,在低滑動概率情況下,seq-GDINA 模式判準率受人數(shù)的影響較小,高滑動概率情況下,seq-GDINA 模式判準率受人數(shù)的影響較大。 圖2 為各水平情況下的AAMR, 大致趨勢與PMR 一致,可以看到AAMR 指標沒有PMR 敏感,與之前判斷一致。
表3 PMR 與AAMR 指標
圖1 各水平下兩種方法判別結(jié)果PMR 值
圖2 各水平下兩種方法判別結(jié)果AAMR 值
(5)小結(jié)
實驗結(jié)果發(fā)現(xiàn),QC 矩陣評分方式在非參數(shù)方法上適用。 在項目質(zhì)量高時,MDD 判別結(jié)果與seq-GDINA 模型在200 人以上時判別結(jié)果相當(dāng)。在項目質(zhì)量中等時,MDD 判別結(jié)果與seq-GDINA 模型在500 人以上時判別結(jié)果相當(dāng)。在項目質(zhì)量低時,MDD判別結(jié)果與seq-GDINA 模型方法在2000 人以上時判別結(jié)果相當(dāng)。以上結(jié)果說明,MDD 方法在QC 矩陣中完全適用,且在不同項目質(zhì)量情況下均有較好的判準率。并且在方法選用上,建議在人數(shù)少于1000人時,使用非參數(shù)MDD 方法更為合適,人數(shù)超過1000 人時,可選用參數(shù)方法。
不同評分方式對被試的判別有著直接影響。本部分使用非參數(shù)方法MDD 比較順序評分與非順序評分在不同項目質(zhì)量、被試人數(shù)下的判準率情況,以驗證非順序評分方法的有效性。
實驗采用2×3×6 四因素混合實驗設(shè)計,自變量分別為:評分方式、項目質(zhì)量和被試人數(shù)。每個實驗條件重復(fù)進行30 次。采用PMR 和AAMR 作為評價指標。
第一步:確定QC 矩陣,本研究采用與研究一相同的QC 矩陣(詳見附錄1)。判別方法為MDD。項目質(zhì)量為利用滑動模擬方法模擬高質(zhì)量 (滑動概率=0.1)、中等質(zhì)量(滑動概率=0.2)、低質(zhì)量(滑動概率=0.3)三個水平。評分方式為順序評分與非順序評分。被 試 人 數(shù) 為100、200、300、500、1000、2000 六 個 水平。屬性層級結(jié)構(gòu)為獨立型。
第二步:根據(jù)屬性個數(shù)與屬性層級結(jié)構(gòu)確定所有被試可能的KS,再根據(jù)順序評分與非順序評分確定測驗QC 矩陣,兩者矩陣相乘并按步驟計分得到IRP,并在此基礎(chǔ)上模擬作答反應(yīng)數(shù)據(jù)。作答反應(yīng)數(shù)據(jù)生成的具體步驟與研究一相同。
第三步:分別使用順序評分與非順序評分方式,利用MDD 對模擬被試的ORP 進行判別,并與真值進行比較,得到兩個評價指標PMR 與AAMR。數(shù)據(jù)模擬程序和MDD 均使用自編R 語言程序?qū)崿F(xiàn)。
表4 列出了不同條件下兩種評分方式在兩種判別方法下的PMR 與AAMR 統(tǒng)計結(jié)果??梢钥闯?,非順序評分方式判準率高于順序評分方式。
具體兩種評分方式判準率之間的對比可查看圖3、圖4。圖3 為兩種評分方式在各水平情況下的PMR,從圖中可以看出,在不同的項目質(zhì)量情況下,兩種評分方式的PMR 均有一個轉(zhuǎn)折點, 但可以確定非順序評分判準率優(yōu)于順序評分,且基本不受人數(shù)影響。圖4 為各水平情況下的AAMR,大致趨勢與PMR 一致。
表4 PMR、AAMR 指標
圖3 各水平下兩種評分方式判別結(jié)果PMR 值
上述實驗結(jié)果證明,在不同項目質(zhì)量、不同人數(shù)情況下,非順序評分均優(yōu)于順序評分;同時再次證明非參數(shù)方法基本不受人數(shù)影響,項目質(zhì)量越好,判準率越高。
綜上所述,在實際運用QC 測驗時,非參數(shù)方法十分有效,并且無論被試數(shù)量與項目質(zhì)量,非順序評分方式都可以優(yōu)先被考慮。
圖4 各水平下兩種評分方式判別結(jié)果AAMR 值
本研究探究了非參數(shù)方法(MDD)在QC 矩陣中的適用性,并且在原有QC 矩陣評分方式之上提出了一種新的評分方式。實驗結(jié)果表明:第一,非參數(shù)方法在QC 矩陣中的判準率較高,且當(dāng)樣本量較小時非參數(shù)方法判準率比參數(shù)方法高,證明QC 矩陣評分方式在非參數(shù)方法中完全適用, 且非參數(shù)方法比參數(shù)方法更適于小樣本; 第二, 在不同條件下, 非順序評分方式均比順序評分方式擁有更高的判準率。
研究對QC 矩陣的評分方式進行探討,給應(yīng)用者提供理論支持,但依然存在一定不足。第一,對于QC 矩陣中可能存在的多策略問題的評分方式還未加以研究;第二,在實際應(yīng)用中,非順序評分方式需要評分者在評分時進行分步給分,而不是只看最終答案評分,一定程度上會增加評分者工作量,但若是可以實現(xiàn)自動評分技術(shù),該方法可以更準確地判斷學(xué)生的知識狀態(tài)。
附錄1:QC 矩陣
項目 類別 A1 A2 A3 A4 A5 項目 類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 0 1 0 0 0 11 2 0 0 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 0 1 0 12 2 0 0 0 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 0 13 2 0 0 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 0 14 2 0 0 0 1 0 5 1 0 0 1 0 0 14 3 0 0 0 0 1 5 2 0 1 0 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 0 6 2 0 1 1 0 0 15 3 0 1 0 0 0 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 0 1 1 16 2 0 1 0 0 0 8 1 0 0 0 0 1 16 3 0 0 1 1 0 8 2 1 1 0 0 0 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 0 0 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 0 0 0 0 21 1 0 0 0 0 1
附錄2:順序的QC 矩陣
項目 類別 A1 A2 A3 A4 A5 項目 類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 1 1 0 0 0 11 2 1 1 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 1 1 0 12 2 1 1 1 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 1 13 2 1 1 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 1 14 2 1 0 1 1 0 5 1 0 0 1 0 0 14 3 1 0 1 1 1 5 2 0 1 1 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 1 6 2 1 1 1 0 0 15 3 0 1 1 1 1 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 1 1 1 16 2 1 1 0 0 0 8 1 0 0 0 0 1 16 3 1 1 1 1 0 8 2 1 1 0 0 1 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 1 1 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 1 0 1 0 21 1 0 0 0 0 1