国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于項目類別的多級評分方式比較及探究

2020-07-21 00:43朱仕浩康春花洪清玉
考試研究 2020年3期
關(guān)鍵詞:滑動矩陣評分

朱仕浩 康春花 洪清玉

一、引言

認知診斷(Cognitive Diagnosis,CD)是指對個體認知過程、加工技能或知識結(jié)構(gòu)的診斷評價[1]。它能夠探討個體內(nèi)部的心理加工機制,實現(xiàn)對個體認知發(fā)展實況的診斷評估。在認知診斷評分方式上,現(xiàn)多以Q 矩陣為基礎(chǔ),實現(xiàn)以題目對錯為判別的0-1 評分,以及多級評分。與0-1 評分相比,多級評分可以提供更多的被試診斷信息,因而被廣泛使用。

現(xiàn)有多級評分的認知診斷方法大多在Q 矩陣基礎(chǔ)上架構(gòu),根據(jù)是否需要參數(shù)估計可將認知診斷方法分為參數(shù)方法和非參數(shù)方法[2]。參數(shù)方法已有研究有祝玉芳、 丁樹良開發(fā)多級評分的AHM,Templin、Henson、Rupp、Jang 和Ahmed 提出的稱名反應(yīng)診斷模型,涂冬波、蔡艷、戴海琦、丁樹良開發(fā)的多級評分PDINA 模型,Hansen 提出的等級反應(yīng)LCDM 等[3-6]。在非參數(shù)方法上, 也有Sun、Xin、Zhang 和de la Torre的拓展多級的廣義距離判別法,康春花、任平、曾平飛開發(fā)的多級評分聚類分析,楊亞坤開發(fā)的曼哈頓距 離 判 別 法 (Manhattan distance discrimina tion,MDD)等[7-9]。在這兩類方法中,參數(shù)方法可以通過參數(shù)估計獲得項目參數(shù),為進一步的測驗編制或等值提供有用信息,但需要較長時間和足夠大的樣本量,并且參數(shù)模型選擇困難[10,11]。而非參數(shù)方法作為參數(shù)方法的替代方案用于被試知識狀態(tài)的判別,擁有判準率較高、無需進行參數(shù)估計、條件假設(shè)少、受樣本量的影響較小等特點[12]。

這兩類多級評分認知診斷方法都基于Q 矩陣,并未考慮屬性與項目類別之間的關(guān)系,因而可能會丟失部分項目信息并影響診斷結(jié)果。對此,Ma 和de la Torre 在連續(xù)比鏈接函數(shù)基礎(chǔ)上對CDMs 進行拓廣,并將GDINA 模型作為加工函數(shù)(Processing Function),提出了序列加工的seq-GDINA 模型(Sequential GDINA model)。為充分挖掘項目信息,Ma 等同時定義了一種基于項目類別(item category)的屬性定義法,將傳統(tǒng)的Q 矩陣發(fā)展為基于項目類別的QC 矩陣(a category-level Q-matrix),并借以QC 矩陣提出一種基于項目類別的多級評分方法,為多級評分提供了新的視角[13,14]。其中的項目類別是指被試作答項目可能出現(xiàn)的情況,例如表1,該項目分兩個步驟,被試作答可能有3 種:全錯、答對第一步、答對兩步,所以該項目類別有3 類。與以往的Q 矩陣評分方式不同,QC 矩陣評分方式為按項目類別給分,項目過程具有有限多個步驟,每個步驟考察一些屬性,最后根據(jù)被試所處項目類別給予相對應(yīng)的分數(shù)?,F(xiàn)有QC 矩陣評分方式嚴格按步驟順序評分,即前一步正確作答是后一步的前提,而在實際應(yīng)用中,學(xué)生很可能并未掌握前一步的屬性,但后一步的屬性卻掌握了,對于這種情況該評分方式會出現(xiàn)誤判。以表1項目為例,假設(shè)某被試在作答該項目時,第一步運算結(jié)果為180÷9(正確作答應(yīng)該是180÷10),即第一步計算錯誤,而第二步的運算結(jié)果為20(正確作答是18),雖然最終答案與標準答案不同,但第二步考查的屬性該被試已經(jīng)掌握,故應(yīng)當(dāng)給分。 當(dāng)使用順序評分方式時,該被試得0 分,而如果考慮這種情況,該被試應(yīng)得1 分。綜上所述,現(xiàn)有的QC 矩陣評分方式未考慮按步驟的非順序評分情景,并且只被應(yīng)用于參數(shù)方法中,在非參數(shù)方法中的有效性并未驗證。故本文欲將QC 矩陣評分方式與非參數(shù)方法相結(jié)合,并在此基礎(chǔ)上提出一種按步驟的非順序評分方式。

表1 例題對應(yīng)的屬性

本文將在QC 矩陣框架下,開展以下兩個研究:(1)通過對參數(shù)seq-GDINA 模型與非參數(shù)MDD 在不同條件下的比較;以驗證QC 矩陣評分方式在非參數(shù)方法上的適用性。(2)利用MDD 比較順序評分與非順序評分在不同條件下的判準率情況,以驗證非順序評分方式的有效性。

二、基于項目類別的兩種評分方式介紹

QC 矩陣中順序評分的規(guī)則要求題目的前一步正確作答是后一步的基礎(chǔ),如表2,以附錄1 第15題為例,該題QC 矩陣為分三個步驟,可將被試劃為4 個類別。在順序評分的模擬研究中,為符合順序評分規(guī)則,將QC 矩陣轉(zhuǎn)化為順序的QC 矩陣(見附錄2),并在此基礎(chǔ)上進行模擬研究。模擬研究首先確定QC 矩陣,然后利用QC 矩陣和所有被試可能的知識狀態(tài) (Knowledge State,KS)矩陣相乘生成每個人在每一道題目的每個步驟上的作答情況,最后根據(jù)學(xué)生在每道題目上正確作答的步驟數(shù)給予其相應(yīng)得分,得到基于QC 矩陣的順序評分IRP(Ideal Response Pattern,IRP)。

非順序評分是為了打破QC 矩陣順序評分的限制。同樣以附錄1 第15 題為例,QC 矩陣為因為非順序評分允許項目按步驟非順序評分,故無需對QC 矩陣進行轉(zhuǎn)化便可進行模擬研究,模擬過程與順序評分相同。

表2 第15 題對應(yīng)的屬性

三、研究一:非參數(shù)方法(MDD)在QC 矩陣中的應(yīng)用

1.seq-GDINA 模型與MDD 介紹

Ma 和de la Torre 在連續(xù)比鏈接函數(shù)基礎(chǔ)上對CDMs 進行拓廣,并將GDINA 模型作為加工函數(shù),提出了序列加工的seq-GDINA 模型,該模型假設(shè)各步驟是獨立且繼時發(fā)生的事件,各事件概率相乘可得最終概率函數(shù)[15]。其表達式如下:

MDD 是楊亞坤基于曼哈頓距離建立起的一種簡單有效的認知診斷方法, 由于其不需要參數(shù)計算所以耗時極少,該方法計算公式簡單[16],其表達式如下:

其中Yi表示被試的觀察反應(yīng)模式(Observed Response Pattern,ORP),ηt表示第t 種IRP,Yij為第i個被試在項目j 上的觀察反應(yīng),為第t 種IRP 在項目j 上的理想反應(yīng)。MD(Yi,ηt)表示為第i 個被試的ORP 到第t 種IRP 的曼哈頓距離。楊亞坤從數(shù)理上證明這種方法在0-1 計分情況下與海明距離相同,也就是說海明距離是曼哈頓距離在0-1 計分情況下的特例。在對學(xué)生KS 進行判別時,MDD 通過計算學(xué)生的ORP 和IRP 之間的曼哈頓距離實現(xiàn)對學(xué)生的分類[17]。

2.seq-GDINA 模型與MDD 在QC 矩陣中的比較

(1)研究目的

本部分通過比較seq-GDINA 模型與MDD 在QC 矩陣中的判準率,探討QC 矩陣評分方式在非參數(shù)方法上的適用性,同時比較在QC 矩陣評分方式下,參數(shù)方法與非參數(shù)方法在不同條件下的判準率情況。

(2)實驗設(shè)計

實驗采用2×3×6 三因素混合實驗設(shè)計,自變量分別:判別方法、項目質(zhì)量和被試人數(shù)。每個實驗條件重復(fù)進行30 次。 采用平均屬性判準率(Average Attribute Match Ratio,AAMR)和模式判準率(Pattern Match Ration,PMR) 作為診斷準確率的評價指標,AAMR 表示所有被試認知屬性被判別正確的概率,PMR 表示被判別歸類正確掌握模式的被試個體占總?cè)藬?shù)的比率,其表達式分別為:

其中,N 表示被試數(shù)目,K 表示屬性個數(shù),Ni-correct表示第i 個被試的屬性掌握模式是否被判別準確,判別正確為1,否則為0。Nik-correct表示被試在認知屬性k 上判別正確與否,正確為1,否則為0。從公式中可以發(fā)現(xiàn),PMR 相較于AAMR 能更敏感地反映歸類準確率。

(3)實驗流程

第一步:確定QC 矩陣,本研究借鑒Ma 等使用的QC 矩陣(詳見附錄1),并將其轉(zhuǎn)化為順序評分的QC 矩陣[18]。該矩陣包含5 個屬性,21 題,拆分為步驟后一共40 個步驟,其中滿分為2 分的項目有13 個,滿分為3 分的項目有3 個,滿分為1 分的項目有5個,所有題目均為按步驟計分。本研究采用seq-GDINA模型與MDD 兩種方法,模擬被試人數(shù)100、200、300、500、1000、2000 六個水平,用以比較不同樣本量情況下參數(shù)方法與非參數(shù)方法的判準率如何變化,并利用張淑梅、包鈺、郭文海提出的滑動模擬方法模擬高質(zhì)量(滑動概率=0.1)、中質(zhì)量(滑動概率=0.2)、低質(zhì)量(滑動概率=0.3)三個水平[19]。屬性層級結(jié)構(gòu)設(shè)置為獨立型,評分方式為QC 矩陣的順序評分方式。

第二步:根據(jù)屬性個數(shù)與屬性層級結(jié)構(gòu)確定所有被試可能的KS,與QC 矩陣相乘,并按步驟累加得到IRP,再模擬作答反應(yīng)數(shù)據(jù),作答反應(yīng)數(shù)據(jù)生成的具體步驟為:首先,產(chǎn)生一個服從均勻分布U(0,1)的隨機數(shù)矩陣,維度為N*J,其中N 代表被試數(shù)量,J代表題量。由于前文指出本研究中項目質(zhì)量為高、中、低,即滑動概率為0.1、0.2、0.3,利用滑動矩陣內(nèi)每個分數(shù)的概率與對應(yīng)位置rij進行比較,根據(jù)滑動規(guī)則將不同的rij分別滑動到不同的得分,即得到模擬被試的ORP。

第三步:分別利用MDD 與seq-GDINA 模型對被試的ORP 進行判別,并與真值進行比較,得到兩個評價指標PMR 與AAMR。數(shù)據(jù)模擬程序和MDD判別通過自編R 語言程序?qū)崿F(xiàn),seq-GDINA 模型判別由自編R 語言程序調(diào)用G-DINA 包實現(xiàn)。

(4)實驗結(jié)果

表3 列出了不同條件下的PMR 與AAMR 統(tǒng)計結(jié)果??梢钥闯?,在不同實驗條件下,滑動概率越小,PMR 與AAMR 越好;非參數(shù)方法比參數(shù)方法更穩(wěn)定。

具體各判準率之間的對比可查看圖1、圖2。圖1為各水平情況下的PMR,圖中可以清晰反映出在不同的滑動概率情況下,兩種方法受滑動概率影響均較大。在相同滑動概率情況下,人數(shù)對MDD 基本沒有影響,但對seq-GDINA 影響較大,人數(shù)越多seq-GDINA 模型的判準率越高。 本文設(shè)置人數(shù)最多為2000 人,但從圖中可以看出, 即使人數(shù)達到2000人,seq-GDINA 模式判準率也與MDD 判準率差異不大。且圖中還反映了,在低滑動概率情況下,seq-GDINA 模式判準率受人數(shù)的影響較小,高滑動概率情況下,seq-GDINA 模式判準率受人數(shù)的影響較大。 圖2 為各水平情況下的AAMR, 大致趨勢與PMR 一致,可以看到AAMR 指標沒有PMR 敏感,與之前判斷一致。

表3 PMR 與AAMR 指標

圖1 各水平下兩種方法判別結(jié)果PMR 值

圖2 各水平下兩種方法判別結(jié)果AAMR 值

(5)小結(jié)

實驗結(jié)果發(fā)現(xiàn),QC 矩陣評分方式在非參數(shù)方法上適用。 在項目質(zhì)量高時,MDD 判別結(jié)果與seq-GDINA 模型在200 人以上時判別結(jié)果相當(dāng)。在項目質(zhì)量中等時,MDD 判別結(jié)果與seq-GDINA 模型在500 人以上時判別結(jié)果相當(dāng)。在項目質(zhì)量低時,MDD判別結(jié)果與seq-GDINA 模型方法在2000 人以上時判別結(jié)果相當(dāng)。以上結(jié)果說明,MDD 方法在QC 矩陣中完全適用,且在不同項目質(zhì)量情況下均有較好的判準率。并且在方法選用上,建議在人數(shù)少于1000人時,使用非參數(shù)MDD 方法更為合適,人數(shù)超過1000 人時,可選用參數(shù)方法。

四、研究二:兩種評分方式在QC 矩陣中的比較

1.研究目的

不同評分方式對被試的判別有著直接影響。本部分使用非參數(shù)方法MDD 比較順序評分與非順序評分在不同項目質(zhì)量、被試人數(shù)下的判準率情況,以驗證非順序評分方法的有效性。

2.實驗設(shè)計

實驗采用2×3×6 四因素混合實驗設(shè)計,自變量分別為:評分方式、項目質(zhì)量和被試人數(shù)。每個實驗條件重復(fù)進行30 次。采用PMR 和AAMR 作為評價指標。

3.實驗流程

第一步:確定QC 矩陣,本研究采用與研究一相同的QC 矩陣(詳見附錄1)。判別方法為MDD。項目質(zhì)量為利用滑動模擬方法模擬高質(zhì)量 (滑動概率=0.1)、中等質(zhì)量(滑動概率=0.2)、低質(zhì)量(滑動概率=0.3)三個水平。評分方式為順序評分與非順序評分。被 試 人 數(shù) 為100、200、300、500、1000、2000 六 個 水平。屬性層級結(jié)構(gòu)為獨立型。

第二步:根據(jù)屬性個數(shù)與屬性層級結(jié)構(gòu)確定所有被試可能的KS,再根據(jù)順序評分與非順序評分確定測驗QC 矩陣,兩者矩陣相乘并按步驟計分得到IRP,并在此基礎(chǔ)上模擬作答反應(yīng)數(shù)據(jù)。作答反應(yīng)數(shù)據(jù)生成的具體步驟與研究一相同。

第三步:分別使用順序評分與非順序評分方式,利用MDD 對模擬被試的ORP 進行判別,并與真值進行比較,得到兩個評價指標PMR 與AAMR。數(shù)據(jù)模擬程序和MDD 均使用自編R 語言程序?qū)崿F(xiàn)。

4.實驗結(jié)果

表4 列出了不同條件下兩種評分方式在兩種判別方法下的PMR 與AAMR 統(tǒng)計結(jié)果??梢钥闯?,非順序評分方式判準率高于順序評分方式。

具體兩種評分方式判準率之間的對比可查看圖3、圖4。圖3 為兩種評分方式在各水平情況下的PMR,從圖中可以看出,在不同的項目質(zhì)量情況下,兩種評分方式的PMR 均有一個轉(zhuǎn)折點, 但可以確定非順序評分判準率優(yōu)于順序評分,且基本不受人數(shù)影響。圖4 為各水平情況下的AAMR,大致趨勢與PMR 一致。

表4 PMR、AAMR 指標

圖3 各水平下兩種評分方式判別結(jié)果PMR 值

5.小結(jié)

上述實驗結(jié)果證明,在不同項目質(zhì)量、不同人數(shù)情況下,非順序評分均優(yōu)于順序評分;同時再次證明非參數(shù)方法基本不受人數(shù)影響,項目質(zhì)量越好,判準率越高。

綜上所述,在實際運用QC 測驗時,非參數(shù)方法十分有效,并且無論被試數(shù)量與項目質(zhì)量,非順序評分方式都可以優(yōu)先被考慮。

五、結(jié)論

圖4 各水平下兩種評分方式判別結(jié)果AAMR 值

本研究探究了非參數(shù)方法(MDD)在QC 矩陣中的適用性,并且在原有QC 矩陣評分方式之上提出了一種新的評分方式。實驗結(jié)果表明:第一,非參數(shù)方法在QC 矩陣中的判準率較高,且當(dāng)樣本量較小時非參數(shù)方法判準率比參數(shù)方法高,證明QC 矩陣評分方式在非參數(shù)方法中完全適用, 且非參數(shù)方法比參數(shù)方法更適于小樣本; 第二, 在不同條件下, 非順序評分方式均比順序評分方式擁有更高的判準率。

研究對QC 矩陣的評分方式進行探討,給應(yīng)用者提供理論支持,但依然存在一定不足。第一,對于QC 矩陣中可能存在的多策略問題的評分方式還未加以研究;第二,在實際應(yīng)用中,非順序評分方式需要評分者在評分時進行分步給分,而不是只看最終答案評分,一定程度上會增加評分者工作量,但若是可以實現(xiàn)自動評分技術(shù),該方法可以更準確地判斷學(xué)生的知識狀態(tài)。

附錄1:QC 矩陣

項目 類別 A1 A2 A3 A4 A5 項目 類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 0 1 0 0 0 11 2 0 0 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 0 1 0 12 2 0 0 0 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 0 13 2 0 0 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 0 14 2 0 0 0 1 0 5 1 0 0 1 0 0 14 3 0 0 0 0 1 5 2 0 1 0 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 0 6 2 0 1 1 0 0 15 3 0 1 0 0 0 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 0 1 1 16 2 0 1 0 0 0 8 1 0 0 0 0 1 16 3 0 0 1 1 0 8 2 1 1 0 0 0 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 0 0 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 0 0 0 0 21 1 0 0 0 0 1

附錄2:順序的QC 矩陣

項目 類別 A1 A2 A3 A4 A5 項目 類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 1 1 0 0 0 11 2 1 1 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 1 1 0 12 2 1 1 1 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 1 13 2 1 1 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 1 14 2 1 0 1 1 0 5 1 0 0 1 0 0 14 3 1 0 1 1 1 5 2 0 1 1 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 1 6 2 1 1 1 0 0 15 3 0 1 1 1 1 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 1 1 1 16 2 1 1 0 0 0 8 1 0 0 0 0 1 16 3 1 1 1 1 0 8 2 1 1 0 0 1 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 1 1 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 1 0 1 0 21 1 0 0 0 0 1

猜你喜歡
滑動矩陣評分
用于彎管機的鋼管自動上料裝置
VI-RADS評分對膀胱癌精準治療的價值
“互聯(lián)網(wǎng)+醫(yī)療健康系統(tǒng)”對腦卒中患者HAMA、HAMD、SCHFI評分及SF-36評分的影響分析
我給爸爸評分
針對移動端設(shè)計的基于滑動響應(yīng)方式的驗證碼研究
Castleman disease in the hepatic-gastric space: A case report
Big Little lies: No One Is Perfect
多項式理論在矩陣求逆中的應(yīng)用
矩陣
矩陣
措勤县| 乃东县| 曲阳县| 舟曲县| 靖边县| 新宁县| 平乡县| 元阳县| 壶关县| 武定县| 平泉县| 鄂伦春自治旗| 绥德县| 虎林市| 富阳市| 吉安县| 淮阳县| 襄城县| 江油市| 山阳县| 马公市| 廉江市| 灵璧县| 阳原县| 喜德县| 钟祥市| 额尔古纳市| 故城县| 美姑县| 平武县| 宁化县| 耿马| 德庆县| 永寿县| 灌南县| 兴安县| 乌恰县| 宁城县| 土默特右旗| 顺昌县| 铁力市|